
Lời cam đoan
Tôi xin cam đoan luận án tiến sĩ "Phân tích cấu trúc hình học trang ảnh tài
liệu dựa trên phương pháp ngưỡng thích nghi" là một công trình nghiên cứu của
riêng tôi. Các số liệu và tài liệu trong luận án là trung thực và chưa được công bố trong
bất kì công trình nghiên cứu nào. Tất cả các tài liệu tham khảo đều được trích dẫn và
tham chiếu đầy đủ.
Hà Nội, ngày 08 tháng 02 năm 2018
Tác giả luận án
i

Lời cảm ơn
Luận án Tiến sĩ được hoàn thiện bằng sự nỗ lực và nghiêm túc của tôi trong quá
trình nghiên cứu, quá trình luôn được sự hỗ trợ, giúp đỡ tận tình của Thầy giáo hướng
dẫn khoa học, Ban lãnh đạo Học viện Khoa học và Công nghệ, Ban lãnh đạo Trường
THPT Chuyên Hạ Long - Quảng Ninh, các đồng nghiệp, các chuyên gia và các nhà khoa
học, bạn bè và những người thân trong gia đình tôi.
Trước tiên, xin trân trọng cảm ơn Thầy giáo hướng dẫn khoa học đã luôn dành sự
nhiệt tình, ân cần, chỉ bảo và định hướng cho tôi trên con đường nghiên cứu khoa học
từ ngày đầu học tập và quá trình nghiên cứu trong những năm qua.
Chân thành cảm ơn Học viện Khoa học và Công nghệ - Viện Hàn Lâm Khoa học và
Công Nghệ Việt Nam đã ủng hộ, giúp đỡ tôi trong quá trình học tập và nghiên cứu.
Đặc biệt, tôi xin dành tặng tình cảm và sự biết ơn cao quý đến bạn bè và các thành
viên trong gia đình:Bố, mẹ, anh chị, vợ và hai con yêu quý đã chấp nhận nhiều hy sinh
vất vả, luôn sát cánh cùng tôi trong cuộc sống, quá trình học tập nghiên cứu để tôi có
được thành công này.
ii

Mục lục
Lời cam đoan i
Lời cảm ơn ii
Danh mục các hình vẽ vi
Lời mở đầu xi
Chương 1. Tổng quan về phân tích cấu trúc hình học trang ảnh tài liệu 1
1.1 Các thành phần chính của hệ thống nhận dạng văn bản .......... 1
1.1.1 Tiền xử lý ............................... 1
1.1.1.1 Nhị phân hóa ........................ 2
1.1.1.2 Phát hiện và phân loại các thành phần liên thông .... 3
1.1.1.3 Lọc nhiễu .......................... 4
1.1.1.4 Căn chỉnh độ nghiêng ................... 4
1.1.2 Phân tích trang ảnh tài liệu ..................... 5
1.1.3 Nhận dạng kí tự quang học ..................... 7
1.1.4 Hậu xử lý ............................... 8
1.2 Các thuật toán phân tích cấu trúc hình học (phân tách) trang ảnh tài liệu
tiêu biểu .................................... 9
1.2.1 Hướng tiếp cận từ trên xuống .................... 9
1.2.2 Hướng tiếp cận từ dưới lên ...................... 9
1.2.3 Hướng tiếp cận lai ghép ....................... 11
1.2.4 Các thuật toán tiêu biểu ....................... 12
1.3 Các phương pháp và các tập dữ liệu đánh giá các thuật toán phân tách
trang ảnh tài liệu ............................... 15
1.3.1 Độ đo F-Measure ........................... 16
1.3.2 Độ đo PSET ............................. 16
1.3.3 Độ đo PRImA ............................. 18
1.3.4 Dữ liệu ................................. 23
1.4 Vấn đề nghiên cứu, hướng tiếp cận và những đóng góp của luận án . . . 26
1.5 Kết luận chương ............................... 27
iii

Chương 2. Thuật toán nhanh phát hiện nền trang ảnh tài liệu 28
2.1 Phân tách trang ảnh tài liệu dựa trên nền trang ảnh ........... 28
2.2 Bài toán phát hiện nền trang ảnh ...................... 29
2.2.1 Định nghĩa vùng trắng lớn nhất ................... 29
2.2.2 Thuật toán tìm vùng trắng lớn nhất ................ 32
2.2.3 Thuật toán phát hiện nền trang ảnh ................ 34
2.3 Tăng tốc thuật toán phát hiện nền trang ảnh ............... 34
2.4 Thuật toán WhiteSpace và Fast-WhiteSpace ................ 36
2.4.1 Thuật toán WhiteSpace ....................... 36
2.4.2 Thuật toán Fast-WhiteSpace ..................... 37
2.5 Thực nghiệm và thảo luận .......................... 38
2.6 Kết luận chương ............................... 39
Chương 3. Thuật toán phân tách trang ảnh tài liệu HP2S và AOSM 42
3.1 Mô hình phân tách trang của hai thuật toán HP2S và AOSM ...... 42
3.2 Thuật toán HP2S ............................... 44
3.2.1 Phát hiện các đường phân tách ................... 44
3.2.2 Xác định các dòng chữ ........................ 45
3.2.3 Gom cụm các dòng chữ thành các vùng chữ ............ 50
3.3 Thuật toán AOSM .............................. 52
3.3.1 Xác định các vùng chữ ứng cử viên ................. 52
3.3.1.1 Phát hiện các đối tượng phân tách ............ 52
3.3.1.2 Xác định biên của mỗi vùng chữ ứng cử viên ...... 56
3.3.1.3 Gom các kí tự thành các dòng chữ ứng cử viên ..... 58
3.3.2 Gom cụm các vùng chữ bị "tách quá" ................ 59
3.3.2.1 Hạn chế của các phương pháp truyền thống ....... 60
3.3.2.2 Phương pháp ngưỡng thích nghi .............. 63
3.4 Thuật toán Fast-AOSM ........................... 65
3.5 Xác định các đoạn văn bản .......................... 67
3.5.1 Định nghĩa các dòng chữ phân tách ................. 67
3.5.2 Tách các vùng chữ thuần nhất thành các đoạn văn bản ...... 68
3.6 Thực nghiệm và thảo luận .......................... 70
3.6.1 Các thuật toán, tập dữ liệu và độ đo ................ 70
3.6.2 Các kết quả thực nghiệm và thảo luận ............... 72
3.7 Kết luận chương ............................... 82
Kết luận và hướng phát triển 85
Danh mục các công trình đã công bố của tác giả 88
iv


