1
B GIÁO DỤC VÀ ĐÀO TẠO
VIN HÀN LÂM
KHOA HC VÀ CÔNG NGH VIT NAM
HC VIN KHOA HC VÀ CÔNG NGH
……..….***…………
HÀ ĐẠI TÔN
PHÂN TÍCH CU TRÚC HÌNH HC TRANG NH
TÀI LIU DA TRÊN PHƯƠNG PHÁP NGƯỠNG
THÍCH NGHI
Chuyên ngành: C s Toán hc cho Tin hc
Mã s: 62 46 01 10
LUN ÁN TIẾN SĨ TOÁN HỌC
HÀ NI - 2018
2
Công trình được hoàn thành ti: Hc vin Khoa hc và Công ngh -
Vin Hàn lâm Khoa hc và Công ngh Vit Nam
Người hướng dn khoa hc: TS. Nguyễn Đức Dũng
Phn bin 1:
Phn bin 2:
Phn bin 3: ….
Lun án s đưc bo v trước Hội đồng chm lun án tiến sĩ, họp ti Hc vin Khoa
hc Công ngh - Vin Hàn lâm Khoa hc Công ngh Vit Nam vào hi
gi ..’, ngày tháng năm 201….
Có th tìm hiu lun án ti:
- Thư viện Hc vin Khoa hc và Công ngh
- Thư viện Quc gia Vit Nam
3
M ĐẦU
Nhn dạng văn bản là một lĩnh vực đã được quan tâm nghiên cu và ng dng trong nhiu
năm nay. Quá trình nhn dạng văn bản được thc hiện qua các bước chính như sau: Trang nh
đầu vào s qua bước tin x lý, sau đó bước phân tích trang, kết qu đu ra ca phân tích trang
s là đầu vào của bước nhn dng, cuối cùng là bưc hu x lý. Kết qu ca mt h thng nhn
dng ph thuộc chính vào hai c: phân tích trang nhn dạng. Đến thời điểm này, bài toán
nhn dạng trên các văn bn ch in đã được gii quyết gần như trọn vn (sn phẩm thương mại
FineReader 12.0 ca hãng ABBYY th nhn dng ch in trên nhiu ngôn ng khác nhau, phn
mm nhn dng ch Vit in VnDOCR 4.0 ca Vin Công ngh Thông Tin Ni th nhn
dng với độ chính xác trên 98%). Tuy nhiên trên thế giới cũng như Vit Nam, bài toán phân
tích trang vn còn là mt thách thc lớn đi vi các nhà nghiên cứu. Cho đến này phân ch trang
vẫn đang nhận được s quan tâm ca nhiu nhà nghiên cu. C hai năm một ln trên thế gii li
cuc thi phân tích trang quc tế nhằm thúc đẩy s phát trin các thut toán phân ch trang.
Chính những điều này đã động lực thúc đẩy lun án c gng nghiên cứu để đề xut các gii
pháp hu hiu cho bài toán phân tích trang.ThutTrong những năm gần đây đã rất nhiu các
thuật toán phân tích trang đưc phát triển, đặc bit các thut toán phát triển theo hướng tiếp
cn li ghép (hybrid). Các thuật toán được đề xuất đều th hin những điểm mạnh, điểm yếu khác
nhau, nhưng nhìn chung hầu hết vn mc phi hai lỗi cơ bn là: li phân tách mt vùng ch đúng
ra thành các vùng ch nh hơn làm sai hoặc mt thông tin ca các dòng ch hay đoạn văn bn
(over-segmentation), li gp các vùng ch các cột văn bản hay các đoạn văn bản li vi nhau
(under-segmentation). Vì vy mc tiêu ca lun án là nghiên cu phát trin các thut toán phân
tích trang giảm đồng thi c hai kiu li: over-segmentation, under-segmentation. Các vấn đề
trong phân tích trang rt rng vì vy lun án gii hn phm vi nghiên cu trong khuôn kh các
trang nh văn bản được son tho bng ngôn ng Latin c th Tiếng Anh tp trung vào phân
tích các vùng ch. Luận án chưa đề xuất đến vấn đề phát hin phân tích cu trúc ca các vùng
bng, phát hin các vùng nh phân tích cu trúc logic. Vi nhng mục tiêu đặt ra luận án đã
đạt được mt s kết qu sau:
1. Đề xut mt giải pháp làm tăng tốc thut toán phát hin nn trang nh.
2. Đề xut phương pháp tham s thích nghi làm gim s ảnh hưởng ca kích c kiu
phông ch đến kết qu phân tích trang.
3. Đề xut mt gii pháp mi cho vấn đề phát hin s dụng các đối tượng phân tách trong
các thut toán phân tích trang.
4. Đề xut mt gii pháp mi tách các vùng ch thành các đoạn văn bản da trên phân tích
ng cnh.
4
CHƯƠNG 1. TỔNG QUAN V PHÂN TÍCH TRANG NH TÀI LIU
Trong chương này, tôi trình bày tng quan h thng nhn dạng văn bản, bài toán phân tích
trang, các thut toán phân tích trang tiêu biu, nhng lỗi cơ bn nht ca các thut toán phân tích
trang. T đó dẫn đến mc tiêu nghiên cu và nhng kết qu đạt được ca lun án này.
1.1. Các thành phn chính ca h thng nhn dạng văn bản
V bản, mt h thng nhn dạng văn bản thường được thc hiện qua các bước bản
như được mô t hình 1. Nhng thông tin dạng văn bản như sách, báo, tp chí, ... sau quá trình
scan s cho ta kết qu là các file nh văn bản. Nhng file nh này s đầu vào ca mt h thng
nhn dng, kết qu đầu ra ca h thng nhn dng là nhng file văn bản có th d dàng chính sa
lưu trữ, d như file *.doc, *.docx, *.excel, *.pdf, ... Lun án ch tp trung vào nghiên cu
ớc phân tích trang, trong đó trọng tp là phân tích cu trúc hình hc ca trang nh.
Hình 1: Minh họa các bước x lý c bn ca mt h thng nhn dạng văn bản.
1.1.1. Tin x
Nhim v ca quá trình tin x trang ảnh thông thưng nh phân hóa, xác định các
thành phn liên thông nh, lc nhiễu, căn trình độ nghiêng. Kết qu đầu ra của bước tin x s
đầu vào của qtrình phân tích trang. Do đó, kết qu ca quá trình tin x ng s nhng
ảnh hưởng đáng kể đến kết qu phân tích trang.
1.1.2. Phân tích trang nh tài liu
Phân tích trang nh tài liu (document layout analysis) là mt trong nhng thành phn chính
ca các h thng nhn dạng văn bn (OCR - System). Ngoài ra nó còn đưc ng dng rng i
trong các lĩnh vc khác ca tin hc d như số hóa tài liu, nhp liu t động, th giác máy
tính,... Nhim v ca phân tích trang bao gm vic t động phát hin nhng vùng nh trên
mt trang nh tài liu (cu trúc vt lý) phân loi chúng thành nhng vùng d liu khác nhau
như vùng chữ, nh, bng biu, header, footer... (cu trúc logic). Kết qu phân tích trang được s
dụng như một thông tin đu vào cho quá trình nhn dng và nhp liu t động ca các h thng
xnh tài liu (document imaging).
1.1.3. Nhn dng kí t quang hc
Đây là giái đoạn quan trng nhất, giái đoạn này quyết định độ chính xác ca h thng nhn
dng. nhiều phương pháp phân lớp khác nhau được áp dng cho các h thng nhn dng ch,
d như: phương pháp đối sánh, phương pháp tiếp cn trc tiếp, phương pháp ng pháp, phương
pháp đồ th, mng nơ ron, phương pháp thống kê, máy véc tơ tựa (SVM).
1.1.4. Hu x
Đây công đoạn cui cùng ca quá trình nhn dng. Có th hu x bước ghép ni các
t đã nhận dng thành các từ, các câu, các đoạn văn bn nhm tái hin lại văn bản đồng thi
phát hin ra các li nhn dng sai bng cách kim tra chính t da trên cu trúc ng nghĩa của
các t, các câu hoặc các đoạn văn bản. Vic phát hin ra các li, các sai sót trong nhn dng
c này góp phần đáng kể vào vic nâng cao chất lượng nhn dng.
1.2. Các thut toán phân tích cu trúc hình hc (phân tách) trang tiêu biu
Qua hàng chục năm phát triển cho đến nay đã có rất nhiu các thut toán phân tích trang đã
đưc công b. Da trên th t thc hin ca các thut toán, các thut toán phân tách trang nh
tài liu có th được chia thành ba ng tiếp cn khác nhau: t trên xung (top-down), t i
lên (bottom-up) và các phương pháp lai ghép (hybrid).
5
1.2.1 Hướng tiếp cn t trên xung (top-down)
Các thut toán top-down tiêu biểu như: X-Y Cut, WhiteSpace,... Các thuật toán theo hướng
tiếp cn này thc hin phân tích trang bằng cách chia đệ quy trang ảnh văn bản theo các phương
ngang hoặc phương thẳng đứng dc theo các khong trng trong trang. Nhng khong trng này
thưng dc theo biên ca các cột văn bn (column) hoc biên của các đoạn ảnh văn bn
(paragraph). Đim mnh ca các thuật toán này là độ phc tp tính toán thp, cho kết qu phân
tách tt trên nhng trang nh cu trúc hình ch nht (rectangle) tc các trang nh các
vùng nh th đưc bao quanh bi các hình ch nht không giáo nhao. Tuy nhiên, chúng không
th x lý được nhng trang vùng nh không phi là hình ch nht (non-rectangular).
1.2.2. Hướng tiếp cn t i lên (bottom-up)
Các thut toán bottom-up tiêu biểu như: Smearing, Docstrum, Voronoi,... Các thut toán
theo hướng tiếp cn này bắt đầu vi các vùng nh ca nh (các pixel đim nh hoc các kí t)
lần lượt nhóm các vùng nh cùng kiu li với nhau đ hình thành nên các vùng ảnh. Điểm
mnh của hướng tiếp cn này là các thut toán có th x lý tt nhng trang nh vi cu trúc bt
(rectangle hoc non-rectangle). Đim yếu ca các thut toán bottom-up tn b nh, chm,
do các vùng nh đưc gp li vi nhau da trên nhng tham s khoảng cách mà thông thưng
các tham s này được ước lượng trên toàn trang nh nên các thuật toán này thưng quá nhy cm
vi giá tr tham s mc li chia quá nh (over-segmentation) các vùng ảnh văn bản, đặc bit
là các vùng ch có s khác bit v kích c và kiu phông.
1.2.3. Hướng tiếp cn lai ghép (hybrid)
T nhng phân tích trên cho thấy ưu điểm của hướng tiếp cn bottom-up nhược điểm ca
ng tiếp cn Top-down ngược lại. Do đó, trong những năm gần đầy đã nhiều các thut
toán phát triển theo hướng lai ghép gia top-down bottom-up, mt trong các thut toán tiêu
biểu như: RAST , Tab-Stop , PAL ,... Các thut toán phát triển theo hướng này thường da trên
các đối tượng phân tách d như, các vùng trắng hình ch nht, các tab-stop, ... đ suy ra cu
trúc các cột văn bn. T đó các vùng ảnh được xác định bằng phương pháp bottom-up. Các kết
qu đánh giá đã cho thấy các thuật toán lai ghép đã khc phục được phn nào hn chế ca các
thut toán top-down bottom-up, đó là thể thc hin trên nhng trang nh vi cu trúc bt
kì và ít hn chế hơn vào các tham số khong cách. Tuy nhiên, việc xác định các đối tượng phân
tách li mt bài toán gp phi rt nhiu khó khn bi nhiu do, d như những vùng
ch quá gn nhau, các vùng ch được căn l, trái phi không thng hàng hoc khong cách
gia các thành phn liên thông quá lớn,... điều này đã làm cho các thuật toán hin tại thường
mc phi các li quên hoặc xác đnh nhm các đường phn tách dẫn đến kết qu phân tách li.
1.3. Các phương pháp và các tập d liệu đánh giá các thuật toán phân tách trang nh
tài liu
1.3.1. Độ đo
Đánh giá các thuật toán phân tích trang nh tài liu luôn mt vấn đề phc tp ph
thuc nhiu vào tp d liu, ground-truth và phương pháp đánh giá. Vấn đề đánh giá chất lượng
ca các thuật toán phân tích trang đã nhận được nhiu s quan tâm. Trong lun án này s dng
ba đô đo: F-Measure, PSET-Measure và PRImA- Measure cho tất các đánh giá thực nghiệm. Độ
đo PRImA-Measure đã được s dng thành công ti các cuc thi phân tích trang quc tế các
năm 2009, 2011, 2013, 2015 và 2017.
1.3.2. D liu
Trong lun án này, tôi s dng ba tp d liu UW-III, tp d liu PRImA tp d liu
UNLV để đánh giá thc nghim và so sánh các thut toán phân tích trang nh tài liu. Tp UW-
III 1600 nh, tp PRImA 305 nh tp UNLV có 2000 nh. Các tp d liệu này đều
ground-truth cấp độ đoạn văn bản cấp độ dòng chữ, được biu din bởi các đa giác không
giáo nhau. Các trang ảnh đều được quét với độ phân giải 300 DPI đã được căn trỉnh lại độ