Luận văn tt nghip cao hc Hc viên: Nguyễn Văn Huy
S hóa bi Trung tâm Hc liu Đại hc Thái Nguyên http://www.lrc-tnu.edu.vn
i GVHD: PGS. TS. Ngô Quc To
Mục lục
Mc lc ........................................................................................................................ i
Danh mc các hình nh .............................................................................................. iv
M ĐẦU .................................................................................................................... 1
I. Đặt vấn đề ........................................................................................................ 1
II. Ni dung nghiên cu ....................................................................................... 2
III. B cc ca luận văn ....................................................................................... 4
Chƣơng I. TNG QUAN V NHN DNG CH VIT ........................................... 5
VÀ PHÂN TÍCH TRANG TÀI LIU ......................................................................... 5
I.1. nh tài liu và nhn dng nh tài liu ............................................................ 5
I.1.1. Tng quan v nh tài liu ........................................................................ 5
I.1.2. Nhn dng tài liu và vai trò ca phân tích nh tài liu ........................... 6
I.2. Cu trúc ca nh tài liu ................................................................................ 7
I.2.1. Cu trúc vt lý ........................................................................................ 8
I.2.2. Cu trúc logic ....................................................................................... 10
I.3. Quá trình phân tích tài liu .......................................................................... 10
I.3.1. Tin x lý(preprocessing): .................................................................... 11
I.3.2. Phân tích cu trúc vt lý ........................................................................ 12
I.3.3. Phân tích cu trúc logic ......................................................................... 13
I.4. Mt s h thng phân tích tài liu hin nay .................................................. 14
I.4.1. VnDOCR .............................................................................................. 14
I.4.2. OminiPage ............................................................................................ 18
I.4.3. Finereader ............................................................................................. 20
I.5. Kết lun ....................................................................................................... 22
Chƣơng II: CÁC PHƢƠNG PHÁP TIP CN ......................................................... 23
ĐỂ PHÂN TÍCH TRANG TÀI LIU ........................................................................ 23
II.1. Các phƣơng pháp phân tích định dng trang tài liu ................................... 23
II.1.1. Top-down ............................................................................................ 23
Luận văn tt nghip cao hc Hc viên: Nguyễn Văn Huy
S hóa bi Trung tâm Hc liu Đại hc Thái Nguyên http://www.lrc-tnu.edu.vn
ii GVHD: PGS. TS. Ngô Quc To
II.1.2. Bottom-up ........................................................................................... 30
II.1.3. Phƣơng pháp Tách và Ni thích nghi (Adaptive Split and Merge) . 32
II.1.4. Fractal Signature (FS).......................................................................... 34
II.2. La chn gii pháp ..................................................................................... 38
II.3. Thiết kế h thng........................................................................................ 39
II.3.1. Sơ đ khi ........................................................................................... 39
II.3.2. Ảnh đầu vào ........................................................................................ 39
II.3.3. Module Tin x ............................................................................... 40
II.3.4. Phân tích s dng gi pháp Fractal Signature ...................................... 41
II.4. Kết lun ..................................................................................................... 45
Chƣơng III: XÂY DNG CHƢƠNG TRÌNH TH NGHIM .................................. 46
III.1. Yêu cu h thng ..................................................................................... 46
III.2. Thiết kế chƣơng trình ................................................................................ 46
III.2.1. Cu trúc d liu .................................................................................. 46
III.2.2. Module chun hóa nh ....................................................................... 48
III.2.3. Module giao din chính ...................................................................... 51
III.2.4. Module phân tích Top-down (TD) ...................................................... 52
III.2.5. Module phân tích Fractal Signature .................................................... 55
III.2.6. Module lc và làm trơn nhiu ............................................................. 57
III.2.7. Module mô phng thut toán FS ........................................................ 58
III.2.8. Các hàm chức năng chính của image processing tool trong matlab s
dng trong chƣơng trình ................................................................................ 60
III.3. Kết luận và đánh giá kết qu ..................................................................... 62
Kết lun ..................................................................................................................... 83
TÀI LIU THAM KHO ......................................................................................... 84
Phc Lc ................................................................................................................... 85
A. Mã nguồn đầy đủ ca chƣơng trình ............................................................... 85
A.1. Danh mc các chƣơng trình con trong chƣơng trình ............................... 85
A.2. Sơ khi liên kết gia các th tc trong chƣơng trình............................... 86
Luận văn tt nghip cao hc Hc viên: Nguyễn Văn Huy
S hóa bi Trung tâm Hc liu Đại hc Thái Nguyên http://www.lrc-tnu.edu.vn
iii GVHD: PGS. TS. Ngô Quc To
A.3. Mã ngun các module ............................................................................ 86
Luận văn tt nghip cao hc Hc viên: Nguyễn Văn Huy
S hóa bi Trung tâm Hc liu Đại hc Thái Nguyên http://www.lrc-tnu.edu.vn
iv GVHD: PGS. TS. Ngô Quc To
Danh mc các hình ảnh
Hình 1: Sơ đồ tng quan quá trình to nh tài liu ................................................... 5
Hình 2: Ví d nh tài liu ........................................................................................ 6
Hình 3: Sơ đồ OCR cơ bn ...................................................................................... 7
Hình 4: b-Cu trúc vt lý: c,d-Cu trúc logic ca mt tài liu[4] .............................. 9
Hình 5: Ví d loi tài liu có b cc phc tap ........................................................ 10
Hình 6: Sơ đồ nguyên lý h thng x lý tài liu[6] ................................................ 11
Hình 7: a - nh gc b - nh sau khi tách nn ........................................................ 12
Hình 8: Ví d mt nh tài liu b nghiêng một góc 5 độ ......................................... 13
Hình 9: Ví d mt cây mô t cu trúc logic ca mt trang tài liu[5] ..................... 14
Hình 10: VnDOCR và mt ví d nhn dng .......................................................... 15
Hình 11: nh mu có cu trúc vt lý phc tp ....................................................... 16
Hình 12: Kết qu ra hai vùng nh vi nh mu 11 ................................................. 16
Hình 13: Mu nh có cu trúc vt lý phc tp, nhƣng các khi bao bi hình ch nht
.............................................................................................................................. 17
Hình 14: Kết qu phân tích vi nh 13................................................................... 18
Hình 15: Đu ra phân vùng ch có 1 vùng văn bản ................................................. 19
Hình 16: Đu ra có vùng cha c nh và text ......................................................... 19
Hình 17: Vi ảnh 13 đạt hiu qu 90% .................................................................. 20
Hình 18 Vi nh I-15 hiu qu đạt 100% ............................................................... 21
Hình 19: Vi mu phc tp hơn Finereader cho kết qu 95% ................................ 22
Hình 20: Kết qu chiếu nghiêng theo phƣơng ngang và phƣơng thẳng đứng ca mt
trang tài liu .......................................................................................................... 24
Hình 21: Phân tách ct da vào phép chiếu nghiêng theo phƣơng ngang ............... 25
Hình 22: Phép chiếu nghiêng theo phƣơng ngang để phân đoạn ký t hoc t ....... 26
Hình 23: Lƣợc đồ chiếu ngang ca mt dòng ch nghiêng - rất khó phân đoạn ký t
.............................................................................................................................. 27
Hình 24: Lƣợc đồ chiếu đứng ca trang tài liu b nghiêng .................................... 28
Hình 25: Lƣợc đồ chiếu đứng ca mt bài báo....................................................... 29
Hình 26: Phƣơng pháp Dostrum cho phân tích định dng trang t dƣới lên. (a) Mt
phn ca nội dung văn bản gc. (b) Các thành phn lân cn gn nhất đƣợc xác định.
Luận văn tt nghip cao hc Hc viên: Nguyễn Văn Huy
S hóa bi Trung tâm Hc liu Đại hc Thái Nguyên http://www.lrc-tnu.edu.vn
v GVHD: PGS. TS. Ngô Quc To
(c) Các hình ch nht ti thiu to nên nhóm láng ging gn nht t đó xác định
đƣợc dòng văn bản. ............................................................................................... 31
Hình 27: Mô t thut toán Tách và Ni thích nghi ................................................. 33
Hình 28: Mô t thut toán FS ................................................................................. 35
Hình 29: Sơ đồ khi h thng phân tích tài liu trong phm vi đề tài ..................... 39
Hình 30: Ví d mt bolck chuyn sang dng b mt trong không gian 3D ............. 41
Hình 31: Ví d chuyn nh ch "c" sang dng b mt trong không gian 3D ......... 41
Hình 32: (a) nh mt tài liu gc, (b) kết qu sau khi áp dng FS ......................... 44
Hình 33: Giao din chính ....................................................................................... 51
Hình 34: Kết qu phân tích ca top-down trên tài liu có cấu trúc đơn gin ........... 63
Hình 35: Kết qu phân tích ca top-down trên tài liu có cu trúc bng ................. 65
Hình 36: : Kết qu phân tích ca top-down trên tài liu thuần văn bản................... 67
Hình 37: : Kết qu phân tích ca top-down trên tài liu có cu trúc phc tp (trang
tp trí).................................................................................................................... 69
Hình 38 : Kết qu phân tích ca top-down trên mt t qung cáo .......................... 71
Hình 39: Kết qu phân tích ca top-down trên tài liu có cu trúc phc tp ........... 73
Hình 40: Kết qu phân tích ca top-down trên tài liu b nghiêng......................... 75
Hình 41: Kết qu phân tích ca FS trên tài liu b nghiêng .................................... 77
Hình 42: Kết qu phân tích ca FS trên tài có cu trúc phc tp ............................ 79
Hình 43: Kết qu phân tích ca FS trên mt trang qung cáo ................................. 81
Hình 44: Kết qu phân tích ca FS trên tài liệu đơn gin ....................................... 82