
i
Bài Luận
Đề Tài:
Phân tích bố cục và nhận dạng
ảnh công văn tiếng Việt

ii
Để hoàn thành đề tài này và có kiến thức như ngày hôm nay,
đầu tiên chúng em xin gửi lời cảm ơn đến Ban Giám Hiệu cùng
toàn thể Thầy Cô Khoa Công Nghệ Thông Tin – Trường Đại Học
Nông Lâm TP.HCM đã tận tình giảng dạy, truyền đạt kiến thức
cũng như những kinh nghiệm quý báu cho chúng em trong suốt
quá trình học tập và nghiên cứu tại trường.
Chúng em cũng chân thành cảm ơn thầy Nguyễn Đức Thành
đã tận tình hướng dẫn và quan tâm, động viên chúng em trong quá
trình thực hiện đề tài.
Chúng em cũng bày tỏ lòng biết ơn sâu sắc đến những người
thân trong gia đình, bạn bè đã động viên và tạo mọi điều kiện giúp
chúng em trong quá trình học tập cũng như trong cuộc sống.
Mặc dù chúng em đã cố gắng hoàn thành tốt đề tài nhưng
cũng không thể tránh khỏi những sai sót nhất định, rất mong được
sự thông cảm và chia sẻ cùng quý Thầy Cô và bạn bè.
Chúng em xin gửi lời chúc sức khỏe và thành đạt tới tất cả
quý thầy cô cùng các bạn.
Nhóm sinh viên thực hiện
Võ Đại Bình
Nguyễn Thị Tú Mi
Nguyễn Thùy Giang
LỜI C
Ả
MƠN

iii
MỤC LỤC
Trang
DANH MỤC CÁC HÌNH .............................................................................................. VII
DANH MỤC CÁC BẢNG .............................................................................................. XI
DANH SÁCH CHỮ VIẾT TẮT .................................................................................... XII
TÓM TẮT ..................................................................................................................... XIII
CHƯƠNG 1: GIỚI THIỆU ................................................................................................ 1
CHƯƠNG 2: NHỊ PHÂN HÓA ........................................................................................ 5
2.1. ĐẶT VẤN ĐỀ ..................................................................................................... 5
2.2. PHƯƠNG PHÁP OTSU ...................................................................................... 5
CHƯƠNG 3: CHỈNH NGHIÊNG ẢNH VĂN BẢN ........................................................ 8
3.1. SỬ DỤNG CÁC PHÉP BIẾN ĐỔI MORPHOLOGY TRONG ƯỚC LƯỢNG
NGHIÊNG VĂN BẢN ........................................................................................ 8
3.1.1. ĐẶT VẤN ĐỀ ............................................................................................ 8
3.1.2. MỘT SỐ HƯỚNG TIẾP CẬN HIỆN CÓ: ................................................. 9
3.1.3. MÔ TẢ PHƯƠNG PHÁP. ....................................................................... 15
3.1.3.1. BƯỚC TIỀN XỬ LÝ ....................................................................... 16
3.1.3.2. ƯỚC LƯỢNG THÔ ......................................................................... 16
3.1.3.3. ÁP DỤNG CÁC PHÉP BIẾN ĐỔI MORPHOLOGY .................... 19
3.1.3.4. ƯỚC LƯỢNG TINH ........................................................................ 25
3.1.4. KẾT QUẢ THỰC NGHIỆM .................................................................... 28
3.2. PHƯƠNG PHÁP QUAY ẢNH VĂN BẢN NHỊ PHÂN .................................. 33
3.2.1. ĐẶT VẤN ĐỀ .......................................................................................... 33
3.2.2. MÔ TẢ PHƯƠNG PHÁP ........................................................................ 34
3.2.2.1. TẠO VÀ LƯU TRỮ CÁC PMPs..................................................... 34

iv
3.2.2.2. CHIA ẢNH THÀNH CÁC BLOCK ................................................ 35
3.2.2.3. THỰC HIỆN QUAY ẢNH .............................................................. 36
3.2.3. KẾT LUẬN ............................................................................................... 38
3.3. TỔNG KẾT ....................................................................................................... 38
CHƯƠNG 4: TÁCH KHỐI VĂN BẢN .......................................................................... 40
4.1. ĐẶT VẤN ĐỀ: .................................................................................................. 40
4.2. MỘT SỐ PHƯƠNG PHÁP TÁCH KHỐI HIỆN CÓ ........................................ 43
4.3. MÔ TẢ PHƯƠNG PHÁP ................................................................................. 45
4.3.1. TÁCH KHỐI THEO CHIỀU NGANG .................................................... 45
4.3.2. TÁCH KHỐI THEO CHIỀU DỌC .......................................................... 51
4.3.3. TÁCH KHỐI THEO CHIỀU NGANG LẦN 2 ........................................ 51
4.4. KẾT LUẬN VÀ NHẬN XÉT TỪ KẾT QUẢ THỰC NGHIỆM: ..................... 53
CHƯƠNG 5:TÁCH DÒNG VĂN BẢN ......................................................................... 55
5.1. ĐẶT VẤN ĐỀ ................................................................................................... 55
5.2. MÔ TẢ PHƯƠNG PHÁP ................................................................................. 55
5.2.1. DÙNG CÁC PHÉP BIẾN ĐỔI MORPHOLOGY ĐỂ TÔ LEM DÒNG
VĂN BẢN ................................................................................................ 55
5.2.2. LẤY LƯỢC ĐỒ CHIẾU ĐỐI VỚI MỖI KHỐI VĂN BẢN THEO
TRỤC OY ................................................................................................. 57
5.2.3. XÁC ĐỊNH DÒNG VĂN BẢN TRONG MỖI KHỐI ............................. 59
5.3. KẾT LUẬN ....................................................................................................... 60
CHƯƠNG 6: TÁCH TỪ VĂN BẢN .............................................................................. 62
6.1. ĐẶT VẤN ĐỀ ................................................................................................... 62
6.2. MỘT SỐ HƯỚNG TIẾP CẬN KHÁC .............................................................. 62
6.3. MÔ TẢ PHƯƠNG PHÁP ................................................................................. 63
6.3.1. NỐI DẤU VÀ KÝ TỰ.............................................................................. 63
6.3.2. NỐI KÝ TỰ TRONG TỪ ......................................................................... 65

v
6.4. TỔNG KẾT ....................................................................................................... 67
CHƯƠNG 7: TÁCH KÍ TỰ ............................................................................................ 68
7.1. ĐẶT VẤN ĐỀ ................................................................................................... 68
7.2. MÔ TẢ PHƯƠNG PHÁP ................................................................................. 69
7.3. KẾT LUẬN VÀ MỘT SỐ KẾT QUẢ THỰC NGHIỆM .................................. 70
CHƯƠNG 8: XÂY DỰNG GROUND TRUTH VÀ CÔNG CỤ ĐÁNH GIÁ ĐỘ
CHÍNH XÁC CỦA THUẬT TOÁN PHÂN VÙNG VĂN BẢN ..................... 71
8.1. XÂY DỰNG GROUND TRUTH VÀ CÔNG CỤ ĐÁNH GIÁ ĐỘ CHÍNH
XÁC CỦA THUẬT TOÁN PHÂN VÙNG VĂN BẢN .................................... 71
8.2. KẾT XUẤT KẾT QUẢ ..................................................................................... 76
8.2.1. KẾT XUẤT KẾT QUẢ DƯỚI DẠNG FILE XML ................................. 77
8.2.2. KẾT XUẤT KẾT QUẢ DƯỚI DẠNG FILE MS WORD ....................... 80
CHƯƠNG 9: ỨNG DỤNG MẠNG NEURAL NHÂN TẠO TRONG NHẬN DẠNG
KÍ TỰ IN TIẾNG VIỆT .................................................................................... 83
9.1. ĐẶT VẤN ĐỀ ................................................................................................... 83
9.2. CƠ SỞ LÝ THUYẾT MẠNG NEURAL NHÂN TẠO VÀ GIẢI THUẬT
LAN TRUYỀN NGƯỢC .................................................................................. 84
9.2.1. NHỮNG THÀNH PHẦN CHÍNH CỦA MỘT MẠNG NEURAL ......... 85
9.2.2. MÔ HÌNH MẠNG NEURAL NHÂN TẠO ............................................. 87
9.2.3. CÁC HÀM KÍCH HOẠT THƯỜNG ĐƯỢC DÙNG .............................. 87
9.2.4. CẤU TRÚC MẠNG FEED-FORWARD ................................................. 88
9.2.5. GIẢI THUẬT LAN TRUYỀN NGƯỢC (BACK – PROPAGATION
ALGORITHM) ......................................................................................... 89
9.3. MÔ TẢ PHƯƠNG PHÁP ................................................................................. 94
CHƯƠNG 10: TỔNG KẾT ............................................................................................. 96
TÀI LIỆU THAM KHẢO ............................................................................................... 99