TRƯỜNG ĐẠI HC HÀNG HI
KHOA CÔNG NGH THÔNG TIN
THUYT MINH
ĐỀ TÀI NCKH CẤP TRƯỜNG
ĐỀ TÀI
NG DỤNG THƯ VIN LP TRÌNH MÃ NGUN M XÂY
DỰNG CHƯƠNG TRÌNH NHẬN DẠNG VĂN BẢN
CH VIT, ANH T NH S.
Ch nhim đề tài: Th.S PHM TUẤN ĐẠT
Thành viên tham gia: Th.S NGUYN VĂN THỦY
Hi Phòng, tháng 5/2016
i
MC LC
MC LC .............................................................................................................. i
M ĐẦU ............................................................................................................... 1
CHƯƠNG 1 CƠ SỞ LÝ THUYT ...................................................................... 3
1.1. Nh phân hóa ảnh văn bản ...................................................................... 3
1.2. Ci thin hình ảnh văn bản ..................................................................... 4
1.3. Xác định góc nghiêng ảnh văn bản ........................................................ 5
1.4. Tách dòng văn bản, ký t ....................................................................... 7
1.5. Gii thut nhn dng ký t quang hc ................................................... 8
1.5.1. ng dng lôgic m trong nhn dng mu .......................................... 8
1.5.2. ng dng mạng nơ ron trong nhn dng mu ............................... 10
CHƯƠNG 2 THƯ VIỆN NHN DNG TESSERACT ................................... 15
2.1 ng dng nhn dng ký t quang hc ............................................. 15
2.2 Thư viện Tesseract ........................................................................... 16
2.2.1 Quá trình hình thành Tesseract ..................................................... 16
2.2.2 Chức năng ca Tesseract ............................................................... 17
2.2.3 Kiến trúc gii thut nhn dng ch in ........................................... 17
2.3 Hun luyn d liu nhn dng vi Tesseract ................................... 20
2.3.1 To d liu hun luyn .................................................................. 21
2.3.2 Thiết lp các tp cu hình hun luyn ........................................... 24
2.3.3 Hun luyn d liu ........................................................................ 24
CHƯƠNG 3 CHƯƠNG TRÌNH NHẬN DẠNG VĂN BẢN ........................... 26
3.1 Ngôn ng lp trình và những thư viện được s dng ...................... 26
3.1.1 Ngôn ng lp trình ........................................................................ 26
3.1.2 Những thư viện được s dng ....................................................... 28
3.2 Chức năng chương trình ........................................................................ 30
3.2.1 Thu nhn nh ...................................................................................... 30
ii
3.2.2 Tin x ........................................................................................... 30
3.2.3 Nhn dng .......................................................................................... 30
3.2.4 Hu x ............................................................................................ 31
3.2.5 Hin th và lưu trữ .............................................................................. 31
3.3 Giao diện chương trình ......................................................................... 31
KT LUN ......................................................................................................... 35
I. Đánh giá kết qu ............................................................................ 35
II. ng phát trin của đề tài .............................................................. 35
TÀI LIU THAM KHO ................................................................................... 36
iii
DANH SÁCH BNG BIU
Th t
Tiêu đề bng
Trang
Bng 1.1
Tp ký t s
9
Bng 1.2
Tập véc tơ đặc trưng
9
Bng 1.3
Kết qu đối sánh ký t s
10
Bng 2.1
Thuc tính phông ch
24
Bng 3.1
Nhn dng một vùng văn bản
32
Bng 3.2
Nhn dng ảnh văn bản có góc nghiêng 10o
33
Bng 3.3
Nhn dng ảnh văn bản vi phông và c ch
khác nhau
33
Bng 3.4
Nhn dng ảnh văn bản có các dòng cong
34
iv
DANH SÁCH HÌNH NH
Th t
Tiêu đề hình nh
Trang
Hình 1.1
Đưng thng và góc nghiêng
6
Hình 1.2
Đường thẳng đi qua 3 điểm
6
Hình 1.3
Văn bn nghiêng
6
Hình 1.4
Tách dòng và xác chn vùng ký t
7
Hình 1.5
Nút nơ – ron nhân to
11
Hình 1.6
Mng truyn thng nhiu tng
13
Hình 2.1
Quy trình x lý ca mt ng dng nhn dng ký
t quang hc
15
Hình 2.2
Kiến trúc nhn dạng văn bn ch in trong
Tesseract
17
Hình 2.3
Đường cơ sở hình cong
18
Hình 2.4
Ct các ký t lin nhau
18
Hình 2.5
Sơ đồ nhn dng t
19
Hình 2.6
Các đặc trưng ký tự được nhn dng
19
Hình 2.7
Sơ đồ hun luyn d liu ca Tesseract
20
Hình 2.8
Các chức năng chính của b biên tập văn bản
mu
21
Hình 2.9
Nhn dng phác tho ký t
23
Hình 2.10
Kết qu hun luyn d liu
25
Hình 2.11
ng dng Java chy trên nhiu h điều hành
26
Hình 2.12
Cơ chế thông dch java
27
Hình 2.13
Chc năng chính trong chương trình
30
Hình 3.1
Giao diện chương trình chính
32