B GIÁO DC VÀ ĐÀO TO VIN KHOA HC VÀ CÔNG NGH VIT NAM
VIN CÔNG NGH THÔNG TIN
[ \
PHM ANH PHƯƠNG
NGHIÊN CU NG DNG PHƯƠNG PHÁP
MÁY VÉC TƠ TA TRONG NHN DNG
CH VIT VIT TAY RI RC
Chuyên ngành: BO ĐẢM TOÁN HC CHO MÁY TÍNH VÀ
H THNG TÍNH TOÁN
Mã s: 62 46 35 01
TÓM TT LUN ÁN TIN SĨ
HÀ NI – 2010
Công trình được hoàn thành ti: Vin Công ngh Thông tin – Vin Khoa
hc và Công ngh Vit Nam.
Người hướng dn khoa hc:
1. PGS.TS Ngô Quc To
2. PGS.TS Lương Chi Mai
Phn bin 1: PGS.TS H Sĩ Đàm
Phn bin 2: PGS.TS Nguyn Thin Lun
Phn bin 3: PGS.TS Hunh Quyết Thng
Lun án s được bo v trước Hi đồng chm lun án cp Nhà nước
hp ti: Hi trường Vin Công ngh Thông tin Hà Ni
vào lúc 16 gi 00 ngày 04 tháng 6 năm 2010
th tìm hiu lun án ti: Thư vin Quc gia, Thư vin Vin Công ngh Thông
tin Hà Ni.
TÀI LIU THAM KHO
[10] Bùi Minh Trí (2006), “Quy hoch toán hc”, Nhà xut bn Khoa hc và k thut,
Hà ni.
[11] Christopher J. C. Burges (1998), “A Tutorial on Support Vector Machines for
Pattern Recognition”, Data Mining and Knowledge Discovery, ISSN:1384-5810,
Vol. 2, No. 2, pp. 121-167.
[12] C. J. C. Burges (1996), “Simplied support vector decision rules”, Proc. 13th
International Conference on Machine Learning, San Mateo, CA, pp. 71–77.
[13] J. Platt (1999), “Fast Training of Support Vector Machines Using Sequential
Minimal Optimization”, In Advences in Kernel Methods - Support Vector
Learning, Cambridge, M.A, MIT Press, pp. 185-208.
[14] Osuma E., Freund R., Girosi F. (1997), “An Improved Training Algorithm for
Support Vector Machines”, Proc IEEE NNSP ’97, pp. 276-285.
[15] Nguyn Th Thanh Tân, Lương Chi Mai (2006), “Phương pháp nhn dng t viết
tay da trên mô hình mng nơ ron kết hp vi thng kê t vng”, Tp chí Tin hc
Điu khin hc, Tp 22, s 2, tr. 141-154.
1
PHN M ĐẦU
1. Tính cp thiết ca đề tài
Đến thi đim này, trên thế gii cũng như Vit Nam, bài toán nhn dng ch
viết tay vn còn là vn đề thách thc ln đối vi các nhà nghiên cu.
Tình hình nghiên cu trên thế gii: T nhng năm 1990 đến nay, các h thng nhn
dng thi gian thc được xây dng và phát trin trên cơ s các phương pháp lun
phân lp trong lĩnh vc hc máy kết hp vi các k thut xnh mt cách hiu
qu. Mt s phương pháp hc máy tiên tiến như mng nơ ron, mô hình Markov n,
SVM,... đã đưc các nhà nghiên cu trong và ngoài nước áp dng để phát trin các
ng dng trong lĩnh vc nhn dng ch.
Tình hình nghiên cu trong nước: Trong nhng năm gn đây, lĩnh vc nhn dng
ch viết tay đã được nhiu nhà nghiên cu trong nước đặc bit quan tâm. Mt s
nhóm nghiên cu đin hình như: GS.TSKH. Hoàng Kiếm và các cng s (2001)
Đại Hc Quc Gia TPHCM đã cài đặt và th nghim h thng nhn dng ch s
ch viết tay ri rc trên các phiếu xut nhp cnh, các tác gi Lê Hoài Bc và Lê
Hoàng Thái (2001) đã nghiên cu bài toán nhn dng ch viết tay da trên mng nơ
ron và gii thut di truyn, nhóm nghiên cu phòng Nhn dng và Công ngh Tri
thc ca Vin Công ngh Thông tin vi nhiu công trình nghiên cu v nhn dng
ch viết tay da trên mô hình Markov n, mng nơ ron và SVM, nhóm nghiên cu
ca TS. Nguyn Vit Hà và các cng s (2005) Đại Hc Quc Gia Hà Ni đã
nghiên cu đề xut gii pháp mô hình liên mng nơ ron trong nhn dng ký t viết
tay tiếng Vit,...
Mc dù trong nước đã có nhiu kết qu nghiên cu v nhn dng ch viết tay, tuy
nhiên các kết qu ch yếu tp trung vào vic nhn dng ch s và ch cái h La Tinh,
rt ít công trình nghiên cu đề xut các gii pháp cho vic nhn dng ch viết tay
tiếng Vit.
2. Mc tiêu ca lun án
Nghiên cu các phương pháp nhn dng ch viết tay đang được áp dng rng
rãi trong các h thng nhn dng ch viết trong và ngoài nước. Trên cơ s các
nghiên cu này, kế tha và trin khai ng dng vào vic nhn dng ch viết tay
tiếng Vit.
Nghiên cu đề xut các gii pháp hiu qu cho vic nhn dng ch Vit viết
tay ri rc.
Nghiên cu đề xut các phương pháp trích chn đặc trưng nhm tăng độ chính
xác nhn dng ch viết tay.
Nghiên cu ci tiến tc độ nhn dng ch Vit viết tay ri rc.
Xây dng mt cơ s d liu ch viết tay tiếng Vit phc v cho nghiên cu
thc nghim.
3. Phm vi và phương pháp nghiên cu
Lun án gii hn phm vi nghiên cu trong khuôn kh ch Vit in viết tay ri rc.
Ch viết tay ri rc đây được hiu là các ký t viết tay tách bit, gia phn du và
phn ch phi tách ri.
2
Phương pháp nghiên cu ca lun án da trên cơ s kho sát, kế tha các kết qu
mi nht. T đó xây dng, phát trin, ci tiến các thut toán và kim chng bng thc
nghim.
4. Các đóng góp mi ca lun án
Nghiên cu xây dng thut toán nhn dng ch viết tay ri rc theo phương
pháp phân lp SVM vi các chiến lược mt đối mt (OVO) và mt đối phn
còn li (OVR). Phân tích, đánh giá ưu và nhược đim ca k thut phân lp
SVM trong nhn dng ch viết tay ri rc thông qua các kết qu thc nghim
trên các tp d liu chun USPS, MNIST và d liu ch viết tay tiếng Vit.
Đề xut gii pháp hiu qu cho bài toán nhn dng ch Vit viết tay ri rc áp
dng phương pháp phân lp SVM.
Đề xut phép biến đổi nh hai chiu thành chui đặc trưng hiu qu cho bài
toán nhn dng ch viết tay ri rc và đã chng minh được tính duy nht ca
chui đặc trưng theo phép biến đổi này.
Ci tiến tc độ nhn dng ch Vit viết tay ri rc bng cách áp dng k thut
gim s chiu ca các vectơ đặc trưng đầu vào và gim s vectơ ta ca các
máy phân lp SVM nh phân.
Xây dng được mt cơ s d liu ch viết tay tiếng Vit vi hơn 100000 mu
ký t ch viết tay ri rc đã gán nhãn.
5. B cc ca lun án
Lun án được phân thành ba chương vi cu trúc như sau:
Chương 1 gii thiu tng quan v lĩnh vc nhn dng ch viết tay, các giai đon cơ
bn ca mt h nhn dng ch viết tay và cui cùng là phn tng hp các phương
pháp nhn dng đã và đang được áp dng rng rãi trong lĩnh vc nhn dng ch viết
tay.
Chương 2 tp trung nghiên cu trin khai ng dng nhn dng ch viết tay ri rc
trên cơ s phân lp SVM.
Chương 3 tiếp tc nghiên cu phát trin, đề xut các gii pháp hiu qu cho vic nhn
dng ch Vit viết tay ri rc.
Cui cùng là phn kết lun và hướng phát trin ca lun án.
CHƯƠNG 1: TNG QUAN V NHN DNG CH VIT TAY
1.1. GII THIU
Nhn dng ch là lĩnh vc được nhiu nhà nghiên cu quan tâm và cho đến nay
lĩnh vc này cũng đã đạt được nhiu thành tu ln lao c v mt lý thuyết ln ng
dng thc tế. Lĩnh vc nhn dng ch được chia làm hai loi: Nhn dng ch in và
nhn dng ch viết tay.
Đến thi đim này, công ngh nhn dng ch in đã đạt được nhng gii pháp tt
để ng dng vào các sn phm thương mi. Tuy nhiên, nhn dng ch viết tay vn
còn là vn đề thách thc ln đối vi các nhà nghiên cu. Nhn dng ch viết tay
được phân ra làm hai loi: nhn dng ch viết tay on-linenhn dng ch viết tay
off-line.