ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Lê Hoàng Qunh
SO SÁNH MT S PHƯƠNG PHÁP HC MÁY
CHO BÀI TOÁN GÁN NHÃN T LOI
TING VIT
KHOÁ LUN TT NGHIP ĐẠI HC H CHÍNH QUY
Ngành: Công ngh thông tin
HÀ NI - 2009
ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Lê Hoàng Qunh
SO SÁNH MT S PHƯƠNG PHÁP HC MÁY
CHO BÀI TOÁN GÁN NHÃN T LOI
TING VIT
KHOÁ LUN TT NGHIP ĐẠI HC H CHÍNH QUY
Ngành: Công ngh thông tin
Cán b hướng dn: PGS.TS. Hà Quang Thy
Cán b đồng hướng dn: ThS. Trn Th Oanh
HÀ NI - 2009
i
LI CM ƠN
Trước tiên, tôi mun bày t lòng biết ơn sâu sc nht ti Phó Giáo sư Tiến sĩ
Quang Thy và Thc Sĩ Trn Th Oanh, nhng người đã tn tình ch bo và hướng dn
tôi trong sut quá trình thc hin khoá lun tt nghip.
Thu hiu ni vt v cũng như s tn ty ca nhng thy cô giáo đã ging dy và
bi dưỡng kiến thc cho tôi trong bn năm qua, tôi xin gi li cm ơn chân thành đến
các thy cô, nhng kiến thc mà tôi nhn được không ch giúp tôi hoàn thành khóa
lun này mà còn là hành trang quan trng giúp tôi vng bước trong tương lai.
Tôi cũng xin gi li cm ơn ti các thy cô, các anh ch và các bn sinh viên
trong nhóm seminar “Khai phá d liu”, phòng thí nghim Các h thng tích hp
thông minh (SISLAB) – trường Đại hc Công ngh đã to mt môi trường nghiên cu
khoa hc hiu qu cũng như cho tôi nhng li khuyên b ích v chuyên môn trong quá
trình nghiên cu.
Bên cnh đó, tp th sinh viên lp K50CA cũng đóng mt vai trò không nh giúp
tôi xây dng, cng c kiến thc và cùng vi tôi vượt qua nhng khó khăn trong hc
tp.
Và cui cùng, nhưng vô cùng quan trng, tôi xin bày t lòng chân thành và biết
ơn vô hn ti cha m, anh ch cũng như các bn bè thân thiết đã luôn bên cnh, quan
tâm, động viên tôi trong sut quá trình hc tp và thc hin khóa lun tt nghip này.
Sinh viên
Lê Hoàng Qunh
ii
TÓM TT
Gán nhãn t loi (Part-of-Speech Tagging) là mt trong hai bài toán nn tng,
đóng vai trò quan trng trong các h thng x lý ngôn ng t nhiên. Vit Nam đã có
mt s nghiên cu v bài toán này, tuy nhiên kết qu đạt được vn còn mc khiêm
tn so vi nhiu ngôn ng khác. Vic tìm hiu các phương pháp gán nhãn t loi trong
tiếng Anh cho thy hướng tiếp cn da theo phương pháp hc máy cho kết qu tt hơn
c trong các phương pháp đã được công b.
Ni dung khóa lun tp trung so sánh ba phương pháp hc máy cho bài toán gán
nhãn t loi tiếng Vit, đó là mô hình cc đại hóa Entropy (MEM- Jaynes, 1957); mô
hình min ngu nhiên điu kin (CRF- Laferty, 2001) và mô hình máy véc tơ h tr
(SVM- Vapnik & Chervonekis, 1995). Đây là ba phương pháp hc máy đã được ng
dng thành công trong rt nhiu bài toán x lý ngôn ng t nhiên. Thc nghim áp
dng ba mô hình hc máy này được tiến hành trên cùng môi trường phn cng và s
dng cùng mt tp đặc trưng để đảm bo tính khách quan. Kết qu thu được trên các
d liu thc nghim cho thy mô hình CRF có độ chính xác cao nht và thi gian gán
nhãn tt nht, trong khi đó SVM và MEM có ưu thế hơn v thi gian hun luyn. Kết
qu này khá tương đồng vi kết qu ca mt vài nghiên cu tương đương trong các
ngôn ng khác và đã khng định được tính kh thi ca ba mô hình này cho tiếng Vit.
iii
Mc lc
M ĐẦU.........................................................................................................................1
Chương 1. KHÁI QUÁT V BÀI TOÁN GÁN NHÃN T LOI...........................3
1.1. Khái nim và v trí ca bài toán gán nhãn t loi trong NLP ..............................3
1.1.1. Khái nim v bài toán gán nhãn t loi ........................................................3
1.1.2. V trí và ng dng ca bài toán gán nhãn t loi trong NLP........................4
1.2. Các khó khăn ca bài toán gán nhãn t loi.........................................................6
1.3. Tp nhãn t loi....................................................................................................7
1.3.1. Nguyên tc xây dng tp nhãn t loi và mt s tp nhãn t loi ca các
ngôn ng trên thế gii.............................................................................................7
1.3.2. Mt s tp nhãn t loi hin được đề xut Vit Nam..............................10
Chương 2. CÁC HƯỚNG TIP CN BÀI TOÁN GÁN NHÃN T LOI.........13
2.1. Gán nhãn bng phương pháp da trên h lut ...................................................13
2.2. Các phương pháp da vào hc máy ...................................................................15
2.3. Phương pháp lai..................................................................................................19
2.4. Các nghiên cu liên quan ti Vit Nam .............................................................21
2.4.1. Các nghiên cu da trên phương pháp h lut ...........................................21
2.4.2. Các nghiên cu da trên phương pháp hc máy ........................................22
2.4.3. Các nghiên cu da trên phương pháp lai..................................................22
Chương 3. BA MÔ HÌNH HC MÁY ÁP DNG CHO BÀI TOÁN GÁN NHÃN
T LOI TING VIT.............................................................................................25
3.1. Mô hình cc đại hóa Entropy.............................................................................25
3.1.1. Khái nim MEM .........................................................................................25
3.1.2. Nguyên lý cc đại hóa Entropy ..................................................................26
3.1.3. Mô hình xác sut.........................................................................................26
3.1.4. Hn chế ca mô hình MEM........................................................................27
3.2. Mô hình trường ngu nhiên điu kin................................................................28
3.2.1. Khái nim CRF ...........................................................................................28