ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Đức Trng
GII QUYT BÀI TOÁN ĐỒNG THAM CHIU
TRONG VĂN BN TING VIT DA VÀO
PHƯƠNG PHÁP MÁY VECTOR H TR SVM
KHÓA LUN TT NGHIP ĐẠI HC H CHÍNH QUY
Ngành: Công ngh thông tin
HÀ NI – 2011
ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Đức Trng
GII QUYT BÀI TOÁN ĐỒNG THAM CHIU
TRONG VĂN BN TING VIT DA VÀO
PHƯƠNG PHÁP MÁY VECTOR H TR SVM
KHÓA LUN TT NGHIP ĐẠI HC H CHÍNH QUY
Ngành: Công ngh thông tin
Cán b hướng dn: TS. Nguyn Trí Thành
Cán b đồng hướng dn: ThS. Trn Mai Vũ
HÀ NI - 2011
Li cm ơn
Li đầu tiên, tôi xin gi li cm ơn và lòng biết ơn sâu sc nht ti Phó Giáo sư
Tiến sĩ Quang Thy, Tiến sĩ Nguyn Trí Thành, Thc s Trn Mai Vũ đã tn tình
hướng dn, giúp đ tôi trong sut quá trình thc hin khóa lun tt nghip này.
Tôi xin chân thành cm ơn các thy, đã to cho tôi nhng điu kin thun li
đểi hc tp, rèn luyn và nghiên cu ti trường Đi hc Công ngh.
Tôi cũng xin gi li cm ơn ti các anh ch các bn sinh viên ti phòng thí
nghim KT-Sislab, các bn trong nhóm nghiên cu khoa hc đã giúp đỡ, h tr tôi
trong quá trình thu thp d liu và thc nghim mô hình. Đồng thi tôi xin gi li cm
ơn đề tài QG 10.38 đã h tr tôi trong quá trình hoàn thành khóa lun này.
Tôi gi li cm ơn ti các bn trong lp K52CA K52CHTTT đã ng h,
khích l, giúp đỡ luôn sát cánh bên tôi trong sut qtrình hc tp, rèn luyn ti
trường
cui cùng, tôi xin gi li cm ơn vô hn ti gia đình, người thân bn bè
nhng người luôn n tôi nhng lúc khó khăn nht, luôn động viên tôi, khuyến khích
tôi trong cuc sng cũng như hc tp, công vic.
Tôi xin chân thành cm ơn !
Sinh viên
Lê Đức Trng
Li cam đoan
Tôi xin cam đoan hình đề xut gii quyết bài toán đồng tham chiếu trong
văn bn tiếng Vit và thc nghim được trình bày trong khóa lun này do tôi thc hin
dưới s hướng dn ca Tiến sĩ Nguyn Trí Thành và Thc s Trn Mai Vũ.
Tt c nhng tham kho t các nghiên cu liên quan đều được nêu ngun gc
mt cách ràng t danh mc tài liu tham kho trong khóa lun. Khóa lun không
sao chép tài liu, công trình nghiên cu ca người khác mà không ch rõ v mt tài liu
tham kho.
Các kết qu thc nghim ca khóa lun đều được tiến hành thc nghim và
thng kê t kết qu thc thế.
Sinh viên
Đức Trng
Tóm tt
Bài toán đng tham chiếu trong văn bn i toán xác định các cm t (ng
danh t hoc đại t) trong mt tài liu cùng ch ti mt thc th xác định trong thế gii
thc gom nhóm các cm t này thành các chui đồng tham chiếu [6] . Đây là mt
vn đề khó ca lĩnh vc x ngôn ng t nhiên [16], nhn được s quan tâm rt ln
t các nnhiên cu cũng như các hi ngh ln trên thế gii. Ti Vit Nam, bài toán
này vn đặt ra nhiu thách thc do tính phc tp ca ngôn ng tiếng Vit s không
đầy đủ các ngun tài nguyên ngôn ng hc chuNn. Tuy nhiên, mt bài toán
tim năng khai thác cho ngun d liu tiếng Vit, cn được tìm hiu và nghiên cu.
Da trên cơ s nhng đặc trưng ca min d liu tiếng Vit, da trên tính mi,
tính chính xác ca các phương pháp tiếp cn gii quyết, khóa lun chn hướng tiếp cn
s dng phương pháp máy vector h tr SVM đ gii quyết bài toán đồng tham chiếu
trong văn bn tiếng Vit. Ý tưng ca hướng tiếp cn ghép cp các cm t tim
năng, mi cm t th hin cho mt quan h, mi quan h được biu din bi mt
vector đặc trưng. Sau đó được đưa vào b phân lp SVM để xác đnh tính cht đồng
tham chiếu, t đó gom nhóm các cm t đồng tham chiếu vi nhau. Khóa lun s
dng ngun d liu ni dung các bài báo được ti t động và bóc tách ni dung
chính t chuyên mc Văn hóa hi ca báo đin t Vnexpress.net để xây dng d
liu hc cho mô hình đề xut.
Kết qu phn thc nghim bước đầu trên hình đề xut đạt đ chính xác
76,51 %. Trong khi đó độ chính xác trên hình cơ s 73.79 % vi các đặc trưng
tương đương. Điu này khng định hình kh thi có kh năng ng dng thc
tế.