i
ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Chu Th Thy
TRÍCH CHN T ĐỘNG QUAN H PHƯƠNG THC T
VĂN BN TING VIT DA TRÊN THUT TOÁN SVM
VÀ TH NGHIM ĐÁNH GIÁ
KHOÁ LUN TT NGHIP ĐẠI HC H CHÍNH QUY
Ngành: Công ngh Thông tin
Hà Ni - 2011
ii
ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Chu Th Thy
TRÍCH CHN T ĐỘNG QUAN H PHƯƠNG THC T
VĂN BN TING VIT DA TRÊN THUT TOÁN SVM
VÀ TH NGHIM ĐÁNH GIÁ
KHOÁ LUN TT NGHIP ĐẠI HC H CHÍNH QUY
Ngành: Công ngh Thông tin
Cán b hướng dn: PGS.TS Hà Quang Thu
Cán b đồng hướng dn: ThS. Nguyn Thu Trang
Hà Ni - 2011
i
Li cm ơn
Trước tiên, tôi xin gi li cm ơn và lòng biết ơn sâu sc nht ti Phó Giáo
sư Tiến sĩ Quang Thy Thc s Nguyn Thu Trang, người đã tn tình ch bo
và hướng dn tôi trong sut quá trình thc hin khoá lun tt nghip.
Tôi chân thành cm ơn các thy, cô đã to nhng điu kin thun li cho tôi hc
tp, nghiên cu ti trường Đi Hc Công Ngh và s h tr t đề tài QG.10.38.
Tôi cũng xin gi li cm ơn ti các anh ch các bn sinh viên trong nhóm
“Khai phá d liu” SIS-KTLab đã giúp tôi rt nhiu trong vic h tr kiến thc chuyên
môn để hoàn thành tt khoá lun.
Cui cùng, tôi mun gi li cm hn ti gia đình bn bè, nhng người
thân yêu luôn bên cnh động viên tôi trong sut quá trình thc hin khóa lun tt
nghip.
Tôi xin chân thành cm ơn!
Sinh viên
Chu Th Thy
ii
Tóm tt
Trích chn các mi quan h ng nghĩa t văn bn ngày càng tr nên quan trng
đối vi c ng dng như h thng hi đáp, trích chn thông tin, tóm tt văn bn
hiu văn bn. Khóa lun này đề xut mt phương pháp để t động trích chn quan h
phương thc t văn bn da trên hc máy SVM. Đưa ra mt tp các hiu liên quan
ti quan h phương thc, bao gm DOMAIN RANGE. Phân tích s gn kết ca
quan h phương thc vi nhng quan h khác. Đng thi, chúng tôi cũng trình bày các
mu t vng pháp cơ bn biu din quan h phương thc. Mt tp các đặc trưng
riêng được trích chn làm tăng độ chính xác và tính kh thi ca mô hình.
Thc nghim bước đầu trên tp d liu tiếng Vit gm khong 300 câu
cha/không cha quan h phương thc cho thy phương pháp đề xut đạt được mt
kết qu nht định: độ đo F trong khong 60 - 70%. Da vào đó, chúng tôi nhn thy
phương pháp trích chn quan h phương thc đã đề xut và trin khai là kh quan.
iii
Li cam đoan
Tôi cam đoan trích chn t động quan h phương thc t văn bn tiếng Vit
da trên thut toán SVM và th nghim đánh giá được trình bày trong khóa lun này
do tôi thc hin dưới s hướng dn ca PGS. TS. Quang Thy ThS. Nguyn
Thu Trang.
Tt c nhng tham kho t các nghiên cu liên quan đều được nêu ngun gc
mt cách ràng t danh mc i liu tham kho trong khóa lun. Trong khóa lun,
không có vic sao chép tài liu, công trình nghiên cu ca người khác mà không ch
v tài liu tham kho.