Luận văn tốt nghip
Biu din n bản trên lý thuyết
tp m . Áp dng trong bài toán
phân lớp văn bản
Khóa lun tt nghip Nguyn Vit Cường
i
LI CM ƠN
Em xin bày t lòng kính trng và biết ơn sâu sc ti thy giáo, tiến sĩ
QUANG THY, Trường Đại hc Công ngh, ĐHQG Hà Ni và tiến sĩ ĐOÀN SƠN,
Đại hc Tohoku, Nht Bn đã hướng dn và động viên em rt nhiu trong quá trình
làm lun văn.
Em xin được gi li cm ơn ti các Thy, Cô trong Trường Đại hc Công
Ngh, Đại hc Quc Gia Hà Ni và nhóm Xeminar thuc b môn Các H thng
Thông tin, nhng người đã dy d, giúp đỡ và ch bo cho em trong sut quá trình hc
tp.
Cui cùng, con xin gi li biết ơn ti gia đình, nơi đã sinh thành, nuôi dưỡng
động viên con rt nhiu trong thi gian qua.
Hà Ni ngày 20/05/2006
Sinh viên
Nguyn Vit Cường
Khóa lun tt nghip Nguyn Vit Cường
ii
TÓM TT
Biu din văn bn là mt trong nhng công đon quan trng nht và được quan
tâm đầu tiên trong các vn đề x lý văn bn. Nó có nh hưởng rt ln đến các bài toán tìm
kiếm văn bn, phân lp, phân cm hay tóm tt văn bn… Khóa lun này trình bày và
nghiên cu mt phương pháp biu din văn bn mi da trên cơ s lý thuyết tp m và áp
dng vào bài toán phân lp văn bn. Ni dung ca khóa lun tp trung vào các vn đề
sau:
1. Trình bày mt s phương pháp biu din văn bn thông thường, trong đó, khóa
lun đi sâu vào cách biu din theo mô hình vector, tc mi văn bn s được biu din
như mt vector có các thành phn là các t khóa có mt hoc không có mt trong văn bn.
Sau đó, khóa lun tìm hiu phương pháp biu din văn bn trong máy tìm kiếm.
2. Trình bày v lý thuyết tp m, và đề cp mt cách biu din văn bn mi da
trên các khái nim m. T đó đề xut hướng gii quyết khi xut hin các t đồng nghĩa
trong văn bn.
3. Tiến hành th nghim cách biu din mi này vào bài toán phân lp văn bn.
Ch ra mt s kết qu phân lp và so sánh vi phương pháp biu din theo mô hình vector
thông thường. T đó rút ra mt s kết lun và hướng phát trin tiếp theo.
Khóa lun tt nghip Nguyn Vit Cường
iii
MC LC
LI CM ƠN ..........................................................................................................i
TÓM TT ...............................................................................................................ii
MC LC............................................................................................................. iii
M ĐẦU.................................................................................................................1
Chương 1. KHAI PHÁ D LIU VĂN BN........................................................3
1.1. Tng quan v khai phá d liu................................................................3
1.1.1. Khái nim............................................................................................3
1.1.2. Các bước ca quá trình khai phá d liu ............................................3
1.1.3. ng dng ca khai phá d liu...........................................................5
1.2. Mt s bài toán trong khai phá d liu văn bn......................................6
1.2.1. Tìm kiếm văn bn ...............................................................................6
1.2.2. Phân lp văn bn.................................................................................7
Chương 2. CÁC PHƯƠNG PHÁP CƠ BN BIU DIN VĂN BN ...............10
2.1. Tin x lý văn bn ................................................................................10
2.2. Mô hình Logic.......................................................................................12
2.3. Mô hình phân tích cú pháp ...................................................................14
2.4. Mô hình không gian vector...................................................................15
2.4.1. Mô hình Boolean ..............................................................................17
2.4.2. Mô hình tn sut ...............................................................................17
2.5. Biu din văn bn trong máy tìm kiếm.................................................20
2.5.1. Gii thiu v máy tìm kiếm..............................................................20
2.5.2. Mô hình biu din văn bn trong máy tìm kiếm ..............................21
Chương 3. BIU DIN VĂN BN S DNG CÁC KHÁI NIM M............23
Khóa lun tt nghip Nguyn Vit Cường
iv
3.1. Lý thuyết m.........................................................................................23
3.1.1. Tp m..............................................................................................23
3.1.2. Các phép toán trên tp m................................................................25
3.1.3. Quan h m.......................................................................................27
3.1.4. Các phép toán trên quan h m........................................................27
3.2. Biu din văn bn s dng các khái nim m......................................29
3.2.1. Khái nim m...................................................................................30
3.2.2. Biu din văn bn .............................................................................32
3.2.3. Đề xut gii pháp cho vn đề đồng nghĩa.........................................32
Chương 4. CÁC PHƯƠNG PHÁP PHÂN LP VĂN BN................................35
4.1. Tng quan v bài toán phân lp............................................................35
4.2. Các thut toán phân lp ........................................................................36
4.2.1. Phân lp da trên thut toán Naive Bayes........................................36
4.2.2. Phân lp da trên thut toán K - Nearest Neighbor (KNN).............38
4.2.3. Phân lp da vào thut toán cây quyết định.....................................39
4.2.4. Phân lp s dng Support Vector Machines (SVM)........................41
Chương 5. MT S KT QU THC NGHIM ..............................................43
5.1. Tp d liu và tin x.......................................................................43
5.2. Công c và phương pháp phân lp .......................................................44
5.3. Kết qu thc nghim.............................................................................45
KT LUN VÀ HƯỚNG PHÁT TRIN ............................................................53
TÀI LIU THAM KHO.....................................................................................55