1
ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Hoàng Minh Hin
ĐỘ TƯƠNG ĐỒNG NG NGHĨA GIA HAI CÂU VÀ
NG DNG TRONG TÓM TT VĂN BN
KHOÁ LUN TT NGHIP ĐẠI HC H CHÍNH QUY
Ngành: Công ngh thông tin
HÀ NI - 2008
2
ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Hoàng Minh Hin
ĐỘ TƯƠNG ĐỒNG NG NGHĨA GIA HAI CÂU VÀ
NG DNG TRONG TÓM TT VĂN BN
KHOÁ LUN TT NGHIP ĐẠI HC H CHÍNH QUY
Ngành: Công ngh thông tin
Cán b hướng dn: PGS TS Hà Quang Thy
Cán b đồng hướng dn: Thc S Đặng Thanh Hi
HÀ NI - 2008
3
Li cm ơn
Tôi xin gi li cm ơn và biết ơn sâu sc nht ti Phó Giáo sư Tiến sĩ Hà
Quang Thy và Thc s Đặng Thanh Hi đã ch bo và hướng dn tn tình cho tôi trong
sut quá trình nghiên cu Khoa hc và quá trình thc hin khoá lun này.
Tôi chân thành cm ơn các thy, cô đã to cho tôi nhng điu kin thun li để hc
tp và nghiên cu ti trường Đại hc Công Ngh.
Tôi cũng xin gi li cm ơn ti các anh ch, các bn sinh viên trong nhóm nghiên
cu “Khai phá d liu và khám phá tri thc” đã giúp đỡ, ng hđộng viên tôi trong
quá trình nghiên cu và làm khoá lun. Đặc bit, tôi xin cm ơn C nhân Trn Mai Vũ,
Nghiên cu sinh Nguyn Cm Tú và Sinh viên Lê Diu Thu, nhng người đã h tr tôi
rt nhiu v kiến thc chuyên môn, giúp tôi có th hoàn thành khóa lun.
Cui cùng, tôi mun gi li cm ơn và biết ơn vô hn ti b, m, anh trai, tt c bn
bè và nhng người thân yêu ca tôi.
Xin chân thành cm ơn!
Sinh viên
Hoàng Minh Hin
4
Tóm tt ni dung
Hin nay, tóm tt văn bn là mt bài toán có tính ng dng thc tin cao. Tóm tt
văn bn nhn được s nhiu s quan tâm nghiên cu ca nhiu nhà khoa hc, ca các hi
ngh quc tế như hi ngh DUC (Document Understanding Conference), hi ngh
Coling/ACL (Computational Linguistics/Association for Computational Linguistics), ca
các trung tâm nghiên cu như IBM, Microsoft…
Khóa lun vi đề tài “Độ tương đồng ng nghĩa gia hai câu và ng dng trong bài
toán tóm tt văn bn” tp trung nghiên cu vào các phương pháp tóm tt văn bn; độ
tương đồng câu và các phương pháp để tính toán độ tương đồng câu. T đó, trên cơ s v
mt s kết qu nghiên cu đã có v độ đo tương đồng câu và v Hidden Topic, khóa lun
đề xut mt mô hình tóm tt văn bn đơn có s dng Hidden Topic để tính toán độ tương
đồng ng nghĩa gia hai câu.
5
Mc lc
Tóm tt ni dung ............................................................................................................... 4
Mc lc ...............................................................................................................................5
Danh sách bng.................................................................................................................. 7
Danh sách hình v.............................................................................................................. 8
Bng ký hiu và t viết tt................................................................................................ 9
M đầu.............................................................................................................................. 10
Chương 1. Tng quan v tóm tt văn bn và độ tương đồng câu............................... 12
1.1. Đặt vn đề......................................................................................................12
1.2. Nn tng kiến thc ........................................................................................13
1.2.1. Data Mining .......................................................................................13
1.2.2. Text Mining .......................................................................................13
1.2.3. Web Mining .......................................................................................14
1.3. Tóm tt văn bn.............................................................................................15
1.4. Độ tương đồng gia hai câu..........................................................................16
Chương 2. Bài toán tóm tt văn bn và mt s phương pháp tóm tt văn bn ........ 18
2.1. Bài toán tóm tt văn bn................................................................................18
2.1.1. Định nghĩa tóm tt .............................................................................18
2.1.2. Phân loi tóm tt văn bn...................................................................19
2.1.3. Tóm tt văn bn đơn ..........................................................................21
2.2. Các phương pháp tóm tt văn bn đơn..........................................................21
2.2.1. Phương pháp Word frequencies.........................................................22
2.2.2. Phương pháp ca Edmundson ...........................................................23
2.2.3. Tóm tt văn bn t động s dng trích chn câu hai bước................26