TRƯỜNG ĐẠI HC HÀNG HI VIT NAM
KHOA CÔNG NGH THÔNG TIN
THUYT MINH
ĐỀ TÀI NCKH CẤP TRƯỜNG
ĐỀ TÀI
NGHIÊN CỨU KĨ THUẬT ĐÁNH GIÁ
ĐỘ TƯƠNG ĐỒNG VĂN BẢN
NG DỤNG TRONG SO SÁNH VĂN BN TING VIT
Ch nhiệm đề tài: Th.S NGUYN KIM ANH
Thành viên tham gia: Th.S TRNH TH NGỌC HƯƠNG
Hi Phòng, tháng 05/2016
MC LC
MC LC ....................................................................................................................... 2
DANH SÁCH HÌNH NH ............................................................................................. 4
DANH SÁCH BNG BIU ........................................................................................... 5
M ĐẦU ......................................................................................................................... 6
CHƯƠNG I: TỔNG QUAN V ĐỀ TÀI ....................................................................... 7
1.1. Lý do chọn đề tài ............................................................................................ 7
1.2. Mc đích nghiên cu ...................................................................................... 7
1.3. Đối tưng nghiên cu ..................................................................................... 7
1.4. Phương pháp nghiên cu ................................................................................ 7
CHƯƠNG II: BÀI TOÁN SO SÁNH VĂN BẢN TING VIT ................................... 9
2.1. Bài toán so sánh văn bn ................................................................................ 9
2.2. Đặc đim ngôn ng tiếng Vit ...................................................................... 10
2.2.1. Cu to t tiếng Vit ................................................................................. 10
2.2.2. Biến hình t tiếng Vit .............................................................................. 11
2.2.3. T đồng nghĩa ........................................................................................... 11
2.2.4. Đặc đim chính t ...................................................................................... 12
2.2.5. Bng mã tiếng Vit trên máy tính ............................................................. 12
2.3. ng tiếp cận cho bài toán so sánh văn bn tiếng Vit ............................. 13
2.3.1. Tin x lý văn bản tiếng Vit .................................................................... 13
2.3.2. Phương pháp tính đ tương đồng gia các văn bản .................................. 14
2.3.3. ng tiếp cận cho bài toán so sánh văn bn tiếng Vit .......................... 16
CHƯƠNG III: MÔ HÌNH BIỂU DIỄN VĂN BẢN TING VIT .............................. 18
3.1. Mô hình biu diễn văn bản truyn thng ...................................................... 18
3.1.1. Mô hình logic ................................................................................................ 18
3.1.2. Mô hình vector .............................................................................................. 19
3.2. Mô hình đ th biu diễn văn bản ................................................................. 22
3.2.1. Mô hình đồ th khái nim .............................................................................. 22
3.2.2. Mô hình đồ th hình sao ................................................................................ 23
3.2.3. Mô hình đồ th vô hướng s dng tn s xut hin ...................................... 23
3.2.4. Mô hình đồ th có hướng, cnh không gán nhãn .......................................... 24
3.3.5. Mô hình đồ th có hướng, cnh không gán nhãn, cnh là khong cách n gia
hai t trong văn bn ................................................................................................ 24
CHƯƠNG IV: PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG ĐỒNG VĂN BN .................. 26
4.1. Khái niệm độ tương đồng ............................................................................. 26
4.2. Độ tương đồng văn bn da trên tp t chung ............................................. 26
4.2.1. Khong cách Jaro ...................................................................................... 26
4.2.2. Mô hình tương phn (Contrast model) ...................................................... 27
4.2.3. H s Jaccard ............................................................................................. 27
4.3. Độ tương đồng văn bn da trên vector biu din ....................................... 27
4.3.1. Độ tương đồng Cosine .............................................................................. 27
4.3.2. Độ tương đồng da vào khong cách Euclide .......................................... 28
4.3.3. Độ tương đồng da vào khong cách Manhattan ..................................... 28
4.4. Độ tương đồng văn bn trong tiếng Vit ...................................................... 29
4.4.1. Độ tương tự ng nghĩa từ - t ................................................................... 29
4.4.2. Độ tương tự ng nghĩa của văn bản .......................................................... 30
4.4.3. Độ tương tự v th t ca t trong văn bn .............................................. 31
4.4.4. Kết hp gia các đ đo để đánh giá độ tương tự gia hai văn bản ........... 32
CHƯƠNG V: ỨNG DỤNG MÔ HÌNH ĐỒ TH ......................................................... 33
5.1. Mô hình h thng .......................................................................................... 33
5.1.1. Tin x .................................................................................................. 33
5.1.2. X lý t ..................................................................................................... 33
5.1.3. * Vector hóa văn bn ................................................................................. 35
5.1.4. *Tính độ tương tự văn bản ........................................................................ 36
5.2. Mô hình thc nghim.................................................................................... 38
5.2.1. Môi trưng thc nghim ........................................................................... 38
5.2.2. *Chương trình ứng dng th nghim ........................................................ 38
5.2.3. *Kết qu th nghim ................................................................................. 38
KT LUN ................................................................................................................... 39
TÀI LIU THAM KHO ............................................................................................. 40
DANH SÁCH HÌNH NH
Hình 1: Mô hình vector biu diễn văn bản .................................................................... 19
Hình 2: Ví d mô hình đồ th khái nim ........................................................................ 22
Hình 3: Ví d mô hình đồ th hình sao .......................................................................... 23
Hình 4: Ví d mô hình đồ th vô hưng s dng tn s xut hin ................................ 24
Hình 5: Ví d mô hình đồ th đơn giản .......................................................................... 24
Hình 6: Ví d mô hình đồ th khong cách n đơn giản ................................................. 25
Hình 7: Mô hình h thng so sánh văn bản tiếng Vit .................................................. 33
Hình 8: Chương trình th nghiệm so sánh độ tương tự văn bản ................................... 38
DANH SÁCH BNG BIU
Bng 1: Tn sut xut hiện độ dài t tiếng Vit trên vdict.com .................................... 11
Bng 2: Biu diễn văn bản trong mô hình Logic........................................................... 18
Bng 3: Vector biu diễn văn bản ................................................................................. 20