
TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM
KHOA CÔNG NGHỆ THÔNG TIN
THUYẾT MINH
ĐỀ TÀI NCKH CẤP TRƯỜNG
ĐỀ TÀI
NGHIÊN CỨU KĨ THUẬT ĐÁNH GIÁ
ĐỘ TƯƠNG ĐỒNG VĂN BẢN
ỨNG DỤNG TRONG SO SÁNH VĂN BẢN TIẾNG VIỆT
Chủ nhiệm đề tài: Th.S NGUYỄN KIM ANH
Thành viên tham gia: Th.S TRỊNH THỊ NGỌC HƯƠNG
Hải Phòng, tháng 05/2016

MỤC LỤC
MỤC LỤC ....................................................................................................................... 2
DANH SÁCH HÌNH ẢNH ............................................................................................. 4
DANH SÁCH BẢNG BIỂU ........................................................................................... 5
MỞ ĐẦU ......................................................................................................................... 6
CHƯƠNG I: TỔNG QUAN VỀ ĐỀ TÀI ....................................................................... 7
1.1. Lý do chọn đề tài ............................................................................................ 7
1.2. Mục đích nghiên cứu ...................................................................................... 7
1.3. Đối tượng nghiên cứu ..................................................................................... 7
1.4. Phương pháp nghiên cứu ................................................................................ 7
CHƯƠNG II: BÀI TOÁN SO SÁNH VĂN BẢN TIẾNG VIỆT ................................... 9
2.1. Bài toán so sánh văn bản ................................................................................ 9
2.2. Đặc điểm ngôn ngữ tiếng Việt ...................................................................... 10
2.2.1. Cấu tạo từ tiếng Việt ................................................................................. 10
2.2.2. Biến hình từ tiếng Việt .............................................................................. 11
2.2.3. Từ đồng nghĩa ........................................................................................... 11
2.2.4. Đặc điểm chính tả ...................................................................................... 12
2.2.5. Bảng mã tiếng Việt trên máy tính ............................................................. 12
2.3. Hướng tiếp cận cho bài toán so sánh văn bản tiếng Việt ............................. 13
2.3.1. Tiền xử lý văn bản tiếng Việt .................................................................... 13
2.3.2. Phương pháp tính độ tương đồng giữa các văn bản .................................. 14
2.3.3. Hướng tiếp cận cho bài toán so sánh văn bản tiếng Việt .......................... 16
CHƯƠNG III: MÔ HÌNH BIỂU DIỄN VĂN BẢN TIẾNG VIỆT .............................. 18
3.1. Mô hình biểu diễn văn bản truyền thống ...................................................... 18
3.1.1. Mô hình logic ................................................................................................ 18
3.1.2. Mô hình vector .............................................................................................. 19
3.2. Mô hình đồ thị biểu diễn văn bản ................................................................. 22
3.2.1. Mô hình đồ thị khái niệm .............................................................................. 22
3.2.2. Mô hình đồ thị hình sao ................................................................................ 23
3.2.3. Mô hình đồ thị vô hướng sử dụng tần số xuất hiện ...................................... 23
3.2.4. Mô hình đồ thị có hướng, cạnh không gán nhãn .......................................... 24

3.3.5. Mô hình đồ thị có hướng, cạnh không gán nhãn, cạnh là khoảng cách n giữa
hai từ trong văn bản ................................................................................................ 24
CHƯƠNG IV: PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG ĐỒNG VĂN BẢN .................. 26
4.1. Khái niệm độ tương đồng ............................................................................. 26
4.2. Độ tương đồng văn bản dựa trên tập từ chung ............................................. 26
4.2.1. Khoảng cách Jaro ...................................................................................... 26
4.2.2. Mô hình tương phản (Contrast model) ...................................................... 27
4.2.3. Hệ số Jaccard ............................................................................................. 27
4.3. Độ tương đồng văn bản dựa trên vector biểu diễn ....................................... 27
4.3.1. Độ tương đồng Cosine .............................................................................. 27
4.3.2. Độ tương đồng dựa vào khoảng cách Euclide .......................................... 28
4.3.3. Độ tương đồng dựa vào khoảng cách Manhattan ..................................... 28
4.4. Độ tương đồng văn bản trong tiếng Việt ...................................................... 29
4.4.1. Độ tương tự ngữ nghĩa từ - từ ................................................................... 29
4.4.2. Độ tương tự ngữ nghĩa của văn bản .......................................................... 30
4.4.3. Độ tương tự về thứ tự của từ trong văn bản .............................................. 31
4.4.4. Kết hợp giữa các độ đo để đánh giá độ tương tự giữa hai văn bản ........... 32
CHƯƠNG V: ỨNG DỤNG MÔ HÌNH ĐỒ THỊ ......................................................... 33
5.1. Mô hình hệ thống .......................................................................................... 33
5.1.1. Tiền xử lý .................................................................................................. 33
5.1.2. Xử lý từ ..................................................................................................... 33
5.1.3. * Vector hóa văn bản ................................................................................. 35
5.1.4. *Tính độ tương tự văn bản ........................................................................ 36
5.2. Mô hình thực nghiệm.................................................................................... 38
5.2.1. Môi trường thực nghiệm ........................................................................... 38
5.2.2. *Chương trình ứng dụng thử nghiệm ........................................................ 38
5.2.3. *Kết quả thử nghiệm ................................................................................. 38
KẾT LUẬN ................................................................................................................... 39
TÀI LIỆU THAM KHẢO ............................................................................................. 40

DANH SÁCH HÌNH ẢNH
Hình 1: Mô hình vector biểu diễn văn bản .................................................................... 19
Hình 2: Ví dụ mô hình đồ thị khái niệm ........................................................................ 22
Hình 3: Ví dụ mô hình đồ thị hình sao .......................................................................... 23
Hình 4: Ví dụ mô hình đồ thị vô hướng sử dụng tần số xuất hiện ................................ 24
Hình 5: Ví dụ mô hình đồ thị đơn giản .......................................................................... 24
Hình 6: Ví dụ mô hình đồ thị khoảng cách n đơn giản ................................................. 25
Hình 7: Mô hình hệ thống so sánh văn bản tiếng Việt .................................................. 33
Hình 8: Chương trình thử nghiệm so sánh độ tương tự văn bản ................................... 38

DANH SÁCH BẢNG BIỂU
Bảng 1: Tần suất xuất hiện độ dài từ tiếng Việt trên vdict.com .................................... 11
Bảng 2: Biểu diễn văn bản trong mô hình Logic........................................................... 18
Bảng 3: Vector biểu diễn văn bản ................................................................................. 20

