
iii
MỤC LỤC
Trang
DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT ............................................. v
DANH MỤC CÁC BẢNG............................................................................... vi
DANH MỤC CÁC HÌNH VẼ ........................................................................ vii
MỞ ĐẦU ........................................................................................................... 1
CHƯƠNG 1 TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN SAO CHÉP ........ 7
1.1 Tổng quan .................................................................................................... 7
1.1.1 Định nghĩa ................................................................................................ 7
1.1.2 Các hình thức sao chép ............................................................................ 8
1.2. Các kiến thức nền tảng ............................................................................... 9
1.2.1 Một số kiến thức nền tảng về ngôn ngữ tiếng Việt ................................ 10
1.2.2 Cơ sở lý thuyết về thuật toán LDA ........................................................ 13
1.2.3 Giới thiệu luật kết hợp và thuật toán Apriori ......................................... 14
1.2.4 Giới thiệu mạng nơ ron hồi quy RNN ................................................... 16
1.2.5 Giới thiệu mạng LSTM xếp chồng ........................................................ 18
1.3 Các nghiên cứu về phát hiện sao chép trên thế giới .................................. 22
1.3.1 Trích rút từ khóa ..................................................................................... 24
1.3.2 Phát hiện đoạn sao chép ......................................................................... 28
1.4 Các hướng tiếp cận phát hiện sao chép trong nước .................................. 35
1.5 Kho ngữ liệu và phương pháp đánh giá .................................................... 36
1.5.1 Kho ngữ liệu thử nghiệm ....................................................................... 36
1.5.2 Phương pháp đánh giá ............................................................................ 39
1.6 Những vấn đề luận án cần tập trung nghiên cứu giải quyết ...................... 41
1.7 Kết luận Chương 1 .................................................................................... 42
CHƯƠNG 2 TRÍCH RÚT TỪ KHÓA DỰA TRÊN MÔ HÌNH HỌC
SÂU ................................................................................................................. 43
2.1 Đặt vấn đề .................................................................................................. 43
2.2 Phát biểu bài toán tìm tập tài liệu ứng cử và bài toán trích rút từ khóa .... 43
2.3 Đề xuất ý tưởng ......................................................................................... 45
2.4 Trích rút từ khóa dựa trên kỹ thuật trích rút đặc trưng và mô hình mạng
FFNN ............................................................................................................... 46
2.4.1 Nội dung đề xuất .................................................................................... 46
2.4.2 Đánh giá thử nghiệm .............................................................................. 55
2.5 Kết luận Chương 2 .................................................................................... 61
CHƯƠNG 3 PHÁT HIỆN ĐOẠN SAO CHÉP GIỮA HAI TÀI LIỆU
DỰA TRÊN CÁC MÔ HÌNH HỌC MÁY ..................................................... 62
3.1 Đặt vấn đề .................................................................................................. 62
3.2 Phát biểu bài toán phát hiện đoạn sao chép .............................................. 62
3.3 Đề xuất ý tưởng ......................................................................................... 63
3.4 Mô hình chủ đề cho bài toán phát hiện đoạn sao chép ............................. 64
3.4.1 Đề xuất giải pháp ................................................................................... 65