B GIÁO DC ĐÀO TO B QUC PHÒNG
VIN KHOA HC VÀ CÔNG NGH QUÂN S
NGUYN VĂN N
NGHIÊN CU PHÁT TRIN
MT S K THUT H TR PHÁT HIN ĐO VĂN
NG DNG CHO VĂN BN TING VIT
LUN ÁN TIN SĨ TOÁN HC
Hà Ni - 2022
B GIÁO DC VÀ ĐÀO TO B QUC PHÒNG
VIN KHOA HC VÀ CÔNG NGH QUÂN S
NGUYN VĂN N
NGHIÊN CU PHÁT TRIN
MT S K THUT H TR PHÁT HIN ĐO VĂN
NG DNG CHO VĂN BN TING VIT
Chuyên ngành: Cơ s toán hc cho tin hc
Mã s: 9 46 01 10
LUN ÁN TIN SĨ TOÁN HC
NGƯỜI HƯNG DN KHOA HC:
1. PGS.TS Lê Thanh Hương
2. TS. Nguyn Chí Thành
Hà Ni - 2022
i
LỜI CAM ĐOAN
Tôi xin cam đoan, đây công trình nghiên cứu của riêng tôi. Những nội
dung, số liệu và kết quả trình bày trong luận án là hoàn toàn trung thực và chưa có
tác giả nào công btrong bất cứ một công trình nào khác. Các tài liệu tham khảo
được trích dẫn đầy đủ.
Hà Nội, ngày 12 tháng 01 năm 2022
Tác giả
Nguyễn Văn Sơn
ii
LỜI CẢM ƠN
Luận án này được thực hiện tại Viện Công nghệ thông tin, Viện Khoa học
và Công nghệ quân sự-Bộ Quốc phòng. Lời đầu tiên, NCS xin bày tỏ lòng biết ơn
sâu sắc tới PGS.TS Lê Thanh Hương, TS. Nguyễn Chí Thành đã tận tình giúp đỡ,
trang bị cho NCS phương pháp nghiên cứu, kinh nghiệm, kiến thức khoa học để
hoàn thành các nội dung luận án.
NCS xin chân thành cảm ơn Thủ trưởng Viện KH-CN quân sự, Phòng Đào
tạo, Viện Công nghệ thông tin sở đào tạo đơn vị quản đã tạo mọi điều
kiện, hỗ trợ, giúp đỡ NCS trong quá trình học tập, nghiên cứu.
NCS xin bày tlòng biết ơn chân thành tới các thầy của Viện KH-CN
quân sự, các nhà khoa học trong ngoài quân đội đã giảng dạy, truyền đạt kiến
thức và giúp đỡ về chuyên môn trong quá trình học tập, nghiên cứu của NCS.
NCS luôn ghi nhớ công ơn của bố mẹ, gia đình xin dành lời cảm ơn đặc
biệt tới vợ con, những người đã luôn bên cạnh, động viên chỗ dựa về mọi
mặt giúp NCS vượt qua khó khăn để hoàn thành công việc.
NCS xin chân thành cảm ơn bạn bè, đồng nghiệp và rất nhiều người đã luôn
động viên, chia sẻ, giúp đỡ NCS trong suốt thời gian qua.
Tác giả
Nguyễn Văn Sơn
iii
MỤC LỤC
Trang
DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT ............................................. v
DANH MỤC CÁC BẢNG............................................................................... vi
DANH MỤC CÁC HÌNH VẼ ........................................................................ vii
MỞ ĐẦU ........................................................................................................... 1
CHƯƠNG 1 TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN SAO CHÉP ........ 7
1.1 Tổng quan .................................................................................................... 7
1.1.1 Định nghĩa ................................................................................................ 7
1.1.2 Các hình thức sao chép ............................................................................ 8
1.2. Các kiến thức nền tảng ............................................................................... 9
1.2.1 Một số kiến thức nền tảng về ngôn ngữ tiếng Việt ................................ 10
1.2.2 Cơ sở lý thuyết về thuật toán LDA ........................................................ 13
1.2.3 Giới thiệu luật kết hợp và thuật toán Apriori ......................................... 14
1.2.4 Giới thiệu mạng nơ ron hồi quy RNN ................................................... 16
1.2.5 Giới thiệu mạng LSTM xếp chồng ........................................................ 18
1.3 Các nghiên cứu về phát hiện sao chép trên thế giới .................................. 22
1.3.1 Trích rút từ khóa ..................................................................................... 24
1.3.2 Phát hiện đoạn sao chép ......................................................................... 28
1.4 Các hướng tiếp cận phát hiện sao chép trong nước .................................. 35
1.5 Kho ngữ liệu và phương pháp đánh giá .................................................... 36
1.5.1 Kho ngữ liệu thử nghiệm ....................................................................... 36
1.5.2 Phương pháp đánh giá ............................................................................ 39
1.6 Những vấn đề luận án cần tập trung nghiên cứu giải quyết ...................... 41
1.7 Kết luận Chương 1 .................................................................................... 42
CHƯƠNG 2 TRÍCH RÚT TỪ KHÓA DỰA TRÊN HÌNH HỌC
SÂU ................................................................................................................. 43
2.1 Đặt vấn đề .................................................................................................. 43
2.2 Phát biểu bài toán tìm tập tài liệu ứng cử và bài toán trích rút từ khóa .... 43
2.3 Đề xuất ý tưởng ......................................................................................... 45
2.4 Trích rút từ khóa dựa trên kỹ thuật trích rút đặc trưng và mô hình mạng
FFNN ............................................................................................................... 46
2.4.1 Nội dung đề xuất .................................................................................... 46
2.4.2 Đánh giá thử nghiệm .............................................................................. 55
2.5 Kết luận Chương 2 .................................................................................... 61
CHƯƠNG 3 PHÁT HIỆN ĐOẠN SAO CHÉP GIỮA HAI TÀI LIỆU
DỰA TRÊN CÁC MÔ HÌNH HỌC MÁY ..................................................... 62
3.1 Đặt vấn đề .................................................................................................. 62
3.2 Phát biểu bài toán phát hiện đoạn sao chép .............................................. 62
3.3 Đề xuất ý tưởng ......................................................................................... 63
3.4 Mô hình chủ đề cho bài toán phát hiện đoạn sao chép ............................. 64
3.4.1 Đề xuất giải pháp ................................................................................... 65