Trang chủ » Luận Văn - Báo Cáo » Thạc sĩ - Tiến sĩ - Cao học

173 trang

129 lượt xem

Luận án Tiến sĩ Toán học: Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng Việt

Luận án Tiến sĩ Toán học "Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng Việt" trình bày các nội dung chính sau: Tổng quan về bài toán phát hiện sao chép; Trích rút từ khóa dựa trên mô hình học sâu; Phát hiện đoạn sao chép giữa hai tài liệu dựa trên các mô hình học máy; Ứng dụng các kỹ thuật phát hiện sao chép cho văn bản tiếng Việt.

Chủ đề:

vilandrover

Luận văn cao học

Luận văn thạc sĩ mỹ thuật ứng dụng

173

BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG

VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ

NGUYỄN VĂN SƠN

NGHIÊN CỨU PHÁT TRIỂN

MỘT SỐ KỸ THUẬT HỖ TRỢ PHÁT HIỆN ĐẠO VĂN

VÀ ỨNG DỤNG CHO VĂN BẢN TIẾNG VIỆT

LUẬN ÁN TIẾN SĨ TOÁN HỌC

Hà Nội - 2022

BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG

VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ

NGUYỄN VĂN SƠN

NGHIÊN CỨU PHÁT TRIỂN

MỘT SỐ KỸ THUẬT HỖ TRỢ PHÁT HIỆN ĐẠO VĂN

VÀ ỨNG DỤNG CHO VĂN BẢN TIẾNG VIỆT

Chuyên ngành: Cơ sở toán học cho tin học

Mã số: 9 46 01 10

LUẬN ÁN TIẾN SĨ TOÁN HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:

1. PGS.TS Lê Thanh Hương

2. TS. Nguyễn Chí Thành

Hà Nội - 2022

LỜI CAM ĐOAN

Tôi xin cam đoan, đây là công trình nghiên cứu của riêng tôi. Những nội

dung, số liệu và kết quả trình bày trong luận án là hoàn toàn trung thực và chưa có

tác giả nào công bố trong bất cứ một công trình nào khác. Các tài liệu tham khảo

được trích dẫn đầy đủ.

Hà Nội, ngày 12 tháng 01 năm 2022

Tác giả

Nguyễn Văn Sơn

LỜI CẢM ƠN

Luận án này được thực hiện tại Viện Công nghệ thông tin, Viện Khoa học

và Công nghệ quân sự-Bộ Quốc phòng. Lời đầu tiên, NCS xin bày tỏ lòng biết ơn

sâu sắc tới PGS.TS Lê Thanh Hương, TS. Nguyễn Chí Thành đã tận tình giúp đỡ,

trang bị cho NCS phương pháp nghiên cứu, kinh nghiệm, kiến thức khoa học để

hoàn thành các nội dung luận án.

NCS xin chân thành cảm ơn Thủ trưởng Viện KH-CN quân sự, Phòng Đào

tạo, Viện Công nghệ thông tin là cơ sở đào tạo và đơn vị quản lý đã tạo mọi điều

kiện, hỗ trợ, giúp đỡ NCS trong quá trình học tập, nghiên cứu.

NCS xin bày tỏ lòng biết ơn chân thành tới các thầy cô của Viện KH-CN

quân sự, các nhà khoa học trong và ngoài quân đội đã giảng dạy, truyền đạt kiến

thức và giúp đỡ về chuyên môn trong quá trình học tập, nghiên cứu của NCS.

NCS luôn ghi nhớ công ơn của bố mẹ, gia đình và xin dành lời cảm ơn đặc

biệt tới vợ con, những người đã luôn ở bên cạnh, động viên và là chỗ dựa về mọi

mặt giúp NCS vượt qua khó khăn để hoàn thành công việc.

NCS xin chân thành cảm ơn bạn bè, đồng nghiệp và rất nhiều người đã luôn

động viên, chia sẻ, giúp đỡ NCS trong suốt thời gian qua.

Tác giả

Nguyễn Văn Sơn

iii

MỤC LỤC

Trang

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT ............................................. v

DANH MỤC CÁC BẢNG............................................................................... vi

DANH MỤC CÁC HÌNH VẼ ........................................................................ vii

MỞ ĐẦU ........................................................................................................... 1

CHƯƠNG 1 TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN SAO CHÉP ........ 7

1.1 Tổng quan .................................................................................................... 7

1.1.1 Định nghĩa ................................................................................................ 7

1.1.2 Các hình thức sao chép ............................................................................ 8

1.2. Các kiến thức nền tảng ............................................................................... 9

1.2.1 Một số kiến thức nền tảng về ngôn ngữ tiếng Việt ................................ 10

1.2.2 Cơ sở lý thuyết về thuật toán LDA ........................................................ 13

1.2.3 Giới thiệu luật kết hợp và thuật toán Apriori ......................................... 14

1.2.4 Giới thiệu mạng nơ ron hồi quy RNN ................................................... 16

1.2.5 Giới thiệu mạng LSTM xếp chồng ........................................................ 18

1.3 Các nghiên cứu về phát hiện sao chép trên thế giới .................................. 22

1.3.1 Trích rút từ khóa ..................................................................................... 24

1.3.2 Phát hiện đoạn sao chép ......................................................................... 28

1.4 Các hướng tiếp cận phát hiện sao chép trong nước .................................. 35

1.5 Kho ngữ liệu và phương pháp đánh giá .................................................... 36

1.5.1 Kho ngữ liệu thử nghiệm ....................................................................... 36

1.5.2 Phương pháp đánh giá ............................................................................ 39

1.6 Những vấn đề luận án cần tập trung nghiên cứu giải quyết ...................... 41

1.7 Kết luận Chương 1 .................................................................................... 42

CHƯƠNG 2 TRÍCH RÚT TỪ KHÓA DỰA TRÊN MÔ HÌNH HỌC

SÂU ................................................................................................................. 43

2.1 Đặt vấn đề .................................................................................................. 43

2.2 Phát biểu bài toán tìm tập tài liệu ứng cử và bài toán trích rút từ khóa .... 43

2.3 Đề xuất ý tưởng ......................................................................................... 45

2.4 Trích rút từ khóa dựa trên kỹ thuật trích rút đặc trưng và mô hình mạng

FFNN ............................................................................................................... 46

2.4.1 Nội dung đề xuất .................................................................................... 46

2.4.2 Đánh giá thử nghiệm .............................................................................. 55

2.5 Kết luận Chương 2 .................................................................................... 61

CHƯƠNG 3 PHÁT HIỆN ĐOẠN SAO CHÉP GIỮA HAI TÀI LIỆU

DỰA TRÊN CÁC MÔ HÌNH HỌC MÁY ..................................................... 62

3.1 Đặt vấn đề .................................................................................................. 62

3.2 Phát biểu bài toán phát hiện đoạn sao chép .............................................. 62

3.3 Đề xuất ý tưởng ......................................................................................... 63

3.4 Mô hình chủ đề cho bài toán phát hiện đoạn sao chép ............................. 64

3.4.1 Đề xuất giải pháp ................................................................................... 65

Tài liệu liên quan

Mô phỏng 3D vệt dầu loang tại vùng biển Việt Nam: Tóm tắt Luận án Tiến sĩ về nghiên cứu và dự đoán chuyển động

Tóm tắt Luận án Tiến sĩ: Nghiên cứu mô phỏng và dự đoán chuyển động của vệt dầu loang tại vùng biển Việt Nam dựa trên phương pháp mô phỏng 3D

Báo cáo thực tập: Nghiên cứu bài toán Geocoding và phát triển ứng dụng minh họa

Luận án Tiến sĩ Kỹ thuật trắc địa - bản đồ: Nghiên cứu phương pháp xác định dòng chảy bề mặt trên vùng biển Việt Nam từ số liệu đo cao vệ tinh phục vụ cho một số hoạt động của Hải quân Việt Nam

Luận án Tiến sĩ Toán học: Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng Việt

Chủ đề:

Tài liệu liên quan

Tài liêu mới

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi