Giới thiệu tài liệu
Đề án này tập trung vào việc nghiên cứu và phát triển một mô hình hiệu quả để phát hiện độ tương đồng giữa các văn bản, sử dụng phương pháp học chuyển giao. Vấn đề đạo văn và sao chép nội dung ngày càng trở nên phổ biến, đặc biệt trong môi trường học thuật và nghiên cứu. Do đó, việc xây dựng một công cụ có khả năng xác định mức độ tương đồng giữa các văn bản là vô cùng quan trọng để bảo vệ quyền sở hữu trí tuệ và đảm bảo tính trung thực trong công việc nghiên cứu.
Đối tượng sử dụng
Sinh viên, nhà nghiên cứu, và những người quan tâm đến lĩnh vực xử lý ngôn ngữ tự nhiên và phát hiện đạo văn.
Nội dung tóm tắt
Đề án này tập trung vào việc nghiên cứu và phát triển một mô hình phát hiện độ tương đồng văn bản, sử dụng phương pháp học chuyển giao. Mô hình này được xây dựng dựa trên kiến trúc Transformer và các mô hình ngôn ngữ tiền huấn luyện như BERT và PhoBERT. Quá trình nghiên cứu bao gồm các bước: (1) Nghiên cứu tổng quan về độ tương đồng văn bản và các phương pháp tính toán độ tương đồng; (2) Nghiên cứu các phương pháp tiền xử lý dữ liệu, vectơ hóa văn bản, và các thuật toán học sâu liên quan; (3) Xây dựng và thử nghiệm mô hình phát hiện độ tương đồng văn bản dựa trên PhoBERT. Đề án cũng trình bày chi tiết về quá trình thu thập và xử lý dữ liệu, cũng như các thử nghiệm đánh giá hiệu quả của mô hình. Kết quả cho thấy mô hình có khả năng phát hiện độ tương đồng giữa các văn bản một cách chính xác, bao gồm cả các văn bản có nội dung tương tự và khác biệt.