Giới thiệu tài liệu
Trong bối cảnh hội nhập khu vực Đông Nam Á, rào cản ngôn ngữ, đặc biệt giữa Việt Nam và Lào, đang đặt ra thách thức trong giao lưu và trao đổi thông tin. Sự bùng nổ của dữ liệu văn bản trực tuyến đòi hỏi các giải pháp hiệu quả để xử lý và tóm tắt thông tin. Xử lý ngôn ngữ tự nhiên (NLP) và đặc biệt là bài toán tóm tắt văn bản (TTVB) nổi lên như một lĩnh vực trọng yếu, giúp người dùng nhanh chóng tiếp cận nội dung cốt lõi. Tuy nhiên, việc áp dụng các phương pháp NLP hiện đại cho tiếng Việt và tiếng Lào còn hạn chế. Đề tài này nhằm mục đích khảo sát các phương pháp TTVB tiên tiến, thử nghiệm với dữ liệu song ngữ để đánh giá hiệu quả và đóng góp vào việc phát triển công cụ hỗ trợ xử lý ngôn ngữ cho hai quốc gia.
Đối tượng sử dụng
Các nhà nghiên cứu, sinh viên chuyên ngành Khoa học Máy tính, Trí tuệ nhân tạo, Xử lý ngôn ngữ tự nhiên, đặc biệt những người quan tâm đến ngôn ngữ ít tài nguyên và ứng dụng cho tiếng Việt, tiếng Lào.
Nội dung tóm tắt
Đề án tập trung nghiên cứu sâu rộng về các phương pháp tóm tắt văn bản (TTVB) sử dụng Xử lý ngôn ngữ tự nhiên (NLP), đặc biệt là với dữ liệu tiếng Việt và tiếng Lào, nhằm giải quyết thách thức về rào cản ngôn ngữ và khối lượng thông tin khổng lồ. Luận văn bắt đầu bằng việc tổng quan về NLP và bài toán TTVB, phân loại TTVB thành tóm tắt trích xuất và tóm tắt tóm lược, đồng thời nêu bật tầm quan trọng cùng những ứng dụng thực tiễn trong nhiều lĩnh vực như tìm kiếm thông tin, truyền thông, giáo dục và tài chính. Luận văn khảo sát các phương pháp và mô hình NLP hiện đại, bao gồm các kiến trúc Transformer, BART, PEGASUS và T5, đồng thời phân tích những khó khăn chính trong TTVB như đảm bảo tính chính xác ngữ nghĩa, xử lý ngữ cảnh phức tạp, giới hạn dữ liệu huấn luyện và chi phí tính toán cao. Để kiểm chứng, đề án tiến hành thử nghiệm các mô hình đề xuất trên các tập dữ liệu thực tế như VietNews cho tiếng Việt và LaoNews Classification cho tiếng Lào. Quá trình này bao gồm thiết lập môi trường, xây dựng, huấn luyện và đánh giá hiệu năng của mô hình. Kết quả thử nghiệm cung cấp cái nhìn định lượng về mức độ phù hợp của các phương pháp NLP đối với đặc thù ngôn ngữ Việt và Lào, đặt nền tảng cho việc phát triển các ứng dụng dịch thuật và hỗ trợ giao tiếp song ngữ trong tương lai, góp phần thúc đẩy hợp tác khu vực Đông Nam Á.