Giới thiệu tài liệu
Tài liệu này giới thiệu về một bộ dữ liệu mới cho tóm tắt tin tức tiếng Việt, được xây dựng để hỗ trợ các nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên. Bộ dữ liệu này bao gồm hàng triệu bài báo và được thiết kế để phục vụ việc huấn luyện trước liên tục cho các mô hình ngôn ngữ lớn.
Đối tượng sử dụng
Sinh viên, nhà nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên, đặc biệt là những người quan tâm đến tóm tắt văn bản và xây dựng bộ dữ liệu.
Nội dung tóm tắt
Tài liệu này trình bày chi tiết về quá trình xây dựng và đánh giá một bộ dữ liệu lớn cho tóm tắt tin tức tiếng Việt. Bộ dữ liệu này, được gọi là BKAI News Corpus, bao gồm khoảng 32 triệu bài báo đã được làm sạch, loại bỏ trùng lặp và định dạng đặc biệt để phù hợp với việc huấn luyện trước liên tục cho các mô hình ngôn ngữ lớn. Quá trình xây dựng bộ dữ liệu bao gồm việc thu thập tin tức, phân nhóm các bài báo liên quan trong khoảng thời gian 3 ngày, tạo các cặp tóm tắt-bài báo bằng cách sử dụng câu đầu tiên của một bài báo làm tóm tắt cho các bài báo khác trong cùng nhóm, và áp dụng một loạt các bộ lọc để đảm bảo chất lượng của các cặp tóm tắt-bài báo. Các bộ lọc này bao gồm các heuristic, kiểm tra tính nhất quán về mặt thông tin, độ bao phủ và tính trừu tượng. Bộ dữ liệu được chia thành các tập huấn luyện, kiểm tra và xác thực dựa trên ngày xuất bản của mỗi bài báo, và được đánh giá bằng các phương pháp tự động và thủ công để đảm bảo chất lượng và tính hữu ích của nó cho các nghiên cứu trong lĩnh vực tóm tắt tin tức tiếng Việt.