Tóm tắt văn bản tiếng Việt dựa trên bộ hệ số đặc trưng
Bài báo này đề xuất một tiếp cận mới trong tóm tắt văn bản tiếng Việt theo hướng trích rút dựa trên bộ hệ số của 8 đặc trưng quan trọng (vị trí câu, độ dài câu, trọng số TFxISF, xác suất thực từ, thực thể tên, thực thể số, độ tương tự với tiêu đề, câu trung tâm). Bộ hệ số đặc trưng này được xác định bằng phương pháp học máy sử dụng giải thuật tối ưu đàn kiến (ACO-Ant Colony Optimization) trên kho ngữ liệu huấn luyện. Mời các bạn tham khảo!