Giới thiệu tài liệu
Tài liệu này giới thiệu về bài toán phân tích cảm xúc văn bản tiếng Việt, một lĩnh vực nghiên cứu quan trọng trong xử lý ngôn ngữ tự nhiên (NLP). Mục tiêu chính là nhận diện và phân loại cảm xúc của người viết về một chủ đề cụ thể, ví dụ như tích cực, tiêu cực hoặc trung lập. Ứng dụng của phân tích cảm xúc văn bản rất đa dạng, từ thương mại, truyền thông, tài chính đến y tế, an ninh và học thuật.
Đối tượng sử dụng
Sinh viên, nhà nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên, những người quan tâm đến phân tích cảm xúc văn bản tiếng Việt.
Nội dung tóm tắt
Tài liệu này trình bày chi tiết về quá trình phân tích cảm xúc văn bản tiếng Việt sử dụng mô hình PhoBERT và so sánh với phương pháp máy học SVM. Dữ liệu được sử dụng là các bình luận nhận xét về khách sạn, được gán nhãn theo ba loại cảm xúc: tích cực, tiêu cực và trung tính. Quá trình tiền xử lý dữ liệu bao gồm mapping teencode và các từ viết tắt, phân đoạn từ bằng VNCoreNLP và loại bỏ stopword. Mô hình PhoBERT được huấn luyện trên tập dữ liệu lớn và được đánh giá bằng các độ đo accuracy và F1-weighted. Kết quả cho thấy PhoBERT vượt trội hơn so với SVM về hiệu suất, tuy nhiên đòi hỏi nhiều tài nguyên hơn. Mô hình có xu hướng thiên vị lớp positive nhiều nhất, lớp neutral khó phân loại do sự mơ hồ về hàm ý ẩn bên trong câu và có quá ít mẫu dữ liệu thuộc về lớp neutral so với những lớp còn lại. Hướng phát triển bao gồm cải thiện độ chính xác, phát triển tập dữ liệu, phân tích cảm xúc đa chiều, xây dựng giao diện người dùng và đa ngôn ngữ.