
154 | KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2024
...................................................................................................................................................................................
PHÂN TÍCH CẢM XÚC ĐA NGÔN NGỮ:
CƠ HỘI VÀ THÁCH THỨC
TRẦN NGỌC HÀ* - NGUYỄN NGỌC VŨ**
Tóm tắt: Trong thời đại kỷ nguyên số, sự ra đời và phát triển nhanh chóng của mạng
Internet và các nền tảng số đã tạo ra dữ liệu văn bản có kích thước lớn và làm thay đổi hoàn
toàn cách con người trên toàn cầu giao tiếp và biểu đạt cảm xúc. Tuy nhiên, việc thực hiện
nhiệm vụ phân tích cảm xúc trở nên khó khăn khi áp dụng cho các văn bản nhiều ngôn ngữ vì
nó không chỉ đòi hỏi các kỹ thuật tiền xử lý và trích xuất tính năng cụ thể cho ngôn ngữ đó mà
còn đòi hỏi sự phát triển và điều chỉnh các mô hình học máy có thể xử lý sự phức tạp của các
ngôn ngữ khác nhau. Mục tiêu của bài nghiên cứu này là cung cấp một cái nhìn tổng quan về
các cơ hội và thách thức trong việc thực hiện phân tích cảm xúc trên nhiều ngôn ngữ khác
nhau, đồng thời đề xuất các giải pháp tiếp cận để giải quyết những vấn đề hiện tại và gợi ý quy
trình thực hiện phân tích cảm xúc đa ngôn ngữ.
Từ khóa: Phân tích cảm xúc, khai thác ý kiến, đa ngôn ngữ, ngôn ngữ học tính toán,
xử lý ngôn ngữ tự nhiên.
I. Giới Thiệu
1. Tổng Quan về Phân Tích Cảm Xúc
Phân tích cảm xúc là một lĩnh vực đang phát triển tại giao điểm của Ngôn ngữ học và
Khoa học máy tính (Taboada, 2016). Theo Liu (2020), thuật ngữ phân tích cảm xúc (Sentiment
Analysis) đã được sử dụng lần đầu tiên trong nghiên cứu của Nasukawa và Yi (2003) và thuật
ngữ khai thác ý kiến (Data Mining) xuất hiện lần đầu tiên trong bài báo của Dave và cộng sự
(2003). Theo ông, phân tích cảm xúc, còn được gọi là khai thác ý kiến, là lĩnh vực nghiên cứu
ý kiến, tình cảm, đánh giá, thái độ và cảm xúc của con người đối với các thực thể và tính cách
của chúng ta được thể hiện thông qua văn bản. Để hiểu rõ nghĩa hơn, Nguyễn (2024) nhấn
mạnh rằng phân tích cảm xúc là một trong những ứng dụng quan trọng của ngôn ngữ học tính
toán (Computational Linguistics), sử dụng các thuật toán để xử lý ngôn ngữ tự nhiên (Natural
Language Processing) với các phương pháp phổ biến bao gồm máy học (Machine Learning),
bộ từ vựng (Lexicon-based), hoặc kết hợp cả hai (Hồ & cộng sự, 2024).
Ở khía cạnh ngôn ngữ, lĩnh vực này nghiên cứu việc xác định, trích xuất, định lượng
và phân tích các cảm xúc được thể hiện ở cấp độ từ (Word level), cấp độ câu (Sentence level)
và cấp độ văn bản (Document level) và dự đoán sự phân cực của chúng (tích cực, tiêu cực,
trung tính) (Rhanoui & cộng sự, 2019). Taboada (2016) đã thực hiện nghiên cứu về phân tích
cảm xúc trích xuất thông tin từ các từ tích cực và tiêu cực trong văn bản, từ ngữ cảnh của
* ThS, Trường Đại học Ngoại ngữ - Tin học TP. Hồ Chí Minh; Email: hatn@huflit.edu.vn
** PGS.TS, Trường Đại học Ngoại ngữ - Tin học TP. Hồ Chí Minh; Email: vunn@huflit.edu.vn