
154 | KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2024
...................................................................................................................................................................................
PHÂN TÍCH CẢM XÚC ĐA NGÔN NGỮ:
CƠ HỘI VÀ THÁCH THỨC
TRẦN NGỌC HÀ* - NGUYỄN NGỌC VŨ**
Tóm tắt: Trong thời đại kỷ nguyên số, sự ra đời và phát triển nhanh chóng của mạng
Internet và các nền tảng số đã tạo ra dữ liệu văn bản có kích thước lớn và làm thay đổi hoàn
toàn cách con người trên toàn cầu giao tiếp và biểu đạt cảm xúc. Tuy nhiên, việc thực hiện
nhiệm vụ phân tích cảm xúc trở nên khó khăn khi áp dụng cho các văn bản nhiều ngôn ngữ vì
nó không chỉ đòi hỏi các kỹ thuật tiền xử lý và trích xuất tính năng cụ thể cho ngôn ngữ đó mà
còn đòi hỏi sự phát triển và điều chỉnh các mô hình học máy có thể xử lý sự phức tạp của các
ngôn ngữ khác nhau. Mục tiêu của bài nghiên cứu này là cung cấp một cái nhìn tổng quan về
các cơ hội và thách thức trong việc thực hiện phân tích cảm xúc trên nhiều ngôn ngữ khác
nhau, đồng thời đề xuất các giải pháp tiếp cận để giải quyết những vấn đề hiện tại và gợi ý quy
trình thực hiện phân tích cảm xúc đa ngôn ngữ.
Từ khóa: Phân tích cảm xúc, khai thác ý kiến, đa ngôn ngữ, ngôn ngữ học tính toán,
xử lý ngôn ngữ tự nhiên.
I. Giới Thiệu
1. Tổng Quan về Phân Tích Cảm Xúc
Phân tích cảm xúc là một lĩnh vực đang phát triển tại giao điểm của Ngôn ngữ học và
Khoa học máy tính (Taboada, 2016). Theo Liu (2020), thuật ngữ phân tích cảm xúc (Sentiment
Analysis) đã được sử dụng lần đầu tiên trong nghiên cứu của Nasukawa và Yi (2003) và thuật
ngữ khai thác ý kiến (Data Mining) xuất hiện lần đầu tiên trong bài báo của Dave và cộng sự
(2003). Theo ông, phân tích cảm xúc, còn được gọi là khai thác ý kiến, là lĩnh vực nghiên cứu
ý kiến, tình cảm, đánh giá, thái độ và cảm xúc của con người đối với các thực thể và tính cách
của chúng ta được thể hiện thông qua văn bản. Để hiểu rõ nghĩa hơn, Nguyễn (2024) nhấn
mạnh rằng phân tích cảm xúc là một trong những ứng dụng quan trọng của ngôn ngữ học tính
toán (Computational Linguistics), sử dụng các thuật toán để xử lý ngôn ngữ tự nhiên (Natural
Language Processing) với các phương pháp phổ biến bao gồm máy học (Machine Learning),
bộ từ vựng (Lexicon-based), hoặc kết hợp cả hai (Hồ & cộng sự, 2024).
Ở khía cạnh ngôn ngữ, lĩnh vực này nghiên cứu việc xác định, trích xuất, định lượng
và phân tích các cảm xúc được thể hiện ở cấp độ từ (Word level), cấp độ câu (Sentence level)
và cấp độ văn bản (Document level) và dự đoán sự phân cực của chúng (tích cực, tiêu cực,
trung tính) (Rhanoui & cộng sự, 2019). Taboada (2016) đã thực hiện nghiên cứu về phân tích
cảm xúc trích xuất thông tin từ các từ tích cực và tiêu cực trong văn bản, từ ngữ cảnh của
* ThS, Trường Đại học Ngoại ngữ - Tin học TP. Hồ Chí Minh; Email: hatn@huflit.edu.vn
** PGS.TS, Trường Đại học Ngoại ngữ - Tin học TP. Hồ Chí Minh; Email: vunn@huflit.edu.vn

NGÔN NGỮ HỌC TÍNH TOÁN: NHỮNG XU HƯỚNG MỚI, TRIỂN VỌNG VÀ THÁCH THỨC | 155
...................................................................................................................................................................................
những từ đó và từ cấu trúc ngôn ngữ của văn bản. Trần và Tiếu (2020) đã cụ thể hóa các cấp
độ trên qua ba bài toán chính trong phân tích cảm xúc bao gồm phân tích cảm xúc mức từ,
cụm từ, xây dựng từ điển, phân tích cảm xúc mức văn bản, và phân tích cảm xúc mức khía
cạnh. 2. Tầm Quan Trọng của Phân Tích Cảm Xúc
Khi thế giới của chúng ta ngày càng số hóa với nhiều nền tảng kỹ thuật đa phương tiện,
phân tích cảm xúc mang lại nhiều lợi ích quan trọng. Đầu tiên, nó giúp chúng ta hiểu rõ hơn
về cách con người truyền đạt cảm xúc trong giao tiếp hiện đại bằng cách sử dụng cả văn bản
và các công cụ đa phương tiện như hình ảnh, biểu tượng và biểu cảm. Theo Trần and Tiếu
(2020), phân tích cảm xúc hiện đang là bài toán nhận được rất nhiều sự quan tâm trong nghiên
cứu và cả trong doanh nghiệp bởi tiềm năng ứng dụng trong nhiều lĩnh vực. Trên phương diện
giáo dục, phân tích cảm xúc giúp chúng ta hiểu được tâm tư, tình cảm và nguyện vọng của
người dạy và người học để nâng cao chất lượng dạy và học. Trong lĩnh vực thương mại điện
tử, việc phân tích cảm xúc của khách hàng giúp các doanh nghiệp, nhà quản trị hiểu được các
ưu nhược điểm về sản phẩm, dịch vụ và cải thiện trải nghiệm người dùng để cải thiện chiến
lược kinh doanh tốt hơn (Nguyễn & Hồ, 2021). Về mặt truyền thông và tổ chức sự kiện, chúng
ta theo dõi và phân tích cảm xúc trên các phương tiện truyền thông xã hội để đánh giá hiệu
quả của các chiến dịch truyền thông, quảng cáo và công tác tổ chức các sự kiện. Về lĩnh vực
nghiên cứu xã hội và khoa học, phân tích cảm xúc của công chúng về các vấn đề xã hội, chính
trị và khoa học để hiểu sâu hơn về dư luận, hành vi và thái độ của con người.
3. Ý Nghĩa của Phân Tích Cảm Xúc Đa Ngôn Ngữ
Nguyễn (2005) đã nhận định trong bài báo Chức năng biểu cảm của Ngôn ngữ rằng
ngôn ngữ là phương tiện quan trọng nhất và hiệu quả nhất để truyền đạt các sắc thái biểu cảm
khác nhau một cách sinh động và hoàn chỉnh. Mỗi ngôn ngữ ở các cấp độ khác nhau đều có
khả năng thể hiện được các sắc thái tâm lý, tình cảm của người nói, thể hiện bằng thái độ hoặc
nhận xét, đánh giá của người nói đối với các sự vật, hiện tượng khách quan. Chính vì vậy mà
việc nghiên cứu các phương thức thể hiện sắc thái biểu cảm trong từng ngôn ngữ là rất cần
thiết và hữu ích đối với những người đang nghiên cứu, giảng dạy và học ngôn ngữ. Phân tích
cảm xúc đa ngôn ngữ liên quan đến việc sử dụng các phương pháp phân tích cảm xúc vào dữ
liệu văn bản trên nhiều ngôn ngữ. Phân tích cảm xúc đa ngôn ngữ cần các kỹ thuật xử lý ngôn
ngữ tự nhiên mới để hiểu rõ hơn về hành vi, thái độ và xu hướng liên văn hóa. Khi lĩnh vực
xử lý ngôn ngữ tự nhiên tiếp tục phát triển, tầm quan trọng của phân tích cảm xúc đa ngôn ngữ
sẽ ngày càng gia tăng.
4. Mục tiêu của nghiên cứu
Mục tiêu chính của nghiên cứu này bao gồm:
(1) xác định các cơ hội chính mà phân tích cảm xúc đa ngôn ngữ mang lại trong
bối cảnh toàn cầu hóa,

156 | KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2024
...................................................................................................................................................................................
(2) nghiên cứu các thách thức và khó khăn chính mà các nhà nghiên cứu gặp phải
khi thực hiện phân tích cảm xúc đa ngôn ngữ, đặc biệt là những khó khăn liên quan đến sự
khác biệt về ngôn ngữ và văn hóa,
(3) đề xuất các giải pháp và chiến lược hiệu quả để vượt qua các thách thức của
phân tích cảm xúc đa ngôn ngữ, nhằm phát huy tối đa tiềm năng của phương pháp này,
(4) gợi ý quy trình thực hiện phân tích cảm xúc đa ngôn ngữ.
II. Cơ Hội Trong Phân Tích Cảm Xúc Đa Ngôn Ngữ
1. Phát Triển Công Nghệ và Dữ Liệu
Phân tích cảm xúc đa ngôn ngữ đang trở nên quan trọng hơn trong bối cảnh toàn cầu
hóa. Các mô hình ngôn ngữ lớn và học sâu như BERT (Bidirectional Encoder Representations
from Transformers), mBERT (multilingual BERT), XLM-R (Cross-Lingual Language Model
with RoBERTa architecture), CNN (Convolutional Neural Networks), BiLSTM (Bidirectional
Long Short-Term Memory), BiDAF (Bi-Directional Attention Flow) và MNB (Multinomial
Naive Bayes) đã tạo ra nhiều cơ hội hơn để tăng cường khả năng xử lý ngôn ngữ tự nhiên
(NLP) với dữ liệu đa ngôn ngữ.
Một trong những cơ hội chính là khả năng hiểu và phân tích cảm xúc chính xác hơn
qua nhiều ngôn ngữ và bối cảnh văn hóa khác nhau. Các mô hình học sâu đa ngôn ngữ như
mBERT và XLM-R có thể học được các đặc trưng ngôn ngữ và văn hóa sâu hơn, giúp cải
thiện độ chính xác của phân tích cảm xúc (Coneau & cộng sự, 2020; Devlin & cộng sự, 2018).
Mô hình CNN-BiLSTM liên quan đến nhúng từ Doc2vec vượt trội hơn các mô hình khác và
đạt độ chính xác 90,66% trong việc phân loại các bài báo của Pháp (Rhanoui & cộng sự, 2019).
Lương (2023) đã sử dụng mô hình BiDAF để thực hiện phân tích tình cảm trên các đánh giá
sản phẩm của Amazon ở cấp độ câu đạt độ chính xác lên đến 99,9%. Mô hình BiDAF là một
mô hình xử lý nhiều lớp phản ánh ngữ cảnh ở nhiều cấp độ và sử dụng mô hình BiLSTM.
Abbas và cộng sự (2019) đã đạt được kết quả đáng kể về hiệu suất phân loại văn bản qua đánh
giá phim dựa trên tình cảm tổng thể (tích cực/tiêu cực) với sự trợ giúp của Mô hình MNB đa
thức. Thuật toán MNB là một thuật toán hiện đại có khả năng phân loại một số lượng lớn tài
liệu văn bản nhanh, hiệu quả, dễ thực hiện. Das và cộng sự (2023) sử dụng các mô hình Máy
vector hỗ trợ (SVM) để phân tích cảm xúc với hiệu suất vượt trội so với các mô hình khác, đạt
được độ chính xác 82,56% đối với phân tích cảm xúc văn bản tiếng Anh và 86,43% đối với
phân tích cảm xúc văn bản tiếng Bangla.
Sự phát triển của các công cụ xử lý ngôn ngữ tự nhiên (NLP) hiện đại cũng mở ra
những cơ hội mới để khai thác và phân tích dữ liệu cảm xúc trên toàn thế giới. Các kỹ thuật
như phân tích chủ đề, phân loại cảm xúc và chiết xuất thông tin được tăng cường đáng kể, cho
phép các nhà nghiên cứu và doanh nghiệp hiểu sâu hơn về các mẫu hành vi, quan điểm và xu
hướng xã hội xuyên văn hóa (Hutto & Gilbert, 2014; Liu, 2020).

NGÔN NGỮ HỌC TÍNH TOÁN: NHỮNG XU HƯỚNG MỚI, TRIỂN VỌNG VÀ THÁCH THỨC | 157
...................................................................................................................................................................................
Tóm lại, sự phát triển của các mô hình ngôn ngữ lớn và học sâu cũng như sự tiến bộ
của các công cụ xử lý ngôn ngữ tự nhiên đã mở ra nhiều cơ hội mới cho phân tích cảm xúc đa
ngôn ngữ. Các ứng dụng của công nghệ này có thể mang lại lợi ích to lớn trong các lĩnh vực
như quản lý khủng hoảng, nghiên cứu thị trường và phát triển sản phẩm, góp phần hiểu và
phục vụ khách hàng trên quy mô toàn cầu.
2. Mở Rộng Ứng Dụng và Thị Trường
Phân tích cảm xúc đa ngôn ngữ đóng vai trò quan trọng trong việc hiểu sâu hơn về
hành vi, thái độ và mối quan tâm của khách hàng trên quy mô toàn cầu. Nó giúp tối ưu hóa nội
dung tiếp thị, thông điệp quảng cáo dựa trên phân tích cảm xúc khách hàng đa ngôn ngữ để
tăng hiệu quả tiếp cận và cải thiện các hoạt động marketing (Ravi & Ravi, 2015); giám sát và
phân tích các cuộc thảo luận và nhận xét về thương hiệu trên các phương tiện truyền thông xã
hội đa ngôn ngữ, nhằm phát hiện sớm các vấn đề tiềm ẩn và khắc phục kịp thời nhằm xây dựng
định vị thương hiệu phù hợp với văn hóa và thị hiếu của từng thị trường (Mostafa, 2013); cá
nhân hóa trải nghiệm khách hàng dựa trên phân tích cảm xúc đa ngôn ngữ để tăng sự hài lòng
và trung thành của khách hàng trên các thị trường toàn cầu (Cambria & cộng sự, 2017) từ đó
cung cấp các sản phẩm, dịch vụ phù hợp hơn (Pang & Lee, 2008). Do đó, phân tích cảm xúc
đa ngôn ngữ cung cấp cho các doanh nghiệp đa quốc gia nhiều cơ hội ứng dụng quan trọng để
cải thiện quảng cáo, quản lý thương hiệu và quan hệ khách hàng trên toàn cầu.
3. Tăng cường hiểu biết liên văn hóa và ngôn ngữ học so sánh đối chiếu
Phân tích cảm xúc đa ngôn ngữ mang lại nhiều cơ hội quan trọng, đặc biệt là trong việc
hỗ trợ giao tiếp giữa các cộng đồng khác nhau và tăng cường hiểu biết sâu hơn về cảm xúc,
thái độ của con người. Phân tích cảm xúc bằng nhiều ngôn ngữ cho phép các nhà nghiên cứu,
nhà hoạch định chính sách và chuyên gia xã hội hiểu rõ hơn về hành vi, thái độ và xu hướng
xã hội liên văn hóa. Điều này cho phép họ đưa ra các quyết định và chính sách tốt hơn nhằm
tăng cường sự hiểu biết lẫn nhau giữa các cộng đồng (Lee & Kim, 2021; Smith, 2020). Ngoài
ra, phân tích cảm xúc đa ngôn ngữ mở ra nhiều cơ hội mới trong lĩnh vực ngôn ngữ học so
sánh đối chiếu; nó cho phép các nhà nghiên cứu và nhà ngôn ngữ học khám phá sâu hơn về
cách các ngôn ngữ khác nhau thể hiện và diễn giải cảm xúc (Thin & cộng sự, 2023; Das &
cộng sự, 2023).
III. Thách Thức Trong Phân Tích Cảm Xúc Đa Ngôn Ngữ
1. Khó Khăn Trong Xử Lý Ngôn Ngữ Tự Nhiên
Phân tích cảm xúc đa ngôn ngữ đóng vai trò ngày càng quan trọng trong việc hiểu và
phân tích hành vi của người dùng trên toàn cầu. Tuy nhiên, sự đa dạng về cú pháp, ngữ nghĩa
và từ vựng giữa các ngôn ngữ, sự mơ hồ của dữ liệu cũng như những khó khăn trong việc xây
dựng từ điển cảm xúc và tập dữ liệu đào tạo cho nhiều ngôn ngữ là một trong những trở ngại
của việc xử lý ngôn ngữ tự nhiên.

158 | KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2024
...................................................................................................................................................................................
Cấu trúc cú pháp, ngữ nghĩa và từ vựng của một ngôn ngữ thường không giống nhau.
Sự khác biệt này không chỉ là vấn đề về từ vựng hoặc quy tắc ngữ pháp mà mở rộng đến bản
chất của cách câu được cấu trúc trong các ngôn ngữ khác nhau. Mỗi ngôn ngữ đã tiến hóa với
một bộ cấu trúc cú pháp riêng biệt của nó, thường được ảnh hưởng sâu sắc bởi bối cảnh văn
hoá, lịch sử và xã hội của nó (Nguyễn & Nguyễn, 2023). Ví dụ, cấu trúc câu của một số ngôn
ngữ, chẳng hạn như tiếng Trung và tiếng Nhật, khác với cấu trúc của tiếng Anh. Hay khi dịch
một từ từ tiếng Anh sang tiếng Việt hoặc tiếng Trung, nó có thể có nhiều nghĩa khác nhau.
Điều này gây ra một số khó khăn trong việc xây dựng các mô hình xử lý ngôn ngữ đủ linh hoạt
để xử lý nhiều loại ngôn ngữ (Balahur & Turchi, 2012; Ghaffari, 2016; Mudinas & cộng sự,
2012). Một trong những thách thức chính trong phân tích tình cảm là tiếng ồn và sự mơ hồ
hiện diện trong dữ liệu văn bản. Dữ liệu văn bản có thể bị nhiễu do sự hiện diện của lỗi chính
tả, lỗi chính tả và các lỗi khác có thể gây khó khăn cho các thuật toán để xác định chính xác
cảm xúc của văn bản (Kumaresan & Thangaraju, 2023).
Để phân tích cảm xúc chính xác, chúng ta cần các từ điển cảm xúc chuyên biệt, phản
ánh chính xác cảm xúc trong từng ngôn ngữ. Tuy nhiên, việc xây dựng các từ điển đa ngôn
ngữ này là một công việc vô cùng tốn kém và đòi hỏi nhiều nguồn lực (Baccianella & cộng
sự, 2010; Nakov & cộng sự, 2019). Ngoài ra, việc thu thập và gán nhãn cảm xúc cho các tập
dữ liệu đa ngôn ngữ sử dụng cho việc đào tạo mô hình là một trong những thách thức lớn khác.
2. Hạn Chế của Các Mô Hình Ngôn Ngữ
Các mô hình ngôn ngữ trở nên quan trọng hơn trong việc xử lý và phân tích ngôn ngữ
tự nhiên trong thời đại kỹ thuật số hiện nay. Tuy nhiên, các mô hình này vẫn còn một số hạn
chế đáng kể, đặc biệt là về độ chính xác và khả năng truyền đạt thông tin. Mặc dù các mô hình
ngôn ngữ hiện đại như BERT, GPT-3 đã đạt được những bước tiến đáng kể về độ chính xác
so với các thế hệ trước, nhưng chúng vẫn còn nhiều hạn chế. Một trong những thách thức lớn
nhất là độ chính xác của các mô hình này khi áp dụng vào các ngôn ngữ ít phổ biến, do việc
thiếu dữ liệu huấn luyện đầy đủ. Trong bài nghiên cứu của mình, Magueresse và cộng sự
(2020) đã chỉ ra rằng các mô hình ngôn ngữ tài nguyên thấp thường có độ chính xác thấp hơn
đáng kể so với các ngôn ngữ tài nguyên cao. Ví dụ, tài nguyên cho phân tích cảm xúc tiếng
Việt hiện là vấ đề thách thức của giới nghiên cứu trong lĩnh vực này do còn nhiều hạn chế và
do nhiều nhóm nghiên cứu chưa công bố lên mạng để cho phép tải về (Trần & Tiếu, 2020).
Khả năng chuyển giao kiến thức của các mô hình ngôn ngữ là một vấn đề quan trọng
khác ngoài độ chính xác. Mặc dù các mô hình này thường được huấn luyện bằng cách sử dụng
một lượng lớn dữ liệu từ Internet, nhưng việc chuyển giao kiến thức và kỹ năng từ mô hình
sang người dùng vẫn còn nhiều thách thức. Theo nghiên cứu, người dùng thường khó hiểu và
áp dụng các kết quả từ các mô hình ngôn ngữ vào công việc thực tế (Chen & cộng sự, 2022).