154 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
PHÂN TÍCH CẢM XÚC ĐA NGÔN NGỮ:
CƠ HỘI VÀ THÁCH THC
TRN NGC HÀ* - NGUYN NGỌC VŨ**
Tóm tt: Trong thời đại k nguyên s, s ra đời phát trin nhanh chóng ca mng
Internet và các nn tng s đã tạo ra d liệu văn bn kích thước lớn làm thay đi hoàn
toàn cách con người trên toàn cu giao tiếp biểu đạt cm xúc. Tuy nhiên, vic thc hin
nhim v phân tích cm xúc tr nên khó khăn khi áp dụng cho các văn bản nhiu ngôn ng
nó không ch đòi hỏi các k thut tin x và trích xuất tính năng c th cho ngôn ng đó
còn đòi hỏi s phát triển và điều chnh các mô hình hc máy có th x lý s phc tp ca các
ngôn ng khác nhau. Mc tiêu ca bài nghiên cu này là cung cp mt cái nhìn tng quan v
các hi thách thc trong vic thc hin phân tích cm xúc trên nhiu ngôn ng khác
nhau, đồng thời đề xut các gii pháp tiếp cận để gii quyết nhng vấn đề hin ti gi ý quy
trình thc hin phân tích cảm xúc đa ngôn ngữ.
T khóa: Phân tích cm xúc, khai thác ý kiến, đa ngôn ngữ, ngôn ng hc tính toán,
x ngôn ng t nhiên.
I. Gii Thiu
1. Tng Quan v Phân Tích Cm Xúc
Phân tích cm xúc là một lĩnh vực đang phát trin tại giao điểm ca Ngôn ng hc và
Khoa hc y tính (Taboada, 2016). Theo Liu (2020), thut ng phân tích cm xúc (Sentiment
Analysis) đã được s dng lần đầu tiên trong nghiên cu ca Nasukawa và Yi (2003) và thut
ng khai thác ý kiến (Data Mining) xut hin lần đầu tiên trong bài báo ca Dave và cng s
(2003). Theo ông, phân tích cảm xúc, còn được gi là khai thác ý kiến, là lĩnh vực nghiên cu
ý kiến, tình cảm, đánh giá, thái độ cm xúc của con người đối vi các thc th và tính cách
của chúng ta được th hiện thông qua văn bản. Đ hiểu nghĩa hơn, Nguyn (2024) nhn
mnh rng phân tích cm xúc là mt trong nhng ng dng quan trng ca ngôn ng hc tính
toán (Computational Linguistics), s dng các thuật toán để x ngôn ng t nhiên (Natural
Language Processing) với các phương pháp ph biến bao gm máy hc (Machine Learning),
b t vng (Lexicon-based), hoc kết hp c hai (H & cng s, 2024).
khía cnh ngôn ngữ, nh vực y nghiên cu việc xác định, trích xuất, định lượng
và phân tích các cảm xúc được th hin cấp độ t (Word level), cấp độ câu (Sentence level)
cấp độ văn bản (Document level) d đoán sự phân cc ca chúng (tích cc, tiêu cc,
trung tính) (Rhanoui & cng s, 2019). Taboada (2016) đã thực hin nghiên cu v phân tích
cm xúc trích xut thông tin t các t tích cc tiêu cực trong văn bn, t ng cnh ca
* ThS, Trường Đi hc Ngoi ng - Tin hc TP. H Chí Minh; Email: hatn@huflit.edu.vn
** PGS.TS, Trường Đại hc Ngoi ng - Tin hc TP. H Chí Minh; Email: vunn@huflit.edu.vn
NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 155
...................................................................................................................................................................................
nhng t đó và t cu trúc ngôn ng của văn bn. Trn và Tiếu (2020) đã cụ th hóa các cp
độ trên qua ba bài toán chính trong phân tích cm xúc bao gm phân tích cm xúc mc t,
cm t, xây dng t điển, phân tích cm xúc mức văn bn, phân tích cm xúc mc khía
cnh. 2. Tm Quan Trng ca Phân Tích Cm Xúc
Khi thế giới ca chúng ta ngày càng số hóa với nhiều nền tảng k thuật đa phương tiện,
phân tích cảm xúc mang lại nhiều lợi ích quan trọng. Đầu tiên, giúp chúng ta hiểu rõ hơn
về cách con người truyền đạt cảm xúc trong giao tiếp hiện đại bằng cách sử dụng cả văn bản
các công cụ đa phương tiện như hình ảnh, biểu tượng biểu cảm. Theo Trn and Tiếu
(2020), phân tích cm xúc hiện đang là bài toán nhận được rt nhiu s quan tâm trong nghiên
cu và c trong doanh nghip bi tiềm năng ng dng trong nhiều lĩnh vực. Trên phương diện
giáo dc, phân tích cm xúc giúp chúng ta hiểu được tâm tư, tình cảm nguyn vng ca
người dy và người học đ nâng cao chất lượng dy và học. Trong lĩnh vực thương mại điện
t, vic phân tích cm xúc ca khách hàng giúp các doanh nghip, nhà qun tr hiểu được các
ưu nhược điểm v sn phm, dch v ci thin tri nghiệm người dùng đ ci thin chiến
c kinh doanh tốt hơn (Nguyn & H, 2021). V mt truyn thông t chc s kin, chúng
ta theo dõi phân tích cảm xúc trên các phương tiện truyn thông hội để đánh giá hiệu
qu ca các chiến dch truyn thông, qung cáo công tác t chc các s kin. V lĩnh vực
nghiên cu xã hi và khoa hc, phân tích cm xúc ca công chúng v các vấn đề xã hi, chính
tr và khoa học để hiểu sâu hơn về dư luận, hành vi và thái độ của con người.
3. Ý Nghĩa của Phân Tích Cảm Xúc Đa Ngôn Ngữ
Nguyn (2005) đã nhận định trong bài báo Chức năng biểu cảm của Ngôn ngữ rằng
ngôn ngữ là phương tiện quan trọng nhất và hiệu quả nhất để truyền đạt các sắc thái biểu cảm
khác nhau một cách sinh động hoàn chỉnh. Mi ngôn ng các cấp độ khác nhau đu
kh năng thể hiện được các sc thái tâm lý, tình cm của người nói, th hin bằng thái độ hoc
nhận xét, đánh giá của người nói đối vi các s vt, hiện tượng khách quan. Chính vì vy
vic nghiên cứu các phương thc th hin sc thái biu cm trong tng ngôn ng rt cn
thiết và hữu ích đối vi những người đang nghiên cu, ging dy và hc ngôn ng. Phân tích
cảm xúc đa ngôn ngữ liên quan đến vic s dụng các phương pháp phân tích cm xúc vào d
liệu văn bản trên nhiu ngôn ng. Phân tích cảm xúc đa ngôn ngữ cn các k thut xngôn
ng t nhiên mới để hiu hơn về hành vi, thái độ xu ớng liên văn hóa. Khi lĩnh vc
x ngôn ng t nhiên tiếp tc phát trin, tm quan trng ca phân tích cm xúc đa ngôn ngữ
s ngày càng gia tăng.
4. Mc tiêu ca nghiên cu
Mc tiêu chính ca nghiên cu này bao gm:
(1) xác định c hội chính phân tích cảm xúc đa ngôn ngữ mang li trong
bi cnh toàn cu hóa,
156 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
(2) nghiên cu các thách thc và khó khăn chính mà các nhà nghiên cu gp phi
khi thc hin phân tích cảm xúc đa ngôn ngữ, đặc bit những khó khăn liên quan đến s
khác bit v ngôn ng và văn hóa,
(3) đề xut các gii pháp chiến lược hiu qu để vượt qua các thách thc ca
phân tích cảm xúc đa ngôn ngữ, nhm phát huy tối đa tiềm năng của phương pháp này,
(4) gi ý quy trình thc hin phân tích cảm xúc đa ngôn ngữ.
II. Cơ Hội Trong Phân Tích Cảm Xúc Đa Ngôn Ngữ
1. Phát Trin Công Ngh và D Liu
Phân tích cảm xúc đa ngôn ngữ đang trở nên quan trọng hơn trong bối cảnh toàn cầu
hóa. Các hình ngôn ngữ lớn và học sâu như BERT (Bidirectional Encoder Representations
from Transformers), mBERT (multilingual BERT), XLM-R (Cross-Lingual Language Model
with RoBERTa architecture), CNN (Convolutional Neural Networks), BiLSTM (Bidirectional
Long Short-Term Memory), BiDAF (Bi-Directional Attention Flow) MNB (Multinomial
Naive Bayes) đã tạo ra nhiều hội hơn để tăng cường kh năng xử lý ngôn ng t nhiên
(NLP) vi d liệu đa ngôn ngữ.
Mt trong những hi chính kh năng hiu phân tích cảm xúc chính xác hơn
qua nhiu ngôn ng bi cảnh văn hóa khác nhau. Các hình học sâu đa ngôn ngữ như
mBERT XLM-R th học được các đặc trưng ngôn ngữ và văn hóa sâu hơn, giúp cải
thiện độ chính xác ca phân tích cm xúc (Coneau & cng s, 2020; Devlin & cng s, 2018).
hình CNN-BiLSTM liên quan đến nhúng t Doc2vec vượt tri hơn các hình khác
đạt độ chính xác 90,66% trong vic phân loi các bài báo ca Pháp (Rhanoui & cng s, 2019).
Lương (2023) đã s dụng hình BiDAF để thc hin phân tích tình cảm trên các đánh giá
sn phm ca Amazon cấp độ câu đạt độ chính xác lên đến 99,9%. hình BiDAF là mt
hình x lý nhiu lp phn ánh ng cnh nhiu cấp độ s dng hình BiLSTM.
Abbas và cng s (2019) đã đạt được kết qu đáng kể v hiu sut phân loại văn bản qua đánh
giá phim da trên tình cm tng th (tích cc/tiêu cc) vi s tr giúp ca hình MNB đa
thc. Thut toán MNB mt thut toán hiện đại kh năng phân loại mt s ng ln tài
liệu văn bản nhanh, hiu qu, d thc hin. Das và cng s (2023) s dng các mô hình Máy
vector h tr (SVM) để phân tích cm xúc vi hiu suất vưt tri so vi các mô hình khác, đạt
được độ chính xác 82,56% đối vi phân ch cảm xúc văn bản tiếng Anh 86,43% đối vi
phân tích cảm xúc văn bản tiếng Bangla.
S phát trin ca các công c x ngôn ng t nhiên (NLP) hiện đại cũng mở ra
những hội mới để khai thác phân tích d liu cm xúc trên toàn thế gii. Các k thut
như phân tích chủ đề, phân loi cm xúc và chiết xuất thông tin được tăng cường đáng kể, cho
phép các nhà nghiên cu và doanh nghip hiểu sâu hơn về các mẫu hành vi, quan điểm và xu
hướng xã hội xuyên văn hóa (Hutto & Gilbert, 2014; Liu, 2020).
NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 157
...................................................................................................................................................................................
Tóm li, s phát trin ca các hình ngôn ng ln hc sâu cũng như s tiến b
ca các công c xngôn ng t nhiên đã mở ra nhiều cơ hội mi cho phân tích cảm xúc đa
ngôn ng. Các ng dng ca công ngh này th mang li li ích to lớn trong các lĩnh vực
như quản khng hong, nghiên cu th trường phát trin sn phm, góp phn hiu
phc v khách hàng trên quy mô toàn cu.
2. M Rng ng Dng và Th Trường
Phân tích cảm xúc đa ngôn ngữ đóng vai trò quan trọng trong vic hiểu sâu hơn về
hành vi, thái độ mi quan tâm ca khách hàng trên quy mô toàn cu. Nó giúp tối ưu hóa nội
dung tiếp thị, thông điệp qung cáo da trên phân tích cảm xúc khách hàng đa ngôn ngữ đ
tăng hiệu qu tiếp cn và ci thin các hoạt động marketing (Ravi & Ravi, 2015); giám sát và
phân tích các cuc tho lun và nhn xét v thương hiệu trên các phương tiện truyn thông xã
hội đa ngôn ngữ, nhm phát hin sm các vấn đề tim n khc phc kp thi nhm xây dng
định v thương hiệu phù hp với văn hóa th hiếu ca tng th trường (Mostafa, 2013);
nhân hóa tri nghim khách hàng da trên phân tích cảm xúc đa ngôn ngữ để tăng sự hài lòng
và trung thành ca khách hàng trên các th trường toàn cu (Cambria & cng s, 2017) t đó
cung cp các sn phm, dch v phù hợp hơn (Pang & Lee, 2008). Do đó, phân tích cảm xúc
đa ngôn ngữ cung cp cho các doanh nghiệp đa quốc gia nhiều cơ hội ng dng quan trọng để
ci thin qung cáo, quản lý thương hiệu và quan h khách hàng trên toàn cu.
3. Tăng cường hiu biết liên văn hóa và ngôn ng hc so sánh đi chiếu
Phân tích cảm xúc đa ngôn ngữ mang li nhiều hội quan trọng, đặc bit trong vic
h tr giao tiếp gia các cộng đồng khác nhau tăng ng hiu biết sâu hơn về cm xúc,
thái độ của con người. Phân tích cm xúc bng nhiu ngôn ng cho phép các nhà nghiên cu,
nhà hoch định chính sách chuyên gia hi hiểu rõ hơn về hành vi, thái đ và xu hưng
hội liên văn hóa. Điu này cho phép h đưa ra các quyết định và chính sách tốt hơn nhằm
tăng cường s hiu biết ln nhau gia các cộng đồng (Lee & Kim, 2021; Smith, 2020). Ngoài
ra, phân tích cảm xúc đa ngôn ng m ra nhiều hi mới trong lĩnh vực ngôn ng hc so
sánh đối chiếu; cho phép các nhà nghiên cu nhà ngôn ng học khám phá sâu hơn v
cách các ngôn ng khác nhau th hin din gii cm xúc (Thin & cng s, 2023; Das &
cng s, 2023).
III. Thách Thc Trong Phân Tích Cảm Xúc Đa Ngôn Ngữ
1. Khó Khăn Trong Xử Lý Ngôn Ng T Nhiên
Phân tích cảm xúc đa ngôn ngữ đóng vai trò ngày càng quan trọng trong việc hiểu
phân tích hành vi của người dùng trên toàn cầu. Tuy nhiên, sự đa dạng về cú pháp, ngữ nghĩa
và từ vựng gia các ngôn ngữ, sự mơ hồ của dữ liệu cũng như những khó khăn trong việc xây
dựng từ điển cảm xúc và tập dữ liệu đào tạo cho nhiều ngôn ngữ là một trong những trở ngại
của việc xử lý ngôn ngữ tự nhiên.
158 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
Cu trúc cú pháp, ng nghĩa và từ vng ca mt ngôn ng thường không ging nhau.
S khác bit này không ch là vấn đ v t vng hoc quy tc ng pháp m rộng đến bn
cht của cách câu được cu trúc trong các ngôn ng khác nhau. Mi ngôn ng đã tiến hóa vi
mt b cu trúc pháp riêng bit của nó, thường được ảnh hưởng sâu sc bi bi cảnh văn
hoá, lch s và xã hi ca nó (Nguyn & Nguyn, 2023). Ví d, cu trúc câu ca mt s ngôn
ng, chng hạn như tiếng Trung và tiếng Nht, khác vi cu trúc ca tiếng Anh. Hay khi dch
mt t t tiếng Anh sang tiếng Vit hoc tiếng Trung, th nhiều nghĩa khác nhau.
Điu này gây ra mt s khó khăn trong vic xây dng các mô hình x ngôn ng đủ linh hot
để x lý nhiu loi ngôn ng (Balahur & Turchi, 2012; Ghaffari, 2016; Mudinas & cng s,
2012). Mt trong nhng thách thc chính trong phân tích tình cm tiếng n s hồ
hin din trong d liệu văn bản. D liệu văn bản có th b nhiu do s hin din ca li chính
t, li chính t các li khác th gây khó khăn cho các thuật toán để xác định chính xác
cm xúc của văn bản (Kumaresan & Thangaraju, 2023).
Để phân tích cm xúc chính xác, chúng ta cn các t điển cm xúc chuyên bit, phn
ánh chính xác cm xúc trong tng ngôn ng. Tuy nhiên, vic xây dng các t điển đa ngôn
ng y mt công vic cùng tốn kém đòi hỏi nhiu ngun lc (Baccianella & cng
s, 2010; Nakov & cng s, 2019). Ngoài ra, vic thu thp và gán nhãn cm xúc cho các tp
d liệu đa ngôn ngữ s dng cho vic đào tạo hình mt trong nhng thách thc ln khác.
2. Hn Chế ca Các Mô Hình Ngôn Ng
Các mô hình ngôn ngữ trở nên quan trọng hơn trong việc xử lý và phân tích ngôn ngữ
tự nhiên trong thời đại kỹ thuật số hiện nay. Tuy nhiên, các mô hình y vẫn còn một số hạn
chế đáng kể, đặc biệt là về độ chính xác và khả năng truyền đạt thông tin. Mc dù các mô hình
ngôn ng hiện đại như BERT, GPT-3 đã đạt được những bước tiến đáng k v độ chính xác
so vi các thế h trước, nhưng chúng vẫn còn nhiu hn chế. Mt trong nhng thách thc ln
nhất độ chính xác ca các hình y khi áp dng vào các ngôn ng ít ph biến, do vic
thiếu d liu hun luyện đầy đủ. Trong bài nghiên cu ca mình, Magueresse cng s
(2020) đã chỉ ra rng các mô hình ngôn ng tài nguyên thấp thường có độ chính xác thấp hơn
đáng kể so vi các ngôn ng tài nguyên cao. d, tài nguyên cho phân tích cm xúc tiếng
Vit hin là v đề thách thc ca gii nghiên cứu trong lĩnh vực này do còn nhiu hn chế
do nhiu nhóm nghiên cứu chưa công bố lên mạng để cho phép ti v (Trn & Tiếu, 2020).
Kh năng chuyển giao kiến thc ca các hình ngôn ng là mt vấn đề quan trng
khác ngoài độ chính xác. Mặc dù các mô hình này thường được hun luyn bng cách s dng
một lượng ln d liu t Internet, nhưng vic chuyn giao kiến thc k năng từ hình
sang người dùng vn còn nhiu thách thc. Theo nghiên cứu, người dùng thường khó hiu và
áp dng các kết qu t các mô hình ngôn ng vào công vic thc tế (Chen & cng s, 2022).