
Tuyển tập Hội nghị Khoa học thường niên năm 2024. ISBN: 978-604-82-8175-5
83
NHẬN DẠNG CẢM XÚC TIẾNG NÓI
Nguyễn Cẩm Ly1, 2, Tạ Bảo Thắng1, 3, Đỗ Văn Hải4
1Trung tâm Dịch vụ dữ liệu và Trí tuệ nhân tạo Viettel
2Trường Đại học Kinh tế Quốc dân
3Trường Đại học Bách khoa Hà Nội
4Trường Đại học Thủy lợi, email: haidv@tlu.edu.vn
1. GIỚI THIỆU CHUNG
Trong kỷ nguyên công nghệ hiện đại, nhận
diện cảm xúc từ giọng nói (Speech Emotion
Recognition - SER) đã trở thành một lĩnh vực
nghiên cứu quan trọng và đầy tiềm năng, đặc
biệt là trong lĩnh vực dịch vụ khách hàng. Hệ
thống có khả năng phân tích giọng nói đầu
vào để xác định trạng thái cảm xúc, ví dụ
phân biệt giữa trạng thái vui hay buồn.
Hiện nay, các kỹ thuật học sâu, đặc biệt là
mạng nơ-ron tích chập (CNN), đã nâng cao
đáng kể khả năng nhận diện cảm xúc từ giọng
nói. [4] đạt độ chính xác 64,78% trên cơ sở dữ
liệu IEMOCAP dựa trên CNN, trong khi [5]
đạt được độ chính xác lần lượt là 72,86% và
84,35% trên các tập dữ liệu TESS+RAVDESS
sử dụng CNN và TESS+SAVEE sử dụng
CNN-LSTM. Với phương pháp tiếp cận đa
phương thức, việc tích hợp âm thanh và văn
bản có thể giúp cải thiện độ chính xác từ 3-
5%, với các hệ thống từ [2] và [8]. Ngoài ra,
các mô hình ngôn ngữ lớn (LLM) như GPT-4
và BERT đã cho thấy khả năng hiểu và tạo văn
bản vượt trội nhờ việc được huấn luyện trên
một lượng lớn dữ liệu văn bản, từ đó có thể
nâng cao độ chính xác của mô hình bằng cách
nắm bắt thông tin ngữ nghĩa. Gần đây, với việc
sử dụng LLM, [6] đạt được độ chính xác 92%
trong phân loại cảm xúc từ văn bản.
Mặc dù nghiên cứu trước đây đã đạt được
thành công đáng kể, nhưng phần lớn tập
trung vào ngôn ngữ tiếng Anh và sử dụng dữ
liệu được diễn. Điều này đã đặt ra câu hỏi về
tính hiệu quả của việc áp dụng các phương
pháp trên vào bộ dữ liệu tiếng Việt với lời
nói tự nhiên trong các chủ đề thường ngày.
Mục tiêu chính của bài báo là nghiên cứu
nhận dạng cảm xúc từ tiếng nói bằng cách kết
hợp đặc trưng giọng nói và thông tin ngữ
nghĩa từ văn bản dựa trên các mô hình học
sâu như CNN hay LSTM và mô hình ngôn
ngữ lớn (LLM). Hai cảm xúc cơ bản sẽ được
nghiên cứu bao gồm: tiêu cực và trung lập
trên bộ dữ liệu tiếng nói tiếng Việt thực tế.
2. PHƯƠNG PHÁP NGHIÊN CỨU
Nghiên cứu nhận diện cảm xúc qua giọng
nói (SER) truyền thống chia thành hai hướng
tiếp cận chính:
Dựa trên giọng nói: Các tín hiệu âm thanh
được phân tích trực tiếp để tìm các chỉ báo
cảm xúc, trích xuất các đặc trưng MFCC
(Mel Frequency Cepstral Coefficients) để bắt
các đặc điểm phổ cho biết cảm xúc của tiếng
nói. Các đặc trưng này được tiền xử lý trước
khi đưa vào các mô hình học sâu như mạng
nơ-ron tích chập (CNN) hoặc bộ nhớ dài-
ngắn hạn (LSTM) để phân loại cảm xúc.
Dựa trên văn bản: Hệ thống chuyển giọng
nói thành văn bản được sử dụng, sau đó đưa
văn bản này vào các mô hình ngôn ngữ lớn
(LLM) được huấn luyện sẵn để đưa ra cảm
xúc từ nội dung ngữ nghĩa và cách sử dụng
từ ngữ.
Tích hợp hai phương pháp này cải thiện
phân tích cảm xúc, như minh họa trong
Hình 1. Thông qua phương pháp học kết hợp
(ensemble learning), mô hình có thể tận dụng
điểm mạnh của cả hai phương pháp, từ đó
phân tích cảm xúc một cách hiệu quả hơn.