
Tuyển tập Hội nghị Khoa học thường niên năm 2024. ISBN: 978-604-82-8175-5
74
NHẬN DIỆN PHƯƠNG NGỮ TIẾNG NÓI TIẾNG VIỆT
Thiều Ngọc Mai1, 2, Tạ Bảo Thắng1, 3, Đỗ Văn Hải4
1Trung tâm Dịch vụ dữ liệu và Trí tuệ nhân tạo Viettel
2Trường Đại học Kinh tế Quốc dân
3Trường Đại học Bách khoa Hà nội
4Trường Đại học Thủy lợi, email: haidv@tlu.edu.vn
1. GIỚI THIỆU CHUNG
Nhận diện giọng nói theo giọng địa phương
là một bài toán sinh trắc học quan trọng, thu
hút sự quan tâm lớn từ cộng đồng nghiên cứu
và các nhà phát triển. Mục tiêu của bài toán
này là nhận diện và phân loại giọng nói dựa
trên đặc điểm giọng địa phương, giúp cải thiện
độ chính xác trong các ứng dụng như trợ lý ảo
và dịch vụ khách hàng tự động.
Bài toán này có nhiều ứng dụng trong thực
tế, đặc biệt là với các tập đoàn viễn thông.
Nhờ nhận diện phương ngữ, có thể xác định
nguồn gốc khách hàng để cá nhân hóa chiến
lược marketing, tăng doanh thu. Đồng thời, có
thể chọn kỹ thuật chuẩn hóa văn bản phù hợp
cho từng phương ngữ trong bài toán nhận
dạng tiếng nói. Ngoài ra, nhận diện phương
ngữ còn giúp cải thiện độ chính xác của hệ
thống nhận dạng tiếng nói bằng cách chọn hệ
thống xử lý chuyên biệt cho từng phương ngữ.
Nghiên cứu này tập trung vào việc nâng
cao khả năng nhận diện phương ngữ tiếng nói
bằng cách áp dụng phương pháp đa mô hình,
kết hợp nhiều kỹ thuật học máy và học sâu
khác nhau để tối ưu hóa kết quả.
Bài toán nhận diện phương ngữ có nhiều
cách tiếp cận, từ mô hình thống kê truyền
thống như GMM [1,7], HMM [5], LDA [6]
đến các phương pháp học sâu hiện đại. Đối
với ngôn ngữ tiếng Việt, các nghiên cứu tập
trung vào chọn lọc đặc trưng và các kỹ thuật
xử lý cơ bản. Năm 2016, [4] giới thiệu
GMM nâng hiệu suất từ 58.6% lên 72.2%.
[3] phát triển GMM đạt độ chính xác 70%
với tài nguyên hạn chế. [2] sử dụng WavNet
và ResNet50, đạt độ chính xác 73.9% trên
3000 câu nói tiếng Việt từ quảng cáo, truyền
hình và phỏng vấn.
2. PHƯƠNG PHÁP NGHIÊN CỨU
Nghiên cứu này đề ra hai phương pháp
tiếp cận khác nhau để xử lí bài toán nhận
dạng phương ngữ tiếng Việt là text-based và
speech-based.
2.1. Mô hình text-based
Với phương pháp này, dữ liệu âm thanh
được chuyển thành văn bản và bài toán này
trở thành bài toán phân loại văn bản tiếng
Việt. Hình 1 mô tả luồng của phương pháp
này. Động lực gồm hai nguyên nhân chính:
Thứ nhất, tiếng Việt có từ ngữ địa
phương khác nhau giữa các vùng, giúp mô
hình text-based phân loại hiệu quả.
Thứ hai, dữ liệu text tiếng Việt phong
phú và có nhiều mô hình được huấn luyện
trước (pretrained model), giải quyết vấn đề
dữ liệu âm thanh hạn chế.
Tuy nhiên, phương pháp này phụ thuộc vào
phần mềm chuyển đổi speech to text (STT) và
mất một lượng thông tin từ dữ liệu âm thanh.
Hình 1. Luồng mô hình text-based
2.2. Mô hình speech-based
Do mô hình text-based có những hạn chế
rõ ràng về việc mất thông tin, phương pháp
speech-based được đề xuất, sử dụng các tín