Tuyn tp Hi ngh Khoa hc thường niên năm 2024. ISBN: 978-604-82-8175-5
74
NHẬN DIỆN PHƯƠNG NGỮ TIẾNG NÓI TIẾNG VIỆT
Thiều Ngọc Mai1, 2, Tạ Bảo Thắng1, 3, Đỗ Văn Hải4
1Trung tâm Dch v d liu và Trí tu nhân to Viettel
2Trường Đại hc Kinh tế Quc dân
3Trường Đại hc Bách khoa Hà ni
4Trường Đại hc Thy li, email: haidv@tlu.edu.vn
1. GIỚI THIỆU CHUNG
Nhận diện giọng nói theo giọng địa phương
một bài toán sinh trắc học quan trọng, thu
hút sự quan tâm lớn từ cộng đồng nghiên cứu
các nhà phát triển. Mục tiêu của bài toán
này nhận diện phân loại giọng nói dựa
trên đặc điểm giọng địa phương, giúp cải thiện
độ chính xác trong các ứng dụng như trợ lý ảo
và dịch vụ khách hàng tự động.
Bài toán này nhiều ứng dụng trong thực
tế, đặc biệt với các tập đoàn viễn thông.
Nhờ nhận diện phương ngữ, thể xác định
nguồn gốc khách hàng để nhân hóa chiến
lược marketing, tăng doanh thu. Đồng thời, có
thể chọn kỹ thuật chuẩn hóa văn bản phù hợp
cho từng phương ngữ trong bài toán nhận
dạng tiếng nói. Ngoài ra, nhận diện phương
ngữ còn giúp cải thiện độ chính xác của hệ
thống nhận dạng tiếng i bằng cách chọn hệ
thống xử lý chuyên biệt cho từng phương ngữ.
Nghiên cứu này tập trung vào việc nâng
cao khả năng nhận diện phương ngữ tiếng nói
bằng cách áp dụng phương pháp đa hình,
kết hợp nhiều kỹ thuật học máy học sâu
khác nhau để tối ưu hóa kết quả.
Bài toán nhận diện phương ngữ nhiều
cách tiếp cận, từ hình thống truyền
thống như GMM [1,7], HMM [5], LDA [6]
đến các phương pháp học sâu hiện đại. Đối
với ngôn ngữ tiếng Việt, các nghiên cứu tập
trung vào chọn lọc đặc trưng các kỹ thuật
xử bản. Năm 2016, [4] giới thiệu
GMM nâng hiệu suất từ 58.6% lên 72.2%.
[3] phát triển GMM đạt độ chính xác 70%
với tài nguyên hạn chế. [2] sử dụng WavNet
ResNet50, đạt độ chính xác 73.9% trên
3000 câu nói tiếng Việt từ quảng cáo, truyền
hình và phỏng vấn.
2. PHƯƠNG PHÁP NGHIÊN CỨU
Nghiên cứu này đề ra hai phương pháp
tiếp cận khác nhau để xử bài toán nhận
dạng phương ngữ tiếng Việt text-based
speech-based.
2.1. Mô hình text-based
Với phương pháp này, dữ liệu âm thanh
được chuyển thành văn bản bài toán này
trở thành bài toán phân loại văn bản tiếng
Việt. Hình 1 tả luồng của phương pháp
này. Động lực gồm hai nguyên nhân chính:
Thứ nhất, tiếng Việt từ ngữ địa
phương khác nhau giữa các vùng, giúp
hình text-based phân loại hiệu quả.
Thứ hai, dữ liệu text tiếng Việt phong
phú nhiều hình được huấn luyện
trước (pretrained model), giải quyết vấn đề
dữ liệu âm thanh hạn chế.
Tuy nhiên, phương pháp này phụ thuộc vào
phần mềm chuyển đổi speech to text (STT) và
mất một lượng thông tin từ dữ liệu âm thanh.
Hình 1. Lung mô hình text-based
2.2. Mô hình speech-based
Do hình text-based những hạn chế
ràng về việc mất thông tin, phương pháp
speech-based được đề xuất, sử dụng các tín
Tuyn tp Hi ngh Khoa hc thường niên năm 2024. ISBN: 978-604-82-8175-5
75
hiệu đặc trưng âm thanh trực tiếp để xây
dựng hình nhận diện phương ngữ. Luồng
của hình speech-based thể hiện trong
Hình 2.
Hình 2. Lung mô hình speech-based
hình đề xuất trong phương pháp này
sự kết hợp của LSTM, CNN, ResNet50.
Ba mô hình này sau đó sẽ được kết hợp lại sử
dụng Gradient Boosting Machine. Việc sử
dụng nhiều hình kết hợp lại được kỳ
vọng sẽ làm đa dạng hóa các dự đoán, giảm
hiện tượng quá khớp (overfitting) tăng độ
linh hoạt cho mô hình cuối. Từng mô hình có
thiết kế như sau.
2.3. Bộ nhớ dài ngắn hạn - LSTM
Âm thanh dữ liệu tuần tự, trong đó ngữ
cảnh của mỗi âm thanh phụ thuộc vào âm
thanh trước đó. LSTM tưởng cho các
nhiệm vụ này vì chúng xử lý chuỗi dữ liệu và
nắm bắt các phụ thuộc dài hạn, quan trọng để
hiểu ngữ cảnh trong giọng nói.
hình LSTM trong báo cáo gồm 2 tầng,
đặc trưng được tổng hợp khung thời gian
(timestep) cuối đi qua hàm softmax để dự
đoán nhãn. m mất mát CrossEntropy được
sử dụng trong quá trình huấn luyện. đồ
mô hình được biểu diễn trong Hình 3.
Hình 3. Thiết kế mô hình LSTM
2.4. Mạng tích chập - CNN
CNN một hình được sử dụng rộng
rãi trong xử ảnh. Bên cạnh những thông
tin về chuỗi thời gian được nắm bắt bởi
LSTM, chúng ta thể chuyển các tín hiệu
đặc trưng âm thanh về dạng ảnh sử
dụng CNN để trích xuất mẫu cục bộ phân
cấp không gian.
Hình 4. Thiết kế mng tích chp
Mạng CNN được thiết kế trong báo cáo
này gồm 2 lớp tích chập 3 lớp FC. do
mạng được thiết kế đơn giản để bảo đảm thời
gian huấn luyện hình. Bên cạnh đó,
phần sau, sử dụng ResNet50 một phiên
bản phức tạp hơn của CNN.
2.5. ResNet 50
Để tăng độ đa dạng cho hình cuối,
ResNet50 được sử dụng. ResNet50 giải quyết
vấn đề gradient vanishing của CNN để trích
xuất đặc trưng sâu. Kiến trúc của ResNet50
dùng trong báo cáo không thay đổi so
với kiến trúc gốc Hình 5.
Hình 5. Kiến trúc mô hình ResNet50
2.6. Mô hình kết hợp
Động lực sử dụng mô hình kết hợp LSTM,
CNN ResNet50 do các điểm mạnh bổ
sung khả năng biểu diễn đặc trưng nâng
cao. LSTM CNN với kiến trúc đơn giản,
thời gian huấn luyện nhanh nên mỗi hình
này năm phiên bản khác nhau, mỗi phiên
bản sự tinh chỉnh về các tham số. Trong
khi đó ResNet50 với mạng sâu thời gian
huấn luyện lâu nên chỉ phiên bản duy
nhất. Đầu ra (xác suất thuộc từng lớp) của 11
Tuyn tp Hi ngh Khoa hc thường niên năm 2024. ISBN: 978-604-82-8175-5
76
phiên bn này s đưc kết hp tr thành đu
vào của Gradient Boosting.
Hình 6. Thiết kế mô hình tng hp
3. KẾT QUẢ NGHIÊN CỨU
Nghiên cứu được tiến hành trên 2879 file
tiếng nói. Tỉ lệ 3 nhãn Bắc, Trung, Nam trong
bộ dữ liệu lần lượt là 27.1%, 30.7% và 42.2%.
Dữ liệu thực nghiệm được chia thành tỉ lệ
80:20. Dữ liệu cho phần speech-based được
trích xuất 3 giây ngẫu nhiên (3 giây trung
vị độ dài file) và chuyển đổi về tần số 16kHz.
5-fold cross validation được dùng để đảm
bảo độ ổn định và độ tin cậy của kết quả. Các
chỉ số đánh giá gồm: Accuracy, Precision,
Recall, F1.
Kết quả thực nghiệm được tả trong
Bảng 1. Từ thực nghiệm, hình text-based
không mang lại kết quả cao do bị mất nhiều
thông tin. Các mô hình speech-based làm khá
tốt trong việc phân loại vùng miền của tiếng
nói. Việc kết hợp mô hình đã mang lại hiệu
quả vượt tri khing ch s Accuracyn t
7-8% so với các hình riêng lẻ, các chỉ số
khác cũng cao hơn từ 7-8%.
Bảng 1. Kết quả thực nghiệm trên tập test
Mô hình Acc Precision Recall F1
text-based 0.62 0.60 0.59 0.59
LSTM 0.69 0.69 0.69 0.69
CNN 0.70 0.70 0.70 0.69
ResNet50 0.70 0.69 0.69 0.69
Mô hình
kết hợp 0.78 0.76 0.77 0.76
Khi phân tích lỗi sai trên hình kết hợp
(Mô hình tốt nhất) với ma trận nhập nhằng
(Hình 7), thể thấy hình làm tốt trong
việc nhận diện phương ngữ miền Trung, tuy
nhiên lại nhầm lẫn tương đối nhiều khi nhận
diện phương ngữ miền Bắc và Nam.
Khi kiểm tra lại, báo cáo nhận thấy các file
dự đoán sai thường file audio nhiễu,
nhạc nền, người nói nhỏ, file trống.
Hình 7. Ma trn nhp nhng
vi t l phn trăm
4. KẾT LUẬN
Báo cáo thử nghiệm hai phương pháp khác
nhau cho bài toán nhận dạng phương ngữ tiếng
Việt: speech-based text-based. Kết quả thực
nghiệm cho thấy, kết hợp các mô hình speech-
based mang lại hiệu quả cao, trong khi tiếp cận
text không đạt kết quả tương tự nhưng tiềm
năng tích hợp text và đặc trưng âm thanh trong
tương lai. Hạn chế của nghiên cứu gồm thời
lượng cố định 3 giây cho các file đầu vào
trong phần speech-based chưa thử nghiệm
các phương pháp mới nhất như học chuyển
giao hay học không giám sát.
5. TÀI LIỆU THAM KHẢO
[1] Chen, Too, et al. 2001. Automatic accent
identification using Gaussian mixture models.
In ASRU 2001. (pp. 343-346). IEEE.
[2] Duong, Q. T. et.al. 2021. Development of
accent recognition systems for Vietnamese
speech. In O-COCOSDA.
[3] Hung, P.N et.al. 2019. Vietnamese dialect
identification on embedded system. UTEHY
Journal of Science and Technology, 24, 82-87.
[4] Hung, P.N., et.al. 2016. Automatic
identification of Vietnamese dialects. Journal
of Computer Science and Cybernetics,
32(1), 19-30.
[5] Kardava, I., et.al. 2016. Solving the problem
of the accents for speech recognition
systems. International Journal of Signal
Processing Systems, 4(3), 235-238.