CÔNG NGHỆ Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 13.2023
124
KHOA H
ỌC
MÔ HÌNH HỌC SÂU TRONG NHẬN DẠNG GIỌNG NÓI XÂY DỰNGNG DỤNG T ĐNG GHI BIÊN BN CUỘC HP
DEEP LEARNING FOR VOICE RECOGNITION AND APPLICATION Đặng Đức Mạnh1, Đặng Trọng Hợp2,* TÓM TẮT Nghiên cứu về nhận dạng giọng nói sử dụng c pơng pháp hc sâu đ
ã
đạt được những tiến bđáng kể. Ứng dụng các hình h
ọc u trong chuyển
đổi tiếng nói thành văn bản đã đem l
ại nhiều kết quả tính cách mạng cvề
tốc độ hiệu quả. i o y đề xuất một nh h
ọc sâu nhận dạng giọng
i bằng ch sử dụng mạng ron tích chập mạng nơ ron h
ồi quy. Kết qu
thnghiệm cho thấy độ chính c hiệu suất của giải pp đề xuất đã đư
cải thiện đáng kể. Từ khóa: Học sâu , máy học, mạng tích chập, nhận dạng giọng nói. ABSTRACT
Research on voice recognition using deep learning methods has achieved
significant attention. The application of deep learning models in transform speech
to text has revolutionized both speed and efficiency. This paper proposes a deep
learning model for vo
ice recognition using convolutional neural networks and
recurrent neural networks. Experimental results demonstrate a considerable
improvement in the accuracy and performance of the proposed solution. Keywords: Deep Learning, Machine Learning, Speech recognition. 1Lớp Kỹ thuật phần mềm 03 - K15, Khoa CNTT, Trường Đại học Công nghiệp Hà Nội2 Khoa CNTT, Trường Đại học Công nghiệp Hà Nội *Email: dangtronghop@gmail.com 1. GIỚI THIỆU Mục tiêu cốt lõi của việc nhận dạng tiếng nói là giúp máy tính hiểu và giải quyết được ngôn ngữ của con người. Thuật toán nhận dạng tiếng nói được thiết kế để phân tích và trích xuất thông tin hữu ích từ bản ghi âm tiếng nói. Thông tin y sau đó được chuyển đổi thành định dạng văn bản để được xử lý bởi máy tính. Một trong những thách thức của tự động nhận dạng tiếng nói (ASR - Automatic Speech Recognition) là khả năng xử lý những sự khác biệt trong giọng i của các người i khác nhau. Những sự khác biệt này thể bao gồm phát âm, giọng điệu, âm sắc, tốc độ nói giọng địa phương. Đgiải quyết vấn đề này, các hình ASR cần được đào tạo trên nhiều loại giọng nói khác nhau để đảm bảo tính linh hoạt và độ chính xác của chúng. ASR đã tiến bộ rất nhiều trong những năm gần đây, nhờ vào sự phát triển của các ng nghệ mới như các hình học sâu. Các mô hình ASR hiện đại sử dụng các kỹ thuật này để cải thiện tính linh hoạt độ chính xác của họ. Điều này đặc biệt hữu ích trong các ứng dụng thời gian thực. Phát triển hình hc sâu cho trí tuệ nhân to trong lĩnh vực đàm thoi là một nhim vcùng phức tp. Nó bao gồm việc c định, y dựng đào tạo mt lot các hình ứng dụng cho từngnh vực cụ thể. Quá trình y đòi hỏi thử nghiệm lp đi lặp lại để đạt đưc mức độ chính c cao, và điều chỉnhc mô hình trên nhiều tác vụ và dliệu đặc t của tng lĩnh vực. Điều này đm bảo rằng quá trình đào tạo đưc thực hiện hiệu quả và đảm bảo rằng các nh sn sàng đtriển khai vào các ng dụng thực tế. c nơ ron là nhng khi logic cốt lõi của c ứng dng trí tuệ nn tạo. Chúng nhận o một tập dliệu đầu o tạo ra một tập dữ liệu đầu ra tương ứng. Để giúp các nnghiên cứu phát triển các mônh vi độ chính xác cao và phù hợp với dữ liệu đc t ca từng lĩnh vực, NeMo (Neural Modules) đã được tạo ra. NeMo giúp tách một mô hình tnh các tnh phần cơ bản, được xây dựng theo kiểu -đun, giúp vic pt triển c nh cho d liệu miền cụ thể trở n nhanh cng dễ ng n. NeMo cung cấp một bộ sưu tập các -đun cho c nhiệm vcốt lõi và cụ thể, bao gồm nhn dạng giọng nói, xử lý nn ngữ tự nhn tổng hợp giọng i. Nhờ o các -đun y, các nhà nghiên cứu th phát triển c ng dng một ch linh hot th tái sử dng. Điều này gp ng cường hiệu sut và tiết kiệm thi gian trong quá trình phát triển hình [1]. 2. MỘT SỐ MÔ HÌNH MÔ HÌNH HỌC SÂU 2.1. Mô hình mạng nơ ron tích chập (cnn) Mạng ron tích chập (CNN) là một loi mạng ron u thưng đưc sdng trong nhn dng giọng nói để xử lý ảnh phổ hoặc các biu din tần số thi gian khác. Đđánh giá đphc tạp của một nh, ch hữu hiu là c đnh s tham số mà mônh đó sẽ có. Trong mt tng ca mạng nơ ron tích chp, nó sẽ đưc tính toán như bảng 1 [2]. Hiệu quả của hình CNN phụ thuộc chủ yếu vào kiến trúc của mạng. Mô hình được đề xuất như hình 1 bao gồm 5 khối chính với 5 lớp tích chập (Convolutional layer).
SCIENCE - TECHNOLOGY Số 13.2023 Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC 125
Bảng 1. Đánh giá độ phức tạp mạng CNN Hình 1. Mô hình mạng nơ ron tích chập được đề xuất 2.2. Mô hình jasper Mô hình nhận dạng giọng nói Jasper là một trong những hình học sâu được thiết kế riêng để phân tích nhận diện giọng nói. Mục tiêu chính của hình này nhận dạng và giải mã những thông tin có trong tín hiệu âm thanh nhằm hiểu nội dung của giọng nói. Hình 2. Mô hình Jasper 2.3. Mô hình mạng thần kinh hồi quy Mạng ron hồi quy (RNN) một loại mạng học sâu khác đặc biệt hữu ích trong các tác vụ nhận dạng giọng nói vì chúng có thể xử lý dữ liệu đầu vào tuần tự. Các hình RNN được sử dụng rộng rãi trong lĩnh vực xử ngôn ngữ tự nhiên nhận dạng tiếng nói. Các ứng dụng khác được tổng kết trong bảng 2 [3]. Bảng 2. Các loại mạng RNN và ứng dụng
CÔNG NGHỆ Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 13.2023
126
KHOA H
ỌC
3. ĐỀ XUẤT MÔ HÌNH NHẬN DẠNG GIỌNG NÓI Bài báo đề xuất hình nhận dạng giọng nói có sử dụng Jasper để huấn luyện ứng dụng nhận dạng giọng nói tiếng Việt. Trước tiên các tham số trong hình được thiết lập như sau: Quá trình huấn luyện được thực hiện bằng ch sdụng tập lệnh train.py ng với các tham số được xác định trong tập lệnh scripts/train.sh. Tập lệnh scripts/train.sh chạy một công việc trên mt node duy nhất để huấn luyện hình Jasper từ đầu bằng việc s dụng dliệu huấn luyện LibriSpeech. Để m cho quá trình huấn luyện hiệu quhơn, giải pháp đxuất loi bc mẫu âm thanh dài hơn 16,7 giây khỏi tập dữ liệu huấn luyện, tổng số mẫu như vậy chiếm ít hơn 1%. Việc lọc này không làm giảm độ chính xác, nhưng cho phép giảm sớc thời gian trong một batch, từ đó giảm bộ nhớ GPU cần thiết tăng tốc đhuấn luyện. Ngi các đối số mặc định được liệt kê trong phần tham số, theo mặc định trong các bước huấn luyện trên mô nh Jasper [4, 5]. Hình 3. Các bước huấn luyện mô hình 4. MỘT SỐ KẾT QUẢ THỬ NGHIỆM 4.1. Chỉ số đánh giá wer Phép đo phổ biến nhất hiện nay để đánh giá độ chính xác của một mô hình nhận dạng giọng nói là Word Error Rate (WER) được tính như sau: trong đó, S là số lượng thay thế, D là số lần xóa, I là số lần chèn và N là tổng số từ.
SCIENCE - TECHNOLOGY Số 13.2023 Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC 127
4.2. Dữ liệu thử nghiệm hình sẽ sử dụng bộ dữ liệu FOSD (FPT Open Speech Dataset), bộ dữ liệu này bao gồm 25.921 bài phát biểu bằng tiếng Việt được ghi âm (có phụ đề thời gian bắt đầu và kết thúc của mỗi bài phát biểu) được biên soạn thủ công từ 3 bộ dữ liệu con (tổng cộng khoảng 30 giờ) được phát hành công khai vào năm 2018 bởi Tập đoàn FPT. Các bài phát biểu định dạng .mp3 trong khi tệp bản ghi định dạng .txt với lược đồ hóa utf-8. Bộ dữ liệu hữu ích cho một số chủ đề nghiên cứu liên quan đến giọng nói, bao gồm nhưng không giới hạn các ứng dụng chuyển văn bản thành giọng nói, chuyển giọng nói thành văn bản, phát hiện giới tính, phát hiện m trạng, phát hiện ý định, phát hiện khởi động, cải thiện tín hiệu thành tiếng ồn, tín hiệu xử lý, xử lý tiếng nói,... 4.3. Kết quả thử nghiệm Bảng 3. Kết quả đánh giá dựa trên WER máy tính cá nhân và máy tính đề xuất Số GPU Số batch/
GPU Kiểu đánh giá
dev- clean WER dev- other WER test- clean WER test- other WER Thời gian huấn luyện
1 CPU 16 mixed 12,20 20,08 10,20 18,72 120h 8CPU- NVIDIA 64 mixed 3,20 9,78 3,41 9,71 70h Kết quhuấn luyện hình Jasper đạt 15,6% tỷ lệ lỗi (WER), tỷ lệ lỗi khá cao so với hình huấn luyện của NVIDIA. Điều này cho thấy tỷ lệ lỗi của mô hình này sẽ bị ảnh hưởng bởi hiệu năng GPU. WER (Word Error Rate) một phép đo thường được sử dụng để đánh giá hiệu suất của hình nhận dạng giọng nói. đo lường tỷ lệ lỗi trong việc dịch chính xác từng từ trong văn bản đúng từ giọng nói đã cho. Với tỷ lệ lỗi 8,6% của NVIDIA, hình Jasper đang đạt được một mức đchính xác khá tốt. Kết quả này có thể là kết quả tương đối tốt tùy thuộc vào bài toán cụ thể mà mô hình được huấn luyện. Tuy nhiên, việc cải thiện kết quả WER vẫn có thể là mục tiêu trong tương lai bằng cách điều chỉnh tham số huấn luyện, tăng ch thước dữ liệu huấn luyện hoặc áp dụng các kỹ thuật tăng cường dữ liệu khác. Với WER 8,6%, mô hình Jasper có thể có ứng dụng trong nhiều lĩnh vực như chuyển đổi giọng nói thành văn bản, truyền thông giọng nói, hỗ trợ người dùng trong giao tiếp giọng nói và nhiều ứng dụng khác. 4.4. Phần mềm ghi biên bản cuộc họp Với mục tiêu y dựng một ứng dụng với chức năng chính chuyển âm thanh thành n bản qua dữ liệu âm thanh nhận được từ người dùng, từ đó đưa ra giải pháp cũng như các thông tin quan trọng nên chúng tôi quyết định nghiên cứu sử dụng framework Flask. Một số hình ảnh giao diện được trình bày qua hình 4. Hình 4. Giao diện cơ bản ứng dụng 5. KẾT LUẬN Trong bài báo này, chúng tôi đã giới thiệu hình học máy sử dụng mạngron tích chập và mạng nơ ron hồi quy trong nhận dạng tiếng nói. Các kết quả thực nghiệm cho thấy hình đề xuất tỏ ra khá hiệu quả trong chỉ số đánh giá WER, kết quả nghiên cứu cũng được ứng dụng trong xây dựng ứng dụng ghi âm biên bản cuộc họp. TÀI LIỆU THAM KHẢO [1]. Nguyễn Đăng Hải, Nguyễn Gia Huy, Phạm Minh Hoàng, Đỗ Đức Hào. Phát hiện giọng nói với mạng kết hợp CNN-BiLSTM [2]. Afshine Amidi, Shervine Amidi. Recurrent Neural Networks cheatsheet. [3]. Jason Li, Vitaly Lavrukhin, Boris Ginsburg, Ryan Leary, Oleksii Kuchaiev, Jonathan M. Cohen, Huyen Nguyen, Ravi Teja Gadde, 2019. Jasper: An End-to-End Convolutional Neural Acoustic Model. [4]. C. Laurent, G. Pereyra, P. Brakel, Y. Zhang, Y. Bengio, 2016. Batch normalized recurrent neural networks. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2657–2661. [5]. G. Hinton, et al., 2012. Deep neural networks for acoustic modeling in speech recognition. IEEE Signal Processing Magazine. [6]. R. Collobert, C. Puhrsch, G. Synnaeve, 2016. Wav2letter: an endto-end convnet-based speech recognition system. [7]. Y. Bengio, R. De Mori, G. Flammia, R. Kompe; 1992. Global optimization of a neural network-hidden markov model hybrid. IEEE Transactions on Neural Networks. [8]. E. Battenberg, et al., 2017. Exploring neural transducers for end-to-end speech recognition. in 2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), 206–213.