Mô hình học sâu trong nhận dạng giọng nói: Ứng dụng xây dựng tự động ghi biên bản cuộc họp

CÔNG NGHỆ Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC ● Số 13.2023

124

KHOA H

ỌC

MÔ HÌNH HỌC SÂU TRONG NHẬN DẠNG GIỌNG NÓI VÀ XÂY DỰNG ỨNG DỤNG TỰ ĐỘNG GHI BIÊN BẢN CUỘC HỌP

DEEP LEARNING FOR VOICE RECOGNITION AND APPLICATION Đặng Đức Mạnh1, Đặng Trọng Hợp2,* TÓM TẮT Nghiên cứu về nhận dạng giọng nói sử dụng các phương pháp học sâu đ

đạt được những tiến bộ đáng kể. Ứng dụng các mô hình h

ọc sâu trong chuyển

đổi tiếng nói thành văn bản đã đem l

ại nhiều kết quả có tính cách mạng cả về

tốc độ và hiệu quả. Bài báo này đề xuất một mô hình h

ọc sâu nhận dạng giọng

nói bằng cách sử dụng mạng nơ ron tích chập và mạng nơ ron h

ồi quy. Kết quả

thử nghiệm cho thấy độ chính xác và hiệu suất của giải pháp đề xuất đã đư

ợc

cải thiện đáng kể. Từ khóa: Học sâu , máy học, mạng tích chập, nhận dạng giọng nói. ABSTRACT

Research on voice recognition using deep learning methods has achieved

significant attention. The application of deep learning models in transform speech

to text has revolutionized both speed and efficiency. This paper proposes a deep

learning model for vo

ice recognition using convolutional neural networks and

recurrent neural networks. Experimental results demonstrate a considerable

improvement in the accuracy and performance of the proposed solution. Keywords: Deep Learning, Machine Learning, Speech recognition. 1Lớp Kỹ thuật phần mềm 03 - K15, Khoa CNTT, Trường Đại học Công nghiệp Hà Nội2 Khoa CNTT, Trường Đại học Công nghiệp Hà Nội *Email: dangtronghop@gmail.com 1. GIỚI THIỆU Mục tiêu cốt lõi của việc nhận dạng tiếng nói là giúp máy tính hiểu và giải quyết được ngôn ngữ của con người. Thuật toán nhận dạng tiếng nói được thiết kế để phân tích và trích xuất thông tin hữu ích từ bản ghi âm tiếng nói. Thông tin này sau đó được chuyển đổi thành định dạng văn bản để được xử lý bởi máy tính. Một trong những thách thức của tự động nhận dạng tiếng nói (ASR - Automatic Speech Recognition) là khả năng xử lý những sự khác biệt trong giọng nói của các người nói khác nhau. Những sự khác biệt này có thể bao gồm phát âm, giọng điệu, âm sắc, tốc độ nói và giọng địa phương. Để giải quyết vấn đề này, các mô hình ASR cần được đào tạo trên nhiều loại giọng nói khác nhau để đảm bảo tính linh hoạt và độ chính xác của chúng. ASR đã tiến bộ rất nhiều trong những năm gần đây, nhờ vào sự phát triển của các công nghệ mới như các mô hình học sâu. Các mô hình ASR hiện đại sử dụng các kỹ thuật này để cải thiện tính linh hoạt và độ chính xác của họ. Điều này đặc biệt hữu ích trong các ứng dụng thời gian thực. Phát triển mô hình học sâu cho trí tuệ nhân tạo trong lĩnh vực đàm thoại là một nhiệm vụ vô cùng phức tạp. Nó bao gồm việc xác định, xây dựng và đào tạo một loạt các mô hình ứng dụng cho từng lĩnh vực cụ thể. Quá trình này đòi hỏi thử nghiệm lặp đi lặp lại để đạt được mức độ chính xác cao, và điều chỉnh các mô hình trên nhiều tác vụ và dữ liệu đặc thù của từng lĩnh vực. Điều này đảm bảo rằng quá trình đào tạo được thực hiện hiệu quả và đảm bảo rằng các mô hình sẵn sàng để triển khai vào các ứng dụng thực tế. Các nơ ron là những khối logic cốt lõi của các ứng dụng trí tuệ nhân tạo. Chúng nhận vào một tập dữ liệu đầu vào và tạo ra một tập dữ liệu đầu ra tương ứng. Để giúp các nhà nghiên cứu phát triển các mô hình với độ chính xác cao và phù hợp với dữ liệu đặc thù của từng lĩnh vực, NeMo (Neural Modules) đã được tạo ra. NeMo giúp tách một mô hình thành các thành phần cơ bản, được xây dựng theo kiểu mô-đun, giúp việc phát triển các mô hình cho dữ liệu miền cụ thể trở nên nhanh chóng và dễ dàng hơn. NeMo cung cấp một bộ sưu tập các mô-đun cho các nhiệm vụ cốt lõi và cụ thể, bao gồm nhận dạng giọng nói, xử lý ngôn ngữ tự nhiên và tổng hợp giọng nói. Nhờ vào các mô-đun này, các nhà nghiên cứu có thể phát triển các ứng dụng một cách linh hoạt và có thể tái sử dụng. Điều này giúp tăng cường hiệu suất và tiết kiệm thời gian trong quá trình phát triển mô hình [1]. 2. MỘT SỐ MÔ HÌNH MÔ HÌNH HỌC SÂU 2.1. Mô hình mạng nơ ron tích chập (cnn) Mạng nơ ron tích chập (CNN) là một loại mạng nơ ron sâu thường được sử dụng trong nhận dạng giọng nói để xử lý ảnh phổ hoặc các biểu diễn tần số thời gian khác. Để đánh giá độ phức tạp của một mô hình, cách hữu hiệu là xác định số tham số mà mô hình đó sẽ có. Trong một tầng của mạng nơ ron tích chập, nó sẽ được tính toán như bảng 1 [2]. Hiệu quả của mô hình CNN phụ thuộc chủ yếu vào kiến trúc của mạng. Mô hình được đề xuất như hình 1 bao gồm 5 khối chính với 5 lớp tích chập (Convolutional layer).

SCIENCE - TECHNOLOGY Số 13.2023 ● Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC 125

Bảng 1. Đánh giá độ phức tạp mạng CNN Hình 1. Mô hình mạng nơ ron tích chập được đề xuất 2.2. Mô hình jasper Mô hình nhận dạng giọng nói Jasper là một trong những mô hình học sâu được thiết kế riêng để phân tích và nhận diện giọng nói. Mục tiêu chính của mô hình này là nhận dạng và giải mã những thông tin có trong tín hiệu âm thanh nhằm hiểu nội dung của giọng nói. Hình 2. Mô hình Jasper 2.3. Mô hình mạng thần kinh hồi quy Mạng nơ ron hồi quy (RNN) là một loại mạng học sâu khác đặc biệt hữu ích trong các tác vụ nhận dạng giọng nói vì chúng có thể xử lý dữ liệu đầu vào tuần tự. Các mô hình RNN được sử dụng rộng rãi trong lĩnh vực xử lý ngôn ngữ tự nhiên và nhận dạng tiếng nói. Các ứng dụng khác được tổng kết trong bảng 2 [3]. Bảng 2. Các loại mạng RNN và ứng dụng

CÔNG NGHỆ Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC ● Số 13.2023

126

KHOA H

ỌC

3. ĐỀ XUẤT MÔ HÌNH NHẬN DẠNG GIỌNG NÓI Bài báo đề xuất mô hình nhận dạng giọng nói có sử dụng Jasper để huấn luyện và ứng dụng nhận dạng giọng nói tiếng Việt. Trước tiên các tham số trong mô hình được thiết lập như sau: Quá trình huấn luyện được thực hiện bằng cách sử dụng tập lệnh train.py cùng với các tham số được xác định trong tập lệnh scripts/train.sh. Tập lệnh scripts/train.sh chạy một công việc trên một node duy nhất để huấn luyện mô hình Jasper từ đầu bằng việc sử dụng dữ liệu huấn luyện LibriSpeech. Để làm cho quá trình huấn luyện hiệu quả hơn, giải pháp đề xuất loại bỏ các mẫu âm thanh dài hơn 16,7 giây khỏi tập dữ liệu huấn luyện, tổng số mẫu như vậy chiếm ít hơn 1%. Việc lọc này không làm giảm độ chính xác, nhưng nó cho phép giảm số bước thời gian trong một batch, từ đó giảm bộ nhớ GPU cần thiết và tăng tốc độ huấn luyện. Ngoài các đối số mặc định được liệt kê trong phần tham số, theo mặc định trong các bước huấn luyện trên mô hình Jasper [4, 5]. Hình 3. Các bước huấn luyện mô hình 4. MỘT SỐ KẾT QUẢ THỬ NGHIỆM 4.1. Chỉ số đánh giá wer Phép đo phổ biến nhất hiện nay để đánh giá độ chính xác của một mô hình nhận dạng giọng nói là Word Error Rate (WER) được tính như sau: trong đó, S là số lượng thay thế, D là số lần xóa, I là số lần chèn và N là tổng số từ.

SCIENCE - TECHNOLOGY Số 13.2023 ● Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC 127

4.2. Dữ liệu thử nghiệm Mô hình sẽ sử dụng bộ dữ liệu FOSD (FPT Open Speech Dataset), bộ dữ liệu này bao gồm 25.921 bài phát biểu bằng tiếng Việt được ghi âm (có phụ đề và thời gian bắt đầu và kết thúc của mỗi bài phát biểu) được biên soạn thủ công từ 3 bộ dữ liệu con (tổng cộng khoảng 30 giờ) được phát hành công khai vào năm 2018 bởi Tập đoàn FPT. Các bài phát biểu ở định dạng .mp3 trong khi tệp bản ghi ở định dạng .txt với lược đồ mã hóa utf-8. Bộ dữ liệu hữu ích cho một số chủ đề nghiên cứu liên quan đến giọng nói, bao gồm nhưng không giới hạn ở các ứng dụng chuyển văn bản thành giọng nói, chuyển giọng nói thành văn bản, phát hiện giới tính, phát hiện tâm trạng, phát hiện ý định, phát hiện khởi động, cải thiện tín hiệu thành tiếng ồn, tín hiệu xử lý, xử lý tiếng nói,... 4.3. Kết quả thử nghiệm Bảng 3. Kết quả đánh giá dựa trên WER máy tính cá nhân và máy tính đề xuất Số GPU Số batch/

GPU Kiểu đánh giá

dev- clean WER dev- other WER test- clean WER test- other WER Thời gian huấn luyện

1 CPU 16 mixed 12,20 20,08 10,20 18,72 120h 8CPU- NVIDIA 64 mixed 3,20 9,78 3,41 9,71 70h Kết quả huấn luyện mô hình Jasper đạt 15,6% tỷ lệ lỗi (WER), tỷ lệ lỗi khá cao so với mô hình huấn luyện của NVIDIA. Điều này cho thấy tỷ lệ lỗi của mô hình này sẽ bị ảnh hưởng bởi hiệu năng GPU. WER (Word Error Rate) là một phép đo thường được sử dụng để đánh giá hiệu suất của mô hình nhận dạng giọng nói. Nó đo lường tỷ lệ lỗi trong việc dịch chính xác từng từ trong văn bản đúng từ giọng nói đã cho. Với tỷ lệ lỗi 8,6% của NVIDIA, mô hình Jasper đang đạt được một mức độ chính xác khá tốt. Kết quả này có thể là kết quả tương đối tốt tùy thuộc vào bài toán cụ thể mà mô hình được huấn luyện. Tuy nhiên, việc cải thiện kết quả WER vẫn có thể là mục tiêu trong tương lai bằng cách điều chỉnh tham số huấn luyện, tăng kích thước dữ liệu huấn luyện hoặc áp dụng các kỹ thuật tăng cường dữ liệu khác. Với WER 8,6%, mô hình Jasper có thể có ứng dụng trong nhiều lĩnh vực như chuyển đổi giọng nói thành văn bản, truyền thông giọng nói, hỗ trợ người dùng trong giao tiếp giọng nói và nhiều ứng dụng khác. 4.4. Phần mềm ghi biên bản cuộc họp Với mục tiêu xây dựng một ứng dụng với chức năng chính là chuyển âm thanh thành văn bản qua dữ liệu âm thanh nhận được từ người dùng, từ đó đưa ra giải pháp cũng như các thông tin quan trọng nên chúng tôi quyết định nghiên cứu và sử dụng framework Flask. Một số hình ảnh giao diện được trình bày qua hình 4. Hình 4. Giao diện cơ bản ứng dụng 5. KẾT LUẬN Trong bài báo này, chúng tôi đã giới thiệu mô hình học máy sử dụng mạng nơ ron tích chập và mạng nơ ron hồi quy trong nhận dạng tiếng nói. Các kết quả thực nghiệm cho thấy mô hình đề xuất tỏ ra khá hiệu quả trong chỉ số đánh giá WER, kết quả nghiên cứu cũng được ứng dụng trong xây dựng ứng dụng ghi âm biên bản cuộc họp. TÀI LIỆU THAM KHẢO [1]. Nguyễn Đăng Hải, Nguyễn Gia Huy, Phạm Minh Hoàng, Đỗ Đức Hào. Phát hiện giọng nói với mạng kết hợp CNN-BiLSTM [2]. Afshine Amidi, Shervine Amidi. Recurrent Neural Networks cheatsheet. [3]. Jason Li, Vitaly Lavrukhin, Boris Ginsburg, Ryan Leary, Oleksii Kuchaiev, Jonathan M. Cohen, Huyen Nguyen, Ravi Teja Gadde, 2019. Jasper: An End-to-End Convolutional Neural Acoustic Model. [4]. C. Laurent, G. Pereyra, P. Brakel, Y. Zhang, Y. Bengio, 2016. Batch normalized recurrent neural networks. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2657–2661. [5]. G. Hinton, et al., 2012. Deep neural networks for acoustic modeling in speech recognition. IEEE Signal Processing Magazine. [6]. R. Collobert, C. Puhrsch, G. Synnaeve, 2016. Wav2letter: an endto-end convnet-based speech recognition system. [7]. Y. Bengio, R. De Mori, G. Flammia, R. Kompe; 1992. Global optimization of a neural network-hidden markov model hybrid. IEEE Transactions on Neural Networks. [8]. E. Battenberg, et al., 2017. Exploring neural transducers for end-to-end speech recognition. in 2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), 206–213.