Mô hình hiểu ngôn ngữ nói hiệu quả

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:3

Thêm vào BST

Báo xấu

7
lượt xem 3
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Trong nghiên cứu này, để cải thiện chất lượng của mô hình SLU mà không cần bổ sung dữ liệu, chúng tôi đề xuất việc sử dụng một mô hình đã được huấn luyện trong việc nhận diện tiếng nói (Automatic Speech Recognition - ASR). Từ đó nâng cao được kết quả mô hình SLU.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Mô hình hiểu ngôn ngữ nói hiệu quả

Tuyển tập Hội nghị Khoa học thường niên năm 2023. ISBN: 978-604-82-7522-8 MÔ HÌNH HIỂU NGÔN NGỮ NÓI HIỆU QUẢ Nguyễn Duy Khánh1,2, Tạ Bảo Thắng1,2, Đỗ Văn Hải3 1 Trường Đại học Bách khoa Hà Nội, email: khanh14ph@gmail.com 2 Trung tâm không gian mạng Viettel, email: tabaothang97@gmail.com 3 Trường Đại học Thủy lợi, email: haidv@tlu.edu.vn 1. GIỚI THIỆU Trong nghiên cứu này, để cải thiện chất lượng của mô hình SLU mà không cần bổ Hệ thống hiểu ngôn ngữ nói (Spoken sung dữ liệu, chúng tôi đề xuất việc sử dụng language understanding - SLU) có nhiệm vụ một mô hình đã được huấn luyện trong việc suy luận ý định và thực thể trong một câu nhận diện tiếng nói (Automatic Speech nói. Ví dụ, đối với một trợ lý ảo điều khiển Recognition - ASR). Từ đó nâng cao được bằng giọng nói, ý định của một câu nói như kết quả mô hình SLU. "lịch chiếu phim là bao giờ ấy nhỉ" có thể có một biểu diễn như sau: 'scenario': 'lịch' | 2. HỆ THỐNG ĐỀ XUẤT 'action': 'truy vấn' | 'Entities': [tag: 'tên sự kiện' | 'value': 'phim']". 2.1. Trích chọn đặc trưng Mô hình SLU truyền thống được tạo thành Phương pháp trích chọn đặc trưng dùng từ hai mô-đun: mô-đun nhận dạng giọng nói trong nghiên cứu này là Mel Spectrogram, tự động (ASR) chuyển đổi giọng nói thành phương pháp được sử dụng rộng rãi trong các văn bản, và mô-đun hiểu ngôn ngữ tự nhiên hệ thống liên quan đến xử lí tiếng nói. (NLU) chuyển đổi văn bản thành ý định của người nói. Một phương pháp thay thế đang 2.2. Tăng cường dữ liệu dần trở nên phổ biến là end-to-end SLU. Sử dụng tăng cường dữ liệu (data Trong mô hình end-to-end SLU, một mô hình augmentation) nhằm giúp mô hình học tránh đơn lẻ có thể chuyển đổi trực tiếp âm thanh quá khớp cũng như tăng tính tổng quát hóa. giọng nói thành ý định của người nói mà Trong nghiên cứu này chúng tôi sử dụng không cần tạo ra một văn bản trích xuất rõ phương pháp phổ biến được đề xuất gần đây ràng. Khác với mô hình SLU truyền thống, là SpecAugment [2]. end-to-end SLU:  Có thể thực hiện tối ưu toàn bộ, thay vì 2.3. Kiến trúc hệ thống tối ưu cục bộ cho từng mô-đun riêng [1]. Mô hình end-to-end SLU được triển khai  Việc sử dụng một mô hình duy nhất sẽ dưới dạng mô hình chuỗi đến chuỗi (sequence tránh được việc lan truyền lỗi giữa các mô- to sequence), bao gồm một bộ mã hóa và một đun [1]. bộ giải mã. Đầu vào là audio, đầu ra là một  Có thể tận dụng các khía cạnh về âm chuỗi các token, khi ghép lại sẽ ra được một thanh (tốc độ nói, nhịp điệu) [1]. ý định của câu nói. Ví dụ: Tuy nhiên, vì tín hiệu nói có số chiều lớn,  Đầu vào: "put meeting with Khanh" việc huấn luyện các mô hình học sâu đạt kết  Đầu ra: [‘action’:‘set’ | ‘entities’: [‘type’: quả cao mà không có một lượng lớn dữ liệu ’event |‘filler’: ‘meeting’ | ‘type’:‘person’ | huấn luyện là khá khó khăn. ‘filler’: ‘Khanh’]. 63
Tuyển tập Hội nghị Khoa học thường niên năm 2023. ISBN: 978-604-82-7522-8 một phần ba, giúp dễ dàng triển khai trên thiết bị di động. Hình 1. Kiến trúc thông thường Hiện nay, liên quan đến xử lí tiếng nói, các nhà nghiên cứu có xu hướng sử dụng các mô Hình 2. Kiến trúc đề xuất hình tự giám sát (self-supervised model), tức Mô hình ASR được tận dụng ở đây là mô là mô hình được tiền huấn luyện trên dữ liệu hình Conformer[4], mô hình này đã đạt được không nhãn, để rồi huấn luyện trên dữ liệu có kết quả rất tốt ở tác vụ ASR. Ý tưởng của mô nhãn của tác vụ con. Theo hướng phát triển hình này là sử dụng sự kết hợp của các mô- đó, trong hệ thống SLU, mô hình tự giám sát đun tự chú ý (self-attention) và tích chập được dùng như bộ mã hóa (encoder). Do kết (convolution) để đạt được lợi ích tốt nhất từ quả của hệ thống SLU dựa trên mô hình tự hai phương pháp này, các lớp tự chú ý có thể giám sát HuBERT[3] đang là tốt nhất, chúng học được tương tác toàn cục trong khi các tôi sẽ lấy mô hình này làm baseline. tích chập hiệu quả học được các tương quan Dựa trên ý tưởng sử dụng các mô hình cục bộ. Mô hình ASR Conformer này đã self-supervised, chúng tôi đề xuất việc tận được Nvidia huấn luyện trên 24000 giờ dữ dụng mô hình đã được huấn luyện trên tác liệu và cho phép cộng đồng sử dụng rộng rãi, vụ nhận diện tiếng nói (ASR), một tác vụ rất bao gồm 2 bản là To và Trung bình. gần và có mối quan hệ chặt chẽ với tác vụ SLU. Mô hình ASR cũng bao gồm 2 phần là Bảng 1. Tham số chi tiết kiến trúc mô hình bộ mã hóa và bộ giải mã (decoder). Qua các Model Hidden Heads Layers Kernel thử nghiệm, chúng tôi thấy rằng bằng cách sử Trung bình dụng bộ mã hóa ASR (hình 2), ta có thể cải (30M) 1 125 11 31 thiện hiệu suất của các mô hình SLU toàn diện và giảm kích thước mô hình xuống còn To (121M) 2 64 13 31 64
Tuyển tập Hội nghị Khoa học thường niên năm 2023. ISBN: 978-604-82-7522-8 3. THỬ NGHIỆM Bảng 3 cho thấy rằng bằng cách sử dụng mô hình Conformer To được tiền huấn luyện, 3.1. Dữ liệu với số lượng tham số tương tự như mô hình Bộ dữ liệu được sử dụng là bộ SLURP [5], cơ sở, chúng ta có thể cải thiện hiệu suất của gồm 72000 bản ghi âm của các tương tác hệ thống. Phiên bản Conformer Trung bình người dùng với trợ lý ảo trong nhà, được chú đạt được kết quả cao hơn đáng kể so với bản thích với ba cấp độ ngữ nghĩa: Tình huống Large. Điều này có thể do số lượng epoch (Scenario), Hành động (Action) và Thực thể huấn luyện hạn chế và số batch size nhỏ. (Entities). Tập huấn luyện, đánh giá, và kiểm tra đã được phân sẵn bởi tác giả của bộ dữ 4. KẾT LUẬN liệu theo bảng dưới đây: Trong bài viết này, chúng tôi đã đề xuất Bảng 2. Phân phối dữ liệu một phương pháp cho các nhiệm vụ hiểu ngôn ngữ nói bằng cách sử dụng mô hình Huấn Đánh Kiểm ASR tiền huấn luyện có sẵn. Kết quả là luyện giá tra không chỉ kết quả tăng lên mà kích thước mô Audio 29374 2033 2974 hình cũng giảm xuống còn một phần ba so Thời lượng [giờ] 84.6 6.9 10.3 với mô hình baseline. Trong thời gian tới, 3.3. Huấn luyện chúng tôi sẽ tiếp tục tối ưu về độ chính xác cũng như hiệu năng của mô hình. Model được xây dựng trên Google Colab với GPU Tesla T4. Drop-out rate được đặt là 5. TÀI LIỆU THAM KHẢO 0.1 và batch size là 4. [1] Lugosch, L., Ravanelli, M., Ignoto, P., Mỗi model được huấn luyện 100 epochs, Tomar, V. S., & Bengio, Y. (2019). Speech giá trị hàm mất mát lúc huấn luyện được thể model pre-training for end-to-end spoken hiện ở Hình 3. language understanding. [2] Daniel S Park. Specaugment: A simple data augmentation method for automatic speech recognition, arXiv: 1904.08779, 2019. [3] Wang, Y., Boumadane, A., & Heba, A. (2021). A fine-tuned wav2vec 2.0/hubert benchmark for speech emotion recognition, speaker verification and spoken language understanding. [4] Gulati, A., Qin, J., Chiu, C. C., Parmar, N., Zhang, Y., Yu, J., ... & Pang, R. (2020). Conformer: Convolution-augmented transformer for speech recognition. Hình 3. Giá trị hàm mất mát tập huấn luyện [5] Bastianelli, E., Vanzo, A., Swietojanski, P., 3.4. Kết quả & Rieser, V. (2020). SLURP: A spoken language understanding resource package. Bảng 3. Kết quả thử nghiệm Intent (F1) Entities (SLU-F1) HuBERT 87.70% 75.87% (baseline) Confomer 89.97% 78.99% Medium Conformer 87.97% 78.08% Large 65