VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM<br />
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ<br />
<br />
NGUYỄN VĂN HUY<br />
<br />
NGHIÊN CỨU MÔ HÌNH THANH ĐIỆU TRONG NHẬN DẠNG<br />
TIẾNG VIỆT TỪ VỰNG LỚN PHÁT ÂM LIÊN TỤC<br />
<br />
Chuyên ngành: Cơ sở toán học cho tin học<br />
Mã số:<br />
<br />
62460110<br />
<br />
TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC<br />
<br />
HÀ NỘI – 2016<br />
<br />
Công trình được hoàn thành tại: Học Viện Khoa học và Công nghệ,<br />
Viện Hàn Lâm Khoa học và Công nghệ Việt Nam.<br />
<br />
Người hướng dẫn khoa học 1: PGS. TS. Lương Chi Mai<br />
Người hướng dẫn khoa học 2: TS. Vũ Tất Thắng<br />
<br />
Phản biện 1: PGS. TS. Nguyễn Quốc Cường<br />
Phản biện 2: PGS. TS. Nguyễn Phương Thái<br />
Phản biện 3: PGS. TS. Lê Thanh Hương<br />
<br />
Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp Học<br />
Viện họp tại: Học viện Khoa học và Công nghệ-Viện Hàn lâm<br />
Khoa học và Công nghệ Việt Nam<br />
Vào hồi….. giờ, ngày…..tháng…..năm<br />
<br />
Có thể tìm hiểu về luận án tại:<br />
- Thư viện Quốc gia<br />
- Thư viện Học viện Khoa học và Công nghệ<br />
<br />
Danh mục các công trình khoa học đã công bố<br />
của tác giả và các cộng sự<br />
A. Tạp chí quốc gia<br />
1. Nguyen Van Huy, Luong Chi Mai, Vu Tat Thang, Áp dụng Bottle neck<br />
Feature cho nhận dạng tiếng nói tiếng Việt, Journal of Computer<br />
Science and Cybernetics, Vietnam, ISSN 1813-9663, Vol 29, No 4,<br />
Oct-2013.<br />
2. Nguyen Van Huy, Luong Chi Mai, Vu Tat Thang, Do Quoc Truong,<br />
Vietnamese recognition using tonal phoneme based on multi space<br />
distribution, Journal of Computer Science and Cybernetics, Vietnam,<br />
ISSN 1813-9663, Vol 30, No 1, Jan-2014.<br />
3. Nguyễn Văn Huy, Nâng cao chất lượng đặc trưng bottle neck cho nhận<br />
dạng tiếng nói tiếng Việt, Tạp chí Khoa học và Công nghệ Đại học Thái<br />
Nguyên, ISSN 1859-2171, Tập 137, Số 07, 2015.<br />
B. Hội thảo quốc tế<br />
1. Kevin Kilgour, Christian Mohr, Michael Heck, Quoc Bao Nguyen, Van<br />
Huy Nguyen, Evgeniy Shin, Igor Tseyzer, Jonas Gehring, Markus<br />
Muller, Matthias Sperber, Sebastian Stuker and Alex Waibel , The 2013<br />
KIT IWSLT Speech-to-Text Systems for German and English,<br />
International Workshop on Spoken Language Translation (IWSLT),<br />
Germany, Dec-2013.<br />
2. Jonas Gehring, Kevin Kilgour, Quoc Bao Nguyen, Van Huy Nguyen,<br />
Florian Metze, Zaid A. W. Sheikh, Alex Waibel , Models of tone for<br />
tonal and non-tonal languages, IEEE Automatic Speech Recognition<br />
and Understanding (ASRU), Czech Republic, Dec-2013.<br />
3. Nguyen Van Huy, Luong Chi Mai, Vu Tat Thang, Adapting bottle neck<br />
feature to multi space distribution for Vietnamese speech recognition,<br />
Conference of the Oriental chapter of the International Coordinating<br />
Committee on Speech Databases and Speech I/O Systems and<br />
Assessment (OCOCOSDA), Phuket-Thailan, Oct-2014.<br />
4. Van Huy Nguyen, Chi Mai Luong, Tat Thang Vu, Tonal phoneme<br />
based model for Vietnamese LVCSR, IEEE Conference of the Oriental<br />
chapter of the International Coordinating Committee on Speech<br />
Databases and Speech I/O Systems and Assessment (OCOCOSDA),<br />
Shanghai-China, Oct-2015.<br />
5. Van Huy Nguyen, Quoc Bao Nguyen, Tat Thang Vu, Chi Mai Luong,<br />
The IOIT English ASR system for IWSLT 2015, International<br />
Workshop on Spoken Language Translation (IWSLT), Da Nang,<br />
Vietnam, Dec-2015.<br />
1<br />
<br />
Lời nói đầu<br />
Tiếng Việt có sáu thanh điệu, một cách tổng quát có thể coi<br />
như mỗi âm tiết sẽ có thể có sáu ý nghĩa khác nhau khi ghép tương<br />
ứng với sáu thanh điệu đó. Việc nhận dạng tiếng Việt có thanh điệu<br />
là một công việc khó do thanh điệu chỉ tồn tại ở vùng âm hữu thanh.<br />
Các nghiên cứu hiện nay mới chỉ ở những bước đầu tiên và chủ yếu<br />
áp dụng cho tiếng nói rời rạc, lượng từ vựng nhỏ cỡ vài trăm từ. Từ<br />
các lý do cấp thiết này tôi đã chọn đề tài “Nghiên cứu mô hình<br />
thanh điệu trong nhận dạng tiếng Việt từ vựng lớn phát âm liên<br />
tục”. Với mục tiêu chính là nghiên cứu các vấn đề trong nhận dạng<br />
tiếng nói tiếng Việt từ vựng lớn phát âm liên tục, và nghiên cứu các<br />
vấn đề về mô hình thanh điệu cho tiếng Việt.<br />
Nội dung chính của luận án được trình bày thành 5 chương<br />
với nội dung như sau: Chương 1: Giới thiệu tổng quan về nhận dạng<br />
tiếng nói và ứng dụng. Tình hình nghiên cứu tổng quan về nhận dạng<br />
tiếng nói nói chung và nhận dạng tiếng Việt nói tiêng. Giới thiệu các<br />
mục tiêu nghiên cứu chính của luận án; Chương 2: Mô hình nhận<br />
dạng tiếng Việt từ vựng lớn phát âm liên tục có thanh điệu. Hệ thống<br />
nhận dạng cơ sở; Chương 3: Trình bày mô hình thanh điệu sử dụng<br />
MSD-HMM cho nhận dạng tiếng Việt có thanh điệu; Chương 4:<br />
Trình bày phương pháp tăng cường đặc trưng ngữ âm cho tiếng Việt<br />
sử dụng mạng nơron; Chương 5: Trình bày phương pháp tăng cường<br />
đặc trưng thanh điệu tiếng Việt và mô hình tích hợp MSD-HMM với<br />
Bottleneck.<br />
Thái Nguyên, ngày 27 tháng 02 năm 2016<br />
Nguyễn Văn Huy<br />
<br />
2<br />
<br />
Mục lục<br />
<br />
Danh mục các công trình khoa học đã công bố .......................................................................... 1<br />
của tác giả và các cộng sự .......................................................................................................... 1<br />
Lời nói đầu................................................................................................................................. 2<br />
Mục lục ...................................................................................................................................... 3<br />
Danh mục các từ viết tắt ............................................................................................................ 4<br />
Danh mục bảng biểu .................................................................................................................. 5<br />
Danh mục hình ảnh .................................................................................................................... 5<br />
Chương 1: Mở đầu ..................................................................................................................... 6<br />
1.1. Tóm tắt chương ............................................................................................................. 6<br />
1.2. Tổng quan về nhận dạng tiếng nói ................................................................................. 6<br />
1.3. Các thành phần chính của một hệ thống nhận dạng tiếng nói ........................................ 6<br />
1.4. Đánh giá chất lượng hệ thống nhận dạng tiếng nói ........................................................ 6<br />
1.5. Tình hình nghiên cứu hiện nay về nhận dạng tiếng nói.................................................. 7<br />
1.6. Nhận dạng tiếng nói tiếng Việt và các nghiên cứu hiện nay .......................................... 7<br />
1.7. Một số nghiên cứu gần đây trên các ngôn ngữ có thanh điệu ........................................ 7<br />
1.8. Kết luận và các nội dung nghiên cứu chính của luận án ................................................ 8<br />
Chương 2: Mô hình thanh điệu cho nhận dạng tiếng Việt từ vựng lớn phát âm liên tục ............ 9<br />
2.1. Tóm tắt chương ............................................................................................................. 9<br />
2.2. Tổng quan về tiếng Việt ................................................................................................ 9<br />
2.3. Mô hình cho hệ thống nhận dạng tiếng Việt từ vựng lớn ............................................... 9<br />
2.4. Mô hình cho hệ thống nhận dạng tiếng Việt từ vựng lớn có thanh điệu....................... 10<br />
2.5. Thuật toán tạo từ điển ngữ âm tự động có thanh điệu cho tiếng Việt (VN-G2P) ......... 10<br />
2.6. Dữ liệu thử nghiệm ...................................................................................................... 10<br />
2.7. Tổng quan về công cụ HTK& HTS cho nhận dạng tiếng nói....................................... 11<br />
2.8. Thử nghiệm mô hình không có thanh điệu (Hệ thống nhận dạng cơ sở Baseline) ....... 11<br />
2.9. Thử nghiệm mô hình có thanh điệu ............................................................................. 11<br />
2.10. Kết luận chương ........................................................................................................ 11<br />
Chương 3: Mô hình thanh điệu sử dụng MSD cho nhận dạng tiếng Việt từ vựng lớn phát âm<br />
liên tục ..................................................................................................................................... 12<br />
3.1. Tóm tắt chương ........................................................................................................... 12<br />
3.2. Vai trò của đặc trưng thanh điệu .................................................................................. 12<br />
3.3. Đặc trưng thanh điệu và vấn đề không liên tục ............................................................ 12<br />
3.4. Tổng quan về mô hình MSD-HMM ............................................................................ 13<br />
3.5. Các nghiên cứu đã công bố về áp dụng MSD-HMM trong nhận dạng tiếng nói.......... 13<br />
3.6. Chuẩn hóa đặc trưng AMDF và NCC cho mô hình MSD-HMM................................. 13<br />
3.7. Áp dụng mô hình MSD-HMM cho nhận dạng tiếng Việt có thanh điệu ...................... 14<br />
3.8. Cài đặt thử nghiệm và kết quả ..................................................................................... 14<br />
3.9. Kết luận chương .......................................................................................................... 14<br />
Chương 4: Tăng cường đặc trưng ngữ âm sử dụng mạng nơron .............................................. 15<br />
4.1. Tóm tắt chương ........................................................................................................... 15<br />
4.2. Tổng quan về mạng nơron MLP (Multilayer Perceptron) ............................................ 15<br />
4.3. Ứng dụng mạng nơron trong nhận dạng tiếng nói........................................................ 15<br />
4.4. Trích chọn đặc trưng Bottleneck sử dụng mạng MLP ................................................. 15<br />
4.5. Cài đặt thử nghiệm ...................................................................................................... 15<br />
4.6. Tối ưu đặc trưng Bottleneck ........................................................................................ 16<br />
4.7. Kết luận chương .......................................................................................................... 16<br />
Chương 5: Cải tiến đặc trưng thanh điệu sử dụng mạng nơron và mô hình tích hợp MSD-HMM<br />
với Bottleneck.......................................................................................................................... 17<br />
5.1. Tóm tắt chương ........................................................................................................... 17<br />
5.2. Trích chọn đặc trưng thanh điệu sử dụng mạng nơron ................................................. 17<br />
5.3. Gán nhãn dữ liệu ......................................................................................................... 17<br />
5.4. Lựa chọn cấu hình mạng MLP..................................................................................... 18<br />
5.5. Thử nghiệm đặc trưng TBNF-MSD với mô hình MSD-HMM .................................... 18<br />
5.6. Mô hình tích hợp BNF, TBNF-MSD và MSD-HMM.................................................. 18<br />
5.7. Kết luận chương .......................................................................................................... 18<br />
Kết luận ................................................................................................................................... 19<br />
Các đóng góp chính luận án ..................................................................................................... 24<br />
<br />
3<br />
<br />