intTypePromotion=1

Tóm tắt Luận án Tiến sĩ Toán học: Nghiên cứu mô hình thanh điệu trong nhận dạng tiếng Việt từ vựng lớn phát âm liên tục

Chia sẻ: Vivi Vivi | Ngày: | Loại File: PDF | Số trang:26

0
32
lượt xem
4
download

Tóm tắt Luận án Tiến sĩ Toán học: Nghiên cứu mô hình thanh điệu trong nhận dạng tiếng Việt từ vựng lớn phát âm liên tục

Mô tả tài liệu
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án "Nghiên cứu mô hình thanh điệu trong nhận dạng tiếng Việt từ vựng lớn phát âm liên tục" với mục tiêu nghiên cứu các vấn đề trong nhận dạng tiếng nói tiếng Việt từ vựng lớn phát âm liên tục, và nghiên cứu các vấn đề về mô hình thanh điệu cho tiếng Việt. Để biết rõ hơn về nội dung chi tiết, mời các bạn cùng tham khảo.

Chủ đề:
Lưu

Nội dung Text: Tóm tắt Luận án Tiến sĩ Toán học: Nghiên cứu mô hình thanh điệu trong nhận dạng tiếng Việt từ vựng lớn phát âm liên tục

VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM<br /> HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ<br /> <br /> NGUYỄN VĂN HUY<br /> <br /> NGHIÊN CỨU MÔ HÌNH THANH ĐIỆU TRONG NHẬN DẠNG<br /> TIẾNG VIỆT TỪ VỰNG LỚN PHÁT ÂM LIÊN TỤC<br /> <br /> Chuyên ngành: Cơ sở toán học cho tin học<br /> Mã số:<br /> <br /> 62460110<br /> <br /> TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC<br /> <br /> HÀ NỘI – 2016<br /> <br /> Công trình được hoàn thành tại: Học Viện Khoa học và Công nghệ,<br /> Viện Hàn Lâm Khoa học và Công nghệ Việt Nam.<br /> <br /> Người hướng dẫn khoa học 1: PGS. TS. Lương Chi Mai<br /> Người hướng dẫn khoa học 2: TS. Vũ Tất Thắng<br /> <br /> Phản biện 1: PGS. TS. Nguyễn Quốc Cường<br /> Phản biện 2: PGS. TS. Nguyễn Phương Thái<br /> Phản biện 3: PGS. TS. Lê Thanh Hương<br /> <br /> Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp Học<br /> Viện họp tại: Học viện Khoa học và Công nghệ-Viện Hàn lâm<br /> Khoa học và Công nghệ Việt Nam<br /> Vào hồi….. giờ, ngày…..tháng…..năm<br /> <br /> Có thể tìm hiểu về luận án tại:<br /> - Thư viện Quốc gia<br /> - Thư viện Học viện Khoa học và Công nghệ<br /> <br /> Danh mục các công trình khoa học đã công bố<br /> của tác giả và các cộng sự<br /> A. Tạp chí quốc gia<br /> 1. Nguyen Van Huy, Luong Chi Mai, Vu Tat Thang, Áp dụng Bottle neck<br /> Feature cho nhận dạng tiếng nói tiếng Việt, Journal of Computer<br /> Science and Cybernetics, Vietnam, ISSN 1813-9663, Vol 29, No 4,<br /> Oct-2013.<br /> 2. Nguyen Van Huy, Luong Chi Mai, Vu Tat Thang, Do Quoc Truong,<br /> Vietnamese recognition using tonal phoneme based on multi space<br /> distribution, Journal of Computer Science and Cybernetics, Vietnam,<br /> ISSN 1813-9663, Vol 30, No 1, Jan-2014.<br /> 3. Nguyễn Văn Huy, Nâng cao chất lượng đặc trưng bottle neck cho nhận<br /> dạng tiếng nói tiếng Việt, Tạp chí Khoa học và Công nghệ Đại học Thái<br /> Nguyên, ISSN 1859-2171, Tập 137, Số 07, 2015.<br /> B. Hội thảo quốc tế<br /> 1. Kevin Kilgour, Christian Mohr, Michael Heck, Quoc Bao Nguyen, Van<br /> Huy Nguyen, Evgeniy Shin, Igor Tseyzer, Jonas Gehring, Markus<br /> Muller, Matthias Sperber, Sebastian Stuker and Alex Waibel , The 2013<br /> KIT IWSLT Speech-to-Text Systems for German and English,<br /> International Workshop on Spoken Language Translation (IWSLT),<br /> Germany, Dec-2013.<br /> 2. Jonas Gehring, Kevin Kilgour, Quoc Bao Nguyen, Van Huy Nguyen,<br /> Florian Metze, Zaid A. W. Sheikh, Alex Waibel , Models of tone for<br /> tonal and non-tonal languages, IEEE Automatic Speech Recognition<br /> and Understanding (ASRU), Czech Republic, Dec-2013.<br /> 3. Nguyen Van Huy, Luong Chi Mai, Vu Tat Thang, Adapting bottle neck<br /> feature to multi space distribution for Vietnamese speech recognition,<br /> Conference of the Oriental chapter of the International Coordinating<br /> Committee on Speech Databases and Speech I/O Systems and<br /> Assessment (OCOCOSDA), Phuket-Thailan, Oct-2014.<br /> 4. Van Huy Nguyen, Chi Mai Luong, Tat Thang Vu, Tonal phoneme<br /> based model for Vietnamese LVCSR, IEEE Conference of the Oriental<br /> chapter of the International Coordinating Committee on Speech<br /> Databases and Speech I/O Systems and Assessment (OCOCOSDA),<br /> Shanghai-China, Oct-2015.<br /> 5. Van Huy Nguyen, Quoc Bao Nguyen, Tat Thang Vu, Chi Mai Luong,<br /> The IOIT English ASR system for IWSLT 2015, International<br /> Workshop on Spoken Language Translation (IWSLT), Da Nang,<br /> Vietnam, Dec-2015.<br /> 1<br /> <br /> Lời nói đầu<br /> Tiếng Việt có sáu thanh điệu, một cách tổng quát có thể coi<br /> như mỗi âm tiết sẽ có thể có sáu ý nghĩa khác nhau khi ghép tương<br /> ứng với sáu thanh điệu đó. Việc nhận dạng tiếng Việt có thanh điệu<br /> là một công việc khó do thanh điệu chỉ tồn tại ở vùng âm hữu thanh.<br /> Các nghiên cứu hiện nay mới chỉ ở những bước đầu tiên và chủ yếu<br /> áp dụng cho tiếng nói rời rạc, lượng từ vựng nhỏ cỡ vài trăm từ. Từ<br /> các lý do cấp thiết này tôi đã chọn đề tài “Nghiên cứu mô hình<br /> thanh điệu trong nhận dạng tiếng Việt từ vựng lớn phát âm liên<br /> tục”. Với mục tiêu chính là nghiên cứu các vấn đề trong nhận dạng<br /> tiếng nói tiếng Việt từ vựng lớn phát âm liên tục, và nghiên cứu các<br /> vấn đề về mô hình thanh điệu cho tiếng Việt.<br /> Nội dung chính của luận án được trình bày thành 5 chương<br /> với nội dung như sau: Chương 1: Giới thiệu tổng quan về nhận dạng<br /> tiếng nói và ứng dụng. Tình hình nghiên cứu tổng quan về nhận dạng<br /> tiếng nói nói chung và nhận dạng tiếng Việt nói tiêng. Giới thiệu các<br /> mục tiêu nghiên cứu chính của luận án; Chương 2: Mô hình nhận<br /> dạng tiếng Việt từ vựng lớn phát âm liên tục có thanh điệu. Hệ thống<br /> nhận dạng cơ sở; Chương 3: Trình bày mô hình thanh điệu sử dụng<br /> MSD-HMM cho nhận dạng tiếng Việt có thanh điệu; Chương 4:<br /> Trình bày phương pháp tăng cường đặc trưng ngữ âm cho tiếng Việt<br /> sử dụng mạng nơron; Chương 5: Trình bày phương pháp tăng cường<br /> đặc trưng thanh điệu tiếng Việt và mô hình tích hợp MSD-HMM với<br /> Bottleneck.<br /> Thái Nguyên, ngày 27 tháng 02 năm 2016<br /> Nguyễn Văn Huy<br /> <br /> 2<br /> <br /> Mục lục<br /> <br /> Danh mục các công trình khoa học đã công bố .......................................................................... 1<br /> của tác giả và các cộng sự .......................................................................................................... 1<br /> Lời nói đầu................................................................................................................................. 2<br /> Mục lục ...................................................................................................................................... 3<br /> Danh mục các từ viết tắt ............................................................................................................ 4<br /> Danh mục bảng biểu .................................................................................................................. 5<br /> Danh mục hình ảnh .................................................................................................................... 5<br /> Chương 1: Mở đầu ..................................................................................................................... 6<br /> 1.1. Tóm tắt chương ............................................................................................................. 6<br /> 1.2. Tổng quan về nhận dạng tiếng nói ................................................................................. 6<br /> 1.3. Các thành phần chính của một hệ thống nhận dạng tiếng nói ........................................ 6<br /> 1.4. Đánh giá chất lượng hệ thống nhận dạng tiếng nói ........................................................ 6<br /> 1.5. Tình hình nghiên cứu hiện nay về nhận dạng tiếng nói.................................................. 7<br /> 1.6. Nhận dạng tiếng nói tiếng Việt và các nghiên cứu hiện nay .......................................... 7<br /> 1.7. Một số nghiên cứu gần đây trên các ngôn ngữ có thanh điệu ........................................ 7<br /> 1.8. Kết luận và các nội dung nghiên cứu chính của luận án ................................................ 8<br /> Chương 2: Mô hình thanh điệu cho nhận dạng tiếng Việt từ vựng lớn phát âm liên tục ............ 9<br /> 2.1. Tóm tắt chương ............................................................................................................. 9<br /> 2.2. Tổng quan về tiếng Việt ................................................................................................ 9<br /> 2.3. Mô hình cho hệ thống nhận dạng tiếng Việt từ vựng lớn ............................................... 9<br /> 2.4. Mô hình cho hệ thống nhận dạng tiếng Việt từ vựng lớn có thanh điệu....................... 10<br /> 2.5. Thuật toán tạo từ điển ngữ âm tự động có thanh điệu cho tiếng Việt (VN-G2P) ......... 10<br /> 2.6. Dữ liệu thử nghiệm ...................................................................................................... 10<br /> 2.7. Tổng quan về công cụ HTK& HTS cho nhận dạng tiếng nói....................................... 11<br /> 2.8. Thử nghiệm mô hình không có thanh điệu (Hệ thống nhận dạng cơ sở Baseline) ....... 11<br /> 2.9. Thử nghiệm mô hình có thanh điệu ............................................................................. 11<br /> 2.10. Kết luận chương ........................................................................................................ 11<br /> Chương 3: Mô hình thanh điệu sử dụng MSD cho nhận dạng tiếng Việt từ vựng lớn phát âm<br /> liên tục ..................................................................................................................................... 12<br /> 3.1. Tóm tắt chương ........................................................................................................... 12<br /> 3.2. Vai trò của đặc trưng thanh điệu .................................................................................. 12<br /> 3.3. Đặc trưng thanh điệu và vấn đề không liên tục ............................................................ 12<br /> 3.4. Tổng quan về mô hình MSD-HMM ............................................................................ 13<br /> 3.5. Các nghiên cứu đã công bố về áp dụng MSD-HMM trong nhận dạng tiếng nói.......... 13<br /> 3.6. Chuẩn hóa đặc trưng AMDF và NCC cho mô hình MSD-HMM................................. 13<br /> 3.7. Áp dụng mô hình MSD-HMM cho nhận dạng tiếng Việt có thanh điệu ...................... 14<br /> 3.8. Cài đặt thử nghiệm và kết quả ..................................................................................... 14<br /> 3.9. Kết luận chương .......................................................................................................... 14<br /> Chương 4: Tăng cường đặc trưng ngữ âm sử dụng mạng nơron .............................................. 15<br /> 4.1. Tóm tắt chương ........................................................................................................... 15<br /> 4.2. Tổng quan về mạng nơron MLP (Multilayer Perceptron) ............................................ 15<br /> 4.3. Ứng dụng mạng nơron trong nhận dạng tiếng nói........................................................ 15<br /> 4.4. Trích chọn đặc trưng Bottleneck sử dụng mạng MLP ................................................. 15<br /> 4.5. Cài đặt thử nghiệm ...................................................................................................... 15<br /> 4.6. Tối ưu đặc trưng Bottleneck ........................................................................................ 16<br /> 4.7. Kết luận chương .......................................................................................................... 16<br /> Chương 5: Cải tiến đặc trưng thanh điệu sử dụng mạng nơron và mô hình tích hợp MSD-HMM<br /> với Bottleneck.......................................................................................................................... 17<br /> 5.1. Tóm tắt chương ........................................................................................................... 17<br /> 5.2. Trích chọn đặc trưng thanh điệu sử dụng mạng nơron ................................................. 17<br /> 5.3. Gán nhãn dữ liệu ......................................................................................................... 17<br /> 5.4. Lựa chọn cấu hình mạng MLP..................................................................................... 18<br /> 5.5. Thử nghiệm đặc trưng TBNF-MSD với mô hình MSD-HMM .................................... 18<br /> 5.6. Mô hình tích hợp BNF, TBNF-MSD và MSD-HMM.................................................. 18<br /> 5.7. Kết luận chương .......................................................................................................... 18<br /> Kết luận ................................................................................................................................... 19<br /> Các đóng góp chính luận án ..................................................................................................... 24<br /> <br /> 3<br /> <br />
ADSENSE
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2