Luận án Tiến sĩ Toán học: Nghiên cứu mô hình thanh điệu trong nhận dạng tiếng Việt từ vựng lớn phát âm liên tục

Chia sẻ: Vivi Vivi | Ngày: | Loại File: PDF | Số trang:130

Thêm vào BST

Báo xấu

89
lượt xem 5
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án "Nghiên cứu mô hình thanh điệu trong nhận dạng tiếng Việt từ vựng lớn phát âm liên tục" với mục tiêu nghiên cứu mô hình thanh điệu trong nhận dạng tiếng Việt từ vựng lớn phát âm liên tục nghiên cứu các vấn đề trong nhận dạng tiếng Việt từ vựng lớn phát âm liên tục, và nghiên cứu các vấn đề về mô hình thanh điệu cho tiếng Việt. Mời các bạn cùng tham khảo.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận án Tiến sĩ Toán học: Nghiên cứu mô hình thanh điệu trong nhận dạng tiếng Việt từ vựng lớn phát âm liên tục

BỘ GIÁO DỤC VÀO ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VN HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ Họ và tên tác giả luận án NGUYỄN VĂN HUY TÊN ĐỀ TÀI LUẬN ÁN Nghiên cứu mô hình thanh điệu trong nhận dạng tiếng Việt từ vựng lớn phát âm liên tục LUẬN ÁN TIẾN SĨ: TOÁN HỌC HÀ NỘI – 2016 BỘ GIÁO DỤC VÀO ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VN HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ Họ và tên tác giả luận án NGUYỄN VĂN HUY TÊN ĐỀ TÀI LUẬN ÁN Nghiên cứu mô hình thanh điệu trong nhận dạng tiếng Việt từ vựng lớn phát âm liên tục Chuyên ngành: Cơ sở toán học cho tin học Mã số: 62460110 LUẬN ÁN TIẾN SĨ: TOÁN HỌC NGƢỜI HƢỚNG DẪN KHOA HỌC: 1. PGS. TS. LƢƠNG CHI MAI 2. TS. VŨ TẤT THẮNG HÀ NỘI – 2016 Lời nói đầu Các kỹ thuật nhận dạng tiếng nói đã đang rất phát triển, đặc biệt với một số ngôn ngữ phổ dụng như Anh, Pháp, Trung Quốc,… Những yếu tố chính ảnh hưởng đến chất lượng của một hệ thống nhận dạng tiếng nói như: Người nói, tốc độ nói, hoàn cảnh nói, nhiễu, kích thước từ điển, cách thức phát âm,… tuy nhiên hiện nay vẫn chưa có một giải pháp nào hoàn thiện giải quyết tất cả các yếu tố đó. Các phương pháp cơ bản thường được sử dụng cho nhận dạng tiếng nói là: Kỹ thuật so khớp mẫu, mạng nơron, phương pháp dựa trên tri thức và mô hình Markov ẩn. Trong đó phương pháp sử dụng mô hình Markov ẩn (Hidden Markov Model HMM) được sử dụng phổ biến nhất. Đối với tiếng Việt hiện nay vẫn chưa có nhiều nghiên cứu về nhận dạng. Các công việc nghiên cứu mới đang ở những bài toán cơ bản. Tiếng Việt là một ngôn ngữ có thanh điệu, vì thế ngoài những khó khăn gặp phải tương tự như việc nhận dạng các ngôn ngữ không có thanh điệu khác (Anh, pháp,…), nhận dạng tiếng Việt còn phải nghiên cứu vấn đề nhận dạng thanh điệu. Tiếng Việt có sáu thanh điệu, một cách tổng quát có thể coi như mỗi âm tiết sẽ có thể có sáu ý nghĩa khác nhau khi ghép tương ứng với sáu thanh điệu đó. Việc nhận dạng thanh điệu là một công việc khó do thanh điệu chỉ tồn tại ở vùng âm hữu thanh. Vì thế đường đặc tính của nó không liên tục khi chuyển tiếp giữa hai vùng hữu thanh và vô thanh. Các đặc trưng được sử dụng phổ biến trong nhận dạng tiếng nói như MFCC (Mel Frequency Cepstral Coefficient) và PLP (Perceptual Linear Prediction) lại không mô tả được các đặc tính của thanh điệu, do vậy trước khi nhận dạng được thanh điệu ta phải áp dụng các kỹ thuật tính toán đặc trưng thanh điệu trong tín hiệu tiếng nói. Các nghiên cứu hiện nay về nhận dạng thanh điệu tiếng Việt cũng mới chỉ ở những bước đầu tiên và chủ yếu áp dụng cho tiếng nói rời rạc, có lượng từ vựng nhỏ cỡ vài trăm từ. Các giải pháp chủ yếu là phát triển từ các nghiên cứu trên các ngôn ngữ có thanh điệu khác như Mandarin, Thái,…, vì vậy việc nghiên cứu một giải pháp nhận dạng tiếng Việt từ vựng lớn phát âm liên tục thực sự là một vấn đề cấp thiết cả về tính khoa học và kinh tế. Từ các lý do cấp thiết này tôi đã chọn đề tài “Nghiên cứu mô hình thanh điệu trong nhận dạng tiếng Việt từ vựng lớn phát âm liên tục”. Với mục tiêu chính là nghiên cứu các vấn đề trong nhận dạng tiếng Việt từ vựng lớn phát âm liên tục, và nghiên cứu các vấn đề về mô hình thanh điệu cho tiếng Việt. Nội dung chính của luận án được trình bày thành 5 chương với nội dung như sau: 1 - Chương 1: Giới thiệu tổng quan về nhận dạng tiếng nói và ứng dụng. Cấu trúc tổng quan của một hệ thống nhận dạng tiếng nói cơ bản. Tình hình nghiên cứu tổng quan về nhận dạng tiếng nói chung và nhận dạng tiếng Việt nói riêng. Giới thiệu các mục tiêu và phạm vi nghiên cứu chính của luận án. - Chương 2: Trình bày tổng quan về cấu trúc ngữ âm tiếng Việt. Mô hình nhận dạng tiếng Việt từ vựng lớn phát âm liên tục có thanh điệu. Dữ liệu và - các công cụ sử dụng để cài đặt các thử nghiệm. Hệ thống nhận dạng cơ sở. Chương 3: Trình bày mô hình thanh điệu cho nhận dạng tiếng Việt từ vựng lớn phát âm liên tục sử dụng MSD-HMM. Bao gồm quy trình tính toán đặc trưng thanh điệu, cấu hình mô hình và huấn luyện. - Chương 4: Trình bày phương pháp tăng cường đặc trưng ngữ âm sử dụng mạng nơron cho nhận dạng tiếng Việt, bao gồm quy trình gán nhãn, huấn luyện mạng, tối ưu mạng, trích chọn đặc trưng Bottleneck và cài đặt thử - nghiệm. Chương 5: Trình bày phương pháp tăng cường đặc trưng thanh điệu với đặc trưng cải tiến Tonal-Bottleneck sử dụng mạng nơron. Bao gồm phương pháp gán nhãn thanh điệu, tối ưu mạng, tính toán đặc trưng và cài đặt thử nghiệm. Tôi xin được gửi lời cảm ơn chân thành đến Bộ Giáo dục và Đào tạo, Viện Công nghệ Thông tin – Viện Hàn lâm Khoa học và Công nghệ Việt Nam, trường ĐH Kỹ thuật Công nghiệp Thái Nguyên – ĐH Thái Nguyên đã tạo điều kiện thuận lợi cho tôi hoàn thành đề tài nghiên cứu sinh này. Xin được gửi lời cảm ơn chân thành đến Viện công nghệ Karlshuhe – Đức, Viện Công nghệ Thông tin quốc gia Nhật Bản đã tạo điều kiện và hỗ trợ cả về mặt khoa học lẫn thiết bị cho tôi để thực hiện các thử nghiệm và các nghiên cứu trong quá trình thực tập sinh tại Đức và Nhật Bản. Tôi xin được gửi lời cảm ơn đặc biệt đến PGS. TS. Lương Chi Mai, TS. Vũ Tất Thắng đã luôn chỉ bảo, định hướng, tạo điệu kiện thuận lợi nhất để tôi có thể hoàn thành luận án này. Thái Nguyên, ngày 16 tháng 08 năm 2016 Nguyễn Văn Huy 2 Lời cam đoan Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi và được sự hướng dẫn khoa học của PGS.TS. Lương Chi Mai và TS. Vũ Tất Thắng. Các nội dung nghiên cứu, kết quả trong đề tài này là trung thực và chưa từng được công bố trước đây bởi người khác. Những số liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chính tác giả thu thập từ các thử nghiệm. Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách nhiệm về nội dung luận án của mình. Tác giả Nguyễn Văn Huy 3