intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận án Tiến sĩ Toán học: Nghiên cứu mô hình thanh điệu trong nhận dạng tiếng Việt từ vựng lớn phát âm liên tục

Chia sẻ: Vivi Vivi | Ngày: | Loại File: PDF | Số trang:130

86
lượt xem
5
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án "Nghiên cứu mô hình thanh điệu trong nhận dạng tiếng Việt từ vựng lớn phát âm liên tục" với mục tiêu nghiên cứu mô hình thanh điệu trong nhận dạng tiếng Việt từ vựng lớn phát âm liên tục nghiên cứu các vấn đề trong nhận dạng tiếng Việt từ vựng lớn phát âm liên tục, và nghiên cứu các vấn đề về mô hình thanh điệu cho tiếng Việt. Mời các bạn cùng tham khảo.

Chủ đề:
Lưu

Nội dung Text: Luận án Tiến sĩ Toán học: Nghiên cứu mô hình thanh điệu trong nhận dạng tiếng Việt từ vựng lớn phát âm liên tục

BỘ GIÁO DỤC VÀO ĐÀO TẠO<br /> <br /> VIỆN HÀN LÂM<br /> KHOA HỌC VÀ CÔNG NGHỆ VN<br /> <br /> HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ<br /> <br /> Họ và tên tác giả luận án<br /> NGUYỄN VĂN HUY<br /> <br /> TÊN ĐỀ TÀI LUẬN ÁN<br /> Nghiên cứu mô hình thanh điệu trong nhận dạng tiếng Việt<br /> từ vựng lớn phát âm liên tục<br /> <br /> LUẬN ÁN TIẾN SĨ: TOÁN HỌC<br /> <br /> HÀ NỘI – 2016<br /> <br /> BỘ GIÁO DỤC VÀO ĐÀO TẠO<br /> <br /> VIỆN HÀN LÂM<br /> KHOA HỌC VÀ CÔNG NGHỆ VN<br /> <br /> HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ<br /> <br /> Họ và tên tác giả luận án<br /> NGUYỄN VĂN HUY<br /> <br /> TÊN ĐỀ TÀI LUẬN ÁN<br /> Nghiên cứu mô hình thanh điệu trong nhận dạng tiếng Việt<br /> từ vựng lớn phát âm liên tục<br /> Chuyên ngành:<br /> <br /> Cơ sở toán học cho tin học<br /> <br /> Mã số:<br /> <br /> 62460110<br /> <br /> LUẬN ÁN TIẾN SĨ: TOÁN HỌC<br /> NGƢỜI HƢỚNG DẪN KHOA HỌC:<br /> 1. PGS. TS. LƢƠNG CHI MAI<br /> 2. TS. VŨ TẤT THẮNG<br /> <br /> HÀ NỘI – 2016<br /> <br /> Lời nói đầu<br /> Các kỹ thuật nhận dạng tiếng nói đã đang rất phát triển, đặc biệt với một số<br /> ngôn ngữ phổ dụng như Anh, Pháp, Trung Quốc,… Những yếu tố chính ảnh hưởng<br /> đến chất lượng của một hệ thống nhận dạng tiếng nói như: Người nói, tốc độ nói, hoàn<br /> cảnh nói, nhiễu, kích thước từ điển, cách thức phát âm,… tuy nhiên hiện nay vẫn chưa<br /> có một giải pháp nào hoàn thiện giải quyết tất cả các yếu tố đó. Các phương pháp cơ<br /> bản thường được sử dụng cho nhận dạng tiếng nói là: Kỹ thuật so khớp mẫu, mạng<br /> nơron, phương pháp dựa trên tri thức và mô hình Markov ẩn. Trong đó phương pháp<br /> sử dụng mô hình Markov ẩn (Hidden Markov Model HMM) được sử dụng phổ biến<br /> nhất.<br /> Đối với tiếng Việt hiện nay vẫn chưa có nhiều nghiên cứu về nhận dạng. Các<br /> công việc nghiên cứu mới đang ở những bài toán cơ bản. Tiếng Việt là một ngôn ngữ<br /> có thanh điệu, vì thế ngoài những khó khăn gặp phải tương tự như việc nhận dạng các<br /> ngôn ngữ không có thanh điệu khác (Anh, pháp,…), nhận dạng tiếng Việt còn phải<br /> nghiên cứu vấn đề nhận dạng thanh điệu. Tiếng Việt có sáu thanh điệu, một cách tổng<br /> quát có thể coi như mỗi âm tiết sẽ có thể có sáu ý nghĩa khác nhau khi ghép tương ứng<br /> với sáu thanh điệu đó. Việc nhận dạng thanh điệu là một công việc khó do thanh điệu<br /> chỉ tồn tại ở vùng âm hữu thanh. Vì thế đường đặc tính của nó không liên tục khi<br /> chuyển tiếp giữa hai vùng hữu thanh và vô thanh. Các đặc trưng được sử dụng phổ<br /> biến trong nhận dạng tiếng nói như MFCC (Mel Frequency Cepstral Coefficient) và<br /> PLP (Perceptual Linear Prediction) lại không mô tả được các đặc tính của thanh điệu,<br /> do vậy trước khi nhận dạng được thanh điệu ta phải áp dụng các kỹ thuật tính toán đặc<br /> trưng thanh điệu trong tín hiệu tiếng nói.<br /> Các nghiên cứu hiện nay về nhận dạng thanh điệu tiếng Việt cũng mới chỉ ở<br /> những bước đầu tiên và chủ yếu áp dụng cho tiếng nói rời rạc, có lượng từ vựng nhỏ<br /> cỡ vài trăm từ. Các giải pháp chủ yếu là phát triển từ các nghiên cứu trên các ngôn ngữ<br /> có thanh điệu khác như Mandarin, Thái,…, vì vậy việc nghiên cứu một giải pháp nhận<br /> dạng tiếng Việt từ vựng lớn phát âm liên tục thực sự là một vấn đề cấp thiết cả về tính<br /> khoa học và kinh tế.<br /> Từ các lý do cấp thiết này tôi đã chọn đề tài “Nghiên cứu mô hình thanh điệu<br /> trong nhận dạng tiếng Việt từ vựng lớn phát âm liên tục”. Với mục tiêu chính là<br /> nghiên cứu các vấn đề trong nhận dạng tiếng Việt từ vựng lớn phát âm liên tục, và<br /> nghiên cứu các vấn đề về mô hình thanh điệu cho tiếng Việt.<br /> Nội dung chính của luận án được trình bày thành 5 chương với nội dung như<br /> sau:<br /> 1<br /> <br /> -<br /> <br /> Chương 1: Giới thiệu tổng quan về nhận dạng tiếng nói và ứng dụng. Cấu<br /> trúc tổng quan của một hệ thống nhận dạng tiếng nói cơ bản. Tình hình<br /> nghiên cứu tổng quan về nhận dạng tiếng nói chung và nhận dạng tiếng Việt<br /> nói riêng. Giới thiệu các mục tiêu và phạm vi nghiên cứu chính của luận án.<br /> <br /> -<br /> <br /> Chương 2: Trình bày tổng quan về cấu trúc ngữ âm tiếng Việt. Mô hình<br /> nhận dạng tiếng Việt từ vựng lớn phát âm liên tục có thanh điệu. Dữ liệu và<br /> <br /> -<br /> <br /> các công cụ sử dụng để cài đặt các thử nghiệm. Hệ thống nhận dạng cơ sở.<br /> Chương 3: Trình bày mô hình thanh điệu cho nhận dạng tiếng Việt từ vựng<br /> lớn phát âm liên tục sử dụng MSD-HMM. Bao gồm quy trình tính toán đặc<br /> trưng thanh điệu, cấu hình mô hình và huấn luyện.<br /> <br /> -<br /> <br /> Chương 4: Trình bày phương pháp tăng cường đặc trưng ngữ âm sử dụng<br /> mạng nơron cho nhận dạng tiếng Việt, bao gồm quy trình gán nhãn, huấn<br /> luyện mạng, tối ưu mạng, trích chọn đặc trưng Bottleneck và cài đặt thử<br /> <br /> -<br /> <br /> nghiệm.<br /> Chương 5: Trình bày phương pháp tăng cường đặc trưng thanh điệu với đặc<br /> trưng cải tiến Tonal-Bottleneck sử dụng mạng nơron. Bao gồm phương pháp<br /> gán nhãn thanh điệu, tối ưu mạng, tính toán đặc trưng và cài đặt thử nghiệm.<br /> <br /> Tôi xin được gửi lời cảm ơn chân thành đến Bộ Giáo dục và Đào tạo, Viện<br /> Công nghệ Thông tin – Viện Hàn lâm Khoa học và Công nghệ Việt Nam, trường ĐH<br /> Kỹ thuật Công nghiệp Thái Nguyên – ĐH Thái Nguyên đã tạo điều kiện thuận lợi cho<br /> tôi hoàn thành đề tài nghiên cứu sinh này. Xin được gửi lời cảm ơn chân thành đến<br /> Viện công nghệ Karlshuhe – Đức, Viện Công nghệ Thông tin quốc gia Nhật Bản đã<br /> tạo điều kiện và hỗ trợ cả về mặt khoa học lẫn thiết bị cho tôi để thực hiện các thử<br /> nghiệm và các nghiên cứu trong quá trình thực tập sinh tại Đức và Nhật Bản.<br /> Tôi xin được gửi lời cảm ơn đặc biệt đến PGS. TS. Lương Chi Mai, TS. Vũ Tất<br /> Thắng đã luôn chỉ bảo, định hướng, tạo điệu kiện thuận lợi nhất để tôi có thể hoàn<br /> thành luận án này.<br /> Thái Nguyên, ngày 16 tháng 08 năm 2016<br /> Nguyễn Văn Huy<br /> <br /> 2<br /> <br /> Lời cam đoan<br /> Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi và được sự hướng<br /> dẫn khoa học của PGS.TS. Lương Chi Mai và TS. Vũ Tất Thắng. Các nội dung nghiên<br /> cứu, kết quả trong đề tài này là trung thực và chưa từng được công bố trước đây bởi<br /> người khác. Những số liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét,<br /> đánh giá được chính tác giả thu thập từ các thử nghiệm.<br /> Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách nhiệm về nội<br /> dung luận án của mình.<br /> Tác giả<br /> Nguyễn Văn Huy<br /> <br /> 3<br /> <br />
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
8=>2