Luận án tiến sĩ Hệ thống thông tin: Tự động nhận dạng tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm

Chia sẻ: Tỉ Thành | Ngày: | Loại File: PDF | Số trang:150

Thêm vào BST

Báo xấu

74
lượt xem 10
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục tiêu chính của luận án là Nghiên cứu nhận dạng tiếng Việt nói cho các vùng phương ngữ chính, đánh giá ảnh hưởng của phương ngữ đến hiệu năng của hệ thống nhận dạng và đề xuất giải pháp kỹ thuật nhận dạng phương ngữ áp dụng vào hệ thống nhận dạng tiếng Việt nói nhằm nâng cao hiệu năng nhận dạng.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận án tiến sĩ Hệ thống thông tin: Tự động nhận dạng tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Phạm Ngọc Hưng NHẬN DẠNG TỰ ĐỘNG TIẾNG NÓI PHÁT ÂM LIÊN TỤC CHO CÁC PHƯƠNG NGỮ CHÍNH CỦA TIẾNG VIỆT THEO PHƯƠNG THỨC PHÁT ÂM Chuyên ngành: Hệ thống thông tin Mã số: 62480104 LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. PGS.TS. Trịnh Văn Loan 2. TS. Nguyễn Hồng Quang Hà Nội - 2017
LỜI CAM ĐOAN Tôi xin cam đoan tất cả các nội dung trong luận án “Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm” là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả trong luận án là trung thực và chưa từng được công bố trong bất kỳ công trình nào. Việc tham khảo các nguồn tài liệu đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định. TẬP THỂ HƯỚNG DẪN KHOA HỌC TÁC GIẢ LUẬN ÁN PGS.TS. Trịnh Văn Loan Phạm Ngọc Hưng TS. Nguyễn Hồng Quang 2
LỜI CẢM ƠN Tôi xin bày tỏ lòng biết ơn tới Trường Đại học Bách khoa Hà Nội, Viện Công nghệ Thông tin và Truyền thông, Bộ môn Kỹ thuật máy tính, Bộ môn Hệ thống thông tin đã tạo điều kiện thuận lợi cho tôi trong quá trình học tập tại Trường. Tôi muốn gửi lời cảm ơn đặc biệt tới tập thể hướng dẫn trực tiếp là PGS.TS. Trịnh Văn Loan và TS. Nguyễn Hồng Quang. Hai Thầy đã luôn tận tình giúp đỡ, đưa ra những lời khuyên, những định hướng khoa học rất quý báu để tôi có thể triển khai và hoàn thành công việc nghiên cứu của mình. Xin chân thành cảm ơn các thầy cô, các đồng nghiệp trong Bộ môn Hệ thống Thông tin, Bộ môn Kỹ thuật máy tính, Viện Công nghệ Thông tin và Truyền thông, Trường Đại học Bách khoa Hà Nội nơi tôi học tập, thực hiện đề tài nghiên cứu đã nhiệt tình giúp đỡ và động viên tôi trong suốt quá trình nghiên cứu. Cảm ơn Khoa Công nghệ Thông tin và Trường Đại học Sư phạm Kỹ thuật Hưng Yên, nơi tôi đang công tác đã luôn tạo điều kiện cho tôi trong suốt quá trình nghiên cứu và hoàn thành luận án này. Với tấm lòng biết ơn đến các thầy cô, các nhà khoa học, các đồng nghiệp và bạn bè thân hữu đã động viên và giúp đỡ tôi trong quá trình nghiên cứu. Cuối cùng tôi muốn bày tỏ lòng biết ơn sâu sắc tới gia đình, nơi nuôi dưỡng và là nguồn động lực để tôi vượt mọi trở ngại khó khăn để hoàn thành luận án này. Phạm Ngọc Hưng 3
MỤC LỤC MỤC LỤC ............................................................................................................................. 4 GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT............................................................ 7 DANH MỤC CÁC BẢNG .................................................................................................. 10 DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ .......................................................................... 12 MỞ ĐẦU ............................................................................................................................. 14 1. TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI VÀ NHẬN DẠNG PHƯƠNG NGỮ 18 1.1. Nhận dạng tiếng nói .............................................................................................. 18 1.1.1. Tổng quan về nhận dạng tiếng nói ................................................................ 18 1.1.2. Lịch sử phát triển và các tiến bộ trong nghiên cứu nhận dạng tiếng nói ...... 19 1.1.3. Các thách thức đối với nhận dạng tự động tiếng nói ..................................... 20 1.1.4. Phân loại hệ thống nhận dạng tự động tiếng nói ........................................... 21 1.2. Nhận dạng phương ngữ......................................................................................... 23 1.2.1. Các mô hình nhận dạng phương ngữ ............................................................. 23 1.2.2. Nhận dạng phương ngữ theo các phương diện khác nhau............................. 24 1.3. Nghiên cứu nhận dạng tiếng nói và nhận dạng phương ngữ tiếng Việt ............... 29 1.4. Một số mô hình nhận dạng ................................................................................... 30 1.4.1. Mô hình GMM .............................................................................................. 30 1.4.2. Bộ phân lớp SVM .......................................................................................... 32 1.4.3. Mạng nơ ron nhận tạo .................................................................................... 38 1.5. Kết chương ............................................................................................................ 54 2. XÂY DỰNG BỘ NGỮ LIỆU CHO NGHIÊN CỨU NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT ....................................................................................................................... 56 2.1. Tổng quan phương ngữ tiếng Việt ........................................................................ 56 2.1.1. Phương ngữ và phân vùng phương ngữ tiếng Việt........................................ 56 2.1.2. Đặc điểm ngữ âm ba vùng phương ngữ chính của tiếng Việt ....................... 57 2.1.3. Sự khác biệt về từ vựng và ngữ nghĩa giữa ba vùng phương ngữ tiếng Việt 58 2.2. Cấu trúc âm tiết, âm vị trong phương ngữ tiếng Việt ........................................... 60 2.2.1. Âm tiết và âm vị trong tiếng Việt .................................................................. 60 2.2.2. Âm đệm và cách kết hợp âm đệm trong các phương ngữ ............................. 64 4
2.3. Phụ âm đầu trong phương ngữ tiếng Việt ............................................................. 65 2.3.1. Hệ thống phụ âm đầu ..................................................................................... 65 2.3.2. So sánh hệ thống phụ âm đầu ba phương ngữ Bắc-Trung-Nam ................... 67 2.4. Hệ thống thanh điệu và các biến thể trong phương ngữ tiếng Việt ...................... 67 2.4.1. Hệ thống thanh điệu Hà Nội .......................................................................... 68 2.4.2. Hệ thống thanh điệu Nghệ - Tĩnh và Huế...................................................... 68 2.4.3. Hệ thống thanh điệu Đà Nẵng và Thành phố Hồ Chí Minh .......................... 69 2.4.4. Một số nhận xét về hệ thống thanh điệu các phương ngữ ............................. 70 2.5. Ảnh hưởng của phương ngữ tới nhận dạng tiếng nói ........................................... 71 2.6. Ngữ liệu phương ngữ trên thế giới và xây dựng bộ ngữ liệu dùng cho nhận dạng phương ngữ tiếng Việt ..................................................................................................... 71 2.6.1. Phương pháp xây dựng bộ ngữ liệu phương ngữ tiếng Việt ......................... 72 2.6.2. Chuẩn bị và chuẩn hóa văn bản ..................................................................... 73 2.6.3. Ghi âm ........................................................................................................... 75 2.6.4. Kết quả ghi âm và đặc tính VDSPEC ............................................................ 78 2.7. Phân tích một số đặc trưng phương ngữ tiếng Việt của bộ ngữ liệu VDSPEC .... 79 2.7.1. Biến thiên tần số cơ bản F0 theo thanh điệu của ba phương ngữ .................. 79 2.7.2. Phân tích thống kê phân bố F0 của các thanh điệu ........................................ 81 2.7.3. Phân tích dữ liệu dùng LDA .......................................................................... 83 2.8. Kết chương ............................................................................................................ 87 3. NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT .......................................................... 89 3.1. Nhận dạng phương ngữ tiếng Việt với GMM ...................................................... 89 3.1.1. Công cụ thử nghiệm nhận dạng phương ngữ ALIZE .................................... 89 3.1.2. Lựa chọn số lượng hệ số MFCC.................................................................... 91 3.1.3. Thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường hợp kết hợp MFCC với tham số F0 ................................................................................................. 92 3.1.4. Thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường hợp kết hợp formant, dải thông tương ứng và tham số F0 .............................................................. 95 3.1.5. Ảnh hưởng của số lượng thành phần Gauss đối với hiệu năng nhận dạng phương ngữ tiếng Việt ................................................................................................. 96 3.2. SVM nhận dạng phương ngữ tiếng Việt ............................................................... 98 3.2.1. Bộ phân lớp SMO .......................................................................................... 98 5
3.2.2. Thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng SMO ..................... 99 3.3. lBk nhận dạng phương ngữ tiếng Việt ................................................................ 103 3.3.1. Bộ phân lớp IBk .......................................................................................... 103 3.3.2. Kết quả nhận dạng phương ngữ tiếng Việt sử dụng IBk ............................. 106 3.4. Nhận dạng phương ngữ tiếng Việt với bộ phân lớp MultilayerPerceptron ........ 107 3.4.1. Bộ phân lớp MultilayerPerceptron trong Weka .......................................... 107 3.4.2. MultilayerPerceptron nhận dạng phương ngữ tiếng Việt ............................ 107 3.5. JRip nhận dạng phương ngữ tiếng Việt .............................................................. 108 3.5.1. Bộ phân lớp JRip ......................................................................................... 108 3.5.2. Nhận dạng phương ngữ tiếng Việt với JRip ................................................ 109 3.6. Nhận dạng phương ngữ tiếng Việt với PART .................................................... 110 3.6.1. Bộ phân lớp PART ...................................................................................... 110 3.6.2. Kết quả dùng PART nhận dạng phương ngữ tiếng Việt ............................. 110 3.7. Kết chương .......................................................................................................... 110 4. CẢI THIỆN HIỆU NĂNG NHẬN DẠNG TIẾNG VIỆT VỚI THÔNG TIN VỀ PHƯƠNG NGỮ ................................................................................................................ 112 4.1. HMM nhận dạng tiếng Việt nói .......................................................................... 112 4.1.1. Mô hình HMM ............................................................................................ 112 4.1.2. HMM nhận dạng tiếng Việt nói theo ba phương ngữ chính ........................ 125 4.2. Cải thiện hiệu năng nhận dạng tiếng Việt nói thông qua sử dụng thông tin phương ngữ 130 4.2.1. Mô hình nhận dạng tiếng Việt nói với việc sử dụng thông tin phương ngữ 130 4.2.2. Nhận dạng tiếng Việt nói khi có thông tin phương ngữ .............................. 132 4.3. Kết chương .......................................................................................................... 133 KẾT LUẬN VÀ KIẾN NGHỊ ........................................................................................... 134 TÀI LIỆU THAM KHẢO ................................................................................................. 137 DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN ............................ 149 6
GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Chữ viết tắt Chữ viết đầy đủ Giải thích AANN Auto-Associative Neural Network AM Acoustic Model Mô hình âm học ANN Artificial Neural Network Mạng nơ-ron nhân tạo Định dạng file tham số đặc trưng ARFF Attribute-Relation File Format trong Weka ASR Automatic Speech Recognition Tự động nhận dạng tiếng nói Bộ ngữ liệu được phát triển tại Bộ môn Kỹ thuật Máy tính – Viện BKSPEC Bach Khoa SPEech Corpus Công nghệ Thông tin và Truyền thông – Đại học Bách khoa Hà Nội BKTC Bach Khoa Text Code Boosted Maximum Mutual Thông tin tương hỗ cực đại tăng BMMI Information cường CD Concept Description Mô tả khái niệm CFG Context-Free Grammar Ngữ pháp phi ngữ cảnh CMS Cepstral Mean Subtraction Trừ trung bình Cepstral Carnegie Mellon University Bộ công cụ mô hình hóa ngôn ngữ CMU SLM Statistical Language Modeling thống kê của trường Carnegie Toolkit Mellon DCF Detection Cost Function Hàm giá phát hiện DET Detection Error Tradeoff Cân bằng sai số phát hiện DL Descrition Length Độ dài mô tả DNN Deep Neural Networks Mạng nơ-ron sâu European Language Resources ELRA Hội tài nguyên ngôn ngữ châu Âu Association EM Expectation Maximization Cực đại hóa kỳ vọng Tối thiểu hóa rủi ro theo kinh ERM Empirical Risk Minimization nghiệm F0 Fundamental frequency Tần số cơ bản fMLLR feature-space MLLR fMMI feature-space MMI fMPE feature-space Minimum Phone Error FST Finite-State-Transducer Chuyển trạng thái hữu hạn GMM Gaussian Mixture Model Mô hình hỗn hợp Gauss 7
Heteroscedastic Linear Discriminant Phân tích phân biệt tuyến tính hiệp HLDA Analysis phương sai không đồng nhất HMM Hidden Markov Model Mô hình Markov ẩn HTK Hidden Markov Model Toolkit Bộ công cụ mô hình Markov ẩn Tên gọi bộ phân lớp k láng giềng IBk Instance Based k gần nhất trong Weka IBL Instance Based Learning Học dựa trên đối tượng IREP Incremental Reduced Error Pruning JRip KKT Karush–Kuhn–Tucker Điều kiện Karush–Kuhn–Tucker k-NN k-Nearest Neighbour K láng giềng gần nhất LDA Linear Discriminant Analysis Phân tích phân biệt tuyến tính LDC Linguistic Data Consortium Hội đoàn dữ liệu ngôn ngữ LLR Log Likelihood Ratio LPC Linear Prediction Coding Mã hóa tiên đoán tuyến tính MAP Maximum a Posteriori Các hệ số Cepstral theo thang đo MFCC Mel Frequency Cepstral Coefficients tần số Mel MHAH Mô hình âm học MHNN Mô hình ngôn ngữ Maximum Likelihood Linear MLLR Regression Maximum Likelihood Linear MLLT Transforms MMI Maximum Mutual Information MPE Minimum Phone Error Cực tiểu hóa lỗi âm National Institute of Standards and Viện Tiêu chuẩn và Công nghệ NIST Technology Quốc gia của Mỹ NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên NN Neural Networks PART PCA Principal Component Analysis Phân tích các thành phần chính PLP Perceptual Linear Prediction Tiên đoán cảm thụ tuyến tính PNB Phương ngữ Bắc PNN Phương ngữ nam PNT Phương ngữ Trung 8
PPR Parallel Phone Recognition Parallel Phone Recognition followed PPRLM by Language Modeling Phone Recognition followed by PRLM Language Modeling QP Quadratic Programming Quy hoạch toàn phương RBF Radial Basis Function Hàm cơ bản hướng Gauss Repeated Incremental Pruning to RIPPER Produce Error Reduction RM Risk Minimization Tối thiểu hóa rủi ro SAT Speaker Adaptive Training Huấn luyện thích nghi người nói SBS Sequential Backward Selection Lựa chọn lùi lần lượt SFS Sequential Forward Selection Lựa chọn tiến lần lượt Thuật giải tối ưu hóa cực tiểu lần SMO Sequential Minimal Optimization lượt Stanford Research Institute Bộ công cụ tạo mô hình ngôn ngữ SRILM Language Modeling SRI SRM Structural Risk Minimization Tối thiểu hóa rủi ro cấu trúc SVM Support Vector Machines Máy véc-tơ hỗ trợ TTS Text-to-Speech Văn bản thành tiếng nói VDSPEC Vietnamese Dialect Speech Corpus Bộ ngữ liệu phương ngữ tiếng Việt VTLN Vocal Tract Length Normalization Chuẩn hóa chiều dài tuyến âm WER Word Error Rate Tỷ lệ lỗi từ 9
DANH MỤC CÁC BẢNG Bảng 2.1: Sự khác biệt giữa các phương ngữ về từ và cách sử dụng từ .............................. 59 Bảng 2.2: Cấu trúc âm tiết tiếng Việt .................................................................................. 61 Bảng 2.3: Hệ thống phụ âm làm âm đầu ............................................................................. 62 Bảng 2.4: Bảng các âm chính là nguyên âm đơn ................................................................ 63 Bảng 2.5: Cách thể hiện bằng chữ viết các nguyên âm ....................................................... 63 Bảng 2.6: Vị trí các âm vị trong hệ thống âm cuối .............................................................. 64 Bảng 2.7: Hệ thống phụ âm đầu ở Bắc Bộ .......................................................................... 66 Bảng 2.8: So sánh các hệ thống phụ âm đầu giữa PNB, PNT và PNN ............................... 67 Bảng 2.9: Phân loại thanh điệu theo truyền thống............................................................... 67 Bảng 2.10: Đặc tính văn bản theo chủ đề ............................................................................ 73 Bảng 2.11: Tổ chức lưu dữ liệu của ngữ liệu VDSPEC ...................................................... 78 Bảng 2.12: Thống kê thời lượng ghi âm của VDSPEC theo phương ngữ .......................... 78 Bảng 2.13: Thống kê thời lượng ghi âm của VDSPEC theo chủ đề ................................... 79 Bảng 2.14: Ngữ cảnh chọn từ khảo sát thanh điệu .............................................................. 80 Bảng 3.1: Kết quả nhận dạng dùng GMM với các tham số MFCC, F0 và các giá trị chuẩn hóa từ F0 .................................................................................................................... 94 Bảng 3.2: Ma trận nhầm lẫn nhận dạng phương ngữ không phụ thuộc giới tính khi sử dụng hệ số MFCC kết hợp với tham số F0 ......................................................................... 94 Bảng 3.3: Kết quả thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường hợp kết hợp formant, dải thông tương ứng và các tham số F0 ....................................................... 96 Bảng 3.4: Tỷ lệ nhận dạng trung bình với số lượng thành phần Gauss khác nhau ............. 98 Bảng 3.5: Bộ phân lớp SMO, kết quả nhận dạng với 384 tham số ................................... 100 Bảng 3.6: Bộ phân lớp SMO, ma trâ ̣n sai nhầ m với 384 tham số ..................................... 101 Bảng 3.7: Bộ phân lớp SMO, kết quả nhận dạng khi không có thông tin liên quan trực tiếp F0 ............................................................................................................................. 101 Bảng 3.8: Bộ phân lớp SMO, ma trâ ̣n sai nhầ m khi không có thông tin liên quan trực tiếp F0 ............................................................................................................................. 101 Bảng 3.9: Bộ phân lớp SMO, kết quả thử nghiệm khi chỉ dùng tham số liên quan trực tiếp F0 ............................................................................................................................. 102 Bảng 3.10: Bộ phân lớp SMO, ma trâ ̣n sai nhầ m khi chỉ sử du ̣ng tham số liên quan trực tiếp F0 ...................................................................................................................... 102 Bảng 3.11: Bộ phân lớp SMO, kết quả nhận dạng khi chỉ dùng tham số liên quan trực tiếp MFCC....................................................................................................................... 102 Bảng 3.12: Bộ phân lớp SMO, ma trâ ̣n sai nhầ m khi chỉ dùng tham số liên quan trực tiếp MFCC....................................................................................................................... 102 Bảng 3.13: Thuật giải IBl, CD – Concept Description [8] ................................................ 104 10
Bảng 3.14: Mô tả thuật giải k-láng giềng gần nhất ........................................................... 105 Bảng 3.15: Bộ phân lớp IBk, kết quả nhận dạng với k = 1 ............................................... 106 Bảng 3.16: Bộ phân lớp IBk, ma trâ ̣n sai nhầ m với k=1 ................................................... 106 Bảng 3.17: Bộ phân lớp IBk, kết quả nhận dạng với k=5 ................................................. 106 Bảng 3.18: Bộ phân lớp IBk, ma trâ ̣n sai nhầ m với k=5 ................................................... 107 Bảng 3.19: Kết quả nhận dạng phương ngữ tiếng Việt dùng MultilayerPerceptron ......... 108 Bảng 3.20: Ma trâ ̣n sai nhầ m nhâ ̣n da ̣ng phương ngữ tiếng Việt dùng MultilayerPerceptron................................................................................................ 108 Bảng 3.21: Kết quả dùng bộ phân lớp JRip nhận dạng phương ngữ tiếng Việt ................ 109 Bảng 3.22: Ma trâ ̣n sai nhầ m khi dùng JRip nhâ ̣n da ̣ng phương ngữ tiếng Việt .............. 109 Bảng 3.23: Kết quả sử dụng PART nhận dạng phương ngữ tiếng Việt ............................ 110 Bảng 3.24: Ma trâ ̣n sai nhầ m khi sử dụng PART nhận dạng phương ngữ tiếng Việt ....... 110 Bảng 4.1: Phân chia tập dữ liệu dùng cho huấn luyện và thử nghiệm .............................. 129 Bảng 4.2: Kết quả nhận dạng khi chưa biết thông tin phương ngữ ................................... 129 Bảng 4.3: Kết quả nhận dạng khi đã biết thông tin về phương ngữ .................................. 132 11
DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ Hình 1.1: Quyết định lề mềm .............................................................................................. 33 Hình 1.2: Ba phương pháp khác nhau huấn luyện SVM: Chunking, Osuna và SMO ....... 37 Hình 1.3: Mô hình một nơ-ron ............................................................................................ 38 Hình 1.4: Biến đổi làm mịn tạo ra do có thiên áp bk ; lưu ý là vk = bk nếu uk = 0. .............. 40 Hình 1.5: Mô hình nơ-ron phi tuyến .................................................................................... 40 Hình 1.6: Hàm ngưỡng ........................................................................................................ 41 Hình 1.7: Hàm kích tuyến tính đoạn ................................................................................... 42 Hình 1.8: Hàm kích hoạt Sigmoid với tham số độ dốc a..................................................... 43 Hình 1.9: Mạng nơ-ron truyền thẳng một lớp ..................................................................... 43 Hình 1.10: Mạng nơ-ron truyền thẳng có kết nối đầy đủ bao gồm một lớp ẩn và một lớp ra .................................................................................................................................... 45 Hình 1.11: Mạng nơ-ron hồi quy không có vòng tự phản hồi và không có nơ-ron ẩn ........ 46 Hình 1.12: Mạng nơ-ron hồi quy với các nơ-ron ẩn ............................................................ 46 Hình 1.13: Kiến trúc đồ thị của Multilayer Perceptron với hai lớp ẩn. ............................... 49 Hình 1.14: Minh họa chiều của hai luồng tín hiệu cơ bản trong Multilayer Perceptron (hàm tín hiệu lan truyền thẳng và lan truyền ngược của tín hiệu lỗi) ................................. 49 Hình 1.15: Đồ thị luồng tín hiệu chi tiết của nơ-ron ra j ..................................................... 51 Hình 1.16: Đồ thị chi tiết luồng tín hiệu của nơ-ron ra k kết nối với nơ-ron ẩn j ............... 53 Hình 2.1: Vị trí, vai trò âm đệm trong âm tiết ..................................................................... 62 Hình 2.2: Sơ đồ kết hợp âm đệm /w/ với các nguyên âm ở PNB và PNT .......................... 65 Hình 2.3: So sánh cấu trúc âm tiết PNB, PNT với PNN ..................................................... 65 Hình 2.4: Sơ đồ biến đổi các phụ âm ngạc hóa trong PNB và PNN ................................... 66 Hình 2.5: Đồ thị hệ thống thanh điệu Hà Nội (a), Huế (b), TP Hồ Chí Minh (c) ............... 70 Hình 2.6: Sự phân bố các âm vị trong VDSPEC ................................................................. 74 Hình 2.7: Đáp ứng tần số của SM48 ................................................................................... 75 Hình 2.8: (a) Dạng sóng tín hiệu được ghi âm. (b) Tỉ số tín hiệu trên nhiễu tính theo dB và giá trị trung bình của tỉ số này.................................................................................... 77 Hình 2.9: Biến thiên F0 các thanh điệu của giọng nữ Hà Nội (a), Huế (b) và Thành phố Hồ Chí Minh (c) ............................................................................................................... 80 Hình 2.10: Biến thiên F0 các thanh điệu của giọng nam Hà Nội (a), Huế (b) và Thành phố Hồ Chí Minh (c) ......................................................................................................... 80 Hình 2.11: Biến thiên F0 của thanh hỏi ............................................................................... 81 Hình 2.12: Biến thiên F0 của thanh ngã .............................................................................. 81 Hình 2.13: Biến thiên F0 của thanh nặng ............................................................................ 82 Hình 2.14: Biến thiên F0 của thanh ngang .......................................................................... 82 12
Hình 2.15: Biến thiên F0 của thanh huyền .......................................................................... 82 Hình 2.16: Biến thiên F0 của thanh sắc ............................................................................... 82 Hình 2.17: Các bước thực hiện phân lớp theo LDA ............................................................ 85 Hình 2.18: Phân lớp phương ngữ dùng LDA cho thanh sắc (từ “chính”) ........................... 86 Hình 2.19: Phân lớp phương ngữ dùng LDA cho thanh ngang (từ “kinh”) ........................ 86 Hình 2.20: Phân lớp phương ngữ dùng LDA cho thanh nặng (từ “mạnh”) ........................ 86 Hình 2.21: Phân lớp phương ngữ dùng LDA cho thanh huyền (từ “thành”) ...................... 86 Hình 2.22: Phân lớp phương ngữ dùng LDA cho thanh hỏi (từ “tỉnh”) .............................. 87 Hình 2.23: Phân lớp phương ngữ dùng LDA cho thanh ngã (từ “vĩnh”) ............................ 87 Hình 3.1: Sơ đồ hệ thống nhận dạng phương ngữ tiếng Việt .............................................. 90 Hình 3.2: Thử nghiệm đánh giá, lựa chọn số hệ số MFCC ................................................. 91 Hình 3.3: Đồ thị DET với số thành phần Gauss (M) từ 20 đến 4096 .................................. 97 Hình 3.4: Hai nhân tử Lagrange phải đáp ứng tất cả các ràng buộc của bài toán đầy đủ. . 99 Hình 3.5: Phương pháp k láng giềng gần nhất .................................................................. 105 Hình 4.1: Kiến trúc bộ nhận dạng dựa trên HMM ............................................................ 114 Hình 4.2: Mô hình âm vị dựa trên HMM .......................................................................... 116 Hình 4.3: Mô hình âm phụ thuộc ngữ cảnh ....................................................................... 118 Hình 4.4: Tạo mô hình kết nối các trạng thái .................................................................... 119 Hình 4.5: Phân cụm cây quyết định ................................................................................... 120 Hình 4.6: Minh họa lưới từ ................................................................................................ 123 Hình 4.7: Minh họa mạng nhầm lẫn .................................................................................. 124 Hình 4.8: Cấu trúc lưới từ tạo ra bởi hệ thống HTK ......................................................... 125 Hình 4.9: Mô hình nhận dạng tự động tiếng nói ............................................................... 126 Hình 4.10: Phương pháp huấn luyện của Kaldi ................................................................. 127 Hình 4.11: Sơ đồ hệ thống nhận dạng tiếng Việt nói sử dụng thông tin phương ngữ ....... 130 Hình 4.12: Sơ đồ hệ thống nhận dạng tiếng nói sử dụng thông tin phương ngữ trên bộ ngữ liệu VDSPEC ........................................................................................................... 131 13
MỞ ĐẦU 1. Lý do chọn đề tài Ngày nay, với sự phát triển mạnh mẽ của máy tính, các ứng dụng của máy tính trong mọi lĩnh vực của cuộc sống đã làm nảy sinh nhiều yêu cầu nhằm đơn giản hoá quá trình sử dụng, tăng hiệu quả khai thác máy tính và các ứng dụng trên máy tính. Trong bối cảnh đó, xử lý tiếng nói nói chung và nhận dạng tiếng nói nói riêng là vấn đề đã và đang được quan tâm nghiên cứu, phát triển ứng dụng nhằm nâng cao hiệu quả sử dụng của máy tính phục vụ con người trong cuộc sống. Trên thế giới đã có nhiều nghiên cứu về vấn đề này và đã đạt được nhiều thành công. Nhiều sản phẩm hữu ích từ các kết quả nghiên cứu đã được ứng dụng trong thực tế. Riêng về nhận dạng tiếng Việt, mặc dù đã có nhiều nghiên cứu và đạt được các thành công nhất định nhưng để triển khai thành các sản phẩm ứng dụng thực tế vẫn còn nhiều mặt hạn chế, đặc biệt là độ chính xác, chất lượng nhận dạng. Ngoài các khó khăn trong nhận dạng tiếng nói nói chung, nhận dạng tiếng Việt nói còn gặp trở ngại lớn phải kể đến là vấn đề về phương ngữ tiếng Việt. Tiếng Việt có nhiều phương ngữ khác nhau. Giữa các phương ngữ có sự khác biệt cả về từ vựng và ngữ âm trong đó ngữ âm là yếu tố quan trọng để tạo nên sự khác biệt và phân chia các phương ngữ. Xét về từ vựng, sự khác nhau có thể ở một số bộ phận cấu thành từ hay sự biến đổi của từ. Sự khác nhau cũng có thể xuất phát từ nguồn gốc của từ. Ví dụ khi nói về cái kính (để đeo lên mắt), cái gương (để soi), theo cách gọi ở miền Bắc, chúng được phân biệt rõ ràng bởi từ “kính”, “gương” (“đeo kính”, “soi gương”). Trong khi đó, ở miền Nam, cả hai vật này chỉ được gọi bằng một từ là kiếng (biến thể về âm của kính). Thay vì nói “đeo kính”, phương ngữ Nam lại dùng cách nói “đeo kiếng”. Cũng như vậy, thay vì “soi gương” phương ngữ Nam lại dùng cách nói “soi kiếng”. Ở miền Trung, hai vật kính và gương đều được gọi bằng từ “gương”. Hai thao tác tương ứng đeo kính, soi gương được diễn đạt bằng “soi gương” và “đeo gương”. Xét về mặt ngữ âm, sự khác biệt giữa các phương ngữ được thể hiện khá rõ ràng. Chẳng hạn với phương ngữ Nam, hai phụ âm cuối “nh” và “ch” thường bị biến đổi thành “n” và “t” trong cách phát âm. Do vậy, từ “tịch” theo cách phát âm giọng miền Nam thì lại là “tựt” (nguyên âm “i” biến thành “ư” và phụ âm cuối “ch” thành “t”) hoặc “nhanh” thì thành “nhăn”, “mình” thành “mừn”. Sự khác biệt nêu trên gây ra không ít khó khăn cho ngay chính con người khi giao tiếp với người sử dụng phương ngữ khác. Rõ ràng, sự khác biệt đó cũng ảnh hưởng tới các hệ thống nhận dạng tiếng Việt nói, làm giảm hiệu quả nhận dạng của các hệ thống nhận dạng tiếng nói. Chính vì vậy, cần thiết phải nghiên cứu vấn đề nhận dạng tiếng Việt nói theo các vùng phương ngữ khác nhau nhằm tìm ra giải pháp kỹ thuật nâng cao hiệu quả nhận dạng tiếng Việt nói. Trước khi tiến hành nhận dạng nội dung tiếng nói, nếu có thể xác định được tiếng nói đó thuộc phương ngữ nào thì có thể xây dựng hệ thống nhận dạng với ngữ liệu được tổ chức phù hợp cho từng phương ngữ và sử dụng ngữ liệu này để nhận dạng tiếng 14
nói của phương ngữ tương ứng. Với cách xây dựng hệ thống nhận dạng tiếng nói như vậy, các sai nhầm nhận dạng của hệ thống do phương thức phát âm hay thậm chí là cả do sử dụng từ địa phương sẽ được giảm bớt, hiệu năng nhận dạng của hệ thống sẽ được cải thiện. Từ các lý do nêu trên, luận án lựa chọn đề tài nghiên cứu “Tự động nhận dạng tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm” nhằm nghiên cứu sâu hơn về vấn đề xử lý nhận dạng tiếng Việt nói, giải quyết một số hạn chế trong nhận dạng tiếng Việt nói hiện tại liên quan đến phương ngữ và góp phần phát triển các ứng dụng công nghệ thông tin cho người Việt cũng như các sản phẩm ứng dụng công nghệ thông tin sử dụng tiếng Việt trong dịch tự động, giao tiếp và tương tác người- máy. 2. Mục tiêu nghiên cứu của luận án Mục tiêu chính của luận án là Nghiên cứu nhận dạng tiếng Việt nói cho các vùng phương ngữ chính, đánh giá ảnh hưởng của phương ngữ đến hiệu năng của hệ thống nhận dạng và đề xuất giải pháp kỹ thuật nhận dạng phương ngữ áp dụng vào hệ thống nhận dạng tiếng Việt nói nhằm nâng cao hiệu năng nhận dạng. 3. Nhiệm vụ nghiên cứu của luận án Để đạt mục tiêu đã đề ra, luận án cần thực hiện các nhiệm vụ chính sau: (1) Nghiên cứu đặc điểm phương ngữ tiếng Việt từ đó xác định được các nét đặc trưng, sự khác biệt giữa các phương ngữ chính của tiếng Việt làm cơ sở cho nghiên cứu nhận dạng phương ngữ tiếng Việt. Luận án cũng đánh giá sự ảnh hưởng của phương ngữ tới hệ thống nhận dạng tự động tiếng Việt nói. (2) Xây dựng bộ ngữ liệu phương ngữ tiếng Việt phục vụ cho nghiên cứu nhận dạng phương ngữ tiếng Việt và nhận dạng tiếng Việt nói. (3) Nghiên cứu, đề xuất mô hình hệ thống nhận dạng tự động, bộ tham số phù hợp để nhận dạng phương ngữ tiếng Việt. (4) Nghiên cứu, đề xuất mô hình hệ thống nhận dạng tự động tiếng Việt nói theo phương ngữ chính của tiếng Việt. Hệ thống mới sử dụng các thông tin về phương ngữ nhằm nâng cao hiệu năng của hệ thống nhận dạng tiếng Việt nói. 4. Đối tượng và phạm vi nghiên cứu của luận án Đối tượng nghiên cứu trọng tâm của luận án là nhận dạng phương ngữ tiếng Việt. Từ kết quả nhận dạng phương ngữ, xây dựng mô hình nhận dạng tiếng Việt nói theo phương ngữ. Mô hình mới sử dụng thông tin về phương ngữ nhằm cải thiện hiệu năng hệ thống nhận dạng tiếng Việt nói. Việc nghiên cứu phương ngữ tiếng Việt chủ yếu chỉ tập trung theo hướng xử lý tín hiệu. Phương ngữ tiếng Việt rất phong phú. Về mặt địa lý, xét theo phương thức phát âm, phương ngữ có thể thay đổi theo từng làng, xã. Tuy nhiên, trong phạm vi nghiên cứu của luận án, do thời gian có hạn, luận án chỉ giới hạn nghiên cứu nhận dạng ba phương ngữ chính và phổ biến của tiếng Việt theo phương thức phát âm là phương ngữ Bắc (lấy giọng 15
Hà Nội làm đại diện), phương ngữ Trung (lấy giọng Huế làm đại diện) và phương ngữ Nam (lấy giọng Thành phố Hồ Chí Minh làm đại diện). Bên cạnh đó, với mục tiêu ứng dụng kết quả nhận dạng phương ngữ tiếng Việt vào hệ thống nhận dạng tự động tiếng Việt nói nhằm cải thiện hiệu năng nhận dạng, nhận dạng phương ngữ được xem là bước tiền xử lý trong hệ thống nhận dạng tự động tiếng Việt. Việc nhận dạng phương ngữ cần được tiến hành trước khi nhận dạng nội dung, nghĩa là ở thời điểm còn chưa biết nội dung tiếng nói. Vì vậy, thao tác của hệ thống nhận dạng phương ngữ chưa thể khai thác các thông tin về từ địa phương mà chủ yếu là khai thác thông tin về phương thức phát âm của phương ngữ. Các thử nghiệm nhận dạng phương ngữ mà luận án tiến hành dựa trên ngữ liệu với số lượng từ vựng hạn chế để từ đó xác định được các đặc trưng của từng phương ngữ và đề xuất mô hình nhận dạng phương ngữ nhằm nâng cao chất lượng hệ thống nhận dạng tiếng Việt nói. 5. Ý nghĩa khoa học và thực tiễn của luận án Nội dung nghiên cứu, kết quả dự kiến đạt được của luận án sẽ có đóng góp đáng kể cho mở rộng nghiên cứu về phương ngữ tiếng Việt. Các nghiên cứu về phương ngữ tiếng Việt đã được triển khai cho đến nay chủ yếu thực hiện theo phương diện ngôn ngữ. Nghiên cứu về phương diện xử lý tín hiệu vẫn còn hạn chế. Do vậy, hướng nghiên cứu theo phương diện xử lý tín hiệu sẽ giúp mở rộng phạm vi nghiên cứu cũng như gia tăng khả năng ứng dụng các kết quả đạt được trong lĩnh vực nghiên cứu xử lý tiếng Việt nói nói chung và nhận dạng tiếng Việt nói nói riêng. Từ kết quả nhận dạng phương ngữ, đề xuất mô hình mới nhận dạng tiếng Việt nói sử dụng thông tin phương ngữ nhằm cải thiện hiệu năng hệ thống nhận dạng tiếng Việt nói, góp phần hoàn thiện hơn khả năng nhận dạng của hệ thống nhận dạng tự động tiếng Việt nói. 6. Phương pháp nghiên cứu Phương pháp nghiên cứu của luận án là kết hợp nghiên cứu lý thuyết với nghiên cứu thực nghiệm. Về lý thuyết: luận án nghiên cứu tổng quan về phương ngữ tiếng Việt, các mô hình nhận dạng phương ngữ của một số ngôn ngữ trên thế giới, các mô hình nhận dạng tiếng nói dựa trên các tài liệu, công trình khoa học đã được công bố, sách báo, giáo trình liên quan. Về thực nghiệm: luận án xây dựng bộ ngữ liệu tiếng Việt mới phục vụ cho nghiên cứu nhận dạng phương ngữ tiếng Việt và nhận dạng nội dung tiếng Việt nói. Luận án cũng sử dụng các công cụ mã nguồn mở kết hợp lập trình phần mềm xử lý dữ liệu, thực hiện các nghiên cứu, thử nghiệm nhận dạng phương ngữ tiếng Việt, xây dựng và thử nghiệm mô hình nhận dạng phương ngữ cũng như nhận dạng tiếng Việt nói theo phương ngữ. 7. Kết quả nghiên cứu, đóng góp của luận án Kết quả nghiên cứu và đóng góp của luận án tập trung vào các điểm chính sau: 16
(1) Phân tích đặc điểm phương ngữ tiếng Việt, sự khác biệt giữa các phương ngữ chính của tiếng Việt về phương diện phát âm về mặt xử lý tín hiệu. (2) Xây dựng bộ ngữ liệu tiếng Việt mới phục vụ cho nghiên cứu nhận dạng phương ngữ tiếng Việt cũng như các nghiên cứu khác về nhận dạng tiếng Việt nói; thực hiện một số nghiên cứu, thử nghiệm, phân tích đặc điểm của phương ngữ tiếng Việt. (3) Đề xuất mô hình nhận dạng phương ngữ tiếng Việt và bộ tham số phù hợp cho mô hình nhận dạng phương ngữ tiếng Việt. (4) Sử dụng mô hình HMM (Hidden Markov Model) nhận dạng tiếng Việt nói trên bộ ngữ liệu có phương ngữ. (5) Đề xuất mô hình nhận dạng tiếng Việt nói theo phương ngữ. 8. Nội dung luận án Nội dung chính của luận án được trình bày trong 4 chương như sau: Chương 1: Tổng quan về nhận dạng tiếng nói và nhận dạng phương ngữ. Chương này trình bày tổng quan về nhận dạng tiếng nói, lịch sử phát triển và các tiến bộ trong nghiên cứu nhận dạng tiếng nói; các nghiên cứu và kết quả đạt được về nhận dạng phương ngữ; việc nghiên cứu về nhận dạng tiếng nói và phương ngữ tiếng Việt, các vấn đề còn tồn tại trong nghiên cứu, nhận dạng tiếng Việt nói và phương ngữ tiếng Việt; làm rõ vấn đề cần nghiên cứu, giải quyết trong luận án. Chương 2: Xây dựng bộ ngữ liệu cho nghiên cứu nhận dạng phương ngữ tiếng Việt. Nội dung chương này đề cập các nghiên cứu chi tiết hơn về phương ngữ tiếng Việt, từ đó cho thấy sự khác biệt giữa các phương ngữ, đặc biệt là phương thức phát âm, làm cơ sở cho nghiên cứu nhận dạng phương ngữ tiếng Việt. Chương 2 cũng trình bày phương pháp xây dựng bộ ngữ liệu dùng cho nghiên cứu nhận dạng phương ngữ tiếng Việt và kết quả phân tích đạt được đối với một số đặc trưng của phương ngữ tiếng Việt dựa trên ngữ liệu đã xây dựng. Chương 3: Nhận dạng phương ngữ tiếng Việt. Chương này tập trung vào nghiên cứu các mô hình nhận dạng phương ngữ tiếng Việt, việc lựa chọn tham số ứng dụng cho mỗi mô hình và trình bày các kết quả thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng các mô hình và tham số đã đề xuất. Chương 4: Cải thiện hiệu năng nhận dạng tiếng Việt với thông tin về phương ngữ. Luận án sẽ trình bày mô hình nhận dạng tiếng nói dựa trên HMM sử dụng các thông tin về phương ngữ nhằm cải thiện hiệu năng nhận dạng tiếng Việt nói. Kết quả thử nghiệm cho thấy mô hình nhận dạng tiếng Việt nói có sử dụng thông tin phương ngữ cho hiệu năng nhận dạng tốt hơn so với trường hợp không có thông tin về phương ngữ. Cuối cùng, phần Kết luận tổng hợp các kết quả nghiên cứu đã đạt được, hướng mở rộng nghiên cứu, phát triển đề tài và các đóng góp khoa học của luận án. 17
CHƯƠNG 1 1. TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI VÀ NHẬN DẠNG PHƯƠNG NGỮ Chương 1 đề cập nội dung tổng quan về nhận dạng tiếng nói và nhận dạng phương ngữ. Đây là vấn đề chính mà luận án quan tâm. Trong chương này, luận án tập trung tổng hợp, phân tích tình hình nghiên cứu trong và ngoài nước về nhận dạng tiếng nói và nhận dạng phương ngữ nhằm xác định các hướng tiếp cận, phương pháp giải quyết các bài toán trong lĩnh vực này. Đồng thời, Chương 1 cũng tổng hợp các nghiên cứu liên quan về nhận dạng tiếng Việt và phương ngữ tiếng Việt, nêu bật những mặt còn tồn tại, những vấn đề cần giải quyết đối với nhận dạng tiếng Việt và phương ngữ tiếng Việt từ đó tìm hướng tiếp cận nhằm nâng cao hiệu năng cho hệ thống nhận dạng tiếng Việt nói. 1.1. Nhận dạng tiếng nói 1.1.1. Tổng quan về nhận dạng tiếng nói Nhiệm vụ của hệ thống nhận dạng tiếng nói là làm cho hệ thống hiểu được tiếng nói của con người. Nhờ hệ thống này, tiếng nói có thể được chuyển đổi tự động thành văn bản, hoặc tự động điều khiển các quá trình khác [178]. Phương thức truyền thông tự nhiên nhất đối với con người là thông qua tiếng nói nên ước mơ cuối cùng của nhận dạng tiếng nói là cho phép con người có ngôn ngữ khác nhau giao tiếp với nhau và với máy một cách tự nhiên, hiệu quả hơn. Có thể nói, các ứng dụng nhận dạng tiếng nói hiện đang dần trở nên phổ biến, phục vụ đời sống con người cũng như trong các lĩnh vực kỹ thuật khác nhau. Trong lĩnh vực tương tác người máy, nhận dạng tiếng nói được định nghĩa là khả năng hệ thống máy tính có thể chấp nhận đầu vào là lời nói theo định dạng file âm thanh và tạo ra được văn bản chứa nội dung tương ứng. Nhận dạng tự động tiếng nói ASR (Automatic Speech Recognition) mô phỏng khả năng nghe và hiểu lời nói của con người. Hệ thống ASR có thể chuyển đổi lời nói thành văn bản. Bài toán nhận dạng tự động tiếng nói là một chương trình máy tính tiếp nhận đầu vào là các mẫu tiếng nói và tạo ra văn bản tương ứng mà con người có thể hiểu được như khi trực tiếp nghe tiếng nói đó. ASR là một trong các lĩnh vực của nhận dạng mẫu. ASR phát triển mạnh tương xứng với các lĩnh vực khác của nhận dạng mẫu vì mong muốn tạo ra được cỗ máy có khả năng tạo ra được các quyết định phức tạp và thực tế, có chức năng nhanh như con người đồng thời có thể hiểu được lời nói. Tương tự như bất kỳ hệ thống nhận dạng mẫu nào, ASR tìm kiếm để hiểu được các mẫu tiếng nói đầu vào. Các nghiên cứu về xử lý tín hiệu, xử lý tiếng nói và đặc biệt là nhận dạng tiếng nói đã thu hút nhiều nhà khoa học tham gia và mang lại nhiều thành tựu trong các lĩnh vực này [33, 37, 55, 57, 63, 75, 94, 95, 134]. 18
Mục tiếp theo dưới đây sẽ trình bày tóm lược về lịch sử phát triển và các tiến bộ trong nghiên cứu nhận dạng tiếng nói. 1.1.2. Lịch sử phát triển và các tiến bộ trong nghiên cứu nhận dạng tiếng nói Điều đầu tiên quan trọng cần phải kể đến trong lịch sử phát triển của nhận dạng tiếng nói là việc thành lập các mô hình thống kê và các thuật giải liên quan tạo điều kiện cho việc thực hiện các mô hình này. Mô hình HMM đã được giới thiệu như là một mô hình âm học của hệ thống nhận dạng tiếng nói từ đầu những năm 1970 [12, 82]. Hơn 30 năm sau, phương pháp này vẫn còn được sử dụng rộng rãi. Một lượng lớn các mô hình và thuật giải đã được đề xuất và sử dụng hiệu quả trong lĩnh vực này. Thuật giải tối đa hóa kỳ vọng EM (Expectation Maximization) và thuật giải quay lui (Forward – Backward) hoặc thuật giải Baum – Welch [14, 36] đã có vai trò chủ yếu và quan trọng trong việc huấn luyện mô hình HMM một cách hiệu quả. Tương tự như vậy, mô hình ngôn ngữ N-gram và các biến thể được huấn luyện với các tính toán cơ bản hoặc sử dụng kỹ thuật EM-Style đã đạt được các hiệu quả quan trọng. Bên cạnh mô hình âm học HMM và mô hình ngôn ngữ cơ bản N-gram, đã có nghiên cứu mới được công bố như các mô hình phân đoạn [38, 39, 60] và các mô hình ngôn ngữ và tiếng nói có cấu trúc [27, 40, 175]. Các thuật giải thích nghi hiệu quả cho phép tích hợp được trên các ứng dụng đòi hỏi xử lý nhanh. Đây là chìa khóa dẫn đến thành công cho việc phát triển các sản phẩm thương mại của công nghệ nhận dạng tiếng nói. Các kỹ thuật thích nghi phổ biến có thể kể đến là tối đa xác suất hậu nghiệm MAP (Maximum a Posteriori probability), ước lượng MLLR (Estimation và Maximum Likelihood Linear Regression) [96]. Các kỹ thuật thích nghi đã được tổng quát hóa để huấn luyện các mô hình chung, một đại diện tốt trong số đó có thể kể đến là mô hình thống kê toàn thể của tập dữ liệu huấn luyện đầy đủ. Kỹ thuật này được gọi là kỹ thuật huấn luyện thích nghi người nói SAT (Speaker Adaptive Training) [9]. Huang cùng cộng sự đã có nghiên cứu so sánh các phương pháp nhận dạng độc lập người nói, nhận dạng phụ thuộc người nói và nhận dạng thích nghi người nói [74]. Kết quả nghiên cứu này cho thấy: khi nhận dạng độc lập người nói, tỷ lệ lỗi từ đạt 4,3%, còn khi sử dụng dữ liệu phụ thuộc người nói, tỷ lệ lỗi từ đã giảm đến 1,4%. Trong các thử nghiệm, nhóm tác giả đều áp dụng phương pháp thich nghi người nói. Nhóm thứ hai trong những tiến bộ đáng kể của lĩnh vực xử lý tiếng nói là sự hình thành cơ sở hạ tầng tính toán mạnh về phần cứng cho phép phát triển được các thuật giải, mô hình thống kê nêu trên. Định luật Moore quan sát sự tiến bộ trong lĩnh vực phát triển của máy tính và dự báo khả năng tính toán tăng gấp đôi sau mỗi khoảng thời gian từ 12 đến 18 tháng. Cũng như vậy, chi phí cho bộ nhớ sẽ được giảm đi. Cơ sở hạ tầng mạnh nói trên là phương tiện cho phép các nhà nghiên cứu về nhận dạng tiếng nói có thể phát triển và đánh giá độ phức tạp các thuật giải trên các tác vụ đủ lớn. Ngữ liệu tiếng nói đóng vai trò quan trọng để thực hiện các nghiên cứu nhận dạng tiếng nói. Ngữ liệu tiếng nói lớn cho phép các mô hình thống kê học hiệu quả hơn. Trong những năm qua, Viện Tiêu chuẩn và 19
Công nghệ NIST (National Institute of Standard and Technology), Hiệp hội dữ liệu ngôn ngữ học LDC (Linguistic Data Consortium), Hiệp hội Tài nguyên Ngôn ngữ châu Âu ELRA (European Language Resources Association) và các tổ chức khác đã xây dựng được các bộ ngữ liệu tiếng nói, chú giải và chia sẻ rộng rãi cho cộng đồng trên toàn thế giới. Với sự phát triển, hội nhập và chia sẻ trên phạm vi toàn cầu, hiện nay, nhiều phòng thí nghiệm, các nhà nghiên cứu đã được hưởng lợi ích từ các công cụ phục vụ cho nghiên cứu được cung cấp miễn phí như HTK (Hidden Markov Model Toolkit), Sphinx, CMU LM toolkit và SRILM toolkit. Mặt khác, các hỗ trợ cho nghiên cứu sâu, rộng, kết hợp với các hội nghị, hội thảo, hệ thống đánh giá được DARPA (U.S. Department of Defense Advanced Research Projects Agency) và các tổ chức, cá nhân khác tài trợ đã trở nên cần thiết cho sự phát triển hệ thống nhận dạng tiếng nói hiện nay. Nhóm tiến bộ thứ 3 có thể kể đến thuộc về lĩnh vực biểu diễn tri thức. Các kỹ thuật phân tích tham số tiếng nói như MFCC (Mel-Frequency Cepstral Coefficients) [35], tiên đoán cảm thụ tuyến tính PLP (Perceptual Linear Prediction) [70], chuẩn hóa thông qua trừ trung bình cepstral CMS (Cepstral Mean Subtraction) [138], RASTA [70] và chuẩn hóa chiều dài tuyến âm VTLN (Vocal Tract Length Normalization) [42]. Gần đây, có nhiều thuật giải đã được đề xuất cho nhận dạng tiếng nói mang lại hiệu quả cao như Phân tích phân biệt tuyến tính hiệp phương sai không đồng nhất HLDA (Heteroscedastic Linear Discriminant Analysis) [90], cực tiểu lỗi từ theo không gian đặc trưng fMPE (feature-space Minimum Phone Error) [131] và mạng nơ ron dựa trên các đặc trưng [111]. Nhóm cuối cùng trong các tiến bộ lớn của nhận dạng tiếng nói là giải mã và các thuật giải tìm kiếm. Ban đầu tập trung vào giải mã ngăn xếp (thuật giải tìm kiếm A∗) [84] và tìm kiếm đồng bộ thời gian Viterbi (time-synchronous Viterbi search) [114, 142, 168, 170]. Nếu không có các thuật giải khả thi thì các nhận dạng tiếng nói liên tục có quy mô lớn khó có thể thực hiện được. Như vậy có thể thấy, nhận dạng tiếng nói đã đạt được nhiều tiến bộ trong các năm qua. Có nhiều mô hình nhận dạng đã được đề xuất trong đó mô hình HMM với nền tảng chính không có nhiều thay đổi song việc mô hình hóa, các kỹ thuật cài đặt cụ thể vẫn liên tục được cải tiến. Vì thế, HMM vẫn giữ được vị trí quan trọng trong các hệ thống nhận dạng tiếng nói. Bên cạnh đó, các kỹ thuật phân tích tham số cũng đạt được những bước tiến quan trọng. Các thuật giải tìm kiếm được cải tiến giúp bộ giải mã thực hiện các nhiệm vụ tìm kiếm, cho ra lời giải hiệu quả hơn. 1.1.3. Các thách thức đối với nhận dạng tự động tiếng nói Vì có nhiều ý nghĩa trong nghiên cứu cũng như thực tiễn ứng dụng, nhận dạng tiếng nói đã thu hút nhiều nhà khoa học tham gia nhưng lĩnh vực này cũng phải đối mặt với nhiều thách thức. Thách thức lớn đầu tiên đối với nhận dạng tự động tiếng nói có thể kể đến là làm thế nào để xử lý được các biến thiên trong tiếng nói. Cùng một âm do cùng một người nói ở những thời điểm khác nhau song tín hiệu tiếng nói có thể không hoàn toàn như nhau. 20