Tóm tắt Luận án Toán học: Nghiên cứu các đặc trưng tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt

Chia sẻ: Na Na | Ngày: | Loại File: PDF | Số trang:39

Thêm vào BST

Báo xấu

57
lượt xem 6
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án gồm các chương sau: Chương 1 - Tổng quan về tổng hợp và nhận dạng tiếng nói, chương 2 - Xử lý tiếng nói và các mô hình học máy, chương 3 - Dự báo trường độ, âm lượng và tổng hợp thanh điệu tiếng việt, chương 4 - Kết hợp tham số cấu âm, formant và thanh điệu để nâng cao chất lượng nhận dạng tiếng Việt.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Tóm tắt Luận án Toán học: Nghiên cứu các đặc trưng tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ Ngô Hoàng Huy NGHIÊN CỨU CÁC ĐẶC TRƯNG TÍN HIỆU VÀ RÀNG BUỘC NGÔN ĐIỆU ĐỂ NÂNG CAO CHẤT LƯỢNG TỔNG HỢP VÀ NHẬN DẠNG TIẾNG VIỆT Chuyên ngành: Cơ sở Toán học cho Tin học Mã số: 62 46 01 10 LUẬN ÁN TIẾN SĨ TOÁN HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. PGS.TS. Lương Chi Mai 2. PGS.TS. Ngô Quốc Tạo Hà Nội – 2016 1
Công trình được hoàn thành tại: Viện Hàn lâm Khoa Học và Công Nghệ Việt Nam Học viện Khoa học và Công nghệ Người hướng dẫn khoa học: PGS.TS. Lương Chi Mai PGS.TS. Ngô Quốc Tạo Phản biện 1: TS. Trịnh Anh Tuấn Phản biện 2: TS. Nguyễn Phú Bình Phản biện 3: PGS.TS. Vũ Kim Bảng Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp Học viện họp tại: …….……………………………………………………………………….. Vào hồi giờ ngày tháng năm Có thể tìm hiểu luận án tại: - Thư viện Quốc gia Việt Nam. - Thư viện Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam. 2
Phạm vi, nội dung, phương pháp nghiên cứu và kết cấu luận án Cấu trúc tổng thể của luận án được chỉ ra trong Hình 1.2 và các chương còn lại của luận án được tổ chức như sau: Chương 1. Tổng quan về tổng hợp và nhận dạng tiếng nói. Chương 2. Xử lý tiếng nói và các mô hình học máy. Chương 3. Dự báo trường độ, âm lượng và tổng hợp thanh điệu tiếng việt. Chương 4. Kết hợp tham số cấu âm, formant và thanh điệu để nâng cao chất lượng nhận dạng tiếng Việt. Phụ lục 3
Luận án Tổng hợp tiếng nói Chương 1. tổng quan về Nhận dạng tiếng nói tổng hợp và nhận dạng Các công trình đã xuất bản tiếng nói. liên quan Chương 2. xử lý tiếng nói và các mô hình học máy. Xử lý tiếng nói Mô hình dự báo CART. Mô hình Markov ẩn (HMM, Hidden Markov Model) Chương 3. Dự báo trường độ, âm lượng và tổng hợp thanh điệu tiếng việt Khảo sát một số đặc tính âm học tiếng Việt Dự báo thông tin trường độ, âm lượng của âm tiết tiếng Việt trong ngữ cảnh câu, thử nghiệm đánh giá trong hệ thống tổng hợp Chương 4. kết hợp tham số tiếng Việt theo phương cấu âm, formant và thanh pháp ghép nối điệu để nâng cao chất lượng nhận dạng tiếng Việt Nhận dạng thanh điệu tiếng Việt. Đặc trưng MFCC với phép chuẩn hóa độ dài cấu âm VTLN kết hợp với F0 Hệ thống nhận dạng tiếng Việt nhúng 4
CHƯƠNG 1. TỔNG QUAN VỀ TỔNG HỢP VÀ NHẬN DẠNG TIẾNG NÓI. Chương này trình bày khái niệm tổng hợp và nhận dạng tiếng nói, khái quát về phạm vi ứng dụng của nhận dạng, tổng hợp tiếng nói trong cuộc sống. Trong chương này, các phương pháp tiếp cận nhận dạng, tổng hợp tiếng nói hiện đại, so sánh những ưu, nhược điểm của từng phương pháp cũng được giới thiệu, từ đó đề xuất sử dụng các đặc trưng ngôn điệu để nâng cao chất lượng nhận dạng và tổng hợp tiếng Việt. Phần tiếp theo của chương này, luận án đề cập đến những kiến thức cơ bản,liên quan đến xử lý tiếng nói, trích chọn đặc trưng và các mô hình học máy được sử dụng trong luận án gồm HMM và CART. 1.1. Tổng hợp tiếng nói Hình 1. 1. Hệ thống TTS tổng quát. Nói chung quá trình Tổng hợp tiếng nói bao gồm các giai đoạn chính: i) Chuẩn hóa văn bản và phân tích câu - xử lý ngôn ngữ tự nhiên. ii) Chuyển văn bản sang đơn vị tiếng nói. iii) Dự báo ngôn điệu. iv) Sinh tiếng nói. Câu tổng hợp chưa thay đổi trường độ/âm lượng “Tôi đang học nói tiếng Việt” Thay đổi trường độ/âm lượng của câu tổng hợp Hình 1. 2. Xử lý ngôn điệu tiếng Việt 5
1.2. Nhận dạng tiếng nói Độ phức tạp của hệ thống nhận dạng tiếng nói thường phụ thuộc vào các yếu tố cơ bản sau : - Môi trường thu nhận tín hiệu. - Tập từ vựng được sử dụng. - Sự phụ thuộc vào người nói. - Kiểu phát âm (rời rạc, kết nối, liên tục). Hình 1.3. Liệt kê các kiểu hệ thống nhận dạng tiếng nói. - Tài nguyên hệ thống. Bảng 1. 1. Các loại nhận dạng tiếng nói Chế độ nói : liên tục. Từ vựng : vừa và nhỏ. Người nói : phụ thuộc và độc lập người nói. Kiểu nói : tự nhiên và mệnh lệnh Môi trường thu nhận tín hiệu Độ chính xác nhận dạng trong các môi trương như : nhà ở-văn phòng; trong ô tô; trong môi trường công nghiệp; nguồn âm có khoảng cách với mic là rất khác nhau, nguyên nhân do tín hiệu nhiễu, tiếng vang gây ra. Bảng 1. 2. Phân loại môi trường theo mức nhiễu Môi trường Độ nhiễu nhà ở-văn phòng [20dB,30dB] ô tô [-5dB, 10dB] Môi trường tự nhiên-công nghiệp [-5dB, 10dB] Tập từ vựng Căn cứ vào số lượng từ nhận dạng mà người ta chia các hệ thống sử dụng công nghệ nhận dạng tiếng nói làm ba loại: số lượng từ vựng nhỏ (30-100), số lượng từ vựng trung bình (100- 500), và số lượng từ vựng lớn (> 500). Sự phụ thuộc người nói Trong hệ thống nhận dạng phụ thuộc người nói, chủ thể tương tác với hệ thống phải là người có dữ liệu tiếng nói trong tập dữ liệu huấn luyện ban đầu của hệ thống. Đối với hệ thống nhận dạng độc lập người nói, người tương tác với hệ thống có thể là bất kỳ. Hệ thống này đòi hỏi phải có một nguồn dữ liệu tiếng nói kích thước lớn của nhiều người nói. Khả năng nhận dạng chính xác của hệ thống độc lập người nói thấp hơn hệ thống phụ thuộc người nói. Tài nguyên hệ thống Tài nguyên hệ thống chủ yếu gồm năng lực tính toán và dung lượng bộ nhớ . Các chip thường chỉ đủ đáp ứng yêu cầu tính toán chấm tĩnh, như vậy hệ thống nhận dạng nếu không được thiết kế tốt thì độ chính xác sẽ bị suy giảm hoặc không đáp ứng được yếu tố thời gian thực. CHƯƠNG 2. XỬ LÝ TIẾNG NÓI VÀ CÁC MÔ HÌNH HỌC MÁY 6
Chương này trình bày tổng quan về các thuật toán khử nhiễu, mô hình học máy HMM và CART 2.1. Xử lý tiếng nói Một số loại nhiễu trong môi trường thực : - Nhiễu hướng (Directional noise) : nhiễu từ hướng như âm TV, giọng nói v.v… - Nhiễu khuếch tán (Diffuse noise): nhiễu môi trường, nền v.v... - Vang (Reverberation) : nhiễu do trễ khi phản xạ tường, trần nhà v.v… - Nhiễu thiết bị : quạt tản nhiệt, cơ cấu chấp hành, mang cả tính hướng và khuếch tán. Hình 2. 1. Quá trình hình thành tiếng nói nhiễu Huấn luyện HMM : Nhận dạng với HMM: Đầu vào gồm T frame các đặc trưng MFCC. Đầu vào gồm T frame các đặc trưng Bước 1: Xác định đãy trạng thái tối ưu bằng MFCC. thuật toán Viterbi: Giải mã theo Viterbi để xác định tập T nhãn, và đãy trạng thái tối ưu ứng với bộ S  ({s t }Tt 1 )  arg max  log p(Ot  , W ) t 1 tham số mô hình HMM đã cho: T Bước 2: Hiệu chỉnh lại tham số mô hình (W , S  {s t }Tt 1 )  arg max  log p(Ot  , st ) T t 1 HMM:   arg max  log p(Ot  , st , W ) * t 1 Bước 3: Đặt =*, lặp lại tới khi mô hình hội tụ. Đặc trưng MFCC Các hệ nhận dạng tiếng nói thường tách đặc trưng từ tín hiệu bằng cách:chia tín hiệu thành các đoạn độ dài 5-15 ms, mỗi đoạn gọi là một khung (frame). Mỗi frame sẽ cho đặc trưng là một vector và đặc trưng của toàn bộ tín hiệu sẽ là một dãy vector. MFCC là phương pháp trích đặc trưng (theo thang tần số mel, không phải theo Hz) dựa trên đặc điểm cảm thụ tần số âm của tai người: tuyến tính đối với tần số nhỏ hơn 1kHz và phi tuyến đối với tần số trên 1kHz. Việc tính đặc trưng MFCC có sơ đồ như sau 7
Hình 2. 2. Các băng lọc dạng tam giác Kỹ thuật cộng chồng đồng bộ cao độ tần số cơ bản – PSOLA PSOLA (Pitch Synchronous Overlap Add) là phương pháp tổng hợp dựa trên sự phân tích một tín hiệu thành một chuỗi các tín hiệu thành phần, được sử dụng để thay đổi giá trị đường F0 và trường độ trực tiếp trên dạng sóng tiếng nói. 2.2. Mô hình dự báo CART Các cây CART tự nó đã bao gồm các câu hỏi yes/no về các điểm đặc trưng và cuối cùng đưa ra một mật độ xác suât, khi dự đoán các giá trị xác thực (cây phân loại), hoặc một độ lệch tiêu chuẩn khi dự báo các giá trị liên tục (cây hồi quy). Các kỹ thuật tốt có thể được sử dụng để xây dựng một cây tối ưu từ tập dữ liệu huấn luyện. Chương trình được phát triển liên kết với Festival, gọi là Wagon, cung cấp một phương thức cơ bản nhưng đủ mạnh cho việc xây dựng cây. 2.3. Mô hình Markov ẩn (HMM, Hidden Markov Model) Mô hình Markov ẩn được mở rộng khái niệm từ mô hình Markov bằng cách mỗi trạng thái được gắn với một hàm phát xạ quan sát (observation distribution). Ngoài quá trình ngẫu nhiên chuyển giữa các trạng thái, tại mỗi trạng thái còn có một quá trình ngẫu nhiên sinh ra một quan sát. Như vậy trong Mô hình Markov ẩn có một quá trình ngẫu nhiên kép, trong đó có một quá trình ngẫu nhiên không quan sát được. Tập các quan sát O được sinh ra bởi dãy các trạng thái S1, S2, ..., SN của mô hình, mà dãy các trạng thái này là không thấy được, đó chính là lý do mô hình được gọi là mô hình Markov ẩn (hidden). Mô hình HMM là một máy trạng thái sinh ra dãy quan sát thời gian rời rạc. Tại mỗi đơn vị thời gian (frame), sự thay đổi trạng thái HMM theo xác suất chuyển trạng thái, sau đó sinh ra dãy quan sát Ot tại thời điểm t theo phân bố xác suất đầu ra của trạng thái hiện tại. Một HMM N trạng thái định nghĩa bởi phân bố xác suất chuyển trạng thái A  {aij }iN, j 1 , phân bố xác suất output B  {b j (o)}Nj1 , phân bố xác suất trạng thái khởi tạo   { i }iN1 . Ta kí hiệu   ( A, B, ) là bộ tham số của mô hình. Nhận dạng tiếng nói với mô hình Markov ẩn Các hệ thống nhận dạng dựa trên HMM thường sử dụng đặc trưng chuẩn MFCC và quy trình huấn luyện và nhận dạng theo thuật toán sau: 8
Bảng 2. 1. Thuật toán nhận dạng tiếng nói dựa trên HMM với đặc trưng MFCC. Huấn luyện HMM : Nhận dạng với HMM: Đầu vào gồm T frame các đặc trưng MFCC. Đầu vào gồm T frame các đặc trưng Bước 1: Xác định dãy trạng thái tối ưu bằng MFCC. thuật toán Viterbi: Giải mã theo Viterbi để xác định tập T nhãn, và dãy trạng thái tối ưu ứng với bộ S  ({s t }Tt 1 )  arg max  log p(Ot  , W ) t 1 tham số mô hình HMM đã cho: T Bước 2: Hiệu chỉnh lại tham số mô hình (W , S  {s t }Tt 1 )  arg max  log p(Ot  , st ) t 1 T HMM:   arg max  log p(Ot  , st , W ) * t 1 Bước 3: Đặt =*, lặp lại tới khi mô hình hội tụ. CHƯƠNG 3. DỰ BÁO TRƯỜNG ĐỘ, ÂM LƯỢNG VÀ TỔNG HỢP THANH ĐIỆU TIẾNG VIỆT 9
Vấn đề tổng hợp tiếng Việt giọng tự nhiên hiện nay vẫn là một vấn đề phức tạp do tiếng nói tự nhiên hàm chứa rất nhiều hiện tượng ngôn điệu như trường độ, âm lượng và thanh điệu. Chuyên đề này trình bày các đặc trưng tiếng nói phù hợp với đặc thù ngôn ngữ tiếng Việt, các đặc trưng ngữ âm như thanh điệu, trường độ và formant để đạt được hiệu quả nâng cao chất lượng Tổng hợp và nhận dạng tiếng Việt như:  Nghiên cứu về các phương pháp tổng hợp và nhận dạng tiếng nói và cách trích chọn các đặc trưng của đối tượng cần nhận dạng.  Nghiên cứu về các mô hình ngôn điệu, phân tích đặc trưng tiếng Việt.  Nghiên cứu các luật ngôn điệu, đặc trưng tín hiệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt. Hình 3. 1. Sơ đồ của một hệ thống tổng hợp tiếng nói ghép nối. Quy luật biến đổi thanh điệu trong ngữ cảnh Bảng 3. 1. Trường độ nguyên âm trong kết hợp với thanh điệu CTV nam Thanh điệu Trường độ (ms) Huyền Ngang Ngã Sắc Hỏi Nặng 10
Nguyên âm [i] 371 363 313 256 267 158 [e] 332 324 301 257 233 184 [] 357 352 301 258 220 178 [] 331 328 300 274 254 176 [] 339 333 276 276 254 167 [a] 322 317 271 290 222 159 [u] 341 333 275 258 247 186 [o] 345 331 291 289 257 197 [] 367 333 288 291 228 160 Biểu đồ 3.2: Trường độ nguyên âm kết hợp với thanh điệu CTV nữ Trường độ nguyên âm kết hợp với thanh điệu 400 350 300 Huyền 250 Trường độ Ngang Ngã 200 Sắc 150 Hỏi Nặng 100 50 0 i ê e ư ơ a u ô o Nguyên âm Bảng 3. 2. Trường độ nguyên âm trong kết hợp với thanh điệu CTV nữ Thanh điệu Trường độ (ms) Huyền Ngang Ngã Sắc Hỏi Nặng Nguyên âm [i] 379 328 314 260 259 202 [e] 415 353 298 286 276 216 [] 368 346 283 299 280 185 [] 394 354 272 264 257 199 [] 408 363 305 272 288 195 [a] 407 351 312 288 266 171 11
[u] 380 371 289 280 274 187 [o] 404 364 322 294 266 227 [] 370 367 294 273 259 165 Quy luật biến đổi formant của nguyên âm trong ngữ cảnh. Bảng 3. 3. Vùng tần số formant trung bình của các nguyên âm kết hợp với thanh điệu CTV Nam Nguyên Ngang Huyền Ngã Hỏi Sắc Nặng âm F1 F2 F1 F2 F1 F2 F1 F2 F1 F2 F1 F2 [i] 291 2231 315 2307 314 2407 309 2445 311 2452 299 2512 [e] 394 2239 401 2195 495 2284 428 2211 443 2263 464 2207 [] 598 2304 571 2274 676 2348 626 2270 640 2322 661 2269 [] 399 1296 710 1659 384 1292 429 1377 386 1321 395 1299 [] 453 1290 874 1860 591 1308 487 1286 522 1319 580 1297 [a] 994 1749 920 1719 970 1716 968 1688 924 1687 943 1714 [u] 466 2125 504 1656 405 1140 398 1014 402 1137 390 984 [o] 456 963 568 1437 489 918 514 1056 539 1229 478 894 [] 793 1116 808 1052 856 1115 801 1051 849 1138 831 1120 Bảng 3. 4. Vùng tần số formant trung bình của các nguyên âm kết hợp với thanh điệu CTV Nữ Nguyên Ngang Huyền Ngã Hỏi Sắc Nặng âm F1 F2 F1 F2 F1 F2 F1 F2 F1 F2 F1 F2 [i] 312 2881 350 2780 363 2933 334 2913 337 2945 366 2968 [e] 516 2420 493 2395 570 2334 486 2446 510 2488 510 2421 [] 685 2569 618 2539 677 2515 688 2608 702 2604 708 2556 [] 353 1303 379 1288 430 1330 379 1235 401 1274 425 1205 [] 548 1225 530 1321 632 1304 532 1312 547 1281 567 1298 [a] 897 1937 846 1630 833 1652 821 1740 863 1743 844 1606 [u] 345 811 365 619 397 701 370 652 379 649 403 698 [o] 509 979 455 790 546 891 450 817 466 800 483 830 [] 744 1216 709 1154 693 1084 719 1164 718 1113 751 1085 Cách điệu hóa đường F0 của âm tiết tiếng Việt. Trong [10][11] các tác giả đã sử dụng phương pháp bình phương tối thiểu để cách điệu hóa tuyến tính đường F0 của các thanh điệu tiếng Việt trong ngữ lưu. Các tác giả đã đi đến kết luận là rất khó để cách điệu hóa tuyến tính đường F0 của một số thanh điệu tiếng Việt như thanh nặng và thanh ngã. Tuy nhiên chúng tôi vẫn tổng hợp được các thanh nặng (cho âm tiết không tận cùng bằng p-t- c/ch) và thanh ngã từ các âm tiết mang thanh điệu – thanh ngang (thanh không dấu). Với các âm 12
tiết tiếng Việt tận cùng bằng p-t-c/ch thì thanh sắc được tổng hợp từ cùng âm tiết gốc nhưng có thanh điệu nặng. Hình 3. 2. Thanh không dấu (âm a) Hình 3. 3. Thanh huyền được cách điệu từ từ một dãy các giá trị F0 đo được 204,208,201,200,196,196,192,192,189,185,182,179,179,170,170. Hình 3. 4. Thanh sắc được cách điệu từ một dãy các giá trị F0 đo được 222,222,209,209,209,209,209,213,213,218,218,228,238,238,256,270,295,346. 13
Hình 3. 5. Thanh nặng được cách điệu từ các giá trị F0 đo được 213,217,222,213,213,208,185,185,80,80. Hình 3. 6. Thanh hỏi được cách điệu từ một dãy giá trị F0 đo được 150,179,188,200,207,208,201,197,192,184,177,174,177,177,179,188,191,184,163,1 50 Để cách điệu hóa thanh điệu, chúng tôi không sử dụng phương pháp cách điệu hóa tuyến tính như [10][11] mà sử dụng mô hình Xu [68] đã được sử dụng rộng rãi cho tiếng Trung Quốc phổ thông –Mandarin. Mô hình Xu để mô hình hóa đường tần số cơ bản F0 của các thanh điệu trong ngữ cảnh (dùng cho các ngôn ngữ có thanh), mô hình này đã áp dụng được cho tiếng Mandarin. F t    et  at  b , như vậy F0 được tạo ra từ sự kết hợp của 2 thành phần xấp xỉ:  Thành phần xấp xỉ tuyến tính: at  b  Thành phần phân rã hàm mũ của sai số xấp xỉ:  e  t 14
Việc tính các hệ số của mô hình Xu khi cho trước giá trị đường F0 cũng sử dụng phương pháp bình phương tối thiểu, thay vì tìm các hệ số a,b,, ta xác định các hệ số a,b, k (k=e-) bằng n 1 F  a (i  1)  b  k  F0,i  ai  b   2 phép cực tiểu hóa như sau: 0,i 1  min (3.1) i 1 ở đó n là số frame của đoạn tiếng nói,  F0,i i 1 là giá trị đường F0 của đoạn tiếng nói. n Phương pháp cách điệu hóa sử dụng mô hình của Xu được xây dựng như sau : Bước 1 : Chọn âm tiết gốc có thanh điệu – thanh ngang, thanh nặng cho các âm tiết tận cùng p-t- c/ch, xác định giá trị đường F0 của âm tiết. Bước 2 : Biên tập giá trị đường F0 của thanh điệu cần tổng hợp. Sử dụng mô hình Xu để khớp các tham số a,b,k (các thanh không dấu, huyền, sắc, nặng có một bộ tham số a,b,k, các thanh hỏi và ngã có 2 bộ tham số a,b, k. Thanh sắc của âm tận cùng p-t-c/ch cũng có một tham số a,b,k) Bước 3 : Sử dụng thuật toán PSOLA tổng hợp âm tiết với thanh điệu xác định từ âm tiết gốc (nếu âm tiết gốc không tận cùng là p-t-c/ch thì âm tiết gốc mang thanh điệu –thanh ngang, trường hợp ngược lại thì âm tiết gốc mang thanh điệu là thanh nặng.) Hình 3. 7. Biên tập đường F0 của dấu ngã và tổng hợp dấu ngã. Các kết quả tổng hợp thanh điệu cho tất cả các loại âm tiết tiếng Việt như  Chỉ có nguyên âm  Không có phụ âm đầu  Kết thúc là bán nguyên âm.  Kết thúc là p-t-c/ch... 15
đã được thực hiện và kiểm tra với sự cộng tác của các nhà nghiên cứu ngữ âm học như Vũ Kim Bảng, Vũ Thị Hải Hà... Viện ngôn ngữ, Viện Hàn lâm KHXH Việt Nam đều đưa đến kết luận là âm nghe rõ, không bị hiện tượng rè, thanh điệu tổng hợp nghe rõ ràng, giữ được đường nét đặc trưng thanh điệu tương ứng. Tổng hợp thanh điệu tiếng Việt trong ngữ lưu Trong [42] chúng tôi đã trình bày kết quả tổng hợp ðýờng thanh ðiệu trong ngữ lýu bằng mô hình Fujisaki theo hướng tiếp cận phân tích – tổng hợp. Để phân tích đường nét F0, một công cụ phân tích các tham số của mô hình Fujisaki được sử dụng.. Fb được đặt bằng 96 Hz cho giọng nam và 210 Hz cho giọng nữ. α và β cho cả giọng nam và nữ được lần lượt đặt bằng 2 Hz và 25 Hz. Các bước tiến hành phân tích bao gồm:  Tính đường nét F0.  Lựa các chọn lệnh ngữ câu nói.  Dựa vào thanh điệu của các âm tiết để lựa chọn các lệnh thanh điệu phù hợp.  Điều chỉnh các tham số sao cho đường nét F0 sinh ra xấp xỉ tốt đường nét F0 thực.  Tổng hợp lại câu nói với đường nét thanh điệu mới sử dụng phương pháp PSOLA.  Cảm nhận bằng tai câu nói tổng hợp, so sánh với câu nói gốc và điều chỉnh lại. Các kết quả phân tích cơ sở dữ liệu cho thấy, các thanh ngang, sắc, ngã được biểu diễn bằng một lệnh thanh điệu dương, thanh huyền và hỏi được biểu diễn bằng một lệnh thanh điệu âm, thanh nặng không cần lệnh thanh điệu. Bảng 3. 5. Biểu diễn các 6 thanh điệu tiếng Việt bằng các lệnh thanh điệu Thanh điệu Biểu diễn bằng lệnh thanh điệu Ngang Một lệnh thanh điệu dương ở trước âm tiết Sắc Mộtlệnh thanh điệu dương Hỏi Một lệnh thanh điệu âm Huyền Một lệnh thanh điệu âm Ngã Một lệnh thanh điệu dương Nặng Một dùng lệnh thanh điệu Các câu được phân tích chỉ sử dụng một lệnh ngữ cho cả câu, phù hợp với hiện tượng trong câu nói, người nói th ường lên giọng ở đầu câu và hạ giọng ở cuối câu. Tuy nhiên trong tiếng Việt hiện tượng này không rõ rệt như ở các ngôn ngữ khác nên cường độ của lệnh ngữ này không lớn. 16
Hình 3. 8. Kết quả phân tích thanh điệu tiếng Việt bằng mô hình Fujisaki Thanh ngã và thanh sắc được biểu diễn bằng môt lệnh ngữ điệu dương phù hợp với nhận xét về sự giống nhau giữa 2 thanh này trong phần trước. Thanh hỏi có đường nét F0 đi xuống, đến giữ a thanh, đường nét F0 lại đi lên, thanh này giống thanh T3 (low tone) của tiếng Trung và được biểu diễn bằng một lệnh thanh điệu âm giống như trường hợp của tiếng Trung. Bảng 3. 6. Giá trị trung bình và độ lệch chuẩn của các tham số Fujisaki cho các thanh điệu. Thanh Aa T1rel T2rel 1 .218 -.09 .86 2 .523 .61 1.04 3 .556 .53 1.11 4 -.341 .45 .91 5 -.132 .37 1.07 6 .00 - - 6’ -.378 .42 .70 2’ .617 .16 .84 Quy định thời gian đơn giản được xây dựng bằng thực nghiệm. Các kết quả được thể hiện trong Bảng 3.6 và 3.7. Thời gian được đo bằng 10 đơn vị mi li giây. Kết quả thống kê cho thấy thời gian của âm phụ thuộc nhiều hơn nữa về thanh điệu hơn vị trí. Âm với thanh điệu 3, 6 'và 2' ngắn hơn những âm khác. Kết quả cho thấy các đường bao F0 được tạo ra bởi các mô hình Fujisaki nói chung làm việc tốt cho câu tiếng Việt. Phân lớp thanh điệu trong ngữ cảnh câu Trong [4] chúng tôi đã trình bày cách phân lớp thanh điệu trong ngữ lưu. Cách tiếp cận này dùng phương pháp lượng tử hóa các dạng đường thanh điệu để quy về một số lớp thanh điệu có đường nét đặc trưng cho mỗi lớp. Sau khi lượng tử hóa dùng cây quyết định khảo sát sự chuyển lớp của các thanh điệu dựa trên thông tin văn bản. Từ đó đưa ra những khảo sát hiện tượng biến thanh trong tiếng Việt nhằm cải tiến ngôn điệu trong hệ tổng hợp tiếng Việt. Số lượng các dạng đường thanh điệu trong câu liên tục tăng lên rất nhiều lần so với âm tiết rời rạc, để phân cụm các đường thanh điệu về một số lớp, dùng phương pháp lượng tử hóa tập các đường thanh điệu mẫu quy về một số lớp hữu hạn. Số lớp này lớn hơn số các đường thanh 17
điệu tiếng Việt 6 thanh. Trong luận án chỉ xét sự biến thiên đường thanh điệu trong 3 âm tiết liên tục. CSDL Tập các Phân Codeboo âm và gán nhãn văn véc tơ F0 cụm k bản huấn luyện LBG Chỉ số Bộ lượng CSDL Véc tơ F0 âm tiết vào codebook âm tiết tử hóa (lớp thanh biến điệu) thanh Hình 3. 9. Sơ đồ khối chung của quá trình huấn luyện và phân lớp các đường thanh điệu sử dụng Cơ sở dữ liệu tiếng nói huấn luyện mô hình dự báo Cơ sở dữ liệu gồm hơn 1250 câu tiếng nói đọc bởi phát thanh viên chuyên nghiệp, giọng Hà Nội, đã được sử dụng trong phần thực nghiệm này. Tập câu được ghi âm với tần số lấy mẫu là Fs=22050Hz, đơn kênh, độ phân giải một mẫu là 16bit. Để tăng độ chính xác của giá trị ngôn điệu được dự báo như trường độ và âm lượng của âm tiết trong câu tổng hợp, chúng tôi đã tiến hành phân tích các tham số thống kê chi tiết của các giá trị này trong các ngữ cảnh âm vị khác nhau của cơ sở dữ liệu câu huấn luyện như được tóm tắt ở các bảng dưới đây: Bảng 3. 7. Bảng độ dài âm vị không tính ngữ cảnh Tên âm vị Tần suất Độ dài min Độ dài max Trung bình Độ lệch (s) (s) chuẩn a 2280 0.021855 0.646632 0.119814 0.066424 iz 1948 0.016414 0.390000 0.078273 0.043617 m 710 0.025538 0.245256 0.085783 0.033361 aw 828 0.024235 0.242580 0.077581 0.029928 mz 487 0.026109 0.295968 0.117891 0.046261 k 1315 0.015311 0.320000 0.041839 0.017588 th 599 0.022596 0.162560 0.066307 0.023378 ch 687 0.020341 0.300000 0.061498 0.022193 cz 619 0.011557 0.127612 0.044278 0.021161 s 332 0.024672 0.210381 0.104234 0.043465 uz 673 0.019240 0.481884 0.097447 0.045938 kh 291 0.018458 0.215535 0.093406 0.029868 Bảng 3. 8. Độ dài nguyên âm a ràng buộc bởi phụ âm đầu, âm cuối Nguyên Âm đầu Âm cuối Tần suất Độ dài Độ dài Trung bình Độ lệch âm min (s) max chuẩn a ch,th,ph null 53 0.067591 0.354356 0.167803 0.061436 m,n,n,ng ban 67 0.034432 0.162890 0.082867 0.032960 nguyen 18
am Bảng 3. 9. Bảng độ dài âm cuối ràng buộc bởi nguyên âm Âm cuối Nguyên âm Tần suất Độ dài min Độ dài max Trung bình Độ lệch chuẩn cz aw 37 0.017871 0.103455 0.048423 0.022201 cz i 11 0.019492 0.064362 0.033094 0.012113 iz uo 31 0.027146 0.200000 0.086638 0.049505 iz uwow 173 0.018976 0.169185 0.063940 0.034708 mz aa 48 0.049768 0.295968 0.137286 0.051088 mz ow 16 0.074060 0.256748 0.130268 0.045005 pz a 9 0.026369 0.069933 0.042885 0.015182 pz aw 15 0.018157 0.112483 0.055905 0.028921 tz a 48 0.019623 0.090000 0.041001 0.016166 tz aw 74 0.016356 0.134143 0.044069 0.023076 uz aw 142 0.023469 0.481884 0.110776 0.058130 uz e 38 0.027209 0.187259 0.073656 0.032710 uz uw 8 0.049287 0.118485 0.076594 0.023276 Bảng 3. 10. Bảng độ dài phụ âm đầu ràng buộc bởi nguyên âm Phụ âm đầu Nguyên âm Tần suất Độ dài min Độ dài max Trung bình Độ lệch chuẩn b aw 54 0.025391 0.207781 0.076246 0.030834 b ee 28 0.036980 0.120000 0.074974 0.019760 ch a 20 0.034816 0.102819 0.063057 0.015888 ch u 67 0.024178 0.300000 0.059879 0.034934 h i 21 0.036870 0.090697 0.060960 0.015621 h u 11 0.040000 0.157039 0.078191 0.034558 k e 22 0.022826 0.170296 0.043214 0.030460 k ee 42 0.020343 0.062757 0.039003 0.011922 k u 115 0.015311 0.078733 0.038037 0.012070 kh a 42 0.052388 0.167643 0.100004 0.025507 kh ie 12 0.051503 0.210360 0.110791 0.046332 l a 369 0.029959 0.165244 0.074203 0.026375 l oa 23 0.052390 0.124459 0.087344 0.020237 l oo 20 0.042708 0.190000 0.094174 0.039680 m a 158 0.033945 0.206957 0.078506 0.029608 m aa 45 0.028441 0.166226 0.095594 0.034975 m uwow 28 0.025538 0.145181 0.071455 0.027013 ph a 61 0.023593 0.138148 0.066544 0.023755 ph uwow 33 0.049614 0.153171 0.090524 0.021938 s a 63 0.028638 0.186613 0.110303 0.036228 s aa 13 0.026092 0.183017 0.077653 0.050040 t ow 25 0.018038 0.114752 0.036266 0.022071 t u 33 0.012559 0.060969 0.028529 0.011556 th aa 74 0.023631 0.100928 0.056069 0.017729 th ie 22 0.028795 0.121672 0.077662 0.026268 v a 151 0.020957 0.162675 0.061447 0.029520 v uwow 15 0.035674 0.083957 0.062528 0.011667 Dự báo ngôn điệu Trong kỹ thuật tổng hợp tiếng Việt, chất lượng tổng hợp tập trung chính vào trường độ và cao độ của âm vị, đó là hai tham số chính truyền đạt thông tin ngữ âm. 19
Bộ phân tích ngôn điệu của hệ thống TTS tập trung vào việc tính toán giá trị của tập các biến ngữ âm. Trong một dạng tối thiểu, các biến này là trường độ âm vị và F0. Việc tính toán các giá trị như vậy có thể dựa vào các quy luật hoặc dựa vào các phương pháp học máy, như mô hình CART. Kết quả trên việc sử dụng CART được huấn luyện với các phong cách đọc khác nhau đã được nghiên cứu trong nhiều hệ thống TTS tiếng nước ngoài cũng như cho tiếng Việt, điểm mới ở đây là chúng tôi vận dụng mô hình dự báo CART để dự báo cả trường độ và âm lượng của các đơn vị tiếng Việt như âm vị, âm tiết và sử dụng giá trị gián tiếp Z-score được tính dựa trên các tham số thống kê của đơn vị âm trong ngữ cảnh câu, thay thế cho các giá trị trường độ gốc của đơn vị âm. Hai hệ số đo sai số là dự báo hệ số tương quan và trung bình độ lệch bình phương cho mô hình CART được cho như sau: d  d  M obs pred obs m d pred m d R m 1 (3.1) d  d  M M obs 2 pred 2 obs m d pred m d m 1 m 1 2 d  M 1 RMSE  obs m d pred m (3.2) M m 1 obs Ở đây M là kích thước dữ liệu của tập huấn luyện hoặc kiểm tra, d mobs , d là trường độ và pred trung bình thực tế, d mpred , d là trường độ và trung bình dự đoán của mô hình. Thử nghiệm và kết luận Sau khi huấn luyện mô hình dự báo CART các tham số đánh giá độ chính xác dự báo trường độ của âm tiết của các câu không năm trong cơ sở dữ liệu âm huấn luyện đạt được với R=0.87 và RMSE=0.044(s). Các ước lượng này là tốt hơn xét trên độ lớn của tập câu huấn luyện và dự báo và so sánh với các kết quả của các tác giả khác, ở đó độ chính xác dự báo là R=0.5794 và RMSE=0.0531(s). Ngoài ra việc dự báo giá trị âm lượng đã đạt được kết quả tốt, âm lượng của các âm tiết ở giữa và các âm tiết là từ dừng như “rằng”, “thì”, “là”, “và”, “mà” v.v… là hoàn toàn phù hợp trong câu được tổng hợp. Chúng tôi đã ứng dụng mô hình dự báo ngôn điệu tiếng Việt ở mức câu vào bộ tổng hợp tiếng Việt Vnvoice (một sản phẩm thương mại được viết chính bởi tác giả bài báo). Vnvoice đã có đầy đủ các mô đun chuẩn hóa văn bản tiếng Việt [3] [30] cho hệ thống TTS, ngoài ra Vnvoice còn có tính năng phân biệt từ tiếng Anh trộn lẫn trong văn bản tiếng Việt, phát âm tự động các âm tiết trong câu văn bản, chèn khoảng lặng thích hợp vào các âm tiết tận cùng hoặc bắt đầu là p-t-c/ch, âm tiết mang dấu nặng [3], thay đổi tốc độ đọc (nhanh và chậm) v.v… Đầu ra tín hiệu âm thanh của Vnvoice được biến đổi về trường độ/âm lượng sử dụng mô đun dự báo tích hợp bên trong. 20