Luận án Tiến sĩ Toán học: Nghiên cứu đặc trưng tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt

VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM

BỘ GIÁO DỤC VÀ ĐÀO TẠO

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

NGÔ HOÀNG HUY

NGHIÊN CỨU CÁC ĐẶC TRƯNG TÍN HIỆU VÀ RÀNG BUỘC NGÔN ĐIỆU ĐỂ NÂNG CAO CHẤT LƯỢNG TỔNG HỢP VÀ NHẬN DẠNG TIẾNG VIỆT

LUẬN ÁN TIẾN SĨ TOÁN HỌC

Hà Nội – 2016

VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM

BỘ GIÁO DỤC VÀ ĐÀO TẠO

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

NGÔ HOÀNG HUY

NGHIÊN CỨU CÁC ĐẶC TRƯNG TÍN HIỆU VÀ RÀNG BUỘC NGÔN ĐIỆU ĐỂ NÂNG CAO CHẤT LƯỢNG TỔNG HỢP VÀ NHẬN DẠNG TIẾNG VIỆT

Chuyên ngành: Cơ sở Toán học cho Tin học

Mã số: 62 46 01 10

LUẬN ÁN TIẾN SĨ TOÁN HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. PGS.TS. LƯƠNG CHI MAI

2. PGS.TS. NGÔ QUỐC TẠO

Hà Nội – 2016

LỜI CAM ĐOAN

Tác giả xin cam đoan đây là công trình nghiên cứu của bản thân tác giả. Các kết quả

nghiên cứu và các kết luận trong luận án này là trung thực, không sao chép từ bất kỳ một

nguồn nào và dưới bất kỳ hình thức nào. Việc tham khảo các nguồn tài liệu đã được thực hiện

trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định.

Tác giả luận án

Ngô Hoàng Huy

LỜI CẢM ƠN

Luận án này báo cáo một phần các kết quả nghiên cứu và làm việc của tôi trong hơn

hai chục năm qua. Trong suốt thời gian này ngoài nỗ lực làm việc của bản thân tôi, phòng

Nhận dạng và Công nghệ Tri thức, Viện Công nghệ Thông tin đã tạo cho tôi một môi trường

làm việc, điều kiện để thực hiện các nghiên cứu về chuyên nghành rộng là nhận dạng và

chuyên nghành hẹp nhận dạng và tổng hợp tiếng Việt.

Tôi xin chân thành cảm ơn PGS.TS Lương Chi Mai và PGS.TS Ngô Quốc Tạo đã chỉ

dẫn tôi làm việc trong bước đường khoa học của tôi, tận tình chỉ dẫn tôi để hoàn thành được

luận án này.

Xin cảm ơn các đồng nghiệp tại Phòng Nhận dạng và Công nghệ tri thức, Viện Công

nghệ Thông tin đã đóng góp những ý kiến thiết thực để tôi hiệu chỉnh lại các tiếp cận nghiên

cứu của mình, cảm ơn các kỹ sư tại công ty Cổ phần Phần mềm và Công nghệ ứng dụng đã hỗ

trợ tôi thử nghiệm các kết quả về tổng hợp và nhận dạng khẩu lệnh tiếng Việt trên nền tảng

chip PSoC.

Đặc biệt tôi xin bày tỏ lòng biết ơn sâu sắc tới vợ tôi Mai Thị Bạch Tuyết mà thiếu

điều này chắc chắn tôi đã không đủ nghị lực để hoàn thành bản luận án này.

MỤC LỤC

Danh mục các thuật ngữ và từ viết tắt i

Danh sách bảng ii

Danh sách hình vẽ iii

MỞ ĐẦU 1

1. Tính cấp thiết của đề tài .................................................................................... 1

2. Mục tiêu, phạm vi nghiên cứu của luận án. ....................................................... 4

3. Phương pháp và nội dung nghiên cứu ............................................................... 5

4. Kết quả đạt được của luận án ............................................................................ 6

CHƯƠNG 1. TỔNG QUAN VỀ TỔNG HỢP VÀ NHẬN DẠNG TIẾNG

NÓI 10

1.1. Tổng hợp tiếng nói ....................................................................................... 10

1.1.1. Chuẩn hóa văn bản và phân tích câu – xử lý ngôn ngữ tự nhiên ........ 11

1.1.2. Chuyển văn bản sang đơn vị tiếng nói .............................................. 11

1.1.3. Dự báo ngôn điệu ............................................................................. 11

1.1.4. Các phương pháp tổng hợp tiếng nói ................................................ 12

1.1.5. Các hệ thống tổng hợp tiếng nói tiếng Việt ....................................... 21

1.1.6. Các tham số ngôn điệu ..................................................................... 23

1.1.7. Tổng quan về âm học và các hiện tượng ngôn điệu tiếng Việt trong

ngữ lưu ..................................................................................................... 25

1.1.8. Hiệu chỉnh đường tần số cơ bản ....................................................... 33

1.2. Nhận dạng tiếng nói ..................................................................................... 38

1.2.1. Liệt kê các lớp bài toán nhận dạng tiếng nói ..................................... 38

1.2.2. Môi trường thu nhận tín hiệu ............................................................ 39

1.2.3. Biểu diễn tiếng nói - đặc trưng tiếng nói ........................................... 40

1.2.4. Phương pháp nhận dạng tiếng nói ..................................................... 42

1.2.5. Các hệ thống nhận dạng tiếng nói tiếng Việt..................................... 43

1.3. Kết luận chương 1 ........................................................................................ 44

CHƯƠNG 2. XỬ LÝ TIẾNG NÓI VÀ CÁC MÔ HÌNH HỌC MÁY 46

2.1. Xử lý tiếng nói ............................................................................................. 46

2.1.1. Xử lý nhiễu ...................................................................................... 46

2.1.2. Một số loại nhiễu trong môi trường thực ......................................... 47

2.1.3. Trích chọn đặc trưng tiếng nói .......................................................... 50

2.1.4. Thuật toán PSOLA ........................................................................... 56

2.2. Mô hình dự báo CART ................................................................................ 59

2.3. Mô hình Markov ẩn (HMM, Hidden Markov Model) ................................... 63

2.3.1. Tham số của mô hình HMM ............................................................. 64

2.3.2. Nhận dạng tiếng nói với mô hình Markov ẩn .................................... 66

2.4. Kết luận chương 2 ........................................................................................ 67

CHƯƠNG 3. DỰ BÁO TRƯỜNG ĐỘ, ÂM LƯỢNG VÀ TỔNG HỢP

THANH ĐIỆU TIẾNG VIỆT 68

3.1. Khảo sát một số đặc tính âm học tiếng Việt .................................................. 69

3.1.1. Đặc tính trường độ của âm tiết do ảnh hưởng của phụ âm và nguyên

âm trong ngữ cảnh ..................................................................................... 70

3.1.2. Quy luật biến đổi thanh điệu trong ngữ cảnh .................................... 71

3.1.3. Quy luật biến đổi formant của nguyên âm trong ngữ cảnh ................ 73

3.1.4. Cách điệu hóa đường F0 của âm tiết tiếng Việt ................................ 78

3.2. Dự báo thông tin trường độ, âm lượng của âm tiết tiếng Việt trong ngữ cảnh

câu ............................................................................................................. 86

3.2.1. Cơ sở dữ liệu tiếng nói huấn luyện mô hình dự báo .......................... 87

3.2.2. Dự báo ngôn điệu ............................................................................. 92

3.2.3. Thiết kế bộ phân tích ngôn điệu và xác định tham số huấn luyện dự

báo trường độ và âm lượng ........................................................................ 93

3.2.4. Tổng hợp tiếng Việt trên hệ thống tài nguyên hạn chế .................... 101

3.3. Kết luận chương 3 ...................................................................................... 103

CHƯƠNG 4. KẾT HỢP THAM SỐ CẤU ÂM, FORMANT VÀ THANH

ĐIỆU ĐỂ NÂNG CAO CHẤT LƯỢNG NHẬN DẠNG TIẾNG VIỆT 105

4.1. Nhận dạng thanh điệu tiếng Việt ................................................................ 105

4.2. Đặc trưng MFCC với phép chuẩn hóa độ dài cấu âm VTLN kết hợp với F0108

4.2.1. Phép chuẩn hóa VTLN ................................................................... 110

4.2.2. Tổ hợp giá trị F0 và chuẩn hóa VTLN ............................................ 112

4.2.3. Ước lượng tham số chuẩn hóa VTLN bằng phương pháp formant .. 117

4.3. Hệ thống nhận dạng tiếng Việt nhúng ........................................................ 124

4.3.1. Điều khiển thiết bị tự hành bằng tiếng nói ...................................... 126

4.3.2. Biểu diễn HMM trong bộ nhớ SRAM của chip với tính toán chấm tĩnh

(fixed point) ............................................................................................ 130

4.4. Kết luận chương 4 ...................................................................................... 131

KẾT LUẬN 133

1. Kết quả về tổng hợp tiếng Việt ...................................................................... 133

1.1. Kết quả chính .................................................................................... 133

1.2.Kết quả khác ...................................................................................... 134

1.3.Một kết quả ứng dụng ........................................................................ 134

2. Kết quả về nhận dạng tiếng Việt ................................................................... 134

2.1. Kết quả chính .................................................................................... 134

2.2.Kết quả khác ...................................................................................... 135

2.3.Một kết quả ứng dụng ........................................................................ 136

3. Hướng phát triển ........................................................................................... 136

DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ 138

TÀI LIỆU THAM KHẢO 140

PHỤ LỤC 149

1. Cách tổ chức cây dự báo CART của Wagon/Festival .................................... 153

1.1. Sự hỗn tạp trong dữ liệu (tạp âm) ...................................................... 153

1.2. Định dạng dữ liệu .............................................................................. 156

1.3. Xây dựng cây .................................................................................... 161

2. Phân loại âm vị tiếng Việt ............................................................................. 163

3. Cơ sở dữ liệu ngữ âm .................................................................................... 171

4. Các câu trích từ tập truyện “Dế mèn phiêu lưu ký” ....................................... 213

Danh mục các thuật ngữ và từ viết tắt

Từ viết tắt Tên đầy đủ

ADC Analog-Digital-Converter

ADPCM Adaptive differential pulse-code modulation

Artificial neural network ANN

Class And Regression Tree CART

CD-HMM Continuous-Density Hidden Markov Model

Cepstral-mean-subtraction CMS

Cơ sở dữ liệu CSDL

Consonant-Vow C-V

Consonant-Vow-Consonant C-V-C

Decibel dB

Discrete Fourier Transform DFT

Expectation Maximization EM

Fast Fourier Transform FFT

Fundamental Frequency F0

Gaussian Mixture Models GMM

General-purpose Input/Output GPIO

Hidden Markov Model HMM

Hidden Markov Model Toolkit HTK

Inverse Discrete Fourier Transform IDFT

Inverse Fast Fourier Transform IFFT

Linear Predictive Coding LPC

LPCC Linear Predictive Cepstral Coefficient

Low Pass filter LPF

Line Spectral Frequency LSF

Line Spectrum Pair LSP

Maximum A posteriori MAP

Mel Frequency Cepstral Coefficient MFCC

Maximum Likelihood ML

Probility Density Function PDF

Part-Of-speech POS

PSOC Programmable System On Chip

PSOLA Pitch Synchronous Overlap Add

RMSE Root Mean Square Error

Speaker Dependent SD

Speaker Independent SI

Spectral Subtraction SS

SRAM Static Random Access Memory

Shared decision Tree Cluster STC

Tones and Break Indices ToBI

Text To Speech TTS

VTLN Vocal Tract Length Normalization

Voice Activity Detection VAD

Zero Crossing Rate ZCR

Wiener Filter WF

Vocal Tract Length VTL

Danh sách bảng 1. 1 Bảng so sánh một số sản phẩm tổng hợp tiếng Việt đã công bố ....................... 21

1. 2 Các tham số đặc trưng của ngôn điệu .............................................................. 24

1. 3 Phân loại âm tiết tiếng Việt. ............................................................................ 27

1. 4 Các loại nhận dạng tiếng nói ........................................................................... 39

1. 5 Liệt kê các môi trường theo mức nhiễu ................................................................39

2. 1 Thuật toán nhận dạng tiếng nói dựa trên HMM với đặc trưng MFCC. ............. 66

3. 1. Trường độ nguyên âm trong kết hợp với thanh điệu. ........................................... 72

3. 2. Trường độ nguyên âm trong kết hợp với thanh điệu. ........................................... 73

3. 3. Vùng tần số của các nguyên âm .......................................................................... 76

3. 4. Vùng tần số formant trung bình của các nguyên âm kết hợp với thanh điệu. ...... 76

3. 5. Vùng tần số formant trung bình của các nguyên âm kết hợp với thanh điệu. ...... 77

3. 6. Biểu diễn các 6 thanh điệu tiếng Việt bằng các lệnh thanh điệu .......................... 83

3. 7. Giá trị trung bình và độ lệch chuẩn của các tham số Fujisaki cho các thanh điệu. 84

3. 8. Bảng độ dài âm vị không tính ngữ cảnh .............................................................. 87

3. 9. Độ dài nguyên âm a ràng buộc bởi phụ âm đầu, âm cuối .................................... 88

3. 10. Bảng độ dài âm cuối ràng buộc bởi nguyên âm ................................................. 88

3. 11. Bảng độ dài phụ âm đầu ràng buộc bởi nguyên âm ........................................... 89

3. 12. Bảng độ dài thanh điệu theo âm tiết ràng buộc bởi âm kết thúc ......................... 90

3. 13. Bảng tham số đầu vào cho mô hình CART .............................................................95

4. 1 Thuật toán nhận dạng tiếng nói dựa trên HMM với đặc trưng MFCC ......... 109

4. 2 Một số dạng của phép hiệu chỉnh tần số ...................................................... 111

4. 3 Bảng kết quả thực nghiệm kiểm tra ............................................................. 116

4. 4 Bảng kết quả giải mã tên trường của người đọc. .......................................... 117

4. 5 Bảng kết quả thực nghiệm kiểm tra ............................................................... 123

4. 6 Bảng cấu hình GAIN kết hợp bộ lọc thông thấp. ........................................... 126

4. 7 Khẩu lệnh điều khiển xe lăn. ......................................................................... 128

iii

4. 8 Khẩu lệnh điều khiển robot hút bụi. .............................................................. 129

4. 9 Các bước của chương trình thử nghiệm trên máy tính ....................................... 130

5. 1 Phân chia nguyên âm tiếng Việt theo độ nâng của lưỡi ................................ 165

5. 2 Bảng phiên âm tiếng Việt .............................................................................. 167

iii

Danh sách hình vẽ 1. 1 Hệ thống TTS tổng quát. ................................................................................. 10

1. 2 Xử lý ngôn điệu tiếng Việt .............................................................................. 12

1. 3 Sơ đồ hệ thống tổng hợp ghép nối. .................................................................. 17

1. 4 Tổng hợp tiếng nói theo HMM [71]. ............................................................... 20

1. 5 Mô hình VnSpeech tổng hợp tiếng Việt dựa vào formant. ............................... 21

1.6 Mô hình VoS tổng hợp ghép nối âm tiết và cụm từ. ........................................ 22

1.7 Mô hình hệ thống TTS dựa trên mô hình Markov ẩn. ...................................... 23

1.8 Cụm từ ”âm tiết tiếng Việt ” thể hiện trên sóng âm.. ....................................... 26

1.9 Biểu đồ thanh điệu điển hình........................................................................... 28

1.10 Đường F0 của thanh ngang ............................................................................. 29

1.11 Đường F0 của thanh ngã ................................................................................. 29

1.12 Sơ đồ mô hình Fujisaki. .................................................................................. 33

1.13 Đường nét của thành phần trọng âm Gp(t). ..................................................... 34

1.14 Đường nét của thành phần trọng âm Ga(t) ...................................................... 35

1.15 Trình bày biểu diễn sơ đồ F0, mối liên hệ sự kiện ngữ điệu đoạn trong mô hình

Tilt ............................................................................................................................ 36

1.16 Cách phân tích các tham số trong mô hình Tilt............................................... 37

1.17 Liệt kê các kiểu hệ thống nhận dạng tiếng nói. ............................................... 39

1.18 Các bước rút trích đặc trưng MFCC từ tín hiệu âm thanh. .............................. 41

1. 19 Chi tiết bước trích chọn MFCC. ..................................................................... 41

1. 20 MFCC chuẩn ................................................................................................. 42

1. 21 MFCC đã biến đổi ......................................................................................... 42

1. 22 Mô hình mạng lai ghép HMM/ANN .................................................................... 43

2. 1 “Men tường” thu âm khi bật động cơ hút bụi ................................................... 46

2. 2 Tiếng nói được lọc .......................................................................................... 46

2. 3 Quá trình hình thành tiếng nói nhiễu. .............................................................. 47

2. 4 Nhiễu hình thành do hướng và âm thanh phản hồi. ......................................... 47

2. 5 Nhiễu khuyếch tán. ......................................................................................... 48

2. 6 Đi xoắn ốc” thu âm khi robot hút bụi đang di chuyển. ..................................... 49

2. 7 Tiếng nói được lọc. ......................................................................................... 49

2. 8 Sơ đồ khối cho hai thuật toán SS và WF ......................................................... 50

2. 9 Các băng lọc dạng tam giác ............................................................................ 51

2. 10 Trích chọn đặc trưng MFCC. .......................................................................... 51

2. 11 Cộng xếp chồng các đoạn tín hiệu ................................................................... 56

2. 12 Ghép nối 2 diphone ......................................................................................... 58

2. 13 Một mô hình Markov ẩn với sáu trạng thái .......................................................... 66

3. 1 Sơ đồ khối chung của quá trình huấn luyện và phân lớp các đường thanh điệu 69

3. 2 Thanh không dấu (âm a) ................................................................................. 79

3. 3 Thanh huyền được cách điệu từ từ một dãy các giá trị F0 đo được ................. 79

3. 4 Thanh sắc được cách điệu từ một dãy các giá trị F0 đo được .......................... 80

3. 5 Thanh nặng được cách điệu từ các giá trị F0 đo được . .................................... 80

3. 6 Thanh hỏi được cách điệu từ một dãy giá trị F0 đo được ................................ 80

3. 7 Biên tập đường F0 của dấu ngã và tổng hợp dấu ngã. ......................................... 82

4. 1 Cách tuyến tính hóa đường F0 từng phân đoạn ............................................. 106

4. 2 Sơ đồ nhận dạng thanh điệu tiếng Việt trên tiếng nói rời rạc ......................... 107

4. 3 Hiệu chỉnh tần số và trích chọn đặc trưng MFCC .......................................... 110

MỞ ĐẦU

1. Tính cấp thiết của đề tài

Ngày nay, với sự bùng nổ của xã hội thông tin, con người không còn chỉ có nhu

cầu giao tiếp với nhau nữa mà còn cần giao tiếp với những thiết bị điện tử. Hình thức

giao tiếp người – máy thông qua ngôn ngữ tự nhiên sẽ đem lại nhiều ứng dụng, góp

phần giải phóng sức lao động của con người. Chính vì vậy, vai trò của nhận dạng, tổng

hợp tiếng nói có tầm quan trọng đặc biệt liên quan đến quá trình phát triển của văn

minh nhân loại. Các ứng dụng nhận dạng và tổng hợp tiếng nói như Dragon của LH,

Viavoice, Google voice search, Siri của Apple v.v…ngày càng trở nên thông dụng và

hữu ích trong cuộc sống.

Về các hệ thống tổng hợp tiếng nói, hiện nay đã có nhiều phương pháp tổng hợp

được nghiên cứu và ứng dụng trong thực tế như: tổng hợp theo cấu âm, tổng hợp bằng

ghép nối, cách điệu hóa đường F0 và hiện tượng ngôn điệu [23][25][27], tổng hợp theo

phương pháp thống kê dựa trên HMM [18][71][72] … Tuy nhiên, vấn đề tổng hợp

giọng tự nhiên cho tới nay vẫn là một vấn đề mở, ngay cả trong các ngôn ngữ châu Âu

thông dụng như tiếng Anh. Bởi vì để tổng hợp được giọng tự nhiên đòi hỏi rất nhiều

yếu tố từ việc xử lý các đặc trưng tín hiệu, hiện tượng ngôn điệu và ngữ cảnh ứng dụng

(như trạng thái cảm xúc…) v.v…

Các hệ thống nhận dạng tiếng nói thường sử dụng các kỹ thuật học máy truyền

thống như mạng nơ ron, mô hình Markov ẩn (HMM), chiến thuật tìm kiếm dựa trên

quy hoạch động, các mô hình này có tính khái quát cao được ứng dụng ở nhiều lĩnh

vực ngoài nhận dạng và tổng hợp tiếng nói. Để tăng được chất lượng nhận dạng tiếng

nói các hệ thống nhận dạng cần phải bổ sung các phép tiền xử lý tín hiệu tiếng nói, các

phép trích chọn đặc trưng tiếng nói như xử lý giảm thiểu sự sai lệch về phổ giữa đặc

trưng tiếng nói của tập giọng nói người được huấn luyện và giọng nói của người sử

dụng hệ thống [26][50] (ứng dụng trong các hệ thống nhận dạng độc lập người nói).

Lọc nhiễu tiếng nói [28][58], trích chọn đặc trưng [35][36][46], tích hợp đặc trưng

ngôn điệu [16]…

Hai môi trường nền phổ biến cho các hệ thống nhận dạng và tổng hợp tiếng nói là

server hoặc nhúng (các ứng dụng tiếng nói cho điều khiển thiết bị, nhúng v.v…), các

môi trường này có tài nguyên lưu trữ và tính toán khác nhau, điều đó dẫn đến các tiếp

cận khác nhau trong việc cân bằng giữa chất lượng nhận dạng tổng hợp tiếng nói và sử

dụng tài nguyên (lưu trữ, tính toán và điện năng tiêu thụ), thời gian thu thập mẫu huấn

luyện v.v…Môi trường nhúng có tầm quan trọng đặc biệt, được tập trung nghiên cứu

phát triển nhiều trong thời gian gần đây do các thiết bị nhúng hầu hết không trang bị

thiết bị nhập liệu như bàn phím và màn hình cảm ứng, giao tiếp bằng tiếng nói thể hiện

hình thức tương tác tự nhiên, tuy vậy các hệ thống này đòi hỏi phải tối ưu rất nhiều so

với quy trình nhận dạng tổng hợp tiếng nói nói chung [13][47][52]

Nhận dạng và xử lý tiếng Việt (ngôn ngữ và tiếng nói) là một trong những mục

tiêu cơ bản của phát triển và ứng dụng công nghệ thông tin ở Việt Nam do sự khác biệt

về bản chất của hệ thống âm tiết, ngữ pháp và hiện tượng thanh điệu nên không thể sử

dụng nguyên các hệ thống ứng dụng cho tiếng nước ngoài. Hiện nay những nghiên cứu

về đặc trưng tín hiệu, hiện tượng ngôn điệu tiếng Việt mới chỉ đề cập ở mức độ ban

đầu.

Trong nước đã hình thành nhiều trung tâm nghiên cứu của các Viện nghiên cứu

và các khoa Công nghệ Thông tin của các trường Đại học về xử lý tiếng nói (tiếng

Việt) và ngôn ngữ tự nhiên như : Viện Công nghệ Thông tin, Trung tâm Pháp –Việt

MICA của Đại học Gronobe và Đại học Bách khoa Hà Nội, Trung tâm SLP của Đại

học khoa học tự nhiên Đại học Quốc Gia TP. HCM, Viện Công nghệ Bộ Khoa học và

Công nghệ v.v...

Các kết quả nghiên cứu tập trung vào việc sử dụng, cải tiến các công nghệ nguồn

về Nhận dạng và Tổng hợp tiếng nói của tiếng Anh.

Phòng thí nghiệm Trí tuệ nhân tạo AILab (Đại học Khoa học tự nhiên TP HCM)

đã thiết kế và xây dựng các hệ thống Nhận dạng và tổng hợp tiếng Việt với nhiều cách

tiếp cận khác nhau như tổng hợp ghép nối, tổng hợp dựa trên mô hình HMM.

Về ứng dụng cho điều khiển, Viện Hàn lâm Khoa học và Công nghệ Việt Nam,

với đề tài “Nghiên cứu thiết kế và chế tạo hệ thống điều khiển bằng tiếng nói tích hợp

vào robot hút bụi tự động thông minh”, thực hiện năm 2011-2013[77] đã nghiên cứu

phát triển mẫu robot dịch vụ - robot hút bụi điều khiển bằng khẩu lệnh tiếng Việt. Viện

nghiên cứu Quốc tế MICA (Đại học Bách khoa Hà Nội) đã nghiên cứu một

robot hướng dẫn bảo tàng từ giữa năm 2009 và thử nghiệm tại Bảo tàng Dân tộc học

Việt Nam. Robot có khả năng hiểu một số câu hỏi của khách thăm quan, đồng thời sẽ

giới thiệu cho khách thăm quan bằng tiếng nói nhiều thông tin liên quan đến các hiện

vật trưng bày v.v…

Chính vì vậy việc đi sâu nghiên cứu các đặc trưng của ngôn ngữ tiếng Việt, khai

thác, áp dụng các đặc trưng đó vào các hệ thống nhận dạng, tổng hợp tiếng nói để nâng

cao chất lượng tổng hợp và nhận dạng tiếng Việt đang là vấn đề cần thiết nhằm tiến tới

xây dựng các ứng dụng phù hợp với đặc thù của ngôn ngữ tiếng Việt, đáp ứng các nhu

cầu ứng dụng ngày càng cao của xã hội.

Xuất phát từ thực tế và những lý do trên, việc lựa chọn đề tài “Nghiên cứu các

đặc trưng tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng Tổng hợp và Nhận

dạng tiếng Việt”, nghiên cứu các đặc trưng tiếng nói phù hợp với đặc thù ngôn ngữ

tiếng Việt, các đặc trưng ngữ âm như thanh điệu, trường độ và formant để nâng cao

chất lượng Tổng hợp và nhận dạng tiếng Việt trong các ứng dụng giao tiếp người máy.

Đề tài này cũng nghiên cứu hướng tới các ứng dụng tương tác điều khiển thiết bị, robot

dịch vụ, ứng dụng hỗ trợ người khuyết tật, những ứng dụng mà công nghệ nhận dạng

và tổng hợp tiếng Việt có vai trò quan trọng.

2. Mục tiêu, phạm vi nghiên cứu của luận án.

Mục tiêu chính của đề tài là tập trung chủ yếu ở vấn đề về xử lý ngôn điệu và đặc

trưng tín hiệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt.

Các hiện tượng ngôn điệu có thể là đường F0, trường độ và âm lượng của âm tiết

hoặc từ đa âm tiết trong ngữ cảnh câu. Nghiên cứu về các ràng buộc ngôn điệu cho

tổng hợp tiếng Việt còn ít được đề cập tới, trong khi để đạt được độ tự nhiên cao của

tiếng nói tổng hợp cũng như để tăng độ chính xác của các hệ thống nhận dạng tiếng nói

(nhận dạng khẩu lệnh, nhận dạng tên, nhận dạng đối thoại v.v…) đều đòi hỏi phải tích

hợp các đặc trưng ngôn điệu của tiếng nói trong ngữ lưu và trong môi trường sử dụng

thực tế của tiếng nói. Ngoài phương pháp học ngôn điệu dựa trên các mô hình thống

kê, các tác giả của Viện Ứng dụng Công nghệ, Đại học Quốc gia TP HCM cũng đã giới

thiệu một hệ thống tổng hợp tiếng Việt VOS với giọng đọc gần tiếng nói tự nhiên dựa

trên tiếp cận kiểu kho ngữ liệu (corpus-based), mô hình này đòi hỏi rất nhiều dữ liệu

được gán nhãn (dựa trên công nghệ phân đoạn tự động câu tiếng nói thành các đơn vị

tiếng nói kết hợp với điều chỉnh tay) và chỉ phù hợp với ứng dụng cho môi trường

server, bên cạnh đó tiếp cận này cũng có điểm hạn chế là đọc không chuẩn các ngữ

đoạn ít thông dụng.

Nghiên cứu các ảnh hưởng của hiện tượng ngôn điệu tiếng Việt như thanh điệu,

các tần số formant và trường độ âm tiết trong các hệ thống nhận dạng tiếng Việt là một

vấn đề quan trọng nhưng hiện tại ít được đề cập tới trong các công trình nghiên cứu về

xử lý âm thanh tiếng Việt. Các hệ thống nhận dạng tiếng Việt dựa trên HMM thường

dựa trên đặc trưng chuẩn MFCC. Khi ứng dụng thuật toán nhận dạng HMM với các

đặc trưng MFCC cơ sở cho việc nhận dạng tiếng nói liên tục không phụ thuộc người

nói, hệ thống thường suy giảm độ chính xác với những người nói có có đặc trưng giọng

nói không phù hợp với những mẫu giọng được sử dụng để huấn luyện mô hình HMM.

Xuất phát từ mục tiêu trên, phạm vi nghiên cứu của đề tài tập trung vào các vấn

đề sau:

 Nghiên cứu các mô hình dự báo các hiện tượng ngôn điệu như trường độ, âm lượng,

thanh điệu của các âm tiết tiếng Việt trong ngữ lưu, tích hợp trong các hệ thống tổng

hợp tiếng Việt, tối ưu hiệu quả sử dụng tài nguyên lưu trữ và tính toán ứng dụng cho

hệ thống nhúng.

 Nghiên cứu các phương pháp giảm thiểu sự sai lệch về cấu âm, phổ của tập giọng

nói huấn luyện và giọng của người sử dụng dựa trên đặc trưng ngữ âm tiếng Việt để

tăng độ chính xác nhận dạng tiếng nói cho các hệ thống nhận dạng tiếng Việt độc lập

người nói.

Đối tượng nghiên cứu của đề tài là:

 Các mô hình học máy như HMM, CART.

 Các đặc trưng tiếng nói (MFCC, F0, formant, VTL v.v …)

 Mô hình biểu diễn, cách điệu đường F0, mô hình xử lý nhiễu, cân bằng tần số v.v…

 Phương pháp tổng hợp ghép nối.

 Phép chuẩn hóa VTLN cho các hệ thống nhận dạng tiếng nói độc lập người nói.

3. Phương pháp và nội dung nghiên cứu

Phương pháp luận trong nghiên cứu của luận án là kết hợp giữa nghiên cứu lý

thuyết và thực nghiệm. Các tư liệu và thông tin liên quan chủ yếu được thu thập, tổng

hợp từ các nguồn tạp chí khoa học chuyên ngành trong và ngoài nước, qua các buổi

seminar hoặc tham gia báo cáo tại các hội thảo khoa học, qua trao đổi với thầy hướng

dẫn và các đồng nghiệp cùng lĩnh vực nghiên cứu v.v…Tổng hợp các thông tin liên

quan, lựa chọn các cách tiếp cận đã được áp dụng thành công, tiến hành thử nghiệm

với tiếng Việt, đánh giá kết quả, từ đó sẽ tiến hành nghiên cứu sâu hơn về giải pháp cải

tiến có thể để phát hiện các quy luật, ràng buộc cơ bản của đặc trưng ngôn điệu tiếng

Việt cho tổng hợp và nhận dạng tiếng Việt.

Cấu trúc luận án gồm: phần mở đầu, 4 chương nội dung, kết luận, danh mục tài

liệu tham khảo và phụ lục.

Chương 1: Tổng quan về tổng hợp và nhận dạng tiếng nói.

Chương này trình bày khái quát về tổng hợp và nhận dạng tiếng nói dựa trên

phương pháp Corpus-based theo cả hai phương pháp là chọn đơn vị để ghép nối và mô

hình tổng hợp dựa trên HMM cho vấn đề tổng hợp tiếng nói và mô hình HMM cho vấn

đề nhận dạng tiếng nói. Chương này còn phân tích một số hệ thống tổng hợp và nhận

dạng tiếng nói cũng như mô hình Fujisaki để tổng hợp đường F0.

Chương 2: Xử lý tiếng nói và các mô hình học máy.

Chương này trình bày các công cụ cơ bản trong tiền xử lý tiếng nói, trích chọn

đặc trưng tiếng nói, đặc trưng ngôn điệu và các mô hình học máy cho vấn đề dự báo,

học và nhận dạng tiếng nói.

Chương 3. Dự báo trường độ, âm lượng và tổng hợp thanh điệu tiếng Việt

Chương này trình bày một số kết quả của luận án về tổng hợp tiếng Việt:

 Nghiên cứu về các mô hình ngôn điệu, phân tích đặc trưng tiếng Việt.

 Thanh điệu.

 Dự báo trường độ và âm lượng của âm tiết trong ngữ lưu.

 Tổng hợp tiếng Việt trên các hệ thống tài nguyên hạn chế.

Chương 4. Kết hợp tham số cấu âm, formant và thanh điệu để nâng cao chất

lượng nhận dạng tiếng Việt

 Nghiên cứu về nhận dạng thanh điệu tiếng Việt.

 Nghiên cứu đưa đặc trưng thanh điệu, tham số formant và tham số cấu âm của

người nói để nâng cao chất lượng nhận dạng tiếng Việt.

 Nhận dạng tiếng Việt trên các hệ thống tài nguyên hạn chế.

4. Kết quả đạt được của luận án

Các kết quả đạt được của luận án đã được công bố trong 2 bài báo tại chí chuyên

ngành năm 2011, 3 bài báo cáo đăng tại kỷ yếu hội nghị trong nước năm 2012, 2014.

Ngoài ra nghiên cứu sinh cũng là đồng tác giả của một số báo cáo tại hội nghị trong

nước, nước ngoài thời gian trước khi là nghiên cứu sinh. Những kết quả đạt được của

luận án có thể tóm tắt như sau:

Bài tạp chí

 “Tổ hợp đường F0 và VTLN cho nhận dạng tên riêng tiếng Việt“, Tạp chí Tin học

và Điều khiển học”, trang 273 – 282, Tập 27, số 3, 2011. Bài báo trình bày nghiên

cứu và thử nghiệm hiệu ứng của tổ hợp đặc trưng F0 và chuẩn hóa độ dài bộ phận

cấu âm (VTLN, vocal tract length normalisation) để nâng cao chất lượng nhận dạng

tiếng tên tiếng Việt trong mô hình nhận dạng tiếng nói phát âm liên tục dựa trên

HMM. Các kết quả của bài báo chứng tỏ rằng hệ nhận dạng tiếng nói độc lập người

nói với đặc trưng tiếng nói dựa trên đường F0 và đặc trưng MFCC biến đổi theo

VTLN đã chuẩn hóa tốt biến thiên tần số của người nói mới và cải tiến được kết

quả nhận dạng.

 “Dự báo các giá trị ngôn điệu tiếng Việt cho tiếng nói tổng hợp”, Tạp chí Công

nghệ Thông tin và Truyền thông, Tập V-1 số 6(26), 09-2011, trang 236-241. Bài

báo trình bày các kết quả nghiên cứu và thử nghiệm tích hợp các giá trị ngôn điệu

tiếng Việt được dự báo như trường độ và âm lượng cho câu tiếng nói tổng hợp sử

dụng mô hình học thống kê CART.

Các kết quả trình bày trong bài báo chứng tỏ việc đưa giá trị ngôn điệu được dự

báo từ văn bản vào trong bộ tổng hợp tiếng Việt được thống kê chi tiết cho cơ sở dữ

liệu âm huấn luyện mô hình kết hợp các ngữ cảnh mức âm vị khác nhau đã cải tiến

được chất lượng dự báo các tham số ngôn điệu như trường độ và âm lượng, dẫn đến

thay đổi đáng kể chất lượng câu tiếng nói được tổng hợp.

Kỷ yếu hội thảo

 “Trích chọn đặc trưng âm học tiếng Việt dựa trên F0 và biến thể của MFCC với

ước lượng VTLN từ các giá trị formant”. Hội nghị quốc gia lần thứ VII "Nghiên

cứu cơ bản và ứng dụng Công nghệ thông tin", FAIR 2014. Bài báo cáo trình bày

ứng dụng phương pháp ước lượng tham số VTLN dựa trên bộ phát hiện tiếng nói

và các giá trị formant thay thế cho phương pháp ML (Maximum likelihood) để tối

ưu hóa về tính toán khi xây dựng một hệ thống nhận dạng tên tiếng Việt.

 “Tối ưu lưu trữ và tính toán tín hiệu tiếng nói cho hệ tổng hợp Tiếng Việt dựa trên

ghép nối”, Hội nghị quốc gia lần thứ VII "Nghiên cứu cơ bản và ứng dụng Công

nghệ thông tin", FAIR 2014. Bài báo cáo trình bày kết quả xây dựng hệ tổng hợp

tiếng Việt theo phương pháp ghép nối âm cơ bản trên môi trường chip với tài

nguyên hạn chế.

 “Thiết kế hệ thống nhận dạng khẩu lệnh tiếng Việt điều khiển thiết bị tự hành trên

nền các vi hệ thống điện năng thấp với phép chuẩn hóa VTLN – MFCC”, hội nghị

VCM-2012. Bài báo cáo trình bày thiết kế và thử nghiệm hệ thống nhận dạng khẩu

lệnh tiếng Việt để điều khiển thiết bị tự hành, tích hợp hoàn toàn trong một chip vi

hệ thống điện năng thấp như họ PSoC5 lõi (ARMCortex M3 chip, 64KB RAM,

256KB Flash) hoặc họ OMAP3 (lõi ARM7,128MB RAM), được phát triển dựa

trên mô hình nhận dạng Markov ẩn kết hợp mạng nơ ron dự báo.

Các công bố trước thời gian làm nghiên cứu sinh

 Phân lớp các đường thanh điệu trong ngữ cảnh câu, kỷ yếu Hội thảo Quốc gia,

NXB KHKT, 2006, tr 279-284.

 Nhận dạng thanh điệu tiếng Việt trên tiếng nói rời rạc phụ thuộc người nói, kỷ yếu

Hội thảo Quốc gia, NXB KH&KT, tr 443-449, 2006.

 Sử dụng mô hình Fujisaki và mạng nơ ron trong nhận dạng và tổng hợp thanh điệu

tiếng Việt" (2006), kỷ yếu hội thảo: “Nghiên cứu cơ bản và ứng dụng công nghệ

thông tin FAIR2005”, Thành phố Hồ Chí Minh tháng 9 năm 2005, NXB KHKT,

Hà Nội.

 Toward integrating the Fujisaki model into Vietnamese TTS, proceeding of the

International Conference on Spoken Language Processing, Korea 2004.

 Quantitative Analysis and Synthesis of Syllabic Tones in Vietnamese,” Proc. in

EUROSPEECH, Geneva, pages 177-180, 2004.

 Thiết kế các hệ thống nhận dạng tiếng Việt trong thời gian thực, kỷ yếu báo cáo

hội nghị FAIR nghiên cứu cơ bản và ứng dụng công nghệ thông tin, trang 349 –

357, 2003.

 Development of Automatic Data Entry Systems with Pattern Recognition

Techniques, International Symposium on Knowledge Creation in

Economics,Enviromental and Societal Systems, JAIST, Kanazawa, pp 72-78.

 Vietnamese text normalize and processing, Proceedings of National IT

Conference.

CHƯƠNG 1. TỔNG QUAN VỀ TỔNG HỢP VÀ NHẬN DẠNG TIẾNG NÓI

1.1. Tổng hợp tiếng nói

Tổng hợp tiếng nói là một bộ môn khoa học nhằm nghiên cứu và xây dựng các

công nghệ để tạo ra âm thanh tiếng nói từ máy giống như tiếng nói của con người.

Trong những năm gần đây tiếng nói tổng hợp đã trải qua chặng đường khá dài,

việc ứng dụng tổng hợp tiếng nói vào thực tiễn đã trở nên phổ biến. Tuy nhiên, chất

lượng âm thanh và độ tự nhiên của tiếng nói tổng hợp cho đến nay vẫn còn là những

vấn đề mở.

Hình 1. 1. Hệ thống TTS tổng quát.

Nói chung quá trình Tổng hợp tiếng nói bao gồm các giai đoạn chính:

i)Chuẩn hóa văn bản và phân tích câu - xử lý ngôn ngữ tự nhiên.

ii) Chuyển văn bản sang đơn vị tiếng nói.

iii) Dự báo ngôn điệu.

iv) Sinh tiếng nói.

1.1.1. Chuẩn hóa văn bản và phân tích câu – xử lý ngôn ngữ tự nhiên

Chuẩn hoá văn bản là quá trình tiền xử lý văn bản trong thiết lập đầu vào của hệ

thống TTS, mục đích của bước này là phân tích văn bản và diễn giải được văn bản đầu

vào thành một chuỗi văn bản để máy có thể hiểu và đọc đúng.

Quá trình chuẩn hóa văn bản thường không đơn giản. Lý do là các văn bản

thường chứa nhiều từ đồng tự, số và từ viết tắt, đòi hỏi phải hiểu ngữ cảnh để diễn đạt

lại trong văn bản đầy đủ. Do trong văn bản có khá nhiều từ phi chữ số như đại lượng,

ngày tháng, chữ viết tắt, có các từ tiếng Anh xuất hiện xen kẽ trong văn bản tiếng Việt

v.v…

Quá trình này bao gồm ba bước chính:

- Tiền xử lý: mô đun tiền xử lý tổ chức các câu đầu vào thành dãy các từ. Nó xác

định các số, các từ viết tắt, tên riêng, thành ngữ và biến đổi chúng thành dạng văn

bản đầy đủ khi cần đến.

- Phân tích hình thái: nhiệm vụ cung cấp mọi khả năng loại từ của một từ riêng lẻ.

- Phân tích ngữ cảnh: xét các từ trong ngữ cảnh và từ loại đi với chúng trong từng

ngữ cảnh đó. Quá trình này phải xem xét các từ trong ngữ cảnh để phiên âm phù

hợp nhất với ngữ cảnh trong câu. Xử lý các khả năng xuất hiện sự nhập nhằng về

mặt ngữ nghĩa của từ hiện tại và các từ lân cận với nó.

1.1.2. Chuyển văn bản sang đơn vị tiếng nói

Bước này thực hiện dựa trên từ điển phát âm hay theo quy luật ngôn ngữ. Quá

trình chuyển đổi “phiên âm” này rất quan trọng, chiếm tới hơn 30% khối lượng công

việc cho phần lớn các ngôn ngữ và chữ viết không phải là loại chữ viết ghi âm - loại

chữ viết nhằm tái hiện lại chuỗi âm thanh nối tiếp nhau trong từ (chữ viết của tiếng

Việt là loại chữ viết ghi âm, đọc và viết là như nhau) [9]

1.1.3. Dự báo ngôn điệu

Trong tổng hợp tiếng nói, việc xử lý ngữ điệu được thực hiện trên các yếu tố vật

lý của tiếng nói bao gồm: tần số cơ bản F0, cường độ và trường độ. Các hệ thống tổng

hợp tiếng nói hầu hết tập trung vào mục đích là tạo ra giọng nói với ngữ điệu bình

thường, có sự nhấn giọng hợp lý, nhịp điệu nhịp nhàng tự nhiên và bỏ qua các hình thái

cảm xúc của người nói. Dựa vào một CSDL ngữ âm đã được gán nhãn (từng câu văn

bản đã được phân tích thành các âm vị, đặc trưng ngôn ngữ và tham số tín hiệu tương

ứng trong phát ngôn tiếng nói) như: âm vị hiện tại, âm vị bên trái, bên phải, vị trí của

âm vị trong âm tiết, thanh điệu, số âm tiết của ngữ đoạn v.v... ta có thể dự đoán được các

tham số ngôn điệu.

Hình 1. 2. Xử lý ngôn điệu tiếng Việt

1.1.4. Các phương pháp tổng hợp tiếng nói

Hai tính chất quan trọng của chất lượng hệ thống tổng hợp giọng nói là mức độ tự

nhiên và mức độ dễ nghe. Có ba công nghệ chính được dùng là tổng hợp ghép nối,

tổng hợp cộng hưởng tần số (Tổng hợp theo cấu âm, tổng hợp formant theo quy luật),

và tổng hợp theo HMM .

Trong phần này, luận án sẽ trình bày khái quát một số phương pháp tổng hợp

tiếng nói hiện nay và những đánh giá sơ bộ về từng phương pháp (xem [11]).

1.1.4.1. Tổng hợp theo cấu âm

Tổng hợp theo cấu âm sử dụng mô hình phỏng sinh học. Trong mô hình này,

tiếng nói được đặc trưng không chỉ bằng tín hiệu âm thanh mà cả bằng vị trí của các cơ

quan cấu âm, sự tham gia của khoang mũi, áp suất không khí trong phổi, lực căng của

dây thanh. Nó bao gồm hoạt động tương tác phi tuyến giữa nguồn kích (chấn động dây

thanh hoặc hỗn loạn không khí) và trở kháng đầu vào thay đổi theo thời gian của ống

thanh. Phương pháp này còn được gọi là tổng hợp theo mô hình hệ thống.

Để xây dựng đặc trưng âm thanh của cơ quan phát âm, hệ thống phải tham số hoá

được hình khối ống thanh và ống mũi, phải lựa chọn được một mô hình để mô tả sự lan

truyền của sóng trong ống thanh và mô hình hoá nguồn âm (chấn động dây thanh, dòng

không khí hỗn loạn) và sự tương tác của nó với ống thanh. Phương pháp này hiện nay

chỉ hình thành trên lý thuyết, thực tế ngành khoa học phỏng sinh chưa có đủ thông tin

đầy đủ để mô phỏng theo cấu âm.

Mô hình ống thanh:

Cho các âm không phải là âm mũi ta chỉ cần xem xét ống thanh có thiết diện biến

thiên từ thanh môn cho tới môi. Ống thanh thay đổi liên tục, hình dáng của chúng phải

được xác định trong khoảng thời gian vài mini giây một lần. Hình không gian của ống

thanh được mô tả theo vị trí của các cơ quan phát âm, lưỡi, môi, hàm v.v…

Mô hình được ứng dụng nhiều nhất là mô hình của Mermelstein với các tham số

mô tả vị trí cơ quan cấu âm.Từ mô tả cấu âm, có thể tính được các số liệu cho hàm mặt

cắt ngang ống thanh A(x) là hàm số phụ thuộc khoảng cách đọc theo ống thanh từ

thanh môn cho tới môi

Lan truyền sóng trong ống thanh:

Trong nhiều cách tính đặc trưng truyền sóng trong ống thanh thì phương pháp ma

trận chuỗi được áp dụng nhiều nhất. Ma trận chuỗi (còn gọi là ma trận ABCD) thể hiện

(1.1)

ống thanh ở miền tần số. Với bất kỳ phần nào của ống thanh hay của ống mũi ta có:

Ma trận chuỗi K có thể thể hiện bất kỳ phần nào của bất kỳ độ dài hay mặt phẳng

cắt ngang nào của ống thanh. Tính các phần tử của K rất đơn giản nên ống có mặt cắt

không đổi.

Mô hình nguồn kích thanh

Nguồn kích thanh cho tổng hợp cấu âm sử dụng mô hình hai khối lượng của

Ishizaka và Flanagan.

Nguyên lý của tổng hợp cấu âm:

Thuật toán tổng hợp theo mô hình cấu âm gồm các bước như nhau. Từ đặc tả về

các tham số cấu âm, ta tính được ma trận chuỗi từ thanh môn đến môi. Sau đó tính hàm

truyền và trở kháng đầu vào từ các phần tử A,B,C,D của ma trận. Biến đổi Fourier

ngược hàm truyền H và tỉ số trở kháng ta nhận được các giá trị tương ứng ở miền thời

gian. Sau đó tính áp suất p = P5-P1. Giá trị áp suất này tác động vào bộ cộng hưởng

điều khiển chuyển động dây thanh của mô hình hai khối lượng tạo ra âm thanh tiếng

nói.

Như vậy, ngoài việc mô hình hoá các cơ quan phát âm, tổng hợp theo cấu âm cần

phải xây dựng hai loại quy luật ngôn ngữ và luật vật lý. Luật vật lý mô tả như ở trên

xác định ánh xạ cấu hình ống thanh cụ thể cho tín hiệu âm thanh, xác định mối quan hệ

giữa hoạt động cấu âm và tín hiệu âm thanh tiếng nói. Còn luật ngôn ngữ xác định mối

quan hệ giữa mô tả ngữ âm và các hoạt động cấu âm. Thông thường, luật ngôn ngữ

được thực hiện cho từng âm vị. Khi cấu âm cho một đơn vị, luật này xác định thời

điểm các cơ quan chuyển động, tốc độ chuyển động và mối quan hệ giữa cơ quan này

và cơ quan khác. Vì phát ra một âm vị không nhất thiết phải có sự chuyển ðộng của tất

cả các cõ quan nên trong cùng một thời điểm cõ quan phát âm có thể được xác định

cho âm vị khác. Theo cách này thì tổng hợp theo cấu âm có thể tạo ra các giải pháp

hoàn hảo cho các trường hợp ngữ âm khó như cụm phụ âm, nguyên âm ba.

Mô hình cấu âm và hai luật ngôn ngữ, vật lý này quyết định chất lượng tiếng nói

tổng hợp. Hiện nay, chúng ta chưa có kiến thức đầy đủ về từng chi tiết của các loại

luật, mô hình cấu âm cũng còn đơn giản vì vậy chất lượng tiếng nói tổng hợp theo cấu

âm còn rất thấp. Phương pháp tổng hợp cấu âm hiện nay chỉ dừng ở trong pḥng thí

nghiệm hay sản phẩm mẫu mà chưa được ứng dụng thực tế. Các bộ tổng hợp theo cấu

âm là công cụ lý tưởng để nghiên cứu về cấu âm của tiếng nói và hứa hẹn về lâu dài là

giải pháp hoàn thiện nhất để tổng hợp ra âm thanh tiếng nói giống như tiếng nói tự

nhiên của con người.

1.1.4.2. Tổng hợp formant theo quy luật

Quy trình để xây dựng bộ tổng hợp formant theo luật gồm hai quá trình riêng biệt

là quá trình phân tích âm thanh tiếng nói để tìm ra các quy luật và tổng hợp lại tiếng

nói dựa vào các quy luật này.

Phân tích tìm quy luật:

Quá trình phân tích được tiến hành trên cơ sở dữ liệu tiếng nói tự nhiên chủ yếu

bao gồm các âm tiết có dạng C-V (phụ âm – nguyên âm) hay C-V-C (phụ âm – nguyên

âm – phụ âm) của nhiều giọng nói. Cơ sở dữ liệu này tốt nhất phải bao phủ được tất cả

các hình thái ngữ âm của một ngôn ngữ.

Thuật toán dự đoán tuyến tính LPC, được sử dụng trong quá tŕnh phân tích phổ để

xác định mẫu của tần số formant, băng thông formant, tần số âm cơ bản F0 của tín hiệu

tiếng nói. Tần số từ F1 đến F5 và băng thông W1 đến W5 ở phần ổn định của các âm tố

được lưu giữ dưới dạng bảng. Đó là các giá trị “đích” để tạo ra một âm vị.

Trong tiếng nói, phần mang thông tin được quan tâm nghiên cứu nhiều hơn là các

phần chuyển tiếp giữa các âm vị từ nguyên âm sang phụ âm và ngược lại (C-V và V-

C). Tần số formant chuyển tiếp từ âm vị nọ sang âm vị kia được mô hình hoá và tạo

thành các quy luật tổng hợp cho kĩ thuật tổng hợp formant. Như vậy về cơ bản các quá

trình phân tích tìm luật để mô tả sự thay đổi liên tục phổ của một ngữ lưu bằng các

formant và sự chuyển tiếp của các formant từ âm vị này sang âm vị khác. Hệ thống quy

luật bao gồm:

- Luật để xác định vị trí đích các formant của mỗi âm vị trong một ngữ lưu cũng như

thời gian tồn tại của các vị trí đó.

- Luật nhằm làm trơn các formant đích.

- Luật để chuyển đổi các hàm thời giam thành dạng sóng thanh.

Hệ thống tổng hợp formant sẽ căn cứ vào các tham số điều khiển từ bảng tra cứu và

cùng với thuật toán được xây dựng cho sự chuyển tiếp là các tín hiệu điều khiển bộ

tổng hợp để tạo các âm đoạn tính.Thiết kế của bộ tổng hợp formant được dựa trên mô

hình tương tự đầu cuối tạo tiếng nói do Frant đề xuất.Tổng hợp formant được phân loại

theo cấu hình mắc các bộ cộng hưởng song song hay nối tiếp. Hàm truyền của bộ tổng

hợp khi mắc nối tiếp bộ cộng hưởng tương tự như hàm truyền ống thanh vì vậy bộ tổng

hợp nối tiếp mô hình hoá rất tốt cho các âm hữu thanh. Còn bộ tổng hợp với các bộ

cộng hưởng mắc song song sẽ tạo ra cho các âm tắc, âm xát và âm mũi một chất lượng

âm thanh tốt hơn.

Hiện nay, với những công cụ thích hợp chúng ta hoàn toàn có thể xác định tần số

formant cho các âm vị của tiếng Việt. Đi theo hướng này có ưu điểm là tiết kiệm được

bộ nhớ, song chất lượng tiếng nói không tự nhiên và phụ thuộc nhiều vào chất lượng

của quá trình phân tích tiếng nói của từng ngôn ngữ. Phần mềm tổng hợp tiếng Việt

[79] đã sử dụng cách tiếp cận này.

1.1.4.3. Tổng hợp ghép nối

Tổng hợp ghép nối dựa trên việc ghép nối các đoạn tiếng nói đã ghi âm sẵn. Nói

chung, tổng hợp ghép nối cho tiếng nói tổng hợp nghe tự nhiên nhất. Tuy nhiên, độ tự

nhiên của tiếng nói và các kỹ thuật tự động phân đoạn sóng âm thanh đôi khi dẫn đến

nghe rõ sự không đều của thiết bị ở đầu ra làm giảm độ tự nhiên. Có ba loại tổng hợp

ghép nối: tổng hợp chọn đơn vị, tổng hợp diphone (hai nửa của hai âm vị liền nhau) và

tổng hợp theo miền [11].

Tổng hợp chọn đơn vị sử dụng CSDL tiếng nói các đơn vị âm cơ bản được ghi

sẵn. Trong quá trình tạo CSDL, mỗi phát âm được thu âm sẽ được phân thành các âm

vị, âm tiết, hình vị, từ, cụm và các câu riêng. Việc phân chia thành các đoạn có thể

dùng một số các kỹ thuật như kỹ thuật phân cụm, chương trình nhận dạng, phân đoạn

bằng tay sử dụng công cụ xử lý và gán nhãn tiếng nói trực quan. Phương pháp này đòi

hỏi cơ sơ dữ liệu tiếng thu âm lớn và việc xử lý cơ sở dữ liệu này cũng khá công phu.

Tổng hợp diphone dùng CSDL tiếng nói nhỏ nhất chứa toàn bộ các diphone xuất

hiện trong ngôn ngữ. Số lượng diphone phụ thuộc vào cách phiên âm của từng loại

ngôn ngữ. Chẳng hạn tiếng Tây Ban nha là 800 diphone, tiếng Đức khoảng 2500

diphone, mỗi diphone là duy nhất trong cơ sở dữ liệu. Chất lượng tiếng nói tổng hợp

thường không tốt bằng tổng hợp chọn đơn vị. Ưu điểm của tổng hợp diphone là cơ sở

Âm vị +ngôn điệu

CSDL tiếng nói

Thông tin về đơn vị

Tạo dãy đơn vị

Chọn đơn vị

Mô hình tiếng nói

CSDL tiếng nói tham số

Giải mã tiếng nói

CSDL tiếng nói mã hóa

Mã hóa tiếng nói

Ghép nối và hậu xử lý

dữ liệu nhỏ hơn phương pháp tổng hợp ghép nối chọn đơn vị [11].

Hình 1. 3. Sơ đồ hệ thống tổng hợp ghép nối.

Tổng hợp theo miền cụ thể là việc ghép các từ và các cụm được ghi sẵn lưu trong

CSDL để tạo thành lời nói hoàn chỉnh. Ưu điểm tiếng nói tự nhiên, tuy nhiên lại hạn

chế về số lượng từ và câu có thể tổng hợp được.

Trong ba phương pháp nêu trên, tổng hợp theo cấu âm, tổng hợp formant theo

quy luật và tổng hợp ghép nối thì tổng hợp ghép nối mang nhiều tính công nghệ, được

quyết định bởi sự phát triển của máy tính. So sánh về chất lượng trong ba phương

pháp, thì tổng hợp ghép nối hiện nay đã thành công nhất trong việc tạo ra tiếng nói

không chỉ nghe hiểu rõ mà đạt được độ tự nhiên gần với tiếng nói của con người hơn

cả. Phần lớn các hệ thống tổng hợp chất lượng cao cho các ngôn ngữ có trên thị trường

hiện nay đều sử dụng phương pháp tổng hợp ghép nối này.

Khi xây dựng một hệ thống tổng hợp ghép nối, tiếng nói chứa tập hợp các đơn vị

âm thanh cơ bản của một ngôn ngữ, thông thường tương ứng với một chuỗi ngắn các

âm vị có lựa chọn được đọc, ghi âm và lưu giữ trong CSDL. Các đơn vị âm được lựa

chọn, phân tích các tham số đặc trưng và sau đó có thể được mã hoá bằng một phương

pháp mã hoá tiếng nói nào đó tạo thành các mẫu cho một đơn vị âm thanh. Các mẫu

hoặc các tham số phân tích của chúng được lưu giữ lại trong kho dữ liệu đơn vị tổng

hợp.

Khi tổng hợp một phát ngôn mới, cho trước mô tả ngữ âm của phát ngôn đó, hệ

thống sử dụng các quy luật để định vị đơn vị thích hợp, truy xuất chúng ra khỏi kho dữ

liệu và ghép nối chúng lại với nhau.

Thông thường, một hệ thống tổng hợp ghép nối có ít nhất là một hoặc hai mẫu

cho mỗi một đơn vị cơ bản. Do các tham số về cao độ tần số cơ bản, độ dài và cường

độ của các đơn vị này rất khác nhau (chúng được trích ra từ tín hiệu tiếng nói trong ngữ

cảnh khác nhau) nên khi tổng hợp, hệ thống theo phương pháp tổng hợp ghép nối phải

thực hiện hai công việc chính.

 Một là phải thay đổi các tham số siêu đoạn tính của các đơn vị để tiếng nói tổng

hợp thể hiện được ngữ điệu thích hợp như mong muốn.

 Hai là phải thực hiện việc lựa chọn hay thay đổi các đặc tính của âm đoạn đơn vị tại

các biên ghép nối của chúng sao cho việc ghép nối là mịn nhất để đảm bảo chất

lượng âm thanh tổng hợp tạo ra gần với tiếng nói tự nhiên.

Như vậy chất lượng của một hệ tổng hợp ghép nối được quyết định bởi các yếu tố sau:

 Sự lựa chọn tập âm đơn vị cơ bản. Trong đó ngữ âm của ngôn ngữ tổng hợp là yếu

tố chính quyết định loại đơn vị cơ bản.

 Chất lượng âm thanh và mức độ bao phủ các tổ hợp âm đoạn cần thiết cho một

ngôn ngữ của CSDL âm.

 Khả năng cung cấp các tham số về ngữ điệu như đường nét tần số cơ bản cường độ

âm thanh và độ dài các âm cho bộ tổng hợp. Các tham số này được tiên đoán trong

phần xử lý ngôn ngữ của bộ tổng hợp từ văn bản.

 Khả năng thay đổi tần số cơ bản F0 và độ dài các đơn vị âm cơ bản phù hợp với

ngữ điệu được miêu tả ở đầu vào của bộ tổng hợp mà không ảnh hưởng tới chất

lượng cảm thụ của âm đó.

 Thuật toán ghép nối và mô hình tín hiệu cho phép dễ dàng làm trơn hai điểm ghép

nối của các âm đoạn được ghép nối.

1.1.4.4. Tổng hợp theo HMM

Hiện nay trên thế giới, thư viện HTS [82] tổng hợp tiếng nói dựa trên HMM đã

được nghiên cứu mạnh mẽ và áp dụng tốt cho bài toán tổng hợp tiếng nói chuyên

ngành và tổng hợp tiếng nói không hạn chế chủ đề [71][72] với các đặc tính lưu trữ rất

nhỏ và dễ thiết lập giọng nói tổng hợp mới.

Tổng hợp dựa trên HMM là một phương pháp sử dụng HMM để sinh lại các

vector đặc trưng phổ. Trong hệ thống này, phổ tần số của giọng nói, tần số cơ bản, và

thời gian đều được mô phỏng cùng lúc bởi HMM. Dạng sóng của giọng nói được tạo từ

mô hình HMM dựa trên tiêu chí khả thực cực đại [72][82].

Trong tổng hợp tiếng nói dựa trên HMM thì đường F0, dãy mel-cepstrum bao

gồm đường năng lượng, trường độ âm vị sinh ra trực tiếp từ các HMM đã huấn luyện

từ cây quyết định dựa trên kỹ thuật phân cụm có ngữ cảnh. F0 được mô hình hóa bởi

các HMM phân bố xác suất trong không gian đa chiều, trường độ được mô hình hóa

bằng cách phân bố Gauss nhiều chiều, mỗi chiều là trường độ của một trạng thái của

HMM. Mel-cepstrum được mô hình hóa bởi HMM Gauss nhiều chiều hoặc HMM

phân bố Gauss hỗn hợp nhiều chiều. Cây quyết định cho đường F0 và mel-cepstrum

được tạo trong mỗi trạng thái của HMM, một cây quyết định được tạo để dự đoán

trường độ âm vị. Mọi thủ tục huấn luyện được thực hiện một cách tự động.

Hình 1. 4. Tổng hợp tiếng nói theo HMM [72]

1.1.5. Các hệ thống tổng hợp tiếng nói tiếng Việt

Bảng 1. 1. Bảng so sánh một số sản phẩm tổng hợp tiếng Việt đã công bố

Ưu điểm Nhược điểm Nguồn Ứng dụng Tên

nhỏ lượng

Phương pháp VnVoice Ghép nối đơn vị thoại

nói +Tiếng chưa trơn về phổ +Tốc độ đọc chưa đảm bảo trường độ âm tiết trong câu

VietTalk Bộ mã nguồn mở HTS

gốc Sản phẩm của đề tài KC.01.0 3, KC.01/0 6-10 Đề tài cấp Bộ TT và TT

+Bộ đọc màn hình Jaws. +Cổng học đường +Đọc trang Web có nội dung đa ngữ Việt - Anh +Bộ đọc màn hình Jaws +Hệ báo nói. +Đề tài KC.01.DA01/ 11-15 +Dung (1.5MB) +Giữ được giọng đọc +Đọc câu ngắn rõ ràng. + Tạo giọng đọc mới nhanh chóng. +Phù hợp ứng dụng nhúng +Tiếng nói trơn về phổ +Dự báo tốt được F0 và trường độ âm tiết. + Tạo giọng đọc mới nhanh. +Phù hợp ứng dụng server

tự lượg

Ghép nối đơn vị giọng

VOS (Tiếng nói phương Nam) + Tiếng nói khá nhiên + Bảo toàn giọng đọc + Phù hợp ứg dụng server

+Không bảo toàn giọng đọc +Giọng đọc đôi khi bị rè câu +Đọc ngắn chất lượng bị suy giảm +Dung lớn +Tạo đọc mới lâu +Có thể có những câu được chưa phủ bởi kho ngữ liệu

Hình 1. 5. Mô hình VnSpeech tổng hợp tiếng Việt dựa vào formant.

Tại Việt Nam, phương pháp tổng hợp formant cũng đã có vài công trình nghiên

cứu và đã có các kết quả dựa vào ứng dụng thực tế. Chẳng hạn, phần mềm “đọc văn

bản tiếng Việt”. Phần mềm tổng hợp tiếng nói tiếng Việt VnSpeech (xem hình 1.5),

tổng hợp tiếng nói theo huớng tiếp cận này. Hệ thống tổng hợp formant có thể đọc

được hầu hết các âm tiết tiếng Việt ở mức nghe rõ, tuy vậynó có nhược diểm là mức độ

tự nhiên không cao.

Do hạn chế về chất lượng của tiếng nói tổng hợp dựa vào formant, nên phương

pháp tổng hợp ghép nối được tập trung đầu tư, nghiên cứu. Truớc đây, đã có phần mềm

V-Talk của Viện Khoa học kỹ thuật Bưu diện, phát triển dựa trên tổng hợp ghép nối

diphone (phụ âm dầu và phần vần). Hiện nay, có các phần mềm VnVoice (Viện Công

nghệ thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam) theo hướng ghép nối

bán âm tiết; Phần mềm nhu liệu đọc tiếng Việt VietVoice và một số sản phẩm tổng hợp

tiếng Việt bằng cách ghép âm tiết như phần mềm đọc tiếng Việt Sao Mai; Phần mềm

VietSound do Ðại học Bách Khoa TP Hồ Chí Minh phát triển, phần mềm này kết hợp

sử dụng phương pháp ghép nối diphone và phương pháp tổng hợp formant. Nghiên cứu

của MICA (Ðại học Bách khoa Hà Nội) về tổng hợp tiếng nói dựa trên ghép nối các

đơn vị âm thanh không đồng nhất. Hệ thống tổng hợp tiếng nói “Tiếng nói phương

Nam” (VoS) được phát triển theo hướng kết hợp ghép nối âm tiết và cụm từ [78].

Hình 1.6. Mô hình VoS tổng hợp ghép nối âm tiết và cụm từ.

Ở Việt Nam hiện nay, tổng hợp tiếng nói dựa trên HMM (xem hình 1.5) là hướng

nghiên cứu mới đang được triển khai ứng dụng cho hệ thống tổng hợp tiếng Việt.

Truớc đây, năm 2009 đã có đề tài nghiên cứu “Phát triển Engine tổng hợp tiếng Việt

(VieTalk) cho nguời khiếm thị”, sử dụng phương pháp này [48][63].

Hình 1.7. Mô hình hệ thống TTS dựa trên mô hình Markov ẩn.

Từ nửa cuối năm 2013, Viện nghiên cứu Quốc tế MICA (Ðại học Bách khoa Hà

Nội) và Phòng thí nghiệm Trí tuệ nhân tạo AILab (Ðại học Khoa học tự nhiên TP

HCM) cũng đang bắt đầu có những nghiên cứu, phát triển hệ thống tổng hợp tiếng Việt

tham số thống kê dựa trên HMM [41][66] [67].

Dựa trên các phân tích ở mục 1.3.3 và 1.1.4 và những đặc điểm của các hệ thống

TTS tiếng Việt sử dụng các phương pháp khác nhau, luận án đề xuất sử dụng phương

pháp tiếp cận tổng hợp tiếng nói tiếng Việt theo phương pháp tổng hợp ghép nối.

1.1.6. Các tham số ngôn điệu

Giai điệu lời nói liên kết chặt chẽ với khái niệm “ngôn điệu”. Có thể nói ngữ điệu

là sự nâng cao hạ thấp của giọng nói trong câu. Tần số cơ bản (F0) là đặc trưng chính

của ngữ điệu. Khái niệm ngữ điệu (intonation) khác với ngôn điệu (prosody). Ngôn

điệu bao gồm cả ngữ điệu. Các đặc trưng quan trọng nhất của ngôn điệu và độ đo được

trình bày trong bảng dưới đây.

Bảng 1. 2. Các tham số đặc trưng của ngôn điệu

Âm học Cảm thụ Ngôn ngữ

Thanh điệu, ngữ Tần số cơ bản (F0) Cao độ điệu, độ nhấn

Biên độ, Năng Độ to nhỏ Độ nhấn lượng, Cường độ

Trường độ Độ dài Độ nhấn

Biên độ động Độ mạnh Độ nhấn

Ngôn điệu là đặc trưng siêu đoạn của lời nói, nó không mang tính chất đoạn như

các âm tố, âm tiết. Đường nét F0 và cường độ âm thanh có thể được tính toán trực tiếp

từ tín hiệu lời nói. Độ dài được phỏng đoán bằng cách chia tín hiệu thành các đoạn nhỏ

theo định nghĩa về ngữ âm hoặc âm vị.

Các thông tin ngôn ngữ được mã hóa trong các đặc trưng của ngôn điệu bao gồm:

 Từ trọng âm/thanh điệu của âm tiết (trong các ngôn ngữ có thanh điệu).

 Sự phân đoạn (sự phân nhịp, sự ngắt giọng, …).

 Loại câu (câu trần thuật, câu hỏi, …).

Trong các hệ thống tổng hợp, vấn đề sinh ngôn điệu có thể xem như là phân loại

mẫu và xấp xỉ hàm ánh xạ thông tin ngữ điệu trên các tham số ngữ điệu. Chẳng hạn, dự

báo biên cụm, mỗi biên của từ cũng là vấn đề nhập nhằng hoặc mức cao hơn nhập

nhằng biên cụm. Vấn đề sau đó là phân biệt được giữa các khả năng có thể, đánh dấu

dùng ngữ cảnh. Dự đoán kiểu trọng âm pitch cũng là một bài toán phân loại mẫu khác

xác định giá trị trong tập trọng âm.

Kỹ thuật tổng hợp hiện có ích trong một vài ứng dụng vì chất lượng tổng hợp

chưa được tốt như con người mong muốn. Ngôn điệu bao gồm cấu trúc cụm và trọng

âm của tiếng nói là một trong những thành phần cở bản trong hệ tổng hợp. Trong lĩnh

vực xử lư tín hiệu tiếng nói, pitch là sự diễn cảm huyền bí nhất của hiện tượng ngôn

điệu và biến thiên đường pitch trong tiếng nói có thể dùng để nhấn mạnh mục đích của

người nói [11].

Ngôn điệu trong các hệ tổng hợp gồm ba mức. Thứ nhất, thành phần phân tích

văn bản tính vị trí biên cụm từ và các chỗ nhấn trong câu. Thứ hai, các thành phần

ngôn điệu âm học tính trường độ âm vị, đường tần số cơ bản, và các đường tham số âm

học thêm vào như biên độ và độ nghiêng phổ. Cuối cùng, thành phần xử lý tín hiệu tính

toán sóng tiếng nói số biểu diễn dãy âm vị có đường thời gian và pitch mong muốn

[66].

1.1.7. Tổng quan về âm học và các hiện tượng ngôn điệu tiếng Việt trong

ngữ lưu

Khi giao tiếp con người phát ra những chuỗi âm thanh nhất định, ta gọi là dòng

ngữ lưu (utterance). Trong từng dòng ngữ lưu, nếu đem chia cắt chúng ra, ta sẽ thu

được những đơn vị cấu thành nhỏ hơn, đó là âm tiết, âm tố và âm vị.

Âm vị là đơn vị tối thiểu của hệ thống ngữ âm của một ngôn ngữ dùng để cấu tạo

và phân biệt vỏ âm thanh của các đơn vị có nghĩa của ngôn ngữ. Âm vị còn có thể

được coi là một chùm hoặc một tổng thể đặc trưng các nét khu biệt được thể hiện đồng

thời.

Âm tiết là đơn vị phân chia tự nhiên nhất trong lời nói, là đơn vị phát âm nhỏ

nhất. Mỗi âm tiết là một tiếng. Về mặt sinh lý – vật lý, âm tiết được định nghĩa là một

đơn vị mà khi phát âm được đặc trưng bởi sự căng lên rồi chùng xuống của cơ thịt

trong bộ máy phát âm [9].

Trong mỗi âm tiết, chỉ có một âm tố có khả năng tạo thành âm tiết (gọi là âm tố

âm tiết tính), còn lại là các yếu tố đi kèm, không tự mình tạo thành âm tiết được. Âm tố

âm tiết tính thường được phân bố ở trung tâm, làm hạt nhân âm tiết. Đó thường là các

nguyên âm. Điều này dẫn đến hệ quả là một âm tiết khi được phát ra thì phần năng

lượng tập trung nhiều nhất ở phần giữa âm (có biên độ cao), đi về đầu và cuối âm tiết

thì năng lượng giảm dần.

Hình 1.8. Cụm từ ”âm tiết tiếng Việt ” thể hiện trên sóng âm

Tiếng Việt là tiếng đơn âm có thanh điệu. Nó là ngôn ngữ có kết cấu âm tiết tính.

Một đặc điểm của tiếng Việt là âm tiết trùng hình vị (đơn vị nhỏ nhất có nghĩa). Nói

cách khác, một âm tiết là một hình thức biểu đạt của một hình vị.

Do mỗi âm tiết là vỏ ngữ âm của hình vị nên khác với các ngôn ngữ Âu-Ấn, tiếng

Việt có số âm tiết hữu hạn với 17000 vỏ ngữ âm có khả năng và 6900 âm tiết tồn tại

thực.

Âm tiết, h́ nh vị tiếng Việt cố định, không thay đổi theo ngữ pháp về thời, giống

và số như các ngôn ngữ khác. Âm tiết tiếng Việt có cấu trúc chặt chẽ với các loại âm ở

các vị trí cố định trong thành phần âm tiết.

1.1.7.1. Thanh điệu

Một đặc điểm nổi bật khác của tiếng Việt là thanh điệu. Mỗi âm tiết đều mang

một thanh điệu nhất định. Thanh điệu là một tập hợp những đặc trưng có liên quan đến

độ cao (phụ thuộc tần số rung động của dây thanh âm) của thanh cơ bản trong âm tiết.

Nó được thể hiện trên tất cả những bộ phận hữu thanh trong âm tiết, nhất là các âm

đoạn nguyên âm tính (nguyên âm và bán nguyên âm) và các đoạn phụ âm mũi.

Thanh điệu có thể phân tích thành hai thành phần thường xuyên kết hợp với nhau:

âm vực (độ cao của thanh cơ bản) và âm điệu (hướng chuyển biến cao độ-độ tăng giảm

của tần số) trong quá trình thể hiện. Vì vậy, mỗi thanh điệu có thể được miêu tả như

một sự kết hợp của hai thông số nói trên.

Hệ thống thanh điệu tiếng Việt gồm sáu thanh là ngang (không dấu), huyền, ngã,

hỏi, sắc, và nặng [9]. Thanh điệu trong tiếng Việt kết hợp với các thành phần của âm

tiết tạo thành các từ khác nhau, ví dụ như: thanh/ thành/ thánh/ thạnh…Trong tiếng

Việt không phải vần nào cũng phát âm đủ sáu thanh. Đối với âm tiết đóng chỉ có hai

thanh sắc và nặng, ví dụ: tắc, tặc…

Ngoài các tính chất ngữ điệu như các ngôn ngữ Âu-Ấn, tần số cơ bản F0 là thành

phần chính của hệ thống thanh điệu tiếng Việt tạo nghĩa khác nhau cho âm tiết. Hệ

thống thanh điệu tiếng Việt tạo nghĩa khác nhau cho âm tiết. Hệ thống thanh điệu tiếng

Việt là loại phức tạp nhất trong các ngôn ngữ đơn lập âm tiết tính (tiếng Thái có 5

thanh [87], tiếng Trung Quốc phổ thông có 4 thanh [88]).

Trong tiếng Việt, âm tiết có cấu trúc chặt chẽ và ổn định, mỗi âm vị là một vị trí

nhất định trong âm tiết, tạo thành cấu trúc âm tiết tiếng Việt. Âm tiết tiếng Việt được

tạo thành bởi ba thành phần có mức độ độc lập khác nhau là phụ âm đầu, phần vần và

thanh điệu. Về cấu trúc, âm tiếng Việt có cấu trúc hai bậc. Bậc một gồm ba thành phần

là thanh điệu, phụ âm đầu và vần. Bậc hai là các thành tố của phần vần gồm âm đệm là

bán nguyên âm, nguyên âm chính và phụ âm hay bán nguyên âm cuối.

Bảng 1. 3. Phân loại âm tiết tiếng Việt.

STT Loại âm tiết Đặc điểm Ví dụ

Là các loại âm tiết không có âm cuối, kết thúc 1 Âm mở Má, mẹ, … âm tiết bằng nguyên âm chính

2 Âm nửa mở âm cuối kết thúc âm tiết là một bán nguyên âm Mai, sau, ...

3 Âm đóng Khi âm cuối là một phụ âm tắc vô thanh Tập, học, ...

Làm, ngành, Âm nửa Khi âm cuối là một phụ âm mũi 4 ... đóng

1.1.7.2. Các hiện tượng ngôn điệu

Thanh điệu

Thanh điệu là loại âm vị siêu đoạn tính, nó được biểu lộ trong toàn bộ phần hữu

thanh của âm tiết. Ở mức vật lý, phần thanh của thanh điệu chính là đường nét của tần

số âm cơ bản F0. Về cảm thụ, thanh điệu là sự cảm nhận về thay đổi của cao độ tần số

cơ bản F0 của âm tiết (Trong chương 3, qua khảo sát thực nghiệm chúng tôi cũng đã

xác thực lại thanh điệu có quan hệ với trường độ âm tiết.).

Thanh điệu là một yếu tố thể hiện độ cao và sự chuyển biến của độ cao trong mỗi

âm tiết. Mỗi âm tiết tiếng Việt nhất thiết phải được thể hiện với một thanh điệu. Thanh

điệu có chức năng phân biệt vỏ âm thanh, phân biệt nghĩa của từ.

Nếu như ngữ điệu là đặc trưng của câu, trọng âm là đặc trưng của từ thì thanh

điệu là đặc trưng của âm tiết tiếng Việt.

Sáu thanh điệu tiếng Việt được chia thành hai nhóm lớn bằng và trắc. Thanh

không dấu và thanh huyền thuộc loại thanh bằng có đường nét tương đối đơn giản.

Thanh ngã, thanh hỏi, thanh sắc và thanh nặng là những thanh trắc có đường nét thanh

điệu phức tạp. Các thanh ngang, sắc, ngã thuộc âm vực cao, còn các âm huyền, hỏi và

nặng thuộc âm vực thấp.

Trong các công trình nghiên cứu đã được công bố, đường nét thanh điệu tiếng

Việt cho những âm tiết rời rạc (phương ngữ Bắc Bộ) được đánh giá tương đối thống

nhất. Ngoài tính chất thanh tính, các thanh điệu còn có một số đặc trưng phi điệu tính

như hiện tượng yết hầu hoá, thanh hầu hoá,… tạo thành hệ thống các đặc trưng phụ để

phân biệt các thanh điệu đặc biệt của thanh ngã và sắc, thanh hỏi, thanh nặng.

1. Không dấu 2. Huyền 3. Hỏi 4. Ngã 5. Sắc 6. Nặng

Hình 1.9. Biểu đồ thanh điệu điển hình.

Dáng điệu của đường F0 của thanh điệu tiếng Việt được khái quát ở dạng sau bởi

nhiều nhà nghiên cứu ngữ âm [8][9]:

Thanh ngang: Thanh thuộc loại âm vực cao, âm điệu bằng, không đổi hướng.

Hình 1.10. Đường F0 của thanh ngang

Hình 1.11. Đường F0 của thanh ngã

Thanh huyền: Thanh thuộc loại âm vực thấp, âm điệu bằng, không đổi hướng.

Thanh huyền được phát âm ở âm vực thấp hơn so với thanh ngang. Đường nét đi

xuống thoai thoải đều từ đầu đến phần cuối âm tiết.

Thanh ngã: Thanh thuộc loại âm vực cao, âm điệu trắc, đổi hướng (gãy).

Thanh ngã có âm vực cao đường nét gãy. Bắt đầu ở độ cao cao hơn thanh huyền,

thấp hơn thanh ngang. Ở giữa ân tiết giảm xuống đột ngột, hoặc có hiện tượng bị đứt,

sau đó lại tăng lên đạt tần số cao nhất ở cuối âm tiết.

Thanh hỏi: Thanh thuộc loại âm vực thấp, âm điệu trắc, đổi hướng.

Thanh hỏi bắt đầu với mức cao của thanh huyền, đi xuống thoai thoải đến giữa

vần, giữ bằng phẳng trong một thời gian ngắn và sau đó lại đi lên cân đối với đường đi

xuống. Cao độ tần số cơ bản ở đầu và cuối âm tiết khoảng bằng nhau.

Thanh sắc: Thanh thuộc loại âm vực cao, âm điệu trắc, không đổi hướng.

Thanh sắc là thanh thuộc âm vực cao đường nét đi lên phụ thuộc vào loại h́ nh âm

tiết và độ dài ngắn của nguyên âm. Ở các âm tiết không khép, thanh sắc tương đối bằng

phẳng đến giữa vần và sau đó đi lên ở phần cuối âm tiết. Ở các âm khép, thanh sắc có

âm vực cao hơn và có thể đi ngang phụ thuộc vào độ dài âm tiết.

Thanh nặng: Thanh thuộc loại âm vực thấp, âm điệu trắc, không đổi hướng.

Thanh nặng thuộc âm vực thấp, đường nét đi xuống. đối với các âm không khép,

đường nét đi xuống đột ngột ở phần cuối âm tiết. Còn đối với âm khép đường nét bằng

phẳng ở âm vực thấp.

Trong sáu thanh điệu của tiếng Việt thì các âm khép, âm tiết có phụ âm cuối là

phụ âm vô thanh /p, t,c/ có độ dài ngắn nhất, ở các âm tiết này chỉ có thanh sắc và

thanh nặng.

Trong câu liên tục, đường nét của tần số cơ bản F0 của các âm tiết không còn giữ

nguyên như khi phát âm rời rạc. Sự biến đổi F0 không phụ thuộc nhiều vào yếu tố ngữ

âm, và cần được mô hình hóa từ các cấp độ âm học – âm tiết – ngữ đoạn [42][66].

Trường độ

Trường độ là độ dài của âm thanh. Trường độ tạo nên sự tương phản giữa các bộ

phận của lời nói. Đây là yếu tố tạo nên trọng âm, tạo nên sự đối lập giữa các nguyên

âm trong một số ngôn ngữ.

Sự kéo dài như một thuộc tính ngữ âm của các đơn vị âm thanh được xác định

bằng số lượng thời gian mà một động tác cấu âm hoặc tổ hợp đồng thời các động tác

cấu âm đã được thực hiện và kèm theo đó là dấu ấn về khoảng thời gian mà phổ âm

thanh đặc trưng cho đơn vị đó được thể hiện và được người bản ngữ nhận thức được

trong tương quan với các đơn vị âm thanh cùng loại hoặc cấu trúc âm thanh lớn hơn có

bao hàm nó. Tiếng Việt có 2 loại nguyên âm tuỳ theo trường độ: /a/ dài trong "tan", /ă/

ngắn trong "tăn", /ơ/ dài trong "sơn" và /â/ ngắn trong "sân", v.v…

Ngữ điệu

Là sự biến đổi cao độ của giọng nói diễn ra trong một chuỗi âm thanh, cũng như

thanh điệu cao độ này do tần số dao động của dây thanh nhưng khác nhau ở chỗ chúng

xuất hiện trên một ngữ đoạn hay một đoạn. Thường mang tính biểu cảm, nhờ ngữ điệu

mà có thể phân biệt được câu trần thuật nghi vấn hay cảm thán.

Trọng âm

Đó là cách để làm nổi bật một âm tiết, từ, ngữ hay một câu.

Trọng âm thể hiện bằng sức mạnh của luồng hơi, âm tiết phát ra mạnh hơn hoặc

yếu hơn còn gọi là âm lực hay trọng âm cường độ.

Trọng âm có thể được thực hiện bằng cao độ tức là tăng hoặc giảm tần số dao

động của dây thanh âm.

Trọng âm có thể được thể hiện bằng trường độ, tức là những âm tiết là trọng âm

sẽ được phát ra dài hơn các âm tiết khác.

Ba nhân tố này có thể phối hợp cùng nhau, tuỳ theo từng ngôn ngữ mà các những

nhân tố này được ưu tiên sử dụng.

1.1.7.3. Hiện tượng biến thanh trong thanh điệu

Độ cao bắt đầu của các thanh bị ảnh hưởng bởi thanh điệu đi trước và độ cao kết

thúc bị ảnh hưởng của thanh điệu đi sau nó. Những thanh điệu có kết thúc cao (thanh

ngã, sắc) sẽ kết thúc thấp (gần như không dấu, thậm chí có một số trường hợp có thể bị

chuyển thành thanh nặng) nếu sau nó là âm tiết cũng có âm vực cao.

Quan sát đường nét thanh điệu một cách có hệ thống, chúng ta có thể rút ra nhiều

quy luật về sự biến thanh của tiếng Việt. Khác với ngữ âm học với mục tiêu xác định

các đặc trưng riêng biệt của thanh điệu, khi tổng hợp tiếng nói, hệ thống phải mô hình

hoá được các biến đổi thanh điệu này càng chính xác, càng chi tiết bao nhiêu thì độ tự

nhiên được tăng cao bấy nhiêu.

Các khảo sát thực nghiệm [11] cho thấy đường nét của thanh điệu đứng sau các

thanh thuộc âm vực cao là thanh sắc, thanh ngã và không dấu có độ dốc thấp hơn so

với thanh thuộc âm vực thấp như nặng, huyền hỏi. Tương tự như vậy ta có thể phân

tích cho tất cả các loại thanh điệu khác dựa theo các kết quả thống kê này và xây dựng

đường dốc đặc trưng cho từng tổ hợp thanh. Ảnh hưởng của các thanh sau kế tiếp được

thống kê theo bảng dưới đây. Nói chung các thanh thuộc âm tiết phía sau không tác

động gây ảnh hưởng nhiều vào sự biến thiên thanh như thanh trước đó.

Thông qua quan sát trực tiếp hình dáng và tần số cơ bản đặc trưng cho thanh điệu

trong ngữ lưu và các số liệu phân tích chúng tôi rút ra một số nhận xét để mô hình hoá

sự biến thanh trong phát ngôn liên tục phục vụ cho việc tổng hợp tiếng Việt như sau:

- Phần tần số cơ bản ở nửa trước của âm tiết thay đổi để đảm bảo thực hiện được

phần đặc trưng của thanh điệu ở nửa sau. Đường nét của phần này không mang ý

nghĩa về cảm thụ thanh, như âm “mẹ” ở trên phần đầu đi lên để đủ cao độ tần số cơ

bản cần thiết thể hiện đặc trưng đi xuống của thanh nặng.

- Đặc trưng của thanh điệu được thể hiện rõ ở nửa sau của âm tiết và về cơ bản

đường nét lên xuống của các thanh vẫn giữ được như đường nét của các âm tiết

phát âm rời rạc.

- Các thanh ngã, thanh hỏi trong ngữ lưu chỉ diễn tiến theo một hướng không có hiện

tượng đổi chiều lên xuống. Trong nhiều trường hợp, các thanh cùng một âm vực, có

đường nét cao độ tần số cơ bản giống nhau (như sắc với ngã, hay hỏi và nặng).

- Thanh ngang không dấu có đường nét đi xuống như trường hợp âm tiết “khuya”

trước nó thuộc âm vực cao. Nó đi lên trong trường hợp thanh trước nó là thanh hỏi

hay nặng thuộc âm vực thấp mà âm đầu của âm tiết lại là âm hữu thanh.

- Thanh sắc ở các âm tiết khép kết thúc bằng phụ âm tắc vô thanh có đường đi xuống

cho thấy rằng ở các âm này, âm vực cao của thanh này đóng vai trò quyết định chứ

không phải là đường nét thanh điệu. Cũng tương tự như vậy đối với thanh nặng ở

các âm tiết khép trong âm vực thấp.

- Thanh của các âm tiết phụ thuộc rất lớn vào âm vực của thanh ngay trước nó. Đặc

biệt nếu âm tiết sau là âm hữu thanh. Mức độ phụ thuộc vào thanh của âm tiết ngay

sau thấp hơn. Ví dụ âm tiết /nay/ với phát âm của từ “hôm nay” và “sáng nay” sẽ có

cao độ tần số cơ bản khác nhau, và vần /ay/ trong trường hợp này sẽ có các biến thể

khác nhau về cao độ tần số cơ bản.

1.1.8. Hiệu chỉnh đường tần số cơ bản

Trong các ngôn ngữ có thanh điệu thì đường F0 thể hiện rất rõ ngữ điệu câu nói.

Hiện nay có một số mô hình cho phép mô hình hóa đường F0 như mô hình Fujisaki

[22], mô hình Tilt [60], … Mô hình Fujisaki thích hợp trong việc phân tích đường nét

F0 trong tiếng Anh, tiếng Thụy Điển, tiếng Tây Ban Nha, tiếng Đức, phân tích và tổng

hợp thanh điệu của ngôn ngữ có thanh điệu như tiếng Trung, tiếng Thái. Mô hình Tilt

đã sử dụng mô hình hóa đường F0, cụ thể ứng dụng trong hệ tổng hợp Festival [80].

1.1.8.1. Mô hình Fujisaki hiệu chỉnh đường F0

Mô hình Fujisaki là một mô hình định lượng dùng để mô hình hóa ngữ điệu

(intonation). Mô hình Fujisaki huớng vào việc mô hình hóa quá trình sinh ra tần số cơ

bản F0, giải thích về mặt vật lý học, sinh lý học quá trình sinh ra F0 và các tính chất

của quá trình đó.

Mô hình được áp dụng chủ yếu trong ứng dụng tổng hợp tiếng nói nhằm xây

dựng phần ngữ điệu trong tiếng nói tổng hợp.

Hình 1.12. Sơ đồ mô hình Fujisaki.

Mô hình sinh ra F0 theo công thức sau:

(1.2)

(1.3)

(1.4)

(1.2)

Ở đây các tham số của mô hình Fujisaki bao gồm: Ap, T0, a, Aa, T1, T2, ß, Fb.

- Tần số gốc Fb phụ thuộc vào từng nguời nói.

- Thành phần ngữ điệu Gp(t) có cường độ Ap và thời điểm bắt đầu T0.

- Thành phần trọng âm Ga(t) có biên độ Aa, thời điểm bắt đầu T1, thời điểm kết thúc

T2.

- Các hệ số ,

- Giá trị trần

Trong công thức (1.3), các thành phần toàn cục (ngữ: phrase) và các thành phần

địa phương (trọng âm: accent) chồng lên nhau sinh ra đường nét F0.

Thành phần ngữ Gp(t) trong công thức (1.3) định nghĩa cơ chế điều khiển ngữ.

Đầu vào của cơ chế điều khiển ngữ là lệnh ngữ (phrase command) bao gồm cường độ

Ap với thời gian bắt đầu T0. Hệ số là hằng số thời gian và là không đổi với một câu

nói. Hình 1.13 cho thấy độ dốc của thành phần ngữ tăng khi Ap tăng.

Hình 1.13. Đường nét của thành phần trọng âm Gp(t) với các cường độ Ap = 0.6, 0.45,

0.3, 0.15, =2/s.

Thành phần trọng âm Ga(t) trong công thức (1.4) định nghĩa cơ chế điều khiển

trọng âm với đầu vào là các lệnh trọng âm (accent command) bao gồm biên độ Aa, thời

gian bắt đầu T1, thời gian kết thúc T2. Hệ số là hằng số theo thời gian của cơ chế

điều khiển trọng âm và là không đổi với một câu nói. Thành phần trọng âm không bao

giờ vượt quá giá trị trần (thường được gán 0.9). Hình 1.14 cho thấy rằng độ dốc của

thành phần trọng âm tăng khi Aa tăng.

Hình 1.14. Đường nét của thành phần trọng âm Ga(t) trong các khoảng thời gian 100,

200, 250ms và Aa = 1.0 và =20/s.

Việc phân tích đường nét F0 được thực hiện bởi phương pháp phân tích bằng tổng

hợp. Giá trị các tham số của mô hình được thay đổi cho tới khi xấp xỉ tốt nhất đường

nét F0 của câu nói được phân tích. Với số lượng lệnh không giới hạn (lệnh ngữ và lệnh

trọng âm), bất kỳ đường nét F0 nào cũng có thể được xấp xỉ với độ chính xác không

giới hạn. Vì thế cần có các ràng buộc để đảm bảo tính có nghĩa về mặt ngôn ngữ học

của các kết quả phân tích. Các ràng buộc đó là các đặc trưng về ngôn ngữ và liên quan

tới mối quan hệ giữa các cấu trúc và đơn vị ngôn ngữ (như ngôn điệu và trọng âm) và

các lệnh ngữ và lệnh trọng âm. Các tham số Ap, T0, T1, T2, , Fb được gọi là các

tham số Fujisaki và phương pháp phân tích bằng tổng hợp đường nét F0 sử dụng mô

hình Fujisaki được gọi là phân tích Fujisaki. Các tham số của mô hình có thể được sinh

ra tự động bởi nhiều cách khác nhau tùy vào từng ngôn ngữ được phân tích.

Trong quá trình tổng hợp thanh điệu tiếng Việt trên âm tiết rời rạc, các thanh điệu

tiếng Việt đã được mô hình hóa bằng tham số Fujisaki[22][42][43] và cho kết quả tốt.

Tuy nhiên, việc xây dựng bộ tham số Fujisaki để hiệu chỉnh đường F0 trên cụm từ, câu

hiện vẫn còn là vấn đề cần nghiên cứu nhiều hơn.

1.1.8.2. Mô hình Tilt

Đơn vị cơ bản trong mô hình Tilt là sự kiện ngữ điệu [24][60]. Các sự kiện ngữ

điệu cơ bản là các trọng âm pitch và biên thanh điệu. Trọng âm pitch (kí hiệu a) là độ

trệch F0 kết hợp với các âm tiết thường dùng bởi người nói cho độ nhấn vào từ hay âm

tiết. Trong mô hình Tilt, biên thanh điệu (b) trệch ở các cạnh cụm ngữ điệu cũng giống

như nghe thấy tín hiệu kết thúc cụm. Sự kiện a kết hợp với sự kiện b khi trọng âm pitch

gần với biên thanh điệu. Có sự khác nhau các loại trọng âm và biên thanh điệu: việc

chọn trọng âm pitch và biên thanh điệu cho phép người nói tạo ra các giai điệu ngữ

điệu khác nhau. Các kiểu này có thể là câu hỏi, câu trần thuật.

Hình 1.15. Trình bày biểu diễn sơ đồ F0, mối liên hệ sự kiện ngữ điệu và đoạn trong

mô hình Tilt.

Các phần thích hợp về mặt ngôn ngữ tương ứng với các sự kiện ngữ điệu chính là

các vòng trong hình vẽ. Các sự kiện này được đánh nhãn cho trọng âm pitch và biên b

liên kết trung tâm âm tiết nhýng một số âm tiết không có các sự kiện.

Mô hình Tilt sử dụng tập các tham số liên tục. Các tham số này coi là tham số

chung Tilt được xác định bằng các xem hình dáng cục bộ sự kiện của đường F0.

Mô hình Tilt được xây dựng từ một mô hình đơn giản hơn, mô hình

rise/fall/connection (RFC). Trong mô hình RFC, mỗi sự kiện được mô hình hóa bởi các

phần rise và fall. Mỗi phần có biên độ và trường độ, hai tham số dùng để xác định vị trí

của sự kiện trong phát âm và chiều cao F0 của sự kiện. Hình 1.16 biểu diễn trọng âm

pitch tiêu biểu với ba tham số được đánh dấu.

Hình 1.16. Cách phân tích các tham số trong mô hình Tilt.

Các tham số RFC cho một phát âm:

 Biên độ rise (Hz)

 Trường độ rise (giây)

 Biên độ fall (Hz)

 Trường độ fall (giây)

 Vị trí (giây)

 Chiều cao F0 (Hz)

Một số sự kiện không có các phần rise và fall, trong những trường hợp như vậy

thì phần biên độ và trường độ đặt là 0. Tham số vị trí có thể xác định theo hai cách:

hoặc là khoảng cách từ bắt đầu phát âm hoặc là bắt đầu nguyên âm của âm tiết. Cách

sau có ý nghĩa về ngôn ngữ hơn nhưng biên của nguyên âm thường không có giá trị

nên vẫn thường dùng cách đầu.

Trong khi mô hình RFC có thể mô tả chính xác đường F0, nhưng máy tính thì

không thể mô hình hóa tham số RFC cho mỗi đường F0. Vì vậy, rất khó hiệu chỉnh các

tham số theo ý muốn. Chẳng hạn, có 2 tham số biên độ cho mỗi sự kiện, khi đó dễ cảm

giác chỉ có một.

Biểu diễn Tilt giúp giải quyết các vấn đề này bằng cách biến đổi biên độ và

trường độ thành 3 tham số Tilt:

 Biên độ (Hz): tổng độ lớn biên độ rise và fall

 Trường độ (s): tổng trường độ rise và fall

 Tilt: số chiều mà nhấn mạnh trên đường dạng event, độc lập với trường độ và biên

độ.

Các tham số vị trí và chiều cao F0 tương tự như ở trên.

Biểu diễn Tilt tốt hơn biểu diễn RFC vì nó cần ít tham số hơn và vẫn giữ nguyên

độ chính xác. Quan trọng hơn nữa, các tham số Tilt có ý nghĩa hơn về mặt ngôn ngữ

học.

Trong mô tả mô hình Tilt sử dụng phân tích số hạng để miêu tả quá trình sinh

biểu diễn Tilt từ đường F0, và tổng hợp để miêu tả quá trình sinh đường F0 từ sự miêu

tả Tilt.

1.2. Nhận dạng tiếng nói

1.2.1. Liệt kê các lớp bài toán nhận dạng tiếng nói

Độ phức tạp của hệ thống nhận dạng tiếng nói thường phụ thuộc vào các yếu tố

cơ bản sau :

- Môi trường thu nhận tín hiệu.

- Tập từ vựng được sử dụng.

- Sự phụ thuộc vào người nói.

- Kiểu phát âm (rời rạc, kết nối, liên tục).

- Tài nguyên hệ thống.

Hình 1.17. Liệt kê các kiểu hệ thống nhận dạng tiếng nói.

Bảng 1. 4. Các loại nhận dạng tiếng nói

Chế độ nói : liên tục. Từ vựng : vừa và nhỏ.

Người nói : phụ thuộc và độc lập người nói. Kiểu nói : tự nhiên và mệnh lệnh

1.2.2. Môi trường thu nhận tín hiệu

Độ chính xác nhận dạng trong các môi trường như : nhà ở-văn phòng; trong ô tô;

trong môi trường công nghiệp; nguồn âm có khoảng cách với mic là rất khác nhau,

nguyên nhân do tín hiệu nhiễu, tiếng vang gây ra.

Bảng 1. 5. Liệt kê các môi trường theo mức nhiễu

Môi trường Độ nhiễu

nhà ở-văn phòng [20dB,30dB]

ô tô [-5dB, 10dB]

Môi trường tự nhiên-công nghiệp [-5dB, 10dB]

Tập từ vựng

Căn cứ vào số lượng từ nhận dạng mà người ta chia các hệ thống sử dụng công

nghệ nhận dạng tiếng nói làm ba loại: số lượng từ vựng nhỏ (30-100), số lượng từ vựng

trung bình (100-500), và số lượng từ vựng lớn (> 500).

Sự phụ thuộc người nói

Trong hệ thống nhận dạng phụ thuộc người nói, chủ thể tương tác với hệ thống

phải là người có dữ liệu tiếng nói trong tập dữ liệu huấn luyện ban đầu của hệ thống.

Đối với hệ thống nhận dạng độc lập người nói, người tương tác với hệ thống có

thể là bất kỳ. Hệ thống này đòi hỏi phải có một nguồn dữ liệu tiếng nói kích thước lớn

của nhiều người nói. Khả năng nhận dạng chính xác của hệ thống độc lập người nói

thấp hơn hệ thống phụ thuộc người nói.

Tài nguyên hệ thống

Tài nguyên hệ thống chủ yếu gồm năng lực tính toán và dung lượng bộ nhớ . Các

chip thường chỉ đủ đáp ứng yêu cầu tính toán chấm tĩnh, như vậy hệ thống nhận dạng

nếu không được thiết kế tốt thì độ chính xác sẽ bị suy giảm hoặc không đáp ứng được

yếu tố thời gian thực.

1.2.3. Biểu diễn tiếng nói - đặc trưng tiếng nói

1.2.3.1. Thu nhận tiếng nói thời gian thực và khuếch đại

Việc thu nhận mẫu tiếng nói thường được thực hiện thông qua một bộ ADC

(Analog-Digital Converter). Các thông số quan trọng bao gồm số bit cho một mẫu

(thông dụng là từ 8 đến 16 bit), tần số lấy mẫu (thông dụng từ 8Khz-16Khz). Những

thông số này liên quan nhiều tới hiệu năng, độ phức tạp thiết kế cũng như kết quả nhận

dạng của hệ thống nhúng.

Ngoài ra do môi trường tín hiệu của hệ thống đo và điều khiển trong công nghiệp

thường rất nhiễu nên hệ thống cần một bộ kiểm soát âm lượng của tín hiệu thu vào.

1.2.3.2. Trích chọn đặc trưng

Mục tiêu của bộ trích đặc trưng là tham số hoá tín hiệu tiếng nói thành chuỗi

vector đặc trưng, chứa thông tin liên quan đến âm thanh của câu nói. Đối với bất kì hệ

thống nhận dạng tiếng nói nào, các đặc trưng ngữ âm cũng phải có các tính chất sau:

- Có khả năng phân biệt tốt các tiếng nói có phát âm giống nhau.

- Cho phép xây dựng các mô hình thống kê mà không đòi hỏi quá nhiều dữ liệu huấn

luyện.

- Có tính bất biến đối với các giọng nói khác nhau, cũng như môi trường thu âm.

Hình 1.18. Các bước rút trích đặc trưng MFCC từ tín hiệu âm thanh.

Một đặc trưng lý tưởng (có cả 3 tính chất nêu trên) thường không tồn tại trong

thực tế. Trong lĩnh vực nhận dạng tiếng nói, các đặc trưng thường được sử dụng là

MFCC (Mel-Frequency Cepstral Coefficients), và LSP (Line Spectral Pairs).

Các hệ nhận dạng tiếng nói thường tách đặc trưng từ tín hiệu bằng cách:chia tín

hiệu thành các đoạn độ dài 5-15 ms, mỗi đoạn gọi là một khung (frame). Mỗi frame sẽ

cho đặc trưng là một vector và đặc trưng của toàn bộ tín hiệu sẽ là một dãy vector.

MFCC là phương pháp trích đặc trưng dựa trên đặc điểm cảm thụ tần số âm của tai

người: tuyến tính đối với tần số nhỏ hơn 1kHz và phi tuyến đối với tần số trên 1kHz

(theo thang tần số mel, không phải theo Hz). Vì lẽ đó rất nhiều hệ thống nhận dạng

tiếng nói sử dụng MFCC làm đặc trưng. Việc tính đặc trưng MFCC có sơ đồ như sau:

Hình 1. 19. Chi tiết bước trích chọn MFCC.

Hiện nay ngoài các đặc trưng MFCC và các đặc trưng truyền thống khác (như

LPC, PLP v.v), người ta còn sử dụng nhiều đặc trưng khác như Wavelet, chiều Fractal,

Tiger, các đặc trưng siêu đoạn tính như F0, formant để cải tiến độ chính xác nhận dạng

[46]. Các đặc trưng bổ sung này được đưa vào để nâng cao chất lượng nhận dạng với

việc khai thác các đặc điểm sau:

- Bền vững với tiếng nói nhiễu [49] [59][68][77]

- Hạn chế nhược điểm của các biến đổi dựa trên FFT.

- Đặc thù ngữ âm và ngôn ngữ [40]

Trong [40] các tác giả đã đưa ra một cách chuẩn hóa đặc trưng MFCC dựa vào tần số

cơ bản F0, từ đó giảm phụ thuộc của hệ thống nhận dạng vào người nói, do đó chất

lượng nhận dạng tiếng nói được tăng lên.

Hình 1. 20. MFCC chuẩn

Hình 1. 21. MFCC đã biến đổi

Lý do của sự phổ biến của đặc trưng MFCC chuẩn là nó đơn giản, truyền thống,

độc lập ngôn ngữ, và xuất hiện sớm trong các kết quả công bố về nhận dạng tiếng nói.

1.2.4. Phương pháp nhận dạng tiếng nói

Một nhược điểm của HMM là khả năng mô hình hoá âm thanh. Nhýợc điểm này

làm cho hệ thống dùng mạng HMM dễ nhận dạng nhầm các nhiễu cộng (additional

noise) trong quá trình nhận dạng. Tỷ lệ lỗi nhận dạng chèn trong hệ thống nhận dạng

dùng HMM là khá cao khi chúng phải làm việc với các phát âm có nhiều nhiễu. Độ

chính xác nhận dạng ở mức câu thường thấp [1][29][74][75].

Mặc dù các hệ thống nhận dạng dựa trên mạng nơ ron đạt được độ chính xác

cao về nhận dạng âm vị hoặc nhận dạng từ rời rạc, nhưng nhìn chung các mạng nơ ron

không thành công trong vấn đề nhận dạng tiếng nói liên tục. Nguyên nhân là mô hình

mạng nơ ron thiếu các khả năng mô hình hóa tốt sự biến thiên về thời gian của tín hiệu

tiếng nói.

Ngược lại, do ANN có khả năng phân lớp mạnh và có khả năng mô hình âm

thanh tốt, nên nếu sử dụng mô hình lai HMM kết hợp với ANN, ở đó các nhiễu cộng

có thể được phát hiện và không bị nhận dạng nhầm là các âm vị. Tỷ lệ lỗi nhận dạng

nhầm do lỗi chèn của hệ thống HMM/ANN thấp, hệ thống chịu được ảnh hưởng của

nhiễu và các âm thanh đan xen vào trong tiếng nói và có thể nhận dạng được với phát

âm có nhiều nhiễu. Độ chính xác nhận dạng ở mức câu cao hơn so với hệ thống CD-

HMM.

Hình 1. 22. Mô hình mạng lai ghép HMM/ANN

Do vậy hiện nay người ta đã nghiên cứu các hệ nhận dạng lai ghép giữa mạng

neuron và mô hình Markov ẩn (HMM/ANN) với mục đích để hạn chế nhược điểm của

hai phương pháp ANN và HMM, đồng thời tận dụng hai ưu điểm của hai phương pháp

này: khả năng phân lớp của mạng neuron và khả năng mô hình hoá thông tin thời gian

của mô hình Markov ẩn. Xác suất để mô hình ở trạng thái Si vào thời điểm t chính là

đầu ra mong đợi của mạng nơ ron.

1.2.5. Các hệ thống nhận dạng tiếng nói tiếng Việt

Về các hệ truy vấn thông tin khác bằng tiếng nói có thể kể đến iSago trên nền

iPhone của ĐHQG TP.HCM. iSago cung cấp chức năng tìm kiếm thông tin nhà hàng,

quán bar, cà phê, các địa điểm giải trí trên địa bàn TP.HCM. Người dùng có thể đặt câu

hỏi bằng giọng nói như: “tôi muốn tìm quán phở ở quận Tân Phú” hay “tôi muốn ăn

bún bò ở quận 1”, iSago sẽ truyền truy vấn này về máy chủ để xử lý và gửi lại kết quả

tìm kiếm, dạng một danh sách: tên nhà hàng, địa chỉ. iSago cũng có thể hiển thị địa chỉ

tìm được dạng bản đồ hoặc nghe đọc địa chỉ trực tiếp bằng công nghệ tổng hợp tiếng

nói.

Hiện tại, Google Voice Search đã hỗ trợ tìm kiếm bằng tiếng Việt, chúng ta có thể

nói nội dung bằng tiếng Việt và Google đã có thể nhận dạng được.

Khả năng nhận dạng tiếng Việt của Google Voice Search là khá tốt, nếu chúng ta

đọc một cụm từ mà Google nhận thấy đó là trang web hay nội dung đặc biệt thì sẽ thay

thế nó bằng nội dung đó. Ví dụ như nói: "tinh tế chấm vi en" thì thay bằng "tinhte.vn".

1.3. Kết luận chương 1

Chương này trình bày khái niệm tổng hợp và nhận dạng tiếng nói, khái quát về

phạm vi ứng dụng của nhận dạng, tổng hợp tiếng nói trong cuộc sống. Trong chương

này, các phương pháp tiếp cận nhận dạng, tổng hợp tiếng nói hiện đại, so sánh những

ưu, nhược điểm của từng phương pháp cũng được giới thiệu, từ đó đề xuất sử dụng các

đặc trưng ngôn điệu để nâng cao chất lượng nhận dạng và tổng hợp tiếng Việt. Phần

tiếp theo của chương này, luận án đề cập đến những kiến thức cơ bản liên quan đến xử

lý tiếng nói, trích chọn đặc trưng và các mô hình học máy được sử dụng trong luận án

gồm HMM và CART. Phần tổng quan của luận án được biên tập dựa trên tham khảo

các bài báo, công trình và sản phẩm đã công bố trên thế giới và một số nghiên cứu của

tác giả và các đồng nghiệp qua các hội thảo trong và ngoài nước trước thời gian làm

luận án, danh mục các công trình đã công bố của tác giả, bao gồm:

 Development of Automatic Data Entry Systems with Pattern Recognition

Techniques, International Symposium on Knowledge Creation in Economics,

Enviromental and Societal Systems, Japan Advanced Institute for Science and

Technology, Kanazawa, pp 72-78 [37]

 Vietnamese text normalize and processing, Proceedings of National IT

Conference. [32]

 Thiết kế các hệ thống nhận dạng tiếng Việt trong thời gian thực, kỷ yếu báo cáo hội

nghị FAIR 2013 nghiên cứu cơ bản và ứg dụng công nghệ thông tin, trang 349 –

357 [33]

 "Sử dụng mô hình Fujisaki và mạng neuron trong nhận dạng và tổng hợp thanh điệu

tiếng Việt" (2006), kỷ yếu hội thảo: “Nghiên cứu cơ bản và ứng dụng công nghệ

thông tin”, FAIR2005, Thành phố Hồ Chí Minh tháng 9 năm 2005, NXB KHKT,

Hà Nội [2]

CHƯƠNG 2. XỬ LÝ TIẾNG NÓI VÀ CÁC MÔ

HÌNH HỌC MÁY

Trong chương này, luận án trình bày các công cụ cơ bản trong tiền xử lý tiếng

nói, trích chọn đặc trưng tiếng nói, đặc trưng ngôn điệu và các mô hình học máy cho

vấn đề dự báo, học và nhận dạng tiếng nói.

2.1. Xử lý tiếng nói

2.1.1. Xử lý nhiễu

Hình 2. 1. “Men tường” thu âm khi bật động cơ hút bụi

Hình 2. 2.Tiếng nói được lọc

Tiếng nói thu nhận trong môi trường văn phòng, nhà ở v.v... và công nghiệp

thường chứa nhiều tạp âm. Không dễ gì có thể lọc được mọi thứ nhiễu, mà ta chỉ tìm

cách tối thiểu hoá chúng để có thể nâng cao chất lượng của hệ thống nhận dạng.

Đối với môi trường nhiễu biết trước, bên cạnh việc sử dụng dữ liệu huấn luyện gồm các mẫu sạch (được hiểu là mẫu không tạp âm), các mẫu tín hiệu được ghi trong môi trường nhiễu tương đương cũng được sử dụng để huấn luyện, qua đó hệ thống sẽ được thích nghi với môi trường làm việc có nhiễu ngay từ đầu vào.

Đối với môi trường nhiễu chưa biết trước, hệ thống nhận dạng sẽ có thể sử dụng

các kỹ thuật tiền xử lý nâng cao tín hiệu, sử dụng micro chuyên dụng có tính định

hướng nguồn âm, sử dụng các phương pháp bù nhiễu hay các mô hình thích nghi v.v...

2.1.2. Một số loại nhiễu trong môi trường thực

- Nhiễu hướng (Directional noise) : nhiễu từ hướng như âm TV, giọng nói v.v…

- Nhiễu khuếch tán (Diffuse noise): nhiễu môi trường, nền v.v...

- Vang (Reverberation) : nhiễu do trễ khi phản xạ tường, trần nhà v.v…

- Nhiễu thiết bị : quạt tản nhiệt, cơ cấu chấp hành, mang cả tính hướng và khuếch

tán.

Hình 2. 3. Quá trình hình thành tiếng nói nhiễu.

Hình 2. 4. Nhiễu hình thành do hướng và âm thanh phản hồi.

Hình 2. 5. Nhiễu khuyếch tán.

2.1.2.1. Kỹ thuật CMS

Đây là một kỹ thuật thông dụng để khử nhiễu trong các hệ thống nhận dạng, được

dùng kết hợp trong quá tŕnh tính toán các đặc tính phổ của tiếng nói. Phương pháp này

dựa trên giả thiết là các đặc tính tần số của môi trường là thường xuyên cố định hoặc

biến đổi chậm. Các tham số phổ của một phát âm được trừ đi giá trị trung bình của các

tham số trong một khoảng thời gian nào đó và làm cho các giá trị này ít bị ảnh hưởng

bởi môi trường:

(2.1)

Trong đó, T là độ dài của vùng lấy giá trị trung bình,

thường là độ dài của cả phát âm

2.1.2.2. Kỹ thuật RASTA

RASTA là kỹ thuật lọc dựa trên giả thiết rằng các tính chất thời gian của các

nhiễu là khác so với các tính chất thời gian của giọng nói. Tốc độ thay đổi của các

thành phần không phải tiếng nói thường xuyên nằm ngoài tốc độ hoạt động của bộ máy

phát âm con người. Bộ lọc số RASTA sau có thể loại bỏ được một phần các nhiễu của

môi trường và các nhiễu bổ sung bất thường khác.

(2.2)

Hình 2. 6. Đi xoắn ốc” thu âm khi robot hút bụi đang di chuyển.

Hình 2. 7. Tiếng nói được lọc.

2.1.2.3. Trừ phổ

Trừ phổ (SS, Spectral-subtraction) là một thuật toán giảm nhiễu đơn giản nhất.

Nó dựa trên nguyên lý cơ bản là nó sẽ mô tả và cập nhật nhiễu trong tín hiệu có nhiễu

bằng cách thu nhiễu khi không có sự hiện diện của tín hiệu. Và nhiễu đó sẽ được trừ

với tín hiệu có nhiễu, kết quả là tín hiệu của chúng ta sau khi xử lý bằng thuật toán này

sẽ được loại đi nhiễu và xét trên phương diện lý tưởng thì nó là tín hiệu sạch [29][70].

Phổ của nhiễu có thể được ước lượng, cập nhật trong nhiều chu kỳ khi không có

mặt của tín hiệu. Sự giả định đó chỉ được thực hiện đối với nhiễu không đổi hoặc có

tốc độ xử lý biến đổi chậm, và khi đó phổ của nhiễu sẽ không thay đổi đáng kể giữa

các khoảng thời gian cập nhật. Việc tăng cường tín hiệu đạt được bằng cách tính

IDFT(biến đổi Fourier rời rạc ngược) của phổ tín hiệu được ước lượng có sử dụng pha

của tín hiệu có nhiễu. Thuật toán này là một phép tính ước lượng đơn giản vì nó chỉ

gồm biến đổi DFT thuận và DFT ngược, như vậy, nếu việc xử lý không được thực hiện

một cách cẩn thận thận tiếng nói của chúng ta sẽ bị méo.

Nếu như việc lấy hiệu quá lớn thì có thể loại bỏ đi một phần thông tin của tiếng

nói, còn nếu việc thực hiện lấy hiệu đó nhỏ thì nhiễu sẽ vẫn còn được giữ lại trong tín

hiệu. Có rất nhiều phương pháp được đề xuất để giảm đi hầu hết méo trong quá trình

xử lý tiếng nói bằng trừ phổ, và trong số đó cũng có một vài trường hợp bị loại bỏ.

SS lúc ban đầu được đề xuất bởi Weiss trong miền thời gian, và sau đó được đề

xuất bởi Boll trong miền chuyển đổi Fourier, hiện nay đã có rất nhiều cải tiến và cài đặt

trên các hệ thống nhúng [14] [21]

Hình 2. 8. Sơ đồ khối cho hai thuật toán SS và WF

2.1.3. Trích chọn đặc trưng tiếng nói

Các nghiên cứu cho ta thấy rằng hệ thống thính giác của con người thu nhận âm

thanh với độ lớn các tần số âm thanh không theo thang tuyến tính. Do đó, các thang âm

thanh đã ra đời cho phù hợp với sự tiếp nhận của thính giác con người. Các thang được

xây dựng bằng thực nghiệm, cho nên người ta xây dựng các công thức để xấp xỉ sự

chuyển đổi này.

2.1.3.1. Đặc trưng MFCC

Các hệ nhận dạng tiếng nói thường tách đặc trưng từ tín hiệu bằng cách:chia tín

hiệu thành các đoạn độ dài 5-15 ms, mỗi đoạn gọi là một khung (frame). Mỗi frame sẽ

cho đặc trưng là một vector và đặc trưng của toàn bộ tín hiệu sẽ là một dãy vector.

MFCC là phương pháp trích đặc trưng (theo thang tần số mel, không phải theo Hz)

dựa trên đặc điểm cảm thụ tần số âm của tai người: tuyến tính đối với tần số nhỏ hơn

1kHz và phi tuyến đối với tần số trên 1kHz. Việc tính đặc trưng MFCC có sơ đồ như

Hình 2. 9. Các băng lọc dạng tam giác

MFCC là phương pháp trích đặc trưng (theo thang tần số mel, không phải theo

Hz) dựa trên đặc điểm cảm thụ tần số âm của tai người: tuyến tính đối với tần số nhỏ

hơn 1kHz và phi tuyến đối với tần số trên 1kHz. Vì lẽ đó, rất nhiều hệ thống nhận dạng

tiếng nói sử dụng MFCC làm đặc trưng.

Hình 2. 10. Trích chọn đặc trưng MFCC.

Một quan hệ ánh xạ tương ứng giữa thang tần số thực (vật lý, Hz) và thang tần số

(2.3)

sinh lý Mel được cho bởi công thức sau:

Ta dùng phép biến đổi Fourier để chuyển tín hiệu từ miền thời gian sang miền tần

số. Sau đó ta dùng dãy bộ lọc để lọc tín hiệu, đó là dãy bộ lọc tam giác có tần số giữa

đều nhau trên thang Mel.

Lấy log trên dãy kết quả từ dãy bộ lọc và thực hiện biến đổi cosin rời rạc ta thu

được các hệ số đặc trưng MFCC. Do chương 4 của luận án có trình bày phép hiệu

chỉnh các hệ số MFCC nên ở đây chúng tôi trình bày chi tiết các bước tính hệ số

MFCC.

Khối 1: Bộ lọc hiệu chỉnh (Preemphasis)

Tín hiệu tiếng nói s(n) được đưa qua bộ lọc số bậc thấp để phổ đồng đều hơn,

giảm ảnh hưởng gây ra cho các xử lý tín hiệu sau này. Thường bộ lọc này cố định bậc

một, có dạng:

H(z) = 1- az 1− 0.9≤ a≤ 1.0

(2.4)

Quan hệ giữa tín hiệu ra với tín hiệu vào tuân theo phương trình

Giá trị a thường được chọn là 0.97.

Khối 2: Phân khung (Frame Blocking)

Trong khối này tín hiệu hiệu chỉnh s(n) được phân thành các khung, mỗi khung

có N mẫu; hai khung kề lệch nhau M mẫu. Khung đầu tiên chứa N mẫu, khung thứ hai

bắt đầu sau khung thứ nhất M mẫu và chồng lên khung thứ nhất N-M mẫu. Tương tự,

khung thứ ba sau khung thứ nhất 2M mẫu.

Khối 3: Lấy cửa sổ (Windowing)

Bước tiếp theo là lấy cửa sổ cho mỗi khung riêng rẽ nhằm giảm sự gián đoạn của

tín hiệu tiếng nói tại đầu và cuối mỗi khung. Nếu w(n), 0 ≤ n ≤ N-1, sau khi lấy cửa sổ

được:

(2.5)

(2.6)

Thông thường, của sổ Hamming được sử dụng. Cửa sổ này có dạng:

(2.7)

Khối 4: Biến đổi Fourier rời rạc (FFT)

Sử dụng biến đổi để FFT chuyển đổi mỗi khung với N mẫu từ miền thời gian sang

miền tần số.

Khối 5: Biến đổi sang thang đo Mel trên miền tần số

Do tai người không cảm nhận sự thay đổi tần số của tiếng nói tuyến tính mà theo

thang Mel. Người ta chọn tần số 1kHz, 40 dB trên ngưỡng nghe là 1000 Mel. Do đó,

công thức gần đúng biểu diễn quan hệ tần số ở thang mel và thang tuyến tính như sau:

Các băng lọc tam giác theo thang tần số Mel

Một phương pháp để chuyển đổi sang thang mel là sử dụng băng lọc, trong đó

mỗi bộ lọc có đáp ứng tần số dạng tam giác. Số băng lọc sử dụng thường trên 20 băng

tần số chọn từ 0 dến Fs/2 (Fs là tần số lấy mẫu tiếng nói). Nhưng cũng có thể một dải

tần giới hạn từ LOFREQ đến HIFREQ sẽ được dùng để lọc đi các tần số không cần

thiết cho xử lý. Chẳng hạn, trong xử lý tiếng nói qua đường điện thoại có thể lấy giới

hạn dải tần từ LOFREQ=300 đến HIFREQ=3400.

Sau khi tính FFT ta thu được phổ tín hiệu (fn). Thực chất đây là một dãy năng

lượng (2.8). Cho W(n) qua một dãy K băng lọc dạng tam giác, ta được

một dãy các . Tính tổng của các dãy trong từng băng lọc, ta thu được một

dãy các hệ số mk (k=1,2,…K)

Khối 6: Biến đổi Cosine rời rạc (DCT)

Trong bước này ta sẽ chuyển log của các giá trị mk về miền thời gian bằng cách

biến đổi Cosine rời rạc (DCT). Kết quả của phép biến đổi này ta thu được các hệ số

(2.9)

MFCC.

Trong các ứng dụng nhận dạng tiếng nói, người ta thường lấy 12 hệ số MFCC và

thêm 1 hệ số năng lượng của khung sau khi đã được chuẩn hóa làm tham số đặc trưng

cho tín hiệu tiếng nói (tổng cộng có Q=13 hệ số).

Khối 7: Cepstral có trọng số

Vì độ nhạy của các hệ số cepstral bậc thấp làm cho phổ toàn bộ bị đổ dốc, độ

nhạy của các cepstral bậc cao gây ra nhiễu nên người ta thường sử dụng cửa sổ cepstral

(2.10)

để cực tiểu hóa độ nhạy này. Công thức biểu diễn các hệ số cepstral có trọng số:

Khối 8: Lấy đạo hàm các hệ số MFCC theo thời gian

(2.11)

Các giá trị đạo hàm các hệ số MFCC theo thời gian được tính theo:

trong đó; θ: là độ dài cửa sổ tính delta (thường chọn là 2 hoặc 3).

Kết thúc các bước trên với mỗi khung ta thu được một vector có 2Q hoặc 3Q

thành phần biểu diễn tham số đặc trưng của tiếng nói.

Hiện nay ngoài các đặc trưng MFCC và các đặc trưng truyền thống khác (như

LPC, PLP v.v...), người ta còn sử dụng nhiều đặc trưng khác như Wavelet, chiều

Fractal, Tiger, các đặc trưng siêu đoạn tính như F0, formant để cải tiến độ chính xác

nhận dạng. Các đặc trưng bổ sung này được đưa vào để nâng cao chất lượng nhận dạng

với việc khai thác các đặc điểm sau:

- Bền vững với tiếng nói nhiễu.

- Hạn chế nhược điểm của các biến đổi dựa trên FFT.

- Đặc thù ngữ âm và ngôn ngữ.

2.1.3.2. Cân bằng histogram

Phương pháp chuẩn hóa biểu đồ các hệ số giả phổ CHN dựa trên ý tưởng là đối

với mỗi phần tử của các vec-tơ đặc trưng của tín hiệu tiếng nói, histogram được ước

lượng và được biến đổi đưa về một dạng histogram chuẩn. Phép biến đổi này mục đích

là để bù ảnh hưởng của nhiễu tác động đến các phần tử của vec-tơ đặc trưng, qua đó

nâng cao chất lượng của hệ thống nhận dạng trong điều kiện có nhiễu. Gọi p(x) là hàm

mật độ xác suất mong muốn (chuẩn), và Fx(x) là hàm phân bố của vec-tơ dữ liệu huấn

luyện x.

Vec-tơ quan sát y của dữ liệu kiểm tra được biến đổi bởi hàm f để tạo vec-tơ đặc

(2.12)

trưng y’ có hàm mật độ xác suất bằng p(x)

Trong đó: là hàm phân bố của dữ liệu kiểm tra y, là hàm ngược của

hàm phân bố của x

Việc áp dụng CHN cho nhận dạng tiếng nói có thể giảm tỷ số nhận dạng sai so

với hệ thống nhận dạng thông thường.

Kỹ thuật cộng chồng đồng bộ cao độ tần số cơ bản – PSOLA

PSOLA (Pitch Synchronous Overlap Add) là phương pháp tổng hợp dựa trên sự

phân tích một tín hiệu thành một chuỗi các tín hiệu thành phần, được sử dụng để thay

đổi giá trị đường F0 và trường độ trực tiếp trên dạng sóng tiếng nói.

Khi cộng xếp chồng (overlap-add) các tín hiệu thành phần ta có thể khôi phục lại

tín hiệu ban đầu. PSOLA thao tác trực tiếp với tín hiệu dạng sóng, không dùng bất cứ

loại mô hình nào nên không làm mất thông tin của tín hiệu. PSOLA cho phép điều

khiển độc lập tần số cơ bản, chu kỳ cơ bản và các formant của tín hiệu. Ưu điểm chính

của phương pháp PSOLA là giữ nguyên đường bao phổ khi thay đổi tần số cơ bản

(pitch shifting). PSOLA đã được dùng rất phổ biến với tín hiệu tiếng nói, là giải thuật

dùng cho phương pháp tổng hợp ghép nối. Trước hết tiếng nói được phân tích thành

các tín hiệu thành phần, sau đó, khi cộng xếp chồng các thành phần này ta sẽ được tín

hiệu tiếng nói tổng hợp. Phương pháp này thao tác trực tiếp với tín hiệu trên miền thời

gian nên có chi phí tính toán thấp phù hợp cho các hệ thống nhúng. Khi đã thu thập đủ

số bán âm cần thiết, bộ tổng hợp áp dụng kỹ thuật cộng chồng đồng bộ cao độ tần số cơ

bản PSOLA để thay đổi độ dài và cao độ tần số cơ bản của các đoạn âm thanh phù hợp

với qui luật ngữ cảnh ngữ âm.

Hình 2. 11. Cộng xếp chồng các đoạn tín hiệu

2.1.4. Thuật toán PSOLA

Thuật toán thay đổi trường độ tín hiệu gốc s={s(n)} thành tín hiệu s’={s’(m)}

, Dur(s’)=Dur(s), R+; F0(s’,k) =  F0(s,k), R+, k – chỉ số frame của tín

hiệu gốc s. Được thực hiện qua 3 bước chính như sau:

Bước 1: Xác định các đỉnh – điểm cao độ F0 (pitch-mark) {ta(s)} của tín hiệu gốc

Bước 2: Xác định các điểm pitch-mark {tu(s)}

t0(s’)=0

, a=argmin{|ta(s)-tu(s’)|}, tu(s’) <Dur(s) (2.13)

Bước 3: Xác định tín hiệu tổng hợp

(2.14)

Thuật toán thay đổi giá trị đường F0 tín hiệu gốc s={s(n)} thành tín hiệu s’={s’(m)}

được thực hiện qua 3 bước chính như sau:

Bước 1: Xác định các đỉnh – điểm cao độ F0 (pitch-mark) {ta(s)} của tín hiệu gốc

Bước 2: Xác định các điểm pitch-mark {tu(s)}

t0(s’)=0

, a=argmin{|ta(s)-tu(s’)|}, tu(s’) < Dur(s)

(2.15)

Bước 3: Xác định tín hiệu tổng hợp

Có thể áp dụng thuật toán PSOLA trên cả tín hiệu tiếng nói trực tiếp (phương

pháp này được gọi là TD-PSOLA) hay trên tín hiệu phổ của tiếng nói gốc chẳng hạn áp

dụng trên các hệ số LPC của tín hiệu tiếng nói gốc (phương pháp này được gọi là FD-

PSOLA)

Tổng hợp ghép nối sử dụng thuật toán cộng chồng đồng bộ cao độ tần số cơ bản

PSOLA là phương pháp tổng hợp rất hiệu quả, chất lượng âm thanh nghe hiểu rõ.

2.1.4.1. Điều chỉnh trường độ đơn vị âm và giá trị đường F0 khi ghép nối

diphone

Muốn thay đổi độ dài của tín hiệu thu được (độ dài của phần tuần hoàn), trước hết

các diphone cần được phân tích thành các tín hiệu thành phần có độ dài xác định được.

Sau đó, dùng TD-PSOLA cộng xếp chồng các tín hiệu thành phần lại để được một tín

hiệu có độ dài mong muốn.

2.1.4.2. Biến đổi trường độ các diphone

Căn cứ vào tên của diphone bắt đầu và kết thúc, sau khi truy xuất cơ sở dữ liệu ta

có được hai đoạn tín hiệu tương ứng với hai diphone này. Việc ghép nối được thực

hiện giữa phần kết thúc của diphone bắt đầu và phần bắt đầu của diphone kết thúc.

Chú ý rằng các phần này đều nằm trong đoạn hữu thanh (tuần hoàn) của tín hiệu.

Theo cách tách diphone đã nêu trong phần trên, các điểm ghép nối đều nằm tại các

đỉnh cao nhất của mỗi chu kỳ. Sơ đồ ghép nối hai tín hiệu được cho trong hình sau.

Hình 2. 12. Ghép nối 2 diphone

Sau khi thực hiện ghép nối, tín hiệu thu được tương ứng với một từ không dấu.

Để tổng hợp được các từ có dấu, ta phải biến đổi tần số cơ bản của tín hiệu theo quy

luật biến đổi tần số cơ bản của các thanh điệu trong tiếng Việt.

2.1.4.3. Biến đổi tần số cơ bản

Tín hiệu thu được sau khi ghép nối hai diphone có tần số cơ bản (của đoạn tín

hiệu tuần hoàn) là tần số cơ bản của tín hiệu ban đầu (tín hiệu tiếng nói khi thu âm).

2.1.4.4. Các vấn đề gián đoạn phổ.

Tiếng nói tổng hợp theo phương pháp ghép nối có thể không đảm bảo độ tự

nhiên. Đó là do sự gián đoạn về phổ, về F0 tại biên ghép nối giữa 2 đơn vị âm (chẳng

hạn sự gián đoạn phổ giữa đơn vị âm-phụ âm đầu, và đơn vị âm là phụ âm đầu trong hệ

thống tổng hợp tiếng Việt) (có thể giải quyết bằng cách trung bình hóa các hệ số đặc

trưng LSP cho 2 mẫu âm trước ghi ghép để làm trơn biên ghép nối).

2.1.4.5. Tìm kiếm các đơn vị âm ghép nối.

Do khi ghép nối, âm tổng hợp thường hay xảy ra sự gián đoạn về phổ, nên trong

các hệ tổng họp ghép nối thường yêu cầu có nhiều hơn một thể hiện cho các đơn vị âm

ghép nối.và do đó sẽ có nhiều khả năng kết hợp các mẫu tín hiệu cùng một chuỗi âm

(phonetic string), nhiệm vụ đặt ra là phải chọn lựa được những mẫu tín hiệu tiếng nói

phù hợp nhất để việc ghép nối cho ra được tiếng nói có chất lượng tốt nhất. Có nhiều

phương pháp tìm kiếm đơn vị âm tối ưu như:

- Phương pháp tìm kiếm dựa trên cây quyết định.

- Tìm kiếm âm dựa trên tối ưu hóa hàm chi phí.

2.2. Mô hình dự báo CART

Mô hình dự báo trường độ âm tiết và âm vị CART đã được sử dụng các hệ thống

tổng hợp tiếng nói [19][51][56] v.v…

CART thực chất là mô hình cây quyết định nhị phân nhằm giải thích và dự báo

cấu trúc của một tập dữ liệu, trong đó mỗi nút trong của cây được gắn một câu hỏi các

nút lá chứa các câu trả lời.

Quá trình phân lớp dựa trên kiểu cây nhị phân đơn giản này thực chất là một quá

trình áp dụng một dãy quy tắc quyết định. Việc lựa chọn và xếp thứ tự các quy tắc

thường dựa trên cảm nhận trực giác của cá nhân và những phân tích trên những mẫu dữ

liệu có kích thước hạn chế. Trái lại, CART thực hiện chia khối dữ liệu một cách tự

động và xây dựng các quy tắc quyết định dựa trên tiêu chuẩn của mục tiêu. Hầu hết các

kỹ thuật nhận dạng mẫu thống kê đều được thiết kế cho các dữ liệu có cấu trúc chuẩn

với các biến đồng nhất (tức cùng phân phối xác suất). Tuy nhiên, các cấu trúc dữ liệu

trong thực tế thường bị pha trộn không đồng nhất và không có cấu trúc chuẩn. Với

những mẫu dữ liệu như vậy, người ta cần sử dụng CART để phân lớp.

Các cây CART tự nó đã bao gồm các câu hỏi yes/no về các điểm đặc trưng và

cuối cùng đưa ra một mật độ xác suất, khi dự đoán các giá trị xác thực (cây phân loại),

hoặc một độ lệch tiêu chuẩn khi dự báo các giá trị liên tục (cây hồi quy). Các kỹ thuật

tốt có thể được sử dụng để xây dựng một cây tối ưu từ tập dữ liệu huấn luyện. Chương

trình được phát triển liên kết với Festival, gọi là Wagon, cung cấp một phương thức cơ

bản nhưng đủ mạnh cho việc xây dựng cây [80].

Cấu trúc của CART

Một cây CART có cấu trúc như sau:

CART ::= QUESTION-NODE || ANSWER-NODE

QUESTION-NODE ::= ( QUESTION YES-NODE NO-NODE )

YES-NODE ::= CART

NO-NODE ::= CART

QUESTION ::= ( FEATURE in LIST )

QUESTION ::= ( FEATURE is STRVALUE )

QUESTION ::= ( FEATURE = NUMVALUE )

QUESTION ::= ( FEATURE > NUMVALUE )

QUESTION ::= ( FEATURE < NUMVALUE )

QUESTION ::= ( FEATURE matches REGEX )

ANSWER-NODE ::= CLASS-ANSWER || REGRESS-ANSWER

CLASS-ANSWER ::= ( (VALUE0 PROB) (VALUE1 PROB) ... MOST-

PROB-VALUE )

REGRESS-ANSWER ::= ( ( STANDARD-DEVIATION MEAN ) )

Ví dụ sau là 1 cây dự báo trường độ của âm tiết tiếng Việt của luận án:

Khai báo đích :

((segment_duration float)

(cur b dd t th tr ch k m n nh p ng ph v x d gi l s r kh g h w i ee e ea u oo o oa ooo

uw ow aa a aw ie uo uwow pz tz mz nz cz ngz uz iz tth sp )

(pre b dd t th tr ch k m n nh p ng ph v x d gi l s r kh g h w i ee e ea u oo o oa ooo

uw ow aa a aw ie uo uwow pz tz mz nz cz ngz uz iz tth sp )

(next b dd t th tr ch k m n nh p ng ph v x d gi l s r kh g h w i ee e ea u oo o oa ooo

uw ow aa a aw ie uo uwow pz tz mz nz cz ngz uz iz tth sp )

(pos_in_syll 1 2 3 4 )

(open_degree 0 1 2 3 )

(tone 0 1 2 3 4 5 6)

(posInSen float)

(coutPhoneme 1 2 3 4)

(countSyl float)

(prev_degree 0 1 2 3 ))

Một phần cây dự báo trường độ âm tiết tiếng Việt (xem chương III) :

((open_degree is 0)

((prevInitKind is 0)

((prevTone is 0)

((nextInitKind is 1)

((nextTone is 1)

((nextOpen_degree is 3)

((nextVow is oo)

((countSyl < 12)

((0.16235 -0.593814))

((countSyl < 16)

((0.135828 -0.440255))

((0.138486 -0.444973))))

((countSyl < 12.8)

((nextVow is uwow)

((countSyl < 6.1)

((0.238898 -0.560937))

((0.129649 -0.583072)))

((countSyl < 8.5)

((0.313433 -0.512651))

((0.328894 -0.462616))))

((nextVow is uwow)

((0.180219 -0.55225))

((0.344391 -0.647518)))))

((nextVow is uwow)

((0.0956071 -0.220428))

((nextVow is i)

((0.231132 -0.427334))

((countSyl < 10.6)

((countSyl < 6.4)

((0.21922 -0.332238))

((0.0656118 -0.22858)))

((0.122751 -0.379182))))))

((nextVow is a)

((nextTone is 4)

((0.225329 -0.437117))

((0.475814 -0.715876)))

((nextTone is 6)

((nextVow is i)

((countSyl < 20.4)

((countSyl < 10.4)

((countSyl < 6.4)

((0.0365587 -0.133937))

((countSyl < 9.1)

((0.034216 -0.155532))

((0.0288933 -0.172961))))

Cấu trúc của CART trở thành phương pháp chung cơ bản cho việc xây dựng các

mô hình thống kê từ dữ liệu đặc trưng đơn giản. CART rất hiệu quả vì nó có thể giải

quyết được cả những dữ liệu chưa hoàn thành, nhiều kiểu dữ liệu (kiểu số thực, tập

không đếm được) cả tính năng đầu vào và tính năng được dự đoán trước, và cây mà nó

sinh ra thường chứa các các quy tắc mà con người có thể đọc được.

Cây quyết định bao gồm những câu hỏi lựa chọn trả lời yes/no. Về một đặc

trưng nào đó ở mỗi điểm nút (node) trên cây. Lá của cây bao gồm tiên đoán tốt nhất

dựa trên dữ liệu huấn luyện. Danh sách quyết định là một dạng rút gọn của cây vì mỗi

câu trả lời cho mỗi câu hỏi dẫn trực tiếp đến một node lá. Một node lá của cây có thể là

thành phần đơn của một lớp nào đó, hàm mật độ xác suất (trên một lớp riêng biệt nào

đó).

Một cách lý thuyết giá trị được tiên đoán có thể là bất cứ giá trị nào mà hàm có

thể định nghĩa cho nó, có thể đưa ra độ đo sự hỗn tạp của tập mẫu và đo khoảng cách

giữa các thông tin hỗn tạp ấy. Thuật toán cơ bản là đưa ra một tập mẫu (1 véc tơ đặc

trưng) tìm câu hỏi về một đặc điểm mà có thể chia dữ liệu để làm giảm tối thiểu mức

hỗn tạp trung bình của 2 phần chia. Áp dụng đệ quy việc chia này trên mỗi phần nhỏ

cho đến khi đạt đến tiêu chuẩn cuối cùng (ví dụ một số nhỏ nhất các mẫu được chia ra)

Thuật toán xây dựng CART cơ bản là một “thuật toán Greedy” (thuật giải tham

lam) trong đó nó chọn lựa đặc trưng có tính phân biệt nhất ở mỗi giai đoạn của quá

trình xử lý. Điều này là tốt nhất nhưng sự tìm kiếm đầy đủ cho mỗi một tập câu hỏi tối

ưu hoàn toàn sẽ được tính toán rất là tốn kém. Mặc dù có những trường hợp dị thường

ở hầu hết các tập dữ liệu nhưng thuật giải này không gặp khó khăn ở những vấn đề đó.

Thuật toán xây dựng cơ bản bắt đầu với tập véc tơ đặc trưng tương ứng với các

mẫu, ở mỗi giai đoạn tất cả các câu hỏi có thể về dữ liệu cho các đặc trưng để tìm ra

cách câu hỏi đó phân chia dữ liệu. Một độ đo về sự lẫn tạp của mỗi phần chia được

thực hiện và câu hỏi mà sinh ra ít phần chia bị lẫn tạp nhất thì được lựa chọn. Quá trình

này được áp dụng đệ quy lên mỗi một phần chia nhỏ hơn, đệ quy cho đến khi một tiêu

chuẩn nào đó đạt được ( ví dụ số mẫu bị chia là nhỏ nhất). Về cách tổ chức CART theo

bộ phần mềm Wagon của Festival (xem phụ lục 1)

2.3. Mô hình Markov ẩn (HMM, Hidden Markov Model)

Mô hình Markov ẩn được mở rộng khái niệm từ mô hình Markov bằng cách mỗi

trạng thái được gắn với một hàm phát xạ quan sát (observation distribution). Ngoài quá

trình ngẫu nhiên chuyển giữa các trạng thái, tại mỗi trạng thái còn có một quá trình

ngẫu nhiên sinh ra một quan sát. Như vậy trong Mô hình Markov ẩn có một quá trình

ngẫu nhiên kép, trong đó có một quá trình ngẫu nhiên không quan sát được. Tập các

quan sát O được sinh ra bởi dãy các trạng thái S1, S2, ..., SN của mô hình, mà dãy các

trạng thái này là không thấy được, đó chính là lý do mô hình được gọi là mô hình

Markov ẩn (hidden) [29].

Mô hình HMM là một máy trạng thái sinh ra dãy quan sát thời gian rời rạc. Tại

mỗi đơn vị thời gian (frame), sự thay đổi trạng thái HMM theo xác suất chuyển trạng

thái, sau đó sinh ra dãy quan sát Ot tại thời điểm t theo phân bố xác suất đầu ra của

trạng thái hiện tại.

Một HMM N trạng thái định nghĩa bởi phân bố xác suất chuyển trạng

thái , phân bố xác suất output , phân bố xác suất trạng thái

khởi tạo . Ta kí hiệu là bộ tham số của mô hình.

Mô hình HMM được đánh giá là có tính hiện thực cao, do mô hình này còn đề

cập đến yếu tố thay đổi theo thời gian của tiếng nói. Nhìn chung một mô hình HMM có

thể coi như bộ sinh trạng thái hữu hạn, áp dụng trong nhận dạng tiếng nói thì mỗi dãy

trạng thái của mô hình này có thể biểu diễn một âm vị hay một vị trí tương đối tĩnh

của cơ quan cấu âm, còn chuỗi quan sát là chuỗi các vector đặc trưng được trích chọn.

Thông tin thời gian được mã hóa bằng việc chuyển từ trạng thái này sang trạng thái

khác theo chuỗi chuyển tiếp.

2.3.1. Tham số của mô hình HMM

Một mô hình Markov ẩn được đặc trưng bởi các thành phần cơ bản sau :

N, số trạng thái (state) trong mô hình Markov. Các trạng thái thường được ký hiệu bằng

S= {S1, S2, S3, ...} và trạng thái của mô hình tại thời điểm t được kí hiệu là qt, M là số

ký hiệu quan sát (observation symbol), đây là kích thước của bảng từ vựng của mô

hình. Các ký hiệu quan sát được biểu diễn bằng V= {v1, v2, ...}, A = {aij} là xác suất

chuyển trạng thái (state transition probability distribution). Trong đó aij là xác suất để trạng thái j xuất hiện tại thời điểm t+1 khi trạng thái i đã xuất hiện tại thời điểm t .

aij = P(qt+1 = Sj | qt = Si )

(2.16)

B={bj(k)} xác suất phát xạ quan sát trong mỗi trạng thái (observation symbol

probability distribution in state), bj(k) là xác suất của quan sát vk tại trạng thái j tại thời

điểm t.

(2.17)

bj(k) = P(vktại thời điểm t | qt = Sj),

 = {1, 2, ..., N} xác suất trạng thái khởi đầu (initial state distribution), i là xác suất

để trạng thái i được chọn tại thời điểm khởi đầu t=1:

(2.18)

i=P(q1=Si)

Với các giá trị thích hợp A, B, , M, N, một mô hình Markov ẩn được dùng để sinh ra

một dãy các quan sát:

O= {O1, O2, O3, ...}

Trong đó Oi lấy một trong các giá trị trong V. Hoạt động của HMM được mô tả như

Chọn một trạng thái khởi đầu q1 tương ứng với xác suất trạng thái khởi đầu .

Gán t=1.

Chọn Oi = vk tương ứng với xác suất quan sát tại trạng thái Si: bi(k).

Chuyển sang trạng thái mới qt+1 = Sj tương ứng với xác suất chuyển trạng thái aij.

Gán t=t+1 và quay lại lại bước 3) nếu t

Người ta thường dùng bộ ba =(A, B, ) được coi là bộ ký pháp gọn để biểu diễn một

mô hình Markov ẩn. A, B và  được gọi là các tham số (parameters) của mô h́ nh .

Hình 2. 13. Một mô hình Markov ẩn với sáu trạng thái

Hình 2.13 cho ta một ví dụ về một mô hình Markov ẩn gồm có sáu trạng thái, trong đó

có một trạng thái khởi đầu và một trạng thái kết thúc. Sáu quan sát {O1, O2, ..., O6}

được sinh ra từ bốn trạng thái từ 2 đến 5. Mỗi trạng thái có thể chuyển sang trạng thái

bên phải của nó, hoặc chuyển sang chính nó. Trạng thái khởi đầu chỉ chuyển sang trạng

thái thứ 2, tức là a12=1. Các tham số của mô hình Markov ẩn được ước lượng bằng 3

bài toán cơ bản (xem phụ lục 2).

2.3.2. Nhận dạng tiếng nói với mô hình Markov ẩn

Các hệ thống nhận dạng dựa trên HMM thường sử dụng đặc trưng chuẩn MFCC

và quy trình huấn luyện và nhận dạng theo thuật toán sau:

Bảng 2. 1. Thuật toán nhận dạng tiếng nói dựa trên HMM với đặc trưng MFCC.

Huấn luyện HMM : Nhận dạng với HMM:

Đầu vào gồm T frame các đặc trưng MFCC. Đầu vào gồm T frame các đặc trưng

Bước 1: Xác định dãy trạng thái tối ưu bằng MFCC.

thuật toán Viterbi: Giải mã theo Viterbi để xác định tập

nhãn, và dãy trạng thái tối ưu ứng với

bộ tham số mô hình HMM đã cho: Bước 2: Hiệu chỉnh lại tham số mô h́ nh HMM:

Bước 3: Đặt =*, lặp lại tới khi mô hình hội

tụ.

2.4. Kết luận chương 2

Chương này trình bày tổng quan về các thuật toán khử nhiễu, mô hình học máy

HMM và CART. Phần tổng quan của luận án được biên tập dựa trên tham khảo các bài

báo, công trình và sản phẩm đã công bố trên thế giới và một số nghiên cứu của tác giả

và các đồng nghiệp qua các hội thảo trong và ngoài nước trước thời gian làm luận án

(xem danh mục các công trình đã công bố của tác giả):

 Toward integrating the Fujisaki model into Vietnamese TTS , Proceeding of the

International Conference on Spoken Language Processing, Korea [42]

 "Nghiên cứu phát triển công nghệ tổng hợp và nhận dạng tiếng Việt" (2006), Kỷ

yếu hội nghị “Nghiên cứu cơ bản và ứng dụng công nghệ thông tin”, FAIR2005,

Thành phố Hồ Chí Minh tháng 9 năm 2005, NXB KHKT [2].

CHƯƠNG 3. DỰ BÁO TRƯỜNG ĐỘ, ÂM LƯỢNG VÀ

TỔNG HỢP THANH ĐIỆU TIẾNG VIỆT

Giới thiệu

Vấn đề tổng hợp tiếng Việt giọng tự nhiên hiện nay vẫn là một vấn đề phức tạp

do tiếng nói tự nhiên hàm chứa rất nhiều hiện tượng ngôn điệu như trường độ, âm

lượng và thanh điệu. Trong chương này luận án trình bày các đặc trưng tiếng nói phù

hợp với đặc thù ngôn ngữ tiếng Việt, các đặc trưng ngữ âm như thanh điệu, trường độ

và formant để đạt được hiệu quả nâng cao chất lượng tổng hợp tiếng Việt như:

 Nghiên cứu về các mô hình ngôn điệu, phân tích đặc trưng tiếng Việt.

 Nghiên cứu các luật ngôn điệu, đặc trưng tín hiệu để nâng cao chất lượng tổng

hợp tiếng Việt.

Nhiệm vụ của bộ dự báo ngôn điệu trong hệ thống TTS (tổng hợp tiếng nói) là

tính toán tập các tham số ngữ âm bắt đầu từ thông tin ngôn ngữ chứa trong văn bản cần

phải tổng hợp. Các kỹ thuật sinh dữ liệu tại các bộ phân tích ngôn điệu bằng cách sử

dụng phương thức phân loại thống kê cho việc học ngữ âm của người nói thực. Nói

cách khác, bắt đầu từ một tập lời nói có thể đạt được tất cả những thông tin về ngữ âm

cần thiết để xây dựng bộ phân tích ngôn điệu trong hệ thống TTS. Hơn nữa, đối với

hướng tiếp cận dựa trên dự đoán, thì kỹ thuật sinh dữ liệu đơn giản hóa cách thu được

ngữ điệu của một người nói cụ thể, hay thậm chí là đặc điểm về cảm xúc.

Hình 3. 1. Sơ đồ khối chung của hệ tổng hợp tiếng nói có tính năng dự báo ngôn điệu

Trong sơ đồ ở hình 3.1, các hiện tượng ngôn điệu có thể là đường F0, trường độ

và âm lượng của âm tiết hoặc từ đa âm tiết trong ngữ cảnh câu. Nghiên cứu về các ràng

buộc ngôn điệu cho tổng hợp tiếng Việt còn ít được đề cập tới, các kết quả ban đầu về

dự báo trường độ, khoảng nghỉ, thanh điệu và các hiện tượng biến thanh trong ngữ

cảnh câu được đề cập tới trong[2][22][42][43][44] bằng mô hình tham số hoặc dựa trên

hệ luật và mô hình dự báo hồi quy.

3.1. Khảo sát một số đặc tính âm học tiếng Việt

Phần này trình bày một số kết quả nghiên cứu của đề tài về ngữ âm tiếng Việt trên

cơ sở phân tích, thống kê một số đặc tính âm học như formant, trường độ của âm vị

tiếng Việt trong ngữ cảnh làm tiền đề cho việc dự báo ngôn điệu tiếng Việt.

3.1.1. Đặc tính trường độ của âm tiết do ảnh hưởng của phụ âm và nguyên

âm trong ngữ cảnh

Trường độ là một thuộc tính của các âm hay các đơn vị không thể tách rời khỏi

bối cảnh thời gian lớn hơn và việc tính theo thời gian trong quá trình tạo sinh âm thanh

lời nói. Trường độ của các chiết đoạn lời nói của mỗi cá nhân khác nhau rất lớn, phụ

thuộc vào cả kiểu loại chiết đoạn lẫn chu cảnh ngữ âm bao quanh. Một nguyên âm,

chẳng hạn, có thể kéo dài 300 ms (mi li giây) hoặc dài hơn, trong khi đó sự giải phóng

của một âm tắc hữu thanh có thể chỉ khoảng 20 ms.

Trong bối cảnh các khác biệt ngôn điệu, trường độ của âm tiết nói chung quan

trọng hơn trường độ chiết đoạn, và trường độ tương đối là quan trọng hơn trường độ

tuyệt đối. Trường độ nguyên âm là một thành tố quan trọng nhất của trường độ âm tiết,

nhưng việc duy trì các mối quan hệ trường độ phù hợp trong toàn bộ cấu trúc âm tiết là

rất quan trọng nếu các khác biệt và các mối quan hệ chiết đoạn sẽ được nhận ra.

Trường độ âm tiết bị tác động bởi nhiều yếu tố ngữ cảnh. Những yếu tố này bao

gồm tốc độ phát âm, sự định vị đoạn nổi trội lên hay trọng âm, vị trí của âm tiết trong

từ hay đơn vị lớn hơn khác và cấu trúc của chính các đơn vị lớn hơn đó. mặc dù trường

độ âm tiết thường biến thiên nhưng không phải tất cả các bộ phận cấu thành của trường

độ đều biến thiên như nhau. Các trường độ phụ âm thay đổi cùng với số lượng các phụ

âm có trong âm tiết, và cũng bị ảnh hưởng bởi trường độ âm tiết nói chung.

Dựa vào thực nghiệm có thể sắp xếp các kiểu âm tiết tiếng Việt theo thứ tự giảm

dần về độ dài như sau:

 Âm tiết khép với kết thúc bằng phụ âm tắc, vô thanh: p, t, k

 âm tiết nửa khép

 âm tiết nửa mở

 âm tiết mở

Âm tiết ở nhóm 1 là những âm tiết dài nhất. Âm tiết ở nhóm cuối là âm tiết ngắn

nhất. Như vậy, độ dài của các âm tiết phụ thuộc vào phương thức cấu tạo của âm đầu:

các phụ âm xát dài hơn các phụ âm tắc tương ứng.

Nhận xét:

Sự thay đổi độ dài của âm tiết phụ thuộc vào bối cảnh ngữ âm:

 Độ dài của âm tiết phụ thuộc vào vị trí đầu, giữa và cuối ngữ đoạn.

 Thanh điệu có ảnh hưởng đến trường độ của âm tiết trong câu

3.1.2. Quy luật biến đổi thanh điệu trong ngữ cảnh

Tần số cơ bản F0 mang tính tương đối, đặc trưng cho từng thanh điệu. Đường nét

F0 được xác định bằng sự biến đổi tần số dao động của dây thanh, do các cơ thanh

quản, cũng như áp suất dòng khí đi qua thanh môn điều phối. Như vậy, thanh điệu là

tổng hòa các tiêu chí về độ cao, kết hợp với sự điều phối các cơ của thanh quản, và

dòng khí đi qua thanh môn tạo nên các kiểu tạo thanh hay chất giọng khác nhau.

Về trường độ, các mẫu khảo sát cho thấy thanh điệu có ảnh hưởng lớn đến trường

độ của các nguyên âm. Do những thể hiện về đường nét gãy, trắc trong phân bố cường

độ và cao độ mà các thanh trắc cũng bị ngắn lại đáng kể. Khi đo trường độ nguyên âm

ở tất cả các mẫu trong kết hợp với thanh điệu chúng tôi nhận thấy đối với các thanh

bằng như huyền và ngang, trường độ của nguyên âm dài hơn khi kết hợp với các thanh

trắc. Trong đó khi kết hợp với thanh huyền, nguyên âm có trường độ dài nhất từ 322 -

408 ms. Thanh nặng có trường độ ngắn nhất 158 – 202 ms. Chính sự kéo dài trường độ

của nguyên âm khiến cho cấu trúc formant của nguyên âm cũng dài ngắn tuỳ theo các

kết hợp thanh điệu.

Trong tương quan so sánh thì nguyên âm khi kết hợp với thanh điệu có thể sắp

xếp theo trật tự: từ dài đến ngắn (tính theo ms) như sau: huyền - ngang - ngã - sắc - hỏi

- nặng. Trường độ của nguyên âm khi kết hợp với thanh điệu ở cả hai nhóm CTV (cộng

tác viên nam và nữ) được minh họa bằng bảng và biểu đồ sau:

Bảng 3. 1. Trường độ nguyên âm trong kết hợp với thanh điệu.

Huyền Ngang Hỏi Nặng Trường độ (ms) Sắc Ngã

Thanh điệu Nguyên âm [i] 371 363 313 256 158 267

332 324 [e] 301 257 184 233

357 352 301 258 178 220 []

331 328 300 274 176 254 []

339 333 276 276 167 254 []

322 317 [] 271 290 159 222

341 333 [u] 275 258 186 247

345 331 [o] 291 289 197 257

367 333 288 291 160 228 []

Biểu đồ 3. 1. Trường độ nguyên âm kết hợp với thanh điệu CTV nam

Bảng 3. 2. Trường độ nguyên âm trong kết hợp với thanh điệu.

Huyền Ngang Hỏi Nặng Trường độ (ms) Sắc Ngã

Thanh điệu Nguyên âm [i] 379 328 260 259 202 314

415 353 [e] 286 276 216 298

368 346 299 280 185 283 []

394 354 264 257 199 272 []

408 363 272 288 195 305 []

407 351 [] 288 266 171 312

380 371 [u] 280 274 187 289

404 364 [o] 294 266 227 322

370 367 273 259 165 294 []

Biểu đồ 3. 2. Trường độ nguyên âm kết hợp với thanh điệu CTV nữ

3.1.3. Quy luật biến đổi formant của nguyên âm trong ngữ cảnh

Formant được định nghĩa là tần số cộng hưởng của tuyến phát âm, do vậy chúng

liên quan trực tiếp đến hình dạng, kích thước của cơ quan cấu âm và vì thế, chúng sẽ

cung cấp nhiều thông tin đặc trưng về người nói.

Như đã biết, cấu trúc âm tiết bao gồm 5 thành phần âm đầu, âm đệm, âm chính

âm cuối và thanh điệu. Mỗi phần được thể hiện bằng đơn vị đoạn tính hay siêu đoạn

tính. Âm chính luôn là các nguyên âm còn các thành phần khác thường là các phụ âm

hoặc bán nguyên âm. Trong mỗi âm tiết, âm chính luôn có mặt còn các thành phần

khác có thể có hoặc không. Cấu trúc formant thể hiện rõ nhất tại âm chính, nãng lượng

của âm tiết cũng tập trung chủ yếu ở đây, biểu thị bằng vùng biên độ lớn nhất trên tín

hiệu sóng âm của mỗi âm tiết.

Để khảo sát quy luật biến đổi của cấu trúc formant chúng tôi (kết hợp với phòng

Ngữ âm, Viện Ngôn ngữ học, viện HLKHXH Việt Nam) tập trung vào 9 nguyên âm

chính là: i, ê, e, ư, ơ, a, u, ô, o. Các nguyên âm này được khảo sát khi phát âm riêng lẻ

và khi đi cùng một số âm đầu (như bi, ni, bê, nê, be, ne, bư, nư...) và khi đi cùng một số

âm cuối (bin, bim, binh,...). Trong phần này chúng tôi chưa khảo sát đến các âm đệm

và nguyên âm đôi. Qua khảo sát sơ bộ chúng tôi nhận thấy:

 Cấu trúc formant của nguyên âm bị thay đổi khi đi với âm đầu hoặc âm cuối . Sự

ảnh hưởng của âm đầu lên cấu trúc formant của âm chính ít hơn rất nhiều so với

ảnh hưởng của âm cuối.

 Trong các loại âm cuối sự ảnh hưởng của các âm mặt lưỡi nh/ng lên cấu trúc

formant của âm chính mạnh hơn sự ảnh hưởng của âm đầu lưỡi như "n" hay âm

môi như “m”.

 Các tần số formant không phải ổn định hoàn toàn đối với mỗi người mà dao động

trong một phạm vi nhất định. Tùy thuộc mỗi người, các tần số formant có phạm vi

biến đổi khác nhau.

 Các formant ở vùng tần số càng cao thì phạm vi biến đổi càng lớn.

Diễn tiến formant của nguyên âm trong kết hợp với thanh điệu

Nói về sự diễn tiến F0 theo thời gian (đường nét) có thể thấy là ở các thanh trắc

cũng có đặc điểm phân bố theo cấu trúc tuyến tính của âm tiết. Những thanh có chứa

các đường nét đặc biệt này thường thể hiện những điểm đặc biệt về đường nét ở phần

cuối âm tiết. Trong các cấu trúc C1VC2 (phụ âm, nguyên âm, phụ âm) chúng được thể

hiện ở các chuyển tiếp giữa âm chính và âm cuối. Những chuyển tiếp này, xét về

cường độ cũng là nơi được phân bố năng lượng ít nhất so với các phần khác của âm

tiết. Tuy nhiên, không có một ví dụ nào chỉ ra là các đặc điểm đặc biệt này có thể xuất

hiện ở chuyển tiếp giữa âm chính và âm cuối. Ngay ở các thanh trắc thì trên cứ liệu vẫn

có hai phần rõ rệt, phần đầu (thường được kéo dài đến hết chính âm trong cấu trúc

C1VC2) có diễn tiến F0 chậm và không có sự thay đổi quan trọng về giá trị và phần

sau (bắt đầu từ phần chuyển tiếp đến hết C2 trong cấu trúc C1VC2) với sự thể hiện

quan trọng về các diễn tiến F0 hay là các giá trị đường nét của một thanh. Tuy nhiên

những biến đổi về đường nét F0 ở phần cuối cấu trúc thanh điệu lại gồm nhiều biến thể

khác nhau đối với từng thanh, nhất là ở phần cuối cùng của chúng. Cụ thể: Ở những

mẫu nguyên âm có thanh điệu đi kèm, trong khoảng thời gian 50 – 60 ms đầu tiên F1,

F2 của các nguyên âm bị ảnh hưởng: F1 bắt đầu cao hơn, F2 cao hơn hoặc thấp hơn rất

nhiều so với tần số của nó khi kết hợp với thanh ngang.

 Thanh điệu có ảnh hưởng đến trường độ của nguyên âm, các kết hợp nguyên âm

với thanh ngang, ngã có trường độ dài hơn các kết hợp với thanh sắc, hỏi, nặng.

 Thanh điệu cũng tác động đến vùng tần số của các nguyên âm đơn tiếng Việt. Nhìn

chung, những ảnh hưởng của thanh điệu làm cho tần số F1, F2 của nguyên âm tăng

lên đáng kể so với tần số thông thường. Sự ảnh hưởng này xảy ra ở các kết hợp

thanh cao, nhất là đối với các kết hợp thanh ngang, ngã, sắc.

 Thanh điệu có ảnh hưởng tới diễn tiến formant của các nguyên âm ngay ở phần

đầu, sự ảnh hưởng này kéo vùng tần số formant của nguyên âm cao hơn hoặc thấp

hơn tần số thông thường của nó tạo nên một đoạn đi lên hoặc đi xuống giữa thanh

điệu và nguyên âm mà nó kết hợp. Điều này biến đổi cấu trúc đường nét formant

làm cho nó có thể đi lên hay đi xuống ở phần đầu so với cấu trúc ban đầu. Một số

thanh điệu khiến cho tần số F2 của nguyên âm không ổn định mà bị phá vỡ thành

các điểm rời rạc.

Về cấu trúc formant, những thanh có đường nét gãy, trắc làm cho phần cuối của

nguyên âm mà nó kết hợp có những biến động về vùng phân bố formant giữa F1 và F2.

Tần số formant của nguyên âm tiếng Việt:

Bảng 3. 3. Vùng tần số của các nguyên âm

Nữ nam

Nguyên âm IPA [i] F1 312 F2 2881 F1 291 F2 2231

[e] 516 2420 394 2239

[] 685 2569 598 2304

[] 353 1303 399 1296

[] 548 1225 453 1290

[] 897 1937 994 1749

[u] 345 811 466 2125

[o] 509 979 456 963

[] 744 1216 793 1116

Khi kết hợp với các thanh điệu khác nhau, vùng tần số formant của các nguyên

âm có sự thay đổi không chỉ phụ thuộc vào giọng nam, nữ mà còn tùy vào kết hợp

thanh điệu. Tuỳ từng nguyên âm mà tần số formant F1 của các CTV nữ cao hơn so với

các CTV nam từ 30Hz – 200Hz. Đối với tần số F1, F2 khi nguyên âm kết hợp với các

thanh điệu khác như huyền, ngã, hỏi, sắc, nặng vùng tần số cao hơn so với kết hợp với

thanh ngang từ 20 đến 300 Hz. Có thể khái quát vùng tần số formant của nguyên âm

khi kết hợp với 6 thanh điệu tiếng Việt qua bảng sau:

Bảng 3. 4. Vùng tần số formant trung bình của các nguyên âm kết hợp với thanh điệu.

Nguyên Ngang Huyền Ngã Hỏi Sắc Nặng

âm F1 F2 F1 F2 F1 F2 F1 F2 F1 F2 F1 F2

[i] 291 2231 315 2307 314 2407 309 2445 311 2452 299 2512

[e] 394 2239 401 2195 495 2284 428 2211 443 2263 464 2207

[] 598 2304 571 2274 676 2348 626 2270 640 2322 661 2269

[] 399 1296 710 1659 384 1292 429 1377 386 1321 395 1299

[] 453 1290 874 1860 591 1308 487 1286 522 1319 580 1297

[] 994 1749 920 1719 970 1716 968 1688 924 1687 943 1714

[u] 466 2125 504 1656 405 1140 398 1014 402 1137 390 984

[o] 456 963 568 1437 489 918 514 1056 539 1229 478 894

[] 793 1116 808 1052 856 1115 801 1051 849 1138 831 1120

Bảng 3. 5. Vùng tần số formant trung bình của các nguyên âm kết hợp với thanh điệu.

Nguyên Ngang Huyền Ngã Hỏi Sắc Nặng

âm F1 F2 F1 F2 F1 F2 F1 F2 F1 F2 F1 F2

[i] 312 2881 350 2780 363 2933 334 2913 337 2945 366 2968

[e] 516 2420 493 2395 570 2334 486 2446 510 2488 510 2421

[] 685 2569 618 2539 677 2515 688 2608 702 2604 708 2556

[] 353 1303 379 1288 430 1330 379 1235 401 1274 425 1205

[] 548 1225 530 1321 632 1304 532 1312 547 1281 567 1298

[] 897 1937 846 1630 833 1652 821 1740 863 1743 844 1606

[u] 345 811 365 619 397 701 370 652 379 649 403 698

[o] 509 979 455 790 546 891 450 817 466 800 483 830

[] 744 1216 709 1154 693 1084 719 1164 718 1113 751 1085

Nếu như trường độ formant của nguyên âm trong kết hợp CV phụ thuộc vào kết

hợp thanh điệu và có sự cách biệt tương đối lớn giữa các kết hợp thanh khác nhau thì

ngược lại sự kết thúc của phụ âm cuối [p, t, k, m, n, ŋ] khiến trường độ formant của

nguyên âm trong kết hợp VC rất ngắn và không có sự cách biệt quá lớn giữa các kết

hợp thanh điệu. So sánh kết quả thu được khi đo trường độ nguyên âm trong kết hợp

âm cuối [p, t, k] với trường độ nguyên âm trong ngữ cảnh độc lập có thể dễ dàng nhận

thấy trường độ các nguyên âm đều bị biến đổi. Sự biến đổi này khiến trường độ nguyên

âm có diễn tiến ngắn hơn rất nhiều, thường thì trường độ chỉ bằng khoảng 1/3 đến 1/2

so với trường độ nguyên âm trong ngữ cảnh độc lập - khi không có kết hợp với phụ âm

đằng trước và sau. Trường độ nguyên âm cũng thường được tăng lên một cách đáng kể

khi nguyên âm đó có một phụ âm hữu thanh đi sau, và trường độ của nguyên âm trở

thành một đầu mối thẩm nhận quan trọng đối với đối lập hữu thanh.

Âm tắc cuối [p, t, k, m, n, ŋ] có ảnh hưởng mạnh mẽ tới cấu trúc formant của

nguyên âm trong cấu trúc VC. Diễn tiến vùng chuyển tiếp giữa nguyên âm và phụ âm

rất mờ nhạt đối với nhóm phụ âm [p, t, k], khó xác định ranh giới khiến khu vực phụ

âm gần như bị hòa kết liền với nguyên âm. Cấu trúc và diễn tiến formant của nguyên

âm trong đoạn chuyển tiếp bị thay đổi, tại điểm kết thúc nguyên âm các sóng đi lên

hoặc đi xuống với chu kỳ đều đặn với biên độ giảm dần, và kết thúc đột ngột.

Khi đóng vai trò kết thúc âm tiết các âm tắc đứng sau nguyên âm chúng đã làm

biến đổi âm sắc của nguyên âm ở giai đoạn cuối. Sự chuyển dịch formant theo các

hướng khác nhau phụ thuộc vào kết hợp với các nhóm phụ âm ở những vị trí và

phương thức khác nhau, đây cũng là dấu hiệu quan trọng duy nhất có thể nhận diện ra

các âm cuối.

3.1.4. Cách điệu hóa đường F0 của âm tiết tiếng Việt

3.1.4.1. Tổng hợp thanh điệu tiếng Việt của âm tiết cô lập

Trong [10][11] các tác giả đã sử dụng phương pháp bình phương tối thiểu để cách điệu

hóa tuyến tính đường F0 của các thanh điệu tiếng Việt trong ngữ lưu. Các tác giả đã đi

đến kết luận là rất khó để cách điệu hóa tuyến tính đường F0 của một số thanh điệu

tiếng Việt như thanh nặng và thanh ngã.

Tuy nhiên chúng tôi vẫn tổng hợp được các thanh nặng (cho âm tiết không tận cùng

bằng p-t-c/ch) và thanh ngã từ các âm tiết mang thanh điệu – thanh ngang (thanh không

dấu). Với các âm tiết tiếng Việt tận cùng bằng p-t-c/ch thì thanh sắc được tổng hợp từ

cùng âm tiết gốc nhưng có thanh điệu nặng.

Hình 3. 2. Thanh không dấu (âm a)

Hình 3. 3. Thanh huyền được cách điệu từ từ một dãy các giá trị F0 đo được

204,208,201,200,196,196,192,192,189,185,182,179,179,170,170.

Hình 3. 4. Thanh sắc được cách điệu từ một dãy các giá trị F0 đo được

222,222,209,209,209,209,209,213,213,218,218,228,238,238,256,270,295,346.

Hình 3. 5. Thanh nặng được cách điệu từ các giá trị F0 đo được

213,217,222,213,213,208,185,185,80,80.

Hình 3. 6. Thanh hỏi được cách điệu từ một dãy giá trị F0 đo được

150,179,188,200,207,208,201,197,192,184,177,174,177,177,179,188,191,184,163,150

Để cách điệu hóa thanh điệu, chúng tôi không sử dụng phương pháp cách điệu hóa

tuyến tính như [10][11] mà sử dụng mô hình Xu [69] đã được sử dụng rộng rãi cho

tiếng Trung Quốc phổ thông –Mandarin.

Mô hình Xu để mô hình hóa đường tần số cơ bản F0 của các thanh điệu trong ngữ

cảnh (dùng cho các ngôn ngữ có thanh)., mô hình này đã áp dụng được cho tiếng

Mandarin.

, như vậy F0 được tạo ra từ sự kết hợp của 2 thành phần xấp xỉ:

 Thành phần xấp xỉ tuyến tính:

 Thành phần phân rã hàm mũ

của sai số xấp xỉ:

Việc tính các hệ số của mô hình Xu khi cho trước giá trị đường F0 cũng sử dụng

phương pháp bình phương tối thiểu, thay vì tìm các hệ số a,b,, ta xác định các hệ số

a,b, k (k=e-) bằng phép cực tiểu hóa như sau:

(3.1)

ở đó n là số frame của đoạn tiếng nói, là giá trị đường F0 của đoạn tiếng nói.

Phương pháp cách điệu hóa sử dụng mô hình của Xu được xây dựng như sau :

Bước 1 : Chọn âm tiết gốc có thanh điệu – thanh ngang, thanh nặng cho các âm tiết tận

cùng p-t-c/ch, xác định giá trị đường F0 của âm tiết.

Bước 2 : Biên tập giá trị đường F0 của thanh điệu cần tổng hợp. Sử dụng mô hình Xu

để khớp các tham số a,b,k (các thanh không dấu, huyền, sắc, nặng có một bộ tham số

a,b,k, các thanh hỏi và ngã có 2 bộ tham số a,b, k. Thanh sắc của âm tận cùng p-t-c/ch

cũng có một tham số a,b,k)

Bước 3 : Sử dụng thuật toán PSOLA tổng hợp âm tiết với thanh điệu xác định từ âm

tiết gốc (nếu âm tiết gốc không tận cùng là p-t-c/ch thì âm tiết gốc mang thanh điệu –

thanh ngang, trường hợp ngược lại thì âm tiết gốc mang thanh điệu là thanh nặng.)

Hình 3. 7. Biên tập đường F0 của dấu ngã và tổng hợp dấu ngã.

Các kết quả tổng hợp thanh điệu cho tất cả các loại âm tiết tiếng Việt như

 Chỉ có nguyên âm

 Không có phụ âm đầu

 Kết thúc là bán nguyên âm.

 Kết thúc là p-t-c/ch...

đã được thực hiện và kiểm tra với sự cộng tác của các nhà nghiên cứu ngữ âm học như

Vũ Kim Bảng, Vũ Thị Hải Hà, Viện ngôn ngữ, Viện Hàn lâm KHXH Việt Nam đều

đưa đến kết luận là âm nghe rõ, không bị hiện tượng rè, thanh điệu tổng hợp nghe rõ

ràng, giữ được đường nét đặc trưng thanh điệu tương ứng.

3.1.4.2. Tổng hợp thanh điệu tiếng Việt trong ngữ lưu

Trong [42] chúng tôi đã trình bày kết quả tổng hợp đường thanh điệu trong ngữ

lưu bằng mô hình Fujisaki theo hướng tiếp cận phân tích – tổng hợp.

Để phân tích đường nét F0, một công cụ phân tích các tham số của mô hình

Fujisaki được sử dụng, Fb được đặt bằng 96 Hz cho giọng nam và 210 Hz cho giọng

nữ. α và β cho cả giọng nam và nữ được lần lượt đặt bằng 2 Hz và 25 Hz.

Các bước tiến hành phân tích bao gồm:

 Tính đường nét F0.

 Lựa các chọn lệnh ngữ câu nói.

 Dựa vào thanh điệu của các âm tiết để lựa chọn các lệnh thanh điệu phù hợp.

 Điều chỉnh các tham số sao cho đường nét F0 sinh ra xấp xỉ tốt đường nét F0 thực.

 Tổng hợp lại câu nói với đường nét thanh điệu mới sử dụng phương pháp PSOLA.

 Cảm nhận bằng tai câu nói tổng hợp, so sánh với câu nói gốc và điều chỉnh lại.

Các kết quả phân tích cơ sở dữ liệu cho thấy, các thanh ngang, sắc, ngã được biểu

diễn bằng một lệnh thanh điệu dương, thanh huyền và hỏi được biểu diễn bằng một

lệnh thanh điệu âm, thanh nặng không cần lệnh thanh điệu.

Bảng 3. 6. Biểu diễn các 6 thanh điệu tiếng Việt bằng các lệnh thanh điệu

Thanh điệu Biểu diễn bằng lệnh thanh điệu

Ngang Một lệnh thanh điệu dương ở trước âm tiết

Sắc Mộtlệnh thanh điệu dương

Hỏi Một lệnh thanh điệu âm

Huyền Một lệnh thanh điệu âm

Ngã Một lệnh thanh điệu dương

Nặng Một dùng lệnh thanh điệu

Các câu được phân tích chỉ sử dụng một lệnh ngữ cho cả câu, phù hợp với hiện

tượng trong câu nói, người nói thường lên giọng ở đầu câu và hạ giọng ở cuối câu. Tuy

nhiên trong tiếng Việt hiện tượng này không rõ rệt như ở các ngôn ngữ khác nên cường

độ của lệnh ngữ này không lớn.

Hình 3. 8. Kết quả phân tích thanh điệu tiếng Việt bằng mô hình Fujisaki

Thanh ngã và thanh sắc được biểu diễn bằng môt lệnh ngữ điệu dương phù hợp

với nhận xét về sự giống nhau giữa 2 thanh này trong phần trước.

Thanh hỏi có đường nét F0 đi xuống, đến giữa thanh, đường nét F0 lại đi lên,

thanh này giống thanh T3 (low tone) của tiếng Trung và được biểu diễn bằng một lệnh

thanh điệu âm giống như trường hợp của tiếng Trung.

Bảng 3. 7. Giá trị trung bình và độ lệch chuẩn của các tham số Fujisaki cho các thanh điệu.

Thanh Aa T1rel T2rel

1 -.09 .218 .86

2 .61 .523 1.04

3 .53 .556 1.11

4 .45 -.341 .91

5 .37 -.132 1.07

6 - .00 -

6’ .42 -.378 .70

2’ .16 .617 .84

Quy định thời gian đơn giản được xây dựng bằng thực nghiệm. Các kết quả được

thể hiện trong Bảng 3.6 và 3.7. Thời gian được đo bằng 10 đơn vị mi li giây. Kết quả

thống kê cho thấy thời gian của âm phụ thuộc nhiều hơn nữa về thanh điệu hơn vị trí.

Âm với thanh điệu 3, 6 'và 2' ngắn hơn những âm khác. Kết quả cho thấy các đường

bao F0 được tạo ra bởi các mô hình Fujisaki nói chung làm việc tốt cho câu tiếng Việt.

Phân lớp thanh điệu trong ngữ cảnh câu

Trong [4] chúng tôi đã trình bày cách phân lớp thanh điệu trong ngữ lưu. Cách

tiếp cận này dùng phương pháp lượng tử hóa các dạng đường thanh điệu để quy về một

số lớp thanh điệu có đường nét đặc trưng cho mỗi lớp. Sau khi lượng tử hóa dùng cây

quyết định khảo sát sự chuyển lớp của các thanh điệu dựa trên thông tin văn bản. Từ đó

đưa ra những khảo sát hiện tượng biến thanh trong tiếng Việt nhằm cải tiến ngôn điệu

trong hệ tổng hợp tiếng Việt.

Với các âm tiết trong câu nói liên tục thì hình dáng các đường thanh điệu thay đổi

rất khác so với âm tiết rời rạc. Như vậy, số lượng các dạng đường thanh điệu trong câu

liên tục tăng lên rất nhiều lần so với âm tiết rời rạc. Để phân cụm các đường thanh điệu

về một số lớp, dùng phương pháp lượng tử hóa tập các đường thanh điệu mẫu quy về

một số lớp hữu hạn. Số lớp này lớn hơn số các đường thanh điệu tiếng Việt 6 thanh.

Trong luận án chỉ xét sự biến thiên đường thanh điệu trong 3 âm tiết liên tục.

Codebook

Phân cụm LBG

Tập các véc tơ F0 huấn luyện

CSDL âm và gán nhãn văn bản

Véc tơ F0 âm tiết vào

Chỉ số codebook

CSDL âm tiết biến thanh

Bộ lượng tử hóa (lớp thanh điệu)

Hình 3. 9. Sơ đồ khối chung của quá trình huấn luyện và phân lớp các đường thanh điệu sử dụng 3.2. Dự báo thông tin trường độ, âm lượng của âm tiết tiếng Việt trong ngữ

cảnh câu

Vấn đề dự đoán đường F0 của các âm tiết tiếng Việt trong ngữ cảnh câu có thể

dùng mô hình phân tích-tổng hợp Fujisaki[2][22][42][43][44]. Trong [22][42][43][44]

các tác giả cũng đã đưa ra mô hình dự báo trường độ âm tiết tiếng Việt dựa trên mô

hình CART, các đặc trưng đưa vào mô hình dự báo CART chưa khai thác được hết ngữ

cảnh của âm tiết tiếng Việt trong câu và không xét đến giá trị âm lượng của âm tiết

trong câu. Ngoài ra để sử dụng được hiệu quả mô hình CART chúng ta còn phải xem

xét đến các yếu tố thống kê của cơ sở dữ liệu âm huấn luyện tham số mô hình. Ngoài

phương pháp học ngôn điệu dựa trên ToBI [57] như hệ thống VTED của Trung tâm

MICA [41][66][67] được phát triển dựa tên mã nguồn mở Mary TTS, các tác giả của

Viện Ứng dụng Công nghệ, Đại học Quốc gia TP HCM cũng đã giới thiệu một hệ

thống tổng hợp tiếng Việt [78] với giọng đọc gần tiếng nói tự nhiên dựa trên tiếp cận

kiểu kho ngữ liệu (corpus-based), tất nhiên mô hình này đòi hỏi rất nhiều dữ liệu được

gán nhãn (dựa trên công nghệ phân đoạn tự động câu tiếng nói thành các đơn vị tiếng

nói kết hợp với điều chỉnh tay).

Các kết quả nghiên cứu của phần này [CT1] trình bày việc dự báo cả trường độ và

âm lượng của các âm tiết tổng hợp trong ngữ cảnh câu sử dụng cùng một mô hình

CART, khác biệt với các tác giả trong [22][42][43][44] chỉ sử dụng trực tiếp tham số

trường độ của âm tiết trong cơ sở dữ liệu câu huấn luyện để dự báo, chúng tôi sử dụng

tham số Z-score (phụ thuộc thống kê vào ngữ cảnh của âm tiết trong câu) làm giá trị dự

báo, qua đó đã tăng được độ chính xác dự báo trường độ âm tiết cũng như đưa ra các

giá trị dự báo âm lượng là một tham số ngôn điệu quan trọng không được xem xét

trong [22][42][43][44].

Nhận xét : Tiếng nói huấn luyện, phát âm tự nhiên thu nhận trong môi trường thực

thường xuất hiện nhiễu cộng, : , trong đó là tín hiệu gốc hoặc đặc trưng

thu được từ tín hiệu gốc, là tín hiệu “sạch”, là thành phần nhiễu ngẫu nhiên

với phân bố xác suất nào đó. Khi đó nếu dùng phép chuẩn hóa z-score với tín

hiệu (hoặc đặc trưng) sn ta sẽ có thể giảm được ảnh hưởng của thành phần nhiễu en, và

do đó chỉ số tương quan của mô hình dự báo CART sẽ tăng lên, chất lượng dự báo có

thể tốt hơn.

3.2.1. Cơ sở dữ liệu tiếng nói huấn luyện mô hình dự báo

Cơ sở dữ liệu hơn 1250 câu tiếng nói đọc bởi phát thanh viên chuyên nghiệp,

giọng Hà Nội, đã được sử dụng trong phần thực nghiệm này. Tập câu được ghi âm với

tần số lấy mẫu là Fs=22050Hz, đơn kênh, độ phân giải một mẫu là 16bit.

Để tăng độ chính xác của giá trị ngôn điệu được dự báo như trường độ và âm

lượng của âm tiết trong câu tổng hợp, chúng tôi đã tiến hành phân tích các tham số

thống kê chi tiết của các giá trị này trong các ngữ cảnh âm vị khác nhau của cơ sở dữ

liệu câu huấn luyện như được tóm tắt ở các bảng dưới đây:

Bảng 3. 8. Bảng độ dài âm vị không tính ngữ cảnh

Tên âm vị Tần suất Độ dài min

(s) Độ dài max (s) Trung bình Độ lệch chuẩn

a 2280 0.021855 0.646632 0.119814 0.066424

iz 1948 0.016414 0.390000 0.078273 0.043617

m 710 0.025538 0.245256 0.085783 0.033361

aw 828 0.024235 0.242580 0.077581 0.029928

mz 487 0.026109 0.295968 0.117891 0.046261

k 1315 0.015311 0.320000 0.041839 0.017588

th 599 0.022596 0.162560 0.066307 0.023378

ch 687 0.020341 0.300000 0.061498 0.022193

cz 619 0.011557 0.127612 0.044278 0.021161

s 332 0.024672 0.210381 0.104234 0.043465

uz 673 0.019240 0.481884 0.097447 0.045938

kh 291 0.018458 0.215535 0.093406 0.029868

Bảng 3. 9. Độ dài nguyên âm a ràng buộc bởi phụ âm đầu, âm cuối

Âm đầu

Độ lệch chuẩn Độ dài max Trung bình

Nguyên âm a ch,th,ph Âm cuối null Tần suất 53 Độ dài min (s) 0.067591 0.354356 0.167803 0.061436

m,n,n,ng ban 67 0.034432 0.162890 0.082867 0.032960

nguyen

Bảng 3. 10. Bảng độ dài âm cuối ràng buộc bởi nguyên âm

Âm cuối Nguyên Tần suất Độ dài min Độ dài max Trung bình Độ lệch chuẩn âm

0.017871 0.103455 0.048423 0.022201 cz aw 37

0.019492 0.064362 0.033094 0.012113 cz i 11

0.027146 0.200000 0.086638 0.049505 iz uo 31

uwow 173 0.018976 0.169185 0.063940 0.034708 iz

0.049768 0.295968 0.137286 0.051088 mz aa 48

0.074060 0.256748 0.130268 0.045005 mz ow 16

0.026369 0.069933 0.042885 0.015182 pz a 9

0.018157 0.112483 0.055905 0.028921 pz aw 15

0.019623 0.090000 0.041001 0.016166 tz a 48

0.016356 0.134143 0.044069 0.023076 tz aw 74

142 0.023469 0.481884 0.110776 0.058130 uz aw

0.027209 0.187259 0.073656 0.032710 uz e 38

0.049287 0.118485 0.076594 0.023276 uz uw 8

Bảng 3. 11. Bảng độ dài phụ âm đầu ràng buộc bởi nguyên âm

Tần suất Độ dài

min Độ dài max Trung bình Độ lệch chuẩn

Phụ âm đầu B Nguyên âm aw 0.025391 0.207781 0.076246 0.030834 54

B ee 28 0.036980 0.120000 0.074974 0.019760

Ch a 20 0.034816 0.102819 0.063057 0.015888

Ch u 67 0.024178 0.300000 0.059879 0.034934

H i 21 0.036870 0.090697 0.060960 0.015621

H u 11 0.040000 0.157039 0.078191 0.034558

K e 22 0.022826 0.170296 0.043214 0.030460

K ee 42 0.020343 0.062757 0.039003 0.011922

K u 115 0.015311 0.078733 0.038037 0.012070

Kh a 42 0.052388 0.167643 0.100004 0.025507

0.051503 0.210360 0.110791 0.046332 ie 12 Kh

0.029959 0.165244 0.074203 0.026375 a 369 L

0.052390 0.124459 0.087344 0.020237 oa 23 L

0.042708 0.190000 0.094174 0.039680 oo 20 L

158 0.033945 0.206957 0.078506 0.029608 a M

0.028441 0.166226 0.095594 0.034975 aa 45 M

uwow 0.025538 0.145181 0.071455 0.027013 28 M

0.023593 0.138148 0.066544 0.023755 a 61 Ph

uwow 0.049614 0.153171 0.090524 0.021938 33 Ph

0.028638 0.186613 0.110303 0.036228 a 63 S

0.026092 0.183017 0.077653 0.050040 aa 13 S

0.018038 0.114752 0.036266 0.022071 ow 25 T

0.012559 0.060969 0.028529 0.011556 u 33 T

0.023631 0.100928 0.056069 0.017729 aa 74 Th

0.028795 0.121672 0.077662 0.026268 ie 22 Th

0.020957 0.162675 0.061447 0.029520 a 151 v

Bảng 3. 12. Bảng độ dài thanh điệu theo âm tiết ràng buộc bởi âm kết thúc

15 uwow 0.035674 0.083957 0.062528 0.011667 v

Thanh

Kiểu độ

Tần suất Độ

dài Độ dài Trung Độ lệch

điệu

mở

Ngang

539

0.095832

0.409285

0.233950

0.065693

min max bình chuẩn

Ngang

718

0.104016

0.425166

0.250506

0.062368

Ngang

930

0.087782

0.424303

0.257046

0.054150

Huyền

478

0.090000

0.490641

0.243269

0.072267

Huyền

432

0.079817

0.440250

0.268337

0.065758

Huyền

512

0.150958

0.508805

0.287025

0.055312

Ngã

255

0.082078

0.458208

0.225331

0.063913

Ngã

165

0.164246

0.399609

0.283121

0.056232

Ngã

175

0.138407

0.425979

0.274183

0.058701

Hỏi

349

0.106625

0.434753

0.232052

0.062771

Hỏi

144

0.122561

0.382684

0.246176

0.057002

Hỏi

0.139825

0.421826

0.285726

0.050421

Sắc

386

0.087871

0.469087

0.238851

0.082523

Sắc

463

0.080354

0.420982

0.242419

0.074040

Sắc

621

0.128049

0.367782

0.233286

0.045816

Sắc

555

0.124193

0.600000

0.271451

0.065214

Nặng

202

0.114257

0.396569

0.238240

0.057296

Nặng

174

0.126543

0.404441

0.237114

0.044734

Nặng

342

0.104686

0.359259

0.226113

0.046995

Nặng

188

0.123311

0.410058

0.266878

0.053341

Trong đó Quy ước giá trị độ mở của âm tiết như sau:

0: Âm tiết không có âm cuối (chẳng hạn các nguyên âm)

1: Phụ âm cuối là bán nguyên âm

2: Âm tiết kết thúc là p-t-c

3: Âm tiết kế thúc là m-n-nh-ng

3.2.2. Dự báo ngôn điệu

Trong kỹ thuật tổng hợp tiếng Việt, chất lượng tổng hợp tập trung chính vào

trường độ và cao độ của âm vị, đó là hai tham số chính truyền đạt thông tin ngữ âm.

Bộ phân tích ngôn điệu của hệ thống TTS tập trung vào việc tính toán giá trị của

tập các biến ngữ âm. Trong một dạng tối thiểu, các biến này là trường độ âm vị và F0.

Việc tính toán các giá trị như vậy có thể dựa vào các quy luật hoặc dựa vào các phương

pháp học máy, như mô hình CART. Kết quả trên việc sử dụng CART được huấn luyện

với các phong cách đọc khác nhau đã được nghiên cứu trong nhiều hệ thống TTS tiếng

nước ngoài cũng như cho tiếng Việt, điểm mới ở đây là chúng tôi vận dụng mô hình dự

báo CART để dự báo cả trường độ và âm lượng của các đơn vị tiếng Việt như âm vị,

âm tiết và sử dụng giá trị gián tiếp Z-score được tính dựa trên các tham số thống kê của

đơn vị âm trong ngữ cảnh câu, thay thế cho các giá trị trường độ gốc của đơn vị âm.

Hai hệ số đo sai số là dự báo hệ số tương quan và trung bình độ lệch bình phương cho

(3.2)

(3.3)

mô hình CART được cho như sau:

Ở đây M là kích thước dữ liệu của tập huấn luyện hoặc kiểm tra, , là

trường độ và trung bình thực tế, , là trường độ và trung bình dự đoán của

mô hình.

3.2.3. Thiết kế bộ phân tích ngôn điệu và xác định tham số huấn luyện dự

báo trường độ và âm lượng

3.2.3.1. Cơ sở dữ liệu ngữ âm.

Khoảng hơn 1250 câu tiếng Việt giọng Nữ, đọc tự nhiên của phát thanh viên

chuyên nghiệp của đài tiếng nói Việt Nam (VOV). Các câu được lấy từ các nguồn như

tập truyện “Dế mèn phiêu lưu ký” hoặc được đặt câu để tạo sự xuất hiện đầy đủ các

kiểu âm tiết và thanh điệu tiếng Việt nên có độ phong phú về các hiện tượng ngữ âm

học tiếng Việt, như các câu sau (xem Phụ lục):

“Chũi đã thấy có dế cụt càng như thế“

“Tôi gạt phắt đi và mắng chũi“

“Sau cùng anh em tôi ôm nhau mà khóc“

“Chũi ngửa mặt lên trời gần như ngất đi“

“Họ dế chúng tôi chỉ có khi sắp chết thì mới phải chịu nằm ngửa“

“Bây giờ thấy chũi thế tôi đã lo lo“

“Tôi sờ lên mặt chũi xem còn thở không rồi lay gọi“

“Mãi chũi mới ú ớ tỉnh“

Cơ sở dữ liệu ngữ âm (kho ngữ liệu, corpus) được tổ chức dựa trên các đối tượng

“Praat Object” [85], có sự hỗ trợ tổ chức dữ liệu của phòng Ngữ âm học, Viện ngôn

thể, mỗi thực thể gọi là “Praat Object” gồm một file tiếng nói (thường lưu ở định dạng

ngữ, Viện HLKHXHVN. Corpus dữ liệu sử dụng định dạng TextGrid, gồm một tập thực

.WAV), một file gán nhãn TextGrid gồm nhiều mức gán nhãn: mức âm vị/mức âm

tiết/mức ngữ đoạn (chi tiết tùy theo nhu cầu, TextGrid hỗ trợ đầy đủ). Công đoạn lâu

nhất để tổ chức một corpus ngữ âm là gán nhãn. Từ thành phần đối tượng cơ bản,

người phân tích ngữ âm sử dụng Praat sẽ trích chọn ra được và lưu các thông số âm

học của từng phát âm tiếng nói như tần số cơ bản, các formant, trường độ một tổ hợp

dăy âm vị bất kỳ v.v…

Các câu đều được ghi ở định dạng âm thanh với tần số lấy mẫu 11025Hz, loại

mono, 16 bit.

Tất cả các câu của cơ sở dữ liệu đều được phân cắt tự động bởi một bộ nhận dạng

tiếng nói liên tục (dựa trên bộ mã nguồn mở HTK được sửa đổi cho tiếng Việt) và được

phiên âm lại bằng việc sử dụng một thủ tục điều chỉnh lại bằng tay. Ngữ điệu và tín

hiệu cường độ được ghi theo định dạng của phần mềm Praat [85].

Hình 3.10: Câu “Bây giờ đến lúc nó đánh dúm khoeo lại chân run lẩy bẩy không

đứng được lại phải nằm bóp bụng xuống” đã được gán nhãn mức âm tiết – âm vị.

Một số các đặc trưng đưa vào nghiên cứu là: kiểu phát âm (tường thuật, nghi

vấn…), một phần của đoạn văn gồm các từ, vị trí tương đối của bộ phận trong câu,

trong từ và trong âm tiết, trọng âm, mức độ ngừng sau một đơn vị.

3.2.3.2. Tham số đọc mô hình

Thay vì dự báo trực tiếp trường độ của âm tiết như trong [22][42][43][44], chúng

tôi sử dụng các tham số thống kê ngữ cảnh của âm vị hoặc âm tiết như trong các bảng

3.8, 3.9, 3.10, 3.11

Ta có công thức tính ZDs,C (đơn vị giây) từ giá trị trường độ của âm tiết s và các giá

trị trung bình và độ lệch chuẩn trong cùng ngữ cảnh của âm tiết như sau:

Ds,C= µs,C + ZDs,C*σs,C (3) , C là ngữ cảnh ràng buộc cho âm tiết, Ds,C là trường độ

(3.4)

của âm tiết s trong ngữ cảnh C.

P(s) là tập âm đầu, âm đệm, nguyên âm chính và âm cuối tạo nên âm tiết tiếng

Việt. (Xem các bảng số liệu 3.8, 3.9, 3.10, 3.11 thống kê trường độ của các âm vị trong

ngữ cảnh). Tương tự ta xác định được ZIi,C (đơn vị decibel)

Tham số đầu vào cho mô hình dự báo trường độ và âm lượng được cho bởi bảng sau:

Bảng 3. 13. Bảng tham số đầu vào cho mô hình CART

STT Đặc trưng

1 Âm tiết hiện tại{lớp âm đầu, độ mở của âm cuối, lớp nguyên âm, thanh điệu}

2 Âm tiết trái{lớp âm đầu, độ mở của âm cuối, lớp nguyên âm, thanh điệu}

3 Âm tiết phải{lớp âm đầu, độ mở của âm cuối, lớp nguyên âm, thanh điệu}

4 Vị trí của âm tiết trong ngữ đoạn

5 Số âm tiết của ngữ đoạn

6 Tham số ZD (hoặc ZI) theo ngữ cảnh

Thử nghiệm và kết luận

Tham số dự báo cho mô hình CART được tổ chức như sau (cho phần mềm Wagon):

((segment_duration float)

(cur b dd t th tr ch k m n nh p ng ph v x d gi l s r kh g h w i ee e ea u oo o oa ooo uw

ow aa a aw

ie uo uwow pz tz mz nz cz ngz uz iz tth sp )

(pre b dd t th tr ch k m n nh p ng ph v x d gi l s r kh g h w i ee e ea u oo o oa ooo uw

ow aa a aw

ie uo uwow pz tz mz nz cz ngz uz iz tth sp )

(next b dd t th tr ch k m n nh p ng ph v x d gi l s r kh g h w i ee e ea u oo o oa ooo uw

ow aa a aw ie uo uwow pz tz mz nz cz ngz uz iz tth sp )

(pos_in_syll 1 2 3 4 )

(open_degree 0 1 2 3 )

(tone 0 1 2 3 4 5 6)

(posInSen float)

(coutPhoneme 1 2 3 4)

(countSyl float)

(prev_degree 0 1 2 3 ))

Với cách tổ chức file này, văn bản các câu ứng với file tiếng nói trong cơ sở dữ liệu

ngữ âm sẽ có tương ứng một file, chẳng hạn:

-3.43985009 b 1 1 1 1 22

-2.29526353 aa 3 1 1 1 22

-3.21826863 iz 4 1 1 1 22

-2.94443893 d 1 0 2 2 22

-1.19259024 ow 3 0 2 2 22

-3.22306252 dd 1 3 5 3 22

-2.83734822 ee 3 3 5 3 22

-2.90831614 nz 4 3 5 3 22

-2.82609940 l 1 2 5 4 22

-2.63905191 u 3 2 5 4 22

-2.38047171 cz 4 2 5 4 22

-2.38913465 n 1 0 5 5 22

-2.63542557 o 3 0 5 5 22

-2.63396859 dd 1 3 5 6 22

-2.67343855 ea 3 3 5 6 22

3 5 6 22 -1.61096990 ngz 4

-2.72612977 d 1 3 5 7 22

-2.29172039 u 3 3 5 7 22

4 3 5 7 22 -1.95385146 mz

-1.82820714 kh 1 1 1 8 22

-3.50628257 w 2 1 1 8 22

-1.81813335 e 3 1 1 8 22

-3.25334144 uz 4 1 1 8 22

-2.53799701 l 1 1 6 9 22

-1.87034333 a 3 1 6 9 22

-3.26200199 iz 4 1 6 9 22

-3.12501812 ch 1 3 1 10 22

-2.70229602 aa 3 3 1 10 22

-1.72184253 nz 4 3 1 10 22

-2.56400847 u 3 3 1 11 22

-2.40212226 nz 4 3 1 11 22

-2.06528497 u 3 3 1 11 22

Câu “Bây giờ đến lúc nó đánh dúm khoeo lại chân run lẩy bẩy không đứng được lại

phải nằm bóp bụng xuống”

Sau khi huấn luyện mô hình dự báo CART các tham số đánh giá độ chính xác dự báo

trường độ của âm tiết của các câu không năm trong cơ sở dữ liệu âm huấn luyện đạt

được với R=0.87 và RMSE=0.044(s). Các ước lượng này là tốt hơn xét trên độ lớn của

tập câu huấn luyện và dự báo và so sánh với các kết quả của các tác giả khác, ở đó độ

chính xác dự báo là R=0.5794 và RMSE=0.0531(s). Ngoài ra việc dự báo giá trị âm

lượng đã đạt được kết quả tốt, âm lượng của các âm tiết ở giữa và các âm tiết là từ

dừng như “rằng”, “thì”, “là”, “và”, “mà” v.v… là hoàn toàn phù hợp trong câu

được tổng hợp.

Chúng tôi đã ứng dụng mô hình dự báo ngôn điệu tiếng Việt ở mức câu vào bộ

tổng hợp tiếng Việt Vnvoice (một sản phẩm thương mại được viết chính bởi tác giả

luận án). Vnvoice đã có đầy đủ các mô đun chuẩn hóa văn bản tiếng Việt [3] [30] cho

hệ thống TTS, ngoài ra Vnvoice còn có tính năng phân biệt từ tiếng Anh trộn lẫn trong

văn bản tiếng Việt, phát âm tự động các âm tiết trong câu văn bản, chèn khoảng lặng

thích hợp vào các âm tiết tận cùng hoặc bắt đầu là p-t-c/ch, âm tiết mang dấu nặng [3],

thay đổi tốc độ đọc (nhanh và chậm) v.v… Đầu ra tín hiệu âm thanh của Vnvoice được

biến đổi về trường độ/âm lượng sử dụng mô đun dự báo tích hợp bên trong.

Hình 3.11. Câu “Lũ trẻ bắt được cà ra đem bán lấy tiền mua sách.” trong CSDL

ngữ âm.

Hình 3.12 : Hệ phát âm tài liệu Microsoft Word sử dụng nhân của Vnvoice.

Thử nghiệm cho thấy chất lượng âm tổng hợp đã cải thiện được độ tự nhiên khi

được điều khiển trường độ và âm lượng ở mức độ âm tiết của câu tổng hợp.

“Tôi đang học nói tiếng Việt”

Câu tổng hợp từ Vnvoice chưa thay đổi trường độ/âm lượng

100

“Tôi đang học nói tiếng Việt”

Thay đổi trường độ/âm lượng của câu tổng hợp

Hình 3. 13. Thay đổi trường độ/âm lượng của đầu ra của Vnvoice

3.2.3.3. Đánh giá kết quả

Để đánh giá độ tự nhiên tiếng nói tổng hợp sau khi ghép phần dự báo trường độ

và âm lượng, chúng tôi sử dụng độ đo MOS (Mean Opinion Score)

Người nghe đánh giá chất lượng tiếng nói của mô đun tổng hợp Vnvoice trước

và sau khi ghép mô đun dự báo trường độ và âm lượng khác nhau trên cùng tập câu

mẫu. Thang điểm đánh giá trong bảng dưới đây:

Bảng 3.13: Thang điểm độ đo MOS.

Chất lượng tiếng nói tổng hợp Điểm

Xuất sắc 4.1 – 5

Tốt 3.1 – 4

Bình thường 2.1 – 3

Kém 1.1 – 2

Tồi 0 – 1

Phương pháp này đo sự ảnh hưởng của ngôn ngữ và yếu tố tâm lý. Văn bản

kiểm tra được phân thành một số chủ đề khác nhau như: chính trị, kinh tế, thể thao,

khoa học, … Văn bản mẫu này cho người nghe đánh giá toàn bộ chất lượng tiếng nói

tổng hợp ở theo các phương pháp tổng hợp khác nhau và cho điểm. Điểm trung bình là

điểm cuối cùng để đánh giá.

Chúng tôi chọn 10 cán bộ nghiên cứu của Viện ngôn ngữ trong đó có 4 chuyên

gia về ngữ âm học để đánh giá.

101

Bảng 3.14: Kết quả đánh giá tính tự nhiên các hệ thống tổng hợp tiếng Việt.

Mô đun tổng hợp Vnvoice Vnvoice có ghép dự

báo

MOS Av Av

3.6 0.6 3.8 0.4

Trong đó Av là điểm trung bình đánh giá, là độ lệch chuẩn.

Theo độ đo MOS, các kết quả thu được tương ứng chất lượng tiếng nói như sau:

Điểm MOS Chất lượng

(4.0 - 4.5) Tự nhiên, giọng người nói.

Dễ hiểu, phù hợp với các ứng dụng thông báo, (3.5 ,4.0) truyền thông.

(2.5 ,3.5) Giọng nhân tạo, không tự nhiên.

Hệ tổng hợp VnVoice cải tiến (3.8 điểm) tốt hơn so với VnVoice khi chưa ghép mô

đun dự báo âm lượng và trường độ (3.6 điểm). Tuy nhiên, VnVoice đã cải tiến vẫn cần

hoàn thiện hơn nữa bằng cách thử nghiệm các mô hình thanh điệu và mô hình trường

độ khác nhau.

3.2.4. Tổng hợp tiếng Việt trên hệ thống tài nguyên hạn chế

Khi mà xử lý tiếng nói trên máy tính đã đạt được những thành tựu rất khả quan,

người ta đã nghĩ đến việc nghiên cứu xây dựng hệ xử lý tiếng nói trên các hệ thống có

tài nguyên hạn chế để đáp ứng những mục đích về giao tiếp tiếng nói trên các hệ thống

này. Do đặc thù của hệ thống tài nguyên hạn chế, các hệ tổng hợp chạy trên các hệ

thống này cũng cần sử dụng lượng bộ nhớ và chí phí tính toán đủ nhỏ. Các nhà nghiên

cứu trên thế giới đã đạt được những thành công ngay cả trên những hệ thống có tài

nguyên rất khiêm tốn như các loại chip với khả năng lưu trữ và tính toán rất thấp.

102

Việc tích hợp hệ thống tổng hợp tiếng nói vào các hệ thống tài nguyên hạn chế

gặp phải vấn đề về bộ nhớ và các yêu cầu tính toán, trong [14] các tác giả đã sử dụng

mã hóa A-law để nén CSDL đơn vị tiếng nói và họ đã chỉ ra rằng 80% thời gian tính

toán nằm ở khâu chuẩn hóa văn bản và chuyển văn bản về âm vị. Họ đã sử dụng tính

toán chấm tĩnh cho mạng nõ ron dùng để chuyển đổi vãn bản sang âm vị. Toàn bộ dung

lượng bộ nhớ được dùng xấp xỉ 1MB. Sơ đồ hệ thống này được thể hiện trong hình 3.

Trong [55] các tác giả đã thiết kế hệ thống tổng hợp tiếng nói theo phương pháp

ghép nối sử dụng thuật toán cơ bản TD-PSOLA trên chip DSP với DAC 16bit, tần số

tối đa 4 MHz. Hệ thống gồm các mô đun liên kết với host, giải nén CSDL đơn vị âm

tiếng nói và xử lý chấm tĩnh cho cài đặt thuật toán TD-PSOLA. Với tính năng không

có bộ chuẩn hóa văn bản và với nhân DSP như vậy hệ thống có thể chạy tại mức

1.28MHz, tiêu thụ điện rất thấp.

Hình 3. 12. Kiến trúc hệ thống TTS được đơn giản .

103

Trong [21] các tác giả đã đưa ra kiến trúc TTS nhúng (hình 3.12) theo phương

pháp tổng hợp ghép nối cho chip ARM với đầy đủ các mô đun phân tích ngôn ngữ văn

bản đầu vào, chuyển đổi văn bản sang âm vị, điều khiển ngôn điệu.

Để xây dựng được hệ tổng hợp tiếng nói trên hệ thống có tài nguyên hạn chế thì

hệ này cần đảm bảo các yêu cầu sau:

 Kích thước lưu trữ nhỏ.

 Tính toán đơn giản, không sử dụng các thao tác phức tạp.

 Chất lượng giọng tổng hợp vẫn đảm bảo nghe được.

Trong [CT4] chúng tôi đã thiết kế và xây dựng một hệ thống tổng hợp tiếng Việt

nhúng sử dụng phép mã hóa ADPCM (để nén dữ liệu tiếng nói). Sử dụng các âm (phụ

âm, vần không thanh và có thanh điệu) có khả năng phát đoạn tiếng nói được quy định

trước, lưu sẵn trong bộ nhớ Flash (256KB) dưới dạng ADPCM, ra loa trên mạch PSoC

050 (hình 10) của hãng Cypress [83]. Yêu cầu cần một DAC cấu hình trên sơ đồ khối

(3.15) và một loa cấu hình vào chân tín hiệu trên mạch PSoC 050.

3.3. Kết luận chương 3

Chương này mô tả các kết quả nghiên cứu và thử nghiệm tích hợp các giá trị ngôn

điệu tiếng Việt được dự báo như trường độ và âm lượng cho câu tiếng nói tổng hợp sử

dụng mô hình học thống kê CART của nghiên cứu sinh.

Các kết quả của luận án về Tổng hợp tiếng Việt thể hiện ở 2 công bố như sau:

 Dự báo các giá trị ngôn điệu tiếng Việt cho tiếng nói tổng hợp, Tạp chí Công nghệ

Thông tin và Truyền thông, Tập V-1 số 6(26), 09-2011, trang 236-241 [CT2]

 Tối ưu lưu trữ và tính toán tín hiệu tiếng nói cho hệ tổng hợp Tiếng Việt dựa trên

ghép nối, hội thảo quốc gia lần thứ VII "Nghiên cứu cơ bản và ứng dụng Công

nghệ thông tin", FAIR 2014 [CT5]

Ngoài ra luận án cũng trình bày các kết quả đã được tác giả luận án công bố trong thời

gian trước khi làm nghiên cứu sinh, bao gồm:

104

 Toward integrating the Fujisaki model into Vietnamese TTS , Proceeding of the

International Conference on Spoken Language Processing [42]

 Quantitative Analysis and Synthesis of Syllabic Tones in Vietnamese,Proc. in

EUROSPEECH, tr 177-180.

 Phân lớp các đường thanh điệu trong ngữ cảnh câu (2006), Kỷ yếu Hội thảo Quốc

gia, NXB KHKT, tr 279-284 [2]

Các kết quả trình bày chứng tỏ việc đưa giá trị ngôn điệu được dự báo từ văn bản

vào trong bộ tổng hợp tiếng Việt được thống kê chi tiết cho cơ sở dữ liệu âm huấn

luyện mô hình kết hợp các ngữ cảnh mức âm vị khác nhau đã cải tiến được chất lượng

dự báo các tham số ngôn điệu như trường độ và âm lượng, dẫn đến thay đổi đáng kể

chất lượng câu tiếng nói được tổng hợp.

105

CHƯƠNG 4. KẾT HỢP THAM SỐ CẤU ÂM, FORMANT VÀ THANH ĐIỆU ĐỂ NÂNG CAO CHẤT LƯỢNG

NHẬN DẠNG TIẾNG VIỆT

Giới thiệu

Trong [17] các tác giả đã đưa ra một mô hình sử dụng ngôn điệu để nâng cao chất

lượng nhận dạng tiếng nói trong đó mô hình cho từ và âm vị là hai mô hình cho từ và

nhận dạng được xây dựng trên ngữ điệu của một ngữ đoạn tiếng nói và trọng âm. Các

phân tích lý thuyết và thực nghiệm đã chứng tỏ rằng: thông tin âm học kết hợp với ngữ

điệu và mô hình ngôn ngữ đã tăng thông tin cho việc đưa ra giả thuyết từ đúng để

quyết định từ đúng. Bộ nhận dạng tiếng nói có tích hợp của các tác giả đã rút gọn được

11% lỗi so với bộ nhận dạng không có kết hợp ngôn điệu. Ngoài ra các tác đã phân tích

ảnh hưởng của ngôn điệu đối với các hệ số MFCC.

Các tác giả đã kết hợp thông tin tần số cơ bản để xây dựng bộ lọc thay thế phép

lọc truyền thống – tam giác trong quá trình tính toán các hệ số MFCC, với bộ lọc này

các tác giả đã chứng tỏ hệ số MFCC được biến đổi đã tăng khả năng phân biệt và giảm

ảnh hưởng nhiễu của bộ nhận dạng tiếng nói.

Trong [62] các tác giả đã kết hợp giá trị của tần số cơ bản vào đặc trưng MFCC

bình đẳng như các thành phần khác của vector hệ số MFCC. Với một thử nghiệm có

giới hạn cho một bộ nhận dạng tiếng nói liên tục các tác giả đã chỉ ra khả năng tăng độ

chính xác nhận dạng khi kết hợp đặc trưng thanh điệu tiếng Việt vào bộ nhận dạng.

Trong chương này của luận án chúng tôi trình bày các kết quả nghiên cứu của

chúng tôi trong vấn đề kết hợp đặc trưng thanh điệu và đặc trưng cấu âm của người nói

để tăng độ chính xác của bộ nhận dạng tiếng nói rời rạc hoặc liên tục.

4.1. Nhận dạng thanh điệu tiếng Việt

Cũng như tiếng Trung, Thái, tiếng Việt là ngôn ngữ có thanh điệu và nhận dạng

thanh điệu cũng là một trong bài toán chưa giải quyết được triệt để. Tiếng Việt có sáu

thanh và được phân thành tám hiện tượng thanh điệu. Do đặc điểm của từng ứng dụng,

106

ta có thể chia thành hai bài toán: nhận dạng thanh điệu tiếng nói rời rạc và nhận dạng

thanh điệu tiếng nói liên tục.

Nhận dạng thanh điệu là vấn đề phức tạp ngay cả với các hạn chế là tiếng nói

được đọc rời từng âm tiết và cho một người nói xác định. Để đặc trưng hóa các thanh

điệu tiếng Việt, ngoài tần số cơ bản F0 thì cần có thêm một số tham số khác như trường

độ, năng lượng. Trong ngữ lưu tiếng nói có sự biến thanh mà để lượng hóa nó chúng ta

cần phải dùng đến các mô hình lượng hóa phức tạp như mô hình Fujisaki

[22][42][43][44][69]. Trong dạng rời rạc, đường nét thanh điệu mới tương đối ổn định,

nhưng cũng không dễ dàng khu biệt được chúng, chẳng hạn có giọng nói thanh huyền

có đường nét rất giống với thanh hỏi.

Trong [61], các tác giả đã sử dụng nhiều phương pháp khác nhau để xấp xỉ đường

F0 bằng phương pháp bình phương tối thiểu sau đó sử dụng mô hình học máy HMM,

GMM, để huấn luyện và nhận dạng thanh điệu của âm tiết đọc trong câu. Thực nghiệm

của các tác giả đã cho kết quả tốt nhất với mô hình GMM và đặc trưng F0 được xác

định trên bốn phân đoạn của âm tiết, trong đó giá trị đườn F0 được xác định bởi độ dốc

và giá trị trung bình.

Hình 4. 1. Cách tuyến tính hóa đường F0 từng phân đoạn

107

Trong [53] các tác giả đã chuẩn hóa đã đưa ra nhiều phép chuẩn hóa giá trị F0

khác nhau để nhận dạng 6 hiện tượng thanh điệu (8 hiện tượng thanh điệu trong thực

tế của các tác giả). Kết quả nghiên cứu của các tác giả đã đến kết luận giá trị đường F0

được chuyển sang miền logarit và chuẩn hóa về trung bình và độ lệch với kết quả tốt

T1…T8

Phân lớp Nơ ron

Chuẩn hóa

Tính đặc trưng thanh điệu

Trích chọn F0

Sóng âm tiết

nhất là 70,44% trong các thử nghiệm.

(4.1)

(4.2)

(4.3)

Hình 4. 2. Sơ đồ nhận dạng thanh điệu tiếng Việt trên tiếng nói rời rạc

Để tăng độ chính xác của kết quả nhận dạng thông qua mạng nơ ron dựa trên tri

thức về sự phụ thuộc thanh vào trường độ âm tiết, chúng tôi sử dụng các luật Heuristic

sau để loại nhanh một số trường hợp:

108

Luật 1: trung bình (F0) > thanh cao ngược lại thanh thấp.

Luật 2: Dur(F) > D0 (ms): không phải các âm tiết có phụ âm cuối là p-t-c

Luật 3: : không phải thanh huyền.

Trong [6], tác giả đã sử dụng các đặc trưng của một thanh điệu tiếng Việt gồm: F0 ban

đầu, F0 sau cùng, giá trị độ tăng của F0, trường độ thanh điệu, tỷ số giảm của năng

lượng, kết hợp với cấc luật 1, 2, 3 (trong thực nghiệm, tham số D0=300, =200, Frate

= 0.3 (ứng với giọng nữ được kiểm tra trên) trên để nhận dạng 8 hiện tượng thanh điệu

tiếng Việt, âm tiết rời rac, phụ thuộc người nói với kết quả nhận dạng trên 93%. Đây

cũng là kết quả được báo cáo trong đề tài KC.01.03 [90].

STT Thanh điệu Kết quả(%)

Số mẫu huấn liệu 214 Số mẫu kiểm tra 54 Thanh ngã(x) 1 96.20

Thanh huyền(f) 422 2 110 99

Thanh hỏi (r) 394 3 101 93.06

Thanh ngang (middle) 438 4 215 96.70

Thanh sắc(s) 417 5 182 98,30

Thanh sắc có kết thúc 273 6 78 97,40

âm tiết /p/, /t/, /k/ (s2)

Thanh nặng (j) 341 7 94 98,90

Thanh nặng có kết thúc 187 8 46 93,40

âm tiết /p/, /t/, /k/ (j2)

4.2. Đặc trưng MFCC với phép chuẩn hóa độ dài cấu âm VTLN kết hợp với

F0

Nghiên cứu các ảnh hưởng của hiện tượng ngôn điệu tiếng Việt như thanh điệu,

các tần số formant và trường độ âm tiết trong các hệ thống nhận dạng tiếng Việt là một

109

vấn đề tất yếu nhưng hiện tại ít được đề cập tới trong các công trình nghiên cứu về xử

lý âm thanh tiếng Việt. Các hệ thống nhận dạng tiếng Việt dựa trên HMM thường dựa

trên đặc trưng chuẩn MFCC và quy trình huấn luyện và nhận dạng theo thuật toán sau:

Bảng 4. 1. Thuật toán nhận dạng tiếng nói dựa trên HMM với đặc trưng MFCC

Huấn luyện HMM : Nhận dạng với HMM:

Đầu vào gồm T frame các đặc trưng Đầu vào gồm T frame các đặc trưng

MFCC. MFCC.

Bước 1: Xác định dãy trạng thái tối ưu Giải mã theo Viterbi để xác định tập

bằng thuật toán Viterbi: nhãn, và dãy trạng thái tối ưu ứng với bộ

tham số mô hình HMM đã cho:

Bước 2: Hiệu chỉnh lại tham số mô hình

HMM:

Bước 3: Đặt =*, lặp lại tới khi mô hình

hội tụ.

Khi ứng dụng thuật toán nhận dạng HMM trên cho việc nhận dạng tiếng nói liên

tục không phụ thuộc người nói, hệ thống thường suy giảm độ chính xác với những

người nói có có đặc trưng giọng nói không phù hợp với những mẫu giọng được sử

dụng để huấn luyện mô hình HMM.

Một số nghiên cứu gần đây đã khảo sát đường thanh điệu tiếng Việt trong ngữ

cảnh để nhận dạng thanh điệu và cải tiến kết quả nhận dạng từ và câu tiếng Việt [6]

[20][62]. Các tiếp cận này chủ yếu vẫn ghép trực tiếp đặc trưng thanh điệu vào các kiểu

đặc trưng tiếng nói như MFCC, PLP[53][62]. Có một tiếp cận khác sử dụng giá trị

đường F0, các tần số formant để xây dựng một phép hiệu chỉnh lại các đặc trưng

MFCC, dẫn đến kiểu đặc trưng không phụ thuộc người nói trong cả quá trình huấn

luyện và nhận dạng, qua đó kết quả nhận dạng của các hệ thống không phụ thuộc người

nói được cải thiện đáng kế.

110

Phần này trình bày phương pháp ghép trực tiếp giá trị đường F0 vào các vector

đặc trưng MFCC đã được hiệu chỉnh theo VTLN và thử nghiệm trong các hệ thống

nhận dạng tên riêng tiếng Việt phát âm liên tục và độc lập người nói.

4.2.1. Phép chuẩn hóa VTLN

Các hệ nhận dạng tiếng nói thường trích chọn đặc trưng của mỗi khung tiếng nói

(độ dài 10ms-25ms) theo kiểu MFCC ở thang tần số mel dựa trên đặc điểm cảm thụ tần

số âm của tai người, tuy vậy các hệ số MFCC không thể hiện được các biến thể bên

trong của mỗi người nói như VTL (vocal tract length, độ dài bộ cấu âm), dẫn đến việc

suy giảm chất lượng nhận dạng trong các hệ thống nhận dạng độc lập người nói.

VTLN là phép chuẩn hóa tín hiệu tiếng nói để VTL đạt được mức trung bình nhờ

các tham số hiệu chỉnh tần số cho mỗi người nói hoặc một phát âm. Có hai tiếp cận

chính cho VTLN, một là ước lượng hệ số hiệu chỉnh tần số dựa vào đặc điểm âm học

của người nói như các tần số formant, hai là cách duyệt trên lưới của tham số hiệu

chỉnh để tối ưu hóa hàm mục tiêu của mô hình nhận dạng.

Hình 4. 3. Hiệu chỉnh tần số và trích chọn đặc trưng MFCC

Biểu diễn tiếng nói đầu vào đã qua tiền xử lý x(t) trong miền tần số bằng biến đổi

FFT: X()= H()S() + N(), ở đó H() là biến dạng kênh và N() nhiễu cộng của

tín hiệu. Sử dụng M bộ lọc tam giác với khoảng cách giữa các vị trí k trong thang tần

(4.4)

số mel:

, ,0m M-1 (*)

111

(4.5)

MFCC(n) = , 0nN-1

(4.6)

Khi đó với phép hiệu chỉnh tần số có dạng ’= () thì công thức (*) trở thành :

Bảng dưới đây cho ta một số dạng biến đổi tuyến tính và phi tuyến của hàm

(), sử dụng hàm , [0,] và fs là tần số lấy mẫu.

Bảng 4. 2. Một số dạng của phép hiệu chỉnh tần số

Công thức biến đổi Dạng biến đổi

Phi tuyến trong miền

tần số

Tuyến tính từng đoạn

trong miền tần số

Dịch chuyển trong (ứng với W(z)=z+) miền mel

Tuyến tính từng đoạn

trong miền mel

Tham số [min, max] (ở đây min = 0.85, max = 1.15) đặc trưng cho mỗi người

nói có thể được ước lượng tự động từ các giá trị trung bình của formant F3 của tiếng

112

nói đầu vào và của tập huấn luyện [76]. Trong [40] các tác giả ước lượng dựa trên giá

trị trung bình của đường F0 của câu phát âm.

Kiểm nghiệm nhận dạng trên tập tên riêng các trường học chúng tôi thấy phương

pháp ước lượng này không tăng được đáng kể độ chính xác nhận dạng, do phương

pháp này mới chỉ nhấn mạnh vào việc thích ứng với lớp giọng có tần số cơ bản cao và

thấp. Ngoài ra, việc chuẩn hóa VTL cho từng người nói theo phương pháp này tuy đạt

được hiệu quả về tốc độ xử lý nhưng không thích ứng được với hình dạng đường F0

của các câu tiếng Việt biến đổi mạnh theo các thanh điệu của âm tiết, giữa giọng nữ và

giọng nam.

Sử dụng chính hàm mục tiêu của các mô hình HMM (, ), tham số hiệu chỉnh

tần số [min, max] có thể ước lượng trên từng phát âm tiếng nói đầu vào

(4.7)

[15][26][50][59][77][73] theo công thức sau:

4.2.2. Tổ hợp giá trị F0 và chuẩn hóa VTLN

Phương pháp ghép giá trị F0 vào các hệ số MFCC đã được nắn lại sau phép hiệu

chỉnh tần số đề xuất trong nghiên cứu của tác giả được thực hiện gồm 4 bước chính

Bước 1. Xác định tham số  và hiệu chỉnh lại các vector đặc trưng MFCC nhờ phương

pháp huấn luyện hợp lý cực đại ML (xem quy trình nêu ở bước 4)

Bước 2. Tính F0 theo thuật toán RAPT, nội suy xác định giá trị liên tục của đường F0

trên cả đoạn vô thanh. Làm trơn và chuẩn hóa các giá trị F0.

Bước 3. Kết hợp F0 với các hệ số MFCC đã hiệu chỉnh

Thuật toán xác định tham số hiệu chỉnh  dựa trên phương pháp huấn luyện hợp

lý cực đại ML (maximum likelihood) được cài đặt như sau :

113

Bước 4. Huấn luyện và giải mã.

Giai đoạn huấn luyện :

Với mỗi phát âm tiếng nói đã gán nhãn W, gồm T frame

Bước 1: Khởi tạo =1.0 và xác định dãy trạng thái tối ưu bằng thuật toán Viterbi:

Bước 2: Duyệt tìm giá trị tối ưu trên lưới giá trị của tham số :

Bước 3: Thực hiện phân đoạn cưỡng bức (forced alignment) dựa trên bộ nhãn W và

tham số hiệu chỉnh * và hiệu chỉnh lại tham số mô hình HMM:

Bước 4: Đặt =*, và =*, lặp lại tới khi mô hình hội tụ.

Giai đoạn giải mã (nhận dạng):

Với một phát âm đầu vào gồm T frame

Bước 1: Giải mã theo Viterbi để xác định tập nhãn, và dãy trạng thái tối ưu ứng với bộ

tham số mô hình HMM đã cho:

Bước 2: Duyệt tìm giá trị tối ưu trên lưới giá trị của tham số :

(4.8)

Bước 3: Giải mã Viterbi lần nữa với tham số * để xác định tập nhãn đầu ra:

Do thuật toán HMM chuẩn có độ phức tạp là O(VN2T), ở đây N là số trạng thái

của mô hình HMM (N = 5 trong thử nghiệm này), V số phần tử từ vựng (V = 117 trong

thử nghiệm này, là số âm vị với các nguyên âm mang thanh điệu) và T là số frame đầu vào , nên độ phức tạp của thuật toán HMM có kết hợp với VTLN là O(KVN2T), trong

114

đó K là số giá trị rời rạc hóa trên lưới giá trị của tham số [min, max] (ở đây min =

0.85, max = 1.15, mức rời rạc hóa theo bước 0.0001)

Thử nghiệm trên tập tên riêng phức tạp

Vấn đề nhận dạng tên “name entity recognition” là một vấn đề mở, tương đối

phức tạp, vẫn đang được nghiên cứu trong lĩnh vực nhận dạng tiếng nói [86] [84]. Do

vậy để kiểm nghiệm thuật toán chuẩn hóa VTLN kết hợp thông tin ngôn điệu, chúng

tôi đã thiết lập thực nghiệm nhận dạng tên của khoảng 300 trường Đại học và Cao đẳng

trong nước (một số tên trường có thể không còn trong thực tế).

Tập tên riêng này có các đặc điểm sau:

 Tên trường chứa hơn 200 từ đa âm tiết tiếng Việt bao gồm tên địa danh cổ, tỉnh

 thành, tên các danh nhân, ngành nghề, phiên âm tiếng nước ngoài, số đếm chỉ chi

 nhánh trường.

 Độ dài của một tên trường : ngắn nhất 4 âm tiết, dài nhất 15 âm tiết.

 Không có 2 âm tiết nào có cùng âm tiết gốc (âm không mang thanh điệu).

 Các tên trường có sự trùng lặp âm tiết lớn như các cặp tên trường sau

{Học viện hành chính quốc gia, Học viện hành chính quốc gia Hồ Chí Minh}

{ĐH dân lập Văn Lang, Đại học dân lập Văn hiến}

{Trường sỹ quan lục quân một, Trường sỹ quan lục quân hai}

{ĐH dân lập Thăng Long, ĐH dân lập Cửu Long}

{ĐH lâm nghiệp, ĐH nông nghiệp}

{ĐH dân lập Bình Dương, ĐH dân lập Hùng Vương}

{ĐH Sư phạm kỹ thuật, ĐH Sư phạm mỹ thuật}

Dữ liệu huấn luyện nhanh các mô hình HMM của các âm vị tiếng Việt là các bài

đọc truyện và tin tức của 2 phát thanh viên (một nam, một nữ giọng Hà Nội) của đài

tiếng nói Việt Nam, có khoảng 23000 câu với dung lượng dữ liệu hơn 1GB.

115

Hình 4.4: Câu “Các em đã nhận thức thế nào về hoàn cảnh ấy” đã được gán nhãn

Dữ liệu huấn luyện thích ứng được ghi bởi giọng đọc của 12 nam, 10 nữ sinh

viên, môi trường tín hiệu trong lớp học trên giảng đường, mỗi sinh viên đọc 300 tên

trường đúng một lượt. Tín hiệu thu có tần số lấy mẫu 11025Hz, đơn kênh 16 bit và có

nhiễu.

Dữ liệu kiểm tra hệ thống nhận dạng là giọng đọc của 3 nam, 6 nữ sinh viên và

một giọng nữ tiếng miền Nam, được thu trong cùng môi trường tín hiệu như với dữ liệu

huấn luyện thích ứng.

Khi tiến hành thử nghiệm, chúng tôi sử dụng phiên bản HTK 3.4 để huấn luyện,

kiểm thử và trích chọn đặc trưng MFCC thông thường.

Tập âm vị tiếng Việt gồm khoảng 52 âm vị bao gồm các phụ âm đầu, âm đệm,

nguyên âm chính với thanh điệu và âm cuối tương ứng với 52 mô hình HMM cần được

huấn luyện.

Do tập nhận dạng là tập tên các trường Đại học – Cao đẳng được cố định nên hệ

thống thử nghiệm chỉ sử dụng văn phạm câu biểu diễn bằng mạng mà không sử dụng

mô hình ngôn ngữ (xem [81] và bảng minh họa một phần mạng câu trong phụ lục).

116

Giá trị đường F0 và các vector đặc trưng MFCC được trích chọn với các frame độ

dài 25 mili giây, phần trùng nhau giữa 2 frame liên tiếp là 15 mili giây. Các vector đặc

trưng gồm 12 hệ số MFCC và 1 hệ số năng lượng và các sai phân bậc 1 và bậc 2 của 13

hệ số này. Các HMM có hàm mật độ xác suất liên tục. Việc hiệu chỉnh các vector

MFCC và ghép giá trị F0 sử dụng phương pháp đã trình bày ở trên.

Bảng 4. 3. Bảng kết quả thực nghiệm kiểm tra

Đặc trưng MFCC + F0 VTLN-MFCC + F0

Người đọc Đặc trưng chuẩn MFCC

mức từ mức câu mức từ mức câu mức từ mức câu

93,8 82,2 92,7 81,2 96,7 88,5 Nu1

97,0 86,3 97,3 88,4 97,6 89,4 Nu2

95,5 82,8 93,4 78,7 96,4 87,8 Nu3

97,4 90,9 97,0 88,8 97,6 91,9 Nu4

95,5 85,1 97,1 91,0 98,9 97,0 Nu5

86,7 67,7 88,1 72,9 91,8 81,2 Nu6

95,7 84,6 96,9 89,9 98,1 93,8 Nu7

98,6 92,9 98,5 92,9 98,9 94,9 Nam1

95,3 79,0 96,5 86,0 97,3 88,0 Nam2

97,1 88,8 97,7 93,9 98,6 96,2 Nam3

95,3 84,6 95,6 86,4 97,1 90,6 Trung

bình

Các thực nghiệm cho thấy các biến đổi tần số kiểu “tịnh tiến” trong miền mel cho

kết quả thấp hơn một chút so với phép biến đổi theo hệ số tỉ lệ. Bảng 4.3 được cho với

phép biến đổi tần số theo phương pháp của HTK (xem bảng 4.2).

Quan sát bảng thực nghiệm 4.3, kết quả nhận dạng của “Nu6” thấp do đây là một

giọng nói tiếng miền Nam, thanh điệu và các tham số VTL hoàn toàn khác so với các

giọng đọc trong tập huấn luyện (chỉ có giọng miền Bắc).

117

Hình 4. 5. MFCC chuẩn, câu “ĐH Mỹ thuật TP.HCM“

Nhận dạng nhầm thành: “ĐH luật TP. HCM”.

Áp dụng phép hiệu chỉnh VTLN cho giọng “Nu6”, cho kết quả nhận dạng đúng.

Người nói “Nam2” thực tế kết quả nhận dạng sẽ cao hơn nhiều, lỗi xảy ra do

người đọc đã nhầm một số âm tiết của tên trường, hệ thống giải mã cho HMM đã nhận

dạng phát âm này về tên trường có trong tập từ vựng, chẳng hạn như:

Bảng 4. 4. Bảng kết quả giải mã tên trường của người đọc.

Phát âm Kết quả giải mã cho tên đúng

ĐH dân lập kỹ thuật công nghiệp ĐH dân lập kỹ thuật công nghệ

ĐH Thái Bình ĐH Y Thái Bình

Học viện bưu chính viễn TP. HCM Học viện bưu chính viễn thông TP.

HCM

ĐH ngoại thương Đà Nẵng ĐH ngoại ngữ Đà Nẵng

Cột giải mã cho tên đúng thể hiện đặc tính “dự đoán của hệ nhận dạng tiêng

nói“, dù rằng người thử nghiệm phát âm một tên trường không hoàn toàn chính

xác, hệ thống đã dự báo để trả lại một tên trong cơ sở dữ liệu giống nhất dựa trên

đồ thị chuyển trạng các âm vị của cơ sở dữ liệu tên riêng.

118

4.2.3. Ước lượng tham số chuẩn hóa VTLN bằng phương pháp formant

Sử dụng chính hàm mục tiêu của các mô hình HMM (, ), tham số hiệu chỉnh

tần số [min, max] có thể ước lượng trên từng phát âm tiếng nói đầu vào

(4.9)

[15][73][74] theo công thức sau:

Xác định tham số  theo phương pháp này cần sử dụng các kết quả trung gian khi

xử lý mô hình HMM của hệ thống nhận dạng tiếng nói liên tục:

 Lưu lại toàn bộ đặc trưng MFCC gốc của các frame tín hiệu tiếng nói đã được

 Bộ phát hiện kết thúc quá trình duyệt lưới trạng thái HMM.

 Bộ trả về từ - kết quả của phép nhận dạng và vị trí theo thời gian cho từng âm vị

(forced alignment, phân đoạn cưỡng bức).

Dựa trên các thông tin này, hệ thống duyệt tìm tham số  khi cho  thay đổi trong

khoảng [min, max] và tính các xác suất trạng thái HMM tương ứng trên các MFCC

hiệu chỉnh theo  của frame tiếng nói đã được định vị. Cuối cùng hệ thống gọi lại phép

giải mã HMM nhưng với dãy đặc trưng MFCC đã được hiệu chỉnh bằng VTLN.

Với một phát âm đầu vào gồm T frame:

Bước 1: Giải mã theo Viterbi để xác định tập nhãn, và dãy trạng thái tối ưu ứng với bộ

tham số mô hình HMM đã cho:

Bước 2: Duyệt tìm giá trị tối ưu trên lưới giá trị của tham số :

Bước 3: Giải mã Viterbi lần nữa với tham số * để xác định tập nhãn đầu ra:

119

Quy trình nhận dạng trên tiêu tốn bộ nhớ và thời gian tính toán, không thích hợp

trong các ứng dụng nhận dạng thời gian thực được xây dựng trên nền các hệ thống tài

nguyên hạn chế.

Theo hướng ước lượng tham số VTLN dựa trên các tham số ngữ âm như F0 và

formant, trong [40] các tác giả ước lượng dựa trên giá trị trung bình của đường F0 của

câu phát âm tuy nhiên khi tiến hành thử nghiệm chúng tôi nhận thấy phương pháp ước

lượng này kém chính xác khi áp dụng cho tiếng Việt do tiếng Việt có một số thanh điệu

có sự biến đổi mạnh về đường F0 như thanh nặng và thanh ngã.

Trong [76] các tác giả đã đề xuất cách ước lượng VTLN tự động từ các giá trị

trung bình của formant F3 của tiếng nói đầu vào và của tập huấn luyện, tuy nhiên các

tác giả không đưa ra cách tính trong trường hợp thời gian thực và trong trường hợp

frame tiếng nói đầu vào là vô thanh (các giá trị F0, formant không xác định được)

4.2.3.1. Xấp xỉ giá trị trung bình trong thời gian thực

Nếu cho trước N hữu hạn số thực x1, x2,…,xN thì dễ dàng tính được giá trị trung

bình . Phép tính giá trị trung bình tuy đơn giản nhưng được sử dụng hiệu

quả trong phép chuẩn hóa đặc trưng MFCC để giảm thiểu sai lệch về phổ giữa đặc

trưng của tập người huấn luyện và đặc trưng của người nói mới.

Ở đây N là số frame của ngữ đoạn tiếng nói, là dãy N vector đặc trưng

MFCC của N frame. Trong [12] [39] các tác giả đã chứng tỏ chỉ với phép chuẩn hóa

CMN đã cải thiện được độ chính xác nhận dạng tiếng nói. Trong thời gian thực, số

frame không được xác định cho tới khi bộ tìm kiếm điểm đầu và cuối (Endpoint

detector) phát hiện được.

120

Vấn đề có thể phát biểu hình thức như sau:

Cho trước là dãy vector số có số chiều hữu hạn , xác định dãy vector

như sau: y1=y0+x1, yn=yn-1 + xn, n=2,3…, ,  (0,1),  + =1, y0 = 0

hoặc được xác định trước.

Trong các ứng dụng xử lý tín hiệu số, tiếng nói hoặc dữ liệu ảnh thường các

vector xn biến đổi xung quanh một giá trị trung bình (tổng quát là kiểu các biến ngẫu

nhiên có cùng phân bố)sau khi phép tiền xử lý tín hiệu đã đi qua một phép phân cụm,

phân loại tín hiệu (chẳng hạn phép phân loại tín hiệu nền/nhiễu/tiếng nói trong xử lý

tiếng nói.)

Ký hiệu là độ dài của vector x. Ta có các mệnh đề sau thể hiện tính chất của CMN:

Mệnh đề 1:  N > 1, n>N

Chứng minh : do  + =1 ta có,

Từ đó suy ra ước lượng trên.

Từ ước lượng này ta thấy để yn gần giá trị trung bình thông thường của x1,x2,…,xn

ta có thể chọn  rất gần 0.

Mệnh đề 2:

 N > 1, n > N.

Chứng minh :

121

, tương

tự

Bằng quy nạp ta có:

Suy ra:

Do nên

Mệnh đề 3: là dãy có tổng trung bình các phần tử xấp xỉ 0 tại mọi thời

điểm n.

Chứng minh :

. Do các giá trị yn bị chặn nên

Nhận xét : Với tín hiệu tiếng nói, thường x1,y1 xấp xỉ vector 0, nên

4.2.3.2. Ước lượng VTLN dựa trên giá trị formant

122

Dựa trên [38], chúng tôi đề xuất cách ước lượng tham số VTLN thời gian thực

như sau cho dãy frame tiếng nói câu đọc vào [CT5]:

(4.10)

, nếu frame(i) là hữu

thanh

, trái lại

ở đây a, b là 2 hệ số, a,b(0,1), a+b =1, chúng tôi chọn a=0.95, b=0.05 khi thực

(4.11)

nghiệm

Ở đây là giá trị trung bình format F3 trên toàn tập các frame hữu thanh của

tiếng nói huấn luyện, F3(i) là các giá trị ước lượng formant F3(i) từ thuật toán RAPT.

Giá trị đường F0, formant F3 và các vector đặc trưng MFCC được trích chọn với

các frame độ dài 25 mili giây, phần trùng nhau giữa 2 frame liên tiếp là 15 mili giây.

Các vector đặc trưng gồm 12 hệ số MFCC và 1 hệ số năng lượng và các sai phân bậc 1

và bậc 2 của 13 hệ số này. Các HMM có hàm mật độ xác suất liên tục. Việc hiệu chỉnh

các vector MFCC và ghép giá trị F0 được thực hiện gồm 3 bước chính sau:

Bước 1. Xác định frame đầu vào là hữu thanh hay vô thanh.

Bước 2. Tính F0, formant F3 theo thuật toán RAPT, nội suy xác định giá trị liên tục

của đường F0 trên cả đoạn vô thanh. Làm trơn và chuẩn hóa các giá trị F0.

Xác định tham số  theo từng frame và hiệu chỉnh lại các vector đặc trưng MFCC

Bước 3. Kết hợp F0 với các hệ số MFCC đã hiệu chỉnh

Thuật toán có độ phức tạp là O(VN2T), ở đây N là số trạng thái của mô h́ nh

HMM (N = 5 trong thử nghiệm này), V số phần tử từ vựng (V = 117 trong thử nghiệm

này, là số âm vị với các nguyên âm mang thanh điệu) và T là số frame đầu vào.

123

Bảng 4. 5. Bảng kết quả thực nghiệm kiểm tra

Người đọc Đặc trưng chuẩn Đặc trưng MFCC VTLN

MFCC + F0 (formant F3)-MFCC

+ F0

mức từ mức câu mức từ mức câu mức từ mức câu

93,8 82,2 92,7 81,2 95,7 88,5 Nu1

97,0 86,3 97,3 88,4 97,6 89,4 Nu2

95,5 82,8 93,4 78,7 96,4 87,8 Nu3

97,4 90,9 97,0 88,8 97,6 91,9 Nu4

95,5 85,1 97,1 91,0 98,9 97,0 Nu5

86,7 67,7 88,1 72,9 91,8 81,2 Nu6

95,7 84,6 96,9 89,9 98,1 93,8 Nu7

98,6 92,9 98,5 92,9 98,9 94,9 Nam1

95,3 79,0 96,5 86,0 97,3 88,0 Nam2

97,1 88,8 97,7 93,9 98,6 96,2 Nam3

95,3 84,6 95,6 86,4 96,1 90,6 Trung bình

Các kết quả cho thấy trong môi trường đồ ổn thấp (tỷ lệ tín tạp trên 20dB), tiếng

nói đọc rõ ràng, các kết quả chuẩn hóa VTLN dựa trên formant F3 cũng cho kết quả

tương tự với việc chuẩn hóa VTLN dựa trên huấn luyện hợp lý cực đại ML.

Việc tính chính xác giá trị VTLN cho một phát âm trong thời gian thực là không thể và

không cần thiết, thuật toán ML để dò giá trị VTLN có thể cho kết quả chính xác hơn so

với phép ước lượng dựa trên formant cho nhận dạng mức từ do việc sử dụng quá trình

giải mã và căn (alignment) HMM để dò biên từng âm vị của phát âm, nhưng khi nhận

dạng câu, độ chính xác nhận dạng của câu không tăng lên, do độ chính xác của nhận

dạng câu còn phụ thuộc đáng kể vào đoán nhận dựa trên xử lý ngôn ngữ (mô hình ngôn

ngữ, đồ thị câu, chẳng hạn xem bảng 4.4 v.v…).

124

Sử dụng formant tần số cao F3 được chọn do tính đặc trưng tốt phụ thuộc người nói

của formant F3. Tần số F3 tương đối ổn định với các nguyên âm của cừng một người

nói ), các formant F1,F2 bị ảnh hưởng bởi các cử chỉ cấu âm khác như đặt lưỡi và tư

thế môi [45]. Điều này cũng trùng với nhận định của các chuyên gia ngữ âm học trong

nước như PGS. TS Vũ Kim Bảng, TS. Vũ Thị Hải Hà, Viện Ngôn ngữ, Viện

HLKHXHVN.

4.3. Hệ thống nhận dạng tiếng Việt nhúng

Nghiên cứu, thiết kế các hệ thống nhận dạng khẩu lệnh để điều khiển thiết bị đã

được phát triển và ứng dụng rộng rãi. Một số hệ thống nhận dạng khẩu lệnh kết hợp với

hiểu đối thoại hữu dụng như Siri đã trở nên quen thuộc với người sử dụng. Tuy nhiên

hầu hết các hệ thống này đều chạy trên môi trường PC hoặc di động có lõi vi xử lý với

tài nguyên bộ nhớ và năng lực tính toán mạnh. Hệ thống nhận dạng khẩu lệnh trên chip

tiêu thụ điện năng thấp và tài nguyên hạn chế, đặc biệt là trên các chip vi hệ thống vẫn

là vấn đề phức tạp, cần đầu tư nghiên cứu. PSoC một họ chip vi hệ thống nổi tiếng với

tính năng tái cấu hình, được ứng dụng rộng rãi trong thiết kế các hệ thống đo và điều

khiển, nhưng chưa có một giải pháp tích hợp hệ thống nhận dạng khẩu lệnh trên nó

được công bố trên thế giới.

Trong [CT3] chúng tôi này trình bày phương pháp thiết kế hệ nhận dạng khẩu

lệnh tiếng Việt điều khiển thiết bị di động như robot hút bụi, xe lăn điện dựa trên chip

vi hệ thống họ PSoC5 và OMAP3, các đặc trưng MFCC đã được hiệu chỉnh theo

VTLN và các tính toán đặc trưng và quá trình giải mã HMM được tăng tốc nhờ các

phép tính toán chấm tĩnh độ chính xác cao cho hiệu năng và chất lượng nhận dạng so

sánh được với cùng hệ thống trên PC.

125

Hình 4. 6. Sơ đồ tích hợp nhận dạng tiếng nói điều khiển thiết bị

Trong quy trình nhận dạng tiếng nói, Tiền xử lý (thu nhận tiếng nói, khử nhiễu và

tìm kiếm điểm đầu cuối tiếng nói) là khâu rất quan trọng để nâng cao độ chính xác

nhận dạng khẩu lệnh tiếng Việt trong khi các thiết bị đang hoạt động.

Hình 4. 7. Thu nhận tiếng nói dùng DMA trên PSoC5

126

Sử dụng tính năng mạnh hỗ trợ bộ lọc tương tự của PSoC5, trong quá trình thu

nhận tiếng nói, hệ thống được xử lý nhiễu qua 2 pha: pha 1 là lọc tương tự, pha 2 là lọc

số (như bộ lọc RASTA).

Bảng 4. 6. Bảng cấu hình GAIN kết hợp bộ lọc thông thấp.

PGA Gain 24 Tỉ lệ C1/C2 3 LPF Gain (dB) 8 Điện áp LPF GAIN 3.16 Hệ số GAIN cuối 75.84

24 4 12 3.98 95.52

24 5 14 5.01 120.24

24 6 15 5.62 134.95

4.3.1. Điều khiển thiết bị tự hành bằng tiếng nói

Để điều khiển xe lăn điện di chuyển, người điều khiển ngồi trên xe lăn và đọc vào

một trong 14 lệnh như ở bảng 4. dưới đây. Để kiểm soát độ an toàn cho người điều

khiển xe, hệ thống khẩu lệnh chỉ kích hoạt hành động khi người điều khiển đọc đúng

câu lệnh khởi động “Kích hoạt hệ thống”, ngược lại khi người dùng ra lệnh nhanh

“Tắt”, hệ thống sẽ không nhận dạng mệnh lệnh đưa vào tiếp sau đó. Một khó khăn có

thể gây ra nhận dạng nhầm khẩu lệnh “Tắt”, là do các xe lăn khi kích hoạt từ mệnh

lệnh nhận dạng được có thể phát ra tiếng “cạch” có thể nhận dạng nhầm vớikhẩu lệnh

“Tắt”. Chúng tôi đã tích hợp một thuật toán phân lớp hiệu quả đạt 100% độ chính xác

dựa trên mạng nơ ron dự báo để phân biệt, và hệ thống đã phân biệt đúng các tín hiệu

gây ồn của thiết bị với khẩu lệnh “Tắt”. Ngoài ra khẩu lệnh “Kích hoạt hệ thống” được

chọn để đảm bảo hệ thống không nhận dạng nhầm khẩu lệnh khởi động này.

127

Hình 4. 8. Điều khiển xe lăn điện bằng tiếng nói.

128

Bảng 4. 7. Khẩu lệnh điều khiển xe lăn.

Tên khẩu lệnh Công dụng/Tên lệnh

“Kích hoạt hệ thống” Yêu cầu hệ thống nhận dạng khẩu lệnh làm việc

“Tắt” Vô hiệu hóa hệ thống nhận dạng khẩu lệnh

“Dừng” | “Dừng lại” Dừng xe

“Tiếp tục” Tiếp tục chạy theo khẩu lệnh đã có

“Tăng tốc” | “Tăng tốc độ” Tăng tốc độ

“Giảm tốc” | “Giảm tốc độ” Giảm tốc độ

“Tiến” | “Đi” Đi về phía trước

“Lùi” | “Lùi lại” Lùi về sau

“Sang trái” | ”Đi sang trái” Về phía trước theo hướng trái

“Sang phải” | “Đi sang phải” Về phía trước theo hướng phải

“Lùi trái” |”Lùi sang trái” Về phía sau theo hướng trái

“Lùi phải”|”Lùi sang phải” Về phía sau theo hướng phải

“Quay trái” |”Xoay trái” Quay trái

“Quay phải” |”Xoay phải” Quay phải

129

Bảng 4. 8. Khẩu lệnh điều khiển robot hút bụi.

Tên khẩu lệnh Công dụng/Tên lệnh

“Bật khẩu lệnh” Yêu cầu hệ thống nhận dạng khẩu lệnh làm việc

“Tắt khẩu lệnh” Vô hiệu hóa hệ thống nhận dạng khẩu lệnh

“Tiến” | “Đi thẳng” Đi về phía trước

“Lùi” | “Lùi lại” Lùi về sau

“Quay trái” |”Xoay trái” Quay trái

“Quay phải” |”Xoay phải” Quay phải

“Bám tường” Đi men theo tường.

Đi rích rắc Đi theo sơ đồ rích rắc

Đi ngẫu nhiên Đi thẳng tới khi gặp vật cản, quay một góc ngẫu

nhiên và đi tiếp

Dừng | dừng lại Dừng lại

Về trạm sạc Quay về trạm sạc

Thuật toán được cài đặt chạy được trên chip với các tối ưu để tính toán chấm tĩnh

(fixed point, không sử dụng các tính toán trên số thực cho các biến đổi FFT, tính các

hàm Toán học như log, exp, sin, cos, sqrt trích chọn đặc trưng MFCC, lọc nhiễu bằng

phương pháp trừ phổ v.v...).

Thử nghiệm được tiến hành trên cả hai hình thức: nhận dạng tín hiệu khẩu lệnh đã

được ghi âm sẵn đưa vào bộ nhớ SRAM và nhận dạng tín hiệu tiếng nói được đọc liên

tục vào mic.

130

Bảng 4. 9. Các bước của chương trình thử nghiệm trên máy tính

Lọc nhiễu trừ phổ Tính độ tin cậy kết quả nhận dạng Kiểu nhận dạng

Độ chính xác (trên tập kiểm tra) Trích chọn đặc trưng MFCC

Tìm kiếm bắt đầu và kết thúc của khẩu lệnh

Phát hiện các khuung là tiếng nói hay nền (pause, silence) Cần thiết Ghi sẵn Chấm tĩnh Không Cần Sử dụng độ Trên 98%

dữ liệu (fixed cần thiết, đo xác suất

(Offline) point) tính toán nhận dạng

fixed cho bởi

point HMM, 2 bộ

văn phạm

lệnh – từ và

âm tiết

Đọc trực Chấm tĩnh Cần thiết Cần thiết Cần Sử dụng độ Trên 98%

thiết, đo xác suất tiếp vào (fixed

tính toán nhận dạng mic point)

fixed cho bởi (online)

point HMM, 2 bộ

văn phạm

lệnh – từ và

âm tiết

4.3.2. Biểu diễn HMM trong bộ nhớ SRAM của chip với tính toán chấm tĩnh

(fixed point)

Sau khi huấn luyện các tham số HMM của các âm vị buộc 3 bằng các công cụ

huấn luyện trên máy tính (ở đây sử dụng bộ công cụ HTK) các tham số HMM của các

âm vị buộc 3 được xem như là một CSDL của các thuộc tính – giá trị trạng thái (State),

131

xác suất chuyển trạng (Transition) và mô hình âm học(HMM model). CSDL này được

đặt hoàn toàn trong bộ nhớ SRAM để tăng tốc độ tính toán, công việc này cho phép

một hệ thống nhận dạng tiếng nói dựa trên HMM liên tục là hoàn toàn tích hợp được

vào các chip với tài nguyên bộ nhớ và tài nguyên tính toán như chip PSoC5 hoặc chip

OMAP3530). Để nhúng mô hình HMM vào bộ nhớ SRAM của chip có thể xem chi tiết

ở Phụ lục: “Nhúng mô hình HMM vào bộ nhớ SRAM của chip”.

Một thử nghiệm tương tự cũng đang được nhóm tác giả tiến hành cho robot hút

bụi hoạt động trong môi trường trong nhà, văn phòng. Hệ thống nhận dạng tiếng nói

được thiết kế cho họ PSoC5, luôn kiểm tra tính tương thích giữa thông tin hiện thời của

cảm biến của robot hút bụi và khẩu lệnh đưa vào (ví dụ không tiến nếu có vật cản) để

điều khiển robot hoạt động thay cho việc sử dụng các bảng điều khiển từ xa. Bảng 4.8

nêu trên là một số khẩu lệnh để điều khiển robot hút bụi di chuyển, phủ diện tích căn

phòng và hút bụi. Robot hút bụi được lập trình di chuyển theo chế độ đi ngẫu nhiên (đi

thẳng, gặp vật cản thì xoay và bám tường v.v…).

4.4. Kết luận chương 4

Chương này nghiên cứu sinh trình bày các kết quả của luận án về Nhận dạng tiếng Việt

với 3 công bố như sau:

 Tổ hợp đường F0 và VTLN cho nhận dạng tên riêng tiếng Việt, Tạp chí Tin học và

Điều khiển học, trang 273 – 282, Tập 27, số 3, 2011[CT1]

 Thiết kế hệ thống nhận dạng khẩu lệnh tiếng Việt điều khiển thiết bị tự hành trên

nền các vi hệ thống điện năng thấp với phép chuẩn hóa VTLN – MFCC, hội nghị

Cơ điện tử, VCM-2012 [CT3].

 Trích chọn đặc trưng âm học tiếng Việt dựa trên F0 và biến thể của MFCC với ước

lượng VTLN từ các giá trị formant, hội nghị quốc gia lần thứ VII "Nghiên cứu cơ

bản và ứng dụng Công nghệ thông tin", FAIR 2014 [CT5].

Theo nội dung đã trình bày ở trên, các giá trị của đường F0 và độ dài bộ phận cấu âm

của mỗi giọng nói đã ảnh hưởng đáng kể đến kết quả nhận dạng tiếng Việt. Để tích hợp

132

các giá trị này vào hệ thống nhận dạng, đầu tiên áp dụng phép chuẩn hóa kiểu VTLN

cho tiếng nói đầu vào để hiệu chỉnh lại tần số trước khi tính các hệ số MFCC như thông

thường, sau đó ghép giá trị đường F0 đã được tiền xử lý (làm đầy trên các đoạn vô

thanh và làm trơn) của phát âm và chuyển tới bộ huấn luyện hoặc giải mã của các

HMM. Khi việc ước lượng các giá trị formant được tương đối chính xác thì việc chuẩn

hóa giọng nói mới dựa trên formant F3 là khá hiệu quả trong các ứng dụng nhận dạng

tiếng nói độc lập người nói trong thời gian thực.

Ngoài ra luận án cũng bổ sung phép chứng minh hình thức cho tính đúng đắn

của thuật toán tính giá trị trung bình của formant F3 thông qua 3 mệnh đề Toán học,

kết quả này cũng đã được chấp nhận đăng (đồng tác giả) trong tạp chí số đặc biệt

PHỔ CMN CỦA TÍN HIỆU SỐ VÀ ỨNG DỤNG TRONG PHÂN VÙNG ẢNH VIỄN

THÁM”.

Trường ĐHSPHN năm 2015: “MỘT CHỨNG MINH HÌNH THỨC CHO PHÉP BÙ TRỪ

Kết quả thực nghiệm được áp dụng vào vấn đề nhận dạng tập tên riêng tiếng Việt

có độ lặp lại cao về âm tiết và đa dạng như tập tên của khoảng 300 trường Đại học và

Cao đẳng đã chứng tỏ phương pháp đề xuất cải tiến được đáng kể kết quả nhận dạng

của hệ thống nhận dạng tiếng Việt độc lập người nói với tiếng nói đầu vào được phát

âm liên tục.

133

KẾT LUẬN

Mục đích của luận án là nghiên cứu các đặc trưng ngôn điệu tiếng Việt, ứng dụng

vào các hệ tổng hợp và nhận dạng tiếng nói nhằm nâng cao chất lượng của các hệ thống

này.

Kết hợp các đặc trưng ngôn điệu tiếng Việt (như tần số cơ bản F0, formant,

cường độ và trường độ…) vào vấn đề tổng hợp và nhận dạng tiếng Việt là một vấn đề

quan trọng tuy nhiên từ trước tới nay, các kết quả nghiên cứu về ngôn điệu tiếng Việt

thường nặng về mô tả định tính hoặc có định lượng cũng chỉ dừng ở các tham số đơn

lẻ. Các kết quả chính mà luận án đạt được gồm:

1. Kết quả về tổng hợp tiếng Việt

1.1. Kết quả chính

Nghiên cứu đã thử nghiệm sử dụng mô hình học thống kê CART để dự báo các

giá trị ngôn điệu tiếng Việt (trường độ và âm lượng) cho bài toán tổng hợp. Kết quả

cải thiện chứng tỏ việc dự báo dựa trên thống kê là có hiệu quả, đã thay đổi đáng kể

chất lượng câu tiếng nói được tổng hợp. Dựa vào một cơ sở dữ liệu ngữ âm đã được

gán nhãn (từng câu văn bản đã được phân tích thành các âm vị, đặc trưng ngôn ngữ và

tham số tín hiệu tương ứng trong phát ngôn tiếng nói) như: âm vị hiện tại, âm vị bên

trái, bên phải, vị trí của âm vị trong âm tiết, thanh điệu, số âm tiết của ngữ đoạn v.v...

tác giả luận án đã sử dụng mô hình CART với tham số đầu vào đã được chuẩn hóa theo

ngữ cảnh để dự đoán được các tham số ngôn điệu cơ bản gồm trường độ và âm lượng

cho câu tiếng nói tổng hợp. Mô hình CART kế thừa ưu điểm của các thuật toán cây

quyết định là đơn giản và hiệu quả, mô hình cho phép xử lý rất nhanh, không tiêu tốn

tài nguyên tính toán của hệ thống (so với mô hình dự báo sử dụng HMM là cần tài

nguyên tính toán khi dự báo cũng như khi huấn luyện), kết quả đầu ra của phép dự báo

là dễ hiểu và có tính trực quan cao.

134

Các kết quả trình nghiên cứu của luận án chứng tỏ việc đưa giá trị ngôn điệu

được dự báo từ văn bản vào trong bộ tổng hợp tiếng Việt (được thống kê chi tiết cho

cơ sở dữ liệu âm huấn luyện mô hình kết hợp các ngữ cảnh mức âm vị khác nhau) đã

cải tiến được chất lượng dự báo các tham số ngôn điệu như trường độ và âm lượng,

dẫn đến thay đổi đáng kể chất lượng câu tiếng nói được tổng hợp kết quả đã chứng

minh được tính đúng đắn của việc đưa các đặc trưng ngôn điệu tiếng Việt vào hệ tổng

hợp tiếng nói sẽ nâng cao được chất lượng tiếng Việt tổng hợp, hiệu quả khi chạy trên

các hệ thống có năng lực tính toán hạn chế (như các hệ thống nhúng).

1.2.Kết quả khác

Ngoài ra luận án cũng trình bày một số kết quả của tác giả luận án trong thời

gian trước khi làm nghiên cứu sinh như kết quả về phân lớp thanh điệu tiếng Việt

trong ngữ cảnh câu và tổng hợp đường thanh điệu sử dụng mô hình Fujisaki.

1.3.Một kết quả ứng dụng

Tích hợp hệ thống tổng hợp tiếng Việt trên hệ thống nhúng.

2. Kết quả về nhận dạng tiếng Việt

2.1. Kết quả chính

Sự sai khác giữa giọng nói của người sử dụng và giọng nói của tập mẫu huấn luyện

tham số mô hình nhận dạng đã ảnh hưởng đáng kể đến kết quả nhận dạng tiếng Việt.

Trong các hệ nhận dạng tiếng nói độc lập người nói luận án đã đề cập đến phép chuẩn

hóa tín hiệu tiếng nói theo độ dài cơ quan cấu âm (VTLN) dựa trên các tham số F0, F3

và phép duyệt tìm tham số tối ưu của tiếng nói đầu vào và của tập huấn luyện. Đóng

góp của luận án là đề xuất một cách ước lượng các tham số VTLN này ngay cả trong

các trường hợp các tham số này không xác định được (với các frame là vô thanh). Sử

dụng chính hàm mục tiêu của các mô hình HMM (, ), tham số hiệu chỉnh tần số

[min, max] có thể ước lượng trên từng phát âm tiếng nói đầu vào.

Xác định tham số  theo phương pháp này cần sử dụng các kết quả trung gian khi

xử lý mô hình HMM của hệ thống nhận dạng tiếng nói liên tục:

135

 Lưu lại toàn bộ đặc trưng MFCC gốc của các frame tín hiệu tiếng nói đã được

 Bộ phát hiện kết thúc quá trình duyệt lưới trạng thái HMM.

 Bộ trả về từ - kết quả của phép nhận dạng và vị trí theo thời gian cho từng âm

vị (forced alignment, phân đoạn cưỡng bức).

Dựa trên các thông tin này, hệ thống duyệt tìm tham số  khi cho  thay đổi trong

khoảng [min, max] và tính các xác suất trạng thái HMM tương ứng trên các MFCC

hiệu chỉnh theo  của frame tiếng nói đã được định vị. Cuối cùng hệ thống gọi lại phép

giải mã HMM nhưng với dãy đặc trưng MFCC đã được hiệu chỉnh bằng VTLN.

Quy trình nhận dạng trên tiêu tốn bộ nhớ và thời gian tính toán, không thích hợp

trong các ứng dụng nhận dạng thời gian thực được xây dựng trên nền các hệ thống tài

nguyên hạn chế.

Theo hướng ước lượng tham số VTLN dựa trên các tham số ngữ âm như F0 và

formant, trong luận án tác giả đã đề xuất cách ước lượng tham số dựa trên giá trị trung

bình của đường F3 của câu phát âm. Ngoài ra luận án cũng đã trình bày phép chứng

minh hình thức cho tính đúng đắn của thuật toán tính giá trị trung bình của formant F3

thông qua 3 mệnh đề Toán học.

Để tích hợp vào hệ thống nhận dạng độc lập người nói, đầu tiên áp dụng phép

chuẩn hóa kiểu VTLN cho tiếng nói đầu vào để hiệu chỉnh lại tần số trước khi tính các

hệ số MFCC như thông thường, sau đó ghép giá trị đường F0 đã được tiền xử lý (làm

đầy trên các đoạn vô thanh và làm trơn) của phát âm và chuyển tới bộ huấn luyện hoặc

giải mã của các HMM. Độ chính xác nhận dạng đã được tăng rõ rệt.

2.2.Kết quả khác

Ngoài ra luận án cũng trình bày một số kết quả của tác giả luận án trong thời

gian trước khi làm nghiên cứu sinh như kết quả về nhận dạng thanh điệu tiếng Việt

của âm tiết trong kiểu phát âm rời.

136

2.3.Một kết quả ứng dụng

Tích hợp hệ thống nhận dạng tiếng Việt trên chip SOC (PSoC5/OMAP3) để

điều khiển thiết bị tự hành như xe lăn điện, robot hút bụi.

3. Hướng phát triển

Tổng hợp và nhận dạng tiếng nói là vấn đề mở, các kết quả luận án về kết hợp

các hiện tượng ngôn điệu tiếng Việt vào các hệ thống này đòi hỏi cần nhiều nghiên

cứu sâu hơn nữa để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt ứng dụng

cho nhiều lĩnh vực trong cuộc sống. Những định hướng tiếp theo của chúng tôi là:

- Tiếp tục nghiên cứu quy luật biến đổi thanh điệu trong cụm từ, trong câu, nghiên

cứu các quy luật về điểm nghỉ phát âm trong ngữ lưu.

- Xây dựng các biến thể đặc trưng tiếng nói dựa trên MFCC có kết hợp với ngôn

điệu tiếng Việt, tăng khả năng giảm phụ thuộc vào nhiễu của các đặc trưng tiếng

nói.

- Đi sâu vào hướng tiếp cận sử dụng các đặc trưng formant F1-F2,F3 v.v… ứng

dụng cho nhận dạng và tổng hợp tiếng Việt để mô hình hóa sự phụ thuộc (cho

tổng hợp) và sự độc lập (cho nhận dạng) người nói. Đây là vấn đề nghiên cứu liên

ngành, do bản chất phức tạp của mô hình hóa hệ thống cấu âm (nhìn từ bên

trong), và các thể hiện khá phức tạp của formant trong các hiện tượng ngôn ngữ:

Phụ thuộc ngôn ngữ, vấn đề phương ngữ. Ngữ cảnh phát âm, đặc điểm âm vị/âm

tiết/từ/câu của ngôn ngữ đã làm cho hiện tượng diễn tiến của formant là khá phức

tạp, và vẫn là một vấn đề mở đang được quan tâm nghiên cứu trên thế giới. Một

hướng nâng cao chất lượng nhận dạng tiếng nói là nâng cao chất lượng nhận dạng

âm vị (chẳng hạn áp dụng phép chuẩn hóa VTLN). Đây là một hướng nghiên cứu

còn mở khá phức tạp do độ khu biệt trong ngữ cảnh câu phát âm liên tục của âm

vị không rõ ràng và phụ thuộc người phát âm, kiểu giọng đọc và đầu tiên cần một

corpus ngữ âm “lớn” v.v…Tuy nhiên nếu cải thiện được chất lượng nhận dạng âm

vị thì việc xây dựng các corpus huấn luyện nhận dạng cho các ứng dụng đặc thù

137

sẽ được tinh gọn, và qua đó giảm chi phí và thời gian triển khai một hệ nhận dạng

tên, nhận dạng đọc chính tả v.v…

- Ứng dụng tổng hợp và nhận dạng tiếng Việt trong các vấn đề hội thoại người

máy, điều khiển thiết bị, robot tự hành, ứng dụng hỗ trợ người khuyết tật v.v…

138

DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ [CT1] Ngô Hoàng Huy , Dự báo các giá trị ngôn điệu tiếng Việt cho tiếng nói tổng

hợp, Tạp chí Công nghệ Thông tin và Truyền thông, Tập V-1 số 6(26), 09-2011, trang

236-241.

[CT2] Ngô Hoàng Huy, Tổ hợp đường F0 và VTLN cho nhận dạng tên riêng tiếng

Việt, Tạp chí Tin học và Điều khiển học, trang 273 – 282, Tập 27, số 3, 2011.

[CT3] Ngô Hoàng Huy , Phạm Thượng Cát, Nguyễn Trịnh Nguyên, Nguyễn Tu Trung,

Ngô Trần Anh, (2012) Thiết kế hệ thống nhận dạng khẩu lệnh tiếng Việt điều khiển

thiết bị tự hành trên nền các vi hệ thống điện năng thấp với phép chuẩn hóa VTLN –

MFCC, hội nghị Cơ điện tử. VCM-2012.

[CT4] Nguyễn Tu Trung, Ngô Hoàng Huy, (2014) Tối ưu lưu trữ và tính toán tín hiệu

tiếng nói cho hệ tổng hợp Tiếng Việt dựa trên ghép nối, hội nghị quốc gia lần thứ VII

"Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin", FAIR 2014.

[CT5] Ngô Hoàng Huy , Trích chọn đặc trưng âm học tiếng Việt dựa trên F0 và biến

thể của MFCC với ước lượng VTLN từ các giá trị formant, hội nghị quốc gia lần thứ

VII "Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin", FAIR 2014.

CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN TỪ NĂM 2000-2006 (đồng tác giả) [2] Sử dụng mô hình Fujisaki và mạng neuron trong nhận dạng và tổng hợp thanh điệu

tiếng Việt, Kỷ yếu hội thảo “Nghiên cứu cơ bản và ứng dụng công nghệ thông tin

FAIR 2005, NXB KHKT.

[3] Nghiên cứu phát triển công nghệ tổng hợp và nhận dạng tiếng Việt, Kỷ yếu hội

nghị: Nghiên cứu cơ bản và ứng dụng công nghệ thông tin FAIR 2005, NXB KHKT

[4] Phân lớp các đường thanh điệu trong ngữ cảnh câu, Kỷ yếu Hội thảo Quốc gia,

NXB KHKT, 279-284.

[5] Nhận dạng thanh điệu tiếng Việt trên tiếng nói rời rạc phụ thuộc người nói, Kỷ yếu

Hội thảo Quốc gia, NXB KH&KT, 443-449.

139

[30] Problems of integrating a Vietnamese text-to-speech module into EUMS systems,

IOIT’s Workshop in 2001.

[31] Development of Automatic Data Entry Systems with Pattern Recognition

Techniques, International Symposium on Knowledge Creation in

Economics,Enviromental and Societal Systems, JAIST, Kanazawa, pp 72-78.

[32] Vietnamese text normalize and processing, Proceedings of National IT

Conference.

[33] Thiết kế các hệ thống nhận dạng tiếng Việt trong thời gian thực, Kỷ yếu báo cáo

hội nghị FAIR nghiên cứu cơ bản và ứng dụng công nghệ thông tin, 349 – 357.

[42] Toward integrating the Fujisaki model into Vietnamese TTS, Proceeding of the

International Conference on Spoken Language Processing, Korea.

140

TÀI LIỆU THAM KHẢO

Tiếng Việt

1. Đặng Ngọc Đức, Lương Chi Mai (2004), “Tăng cường độ chính xác của hệ thống

mạng nơ ron nhận dạng tiếng Việt”, Tạp chí Bưu chính Viễn thông - Chuyên san

các công trình nghiên cứu và triển khai Công nghệ thông tin và Viễn thông, 11,

75-81.

2. Ngô Hoàng Huy , Nguyễn Thị Thanh Mai, Quản Thái Hà, Nguyễn Huy Hoàng

(2006), Sử dụng mô hình Fujisaki và mạng neuron trong nhận dạng và tổng hợp

thanh điệu tiếng Việt, Kỷ yếu hội thảo “Nghiên cứu cơ bản và ứng dụng công

nghệ thông tin FAIR 2005”, NXB KHKT.

3. Lương Chi Mai, Bạch Hưng Khang, , Bùi Quang Trung, Vũ Tất Thắng, Nguyễn

Tiến Dũng, Nguyễn Thị Thanh Mai (2006), Nghiên cứu phát triển công nghệ tổng

hợp và nhận dạng tiếng Việt, Kỷ yếu hội nghị: Nghiên cứu cơ bản và ứng dụng

công nghệ thông tin FAIR 2005, NXB KHKT

4. Ngô Hoàng Huy , Nguyễn Thị Thanh Mai (2006), Phân lớp các đường thanh điệu

trong ngữ cảnh câu, Kỷ yếu Hội thảo Quốc gia, NXB KHKT, 279-284.

5. Ngô Hoàng Huy , Nguyễn Thị Thanh Mai (2006), Nhận dạng thanh điệu tiếng

Việt trên tiếng nói rời rạc phụ thuộc người nói, Kỷ yếu Hội thảo Quốc gia, NXB

KH&KT, 443-449.

6. Lê Hồng Minh (2003), Một số kết quả nghiên cứu và phát triển hệ phần mềm

chuyển văn bản thành tiếng nói cho tiếng Việt bằng tổng hợp formant, Kỷ yếu

Hội thảo Khoa học Quốc gia lần thứ nhất - Nghiên cứu Phát triển và Ứng dụng

Công nghệ Thông tin và Truyền thông (ICT.rda’03), 292-301.

7. Vũ Hải Quân và Cao Xuân Nam (2009), Tổng hợp tiếng nói tiếng Việt theo

phương pháp ghép nối cụm từ, Các công trình nghiên cứu, phát triển và ứng dụng

CNTT-TT, Tạp chí CNTT và TT, Tập V-1(1), 70-76.

8. Đoàn Thiện Thuật (2000), Ngữ âm tiếng Việt, NXB Đại học Quốc gia Hà Nội.

141

9. Huỳnh Công Tín, Giáo trình Cơ sở ngữ âm học, Đại học Cần thơ.

10. Trịnh Anh Tuấn (2000), Một số phương pháp nâng cao chất lượng hệ thống tổng

hợp tiếng Việt V-TALK, Tạp chí Bưu chính Viễn thông, Số 3, 19-23.

11. Trịnh Anh Tuấn, Nghiên cứu các đặc trưng để phân tích và tổng hợp tín hiệu âm

tần, Luận án tiến sỹ, Học viện Công nghệ Bưu chính Viễn thông.

Tiếng Anh

12. Alex Acero, Xuedong Huang,AUGMENTED CEPSTRAL NORMALIZATION

FOR ROBUST SPEECH RECOGNITION

13. Praveen Kumar Bamini , FPGA-based Implementation of Concatenative Speech

Synthesis Algorithm. Ph.D thesis.

14. Dragos Burileanu, Andrei Fecioru, Dragos Ion, Madalin Stoica, Costel Ilas

(2004), AN OPTIMIZED TTS SYSTEM IMPLEMENTATION USING

AMOTOROLA STARCORE C140-BASED PROCESSOR, Proceedings of the

International Conference on Acoustics, Speech, and Signal Processing ICASSP.

15. Shanqing Cai, H. Timothy Bunnell, Rupal PatelUnsupervised (2013), Vocal-tract

Length Estimation Through Model-based Acoustic-to-Articulatory Inversion,

14th Annual Conference of the International Speech Communication

Association,InterSpeech 2013.

16. Ken Chen, Sarah Borys, Mark Hasegawa-Johnson (2003), Prosody Dependent

Speech Recognition With Explicit Duration Modelling at Intonational Phrase

Boundaries, Interspeech 2003.

17. Ken Chen, Mark Hasegawa-Johnson, Aaron Cohen, Sarah Borys, Sung-Suk Kim,

Jennifer Cole, Jeung- Yoon Choi (2005), Prosody Dependent Speech Recognition

on Radio News Corpus of American English, IEEE transactions On Speech And

Audio Processing, vol.13,No.6, November 2005.

142

18. Chistikov, Korolkov, Talanov (2013), Combining HMM and unit selection

technologies to increase naturalness of synthesized speech, Proc. in 19th

International Computational Linguistics Conference, Naro-Fominsk, Russia.

19. Piero Cosi, Cinzia Avesani, Piero Cosi, Cinzia Avesani (2014), On The Use Of

Cart-Tree For Prosodic Predictions In The Italian Festival TTS, Cinzia Avesani,

Feb 14, 2014.

20. Tran DD, Castelli E, et al (2005), Influence of F0 on Vietnamese syllable

perception , Proc of Interspeech, Lisbon, 1697-1700.

21. Soumyajit Dey, Monu Kedia, Anupam Basu (2007), Architectural Optimizations

for Text to Speech Synthesis in Embedded Systems, Design Automation

Conference, 2007. ASP-DAC '07. Asia and South Pacific ISBN:1-4244-0629-3,

298 – 303.

22. Dung, Mixdorff, et al (2004), Fujisaki Model based F0 contours in Vietnamese

TTS, Proceedings of ICSLP2004.

23. Demiroglu (2012), A Small Footprint Hybrid Statistical and Unit Selection Text-

to-Speech Synthesis System for Turkish, Proc in ICASSP, 4537-4540.

24. Dusterhoff, Black (1997), Generating F0 contours for speech synthesis using the

Tilt intonation theory, Proceedings of ESCA Workshop of Intonation 1997, 107-

110.

25. Donovan (1996), Trainable speech synthesis, PhD thesis, Cambridge University

Egineering Department.

26. Daniel Elenius, Mats Blomberg (2010), Dynamic vocal tract length normalization

in speech recognition, Proceedings from Fonetik 2010 ISSN 0280-526X, 29-34.

27. Guner, Demiroglu (2012), A Small Footprint Hybrid Statistical and Unit Selection

Text-to-Speech Synthesis System for Turkish, Proc. in ICASSP, 4537-4540.

28. Hanilçi, Kinnunen (2014), Source Cell-Phone Recognition from Recorded Speech

Using Non-Speech Segments, Digital Signal Processing (to appear) Source Cell-

143

Phone Recognition from Recorded Speech Using Non-Speech Segments, ISSN

:1051-2004, DOI 10.1016/j.dsp.2014.08.008.

29. Huang, Acero, Hon (2001), Spoken Language Processing, Prentice-Hall.

30. Ngo Hoang Huy, Bach Hung Khang, Luong Chi Mai et al (2001),

Problems of integrating a Vietnamese text-to-speech module into EUMS systems,

IOIT’s Workshop in 2001.

31. Ngo Hoang Huy et al (2002), Development of Automatic Data Entry Systems

with Pattern Recognition Techniques, International Symposium on Knowledge

Creation in Economics,Enviromental and Societal Systems, JAIST, Kanazawa, pp

72-78.

32. Ngo Hoang Huy (2002), Nguyen Thi Thanh Mai, Bui Quang Trung, "Vietnamese

text normalize and processing, Proceedings of National IT Conference.

33. Ngo Hoang Huy, Luong Chi Mai, et al (2003), Thiết kế các hệ thống nhận dạng

tiếng Việt trong thời gian thực, Kỷ yếu báo cáo hội nghị FAIR nghiên cứu cơ bản

và ứng dụng công nghệ thông tin, 349 – 357.

34. Hunt, Black, Alan (2006), Unit selection in a concatenative speech synthesis

system using a large speech database, Proc. in ICASSP Vol.1, tr. 373-376. LNAI

4274, p87 – 94, Springer-Verlag, Berlin Heidelberg.

35. Cemal Hanilci, Tomi Kinnunen, Padmanabhan Rajan, Jouni Pohjalainen, Paavo

Alku, Figen Ertas (2013), Comparison of spectrum estimators in speaker

verification: mismatch conditions induced by vocal effort, Proc. Interspeech,

2881—2885.

36. Tomi Kinnunen, Md. Jahangir Alam, Pavel Matˇejka (2011), Frequency Warping

and Robust Speaker Verification: A Comparison of Alternative Mel-Scale

Representations Low-Variance Multitaper MFCC Features: a Case Study in

Robust Speaker Verification IEEE TRANSACTIONS ON SPEECH, AUDIO

AND LANGUAGE PROCESSING.

144

37. Bach Hung Khang, Luong Chi Mai, Ngo Hoang Huy, et al (2002) , Development

of Automatic Data Entry Systems With Pattern Recognition Techniques,

International Symposium on Knowledge Creation in Economics, Enviromental

and Societal Systems, Japan Advanced Institute for Science and Technology,

Kanazawa, 72-78.

38. Li Lee, Richard C. Rose (1996), Speaker normalization using efficient frequency

warping procedures. ICASSP 1996.

39. Jinyu Li, Member, Li Deng, Yifan Gong, Reinhold Haeb-Umbach (2013), An

Overview of Noise-Robust Automatic Speech Recognition”. IEEE TRANS.

AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. X, NO. X, XXX.

40. Jian Liu, Thomas Fang Zheng, and Wenhu Wu (2006), Pitch Mean Based

Frequency Warping, Chinese Spoken Language Processing, Volume 4274 of the

series Lecture Notes in Computer Science, 87-94.

41. Dang-Khoa Mac, Eric Castelli, Véronique Aubergé, MODELING THE

PROSODY OF VIETNAMESE ATTITUDES FOR EXPRESSIVE SPEECH

SYNTHESIS.

42. Hansjoerg Mixdorf, Nguyen Tien Dung, Lưong Chi Mai, Ngo Hoang Huy, Vu

Kim Bang (2004), Toward integrating the Fujisaki model into Vietnamese TTS,

Proceeding of the International Conference on Spoken Language Processing,

Korea.

43. Hansjoerg Mixdorf, Nguyen Tien Dung, Lưong Chi Mai, Ngo Hoang Huy (2003),

Quantitative Analysis and Synthesis of Syllabic Tones in Vietnamese, Proc. in

EUROSPEECH, 177-180.

44. Hansiorg Mixdorff, Nguyen Tien Dung, Vu Trung Nghia (2005), Duration

Modeling in a Vietnamese Text To Speech System, Speech Communication.

of vowel normalisation,” Language and Cognitive Processes, vol. 25, no. 6, pp. 808–839,

Jul. 2010.

45. P. J. Monahan and W. J. Idsardi, “Auditory sensitivity to formant ratios: Toward an account

145

46. Iosif Mporas, Todor Ganchev, Mihalis Siafarikas, Nikos Fakotakis (2007),

Comparison of Speech Features on the Speech Recognition Task, Journal of

Computer Science 3 (8), 608-616, ISSN 1549-3636.

47. Naresh Venkataramani (2013), J. PSoC based isolated speech recognition system,

Communications and Signal Processing (ICCSP), International Conference , 693 -

697 ISBN: 978-1-4673-4865-2.

48. Trung-Nghia PHUNG, Thanh-Son PHAN, Thang Tat VU, Mai Chi LUONG and

Masato AKAGI (2013), Improving the naturalness of HMM-based TTStrained

with limited data data by Temporal decomposition, IEICE TRANS. INF. &

SYST., Japan, Vol.E96(11), 2417-2426.

49. Kuldip, Paliwal (1998), SPECTRAL SUBBAND CENTROID FEATURES FOR

SPEECH RECOGNITION ICASSP.

50. Sankaran Panchapagesan, Abeer Alwan (2009), Frequency warping for VTLN

and speaker adaptation by linear transformation of standard MFCC, Computer

Speech and Language 23, 42–64.

51. Branislav Popović, Dragan Knežević, Milan Sečujski, Darko Pekar (2014),

AUTOMATIC PROSODY GENERATION IN A TEXT-TO-SPEECH SYSTEM

FOR HEBREW FACTA UNIVERSITATIS Series: Electronics and Energetics

Vol. 27, No 3, 467 – 477.

52. Michael Price, James Glass, Anantha P (2014), A 6mW 5K-Word Real-Time

Speech Recognizer Using WFST Models 2014 IEEE International Solid-State

Circuits Conference.

53. NGUYEN Hong Quang, NOCERA Pascal, CASTELLI Ericy and TRINH Van

Loan (2008), Tone Recognition of Vietnamese Continuous Speech using Hidden

Markov Model, HUT-ICCE, the Second International Conference on

Communications and Electronics.

54. William R. Rodr´ıguez, Oscar Saz, Antonio Miguel and Eduardo Lleida (2010),

On line vocal tract length estimation for speaker normalization in speech

146

recognition, VI Jornadas en Tecnología del Habla and II Iberian SLTech

Workshop, Vigo, Spain.

55. Hamid Sheikhzadeh, Etienne Cornu, Robert Brennan, Todd Schneider (2002),

REAL-IME SPEECH SYNTHESIS ON AN ULTRA LOW-RESOURCE,

PROGRAMMABLE DSP SYSTEM, ICASSP.

56. Hanna Silén, Elina Helander1, Jani Nurminen, Moncef Gabbouj (2010), Analysis

of Duration Prediction Accuracy in HMM-Based Speech Synthesis, Speech

Prosody Illinois 2010.

57. Silverman, Beckman, Pierrehumbert, Ostendorf, Wightman, Price, Hirschberg

(1992), ToBI: A Standard Scheme for Labeling Prosody Proc. ICSLP, 867-869.

58. Malcolm Slaney, Michael L (2014), THE INFLUENCE OF PITCH AND NOISE

ON THE DISCRIMINABILITY OF FILTERBANK FEATURES, Interspeech

2014.

59. Young-Woo Son, Jae-Keun Hong (2006), The formant-emphasized Feature

Vector for Speech Recognition in Noisy Condition, IPCV 2006, 52-55.

60. Taylor (2000), Analysis and synthesis of intonation using the Tilt model, J.

Acoust. Soc. Am, 107, 1697-1714.

61. Ye Tian, Jian-Lai zhuo, Min Chu, Eric Chang (2004), Tone Ricognition with

Fractionized Models and Outlined Features, ICASSP.

62. Thang Tat Vu, Dung Tien Nguyen, Mai Chi Luong, John-Paul Hosom (2005)

,Vietnamese Large Vocabulary Continuous Speech Recognition, EuroSpeech.

63. Vu Thang Tat, Luong Mai Chi, Satoshi, Nakamura (2009), An HMMbased

Vietnamese Speech Synthesis System, Proc. in Oriental COCOSDA, 116-121.

64. DO Van Thao, TRAN Do Dat, NGUYEN Thi Thu Trang (2011),

Nonuniformunit selection in Vietnamese Speech Synthesis, Proceedings of the

2nd SoICT, 165-171.

65. Ye Tian, Jian-Lai zhuo, Min Chu, Eric Chang (2004), Tone articulation modeling

for Mandarin spontaneous speech recognition, ICASSP.

147

66. Nguyen Thi Thu Trang et al (2014), INTONATION ISSUES IN HMM-BASED

SPEECH SYNTHESIS FOR VIETNAMESE, SLTU-2014, St. Petersburg,

Russia.

67. Nguyen Thi Thu Trang, Christophe D’Alessandro, Albert Rilliard, Tran Do Dat,

HMM-based TTS for Hanoi Vietnamese (2013), Issues in design and evaluation.

68. Yapanel, Hansen (2003), A New Perspective on Feature Extraction for Robust In-

Vehicle Speech Recognition, Eurospeech.

69. Lifu Yi, Jian Li, Xiaoyan Lou, Jie Hao (2006), A Unified Totally-Data-Driven

Framework for Duration and Intonation Modeling International Symposium on

Chinese Spoken Language Processing.

70. Ekaterina Verteletskaya, Boris Simak (2010), Enhanced spectral subtraction

method for noise reduction with minimal speech distortion, IWSSIP - 17th

International Conference on Systems, Signals and Image Processing.

71. Jian Yu, Meng Zhang, Jianhua Tao, Xia Wang (2007), A NOVEL HMM-BASED

TTS SYSTEM USING BOTH CONTINUOUS HMMS AND DISCRETE

HMMS.

72. Heiga Zen, Takashi Nose, Junichi Yamagishi, Shinji Sako, Takashi Masuko,

AlanW. Black, Keiichi Tokuda (2007), The HMM-basedSpeech Synthesis System

(HTS) Version 2.0, Proc. of ISCA SSW6 2007.

73. Puming Zhan and Alex Waibel (1997), Vocal tract length normalization for large

vocabulary continuous speech recognition, Technical report, CMU-LTI-97-150.

74. Puming Zhan, Martin Westphal (1997), Speaker normalization based on

frequency warping, ICASSP.

75. Naoya Wada, Shingo Yoshizawa, Yoshikazu Miyanaga (2005), A Real Time

Noise-Robust Speech Recognition System, ECTI Transaction CIT Vol 1, No 2.

76. Shizhen Wang, Yi-Hui Lee, Abeer Alwan (2009), Bark-shift based nonlinear

speaker normalization using the second subglottal resonance, INTERSPEECH.

148

77. Katrin Weber, Samy Bengio, Hervé Bourlard (2001), HMM2- Extraction of

formant Structures and their Use for Robust ASR.

Trang Web

78. Tiếng nói Phương Nam, http://www.ailab.hcmus.edu.vn/slp/

79. http://www.vnisg.com/vnisg-sanpham-181-0-0-0.html

80. www.cstr.ed.ac.uk/projects/festival/

81. http://htk.eng.cam.ac.uk/

82. http://hts.sp.nitech.ac.jp/

83. http://www.cypress.com

84. http://www.opener-project.eu/project/

85. http://www.praat.org

86. http://en.wikipedia.org/wiki/Named-entity_recognition

87. http://vi.wikipedia.org/wiki/Ti%E1%BA%BFng_Th%C3%A1i

88. http://vi.wikipedia.org/wiki/B%C3%ADnh_%C3%A2m_H%C3%A1n_ng%E1%

BB%AF

Đề tài nghiên cứu Khoa học

89. Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng

Việt. Đề tài cấp nhà nước 2001-2003. Viện CNTT chủ trì.

90. Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản

tiếng Việt. Đề tài cấp nhà nước 2007-2009. Viện CNTT chủ trì

91. Nghiên cứu thiết kế chế tạo các thiết bị và hệ thống tự động hóa thông minh sử

dụng tương tác người-máy bằng tiếng nói trong điều khiển. Đề tài cấp nhà nước

2007-2009. Đại học Bách Khoa Hà Nội chủ trì.

92. Nghiên cứu thiết kế và chế tạo hệ thống điều khiển bằng tiếng nói tích hợp vào

robot hút bụi tự động thông minh. Đề tài cấp thành phố 2011-2012. Viện CNTT

chủ trì.

149

PHỤ LỤC

Bảng một phần mạng câu sinh ra bởi bộ công cụ HTK [81]

VERSION=1.0 I=40 W=chis

N=1971 L=2258 I=41 W=minh

I=0 W=!NULL I=42 W=hocj

I=1 W=!NULL I=43 W=vieenj

I=2 W=SEND-END I=44 W=buwu

I=3 W=hocj I=45 W=chinhs

I=4 W=vieenj I=46 W=vieenx

I=5 W=an I=47 W=thoong

I=6 W=ninh I=48 W=haf

I=7 W=nhaan I=49 W=nooij

I=8 W=daan I=50 W=hocj

I=9 W=!NULL I=51 W=vieenj

I=10 W=ddaij I=52 W=buwu

I=11 W=hocj I=53 W=chinhs

I=12 W=an I=54 W=vieenx

I=13 W=ninh I=55 W=thoong

I=14 W=nhaan I=56 W=thanhf

I=15 W=daan I=57 W=phoos

I=16 W=thanhf I=58 W=hoof

150

I=17 W=phoos I=59 W=chis

I=18 W=hoof I=60 W=minh

I=19 W=chis I=61 W=cao

I=20 W=minh I=62 W=ddawngr

I=21 W=ddaij I=63 W=suw

I=22 W=hocj I=64 W=phamj

I=23 W=bachs I=65 W=haf

I=24 W=khoa I=66 W=nooij

I=25 W=haf I=67 W=cao

I=26 W=nooij I=68 W=ddawngr

I=27 W=ddaij I=69 W=suw

I=28 W=hocj I=70 W=phamj

I=29 W=bieen I=71 W=thanhf

I=30 W=phongf I=72 W=phoos

I=31 W=sown I=73 W=hoof

I=32 W=taay I=74 W=chis

I=33 W=ddaij I=75 W=minh

I=34 W=hocj I=76 W=cao

I=35 W=bieen I=77 W=ddawngr

I=36 W=phongf I=78 W=suw

I=37 W=thanhf I=79 W=phamj

151

I=38 W=phoos I=80 W=haf

I=39 W=hoof I=81 W=giang

…………… ………………………..

J=2074 S=1786 E=1787 J=2201 S=2 E=1914

J=2075 S=1787 E=1788 J=2202 S=1914 E=1915

J=2076 S=1788 E=1789 J=2203 S=1915 E=1916

J=2077 S=2 E=1790 J=2204 S=1916 E=1917

J=2078 S=1790 E=1791 J=2205 S=1917 E=1918

J=2079 S=1791 E=1792 J=2206 S=1918 E=1919

J=2080 S=1792 E=1793 J=2207 S=2 E=1920

J=2081 S=1793 E=1794 J=2208 S=1920 E=1921

J=2082 S=1794 E=1795 J=2209 S=1921 E=1922

J=2083 S=2 E=1796 J=2210 S=1922 E=1923

J=2084 S=1796 E=1797 J=2211 S=1923 E=1924

J=2085 S=1797 E=1798 J=2212 S=2 E=1925

J=2086 S=1798 E=1799 J=2213 S=1925 E=1926

J=2087 S=1799 E=1800 J=2214 S=1926 E=1927

J=2088 S=1800 E=1801 J=2215 S=1927 E=1928

J=2089 S=2 E=1802 J=2216 S=1928 E=1929

J=2090 S=1802 E=1803 J=2217 S=1929 E=1930

J=2091 S=1803 E=1804 J=2218 S=1930 E=1931

J=2092 S=1804 E=1805 J=2219 S=2 E=1932

J=2093 S=1805 E=1806 J=2220 S=1932 E=1933

J=2094 S=1806 E=1807 J=2221 S=1933 E=1934

J=2095 S=1807 E=1808 J=2222 S=1934 E=1935

J=2096 S=1808 E=1809 J=2223 S=1935 E=1936

152

J=2097 S=1809 E=1810 J=2224 S=2 E=1937

J=2098 S=2 E=1811 J=2225 S=1937 E=1938

J=2099 S=1811 E=1812 J=2226 S=1938 E=1939

J=2100 S=1812 E=1813 J=2227 S=1939 E=1940

J=2101 S=1813 E=1814 J=2228 S=1940 E=1941

J=2102 S=2 E=1815 J=2229 S=1941 E=1942

J=2103 S=1815 E=1816 J=2230 S=1942 E=1943

J=2104 S=1816 E=1817 J=2231 S=1943 E=1944

J=2105 S=1817 E=1818 J=2232 S=2 E=1945

J=2106 S=1818 E=1819 J=2233 S=1945 E=1946

J=2107 S=2 E=1820 J=2234 S=1946 E=1947

J=2108 S=1820 E=1821 J=2235 S=1947 E=1948

J=2109 S=1821 E=1822 J=2236 S=1948 E=1949

J=2110 S=1822 E=1823 J=2237 S=1949 E=1950

J=2111 S=2 E=1824 J=2238 S=1950 E=1951

J=2112 S=1824 E=1825 J=2239 S=1951 E=1952

J=2113 S=1825 E=1826 J=2240 S=1952 E=1953

J=2114 S=1826 E=1827 J=2241 S=1953 E=1954

J=2115 S=1827 E=1828 J=2242 S=1954 E=1955

J=2116 S=1828 E=1829 J=2243 S=2 E=1956

J=2117 S=1829 E=1830 J=2244 S=1956 E=1957

J=2118 S=1830 E=1831 J=2245 S=1957 E=1958

J=2119 S=1831 E=1832 J=2246 S=1958 E=1959

J=2120 S=1832 E=1833 J=2247 S=1959 E=1960

J=2121 S=2 E=1834 J=2248 S=1960 E=1961

J=2122 S=1834 E=1835 J=2249 S=2 E=1962

J=2123 S=1835 E=1836 J=2250 S=1962 E=1963

153

J=2124 S=1836 E=1837 J=2251 S=1963 E=1964

J=2125 S=1837 E=1838 J=2252 S=1964 E=1965

J=2126 S=1838 E=1839 J=2253 S=1965 E=1966

J=2127 S=1839 E=1840 J=2254 S=1966 E=1967

J=2128 S=1840 E=1841 J=2255 S=1967 E=1968

J=2129 S=2 E=1842 J=2256 S=9 E=1969

J=2130 S=1842 E=1843 J=2257 S=2 E=1970

1. Cách tổ chức cây dự báo CART của Wagon/Festival

1.1. Sự hỗn tạp trong dữ liệu (tạp âm)

Sự hỗn tạp của một tập mẫu được thiết kế để xem các mẫu giống nhau như thế

nào. Con số càng nhỏ thì tập mẫu càng ít bị pha tạp.

Đối với các tập mẫu với giá trị ước tính là liên tục, Wagon sử dụng phương sai

nhân với số các điểm mẫu. Phương sai có thể được dùng bởi nó rất có lợi cho các tập

mẫu rất nhỏ. Khi việc kiểm thử được thực hiện đang cố gắng giảm thiểu tính hỗn tạp

trên các phân vùng dữ liệu, mỗi phần với số lượng mẫu sẽ khuyến khích các phân vùng

lớn hơn, và thấy rằng nhìn chung là dẫn đến một cây quyết định tốt hõn.

Độ đo sự hỗn tạp khác có thể sử dụng nếu yêu cầu. Ví dụ một kỹ thuật phân cụm

đýợc sử dụng cho việc lựa chọn đõn vị hỗn tạp thực sự được sử dụng được tính toán

sao cho khoảng cách õ cõ lít trung bình giữa tất cả các véc tơ tham số trong tập mẫu.

Tuy nhiên ở trên hai cái đó là các độ đo chuẩn.

Định dạng câu hỏi

Wagon phải tự động định dạng các câu hỏi về mỗi đặc trưng trong tập dữ liệu.

Đối với các đặc trưng rời rạc, các câu hỏi được xây dựng cho mỗi thành phần của

tập, ví dụ nếu đặc trưng n có giá trị. Việc thực hiện của chúng ta hiện nay không hỗ trợ

những câu hỏi phức tạp hơn để đạt được kết quả tốt hơn (mặc dù mất phí tổn về thời

gian huấn luyện). Các câu hỏi về các đặc trưng là tập con nào đó của lớp thành viên có

154

thể đưa ra các cây nhỏ hơn. Nếu dữ liệu yêu cầu phân biệt các giá trị a,b,c từ d, e, f,

phương pháp của ta sẽ yêu cầu 3 câu hỏi riêng, nếu tập nhỏ các câu hỏi sẽ được tạo ra

thì việc này sẽ được thực hiện trong một bước mà không chỉ đưa ra một cây nhỏ hơn

mà còn không cần thiết chia các mẫu cho a, b, và c. Trong tập chung, thì việc tạo câu

hỏi là luật số mũ trên một số lượng các đối tượng trong lớp mặc dù có các kỹ thuật có

thể giảm số này bằng cách đánh giá kinh nghiệm. Tuy nhiên các kỹ thuật này hiện tại

cũng không được hỗ trợ. Lưu ý là tuy các cây được tạo ra một cách hình thức, Wagon

cũng hỗ trợ các câu hỏi như vậy nhưng Wagon sẽ không bao giờ đưa ra các câu hỏi này

mặc dù các kỹ thuật khác có thể sử dụng dạng câu hỏi đó (ví dụ phương pháp bằng tay)

Đối với các đặc trưng liên tiếp, Wagon cố gắng tìm ra một phân vùng của dãy các

giá trị tối ưu hóa tốt nhất sự hỗn tạp trung bình của các phân vùng. Điều này hiện tại

được thực hiện bởi việc phân chia tuyến tính dãy giá trị thành các phần nhỏ đã được

tiên đoán (mặc định là 10 phần) và kiểm thử mỗi phần chia. Việc kiểm thử lại không

tối ưu nhưng đòi hỏi sự chính xác hợp lý mà không yêu cầu số lượng tính toán lớn.

Tiêu chuẩn tạo cây

Có rất nhiều cách để ràng buộc thuật toán xây dựng cây để có thể tạo được cây tốt

nhất. Wagon hỗ trợ vấn đề này (mặc dù thông thường hầu hết các thuật toán đều không

hỗ trợ)

Trong hầu hết các dạng cơ bản của thuật toán xây dựng cây thì một sự phân loại

hoàn toàn tất cả các mẫu sẽ đạt được. Điều này tất nhiên không được tốt khi lấy các

mẫu không có trong dữ liệu huấn luyện. Vì vậy các đối tượng để xây dựng một cây

phân loại hồi quy sẽ phải phù hợp với các mẫu mới chưa được thấy. Phương pháp cơ

bản nhất để đạt được điều này là không phải xây dựng một cây đầy đủ mà yêu cầu là có

ít nhất n mẫu trong phân vùng trước khi một câu hỏi được coi là chia rẽ. Chúng ta quy

cho đó là giá trị dừng. 50 là giá trị dừng thường là tốt, nhưng phụ thuộc vào số lượng

dữ liệu vào, sự phân bố của nó, vv...giá trị dừng khác nhau có thể đưa ra nhiều cây tổng

quát hơn.

155

Một phương pháp thứ hai để xây dựng cây tốt là đưa ra một số dữ liệu huấn luyện

và tạo một cây (có thể vượt quá huấn luyện) với giá trị dừng nhỏ. Sau đó cắt cây tới vị

trí phù hợp tốt nhất để đưa ra dữ liệu. Điều này thường sinh ra các kết quả tốt hơn so

với một giá trị dừng cố định vì nó cho phép giá trị dừng thay đổi qua những phần khác

nhau của cây phụ thuộc vào việc tiên đoán tổng quát như thế nào khi so sánh đưa ra dữ

liệu.

Thường là tốt hơn nếu cố gắng xây dựng nhiều cây cân bằng hơn. Một giá trị

dừng nhỏ có thể làm cho thuật toán xây dựng cây t́m được tập nhỏ nhất quán các mẫu

với các câu hỏi rất cụ thể. Cây kết quả trở nên không cân xứng, nghiêng hẳn về một

phía và có lẽ không tối ưu. Thay vì có cùng giá trị dừng cây cân bằng hơn có thể xây

dưng nếu giá trị dừng được định nghĩa là một tỉ lệ phần trăm số các mẫu được xem xét.

Tỷ lệ phần trăm này ta gọi là yếu tố cân bằng. Vì vậy giá trị dừng sau đó sẽ lớn nhất

trong các giá trị được cố định đã được định nghĩa, và bằng yếu tố cân bằng nhân với số

lượng mẫu.

Để một số phạm vi các phép nhân entropy (hoặc phương sai) với số lượng mẫu

trong phép đo sự lẫn tạp cũng là cách để chống sự mất cân bằng trong việc xây dựng

cây.

Kỹ thuật tốt chúng tôi thấy là xây dựng cây kiểu hình thang. Trong trường họp

này thay vì xem xét tất cả các đặc trưng trong việc xây dựng cây tốt nhất, chúng tôi

tăng cường xây dựng những cây tìm kiếm đặc trưng nào làm tăng độ chính xác của cây

trên dữ liệu kiểm thử được cung cấp. Không giống như trong quá trình xây dựng cây

mà chúng ta đang tìm kiếm câu hỏi tốt nhất trên tất cả các đặc trưng, kỹ thuật này giới

hạn đặc trưng nào có sẵn để xem xét. Ðầu tiên nó xây dựng một cây sử dụng chỉ những

đặc trưng đã được cung cấp tìm kiếm đặc trưng đặc biệt đưa ra cây tốt nhất. Sự lựa

chọn đặc trưng đó là việc xây dựng n-1 cây với đặc trưng tốt nhất từ vòng đầu tiên với

mỗi đặc trưng còn lại. Quá trình này tiếp tục cho đến khi không còn đặc trưng nào làm

cho tính chính xác hoặc một số tiêu chí dừng (tỷ lệ phần trăm cải tiến) không đạt được.

156

Kỹ thuật này cũng là một kỹ thuật greedy ( tham lam) nhưng chúng ta vừa thấy

rằng khi nhiều đặc trưng được trình bày, ðặc biệt là khi một số rất tương quan với

nhau, việc xây dựng bậc thang đưa ra một cây mạnh hơn đáng kể trên dữ liệu kiểm thử

bên ngoài. Nó cũng thường xây dựng những cây nhỏ hơn. Nhưng tất nhiên cũng tốn chi

phí về thời gian tính toán.

Trong khi sử dụng lựa chọn bậc thang, mỗi đặc trưng mới được in ra. Sự cẩn thận

nên được chú ý trong việc phiên dịch nghĩa nó là gì. Không nhất thiết phải đưa ra thứ

tự và tầm quan trọng tương đối của các đặc trưng, nhưng có thể hữu ích nếu chỉ ra đặc

trưng nào quan trọng đặc biệt tới việc xây dựng này.

Phương pháp bậc thang kiểm thử mỗi cây thành công dựa vào tập kiểm thử lý

thuyết, (cân bằng, được tổ chức ra và các lựa chọn dừng được chú ý đối với mỗi kiểu

xây dựng). Vì đây là cách sử dụng tập thử nghiệm tối ưu hóa cây, không hợp lệ nếu

xem tập thử nghiệm đã được chỉ rõ như là một tập thử nghiệm chính thức. Tập thử

nghiệm khác được tạo bên ngoài nên được sử dụng để kiểm tra tính chính xác của các

cây được sinh ra.

1.2. Định dạng dữ liệu

Dữ liệu vào cho wagon ( và một số công cụ xây dựng mô hình khác trong thư

viện Edinburgh Speech Tools, nên gồm các véctơ đặc trưng, và mô tả các trường của

các véc tơ này.

Các véc tơ đặc trưng

Một véc tơ đặc trưng là một file với một mẫu trên mỗi dòng, với giá trị đặc trưng

là khoảng trắng biểu hiện sự tách nhau. Nếu các giá trị đặc trưng bao gồm khoảng trắng

thì bạn phải trích dẫn chúng sử dụng dấu ngoặc kép.

Chương trình dumpfeats (Festival) được thiết kế đặc biệt để sinh ra những file

như vậy từ cơ sở dữ liệu tiếng nói, nhưng những file này có thể được sinh ra từ bất kỳ

nguồn dữ liệu nào.

157

Mỗi vector phải có cùng số điểm đặc trưng (và theo thứ tự như nhau, các đặc

trưng có thể được xác định là “bỏ qua” trong mô tả (hoặc trong thực tế sử dụng ) do đó

thông thường các file dữ liệu chứa nhiều điểm đặc trưng hơn là luôn được sử dụng

trong xây dựng mô hình. Mặc định đặc trưng đầu tiên trong thư mục dữ liệu là biến cố,

mặc dù ít nhất là trong Wagon), các trường biến cố có thể đặt tên lúc xây dựng cây để

khác với trường đầu tiên).

Các đặc trưng phải là đơn trị, các đặc trưng đa trị hoặc giá trị bảng (danh sách)

hiện nay không được hỗ trợ. Lưu ý rằng điều này có nghĩa là 1 đặc trưng trong các mẫu

khác nhau có thể có các giá trị khác nhau, nhưng trong một mẫu riêng thì một đặc

trưng riêng chỉ có thể có một giá trị.

Một ví dụ mẫu là: (file .wag)

0.399 pau sh 0 0 0 1 1 0 0 0 0 0 0

0.082 sh iy pau onset 0 1 0 0 1 1 0 0 1

0.074 iy hh sh coda 1 0 1 0 1 1 0 0 1

0.048 hh ae iy onset 0 1 0 1 1 1 0 1 1

0.062 ae d hh coda 1 0 0 1 1 1 0 1 1

0.020 d y ae coda 2 0 1 1 1 1 0 1 1

0.082 y ax d onset 0 1 0 1 1 1 1 1 1

0.082 ax r y coda 1 0 0 1 1 1 1 1 1

0.036 r d ax coda 2 0 1 1 1 1 1 1 1

Lưu ý là thường có hàng nghìn thậm chí hàng trăm nghìn mẫu trong file dữ liệu,

và số các đặc trưng thường là hàng trăm, mặc dù cũng có thể nhỏ hơn 10 phụ thuộc vào

cái nó mô tả.

Mô tả dữ liệu

Một file dữ liệu cũng yêu cầu một file mô tả để đặt tên và phân loại các đặc trưng

trong file dữ liệu. Các đặc trưng phải có tên, v́ thế chúng có thể liên quan tới cây quyết

158

định (hoặc đầu ra mô hình khác) và cũng có thể được phân loại thành kiểu của nó. Các

kiểu cơ bản cho các đặc trưng là:

continuous : đối với các đặc trưng miền xác định vượt quá tập số thực (ví dụ thời

gian cuộc điện thoại)

categorial : đối với các đặc trưng có một danh sách các giá trị đã được định nghĩa.

(ví dụ tên điện thoại )

string : đối với các đặc trưng với một lớp các giá trị rời rạc. (ví dụ: các từ)

Mô tả dữ liệu bao gồm một danh sách mô tả các tính năng. Mỗi phần mô tả tính

năng bao gồm tên tính năng, và kiểu của nó (và các giá trị có thể). Tên tính năng theo

quy ước nên là những cái tên có ý nghĩa cho tính năng ( và tên đường dẫn) đã được sử

dụng trong suốt phần cấu trúc ở Edinburgh Speech Tools. Phương pháp dự kiến để sử

dụng các phương pháp được sinh ra từ tập các đặc trưng trong Edinburgh Speech Tools

là để áp dung chúng cho các đối tượng. Trong đó có một tên tính năng là tính năng của

một đối tượng (hoặc đối tượng có liên quan), tên đường dẫn sẽ tránh có thêm bước

chép các tính năng vào 1 bảng riêng biệt trước khi áp dụng mô hình.Tuy nhiên có thể

nói rằng với Wagon những tên này là những biểu hiện tùy ý và ngữ nghĩa của nó không

phụ thuộc vào thời gian huấn luyện.

Một file mô tả tiêu biểu như sau, phù hợp với file dữ liệu đưa ra ở trên: (file .des)

((segment_duration float)

( name aa ae ah ao aw ax ay b ch d dh dx eh el em en er ey f g hh ih

iy jh k l m n nx ng ow oy p r s sh t th uh uw v w y z zh pau )

( n.name 0 aa ae ah ao aw ax ay b ch d dh dx eh el em en er ey f g

hh ih iy jh k l m n nx ng ow oy p r s sh t th uh uw v w y z zh pau )

( p.name 0 aa ae ah ao aw ax ay b ch d dh dx eh el em en er ey f g hh

ih iy jh k l m n nx ng ow oy p r s sh t th uh uw v w y z zh pau )

(position_type 0 onset coda)

(pos_in_syl float)

159

(syl_initial 0 1)

(syl_final 0 1)

(R:Sylstructure.parent.R:Syllable.p.syl_break float)

(R:Sylstructure.parent.syl_break float)

(R:Sylstructure.parent.R:Syllable.n.syl_break float)

(R:Sylstructure.parent.R:Syllable.p.stress 0 1)

(R:Sylstructure.parent.stress 0 1)

(R:Sylstructure.parent.R:Syllable.n.stress 0 1)

Cũng có một số các ký hiệu đặc biệt được sử dụng trong file mô tả. Nếu kiểu bị

bỏ qua thì các đặc điểm sẽ bị bỏ qua trong quá trình xây dựng mô hình. Bạn có thể chỉ

định các đặc trưng để bỏ qua tại thời điểm tạo cây, nhưng thường là rất dễ dàng bỏ qua

hẳn đặc trưng trong file dữ liệu. Một file mô tả không thể được sinh ra trực tiếp từ một

tập dữ liệu mặc dù có thể gần đúng. Đặc biệt không thể tự động lựa chọn nếu như giá

trị một đặc tính là liên tục với các giá trị là số. Chương trình make_wagon_desc sẽ

dùng một file dữ liệu và file bao gồm chỉ tên của đặc tính và tên của file mô tả mà nó

sẽ tạo ra. Đây thường là một lần duyệt đầu tiên hữu ích mặc dù sau đó nó gần như chắc

chắn phải được chỉnh sửa bằng tay.

160

Định dạng cây

Những file cây tạo ra được viết như biểu thức Lisp vì cho đến nay đây là phương

pháp bên ngoài đơn giản nhất để mô tả (biểu diễn) cây. Cú pháp của 1 cây là:

TREE ::= LEAF | QUESTION-NODE

QUESTION-NODE ::= "(" QUESTION YES-NODE NO-NODE

")"

YES-NODE ::= TREE

NO-NODE ::= TREE

QUESTION ::= "(" FEATURENAME "is" VALUE ")" |

"(" FEATURENAME "=" FLOAT ")" |

"(" FEATURENAME "<" FLOAT ")" |

"(" FEATURENAME ">" FLOAT ")" |

"(" FEATURENAME "matches" REGEX ")" |

"(" FEATURENAME "in" "(" VALUE0 VALUE1 ... ")"

")"

LEAF ::= "(" STDDEV MEAN ")" |

"(" "(" VALUE0 PROB0 ")" "(" VALUE1 PROB1 ")" ...

MOSTPROBVAL ")" |

any other lisp s-expression

Lưu ý rằng không phải tất cả các dạng câu hỏi được tạo ra bởi Wagon nhưng

chúng được hỗ trợ bởi các bộ biên dịch

Các nút lá khác nhau tùy thuộc vào kiểu của cây. Đối với các biến cố liên tục (cây

hồi quy), lá bao gồm một cặp các floats, stddev và giá trị trung bình. Đối với các biến

cố rời rạc (cây phân loại) thì các lá là một hàm mật đồ xác suất cho các thành viên của

lớp. Và thành viên cuối cùng của danh sách là giá trị có thể xảy ra nhất. Lưu ý rằng

trong cả hai trường hợp giá trị cuối cùng của danh sách lá là câu trả lời mong muốn

trong nhiều trường hợp.

161

1.3. Xây dựng cây

Để xây dựng một cây quyết định (hoặc danh sách quyết định) Wagon yêu cầu dữ

liệu và mô tả của dữ liệu ấy. Một file dữ liệu bao gồm một tập các mẫu (hay tập các

vectơ), mỗi dòng bao gồm cùng một tập tính năng. Các tính năng có thể xác thực hoặc

liên tục. Theo mặc định thì thuộc tính đầu tiên là biến cố và các thuộc tính khác được

sử dụng như biến độc lập. Một file dữ liệu đặc trưng như sau:

.data

0.399 pau sh 0 0 0 1 1 0 0 0 0 0 0

0.082 sh iy pau onset 0 1 0 0 1 1 0 0 1

0.074 iy hh sh coda 1 0 1 0 1 1 0 0 1

0.048 hh ae iy onset 0 1 0 1 1 1 0 1 1

0.062 ae d hh coda 1 0 0 1 1 1 0 1 1

0.020 d y ae coda 2 0 1 1 1 1 0 1 1

0.082 y ax d onset 0 1 0 1 1 1 1 1 1

0.082 ax r y coda 1 0 0 1 1 1 1 1 1

0.036 r d ax coda 2 0 1 1 1 1 1 1 1

...

Các dữ liệu có thể xuất phát từ bất kỳ nguồn nào, chẳng hạn như chương trình

dumpfeats festival cho phép dễ dàng tạo những file như vậy từ những file âm thanh.

Ngoài ra một file mô tả cũng được yêu cầu, file mô tả cung cấp tên và kiểu cho mỗi

thuộc tính trong file dữ liệu. Đối với ví dụ file dữ liệu trên thì file mô tả sẽ như sau:

162

File mô tả:

((segment_duration float)

( name aa ae ah ao aw ax ay b ch d dh dx eh el em en er ey f g hh ih

iy jh k l m n nx ng ow oy p r s sh t th uh uw v w y z zh pau )

( n.name 0 aa ae ah ao aw ax ay b ch d dh dx eh el em en er ey f g hh

ih iy jh k l m n nx ng ow oy p r s sh t th uh uw v w y z zh pau )

( p.name 0 aa ae ah ao aw ax ay b ch d dh dx eh el em en er ey f g hh

ih iy jh k l m n nx ng ow oy p r s sh t th uh uw v w y z zh pau )

(position_type 0 onset coda)

(pos_in_syl float)

(syl_initial 0 1)

(syl_final 0 1)

(R:Sylstructure.parent.R:Syllable.p.syl_break float)

(R:Sylstructure.parent.syl_break float)

(R:Sylstructure.parent.R:Syllable.n.syl_break float)

(R:Sylstructure.parent.R:Syllable.p.stress 0 1)

(R:Sylstructure.parent.stress 0 1)

(R:Sylstructure.parent.R:Syllable.n.stress 0 1))

Tên các thuộc tính này là tùy ý, nhưng khi chúng xuất hiện trong cây được sinh ra

thì sẽ rất hữu ích nhất nếu cây có xu hướng được sử dụng trong việc dự báo cách thể

hiện tên ,và đường dẫn.

Cũng có thể đưa ra một tập dữ liệu kiểm thử nhưng phải phù hợp với mô tả dữ liệu đã

cho. Nếu lý thuyết cây xây dựng được kiểm thử được kiểm thử trên tập dữ liệu kiểm

thử và kết quả sẽ được hiển thị khi hoàn thành, nếu không có tập kiểm thử thì kết quả

đưa ra liên quan đến dữ liệu huấn luyện. Tuy nhiên trong trường hợp bậc thang, tập thử

nghiệm được sử dụng trong quá trình huấn luyện đa cấp, do đó nó không được coi là

163

dữ liệu kiểm thử đúng và các kết quả hợp lý hơn nên được tìm thấy bằng việc áp dụng

các cây sinh ra để đưa ra dữ liệu thực sự (thông qua chương trình wagon_test)[80]

2. Phân loại âm vị tiếng Việt

Âm đầu

Là yếu tố mở đầu âm tiết. Trong tiếng Việt có 21 phụ âm. Phụ âm mang tính độc

lập do không tham gia vào việc thay đổi về trường độ giữa các yếu tố bên trong âm tiết.

Phân loại

 Phân chia theo phương thức cấu tạo tiếng ồn

- Phụ âm tắc: tạo thành khi hai khí quản tiếp xúc nhau, tạo thành chỗ tắc, cản trở

hoàn toàn lối ra của luồng không khí. Ví dụ như các phụ âm [p], [b], [d], [t].

- Phụ âm xát: tạo thành khi hai khí quản nhích lại gần nhau, làm cho lối ra của luồng

không khí bị thu hẹp; luồng không khí đi qua khe hẹp này cọ xát vào thành của bộ

máy phát âm. Ví dụ, các phụ âm [v], [s], [h].

- Phụ âm rung: tạo thành khi các khí quản dễ rung động (như đầu lưỡi, lưỡi con hay

môi) nhích lại gần nhau tạo thành một khe hở rất hẹp hay một chỗ tắc yếu, luồng

không khí đi ra mạnh làm cho các khí quản ấy rung lên. Ví dụ phụ âm [r].

 Phân chia theo vị trí tạo ra tiếng ồn

Theo vị trí cấu tạo tiếng ồn, các phụ âm được chia ra thành các loại chính: phụ âm

môi, răng, ngạc mạc, lưỡi con, yết hầu, thanh hầu.

Theo khí quản chủ động, các phụ âm được chia thành các loại: phụ âm môi, lưỡi

trước, lưỡi giữa, lưỡi sau, lưỡi con, yết hầu, thanh hầu.

Phần vần

Theo như lược đồ âm tiếng Việt ở trên th́ phần vần đầy đủ gồm ba thành phần là

âm đệm, âm chính, và âm cuối.

Âm đệm

Đóng vai trò là âm lướt trong kết cấu âm tiết. Âm đệm ảnh hưởng đến cách mở

đầu của âm tiết (bên cạnh phụ âm đầu). Ví dụ: chữ ”toàn” khi phát âm có hiện tượng

164

tròn môi do tác động của âm đệm/-u-/, còn chữ ”tàn” thì không có hiện tượng tròn môi

do không có âm đệm.

Âm đệm /w/ có chức năng làm trầm hoá âm sắc của âm tiết. Âm đệm là yếu tố

đứng ở vị trí thứ hai, sau âm đầu. Nó tạo nên sự đối lập tròn môi (voan) và không tròn

môi (van). Trong tiếng Việt, âm đệm được miêu tả gồm âm vị bán nguyên âm /u/ (xem

Bảng âm vị nguyên âm) và âm vị "zero" (âm vị trống). Âm đệm "zero" có thể tồn tại

cùng tất cả các âm đầu, không có ngoại lệ. Âm đệm /u/ không được phân bố trong

trường hợp sau:

Âm chính

Là nguyên âm âm tiết tính trong âm tiết. Âm tiết chính có thể là một nguyên âm

đơn hay nguyên âm đôi.

Âm chính đứng ở vị trí thứ ba trong âm tiết, là hạt nhân, là đỉnh của âm tiết, nó

mang âm sắc chủ yếu của âm tiết. Âm chính trong tiếng Việt do nguyên âm đảm

nhiệm. Nguyên âm của tiếng Việt chỉ có chức năng làm âm chính và nó không bao giờ

vắng mặt trong âm tiết. Vì mang âm sắc chủ yếu của âm tiết nên âm chính là âm mang

thanh điệu.

Có nhiều ý kiến khác nhau về số lượng âm chính trong tiếng Việt. Nhưng nhìn

chung ý kiến cho rằng tiếng Việt có 16 nguyên âm chính (gồm 3 nguyên âm đôi, 13

nguyên âm đơn, trong đó có 9 nguyên âm đơn dài và 4 nguyên âm đơn ngắn) là có cơ

sở. Sau đây là hệ thống nguyên âm chính (xem thêm Bảng âm vị nguyên âm):

Âm chính gồm một hệ thống nguyên âm gồm 11 nguyên âm đơn /a, ă, â, e, ê, o, ô,

ơ, u, ư, i/ và ba nguyên âm đôi /iê, ươ, ưa/. Âm chính là yếu tố tạo nên đỉnh âm thanh,

có biên độ và cường độ lớn nhất trong các thành phần âm tiết.

Phân loại

Các nguyên âm không thể phân chia theo tiêu chuẩn như của phụ âm. Về mặt

phương thức cấu âm, nguyên âm chỉ thuộc vào một phương thức đó là luồng hơi ra tự

do. Nguyên âm không có vị trí cấu âm v́ các khí quản không tạo thành khe, cũng không

165

tạo thành chỗ tắc. Các nguyên âm cũng không thể phân loại theo tiếng thanh, v́ b́ nh thường, bất kỳ nguyên âm nào cũng có tiếng thanh.

Các nguyên âm chỉ khác nhau ở các hoạt động của khí quản phát âm, trong đó

quan trọng nhất là lưỡi. Vì sự thay đổi vị trí của lưỡi gây ra sự khác nhau rất lớn giữa

các nguyên âm. Lưỡi chuyển động tới-lui và lên xuống trong khoang miệng và tạo nên

những tương quan phức tạp giữa các khoang cộng minh (khoang miệng và mũi), làm

thay đổi hình dáng và thể tích của chúng. Môi tròn lại và đưa về trước, làm kéo dài lối

thoát của luồng không khí, hoặc môi chành ra, làm cộng minh trường phía trước ngắn

lại.

Người ta thường phân loại nguyên âm theo vị trí của lưỡi, độ nâng của lưỡi và

hình dáng môi

 Theo vị trí của lưỡi

Gồm các nguyên âm dòng trước (khi lưỡi dồn về trước), nguyên âm dòng sau (khi

lưỡi dồn về sau) và nguyên âm dòng giữa (khi lưỡi ở giữa miệng nâng lên). Ví dụ,

trong tiếng Việt, các nguyên âm dòng trước là [i], [e], [ê], nguyên âm dòng sau là [u],

[o], [ô], nguyên âm dòng giữa là [ư], [ơ], [].

Bảng 5. 1. Phân chia nguyên âm tiếng Việt theo độ nâng của lưỡi (Độ nâng của lưỡi

tương ứng với độ mở của miệng).

Ðộ nâng Gồm các nguyên âm

Hẹp [i], [u], …

Hơi hẹp [ê], [u], …

Hơi rộng [o], [e], …

Rộng [], [], …

 Theo hình dáng môi

Các nguyên âm được chia thành nguyên âm tròn môi ([u], [ô], [o]), nguyên âm

không tròn môi ([i], [ê], [e], [ư], [ơ], []). Sự tròn môi rõ nhất ở nguyên âm khép và yếu

nhất ở nguyên âm mở.

166

Âm cuối

Là âm kết thúc âm tiết. Các âm tiết tiếng Việt thường đối lập bằng những cách kết

thúc khác nhau. Một số âm tiết kết thúc bằng sự kéo dài và giữ nguyên, ví dụ: má, đi,

cho, ... Số âm tiết khác kết thúc bằng cách biến đổi âm sắc của âm tiết ở phần cuối do

sự đóng lại của các âm cuối tham gia, ví dụ như một, mai, vàng, ... Trong trường hợp

đầu, ta có các âm cuối là âm vị /zero/, trong trường hợp sau ta có các âm cuối là những

âm vị bán nguyên âm hoặc phụ âm.

Âm cuối có vị trí cuối cùng của âm tiết, nó có chức năng kết thúc một âm tiết. Do

vậy khi có mặt của âm cuối thì âm tiết không có khả năng kết hợp thêm với âm (âm vị)

nào khác ở phần sau của nó. Ví dụ: trong "cúi", thì "i" là âm cuối kết thúc âm tiết nên

sau nó không thêm gì cho âm tiết lại. Trái lại, trong "quý", do "y" không phải là âm

cuối vì có thể thêm vào sau nó một âm cuối như "t" trong "quýt", "nh" trong "quýnh",

v.v. Những âm tiết còn có khả năng thêm vào âm cuối như "quý" ở trên, trong thực tế

vẫn được kết thúc như một âm tiết hoàn chỉnh. Bởi vì ở vị trí cuối (vị trí kết thúc âm

tiết) lúc ấy có mặt một âm cuối, được gọi là âm cuối zero đối lập với tất cả các âm cuối

khác.

Âm cuối là bán nguyên âm /u/ (ngắn) có âm sắc trầm chỉ được phân bố sau các

nguyên âm bổng và trung hoà, trừ nguyên âm "ơ" ngắn, ví dụ trong níu, áo, bêu diếu,

cầu cứu... Bán nguyên âm cuối /i/ (ngắn) có âm sắc bổng chỉ được phân bố sau các

nguyên âm trầm và trung hoà, ví dụ trong tôi, chơi, túi, gửi, lấy...

Âm cuối zero là một âm vị trống nên không được biểu thị bằng chữ viết. Nó

đối lập với 6 âm cuối ở bảng trên, giống như âm đệm zero đối lập với âm đệm /u/, âm

tắc thanh hầu /?/ đối lập với các phụ âm khác trong hệ thống các phụ âm đầu.

Hệ thống âm cuối tiếng Việt bao gồm hai bán nguyên âm là /i, o/ và sáu phụ âm

/m, n, ng (nh), p, t, c/.

167

Bảng 5. 2. Bảng phiên âm tiếng Việt

Ví dụ phiên âm

Âm vị IPA Phiên

Con chữ Ví dụ

âm ASCII b 1 b buồn bã buonz ba

2 dd đ đẫy đà ddaaiz dda

3 t t tan tác tanz, tacz

4 th th thơm tho thowmz tho

5 tr tr trục trặc trucz, trawcz

6 ch ch chuồn chuonz

7 k k (đứng trước i, ê, e, iê) kiêu kỳ, keo kieuz ki, keuz kietz

kiệt

8 k c (đứng trước u, o, a, ) cầu cạnh, caauz ceangz,

cuốc cuoocz

9 k q (luôn luôn đứng trước âm đệm quây quần, kwaaiz kwaanz,

u ầ đ m Â

/u/) quốc, quyết, kwoocz, kwietz,

quắc mắt kwawcz mawtz

10 m m mượt mà muwowtz ma

11 n n no nê no nee

12 nh nh nhanh nheangz

13 p p Pà, páo,pả pa, pauz, pa

14 ng ngh (đứng trước i, ê, e, iê) nghi, nghê ngi, ngee

15 ng ng ngủ ngày ngu, ngawiz

16 ph ph phất phới phaatz phowiz

17 v v vội vã vooiz va

18 x x xa xôi xa xooiz

19 d d dễ đãi dee daiz

168

gi giỏi giang doiz dangz 20 d

g gì, giữ gìn gi i, duw giinz 21 gi

l long lanh longz leangz 22 l

s sớm sủa sowmz suo 23 s

r ra ruộng ra ruongz 24 r

kh không khí khoongz khi 25 kh

gh (đứng trước i, e, ê) ghế, ghi gee, gi 26 g

g gà ga 27 g

h hối hả hooiz ha 28 h

o (đứng trước a, ă, e), u (đứng hoa hoè, huy, hwa hwe, hwi, 29 w

(âm trước i, ê, ơ, â) tuần, phuy, twaanz, phwi,

đệm) u luôn luôn đứng sau phụ âm q quân, quy, kwaanz, kwi,

quốc, quyết, kwoocz, kwietz,

tuyệt, thuật twietz, thwaatz

30 i i, y tinh tích, ty, tingz ticz, ti, ki

kỹ

ê ênh ếch ttheengz ttheecz 31 ee

e nghe, ve nge, ve 32 e

33 ea a (trước ch, nh ) sách, xanh seacz, xeangz

u súng, vui sungz, vuiz 34 u

ô ô tô tthoo, too 35 oo

o cỏn con conz conz 36 o

37 oa o (trước c, ng) vòng, voangz, toacz,

tóc,ròng rọc roangz, roacz

h n í h c m Â

38 ooo oo (trước ng, c) xoong, xooongz, mooocz,

(phiên âm ooo để phân biệt với moóc, loong looongz, tooongz

ô) toong

169

39 uw lừ đừ luw dduw ư

40 ow lơ mơ low mow ơ

41 aa ân cần tthaanz caanz â

42 a lan can,lại lanz canz, laiz a

43 aw ă, a (trước au, ay) ăn năn, lau tthawnz nawnz,

tay lawuz tawiz

44 ie ia (khi trước không có âm đệm kia, thìa, bia kie, thie, bie

và sau không có âm cuối)

45 ie ya (khi trước có âm đệm khuya khwie

46 ie iê (khi trước không có âm đệm tiên tiến tienz tienz

và sau có âm cuối)

47 ie yê (khi trước có âm đệm, âm tắc yêu, uyển tthieuz, tthwienz,

thanh hầu hoặc sau nó có âm chuyển, yếm, chwienz, tthiemz,

cuối là bán nguyên âm) yến tthienz

48 uo ua (khi sau không có âm cuối) mua, vua muo, vuo, chuo

chúa

49 uo uô (khi sau có âm cuối) muộn, tuồn, muonz, tuonz,

cuốc cuocz

ưa (không có âm cuối) mưa, vừa muwow, vuwow 50 uwow

51 uwow ươ (khi có âm cuối) ương bướng tthuwowngz

buwowngz

chập chaapz 52 pz p

cắt kawtz 53 tz t

i ố u c m Â

đom đóm ddomz ddomz 54 mz m

màn, sơn manz, sownz 55 nz n

170

thích, sạch thicz, seacz 56 cz ch (đứng sau i, ê, ɛ̆)

c (còn lại) được,việc dduwowcz, vieecz 57 cz

nh (đứng sau i,e, á,a) mình, ánh mingz, eangz, 58 ngz

nhanh nheangz 59 ngz

ng (còn lại) vùng,vằng vungz, vawngz

u (còn lại, đứng sau a, e) bao gạo, mèo bauz, gauz, meuz,

uz kêu, cheo keeuz, cheuz leuz,

leo, lêu leeuz ngeeuz,

nghêu, đau ddawuz ddawuz,

đáu, hữu, huwuz, suwuz,

sửu, thành theangz tuwuz

tựu

i mây bay, maaiz beaiz, noiz, 61 iz

nói, rồi, cái rooiz, kaiz tuiz

túi

62 tth Âm tắc thanh hầu đứng trước ăn, yếu, ở, tthawnz, tthieuz,

những âm tiết không có phụ âm âm, ân, uy, ý tthow, tthaamz,

đầu (thực chất là các âm tiết ko tthaanz, tthwi, tthi

có phụ âm đầu)

g n ó đ m Â

Không sử dụng

171

3. Cơ sở dữ liệu ngữ âm

ngoài sân đình đám a Lừng a Tía mang lá đa ra chơi đồ hàng 1.

sáng sớm dân làng gọi nhau í a í ới đi làm 2.

chị đã trả rẻ lại còn kề cà không muốn mua 3.

lũ trẻ bắt được cà ra đem bán lấy tiền mua sách 4.

tan học chúng còn la cà chưa đứa nào muốn về nhà ăn cơm 5.

ngày rằm ả Thị Mầu đem lễ lên chùa trêu ghẹo chú tiểu 6.

trong nhà bác cả rất bực tức khi nghe tin cô út có mang 7.

sáng nào cũng vậy ba bà lại rủ nhau đi thể dục buổi sáng 8.

bác đã bôn ba khắp nơi để tìm đường cứu nước 9.

người nước ngoài thường nói phong ba bão táp không bằng ngữ pháp việt nam 10.

nhảy qua điệu rum – ba đến điệu cha cha cha nó vňng tay qua eo cô kéo lại gần 11.

sáng nào bố cũng đi tập I ô ga cùng các cụ 12.

bụng bảo dạ nó không thích người lạ xen vào 13.

bác sĩ nói phải xạ trị mới chữa được bệnh ung thư 14.

15. mùa hè Nga rất thích gội đầu nước sả cho thơm tóc

ở nhà này hắn chỉ được cái ba hoa chích chòe thôi 16.

sáng mai khoa toán kiểm tra 15 phút môn hóa đấy 17.

hôm qua, họa hoằn em mới nhìn thấy chồng chị đi mua hoa về cắm 18.

chị thốt lên ngạc nhiên ô thế hóa ra Hoa là người đưa ra lời hòa hoãn à 19.

ngoài cổng cái loa phóng thanh phường hôm nào cũng loa loa điếc cả tai 20.

cảnh mẹ góa con côi khổ lắm chị ạ 21.

bà chúa oa rất thích hoa trắng và người có khoa nói 22.

nó khóc òa lên khi nghe anh dọa đưa ra tòa 23.

nó hỏng rồi, hóa ra cái khóa ấy không dùng được à 24.

25. mua được một cái đèn dầu hỏa là đã thỏa lòng mong ước

26. cả làng nói chị Hoa là đĩ thõa như thế thì ai thèm lấy

172

anh mà cứ đọa đầy nó thế sẽ mang họa vào thân 27.

còn hai tháng nữa là khóa học kết thúc chị có dự định gì chưa 28.

29. một tai họa đổ xuống đầu anh chị khi vội vượt qua toa tàu hỏa lúc xe chết máy

30. phải tính chính xác tọa độ cho máy bay hạ cánh an toàn

31. học sinh mang hai đóa hoa tặng cô giáo nhân ngày nhà giáo

32. nhìn thấy tiền nó lóa mắt mà nói lời chua ngoa không ai nghe được

33. ai cũng biết vua ngọa triều ăn chơi sa đọa đến nỗi không ngồi được

34. con dâu bà đang tác oai tác quái ngoài đồng kia kìa

35. các anh cứ mặc xác nó không tôi lại mang tiếng ác với hàng xóm

36. khẩu phần phải chia chác cho đều không các bạn tranh nhau

37. nhiều làng mạc bị thiêu rụi sau một trận bom oanh tạc của giặc

38. các sếp ác quá, khác ý các quan trên liền bị tố giác ngay

39. anh ấy đã học xong thạc sĩ ngành đo đạc thủy văn

40. nói cho cùng có khác đâu chỉ như con vạc mà thôi

41. nỗi buồn man mác của một người con xa tổ quốc

42. mắt con tôi bị lác bác sĩ khám giùm cho nó

43. từ lâu thác I a ly vốn là điểm du lịch nổi tiếng

44. Anh bị ngộ độc vì ăn phải lạc mốc để lâu

45. Thằng bé cũng chạc tuổi con trai bác thôi

46. Vịt con đói quá kêu cạc cạc đòi ăn

47. tiếng lá rơi xào xạc làm chị nhớ đến các con

48. Bà ta vốn là người nói khoác nổi tiếng nhất cái làng này

49. căn nhà trống hơ trống hoác chẳng có lấy một món đồ có giá trị

50. mày cứ quang quác cái mồm thế thì làm sao lấy được chồng

51. thôi nói toạc ra đi dấu mãi cũng không được nữa rồi

52. nín được vài giây thằng bé lại ngoạc mồm ra khóc

53. học loạc choạc như mày thì đỗ đại học làm sao được

54. nó chỉ được cái ba tếch ba toác thế thôi chứ cũng tốt tính lắm

173

anh cố khoạc cái xương ra khỏi cổ đi 55.

đi tập thể dục người ta bắt xoạc cẳng đau hết cả đùi 56.

xé mạnh quá cái áo rách toạc rộng hoác 57.

chiếc áo khoác bị rách toạc ra 58.

hậu vệ xoạc dữ quá nên vết thương bị ngoác ra 59.

anh gọi vợ dậy sau khi nghe tiếng lạch cạch ngoài cửa 60.

61. Bọn trẻ rất thích ăn thạch rau câu

tục ngữ có câu đói cho sạch rách cho thơm 62.

họ là khách dưới ách thống trị của chính sách phân biệt chủng tộc lại trở nên 63.

hách dịch

chị ì à ì ạch lạch bạch chạy đến nơi thì hết sạch gạo bán rồi 64.

nhà tôi ở ngách 29 ngõ 310 mà suốt ngày nghe tiếng lạch cạch của xe đổ rác 65.

gần đây các sách giáo khoa lịch sử có rất nhiều sai sót 66.

ngày mai tôi bận tiếp khách rồi hẹn anh khi khác nhé 67.

con vẹt nói liên hồi có khách có khách 68.

chị mua cá chạch phải ngâm muối cho sạch nhớt ăn mới đỡ tanh 69.

thời gian này nó tự tách ra khỏi đội và thách thức đội khách thắng trong 5 phút 70.

71. mặc bộ com lê đeo cà vạt trông ông rất oách

thằng bé mới chập chững biết đi nên ngã xoành xoạch trên sân nền gạch 72.

chạy trên sân tập bọn trẻ ngã oành oạch mà không thấy đau 73.

bát canh rau đỏ quạch mà nó ăn ngon lành 74.

75. mặt trời đỏ quạch khuất dần sau dãy núi

nhà anh đi mua quách đi ông ấy sắp chết rồi 76.

chồng nghiện ngập thế thì bỏ quách đi cho đỡ khổ 77.

suốt ngày ngồi nhậu lai rai chẳng biết đến ngày mai sẽ làm gì 78.

những anh con trai đủ mười tám tuổi phải lên đường nhập ngũ 79.

khuôn mặt tai tái của chị làm bà sinh nghi chị đang có thai 80.

con chim rái cá sà xuống mặt nước quắp được hai con cá 81.

174

82. chị rầm mưa rãi nắng cả ngày mà không kiếm đủ tiền nuôi hai con gái

83. lần trong hòm lấy ra dải lụa đã phai màu nhưng chị vẫn phải mang bán

84. chị vẫn mải mê và từng trải trong sự nghiệp đến lúc chị đã ngoài 40 mà chưa có

chồng

85. ngoài đồng trên bãi đất trống bọn trẻ đang mải mê thả diều

86. mọi người đồng thanh nói đúng là tại anh tại ả tại cả đôi đường

87. trời mưa rồi thật tai hại chúng mình phải cắm trại ở tại đây thôi

88. tất cả sư sãi phải ở lại trong chùa làm khổ sai cho bọn giặc

89. nhiều người sắm điện thoại đẹp cho oai chứ chưa chắc đã có tiền

90. trai làng đi làm ăn xa hết, đám choai choai cũng rủ nhau đi chẳng đứa nào chịu ở

nhà trồng khoai trồng sắn

91. phở là món ăn khoái khẩu của chị

92. nhiều người ở ngoài hà nội rất thích ăn xoài miền nam

93. anh đừng đoái hoài đến chị ta, có gì khoái đâu gái ba con rồi

94. bác sĩ khám nó kêu oai oái nghe mà oải quá

95. đi cả ngày bải hoải cả người rồi, làm không được thoải mái nữa

96. tập môn này phải choãi rộng chân ra mới đúng kỹ thuật

97. mua điện thoại loại này khó giữ lắm

98. tối đến nghe tiếng rao mua khoai chị không nguôi ngoai nỗi nhớ các con ở quê

nhà

99. thời tiết mấy hôm nay nóng nực làm người ta dễ oải chẳng muốn làm việc

100. nấu canh hến phải loại bỏ những con hỏng ra không canh mất ngon

101. vết thương của chị bắt đầu hoại tử trông gớm chết

102. nó nghe vậy thoái thác không đi nhưng dốc thoai thoải rất dễ đi

103. anh cứ ăn thoải mái tôi mua nhiều lắm

104. nó chuẩn bị soãi mấy cái chân cọc để cắm trại

105. anh phải choãi rộng ra mới chắc chắn

106. ra biển bắt con sam về đem rửa sạch nấu rất ngon

175

107. Hôm qua đẹp ngày trong làng chạm ngõ rất đông

108. Bức phù điêu chạm trổ được nhiều người khen

109. giám đốc nói trong lúc làm việc không được buôn chuyện

110. nhiều rừng chàm đước sắp bị hủy diệt

111. Dân tộc chàm đang được học tiếng Việt

112. Hắn định dở trò sàm sỡ khi thấy chị đi ngang qua bờ đê

113. Mẹ cô đã ngam ngám mấy đám trong làng cho cô

114. chỉ vì lòng tham, hám của hắn đánh mất cả con

115. Lòng tham vô đáy hám của Lý Thông đã lừa thạch sanh

116. gặp người đàn ông hôm ấy chị thầm hàm ơn đã cứu giúp chị trong đêm tối

117. làm công việc nghiên cứu phải làm việc chăm chỉ

118. Con chó càm cái quần của trẻ con vào bếp

119. Lợn ốm nên chê cám mấy ngày nay rồi

120. bấy lâu chị sám hối nhưng đã muộn quá rồi

121. Mùi hôi hám những chiếc chăn lâu không giặt

122. Lúc sáng tám chàng khiêng con lợn

123. Lượng lậu cũng tàm tạm nhưng không đủ nuôi con

124. Bộ bài tam cúc đã bán rồi vợ không cho chơi nữa

125. trong buồng cô Sam đang sắm sửa quần áo chuẩn bị đi chơi

126. Anh nói thế là có hàm ý gì vậy

127. Gắn thêm hạt vào đế làm dép đẹp hơn

128. Mẹ đi chợ ế cám dong duổi mang về

129. chị có nước da sạm đen giúp nó khỏe

130. nếu chị mua đúng gạo tám xoan nấu rất thơm

131. Mua ngao tám mươi nghìn một cân

132. Bị tai nạn người nó vốn vạm vỡ những vẫn xám ngoét

133. Cơn mưa xám xịt đằng đông

134. Quả trám nấu cá rất ngon

176

135. Mùa trám đi hái trám chín về ăn

136. Các ông già tam bảo đánh tam cúc, nó đi hãm ấm chè mới

137. Nghề trạm khắc đòi hỏi phải khéo tay

138. Hôm qua công an tạm giam tám tên trộm

139. Tiếng cô gào làm khắp xóm thức giấc

140. Vì tham lam quá người anh bị rơi xuống biển

141. Vợ chồng làm ăn lam lũ chẳng kiếm được mấy đồng

142. Gặp người quen trông lịch lãm làm anh bối rối

143. ăn nhồm nhoàm vội bữa cơm anh lại vội đi làm ngay

144. con mèo ngoàm con chuột vào gầm giường

145. đói quá nó ngoạm một miếng thịt rất to

146. con chó ngoạm một miếng thật to rồi chạy

147. chữ viết nguệch ngoạc thế thì chỉ được một điểm thôi

148. râu ria quai nón của anh xồm xoàm làm đứa trẻ sợ hãi

149. chưa hoàm hồn anh kể lại vụ đắm tàu cho mọi người nghe

đứng trên lan can người yêu anh giơ tay vẫy

150. khan hiếm nước càng phải giữ an toàn khi xúc than

151. muốn an nhàn với đàn ngan thì tìm cách hàn cái chậu han đi

152. khán giả chán quá kiện lên tòa án rằng ở nhà hát bán vé lậu

153. đơn giản là hát khản cổ mà chẳng ai nghe

154. tên cướp mãn hạn tù hung hãn đe dọa tại khu giãn dân

155. sông rất cạn nước ở mạn đầu nguồn đã gây hạn hán

156. vụ án mạng trên đường vẫn chưa tìm ra thủ phạm

157. trẻ em 2 tuổi phải uống thuốc tẩy giun sán

158. cán bộ phải làm gương cho người dân

159. từ trong lán anh công nhân san lấp mặt bằng đi ra

160. cầm can rượu anh trèo lên lan can tường nhà uống cạn

161. khai thác san hô để bán là nghề mà nhiều ngư dân t́m đến

177

162. mùa mưa là mùa sinh sản của muỗi

163. ngăn cản mãi không được cô gái nhảy xuống sông tự vẫn

164. ăn cơm chan canh mà vẫn nhặt được mấy hột sạn

165. hãn hữu lắm tôi mới nghĩ nông cạn thế

166. sắp đến mùa nhãn, mùa vải ong bướm tha hồ ve vãn

167. cười mãn nguyện người cha thơm vào trán con trai mới sinh

168. thời kì mãn kinh là thời kì gây ra nhiều khó chịu cho phụ nữ

169. bài toán cô giáo cho khó quá nó không giải được

170. trước đám cháy toàn một màu đen kịt

171. thuốc cải tử hoàn sinh đã được con người kiếm tìm từ hàng nghìn năm nay rồi

172. trần quốc toản là một vị tướng trẻ dũng cảm

173. sao bữa ăn đạm bạc thế toàn rau là rau

174. tôi hoàn toàn không biết chuyện gì đã xảy ra

175. đeo dây chuyền vàng có gắn hột xoàn trông rất đẹp

176. em ấy đã từng thi đỗ kì thi toán quốc tế

177. hoán dụ là một định nghĩa khó giải thích cho học sinh

178. chuyến bay bị hoãn do thời tiết xấu

179. phải có noãn mới sinh sản được

180. sau bao toan tính anh ấy đã phải chịu án oan suốt bao nhiêu năm

181. oan gì mà oan có mà oan thị mầu thì có

182. oan lắm con ngoan thật mà

183. hoàn toàn phụ thuộc vào sự đoàn kết nội bộ

184. đừng giữ oán hận trong lòng

185. với môn toán không học khoán được đâu

186. lên chùa hay được ăn oản

187. khoản ấy nó tuyệt ra trò

188. bàn thắng thật ngoạn mục

189. giếng khoan phải khoan sâu mới có nhiều nước

178

190. sửa soạn đi sắp đến giờ đón dâu rồi

191. chị thiết đãi khách một bữa cơm thịnh soạn

192. thời kì loạn lạc có người tốt như thế là hiếm lắm

193. đi chùa bà nhớ mang nhiều oản cho cháu nhé

194. làm ngân hàng có nhiều khoản thu ngoài lương chính

195. sang sông con sáo sổ lồng bay xa

196. đường kẻ ngang sang bên phải đang chạy thẳng lại bị nghiêng đi

197. hàng tháng vào các buổi sáng đi mua bánh tráng

198. ở kia có một bảng đen nằm trên trảng cỏ

199. trông nó cứ như yến tử lãng thanh

200. mầu rơm vàng óng ả

201. người của từng làng phải xếp vào thành hàng

202. chàng tráng sĩ với áng thơ nổi tiếng

203. mới sáng ra đã có người đến đòi tiền

204. mới tang tảng sáng đã có nhiều người đi tập thể dục đầy đường

205. ông lão đã ngoài tám mươi tuổi nhưng giọng vẫn còn sang sảng

206. hỏi chuyện học hành thế nào nhưng nó vội lảng sang chuyện khác

207. trời chạng vạng tối hai anh em đã rủ nhau đi đánh dậm

208. lúc đó tôi ngất đi chỉ mang máng nhớ có người gọi điện

209. nhiều hãng di động tung ra nhiều chiêu khuyến mại mới

210. anh chàng ấy lãng tử lại đẹp trai nên được nhiều cô gái thích

211. phải sàng lọc mới mong tìm được nhân tài

212. mày cứ láng cháng không chịu làm việc là tao nện cho đấy

213. đừng hoang tưởng, mày huênh hoang quá đấy nhóc ạ

214. bà ta có một ngôi nhà nhỏ tuềnh toàng gần ga

215. khuềnh khoàng vừa vừa thôi chứ

216. tay cầm chai rượu nó khệnh khoạng bước vào quán

217. tiếng gọi oang oang giữa rừng hoang

179

218. trong quang cảnh ảm đạm ấy, chị quáng quàng tìm đường về

219. tiếng súng nổ ùng oàng làm các con vật bàng hoàng

220. làm những người đàng hoàng

221. đều đã trở thành loàng xoàng

222. thoáng thấy ánh kim loại sáng loáng

223. phải tìm nước uống nước khoáng

224. một tiếng kêu xoảng trong gió thoảng

225. qua làm người nghe phát hoảng

226. con hoẵng loạng choạng

227. lúc ốm mẹ tôi chỉ thích ăn cháo loãng

228. trời nhập nhoạng tối, anh mới dắt con trâu vào chuồng

229. anh thanh niên mặc manh áo màu xanh giống như mầu của lá chanh

230. đành vậy thơ dành riêng cho em cô con gái nhà lành

231. chứ không phải hành tỏi với ánh mắt như đánh giặc

232. lại một gánh nặng trên vai tránh làm sao được ánh mắt lạnh lùng của thiên hạ

233. tặng em bức ảnh của người anh hùng hào kiệt

234. tuy nó mảnh khảnh nhưng rất rảnh rỗi và đẹp trai lắm

235. lãnh đạo rất hãnh diện với thành tích của viện

236. đi cạnh anh tưởng mạnh lắm hóa ra lại rất lạnh lùng

237. trời hanh hảnh rồi mang thóc ra phơi thôi

238. đừng đành hanh thế cô nàng đỏng đảnh ạ

239. con chim oanh còn mới toanh

240. đùng đoành súng nổ giặc mỹ hoành hành

241. oánh nhau đi tiếng hô đặc quánh lại

242. mắt nó ráo hoảnh ngoảnh đầu quay đi

243. hoãnh thì bỏ đi thôi chỉ được cái hoạnh họe là giỏi

244. đừng oánh nhau nữa công an đến lại hoạnh tiền bây giờ

245. kế hoạch cứ thay đổi xoành xoạch biết đường nào mà lần

180

246. bức hoành phi đang được hoàn thiện

247. chiếc xe toành toạch đã theo anh suốt chặng đường

248. ào ào mưa rào đổ xuống bờ ao phải trèo lên cao mới không bị ướt

249. tiếng lá lao xao nhớ cồn cào những kỷ niệm học trò

250. nó rảo bước trên con đường dài đá kêu lạo xạo

251. tại sao cái ao trước cửa lại lao đao

252. bom đạn quân thù ào ào gào thét

253. cả trung đội cào đất làm hàng rào và đào hào trú ẩn

254. chúng nó kháo nhau cái áo rét của mày

255. bố láo lắm con cáo táo bạo thật

256. mày nói xạo nó đâu có đỗ

257. nạo đu đủ đi để làm nộm

258. ông lão lần từng bước lên cầu thang

259. chạy như tào tháo đuổi

260. thảo nào mày chỉ ảo tưởng hão huyền

261. mà chưa bị khảo đã thưa

262. mão là năm con mèo, phải dùng dây chão cột chặt nó lại

263. thạo đời quá nhỉ các cụ vẫn nói mạnh vì gạo bạo vì tiền không sai

264. lão hạc thương con chó lắm những chẳng biết làm sao

265. con sáo của tao sổ lồng bay cao đang chao liệng nhìn xuống kìa

266. dạo trước tao hay gặp nó trao đổi bài bảo ban nhau nhưng bây giờ thôi rồi

267. anh có cháo gì, cháo trai hay cháo sườn

268. nhão như dây chão thế này thì tham gia thi đấu thế nào được

269. quán chuyên bán đồ xào, mực xào, tim xào, rau xào

270. đừng có ảo tưởng hão huyền nữa nó bảo sao nghe vậy à

271. mày đừng nói láo con báo đã đi rồi

272. chơi pháo rất nguy hiểm bao nhiêu trẻ em đã chết vì pháo

273. bây giờ chỉ còn pháo hoa thôi

181

274. mèo kêu ngoao ngoao đuổi bắt chú chuột nhỏ

275. bọn trẻ rất sợ mỗi khi người lớn nói ngoáo ộp, ngoáo ộp

276. nhưng anh đã đáp lại, ngồi đây nói chuyện cũng mát .

277. mày đạp xe áp sát vào tháp rùa mua một ít giấy nháp

278. đi xe đạp hay sao mà đi chậm chạp thế

279. sớm hôm sau , Lựu đạp xe tới cơ quan .

280. áp bức các tộc người thiểu số

281. Đa số áp đảo thiểu số

282. trời bỗng nổi phong ba bão táp vì đang có áp thấp nhiệt đới mà

283. ngáp vừa thôi không thầy nhìn thấy bây giờ

284. cái sạp bán hàng sáp của chị hái ra tiền

285. nó rất thích ra tháp xem múa sạp

286. mưa rào vừa dứt đã có tiếng ếch kêu ộp oạp

287. oáp oạp là từ láy

288. soáp soạp, ngoáp ngoạp là những từ rất khó phát âm

289. mận này vừa chua vừa chát bán sát giá đi

290. hai đứa mang hạt dưa tạt vào quán chát ngồi xem hát

291. chí phèo mạt đời mạt kiếp nghèo khổ

292. đạn bay sát sạt trên đầu khiến anh phải cúi rạp xuống

293. một cái tát bạt tai trời giáng của chồng chị tấm tức khóc

294. em là con át chủ bài trong bài hát này nên rát họng cũng phải cố hát

295. thượng tá Vũ Sinh lạnh toát người trong một thoáng hồ nghi

296. soát bài bằng cách đọc lưu loát lại toàn bộ

297. thoạt tiên xem một bộ phim hoạt họa

298. da đỏ au dưới nắng

299. sau đây mọi người mau đến nhận trầu cau ăn hỏi của con tôi

300. nó làu bàu nói giàu quá cũng khổ

301. mắt nhìn hau háu được sáu ván liền

182

302. thằng cháu phát cáu bẳn lên

303. máu cờ bạc lại được tăng cao

304. con hàu ở dưới biển trông như con hến ở nước ngọt

305. không tìm được từ nào có vần ãu

306. đành bịa thành sãu vậy

307. ăn nhậu là từ của người miền nam

308. bây giờ người ta đang vận động con cháu đi hiến máu

309. đừng có bạu xạu là người ta cho ăn đòn đấy con ạ

310. cháu bị điểm kém sao mà mặt càu cạu cau có thế

311. bàu cát là địa danh ở cần thơ

312. nó dảu môi ra đọc làu lạu bài thơ

313. thằng bé nhai đá rau ráu không biết ghê răng

314. mày đừng có làm bộ cấm ca cấm cảu thế

315. mặt mũi quàu quạu trông đáng sợ quá

316. bị người yêu bỏ mà mặt mày quàu quạu thế hả em

317. ai cũng có hai mắt hai tai và hai bàn tay chai sạn

318. cần phải thay ngay cái máy xay này

319. máy cày chạy giữa ban ngày

320. mình áy náy quá cứ táy máy làm cháy mất cái vô tuyến

321. hết thảy mọi người đều bị ỉa chảy phải uổng bảy viên thuốc

322. chạy vạy mãi mới kiếm được một chỗ làm

323. anh thợ xây đang say đây này

324. chị ấy bị sảy thai rồi, máu đang chảy kia kìa

325. hết thảy mọi người đều tảy chay hàng tầu

326. dân tộc tày thích mang chày giã gạo

327. nó bị gãy tay hay gãy chân hả chúng mày

328. để sáng mai hãy hay cứ chạy vạy thế này mệt lắm

329. anh ta phải loay hoay mãi mới làm xong được cái máy này

183

330. không nên viết ngoáy như thế

331. mất công bà xoay xoả , làm lụng , ngong ngóng đợi chờ hai hôm nay

332. nó ngoay ngoảy bỏ đi trước sự chứng kiến của mọi người

333. dòng nước xoáy sâu vào bờ là vỡ đê

334. nó hí hoáy thế nào mà tháo được cái điện thoại ra

335. chắc không được mà họ cứ thắc mắc hoài

336. cẩn thận không chết sặc nước chè đặc lắm đấy

337. đôi mắt sắc như dao

338. sao nhà anh chị hay hục hặc thế

339. một xu một cắc cũng không vì thuốc này có mùi hắc rất khó uống

340. chẳng mắc mớ gì đến anh, chắc chắn nó sẽ đi thi hội thi sắc đẹp

341. cả bọn cười sằng sặc sau khi uống rượu tắc kè

342. bây giờ từ tặc là từ mới người ta hay nói lâm tặc, tin tặc, không tặc, hải tặc bây

giờ có cả đinh tặc

343. cái đầu con giun ngúc ngoắc trông ghê quá

344. chúng nó móc ngoặc với nhau lấy tiền của nhà nước

345. nước cống thối hoắc bắn tung tóe vào người đi đường

346. có nhiều lựa chọn hoặc thi đại học, hoặc thi cao đẳng hoặc đi học nghề

347. Ngày nào hai nhỏ cũng phải khục khặc nhau vài lần

348. mẹ dày công chăm bẵm mà nó chẳng thấy lớn

349. Trưa hè nắng gắt bọn trẻ rủ nhau đi bắt căm căm về làm mắm

350. Bà Ba xăm xắn đi trước ông bước đi sau

351. ngày ba mươi tết dân làng nô nức đi sắm tết

352. vừa về đến nhà mẹ đã giục đi tắm rồi vào ăn cơm nắm chấm muối vừng

353. khách ăn xong con phải lấy tăm cho ông chứ

354. Bác vá hộ tôi cái săm xe

355. Con trâu đẵm mình trong đầm nước giữa trưa hè nắng gắt

356. Nhà bà ấy nuôi tằm, trồng dâu nuôi tằm là nghề vất vả lắm

184

357. Nhộng tằm nấu với lá chanh ăn rất ngon

358. Nó nhìn chằm chằm vào bức ảnh

359. chăm học mà lại chơi khăm nhau bằng que tăm nhọn thế à

360. con tằm trong ngày rằm tháng giêng

361. tắm lắm thế mày không thấy mùi khăm khẳm à

362. cái giếng sâu thăm thẳm

363. nó vào nhà xin nước và ẵm luôn chiếc điện thoại rồi

364. đi vạn dặm đường không tìm được nước, nó bặm môi bực tức

365. thật oái oăm chị lại gặp anh trong ngày cưới

366. hình như có chiếc lông quặm trong mắt tôi không nhìn thấy gì cả

367. nó quặm mặt vào trông đáng sợ

368. con cò quăm đi ăn đêm kêu quằm quắm quẳm

369. hắn biết ăn năn hối hận và khăn gói lên đường đi chăn trâu

370. nỗi nhọc nhằn thuở ấu thơ hằn sâu vào kí ức

371. chắn nước ở đầu nguồn khác gì bị rắn cắn vào chân

372. mày hay cáu bẳn lắm

373. cái xe của tao hơn hẳn chứ hả

374. ai chặt sẵn cho mình rồi cứ như đẵn gỗ ấy

375. vết đứt nhẵn lắm phải chặn bọn lâm tặc ấy lại

376. hẳn anh đã nghe câu đời cha ăn mặn đời con khát nước

377. phải ngăn chặn ngay tội ác của chúng nó lại

378. tóc xoăn còn được gọi là quăn

379. đau oằn người đi và chạy ngoằn ngoèo

380. xoắn chặt vào nhau đánh cho quắn đít vào

381. chỗ này vừa xoẳn cho một người

382. ngày dằm chắc sẽ được ăn oản thoái mái

383. nhưng choẳn thì không có

384. không hiểu ăn gì mà bụng đau quặn lại

185

385. hết xoẳn rồi không còn cái gì mà ăn cả

386. sống ở lạng sơn ăn ngay búp măng

387. thắng vụ này anh sẽ được thăng quan tiến chức

388. thằng cuội đi tìm chị hằng nga

389. suốt chặng đường không khí bỗng im ắng như không

390. ánh nắng sáng trắng đã thắng được bóng đèn

391. vụt một cái vào cẳng chân nằm thẳng cẳng ra

392. hẵng gượm đã lẵng hoa của ai đó bị bỏ quên này

393. thằng bé cứ lẵng nhẵng đòi theo mẹ đi chợ

394. im lặng quá chẳng ai nỡ nặng lời với nó

395. rẽ ở chỗ ngoặt tới con hoẵng dài loằng ngoằng

396. chiếc xe moóc dài loằng ngoằng

397. nó ngúng ngoẳng bỏ đi không một lời xin lỗi

398. con chó bị đánh đau kêu úng oắng ủng oẳng

399. hồ này đầy ắp cá mang hai cặp cần câu là câu được khối cá

400. sắp thi học kì rồi mà cặp chẳng có nổi một quyển sách

401. cầm cặp, thắp nến học bài đi sắp thi đến nơi rồi

402. nó nhìn chằm chặp khiến tôi ngượng quá

403. mùa này đầy ắp những xe chở cải bắp ở khắp mọi nơi

404. chặp nữa đi gặp ông ta chiến thắng để bày tỏ rõ quan điểm

405. nó bị con trăn quặp chặt đến ngạt thở

406. đại bàng quắp công chúa

407. thằng nghiện nằm chân tay co quắp

408. anh râu quặp nổi tiếng với những pha hài

409. đạt đến đỉnh cao cũng là lúc mạt vận kiên trì ắt làm được

410. cắt sắt, ngắt lời làm tắt cả hi vọng

411. kẻ sặt là địa danh ở hưng yên

412. trói chặt vào không con gà sổng ra đấy

186

413. ngày mai chúng mày phải ra đồng gặt lúa giúp mẹ

414. các bà nội trợ ngày càng thắt chặt chi tiêu

415. thằng oắt con loắt choắt chạy nhanh thoăn thoắt

416. mày cầm cái gì nhọn hoắt vậy

417. mềm oặt như bún

418. trong giấc mơ mình được ăn xôi gấc

419. ruộng bậc thang cứ như các bậc tiểu học

420. mày đừng xấc láo bây giờ tấc đất là tấc vàng đấy

421. nấc thang thiên đường là bộ phim ăn khách

422. uống nước là cách tốt nhất để chữa nấc

423. trong tiếng việt không có từ quấc, quậc

424. Ăn một bát ấm cả ruột

425. Tiếng nổ ầm không biết ở đâu

426. Giọng hát Trọng Tấn trầm ấm mượt mà

427. Chị Tâm đến nhà vay tiền

428. Rặng trâm bầu nhà hàng xóm rất đẹp

429. Nét mặt trầm tư của Bà làm chị suy nghĩ

430. Đi tù về hắn lầm lũi chẳng gặp ai

431. Vào nhà mà mặt lầm lầm lì lì thế hả

432. Ông đi Hàn Quốc về cho sâm nhung

433. trời ẩm ướt quá, siêu thị bị cấm cửa mấy ngày

434. Bị tát chị tấm tức khóc

435. Cơm nguội hâm nóng cũng chẳng ngon

436. Chim cút hầm với hạt sen rất bổ

437. Không biết khấm khá từ bao giờ mà khinh người thế

438. Thằng bé lẫm chẫm biết đi ông bà vui quá

439. Chiếc áo màu sẫm là của chị

440. Ông ngẫm một lúc rồi gọi con dâu

187

441. Đọc truyện kiều phải suy ngẫm thì mới ngấm

442. Không biết nó ngấm ngầm tính mưu kế gì

443. Cho muối đầm đậm vào không nhạt hoét

444. Đánh cây cao đậm đấy

445. Lội qua đầm cảm thấy mệt quá

446. Anh trên xe bị đâm một nhát chết

447. số phận hẩm hiu của chị làm ai cũng thương tiếc

448. gửi thư cho cây tầm gửi

449. mầu xanh thẫm trông rợ lắm

450. rừng rậm rạp quá làm chậm bước tiến của Sâm

451. tiếng sâm cầm nhỏ vỗ cánh

452. rồi câm lặng giữa thâm cung

453. ầm ầm như mầm non nghĩa địa

454. học thì ấm vào thân chứ khỏi chân lấm tay bùn nói mãi không thấm

455. nơi này ẩm ướt quá, được rồi ca cẩm mãi

456. em bé lẫm chẫm đi từng bước

457. chân tao đau thậm tệ, đi chầm chậm lại gì mà làm om sòm thế

458. vợ chồng tôi lấn bấn mãi mới đến thăm anh chị được

459. chị thử vận bộ quần áo này xem có đẹp không

460. bây giờ bọn trẻ bị cận thị nhiều lắm

461. làm sao cân được ân tình của hai bác

462. không chỉ với người thân mà cả với người dân bình thường

463. thần sắc nó dần dần hồi phục lại dấn thân vào lửa

464. đàn anh đã để lại ấn tượng khó quên

465. khấn anh thêm một lạy rồi tôi đi

466. lẩn thẩn vừa chứ con ma nó vừa ẩn vừa hiện thế nào được

467. mất cái nhẫn quý ấy bà ta bị lẫn luôn

468. hận đời làm gì cây mận sẽ cho nhiều quả mà

188

469. bà ấy lúc nào chả cân lọ nước mắm đếm củ dưa hành

470. đừng chần chừ nữa vào đi không muộn giờ bây giờ

471. sao mày cứ tần ngần, đờ đẫn ra thế thầy Tân đang hỏi mày đấy

472. ông ấy già nên rất hay lú lẫn, lẩn thẩn

473. bà lần mần gì mà lâu thế, lên đây tôi nói chuyện nào

474. tôi phân vân mãi không biết có nên gọi cho anh không

475. mày phải tuân lệnh của cấp trên chống lại quân thù tàn phá quê ta

476. cần phải thuần hóa con ngựa bất kham ấy

477. tuần này trôi đi nhanh quá

478. trông nó rất tuấn tú

479. nếp quấn này bị gãy

480. quận tây hồ được lập ra rất thuận buồm xuôi gió

481. nó trình bày luẩn quẩn quá

482. chắc có gì uẩn khúc bên trong

483. gia đình là hậu thuẫn quan trọng vậy

484. mà trong cơn cùng quẫn nó đã tự tử

485. mùa xuân là mùa cây cối đâm chồi nảy lộc

486. được điểm mười người lâng lâng nhưng phải biết vâng lời cô giáo

487. vầng trăng sáng trên tầng trời cao

488. thượng giới là đấng tối cao

489. khi trời hẩng sáng mọi người mới ngẩng mặt lên

490. con chó nhẩy cẫng lên vui mừng gặp chủ cũ

491. bâng khuâng tiễn bạn đi xa

492. em như quầng trăng sáng quanh ta

493. quầng mỡ này bỏ đi

494. ấp chiến lược, ấp tân sinh

495. núi ấp ôm mây , mây ấp núi

496. chiến thắng ấp bắc ở cấp độ chiến lược mức độ thấp

189

497. các thuyền ập đến vây con cá mập

498. và tập trung cao độ để làm sập bẫy

499. mật gấu thật rất quí hiếm

500. trong năm ất hơi cất công lấy bao nhiêu là đất mất rất nhiều thời gian

501. tất cả là mười ngày mà phải hất đi

502. thật buồn cười sếp vừa gật đầu

503. nó vội lật đật chạy lại bất chấp cả đường hẹp

504. uất ức gì nữa khuất mắt trông coi thôi

505. năm nay là năm tuất mà

506. cẩn thận không tao quất cho một roi đấy

507. hàng xuất khẩu mà làm như thế à

508. có ý chí quật cường, với tinh thần kỷ luật cao

509. nghệ thuật biểu diễn của anh đã đạt tới đỉnh điểm

510. trong tiếng việt có từ quấp, quập không nhỉ

511. không đâu quấp, quập làm gì có nghĩa gì

512. đừng lo âu quá thức đêm thâu mới biết được lòng người sâu hay cạn

513. mất quả thầu xây nhà này sầu hết nói

514. đầu tiên chỉ cầu mong được hầu mọi người thôi

515. từ thủa ấu thơ theo dấu chân bác

516. mưa ngâu, đục ngầu, châu chấu phá lúa ghê quá

517. đừng đấu đầu, cần phải đấu lại chúng

518. khẩu súng kia trông giống như cái cần cẩu xây dựng

519. mưa là hiện tượng ngẫu nhiên thôi

520. chúng nó ngồi chầu hẫu ra mà tán gẫu

521. mậu dịch thu mua mận hậu và đậu xanh

522. mây trắng cây cao má em hây hây đỏ

523. chầy chật lắm thầy giáo mới cho bẩy điểm

524. ấy sao lại thế cái đấy cần thêm được mấy điểm nữa

190

525. ẩy mạnh vào, dẩy đổ bức tưởng rồi nhẩy qua

526. mồm bóng nhẫy người thật đẫy đà

527. đậy lại kẻo con mèo nó cậy vung ra đấy

528. tết đến cả nhà lại quây quần bên nồi bánh chưng ôn lại chuyện cũ

529. thằng nhóc quậy ghê quá

530. lắc đầu nguây nguẩy

531. mày đừng khuấy nước cá chạy hết bây giờ

532. khi rang lạc phải khuấy đều mới ngon

533. thằng bé quấy quá, đi mua quẩy về dỗ nó đi

534. anh ấy e ngại nên đã đe nó rằng

535. vải the không che được mắt thánh

536. uống nước chè dưới bóng tre rất có lợi cho sức khỏe

537. cá mè nấu canh ăn ngon lắm

538. mùa hè mày nhớ hé cửa ra cho con nghé nó vào ăn rau hẹ nghe chưa

539. cuốn tiểu thuyết này tẻ nhạt lắm

540. bị ghẻ hay sao mà gãi mẻ tay ra vậy

541. quân ta tiến công mạnh như thế chẻ tre

542. nói khẽ khàng thôi nhưng phải cho ra nhẽ và kín kẽ

543. bài hát nghe có câu mẹ nhẹ nhàng đưa lối

544. thằng bé khóc oe oe cứ đòi khoe mái tóc vàng hoe mới nhuộm

545. bông hoa nở xòe ra trong từng khóe mắt

546. chúc sức khỏe, ba chõe là tác giả của nhiều bức tranh phiếm họa

547. hoạnh họe gì nữa bọn choai ấy ăn khoai suốt mà vẫn cứ làm như oai lắm

548. con lợn bị bắt đi kêu eng éc, èng ẹc thương nó quá

549. đói quá con khỉ kêu kẹc kẹc mà vẫn chưa được ăn

550. tiếng pháp méc xi là cảm ơn phải không

551. tránh ra xe chở téc nước đang đến đấy

552. anh làm ơn thanh toán bằng séc cho tôi

191

553. bỏ quân sẹc ra bài chỉ còn 28 quân

554. được em yêu mua que kem chảy rồi

555. mắt kèm nhèm chẳng xem được ti vi

556. chị trang thèm ăn kem kèm với xôi nóng

557. ém quân nơi hoang vắng có thể bị chém giết

558. chiến lược thế là quá kém, quân bị cháy sém hết rồi

559. anh có thích ăn ghém không ngon lắm

560. không nhìn thấy đâu giấu nhẹm đi

561. bảng tuần hoàn có kẽm không nhỉ

562. có chứ kẽm là nguyên tố quan trọng đấy

563. nó nhai bỏm bẻm một cách khổ sở

564. ở biển có con vem hay vẹm không

565. ai không chen ngang sẽ được khen thưởng

566. nhớ lấy thêm củi chèn vào và đốt đèn sáng lên

567. mới đi đến lò rèn được

568. chim én bay lượm ngoài khơi

569. miền nam gọi cái bát là cái chén có phải không

570. ba dẻn là cầu thủ nổi tiếng một thời

571. ăn dè sẻn thôi mai hết tiền rồi

572. giao thông làm tắc nghẽn đường phố

573. xấu hổ hay thẹn chú ý vào không nghẹn bây giờ

574. con chó quen hơi quen tiếng chủ rồi

575. sao mày đi quèn quẹt thế để cho em ngủ chứ

576. tiếng việt có từ nào là quẹn, quẻn, quén, quẽn không hả

577. không có từ nào là quẹn, quén, quẻn, quẽn cả chỉ có quen, quèn thôi

578. thằng ấy chỉ là nhân viên quèn bao giờ mới ngóc đầu lên được

579. tiếng tầu điện chạy leng keng trong đêm

580. người mày thấp tèng chứ gì

192

581. đừng có mà léng phéng con gái nhà người ta nó chém chết đấy

582. thanh niên thời này toàn ăn cơm trước kẻng

583. vỡ đê tiếng kẻng vang lên liên hồi

584. chiếc xe đạp mèng quá rồi vứt đi thôi

585. cho tôi mua năm xèng thú nhún

586. tìm được từ loeng, quéng, quẹng thật khó

587. có tiếng gì xủng xoẻng ở trong bếp thế

588. có gì xủng xoẻng đâu con đang lấy mâm mà

589. có con rắn đấy eo ôi phải trèo lên thôi

590. cái loại kẹo dán da trâu ấy mà cũng ăn

591. nó đi kéo theo cả ruồi bọn mèo mả gà đồng

592. thèm loại bánh bèo rán kêu xèo xèo thơm phức

593. mày cần thận đi đéo gì khéo tay một tí

594. cái kéo cùn quá cắt tóc làm méo cả đầu tao rồi

595. sao trông nó lẻo khà lẻo khẻo thì làm nên trò trống gì

596. miệng cười ngặt nghẽo khi nhìn chú heo làm trò

597. trong tiếng kẽo kẹt của chiếc xe cũ rích

598. tao có mẹo này mày phải cho ăn kẹo đồng ý không

599. bảo vệ mà lại đi ngủ khoèo thế kia thì chết

600. đường về nhà mày ngoằn ngoèo thế không nhớ nổi đâu

601. trông nó loeo khoeo, loẻo khoẻo thế có được việc không

602. con trèo khoeo kia sao tao bảo mày không nghe hả

603. anh trèo lên cây quéo vặt cho em quả quéo đi

604. con khép vở lại đi mua dép đẹp với mẹ

605. cô giao bài chép chính tả tập ghép vần với lời đanh thép của bài hịch

606. căn nhà này bên ngoài tưởng ọp ẹp nhưng trong rất mát

607. chiều rộng nhất hẹp hơn chiều dài

608. nhưng trông kỹ thì đẹp ra trò cái đế kép của cái đèn xếp

193

609. anh làm cho em mấy trang oép để quảng cáo

610. anh không biết là oép quảng cáo đâu chỉ oép công việc thôi

611. đi đâu mà người loép nhoép, loẹp nhoẹp thế kia

612. thật là ghét là phụ lái nhưng phải hét hay thét cả ngày

613. mặt tái mét ghét lắm

614. nghĩ kẹt thật con vẹt của tao cứ lẹt đẹt mãi không biết nói

615. sấm sét lẹt sẹt rất nguy hiểm làm bọn trẻ lấm lét không dám đi

616. cái miệng mày cứ xoen xoét thế ai ưa được

617. chữ gì mà đọc toét cả mắt

618. bọn tham nhũng đục khoét tiền của nhà nước

619. nước dừa gì mà loãng toẹt chẳng có vị gì cả

620. nước nông toèn toẹt sợ gì xuống đây bơi với tao đi

621. mồm nó cứ như chão choẹt chỉ được cái nói phét

622. thằng bé cười toe toét khi nhìn thấy chiếc bánh mẹ mua

623. đừng chê không chúng nó cho ế đấy

624. hút xong điếu thuốc vào người say đê mê không muốn về

625. chúng mày ơi về thôi không lề mề nữa

626. hay cam chịu nỗi nhục ê chề này

627. đến ế chồng mất thôi con ơi

628. lập kế sách hay là lập kế hoạch

629. thôi kệ nó không kể lể dài dòng nữa

630. việc hệ trọng như vậy mà kệ nó sao được

631. báo chí đang nói đệ nhất phu nhân nước pháp bán đấu giá ảnh nuy

632. thầy cúng đến trễ giờ rồi, gà làm lễ mà mày dám ăn à

633. anh ơi hễ thấy bố thì bảo em không bố tế cho đấy

634. lâu nay mấy bễ lò rèn không còn hoạt động như trước nữa

635. nếu có thể thì thuê con gái nhà khuê các

636. chỗ này mùi rất uế tạp không thể có thuế cao được

194

637. anh đi với vòng nguyệt quế từ cổ nhuế từ liêm hà nội

638. tại sao mày uể oải khác hẳn mọi khi thế

639. hoa huệ mùa này thơm hơn hẳn mọi khi

640. nền kinh tế đang bị kiệt quệ sau chiến tranh đang dần hồi phục

641. chúng ta phải cố gằng huề ván này

642. anh ta tính cách rất xuề xòa mà lại lãnh đạo tốt mới tài chứ

643. đường tới nghĩa trang bụi bặm nhếch nhác như mọi con đường ở ngoại ô thành

phố.

644. mày lếch tha lếch thếch trông như con ếch to kếch xù

645. cười hềnh hệch như thế trông kệch cỡm quá

646. nó cười mồm méo xệch vì vợ chồng nhà ấy như đôi đũa lệch quá

647. mặt nó trắng bệch sau khi nghe gã giám đốc tếch mất rồi

648. thật là kệch cỡm không ra cái trò trống gì

649. trong từ điển có từ quếch, quệch không nhỉ

650. không có từ quếch, quệch đâu

651. chỉ có từ chuệch choạc thì phải

652. à có từ nguệch ngoạc nữa, viết nguệch ngoạc như gà bới

653. còn từ khuếch khoác nữa đúng không

654. êm quá đêm khuya làm thêm không sợ đâu

655. sông đông êm đềm mềm mại chảy

656. thật thà như đếm, chểm là từ không có trong từ điển

657. ngồi chễm chệ trên cao

658. ngồi trên ghế đệm êm ghê lắm

659. lên trên này bên cạnh hòn đá ấy

660. bắt đền mày đấy dền dứ mãi

661. đến mai nhé mến thôi chưa đủ đâu

662. nó vừa nói vừa thở hổn hển

663. nghễn chân lên mới nhìn thấy được

195

664. nghễu nghện con nhện giăng tơ

665. nó quên làm bài tập và bị điểm kém

666. đánh cho rươi và trứng quện vào nhau

667. các từ quền, quến, quển, quễn là những từ không có trong từ điển

668. con đường rộng thênh thang

669. nước mênh mông làm con thuyền lênh đênh như đi trên biển lớn

670. nước dềnh lên cao làm chiếc xuồng

671. trở nên kềnh càng khó di chuyển

672. bếnh không có trong từ điển

673. cái túi này nhẹ tênh

674. sắp lấy chồng rồi mà nó cứ tênh tểnh thế

675. mình cứ xểnh mắt ra là nó biến đâu mất tăm

676. con ễnh ương, giống như con ếch bụng to kềnh ra

677. lệnh bác sĩ bắn ra bệnh nhân trong bệnh viện nháo nhác

678. đừng hoang tưởng, mày huênh hoang quá đấy nhóc ạ

679. bà ta có một ngôi nhà nhỏ tuềnh toàng gần ga

680. mày khuềnh khoàng vừa vừa thôi chứ

681. nó khuệnh khoạng như thằng say bước vào

682. theo nếp cũ là không tốt đâu

683. đổi thếp giấy này lấy kẹp tóc kia nhé

684. kết đèn lồng trong ngày tết trung thu

685. và thết đãi bạn bè chết mất thôi

686. mệt à sao mà nghệt ra vậy

687. nó quệt nước mắt và bước đi tiếp

688. mẹ nó quết thêm dầu trên chiếc nón

689. bọn nó êu êu kìa đừng trêu em cái gối thêu là của nó chứ

690. anh chàng cao kều nhất trong bọn thều thào nói

691. nếu mùa đông đến đàn sếu mỏ đỏ mà không quay về thì mếu thôi

196

692. nom đều thật cứ thất thểu thế nào ấy

693. bọn trẻ cứ nghễu nghện trên yên xe của mình

694. đánh cho trệu quai hàm bây giờ

695. cho em tí ti thôi em không tị đâu

696. đừng chi li như thế chị phải nghĩ chí tình chứ

697. sao ầm ĩ thế đừng ỉ ôi nữa chị không cho đâu

698. thằng bé cứ khóc i ỉ làm bố mẹ không nghỉ được

699. huy chương vàng đã nâng cao uy tín của chúng ta

700. tuy nhiên uy lực này chưa ăn thua gì

701. Thủy có đi hay không tùy mày thôi

702. em tôi thùy mị quá

703. đại úy tiểu đoàn trưởng không được thưởng vì đã phạm húy tới lãnh đạo và

uống rượu say túy lúy

704. nhà tao ở phố thụy khuê

705. ủy ban mặt trận tổ quốc việt nam

706. không chung thủy là hủy hoại hạnh phúc gia đình

707. ngân quỹ nhà nước bị thâm hụt quá nhiều

708. làng ta có lũy tre xanh hươ tay chào nhau

709. Sau lần ấy tía không dám đi đêm nữa

710. Trồng ráy tía không ngứa

711. Nhanh tay chia khi mọi người đi vắng

712. Tên giặc gần cây sậy chĩa khẩu AK vào người

713. Họ đem con cầy chia khắp làng

714. Bác xỉa que củi vào mặt bà hàng thịt

715. Giặc chĩa quả lựu đạn vào lô cốt

716. Nghe tin hợp tác chia quà nó vội đạp xe đến

717. Cóc tía quen mùi rồi

718. kìa sao lại để cái thìa múc canh chìa ra ngoài bàn thế kia

197

719. khía một vết sâu vào thân cây mía non đừng mỉa mai

720. Bọn trộm cắp thích chôm chỉa đồ

721. Chim rỉa đầu con vịt chết

722. Vào đêm kia đứng ở bến đò này có ma

723. Thằng bé ẵm mía đang bán chạy đi

724. Nó ngắm nghía đống quần áo

725. Thái giám đem hia đánh vào mặt cung nữ

726. Đi xem bắn tỉa đứng mỏi cả chân

727. Học khuya quá không tốt cho sức khỏe

728. Đêm khuya khèn vang lên khắp xóm làng

729. Nó cầm mơ tuya giơ lên đầu

730. bài viết này rất có ích

731. nó tích hợp các kiến thức với trích dẫn chi tiết

732. tránh những xích mích không cần thiết

733. rơi đánh ịch một tiếng

734. cô gái trên tờ lịch này cứ như đóng kịch ấy

735. phải dịch nôm na mới địch lại được

736. nó quých bỏ mẹ đi được

737. đi gì mà uỳnh uỵch lên thế

738. các em nhỏ chạy uỳnh uỵch huỳnh huỵch thở không ra hơi

739. tiếc quá rạp xiếc hôm nay lại đóng cửa

740. bán lại chiếc vé này thôi

741. bố đi rồi, tiếc quá lại không được đi ăn tiệc rồi

742. bao diêm kim tiêm được chiêm ngưỡng và là vật dụng quan trọng

743. chỉ vì cái liềm cắt cỏ

744. mà trở nên hiềm khích giữa hai gia đình

745. nó đòi chiếm lấy cái kiếm và chiếc yếm để làm khiên đánh nhau

746. viết bản kiểm điểm cuối năm

198

747. vì thế công ty nghiễm nhiên thẳng thắn

748. tiết kiệm là quốc sách bài toán này có nhiều nghiệm

749. mày phải là điên hay liên thiên mới mua cái yên xe này

750. con gái tiền giang ở miền nam

751. trông rất hiền dịu muốn cưới liền tay

752. nguyễn huệ tiến quân ra hà nội chiến đấu chống lại nhà thanh

753. nghiến nát quân thù và mở yến tiệc thiết đãi dân

754. rất hiển nhiên là môn điều khiển tự động có rất nhiều triển vọng trong tương lai

755. môn học này được miễn thi

756. tiện tay bật cái đèn điện ngoài cửa ra vào cho sáng

757. người uyên bác như thế lại bị cấp trên tuyên bố thuyên chuyển đi

758. mày cần phải khuyên bảo nó học hành chuyên cần

759. thật huyền diệu khi mọi người trên thuyền

760. đã truyền tin về quyền được tự quyết của mình

761. đừng có quyến luyến mãi với chương trình khuyến học

762. trên vô tuyến truyền hình nữa

763. đợt tuyển người mới phải nhớ uyển chuyển hơn đấy

764. họ nguyễn rất phổ biến ở việt nam

765. nghe tiếng chiêng kêu cảm giác rất thiêng liêng

766. dù ai nói ngả nói nghiêng lòng ta vẫn vững như kiềng ba chân

767. vì miếng ăn mà tiếng xấu vang khắp nơi

768. có tiếng mà không có miếng

769. con yểng biết nói làm quân ngụy thua liểng xiểng

770. phải kiễng chân lên mới nhìn được mặt nàng

771. mùa này chim én bay liệng khắp bầu trời miệng hót vang tìm nhau

772. tại sao việc quan trọng như thế mà lại quên thiếp mời đám cưới

773. nhiều khiếp đảm kiếp này khó trả nợ được hết

774. lịch sự là phép tối thiểu của hiệp sĩ

199

775. Đón tiếp ai một cách ân cần, lịch thiệp sang trọng

776. qua tấm liếp con gà kêu chiếp chiếp như có con gì đang cắn nó

777. trong tiết toán cô giáo thiết tha yêu cầu các em viết nắn nót

778. đau cả yết hầu do bị siết vào cổ

779. cũng tuấn kiệt như thế mà thân bại danh liệt và chịu nhiều thiệt thòi

780. chuyện trêu hoa ghẹo nguyệt của nó có thể viết thành truyện tiểu thuyết được

781. với nhiệt huyết của tuổi trẻ và quyết định sáng suốt của đảng

782. chúng ta chắc chắn sẽ thuyết phục được họ tham gia

783. tưởng bà chủ rất tuyệt diệu hóa ra quỷ quyệt lắm

784. định hoa nguyệt với lính tráng khó mà duyệt được

785. dở bài yêu là độc chiêu

786. nhất cho nó bớt kiêu căng và tiêu nọc độc

787. nàng yêu kiều đi đứng yểu điệu kiểu cách

788. cứ chiều đến mới tiều tụy làm sao

789. thiếu tí nữa mua chiếc điếu ấy thì bị đàm tiếu

790. kiểu tham nhũng thì cứ chiểu theo pháp lệnh mà thi hành thôi hiểu không

791. bên bờ hồ cây liễu rủ bóng xuống nước

792. cũng gây nhiễu ghê lắm

793. liệu cái kiệu ấy có còn hiệu dụng không

794. im lặng đừng phá tổ chim

795. im lìm đi tìm của chìm trong nước

796. thím ba miệng cười chúm chím

797. đừng ỉm đi vừa nói nó vừa tủm tỉm cười

798. cái hĩm nghe cũng chối tai

799. nó ngất lịm đi sau khi nghe tin dữ

800. miệng nó tủm tỉm khi được ăn mấy quả sim mẹ mua

801. tôi rất thích màu tím hoa sim trên đồi

802. phải tin rằng cô có nghề in lưới mới xin được việc làm

200

803. tuổi thìn biết nhìn xa trông rộng và giữ gìn của cải

804. hắc ín được tín nhiệm trong hội kín

805. ủn à ủn ỉn lợn cũng say sỉn

806. con hĩn nhà ai ấy nhỉ, đồ xịn đấy

807. cần thận không dầu luyn chảy vào lốp đấy

808. mày ra chợ mua cho anh chị cái màn tuyn trắng

809. chuyện này linh tinh lắm chưa biết thế nào

810. cũng chẳng thấy minh bạch đâu nó cứ hét dinh lên thôi

811. đừng nằm chình ình ra như thế phải xem tình hình thế nào chứ

812. viết sai rồi đính chính lại đi

813. cứ súng sính trong bộ quần áo mới

814. lại đeo cả kính dâm thế kia không ai thích đâu

815. để hoàn chỉnh con đường phải nhỉnh thêm mấy mét nữa

816. ủy ban tỉnh đã huy động đến đỉnh cao nhân lực dự trữ

817. bước vào cuộc họp với phong thái đĩnh đạc nhưng khá hợm hĩnh của chính mình

818. chúa họ trịnh vào giai đoạn thịnh vượng lấn át quyền của vua lê

819. vào chủ nhật này phụ huynh học sinh đi họp

820. ở một vùng quê như thể cây quỳnh cành dao

821. được điểm mười Bi mừng quýnh cả lên

822. thằng ấy nom quỷnh lắm mày ơi

823. thằng chíp hôi này định dùng con dao nhíp để trấn lột hả

824. còn kịp chán nếu không chờ dịp khác cũng được

825. chứ chịp miệng nghe chán lắm

826. đưa cho mẹ cái tuýp đánh răng

827. giống hệt bố mày hay sao đừng có ít sít ra nhiều

828. thít chặt quả mít vào kẻo rơi

829. ụt à ụt ịt cứ như đồ bị thịt

830. bịt mặt thì dịt thuốc thế nào được

201

831. Con chó quấn quýt lấy chủ

832. Nó ngang nhiên mang quýt lạnh vào lớp

833. Anh Chuýt lượn nhanh ra khỏi làng

834. Chờ người bán quýt lấp đất đã

835. Xe đông suýt nữa thì có tai nạn

836. Trong đêm nghe tiếng xuỵt nó giật mình

837. Anh Chí là thằng quỵt của làng này

838. Đang mải bắt tôm xuỵt cái nó ngẩng lên

839. Ăn kèm với nước suýt thì ngon

840. Nó rảo bước suýt theo kịp mẹ

841. Em bé huýt sáo hay quá

842. chú công an huýt còi dừng xe lại

843. quả quýt mùa này ngon lắm

844. nó xuỵt chó đuổi theo bọn định ăn quỵt hàng mua chịu

845. không ăn đi cứ chắt chiu mãi lại thiu thối ra bây giờ

846. ông nhìn cái rìu của mình với ánh mắt trìu mến

847. đàn chim tíu tít tìm bầy

848. tiếng kêu của con chim ríu rít

849. đừng làm tao tiu nghỉu mày nhé

850. lòng nặng trĩu ưu tư anh bước đi chậm rãi

851. chịu mày tật nói nhịu thì có gì mà phải ngượng nghịu

852. Nó thích đi đường đèo khúc khuỷu hơn

853. Hoàng chỉ thích sờ mấu khuỷu tay mẹ

854. Nó chạm mạnh khuỷu vào mạng sườn đau điếng

855. Nghe tin dữ ông khuỵu ngay trên đường

856. ngoài sân ò ó o là tiếng gà trống gáy

857. gọi o tức là cô ở vùng nghệ an hà tĩnh

858. con gà to quá cho đi thì tiếc

202

859. phải kho lên ăn mới ngon

860. nó nhảy lò cò trên sân kho cho bõ tức

861. mày ngủ ngáy khò khò khó chịu lắm

862. con chó nằm co ro một góc

863. chim có mỏ nó tỏ rõ một loài có lông vũ

864. thằng mõ là thằng khó trong làng to

865. nó vừa xỏ cho thủ trưởng một võ mà không khó

866. chúc thọ ông rồi, vào cọ nồi đi

867. quan hệ họ hàng phức tạp

868. cái nọ xọ cái kia, sao mày lọ mọ thế

869. ăn óc con cóc chỉ khóc thôi

870. vì nó bổ hơn thóc gạo nhiều

871. bọn trọc phú đeo nhiều ngọc ngà

872. như vớ được cọc vì lại được đi học đại học

873. trưa hè oi bức con voi đòi moi mía ra ăn

874. tháng ba có cá mòi trên các sông ngòi

875. đi qua vùng nhiều khói than lò gạch

876. từ lò làm gạch muốn ói mửa ra

877. còn ít ỏi gì nữa mười cân tỏi khô là khỏi thôi mà

878. ở cõi đời này còn gì thú hơn

879. họ gọi trọi trâu ở đồ sơn là đồ mọi rợ

880. sợ gì con đom đóm ấy mà

881. mày nhòm làm gì, khóm dân cư sau lũy tre làng

882. nó chỏm tóc còn xanh rơi tòm xuống nước

883. ông già lọm khọm dừng ôm lấy con tôm hùm ấy ăn không ngon đâu

884. tiếng chân lõm bõm của các cô chú nông dân

885. bóng điện đỏ lòm lòm thế này thì học làm sao được

886. nó biết làm đỏm rồi đấy, nhà hàng xóm đã có người hỏi

203

887. có con gì thon thả mon mem đến gần

888. còn mấy năm nữa mà đẻ con sòn sòn năm một

889. em đón con để anh đi đòi món nợ này

890. con trai gì mà ỏn à ỏn ẻn thế

891. mạnh bạo lên mày thõn thẹn như đàn bà ấy

892. khi dọn nhà hãy chọn xe tải ấy có thể chất lên có ngọn được

893. đặng không có con ong mật bay trong nắng sớm

894. mong được gặp nhụy hoa mới xong

895. chúng mày đừng hòng thay đổi được tấm lòng của người mẹ

896. quả bóng bay cao quay như chong chóng

897. nó ngày đêm mong tới ngày mùa

898. có mỏng đâu sao lại cứ chê ỏng chê eo thế

899. người ta vứt lỏng chỏng ở đường ấy mà

900. bây giờ không còn cảnh lều chõng nữa

901. đừng õng ẹo vừa chứ kìa kẻo thõng xuống

902. nó đi thong dong bên bờ sông

903. cần phải kính trọng người già

904. cọng rơm này đang mọng nước

905. chiếc xe moóc dài loằng ngoằng

906. con gái đừng mặc quần soóc ra đường

907. đàn ác coóc đê ông chơi cũng hay đấy chứ

908. vườn bách thú có con voọc mới đưa về

909. tiếng cồng kêu boong boong khắp xóm

910. anh có thích ăn rau cải xoong không

911. cầm cho ông cái ba toong lên nhà đi

912. ki cóp vừa chứ tao biết thóp của mày rồi

913. ở cái chóp mũ phải không

914. cuộc họp này chủ yếu bàn cách bắt con cọp già

204

915. mót đái quá mà gót chân bị đau sót không chịu được

916. tiếng ọt ẹt phát ra từ cái sọt đã bị mọt hết

917. tô hô thế kia ốm bây giờ

918. ồ hay chửa nó như thằng tồ ấy

919. đi xe thồ mà lại đâm xuống hố được một vố đau

920. hô to rồi nó tố giác mọi người không coi trọng mồ mả ông cha

921. con gà mái đang đi tìm ổ để đẻ trứng

922. không cẩn thận đổ xe thì khổ lắm con ạ có khi phải đi mổ đấy

923. thổ lộ với người yêu có gì mà xấu hổ

924. em đã thi đỗ đại học ở đường đại mỗ chỗ gần nhà anh chị đấy

925. độ xuân này người ta đi tảo mộ nhiều lắm và thường mang hộ nhiều hàng đồ sộ

926. ngốc lắm vỏ ốc chốc chốc lại vang lên tiếng khốc khách

927. bộ bàn ghế này trở thành của độc rồi

928. bà ấy kêu ôi thôi cái nôi của con tôi

929. được rồi mày tồi lắm định lấy tao làm mồi nhử nó hả

930. ôi thối quá chối không thể chịu được

931. quả ổi to thế mà gió thổi bay mất

932. mỗi ngày cá lại trỗi dậy một lần

933. ngày hội đền hùng là nhớ về cội nguồn dân tộc tôi

934. nó chồm dậy giọng nói ồm ồm mồm miệng không nghỉ

935. sao trông ốm quá vậy tay lốm đốm đỏ kìa

936. dạo này nợ nhiều như chúa chổm khắp nơi

937. mày chôm quả chôm chôm của người ta à

938. ở đây lộm nhộm quá chẳng có tí trật tự nào

939. mày khôn lỏi vừa chứ, ôn bài thi ngày mai đi

940. sao ồn ào quá vậy bồn chồn quá à

941. khốn nạn thật nó lại quên ơn cha mẹ như trời biển

942. cẩn thận với trò đi trốn, nhào lộn kẻo ngã đấy

205

943. cơm độn lổn nhổn ngô làm thằng bé nhai trệu trạo

944. có xe buýt đi về nhổn đấy

945. anh đừng có hỗn với bố bố sẽ chôn chết anh

946. công của hai ông cháu cắm bông hồng trông rất đẹp

947. tặng cô nhân ngày hiến chương các nhà giáo

948. chồng con gì mà một đồng chẳng có lại cứ tồng ngồng suốt ngày thế

949. cái ống dẫn nước hỏng rồi

950. nên sống như lũ chuột cống trong đống của cải

951. nói là ổng tức ông là tiếng miền nam

952. còn chổng mông là tiếng bắc

953. đánh bạc thì bỗng chốc túi rỗng hết tiền

954. động cô tiên rộng như thế

955. vì nó cộng cả các vùng lộng chung quanh

956. ra ngoài bờ sông gió thổi lồng lộng mát không cần quạt

957. phải ốp chặt tốp thợ xây

958. chứ không xi măng bị xốp ngay

959. đừng làm ngáo ộp hãy chộp lấy cái hộp này

960. tao mua ở ki ốt thế mà cũng tốt hơn lá lốt mày mua ở chợ

961. lần này cũng làm tao chột mất một hột rồi còn gì

962. đừng có sốt sột lên thế cái gì cũng phải từ từ chứ

963. hay thật cơ cô này mơ ngủ hay sao mà tơ tưởng thế

964. anh dơ lắm tôi đang làm thơ đấy chứ

965. ờ chỉ thờ cúng thôi cũng không khỏi

966. phải chờ bác sĩ đến, bệnh nhân lờ mờ nhận ra mợ của mình

967. anh chớ mách sếp đấy tớ mới tìm được một cái cớ để mua bằng được mớ hàng

này

968. đứng ở đây thằng sở khanh ấy không hở ra một tiếng cho người ta biết

969. này mơ ơi mở cửa sổ ra đi khó thở quá

206

970. thế nhỡ ra bộ đại học không biết lại ngỡ là đồ bỏ đi thì đỡ quá

971. ăn mỡ nhiều quá mắc cỡ lắm

972. no phát ợ lên đây này

973. đừng sợ ăn trộm ở chợ thì là thợ cả đấy

974. nó huơ huơ tay giơ lên cầu cứu

975. câu truyện về thuở thơ ấu của anh thật cảm động

976. bà quờ tay về phía trước lấy cốc nước

977. chị đừng quở cháu vừa ốm dậy đấy

978. con ơi chơi với con dơi bay đi

979. ối trời ơi tới đây cứu tôi với

980. tiếng kêu chới với rơi tõm vào không gian

981. tôi khấp khởi trong lòng trước tiếng mời chào xởi lởi của bà mẹ

982. tiếng kêu hỡi trời cao đất dày ơi

983. hãy đợi tôi năm hợi tới rồi

984. đến gần làng thơm quá mùi rơm mới

985. cẩn thận cắt chờm mép vải rồi

986. đồ lợm ạ đi trên đá tai mèo lởm chởm khó đi

987. mày ỡm ờ vừa chứ ranh con ạ đồ lỡm

988. tôi thấy lợm giọng quá phải tìm cái gì ăn

989. cơn mưa này chắc còn kéo dài

990. nó chơi đờn gì đờn bà à, người bỗng ớn lạnh

991. cà chớn quá kiểu này không lớn lên được

992. ic

993. việc nghiêm túc mà mày cứ dỡn hoài

994. thịt con lợn này nhiều mỡ quá ăn dợn cả người

995. phải chớp lấy cơ hội vào học lớp chuyên toán

996. rất khớp với lời tiên đoán của ông ta

997. vừa chợp mắt một tí là kẻng hợp tác xã đã vang lên

207

998. nó chớp chớp mắt nhưng không khóc

999. ngày mai đến lợp mái dưới bóng cây rợp mát

1000. quả ớt vàng cay hơn

1001. chị đừng chớt nhả tôi cho lên thớt bây giờ

1002. ôn thi đợt này hời hợt quá

1003. đừng cợt nhả một cách bất chợt như vậy

1004. nó đơm một bát đầy ú ụ thế này thì ai ăn hết được

1005. sao mặt mày ủ rũ thế bị u mắng à

1006. con lợn tru tréo còn bà thì lu loa lên vì mất mấy xu đi chợ

1007. nó ho sù sụ và nhờ thằng gù đi mua thuốc

1008. đứng lù lù ra đấy à, đi cho tu hú ăn đi

1009. các cụ trồng cây về cất quần áo vào ngăn tủ mà không giặt

1010. bọn trẻ lũ lượt kéo nhau ra ụ đất ngoài bãi sú để chơi đu quay

1011. ngày mai mẹ đi mua cua về nấu canh chua cho mà ăn

1012. vào ngày mùa người lớn thì lên chùa để cúng lễ còn trẻ con thì đùa nghịch

1013. đội ca múa trung ương về biểu diễn mừng năm nay được mùa lúa của dân làng

1014. mọi người kêu lên ủa sao lại lấy lúa của tập thể như muôn thủa thế này

1015. anh lấy được chị đúng là đũa mốc mà chòi mâm son

1016. các cụ đã nói người đẹp vì lụa lúa tốt vì phân

1017. từ sớm nó vẫn ngập ngụa trong đống bùn, mải mê bắt cua

1018. người ta chúc cho châu úc xúc được vàng ở khúc sông này và đúc thành tượng

1019. tao đục cho một quả bây giờ, nó lục khục cười và giơ một chục con cá nục lên

trời

1020. nó bị tuột cúc áo khi lùng sục nồi cơm

1021. thịt chó phải thui kĩ mới thơm chứ úi chà chà

1022. chị khâu cái túi này chỉ đựng được một múi bưởi

1023. từ lâu đất mũi cà mau là một điểm du dịch thu hút khách

208

1024. ngoài bãi cỏ dế trũi gồng mình lên đá cho bọ ngựa một nhát

1025. phải cho con chó vào cũi vì mũi nó ngửi thính lắm

1026. mấy đứa tụi mày cẩn thận không tao thụi cho một quả bây giờ

1027. anh phải lum khum trong bụi cây um tùm mới tìm được quả bóng

1028. bọn trẻ nhảy ùm xuống sông vào một đống tùm lum không phân biệt đứa nào

với đứa nào

1029. kêu mấy tiếng úm ba la túm lấy nó chúm chím cười khúc khích

1030. làm rơi tũm xuống sông miệng nó tủm tỉm cười

1031. tất cả phải chụm nhau lại không thì sụm lưng

1032. trông rất mịn màng đun bằng gỗ mun như thể hun chuột ấy

1033. mọi người ùn tắc lại hùn đẩy nhau đi tất cả đều chùn bước trước con sông dữ

1034. nhà anh có chú cún con trông đẹp quá

1035. bản tính của nó là ủn ỉn tủm mủn không ai ưa

1036. quần của nó ngắn cũn cà cũn cỡn nom buồn cười quá

1037. trên mặt mụn mọc như các đụn rơm ấy

1038. bọn trẻ chạy lung tung mặc dù chung quanh giặc chạy lùng sục khắp nơi

1039. ngoài bờ sông trong khung cảnh súng đạn nổ khắp nơi anh chị vẫn ung dung đi

bên nhau

1040. có tiếng súng nổ ùng oàng, đì đùng ở đầu ngõ

1041. cả bọn chúng ta cùng nhau dùng món canh chứ không thì bụng nổi khùng lên

mất

1042. mùa này úng lụt rồi hoa súng không lên được

1043. tôi hỏi có đúng là khẩu súng này đã bắn trúng kẻ thù không

1044. phải đấu tranh ủng hộ đồng bào chống phân biệt chủng tộc bị bọn khủng bố làm

cho thất sủng đi mất rồi

1045. làm như thế cũng được nhưng phải dũng cảm lấp chỗ trũng ấy

1046. hôm qua nó còn bụng dạ nào mà tụng kinh nữa

1047. anh dùng cuốc cẩn thận kẻo chuốc lấy tai họa vào thân

209

1048. trong nhiều cuộc chiến bao giờ cũng thuộc về kẻ mạnh

1049. người đi săn nói đuôi hổ là biểu tượng của sức mạnh cũng như cái chuôi dao ấy

1050. họ hàng loài ruồi muỗi phát triển rất nhanh trong mùa hè

1051. đây là nải chuối cuối cùng của mùa hè này

1052. bộ đội đã đánh đuổi quân thù ra khỏi bờ cõi bảo vệ được chủ quyền

1053. trong tù nó đã sống những chuỗi ngày dài dằng dặc với toàn muỗi là muỗi

1054. thằng cuội ngồi gốc cây đa nom quá đuội trông nhuôm nhoam quá

1055. nó cứ à uôm mãi chưa muốn đi vì còn lưu luyến gia đình

1056. anh ta đói quá nên ăn nhuôm nhoam, nhuồm nhoàm

1057. chị đi nhuộm tóc vàng đi nhuộm màu vàng suộm ấy

1058. mấy con gà con lông vàng suồm suộm đi trong sân

1059. ngoài cánh đồng đang gặt có rất nhiều muôm muỗm bay

1060. tên trộm đã cuỗm mất túi tiền của mẹ rồi

1061. ngoài ra cánh buồm màu nâu là biểu tượng của vùng này

1062. chiếc lá cờ đỏ nhuốm đẫm máu

1063. trong từ điển vần suỗm không tồn tại nhưng xuỗm thì sao

1064. cháu mang đi nhuộm chiếc áo này đi chứ

1065. nhà cửa trông luộm thuộm lắm cầm cái chổi này dọn đi

1066. dòng suối xanh biếc luôn luôn tuôn chảy về xuôi

1067. bây giờ buôn lậu hàng điện tử hết cơ hội tuồn hàng về xuôi

1068. anh nhập từ các nguồn hàng nhập lậu về thì công an sẽ bắt

1069. buổi sáng tôi muốn một đĩa bánh cuốn chả với cà cuống

1070. gỗ này được uốn cong theo hình con tôm

1071. các từ nguỗn, chuỗn, thuổn đều là những âm tiết không có nghĩa

1072. cái tháp chuông nhà thờ ở uông bí một thị xã của quảng ninh nổi tiếng trong cả

nước

1073. nó bị cuồng cẳng hay sao mà cứ nhảy như diễn tuồng trong chuồng không có

chủ ấy

210

1074. mùa hè uống canh rau muống và chấm với tinh cà cuống thì tuyệt nhất rồi

1075. anh lấy thuổng đào đất chôn thì uổng phí công lao lắm

1076. lấy cho tôi thêm cái muỗng cho khỏi ruỗng ruột

1077. cấy cày trên thửa ruộng của mình được người nông dân ưa chuộng nhất

1078. chị đừng chau chuốt quá mà thành ra đau buốt đấy

1079. trên mái con chuột nhắt chạy tuột ra khỏi lồng rồi

1080. nó khẽ cúp đôi mắt ngồi trong túp lều này để núp không cho ai nhìn thấy

1081. buổi trưa nóng nực mà được uống chè búp thì thật tuyệt

1082. thì dù sao ở cái túp lều ấy cũng giúp mình tỉnh lại

1083. nó ngồi sụp xuống chứ có chụp mũ của người khác đâu

1084. có phải thằng út nhà mình có cái tẩu hút thuốc trông như cái bút chì không

1085. cả họ nói nó đụt quá lại hiền như bụt nữa làm sao lấy được vợ

1086. con chó kêu ư ử vì ăn vụng nên bị chủ đánh đau

1087. thằng bé ăn trộm đào bị đánh nhừ tử đến lần thứ tư mà dân làng không tha

1088. sắp đến ngày hội đền chử đồng tử rồi mau chuẩn bị lễ đi

1089. sao mà nó đi lừ lừ như ông từ vào đền lừ thế

1090. phải học cái chữ, chữ mới giữ được nước

1091. chị ấy không biết chữ vì suốt ngày ở cữ vì sinh nhiều con

1092. thật đau xót vì sữa cho trẻ thì đắt mà lại có sữa đổ trắng đồng

1093. làng tôi chỉ còn lưa thưa mấy khóm tre đầu ngõ

1094. ở trong nhà trưa hè nóng bức nên mọi người rất ưa ra nghỉ ở đó

1095. nhiều người thừa cơ hội khi nó bị lừa phải đánh cho chừa thì thôi

1096. nỗi buồn như vết cứa sâu vẫn đang ứa máu chứa đầy uất ức trong tôi

1097. mẹ dặn đi sửa ngay cái bếp lửa đặt cạnh cửa ra vào đi

1098. đừng lần nữa nữa phải chạy chữa ngay vết thương này đi

1099. anh phải rất cứng cựa mới trị được con ngựa hoang bất kham ấy

1100. làm luận văn phải thức với mức độ này ức lắm không chịu được

1101. trong bếp mẹ nấu gì mà mùi thơm phức làm cái bụng sôi ùng ục

211

1102. qua cái thời cơ cực đành nuốt đánh ực một cái

1103. trong thực đơn hôm nay không có mực xào chỉ có mỗi ngao chán chết

1104. suốt đêm nó thao thức mãi, mai phải khao anh em trong phòng

1105. anh đã gửi thư cho giám đốc chưa

1106. cái khung cửi đang bị hỏng ông Sưi đang chửi um lên

1107. ngoài cổng nó kêu hừm một tiếng thế là tên trộm trốn thoát rồi

1108. những từ hưm, hừm, hứm, hửm , hữm, hựm không có trong từ điển

1109. còn có cả những từ lưn, lừn, lứn, lửn, lữn, lựn nữa

1110. chị có ưng không còn mà còn nhưng gì nữa, để anh ấy bưng tráp sang ướm hỏi

1111. nó được ăn bánh chưng trong lòng vui tưng bừng như hội ấy

1112. họ lần từng bước đi lừng khừng của hắn làm tôi phải dừng chân lại

1113. lời tiên tri có ứng nghiệm không hứng lấy quả trứng gà này rồi đứng yên ăn

1114. ăn kẹo mè sửng mà lại nuốt chửng cho nên má đỏ ửng cả ra

1115. những người lính vẫn đứng vững trong bom đạn quân thù

1116. chiếc xe bỗng dưng khựng lại và nói anh yêu em

1117. tôi có một điều ước trước tiên là phải có chức tước mới khá lên được

1118. có một vết màu trắng như cước dài ở phía trước khiến chị ṭ ṃ lại gần

1119. chị đố anh ngước mắt nhìn lên được sẽ cho một cái lược bằng pha lê

1120. chị đi vào trong vườn tay cầm cái lược và một bông hoa thược dược mới nở

1121. động vật là loài đười ươi và khi tiến hóa lên và rất gần với loài người

1122. anh đừng lười thế người ta cười cho

1123. nói không được không cho điểm mười đâu

1124. anh chị tổ chức đám cưới dưới ánh trăng vàng rất lãng mạn

1125. cùng với cảnh vườn tưới rau và đan lưới rất thơ mộng

1126. trung thu ăn bưởi ngon sưởi ấm cả lòng người đến dự cỗ trông trăng

1127. nói như vậy là anh cưỡi lên lưng hổ mà tay lại chỉ cầm một cái lưỡi cuốc cùn

1128. anh ấy nói chị là con đười ươi thiếu I ốt và bị bệnh bướu cổ đấy

1129. nhà bên cạnh ở vườn ươm có mấy con bướm đang bay lượn

212

1130. chị cứ lườm mãi cho đến khi sưng tấy lên thì chườm bằng nước nóng rất nhanh

khỏi

1131. chị nên ướm thử xem có vừa không rồi hãy mua

1132. trong sách có viết bươm bướm là loại côn trùng có ích

1133. thôi rồi lượm ơi gượm đã chờ cho quá ngọ hãy ra khỏi cửa

1134. mẹ trồng nhiều loại rau trong vườn ăn thật ngon

1135. nhiều việc thế thì mướn thêm người làm không cá ươn thối ra đấy ai thèm mua

1136. bọn con gái cứ ưỡn à ưỡn ẹo nom chán quá

1137. ngoài kia con vượn bạc má cứ lượn vòng chung quanh

1138. cả nhà mày ương bướng thế thì ai mà thương được

1139. anh ta chỉ vào loại thường thường bậc trung trong làng

1140. anh xây cái tường cao quá trông rất trướng, anh hàng xóm góp ý

1141. nhà có đủ gương để trang điểm lại có cái giường rất rộng cho hai vợ chồng

1142. bà đay nghiến con sướng chưa các tướng mặt mũi đỏ phừng phừng trông

chướng mắt hàng xóm

1143. chị đừng tưởng bở nhà trường chỉ thưởng cho những người học xuất sắc

1144. uống chừng đó là tới ngưỡng của tôi rồi

1145. anh phải làm cái tượng ông thọ từ cây gỗ của cây phượng mới là thượng sách,

bác cả bảo thế

1146. nếu không để quả mướp cho cẩn thận thì bị người ta cướp mất đấy

1147. một ngày thằng chượp vươn vai đứng dậy đã trở thành người lớn

1148. mày để tóc ướt lướt thướt thế kia mà đi ngủ là ốm đấy

1149. ngoài sân chị chải mái tóc mượt mà làm sao khiến nhiều anh rượt đuổi mà

không theo được

1150. trong rừng có nhiều con hươu chúng luôn mồm kêu hườu, hưởu, hưỡu, hượu,

hướu nghe điếc cả tai

1151. hôm qua anh ấy mới mua con khướu nên nó chưa biết nói

1152. bà ấy bị bệnh bướu cổ đã lâu không khỏi

213

1153. lạc đà có cái bướu rất to và nặng

1154. làm được mứt ngon không phải dễ

1155. đang giảng bài khuy quần đứt phựt làm anh ấy ngượng quá

1156. thống nhất còn được gọi là thống nhứt theo tiếng miền nam

1157. bọn trẻ đánh nhau sứt đầu mẻ trán rồi

1158. thấy nó bị đứt tay anh đã bứt mấy cái lá chuối non dịt vào cho nó

1159. người con ưu tú được các dân tộc cưu mang đến giờ phút chót

1160. gia đình anh lưu lạc bấy nhiêu năm mới có dịp hội ngộ

1161. trên đồng cỏ con cừu nhìn tôi trừu mến vì gánh cỏ tôi mang cho nó

1162. chị biết tin là nhờ khứu giác mách bảo

1163. anh ấy đã cứu cho đội bóng một bàn thua trông thấy

1164. năm nay là năm sửu phải đi sưu tầm cừu giống mới

1165. con phải học thuộc bản cửu chương đi

1166. đứng trước linh cữu của người bạn cố hữu bà Lan rơi nước mắt

1167. ngoài vườn có cây lựu trước cửa nhà ông lưu nhiều quả lắm

4. Các câu trích từ tập truyện “Dế mèn phiêu lưu ký”

1. cái đói ghê ghớm cứ đánh liệt dần từng bộ phận trong người

2. bây giờ đến lúc nó đánh dúm khoeo lại chân run lẩy bẩy không đứng được lại

phải nằm bóp bụng xuống

3. từ chỗ này muốn qua chỗ khác chúng tôi chỉ lách nhích từng tẹo

4. chũi khẽ thở dài

5. chết mất anh ạ

6. đừng lo xem mây vận trời đêm nay có cơ đổi gió

7. anh thấy hình như có cái bóng xanh mờ mờ đằng kia

8. có phải đấy là bờ

9. gió mà đưa được anh em ta về cái bờ xanh xanh ấy là sống rồi

214

chũi bảo chũi không nhìn thấy 10.

còn tôi không biết là hoa mắt hay đấy cũng chỉ là cái bờ tưởng tượng trong hi 11.

vọng mà thôi

hơi sức mỗi lúc một khác 12.

chiều hôm ấy thì đã đến cung cảnh muốn nói đôi câu chúng tôi phải ghé xát vào 13.

nhau thì thào tiếng cứ phào phào

chũi băn khoăn muốn nói 14.

chũi hay nhìn chộm tôi 15.

tôi đoán thế 16.

tôi hỏi luôn 17.

chũi lắc đầu 18.

nhưng lát sau chũi nói 19.

thưa anh em nghĩ anh em mình khó lòng thoát chết 20.

chú đừng nghĩ thế mà nản lòng anh em ta 21.

anh mắng thì em cũng nói 22.

em tuyệt vọng rồi mắt em đói mờ đi rồi đây này 23.

chũi im một lát rồi lại thều thào 24.

em chộm nghĩ chết thì đành chết 25.

tôi ngắt lời 26.

chúng nghĩ rằng không nhẽ anh em ta lại chịu chết lênh đênh cả như thế này mà 27.

phải cứu sống lấy một

chú định để anh ăn thịt chú chú chịu hy sinh cho anh sống 28.

ta khen chú điều thủy chung đó 29.

nhưng em ơi sinh tử là lẽ thường 30.

31. mà mạng em cũng như mạng anh đều quý giá cả

huống chi chẳng lẽ chúng ta chịu nằm chết đói trên mặt nước này 32.

dù thế nào cũng không bao giờ nản chí 33.

215

chũi cứ khẩn khoản rồi chìa càng lên mời tôi ăn 34.

chũi gượng cười bảo rằng chũi có cụt cả hai càng không sao không thể chết vẫn 35.

khỏe như thường

chũi đã thấy có dế cụt càng như thế 36.

tôi gạt phắt đi và mắng chũi 37.

sau cùng anh em tôi ôm nhau mà khóc 38.

chũi ngửa mặt lên trời gần như ngất đi 39.

họ dế chúng tôi chỉ có khi sắp chết thì mới phải chịu nằm ngửa 40.

bây giờ thấy chũi thế tôi đã lo lo 41.

tôi sờ lên mặt chũi xem còn thở không rồi lay gọi 42.

43. mãi chũi mới ú ớ tỉnh

trời nghe trở gió ầm ầm trên mặt nước 44.

có lẽ gió này đưa chúng tôi vào bờ 45.

tôi chợp mắt cũng chiêm bao thấy thê 46.

tới nửa đêm tôi cũng mệt quá thiếp đi 47.

sớm sau nghe đầu bè có tiếng động rền như tiếng sấm 48.

tôi thức dậy hé cặp mắt nặng nề 49.

nhưng mắt vừa hé đã bị chói đầy ánh mặt trời 50.

tôi nhích đầu lên cổ đau như bị ai cứa 51.

thì ra bè chúng tôi từ lúc nào đã trôi vào gần một bờ cỏ 52.

53. cái tiếng rền như sấm đằng kia vang lại chỉ là những tiếng động quen thuộc của

làng xóm ở đằng ấy

tôi bò đến lay chũi 54.

chũi vẫn nằm nhuôi như chết 55.

tôi phải nghe và đập vào ngực xem còn thở không 56.

tôi ra cúi xuống ngậm nước phun vào mặt chũi 57.

chốc chũi hắt xì hơi hắt xì hơi liền ba cái 58.

216

vừa tỉnh mắt còn nhắm chũi đã rền rĩ kêu 59.

tôi trỏ vào bờ xanh xanh 60.

chũi nghển cổ rồi rú lên 61.

trông thấy sống thế là tự nhiên chúng tôi khỏe hẳn hơn lúc nẫy 62.

nhưng cũng phải đến chiều bè chúng tôi mới dạt vào 63.

chũi cũng làm như tôi không đến nỗi rơi xuống nước 64.

chúng tôi lên bờ để lại đằng sau cái bè trống không nhẹ bỗng vụt cái trôi vèo 65.

vèo vào gió nước

tôi cúi xuống gặm miếng cỏ 66.

bên cạnh chũi đã húc đầu hí húi ngồm ngoàm ngốn tự lúc nào 67.

thứ cỏ đó cỏ nước lá cứng nhiều gân và ngăm ngăm đắng 68.

phải như mọi ngày tôi chẳng thèm nghé răng 69.

ấy vậy mà lúc đó chén ngon đáo để 70.

thế mới biết đã đói nuốt đất cũng thấy được 71.

ăn xong trời đổ tối 72.

cẩn thận chúng tôi chạy một mạch vào trong đề phòng nếu đêm có mưa nước 73.

lên không cuốn đi được

đến bãi cỏ trên mô đất cao chúng tôi lăn ra đánh giấc say sưa 74.

sáng hôm sau tôi chèo lên ngọn hoa cỏ xước ngắm địa thế chỗ chúng tôi bạt 75.

phong vào

đó là khoảng bãi rộng lầy lội tùm bum hoàn toàn giống cọn nước 76.

quá phía trên đất hơi ráo nhưng cũng chỉ độc một thứ cây ké hoa vàng rượi 77.

sóng ấy xưa dày sống vất vả trong bùn lầy nước đọng 78.

hoặc giả cũng có thêm vài giống nữa nhưng ở cái xóm bùn lội đen ngòm với da 79.

dẻ chân tay loài ở bùn cũng tối om như thế

ít ai mới nhìn đã phân biệt ngay ra được 80.

xóm ở chơ vơ trong cái cù lao giữa nước 81.

217

82. suốt ngày bàn tán quanh quẩn lúc nào cũng vang động tiếng cãi cọ tranh nhau

đoán xuống xem đến bao giờ thì trời mưa suốt đời phải mong mưa

83. cứ điều qua tiếng lại mỗi miệng thêm một lời không ai nhịn ai uồng uồng oang

oang mãi lên

84. cánh này mà to tiếng thì phải biết là ầm ĩ

85. mới có cậu ễnh ương căng mép phình bụng chỉ nói một câu bình thường cũng đã

váng tai cả xung quanh rồi

86. chúng tôi vào đây nghe loạn xạ mà đi một lúc chưa gặp ai

87. mãi sau mới có anh rắn mòng trông thấy chúng tôi

rắn mòng ngoe ngoảy trườn ra 88.

89. chỉ có trẻ con nhút nhát thì sợ rắn mòng chứ thật ra anh rắn mòng hiền lành nhý

cái đụ dạ

90. không ai thấy anh nói bao giờ tưởng câm nhưng anh ấy chỉ có tính ít nói thôi

91. hằng ngày anh mòng vơ vẩn trên mặt nước đợi mồi

92. một vuỗi mắt một gã bọ bèo lạc tới anh tợp ngay

93. mòng đương lúc đói mới nghe tiếng chân chúng tôi đi tới động tai bèn bò ra và

đã rất thèm sẵn

94. nhưng khi thấy chúng tôi to lớn chân càng gai ngạnh ra không thể là mồi của

anh thì mòng ta lại cúp mắt xuống nhìn chỗ khác và trườn đi

95. sau có nhái bén trông thấy chúng tôi

96. thế là cả xóm lô nhô kéo ra

97. họ ra xem chúng tôi có gì cho ăn hoặc chúng tôi có phải thức ăn được không

98. nhưng thấy chúng tôi sừng bướng đầu mình bọc giáp sắt chân mang khí giới

nhọn sắc thì họ lại lờ vờ lảng dần

99. đã lâu trời không mưa không có nước dềnh vào xóm

100. nước hồ lâu mưa thì trong vắt chỉ đẹp mắt mà không có thức ăn nên dân cư

trong hồ đói lắm

218

101. bao giờ cũng vậy sự cùng quẫn hay khiến ta nghĩ ngộ và giận giữ

102. đã không biết vặc vào ai chẳng biết trời ở đâu mà lôi xuống bắt làm mưa

103. dù cho tiên sinh cóc có được tiếng là cậu ông trời chăng nữa thì cũng đành chịu

cho nên họ đâm ra rất nóng tính động một tí cũng cáu cỉnh bực tức nhau ầm cả

lên

104. trong xóm không lúc nào dứt tiếng chửi vã

105. thấy chẳng ăn thua gì mấy anh nọ lại lảng đi như rắn mòng

106. chỉ còn đôi ba bác cóc ngẩn ngơ đứng lại

107. một cóc tóp tép miệng như tợp được mồi vờ nhai cho đỡ thèm

108. một cóc khác bước ra cất lên một giọng rất văn vẻ hỏi chúng tôi

109. cóc vẫn nổi tiếng thầy đồ thầy đồ cóc trong những tranh tết

110. hà cớ mà nhị vị tráng sĩ du nhàn qua bản thôn

111. rõ chán nói chữ mà chưa chắc đã biết nghĩa

112. tôi bấm bụng nhịn cười thầy đồ cóc rồi tôi cũng dùng cái khoa giao thiệp hoa mĩ

khôi hài đó để đáp lại

113. thưa tiên sinh chúng tôi đi du lịch

114. vậy bỉ phu xin hỏi nhị vị tráng sĩ

115. thế thì chắc nhị vị phải nghe tiếng từ lâu rằng bỉ phu mặc dầu thanh bạch ở hang

dưới đất nhưng bỉ phu là cậu thằng trời đấy

116. nhị vị đã qua chơi nhiều nơi trên hoàn cầu nhị vị có gặp thằng trời đánh thánh

vật nhà tôi ở đâu không

117. chũi mỉm cười dùng càng khẽ hích tôi một cái

118. tôi nháy ý bảo phải nghiêm một chút gặp đứa dở hời thì mình cũng cứ liệu lời

cho qua chuyện mới được

119. tôi bèn lấy điệu vuốt cái râu tưởng tượng làm vẻ đứng đắn trả lời rằng

120. thưa tiên sinh chúng tôi có gặp ông trời

121. thế thì nếu như từ này về sau nhị vị tráng sĩ có còn gặp nó thì hỏi nó cho bỉ phu

219

rằng

122. vì lẽ gì mà lâu nay bản thông không có nước mưa

123. đến đỗi cậu nó đã nghiến mòn hết cả răng rồi đấy chăng

124. suýt nữa tôi bật cười thành tiếng

125. giỡn chơi thế chứ nào tôi biết cái lão trời trời đánh thánh vật ấy ở mô tê

126. tôi còn đương bụ miệng nhịn cười nhưng chũi đã ngứa tai không nhịn nổi vai

kịch bỗng choang một câu

127. trời với đất cậu với cháu thấy sang bắt quàng làm họ

128. nói thẳng thừng ra là muốn ăn mà chỉ ngửa tai thế thì kêu đến sái cổ gãy răng

gãy hàm nữa cũng chẳng quả sung nào rụng trúng vào mồm đâu

129. cóc còn đương ngơ ngác chưa nghe thủng câu nói mỉa mai của chũi tôi đã chen

vào át đi

130. tôi cung kính lễ phép nói to

131. thưa tiên sinh tôi nhớ ra rồi tôi nhớ rằng dù chưa được tiên sinh dặn thế chúng

tôi đã có câu hỏi việc lâu nay sao hạ giới không mưa

132. tôi cũng chẳng hiểu ra sao cả nhưng không dám hỏi nữa

133. cháu nó bận quá

134. chúng tôi nhắm mắt nhắm mũi lại lăn ra cười

135. đến khi mở được mắt không thấy cóc đâu nữa

136. chỉ thấy đi tới một chàng nhái bén gầy lêu đêu cao hai cái đùi bé quắt mà dài

quá nửa thân mình

137. bộ quần áo thể thao của nhái bén bó xát người cứ so le xộc xệch càng có cảm

tưởng như cẳng chân dài thêm ra

138. chúng tôi lại toan cười

139. nhưng mặt nhái bén vốn nhợt bây giờ nghiêm xám hẳn lại

140. tôi ngời có điều gì đây

141. quả thật lão cóc có tính khuếch khoác chứ không phải lão cóc là cục đất mà ai

220

chửi vào mũi lão cũng được

142. còn có câu ví gan cóc tía cơ mà

143. lão cũng thâm lắm

144. cho nên sự chế diễu và nhạo báng lão của chúng tôi không qua nổi ý tứ lão

145. đến lúc chúng tôi nhắm mắt lại cười vào mũi lão như thế nữa thì lão cáu lắm và

thành cái kết quả ngay là lão đi báo khắp xóm là có kẻ lạ vào xóm

146. nháy mắt nhái bén nhảy thoát đến trước mặt nói

147. đại vương ếch có lệnh đòi

148. chúng tôi theo nhái bén đến dưới một bụi cúc tần ẩm thấp nhớp nháp

149. đôi mắt lồi nghiêm nghị của lão ta cứ dương chừng chừng

150. hai khoeo chân trước khoành ra

151. đôi chân sau xếp tè he lại

152. đặc biệt trên gáy lão ta điểm mấy miếng xanh ở cổ áo và lưng áo như hạt cốm

153. bởi thế lão cũng có tên là ếch cốm

154. và có lẽ trong cảnh đói kém này lão cậy mình còn to béo khỏe mạnh nhất vùng

nên lão tự xưng là đại vương đại vương ếch cốm

155. với chúng tôi đại vương hay là cái gì là cái gì thì cũng chẳng bận tâm

156. qua câu chuyện tôi chỉ có nhận xét cái tính lão cũng hệt bọn đồ cóc đã dốt đặc

lại hay khoe chữ

157. cái tính khoác lác của ếch thì một tấc đến trời hơn cóc nhiều

158. chuyện với anh nõi khoác nó chỉ biết nó nói cho mình nghe và không biết nghe

ai nói cả cứ tức anh ách như bị bò đá

159. ếch cốm hỏi hay nói cũng không rõ

160. chúng bay sang buôn ngọc bên vùng rùa rùa trong chân núi

161. đây vào đến vùng rùa rùa còn xa một phiên chợ

162. chũi xẵng tiếng ngắt lời

163. không không đến vùng rùa rùa

221

164. ta biết rồi ngày trước ta đã vào vùng rùa rùa trong chân núi đấy

165. nói có mấy câu thì đầu đuôi câu nào cũng ngày trước ta và biết rồi biết rồi

166. nên cho anh chàng khuếch khoác này thêm cái biệt hiệu là anh ngày trước ta hay

anh biết rồi nữa

167. cái lão đại vương ếch cốm thông thái giả hiệu này chẳng biết cóc gì nhưng cái gì

cũng nói trước

168. cái gì cũng ta đã biết ngày trước thì cái gì ta cũng biết cái gì ta cũng giỏi

169. bây giờ tôi mới rõ câu tục ngữ ếch ngồi đáy giếng thế mà thâm và ý nghĩa sâu

170. không ai chịu được những anh đã dốt lại tự đắc và dở hơi

171. chũi lại có tính nóng nảy

172. chũi văng một câu

173. này này ông hỏi chúng tôi đã trả lời đâu mà ông biết được

174. ông chẳng biết cóc gì hết

175. ông là ếch ngồi đáy giếng

176. hôm nay mới thấy thật ếch ngồi đáy giếng

177. ếch cốm tức quá hét ầm lên đuổi chũi

178. chũi điềm nhiên dơ càng

179. ếch cốm không dám xông đến

180. chúng tôi không chạy

181. làm vẻ công nghênh thế cũng không tốt nhưng lúc ấy chúng tôi lấy làm thú vị

như thế đấy

182. ếch cốm gọi cả xóm lại bàn cách lện chúng tôi

183. nhưng buồn cười thay xóm này mới chỉ dỉ tai bàn bí mật mà chúng tôi đi tận xa

xa cũng nghe rõ từng lời uôm oạp

184. nói thế này nói thế nọ cứ ầm ĩ rối xòe

185. ai cũng kêu là ghét hai thằng láo lếu giá thấy mặt bây giờ thì phải đánh cho

chúng mấy đánh

222

186. phải vặn cổ nó xuống tức lắm phải lện cho chúng nó một trận nhừ tử

187. ếch cử ễnh ương và chẫu chàng đi đánh chúng tôi

188. cả hai anh chàng cùng nhăn nhó là có bệnh đau bụng kinh niên

189. ếch bảo cóc

190. đáng lẽ cóc phải hăng hái đi nhất

191. thì cóc trả lời rằng với chúng tôi cóc là chỗ quen biết xưa nay có giao thiệp

192. vả chăng đã là thầy đồ nho nhã biết ngậm cái bút lông mèo thì không bao giờ lại

thượng cẳng chân hạ cẳng tay như kẻ tầm thường

193. đến lượt nhái bén nhái bén nghoẹo mình dơ mạng sườn làm hiệu và kiếu

194. tôi gầy lắm một đứa thổi mạnh một cái tôi cũng ngã huống chi chúng nó những

hai đứa

195. rắn mòng khước rằng mình vừa lột xương cốt còn mỏng manh lắm chưa làm

việc nặng được

196. đến khi cả bọn cóc, ễnh ương, nhái bén, chẫu chàng, rắn mòng đồng thanh cử

đại vương ếch cốm hãy tạm rời cái mà ếch mùa đông ở bờ đầm nước và cái sập

gạch kiên cố ấy bước ra đi trước họ sẽ theo sau trợ chiến thì ếch ta phồng bụng

phồng mép chố mắt quát

197. như ta đây đường đường một đấng trượng phu hai nhãi ấy chưa đáng mặt đọ sức

với ta

198. rút cuộc ai về nhà nấy và lại làm công việc hàng ngày của mình

199. mòng và cóc đi rình muỗi

200. nhái bén leo cây

201. chẫu chàng hát ngêu ngao

202. còn đại vương ếch vẫn lặng im tư lự một cách vô tích sự trên hòn gạch vuông

203. suốt mùa đông lão ngồi ngậm hơi không một lần nhích đít khỏi cái sập oai vệ

trong cái nhà của lăo

204. chúng tôi chẳng muốn gây sự và cũng không lưu luyến gì đất này đất buồn

223

205. có đáng kỉ niệm ở đây chỉ là nhớ cái nơi mà chúng tôi lênh đênh từ ngoài nước

lớn dạt vào một lần thoát chết

206. chúng tôi định vượt qua đấy

207. có thể tìm ở đấy một ít cỏ tốt rồi nghỉ ngơi ít ngày chăng

208. chũi nhảy tũm xuống nước bơi sang

209. bơi một quãng bỗng nhiên chìm nghỉm

210. cả hai cái râu cũng không thấy ngo ngoe trên mặt nước như bị đột ngột rút chân

xuống

211. chốc thấy chũi ngoi lên kêu váng mặt nước rồi hớt hải quay lại

212. tôi định thần nhìn kĩ thấy quanh đấy có luồng sóng cồn đuổi theo

213. một đàn cá săn sắt đương rầm rập kéo đến

214. những cái đuôi cờ ngũ sắc bay hoa cả mặt nước

215. vừa rồi mải bơi chính là chũi bị mấy gă săn sắt ấy kéo tụt xuống

216. chũi cố vùng thoát lên

217. bấy giờ tôi mới kinh hãi nhìn dần ra khắp dọc sông

218. chỗ nào cũng thấy đông đặc cá săn sắt với những đuôi cờ múa rợp bóng nước

219. chúng lượn đi lượn lại vẻ nghênh ngang chặn đường

220. cái này chắc có âm mưu gì đây

221. rồi tôi thấy săn sắt kéo đến mép nước phía chúng tôi hầm hè toan nhảy lên bờ

đòi choảng nhau rất hung hăng

222. thế này thì phải tìm cách tẩu tán ngay mới được

223. ờ có thể ếch cốm lập ra mưu này

224. cái lão ếch cốm khoác lác một tấc đến trời mà cũng mưu lược gớm

225. lại vài mụ diếc trắng trẻo béo tròn con quay lò mò đến

226. các mụ tung tăng múa vây múa gáy

227. rồi mấy bác cá ngão mắt lồi đỏ dài nghêu mõm nhọn ngoác ra ở đâu bơi chớp

224

nhoáng đến đỗ kề ngay bờ trước mặt há miệng đợi đớp

228. ôi chao nếu không mau chân bọn này cứ thắt mãi vòng vây chí nguy

229. chũi nóng tính nóng hăng thì cũng nóng nhụt

230. chưa tri cả mà đã hốt

231. khoan khoan liệu việc nhốn nháo thì hỏng đấy

232. bỗng chũi lại chu lên

233. kìa kìa lũ nữa đến

234. nhìn lên đầu sông thấy mấy cá chuối đương lừ lừ tới

235. bóng cá chuối loáng cả dòng nước răng nhe trắng như lưỡi cưa

236. nó lướt vào trước mặt thì dòng nước đương trong vắt bỗng đen rạm như nền trời

cơn mưa

237. phải tính việc tẩu ngay

238. tôi sẽ bay qua ngay trên đầu chúng nó

239. nhưng đôi cánh của chũi ngắn thun lủn không thể bay xa thế

240. trong khi ấy nếu còn chù chừ thì chết

241. đàn cá chuối hung hăng sẽ ngoi lên tận bờ bùn này đớp chân chúng tôi

242. một thằng lươn có thể độn thổ lên ngay vũng bùn chân tôi đứng đây

243. tại sao nên tai nạn như vậy

244. về sau tôi mới hiểu chỉ vì cái thói kịch ác và sự coi thường xung quanh của

chúng tôi

245. chẳng biết bị khích thế nào mà cả xóm ếch nhái đương buồn bã kia bỗng phát

cáu cả lên

246. và các xóm cá ngoài này nghe tin hai thắng dế bơ vơ ở đâu đến làm loạn sông

thì cá ra đánh đuổi đi

247. lúc ấy tôi khom cười xuống

248. tôi đã nghĩ ra một cách

249. tôi bảo chũi chèo lên lưng

225

250. tôi mím miệng nghiến rắng gắng sức bình sinh cõng chũi bay qua sông

251. không cất cao mình lên được tôi chỉ đủ sức bay là là mặt nước

252. cả đàn mấy chục cá đuổi theo chen nhau đánh sóng và quẫy đuôi ngoáp miệng

bắn nước lên đầy mặt tôi ướt cánh và ướt cả bụng

253. lưng tôi nặng như có hòn núi đá đè

254. cuối cùng tôi lướt khỏi mặt nước sang tới bên này bãi cỏ

255. tôi lăn kềnh ra bãi trong khi chũi bị hất tung ngã tít đằng kia

256. trở dậy trông lại bờ bên ấy đã thấy cả xóm ếch nhái kéo ra

257. tuy vậy vẫn không thấy đại vương ếch cốm đâu

258. thêm viện binh bốn bác cua núi đen sì như bốn cái xe bọc sắt to kềnh múa lên

những cái càng rất lớn

259. tưởng bị càng đó cắp thì bụng tôi có thiết giáp cũng phải phì ruột

260. nhưng chúng tôi đã qua được sông

261. thách cũng chẳng mống cá nào dám lên bờ đuổi

262. nghĩ cứng thế nhưng tôi lại chợt nghĩ thêm biết đâu ai học được chữ ngờ

263. tôi vội bảo chũi cùng nhau chạy chốn ngay

264. chũi cũng thông cảm

265. chúng tôi biến rất nhanh

266. tuy vậy trước khi chạy vẫn làm oai ta đây

267. chúng tôi dơ càng lên chúng tôi di di hát một bài

268. trên trời chuồn chuồn bay sát cánh rợp cả nắng

269. cậu kỉm kìm kim gày còm chỉ lượn được dưới thấp nhưng cũng tung tăng ra

dáng lắm

270. tôi hỏi thêm rằng như anh em chúng tôi muốn đi xem hội thi võ có được không

271. thế là chúng tôi đi theo chuồn chuồn chảy hội

272. họ bay trên không

273. chúng tôi đi dưới

226

274. đôi lúc khoái chí tôi cũng cất cánh bay chơi một quãng

275. trên đường còn gặp vô khối khách nô nức chảy hội

276. cả những ông liềng nghiễng đen nháy quanh năm không ra khỏi mép cái lá sen

mặt nước cũng lịch kịch cất bước ra đi

277. sự tích hội thi võ như thế này

278. nguyên ở vùng cỏ may hàng năm đến mùa hoa may chín trắng bạc khắp miền thì

có hội lễ

279. năm ngoái cụ bọ ngựa già ốm rồi khuất núi

280. năm nay dân cả vùng nhân hội hoa lau mở luôn hội thi vơ lấy ai tài giỏi nhất để

đứng ra coi sóc việc chung trong vùng

281. Đó cũng là phong tục lâu năm của vùng cỏ may

282. giữa vùng cỏ may chân cỏ đỏ tía đầu hoa rám trắng lóng lánh dựng lên cái võ

đài đồ sộ cao toàn bằng bỗ cây lau ngà vàng đứng cuối bãi trông lên rõ mồn một

283. đài rõ chắc chắn đẹp có ghế ông cầm trịch ngồi trên lợp lá cỏ mật và treo từng

chùm hoa ké vàng mọng buông xuống lắc lư trong gió

284. những hôm đầu là đấu loại

285. nhiều anh chấu chấu vừa nứt mắt đã bắng nhắng lên đài

286. ngựa non háu đá

287. những gã ngông nghênh đó thật ra chưa có nổi ba hột sức

288. mới tự chân mình đá ra mấy cái cũng đã run rẩy cả người rồi đứng thở hồng hộc

289. vì thế chỉ có các anh ấy tưởng có võ mình là tuyệt thôi còn khách xem thì thấy

cuộc đấu loạc choạc ngấy

290. họ đi chơi hội hơn là xem thi võ

291. mấy ngày sau võ đài mới bắt đầu rầm rộ bởi vì những tay võ xoàng đã bị lọc hết

292. bao nhiêu cậu ti toe đều bạt xuống chân đài cả rồi

293. chỉ còn lại có hai tay cứng vào đấu vòng cuối là bọ muỗm và bọ ngựa

294. hai tráng sĩ trong vùng đấy

227

295. sáng hôm ấy trước khi ra xem thi đấu tôi một mình dạo chơi quanh bãi nhìn

thiên hạ nô nức kéo tới xem hội động như nêm cối

296. những chị cào cào trong làng ra mĩ miều áo đỏ áo xanh mớ ba mớ bẩy từng chân

bước chầm chậm khoan thai như e thẹn như làm dáng như ngượng ngùng

297. các anh châu chấu ma thì mặt mũi xấu xí nhưng chúa là hay lơn tơn đón đường

co kéo các nàng cào cào xinh đẹp vào trò chuyện vẩn vơ trong vườn cỏ non

những hàng quán dọc đường

298. thấy bụng đói đói tôi cũng tản vào quán làm vài nhánh cỏ lót dạ

299. chấu chấu cào cào bọ muỗm bọ ngựa rậm rịch ra vào chè chén

300. bỗng thấy chú chấu chấu ma đang nhảy nhót khoe tài quanh các nàng cào cào

vội né dạt về một bên

301. rồi trong cửa hàng chợt im tiếng ồn ào

302. tôi thấy trịnh trọng tiến vào một anh bọ ngựa

303. người ngợm anh bọ ngựa này cũng bình thường thôi nhưng chưa hiểu sao anh

làm ra lối quan rạng

304. anh đi cứ chân nhấc từng bước cao ngang đầu gối kiểu bước chân ngỗng

305. kiểu cách rất ta đây kẻ dờ và hách dịch phát xít

306. cái khớp cổ vươn ra

307. cái mặt ngắn cằm vuông bạnh lên

308. con mắt đu đưa tưởng như ai xung quanh chỉ có việc nhìn anh ta

309. hai sợi râu óng ả mấp máy phát lên phất xuống

310. hai lưỡi gươm bên mạng sườn lưỡi có răng cưa luôn luôn co vào trước ngực ra

lối ta con nhà võ đi đứng đúng kiểu võ lúc nào cũng giữ thế giữ miếng

311. trông bộ tịch anh ta như thế nhưng tôi cũng không để tâm

312. bởi vì tôi đã biết thường những anh tính hay khoe thì cái gì cũng ra miệng hết và

chỉ có ở miệng chứ trong bụng nhiều khi chẳng có cóc khô gì

313. như anh này chắc có mấy miếng võ xoàng thì đã trổ ra tay chân mặt mũi cả rồi

228

chẳng còn gì để phải chú ý nữa

314. vả chẳng tôi cũng đâu cần để mắt đến cái oai rơm rác và lố bịch ấy

315. có nghĩa là lúc đó tôi vẫn đủng đỉnh giữa cửa quán hàng như không trông thấy

võ sĩ bọ ngựa đi vào

316. thấy thế thằng bọ ngựa phũ tính bổ luôn cho tôi một nhát gươm vào đầu

317. tôi nhảy trái đá hậu một cú song phi

318. hắn né được và co hai gươm định quạng tôi nữa

319. thấy có xung đột bao nhiêu khách hàng bỏ chạy hết

320. các chị cào cào hốt hoảng nhảy tung rách cả vạt áo màu

321. nhưng gã bọ ngựa không xông vào nữa mà chỉ dơ gươm trỏ mặt tôi bảo

322. có giỏi chốc nữa lên đài

323. tôi cười khềnh nói lịch sự mỉa mai

324. sau đó bọ ngựa thật tức cười lại trịnh trọng và kiểu cách khệnh khạng bước kiểu

chân ngỗng đúng như lúc nẫy

325. đám đông dần trở lại

326. quán cỏ lại chen chân đông nghịt

327. bây giờ họ xúm quanh tôi

328. bác cành cạch ngã lúc nãy đã dậy được nhô cái mũi nhọn đến thở hổn hển nói

329. chú mình ơi chú mình dại thế chắc chú mình ở xa đến chưa biết

330. cả vùng này không ai dám động đến cái lông chân ông ấy đâu

331. ông ấy phen này hẳn tranh được chân trạng võ nối chức cụ võ sư bọ ngựa rồi

332. chú mày biết điều thì mau mau tránh đi nơi khác là hơn

333. cảm ơn chư vị

334. bình sinh trên đời tôi không hề biết sợ lời đe dọa nào cả

335. chú mình gở chết hay sao

336. tôi ở quán bán cỏ ra

337. lời lẽ nhát sợ của bác cành cạch nọ là tôi khó chịu

229

338. tôi phải bước vào rừng cỏ ngắm làn hoa may đương trong gió tràn ngập phơi

phới cho tĩnh tâm lại

339. khi trở vào đám hội trên võ đài đã đương vào cuộc thi tài

340. tôi rất ngạc nhiên thấy chũi đứng sừng sững trên đài sắp đấu với anh bọ muỗm

341. thì ra chú chũi nhà tôi bấy lâu vẫn còn căm nhà bọ muỗm

342. cái trận đòn ác của các mụ bọ muỗm nanh ác ngày ấy vẫn chưa thể quên

343. còn căm nặng đến độ bây giờ chỉ gặp một gã bọ muỗm xa lạ cũng khiến chũi nổi

máu đòn thù

344. chũi lên đài ngay

345. gã bọ muỗm kia đã đánh ngã mấy địch thủ nhép hôm qua

346. đằng đuôi mắc thêm lưỡi gươm cong hoắt

347. đầu gã lớn mút nhọn lại húc rất khỏe

348. hai vành râu trắng phau

349. đôi mắt to hó như mắt cá

350. hai tảng răng thì đen và nhọn khoằm khoặm

351. nếu không có chũi lên võ đài thì bọ muỗm được đấu thẳng với bọ ngựa để tranh

chức trạng võ này

352. hai võ sĩ đã ra đài

353. cụ châu chấu già lụ khụ đã bạc cả lưng có cái gân đen nổi gồ trên chán ra ngồi

cầm trịch

354. chũi và bọ muỗm sau khi mỗi anh đi một bài võ ra mắt như các tay đô vật múa

lên đâì rồi đứng lại ngó nhau một giây từ từ đưa chân lên vuốt râu đàng hoàng

mấy cái bất thình lình ập vào đấu đá liền

355. chũi xử đôi càng khéo lắm

356. từ ngày ra đi chũi học thêm được nhiều miếng võ đường quyền coi rất ngoạn

mục và kín

357. bọ muỗm kia thì không cần võ chỉ cậy sức cứ lăn xả vào thọc gươm và cắn lia

230

lịa

358. loanh qoanh một lát bọ muỗm đã mệt phờ

359. bấy giờ chũi mới mở sức

360. chũi nhẩy phốc lên đưa hai quả trùy càng ép bẹp vỡ cặp kính bảo vệ mắt của bọ

muỗm rồi kết thúc thêm một đá làm gã kia ngã ngửa rướn lưng mấy lần mà

không dậy được

361. cụ châu chấu cầm trịch thong thả bước tới dắt chàng được trận ra một bên và

tuyên bố kẻ thắng trận

362. cả bãi xôn xao

363. vừa hoan hô vừa lạ lùng vì chưa ai biết võ sĩ chũi tài giỏi ấy quê ở đâu ta

364. võ sĩ dế chũi thắng võ sĩ bọ muỗm

365. còn ai lên đấu với võ sĩ dế chũi

366. tiếng ông cụ gọi loa vang đài

367. ai nấy lặng yên nghe lặng yên nghe

368. bỗng một tiếng đáp vang động

369. rồi anh chàng bọ ngựa ban nãy vừa lôi thôi với tôi nhảy vót lên

370. cơ nguy cho chũi vì xem chàng chũi có vẻ mệt

371. vả lại bọ ngựa ngông ngáo nhớ chuyện ban nãy ở quán hàng cái bực mình trong

tôi tức tốc trở lại

372. tôi phắt lên đài quát

373. khoan khoan đây trước đã nhớ hẹn chứ

374. bọ ngựa lùi lại rồi à một tiếng rõ to nghênh hai thanh gươm lên vẫn một điệu

khinh bạc và tự cao tự đại rất là ngô nghê

375. lại như lệ trên trường đấu ngày ấy trước khi vào cuộc mỗi bên biểu diễn một vài

đường quyền theo sở trường của mình

376. bọ ngựa đứng vươn mình đi bài xong kiếm

377. bóng kiếm loang loáng mù mịt như hoa may điệu bộ khá đẹp mắt

231

378. tôi chẳng cần đi bài gì hết

379. tôi đứng nghiêng người về đằng trước hếch hai càng lên

380. cứ hai càng ấy tôi đạp phóng tanh tách liên liến một hồi

381. gió tuôn thành luồng xuống bay cả áo xanh áo đỏ các cô cào cào đứng gần

382. tôi ra oai sức khỏe

383. lúc vào đấu bọ ngựa cao nên lợi đòn

384. hai gươm hắn bổ xuống đầu tôi chan chát

385. nhưng đầu tôi đầu gỗ lim

386. tôi lựa cách đỡ không vần gì hết

387. còn tôi đoản người tôi nhè bụng hắn mà đá khiến có lúc hắn phải hạ gươm

xuống đỡ mất đà đâm loạng choạng

388. hắn định lách gươm nghiêng vào khe họng tôi chỗ hiểm

389. cuống họng tôi có khe thịt dễ đứt như chơi

390. thấy thế nguy tôi gỡ đòn cúi xuống thúc nhanh một răng rất sâu vào bụng hắn

391. choáng người bọ ngựa nhảy lộn qua lưng tôi

392. tôi cũng chỉ đợi có thế

393. vừa đúng đà càng lừa vào miếng võ gia truyền của nhà dế

394. tôi lấy tấn đá hậu đánh phách

395. một cái đá trời giáng vào giữa mặt anh chàng

396. chàng bọ ngựa kiêu ngạo rú lên một tiếng bắn tung lên trời rơi tọt ra ngoài võ

đài ngã vào đám đông xôn xao

397. tôi đã hạ địch thủ một cách vẻ vang

398. trong khi dưới đám hội còn đương ồn ào nhốn nháo vì không ai ngờ võ sĩ bọ

ngựa giỏi võ nhất vùng lại thua nhanh và thua đau như thế và thua bởi một

chàng dế mèn lạ mặt ở đâu đến

399. còn chưa ai hết lạ lùng thì cụ châu chấu cầm trịch lại trịnh trọng dơ loa lên ba

lần đều đặn hô vang vang xuống

232

400. tôi xin hỏi đông đủ các võ sĩ trong thiên hạ tề tịu quanh võ đài

401. có còn ai lên nữa chăng

402. cả đám hội im lặng

403. cụ châu chấu cầm trịch lại hô tiếp

404. bây giờ trận tranh hùng kết thúc

405. ô hay tôi sẽ đấu võ với chũi

406. tôi nhìn sang chũi

407. vừa lúc chũi nhìn lại tôi

408. chúng tôi cùng nhau đi đến đất này để đấu võ tranh quyền với nhau ý

409. bất giác tôi tiến lại chũi đứng thẳng hai chân trước khoác vai chũi

410. hai chúng tôi hướng xuống dưới võ đài

411. khắp bãi rờn bóng hoa may tụ tập hàng nghìn vạn các loài trong vùng đi xem

hội võ

412. tôi nói to lên rằng

413. thưa chư vị anh em chúng tôi vừa từ phương xa tới đây

414. cái chủ đích của chúng tôi thật không định tranh lèo giật giải gì ở đất này

415. đất lành chim đậu thấy phong tục vui thì chúng tôi đến góp mặt vui chung mà

thôi

416. bây giờ cái điều chúng tôi không chờ đợi là anh hùng bốn phương đều đã lui cả

mà nhường quyền đọ sức cao thấp sau cùng cho anh em chúng tôi

417. với sự tranh đua anh em tôi xin lỗi không thể

418. bởi vì sao chắc các vị đã rõ

419. còn về ngôi thứ trách nhiệm thì anh em chúng tôi cũng xin lỗi không dám

420. anh em chúng tôi chỉ là hai kẻ giang hồ vốn trọng nghĩa khinh tài thấy đất que

đẹp đẽ thì ghé tời trên đường đi mà không ý định ở đâu cả

421. dám xin chư vị xét cho

422. tôi vừa nói xong ở dưới vang lên tiếng the thé tiếng ầm ầm

233

423. kẻ thì bảo nhất quyết phải mời chúng tôi ra thi đấu lệ vùng này nghìn xưa như

thế

424. kẻ thì rằng thôi

425. một cụ châu chấu một cụ bọ ngựa một cụ cành cạch một cụ cào cào một cụ

niềng nghiễng

426. các cụ ra nói với chúng tôi rằng

427. thưa hai võ sĩ đất lành chim đậu

428. hai võ sĩ qua đây lại có lòng lên thi thố tài nghệ siêu quần

429. thiên hạ không còn ai đối địch nổi

430. thật là phúc cho chúng tôi

431. vả như thế cái lệ đấu có thể bỏ đi được

432. đó là nguyện vọng và phong tục đất chúng tôi hàng bao đời vẫn chọn tài như thế

không thể khác

433. tôi thì hết lời từ chối

434. còn chũi đứng lặng không nói

435. về sau tôi mới biết sự im lặng của chũi có một ý nghĩa riêng

436. tôi đành phải nhận

437. thế là cả đám hội ầm vang lời hoan hô tôn chúng tôi lên là chánh phó thủ lĩnh

đứng đầu các làng trong vùng cỏ may này

438. cả đám hội xô vào làm kiệu rước hai tôi lên đi chen trong đám đông và hoa cỏ

may

439. các chị cào cào áo xanh áo đỏ làm duyên đứng nghiêng khuôn mặt dài ngoẵng

nhìn theo chúng tôi một đỗi rất lâu tỏ vẻ mến phục

440. tất cả tung cỏ tung hoa may dấu hiệu hoan hô

441. lồng dân cử bài hát rầm rộ

442. rồi tất cả mừng rỡ cầm tay nhau khiêu vũ

443. cành cạch với châu chấu cào cào với bọ muỗm nhảy múa linh đình

234

444. từ trong hang trong lá ra đến ngoài bãi ngoài đồng hoa may trắng ngát chân trời

445. tôi bước lên đài uốn éo múa càng rung cánh trổ một bài hát rất du dương

446. chũi thì hớn hở hơn ai hết

447. thì ra lúc nãy cu cậu im không nói chỉ là sợ tôi từ chối cái địa vị thủ lĩnh

448. đến khi thấy tôi nhận lời chũi ta hét inh lên múa rối rít hai càng khiến những bác

cành cạch nhút nhát mới đầu cũng sợ đáo để

449. tôi thì tôi hơi buồn và băn khoăn

450. nể quá mà phải nhận lời đó thôi

451. tôi vẫn chỉ muốn được thỏa chí nguyện của mình là đi đây đi đó thế đủ sung

sướng rồi

452. trái với tôi chũi rất thú vị

453. tôi bảo chũi

454. đừng tưởng thấy an nhàn mà vui

455. đời ta trẻ lắm mà sống chỉ thấy an nhàn thế này thì buồn tẻ khác nào khi chúng

ta còn ở trong hang quê nhà

456. chũi ơi đừng quên chúng mình đương dong duổi trên đường đi tìm cái ý nghĩa

thật của cuộc đời này

457. mà cũng đừng để cho cái an nhàn giữ được chân ta

458. việc đời khó lắm và không chỉ có thế đâu

459. quả nhiên mùa đông năm ấy xảy ra một việc biến lớn

460. cỏ may trên bờ đường đi đã tàn

461. những con bò gầy tọp giũi toét cả mũi cũng chỉ được mấy chĩa rễ cỏ khô

462. người trong làng ra đồng gặt lúa

463. cánh đồng vàng rượi kia đã được người ta lấy liềm gặt bó từng lượm cái đòn sóc

đâm ngang thành từng gánh quảy về sân

464. trên mênh mông chỉ còn trơ lại những gốc rạ khô

465. thế là mùa rét đã tới

235

466. cánh đồng vắng ngắt màu xám trên trời và màu xám dưới đất đã liền vào nhau

và ở giữa có gió gào suốt đêm ngày

467. trẻ con ra ngoài đồng thì lạnh tai và đỏ hắt mũi

468. rét quá rúm cả chân

469. chẳng ai có thể ở rốn trên cánh đồng không được

470. phải đi tìm nơi tránh rét

471. nếu cứ phong phanh giữa trời suốt mùa đông thì đến chết cả

472. bởi thế đã thành thói quen từ xưa cứ mùa rét đến thì các loài sống trong vùng

này lại bỏ cánh đồng lạnh ngắt lạnh ngơ mà lũ lượt đi kiếm nơi tránh rét

473. có khi phải tranh cướp đánh nhau mới tìm được chỗ

474. bởi vì trong mùa rét nhiều loài khác cũng đã tìm kiếm chỗ ở ấm như thói quen

của châu chấu

475. tôi bảo chũi

476. có phải thế không chũi đã thấy nhé cuộc đời này chưa thể ngồi yên để cười được

477. lo cho cái sống cũng đã gay gắt lám đây

478. kìa bao nhiêu loài phải xô đẩy nhau đi tìm chỗ ẩn cho mùa đông tháng giá

479. những con chim nhỏ xấu số ở dưới lạnh nằm chết trong tuyết

480. mùa đông đã đem cái rét khủng khiếp đến kìa

481. tôi bảo bà con rằng

482. cái rét đã đến ngoài đồng rồi

483. chúng ta hãy kíp đi tìm nơi ấm áp mà trú ẩn

484. chẳng mấy lúc không còn thấy bóng ai ngoài trời nữa

485. bọn chuồn chuồn cánh mỏng cả các cậu kỉm kìm kim ốm o biết mình không

chịu nổi nửa cơn gió giật đã mò mẫm đi trước nhất

486. cánh anh em nhà niềng nghiễng thì lặn xuống bùn với anh cọng vó bên cạnh

những cua những ếch lo rét đương vội vã đắp những cái mà lô nhô quanh bờ các

đầm ao

236

487. châu chấu cào cào bọ ngựa bọ muỗm thì đi tìm khe dứa dại

488. trong mùa đông chỉ có những bụi dứa dại vẫn xanh nguyên

489. mỗi chiếc là dứa dỏng cái tai cứng lên nền trời xám

490. kẽ lá dứa sâu hoắm có thể chui được vào đấy nằm chổng đuôi ra bất chấp gió

mưa bên ngoài

491. cứ chui vào đấy nằm yên đấy cho đến khi những ngày xuân trở lại thấy cái ấm

đậu xuống hai vai và nghe thấy tiếng con chim chích kêu vui tranh trách ngoài

khe lá thế là biết mùa mới đã tới lúc ấy mới bước ra

492. chúng tôi đương đi tìm chỗ ở mùa đông

493. tìm chỗ ở mùa đông là việc năm nào cũng phải làm và bao giờ cũng gian nan

494. bởi vì không bao giờ và không ở đâu chỗ nào cũng cứ đến thì đã sắn chỗ

495. ấy thế là cái cảnh tranh dành lắm khi đổ máu lại thường diễn ra

496. ngoài đồng mây đen cuồn cuộn gió tan tác mặt đất và gió thổi lùa cái giá buốt

vào tận ruột gan

497. không ai muốn cất một bước

498. thế mà vẫn phải đi đi mãi đi mãi vẫn chưa tìm thấy đâu chỗ ẩn náu

499. khe lá nào gốc cây nào cũng đầy rẫy các loài áo mỏng vào tránh rét chốn rét

500. mỗi sáng ra lại bỏ lại bỏ lại ven đường mấy cái xác bạn rất đau thương mà vẫn

chưa bới được nơi trú ngụ

501. lại phải đánh nhau thôi

502. một là sống hai là chết

503. có đánh nhau mới giành được chỗ ở

504. tiếng bàn tán và than thở như thế trong đám đông mỗi lúc càng xôn xao

505. mấy anh bọ muỗm cao cẳng rón chân đi thám thính xem đã ai đến ở chưa

506. quân thám thính về báo

507. cả đoàn sau lưng chúng tôi la ó và kêu ràm rĩ

508. họ không muốn đi

237

509. họ không đi nổi nữa

510. tôi chù chừ một lát

511. rồi sau thấy đám đông ùn lên nhốn nháo

512. thế là tôi cũng hùa theo

513. chúng tôi kêu lên cứ xông vào đánh nhau thì đánh nhau chết thôi

514. thế là chúng tôi kéo đến từng gốc dứa leo lên lách vào khe lá đầy gai cụ ở ngoài

cứ cắn đuôi từng châu chấu voi mà lôi giật lùi ra

515. khó chịu bọn châu chấu voi phải nhảy cả ra

516. thế là chúng tôi một phần tranh nhau nhảy vào khe dứa hở

517. một phần thì xúm lại đánh cho châu chấu voi không quay vào được nữa

518. bọn châu chấu voi khỏe lắm

519. anh nào cũng rất hùng dũng và hiên ngang

520. chẳng trách họ mang tên là châu chấu voi

521. này một châu chấu voi đương thoắt xông tới

522. sắc xanh biếc lưng cao nhọn và ngang ngạnh lên

523. hai chiếc râu trổ ra dữ như hai cái đinh

524. chẳng cần biết mình có thể yếu thế bởi vì mỗi châu chấu voi to gấp mấy lần

châu chấu nhưng chúng tôi cứ lăn xả vào vây đánh

525. chúng tôi đương hăng đương liều

526. choảng nhau rối rít đến tận chiều cũng chưa ngã ngũ bên được bên thua

527. đám đã chui vào chiếm khe dứa sợ quá lại phải nhảo cả ra

528. thế là chúng tôi vẫn long đong bên ngoài trời rét buốt đến tận óc

529. nhưng có điều đau đơn cho tôi là chũi bị châu chấu voi bắt làm tù binh

530. chũi bị châu chấu voi bắt làm tù binh rồi

531. cả đêm tôi trằn trọc lo không chợp được mắt

532. mờ mờ hôm sau chúng tôi đông hàng nghìn kéo vao vây rặng dứa

533. phải cứu chũi kì được trước nhất

238

534. nhưng khi xô lên nhòm vào khe lá thì lạ thay rỗng tuếch không còn bóng một

châu chấu voi

535. họ đã rút đi từ lúc nào

536. có lẽ sợ chúng tôi đông quá và tránh cái hung hăng quyết choảng nhau thí mạng

của chúng tôi

537. họ đã đi từ ban đêm

538. thôi thế dù sao cũng là xong nỗi lo mùa đông

539. nhưng được chỗ ở ấm rồi mà tôi cứ ngao ngán cả người

540. bởi vì lúc rút chạy châu chấu voi đã mang đi cả tù bình

541. chũi mất tích rồi

542. chúng tôi vào ở kín cả trong bụi dứa

543. ngày đêm trên khe gió hú gió gào bên ngoài nhưng ở trong vẫn ấm áp và êm

đềm như thường

544. khi nơi ăn chốn ở đầy đủ cả tôi mới nói rằng

545. trong trận xung đột vừa rồi chẳng may em tôi bị cầm tù

546. nó phải châu chấu voi đầy đi đến tận xứ xở nào không rõ

547. ngày trước anh em tôi đã thề cùng nhau sinh tử

548. tôi phải đi tìm cùng trời cuối đất nào tôi cũng đi bao giờ gặp được thì anh em tôi

lại trở về đây

549. ai nấy xúm lại can ngăn không muốn để tôi đi

550. vả lại tù chân một chỗ cũng đã lâu tôi nóng ruột lắm

551. biết không thể lưu tôi lại ai cũng ngao ngán

552. họ dặn đi dặn lại rằng hễ tìm được chũi thì thế nào cũng phải trở về

553. chư vị hãy yên tâm

554. mặt đất rộng mà hẹp

555. thế nào chúng ta cũng còn khi gặp nhau

556. chia tay trong lưu luyến tôi cũng bịn rịn tuy không khóc nhưng lòng nao nao bùi

239

ngùi

557. cảnh biệt ly bao giờ chẳng vậy

558. thế là khăn gói gió đưa tôi lại bước chân đi

559. bây giờ đã tàn mùa hoa may từ lâu

560. trên đồng bãi và bờ ruộng chỉ còn xám mờ những đám gốc rạ và gốc cỏ của trẻ

chăn trâu đã nhổ lên chất đống để đốt sưởi

561. đám khói cỏ may xanh ngắt trong vòm trời gió buốt càng rợn càng thê lương

562. trời đông rét run cánh run râu mà cả làng châu chấu đã nhảy cả ra ngoài khe đội

gió tiễn tôi qua mấy dặm đường mới chịu trở lại

563. tôi đuổi theo châu chấu voi lần mò tìm kiếm thăm hỏi

564. ngược lên phía bắc cứ ngắm bụi cây mùa đông trơ trụi xa xa mà đi tới

565. bước cao bước thấp đi hết mùa đông sang mùa xuân

566. có khi tôi ngửa mặt lên vòm không gọi to

567. em ơi giờ em ở đâu.

Luận án Tiến sĩ Toán học: Nghiên cứu đặc trưng tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt

Chủ đề:

Luận văn cao học

Luận văn thạc sĩ âm nhạc học

VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM

BỘ GIÁO DỤC VÀ ĐÀO TẠO

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

NGÔ HOÀNG HUY

NGHIÊN CỨU CÁC ĐẶC TRƯNG TÍN HIỆU VÀ RÀNG BUỘC NGÔN ĐIỆU ĐỂ NÂNG CAO CHẤT LƯỢNG TỔNG HỢP VÀ NHẬN DẠNG TIẾNG VIỆT

LUẬN ÁN TIẾN SĨ TOÁN HỌC

Hà Nội – 2016

VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM

BỘ GIÁO DỤC VÀ ĐÀO TẠO

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

NGÔ HOÀNG HUY

NGHIÊN CỨU CÁC ĐẶC TRƯNG TÍN HIỆU VÀ RÀNG BUỘC NGÔN ĐIỆU ĐỂ NÂNG CAO CHẤT LƯỢNG TỔNG HỢP VÀ NHẬN DẠNG TIẾNG VIỆT

Chuyên ngành: Cơ sở Toán học cho Tin học

Mã số: 62 46 01 10

LUẬN ÁN TIẾN SĨ TOÁN HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. PGS.TS. LƯƠNG CHI MAI

2. PGS.TS. NGÔ QUỐC TẠO

Hà Nội – 2016

LỜI CAM ĐOAN

LỜI CẢM ƠN

MỤC LỤC

Danh mục các thuật ngữ và từ viết tắt i

Danh sách bảng ii

Danh sách hình vẽ iii

MỞ ĐẦU 1

CHƯƠNG 1. TỔNG QUAN VỀ TỔNG HỢP VÀ NHẬN DẠNG TIẾNG

NÓI 10

CHƯƠNG 2. XỬ LÝ TIẾNG NÓI VÀ CÁC MÔ HÌNH HỌC MÁY 46

CHƯƠNG 3. DỰ BÁO TRƯỜNG ĐỘ, ÂM LƯỢNG VÀ TỔNG HỢP

THANH ĐIỆU TIẾNG VIỆT 68

CHƯƠNG 4. KẾT HỢP THAM SỐ CẤU ÂM, FORMANT VÀ THANH

ĐIỆU ĐỂ NÂNG CAO CHẤT LƯỢNG NHẬN DẠNG TIẾNG VIỆT 105

KẾT LUẬN 133

DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ 138

TÀI LIỆU THAM KHẢO 140

PHỤ LỤC 149

Danh mục các thuật ngữ và từ viết tắt

Danh sách bảng 1. 1 Bảng so sánh một số sản phẩm tổng hợp tiếng Việt đã công bố ....................... 21

Danh sách hình vẽ 1. 1 Hệ thống TTS tổng quát. ................................................................................. 10

MỞ ĐẦU

1. Tính cấp thiết của đề tài

2. Mục tiêu, phạm vi nghiên cứu của luận án.

3. Phương pháp và nội dung nghiên cứu

4. Kết quả đạt được của luận án

CHƯƠNG 1. TỔNG QUAN VỀ TỔNG HỢP VÀ NHẬN DẠNG TIẾNG NÓI

1.1. Tổng hợp tiếng nói

1.1.1. Chuẩn hóa văn bản và phân tích câu – xử lý ngôn ngữ tự nhiên

1.1.2. Chuyển văn bản sang đơn vị tiếng nói

1.1.3. Dự báo ngôn điệu

1.1.4. Các phương pháp tổng hợp tiếng nói

1.1.4.1. Tổng hợp theo cấu âm

1.1.4.2. Tổng hợp formant theo quy luật

1.1.4.3. Tổng hợp ghép nối

1.1.4.4. Tổng hợp theo HMM

1.1.5. Các hệ thống tổng hợp tiếng nói tiếng Việt

1.1.6. Các tham số ngôn điệu

1.1.7. Tổng quan về âm học và các hiện tượng ngôn điệu tiếng Việt trong

ngữ lưu

1.1.7.2. Các hiện tượng ngôn điệu

Thanh điệu

Trường độ

Ngữ điệu

Trọng âm

1.1.8. Hiệu chỉnh đường tần số cơ bản

1.1.8.1. Mô hình Fujisaki hiệu chỉnh đường F0

1.2. Nhận dạng tiếng nói

1.2.1. Liệt kê các lớp bài toán nhận dạng tiếng nói

1.2.2. Môi trường thu nhận tín hiệu

Tập từ vựng

Sự phụ thuộc người nói

Tài nguyên hệ thống

1.2.3. Biểu diễn tiếng nói - đặc trưng tiếng nói

1.2.3.2. Trích chọn đặc trưng

1.2.4. Phương pháp nhận dạng tiếng nói

1.2.5. Các hệ thống nhận dạng tiếng nói tiếng Việt

1.3. Kết luận chương 1