Người ta thường dùng bộ ba =(A, B, ) được coi là bộ ký pháp gọn để biểu diễn một
mô hình Markov ẩn. A, B và được gọi là các tham số (parameters) của mô h́ nh .
66
Hình 2. 13. Một mô hình Markov ẩn với sáu trạng thái
Hình 2.13 cho ta một ví dụ về một mô hình Markov ẩn gồm có sáu trạng thái, trong đó
có một trạng thái khởi đầu và một trạng thái kết thúc. Sáu quan sát {O1, O2, ..., O6}
được sinh ra từ bốn trạng thái từ 2 đến 5. Mỗi trạng thái có thể chuyển sang trạng thái
bên phải của nó, hoặc chuyển sang chính nó. Trạng thái khởi đầu chỉ chuyển sang trạng
thái thứ 2, tức là a12=1. Các tham số của mô hình Markov ẩn được ước lượng bằng 3
bài toán cơ bản (xem phụ lục 2).
2.3.2. Nhận dạng tiếng nói với mô hình Markov ẩn
Các hệ thống nhận dạng dựa trên HMM thường sử dụng đặc trưng chuẩn MFCC
và quy trình huấn luyện và nhận dạng theo thuật toán sau:
Bảng 2. 1. Thuật toán nhận dạng tiếng nói dựa trên HMM với đặc trưng MFCC.
Huấn luyện HMM : Nhận dạng với HMM:
Đầu vào gồm T frame các đặc trưng MFCC. Đầu vào gồm T frame các đặc trưng
Bước 1: Xác định dãy trạng thái tối ưu bằng MFCC.
thuật toán Viterbi: Giải mã theo Viterbi để xác định tập
nhãn, và dãy trạng thái tối ưu ứng với
bộ tham số mô hình HMM đã cho: Bước 2: Hiệu chỉnh lại tham số mô h́ nh HMM:
Bước 3: Đặt =*, lặp lại tới khi mô hình hội
tụ.
67
2.4. Kết luận chương 2
Chương này trình bày tổng quan về các thuật toán khử nhiễu, mô hình học máy
HMM và CART. Phần tổng quan của luận án được biên tập dựa trên tham khảo các bài
báo, công trình và sản phẩm đã công bố trên thế giới và một số nghiên cứu của tác giả
và các đồng nghiệp qua các hội thảo trong và ngoài nước trước thời gian làm luận án
(xem danh mục các công trình đã công bố của tác giả):
Toward integrating the Fujisaki model into Vietnamese TTS , Proceeding of the
International Conference on Spoken Language Processing, Korea [42]
"Nghiên cứu phát triển công nghệ tổng hợp và nhận dạng tiếng Việt" (2006), Kỷ
yếu hội nghị “Nghiên cứu cơ bản và ứng dụng công nghệ thông tin”, FAIR2005,
Thành phố Hồ Chí Minh tháng 9 năm 2005, NXB KHKT [2].
68
CHƯƠNG 3. DỰ BÁO TRƯỜNG ĐỘ, ÂM LƯỢNG VÀ
TỔNG HỢP THANH ĐIỆU TIẾNG VIỆT
Giới thiệu
Vấn đề tổng hợp tiếng Việt giọng tự nhiên hiện nay vẫn là một vấn đề phức tạp
do tiếng nói tự nhiên hàm chứa rất nhiều hiện tượng ngôn điệu như trường độ, âm
lượng và thanh điệu. Trong chương này luận án trình bày các đặc trưng tiếng nói phù
hợp với đặc thù ngôn ngữ tiếng Việt, các đặc trưng ngữ âm như thanh điệu, trường độ
và formant để đạt được hiệu quả nâng cao chất lượng tổng hợp tiếng Việt như:
Nghiên cứu về các mô hình ngôn điệu, phân tích đặc trưng tiếng Việt.
Nghiên cứu các luật ngôn điệu, đặc trưng tín hiệu để nâng cao chất lượng tổng
hợp tiếng Việt.
Nhiệm vụ của bộ dự báo ngôn điệu trong hệ thống TTS (tổng hợp tiếng nói) là
tính toán tập các tham số ngữ âm bắt đầu từ thông tin ngôn ngữ chứa trong văn bản cần
phải tổng hợp. Các kỹ thuật sinh dữ liệu tại các bộ phân tích ngôn điệu bằng cách sử
dụng phương thức phân loại thống kê cho việc học ngữ âm của người nói thực. Nói
cách khác, bắt đầu từ một tập lời nói có thể đạt được tất cả những thông tin về ngữ âm
cần thiết để xây dựng bộ phân tích ngôn điệu trong hệ thống TTS. Hơn nữa, đối với
hướng tiếp cận dựa trên dự đoán, thì kỹ thuật sinh dữ liệu đơn giản hóa cách thu được
ngữ điệu của một người nói cụ thể, hay thậm chí là đặc điểm về cảm xúc.
69
Hình 3. 1. Sơ đồ khối chung của hệ tổng hợp tiếng nói có tính năng dự báo ngôn điệu
Trong sơ đồ ở hình 3.1, các hiện tượng ngôn điệu có thể là đường F0, trường độ
và âm lượng của âm tiết hoặc từ đa âm tiết trong ngữ cảnh câu. Nghiên cứu về các ràng
buộc ngôn điệu cho tổng hợp tiếng Việt còn ít được đề cập tới, các kết quả ban đầu về
dự báo trường độ, khoảng nghỉ, thanh điệu và các hiện tượng biến thanh trong ngữ
cảnh câu được đề cập tới trong[2][22][42][43][44] bằng mô hình tham số hoặc dựa trên
hệ luật và mô hình dự báo hồi quy.
3.1. Khảo sát một số đặc tính âm học tiếng Việt
Phần này trình bày một số kết quả nghiên cứu của đề tài về ngữ âm tiếng Việt trên
cơ sở phân tích, thống kê một số đặc tính âm học như formant, trường độ của âm vị
tiếng Việt trong ngữ cảnh làm tiền đề cho việc dự báo ngôn điệu tiếng Việt.
70
3.1.1. Đặc tính trường độ của âm tiết do ảnh hưởng của phụ âm và nguyên
âm trong ngữ cảnh
Trường độ là một thuộc tính của các âm hay các đơn vị không thể tách rời khỏi
bối cảnh thời gian lớn hơn và việc tính theo thời gian trong quá trình tạo sinh âm thanh
lời nói. Trường độ của các chiết đoạn lời nói của mỗi cá nhân khác nhau rất lớn, phụ
thuộc vào cả kiểu loại chiết đoạn lẫn chu cảnh ngữ âm bao quanh. Một nguyên âm,
chẳng hạn, có thể kéo dài 300 ms (mi li giây) hoặc dài hơn, trong khi đó sự giải phóng
của một âm tắc hữu thanh có thể chỉ khoảng 20 ms.
Trong bối cảnh các khác biệt ngôn điệu, trường độ của âm tiết nói chung quan
trọng hơn trường độ chiết đoạn, và trường độ tương đối là quan trọng hơn trường độ
tuyệt đối. Trường độ nguyên âm là một thành tố quan trọng nhất của trường độ âm tiết,
nhưng việc duy trì các mối quan hệ trường độ phù hợp trong toàn bộ cấu trúc âm tiết là
rất quan trọng nếu các khác biệt và các mối quan hệ chiết đoạn sẽ được nhận ra.
Trường độ âm tiết bị tác động bởi nhiều yếu tố ngữ cảnh. Những yếu tố này bao
gồm tốc độ phát âm, sự định vị đoạn nổi trội lên hay trọng âm, vị trí của âm tiết trong
từ hay đơn vị lớn hơn khác và cấu trúc của chính các đơn vị lớn hơn đó. mặc dù trường
độ âm tiết thường biến thiên nhưng không phải tất cả các bộ phận cấu thành của trường
độ đều biến thiên như nhau. Các trường độ phụ âm thay đổi cùng với số lượng các phụ
âm có trong âm tiết, và cũng bị ảnh hưởng bởi trường độ âm tiết nói chung.
Dựa vào thực nghiệm có thể sắp xếp các kiểu âm tiết tiếng Việt theo thứ tự giảm
dần về độ dài như sau:
Âm tiết khép với kết thúc bằng phụ âm tắc, vô thanh: p, t, k
âm tiết nửa khép
âm tiết nửa mở
âm tiết mở
71
Âm tiết ở nhóm 1 là những âm tiết dài nhất. Âm tiết ở nhóm cuối là âm tiết ngắn
nhất. Như vậy, độ dài của các âm tiết phụ thuộc vào phương thức cấu tạo của âm đầu:
các phụ âm xát dài hơn các phụ âm tắc tương ứng.
Nhận xét:
Sự thay đổi độ dài của âm tiết phụ thuộc vào bối cảnh ngữ âm:
Độ dài của âm tiết phụ thuộc vào vị trí đầu, giữa và cuối ngữ đoạn.
Thanh điệu có ảnh hưởng đến trường độ của âm tiết trong câu
3.1.2. Quy luật biến đổi thanh điệu trong ngữ cảnh
Tần số cơ bản F0 mang tính tương đối, đặc trưng cho từng thanh điệu. Đường nét
F0 được xác định bằng sự biến đổi tần số dao động của dây thanh, do các cơ thanh
quản, cũng như áp suất dòng khí đi qua thanh môn điều phối. Như vậy, thanh điệu là
tổng hòa các tiêu chí về độ cao, kết hợp với sự điều phối các cơ của thanh quản, và
dòng khí đi qua thanh môn tạo nên các kiểu tạo thanh hay chất giọng khác nhau.
Về trường độ, các mẫu khảo sát cho thấy thanh điệu có ảnh hưởng lớn đến trường
độ của các nguyên âm. Do những thể hiện về đường nét gãy, trắc trong phân bố cường
độ và cao độ mà các thanh trắc cũng bị ngắn lại đáng kể. Khi đo trường độ nguyên âm
ở tất cả các mẫu trong kết hợp với thanh điệu chúng tôi nhận thấy đối với các thanh
bằng như huyền và ngang, trường độ của nguyên âm dài hơn khi kết hợp với các thanh
trắc. Trong đó khi kết hợp với thanh huyền, nguyên âm có trường độ dài nhất từ 322 -
408 ms. Thanh nặng có trường độ ngắn nhất 158 – 202 ms. Chính sự kéo dài trường độ
của nguyên âm khiến cho cấu trúc formant của nguyên âm cũng dài ngắn tuỳ theo các
kết hợp thanh điệu.
Trong tương quan so sánh thì nguyên âm khi kết hợp với thanh điệu có thể sắp
xếp theo trật tự: từ dài đến ngắn (tính theo ms) như sau: huyền - ngang - ngã - sắc - hỏi
- nặng. Trường độ của nguyên âm khi kết hợp với thanh điệu ở cả hai nhóm CTV (cộng
tác viên nam và nữ) được minh họa bằng bảng và biểu đồ sau:
72
Bảng 3. 1. Trường độ nguyên âm trong kết hợp với thanh điệu.
Huyền Ngang Hỏi Nặng Trường độ (ms)
Sắc Ngã
Thanh điệu
Nguyên âm
[i] 371 363 313 256 158 267
332 324 [e] 301 257 184 233
357 352 301 258 178 220 []
331 328 300 274 176 254 []
339 333 276 276 167 254 []
322 317 [] 271 290 159 222
341 333 [u] 275 258 186 247
345 331 [o] 291 289 197 257
367 333 288 291 160 228 []
Biểu đồ 3. 1. Trường độ nguyên âm kết hợp với thanh điệu CTV nam
73
Bảng 3. 2. Trường độ nguyên âm trong kết hợp với thanh điệu.
Huyền Ngang Hỏi Nặng Trường độ (ms)
Sắc Ngã
Thanh điệu
Nguyên âm
[i] 379 328 260 259 202 314
415 353 [e] 286 276 216 298
368 346 299 280 185 283 []
394 354 264 257 199 272 []
408 363 272 288 195 305 []
407 351 [] 288 266 171 312
380 371 [u] 280 274 187 289
404 364 [o] 294 266 227 322
370 367 273 259 165 294 []
Biểu đồ 3. 2. Trường độ nguyên âm kết hợp với thanh điệu CTV nữ
3.1.3. Quy luật biến đổi formant của nguyên âm trong ngữ cảnh
Formant được định nghĩa là tần số cộng hưởng của tuyến phát âm, do vậy chúng
liên quan trực tiếp đến hình dạng, kích thước của cơ quan cấu âm và vì thế, chúng sẽ
cung cấp nhiều thông tin đặc trưng về người nói.
74
Như đã biết, cấu trúc âm tiết bao gồm 5 thành phần âm đầu, âm đệm, âm chính
âm cuối và thanh điệu. Mỗi phần được thể hiện bằng đơn vị đoạn tính hay siêu đoạn
tính. Âm chính luôn là các nguyên âm còn các thành phần khác thường là các phụ âm
hoặc bán nguyên âm. Trong mỗi âm tiết, âm chính luôn có mặt còn các thành phần
khác có thể có hoặc không. Cấu trúc formant thể hiện rõ nhất tại âm chính, nãng lượng
của âm tiết cũng tập trung chủ yếu ở đây, biểu thị bằng vùng biên độ lớn nhất trên tín
hiệu sóng âm của mỗi âm tiết.
Để khảo sát quy luật biến đổi của cấu trúc formant chúng tôi (kết hợp với phòng
Ngữ âm, Viện Ngôn ngữ học, viện HLKHXH Việt Nam) tập trung vào 9 nguyên âm
chính là: i, ê, e, ư, ơ, a, u, ô, o. Các nguyên âm này được khảo sát khi phát âm riêng lẻ
và khi đi cùng một số âm đầu (như bi, ni, bê, nê, be, ne, bư, nư...) và khi đi cùng một số
âm cuối (bin, bim, binh,...). Trong phần này chúng tôi chưa khảo sát đến các âm đệm
và nguyên âm đôi. Qua khảo sát sơ bộ chúng tôi nhận thấy:
Cấu trúc formant của nguyên âm bị thay đổi khi đi với âm đầu hoặc âm cuối . Sự
ảnh hưởng của âm đầu lên cấu trúc formant của âm chính ít hơn rất nhiều so với
ảnh hưởng của âm cuối.
Trong các loại âm cuối sự ảnh hưởng của các âm mặt lưỡi nh/ng lên cấu trúc
formant của âm chính mạnh hơn sự ảnh hưởng của âm đầu lưỡi như "n" hay âm
môi như “m”.
Các tần số formant không phải ổn định hoàn toàn đối với mỗi người mà dao động
trong một phạm vi nhất định. Tùy thuộc mỗi người, các tần số formant có phạm vi
biến đổi khác nhau.
Các formant ở vùng tần số càng cao thì phạm vi biến đổi càng lớn.
Diễn tiến formant của nguyên âm trong kết hợp với thanh điệu
Nói về sự diễn tiến F0 theo thời gian (đường nét) có thể thấy là ở các thanh trắc
cũng có đặc điểm phân bố theo cấu trúc tuyến tính của âm tiết. Những thanh có chứa
các đường nét đặc biệt này thường thể hiện những điểm đặc biệt về đường nét ở phần
75
cuối âm tiết. Trong các cấu trúc C1VC2 (phụ âm, nguyên âm, phụ âm) chúng được thể
hiện ở các chuyển tiếp giữa âm chính và âm cuối. Những chuyển tiếp này, xét về
cường độ cũng là nơi được phân bố năng lượng ít nhất so với các phần khác của âm
tiết. Tuy nhiên, không có một ví dụ nào chỉ ra là các đặc điểm đặc biệt này có thể xuất
hiện ở chuyển tiếp giữa âm chính và âm cuối. Ngay ở các thanh trắc thì trên cứ liệu vẫn
có hai phần rõ rệt, phần đầu (thường được kéo dài đến hết chính âm trong cấu trúc
C1VC2) có diễn tiến F0 chậm và không có sự thay đổi quan trọng về giá trị và phần
sau (bắt đầu từ phần chuyển tiếp đến hết C2 trong cấu trúc C1VC2) với sự thể hiện
quan trọng về các diễn tiến F0 hay là các giá trị đường nét của một thanh. Tuy nhiên
những biến đổi về đường nét F0 ở phần cuối cấu trúc thanh điệu lại gồm nhiều biến thể
khác nhau đối với từng thanh, nhất là ở phần cuối cùng của chúng. Cụ thể: Ở những
mẫu nguyên âm có thanh điệu đi kèm, trong khoảng thời gian 50 – 60 ms đầu tiên F1,
F2 của các nguyên âm bị ảnh hưởng: F1 bắt đầu cao hơn, F2 cao hơn hoặc thấp hơn rất
nhiều so với tần số của nó khi kết hợp với thanh ngang.
Thanh điệu có ảnh hưởng đến trường độ của nguyên âm, các kết hợp nguyên âm
với thanh ngang, ngã có trường độ dài hơn các kết hợp với thanh sắc, hỏi, nặng.
Thanh điệu cũng tác động đến vùng tần số của các nguyên âm đơn tiếng Việt. Nhìn
chung, những ảnh hưởng của thanh điệu làm cho tần số F1, F2 của nguyên âm tăng
lên đáng kể so với tần số thông thường. Sự ảnh hưởng này xảy ra ở các kết hợp
thanh cao, nhất là đối với các kết hợp thanh ngang, ngã, sắc.
Thanh điệu có ảnh hưởng tới diễn tiến formant của các nguyên âm ngay ở phần
đầu, sự ảnh hưởng này kéo vùng tần số formant của nguyên âm cao hơn hoặc thấp
hơn tần số thông thường của nó tạo nên một đoạn đi lên hoặc đi xuống giữa thanh
điệu và nguyên âm mà nó kết hợp. Điều này biến đổi cấu trúc đường nét formant
làm cho nó có thể đi lên hay đi xuống ở phần đầu so với cấu trúc ban đầu. Một số
thanh điệu khiến cho tần số F2 của nguyên âm không ổn định mà bị phá vỡ thành
các điểm rời rạc.
76
Về cấu trúc formant, những thanh có đường nét gãy, trắc làm cho phần cuối của
nguyên âm mà nó kết hợp có những biến động về vùng phân bố formant giữa F1 và F2.
Tần số formant của nguyên âm tiếng Việt:
Bảng 3. 3. Vùng tần số của các nguyên âm
Nữ nam
Nguyên
âm IPA
[i] F1
312 F2
2881 F1
291 F2
2231
[e] 516 2420 394 2239
[] 685 2569 598 2304
[] 353 1303 399 1296
[] 548 1225 453 1290
[] 897 1937 994 1749
[u] 345 811 466 2125
[o] 509 979 456 963
[] 744 1216 793 1116
Khi kết hợp với các thanh điệu khác nhau, vùng tần số formant của các nguyên
âm có sự thay đổi không chỉ phụ thuộc vào giọng nam, nữ mà còn tùy vào kết hợp
thanh điệu. Tuỳ từng nguyên âm mà tần số formant F1 của các CTV nữ cao hơn so với
các CTV nam từ 30Hz – 200Hz. Đối với tần số F1, F2 khi nguyên âm kết hợp với các
thanh điệu khác như huyền, ngã, hỏi, sắc, nặng vùng tần số cao hơn so với kết hợp với
thanh ngang từ 20 đến 300 Hz. Có thể khái quát vùng tần số formant của nguyên âm
khi kết hợp với 6 thanh điệu tiếng Việt qua bảng sau:
Bảng 3. 4. Vùng tần số formant trung bình của các nguyên âm kết hợp với thanh điệu.
Nguyên Ngang Huyền Ngã Hỏi Sắc Nặng
âm F1 F2 F1 F2 F1 F2 F1 F2 F1 F2 F1 F2
77
[i] 291 2231 315 2307 314 2407 309 2445 311 2452 299 2512
[e] 394 2239 401 2195 495 2284 428 2211 443 2263 464 2207
[] 598 2304 571 2274 676 2348 626 2270 640 2322 661 2269
[] 399 1296 710 1659 384 1292 429 1377 386 1321 395 1299
[] 453 1290 874 1860 591 1308 487 1286 522 1319 580 1297
[] 994 1749 920 1719 970 1716 968 1688 924 1687 943 1714
[u] 466 2125 504 1656 405 1140 398 1014 402 1137 390 984
[o] 456 963 568 1437 489 918 514 1056 539 1229 478 894
[] 793 1116 808 1052 856 1115 801 1051 849 1138 831 1120
Bảng 3. 5. Vùng tần số formant trung bình của các nguyên âm kết hợp với thanh điệu.
Nguyên Ngang Huyền Ngã Hỏi Sắc Nặng
âm F1 F2 F1 F2 F1 F2 F1 F2 F1 F2 F1 F2
[i] 312 2881 350 2780 363 2933 334 2913 337 2945 366 2968
[e] 516 2420 493 2395 570 2334 486 2446 510 2488 510 2421
[] 685 2569 618 2539 677 2515 688 2608 702 2604 708 2556
[] 353 1303 379 1288 430 1330 379 1235 401 1274 425 1205
[] 548 1225 530 1321 632 1304 532 1312 547 1281 567 1298
[] 897 1937 846 1630 833 1652 821 1740 863 1743 844 1606
[u] 345 811 365 619 397 701 370 652 379 649 403 698
[o] 509 979 455 790 546 891 450 817 466 800 483 830
[] 744 1216 709 1154 693 1084 719 1164 718 1113 751 1085
Nếu như trường độ formant của nguyên âm trong kết hợp CV phụ thuộc vào kết
hợp thanh điệu và có sự cách biệt tương đối lớn giữa các kết hợp thanh khác nhau thì
ngược lại sự kết thúc của phụ âm cuối [p, t, k, m, n, ŋ] khiến trường độ formant của
nguyên âm trong kết hợp VC rất ngắn và không có sự cách biệt quá lớn giữa các kết
hợp thanh điệu. So sánh kết quả thu được khi đo trường độ nguyên âm trong kết hợp
78
âm cuối [p, t, k] với trường độ nguyên âm trong ngữ cảnh độc lập có thể dễ dàng nhận
thấy trường độ các nguyên âm đều bị biến đổi. Sự biến đổi này khiến trường độ nguyên
âm có diễn tiến ngắn hơn rất nhiều, thường thì trường độ chỉ bằng khoảng 1/3 đến 1/2
so với trường độ nguyên âm trong ngữ cảnh độc lập - khi không có kết hợp với phụ âm
đằng trước và sau. Trường độ nguyên âm cũng thường được tăng lên một cách đáng kể
khi nguyên âm đó có một phụ âm hữu thanh đi sau, và trường độ của nguyên âm trở
thành một đầu mối thẩm nhận quan trọng đối với đối lập hữu thanh.
Âm tắc cuối [p, t, k, m, n, ŋ] có ảnh hưởng mạnh mẽ tới cấu trúc formant của
nguyên âm trong cấu trúc VC. Diễn tiến vùng chuyển tiếp giữa nguyên âm và phụ âm
rất mờ nhạt đối với nhóm phụ âm [p, t, k], khó xác định ranh giới khiến khu vực phụ
âm gần như bị hòa kết liền với nguyên âm. Cấu trúc và diễn tiến formant của nguyên
âm trong đoạn chuyển tiếp bị thay đổi, tại điểm kết thúc nguyên âm các sóng đi lên
hoặc đi xuống với chu kỳ đều đặn với biên độ giảm dần, và kết thúc đột ngột.
Khi đóng vai trò kết thúc âm tiết các âm tắc đứng sau nguyên âm chúng đã làm
biến đổi âm sắc của nguyên âm ở giai đoạn cuối. Sự chuyển dịch formant theo các
hướng khác nhau phụ thuộc vào kết hợp với các nhóm phụ âm ở những vị trí và
phương thức khác nhau, đây cũng là dấu hiệu quan trọng duy nhất có thể nhận diện ra
các âm cuối.
3.1.4. Cách điệu hóa đường F0 của âm tiết tiếng Việt
3.1.4.1. Tổng hợp thanh điệu tiếng Việt của âm tiết cô lập
Trong [10][11] các tác giả đã sử dụng phương pháp bình phương tối thiểu để cách điệu
hóa tuyến tính đường F0 của các thanh điệu tiếng Việt trong ngữ lưu. Các tác giả đã đi
đến kết luận là rất khó để cách điệu hóa tuyến tính đường F0 của một số thanh điệu
tiếng Việt như thanh nặng và thanh ngã.
Tuy nhiên chúng tôi vẫn tổng hợp được các thanh nặng (cho âm tiết không tận cùng
bằng p-t-c/ch) và thanh ngã từ các âm tiết mang thanh điệu – thanh ngang (thanh không
79
dấu). Với các âm tiết tiếng Việt tận cùng bằng p-t-c/ch thì thanh sắc được tổng hợp từ
cùng âm tiết gốc nhưng có thanh điệu nặng.
Hình 3. 2. Thanh không dấu (âm a)
Hình 3. 3. Thanh huyền được cách điệu từ từ một dãy các giá trị F0 đo được
204,208,201,200,196,196,192,192,189,185,182,179,179,170,170.
80
Hình 3. 4. Thanh sắc được cách điệu từ một dãy các giá trị F0 đo được
222,222,209,209,209,209,209,213,213,218,218,228,238,238,256,270,295,346.
Hình 3. 5. Thanh nặng được cách điệu từ các giá trị F0 đo được
213,217,222,213,213,208,185,185,80,80.
Hình 3. 6. Thanh hỏi được cách điệu từ một dãy giá trị F0 đo được
150,179,188,200,207,208,201,197,192,184,177,174,177,177,179,188,191,184,163,150
Để cách điệu hóa thanh điệu, chúng tôi không sử dụng phương pháp cách điệu hóa
tuyến tính như [10][11] mà sử dụng mô hình Xu [69] đã được sử dụng rộng rãi cho
tiếng Trung Quốc phổ thông –Mandarin.
81
Mô hình Xu để mô hình hóa đường tần số cơ bản F0 của các thanh điệu trong ngữ
cảnh (dùng cho các ngôn ngữ có thanh)., mô hình này đã áp dụng được cho tiếng
Mandarin.
, như vậy F0 được tạo ra từ sự kết hợp của 2 thành phần xấp xỉ:
Thành phần xấp xỉ tuyến tính:
Thành phần phân rã hàm mũ
của sai số xấp xỉ:
Việc tính các hệ số của mô hình Xu khi cho trước giá trị đường F0 cũng sử dụng
phương pháp bình phương tối thiểu, thay vì tìm các hệ số a,b,, ta xác định các hệ số
a,b, k (k=e-) bằng phép cực tiểu hóa như sau:
(3.1)
ở đó n là số frame của đoạn tiếng nói, là giá trị đường F0 của đoạn tiếng nói.
Phương pháp cách điệu hóa sử dụng mô hình của Xu được xây dựng như sau :
Bước 1 : Chọn âm tiết gốc có thanh điệu – thanh ngang, thanh nặng cho các âm tiết tận
cùng p-t-c/ch, xác định giá trị đường F0 của âm tiết.
Bước 2 : Biên tập giá trị đường F0 của thanh điệu cần tổng hợp. Sử dụng mô hình Xu
để khớp các tham số a,b,k (các thanh không dấu, huyền, sắc, nặng có một bộ tham số
a,b,k, các thanh hỏi và ngã có 2 bộ tham số a,b, k. Thanh sắc của âm tận cùng p-t-c/ch
cũng có một tham số a,b,k)
Bước 3 : Sử dụng thuật toán PSOLA tổng hợp âm tiết với thanh điệu xác định từ âm
tiết gốc (nếu âm tiết gốc không tận cùng là p-t-c/ch thì âm tiết gốc mang thanh điệu –
thanh ngang, trường hợp ngược lại thì âm tiết gốc mang thanh điệu là thanh nặng.)
82
Hình 3. 7. Biên tập đường F0 của dấu ngã và tổng hợp dấu ngã.
Các kết quả tổng hợp thanh điệu cho tất cả các loại âm tiết tiếng Việt như
Chỉ có nguyên âm
Không có phụ âm đầu
Kết thúc là bán nguyên âm.
Kết thúc là p-t-c/ch...
đã được thực hiện và kiểm tra với sự cộng tác của các nhà nghiên cứu ngữ âm học như
Vũ Kim Bảng, Vũ Thị Hải Hà, Viện ngôn ngữ, Viện Hàn lâm KHXH Việt Nam đều
đưa đến kết luận là âm nghe rõ, không bị hiện tượng rè, thanh điệu tổng hợp nghe rõ
ràng, giữ được đường nét đặc trưng thanh điệu tương ứng.
83
3.1.4.2. Tổng hợp thanh điệu tiếng Việt trong ngữ lưu
Trong [42] chúng tôi đã trình bày kết quả tổng hợp đường thanh điệu trong ngữ
lưu bằng mô hình Fujisaki theo hướng tiếp cận phân tích – tổng hợp.
Để phân tích đường nét F0, một công cụ phân tích các tham số của mô hình
Fujisaki được sử dụng, Fb được đặt bằng 96 Hz cho giọng nam và 210 Hz cho giọng
nữ. α và β cho cả giọng nam và nữ được lần lượt đặt bằng 2 Hz và 25 Hz.
Các bước tiến hành phân tích bao gồm:
Tính đường nét F0.
Lựa các chọn lệnh ngữ câu nói.
Dựa vào thanh điệu của các âm tiết để lựa chọn các lệnh thanh điệu phù hợp.
Điều chỉnh các tham số sao cho đường nét F0 sinh ra xấp xỉ tốt đường nét F0 thực.
Tổng hợp lại câu nói với đường nét thanh điệu mới sử dụng phương pháp PSOLA.
Cảm nhận bằng tai câu nói tổng hợp, so sánh với câu nói gốc và điều chỉnh lại.
Các kết quả phân tích cơ sở dữ liệu cho thấy, các thanh ngang, sắc, ngã được biểu
diễn bằng một lệnh thanh điệu dương, thanh huyền và hỏi được biểu diễn bằng một
lệnh thanh điệu âm, thanh nặng không cần lệnh thanh điệu.
Bảng 3. 6. Biểu diễn các 6 thanh điệu tiếng Việt bằng các lệnh thanh điệu
Thanh điệu Biểu diễn bằng lệnh thanh điệu
Ngang Một lệnh thanh điệu dương ở trước âm tiết
Sắc Mộtlệnh thanh điệu dương
Hỏi Một lệnh thanh điệu âm
84
Huyền Một lệnh thanh điệu âm
Ngã Một lệnh thanh điệu dương
Nặng Một dùng lệnh thanh điệu
Các câu được phân tích chỉ sử dụng một lệnh ngữ cho cả câu, phù hợp với hiện
tượng trong câu nói, người nói thường lên giọng ở đầu câu và hạ giọng ở cuối câu. Tuy
nhiên trong tiếng Việt hiện tượng này không rõ rệt như ở các ngôn ngữ khác nên cường
độ của lệnh ngữ này không lớn.
Hình 3. 8. Kết quả phân tích thanh điệu tiếng Việt bằng mô hình Fujisaki
Thanh ngã và thanh sắc được biểu diễn bằng môt lệnh ngữ điệu dương phù hợp
với nhận xét về sự giống nhau giữa 2 thanh này trong phần trước.
Thanh hỏi có đường nét F0 đi xuống, đến giữa thanh, đường nét F0 lại đi lên,
thanh này giống thanh T3 (low tone) của tiếng Trung và được biểu diễn bằng một lệnh
thanh điệu âm giống như trường hợp của tiếng Trung.
Bảng 3. 7. Giá trị trung bình và độ lệch chuẩn của các tham số Fujisaki cho các thanh
điệu.
Thanh Aa T1rel T2rel
85
1 -.09 .218 .86
2 .61 .523 1.04
3 .53 .556 1.11
4 .45 -.341 .91
5 .37 -.132 1.07
6 - .00 -
6’ .42 -.378 .70
2’ .16 .617 .84
Quy định thời gian đơn giản được xây dựng bằng thực nghiệm. Các kết quả được
thể hiện trong Bảng 3.6 và 3.7. Thời gian được đo bằng 10 đơn vị mi li giây. Kết quả
thống kê cho thấy thời gian của âm phụ thuộc nhiều hơn nữa về thanh điệu hơn vị trí.
Âm với thanh điệu 3, 6 'và 2' ngắn hơn những âm khác. Kết quả cho thấy các đường
bao F0 được tạo ra bởi các mô hình Fujisaki nói chung làm việc tốt cho câu tiếng Việt.
Phân lớp thanh điệu trong ngữ cảnh câu
Trong [4] chúng tôi đã trình bày cách phân lớp thanh điệu trong ngữ lưu. Cách
tiếp cận này dùng phương pháp lượng tử hóa các dạng đường thanh điệu để quy về một
số lớp thanh điệu có đường nét đặc trưng cho mỗi lớp. Sau khi lượng tử hóa dùng cây
quyết định khảo sát sự chuyển lớp của các thanh điệu dựa trên thông tin văn bản. Từ đó
đưa ra những khảo sát hiện tượng biến thanh trong tiếng Việt nhằm cải tiến ngôn điệu
trong hệ tổng hợp tiếng Việt.
Với các âm tiết trong câu nói liên tục thì hình dáng các đường thanh điệu thay đổi
rất khác so với âm tiết rời rạc. Như vậy, số lượng các dạng đường thanh điệu trong câu
liên tục tăng lên rất nhiều lần so với âm tiết rời rạc. Để phân cụm các đường thanh điệu
về một số lớp, dùng phương pháp lượng tử hóa tập các đường thanh điệu mẫu quy về
một số lớp hữu hạn. Số lớp này lớn hơn số các đường thanh điệu tiếng Việt 6 thanh.
Trong luận án chỉ xét sự biến thiên đường thanh điệu trong 3 âm tiết liên tục.
86
Codebook
Phân
cụm
LBG
Tập các véc
tơ F0 huấn
luyện
CSDL
âm và gán
nhãn văn
bản
Véc tơ F0 âm tiết vào
Chỉ số
codebook
CSDL
âm tiết
biến
thanh
Bộ lượng
tử hóa
(lớp thanh
điệu)
Hình 3. 9. Sơ đồ khối chung của quá trình huấn luyện và phân lớp các đường thanh
điệu sử dụng
3.2. Dự báo thông tin trường độ, âm lượng của âm tiết tiếng Việt trong ngữ
cảnh câu
Vấn đề dự đoán đường F0 của các âm tiết tiếng Việt trong ngữ cảnh câu có thể
dùng mô hình phân tích-tổng hợp Fujisaki[2][22][42][43][44]. Trong [22][42][43][44]
các tác giả cũng đã đưa ra mô hình dự báo trường độ âm tiết tiếng Việt dựa trên mô
hình CART, các đặc trưng đưa vào mô hình dự báo CART chưa khai thác được hết ngữ
cảnh của âm tiết tiếng Việt trong câu và không xét đến giá trị âm lượng của âm tiết
trong câu. Ngoài ra để sử dụng được hiệu quả mô hình CART chúng ta còn phải xem
xét đến các yếu tố thống kê của cơ sở dữ liệu âm huấn luyện tham số mô hình. Ngoài
phương pháp học ngôn điệu dựa trên ToBI [57] như hệ thống VTED của Trung tâm
MICA [41][66][67] được phát triển dựa tên mã nguồn mở Mary TTS, các tác giả của
Viện Ứng dụng Công nghệ, Đại học Quốc gia TP HCM cũng đã giới thiệu một hệ
thống tổng hợp tiếng Việt [78] với giọng đọc gần tiếng nói tự nhiên dựa trên tiếp cận
kiểu kho ngữ liệu (corpus-based), tất nhiên mô hình này đòi hỏi rất nhiều dữ liệu được
gán nhãn (dựa trên công nghệ phân đoạn tự động câu tiếng nói thành các đơn vị tiếng
nói kết hợp với điều chỉnh tay).
Các kết quả nghiên cứu của phần này [CT1] trình bày việc dự báo cả trường độ và
âm lượng của các âm tiết tổng hợp trong ngữ cảnh câu sử dụng cùng một mô hình
87
CART, khác biệt với các tác giả trong [22][42][43][44] chỉ sử dụng trực tiếp tham số
trường độ của âm tiết trong cơ sở dữ liệu câu huấn luyện để dự báo, chúng tôi sử dụng
tham số Z-score (phụ thuộc thống kê vào ngữ cảnh của âm tiết trong câu) làm giá trị dự
báo, qua đó đã tăng được độ chính xác dự báo trường độ âm tiết cũng như đưa ra các
giá trị dự báo âm lượng là một tham số ngôn điệu quan trọng không được xem xét
trong [22][42][43][44].
Nhận xét : Tiếng nói huấn luyện, phát âm tự nhiên thu nhận trong môi trường thực
thường xuất hiện nhiễu cộng, : , trong đó là tín hiệu gốc hoặc đặc trưng
thu được từ tín hiệu gốc, là tín hiệu “sạch”, là thành phần nhiễu ngẫu nhiên
với phân bố xác suất nào đó. Khi đó nếu dùng phép chuẩn hóa z-score với tín
hiệu (hoặc đặc trưng) sn ta sẽ có thể giảm được ảnh hưởng của thành phần nhiễu en, và
do đó chỉ số tương quan của mô hình dự báo CART sẽ tăng lên, chất lượng dự báo có
thể tốt hơn.
3.2.1. Cơ sở dữ liệu tiếng nói huấn luyện mô hình dự báo
Cơ sở dữ liệu hơn 1250 câu tiếng nói đọc bởi phát thanh viên chuyên nghiệp,
giọng Hà Nội, đã được sử dụng trong phần thực nghiệm này. Tập câu được ghi âm với
tần số lấy mẫu là Fs=22050Hz, đơn kênh, độ phân giải một mẫu là 16bit.
Để tăng độ chính xác của giá trị ngôn điệu được dự báo như trường độ và âm
lượng của âm tiết trong câu tổng hợp, chúng tôi đã tiến hành phân tích các tham số
thống kê chi tiết của các giá trị này trong các ngữ cảnh âm vị khác nhau của cơ sở dữ
liệu câu huấn luyện như được tóm tắt ở các bảng dưới đây:
Bảng 3. 8. Bảng độ dài âm vị không tính ngữ cảnh
Tên âm vị Tần suất Độ dài min
(s) Độ dài max
(s) Trung
bình Độ lệch
chuẩn
88
a 2280 0.021855 0.646632 0.119814 0.066424
iz 1948 0.016414 0.390000 0.078273 0.043617
m 710 0.025538 0.245256 0.085783 0.033361
aw 828 0.024235 0.242580 0.077581 0.029928
mz 487 0.026109 0.295968 0.117891 0.046261
k 1315 0.015311 0.320000 0.041839 0.017588
th 599 0.022596 0.162560 0.066307 0.023378
ch 687 0.020341 0.300000 0.061498 0.022193
cz 619 0.011557 0.127612 0.044278 0.021161
s 332 0.024672 0.210381 0.104234 0.043465
uz 673 0.019240 0.481884 0.097447 0.045938
kh 291 0.018458 0.215535 0.093406 0.029868
Bảng 3. 9. Độ dài nguyên âm a ràng buộc bởi phụ âm đầu, âm cuối
Âm đầu
Độ lệch
chuẩn Độ dài
max Trung
bình
Nguyên
âm
a ch,th,ph Âm
cuối
null Tần
suất
53 Độ dài
min (s)
0.067591 0.354356 0.167803 0.061436
m,n,n,ng ban 67 0.034432 0.162890 0.082867 0.032960
nguyen
am
Bảng 3. 10. Bảng độ dài âm cuối ràng buộc bởi nguyên âm
Âm cuối Nguyên Tần suất Độ dài min Độ dài
max Trung
bình Độ lệch
chuẩn âm
89
0.017871 0.103455 0.048423 0.022201 cz aw 37
0.019492 0.064362 0.033094 0.012113 cz i 11
0.027146 0.200000 0.086638 0.049505 iz uo 31
uwow 173 0.018976 0.169185 0.063940 0.034708 iz
0.049768 0.295968 0.137286 0.051088 mz aa 48
0.074060 0.256748 0.130268 0.045005 mz ow 16
0.026369 0.069933 0.042885 0.015182 pz a 9
0.018157 0.112483 0.055905 0.028921 pz aw 15
0.019623 0.090000 0.041001 0.016166 tz a 48
0.016356 0.134143 0.044069 0.023076 tz aw 74
142 0.023469 0.481884 0.110776 0.058130 uz aw
0.027209 0.187259 0.073656 0.032710 uz e 38
0.049287 0.118485 0.076594 0.023276 uz uw 8
Bảng 3. 11. Bảng độ dài phụ âm đầu ràng buộc bởi nguyên âm
Tần suất Độ dài
min Độ dài
max Trung
bình Độ lệch
chuẩn
Phụ âm
đầu
B Nguyên
âm
aw 0.025391 0.207781 0.076246 0.030834 54
B ee 28 0.036980 0.120000 0.074974 0.019760
Ch a 20 0.034816 0.102819 0.063057 0.015888
Ch u 67 0.024178 0.300000 0.059879 0.034934
H i 21 0.036870 0.090697 0.060960 0.015621
H u 11 0.040000 0.157039 0.078191 0.034558
K e 22 0.022826 0.170296 0.043214 0.030460
K ee 42 0.020343 0.062757 0.039003 0.011922
K u 115 0.015311 0.078733 0.038037 0.012070
Kh a 42 0.052388 0.167643 0.100004 0.025507
90
0.051503 0.210360 0.110791 0.046332 ie 12 Kh
0.029959 0.165244 0.074203 0.026375 a 369 L
0.052390 0.124459 0.087344 0.020237 oa 23 L
0.042708 0.190000 0.094174 0.039680 oo 20 L
158 0.033945 0.206957 0.078506 0.029608 a M
0.028441 0.166226 0.095594 0.034975 aa 45 M
uwow 0.025538 0.145181 0.071455 0.027013 28 M
0.023593 0.138148 0.066544 0.023755 a 61 Ph
uwow 0.049614 0.153171 0.090524 0.021938 33 Ph
0.028638 0.186613 0.110303 0.036228 a 63 S
0.026092 0.183017 0.077653 0.050040 aa 13 S
0.018038 0.114752 0.036266 0.022071 ow 25 T
0.012559 0.060969 0.028529 0.011556 u 33 T
0.023631 0.100928 0.056069 0.017729 aa 74 Th
0.028795 0.121672 0.077662 0.026268 ie 22 Th
0.020957 0.162675 0.061447 0.029520 a 151 v
Bảng 3. 12. Bảng độ dài thanh điệu theo âm tiết ràng buộc bởi âm kết thúc
15 uwow 0.035674 0.083957 0.062528 0.011667 v
Thanh
Kiểu độ
Tần suất Độ
dài Độ dài Trung Độ lệch
điệu
mở
Ngang
0
539
0.095832
0.409285
0.233950
0.065693
min max bình chuẩn
91
Ngang
718
0.104016
0.425166
0.250506
0.062368
1
Ngang
930
0.087782
0.424303
0.257046
0.054150
3
Huyền
478
0.090000
0.490641
0.243269
0.072267
0
Huyền
432
0.079817
0.440250
0.268337
0.065758
1
Huyền
512
0.150958
0.508805
0.287025
0.055312
3
Ngã
255
0.082078
0.458208
0.225331
0.063913
0
Ngã
165
0.164246
0.399609
0.283121
0.056232
1
Ngã
175
0.138407
0.425979
0.274183
0.058701
3
Hỏi
349
0.106625
0.434753
0.232052
0.062771
0
Hỏi
144
0.122561
0.382684
0.246176
0.057002
1
Hỏi
95
0.139825
0.421826
0.285726
0.050421
3
Sắc
386
0.087871
0.469087
0.238851
0.082523
0
Sắc
463
0.080354
0.420982
0.242419
0.074040
1
Sắc
621
0.128049
0.367782
0.233286
0.045816
2
Sắc
555
0.124193
0.600000
0.271451
0.065214
3
Nặng
202
0.114257
0.396569
0.238240
0.057296
0
Nặng
174
0.126543
0.404441
0.237114
0.044734
1
Nặng
342
0.104686
0.359259
0.226113
0.046995
2
Nặng
188
0.123311
0.410058
0.266878
0.053341
3
Trong đó Quy ước giá trị độ mở của âm tiết như sau:
0: Âm tiết không có âm cuối (chẳng hạn các nguyên âm)
1: Phụ âm cuối là bán nguyên âm
92
2: Âm tiết kết thúc là p-t-c
3: Âm tiết kế thúc là m-n-nh-ng
3.2.2. Dự báo ngôn điệu
Trong kỹ thuật tổng hợp tiếng Việt, chất lượng tổng hợp tập trung chính vào
trường độ và cao độ của âm vị, đó là hai tham số chính truyền đạt thông tin ngữ âm.
Bộ phân tích ngôn điệu của hệ thống TTS tập trung vào việc tính toán giá trị của
tập các biến ngữ âm. Trong một dạng tối thiểu, các biến này là trường độ âm vị và F0.
Việc tính toán các giá trị như vậy có thể dựa vào các quy luật hoặc dựa vào các phương
pháp học máy, như mô hình CART. Kết quả trên việc sử dụng CART được huấn luyện
với các phong cách đọc khác nhau đã được nghiên cứu trong nhiều hệ thống TTS tiếng
nước ngoài cũng như cho tiếng Việt, điểm mới ở đây là chúng tôi vận dụng mô hình dự
báo CART để dự báo cả trường độ và âm lượng của các đơn vị tiếng Việt như âm vị,
âm tiết và sử dụng giá trị gián tiếp Z-score được tính dựa trên các tham số thống kê của
đơn vị âm trong ngữ cảnh câu, thay thế cho các giá trị trường độ gốc của đơn vị âm.
Hai hệ số đo sai số là dự báo hệ số tương quan và trung bình độ lệch bình phương cho
(3.2)
(3.3)
mô hình CART được cho như sau:
Ở đây M là kích thước dữ liệu của tập huấn luyện hoặc kiểm tra, , là
trường độ và trung bình thực tế, , là trường độ và trung bình dự đoán của
mô hình.
93
3.2.3. Thiết kế bộ phân tích ngôn điệu và xác định tham số huấn luyện dự
báo trường độ và âm lượng
3.2.3.1. Cơ sở dữ liệu ngữ âm.
Khoảng hơn 1250 câu tiếng Việt giọng Nữ, đọc tự nhiên của phát thanh viên
chuyên nghiệp của đài tiếng nói Việt Nam (VOV). Các câu được lấy từ các nguồn như
tập truyện “Dế mèn phiêu lưu ký” hoặc được đặt câu để tạo sự xuất hiện đầy đủ các
kiểu âm tiết và thanh điệu tiếng Việt nên có độ phong phú về các hiện tượng ngữ âm
học tiếng Việt, như các câu sau (xem Phụ lục):
“Chũi đã thấy có dế cụt càng như thế“
“Tôi gạt phắt đi và mắng chũi“
“Sau cùng anh em tôi ôm nhau mà khóc“
“Chũi ngửa mặt lên trời gần như ngất đi“
“Họ dế chúng tôi chỉ có khi sắp chết thì mới phải chịu nằm ngửa“
“Bây giờ thấy chũi thế tôi đã lo lo“
“Tôi sờ lên mặt chũi xem còn thở không rồi lay gọi“
“Mãi chũi mới ú ớ tỉnh“
Cơ sở dữ liệu ngữ âm (kho ngữ liệu, corpus) được tổ chức dựa trên các đối tượng
“Praat Object” [85], có sự hỗ trợ tổ chức dữ liệu của phòng Ngữ âm học, Viện ngôn
thể, mỗi thực thể gọi là “Praat Object” gồm một file tiếng nói (thường lưu ở định dạng
ngữ, Viện HLKHXHVN. Corpus dữ liệu sử dụng định dạng TextGrid, gồm một tập thực
.WAV), một file gán nhãn TextGrid gồm nhiều mức gán nhãn: mức âm vị/mức âm
tiết/mức ngữ đoạn (chi tiết tùy theo nhu cầu, TextGrid hỗ trợ đầy đủ). Công đoạn lâu
nhất để tổ chức một corpus ngữ âm là gán nhãn. Từ thành phần đối tượng cơ bản,
người phân tích ngữ âm sử dụng Praat sẽ trích chọn ra được và lưu các thông số âm
học của từng phát âm tiếng nói như tần số cơ bản, các formant, trường độ một tổ hợp
dăy âm vị bất kỳ v.v…
94
Các câu đều được ghi ở định dạng âm thanh với tần số lấy mẫu 11025Hz, loại
mono, 16 bit.
Tất cả các câu của cơ sở dữ liệu đều được phân cắt tự động bởi một bộ nhận dạng
tiếng nói liên tục (dựa trên bộ mã nguồn mở HTK được sửa đổi cho tiếng Việt) và được
phiên âm lại bằng việc sử dụng một thủ tục điều chỉnh lại bằng tay. Ngữ điệu và tín
hiệu cường độ được ghi theo định dạng của phần mềm Praat [85].
Hình 3.10: Câu “Bây giờ đến lúc nó đánh dúm khoeo lại chân run lẩy bẩy không
đứng được lại phải nằm bóp bụng xuống” đã được gán nhãn mức âm tiết – âm vị.
Một số các đặc trưng đưa vào nghiên cứu là: kiểu phát âm (tường thuật, nghi
vấn…), một phần của đoạn văn gồm các từ, vị trí tương đối của bộ phận trong câu,
trong từ và trong âm tiết, trọng âm, mức độ ngừng sau một đơn vị.
3.2.3.2. Tham số đọc mô hình
Thay vì dự báo trực tiếp trường độ của âm tiết như trong [22][42][43][44], chúng
tôi sử dụng các tham số thống kê ngữ cảnh của âm vị hoặc âm tiết như trong các bảng
3.8, 3.9, 3.10, 3.11
Ta có công thức tính ZDs,C (đơn vị giây) từ giá trị trường độ của âm tiết s và các giá
trị trung bình và độ lệch chuẩn trong cùng ngữ cảnh của âm tiết như sau:
95
Ds,C= µs,C + ZDs,C*σs,C (3) , C là ngữ cảnh ràng buộc cho âm tiết, Ds,C là trường độ
(3.4)
của âm tiết s trong ngữ cảnh C.
,
P(s) là tập âm đầu, âm đệm, nguyên âm chính và âm cuối tạo nên âm tiết tiếng
Việt. (Xem các bảng số liệu 3.8, 3.9, 3.10, 3.11 thống kê trường độ của các âm vị trong
ngữ cảnh). Tương tự ta xác định được ZIi,C (đơn vị decibel)
Tham số đầu vào cho mô hình dự báo trường độ và âm lượng được cho bởi bảng sau:
Bảng 3. 13. Bảng tham số đầu vào cho mô hình CART
STT Đặc trưng
1 Âm tiết hiện tại{lớp âm đầu, độ mở của âm cuối, lớp nguyên âm, thanh điệu}
2 Âm tiết trái{lớp âm đầu, độ mở của âm cuối, lớp nguyên âm, thanh điệu}
3 Âm tiết phải{lớp âm đầu, độ mở của âm cuối, lớp nguyên âm, thanh điệu}
4 Vị trí của âm tiết trong ngữ đoạn
5 Số âm tiết của ngữ đoạn
6 Tham số ZD (hoặc ZI) theo ngữ cảnh
Thử nghiệm và kết luận
Tham số dự báo cho mô hình CART được tổ chức như sau (cho phần mềm Wagon):
((segment_duration float)
(cur b dd t th tr ch k m n nh p ng ph v x d gi l s r kh g h w i ee e ea u oo o oa ooo uw
ow aa a aw
ie uo uwow pz tz mz nz cz ngz uz iz tth sp )
(pre b dd t th tr ch k m n nh p ng ph v x d gi l s r kh g h w i ee e ea u oo o oa ooo uw
ow aa a aw
ie uo uwow pz tz mz nz cz ngz uz iz tth sp )
(next b dd t th tr ch k m n nh p ng ph v x d gi l s r kh g h w i ee e ea u oo o oa ooo uw
ow aa a aw ie uo uwow pz tz mz nz cz ngz uz iz tth sp )
96
(pos_in_syll 1 2 3 4 )
(open_degree 0 1 2 3 )
(tone 0 1 2 3 4 5 6)
(posInSen float)
(coutPhoneme 1 2 3 4)
(countSyl float)
(prev_degree 0 1 2 3 ))
Với cách tổ chức file này, văn bản các câu ứng với file tiếng nói trong cơ sở dữ liệu
ngữ âm sẽ có tương ứng một file, chẳng hạn:
-3.43985009 b 1 1 1 1 22
-2.29526353 aa 3 1 1 1 22
-3.21826863 iz 4 1 1 1 22
-2.94443893 d 1 0 2 2 22
-1.19259024 ow 3 0 2 2 22
-3.22306252 dd 1 3 5 3 22
-2.83734822 ee 3 3 5 3 22
-2.90831614 nz 4 3 5 3 22
-2.82609940 l 1 2 5 4 22
-2.63905191 u 3 2 5 4 22
-2.38047171 cz 4 2 5 4 22
-2.38913465 n 1 0 5 5 22
-2.63542557 o 3 0 5 5 22
-2.63396859 dd 1 3 5 6 22
-2.67343855 ea 3 3 5 6 22
3 5 6 22 -1.61096990 ngz 4
-2.72612977 d 1 3 5 7 22
-2.29172039 u 3 3 5 7 22
4 3 5 7 22 -1.95385146 mz
97
-1.82820714 kh 1 1 1 8 22
-3.50628257 w 2 1 1 8 22
-1.81813335 e 3 1 1 8 22
-3.25334144 uz 4 1 1 8 22
-2.53799701 l 1 1 6 9 22
-1.87034333 a 3 1 6 9 22
-3.26200199 iz 4 1 6 9 22
-3.12501812 ch 1 3 1 10 22
-2.70229602 aa 3 3 1 10 22
-1.72184253 nz 4 3 1 10 22
-2.56400847 u 3 3 1 11 22
-2.40212226 nz 4 3 1 11 22
-2.06528497 u 3 3 1 11 22
Câu “Bây giờ đến lúc nó đánh dúm khoeo lại chân run lẩy bẩy không đứng được lại
phải nằm bóp bụng xuống”
Sau khi huấn luyện mô hình dự báo CART các tham số đánh giá độ chính xác dự báo
trường độ của âm tiết của các câu không năm trong cơ sở dữ liệu âm huấn luyện đạt
được với R=0.87 và RMSE=0.044(s). Các ước lượng này là tốt hơn xét trên độ lớn của
tập câu huấn luyện và dự báo và so sánh với các kết quả của các tác giả khác, ở đó độ
chính xác dự báo là R=0.5794 và RMSE=0.0531(s). Ngoài ra việc dự báo giá trị âm
lượng đã đạt được kết quả tốt, âm lượng của các âm tiết ở giữa và các âm tiết là từ
dừng như “rằng”, “thì”, “là”, “và”, “mà” v.v… là hoàn toàn phù hợp trong câu
được tổng hợp.
Chúng tôi đã ứng dụng mô hình dự báo ngôn điệu tiếng Việt ở mức câu vào bộ
tổng hợp tiếng Việt Vnvoice (một sản phẩm thương mại được viết chính bởi tác giả
luận án). Vnvoice đã có đầy đủ các mô đun chuẩn hóa văn bản tiếng Việt [3] [30] cho
hệ thống TTS, ngoài ra Vnvoice còn có tính năng phân biệt từ tiếng Anh trộn lẫn trong
văn bản tiếng Việt, phát âm tự động các âm tiết trong câu văn bản, chèn khoảng lặng
98
thích hợp vào các âm tiết tận cùng hoặc bắt đầu là p-t-c/ch, âm tiết mang dấu nặng [3],
thay đổi tốc độ đọc (nhanh và chậm) v.v… Đầu ra tín hiệu âm thanh của Vnvoice được
biến đổi về trường độ/âm lượng sử dụng mô đun dự báo tích hợp bên trong.
Hình 3.11. Câu “Lũ trẻ bắt được cà ra đem bán lấy tiền mua sách.” trong CSDL
ngữ âm.
99
Hình 3.12 : Hệ phát âm tài liệu Microsoft Word sử dụng nhân của Vnvoice.
Thử nghiệm cho thấy chất lượng âm tổng hợp đã cải thiện được độ tự nhiên khi
được điều khiển trường độ và âm lượng ở mức độ âm tiết của câu tổng hợp.
“Tôi đang học nói tiếng Việt”
Câu tổng hợp từ Vnvoice chưa thay đổi trường độ/âm lượng
100
“Tôi đang học nói tiếng Việt”
Thay đổi trường độ/âm lượng của câu tổng hợp
Hình 3. 13. Thay đổi trường độ/âm lượng của đầu ra của Vnvoice
3.2.3.3. Đánh giá kết quả
Để đánh giá độ tự nhiên tiếng nói tổng hợp sau khi ghép phần dự báo trường độ
và âm lượng, chúng tôi sử dụng độ đo MOS (Mean Opinion Score)
Người nghe đánh giá chất lượng tiếng nói của mô đun tổng hợp Vnvoice trước
và sau khi ghép mô đun dự báo trường độ và âm lượng khác nhau trên cùng tập câu
mẫu. Thang điểm đánh giá trong bảng dưới đây:
Bảng 3.13: Thang điểm độ đo MOS.
Chất lượng tiếng nói tổng hợp Điểm
Xuất sắc 4.1 – 5
Tốt 3.1 – 4
Bình thường 2.1 – 3
Kém 1.1 – 2
Tồi 0 – 1
Phương pháp này đo sự ảnh hưởng của ngôn ngữ và yếu tố tâm lý. Văn bản
kiểm tra được phân thành một số chủ đề khác nhau như: chính trị, kinh tế, thể thao,
khoa học, … Văn bản mẫu này cho người nghe đánh giá toàn bộ chất lượng tiếng nói
tổng hợp ở theo các phương pháp tổng hợp khác nhau và cho điểm. Điểm trung bình là
điểm cuối cùng để đánh giá.
Chúng tôi chọn 10 cán bộ nghiên cứu của Viện ngôn ngữ trong đó có 4 chuyên
gia về ngữ âm học để đánh giá.
101
Bảng 3.14: Kết quả đánh giá tính tự nhiên các hệ thống tổng hợp tiếng Việt.
Mô đun tổng hợp Vnvoice Vnvoice có ghép dự
báo
MOS Av Av
3.6 0.6 3.8 0.4
Trong đó Av là điểm trung bình đánh giá, là độ lệch chuẩn.
Theo độ đo MOS, các kết quả thu được tương ứng chất lượng tiếng nói như sau:
Điểm MOS Chất lượng
(4.0 - 4.5) Tự nhiên, giọng người nói.
Dễ hiểu, phù hợp với các ứng dụng thông báo, (3.5 ,4.0) truyền thông.
(2.5 ,3.5) Giọng nhân tạo, không tự nhiên.
Hệ tổng hợp VnVoice cải tiến (3.8 điểm) tốt hơn so với VnVoice khi chưa ghép mô
đun dự báo âm lượng và trường độ (3.6 điểm). Tuy nhiên, VnVoice đã cải tiến vẫn cần
hoàn thiện hơn nữa bằng cách thử nghiệm các mô hình thanh điệu và mô hình trường
độ khác nhau.
3.2.4. Tổng hợp tiếng Việt trên hệ thống tài nguyên hạn chế
Khi mà xử lý tiếng nói trên máy tính đã đạt được những thành tựu rất khả quan,
người ta đã nghĩ đến việc nghiên cứu xây dựng hệ xử lý tiếng nói trên các hệ thống có
tài nguyên hạn chế để đáp ứng những mục đích về giao tiếp tiếng nói trên các hệ thống
này. Do đặc thù của hệ thống tài nguyên hạn chế, các hệ tổng hợp chạy trên các hệ
thống này cũng cần sử dụng lượng bộ nhớ và chí phí tính toán đủ nhỏ. Các nhà nghiên
cứu trên thế giới đã đạt được những thành công ngay cả trên những hệ thống có tài
nguyên rất khiêm tốn như các loại chip với khả năng lưu trữ và tính toán rất thấp.
102
Việc tích hợp hệ thống tổng hợp tiếng nói vào các hệ thống tài nguyên hạn chế
gặp phải vấn đề về bộ nhớ và các yêu cầu tính toán, trong [14] các tác giả đã sử dụng
mã hóa A-law để nén CSDL đơn vị tiếng nói và họ đã chỉ ra rằng 80% thời gian tính
toán nằm ở khâu chuẩn hóa văn bản và chuyển văn bản về âm vị. Họ đã sử dụng tính
toán chấm tĩnh cho mạng nõ ron dùng để chuyển đổi vãn bản sang âm vị. Toàn bộ dung
lượng bộ nhớ được dùng xấp xỉ 1MB. Sơ đồ hệ thống này được thể hiện trong hình 3.
Trong [55] các tác giả đã thiết kế hệ thống tổng hợp tiếng nói theo phương pháp
ghép nối sử dụng thuật toán cơ bản TD-PSOLA trên chip DSP với DAC 16bit, tần số
tối đa 4 MHz. Hệ thống gồm các mô đun liên kết với host, giải nén CSDL đơn vị âm
tiếng nói và xử lý chấm tĩnh cho cài đặt thuật toán TD-PSOLA. Với tính năng không
có bộ chuẩn hóa văn bản và với nhân DSP như vậy hệ thống có thể chạy tại mức
1.28MHz, tiêu thụ điện rất thấp.
Hình 3. 12. Kiến trúc hệ thống TTS được đơn giản .
103
Trong [21] các tác giả đã đưa ra kiến trúc TTS nhúng (hình 3.12) theo phương
pháp tổng hợp ghép nối cho chip ARM với đầy đủ các mô đun phân tích ngôn ngữ văn
bản đầu vào, chuyển đổi văn bản sang âm vị, điều khiển ngôn điệu.
Để xây dựng được hệ tổng hợp tiếng nói trên hệ thống có tài nguyên hạn chế thì
hệ này cần đảm bảo các yêu cầu sau:
Kích thước lưu trữ nhỏ.
Tính toán đơn giản, không sử dụng các thao tác phức tạp.
Chất lượng giọng tổng hợp vẫn đảm bảo nghe được.
Trong [CT4] chúng tôi đã thiết kế và xây dựng một hệ thống tổng hợp tiếng Việt
nhúng sử dụng phép mã hóa ADPCM (để nén dữ liệu tiếng nói). Sử dụng các âm (phụ
âm, vần không thanh và có thanh điệu) có khả năng phát đoạn tiếng nói được quy định
trước, lưu sẵn trong bộ nhớ Flash (256KB) dưới dạng ADPCM, ra loa trên mạch PSoC
050 (hình 10) của hãng Cypress [83]. Yêu cầu cần một DAC cấu hình trên sơ đồ khối
(3.15) và một loa cấu hình vào chân tín hiệu trên mạch PSoC 050.
3.3. Kết luận chương 3
Chương này mô tả các kết quả nghiên cứu và thử nghiệm tích hợp các giá trị ngôn
điệu tiếng Việt được dự báo như trường độ và âm lượng cho câu tiếng nói tổng hợp sử
dụng mô hình học thống kê CART của nghiên cứu sinh.
Các kết quả của luận án về Tổng hợp tiếng Việt thể hiện ở 2 công bố như sau:
Dự báo các giá trị ngôn điệu tiếng Việt cho tiếng nói tổng hợp, Tạp chí Công nghệ
Thông tin và Truyền thông, Tập V-1 số 6(26), 09-2011, trang 236-241 [CT2]
Tối ưu lưu trữ và tính toán tín hiệu tiếng nói cho hệ tổng hợp Tiếng Việt dựa trên
ghép nối, hội thảo quốc gia lần thứ VII "Nghiên cứu cơ bản và ứng dụng Công
nghệ thông tin", FAIR 2014 [CT5]
Ngoài ra luận án cũng trình bày các kết quả đã được tác giả luận án công bố trong thời
gian trước khi làm nghiên cứu sinh, bao gồm:
104
Toward integrating the Fujisaki model into Vietnamese TTS , Proceeding of the
International Conference on Spoken Language Processing [42]
Quantitative Analysis and Synthesis of Syllabic Tones in Vietnamese,Proc. in
EUROSPEECH, tr 177-180.
Phân lớp các đường thanh điệu trong ngữ cảnh câu (2006), Kỷ yếu Hội thảo Quốc
gia, NXB KHKT, tr 279-284 [2]
Các kết quả trình bày chứng tỏ việc đưa giá trị ngôn điệu được dự báo từ văn bản
vào trong bộ tổng hợp tiếng Việt được thống kê chi tiết cho cơ sở dữ liệu âm huấn
luyện mô hình kết hợp các ngữ cảnh mức âm vị khác nhau đã cải tiến được chất lượng
dự báo các tham số ngôn điệu như trường độ và âm lượng, dẫn đến thay đổi đáng kể
chất lượng câu tiếng nói được tổng hợp.
105
CHƯƠNG 4. KẾT HỢP THAM SỐ CẤU ÂM, FORMANT VÀ
THANH ĐIỆU ĐỂ NÂNG CAO CHẤT LƯỢNG
NHẬN DẠNG TIẾNG VIỆT
Giới thiệu
Trong [17] các tác giả đã đưa ra một mô hình sử dụng ngôn điệu để nâng cao chất
lượng nhận dạng tiếng nói trong đó mô hình cho từ và âm vị là hai mô hình cho từ và
nhận dạng được xây dựng trên ngữ điệu của một ngữ đoạn tiếng nói và trọng âm. Các
phân tích lý thuyết và thực nghiệm đã chứng tỏ rằng: thông tin âm học kết hợp với ngữ
điệu và mô hình ngôn ngữ đã tăng thông tin cho việc đưa ra giả thuyết từ đúng để
quyết định từ đúng. Bộ nhận dạng tiếng nói có tích hợp của các tác giả đã rút gọn được
11% lỗi so với bộ nhận dạng không có kết hợp ngôn điệu. Ngoài ra các tác đã phân tích
ảnh hưởng của ngôn điệu đối với các hệ số MFCC.
Các tác giả đã kết hợp thông tin tần số cơ bản để xây dựng bộ lọc thay thế phép
lọc truyền thống – tam giác trong quá trình tính toán các hệ số MFCC, với bộ lọc này
các tác giả đã chứng tỏ hệ số MFCC được biến đổi đã tăng khả năng phân biệt và giảm
ảnh hưởng nhiễu của bộ nhận dạng tiếng nói.
Trong [62] các tác giả đã kết hợp giá trị của tần số cơ bản vào đặc trưng MFCC
bình đẳng như các thành phần khác của vector hệ số MFCC. Với một thử nghiệm có
giới hạn cho một bộ nhận dạng tiếng nói liên tục các tác giả đã chỉ ra khả năng tăng độ
chính xác nhận dạng khi kết hợp đặc trưng thanh điệu tiếng Việt vào bộ nhận dạng.
Trong chương này của luận án chúng tôi trình bày các kết quả nghiên cứu của
chúng tôi trong vấn đề kết hợp đặc trưng thanh điệu và đặc trưng cấu âm của người nói
để tăng độ chính xác của bộ nhận dạng tiếng nói rời rạc hoặc liên tục.
4.1. Nhận dạng thanh điệu tiếng Việt
Cũng như tiếng Trung, Thái, tiếng Việt là ngôn ngữ có thanh điệu và nhận dạng
thanh điệu cũng là một trong bài toán chưa giải quyết được triệt để. Tiếng Việt có sáu
thanh và được phân thành tám hiện tượng thanh điệu. Do đặc điểm của từng ứng dụng,
106
ta có thể chia thành hai bài toán: nhận dạng thanh điệu tiếng nói rời rạc và nhận dạng
thanh điệu tiếng nói liên tục.
Nhận dạng thanh điệu là vấn đề phức tạp ngay cả với các hạn chế là tiếng nói
được đọc rời từng âm tiết và cho một người nói xác định. Để đặc trưng hóa các thanh
điệu tiếng Việt, ngoài tần số cơ bản F0 thì cần có thêm một số tham số khác như trường
độ, năng lượng. Trong ngữ lưu tiếng nói có sự biến thanh mà để lượng hóa nó chúng ta
cần phải dùng đến các mô hình lượng hóa phức tạp như mô hình Fujisaki
[22][42][43][44][69]. Trong dạng rời rạc, đường nét thanh điệu mới tương đối ổn định,
nhưng cũng không dễ dàng khu biệt được chúng, chẳng hạn có giọng nói thanh huyền
có đường nét rất giống với thanh hỏi.
Trong [61], các tác giả đã sử dụng nhiều phương pháp khác nhau để xấp xỉ đường
F0 bằng phương pháp bình phương tối thiểu sau đó sử dụng mô hình học máy HMM,
GMM, để huấn luyện và nhận dạng thanh điệu của âm tiết đọc trong câu. Thực nghiệm
của các tác giả đã cho kết quả tốt nhất với mô hình GMM và đặc trưng F0 được xác
định trên bốn phân đoạn của âm tiết, trong đó giá trị đườn F0 được xác định bởi độ dốc
và giá trị trung bình.
Hình 4. 1. Cách tuyến tính hóa đường F0 từng phân đoạn
107
Trong [53] các tác giả đã chuẩn hóa đã đưa ra nhiều phép chuẩn hóa giá trị F0
khác nhau để nhận dạng 6 hiện tượng thanh điệu (8 hiện tượng thanh điệu trong thực
tế của các tác giả). Kết quả nghiên cứu của các tác giả đã đến kết luận giá trị đường F0
được chuyển sang miền logarit và chuẩn hóa về trung bình và độ lệch với kết quả tốt
T1…T8
Phân lớp Nơ ron
Chuẩn hóa
Tính đặc trưng
thanh điệu
Trích chọn F0
Sóng âm tiết
nhất là 70,44% trong các thử nghiệm.
(4.1)
(4.2)
(4.3)
Hình 4. 2. Sơ đồ nhận dạng thanh điệu tiếng Việt trên tiếng nói rời rạc
Để tăng độ chính xác của kết quả nhận dạng thông qua mạng nơ ron dựa trên tri
thức về sự phụ thuộc thanh vào trường độ âm tiết, chúng tôi sử dụng các luật Heuristic
sau để loại nhanh một số trường hợp:
108
Luật 1: trung bình (F0) > thanh cao ngược lại thanh thấp.
Luật 2: Dur(F) > D0 (ms): không phải các âm tiết có phụ âm cuối là p-t-c
Luật 3: : không phải thanh huyền.
Trong [6], tác giả đã sử dụng các đặc trưng của một thanh điệu tiếng Việt gồm: F0 ban
đầu, F0 sau cùng, giá trị độ tăng của F0, trường độ thanh điệu, tỷ số giảm của năng
lượng, kết hợp với cấc luật 1, 2, 3 (trong thực nghiệm, tham số D0=300, =200, Frate
= 0.3 (ứng với giọng nữ được kiểm tra trên) trên để nhận dạng 8 hiện tượng thanh điệu
tiếng Việt, âm tiết rời rac, phụ thuộc người nói với kết quả nhận dạng trên 93%. Đây
cũng là kết quả được báo cáo trong đề tài KC.01.03 [90].
STT Thanh điệu Kết quả(%)
Số mẫu huấn
liệu
214 Số mẫu kiểm
tra
54 Thanh ngã(x) 1 96.20
Thanh huyền(f) 422 2 110 99
Thanh hỏi (r) 394 3 101 93.06
Thanh ngang (middle) 438 4 215 96.70
Thanh sắc(s) 417 5 182 98,30
Thanh sắc có kết thúc 273 6 78 97,40
âm tiết /p/, /t/, /k/ (s2)
Thanh nặng (j) 341 7 94 98,90
Thanh nặng có kết thúc 187 8 46 93,40
âm tiết /p/, /t/, /k/ (j2)
4.2. Đặc trưng MFCC với phép chuẩn hóa độ dài cấu âm VTLN kết hợp với
F0
Nghiên cứu các ảnh hưởng của hiện tượng ngôn điệu tiếng Việt như thanh điệu,
các tần số formant và trường độ âm tiết trong các hệ thống nhận dạng tiếng Việt là một
109
vấn đề tất yếu nhưng hiện tại ít được đề cập tới trong các công trình nghiên cứu về xử
lý âm thanh tiếng Việt. Các hệ thống nhận dạng tiếng Việt dựa trên HMM thường dựa
trên đặc trưng chuẩn MFCC và quy trình huấn luyện và nhận dạng theo thuật toán sau:
Bảng 4. 1. Thuật toán nhận dạng tiếng nói dựa trên HMM với đặc trưng MFCC
Huấn luyện HMM : Nhận dạng với HMM:
Đầu vào gồm T frame các đặc trưng Đầu vào gồm T frame các đặc trưng
MFCC. MFCC.
Bước 1: Xác định dãy trạng thái tối ưu Giải mã theo Viterbi để xác định tập
bằng thuật toán Viterbi: nhãn, và dãy trạng thái tối ưu ứng với bộ
tham số mô hình HMM đã cho:
Bước 2: Hiệu chỉnh lại tham số mô hình
HMM:
Bước 3: Đặt =*, lặp lại tới khi mô hình
hội tụ.
Khi ứng dụng thuật toán nhận dạng HMM trên cho việc nhận dạng tiếng nói liên
tục không phụ thuộc người nói, hệ thống thường suy giảm độ chính xác với những
người nói có có đặc trưng giọng nói không phù hợp với những mẫu giọng được sử
dụng để huấn luyện mô hình HMM.
Một số nghiên cứu gần đây đã khảo sát đường thanh điệu tiếng Việt trong ngữ
cảnh để nhận dạng thanh điệu và cải tiến kết quả nhận dạng từ và câu tiếng Việt [6]
[20][62]. Các tiếp cận này chủ yếu vẫn ghép trực tiếp đặc trưng thanh điệu vào các kiểu
đặc trưng tiếng nói như MFCC, PLP[53][62]. Có một tiếp cận khác sử dụng giá trị
đường F0, các tần số formant để xây dựng một phép hiệu chỉnh lại các đặc trưng
MFCC, dẫn đến kiểu đặc trưng không phụ thuộc người nói trong cả quá trình huấn
luyện và nhận dạng, qua đó kết quả nhận dạng của các hệ thống không phụ thuộc người
nói được cải thiện đáng kế.
110
Phần này trình bày phương pháp ghép trực tiếp giá trị đường F0 vào các vector
đặc trưng MFCC đã được hiệu chỉnh theo VTLN và thử nghiệm trong các hệ thống
nhận dạng tên riêng tiếng Việt phát âm liên tục và độc lập người nói.
4.2.1. Phép chuẩn hóa VTLN
Các hệ nhận dạng tiếng nói thường trích chọn đặc trưng của mỗi khung tiếng nói
(độ dài 10ms-25ms) theo kiểu MFCC ở thang tần số mel dựa trên đặc điểm cảm thụ tần
số âm của tai người, tuy vậy các hệ số MFCC không thể hiện được các biến thể bên
trong của mỗi người nói như VTL (vocal tract length, độ dài bộ cấu âm), dẫn đến việc
suy giảm chất lượng nhận dạng trong các hệ thống nhận dạng độc lập người nói.
VTLN là phép chuẩn hóa tín hiệu tiếng nói để VTL đạt được mức trung bình nhờ
các tham số hiệu chỉnh tần số cho mỗi người nói hoặc một phát âm. Có hai tiếp cận
chính cho VTLN, một là ước lượng hệ số hiệu chỉnh tần số dựa vào đặc điểm âm học
của người nói như các tần số formant, hai là cách duyệt trên lưới của tham số hiệu
chỉnh để tối ưu hóa hàm mục tiêu của mô hình nhận dạng.
Hình 4. 3. Hiệu chỉnh tần số và trích chọn đặc trưng MFCC
Biểu diễn tiếng nói đầu vào đã qua tiền xử lý x(t) trong miền tần số bằng biến đổi
FFT: X()= H()S() + N(), ở đó H() là biến dạng kênh và N() nhiễu cộng của
tín hiệu. Sử dụng M bộ lọc tam giác với khoảng cách giữa các vị trí k trong thang tần
(4.4)
số mel:
, ,0m M-1 (*)
111
(4.5)
MFCC(n) = , 0nN-1
(4.6)
Khi đó với phép hiệu chỉnh tần số có dạng ’= () thì công thức (*) trở thành :
Bảng dưới đây cho ta một số dạng biến đổi tuyến tính và phi tuyến của hàm
(), sử dụng hàm , [0,] và fs là tần số lấy mẫu.
Bảng 4. 2. Một số dạng của phép hiệu chỉnh tần số
Công thức biến đổi Dạng biến đổi
Phi tuyến trong miền
tần số
Tuyến tính từng đoạn
trong miền tần số
Dịch chuyển trong (ứng với W(z)=z+) miền mel
Tuyến tính từng đoạn
trong miền mel
Tham số [min, max] (ở đây min = 0.85, max = 1.15) đặc trưng cho mỗi người
nói có thể được ước lượng tự động từ các giá trị trung bình của formant F3 của tiếng
112
nói đầu vào và của tập huấn luyện [76]. Trong [40] các tác giả ước lượng dựa trên giá
trị trung bình của đường F0 của câu phát âm.
Kiểm nghiệm nhận dạng trên tập tên riêng các trường học chúng tôi thấy phương
pháp ước lượng này không tăng được đáng kể độ chính xác nhận dạng, do phương
pháp này mới chỉ nhấn mạnh vào việc thích ứng với lớp giọng có tần số cơ bản cao và
thấp. Ngoài ra, việc chuẩn hóa VTL cho từng người nói theo phương pháp này tuy đạt
được hiệu quả về tốc độ xử lý nhưng không thích ứng được với hình dạng đường F0
của các câu tiếng Việt biến đổi mạnh theo các thanh điệu của âm tiết, giữa giọng nữ và
giọng nam.
Sử dụng chính hàm mục tiêu của các mô hình HMM (, ), tham số hiệu chỉnh
tần số [min, max] có thể ước lượng trên từng phát âm tiếng nói đầu vào
(4.7)
[15][26][50][59][77][73] theo công thức sau:
4.2.2. Tổ hợp giá trị F0 và chuẩn hóa VTLN
Phương pháp ghép giá trị F0 vào các hệ số MFCC đã được nắn lại sau phép hiệu
chỉnh tần số đề xuất trong nghiên cứu của tác giả được thực hiện gồm 4 bước chính
sau:
Bước 1. Xác định tham số và hiệu chỉnh lại các vector đặc trưng MFCC nhờ phương
pháp huấn luyện hợp lý cực đại ML (xem quy trình nêu ở bước 4)
Bước 2. Tính F0 theo thuật toán RAPT, nội suy xác định giá trị liên tục của đường F0
trên cả đoạn vô thanh. Làm trơn và chuẩn hóa các giá trị F0.
Bước 3. Kết hợp F0 với các hệ số MFCC đã hiệu chỉnh
Thuật toán xác định tham số hiệu chỉnh dựa trên phương pháp huấn luyện hợp
lý cực đại ML (maximum likelihood) được cài đặt như sau :
113
Bước 4. Huấn luyện và giải mã.
Giai đoạn huấn luyện :
Với mỗi phát âm tiếng nói đã gán nhãn W, gồm T frame
Bước 1: Khởi tạo =1.0 và xác định dãy trạng thái tối ưu bằng thuật toán Viterbi:
Bước 2: Duyệt tìm giá trị tối ưu trên lưới giá trị của tham số :
Bước 3: Thực hiện phân đoạn cưỡng bức (forced alignment) dựa trên bộ nhãn W và
tham số hiệu chỉnh * và hiệu chỉnh lại tham số mô hình HMM:
Bước 4: Đặt =*, và =*, lặp lại tới khi mô hình hội tụ.
Giai đoạn giải mã (nhận dạng):
Với một phát âm đầu vào gồm T frame
Bước 1: Giải mã theo Viterbi để xác định tập nhãn, và dãy trạng thái tối ưu ứng với bộ
tham số mô hình HMM đã cho:
Bước 2: Duyệt tìm giá trị tối ưu trên lưới giá trị của tham số :
(4.8)
Bước 3: Giải mã Viterbi lần nữa với tham số * để xác định tập nhãn đầu ra:
Do thuật toán HMM chuẩn có độ phức tạp là O(VN2T), ở đây N là số trạng thái
của mô hình HMM (N = 5 trong thử nghiệm này), V số phần tử từ vựng (V = 117 trong
thử nghiệm này, là số âm vị với các nguyên âm mang thanh điệu) và T là số frame đầu
vào , nên độ phức tạp của thuật toán HMM có kết hợp với VTLN là O(KVN2T), trong
114
đó K là số giá trị rời rạc hóa trên lưới giá trị của tham số [min, max] (ở đây min =
0.85, max = 1.15, mức rời rạc hóa theo bước 0.0001)
Thử nghiệm trên tập tên riêng phức tạp
Vấn đề nhận dạng tên “name entity recognition” là một vấn đề mở, tương đối
phức tạp, vẫn đang được nghiên cứu trong lĩnh vực nhận dạng tiếng nói [86] [84]. Do
vậy để kiểm nghiệm thuật toán chuẩn hóa VTLN kết hợp thông tin ngôn điệu, chúng
tôi đã thiết lập thực nghiệm nhận dạng tên của khoảng 300 trường Đại học và Cao đẳng
trong nước (một số tên trường có thể không còn trong thực tế).
Tập tên riêng này có các đặc điểm sau:
Tên trường chứa hơn 200 từ đa âm tiết tiếng Việt bao gồm tên địa danh cổ, tỉnh
thành, tên các danh nhân, ngành nghề, phiên âm tiếng nước ngoài, số đếm chỉ chi
nhánh trường.
Độ dài của một tên trường : ngắn nhất 4 âm tiết, dài nhất 15 âm tiết.
Không có 2 âm tiết nào có cùng âm tiết gốc (âm không mang thanh điệu).
Các tên trường có sự trùng lặp âm tiết lớn như các cặp tên trường sau
{Học viện hành chính quốc gia, Học viện hành chính quốc gia Hồ Chí Minh}
{ĐH dân lập Văn Lang, Đại học dân lập Văn hiến}
{Trường sỹ quan lục quân một, Trường sỹ quan lục quân hai}
{ĐH dân lập Thăng Long, ĐH dân lập Cửu Long}
{ĐH lâm nghiệp, ĐH nông nghiệp}
{ĐH dân lập Bình Dương, ĐH dân lập Hùng Vương}
{ĐH Sư phạm kỹ thuật, ĐH Sư phạm mỹ thuật}
Dữ liệu huấn luyện nhanh các mô hình HMM của các âm vị tiếng Việt là các bài
đọc truyện và tin tức của 2 phát thanh viên (một nam, một nữ giọng Hà Nội) của đài
tiếng nói Việt Nam, có khoảng 23000 câu với dung lượng dữ liệu hơn 1GB.
115
Hình 4.4: Câu “Các em đã nhận thức thế nào về hoàn cảnh ấy” đã được gán nhãn
Dữ liệu huấn luyện thích ứng được ghi bởi giọng đọc của 12 nam, 10 nữ sinh
viên, môi trường tín hiệu trong lớp học trên giảng đường, mỗi sinh viên đọc 300 tên
trường đúng một lượt. Tín hiệu thu có tần số lấy mẫu 11025Hz, đơn kênh 16 bit và có
nhiễu.
Dữ liệu kiểm tra hệ thống nhận dạng là giọng đọc của 3 nam, 6 nữ sinh viên và
một giọng nữ tiếng miền Nam, được thu trong cùng môi trường tín hiệu như với dữ liệu
huấn luyện thích ứng.
Khi tiến hành thử nghiệm, chúng tôi sử dụng phiên bản HTK 3.4 để huấn luyện,
kiểm thử và trích chọn đặc trưng MFCC thông thường.
Tập âm vị tiếng Việt gồm khoảng 52 âm vị bao gồm các phụ âm đầu, âm đệm,
nguyên âm chính với thanh điệu và âm cuối tương ứng với 52 mô hình HMM cần được
huấn luyện.
Do tập nhận dạng là tập tên các trường Đại học – Cao đẳng được cố định nên hệ
thống thử nghiệm chỉ sử dụng văn phạm câu biểu diễn bằng mạng mà không sử dụng
mô hình ngôn ngữ (xem [81] và bảng minh họa một phần mạng câu trong phụ lục).
116
Giá trị đường F0 và các vector đặc trưng MFCC được trích chọn với các frame độ
dài 25 mili giây, phần trùng nhau giữa 2 frame liên tiếp là 15 mili giây. Các vector đặc
trưng gồm 12 hệ số MFCC và 1 hệ số năng lượng và các sai phân bậc 1 và bậc 2 của 13
hệ số này. Các HMM có hàm mật độ xác suất liên tục. Việc hiệu chỉnh các vector
MFCC và ghép giá trị F0 sử dụng phương pháp đã trình bày ở trên.
Bảng 4. 3. Bảng kết quả thực nghiệm kiểm tra
Đặc trưng MFCC + F0 VTLN-MFCC + F0
Người
đọc Đặc trưng chuẩn
MFCC
mức từ mức câu mức từ mức câu mức từ mức câu
93,8 82,2 92,7 81,2 96,7 88,5 Nu1
97,0 86,3 97,3 88,4 97,6 89,4 Nu2
95,5 82,8 93,4 78,7 96,4 87,8 Nu3
97,4 90,9 97,0 88,8 97,6 91,9 Nu4
95,5 85,1 97,1 91,0 98,9 97,0 Nu5
86,7 67,7 88,1 72,9 91,8 81,2 Nu6
95,7 84,6 96,9 89,9 98,1 93,8 Nu7
98,6 92,9 98,5 92,9 98,9 94,9 Nam1
95,3 79,0 96,5 86,0 97,3 88,0 Nam2
97,1 88,8 97,7 93,9 98,6 96,2 Nam3
95,3 84,6 95,6 86,4 97,1 90,6 Trung
bình
Các thực nghiệm cho thấy các biến đổi tần số kiểu “tịnh tiến” trong miền mel cho
kết quả thấp hơn một chút so với phép biến đổi theo hệ số tỉ lệ. Bảng 4.3 được cho với
phép biến đổi tần số theo phương pháp của HTK (xem bảng 4.2).
Quan sát bảng thực nghiệm 4.3, kết quả nhận dạng của “Nu6” thấp do đây là một
giọng nói tiếng miền Nam, thanh điệu và các tham số VTL hoàn toàn khác so với các
giọng đọc trong tập huấn luyện (chỉ có giọng miền Bắc).
117
Hình 4. 5. MFCC chuẩn, câu “ĐH Mỹ thuật TP.HCM“
Nhận dạng nhầm thành: “ĐH luật TP. HCM”.
Áp dụng phép hiệu chỉnh VTLN cho giọng “Nu6”, cho kết quả nhận dạng đúng.
Người nói “Nam2” thực tế kết quả nhận dạng sẽ cao hơn nhiều, lỗi xảy ra do
người đọc đã nhầm một số âm tiết của tên trường, hệ thống giải mã cho HMM đã nhận
dạng phát âm này về tên trường có trong tập từ vựng, chẳng hạn như:
Bảng 4. 4. Bảng kết quả giải mã tên trường của người đọc.
Phát âm Kết quả giải mã cho tên đúng
ĐH dân lập kỹ thuật công nghiệp ĐH dân lập kỹ thuật công nghệ
ĐH Thái Bình ĐH Y Thái Bình
Học viện bưu chính viễn TP. HCM Học viện bưu chính viễn thông TP.
HCM
ĐH ngoại thương Đà Nẵng ĐH ngoại ngữ Đà Nẵng
Cột giải mã cho tên đúng thể hiện đặc tính “dự đoán của hệ nhận dạng tiêng
nói“, dù rằng người thử nghiệm phát âm một tên trường không hoàn toàn chính
xác, hệ thống đã dự báo để trả lại một tên trong cơ sở dữ liệu giống nhất dựa trên
đồ thị chuyển trạng các âm vị của cơ sở dữ liệu tên riêng.
118
4.2.3. Ước lượng tham số chuẩn hóa VTLN bằng phương pháp formant
Sử dụng chính hàm mục tiêu của các mô hình HMM (, ), tham số hiệu chỉnh
tần số [min, max] có thể ước lượng trên từng phát âm tiếng nói đầu vào
(4.9)
[15][73][74] theo công thức sau:
Xác định tham số theo phương pháp này cần sử dụng các kết quả trung gian khi
xử lý mô hình HMM của hệ thống nhận dạng tiếng nói liên tục:
Lưu lại toàn bộ đặc trưng MFCC gốc của các frame tín hiệu tiếng nói đã được
Bộ phát hiện kết thúc quá trình duyệt lưới trạng thái HMM.
Bộ trả về từ - kết quả của phép nhận dạng và vị trí theo thời gian cho từng âm vị
(forced alignment, phân đoạn cưỡng bức).
Dựa trên các thông tin này, hệ thống duyệt tìm tham số khi cho thay đổi trong
khoảng [min, max] và tính các xác suất trạng thái HMM tương ứng trên các MFCC
hiệu chỉnh theo của frame tiếng nói đã được định vị. Cuối cùng hệ thống gọi lại phép
giải mã HMM nhưng với dãy đặc trưng MFCC đã được hiệu chỉnh bằng VTLN.
Với một phát âm đầu vào gồm T frame:
Bước 1: Giải mã theo Viterbi để xác định tập nhãn, và dãy trạng thái tối ưu ứng với bộ
tham số mô hình HMM đã cho:
Bước 2: Duyệt tìm giá trị tối ưu trên lưới giá trị của tham số :
Bước 3: Giải mã Viterbi lần nữa với tham số * để xác định tập nhãn đầu ra:
119
Quy trình nhận dạng trên tiêu tốn bộ nhớ và thời gian tính toán, không thích hợp
trong các ứng dụng nhận dạng thời gian thực được xây dựng trên nền các hệ thống tài
nguyên hạn chế.
Theo hướng ước lượng tham số VTLN dựa trên các tham số ngữ âm như F0 và
formant, trong [40] các tác giả ước lượng dựa trên giá trị trung bình của đường F0 của
câu phát âm tuy nhiên khi tiến hành thử nghiệm chúng tôi nhận thấy phương pháp ước
lượng này kém chính xác khi áp dụng cho tiếng Việt do tiếng Việt có một số thanh điệu
có sự biến đổi mạnh về đường F0 như thanh nặng và thanh ngã.
Trong [76] các tác giả đã đề xuất cách ước lượng VTLN tự động từ các giá trị
trung bình của formant F3 của tiếng nói đầu vào và của tập huấn luyện, tuy nhiên các
tác giả không đưa ra cách tính trong trường hợp thời gian thực và trong trường hợp
frame tiếng nói đầu vào là vô thanh (các giá trị F0, formant không xác định được)
4.2.3.1. Xấp xỉ giá trị trung bình trong thời gian thực
Nếu cho trước N hữu hạn số thực x1, x2,…,xN thì dễ dàng tính được giá trị trung
bình . Phép tính giá trị trung bình tuy đơn giản nhưng được sử dụng hiệu
quả trong phép chuẩn hóa đặc trưng MFCC để giảm thiểu sai lệch về phổ giữa đặc
trưng của tập người huấn luyện và đặc trưng của người nói mới.
Ở đây N là số frame của ngữ đoạn tiếng nói, là dãy N vector đặc trưng
MFCC của N frame. Trong [12] [39] các tác giả đã chứng tỏ chỉ với phép chuẩn hóa
CMN đã cải thiện được độ chính xác nhận dạng tiếng nói. Trong thời gian thực, số
frame không được xác định cho tới khi bộ tìm kiếm điểm đầu và cuối (Endpoint
detector) phát hiện được.
120
Vấn đề có thể phát biểu hình thức như sau:
Cho trước là dãy vector số có số chiều hữu hạn , xác định dãy vector
như sau: y1=y0+x1, yn=yn-1 + xn, n=2,3…, , (0,1), + =1, y0 = 0
hoặc được xác định trước.
Trong các ứng dụng xử lý tín hiệu số, tiếng nói hoặc dữ liệu ảnh thường các
vector xn biến đổi xung quanh một giá trị trung bình (tổng quát là kiểu các biến ngẫu
nhiên có cùng phân bố)sau khi phép tiền xử lý tín hiệu đã đi qua một phép phân cụm,
phân loại tín hiệu (chẳng hạn phép phân loại tín hiệu nền/nhiễu/tiếng nói trong xử lý
tiếng nói.)
Ký hiệu là độ dài của vector x. Ta có các mệnh đề sau thể hiện tính chất của CMN:
Mệnh đề 1: N > 1, n>N
Chứng minh : do + =1 ta có,
Từ đó suy ra ước lượng trên.
Từ ước lượng này ta thấy để yn gần giá trị trung bình thông thường của x1,x2,…,xn
ta có thể chọn rất gần 0.
Mệnh đề 2:
N > 1, n > N.
Chứng minh :
121
, tương
tự
,
Bằng quy nạp ta có:
Suy ra:
Do nên
Mệnh đề 3: là dãy có tổng trung bình các phần tử xấp xỉ 0 tại mọi thời
điểm n.
Chứng minh :
. Do các giá trị yn bị chặn nên
Nhận xét : Với tín hiệu tiếng nói, thường x1,y1 xấp xỉ vector 0, nên
4.2.3.2. Ước lượng VTLN dựa trên giá trị formant
122
Dựa trên [38], chúng tôi đề xuất cách ước lượng tham số VTLN thời gian thực
như sau cho dãy frame tiếng nói câu đọc vào [CT5]:
(4.10)
, nếu frame(i) là hữu
thanh
, trái lại
ở đây a, b là 2 hệ số, a,b(0,1), a+b =1, chúng tôi chọn a=0.95, b=0.05 khi thực
(4.11)
nghiệm
Ở đây là giá trị trung bình format F3 trên toàn tập các frame hữu thanh của
tiếng nói huấn luyện, F3(i) là các giá trị ước lượng formant F3(i) từ thuật toán RAPT.
Giá trị đường F0, formant F3 và các vector đặc trưng MFCC được trích chọn với
các frame độ dài 25 mili giây, phần trùng nhau giữa 2 frame liên tiếp là 15 mili giây.
Các vector đặc trưng gồm 12 hệ số MFCC và 1 hệ số năng lượng và các sai phân bậc 1
và bậc 2 của 13 hệ số này. Các HMM có hàm mật độ xác suất liên tục. Việc hiệu chỉnh
các vector MFCC và ghép giá trị F0 được thực hiện gồm 3 bước chính sau:
Bước 1. Xác định frame đầu vào là hữu thanh hay vô thanh.
Bước 2. Tính F0, formant F3 theo thuật toán RAPT, nội suy xác định giá trị liên tục
của đường F0 trên cả đoạn vô thanh. Làm trơn và chuẩn hóa các giá trị F0.
Xác định tham số theo từng frame và hiệu chỉnh lại các vector đặc trưng MFCC
Bước 3. Kết hợp F0 với các hệ số MFCC đã hiệu chỉnh
Thuật toán có độ phức tạp là O(VN2T), ở đây N là số trạng thái của mô h́ nh
HMM (N = 5 trong thử nghiệm này), V số phần tử từ vựng (V = 117 trong thử nghiệm
này, là số âm vị với các nguyên âm mang thanh điệu) và T là số frame đầu vào.
123
Bảng 4. 5. Bảng kết quả thực nghiệm kiểm tra
Người đọc Đặc trưng chuẩn Đặc trưng MFCC VTLN
MFCC + F0 (formant F3)-MFCC
+ F0
mức từ mức câu mức từ mức câu mức từ mức câu
93,8 82,2 92,7 81,2 95,7 88,5 Nu1
97,0 86,3 97,3 88,4 97,6 89,4 Nu2
95,5 82,8 93,4 78,7 96,4 87,8 Nu3
97,4 90,9 97,0 88,8 97,6 91,9 Nu4
95,5 85,1 97,1 91,0 98,9 97,0 Nu5
86,7 67,7 88,1 72,9 91,8 81,2 Nu6
95,7 84,6 96,9 89,9 98,1 93,8 Nu7
98,6 92,9 98,5 92,9 98,9 94,9 Nam1
95,3 79,0 96,5 86,0 97,3 88,0 Nam2
97,1 88,8 97,7 93,9 98,6 96,2 Nam3
95,3 84,6 95,6 86,4 96,1 90,6 Trung bình
Các kết quả cho thấy trong môi trường đồ ổn thấp (tỷ lệ tín tạp trên 20dB), tiếng
nói đọc rõ ràng, các kết quả chuẩn hóa VTLN dựa trên formant F3 cũng cho kết quả
tương tự với việc chuẩn hóa VTLN dựa trên huấn luyện hợp lý cực đại ML.
Việc tính chính xác giá trị VTLN cho một phát âm trong thời gian thực là không thể và
không cần thiết, thuật toán ML để dò giá trị VTLN có thể cho kết quả chính xác hơn so
với phép ước lượng dựa trên formant cho nhận dạng mức từ do việc sử dụng quá trình
giải mã và căn (alignment) HMM để dò biên từng âm vị của phát âm, nhưng khi nhận
dạng câu, độ chính xác nhận dạng của câu không tăng lên, do độ chính xác của nhận
dạng câu còn phụ thuộc đáng kể vào đoán nhận dựa trên xử lý ngôn ngữ (mô hình ngôn
ngữ, đồ thị câu, chẳng hạn xem bảng 4.4 v.v…).
124
Sử dụng formant tần số cao F3 được chọn do tính đặc trưng tốt phụ thuộc người nói
của formant F3. Tần số F3 tương đối ổn định với các nguyên âm của cừng một người
nói ), các formant F1,F2 bị ảnh hưởng bởi các cử chỉ cấu âm khác như đặt lưỡi và tư
thế môi [45]. Điều này cũng trùng với nhận định của các chuyên gia ngữ âm học trong
nước như PGS. TS Vũ Kim Bảng, TS. Vũ Thị Hải Hà, Viện Ngôn ngữ, Viện
HLKHXHVN.
4.3. Hệ thống nhận dạng tiếng Việt nhúng
Nghiên cứu, thiết kế các hệ thống nhận dạng khẩu lệnh để điều khiển thiết bị đã
được phát triển và ứng dụng rộng rãi. Một số hệ thống nhận dạng khẩu lệnh kết hợp với
hiểu đối thoại hữu dụng như Siri đã trở nên quen thuộc với người sử dụng. Tuy nhiên
hầu hết các hệ thống này đều chạy trên môi trường PC hoặc di động có lõi vi xử lý với
tài nguyên bộ nhớ và năng lực tính toán mạnh. Hệ thống nhận dạng khẩu lệnh trên chip
tiêu thụ điện năng thấp và tài nguyên hạn chế, đặc biệt là trên các chip vi hệ thống vẫn
là vấn đề phức tạp, cần đầu tư nghiên cứu. PSoC một họ chip vi hệ thống nổi tiếng với
tính năng tái cấu hình, được ứng dụng rộng rãi trong thiết kế các hệ thống đo và điều
khiển, nhưng chưa có một giải pháp tích hợp hệ thống nhận dạng khẩu lệnh trên nó
được công bố trên thế giới.
Trong [CT3] chúng tôi này trình bày phương pháp thiết kế hệ nhận dạng khẩu
lệnh tiếng Việt điều khiển thiết bị di động như robot hút bụi, xe lăn điện dựa trên chip
vi hệ thống họ PSoC5 và OMAP3, các đặc trưng MFCC đã được hiệu chỉnh theo
VTLN và các tính toán đặc trưng và quá trình giải mã HMM được tăng tốc nhờ các
phép tính toán chấm tĩnh độ chính xác cao cho hiệu năng và chất lượng nhận dạng so
sánh được với cùng hệ thống trên PC.
125
Hình 4. 6. Sơ đồ tích hợp nhận dạng tiếng nói điều khiển thiết bị
Trong quy trình nhận dạng tiếng nói, Tiền xử lý (thu nhận tiếng nói, khử nhiễu và
tìm kiếm điểm đầu cuối tiếng nói) là khâu rất quan trọng để nâng cao độ chính xác
nhận dạng khẩu lệnh tiếng Việt trong khi các thiết bị đang hoạt động.
Hình 4. 7. Thu nhận tiếng nói dùng DMA trên PSoC5
126
Sử dụng tính năng mạnh hỗ trợ bộ lọc tương tự của PSoC5, trong quá trình thu
nhận tiếng nói, hệ thống được xử lý nhiễu qua 2 pha: pha 1 là lọc tương tự, pha 2 là lọc
số (như bộ lọc RASTA).
Bảng 4. 6. Bảng cấu hình GAIN kết hợp bộ lọc thông thấp.
PGA
Gain
24 Tỉ lệ
C1/C2
3 LPF Gain
(dB)
8 Điện áp LPF
GAIN
3.16 Hệ số
GAIN cuối
75.84
24 4 12 3.98 95.52
24 5 14 5.01 120.24
24 6 15 5.62 134.95
4.3.1. Điều khiển thiết bị tự hành bằng tiếng nói
Để điều khiển xe lăn điện di chuyển, người điều khiển ngồi trên xe lăn và đọc vào
một trong 14 lệnh như ở bảng 4. dưới đây. Để kiểm soát độ an toàn cho người điều
khiển xe, hệ thống khẩu lệnh chỉ kích hoạt hành động khi người điều khiển đọc đúng
câu lệnh khởi động “Kích hoạt hệ thống”, ngược lại khi người dùng ra lệnh nhanh
“Tắt”, hệ thống sẽ không nhận dạng mệnh lệnh đưa vào tiếp sau đó. Một khó khăn có
thể gây ra nhận dạng nhầm khẩu lệnh “Tắt”, là do các xe lăn khi kích hoạt từ mệnh
lệnh nhận dạng được có thể phát ra tiếng “cạch” có thể nhận dạng nhầm vớikhẩu lệnh
“Tắt”. Chúng tôi đã tích hợp một thuật toán phân lớp hiệu quả đạt 100% độ chính xác
dựa trên mạng nơ ron dự báo để phân biệt, và hệ thống đã phân biệt đúng các tín hiệu
gây ồn của thiết bị với khẩu lệnh “Tắt”. Ngoài ra khẩu lệnh “Kích hoạt hệ thống” được
chọn để đảm bảo hệ thống không nhận dạng nhầm khẩu lệnh khởi động này.
127
Hình 4. 8. Điều khiển xe lăn điện bằng tiếng nói.
128
Bảng 4. 7. Khẩu lệnh điều khiển xe lăn.
Tên khẩu lệnh Công dụng/Tên lệnh
“Kích hoạt hệ thống” Yêu cầu hệ thống nhận dạng khẩu lệnh làm việc
“Tắt” Vô hiệu hóa hệ thống nhận dạng khẩu lệnh
“Dừng” | “Dừng lại” Dừng xe
“Tiếp tục” Tiếp tục chạy theo khẩu lệnh đã có
“Tăng tốc” | “Tăng tốc độ” Tăng tốc độ
“Giảm tốc” | “Giảm tốc độ” Giảm tốc độ
“Tiến” | “Đi” Đi về phía trước
“Lùi” | “Lùi lại” Lùi về sau
“Sang trái” | ”Đi sang trái” Về phía trước theo hướng trái
“Sang phải” | “Đi sang phải” Về phía trước theo hướng phải
“Lùi trái” |”Lùi sang trái” Về phía sau theo hướng trái
“Lùi phải”|”Lùi sang phải” Về phía sau theo hướng phải
“Quay trái” |”Xoay trái” Quay trái
“Quay phải” |”Xoay phải” Quay phải
129
Bảng 4. 8. Khẩu lệnh điều khiển robot hút bụi.
Tên khẩu lệnh Công dụng/Tên lệnh
“Bật khẩu lệnh” Yêu cầu hệ thống nhận dạng khẩu lệnh làm việc
“Tắt khẩu lệnh” Vô hiệu hóa hệ thống nhận dạng khẩu lệnh
“Tiến” | “Đi thẳng” Đi về phía trước
“Lùi” | “Lùi lại” Lùi về sau
“Quay trái” |”Xoay trái” Quay trái
“Quay phải” |”Xoay phải” Quay phải
“Bám tường” Đi men theo tường.
Đi rích rắc Đi theo sơ đồ rích rắc
Đi ngẫu nhiên Đi thẳng tới khi gặp vật cản, quay một góc ngẫu
nhiên và đi tiếp
Dừng | dừng lại Dừng lại
Về trạm sạc Quay về trạm sạc
Thuật toán được cài đặt chạy được trên chip với các tối ưu để tính toán chấm tĩnh
(fixed point, không sử dụng các tính toán trên số thực cho các biến đổi FFT, tính các
hàm Toán học như log, exp, sin, cos, sqrt trích chọn đặc trưng MFCC, lọc nhiễu bằng
phương pháp trừ phổ v.v...).
Thử nghiệm được tiến hành trên cả hai hình thức: nhận dạng tín hiệu khẩu lệnh đã
được ghi âm sẵn đưa vào bộ nhớ SRAM và nhận dạng tín hiệu tiếng nói được đọc liên
tục vào mic.
130
Bảng 4. 9. Các bước của chương trình thử nghiệm trên máy tính
Lọc
nhiễu
trừ phổ Tính độ tin
cậy kết quả
nhận dạng Kiểu
nhận
dạng
Độ chính
xác (trên
tập kiểm
tra) Trích
chọn đặc
trưng
MFCC
Tìm
kiếm bắt
đầu và
kết thúc
của khẩu
lệnh
Phát hiện
các
khuung là
tiếng nói
hay nền
(pause,
silence)
Cần thiết Ghi sẵn Chấm tĩnh Không Cần Sử dụng độ Trên 98%
dữ liệu (fixed cần thiết, đo xác suất
(Offline) point) tính toán nhận dạng
fixed cho bởi
point HMM, 2 bộ
văn phạm
lệnh – từ và
âm tiết
Đọc trực Chấm tĩnh Cần thiết Cần thiết Cần Sử dụng độ Trên 98%
thiết, đo xác suất tiếp vào (fixed
tính toán nhận dạng mic point)
fixed cho bởi (online)
point HMM, 2 bộ
văn phạm
lệnh – từ và
âm tiết
4.3.2. Biểu diễn HMM trong bộ nhớ SRAM của chip với tính toán chấm tĩnh
(fixed point)
Sau khi huấn luyện các tham số HMM của các âm vị buộc 3 bằng các công cụ
huấn luyện trên máy tính (ở đây sử dụng bộ công cụ HTK) các tham số HMM của các
âm vị buộc 3 được xem như là một CSDL của các thuộc tính – giá trị trạng thái (State),
131
xác suất chuyển trạng (Transition) và mô hình âm học(HMM model). CSDL này được
đặt hoàn toàn trong bộ nhớ SRAM để tăng tốc độ tính toán, công việc này cho phép
một hệ thống nhận dạng tiếng nói dựa trên HMM liên tục là hoàn toàn tích hợp được
vào các chip với tài nguyên bộ nhớ và tài nguyên tính toán như chip PSoC5 hoặc chip
OMAP3530). Để nhúng mô hình HMM vào bộ nhớ SRAM của chip có thể xem chi tiết
ở Phụ lục: “Nhúng mô hình HMM vào bộ nhớ SRAM của chip”.
Một thử nghiệm tương tự cũng đang được nhóm tác giả tiến hành cho robot hút
bụi hoạt động trong môi trường trong nhà, văn phòng. Hệ thống nhận dạng tiếng nói
được thiết kế cho họ PSoC5, luôn kiểm tra tính tương thích giữa thông tin hiện thời của
cảm biến của robot hút bụi và khẩu lệnh đưa vào (ví dụ không tiến nếu có vật cản) để
điều khiển robot hoạt động thay cho việc sử dụng các bảng điều khiển từ xa. Bảng 4.8
nêu trên là một số khẩu lệnh để điều khiển robot hút bụi di chuyển, phủ diện tích căn
phòng và hút bụi. Robot hút bụi được lập trình di chuyển theo chế độ đi ngẫu nhiên (đi
thẳng, gặp vật cản thì xoay và bám tường v.v…).
4.4. Kết luận chương 4
Chương này nghiên cứu sinh trình bày các kết quả của luận án về Nhận dạng tiếng Việt
với 3 công bố như sau:
Tổ hợp đường F0 và VTLN cho nhận dạng tên riêng tiếng Việt, Tạp chí Tin học và
Điều khiển học, trang 273 – 282, Tập 27, số 3, 2011[CT1]
Thiết kế hệ thống nhận dạng khẩu lệnh tiếng Việt điều khiển thiết bị tự hành trên
nền các vi hệ thống điện năng thấp với phép chuẩn hóa VTLN – MFCC, hội nghị
Cơ điện tử, VCM-2012 [CT3].
Trích chọn đặc trưng âm học tiếng Việt dựa trên F0 và biến thể của MFCC với ước
lượng VTLN từ các giá trị formant, hội nghị quốc gia lần thứ VII "Nghiên cứu cơ
bản và ứng dụng Công nghệ thông tin", FAIR 2014 [CT5].
Theo nội dung đã trình bày ở trên, các giá trị của đường F0 và độ dài bộ phận cấu âm
của mỗi giọng nói đã ảnh hưởng đáng kể đến kết quả nhận dạng tiếng Việt. Để tích hợp
132
các giá trị này vào hệ thống nhận dạng, đầu tiên áp dụng phép chuẩn hóa kiểu VTLN
cho tiếng nói đầu vào để hiệu chỉnh lại tần số trước khi tính các hệ số MFCC như thông
thường, sau đó ghép giá trị đường F0 đã được tiền xử lý (làm đầy trên các đoạn vô
thanh và làm trơn) của phát âm và chuyển tới bộ huấn luyện hoặc giải mã của các
HMM. Khi việc ước lượng các giá trị formant được tương đối chính xác thì việc chuẩn
hóa giọng nói mới dựa trên formant F3 là khá hiệu quả trong các ứng dụng nhận dạng
tiếng nói độc lập người nói trong thời gian thực.
Ngoài ra luận án cũng bổ sung phép chứng minh hình thức cho tính đúng đắn
của thuật toán tính giá trị trung bình của formant F3 thông qua 3 mệnh đề Toán học,
kết quả này cũng đã được chấp nhận đăng (đồng tác giả) trong tạp chí số đặc biệt
PHỔ CMN CỦA TÍN HIỆU SỐ VÀ ỨNG DỤNG TRONG PHÂN VÙNG ẢNH VIỄN
THÁM”.
Trường ĐHSPHN năm 2015: “MỘT CHỨNG MINH HÌNH THỨC CHO PHÉP BÙ TRỪ
Kết quả thực nghiệm được áp dụng vào vấn đề nhận dạng tập tên riêng tiếng Việt
có độ lặp lại cao về âm tiết và đa dạng như tập tên của khoảng 300 trường Đại học và
Cao đẳng đã chứng tỏ phương pháp đề xuất cải tiến được đáng kể kết quả nhận dạng
của hệ thống nhận dạng tiếng Việt độc lập người nói với tiếng nói đầu vào được phát
âm liên tục.
133
KẾT LUẬN
Mục đích của luận án là nghiên cứu các đặc trưng ngôn điệu tiếng Việt, ứng dụng
vào các hệ tổng hợp và nhận dạng tiếng nói nhằm nâng cao chất lượng của các hệ thống
này.
Kết hợp các đặc trưng ngôn điệu tiếng Việt (như tần số cơ bản F0, formant,
cường độ và trường độ…) vào vấn đề tổng hợp và nhận dạng tiếng Việt là một vấn đề
quan trọng tuy nhiên từ trước tới nay, các kết quả nghiên cứu về ngôn điệu tiếng Việt
thường nặng về mô tả định tính hoặc có định lượng cũng chỉ dừng ở các tham số đơn
lẻ. Các kết quả chính mà luận án đạt được gồm:
1. Kết quả về tổng hợp tiếng Việt
1.1. Kết quả chính
Nghiên cứu đã thử nghiệm sử dụng mô hình học thống kê CART để dự báo các
giá trị ngôn điệu tiếng Việt (trường độ và âm lượng) cho bài toán tổng hợp. Kết quả
cải thiện chứng tỏ việc dự báo dựa trên thống kê là có hiệu quả, đã thay đổi đáng kể
chất lượng câu tiếng nói được tổng hợp. Dựa vào một cơ sở dữ liệu ngữ âm đã được
gán nhãn (từng câu văn bản đã được phân tích thành các âm vị, đặc trưng ngôn ngữ và
tham số tín hiệu tương ứng trong phát ngôn tiếng nói) như: âm vị hiện tại, âm vị bên
trái, bên phải, vị trí của âm vị trong âm tiết, thanh điệu, số âm tiết của ngữ đoạn v.v...
tác giả luận án đã sử dụng mô hình CART với tham số đầu vào đã được chuẩn hóa theo
ngữ cảnh để dự đoán được các tham số ngôn điệu cơ bản gồm trường độ và âm lượng
cho câu tiếng nói tổng hợp. Mô hình CART kế thừa ưu điểm của các thuật toán cây
quyết định là đơn giản và hiệu quả, mô hình cho phép xử lý rất nhanh, không tiêu tốn
tài nguyên tính toán của hệ thống (so với mô hình dự báo sử dụng HMM là cần tài
nguyên tính toán khi dự báo cũng như khi huấn luyện), kết quả đầu ra của phép dự báo
là dễ hiểu và có tính trực quan cao.
134
Các kết quả trình nghiên cứu của luận án chứng tỏ việc đưa giá trị ngôn điệu
được dự báo từ văn bản vào trong bộ tổng hợp tiếng Việt (được thống kê chi tiết cho
cơ sở dữ liệu âm huấn luyện mô hình kết hợp các ngữ cảnh mức âm vị khác nhau) đã
cải tiến được chất lượng dự báo các tham số ngôn điệu như trường độ và âm lượng,
dẫn đến thay đổi đáng kể chất lượng câu tiếng nói được tổng hợp kết quả đã chứng
minh được tính đúng đắn của việc đưa các đặc trưng ngôn điệu tiếng Việt vào hệ tổng
hợp tiếng nói sẽ nâng cao được chất lượng tiếng Việt tổng hợp, hiệu quả khi chạy trên
các hệ thống có năng lực tính toán hạn chế (như các hệ thống nhúng).
1.2.Kết quả khác
Ngoài ra luận án cũng trình bày một số kết quả của tác giả luận án trong thời
gian trước khi làm nghiên cứu sinh như kết quả về phân lớp thanh điệu tiếng Việt
trong ngữ cảnh câu và tổng hợp đường thanh điệu sử dụng mô hình Fujisaki.
1.3.Một kết quả ứng dụng
Tích hợp hệ thống tổng hợp tiếng Việt trên hệ thống nhúng.
2. Kết quả về nhận dạng tiếng Việt
2.1. Kết quả chính
Sự sai khác giữa giọng nói của người sử dụng và giọng nói của tập mẫu huấn luyện
tham số mô hình nhận dạng đã ảnh hưởng đáng kể đến kết quả nhận dạng tiếng Việt.
Trong các hệ nhận dạng tiếng nói độc lập người nói luận án đã đề cập đến phép chuẩn
hóa tín hiệu tiếng nói theo độ dài cơ quan cấu âm (VTLN) dựa trên các tham số F0, F3
và phép duyệt tìm tham số tối ưu của tiếng nói đầu vào và của tập huấn luyện. Đóng
góp của luận án là đề xuất một cách ước lượng các tham số VTLN này ngay cả trong
các trường hợp các tham số này không xác định được (với các frame là vô thanh). Sử
dụng chính hàm mục tiêu của các mô hình HMM (, ), tham số hiệu chỉnh tần số
[min, max] có thể ước lượng trên từng phát âm tiếng nói đầu vào.
Xác định tham số theo phương pháp này cần sử dụng các kết quả trung gian khi
xử lý mô hình HMM của hệ thống nhận dạng tiếng nói liên tục:
135
Lưu lại toàn bộ đặc trưng MFCC gốc của các frame tín hiệu tiếng nói đã được
Bộ phát hiện kết thúc quá trình duyệt lưới trạng thái HMM.
Bộ trả về từ - kết quả của phép nhận dạng và vị trí theo thời gian cho từng âm
vị (forced alignment, phân đoạn cưỡng bức).
Dựa trên các thông tin này, hệ thống duyệt tìm tham số khi cho thay đổi trong
khoảng [min, max] và tính các xác suất trạng thái HMM tương ứng trên các MFCC
hiệu chỉnh theo của frame tiếng nói đã được định vị. Cuối cùng hệ thống gọi lại phép
giải mã HMM nhưng với dãy đặc trưng MFCC đã được hiệu chỉnh bằng VTLN.
Quy trình nhận dạng trên tiêu tốn bộ nhớ và thời gian tính toán, không thích hợp
trong các ứng dụng nhận dạng thời gian thực được xây dựng trên nền các hệ thống tài
nguyên hạn chế.
Theo hướng ước lượng tham số VTLN dựa trên các tham số ngữ âm như F0 và
formant, trong luận án tác giả đã đề xuất cách ước lượng tham số dựa trên giá trị trung
bình của đường F3 của câu phát âm. Ngoài ra luận án cũng đã trình bày phép chứng
minh hình thức cho tính đúng đắn của thuật toán tính giá trị trung bình của formant F3
thông qua 3 mệnh đề Toán học.
Để tích hợp vào hệ thống nhận dạng độc lập người nói, đầu tiên áp dụng phép
chuẩn hóa kiểu VTLN cho tiếng nói đầu vào để hiệu chỉnh lại tần số trước khi tính các
hệ số MFCC như thông thường, sau đó ghép giá trị đường F0 đã được tiền xử lý (làm
đầy trên các đoạn vô thanh và làm trơn) của phát âm và chuyển tới bộ huấn luyện hoặc
giải mã của các HMM. Độ chính xác nhận dạng đã được tăng rõ rệt.
2.2.Kết quả khác
Ngoài ra luận án cũng trình bày một số kết quả của tác giả luận án trong thời
gian trước khi làm nghiên cứu sinh như kết quả về nhận dạng thanh điệu tiếng Việt
của âm tiết trong kiểu phát âm rời.
136
2.3.Một kết quả ứng dụng
Tích hợp hệ thống nhận dạng tiếng Việt trên chip SOC (PSoC5/OMAP3) để
điều khiển thiết bị tự hành như xe lăn điện, robot hút bụi.
3. Hướng phát triển
Tổng hợp và nhận dạng tiếng nói là vấn đề mở, các kết quả luận án về kết hợp
các hiện tượng ngôn điệu tiếng Việt vào các hệ thống này đòi hỏi cần nhiều nghiên
cứu sâu hơn nữa để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt ứng dụng
cho nhiều lĩnh vực trong cuộc sống. Những định hướng tiếp theo của chúng tôi là:
- Tiếp tục nghiên cứu quy luật biến đổi thanh điệu trong cụm từ, trong câu, nghiên
cứu các quy luật về điểm nghỉ phát âm trong ngữ lưu.
- Xây dựng các biến thể đặc trưng tiếng nói dựa trên MFCC có kết hợp với ngôn
điệu tiếng Việt, tăng khả năng giảm phụ thuộc vào nhiễu của các đặc trưng tiếng
nói.
- Đi sâu vào hướng tiếp cận sử dụng các đặc trưng formant F1-F2,F3 v.v… ứng
dụng cho nhận dạng và tổng hợp tiếng Việt để mô hình hóa sự phụ thuộc (cho
tổng hợp) và sự độc lập (cho nhận dạng) người nói. Đây là vấn đề nghiên cứu liên
ngành, do bản chất phức tạp của mô hình hóa hệ thống cấu âm (nhìn từ bên
trong), và các thể hiện khá phức tạp của formant trong các hiện tượng ngôn ngữ:
Phụ thuộc ngôn ngữ, vấn đề phương ngữ. Ngữ cảnh phát âm, đặc điểm âm vị/âm
tiết/từ/câu của ngôn ngữ đã làm cho hiện tượng diễn tiến của formant là khá phức
tạp, và vẫn là một vấn đề mở đang được quan tâm nghiên cứu trên thế giới. Một
hướng nâng cao chất lượng nhận dạng tiếng nói là nâng cao chất lượng nhận dạng
âm vị (chẳng hạn áp dụng phép chuẩn hóa VTLN). Đây là một hướng nghiên cứu
còn mở khá phức tạp do độ khu biệt trong ngữ cảnh câu phát âm liên tục của âm
vị không rõ ràng và phụ thuộc người phát âm, kiểu giọng đọc và đầu tiên cần một
corpus ngữ âm “lớn” v.v…Tuy nhiên nếu cải thiện được chất lượng nhận dạng âm
vị thì việc xây dựng các corpus huấn luyện nhận dạng cho các ứng dụng đặc thù
137
sẽ được tinh gọn, và qua đó giảm chi phí và thời gian triển khai một hệ nhận dạng
tên, nhận dạng đọc chính tả v.v…
- Ứng dụng tổng hợp và nhận dạng tiếng Việt trong các vấn đề hội thoại người
máy, điều khiển thiết bị, robot tự hành, ứng dụng hỗ trợ người khuyết tật v.v…
138
DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ
[CT1] Ngô Hoàng Huy , Dự báo các giá trị ngôn điệu tiếng Việt cho tiếng nói tổng
hợp, Tạp chí Công nghệ Thông tin và Truyền thông, Tập V-1 số 6(26), 09-2011, trang
236-241.
[CT2] Ngô Hoàng Huy, Tổ hợp đường F0 và VTLN cho nhận dạng tên riêng tiếng
Việt, Tạp chí Tin học và Điều khiển học, trang 273 – 282, Tập 27, số 3, 2011.
[CT3] Ngô Hoàng Huy , Phạm Thượng Cát, Nguyễn Trịnh Nguyên, Nguyễn Tu Trung,
Ngô Trần Anh, (2012) Thiết kế hệ thống nhận dạng khẩu lệnh tiếng Việt điều khiển
thiết bị tự hành trên nền các vi hệ thống điện năng thấp với phép chuẩn hóa VTLN –
MFCC, hội nghị Cơ điện tử. VCM-2012.
[CT4] Nguyễn Tu Trung, Ngô Hoàng Huy, (2014) Tối ưu lưu trữ và tính toán tín hiệu
tiếng nói cho hệ tổng hợp Tiếng Việt dựa trên ghép nối, hội nghị quốc gia lần thứ VII
"Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin", FAIR 2014.
[CT5] Ngô Hoàng Huy , Trích chọn đặc trưng âm học tiếng Việt dựa trên F0 và biến
thể của MFCC với ước lượng VTLN từ các giá trị formant, hội nghị quốc gia lần thứ
VII "Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin", FAIR 2014.
CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN TỪ NĂM 2000-2006
(đồng tác giả) [2] Sử dụng mô hình Fujisaki và mạng neuron trong nhận dạng và tổng hợp thanh điệu
tiếng Việt, Kỷ yếu hội thảo “Nghiên cứu cơ bản và ứng dụng công nghệ thông tin
FAIR 2005, NXB KHKT.
[3] Nghiên cứu phát triển công nghệ tổng hợp và nhận dạng tiếng Việt, Kỷ yếu hội
nghị: Nghiên cứu cơ bản và ứng dụng công nghệ thông tin FAIR 2005, NXB KHKT
[4] Phân lớp các đường thanh điệu trong ngữ cảnh câu, Kỷ yếu Hội thảo Quốc gia,
NXB KHKT, 279-284.
[5] Nhận dạng thanh điệu tiếng Việt trên tiếng nói rời rạc phụ thuộc người nói, Kỷ yếu
Hội thảo Quốc gia, NXB KH&KT, 443-449.
139
[30] Problems of integrating a Vietnamese text-to-speech module into EUMS systems,
IOIT’s Workshop in 2001.
[31] Development of Automatic Data Entry Systems with Pattern Recognition
Techniques, International Symposium on Knowledge Creation in
Economics,Enviromental and Societal Systems, JAIST, Kanazawa, pp 72-78.
[32] Vietnamese text normalize and processing, Proceedings of National IT
Conference.
[33] Thiết kế các hệ thống nhận dạng tiếng Việt trong thời gian thực, Kỷ yếu báo cáo
hội nghị FAIR nghiên cứu cơ bản và ứng dụng công nghệ thông tin, 349 – 357.
[42] Toward integrating the Fujisaki model into Vietnamese TTS, Proceeding of the
International Conference on Spoken Language Processing, Korea.
140
TÀI LIỆU THAM KHẢO
Tiếng Việt
1. Đặng Ngọc Đức, Lương Chi Mai (2004), “Tăng cường độ chính xác của hệ thống
mạng nơ ron nhận dạng tiếng Việt”, Tạp chí Bưu chính Viễn thông - Chuyên san
các công trình nghiên cứu và triển khai Công nghệ thông tin và Viễn thông, 11,
75-81.
2. Ngô Hoàng Huy , Nguyễn Thị Thanh Mai, Quản Thái Hà, Nguyễn Huy Hoàng
(2006), Sử dụng mô hình Fujisaki và mạng neuron trong nhận dạng và tổng hợp
thanh điệu tiếng Việt, Kỷ yếu hội thảo “Nghiên cứu cơ bản và ứng dụng công
nghệ thông tin FAIR 2005”, NXB KHKT.
3. Lương Chi Mai, Bạch Hưng Khang, , Bùi Quang Trung, Vũ Tất Thắng, Nguyễn
Tiến Dũng, Nguyễn Thị Thanh Mai (2006), Nghiên cứu phát triển công nghệ tổng
hợp và nhận dạng tiếng Việt, Kỷ yếu hội nghị: Nghiên cứu cơ bản và ứng dụng
công nghệ thông tin FAIR 2005, NXB KHKT
4. Ngô Hoàng Huy , Nguyễn Thị Thanh Mai (2006), Phân lớp các đường thanh điệu
trong ngữ cảnh câu, Kỷ yếu Hội thảo Quốc gia, NXB KHKT, 279-284.
5. Ngô Hoàng Huy , Nguyễn Thị Thanh Mai (2006), Nhận dạng thanh điệu tiếng
Việt trên tiếng nói rời rạc phụ thuộc người nói, Kỷ yếu Hội thảo Quốc gia, NXB
KH&KT, 443-449.
6. Lê Hồng Minh (2003), Một số kết quả nghiên cứu và phát triển hệ phần mềm
chuyển văn bản thành tiếng nói cho tiếng Việt bằng tổng hợp formant, Kỷ yếu
Hội thảo Khoa học Quốc gia lần thứ nhất - Nghiên cứu Phát triển và Ứng dụng
Công nghệ Thông tin và Truyền thông (ICT.rda’03), 292-301.
7. Vũ Hải Quân và Cao Xuân Nam (2009), Tổng hợp tiếng nói tiếng Việt theo
phương pháp ghép nối cụm từ, Các công trình nghiên cứu, phát triển và ứng dụng
CNTT-TT, Tạp chí CNTT và TT, Tập V-1(1), 70-76.
8. Đoàn Thiện Thuật (2000), Ngữ âm tiếng Việt, NXB Đại học Quốc gia Hà Nội.
141
9. Huỳnh Công Tín, Giáo trình Cơ sở ngữ âm học, Đại học Cần thơ.
10. Trịnh Anh Tuấn (2000), Một số phương pháp nâng cao chất lượng hệ thống tổng
hợp tiếng Việt V-TALK, Tạp chí Bưu chính Viễn thông, Số 3, 19-23.
11. Trịnh Anh Tuấn, Nghiên cứu các đặc trưng để phân tích và tổng hợp tín hiệu âm
tần, Luận án tiến sỹ, Học viện Công nghệ Bưu chính Viễn thông.
Tiếng Anh
12. Alex Acero, Xuedong Huang,AUGMENTED CEPSTRAL NORMALIZATION
FOR ROBUST SPEECH RECOGNITION
13. Praveen Kumar Bamini , FPGA-based Implementation of Concatenative Speech
Synthesis Algorithm. Ph.D thesis.
14. Dragos Burileanu, Andrei Fecioru, Dragos Ion, Madalin Stoica, Costel Ilas
(2004), AN OPTIMIZED TTS SYSTEM IMPLEMENTATION USING
AMOTOROLA STARCORE C140-BASED PROCESSOR, Proceedings of the
International Conference on Acoustics, Speech, and Signal Processing ICASSP.
15. Shanqing Cai, H. Timothy Bunnell, Rupal PatelUnsupervised (2013), Vocal-tract
Length Estimation Through Model-based Acoustic-to-Articulatory Inversion,
14th Annual Conference of the International Speech Communication
Association,InterSpeech 2013.
16. Ken Chen, Sarah Borys, Mark Hasegawa-Johnson (2003), Prosody Dependent
Speech Recognition With Explicit Duration Modelling at Intonational Phrase
Boundaries, Interspeech 2003.
17. Ken Chen, Mark Hasegawa-Johnson, Aaron Cohen, Sarah Borys, Sung-Suk Kim,
Jennifer Cole, Jeung- Yoon Choi (2005), Prosody Dependent Speech Recognition
on Radio News Corpus of American English, IEEE transactions On Speech And
Audio Processing, vol.13,No.6, November 2005.
142
18. Chistikov, Korolkov, Talanov (2013), Combining HMM and unit selection
technologies to increase naturalness of synthesized speech, Proc. in 19th
International Computational Linguistics Conference, Naro-Fominsk, Russia.
19. Piero Cosi, Cinzia Avesani, Piero Cosi, Cinzia Avesani (2014), On The Use Of
Cart-Tree For Prosodic Predictions In The Italian Festival TTS, Cinzia Avesani,
Feb 14, 2014.
20. Tran DD, Castelli E, et al (2005), Influence of F0 on Vietnamese syllable
perception , Proc of Interspeech, Lisbon, 1697-1700.
21. Soumyajit Dey, Monu Kedia, Anupam Basu (2007), Architectural Optimizations
for Text to Speech Synthesis in Embedded Systems, Design Automation
Conference, 2007. ASP-DAC '07. Asia and South Pacific ISBN:1-4244-0629-3,
298 – 303.
22. Dung, Mixdorff, et al (2004), Fujisaki Model based F0 contours in Vietnamese
TTS, Proceedings of ICSLP2004.
23. Demiroglu (2012), A Small Footprint Hybrid Statistical and Unit Selection Text-
to-Speech Synthesis System for Turkish, Proc in ICASSP, 4537-4540.
24. Dusterhoff, Black (1997), Generating F0 contours for speech synthesis using the
Tilt intonation theory, Proceedings of ESCA Workshop of Intonation 1997, 107-
110.
25. Donovan (1996), Trainable speech synthesis, PhD thesis, Cambridge University
Egineering Department.
26. Daniel Elenius, Mats Blomberg (2010), Dynamic vocal tract length normalization
in speech recognition, Proceedings from Fonetik 2010 ISSN 0280-526X, 29-34.
27. Guner, Demiroglu (2012), A Small Footprint Hybrid Statistical and Unit Selection
Text-to-Speech Synthesis System for Turkish, Proc. in ICASSP, 4537-4540.
28. Hanilçi, Kinnunen (2014), Source Cell-Phone Recognition from Recorded Speech
Using Non-Speech Segments, Digital Signal Processing (to appear) Source Cell-
143
Phone Recognition from Recorded Speech Using Non-Speech Segments, ISSN
:1051-2004, DOI 10.1016/j.dsp.2014.08.008.
29. Huang, Acero, Hon (2001), Spoken Language Processing, Prentice-Hall.
30. Ngo Hoang Huy, Bach Hung Khang, Luong Chi Mai et al (2001),
Problems of integrating a Vietnamese text-to-speech module into EUMS systems,
IOIT’s Workshop in 2001.
31. Ngo Hoang Huy et al (2002), Development of Automatic Data Entry Systems
with Pattern Recognition Techniques, International Symposium on Knowledge
Creation in Economics,Enviromental and Societal Systems, JAIST, Kanazawa, pp
72-78.
32. Ngo Hoang Huy (2002), Nguyen Thi Thanh Mai, Bui Quang Trung, "Vietnamese
text normalize and processing, Proceedings of National IT Conference.
33. Ngo Hoang Huy, Luong Chi Mai, et al (2003), Thiết kế các hệ thống nhận dạng
tiếng Việt trong thời gian thực, Kỷ yếu báo cáo hội nghị FAIR nghiên cứu cơ bản
và ứng dụng công nghệ thông tin, 349 – 357.
34. Hunt, Black, Alan (2006), Unit selection in a concatenative speech synthesis
system using a large speech database, Proc. in ICASSP Vol.1, tr. 373-376. LNAI
4274, p87 – 94, Springer-Verlag, Berlin Heidelberg.
35. Cemal Hanilci, Tomi Kinnunen, Padmanabhan Rajan, Jouni Pohjalainen, Paavo
Alku, Figen Ertas (2013), Comparison of spectrum estimators in speaker
verification: mismatch conditions induced by vocal effort, Proc. Interspeech,
2881—2885.
36. Tomi Kinnunen, Md. Jahangir Alam, Pavel Matˇejka (2011), Frequency Warping
and Robust Speaker Verification: A Comparison of Alternative Mel-Scale
Representations Low-Variance Multitaper MFCC Features: a Case Study in
Robust Speaker Verification IEEE TRANSACTIONS ON SPEECH, AUDIO
AND LANGUAGE PROCESSING.
144
37. Bach Hung Khang, Luong Chi Mai, Ngo Hoang Huy, et al (2002) , Development
of Automatic Data Entry Systems With Pattern Recognition Techniques,
International Symposium on Knowledge Creation in Economics, Enviromental
and Societal Systems, Japan Advanced Institute for Science and Technology,
Kanazawa, 72-78.
38. Li Lee, Richard C. Rose (1996), Speaker normalization using efficient frequency
warping procedures. ICASSP 1996.
39. Jinyu Li, Member, Li Deng, Yifan Gong, Reinhold Haeb-Umbach (2013), An
Overview of Noise-Robust Automatic Speech Recognition”. IEEE TRANS.
AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. X, NO. X, XXX.
40. Jian Liu, Thomas Fang Zheng, and Wenhu Wu (2006), Pitch Mean Based
Frequency Warping, Chinese Spoken Language Processing, Volume 4274 of the
series Lecture Notes in Computer Science, 87-94.
41. Dang-Khoa Mac, Eric Castelli, Véronique Aubergé, MODELING THE
PROSODY OF VIETNAMESE ATTITUDES FOR EXPRESSIVE SPEECH
SYNTHESIS.
42. Hansjoerg Mixdorf, Nguyen Tien Dung, Lưong Chi Mai, Ngo Hoang Huy, Vu
Kim Bang (2004), Toward integrating the Fujisaki model into Vietnamese TTS,
Proceeding of the International Conference on Spoken Language Processing,
Korea.
43. Hansjoerg Mixdorf, Nguyen Tien Dung, Lưong Chi Mai, Ngo Hoang Huy (2003),
Quantitative Analysis and Synthesis of Syllabic Tones in Vietnamese, Proc. in
EUROSPEECH, 177-180.
44. Hansiorg Mixdorff, Nguyen Tien Dung, Vu Trung Nghia (2005), Duration
Modeling in a Vietnamese Text To Speech System, Speech Communication.
of vowel normalisation,” Language and Cognitive Processes, vol. 25, no. 6, pp. 808–839,
Jul. 2010.
45. P. J. Monahan and W. J. Idsardi, “Auditory sensitivity to formant ratios: Toward an account
145
46. Iosif Mporas, Todor Ganchev, Mihalis Siafarikas, Nikos Fakotakis (2007),
Comparison of Speech Features on the Speech Recognition Task, Journal of
Computer Science 3 (8), 608-616, ISSN 1549-3636.
47. Naresh Venkataramani (2013), J. PSoC based isolated speech recognition system,
Communications and Signal Processing (ICCSP), International Conference , 693 -
697 ISBN: 978-1-4673-4865-2.
48. Trung-Nghia PHUNG, Thanh-Son PHAN, Thang Tat VU, Mai Chi LUONG and
Masato AKAGI (2013), Improving the naturalness of HMM-based TTStrained
with limited data data by Temporal decomposition, IEICE TRANS. INF. &
SYST., Japan, Vol.E96(11), 2417-2426.
49. Kuldip, Paliwal (1998), SPECTRAL SUBBAND CENTROID FEATURES FOR
SPEECH RECOGNITION ICASSP.
50. Sankaran Panchapagesan, Abeer Alwan (2009), Frequency warping for VTLN
and speaker adaptation by linear transformation of standard MFCC, Computer
Speech and Language 23, 42–64.
51. Branislav Popović, Dragan Knežević, Milan Sečujski, Darko Pekar (2014),
AUTOMATIC PROSODY GENERATION IN A TEXT-TO-SPEECH SYSTEM
FOR HEBREW FACTA UNIVERSITATIS Series: Electronics and Energetics
Vol. 27, No 3, 467 – 477.
52. Michael Price, James Glass, Anantha P (2014), A 6mW 5K-Word Real-Time
Speech Recognizer Using WFST Models 2014 IEEE International Solid-State
Circuits Conference.
53. NGUYEN Hong Quang, NOCERA Pascal, CASTELLI Ericy and TRINH Van
Loan (2008), Tone Recognition of Vietnamese Continuous Speech using Hidden
Markov Model, HUT-ICCE, the Second International Conference on
Communications and Electronics.
54. William R. Rodr´ıguez, Oscar Saz, Antonio Miguel and Eduardo Lleida (2010),
On line vocal tract length estimation for speaker normalization in speech
146
recognition, VI Jornadas en Tecnología del Habla and II Iberian SLTech
Workshop, Vigo, Spain.
55. Hamid Sheikhzadeh, Etienne Cornu, Robert Brennan, Todd Schneider (2002),
REAL-IME SPEECH SYNTHESIS ON AN ULTRA LOW-RESOURCE,
PROGRAMMABLE DSP SYSTEM, ICASSP.
56. Hanna Silén, Elina Helander1, Jani Nurminen, Moncef Gabbouj (2010), Analysis
of Duration Prediction Accuracy in HMM-Based Speech Synthesis, Speech
Prosody Illinois 2010.
57. Silverman, Beckman, Pierrehumbert, Ostendorf, Wightman, Price, Hirschberg
(1992), ToBI: A Standard Scheme for Labeling Prosody Proc. ICSLP, 867-869.
58. Malcolm Slaney, Michael L (2014), THE INFLUENCE OF PITCH AND NOISE
ON THE DISCRIMINABILITY OF FILTERBANK FEATURES, Interspeech
2014.
59. Young-Woo Son, Jae-Keun Hong (2006), The formant-emphasized Feature
Vector for Speech Recognition in Noisy Condition, IPCV 2006, 52-55.
60. Taylor (2000), Analysis and synthesis of intonation using the Tilt model, J.
Acoust. Soc. Am, 107, 1697-1714.
61. Ye Tian, Jian-Lai zhuo, Min Chu, Eric Chang (2004), Tone Ricognition with
Fractionized Models and Outlined Features, ICASSP.
62. Thang Tat Vu, Dung Tien Nguyen, Mai Chi Luong, John-Paul Hosom (2005)
,Vietnamese Large Vocabulary Continuous Speech Recognition, EuroSpeech.
63. Vu Thang Tat, Luong Mai Chi, Satoshi, Nakamura (2009), An HMMbased
Vietnamese Speech Synthesis System, Proc. in Oriental COCOSDA, 116-121.
64. DO Van Thao, TRAN Do Dat, NGUYEN Thi Thu Trang (2011),
Nonuniformunit selection in Vietnamese Speech Synthesis, Proceedings of the
2nd SoICT, 165-171.
65. Ye Tian, Jian-Lai zhuo, Min Chu, Eric Chang (2004), Tone articulation modeling
for Mandarin spontaneous speech recognition, ICASSP.
147
66. Nguyen Thi Thu Trang et al (2014), INTONATION ISSUES IN HMM-BASED
SPEECH SYNTHESIS FOR VIETNAMESE, SLTU-2014, St. Petersburg,
Russia.
67. Nguyen Thi Thu Trang, Christophe D’Alessandro, Albert Rilliard, Tran Do Dat,
HMM-based TTS for Hanoi Vietnamese (2013), Issues in design and evaluation.
68. Yapanel, Hansen (2003), A New Perspective on Feature Extraction for Robust In-
Vehicle Speech Recognition, Eurospeech.
69. Lifu Yi, Jian Li, Xiaoyan Lou, Jie Hao (2006), A Unified Totally-Data-Driven
Framework for Duration and Intonation Modeling International Symposium on
Chinese Spoken Language Processing.
70. Ekaterina Verteletskaya, Boris Simak (2010), Enhanced spectral subtraction
method for noise reduction with minimal speech distortion, IWSSIP - 17th
International Conference on Systems, Signals and Image Processing.
71. Jian Yu, Meng Zhang, Jianhua Tao, Xia Wang (2007), A NOVEL HMM-BASED
TTS SYSTEM USING BOTH CONTINUOUS HMMS AND DISCRETE
HMMS.
72. Heiga Zen, Takashi Nose, Junichi Yamagishi, Shinji Sako, Takashi Masuko,
AlanW. Black, Keiichi Tokuda (2007), The HMM-basedSpeech Synthesis System
(HTS) Version 2.0, Proc. of ISCA SSW6 2007.
73. Puming Zhan and Alex Waibel (1997), Vocal tract length normalization for large
vocabulary continuous speech recognition, Technical report, CMU-LTI-97-150.
74. Puming Zhan, Martin Westphal (1997), Speaker normalization based on
frequency warping, ICASSP.
75. Naoya Wada, Shingo Yoshizawa, Yoshikazu Miyanaga (2005), A Real Time
Noise-Robust Speech Recognition System, ECTI Transaction CIT Vol 1, No 2.
76. Shizhen Wang, Yi-Hui Lee, Abeer Alwan (2009), Bark-shift based nonlinear
speaker normalization using the second subglottal resonance, INTERSPEECH.
148
77. Katrin Weber, Samy Bengio, Hervé Bourlard (2001), HMM2- Extraction of
formant Structures and their Use for Robust ASR.
Trang Web
78. Tiếng nói Phương Nam, http://www.ailab.hcmus.edu.vn/slp/
79. http://www.vnisg.com/vnisg-sanpham-181-0-0-0.html
80. www.cstr.ed.ac.uk/projects/festival/
81. http://htk.eng.cam.ac.uk/
82. http://hts.sp.nitech.ac.jp/
83. http://www.cypress.com
84. http://www.opener-project.eu/project/
85. http://www.praat.org
86. http://en.wikipedia.org/wiki/Named-entity_recognition
87. http://vi.wikipedia.org/wiki/Ti%E1%BA%BFng_Th%C3%A1i
88. http://vi.wikipedia.org/wiki/B%C3%ADnh_%C3%A2m_H%C3%A1n_ng%E1%
BB%AF
Đề tài nghiên cứu Khoa học
89. Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng
Việt. Đề tài cấp nhà nước 2001-2003. Viện CNTT chủ trì.
90. Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản
tiếng Việt. Đề tài cấp nhà nước 2007-2009. Viện CNTT chủ trì
91. Nghiên cứu thiết kế chế tạo các thiết bị và hệ thống tự động hóa thông minh sử
dụng tương tác người-máy bằng tiếng nói trong điều khiển. Đề tài cấp nhà nước
2007-2009. Đại học Bách Khoa Hà Nội chủ trì.
92. Nghiên cứu thiết kế và chế tạo hệ thống điều khiển bằng tiếng nói tích hợp vào
robot hút bụi tự động thông minh. Đề tài cấp thành phố 2011-2012. Viện CNTT
chủ trì.
149
PHỤ LỤC
Bảng một phần mạng câu sinh ra bởi bộ công cụ HTK [81]
VERSION=1.0 I=40 W=chis
N=1971 L=2258 I=41 W=minh
I=0 W=!NULL I=42 W=hocj
I=1 W=!NULL I=43 W=vieenj
I=2 W=SEND-END I=44 W=buwu
I=3 W=hocj I=45 W=chinhs
I=4 W=vieenj I=46 W=vieenx
I=5 W=an I=47 W=thoong
I=6 W=ninh I=48 W=haf
I=7 W=nhaan I=49 W=nooij
I=8 W=daan I=50 W=hocj
I=9 W=!NULL I=51 W=vieenj
I=10 W=ddaij I=52 W=buwu
I=11 W=hocj I=53 W=chinhs
I=12 W=an I=54 W=vieenx
I=13 W=ninh I=55 W=thoong
I=14 W=nhaan I=56 W=thanhf
I=15 W=daan I=57 W=phoos
I=16 W=thanhf I=58 W=hoof
150
I=17 W=phoos I=59 W=chis
I=18 W=hoof I=60 W=minh
I=19 W=chis I=61 W=cao
I=20 W=minh I=62 W=ddawngr
I=21 W=ddaij I=63 W=suw
I=22 W=hocj I=64 W=phamj
I=23 W=bachs I=65 W=haf
I=24 W=khoa I=66 W=nooij
I=25 W=haf I=67 W=cao
I=26 W=nooij I=68 W=ddawngr
I=27 W=ddaij I=69 W=suw
I=28 W=hocj I=70 W=phamj
I=29 W=bieen I=71 W=thanhf
I=30 W=phongf I=72 W=phoos
I=31 W=sown I=73 W=hoof
I=32 W=taay I=74 W=chis
I=33 W=ddaij I=75 W=minh
I=34 W=hocj I=76 W=cao
I=35 W=bieen I=77 W=ddawngr
I=36 W=phongf I=78 W=suw
I=37 W=thanhf I=79 W=phamj
151
I=38 W=phoos I=80 W=haf
I=39 W=hoof I=81 W=giang
…………… ………………………..
J=2074 S=1786 E=1787 J=2201 S=2 E=1914
J=2075 S=1787 E=1788 J=2202 S=1914 E=1915
J=2076 S=1788 E=1789 J=2203 S=1915 E=1916
J=2077 S=2 E=1790 J=2204 S=1916 E=1917
J=2078 S=1790 E=1791 J=2205 S=1917 E=1918
J=2079 S=1791 E=1792 J=2206 S=1918 E=1919
J=2080 S=1792 E=1793 J=2207 S=2 E=1920
J=2081 S=1793 E=1794 J=2208 S=1920 E=1921
J=2082 S=1794 E=1795 J=2209 S=1921 E=1922
J=2083 S=2 E=1796 J=2210 S=1922 E=1923
J=2084 S=1796 E=1797 J=2211 S=1923 E=1924
J=2085 S=1797 E=1798 J=2212 S=2 E=1925
J=2086 S=1798 E=1799 J=2213 S=1925 E=1926
J=2087 S=1799 E=1800 J=2214 S=1926 E=1927
J=2088 S=1800 E=1801 J=2215 S=1927 E=1928
J=2089 S=2 E=1802 J=2216 S=1928 E=1929
J=2090 S=1802 E=1803 J=2217 S=1929 E=1930
J=2091 S=1803 E=1804 J=2218 S=1930 E=1931
J=2092 S=1804 E=1805 J=2219 S=2 E=1932
J=2093 S=1805 E=1806 J=2220 S=1932 E=1933
J=2094 S=1806 E=1807 J=2221 S=1933 E=1934
J=2095 S=1807 E=1808 J=2222 S=1934 E=1935
J=2096 S=1808 E=1809 J=2223 S=1935 E=1936
152
J=2097 S=1809 E=1810 J=2224 S=2 E=1937
J=2098 S=2 E=1811 J=2225 S=1937 E=1938
J=2099 S=1811 E=1812 J=2226 S=1938 E=1939
J=2100 S=1812 E=1813 J=2227 S=1939 E=1940
J=2101 S=1813 E=1814 J=2228 S=1940 E=1941
J=2102 S=2 E=1815 J=2229 S=1941 E=1942
J=2103 S=1815 E=1816 J=2230 S=1942 E=1943
J=2104 S=1816 E=1817 J=2231 S=1943 E=1944
J=2105 S=1817 E=1818 J=2232 S=2 E=1945
J=2106 S=1818 E=1819 J=2233 S=1945 E=1946
J=2107 S=2 E=1820 J=2234 S=1946 E=1947
J=2108 S=1820 E=1821 J=2235 S=1947 E=1948
J=2109 S=1821 E=1822 J=2236 S=1948 E=1949
J=2110 S=1822 E=1823 J=2237 S=1949 E=1950
J=2111 S=2 E=1824 J=2238 S=1950 E=1951
J=2112 S=1824 E=1825 J=2239 S=1951 E=1952
J=2113 S=1825 E=1826 J=2240 S=1952 E=1953
J=2114 S=1826 E=1827 J=2241 S=1953 E=1954
J=2115 S=1827 E=1828 J=2242 S=1954 E=1955
J=2116 S=1828 E=1829 J=2243 S=2 E=1956
J=2117 S=1829 E=1830 J=2244 S=1956 E=1957
J=2118 S=1830 E=1831 J=2245 S=1957 E=1958
J=2119 S=1831 E=1832 J=2246 S=1958 E=1959
J=2120 S=1832 E=1833 J=2247 S=1959 E=1960
J=2121 S=2 E=1834 J=2248 S=1960 E=1961
J=2122 S=1834 E=1835 J=2249 S=2 E=1962
J=2123 S=1835 E=1836 J=2250 S=1962 E=1963
153
J=2124 S=1836 E=1837 J=2251 S=1963 E=1964
J=2125 S=1837 E=1838 J=2252 S=1964 E=1965
J=2126 S=1838 E=1839 J=2253 S=1965 E=1966
J=2127 S=1839 E=1840 J=2254 S=1966 E=1967
J=2128 S=1840 E=1841 J=2255 S=1967 E=1968
J=2129 S=2 E=1842 J=2256 S=9 E=1969
J=2130 S=1842 E=1843 J=2257 S=2 E=1970
1. Cách tổ chức cây dự báo CART của Wagon/Festival
1.1. Sự hỗn tạp trong dữ liệu (tạp âm)
Sự hỗn tạp của một tập mẫu được thiết kế để xem các mẫu giống nhau như thế
nào. Con số càng nhỏ thì tập mẫu càng ít bị pha tạp.
Đối với các tập mẫu với giá trị ước tính là liên tục, Wagon sử dụng phương sai
nhân với số các điểm mẫu. Phương sai có thể được dùng bởi nó rất có lợi cho các tập
mẫu rất nhỏ. Khi việc kiểm thử được thực hiện đang cố gắng giảm thiểu tính hỗn tạp
trên các phân vùng dữ liệu, mỗi phần với số lượng mẫu sẽ khuyến khích các phân vùng
lớn hơn, và thấy rằng nhìn chung là dẫn đến một cây quyết định tốt hõn.
Độ đo sự hỗn tạp khác có thể sử dụng nếu yêu cầu. Ví dụ một kỹ thuật phân cụm
đýợc sử dụng cho việc lựa chọn đõn vị hỗn tạp thực sự được sử dụng được tính toán
sao cho khoảng cách õ cõ lít trung bình giữa tất cả các véc tơ tham số trong tập mẫu.
Tuy nhiên ở trên hai cái đó là các độ đo chuẩn.
Định dạng câu hỏi
Wagon phải tự động định dạng các câu hỏi về mỗi đặc trưng trong tập dữ liệu.
Đối với các đặc trưng rời rạc, các câu hỏi được xây dựng cho mỗi thành phần của
tập, ví dụ nếu đặc trưng n có giá trị. Việc thực hiện của chúng ta hiện nay không hỗ trợ
những câu hỏi phức tạp hơn để đạt được kết quả tốt hơn (mặc dù mất phí tổn về thời
gian huấn luyện). Các câu hỏi về các đặc trưng là tập con nào đó của lớp thành viên có
154
thể đưa ra các cây nhỏ hơn. Nếu dữ liệu yêu cầu phân biệt các giá trị a,b,c từ d, e, f,
phương pháp của ta sẽ yêu cầu 3 câu hỏi riêng, nếu tập nhỏ các câu hỏi sẽ được tạo ra
thì việc này sẽ được thực hiện trong một bước mà không chỉ đưa ra một cây nhỏ hơn
mà còn không cần thiết chia các mẫu cho a, b, và c. Trong tập chung, thì việc tạo câu
hỏi là luật số mũ trên một số lượng các đối tượng trong lớp mặc dù có các kỹ thuật có
thể giảm số này bằng cách đánh giá kinh nghiệm. Tuy nhiên các kỹ thuật này hiện tại
cũng không được hỗ trợ. Lưu ý là tuy các cây được tạo ra một cách hình thức, Wagon
cũng hỗ trợ các câu hỏi như vậy nhưng Wagon sẽ không bao giờ đưa ra các câu hỏi này
mặc dù các kỹ thuật khác có thể sử dụng dạng câu hỏi đó (ví dụ phương pháp bằng tay)
Đối với các đặc trưng liên tiếp, Wagon cố gắng tìm ra một phân vùng của dãy các
giá trị tối ưu hóa tốt nhất sự hỗn tạp trung bình của các phân vùng. Điều này hiện tại
được thực hiện bởi việc phân chia tuyến tính dãy giá trị thành các phần nhỏ đã được
tiên đoán (mặc định là 10 phần) và kiểm thử mỗi phần chia. Việc kiểm thử lại không
tối ưu nhưng đòi hỏi sự chính xác hợp lý mà không yêu cầu số lượng tính toán lớn.
Tiêu chuẩn tạo cây
Có rất nhiều cách để ràng buộc thuật toán xây dựng cây để có thể tạo được cây tốt
nhất. Wagon hỗ trợ vấn đề này (mặc dù thông thường hầu hết các thuật toán đều không
hỗ trợ)
Trong hầu hết các dạng cơ bản của thuật toán xây dựng cây thì một sự phân loại
hoàn toàn tất cả các mẫu sẽ đạt được. Điều này tất nhiên không được tốt khi lấy các
mẫu không có trong dữ liệu huấn luyện. Vì vậy các đối tượng để xây dựng một cây
phân loại hồi quy sẽ phải phù hợp với các mẫu mới chưa được thấy. Phương pháp cơ
bản nhất để đạt được điều này là không phải xây dựng một cây đầy đủ mà yêu cầu là có
ít nhất n mẫu trong phân vùng trước khi một câu hỏi được coi là chia rẽ. Chúng ta quy
cho đó là giá trị dừng. 50 là giá trị dừng thường là tốt, nhưng phụ thuộc vào số lượng
dữ liệu vào, sự phân bố của nó, vv...giá trị dừng khác nhau có thể đưa ra nhiều cây tổng
quát hơn.
155
Một phương pháp thứ hai để xây dựng cây tốt là đưa ra một số dữ liệu huấn luyện
và tạo một cây (có thể vượt quá huấn luyện) với giá trị dừng nhỏ. Sau đó cắt cây tới vị
trí phù hợp tốt nhất để đưa ra dữ liệu. Điều này thường sinh ra các kết quả tốt hơn so
với một giá trị dừng cố định vì nó cho phép giá trị dừng thay đổi qua những phần khác
nhau của cây phụ thuộc vào việc tiên đoán tổng quát như thế nào khi so sánh đưa ra dữ
liệu.
Thường là tốt hơn nếu cố gắng xây dựng nhiều cây cân bằng hơn. Một giá trị
dừng nhỏ có thể làm cho thuật toán xây dựng cây t́m được tập nhỏ nhất quán các mẫu
với các câu hỏi rất cụ thể. Cây kết quả trở nên không cân xứng, nghiêng hẳn về một
phía và có lẽ không tối ưu. Thay vì có cùng giá trị dừng cây cân bằng hơn có thể xây
dưng nếu giá trị dừng được định nghĩa là một tỉ lệ phần trăm số các mẫu được xem xét.
Tỷ lệ phần trăm này ta gọi là yếu tố cân bằng. Vì vậy giá trị dừng sau đó sẽ lớn nhất
trong các giá trị được cố định đã được định nghĩa, và bằng yếu tố cân bằng nhân với số
lượng mẫu.
Để một số phạm vi các phép nhân entropy (hoặc phương sai) với số lượng mẫu
trong phép đo sự lẫn tạp cũng là cách để chống sự mất cân bằng trong việc xây dựng
cây.
Kỹ thuật tốt chúng tôi thấy là xây dựng cây kiểu hình thang. Trong trường họp
này thay vì xem xét tất cả các đặc trưng trong việc xây dựng cây tốt nhất, chúng tôi
tăng cường xây dựng những cây tìm kiếm đặc trưng nào làm tăng độ chính xác của cây
trên dữ liệu kiểm thử được cung cấp. Không giống như trong quá trình xây dựng cây
mà chúng ta đang tìm kiếm câu hỏi tốt nhất trên tất cả các đặc trưng, kỹ thuật này giới
hạn đặc trưng nào có sẵn để xem xét. Ðầu tiên nó xây dựng một cây sử dụng chỉ những
đặc trưng đã được cung cấp tìm kiếm đặc trưng đặc biệt đưa ra cây tốt nhất. Sự lựa
chọn đặc trưng đó là việc xây dựng n-1 cây với đặc trưng tốt nhất từ vòng đầu tiên với
mỗi đặc trưng còn lại. Quá trình này tiếp tục cho đến khi không còn đặc trưng nào làm
cho tính chính xác hoặc một số tiêu chí dừng (tỷ lệ phần trăm cải tiến) không đạt được.
156
Kỹ thuật này cũng là một kỹ thuật greedy ( tham lam) nhưng chúng ta vừa thấy
rằng khi nhiều đặc trưng được trình bày, ðặc biệt là khi một số rất tương quan với
nhau, việc xây dựng bậc thang đưa ra một cây mạnh hơn đáng kể trên dữ liệu kiểm thử
bên ngoài. Nó cũng thường xây dựng những cây nhỏ hơn. Nhưng tất nhiên cũng tốn chi
phí về thời gian tính toán.
Trong khi sử dụng lựa chọn bậc thang, mỗi đặc trưng mới được in ra. Sự cẩn thận
nên được chú ý trong việc phiên dịch nghĩa nó là gì. Không nhất thiết phải đưa ra thứ
tự và tầm quan trọng tương đối của các đặc trưng, nhưng có thể hữu ích nếu chỉ ra đặc
trưng nào quan trọng đặc biệt tới việc xây dựng này.
Phương pháp bậc thang kiểm thử mỗi cây thành công dựa vào tập kiểm thử lý
thuyết, (cân bằng, được tổ chức ra và các lựa chọn dừng được chú ý đối với mỗi kiểu
xây dựng). Vì đây là cách sử dụng tập thử nghiệm tối ưu hóa cây, không hợp lệ nếu
xem tập thử nghiệm đã được chỉ rõ như là một tập thử nghiệm chính thức. Tập thử
nghiệm khác được tạo bên ngoài nên được sử dụng để kiểm tra tính chính xác của các
cây được sinh ra.
1.2. Định dạng dữ liệu
Dữ liệu vào cho wagon ( và một số công cụ xây dựng mô hình khác trong thư
viện Edinburgh Speech Tools, nên gồm các véctơ đặc trưng, và mô tả các trường của
các véc tơ này.
Các véc tơ đặc trưng
Một véc tơ đặc trưng là một file với một mẫu trên mỗi dòng, với giá trị đặc trưng
là khoảng trắng biểu hiện sự tách nhau. Nếu các giá trị đặc trưng bao gồm khoảng trắng
thì bạn phải trích dẫn chúng sử dụng dấu ngoặc kép.
Chương trình dumpfeats (Festival) được thiết kế đặc biệt để sinh ra những file
như vậy từ cơ sở dữ liệu tiếng nói, nhưng những file này có thể được sinh ra từ bất kỳ
nguồn dữ liệu nào.
157
Mỗi vector phải có cùng số điểm đặc trưng (và theo thứ tự như nhau, các đặc
trưng có thể được xác định là “bỏ qua” trong mô tả (hoặc trong thực tế sử dụng ) do đó
thông thường các file dữ liệu chứa nhiều điểm đặc trưng hơn là luôn được sử dụng
trong xây dựng mô hình. Mặc định đặc trưng đầu tiên trong thư mục dữ liệu là biến cố,
mặc dù ít nhất là trong Wagon), các trường biến cố có thể đặt tên lúc xây dựng cây để
khác với trường đầu tiên).
Các đặc trưng phải là đơn trị, các đặc trưng đa trị hoặc giá trị bảng (danh sách)
hiện nay không được hỗ trợ. Lưu ý rằng điều này có nghĩa là 1 đặc trưng trong các mẫu
khác nhau có thể có các giá trị khác nhau, nhưng trong một mẫu riêng thì một đặc
trưng riêng chỉ có thể có một giá trị.
Một ví dụ mẫu là: (file .wag)
0.399 pau sh 0 0 0 1 1 0 0 0 0 0 0
0.082 sh iy pau onset 0 1 0 0 1 1 0 0 1
0.074 iy hh sh coda 1 0 1 0 1 1 0 0 1
0.048 hh ae iy onset 0 1 0 1 1 1 0 1 1
0.062 ae d hh coda 1 0 0 1 1 1 0 1 1
0.020 d y ae coda 2 0 1 1 1 1 0 1 1
0.082 y ax d onset 0 1 0 1 1 1 1 1 1
0.082 ax r y coda 1 0 0 1 1 1 1 1 1
0.036 r d ax coda 2 0 1 1 1 1 1 1 1
Lưu ý là thường có hàng nghìn thậm chí hàng trăm nghìn mẫu trong file dữ liệu,
và số các đặc trưng thường là hàng trăm, mặc dù cũng có thể nhỏ hơn 10 phụ thuộc vào
cái nó mô tả.
Mô tả dữ liệu
Một file dữ liệu cũng yêu cầu một file mô tả để đặt tên và phân loại các đặc trưng
trong file dữ liệu. Các đặc trưng phải có tên, v́ thế chúng có thể liên quan tới cây quyết
158
định (hoặc đầu ra mô hình khác) và cũng có thể được phân loại thành kiểu của nó. Các
kiểu cơ bản cho các đặc trưng là:
continuous : đối với các đặc trưng miền xác định vượt quá tập số thực (ví dụ thời
gian cuộc điện thoại)
categorial : đối với các đặc trưng có một danh sách các giá trị đã được định nghĩa.
(ví dụ tên điện thoại )
string : đối với các đặc trưng với một lớp các giá trị rời rạc. (ví dụ: các từ)
Mô tả dữ liệu bao gồm một danh sách mô tả các tính năng. Mỗi phần mô tả tính
năng bao gồm tên tính năng, và kiểu của nó (và các giá trị có thể). Tên tính năng theo
quy ước nên là những cái tên có ý nghĩa cho tính năng ( và tên đường dẫn) đã được sử
dụng trong suốt phần cấu trúc ở Edinburgh Speech Tools. Phương pháp dự kiến để sử
dụng các phương pháp được sinh ra từ tập các đặc trưng trong Edinburgh Speech Tools
là để áp dung chúng cho các đối tượng. Trong đó có một tên tính năng là tính năng của
một đối tượng (hoặc đối tượng có liên quan), tên đường dẫn sẽ tránh có thêm bước
chép các tính năng vào 1 bảng riêng biệt trước khi áp dụng mô hình.Tuy nhiên có thể
nói rằng với Wagon những tên này là những biểu hiện tùy ý và ngữ nghĩa của nó không
phụ thuộc vào thời gian huấn luyện.
Một file mô tả tiêu biểu như sau, phù hợp với file dữ liệu đưa ra ở trên: (file .des)
((segment_duration float)
( name aa ae ah ao aw ax ay b ch d dh dx eh el em en er ey f g hh ih
iy jh k l m n nx ng ow oy p r s sh t th uh uw v w y z zh pau )
( n.name 0 aa ae ah ao aw ax ay b ch d dh dx eh el em en er ey f g
hh ih iy jh k l m n nx ng ow oy p r s sh t th uh uw v w y z zh pau )
( p.name 0 aa ae ah ao aw ax ay b ch d dh dx eh el em en er ey f g hh
ih iy jh k l m n nx ng ow oy p r s sh t th uh uw v w y z zh pau )
(position_type 0 onset coda)
(pos_in_syl float)
159
(syl_initial 0 1)
(syl_final 0 1)
(R:Sylstructure.parent.R:Syllable.p.syl_break float)
(R:Sylstructure.parent.syl_break float)
(R:Sylstructure.parent.R:Syllable.n.syl_break float)
(R:Sylstructure.parent.R:Syllable.p.stress 0 1)
(R:Sylstructure.parent.stress 0 1)
(R:Sylstructure.parent.R:Syllable.n.stress 0 1)
Cũng có một số các ký hiệu đặc biệt được sử dụng trong file mô tả. Nếu kiểu bị
bỏ qua thì các đặc điểm sẽ bị bỏ qua trong quá trình xây dựng mô hình. Bạn có thể chỉ
định các đặc trưng để bỏ qua tại thời điểm tạo cây, nhưng thường là rất dễ dàng bỏ qua
hẳn đặc trưng trong file dữ liệu. Một file mô tả không thể được sinh ra trực tiếp từ một
tập dữ liệu mặc dù có thể gần đúng. Đặc biệt không thể tự động lựa chọn nếu như giá
trị một đặc tính là liên tục với các giá trị là số. Chương trình make_wagon_desc sẽ
dùng một file dữ liệu và file bao gồm chỉ tên của đặc tính và tên của file mô tả mà nó
sẽ tạo ra. Đây thường là một lần duyệt đầu tiên hữu ích mặc dù sau đó nó gần như chắc
chắn phải được chỉnh sửa bằng tay.
160
Định dạng cây
Những file cây tạo ra được viết như biểu thức Lisp vì cho đến nay đây là phương
pháp bên ngoài đơn giản nhất để mô tả (biểu diễn) cây. Cú pháp của 1 cây là:
TREE ::= LEAF | QUESTION-NODE
QUESTION-NODE ::= "(" QUESTION YES-NODE NO-NODE
")"
YES-NODE ::= TREE
NO-NODE ::= TREE
QUESTION ::= "(" FEATURENAME "is" VALUE ")" |
"(" FEATURENAME "=" FLOAT ")" |
"(" FEATURENAME "<" FLOAT ")" |
"(" FEATURENAME ">" FLOAT ")" |
"(" FEATURENAME "matches" REGEX ")" |
"(" FEATURENAME "in" "(" VALUE0 VALUE1 ... ")"
")"
LEAF ::= "(" STDDEV MEAN ")" |
"(" "(" VALUE0 PROB0 ")" "(" VALUE1 PROB1 ")" ...
MOSTPROBVAL ")" |
any other lisp s-expression
Lưu ý rằng không phải tất cả các dạng câu hỏi được tạo ra bởi Wagon nhưng
chúng được hỗ trợ bởi các bộ biên dịch
Các nút lá khác nhau tùy thuộc vào kiểu của cây. Đối với các biến cố liên tục (cây
hồi quy), lá bao gồm một cặp các floats, stddev và giá trị trung bình. Đối với các biến
cố rời rạc (cây phân loại) thì các lá là một hàm mật đồ xác suất cho các thành viên của
lớp. Và thành viên cuối cùng của danh sách là giá trị có thể xảy ra nhất. Lưu ý rằng
trong cả hai trường hợp giá trị cuối cùng của danh sách lá là câu trả lời mong muốn
trong nhiều trường hợp.
161
1.3. Xây dựng cây
Để xây dựng một cây quyết định (hoặc danh sách quyết định) Wagon yêu cầu dữ
liệu và mô tả của dữ liệu ấy. Một file dữ liệu bao gồm một tập các mẫu (hay tập các
vectơ), mỗi dòng bao gồm cùng một tập tính năng. Các tính năng có thể xác thực hoặc
liên tục. Theo mặc định thì thuộc tính đầu tiên là biến cố và các thuộc tính khác được
sử dụng như biến độc lập. Một file dữ liệu đặc trưng như sau:
.data
0.399 pau sh 0 0 0 1 1 0 0 0 0 0 0
0.082 sh iy pau onset 0 1 0 0 1 1 0 0 1
0.074 iy hh sh coda 1 0 1 0 1 1 0 0 1
0.048 hh ae iy onset 0 1 0 1 1 1 0 1 1
0.062 ae d hh coda 1 0 0 1 1 1 0 1 1
0.020 d y ae coda 2 0 1 1 1 1 0 1 1
0.082 y ax d onset 0 1 0 1 1 1 1 1 1
0.082 ax r y coda 1 0 0 1 1 1 1 1 1
0.036 r d ax coda 2 0 1 1 1 1 1 1 1
...
Các dữ liệu có thể xuất phát từ bất kỳ nguồn nào, chẳng hạn như chương trình
dumpfeats festival cho phép dễ dàng tạo những file như vậy từ những file âm thanh.
Ngoài ra một file mô tả cũng được yêu cầu, file mô tả cung cấp tên và kiểu cho mỗi
thuộc tính trong file dữ liệu. Đối với ví dụ file dữ liệu trên thì file mô tả sẽ như sau:
162
File mô tả:
((segment_duration float)
( name aa ae ah ao aw ax ay b ch d dh dx eh el em en er ey f g hh ih
iy jh k l m n nx ng ow oy p r s sh t th uh uw v w y z zh pau )
( n.name 0 aa ae ah ao aw ax ay b ch d dh dx eh el em en er ey f g hh
ih iy jh k l m n nx ng ow oy p r s sh t th uh uw v w y z zh pau )
( p.name 0 aa ae ah ao aw ax ay b ch d dh dx eh el em en er ey f g hh
ih iy jh k l m n nx ng ow oy p r s sh t th uh uw v w y z zh pau )
(position_type 0 onset coda)
(pos_in_syl float)
(syl_initial 0 1)
(syl_final 0 1)
(R:Sylstructure.parent.R:Syllable.p.syl_break float)
(R:Sylstructure.parent.syl_break float)
(R:Sylstructure.parent.R:Syllable.n.syl_break float)
(R:Sylstructure.parent.R:Syllable.p.stress 0 1)
(R:Sylstructure.parent.stress 0 1)
(R:Sylstructure.parent.R:Syllable.n.stress 0 1))
Tên các thuộc tính này là tùy ý, nhưng khi chúng xuất hiện trong cây được sinh ra
thì sẽ rất hữu ích nhất nếu cây có xu hướng được sử dụng trong việc dự báo cách thể
hiện tên ,và đường dẫn.
Cũng có thể đưa ra một tập dữ liệu kiểm thử nhưng phải phù hợp với mô tả dữ liệu đã
cho. Nếu lý thuyết cây xây dựng được kiểm thử được kiểm thử trên tập dữ liệu kiểm
thử và kết quả sẽ được hiển thị khi hoàn thành, nếu không có tập kiểm thử thì kết quả
đưa ra liên quan đến dữ liệu huấn luyện. Tuy nhiên trong trường hợp bậc thang, tập thử
nghiệm được sử dụng trong quá trình huấn luyện đa cấp, do đó nó không được coi là
163
dữ liệu kiểm thử đúng và các kết quả hợp lý hơn nên được tìm thấy bằng việc áp dụng
các cây sinh ra để đưa ra dữ liệu thực sự (thông qua chương trình wagon_test)[80]
2. Phân loại âm vị tiếng Việt
Âm đầu
Là yếu tố mở đầu âm tiết. Trong tiếng Việt có 21 phụ âm. Phụ âm mang tính độc
lập do không tham gia vào việc thay đổi về trường độ giữa các yếu tố bên trong âm tiết.
Phân loại
Phân chia theo phương thức cấu tạo tiếng ồn
- Phụ âm tắc: tạo thành khi hai khí quản tiếp xúc nhau, tạo thành chỗ tắc, cản trở
hoàn toàn lối ra của luồng không khí. Ví dụ như các phụ âm [p], [b], [d], [t].
- Phụ âm xát: tạo thành khi hai khí quản nhích lại gần nhau, làm cho lối ra của luồng
không khí bị thu hẹp; luồng không khí đi qua khe hẹp này cọ xát vào thành của bộ
máy phát âm. Ví dụ, các phụ âm [v], [s], [h].
- Phụ âm rung: tạo thành khi các khí quản dễ rung động (như đầu lưỡi, lưỡi con hay
môi) nhích lại gần nhau tạo thành một khe hở rất hẹp hay một chỗ tắc yếu, luồng
không khí đi ra mạnh làm cho các khí quản ấy rung lên. Ví dụ phụ âm [r].
Phân chia theo vị trí tạo ra tiếng ồn
Theo vị trí cấu tạo tiếng ồn, các phụ âm được chia ra thành các loại chính: phụ âm
môi, răng, ngạc mạc, lưỡi con, yết hầu, thanh hầu.
Theo khí quản chủ động, các phụ âm được chia thành các loại: phụ âm môi, lưỡi
trước, lưỡi giữa, lưỡi sau, lưỡi con, yết hầu, thanh hầu.
Phần vần
Theo như lược đồ âm tiếng Việt ở trên th́ phần vần đầy đủ gồm ba thành phần là
âm đệm, âm chính, và âm cuối.
Âm đệm
Đóng vai trò là âm lướt trong kết cấu âm tiết. Âm đệm ảnh hưởng đến cách mở
đầu của âm tiết (bên cạnh phụ âm đầu). Ví dụ: chữ ”toàn” khi phát âm có hiện tượng
164
tròn môi do tác động của âm đệm/-u-/, còn chữ ”tàn” thì không có hiện tượng tròn môi
do không có âm đệm.
Âm đệm /w/ có chức năng làm trầm hoá âm sắc của âm tiết. Âm đệm là yếu tố
đứng ở vị trí thứ hai, sau âm đầu. Nó tạo nên sự đối lập tròn môi (voan) và không tròn
môi (van). Trong tiếng Việt, âm đệm được miêu tả gồm âm vị bán nguyên âm /u/ (xem
Bảng âm vị nguyên âm) và âm vị "zero" (âm vị trống). Âm đệm "zero" có thể tồn tại
cùng tất cả các âm đầu, không có ngoại lệ. Âm đệm /u/ không được phân bố trong
trường hợp sau:
Âm chính
Là nguyên âm âm tiết tính trong âm tiết. Âm tiết chính có thể là một nguyên âm
đơn hay nguyên âm đôi.
Âm chính đứng ở vị trí thứ ba trong âm tiết, là hạt nhân, là đỉnh của âm tiết, nó
mang âm sắc chủ yếu của âm tiết. Âm chính trong tiếng Việt do nguyên âm đảm
nhiệm. Nguyên âm của tiếng Việt chỉ có chức năng làm âm chính và nó không bao giờ
vắng mặt trong âm tiết. Vì mang âm sắc chủ yếu của âm tiết nên âm chính là âm mang
thanh điệu.
Có nhiều ý kiến khác nhau về số lượng âm chính trong tiếng Việt. Nhưng nhìn
chung ý kiến cho rằng tiếng Việt có 16 nguyên âm chính (gồm 3 nguyên âm đôi, 13
nguyên âm đơn, trong đó có 9 nguyên âm đơn dài và 4 nguyên âm đơn ngắn) là có cơ
sở. Sau đây là hệ thống nguyên âm chính (xem thêm Bảng âm vị nguyên âm):
Âm chính gồm một hệ thống nguyên âm gồm 11 nguyên âm đơn /a, ă, â, e, ê, o, ô,
ơ, u, ư, i/ và ba nguyên âm đôi /iê, ươ, ưa/. Âm chính là yếu tố tạo nên đỉnh âm thanh,
có biên độ và cường độ lớn nhất trong các thành phần âm tiết.
Phân loại
Các nguyên âm không thể phân chia theo tiêu chuẩn như của phụ âm. Về mặt
phương thức cấu âm, nguyên âm chỉ thuộc vào một phương thức đó là luồng hơi ra tự
do. Nguyên âm không có vị trí cấu âm v́ các khí quản không tạo thành khe, cũng không
165
tạo thành chỗ tắc. Các nguyên âm cũng không thể phân loại theo tiếng thanh, v́ b́ nh
thường, bất kỳ nguyên âm nào cũng có tiếng thanh.
Các nguyên âm chỉ khác nhau ở các hoạt động của khí quản phát âm, trong đó
quan trọng nhất là lưỡi. Vì sự thay đổi vị trí của lưỡi gây ra sự khác nhau rất lớn giữa
các nguyên âm. Lưỡi chuyển động tới-lui và lên xuống trong khoang miệng và tạo nên
những tương quan phức tạp giữa các khoang cộng minh (khoang miệng và mũi), làm
thay đổi hình dáng và thể tích của chúng. Môi tròn lại và đưa về trước, làm kéo dài lối
thoát của luồng không khí, hoặc môi chành ra, làm cộng minh trường phía trước ngắn
lại.
Người ta thường phân loại nguyên âm theo vị trí của lưỡi, độ nâng của lưỡi và
hình dáng môi
Theo vị trí của lưỡi
Gồm các nguyên âm dòng trước (khi lưỡi dồn về trước), nguyên âm dòng sau (khi
lưỡi dồn về sau) và nguyên âm dòng giữa (khi lưỡi ở giữa miệng nâng lên). Ví dụ,
trong tiếng Việt, các nguyên âm dòng trước là [i], [e], [ê], nguyên âm dòng sau là [u],
[o], [ô], nguyên âm dòng giữa là [ư], [ơ], [].
Bảng 5. 1. Phân chia nguyên âm tiếng Việt theo độ nâng của lưỡi (Độ nâng của lưỡi
tương ứng với độ mở của miệng).
Ðộ nâng Gồm các nguyên âm
Hẹp [i], [u], …
Hơi hẹp [ê], [u], …
Hơi rộng [o], [e], …
Rộng [], [], …
Theo hình dáng môi
Các nguyên âm được chia thành nguyên âm tròn môi ([u], [ô], [o]), nguyên âm
không tròn môi ([i], [ê], [e], [ư], [ơ], []). Sự tròn môi rõ nhất ở nguyên âm khép và yếu
nhất ở nguyên âm mở.
166
Âm cuối
Là âm kết thúc âm tiết. Các âm tiết tiếng Việt thường đối lập bằng những cách kết
thúc khác nhau. Một số âm tiết kết thúc bằng sự kéo dài và giữ nguyên, ví dụ: má, đi,
cho, ... Số âm tiết khác kết thúc bằng cách biến đổi âm sắc của âm tiết ở phần cuối do
sự đóng lại của các âm cuối tham gia, ví dụ như một, mai, vàng, ... Trong trường hợp
đầu, ta có các âm cuối là âm vị /zero/, trong trường hợp sau ta có các âm cuối là những
âm vị bán nguyên âm hoặc phụ âm.
Âm cuối có vị trí cuối cùng của âm tiết, nó có chức năng kết thúc một âm tiết. Do
vậy khi có mặt của âm cuối thì âm tiết không có khả năng kết hợp thêm với âm (âm vị)
nào khác ở phần sau của nó. Ví dụ: trong "cúi", thì "i" là âm cuối kết thúc âm tiết nên
sau nó không thêm gì cho âm tiết lại. Trái lại, trong "quý", do "y" không phải là âm
cuối vì có thể thêm vào sau nó một âm cuối như "t" trong "quýt", "nh" trong "quýnh",
v.v. Những âm tiết còn có khả năng thêm vào âm cuối như "quý" ở trên, trong thực tế
vẫn được kết thúc như một âm tiết hoàn chỉnh. Bởi vì ở vị trí cuối (vị trí kết thúc âm
tiết) lúc ấy có mặt một âm cuối, được gọi là âm cuối zero đối lập với tất cả các âm cuối
khác.
Âm cuối là bán nguyên âm /u/ (ngắn) có âm sắc trầm chỉ được phân bố sau các
nguyên âm bổng và trung hoà, trừ nguyên âm "ơ" ngắn, ví dụ trong níu, áo, bêu diếu,
cầu cứu... Bán nguyên âm cuối /i/ (ngắn) có âm sắc bổng chỉ được phân bố sau các
nguyên âm trầm và trung hoà, ví dụ trong tôi, chơi, túi, gửi, lấy...
Âm cuối zero là một âm vị trống nên không được biểu thị bằng chữ viết. Nó
đối lập với 6 âm cuối ở bảng trên, giống như âm đệm zero đối lập với âm đệm /u/, âm
tắc thanh hầu /?/ đối lập với các phụ âm khác trong hệ thống các phụ âm đầu.
Hệ thống âm cuối tiếng Việt bao gồm hai bán nguyên âm là /i, o/ và sáu phụ âm
/m, n, ng (nh), p, t, c/.
167
Bảng 5. 2. Bảng phiên âm tiếng Việt
Ví dụ phiên âm
Âm vị
IPA Phiên
Con chữ Ví dụ
âm
ASCII
b 1 b buồn bã buonz ba
2 dd đ đẫy đà ddaaiz dda
3 t t tan tác tanz, tacz
4 th th thơm tho thowmz tho
5 tr tr trục trặc trucz, trawcz
6 ch ch chuồn chuonz
7 k k (đứng trước i, ê, e, iê) kiêu kỳ, keo kieuz ki, keuz kietz
kiệt
8 k c (đứng trước u, o, a, ) cầu cạnh, caauz ceangz,
cuốc cuoocz
9 k q (luôn luôn đứng trước âm đệm quây quần, kwaaiz kwaanz,
u
ầ
đ
m
Â
/u/) quốc, quyết, kwoocz, kwietz,
quắc mắt kwawcz mawtz
10 m m mượt mà muwowtz ma
11 n n no nê no nee
12 nh nh nhanh nheangz
13 p p Pà, páo,pả pa, pauz, pa
14 ng ngh (đứng trước i, ê, e, iê) nghi, nghê ngi, ngee
15 ng ng ngủ ngày ngu, ngawiz
16 ph ph phất phới phaatz phowiz
17 v v vội vã vooiz va
18 x x xa xôi xa xooiz
19 d d dễ đãi dee daiz
168
gi giỏi giang doiz dangz 20 d
g gì, giữ gìn gi i, duw giinz 21 gi
l long lanh longz leangz 22 l
s sớm sủa sowmz suo 23 s
r ra ruộng ra ruongz 24 r
kh không khí khoongz khi 25 kh
gh (đứng trước i, e, ê) ghế, ghi gee, gi 26 g
g gà ga 27 g
h hối hả hooiz ha 28 h
o (đứng trước a, ă, e), u (đứng hoa hoè, huy, hwa hwe, hwi, 29 w
(âm trước i, ê, ơ, â) tuần, phuy, twaanz, phwi,
đệm) u luôn luôn đứng sau phụ âm q quân, quy, kwaanz, kwi,
quốc, quyết, kwoocz, kwietz,
tuyệt, thuật twietz, thwaatz
30 i i, y tinh tích, ty, tingz ticz, ti, ki
kỹ
ê ênh ếch ttheengz ttheecz 31 ee
e nghe, ve nge, ve 32 e
33 ea a (trước ch, nh ) sách, xanh seacz, xeangz
u súng, vui sungz, vuiz 34 u
ô ô tô tthoo, too 35 oo
o cỏn con conz conz 36 o
37 oa o (trước c, ng) vòng, voangz, toacz,
tóc,ròng rọc roangz, roacz
h
n
í
h
c
m
Â
38 ooo oo (trước ng, c) xoong, xooongz, mooocz,
(phiên âm ooo để phân biệt với moóc, loong looongz, tooongz
ô) toong
169
39 uw lừ đừ luw dduw ư
40 ow lơ mơ low mow ơ
41 aa ân cần tthaanz caanz â
42 a lan can,lại lanz canz, laiz a
43 aw ă, a (trước au, ay) ăn năn, lau tthawnz nawnz,
tay lawuz tawiz
44 ie ia (khi trước không có âm đệm kia, thìa, bia kie, thie, bie
và sau không có âm cuối)
45 ie ya (khi trước có âm đệm khuya khwie
46 ie iê (khi trước không có âm đệm tiên tiến tienz tienz
và sau có âm cuối)
47 ie yê (khi trước có âm đệm, âm tắc yêu, uyển tthieuz, tthwienz,
thanh hầu hoặc sau nó có âm chuyển, yếm, chwienz, tthiemz,
cuối là bán nguyên âm) yến tthienz
48 uo ua (khi sau không có âm cuối) mua, vua muo, vuo, chuo
chúa
49 uo uô (khi sau có âm cuối) muộn, tuồn, muonz, tuonz,
cuốc cuocz
ưa (không có âm cuối) mưa, vừa muwow, vuwow 50 uwow
51 uwow ươ (khi có âm cuối) ương bướng tthuwowngz
buwowngz
chập chaapz 52 pz p
cắt kawtz 53 tz t
i
ố
u
c
m
Â
đom đóm ddomz ddomz 54 mz m
màn, sơn manz, sownz 55 nz n
170
thích, sạch thicz, seacz 56 cz ch (đứng sau i, ê, ɛ̆)
c (còn lại) được,việc dduwowcz, vieecz 57 cz
nh (đứng sau i,e, á,a) mình, ánh mingz, eangz, 58 ngz
nhanh nheangz 59 ngz
ng (còn lại) vùng,vằng vungz, vawngz
60
u (còn lại, đứng sau a, e) bao gạo, mèo bauz, gauz, meuz,
uz kêu, cheo keeuz, cheuz leuz,
leo, lêu leeuz ngeeuz,
nghêu, đau ddawuz ddawuz,
đáu, hữu, huwuz, suwuz,
sửu, thành theangz tuwuz
tựu
i mây bay, maaiz beaiz, noiz, 61 iz
nói, rồi, cái rooiz, kaiz tuiz
túi
62 tth Âm tắc thanh hầu đứng trước ăn, yếu, ở, tthawnz, tthieuz,
những âm tiết không có phụ âm âm, ân, uy, ý tthow, tthaamz,
đầu (thực chất là các âm tiết ko tthaanz, tthwi, tthi
có phụ âm đầu)
g
n
ó
đ
m
Â
Không sử dụng
171
3. Cơ sở dữ liệu ngữ âm
ngoài sân đình đám a Lừng a Tía mang lá đa ra chơi đồ hàng 1.
sáng sớm dân làng gọi nhau í a í ới đi làm 2.
chị đã trả rẻ lại còn kề cà không muốn mua 3.
lũ trẻ bắt được cà ra đem bán lấy tiền mua sách 4.
tan học chúng còn la cà chưa đứa nào muốn về nhà ăn cơm 5.
ngày rằm ả Thị Mầu đem lễ lên chùa trêu ghẹo chú tiểu 6.
trong nhà bác cả rất bực tức khi nghe tin cô út có mang 7.
sáng nào cũng vậy ba bà lại rủ nhau đi thể dục buổi sáng 8.
bác đã bôn ba khắp nơi để tìm đường cứu nước 9.
người nước ngoài thường nói phong ba bão táp không bằng ngữ pháp việt nam 10.
nhảy qua điệu rum – ba đến điệu cha cha cha nó vňng tay qua eo cô kéo lại gần 11.
sáng nào bố cũng đi tập I ô ga cùng các cụ 12.
bụng bảo dạ nó không thích người lạ xen vào 13.
bác sĩ nói phải xạ trị mới chữa được bệnh ung thư 14.
15. mùa hè Nga rất thích gội đầu nước sả cho thơm tóc
ở nhà này hắn chỉ được cái ba hoa chích chòe thôi 16.
sáng mai khoa toán kiểm tra 15 phút môn hóa đấy 17.
hôm qua, họa hoằn em mới nhìn thấy chồng chị đi mua hoa về cắm 18.
chị thốt lên ngạc nhiên ô thế hóa ra Hoa là người đưa ra lời hòa hoãn à 19.
ngoài cổng cái loa phóng thanh phường hôm nào cũng loa loa điếc cả tai 20.
cảnh mẹ góa con côi khổ lắm chị ạ 21.
bà chúa oa rất thích hoa trắng và người có khoa nói 22.
nó khóc òa lên khi nghe anh dọa đưa ra tòa 23.
nó hỏng rồi, hóa ra cái khóa ấy không dùng được à 24.
25. mua được một cái đèn dầu hỏa là đã thỏa lòng mong ước
26. cả làng nói chị Hoa là đĩ thõa như thế thì ai thèm lấy
172
anh mà cứ đọa đầy nó thế sẽ mang họa vào thân 27.
còn hai tháng nữa là khóa học kết thúc chị có dự định gì chưa 28.
29. một tai họa đổ xuống đầu anh chị khi vội vượt qua toa tàu hỏa lúc xe chết máy
30. phải tính chính xác tọa độ cho máy bay hạ cánh an toàn
31. học sinh mang hai đóa hoa tặng cô giáo nhân ngày nhà giáo
32. nhìn thấy tiền nó lóa mắt mà nói lời chua ngoa không ai nghe được
33. ai cũng biết vua ngọa triều ăn chơi sa đọa đến nỗi không ngồi được
34. con dâu bà đang tác oai tác quái ngoài đồng kia kìa
35. các anh cứ mặc xác nó không tôi lại mang tiếng ác với hàng xóm
36. khẩu phần phải chia chác cho đều không các bạn tranh nhau
37. nhiều làng mạc bị thiêu rụi sau một trận bom oanh tạc của giặc
38. các sếp ác quá, khác ý các quan trên liền bị tố giác ngay
39. anh ấy đã học xong thạc sĩ ngành đo đạc thủy văn
40. nói cho cùng có khác đâu chỉ như con vạc mà thôi
41. nỗi buồn man mác của một người con xa tổ quốc
42. mắt con tôi bị lác bác sĩ khám giùm cho nó
43. từ lâu thác I a ly vốn là điểm du lịch nổi tiếng
44. Anh bị ngộ độc vì ăn phải lạc mốc để lâu
45. Thằng bé cũng chạc tuổi con trai bác thôi
46. Vịt con đói quá kêu cạc cạc đòi ăn
47. tiếng lá rơi xào xạc làm chị nhớ đến các con
48. Bà ta vốn là người nói khoác nổi tiếng nhất cái làng này
49. căn nhà trống hơ trống hoác chẳng có lấy một món đồ có giá trị
50. mày cứ quang quác cái mồm thế thì làm sao lấy được chồng
51. thôi nói toạc ra đi dấu mãi cũng không được nữa rồi
52. nín được vài giây thằng bé lại ngoạc mồm ra khóc
53. học loạc choạc như mày thì đỗ đại học làm sao được
54. nó chỉ được cái ba tếch ba toác thế thôi chứ cũng tốt tính lắm
173
anh cố khoạc cái xương ra khỏi cổ đi 55.
đi tập thể dục người ta bắt xoạc cẳng đau hết cả đùi 56.
xé mạnh quá cái áo rách toạc rộng hoác 57.
chiếc áo khoác bị rách toạc ra 58.
hậu vệ xoạc dữ quá nên vết thương bị ngoác ra 59.
anh gọi vợ dậy sau khi nghe tiếng lạch cạch ngoài cửa 60.
61. Bọn trẻ rất thích ăn thạch rau câu
tục ngữ có câu đói cho sạch rách cho thơm 62.
họ là khách dưới ách thống trị của chính sách phân biệt chủng tộc lại trở nên 63.
hách dịch
chị ì à ì ạch lạch bạch chạy đến nơi thì hết sạch gạo bán rồi 64.
nhà tôi ở ngách 29 ngõ 310 mà suốt ngày nghe tiếng lạch cạch của xe đổ rác 65.
gần đây các sách giáo khoa lịch sử có rất nhiều sai sót 66.
ngày mai tôi bận tiếp khách rồi hẹn anh khi khác nhé 67.
con vẹt nói liên hồi có khách có khách 68.
chị mua cá chạch phải ngâm muối cho sạch nhớt ăn mới đỡ tanh 69.
thời gian này nó tự tách ra khỏi đội và thách thức đội khách thắng trong 5 phút 70.
71. mặc bộ com lê đeo cà vạt trông ông rất oách
thằng bé mới chập chững biết đi nên ngã xoành xoạch trên sân nền gạch 72.
chạy trên sân tập bọn trẻ ngã oành oạch mà không thấy đau 73.
bát canh rau đỏ quạch mà nó ăn ngon lành 74.
75. mặt trời đỏ quạch khuất dần sau dãy núi
nhà anh đi mua quách đi ông ấy sắp chết rồi 76.
chồng nghiện ngập thế thì bỏ quách đi cho đỡ khổ 77.
suốt ngày ngồi nhậu lai rai chẳng biết đến ngày mai sẽ làm gì 78.
những anh con trai đủ mười tám tuổi phải lên đường nhập ngũ 79.
khuôn mặt tai tái của chị làm bà sinh nghi chị đang có thai 80.
con chim rái cá sà xuống mặt nước quắp được hai con cá 81.
174
82. chị rầm mưa rãi nắng cả ngày mà không kiếm đủ tiền nuôi hai con gái
83. lần trong hòm lấy ra dải lụa đã phai màu nhưng chị vẫn phải mang bán
84. chị vẫn mải mê và từng trải trong sự nghiệp đến lúc chị đã ngoài 40 mà chưa có
chồng
85. ngoài đồng trên bãi đất trống bọn trẻ đang mải mê thả diều
86. mọi người đồng thanh nói đúng là tại anh tại ả tại cả đôi đường
87. trời mưa rồi thật tai hại chúng mình phải cắm trại ở tại đây thôi
88. tất cả sư sãi phải ở lại trong chùa làm khổ sai cho bọn giặc
89. nhiều người sắm điện thoại đẹp cho oai chứ chưa chắc đã có tiền
90. trai làng đi làm ăn xa hết, đám choai choai cũng rủ nhau đi chẳng đứa nào chịu ở
nhà trồng khoai trồng sắn
91. phở là món ăn khoái khẩu của chị
92. nhiều người ở ngoài hà nội rất thích ăn xoài miền nam
93. anh đừng đoái hoài đến chị ta, có gì khoái đâu gái ba con rồi
94. bác sĩ khám nó kêu oai oái nghe mà oải quá
95. đi cả ngày bải hoải cả người rồi, làm không được thoải mái nữa
96. tập môn này phải choãi rộng chân ra mới đúng kỹ thuật
97. mua điện thoại loại này khó giữ lắm
98. tối đến nghe tiếng rao mua khoai chị không nguôi ngoai nỗi nhớ các con ở quê
nhà
99. thời tiết mấy hôm nay nóng nực làm người ta dễ oải chẳng muốn làm việc
100. nấu canh hến phải loại bỏ những con hỏng ra không canh mất ngon
101. vết thương của chị bắt đầu hoại tử trông gớm chết
102. nó nghe vậy thoái thác không đi nhưng dốc thoai thoải rất dễ đi
103. anh cứ ăn thoải mái tôi mua nhiều lắm
104. nó chuẩn bị soãi mấy cái chân cọc để cắm trại
105. anh phải choãi rộng ra mới chắc chắn
106. ra biển bắt con sam về đem rửa sạch nấu rất ngon
175
107. Hôm qua đẹp ngày trong làng chạm ngõ rất đông
108. Bức phù điêu chạm trổ được nhiều người khen
109. giám đốc nói trong lúc làm việc không được buôn chuyện
110. nhiều rừng chàm đước sắp bị hủy diệt
111. Dân tộc chàm đang được học tiếng Việt
112. Hắn định dở trò sàm sỡ khi thấy chị đi ngang qua bờ đê
113. Mẹ cô đã ngam ngám mấy đám trong làng cho cô
114. chỉ vì lòng tham, hám của hắn đánh mất cả con
115. Lòng tham vô đáy hám của Lý Thông đã lừa thạch sanh
116. gặp người đàn ông hôm ấy chị thầm hàm ơn đã cứu giúp chị trong đêm tối
117. làm công việc nghiên cứu phải làm việc chăm chỉ
118. Con chó càm cái quần của trẻ con vào bếp
119. Lợn ốm nên chê cám mấy ngày nay rồi
120. bấy lâu chị sám hối nhưng đã muộn quá rồi
121. Mùi hôi hám những chiếc chăn lâu không giặt
122. Lúc sáng tám chàng khiêng con lợn
123. Lượng lậu cũng tàm tạm nhưng không đủ nuôi con
124. Bộ bài tam cúc đã bán rồi vợ không cho chơi nữa
125. trong buồng cô Sam đang sắm sửa quần áo chuẩn bị đi chơi
126. Anh nói thế là có hàm ý gì vậy
127. Gắn thêm hạt vào đế làm dép đẹp hơn
128. Mẹ đi chợ ế cám dong duổi mang về
129. chị có nước da sạm đen giúp nó khỏe
130. nếu chị mua đúng gạo tám xoan nấu rất thơm
131. Mua ngao tám mươi nghìn một cân
132. Bị tai nạn người nó vốn vạm vỡ những vẫn xám ngoét
133. Cơn mưa xám xịt đằng đông
134. Quả trám nấu cá rất ngon
176
135. Mùa trám đi hái trám chín về ăn
136. Các ông già tam bảo đánh tam cúc, nó đi hãm ấm chè mới
137. Nghề trạm khắc đòi hỏi phải khéo tay
138. Hôm qua công an tạm giam tám tên trộm
139. Tiếng cô gào làm khắp xóm thức giấc
140. Vì tham lam quá người anh bị rơi xuống biển
141. Vợ chồng làm ăn lam lũ chẳng kiếm được mấy đồng
142. Gặp người quen trông lịch lãm làm anh bối rối
143. ăn nhồm nhoàm vội bữa cơm anh lại vội đi làm ngay
144. con mèo ngoàm con chuột vào gầm giường
145. đói quá nó ngoạm một miếng thịt rất to
146. con chó ngoạm một miếng thật to rồi chạy
147. chữ viết nguệch ngoạc thế thì chỉ được một điểm thôi
148. râu ria quai nón của anh xồm xoàm làm đứa trẻ sợ hãi
149. chưa hoàm hồn anh kể lại vụ đắm tàu cho mọi người nghe
đứng trên lan can người yêu anh giơ tay vẫy
150. khan hiếm nước càng phải giữ an toàn khi xúc than
151. muốn an nhàn với đàn ngan thì tìm cách hàn cái chậu han đi
152. khán giả chán quá kiện lên tòa án rằng ở nhà hát bán vé lậu
153. đơn giản là hát khản cổ mà chẳng ai nghe
154. tên cướp mãn hạn tù hung hãn đe dọa tại khu giãn dân
155. sông rất cạn nước ở mạn đầu nguồn đã gây hạn hán
156. vụ án mạng trên đường vẫn chưa tìm ra thủ phạm
157. trẻ em 2 tuổi phải uống thuốc tẩy giun sán
158. cán bộ phải làm gương cho người dân
159. từ trong lán anh công nhân san lấp mặt bằng đi ra
160. cầm can rượu anh trèo lên lan can tường nhà uống cạn
161. khai thác san hô để bán là nghề mà nhiều ngư dân t́m đến
177
162. mùa mưa là mùa sinh sản của muỗi
163. ngăn cản mãi không được cô gái nhảy xuống sông tự vẫn
164. ăn cơm chan canh mà vẫn nhặt được mấy hột sạn
165. hãn hữu lắm tôi mới nghĩ nông cạn thế
166. sắp đến mùa nhãn, mùa vải ong bướm tha hồ ve vãn
167. cười mãn nguyện người cha thơm vào trán con trai mới sinh
168. thời kì mãn kinh là thời kì gây ra nhiều khó chịu cho phụ nữ
169. bài toán cô giáo cho khó quá nó không giải được
170. trước đám cháy toàn một màu đen kịt
171. thuốc cải tử hoàn sinh đã được con người kiếm tìm từ hàng nghìn năm nay rồi
172. trần quốc toản là một vị tướng trẻ dũng cảm
173. sao bữa ăn đạm bạc thế toàn rau là rau
174. tôi hoàn toàn không biết chuyện gì đã xảy ra
175. đeo dây chuyền vàng có gắn hột xoàn trông rất đẹp
176. em ấy đã từng thi đỗ kì thi toán quốc tế
177. hoán dụ là một định nghĩa khó giải thích cho học sinh
178. chuyến bay bị hoãn do thời tiết xấu
179. phải có noãn mới sinh sản được
180. sau bao toan tính anh ấy đã phải chịu án oan suốt bao nhiêu năm
181. oan gì mà oan có mà oan thị mầu thì có
182. oan lắm con ngoan thật mà
183. hoàn toàn phụ thuộc vào sự đoàn kết nội bộ
184. đừng giữ oán hận trong lòng
185. với môn toán không học khoán được đâu
186. lên chùa hay được ăn oản
187. khoản ấy nó tuyệt ra trò
188. bàn thắng thật ngoạn mục
189. giếng khoan phải khoan sâu mới có nhiều nước
178
190. sửa soạn đi sắp đến giờ đón dâu rồi
191. chị thiết đãi khách một bữa cơm thịnh soạn
192. thời kì loạn lạc có người tốt như thế là hiếm lắm
193. đi chùa bà nhớ mang nhiều oản cho cháu nhé
194. làm ngân hàng có nhiều khoản thu ngoài lương chính
195. sang sông con sáo sổ lồng bay xa
196. đường kẻ ngang sang bên phải đang chạy thẳng lại bị nghiêng đi
197. hàng tháng vào các buổi sáng đi mua bánh tráng
198. ở kia có một bảng đen nằm trên trảng cỏ
199. trông nó cứ như yến tử lãng thanh
200. mầu rơm vàng óng ả
201. người của từng làng phải xếp vào thành hàng
202. chàng tráng sĩ với áng thơ nổi tiếng
203. mới sáng ra đã có người đến đòi tiền
204. mới tang tảng sáng đã có nhiều người đi tập thể dục đầy đường
205. ông lão đã ngoài tám mươi tuổi nhưng giọng vẫn còn sang sảng
206. hỏi chuyện học hành thế nào nhưng nó vội lảng sang chuyện khác
207. trời chạng vạng tối hai anh em đã rủ nhau đi đánh dậm
208. lúc đó tôi ngất đi chỉ mang máng nhớ có người gọi điện
209. nhiều hãng di động tung ra nhiều chiêu khuyến mại mới
210. anh chàng ấy lãng tử lại đẹp trai nên được nhiều cô gái thích
211. phải sàng lọc mới mong tìm được nhân tài
212. mày cứ láng cháng không chịu làm việc là tao nện cho đấy
213. đừng hoang tưởng, mày huênh hoang quá đấy nhóc ạ
214. bà ta có một ngôi nhà nhỏ tuềnh toàng gần ga
215. khuềnh khoàng vừa vừa thôi chứ
216. tay cầm chai rượu nó khệnh khoạng bước vào quán
217. tiếng gọi oang oang giữa rừng hoang
179
218. trong quang cảnh ảm đạm ấy, chị quáng quàng tìm đường về
219. tiếng súng nổ ùng oàng làm các con vật bàng hoàng
220. làm những người đàng hoàng
221. đều đã trở thành loàng xoàng
222. thoáng thấy ánh kim loại sáng loáng
223. phải tìm nước uống nước khoáng
224. một tiếng kêu xoảng trong gió thoảng
225. qua làm người nghe phát hoảng
226. con hoẵng loạng choạng
227. lúc ốm mẹ tôi chỉ thích ăn cháo loãng
228. trời nhập nhoạng tối, anh mới dắt con trâu vào chuồng
229. anh thanh niên mặc manh áo màu xanh giống như mầu của lá chanh
230. đành vậy thơ dành riêng cho em cô con gái nhà lành
231. chứ không phải hành tỏi với ánh mắt như đánh giặc
232. lại một gánh nặng trên vai tránh làm sao được ánh mắt lạnh lùng của thiên hạ
233. tặng em bức ảnh của người anh hùng hào kiệt
234. tuy nó mảnh khảnh nhưng rất rảnh rỗi và đẹp trai lắm
235. lãnh đạo rất hãnh diện với thành tích của viện
236. đi cạnh anh tưởng mạnh lắm hóa ra lại rất lạnh lùng
237. trời hanh hảnh rồi mang thóc ra phơi thôi
238. đừng đành hanh thế cô nàng đỏng đảnh ạ
239. con chim oanh còn mới toanh
240. đùng đoành súng nổ giặc mỹ hoành hành
241. oánh nhau đi tiếng hô đặc quánh lại
242. mắt nó ráo hoảnh ngoảnh đầu quay đi
243. hoãnh thì bỏ đi thôi chỉ được cái hoạnh họe là giỏi
244. đừng oánh nhau nữa công an đến lại hoạnh tiền bây giờ
245. kế hoạch cứ thay đổi xoành xoạch biết đường nào mà lần
180
246. bức hoành phi đang được hoàn thiện
247. chiếc xe toành toạch đã theo anh suốt chặng đường
248. ào ào mưa rào đổ xuống bờ ao phải trèo lên cao mới không bị ướt
249. tiếng lá lao xao nhớ cồn cào những kỷ niệm học trò
250. nó rảo bước trên con đường dài đá kêu lạo xạo
251. tại sao cái ao trước cửa lại lao đao
252. bom đạn quân thù ào ào gào thét
253. cả trung đội cào đất làm hàng rào và đào hào trú ẩn
254. chúng nó kháo nhau cái áo rét của mày
255. bố láo lắm con cáo táo bạo thật
256. mày nói xạo nó đâu có đỗ
257. nạo đu đủ đi để làm nộm
258. ông lão lần từng bước lên cầu thang
259. chạy như tào tháo đuổi
260. thảo nào mày chỉ ảo tưởng hão huyền
261. mà chưa bị khảo đã thưa
262. mão là năm con mèo, phải dùng dây chão cột chặt nó lại
263. thạo đời quá nhỉ các cụ vẫn nói mạnh vì gạo bạo vì tiền không sai
264. lão hạc thương con chó lắm những chẳng biết làm sao
265. con sáo của tao sổ lồng bay cao đang chao liệng nhìn xuống kìa
266. dạo trước tao hay gặp nó trao đổi bài bảo ban nhau nhưng bây giờ thôi rồi
267. anh có cháo gì, cháo trai hay cháo sườn
268. nhão như dây chão thế này thì tham gia thi đấu thế nào được
269. quán chuyên bán đồ xào, mực xào, tim xào, rau xào
270. đừng có ảo tưởng hão huyền nữa nó bảo sao nghe vậy à
271. mày đừng nói láo con báo đã đi rồi
272. chơi pháo rất nguy hiểm bao nhiêu trẻ em đã chết vì pháo
273. bây giờ chỉ còn pháo hoa thôi
181
274. mèo kêu ngoao ngoao đuổi bắt chú chuột nhỏ
275. bọn trẻ rất sợ mỗi khi người lớn nói ngoáo ộp, ngoáo ộp
276. nhưng anh đã đáp lại, ngồi đây nói chuyện cũng mát .
277. mày đạp xe áp sát vào tháp rùa mua một ít giấy nháp
278. đi xe đạp hay sao mà đi chậm chạp thế
279. sớm hôm sau , Lựu đạp xe tới cơ quan .
280. áp bức các tộc người thiểu số
281. Đa số áp đảo thiểu số
282. trời bỗng nổi phong ba bão táp vì đang có áp thấp nhiệt đới mà
283. ngáp vừa thôi không thầy nhìn thấy bây giờ
284. cái sạp bán hàng sáp của chị hái ra tiền
285. nó rất thích ra tháp xem múa sạp
286. mưa rào vừa dứt đã có tiếng ếch kêu ộp oạp
287. oáp oạp là từ láy
288. soáp soạp, ngoáp ngoạp là những từ rất khó phát âm
289. mận này vừa chua vừa chát bán sát giá đi
290. hai đứa mang hạt dưa tạt vào quán chát ngồi xem hát
291. chí phèo mạt đời mạt kiếp nghèo khổ
292. đạn bay sát sạt trên đầu khiến anh phải cúi rạp xuống
293. một cái tát bạt tai trời giáng của chồng chị tấm tức khóc
294. em là con át chủ bài trong bài hát này nên rát họng cũng phải cố hát
295. thượng tá Vũ Sinh lạnh toát người trong một thoáng hồ nghi
296. soát bài bằng cách đọc lưu loát lại toàn bộ
297. thoạt tiên xem một bộ phim hoạt họa
298. da đỏ au dưới nắng
299. sau đây mọi người mau đến nhận trầu cau ăn hỏi của con tôi
300. nó làu bàu nói giàu quá cũng khổ
301. mắt nhìn hau háu được sáu ván liền
182
302. thằng cháu phát cáu bẳn lên
303. máu cờ bạc lại được tăng cao
304. con hàu ở dưới biển trông như con hến ở nước ngọt
305. không tìm được từ nào có vần ãu
306. đành bịa thành sãu vậy
307. ăn nhậu là từ của người miền nam
308. bây giờ người ta đang vận động con cháu đi hiến máu
309. đừng có bạu xạu là người ta cho ăn đòn đấy con ạ
310. cháu bị điểm kém sao mà mặt càu cạu cau có thế
311. bàu cát là địa danh ở cần thơ
312. nó dảu môi ra đọc làu lạu bài thơ
313. thằng bé nhai đá rau ráu không biết ghê răng
314. mày đừng có làm bộ cấm ca cấm cảu thế
315. mặt mũi quàu quạu trông đáng sợ quá
316. bị người yêu bỏ mà mặt mày quàu quạu thế hả em
317. ai cũng có hai mắt hai tai và hai bàn tay chai sạn
318. cần phải thay ngay cái máy xay này
319. máy cày chạy giữa ban ngày
320. mình áy náy quá cứ táy máy làm cháy mất cái vô tuyến
321. hết thảy mọi người đều bị ỉa chảy phải uổng bảy viên thuốc
322. chạy vạy mãi mới kiếm được một chỗ làm
323. anh thợ xây đang say đây này
324. chị ấy bị sảy thai rồi, máu đang chảy kia kìa
325. hết thảy mọi người đều tảy chay hàng tầu
326. dân tộc tày thích mang chày giã gạo
327. nó bị gãy tay hay gãy chân hả chúng mày
328. để sáng mai hãy hay cứ chạy vạy thế này mệt lắm
329. anh ta phải loay hoay mãi mới làm xong được cái máy này
183
330. không nên viết ngoáy như thế
331. mất công bà xoay xoả , làm lụng , ngong ngóng đợi chờ hai hôm nay
332. nó ngoay ngoảy bỏ đi trước sự chứng kiến của mọi người
333. dòng nước xoáy sâu vào bờ là vỡ đê
334. nó hí hoáy thế nào mà tháo được cái điện thoại ra
335. chắc không được mà họ cứ thắc mắc hoài
336. cẩn thận không chết sặc nước chè đặc lắm đấy
337. đôi mắt sắc như dao
338. sao nhà anh chị hay hục hặc thế
339. một xu một cắc cũng không vì thuốc này có mùi hắc rất khó uống
340. chẳng mắc mớ gì đến anh, chắc chắn nó sẽ đi thi hội thi sắc đẹp
341. cả bọn cười sằng sặc sau khi uống rượu tắc kè
342. bây giờ từ tặc là từ mới người ta hay nói lâm tặc, tin tặc, không tặc, hải tặc bây
giờ có cả đinh tặc
343. cái đầu con giun ngúc ngoắc trông ghê quá
344. chúng nó móc ngoặc với nhau lấy tiền của nhà nước
345. nước cống thối hoắc bắn tung tóe vào người đi đường
346. có nhiều lựa chọn hoặc thi đại học, hoặc thi cao đẳng hoặc đi học nghề
347. Ngày nào hai nhỏ cũng phải khục khặc nhau vài lần
348. mẹ dày công chăm bẵm mà nó chẳng thấy lớn
349. Trưa hè nắng gắt bọn trẻ rủ nhau đi bắt căm căm về làm mắm
350. Bà Ba xăm xắn đi trước ông bước đi sau
351. ngày ba mươi tết dân làng nô nức đi sắm tết
352. vừa về đến nhà mẹ đã giục đi tắm rồi vào ăn cơm nắm chấm muối vừng
353. khách ăn xong con phải lấy tăm cho ông chứ
354. Bác vá hộ tôi cái săm xe
355. Con trâu đẵm mình trong đầm nước giữa trưa hè nắng gắt
356. Nhà bà ấy nuôi tằm, trồng dâu nuôi tằm là nghề vất vả lắm
184
357. Nhộng tằm nấu với lá chanh ăn rất ngon
358. Nó nhìn chằm chằm vào bức ảnh
359. chăm học mà lại chơi khăm nhau bằng que tăm nhọn thế à
360. con tằm trong ngày rằm tháng giêng
361. tắm lắm thế mày không thấy mùi khăm khẳm à
362. cái giếng sâu thăm thẳm
363. nó vào nhà xin nước và ẵm luôn chiếc điện thoại rồi
364. đi vạn dặm đường không tìm được nước, nó bặm môi bực tức
365. thật oái oăm chị lại gặp anh trong ngày cưới
366. hình như có chiếc lông quặm trong mắt tôi không nhìn thấy gì cả
367. nó quặm mặt vào trông đáng sợ
368. con cò quăm đi ăn đêm kêu quằm quắm quẳm
369. hắn biết ăn năn hối hận và khăn gói lên đường đi chăn trâu
370. nỗi nhọc nhằn thuở ấu thơ hằn sâu vào kí ức
371. chắn nước ở đầu nguồn khác gì bị rắn cắn vào chân
372. mày hay cáu bẳn lắm
373. cái xe của tao hơn hẳn chứ hả
374. ai chặt sẵn cho mình rồi cứ như đẵn gỗ ấy
375. vết đứt nhẵn lắm phải chặn bọn lâm tặc ấy lại
376. hẳn anh đã nghe câu đời cha ăn mặn đời con khát nước
377. phải ngăn chặn ngay tội ác của chúng nó lại
378. tóc xoăn còn được gọi là quăn
379. đau oằn người đi và chạy ngoằn ngoèo
380. xoắn chặt vào nhau đánh cho quắn đít vào
381. chỗ này vừa xoẳn cho một người
382. ngày dằm chắc sẽ được ăn oản thoái mái
383. nhưng choẳn thì không có
384. không hiểu ăn gì mà bụng đau quặn lại
185
385. hết xoẳn rồi không còn cái gì mà ăn cả
386. sống ở lạng sơn ăn ngay búp măng
387. thắng vụ này anh sẽ được thăng quan tiến chức
388. thằng cuội đi tìm chị hằng nga
389. suốt chặng đường không khí bỗng im ắng như không
390. ánh nắng sáng trắng đã thắng được bóng đèn
391. vụt một cái vào cẳng chân nằm thẳng cẳng ra
392. hẵng gượm đã lẵng hoa của ai đó bị bỏ quên này
393. thằng bé cứ lẵng nhẵng đòi theo mẹ đi chợ
394. im lặng quá chẳng ai nỡ nặng lời với nó
395. rẽ ở chỗ ngoặt tới con hoẵng dài loằng ngoằng
396. chiếc xe moóc dài loằng ngoằng
397. nó ngúng ngoẳng bỏ đi không một lời xin lỗi
398. con chó bị đánh đau kêu úng oắng ủng oẳng
399. hồ này đầy ắp cá mang hai cặp cần câu là câu được khối cá
400. sắp thi học kì rồi mà cặp chẳng có nổi một quyển sách
401. cầm cặp, thắp nến học bài đi sắp thi đến nơi rồi
402. nó nhìn chằm chặp khiến tôi ngượng quá
403. mùa này đầy ắp những xe chở cải bắp ở khắp mọi nơi
404. chặp nữa đi gặp ông ta chiến thắng để bày tỏ rõ quan điểm
405. nó bị con trăn quặp chặt đến ngạt thở
406. đại bàng quắp công chúa
407. thằng nghiện nằm chân tay co quắp
408. anh râu quặp nổi tiếng với những pha hài
409. đạt đến đỉnh cao cũng là lúc mạt vận kiên trì ắt làm được
410. cắt sắt, ngắt lời làm tắt cả hi vọng
411. kẻ sặt là địa danh ở hưng yên
412. trói chặt vào không con gà sổng ra đấy
186
413. ngày mai chúng mày phải ra đồng gặt lúa giúp mẹ
414. các bà nội trợ ngày càng thắt chặt chi tiêu
415. thằng oắt con loắt choắt chạy nhanh thoăn thoắt
416. mày cầm cái gì nhọn hoắt vậy
417. mềm oặt như bún
418. trong giấc mơ mình được ăn xôi gấc
419. ruộng bậc thang cứ như các bậc tiểu học
420. mày đừng xấc láo bây giờ tấc đất là tấc vàng đấy
421. nấc thang thiên đường là bộ phim ăn khách
422. uống nước là cách tốt nhất để chữa nấc
423. trong tiếng việt không có từ quấc, quậc
424. Ăn một bát ấm cả ruột
425. Tiếng nổ ầm không biết ở đâu
426. Giọng hát Trọng Tấn trầm ấm mượt mà
427. Chị Tâm đến nhà vay tiền
428. Rặng trâm bầu nhà hàng xóm rất đẹp
429. Nét mặt trầm tư của Bà làm chị suy nghĩ
430. Đi tù về hắn lầm lũi chẳng gặp ai
431. Vào nhà mà mặt lầm lầm lì lì thế hả
432. Ông đi Hàn Quốc về cho sâm nhung
433. trời ẩm ướt quá, siêu thị bị cấm cửa mấy ngày
434. Bị tát chị tấm tức khóc
435. Cơm nguội hâm nóng cũng chẳng ngon
436. Chim cút hầm với hạt sen rất bổ
437. Không biết khấm khá từ bao giờ mà khinh người thế
438. Thằng bé lẫm chẫm biết đi ông bà vui quá
439. Chiếc áo màu sẫm là của chị
440. Ông ngẫm một lúc rồi gọi con dâu
187
441. Đọc truyện kiều phải suy ngẫm thì mới ngấm
442. Không biết nó ngấm ngầm tính mưu kế gì
443. Cho muối đầm đậm vào không nhạt hoét
444. Đánh cây cao đậm đấy
445. Lội qua đầm cảm thấy mệt quá
446. Anh trên xe bị đâm một nhát chết
447. số phận hẩm hiu của chị làm ai cũng thương tiếc
448. gửi thư cho cây tầm gửi
449. mầu xanh thẫm trông rợ lắm
450. rừng rậm rạp quá làm chậm bước tiến của Sâm
451. tiếng sâm cầm nhỏ vỗ cánh
452. rồi câm lặng giữa thâm cung
453. ầm ầm như mầm non nghĩa địa
454. học thì ấm vào thân chứ khỏi chân lấm tay bùn nói mãi không thấm
455. nơi này ẩm ướt quá, được rồi ca cẩm mãi
456. em bé lẫm chẫm đi từng bước
457. chân tao đau thậm tệ, đi chầm chậm lại gì mà làm om sòm thế
458. vợ chồng tôi lấn bấn mãi mới đến thăm anh chị được
459. chị thử vận bộ quần áo này xem có đẹp không
460. bây giờ bọn trẻ bị cận thị nhiều lắm
461. làm sao cân được ân tình của hai bác
462. không chỉ với người thân mà cả với người dân bình thường
463. thần sắc nó dần dần hồi phục lại dấn thân vào lửa
464. đàn anh đã để lại ấn tượng khó quên
465. khấn anh thêm một lạy rồi tôi đi
466. lẩn thẩn vừa chứ con ma nó vừa ẩn vừa hiện thế nào được
467. mất cái nhẫn quý ấy bà ta bị lẫn luôn
468. hận đời làm gì cây mận sẽ cho nhiều quả mà
188
469. bà ấy lúc nào chả cân lọ nước mắm đếm củ dưa hành
470. đừng chần chừ nữa vào đi không muộn giờ bây giờ
471. sao mày cứ tần ngần, đờ đẫn ra thế thầy Tân đang hỏi mày đấy
472. ông ấy già nên rất hay lú lẫn, lẩn thẩn
473. bà lần mần gì mà lâu thế, lên đây tôi nói chuyện nào
474. tôi phân vân mãi không biết có nên gọi cho anh không
475. mày phải tuân lệnh của cấp trên chống lại quân thù tàn phá quê ta
476. cần phải thuần hóa con ngựa bất kham ấy
477. tuần này trôi đi nhanh quá
478. trông nó rất tuấn tú
479. nếp quấn này bị gãy
480. quận tây hồ được lập ra rất thuận buồm xuôi gió
481. nó trình bày luẩn quẩn quá
482. chắc có gì uẩn khúc bên trong
483. gia đình là hậu thuẫn quan trọng vậy
484. mà trong cơn cùng quẫn nó đã tự tử
485. mùa xuân là mùa cây cối đâm chồi nảy lộc
486. được điểm mười người lâng lâng nhưng phải biết vâng lời cô giáo
487. vầng trăng sáng trên tầng trời cao
488. thượng giới là đấng tối cao
489. khi trời hẩng sáng mọi người mới ngẩng mặt lên
490. con chó nhẩy cẫng lên vui mừng gặp chủ cũ
491. bâng khuâng tiễn bạn đi xa
492. em như quầng trăng sáng quanh ta
493. quầng mỡ này bỏ đi
494. ấp chiến lược, ấp tân sinh
495. núi ấp ôm mây , mây ấp núi
496. chiến thắng ấp bắc ở cấp độ chiến lược mức độ thấp
189
497. các thuyền ập đến vây con cá mập
498. và tập trung cao độ để làm sập bẫy
499. mật gấu thật rất quí hiếm
500. trong năm ất hơi cất công lấy bao nhiêu là đất mất rất nhiều thời gian
501. tất cả là mười ngày mà phải hất đi
502. thật buồn cười sếp vừa gật đầu
503. nó vội lật đật chạy lại bất chấp cả đường hẹp
504. uất ức gì nữa khuất mắt trông coi thôi
505. năm nay là năm tuất mà
506. cẩn thận không tao quất cho một roi đấy
507. hàng xuất khẩu mà làm như thế à
508. có ý chí quật cường, với tinh thần kỷ luật cao
509. nghệ thuật biểu diễn của anh đã đạt tới đỉnh điểm
510. trong tiếng việt có từ quấp, quập không nhỉ
511. không đâu quấp, quập làm gì có nghĩa gì
512. đừng lo âu quá thức đêm thâu mới biết được lòng người sâu hay cạn
513. mất quả thầu xây nhà này sầu hết nói
514. đầu tiên chỉ cầu mong được hầu mọi người thôi
515. từ thủa ấu thơ theo dấu chân bác
516. mưa ngâu, đục ngầu, châu chấu phá lúa ghê quá
517. đừng đấu đầu, cần phải đấu lại chúng
518. khẩu súng kia trông giống như cái cần cẩu xây dựng
519. mưa là hiện tượng ngẫu nhiên thôi
520. chúng nó ngồi chầu hẫu ra mà tán gẫu
521. mậu dịch thu mua mận hậu và đậu xanh
522. mây trắng cây cao má em hây hây đỏ
523. chầy chật lắm thầy giáo mới cho bẩy điểm
524. ấy sao lại thế cái đấy cần thêm được mấy điểm nữa
190
525. ẩy mạnh vào, dẩy đổ bức tưởng rồi nhẩy qua
526. mồm bóng nhẫy người thật đẫy đà
527. đậy lại kẻo con mèo nó cậy vung ra đấy
528. tết đến cả nhà lại quây quần bên nồi bánh chưng ôn lại chuyện cũ
529. thằng nhóc quậy ghê quá
530. lắc đầu nguây nguẩy
531. mày đừng khuấy nước cá chạy hết bây giờ
532. khi rang lạc phải khuấy đều mới ngon
533. thằng bé quấy quá, đi mua quẩy về dỗ nó đi
534. anh ấy e ngại nên đã đe nó rằng
535. vải the không che được mắt thánh
536. uống nước chè dưới bóng tre rất có lợi cho sức khỏe
537. cá mè nấu canh ăn ngon lắm
538. mùa hè mày nhớ hé cửa ra cho con nghé nó vào ăn rau hẹ nghe chưa
539. cuốn tiểu thuyết này tẻ nhạt lắm
540. bị ghẻ hay sao mà gãi mẻ tay ra vậy
541. quân ta tiến công mạnh như thế chẻ tre
542. nói khẽ khàng thôi nhưng phải cho ra nhẽ và kín kẽ
543. bài hát nghe có câu mẹ nhẹ nhàng đưa lối
544. thằng bé khóc oe oe cứ đòi khoe mái tóc vàng hoe mới nhuộm
545. bông hoa nở xòe ra trong từng khóe mắt
546. chúc sức khỏe, ba chõe là tác giả của nhiều bức tranh phiếm họa
547. hoạnh họe gì nữa bọn choai ấy ăn khoai suốt mà vẫn cứ làm như oai lắm
548. con lợn bị bắt đi kêu eng éc, èng ẹc thương nó quá
549. đói quá con khỉ kêu kẹc kẹc mà vẫn chưa được ăn
550. tiếng pháp méc xi là cảm ơn phải không
551. tránh ra xe chở téc nước đang đến đấy
552. anh làm ơn thanh toán bằng séc cho tôi
191
553. bỏ quân sẹc ra bài chỉ còn 28 quân
554. được em yêu mua que kem chảy rồi
555. mắt kèm nhèm chẳng xem được ti vi
556. chị trang thèm ăn kem kèm với xôi nóng
557. ém quân nơi hoang vắng có thể bị chém giết
558. chiến lược thế là quá kém, quân bị cháy sém hết rồi
559. anh có thích ăn ghém không ngon lắm
560. không nhìn thấy đâu giấu nhẹm đi
561. bảng tuần hoàn có kẽm không nhỉ
562. có chứ kẽm là nguyên tố quan trọng đấy
563. nó nhai bỏm bẻm một cách khổ sở
564. ở biển có con vem hay vẹm không
565. ai không chen ngang sẽ được khen thưởng
566. nhớ lấy thêm củi chèn vào và đốt đèn sáng lên
567. mới đi đến lò rèn được
568. chim én bay lượm ngoài khơi
569. miền nam gọi cái bát là cái chén có phải không
570. ba dẻn là cầu thủ nổi tiếng một thời
571. ăn dè sẻn thôi mai hết tiền rồi
572. giao thông làm tắc nghẽn đường phố
573. xấu hổ hay thẹn chú ý vào không nghẹn bây giờ
574. con chó quen hơi quen tiếng chủ rồi
575. sao mày đi quèn quẹt thế để cho em ngủ chứ
576. tiếng việt có từ nào là quẹn, quẻn, quén, quẽn không hả
577. không có từ nào là quẹn, quén, quẻn, quẽn cả chỉ có quen, quèn thôi
578. thằng ấy chỉ là nhân viên quèn bao giờ mới ngóc đầu lên được
579. tiếng tầu điện chạy leng keng trong đêm
580. người mày thấp tèng chứ gì
192
581. đừng có mà léng phéng con gái nhà người ta nó chém chết đấy
582. thanh niên thời này toàn ăn cơm trước kẻng
583. vỡ đê tiếng kẻng vang lên liên hồi
584. chiếc xe đạp mèng quá rồi vứt đi thôi
585. cho tôi mua năm xèng thú nhún
586. tìm được từ loeng, quéng, quẹng thật khó
587. có tiếng gì xủng xoẻng ở trong bếp thế
588. có gì xủng xoẻng đâu con đang lấy mâm mà
589. có con rắn đấy eo ôi phải trèo lên thôi
590. cái loại kẹo dán da trâu ấy mà cũng ăn
591. nó đi kéo theo cả ruồi bọn mèo mả gà đồng
592. thèm loại bánh bèo rán kêu xèo xèo thơm phức
593. mày cần thận đi đéo gì khéo tay một tí
594. cái kéo cùn quá cắt tóc làm méo cả đầu tao rồi
595. sao trông nó lẻo khà lẻo khẻo thì làm nên trò trống gì
596. miệng cười ngặt nghẽo khi nhìn chú heo làm trò
597. trong tiếng kẽo kẹt của chiếc xe cũ rích
598. tao có mẹo này mày phải cho ăn kẹo đồng ý không
599. bảo vệ mà lại đi ngủ khoèo thế kia thì chết
600. đường về nhà mày ngoằn ngoèo thế không nhớ nổi đâu
601. trông nó loeo khoeo, loẻo khoẻo thế có được việc không
602. con trèo khoeo kia sao tao bảo mày không nghe hả
603. anh trèo lên cây quéo vặt cho em quả quéo đi
604. con khép vở lại đi mua dép đẹp với mẹ
605. cô giao bài chép chính tả tập ghép vần với lời đanh thép của bài hịch
606. căn nhà này bên ngoài tưởng ọp ẹp nhưng trong rất mát
607. chiều rộng nhất hẹp hơn chiều dài
608. nhưng trông kỹ thì đẹp ra trò cái đế kép của cái đèn xếp
193
609. anh làm cho em mấy trang oép để quảng cáo
610. anh không biết là oép quảng cáo đâu chỉ oép công việc thôi
611. đi đâu mà người loép nhoép, loẹp nhoẹp thế kia
612. thật là ghét là phụ lái nhưng phải hét hay thét cả ngày
613. mặt tái mét ghét lắm
614. nghĩ kẹt thật con vẹt của tao cứ lẹt đẹt mãi không biết nói
615. sấm sét lẹt sẹt rất nguy hiểm làm bọn trẻ lấm lét không dám đi
616. cái miệng mày cứ xoen xoét thế ai ưa được
617. chữ gì mà đọc toét cả mắt
618. bọn tham nhũng đục khoét tiền của nhà nước
619. nước dừa gì mà loãng toẹt chẳng có vị gì cả
620. nước nông toèn toẹt sợ gì xuống đây bơi với tao đi
621. mồm nó cứ như chão choẹt chỉ được cái nói phét
622. thằng bé cười toe toét khi nhìn thấy chiếc bánh mẹ mua
623. đừng chê không chúng nó cho ế đấy
624. hút xong điếu thuốc vào người say đê mê không muốn về
625. chúng mày ơi về thôi không lề mề nữa
626. hay cam chịu nỗi nhục ê chề này
627. đến ế chồng mất thôi con ơi
628. lập kế sách hay là lập kế hoạch
629. thôi kệ nó không kể lể dài dòng nữa
630. việc hệ trọng như vậy mà kệ nó sao được
631. báo chí đang nói đệ nhất phu nhân nước pháp bán đấu giá ảnh nuy
632. thầy cúng đến trễ giờ rồi, gà làm lễ mà mày dám ăn à
633. anh ơi hễ thấy bố thì bảo em không bố tế cho đấy
634. lâu nay mấy bễ lò rèn không còn hoạt động như trước nữa
635. nếu có thể thì thuê con gái nhà khuê các
636. chỗ này mùi rất uế tạp không thể có thuế cao được
194
637. anh đi với vòng nguyệt quế từ cổ nhuế từ liêm hà nội
638. tại sao mày uể oải khác hẳn mọi khi thế
639. hoa huệ mùa này thơm hơn hẳn mọi khi
640. nền kinh tế đang bị kiệt quệ sau chiến tranh đang dần hồi phục
641. chúng ta phải cố gằng huề ván này
642. anh ta tính cách rất xuề xòa mà lại lãnh đạo tốt mới tài chứ
643. đường tới nghĩa trang bụi bặm nhếch nhác như mọi con đường ở ngoại ô thành
phố.
644. mày lếch tha lếch thếch trông như con ếch to kếch xù
645. cười hềnh hệch như thế trông kệch cỡm quá
646. nó cười mồm méo xệch vì vợ chồng nhà ấy như đôi đũa lệch quá
647. mặt nó trắng bệch sau khi nghe gã giám đốc tếch mất rồi
648. thật là kệch cỡm không ra cái trò trống gì
649. trong từ điển có từ quếch, quệch không nhỉ
650. không có từ quếch, quệch đâu
651. chỉ có từ chuệch choạc thì phải
652. à có từ nguệch ngoạc nữa, viết nguệch ngoạc như gà bới
653. còn từ khuếch khoác nữa đúng không
654. êm quá đêm khuya làm thêm không sợ đâu
655. sông đông êm đềm mềm mại chảy
656. thật thà như đếm, chểm là từ không có trong từ điển
657. ngồi chễm chệ trên cao
658. ngồi trên ghế đệm êm ghê lắm
659. lên trên này bên cạnh hòn đá ấy
660. bắt đền mày đấy dền dứ mãi
661. đến mai nhé mến thôi chưa đủ đâu
662. nó vừa nói vừa thở hổn hển
663. nghễn chân lên mới nhìn thấy được
195
664. nghễu nghện con nhện giăng tơ
665. nó quên làm bài tập và bị điểm kém
666. đánh cho rươi và trứng quện vào nhau
667. các từ quền, quến, quển, quễn là những từ không có trong từ điển
668. con đường rộng thênh thang
669. nước mênh mông làm con thuyền lênh đênh như đi trên biển lớn
670. nước dềnh lên cao làm chiếc xuồng
671. trở nên kềnh càng khó di chuyển
672. bếnh không có trong từ điển
673. cái túi này nhẹ tênh
674. sắp lấy chồng rồi mà nó cứ tênh tểnh thế
675. mình cứ xểnh mắt ra là nó biến đâu mất tăm
676. con ễnh ương, giống như con ếch bụng to kềnh ra
677. lệnh bác sĩ bắn ra bệnh nhân trong bệnh viện nháo nhác
678. đừng hoang tưởng, mày huênh hoang quá đấy nhóc ạ
679. bà ta có một ngôi nhà nhỏ tuềnh toàng gần ga
680. mày khuềnh khoàng vừa vừa thôi chứ
681. nó khuệnh khoạng như thằng say bước vào
682. theo nếp cũ là không tốt đâu
683. đổi thếp giấy này lấy kẹp tóc kia nhé
684. kết đèn lồng trong ngày tết trung thu
685. và thết đãi bạn bè chết mất thôi
686. mệt à sao mà nghệt ra vậy
687. nó quệt nước mắt và bước đi tiếp
688. mẹ nó quết thêm dầu trên chiếc nón
689. bọn nó êu êu kìa đừng trêu em cái gối thêu là của nó chứ
690. anh chàng cao kều nhất trong bọn thều thào nói
691. nếu mùa đông đến đàn sếu mỏ đỏ mà không quay về thì mếu thôi
196
692. nom đều thật cứ thất thểu thế nào ấy
693. bọn trẻ cứ nghễu nghện trên yên xe của mình
694. đánh cho trệu quai hàm bây giờ
695. cho em tí ti thôi em không tị đâu
696. đừng chi li như thế chị phải nghĩ chí tình chứ
697. sao ầm ĩ thế đừng ỉ ôi nữa chị không cho đâu
698. thằng bé cứ khóc i ỉ làm bố mẹ không nghỉ được
699. huy chương vàng đã nâng cao uy tín của chúng ta
700. tuy nhiên uy lực này chưa ăn thua gì
701. Thủy có đi hay không tùy mày thôi
702. em tôi thùy mị quá
703. đại úy tiểu đoàn trưởng không được thưởng vì đã phạm húy tới lãnh đạo và
uống rượu say túy lúy
704. nhà tao ở phố thụy khuê
705. ủy ban mặt trận tổ quốc việt nam
706. không chung thủy là hủy hoại hạnh phúc gia đình
707. ngân quỹ nhà nước bị thâm hụt quá nhiều
708. làng ta có lũy tre xanh hươ tay chào nhau
709. Sau lần ấy tía không dám đi đêm nữa
710. Trồng ráy tía không ngứa
711. Nhanh tay chia khi mọi người đi vắng
712. Tên giặc gần cây sậy chĩa khẩu AK vào người
713. Họ đem con cầy chia khắp làng
714. Bác xỉa que củi vào mặt bà hàng thịt
715. Giặc chĩa quả lựu đạn vào lô cốt
716. Nghe tin hợp tác chia quà nó vội đạp xe đến
717. Cóc tía quen mùi rồi
718. kìa sao lại để cái thìa múc canh chìa ra ngoài bàn thế kia
197
719. khía một vết sâu vào thân cây mía non đừng mỉa mai
720. Bọn trộm cắp thích chôm chỉa đồ
721. Chim rỉa đầu con vịt chết
722. Vào đêm kia đứng ở bến đò này có ma
723. Thằng bé ẵm mía đang bán chạy đi
724. Nó ngắm nghía đống quần áo
725. Thái giám đem hia đánh vào mặt cung nữ
726. Đi xem bắn tỉa đứng mỏi cả chân
727. Học khuya quá không tốt cho sức khỏe
728. Đêm khuya khèn vang lên khắp xóm làng
729. Nó cầm mơ tuya giơ lên đầu
730. bài viết này rất có ích
731. nó tích hợp các kiến thức với trích dẫn chi tiết
732. tránh những xích mích không cần thiết
733. rơi đánh ịch một tiếng
734. cô gái trên tờ lịch này cứ như đóng kịch ấy
735. phải dịch nôm na mới địch lại được
736. nó quých bỏ mẹ đi được
737. đi gì mà uỳnh uỵch lên thế
738. các em nhỏ chạy uỳnh uỵch huỳnh huỵch thở không ra hơi
739. tiếc quá rạp xiếc hôm nay lại đóng cửa
740. bán lại chiếc vé này thôi
741. bố đi rồi, tiếc quá lại không được đi ăn tiệc rồi
742. bao diêm kim tiêm được chiêm ngưỡng và là vật dụng quan trọng
743. chỉ vì cái liềm cắt cỏ
744. mà trở nên hiềm khích giữa hai gia đình
745. nó đòi chiếm lấy cái kiếm và chiếc yếm để làm khiên đánh nhau
746. viết bản kiểm điểm cuối năm
198
747. vì thế công ty nghiễm nhiên thẳng thắn
748. tiết kiệm là quốc sách bài toán này có nhiều nghiệm
749. mày phải là điên hay liên thiên mới mua cái yên xe này
750. con gái tiền giang ở miền nam
751. trông rất hiền dịu muốn cưới liền tay
752. nguyễn huệ tiến quân ra hà nội chiến đấu chống lại nhà thanh
753. nghiến nát quân thù và mở yến tiệc thiết đãi dân
754. rất hiển nhiên là môn điều khiển tự động có rất nhiều triển vọng trong tương lai
755. môn học này được miễn thi
756. tiện tay bật cái đèn điện ngoài cửa ra vào cho sáng
757. người uyên bác như thế lại bị cấp trên tuyên bố thuyên chuyển đi
758. mày cần phải khuyên bảo nó học hành chuyên cần
759. thật huyền diệu khi mọi người trên thuyền
760. đã truyền tin về quyền được tự quyết của mình
761. đừng có quyến luyến mãi với chương trình khuyến học
762. trên vô tuyến truyền hình nữa
763. đợt tuyển người mới phải nhớ uyển chuyển hơn đấy
764. họ nguyễn rất phổ biến ở việt nam
765. nghe tiếng chiêng kêu cảm giác rất thiêng liêng
766. dù ai nói ngả nói nghiêng lòng ta vẫn vững như kiềng ba chân
767. vì miếng ăn mà tiếng xấu vang khắp nơi
768. có tiếng mà không có miếng
769. con yểng biết nói làm quân ngụy thua liểng xiểng
770. phải kiễng chân lên mới nhìn được mặt nàng
771. mùa này chim én bay liệng khắp bầu trời miệng hót vang tìm nhau
772. tại sao việc quan trọng như thế mà lại quên thiếp mời đám cưới
773. nhiều khiếp đảm kiếp này khó trả nợ được hết
774. lịch sự là phép tối thiểu của hiệp sĩ
199
775. Đón tiếp ai một cách ân cần, lịch thiệp sang trọng
776. qua tấm liếp con gà kêu chiếp chiếp như có con gì đang cắn nó
777. trong tiết toán cô giáo thiết tha yêu cầu các em viết nắn nót
778. đau cả yết hầu do bị siết vào cổ
779. cũng tuấn kiệt như thế mà thân bại danh liệt và chịu nhiều thiệt thòi
780. chuyện trêu hoa ghẹo nguyệt của nó có thể viết thành truyện tiểu thuyết được
781. với nhiệt huyết của tuổi trẻ và quyết định sáng suốt của đảng
782. chúng ta chắc chắn sẽ thuyết phục được họ tham gia
783. tưởng bà chủ rất tuyệt diệu hóa ra quỷ quyệt lắm
784. định hoa nguyệt với lính tráng khó mà duyệt được
785. dở bài yêu là độc chiêu
786. nhất cho nó bớt kiêu căng và tiêu nọc độc
787. nàng yêu kiều đi đứng yểu điệu kiểu cách
788. cứ chiều đến mới tiều tụy làm sao
789. thiếu tí nữa mua chiếc điếu ấy thì bị đàm tiếu
790. kiểu tham nhũng thì cứ chiểu theo pháp lệnh mà thi hành thôi hiểu không
791. bên bờ hồ cây liễu rủ bóng xuống nước
792. cũng gây nhiễu ghê lắm
793. liệu cái kiệu ấy có còn hiệu dụng không
794. im lặng đừng phá tổ chim
795. im lìm đi tìm của chìm trong nước
796. thím ba miệng cười chúm chím
797. đừng ỉm đi vừa nói nó vừa tủm tỉm cười
798. cái hĩm nghe cũng chối tai
799. nó ngất lịm đi sau khi nghe tin dữ
800. miệng nó tủm tỉm khi được ăn mấy quả sim mẹ mua
801. tôi rất thích màu tím hoa sim trên đồi
802. phải tin rằng cô có nghề in lưới mới xin được việc làm
200
803. tuổi thìn biết nhìn xa trông rộng và giữ gìn của cải
804. hắc ín được tín nhiệm trong hội kín
805. ủn à ủn ỉn lợn cũng say sỉn
806. con hĩn nhà ai ấy nhỉ, đồ xịn đấy
807. cần thận không dầu luyn chảy vào lốp đấy
808. mày ra chợ mua cho anh chị cái màn tuyn trắng
809. chuyện này linh tinh lắm chưa biết thế nào
810. cũng chẳng thấy minh bạch đâu nó cứ hét dinh lên thôi
811. đừng nằm chình ình ra như thế phải xem tình hình thế nào chứ
812. viết sai rồi đính chính lại đi
813. cứ súng sính trong bộ quần áo mới
814. lại đeo cả kính dâm thế kia không ai thích đâu
815. để hoàn chỉnh con đường phải nhỉnh thêm mấy mét nữa
816. ủy ban tỉnh đã huy động đến đỉnh cao nhân lực dự trữ
817. bước vào cuộc họp với phong thái đĩnh đạc nhưng khá hợm hĩnh của chính mình
818. chúa họ trịnh vào giai đoạn thịnh vượng lấn át quyền của vua lê
819. vào chủ nhật này phụ huynh học sinh đi họp
820. ở một vùng quê như thể cây quỳnh cành dao
821. được điểm mười Bi mừng quýnh cả lên
822. thằng ấy nom quỷnh lắm mày ơi
823. thằng chíp hôi này định dùng con dao nhíp để trấn lột hả
824. còn kịp chán nếu không chờ dịp khác cũng được
825. chứ chịp miệng nghe chán lắm
826. đưa cho mẹ cái tuýp đánh răng
827. giống hệt bố mày hay sao đừng có ít sít ra nhiều
828. thít chặt quả mít vào kẻo rơi
829. ụt à ụt ịt cứ như đồ bị thịt
830. bịt mặt thì dịt thuốc thế nào được
201
831. Con chó quấn quýt lấy chủ
832. Nó ngang nhiên mang quýt lạnh vào lớp
833. Anh Chuýt lượn nhanh ra khỏi làng
834. Chờ người bán quýt lấp đất đã
835. Xe đông suýt nữa thì có tai nạn
836. Trong đêm nghe tiếng xuỵt nó giật mình
837. Anh Chí là thằng quỵt của làng này
838. Đang mải bắt tôm xuỵt cái nó ngẩng lên
839. Ăn kèm với nước suýt thì ngon
840. Nó rảo bước suýt theo kịp mẹ
841. Em bé huýt sáo hay quá
842. chú công an huýt còi dừng xe lại
843. quả quýt mùa này ngon lắm
844. nó xuỵt chó đuổi theo bọn định ăn quỵt hàng mua chịu
845. không ăn đi cứ chắt chiu mãi lại thiu thối ra bây giờ
846. ông nhìn cái rìu của mình với ánh mắt trìu mến
847. đàn chim tíu tít tìm bầy
848. tiếng kêu của con chim ríu rít
849. đừng làm tao tiu nghỉu mày nhé
850. lòng nặng trĩu ưu tư anh bước đi chậm rãi
851. chịu mày tật nói nhịu thì có gì mà phải ngượng nghịu
852. Nó thích đi đường đèo khúc khuỷu hơn
853. Hoàng chỉ thích sờ mấu khuỷu tay mẹ
854. Nó chạm mạnh khuỷu vào mạng sườn đau điếng
855. Nghe tin dữ ông khuỵu ngay trên đường
856. ngoài sân ò ó o là tiếng gà trống gáy
857. gọi o tức là cô ở vùng nghệ an hà tĩnh
858. con gà to quá cho đi thì tiếc
202
859. phải kho lên ăn mới ngon
860. nó nhảy lò cò trên sân kho cho bõ tức
861. mày ngủ ngáy khò khò khó chịu lắm
862. con chó nằm co ro một góc
863. chim có mỏ nó tỏ rõ một loài có lông vũ
864. thằng mõ là thằng khó trong làng to
865. nó vừa xỏ cho thủ trưởng một võ mà không khó
866. chúc thọ ông rồi, vào cọ nồi đi
867. quan hệ họ hàng phức tạp
868. cái nọ xọ cái kia, sao mày lọ mọ thế
869. ăn óc con cóc chỉ khóc thôi
870. vì nó bổ hơn thóc gạo nhiều
871. bọn trọc phú đeo nhiều ngọc ngà
872. như vớ được cọc vì lại được đi học đại học
873. trưa hè oi bức con voi đòi moi mía ra ăn
874. tháng ba có cá mòi trên các sông ngòi
875. đi qua vùng nhiều khói than lò gạch
876. từ lò làm gạch muốn ói mửa ra
877. còn ít ỏi gì nữa mười cân tỏi khô là khỏi thôi mà
878. ở cõi đời này còn gì thú hơn
879. họ gọi trọi trâu ở đồ sơn là đồ mọi rợ
880. sợ gì con đom đóm ấy mà
881. mày nhòm làm gì, khóm dân cư sau lũy tre làng
882. nó chỏm tóc còn xanh rơi tòm xuống nước
883. ông già lọm khọm dừng ôm lấy con tôm hùm ấy ăn không ngon đâu
884. tiếng chân lõm bõm của các cô chú nông dân
885. bóng điện đỏ lòm lòm thế này thì học làm sao được
886. nó biết làm đỏm rồi đấy, nhà hàng xóm đã có người hỏi
203
887. có con gì thon thả mon mem đến gần
888. còn mấy năm nữa mà đẻ con sòn sòn năm một
889. em đón con để anh đi đòi món nợ này
890. con trai gì mà ỏn à ỏn ẻn thế
891. mạnh bạo lên mày thõn thẹn như đàn bà ấy
892. khi dọn nhà hãy chọn xe tải ấy có thể chất lên có ngọn được
893. đặng không có con ong mật bay trong nắng sớm
894. mong được gặp nhụy hoa mới xong
895. chúng mày đừng hòng thay đổi được tấm lòng của người mẹ
896. quả bóng bay cao quay như chong chóng
897. nó ngày đêm mong tới ngày mùa
898. có mỏng đâu sao lại cứ chê ỏng chê eo thế
899. người ta vứt lỏng chỏng ở đường ấy mà
900. bây giờ không còn cảnh lều chõng nữa
901. đừng õng ẹo vừa chứ kìa kẻo thõng xuống
902. nó đi thong dong bên bờ sông
903. cần phải kính trọng người già
904. cọng rơm này đang mọng nước
905. chiếc xe moóc dài loằng ngoằng
906. con gái đừng mặc quần soóc ra đường
907. đàn ác coóc đê ông chơi cũng hay đấy chứ
908. vườn bách thú có con voọc mới đưa về
909. tiếng cồng kêu boong boong khắp xóm
910. anh có thích ăn rau cải xoong không
911. cầm cho ông cái ba toong lên nhà đi
912. ki cóp vừa chứ tao biết thóp của mày rồi
913. ở cái chóp mũ phải không
914. cuộc họp này chủ yếu bàn cách bắt con cọp già
204
915. mót đái quá mà gót chân bị đau sót không chịu được
916. tiếng ọt ẹt phát ra từ cái sọt đã bị mọt hết
917. tô hô thế kia ốm bây giờ
918. ồ hay chửa nó như thằng tồ ấy
919. đi xe thồ mà lại đâm xuống hố được một vố đau
920. hô to rồi nó tố giác mọi người không coi trọng mồ mả ông cha
921. con gà mái đang đi tìm ổ để đẻ trứng
922. không cẩn thận đổ xe thì khổ lắm con ạ có khi phải đi mổ đấy
923. thổ lộ với người yêu có gì mà xấu hổ
924. em đã thi đỗ đại học ở đường đại mỗ chỗ gần nhà anh chị đấy
925. độ xuân này người ta đi tảo mộ nhiều lắm và thường mang hộ nhiều hàng đồ sộ
926. ngốc lắm vỏ ốc chốc chốc lại vang lên tiếng khốc khách
927. bộ bàn ghế này trở thành của độc rồi
928. bà ấy kêu ôi thôi cái nôi của con tôi
929. được rồi mày tồi lắm định lấy tao làm mồi nhử nó hả
930. ôi thối quá chối không thể chịu được
931. quả ổi to thế mà gió thổi bay mất
932. mỗi ngày cá lại trỗi dậy một lần
933. ngày hội đền hùng là nhớ về cội nguồn dân tộc tôi
934. nó chồm dậy giọng nói ồm ồm mồm miệng không nghỉ
935. sao trông ốm quá vậy tay lốm đốm đỏ kìa
936. dạo này nợ nhiều như chúa chổm khắp nơi
937. mày chôm quả chôm chôm của người ta à
938. ở đây lộm nhộm quá chẳng có tí trật tự nào
939. mày khôn lỏi vừa chứ, ôn bài thi ngày mai đi
940. sao ồn ào quá vậy bồn chồn quá à
941. khốn nạn thật nó lại quên ơn cha mẹ như trời biển
942. cẩn thận với trò đi trốn, nhào lộn kẻo ngã đấy
205
943. cơm độn lổn nhổn ngô làm thằng bé nhai trệu trạo
944. có xe buýt đi về nhổn đấy
945. anh đừng có hỗn với bố bố sẽ chôn chết anh
946. công của hai ông cháu cắm bông hồng trông rất đẹp
947. tặng cô nhân ngày hiến chương các nhà giáo
948. chồng con gì mà một đồng chẳng có lại cứ tồng ngồng suốt ngày thế
949. cái ống dẫn nước hỏng rồi
950. nên sống như lũ chuột cống trong đống của cải
951. nói là ổng tức ông là tiếng miền nam
952. còn chổng mông là tiếng bắc
953. đánh bạc thì bỗng chốc túi rỗng hết tiền
954. động cô tiên rộng như thế
955. vì nó cộng cả các vùng lộng chung quanh
956. ra ngoài bờ sông gió thổi lồng lộng mát không cần quạt
957. phải ốp chặt tốp thợ xây
958. chứ không xi măng bị xốp ngay
959. đừng làm ngáo ộp hãy chộp lấy cái hộp này
960. tao mua ở ki ốt thế mà cũng tốt hơn lá lốt mày mua ở chợ
961. lần này cũng làm tao chột mất một hột rồi còn gì
962. đừng có sốt sột lên thế cái gì cũng phải từ từ chứ
963. hay thật cơ cô này mơ ngủ hay sao mà tơ tưởng thế
964. anh dơ lắm tôi đang làm thơ đấy chứ
965. ờ chỉ thờ cúng thôi cũng không khỏi
966. phải chờ bác sĩ đến, bệnh nhân lờ mờ nhận ra mợ của mình
967. anh chớ mách sếp đấy tớ mới tìm được một cái cớ để mua bằng được mớ hàng
này
968. đứng ở đây thằng sở khanh ấy không hở ra một tiếng cho người ta biết
969. này mơ ơi mở cửa sổ ra đi khó thở quá
206
970. thế nhỡ ra bộ đại học không biết lại ngỡ là đồ bỏ đi thì đỡ quá
971. ăn mỡ nhiều quá mắc cỡ lắm
972. no phát ợ lên đây này
973. đừng sợ ăn trộm ở chợ thì là thợ cả đấy
974. nó huơ huơ tay giơ lên cầu cứu
975. câu truyện về thuở thơ ấu của anh thật cảm động
976. bà quờ tay về phía trước lấy cốc nước
977. chị đừng quở cháu vừa ốm dậy đấy
978. con ơi chơi với con dơi bay đi
979. ối trời ơi tới đây cứu tôi với
980. tiếng kêu chới với rơi tõm vào không gian
981. tôi khấp khởi trong lòng trước tiếng mời chào xởi lởi của bà mẹ
982. tiếng kêu hỡi trời cao đất dày ơi
983. hãy đợi tôi năm hợi tới rồi
984. đến gần làng thơm quá mùi rơm mới
985. cẩn thận cắt chờm mép vải rồi
986. đồ lợm ạ đi trên đá tai mèo lởm chởm khó đi
987. mày ỡm ờ vừa chứ ranh con ạ đồ lỡm
988. tôi thấy lợm giọng quá phải tìm cái gì ăn
989. cơn mưa này chắc còn kéo dài
990. nó chơi đờn gì đờn bà à, người bỗng ớn lạnh
991. cà chớn quá kiểu này không lớn lên được
992. ic
993. việc nghiêm túc mà mày cứ dỡn hoài
994. thịt con lợn này nhiều mỡ quá ăn dợn cả người
995. phải chớp lấy cơ hội vào học lớp chuyên toán
996. rất khớp với lời tiên đoán của ông ta
997. vừa chợp mắt một tí là kẻng hợp tác xã đã vang lên
207
998. nó chớp chớp mắt nhưng không khóc
999. ngày mai đến lợp mái dưới bóng cây rợp mát
1000. quả ớt vàng cay hơn
1001. chị đừng chớt nhả tôi cho lên thớt bây giờ
1002. ôn thi đợt này hời hợt quá
1003. đừng cợt nhả một cách bất chợt như vậy
1004. nó đơm một bát đầy ú ụ thế này thì ai ăn hết được
1005. sao mặt mày ủ rũ thế bị u mắng à
1006. con lợn tru tréo còn bà thì lu loa lên vì mất mấy xu đi chợ
1007. nó ho sù sụ và nhờ thằng gù đi mua thuốc
1008. đứng lù lù ra đấy à, đi cho tu hú ăn đi
1009. các cụ trồng cây về cất quần áo vào ngăn tủ mà không giặt
1010. bọn trẻ lũ lượt kéo nhau ra ụ đất ngoài bãi sú để chơi đu quay
1011. ngày mai mẹ đi mua cua về nấu canh chua cho mà ăn
1012. vào ngày mùa người lớn thì lên chùa để cúng lễ còn trẻ con thì đùa nghịch
1013. đội ca múa trung ương về biểu diễn mừng năm nay được mùa lúa của dân làng
ta
1014. mọi người kêu lên ủa sao lại lấy lúa của tập thể như muôn thủa thế này
1015. anh lấy được chị đúng là đũa mốc mà chòi mâm son
1016. các cụ đã nói người đẹp vì lụa lúa tốt vì phân
1017. từ sớm nó vẫn ngập ngụa trong đống bùn, mải mê bắt cua
1018. người ta chúc cho châu úc xúc được vàng ở khúc sông này và đúc thành tượng
1019. tao đục cho một quả bây giờ, nó lục khục cười và giơ một chục con cá nục lên
trời
1020. nó bị tuột cúc áo khi lùng sục nồi cơm
1021. thịt chó phải thui kĩ mới thơm chứ úi chà chà
1022. chị khâu cái túi này chỉ đựng được một múi bưởi
1023. từ lâu đất mũi cà mau là một điểm du dịch thu hút khách
208
1024. ngoài bãi cỏ dế trũi gồng mình lên đá cho bọ ngựa một nhát
1025. phải cho con chó vào cũi vì mũi nó ngửi thính lắm
1026. mấy đứa tụi mày cẩn thận không tao thụi cho một quả bây giờ
1027. anh phải lum khum trong bụi cây um tùm mới tìm được quả bóng
1028. bọn trẻ nhảy ùm xuống sông vào một đống tùm lum không phân biệt đứa nào
với đứa nào
1029. kêu mấy tiếng úm ba la túm lấy nó chúm chím cười khúc khích
1030. làm rơi tũm xuống sông miệng nó tủm tỉm cười
1031. tất cả phải chụm nhau lại không thì sụm lưng
1032. trông rất mịn màng đun bằng gỗ mun như thể hun chuột ấy
1033. mọi người ùn tắc lại hùn đẩy nhau đi tất cả đều chùn bước trước con sông dữ
1034. nhà anh có chú cún con trông đẹp quá
1035. bản tính của nó là ủn ỉn tủm mủn không ai ưa
1036. quần của nó ngắn cũn cà cũn cỡn nom buồn cười quá
1037. trên mặt mụn mọc như các đụn rơm ấy
1038. bọn trẻ chạy lung tung mặc dù chung quanh giặc chạy lùng sục khắp nơi
1039. ngoài bờ sông trong khung cảnh súng đạn nổ khắp nơi anh chị vẫn ung dung đi
bên nhau
1040. có tiếng súng nổ ùng oàng, đì đùng ở đầu ngõ
1041. cả bọn chúng ta cùng nhau dùng món canh chứ không thì bụng nổi khùng lên
mất
1042. mùa này úng lụt rồi hoa súng không lên được
1043. tôi hỏi có đúng là khẩu súng này đã bắn trúng kẻ thù không
1044. phải đấu tranh ủng hộ đồng bào chống phân biệt chủng tộc bị bọn khủng bố làm
cho thất sủng đi mất rồi
1045. làm như thế cũng được nhưng phải dũng cảm lấp chỗ trũng ấy
1046. hôm qua nó còn bụng dạ nào mà tụng kinh nữa
1047. anh dùng cuốc cẩn thận kẻo chuốc lấy tai họa vào thân
209
1048. trong nhiều cuộc chiến bao giờ cũng thuộc về kẻ mạnh
1049. người đi săn nói đuôi hổ là biểu tượng của sức mạnh cũng như cái chuôi dao ấy
1050. họ hàng loài ruồi muỗi phát triển rất nhanh trong mùa hè
1051. đây là nải chuối cuối cùng của mùa hè này
1052. bộ đội đã đánh đuổi quân thù ra khỏi bờ cõi bảo vệ được chủ quyền
1053. trong tù nó đã sống những chuỗi ngày dài dằng dặc với toàn muỗi là muỗi
1054. thằng cuội ngồi gốc cây đa nom quá đuội trông nhuôm nhoam quá
1055. nó cứ à uôm mãi chưa muốn đi vì còn lưu luyến gia đình
1056. anh ta đói quá nên ăn nhuôm nhoam, nhuồm nhoàm
1057. chị đi nhuộm tóc vàng đi nhuộm màu vàng suộm ấy
1058. mấy con gà con lông vàng suồm suộm đi trong sân
1059. ngoài cánh đồng đang gặt có rất nhiều muôm muỗm bay
1060. tên trộm đã cuỗm mất túi tiền của mẹ rồi
1061. ngoài ra cánh buồm màu nâu là biểu tượng của vùng này
1062. chiếc lá cờ đỏ nhuốm đẫm máu
1063. trong từ điển vần suỗm không tồn tại nhưng xuỗm thì sao
1064. cháu mang đi nhuộm chiếc áo này đi chứ
1065. nhà cửa trông luộm thuộm lắm cầm cái chổi này dọn đi
1066. dòng suối xanh biếc luôn luôn tuôn chảy về xuôi
1067. bây giờ buôn lậu hàng điện tử hết cơ hội tuồn hàng về xuôi
1068. anh nhập từ các nguồn hàng nhập lậu về thì công an sẽ bắt
1069. buổi sáng tôi muốn một đĩa bánh cuốn chả với cà cuống
1070. gỗ này được uốn cong theo hình con tôm
1071. các từ nguỗn, chuỗn, thuổn đều là những âm tiết không có nghĩa
1072. cái tháp chuông nhà thờ ở uông bí một thị xã của quảng ninh nổi tiếng trong cả
nước
1073. nó bị cuồng cẳng hay sao mà cứ nhảy như diễn tuồng trong chuồng không có
chủ ấy
210
1074. mùa hè uống canh rau muống và chấm với tinh cà cuống thì tuyệt nhất rồi
1075. anh lấy thuổng đào đất chôn thì uổng phí công lao lắm
1076. lấy cho tôi thêm cái muỗng cho khỏi ruỗng ruột
1077. cấy cày trên thửa ruộng của mình được người nông dân ưa chuộng nhất
1078. chị đừng chau chuốt quá mà thành ra đau buốt đấy
1079. trên mái con chuột nhắt chạy tuột ra khỏi lồng rồi
1080. nó khẽ cúp đôi mắt ngồi trong túp lều này để núp không cho ai nhìn thấy
1081. buổi trưa nóng nực mà được uống chè búp thì thật tuyệt
1082. thì dù sao ở cái túp lều ấy cũng giúp mình tỉnh lại
1083. nó ngồi sụp xuống chứ có chụp mũ của người khác đâu
1084. có phải thằng út nhà mình có cái tẩu hút thuốc trông như cái bút chì không
1085. cả họ nói nó đụt quá lại hiền như bụt nữa làm sao lấy được vợ
1086. con chó kêu ư ử vì ăn vụng nên bị chủ đánh đau
1087. thằng bé ăn trộm đào bị đánh nhừ tử đến lần thứ tư mà dân làng không tha
1088. sắp đến ngày hội đền chử đồng tử rồi mau chuẩn bị lễ đi
1089. sao mà nó đi lừ lừ như ông từ vào đền lừ thế
1090. phải học cái chữ, chữ mới giữ được nước
1091. chị ấy không biết chữ vì suốt ngày ở cữ vì sinh nhiều con
1092. thật đau xót vì sữa cho trẻ thì đắt mà lại có sữa đổ trắng đồng
1093. làng tôi chỉ còn lưa thưa mấy khóm tre đầu ngõ
1094. ở trong nhà trưa hè nóng bức nên mọi người rất ưa ra nghỉ ở đó
1095. nhiều người thừa cơ hội khi nó bị lừa phải đánh cho chừa thì thôi
1096. nỗi buồn như vết cứa sâu vẫn đang ứa máu chứa đầy uất ức trong tôi
1097. mẹ dặn đi sửa ngay cái bếp lửa đặt cạnh cửa ra vào đi
1098. đừng lần nữa nữa phải chạy chữa ngay vết thương này đi
1099. anh phải rất cứng cựa mới trị được con ngựa hoang bất kham ấy
1100. làm luận văn phải thức với mức độ này ức lắm không chịu được
1101. trong bếp mẹ nấu gì mà mùi thơm phức làm cái bụng sôi ùng ục
211
1102. qua cái thời cơ cực đành nuốt đánh ực một cái
1103. trong thực đơn hôm nay không có mực xào chỉ có mỗi ngao chán chết
1104. suốt đêm nó thao thức mãi, mai phải khao anh em trong phòng
1105. anh đã gửi thư cho giám đốc chưa
1106. cái khung cửi đang bị hỏng ông Sưi đang chửi um lên
1107. ngoài cổng nó kêu hừm một tiếng thế là tên trộm trốn thoát rồi
1108. những từ hưm, hừm, hứm, hửm , hữm, hựm không có trong từ điển
1109. còn có cả những từ lưn, lừn, lứn, lửn, lữn, lựn nữa
1110. chị có ưng không còn mà còn nhưng gì nữa, để anh ấy bưng tráp sang ướm hỏi
1111. nó được ăn bánh chưng trong lòng vui tưng bừng như hội ấy
1112. họ lần từng bước đi lừng khừng của hắn làm tôi phải dừng chân lại
1113. lời tiên tri có ứng nghiệm không hứng lấy quả trứng gà này rồi đứng yên ăn
1114. ăn kẹo mè sửng mà lại nuốt chửng cho nên má đỏ ửng cả ra
1115. những người lính vẫn đứng vững trong bom đạn quân thù
1116. chiếc xe bỗng dưng khựng lại và nói anh yêu em
1117. tôi có một điều ước trước tiên là phải có chức tước mới khá lên được
1118. có một vết màu trắng như cước dài ở phía trước khiến chị ṭ ṃ lại gần
1119. chị đố anh ngước mắt nhìn lên được sẽ cho một cái lược bằng pha lê
1120. chị đi vào trong vườn tay cầm cái lược và một bông hoa thược dược mới nở
1121. động vật là loài đười ươi và khi tiến hóa lên và rất gần với loài người
1122. anh đừng lười thế người ta cười cho
1123. nói không được không cho điểm mười đâu
1124. anh chị tổ chức đám cưới dưới ánh trăng vàng rất lãng mạn
1125. cùng với cảnh vườn tưới rau và đan lưới rất thơ mộng
1126. trung thu ăn bưởi ngon sưởi ấm cả lòng người đến dự cỗ trông trăng
1127. nói như vậy là anh cưỡi lên lưng hổ mà tay lại chỉ cầm một cái lưỡi cuốc cùn
1128. anh ấy nói chị là con đười ươi thiếu I ốt và bị bệnh bướu cổ đấy
1129. nhà bên cạnh ở vườn ươm có mấy con bướm đang bay lượn
212
1130. chị cứ lườm mãi cho đến khi sưng tấy lên thì chườm bằng nước nóng rất nhanh
khỏi
1131. chị nên ướm thử xem có vừa không rồi hãy mua
1132. trong sách có viết bươm bướm là loại côn trùng có ích
1133. thôi rồi lượm ơi gượm đã chờ cho quá ngọ hãy ra khỏi cửa
1134. mẹ trồng nhiều loại rau trong vườn ăn thật ngon
1135. nhiều việc thế thì mướn thêm người làm không cá ươn thối ra đấy ai thèm mua
1136. bọn con gái cứ ưỡn à ưỡn ẹo nom chán quá
1137. ngoài kia con vượn bạc má cứ lượn vòng chung quanh
1138. cả nhà mày ương bướng thế thì ai mà thương được
1139. anh ta chỉ vào loại thường thường bậc trung trong làng
1140. anh xây cái tường cao quá trông rất trướng, anh hàng xóm góp ý
1141. nhà có đủ gương để trang điểm lại có cái giường rất rộng cho hai vợ chồng
1142. bà đay nghiến con sướng chưa các tướng mặt mũi đỏ phừng phừng trông
chướng mắt hàng xóm
1143. chị đừng tưởng bở nhà trường chỉ thưởng cho những người học xuất sắc
1144. uống chừng đó là tới ngưỡng của tôi rồi
1145. anh phải làm cái tượng ông thọ từ cây gỗ của cây phượng mới là thượng sách,
bác cả bảo thế
1146. nếu không để quả mướp cho cẩn thận thì bị người ta cướp mất đấy
1147. một ngày thằng chượp vươn vai đứng dậy đã trở thành người lớn
1148. mày để tóc ướt lướt thướt thế kia mà đi ngủ là ốm đấy
1149. ngoài sân chị chải mái tóc mượt mà làm sao khiến nhiều anh rượt đuổi mà
không theo được
1150. trong rừng có nhiều con hươu chúng luôn mồm kêu hườu, hưởu, hưỡu, hượu,
hướu nghe điếc cả tai
1151. hôm qua anh ấy mới mua con khướu nên nó chưa biết nói
1152. bà ấy bị bệnh bướu cổ đã lâu không khỏi
213
1153. lạc đà có cái bướu rất to và nặng
1154. làm được mứt ngon không phải dễ
1155. đang giảng bài khuy quần đứt phựt làm anh ấy ngượng quá
1156. thống nhất còn được gọi là thống nhứt theo tiếng miền nam
1157. bọn trẻ đánh nhau sứt đầu mẻ trán rồi
1158. thấy nó bị đứt tay anh đã bứt mấy cái lá chuối non dịt vào cho nó
1159. người con ưu tú được các dân tộc cưu mang đến giờ phút chót
1160. gia đình anh lưu lạc bấy nhiêu năm mới có dịp hội ngộ
1161. trên đồng cỏ con cừu nhìn tôi trừu mến vì gánh cỏ tôi mang cho nó
1162. chị biết tin là nhờ khứu giác mách bảo
1163. anh ấy đã cứu cho đội bóng một bàn thua trông thấy
1164. năm nay là năm sửu phải đi sưu tầm cừu giống mới
1165. con phải học thuộc bản cửu chương đi
1166. đứng trước linh cữu của người bạn cố hữu bà Lan rơi nước mắt
1167. ngoài vườn có cây lựu trước cửa nhà ông lưu nhiều quả lắm
4. Các câu trích từ tập truyện “Dế mèn phiêu lưu ký”
1. cái đói ghê ghớm cứ đánh liệt dần từng bộ phận trong người
2. bây giờ đến lúc nó đánh dúm khoeo lại chân run lẩy bẩy không đứng được lại
phải nằm bóp bụng xuống
3. từ chỗ này muốn qua chỗ khác chúng tôi chỉ lách nhích từng tẹo
4. chũi khẽ thở dài
5. chết mất anh ạ
6. đừng lo xem mây vận trời đêm nay có cơ đổi gió
7. anh thấy hình như có cái bóng xanh mờ mờ đằng kia
8. có phải đấy là bờ
9. gió mà đưa được anh em ta về cái bờ xanh xanh ấy là sống rồi
214
chũi bảo chũi không nhìn thấy 10.
còn tôi không biết là hoa mắt hay đấy cũng chỉ là cái bờ tưởng tượng trong hi 11.
vọng mà thôi
hơi sức mỗi lúc một khác 12.
chiều hôm ấy thì đã đến cung cảnh muốn nói đôi câu chúng tôi phải ghé xát vào 13.
nhau thì thào tiếng cứ phào phào
chũi băn khoăn muốn nói 14.
chũi hay nhìn chộm tôi 15.
tôi đoán thế 16.
tôi hỏi luôn 17.
chũi lắc đầu 18.
nhưng lát sau chũi nói 19.
thưa anh em nghĩ anh em mình khó lòng thoát chết 20.
chú đừng nghĩ thế mà nản lòng anh em ta 21.
anh mắng thì em cũng nói 22.
em tuyệt vọng rồi mắt em đói mờ đi rồi đây này 23.
chũi im một lát rồi lại thều thào 24.
em chộm nghĩ chết thì đành chết 25.
tôi ngắt lời 26.
chúng nghĩ rằng không nhẽ anh em ta lại chịu chết lênh đênh cả như thế này mà 27.
phải cứu sống lấy một
chú định để anh ăn thịt chú chú chịu hy sinh cho anh sống 28.
ta khen chú điều thủy chung đó 29.
nhưng em ơi sinh tử là lẽ thường 30.
31. mà mạng em cũng như mạng anh đều quý giá cả
huống chi chẳng lẽ chúng ta chịu nằm chết đói trên mặt nước này 32.
dù thế nào cũng không bao giờ nản chí 33.
215
chũi cứ khẩn khoản rồi chìa càng lên mời tôi ăn 34.
chũi gượng cười bảo rằng chũi có cụt cả hai càng không sao không thể chết vẫn 35.
khỏe như thường
chũi đã thấy có dế cụt càng như thế 36.
tôi gạt phắt đi và mắng chũi 37.
sau cùng anh em tôi ôm nhau mà khóc 38.
chũi ngửa mặt lên trời gần như ngất đi 39.
họ dế chúng tôi chỉ có khi sắp chết thì mới phải chịu nằm ngửa 40.
bây giờ thấy chũi thế tôi đã lo lo 41.
tôi sờ lên mặt chũi xem còn thở không rồi lay gọi 42.
43. mãi chũi mới ú ớ tỉnh
trời nghe trở gió ầm ầm trên mặt nước 44.
có lẽ gió này đưa chúng tôi vào bờ 45.
tôi chợp mắt cũng chiêm bao thấy thê 46.
tới nửa đêm tôi cũng mệt quá thiếp đi 47.
sớm sau nghe đầu bè có tiếng động rền như tiếng sấm 48.
tôi thức dậy hé cặp mắt nặng nề 49.
nhưng mắt vừa hé đã bị chói đầy ánh mặt trời 50.
tôi nhích đầu lên cổ đau như bị ai cứa 51.
thì ra bè chúng tôi từ lúc nào đã trôi vào gần một bờ cỏ 52.
53. cái tiếng rền như sấm đằng kia vang lại chỉ là những tiếng động quen thuộc của
làng xóm ở đằng ấy
tôi bò đến lay chũi 54.
chũi vẫn nằm nhuôi như chết 55.
tôi phải nghe và đập vào ngực xem còn thở không 56.
tôi ra cúi xuống ngậm nước phun vào mặt chũi 57.
chốc chũi hắt xì hơi hắt xì hơi liền ba cái 58.
216
vừa tỉnh mắt còn nhắm chũi đã rền rĩ kêu 59.
tôi trỏ vào bờ xanh xanh 60.
chũi nghển cổ rồi rú lên 61.
trông thấy sống thế là tự nhiên chúng tôi khỏe hẳn hơn lúc nẫy 62.
nhưng cũng phải đến chiều bè chúng tôi mới dạt vào 63.
chũi cũng làm như tôi không đến nỗi rơi xuống nước 64.
chúng tôi lên bờ để lại đằng sau cái bè trống không nhẹ bỗng vụt cái trôi vèo 65.
vèo vào gió nước
tôi cúi xuống gặm miếng cỏ 66.
bên cạnh chũi đã húc đầu hí húi ngồm ngoàm ngốn tự lúc nào 67.
thứ cỏ đó cỏ nước lá cứng nhiều gân và ngăm ngăm đắng 68.
phải như mọi ngày tôi chẳng thèm nghé răng 69.
ấy vậy mà lúc đó chén ngon đáo để 70.
thế mới biết đã đói nuốt đất cũng thấy được 71.
ăn xong trời đổ tối 72.
cẩn thận chúng tôi chạy một mạch vào trong đề phòng nếu đêm có mưa nước 73.
lên không cuốn đi được
đến bãi cỏ trên mô đất cao chúng tôi lăn ra đánh giấc say sưa 74.
sáng hôm sau tôi chèo lên ngọn hoa cỏ xước ngắm địa thế chỗ chúng tôi bạt 75.
phong vào
đó là khoảng bãi rộng lầy lội tùm bum hoàn toàn giống cọn nước 76.
quá phía trên đất hơi ráo nhưng cũng chỉ độc một thứ cây ké hoa vàng rượi 77.
sóng ấy xưa dày sống vất vả trong bùn lầy nước đọng 78.
hoặc giả cũng có thêm vài giống nữa nhưng ở cái xóm bùn lội đen ngòm với da 79.
dẻ chân tay loài ở bùn cũng tối om như thế
ít ai mới nhìn đã phân biệt ngay ra được 80.
xóm ở chơ vơ trong cái cù lao giữa nước 81.
217
82. suốt ngày bàn tán quanh quẩn lúc nào cũng vang động tiếng cãi cọ tranh nhau
đoán xuống xem đến bao giờ thì trời mưa suốt đời phải mong mưa
83. cứ điều qua tiếng lại mỗi miệng thêm một lời không ai nhịn ai uồng uồng oang
oang mãi lên
84. cánh này mà to tiếng thì phải biết là ầm ĩ
85. mới có cậu ễnh ương căng mép phình bụng chỉ nói một câu bình thường cũng đã
váng tai cả xung quanh rồi
86. chúng tôi vào đây nghe loạn xạ mà đi một lúc chưa gặp ai
87. mãi sau mới có anh rắn mòng trông thấy chúng tôi
rắn mòng ngoe ngoảy trườn ra 88.
89. chỉ có trẻ con nhút nhát thì sợ rắn mòng chứ thật ra anh rắn mòng hiền lành nhý
cái đụ dạ
90. không ai thấy anh nói bao giờ tưởng câm nhưng anh ấy chỉ có tính ít nói thôi
91. hằng ngày anh mòng vơ vẩn trên mặt nước đợi mồi
92. một vuỗi mắt một gã bọ bèo lạc tới anh tợp ngay
93. mòng đương lúc đói mới nghe tiếng chân chúng tôi đi tới động tai bèn bò ra và
đã rất thèm sẵn
94. nhưng khi thấy chúng tôi to lớn chân càng gai ngạnh ra không thể là mồi của
anh thì mòng ta lại cúp mắt xuống nhìn chỗ khác và trườn đi
95. sau có nhái bén trông thấy chúng tôi
96. thế là cả xóm lô nhô kéo ra
97. họ ra xem chúng tôi có gì cho ăn hoặc chúng tôi có phải thức ăn được không
98. nhưng thấy chúng tôi sừng bướng đầu mình bọc giáp sắt chân mang khí giới
nhọn sắc thì họ lại lờ vờ lảng dần
99. đã lâu trời không mưa không có nước dềnh vào xóm
100. nước hồ lâu mưa thì trong vắt chỉ đẹp mắt mà không có thức ăn nên dân cư
trong hồ đói lắm
218
101. bao giờ cũng vậy sự cùng quẫn hay khiến ta nghĩ ngộ và giận giữ
102. đã không biết vặc vào ai chẳng biết trời ở đâu mà lôi xuống bắt làm mưa
103. dù cho tiên sinh cóc có được tiếng là cậu ông trời chăng nữa thì cũng đành chịu
cho nên họ đâm ra rất nóng tính động một tí cũng cáu cỉnh bực tức nhau ầm cả
lên
104. trong xóm không lúc nào dứt tiếng chửi vã
105. thấy chẳng ăn thua gì mấy anh nọ lại lảng đi như rắn mòng
106. chỉ còn đôi ba bác cóc ngẩn ngơ đứng lại
107. một cóc tóp tép miệng như tợp được mồi vờ nhai cho đỡ thèm
108. một cóc khác bước ra cất lên một giọng rất văn vẻ hỏi chúng tôi
109. cóc vẫn nổi tiếng thầy đồ thầy đồ cóc trong những tranh tết
110. hà cớ mà nhị vị tráng sĩ du nhàn qua bản thôn
111. rõ chán nói chữ mà chưa chắc đã biết nghĩa
112. tôi bấm bụng nhịn cười thầy đồ cóc rồi tôi cũng dùng cái khoa giao thiệp hoa mĩ
khôi hài đó để đáp lại
113. thưa tiên sinh chúng tôi đi du lịch
114. vậy bỉ phu xin hỏi nhị vị tráng sĩ
115. thế thì chắc nhị vị phải nghe tiếng từ lâu rằng bỉ phu mặc dầu thanh bạch ở hang
dưới đất nhưng bỉ phu là cậu thằng trời đấy
116. nhị vị đã qua chơi nhiều nơi trên hoàn cầu nhị vị có gặp thằng trời đánh thánh
vật nhà tôi ở đâu không
117. chũi mỉm cười dùng càng khẽ hích tôi một cái
118. tôi nháy ý bảo phải nghiêm một chút gặp đứa dở hời thì mình cũng cứ liệu lời
cho qua chuyện mới được
119. tôi bèn lấy điệu vuốt cái râu tưởng tượng làm vẻ đứng đắn trả lời rằng
120. thưa tiên sinh chúng tôi có gặp ông trời
121. thế thì nếu như từ này về sau nhị vị tráng sĩ có còn gặp nó thì hỏi nó cho bỉ phu
219
rằng
122. vì lẽ gì mà lâu nay bản thông không có nước mưa
123. đến đỗi cậu nó đã nghiến mòn hết cả răng rồi đấy chăng
124. suýt nữa tôi bật cười thành tiếng
125. giỡn chơi thế chứ nào tôi biết cái lão trời trời đánh thánh vật ấy ở mô tê
126. tôi còn đương bụ miệng nhịn cười nhưng chũi đã ngứa tai không nhịn nổi vai
kịch bỗng choang một câu
127. trời với đất cậu với cháu thấy sang bắt quàng làm họ
128. nói thẳng thừng ra là muốn ăn mà chỉ ngửa tai thế thì kêu đến sái cổ gãy răng
gãy hàm nữa cũng chẳng quả sung nào rụng trúng vào mồm đâu
129. cóc còn đương ngơ ngác chưa nghe thủng câu nói mỉa mai của chũi tôi đã chen
vào át đi
130. tôi cung kính lễ phép nói to
131. thưa tiên sinh tôi nhớ ra rồi tôi nhớ rằng dù chưa được tiên sinh dặn thế chúng
tôi đã có câu hỏi việc lâu nay sao hạ giới không mưa
132. tôi cũng chẳng hiểu ra sao cả nhưng không dám hỏi nữa
133. cháu nó bận quá
134. chúng tôi nhắm mắt nhắm mũi lại lăn ra cười
135. đến khi mở được mắt không thấy cóc đâu nữa
136. chỉ thấy đi tới một chàng nhái bén gầy lêu đêu cao hai cái đùi bé quắt mà dài
quá nửa thân mình
137. bộ quần áo thể thao của nhái bén bó xát người cứ so le xộc xệch càng có cảm
tưởng như cẳng chân dài thêm ra
138. chúng tôi lại toan cười
139. nhưng mặt nhái bén vốn nhợt bây giờ nghiêm xám hẳn lại
140. tôi ngời có điều gì đây
141. quả thật lão cóc có tính khuếch khoác chứ không phải lão cóc là cục đất mà ai
220
chửi vào mũi lão cũng được
142. còn có câu ví gan cóc tía cơ mà
143. lão cũng thâm lắm
144. cho nên sự chế diễu và nhạo báng lão của chúng tôi không qua nổi ý tứ lão
145. đến lúc chúng tôi nhắm mắt lại cười vào mũi lão như thế nữa thì lão cáu lắm và
thành cái kết quả ngay là lão đi báo khắp xóm là có kẻ lạ vào xóm
146. nháy mắt nhái bén nhảy thoát đến trước mặt nói
147. đại vương ếch có lệnh đòi
148. chúng tôi theo nhái bén đến dưới một bụi cúc tần ẩm thấp nhớp nháp
149. đôi mắt lồi nghiêm nghị của lão ta cứ dương chừng chừng
150. hai khoeo chân trước khoành ra
151. đôi chân sau xếp tè he lại
152. đặc biệt trên gáy lão ta điểm mấy miếng xanh ở cổ áo và lưng áo như hạt cốm
153. bởi thế lão cũng có tên là ếch cốm
154. và có lẽ trong cảnh đói kém này lão cậy mình còn to béo khỏe mạnh nhất vùng
nên lão tự xưng là đại vương đại vương ếch cốm
155. với chúng tôi đại vương hay là cái gì là cái gì thì cũng chẳng bận tâm
156. qua câu chuyện tôi chỉ có nhận xét cái tính lão cũng hệt bọn đồ cóc đã dốt đặc
lại hay khoe chữ
157. cái tính khoác lác của ếch thì một tấc đến trời hơn cóc nhiều
158. chuyện với anh nõi khoác nó chỉ biết nó nói cho mình nghe và không biết nghe
ai nói cả cứ tức anh ách như bị bò đá
159. ếch cốm hỏi hay nói cũng không rõ
160. chúng bay sang buôn ngọc bên vùng rùa rùa trong chân núi
161. đây vào đến vùng rùa rùa còn xa một phiên chợ
162. chũi xẵng tiếng ngắt lời
163. không không đến vùng rùa rùa
221
164. ta biết rồi ngày trước ta đã vào vùng rùa rùa trong chân núi đấy
165. nói có mấy câu thì đầu đuôi câu nào cũng ngày trước ta và biết rồi biết rồi
166. nên cho anh chàng khuếch khoác này thêm cái biệt hiệu là anh ngày trước ta hay
anh biết rồi nữa
167. cái lão đại vương ếch cốm thông thái giả hiệu này chẳng biết cóc gì nhưng cái gì
cũng nói trước
168. cái gì cũng ta đã biết ngày trước thì cái gì ta cũng biết cái gì ta cũng giỏi
169. bây giờ tôi mới rõ câu tục ngữ ếch ngồi đáy giếng thế mà thâm và ý nghĩa sâu
170. không ai chịu được những anh đã dốt lại tự đắc và dở hơi
171. chũi lại có tính nóng nảy
172. chũi văng một câu
173. này này ông hỏi chúng tôi đã trả lời đâu mà ông biết được
174. ông chẳng biết cóc gì hết
175. ông là ếch ngồi đáy giếng
176. hôm nay mới thấy thật ếch ngồi đáy giếng
177. ếch cốm tức quá hét ầm lên đuổi chũi
178. chũi điềm nhiên dơ càng
179. ếch cốm không dám xông đến
180. chúng tôi không chạy
181. làm vẻ công nghênh thế cũng không tốt nhưng lúc ấy chúng tôi lấy làm thú vị
như thế đấy
182. ếch cốm gọi cả xóm lại bàn cách lện chúng tôi
183. nhưng buồn cười thay xóm này mới chỉ dỉ tai bàn bí mật mà chúng tôi đi tận xa
xa cũng nghe rõ từng lời uôm oạp
184. nói thế này nói thế nọ cứ ầm ĩ rối xòe
185. ai cũng kêu là ghét hai thằng láo lếu giá thấy mặt bây giờ thì phải đánh cho
chúng mấy đánh
222
186. phải vặn cổ nó xuống tức lắm phải lện cho chúng nó một trận nhừ tử
187. ếch cử ễnh ương và chẫu chàng đi đánh chúng tôi
188. cả hai anh chàng cùng nhăn nhó là có bệnh đau bụng kinh niên
189. ếch bảo cóc
190. đáng lẽ cóc phải hăng hái đi nhất
191. thì cóc trả lời rằng với chúng tôi cóc là chỗ quen biết xưa nay có giao thiệp
192. vả chăng đã là thầy đồ nho nhã biết ngậm cái bút lông mèo thì không bao giờ lại
thượng cẳng chân hạ cẳng tay như kẻ tầm thường
193. đến lượt nhái bén nhái bén nghoẹo mình dơ mạng sườn làm hiệu và kiếu
194. tôi gầy lắm một đứa thổi mạnh một cái tôi cũng ngã huống chi chúng nó những
hai đứa
195. rắn mòng khước rằng mình vừa lột xương cốt còn mỏng manh lắm chưa làm
việc nặng được
196. đến khi cả bọn cóc, ễnh ương, nhái bén, chẫu chàng, rắn mòng đồng thanh cử
đại vương ếch cốm hãy tạm rời cái mà ếch mùa đông ở bờ đầm nước và cái sập
gạch kiên cố ấy bước ra đi trước họ sẽ theo sau trợ chiến thì ếch ta phồng bụng
phồng mép chố mắt quát
197. như ta đây đường đường một đấng trượng phu hai nhãi ấy chưa đáng mặt đọ sức
với ta
198. rút cuộc ai về nhà nấy và lại làm công việc hàng ngày của mình
199. mòng và cóc đi rình muỗi
200. nhái bén leo cây
201. chẫu chàng hát ngêu ngao
202. còn đại vương ếch vẫn lặng im tư lự một cách vô tích sự trên hòn gạch vuông
203. suốt mùa đông lão ngồi ngậm hơi không một lần nhích đít khỏi cái sập oai vệ
trong cái nhà của lăo
204. chúng tôi chẳng muốn gây sự và cũng không lưu luyến gì đất này đất buồn
223
205. có đáng kỉ niệm ở đây chỉ là nhớ cái nơi mà chúng tôi lênh đênh từ ngoài nước
lớn dạt vào một lần thoát chết
206. chúng tôi định vượt qua đấy
207. có thể tìm ở đấy một ít cỏ tốt rồi nghỉ ngơi ít ngày chăng
208. chũi nhảy tũm xuống nước bơi sang
209. bơi một quãng bỗng nhiên chìm nghỉm
210. cả hai cái râu cũng không thấy ngo ngoe trên mặt nước như bị đột ngột rút chân
xuống
211. chốc thấy chũi ngoi lên kêu váng mặt nước rồi hớt hải quay lại
212. tôi định thần nhìn kĩ thấy quanh đấy có luồng sóng cồn đuổi theo
213. một đàn cá săn sắt đương rầm rập kéo đến
214. những cái đuôi cờ ngũ sắc bay hoa cả mặt nước
215. vừa rồi mải bơi chính là chũi bị mấy gă săn sắt ấy kéo tụt xuống
216. chũi cố vùng thoát lên
217. bấy giờ tôi mới kinh hãi nhìn dần ra khắp dọc sông
218. chỗ nào cũng thấy đông đặc cá săn sắt với những đuôi cờ múa rợp bóng nước
219. chúng lượn đi lượn lại vẻ nghênh ngang chặn đường
220. cái này chắc có âm mưu gì đây
221. rồi tôi thấy săn sắt kéo đến mép nước phía chúng tôi hầm hè toan nhảy lên bờ
đòi choảng nhau rất hung hăng
222. thế này thì phải tìm cách tẩu tán ngay mới được
223. ờ có thể ếch cốm lập ra mưu này
224. cái lão ếch cốm khoác lác một tấc đến trời mà cũng mưu lược gớm
225. lại vài mụ diếc trắng trẻo béo tròn con quay lò mò đến
226. các mụ tung tăng múa vây múa gáy
227. rồi mấy bác cá ngão mắt lồi đỏ dài nghêu mõm nhọn ngoác ra ở đâu bơi chớp
224
nhoáng đến đỗ kề ngay bờ trước mặt há miệng đợi đớp
228. ôi chao nếu không mau chân bọn này cứ thắt mãi vòng vây chí nguy
229. chũi nóng tính nóng hăng thì cũng nóng nhụt
230. chưa tri cả mà đã hốt
231. khoan khoan liệu việc nhốn nháo thì hỏng đấy
232. bỗng chũi lại chu lên
233. kìa kìa lũ nữa đến
234. nhìn lên đầu sông thấy mấy cá chuối đương lừ lừ tới
235. bóng cá chuối loáng cả dòng nước răng nhe trắng như lưỡi cưa
236. nó lướt vào trước mặt thì dòng nước đương trong vắt bỗng đen rạm như nền trời
cơn mưa
237. phải tính việc tẩu ngay
238. tôi sẽ bay qua ngay trên đầu chúng nó
239. nhưng đôi cánh của chũi ngắn thun lủn không thể bay xa thế
240. trong khi ấy nếu còn chù chừ thì chết
241. đàn cá chuối hung hăng sẽ ngoi lên tận bờ bùn này đớp chân chúng tôi
242. một thằng lươn có thể độn thổ lên ngay vũng bùn chân tôi đứng đây
243. tại sao nên tai nạn như vậy
244. về sau tôi mới hiểu chỉ vì cái thói kịch ác và sự coi thường xung quanh của
chúng tôi
245. chẳng biết bị khích thế nào mà cả xóm ếch nhái đương buồn bã kia bỗng phát
cáu cả lên
246. và các xóm cá ngoài này nghe tin hai thắng dế bơ vơ ở đâu đến làm loạn sông
thì cá ra đánh đuổi đi
247. lúc ấy tôi khom cười xuống
248. tôi đã nghĩ ra một cách
249. tôi bảo chũi chèo lên lưng
225
250. tôi mím miệng nghiến rắng gắng sức bình sinh cõng chũi bay qua sông
251. không cất cao mình lên được tôi chỉ đủ sức bay là là mặt nước
252. cả đàn mấy chục cá đuổi theo chen nhau đánh sóng và quẫy đuôi ngoáp miệng
bắn nước lên đầy mặt tôi ướt cánh và ướt cả bụng
253. lưng tôi nặng như có hòn núi đá đè
254. cuối cùng tôi lướt khỏi mặt nước sang tới bên này bãi cỏ
255. tôi lăn kềnh ra bãi trong khi chũi bị hất tung ngã tít đằng kia
256. trở dậy trông lại bờ bên ấy đã thấy cả xóm ếch nhái kéo ra
257. tuy vậy vẫn không thấy đại vương ếch cốm đâu
258. thêm viện binh bốn bác cua núi đen sì như bốn cái xe bọc sắt to kềnh múa lên
những cái càng rất lớn
259. tưởng bị càng đó cắp thì bụng tôi có thiết giáp cũng phải phì ruột
260. nhưng chúng tôi đã qua được sông
261. thách cũng chẳng mống cá nào dám lên bờ đuổi
262. nghĩ cứng thế nhưng tôi lại chợt nghĩ thêm biết đâu ai học được chữ ngờ
263. tôi vội bảo chũi cùng nhau chạy chốn ngay
264. chũi cũng thông cảm
265. chúng tôi biến rất nhanh
266. tuy vậy trước khi chạy vẫn làm oai ta đây
267. chúng tôi dơ càng lên chúng tôi di di hát một bài
268. trên trời chuồn chuồn bay sát cánh rợp cả nắng
269. cậu kỉm kìm kim gày còm chỉ lượn được dưới thấp nhưng cũng tung tăng ra
dáng lắm
270. tôi hỏi thêm rằng như anh em chúng tôi muốn đi xem hội thi võ có được không
271. thế là chúng tôi đi theo chuồn chuồn chảy hội
272. họ bay trên không
273. chúng tôi đi dưới
226
274. đôi lúc khoái chí tôi cũng cất cánh bay chơi một quãng
275. trên đường còn gặp vô khối khách nô nức chảy hội
276. cả những ông liềng nghiễng đen nháy quanh năm không ra khỏi mép cái lá sen
mặt nước cũng lịch kịch cất bước ra đi
277. sự tích hội thi võ như thế này
278. nguyên ở vùng cỏ may hàng năm đến mùa hoa may chín trắng bạc khắp miền thì
có hội lễ
279. năm ngoái cụ bọ ngựa già ốm rồi khuất núi
280. năm nay dân cả vùng nhân hội hoa lau mở luôn hội thi vơ lấy ai tài giỏi nhất để
đứng ra coi sóc việc chung trong vùng
281. Đó cũng là phong tục lâu năm của vùng cỏ may
282. giữa vùng cỏ may chân cỏ đỏ tía đầu hoa rám trắng lóng lánh dựng lên cái võ
đài đồ sộ cao toàn bằng bỗ cây lau ngà vàng đứng cuối bãi trông lên rõ mồn một
283. đài rõ chắc chắn đẹp có ghế ông cầm trịch ngồi trên lợp lá cỏ mật và treo từng
chùm hoa ké vàng mọng buông xuống lắc lư trong gió
284. những hôm đầu là đấu loại
285. nhiều anh chấu chấu vừa nứt mắt đã bắng nhắng lên đài
286. ngựa non háu đá
287. những gã ngông nghênh đó thật ra chưa có nổi ba hột sức
288. mới tự chân mình đá ra mấy cái cũng đã run rẩy cả người rồi đứng thở hồng hộc
289. vì thế chỉ có các anh ấy tưởng có võ mình là tuyệt thôi còn khách xem thì thấy
cuộc đấu loạc choạc ngấy
290. họ đi chơi hội hơn là xem thi võ
291. mấy ngày sau võ đài mới bắt đầu rầm rộ bởi vì những tay võ xoàng đã bị lọc hết
292. bao nhiêu cậu ti toe đều bạt xuống chân đài cả rồi
293. chỉ còn lại có hai tay cứng vào đấu vòng cuối là bọ muỗm và bọ ngựa
294. hai tráng sĩ trong vùng đấy
227
295. sáng hôm ấy trước khi ra xem thi đấu tôi một mình dạo chơi quanh bãi nhìn
thiên hạ nô nức kéo tới xem hội động như nêm cối
296. những chị cào cào trong làng ra mĩ miều áo đỏ áo xanh mớ ba mớ bẩy từng chân
bước chầm chậm khoan thai như e thẹn như làm dáng như ngượng ngùng
297. các anh châu chấu ma thì mặt mũi xấu xí nhưng chúa là hay lơn tơn đón đường
co kéo các nàng cào cào xinh đẹp vào trò chuyện vẩn vơ trong vườn cỏ non
những hàng quán dọc đường
298. thấy bụng đói đói tôi cũng tản vào quán làm vài nhánh cỏ lót dạ
299. chấu chấu cào cào bọ muỗm bọ ngựa rậm rịch ra vào chè chén
300. bỗng thấy chú chấu chấu ma đang nhảy nhót khoe tài quanh các nàng cào cào
vội né dạt về một bên
301. rồi trong cửa hàng chợt im tiếng ồn ào
302. tôi thấy trịnh trọng tiến vào một anh bọ ngựa
303. người ngợm anh bọ ngựa này cũng bình thường thôi nhưng chưa hiểu sao anh
làm ra lối quan rạng
304. anh đi cứ chân nhấc từng bước cao ngang đầu gối kiểu bước chân ngỗng
305. kiểu cách rất ta đây kẻ dờ và hách dịch phát xít
306. cái khớp cổ vươn ra
307. cái mặt ngắn cằm vuông bạnh lên
308. con mắt đu đưa tưởng như ai xung quanh chỉ có việc nhìn anh ta
309. hai sợi râu óng ả mấp máy phát lên phất xuống
310. hai lưỡi gươm bên mạng sườn lưỡi có răng cưa luôn luôn co vào trước ngực ra
lối ta con nhà võ đi đứng đúng kiểu võ lúc nào cũng giữ thế giữ miếng
311. trông bộ tịch anh ta như thế nhưng tôi cũng không để tâm
312. bởi vì tôi đã biết thường những anh tính hay khoe thì cái gì cũng ra miệng hết và
chỉ có ở miệng chứ trong bụng nhiều khi chẳng có cóc khô gì
313. như anh này chắc có mấy miếng võ xoàng thì đã trổ ra tay chân mặt mũi cả rồi
228
chẳng còn gì để phải chú ý nữa
314. vả chẳng tôi cũng đâu cần để mắt đến cái oai rơm rác và lố bịch ấy
315. có nghĩa là lúc đó tôi vẫn đủng đỉnh giữa cửa quán hàng như không trông thấy
võ sĩ bọ ngựa đi vào
316. thấy thế thằng bọ ngựa phũ tính bổ luôn cho tôi một nhát gươm vào đầu
317. tôi nhảy trái đá hậu một cú song phi
318. hắn né được và co hai gươm định quạng tôi nữa
319. thấy có xung đột bao nhiêu khách hàng bỏ chạy hết
320. các chị cào cào hốt hoảng nhảy tung rách cả vạt áo màu
321. nhưng gã bọ ngựa không xông vào nữa mà chỉ dơ gươm trỏ mặt tôi bảo
322. có giỏi chốc nữa lên đài
323. tôi cười khềnh nói lịch sự mỉa mai
324. sau đó bọ ngựa thật tức cười lại trịnh trọng và kiểu cách khệnh khạng bước kiểu
chân ngỗng đúng như lúc nẫy
325. đám đông dần trở lại
326. quán cỏ lại chen chân đông nghịt
327. bây giờ họ xúm quanh tôi
328. bác cành cạch ngã lúc nãy đã dậy được nhô cái mũi nhọn đến thở hổn hển nói
329. chú mình ơi chú mình dại thế chắc chú mình ở xa đến chưa biết
330. cả vùng này không ai dám động đến cái lông chân ông ấy đâu
331. ông ấy phen này hẳn tranh được chân trạng võ nối chức cụ võ sư bọ ngựa rồi
332. chú mày biết điều thì mau mau tránh đi nơi khác là hơn
333. cảm ơn chư vị
334. bình sinh trên đời tôi không hề biết sợ lời đe dọa nào cả
335. chú mình gở chết hay sao
336. tôi ở quán bán cỏ ra
337. lời lẽ nhát sợ của bác cành cạch nọ là tôi khó chịu
229
338. tôi phải bước vào rừng cỏ ngắm làn hoa may đương trong gió tràn ngập phơi
phới cho tĩnh tâm lại
339. khi trở vào đám hội trên võ đài đã đương vào cuộc thi tài
340. tôi rất ngạc nhiên thấy chũi đứng sừng sững trên đài sắp đấu với anh bọ muỗm
341. thì ra chú chũi nhà tôi bấy lâu vẫn còn căm nhà bọ muỗm
342. cái trận đòn ác của các mụ bọ muỗm nanh ác ngày ấy vẫn chưa thể quên
343. còn căm nặng đến độ bây giờ chỉ gặp một gã bọ muỗm xa lạ cũng khiến chũi nổi
máu đòn thù
344. chũi lên đài ngay
345. gã bọ muỗm kia đã đánh ngã mấy địch thủ nhép hôm qua
346. đằng đuôi mắc thêm lưỡi gươm cong hoắt
347. đầu gã lớn mút nhọn lại húc rất khỏe
348. hai vành râu trắng phau
349. đôi mắt to hó như mắt cá
350. hai tảng răng thì đen và nhọn khoằm khoặm
351. nếu không có chũi lên võ đài thì bọ muỗm được đấu thẳng với bọ ngựa để tranh
chức trạng võ này
352. hai võ sĩ đã ra đài
353. cụ châu chấu già lụ khụ đã bạc cả lưng có cái gân đen nổi gồ trên chán ra ngồi
cầm trịch
354. chũi và bọ muỗm sau khi mỗi anh đi một bài võ ra mắt như các tay đô vật múa
lên đâì rồi đứng lại ngó nhau một giây từ từ đưa chân lên vuốt râu đàng hoàng
mấy cái bất thình lình ập vào đấu đá liền
355. chũi xử đôi càng khéo lắm
356. từ ngày ra đi chũi học thêm được nhiều miếng võ đường quyền coi rất ngoạn
mục và kín
357. bọ muỗm kia thì không cần võ chỉ cậy sức cứ lăn xả vào thọc gươm và cắn lia
230
lịa
358. loanh qoanh một lát bọ muỗm đã mệt phờ
359. bấy giờ chũi mới mở sức
360. chũi nhẩy phốc lên đưa hai quả trùy càng ép bẹp vỡ cặp kính bảo vệ mắt của bọ
muỗm rồi kết thúc thêm một đá làm gã kia ngã ngửa rướn lưng mấy lần mà
không dậy được
361. cụ châu chấu cầm trịch thong thả bước tới dắt chàng được trận ra một bên và
tuyên bố kẻ thắng trận
362. cả bãi xôn xao
363. vừa hoan hô vừa lạ lùng vì chưa ai biết võ sĩ chũi tài giỏi ấy quê ở đâu ta
364. võ sĩ dế chũi thắng võ sĩ bọ muỗm
365. còn ai lên đấu với võ sĩ dế chũi
366. tiếng ông cụ gọi loa vang đài
367. ai nấy lặng yên nghe lặng yên nghe
368. bỗng một tiếng đáp vang động
369. rồi anh chàng bọ ngựa ban nãy vừa lôi thôi với tôi nhảy vót lên
370. cơ nguy cho chũi vì xem chàng chũi có vẻ mệt
371. vả lại bọ ngựa ngông ngáo nhớ chuyện ban nãy ở quán hàng cái bực mình trong
tôi tức tốc trở lại
372. tôi phắt lên đài quát
373. khoan khoan đây trước đã nhớ hẹn chứ
374. bọ ngựa lùi lại rồi à một tiếng rõ to nghênh hai thanh gươm lên vẫn một điệu
khinh bạc và tự cao tự đại rất là ngô nghê
375. lại như lệ trên trường đấu ngày ấy trước khi vào cuộc mỗi bên biểu diễn một vài
đường quyền theo sở trường của mình
376. bọ ngựa đứng vươn mình đi bài xong kiếm
377. bóng kiếm loang loáng mù mịt như hoa may điệu bộ khá đẹp mắt
231
378. tôi chẳng cần đi bài gì hết
379. tôi đứng nghiêng người về đằng trước hếch hai càng lên
380. cứ hai càng ấy tôi đạp phóng tanh tách liên liến một hồi
381. gió tuôn thành luồng xuống bay cả áo xanh áo đỏ các cô cào cào đứng gần
382. tôi ra oai sức khỏe
383. lúc vào đấu bọ ngựa cao nên lợi đòn
384. hai gươm hắn bổ xuống đầu tôi chan chát
385. nhưng đầu tôi đầu gỗ lim
386. tôi lựa cách đỡ không vần gì hết
387. còn tôi đoản người tôi nhè bụng hắn mà đá khiến có lúc hắn phải hạ gươm
xuống đỡ mất đà đâm loạng choạng
388. hắn định lách gươm nghiêng vào khe họng tôi chỗ hiểm
389. cuống họng tôi có khe thịt dễ đứt như chơi
390. thấy thế nguy tôi gỡ đòn cúi xuống thúc nhanh một răng rất sâu vào bụng hắn
391. choáng người bọ ngựa nhảy lộn qua lưng tôi
392. tôi cũng chỉ đợi có thế
393. vừa đúng đà càng lừa vào miếng võ gia truyền của nhà dế
394. tôi lấy tấn đá hậu đánh phách
395. một cái đá trời giáng vào giữa mặt anh chàng
396. chàng bọ ngựa kiêu ngạo rú lên một tiếng bắn tung lên trời rơi tọt ra ngoài võ
đài ngã vào đám đông xôn xao
397. tôi đã hạ địch thủ một cách vẻ vang
398. trong khi dưới đám hội còn đương ồn ào nhốn nháo vì không ai ngờ võ sĩ bọ
ngựa giỏi võ nhất vùng lại thua nhanh và thua đau như thế và thua bởi một
chàng dế mèn lạ mặt ở đâu đến
399. còn chưa ai hết lạ lùng thì cụ châu chấu cầm trịch lại trịnh trọng dơ loa lên ba
lần đều đặn hô vang vang xuống
232
400. tôi xin hỏi đông đủ các võ sĩ trong thiên hạ tề tịu quanh võ đài
401. có còn ai lên nữa chăng
402. cả đám hội im lặng
403. cụ châu chấu cầm trịch lại hô tiếp
404. bây giờ trận tranh hùng kết thúc
405. ô hay tôi sẽ đấu võ với chũi
406. tôi nhìn sang chũi
407. vừa lúc chũi nhìn lại tôi
408. chúng tôi cùng nhau đi đến đất này để đấu võ tranh quyền với nhau ý
409. bất giác tôi tiến lại chũi đứng thẳng hai chân trước khoác vai chũi
410. hai chúng tôi hướng xuống dưới võ đài
411. khắp bãi rờn bóng hoa may tụ tập hàng nghìn vạn các loài trong vùng đi xem
hội võ
412. tôi nói to lên rằng
413. thưa chư vị anh em chúng tôi vừa từ phương xa tới đây
414. cái chủ đích của chúng tôi thật không định tranh lèo giật giải gì ở đất này
415. đất lành chim đậu thấy phong tục vui thì chúng tôi đến góp mặt vui chung mà
thôi
416. bây giờ cái điều chúng tôi không chờ đợi là anh hùng bốn phương đều đã lui cả
mà nhường quyền đọ sức cao thấp sau cùng cho anh em chúng tôi
417. với sự tranh đua anh em tôi xin lỗi không thể
418. bởi vì sao chắc các vị đã rõ
419. còn về ngôi thứ trách nhiệm thì anh em chúng tôi cũng xin lỗi không dám
420. anh em chúng tôi chỉ là hai kẻ giang hồ vốn trọng nghĩa khinh tài thấy đất que
đẹp đẽ thì ghé tời trên đường đi mà không ý định ở đâu cả
421. dám xin chư vị xét cho
422. tôi vừa nói xong ở dưới vang lên tiếng the thé tiếng ầm ầm
233
423. kẻ thì bảo nhất quyết phải mời chúng tôi ra thi đấu lệ vùng này nghìn xưa như
thế
424. kẻ thì rằng thôi
425. một cụ châu chấu một cụ bọ ngựa một cụ cành cạch một cụ cào cào một cụ
niềng nghiễng
426. các cụ ra nói với chúng tôi rằng
427. thưa hai võ sĩ đất lành chim đậu
428. hai võ sĩ qua đây lại có lòng lên thi thố tài nghệ siêu quần
429. thiên hạ không còn ai đối địch nổi
430. thật là phúc cho chúng tôi
431. vả như thế cái lệ đấu có thể bỏ đi được
432. đó là nguyện vọng và phong tục đất chúng tôi hàng bao đời vẫn chọn tài như thế
không thể khác
433. tôi thì hết lời từ chối
434. còn chũi đứng lặng không nói
435. về sau tôi mới biết sự im lặng của chũi có một ý nghĩa riêng
436. tôi đành phải nhận
437. thế là cả đám hội ầm vang lời hoan hô tôn chúng tôi lên là chánh phó thủ lĩnh
đứng đầu các làng trong vùng cỏ may này
438. cả đám hội xô vào làm kiệu rước hai tôi lên đi chen trong đám đông và hoa cỏ
may
439. các chị cào cào áo xanh áo đỏ làm duyên đứng nghiêng khuôn mặt dài ngoẵng
nhìn theo chúng tôi một đỗi rất lâu tỏ vẻ mến phục
440. tất cả tung cỏ tung hoa may dấu hiệu hoan hô
441. lồng dân cử bài hát rầm rộ
442. rồi tất cả mừng rỡ cầm tay nhau khiêu vũ
443. cành cạch với châu chấu cào cào với bọ muỗm nhảy múa linh đình
234
444. từ trong hang trong lá ra đến ngoài bãi ngoài đồng hoa may trắng ngát chân trời
445. tôi bước lên đài uốn éo múa càng rung cánh trổ một bài hát rất du dương
446. chũi thì hớn hở hơn ai hết
447. thì ra lúc nãy cu cậu im không nói chỉ là sợ tôi từ chối cái địa vị thủ lĩnh
448. đến khi thấy tôi nhận lời chũi ta hét inh lên múa rối rít hai càng khiến những bác
cành cạch nhút nhát mới đầu cũng sợ đáo để
449. tôi thì tôi hơi buồn và băn khoăn
450. nể quá mà phải nhận lời đó thôi
451. tôi vẫn chỉ muốn được thỏa chí nguyện của mình là đi đây đi đó thế đủ sung
sướng rồi
452. trái với tôi chũi rất thú vị
453. tôi bảo chũi
454. đừng tưởng thấy an nhàn mà vui
455. đời ta trẻ lắm mà sống chỉ thấy an nhàn thế này thì buồn tẻ khác nào khi chúng
ta còn ở trong hang quê nhà
456. chũi ơi đừng quên chúng mình đương dong duổi trên đường đi tìm cái ý nghĩa
thật của cuộc đời này
457. mà cũng đừng để cho cái an nhàn giữ được chân ta
458. việc đời khó lắm và không chỉ có thế đâu
459. quả nhiên mùa đông năm ấy xảy ra một việc biến lớn
460. cỏ may trên bờ đường đi đã tàn
461. những con bò gầy tọp giũi toét cả mũi cũng chỉ được mấy chĩa rễ cỏ khô
462. người trong làng ra đồng gặt lúa
463. cánh đồng vàng rượi kia đã được người ta lấy liềm gặt bó từng lượm cái đòn sóc
đâm ngang thành từng gánh quảy về sân
464. trên mênh mông chỉ còn trơ lại những gốc rạ khô
465. thế là mùa rét đã tới
235
466. cánh đồng vắng ngắt màu xám trên trời và màu xám dưới đất đã liền vào nhau
và ở giữa có gió gào suốt đêm ngày
467. trẻ con ra ngoài đồng thì lạnh tai và đỏ hắt mũi
468. rét quá rúm cả chân
469. chẳng ai có thể ở rốn trên cánh đồng không được
470. phải đi tìm nơi tránh rét
471. nếu cứ phong phanh giữa trời suốt mùa đông thì đến chết cả
472. bởi thế đã thành thói quen từ xưa cứ mùa rét đến thì các loài sống trong vùng
này lại bỏ cánh đồng lạnh ngắt lạnh ngơ mà lũ lượt đi kiếm nơi tránh rét
473. có khi phải tranh cướp đánh nhau mới tìm được chỗ
474. bởi vì trong mùa rét nhiều loài khác cũng đã tìm kiếm chỗ ở ấm như thói quen
của châu chấu
475. tôi bảo chũi
476. có phải thế không chũi đã thấy nhé cuộc đời này chưa thể ngồi yên để cười được
477. lo cho cái sống cũng đã gay gắt lám đây
478. kìa bao nhiêu loài phải xô đẩy nhau đi tìm chỗ ẩn cho mùa đông tháng giá
479. những con chim nhỏ xấu số ở dưới lạnh nằm chết trong tuyết
480. mùa đông đã đem cái rét khủng khiếp đến kìa
481. tôi bảo bà con rằng
482. cái rét đã đến ngoài đồng rồi
483. chúng ta hãy kíp đi tìm nơi ấm áp mà trú ẩn
484. chẳng mấy lúc không còn thấy bóng ai ngoài trời nữa
485. bọn chuồn chuồn cánh mỏng cả các cậu kỉm kìm kim ốm o biết mình không
chịu nổi nửa cơn gió giật đã mò mẫm đi trước nhất
486. cánh anh em nhà niềng nghiễng thì lặn xuống bùn với anh cọng vó bên cạnh
những cua những ếch lo rét đương vội vã đắp những cái mà lô nhô quanh bờ các
đầm ao
236
487. châu chấu cào cào bọ ngựa bọ muỗm thì đi tìm khe dứa dại
488. trong mùa đông chỉ có những bụi dứa dại vẫn xanh nguyên
489. mỗi chiếc là dứa dỏng cái tai cứng lên nền trời xám
490. kẽ lá dứa sâu hoắm có thể chui được vào đấy nằm chổng đuôi ra bất chấp gió
mưa bên ngoài
491. cứ chui vào đấy nằm yên đấy cho đến khi những ngày xuân trở lại thấy cái ấm
đậu xuống hai vai và nghe thấy tiếng con chim chích kêu vui tranh trách ngoài
khe lá thế là biết mùa mới đã tới lúc ấy mới bước ra
492. chúng tôi đương đi tìm chỗ ở mùa đông
493. tìm chỗ ở mùa đông là việc năm nào cũng phải làm và bao giờ cũng gian nan
494. bởi vì không bao giờ và không ở đâu chỗ nào cũng cứ đến thì đã sắn chỗ
495. ấy thế là cái cảnh tranh dành lắm khi đổ máu lại thường diễn ra
496. ngoài đồng mây đen cuồn cuộn gió tan tác mặt đất và gió thổi lùa cái giá buốt
vào tận ruột gan
497. không ai muốn cất một bước
498. thế mà vẫn phải đi đi mãi đi mãi vẫn chưa tìm thấy đâu chỗ ẩn náu
499. khe lá nào gốc cây nào cũng đầy rẫy các loài áo mỏng vào tránh rét chốn rét
500. mỗi sáng ra lại bỏ lại bỏ lại ven đường mấy cái xác bạn rất đau thương mà vẫn
chưa bới được nơi trú ngụ
501. lại phải đánh nhau thôi
502. một là sống hai là chết
503. có đánh nhau mới giành được chỗ ở
504. tiếng bàn tán và than thở như thế trong đám đông mỗi lúc càng xôn xao
505. mấy anh bọ muỗm cao cẳng rón chân đi thám thính xem đã ai đến ở chưa
506. quân thám thính về báo
507. cả đoàn sau lưng chúng tôi la ó và kêu ràm rĩ
508. họ không muốn đi
237
509. họ không đi nổi nữa
510. tôi chù chừ một lát
511. rồi sau thấy đám đông ùn lên nhốn nháo
512. thế là tôi cũng hùa theo
513. chúng tôi kêu lên cứ xông vào đánh nhau thì đánh nhau chết thôi
514. thế là chúng tôi kéo đến từng gốc dứa leo lên lách vào khe lá đầy gai cụ ở ngoài
cứ cắn đuôi từng châu chấu voi mà lôi giật lùi ra
515. khó chịu bọn châu chấu voi phải nhảy cả ra
516. thế là chúng tôi một phần tranh nhau nhảy vào khe dứa hở
517. một phần thì xúm lại đánh cho châu chấu voi không quay vào được nữa
518. bọn châu chấu voi khỏe lắm
519. anh nào cũng rất hùng dũng và hiên ngang
520. chẳng trách họ mang tên là châu chấu voi
521. này một châu chấu voi đương thoắt xông tới
522. sắc xanh biếc lưng cao nhọn và ngang ngạnh lên
523. hai chiếc râu trổ ra dữ như hai cái đinh
524. chẳng cần biết mình có thể yếu thế bởi vì mỗi châu chấu voi to gấp mấy lần
châu chấu nhưng chúng tôi cứ lăn xả vào vây đánh
525. chúng tôi đương hăng đương liều
526. choảng nhau rối rít đến tận chiều cũng chưa ngã ngũ bên được bên thua
527. đám đã chui vào chiếm khe dứa sợ quá lại phải nhảo cả ra
528. thế là chúng tôi vẫn long đong bên ngoài trời rét buốt đến tận óc
529. nhưng có điều đau đơn cho tôi là chũi bị châu chấu voi bắt làm tù binh
530. chũi bị châu chấu voi bắt làm tù binh rồi
531. cả đêm tôi trằn trọc lo không chợp được mắt
532. mờ mờ hôm sau chúng tôi đông hàng nghìn kéo vao vây rặng dứa
533. phải cứu chũi kì được trước nhất
238
534. nhưng khi xô lên nhòm vào khe lá thì lạ thay rỗng tuếch không còn bóng một
châu chấu voi
535. họ đã rút đi từ lúc nào
536. có lẽ sợ chúng tôi đông quá và tránh cái hung hăng quyết choảng nhau thí mạng
của chúng tôi
537. họ đã đi từ ban đêm
538. thôi thế dù sao cũng là xong nỗi lo mùa đông
539. nhưng được chỗ ở ấm rồi mà tôi cứ ngao ngán cả người
540. bởi vì lúc rút chạy châu chấu voi đã mang đi cả tù bình
541. chũi mất tích rồi
542. chúng tôi vào ở kín cả trong bụi dứa
543. ngày đêm trên khe gió hú gió gào bên ngoài nhưng ở trong vẫn ấm áp và êm
đềm như thường
544. khi nơi ăn chốn ở đầy đủ cả tôi mới nói rằng
545. trong trận xung đột vừa rồi chẳng may em tôi bị cầm tù
546. nó phải châu chấu voi đầy đi đến tận xứ xở nào không rõ
547. ngày trước anh em tôi đã thề cùng nhau sinh tử
548. tôi phải đi tìm cùng trời cuối đất nào tôi cũng đi bao giờ gặp được thì anh em tôi
lại trở về đây
549. ai nấy xúm lại can ngăn không muốn để tôi đi
550. vả lại tù chân một chỗ cũng đã lâu tôi nóng ruột lắm
551. biết không thể lưu tôi lại ai cũng ngao ngán
552. họ dặn đi dặn lại rằng hễ tìm được chũi thì thế nào cũng phải trở về
553. chư vị hãy yên tâm
554. mặt đất rộng mà hẹp
555. thế nào chúng ta cũng còn khi gặp nhau
556. chia tay trong lưu luyến tôi cũng bịn rịn tuy không khóc nhưng lòng nao nao bùi
239
ngùi
557. cảnh biệt ly bao giờ chẳng vậy
558. thế là khăn gói gió đưa tôi lại bước chân đi
559. bây giờ đã tàn mùa hoa may từ lâu
560. trên đồng bãi và bờ ruộng chỉ còn xám mờ những đám gốc rạ và gốc cỏ của trẻ
chăn trâu đã nhổ lên chất đống để đốt sưởi
561. đám khói cỏ may xanh ngắt trong vòm trời gió buốt càng rợn càng thê lương
562. trời đông rét run cánh run râu mà cả làng châu chấu đã nhảy cả ra ngoài khe đội
gió tiễn tôi qua mấy dặm đường mới chịu trở lại
563. tôi đuổi theo châu chấu voi lần mò tìm kiếm thăm hỏi
564. ngược lên phía bắc cứ ngắm bụi cây mùa đông trơ trụi xa xa mà đi tới
565. bước cao bước thấp đi hết mùa đông sang mùa xuân
566. có khi tôi ngửa mặt lên vòm không gọi to
567. em ơi giờ em ở đâu.