ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

BỘ MÔN CÔNG NGHỆ TRI THỨC

h(cid:243)(cid:243)(cid:243)g

LUẬN VĂN TỐT NGHIỆP

CỬ NHÂN CÔNG NGHỆ THÔNG TIN

NGHIÊN CỨU CÁC ĐẶC TRƯNG CỦA TIẾNG VIỆT

ÁP DỤNG VÀO NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT

Giáo viên hướng dẫn:

Th.S Thái Hùng Văn

Sinh viên thực hiện:

Đỗ Xuân Đạt –9912540

Võ Văn Tuấn –9912737

Thành phố Hồ Chí Minh, tháng 7 năm 2003

Lời Cảm Ơn

Hoàn thành lu ận văn này, chúng em xin chân thành c ảm

ơn thầy Thái Hùng V ăn đã tr ực tiếp hướng dẫn và tạo điều kiện

cho chúng em ti ếp cận với lĩnh vực nhận dạng tiếng nói, một lĩnh vực vô cùng lý thú.

Chúng em xin g ởi lời cảm ơn đến các th ầy cô trong trường, đặc biệt là các th ầy cô bộ môn Công Ngh ệ Tri Th ức, và thầy Trần Tiến Đức trường ĐH Sư Phạm Kỹ Thuật đã truyền đạt

cho chúng em nhiều kiến thức bổ ích.

Chúng tôi c ũng không th ể không nh ắc đến sự động viên

chăm sóc của gia đình, sự cộng tác giúp đỡ và ủng hộ tinh th ần

của bạn bè, đặc bi ệt là b ạn Nguy ễn Tấn Dũng và anh Đặng

Hoàng Vũ. Chúng tôi xin ghi ơn tất cả.

Thành phố Hồ Chí Minh, tháng 7 năm 2003.

Đỗ Xuân Đạt -Võ V ăn Tuấn

i

dạng tiếng nói chung chung ch ứ chưa có nhiều phân tích kỹ các đặc tính riêng của

tiếng Việt. Các hệ nhận dạng trước đây hầu hết không phân bi ệt được từ đồng âm

như: a, á, à, ả,ã, ạ… Hơn nữa kích thước từ điển (số từ nhận biết được) còn nh ỏ, thời gian học mẫu khá lâu, và nh ận dạng mang tính ph ụ thuộc người nói khá cao.

Vấn đề còn khó kh ăn ở chỗ nhận dạng tiếng nói mang tính liên ngành [T.H.V ăn- 00]. Nghiên cứu nhận dạng tiếng nói bằng máy tính là nghiên cứu cả một hệ thống các ngành khoa học có liên quan như: ngôn ngữ học, thống kê học, sinh lý học, vật

lý học, toán h ọc, âm h ọc, tâm lý h ọc, lý thuy ết thông tin và truy ền tin… và d ĩ

nhiên có cả công nghệ thông tin.

Luận văn này xây dựng với mong muốn góp phần khắc phục những hạn chế trên, nâng cao hiệu quả nhận dạng tiếng Việt; bằng cách rút trích và sử dụng nhiều đặc tr ưng âm học ti ếng Vi ệt hơn, từ đó dùng nhi ều đặc tr ưng hơn để nhận dạng giúp nâng cao độ chính xác và phân bi ệt được các từ đồng âm góp phần nâng kích

thước từ điển lên lớn hơn.

Nội dung luận văn được trình bày thành các chương như sau:

Chương 1: Tiếng nói và ng ữ âm ti ếng Vi ệt. Chương thứ nhất tóm tắt về tiếng nói và trình bày m ột số đặc điểm ngữ âm ti ếng Việt. Trong số đó, luận văn quan tâm nhi ều đến thanh điệu, là đặc điểm khác bi ệt của tiếng Việt so với nhiều

ngôn ngữ khác.

Chương 2: Xử lý tín hi ệu số -phân tích ti ếng nói: Trình bày một số kiến

thức cơ bản về xử lý tín hiệu số và một số phương pháp tiếp cận tín hiệu tiếng nói.

Chương 3: Nhận dạng ti ếng nói. Chương này mô t ả một hệ nh ận dạng

tiếng nói t ổng quát, và đi cụ th ể vào h ệ nh ận dạng ti ếng nói s ử dụng mô hình Markov ẩn liên tục.

Chương 4: Một số khảo sát về thanh điệu tiếng Việt. Đây là các khảo sát của người viết về thanh điệu tiếng Việt. Kết quả khảo sát sẽ được kết hợp, so sánh

với các nghiên cứu về ngữ âm tiếng Việt trước đây để rút ra các đặc điểm ngữ âm

tiếng Việt, làm cơ sở cho vi ệc xây dựng một hệ nhận dạng tiếng Việt theo mô t ả của luận văn.

Chương 5: Xây dựng môhình nh ận dạng thanh điệu ti ếng Vi ệt. Nhận dạng thanh điệu là b ước đầu tiên ứng dụng các nghiên c ứu nói trên vào m ột hệ

iii

nhận dạng tiếng Việt của luận văn. Bắt đầu từ đặc tính đặc trưng của tiếng Việt là

thanh điệu.

Chương 6: Thiết kế mô hình nh ận dạng ti ếng Việt. Phần này là thi ết kế

của luận văn về một hệ nhận dạng tiếng Việt hoàn chỉnh. Ứng dụng mô đun nhận

dạng thanh điệu vào một hệ nhận dạng tiếng Việt hoàn chỉnh.

Chương 7: Hiện th ực hoá mô hình nh ận dạng ti ếng Vi ệt. Chương cuối

cùng là các cài đặt cụ thể của luận văn về một hệ nhận dạng tiếng Việt.

Phần ph ụ lục 1: giới thiệu về một số đặc điểm ngữ âm ti ếng Việt. Trong

đó, luận văn chú ý nhi ều đến đặc điểm thanh điệu được dùng để ứng dụng trong

phân lớp tiếng Việt.

Phần phụ lục 2: Giới thiệu vai trò của tần số cơ bản trong tiếng nói và một

số phương pháp rút trích tần số cơ bản.

iv

Mục Lục

Lời Cảm Ơn....................................................................................................i

Lời Giới Thiệu...............................................................................................ii

Mục Lục......................................................................................................... v

Chương 1.Ti

ếng nói và ngữ âm tiếng Việt................................................ 1

1.1.Gi

ới thiệu tiếng nói......................................................................... 1

1.1.1. Sự phân bố về biên độ............................................................... 1

1.1.2. Sự phân bố về tần số ................................................................. 2

1.1.3. Sự biến đổicác t ần số cơ bản................................................... 2

1.1.4. Tỷ số tiếng nói.......................................................................... 2

1.2.Ng

ữ âm tiếng Việt (Tham khảo phụ lục 1)..................................... 2

1.2.1.Thanh điệu................................................................................ 2

1.2.2.Âm v ị ........................................................................................ 3

1.2.3.Tr ường độ ................................................................................. 3

Chương 2. Xử lý tín hiệu số -phân tích tín hi ệu tiếng nói......................... 7

2.1. Xử lý tín hiệu số ............................................................................. 7

2.1.1. Lấy mẫu tín hiệu....................................................................... 7

Hàm lấy mẫu:.................................................................................... 7

2.1.1.1.Ph ổ của các tín hiệu được lấy mẫu.................................... 8

2.1.1.2. Mối quan hệ giữa phổ của tín hi ệu rời rạc và ph ổ của tín hiệu liên tục theo thời gian thời gian............................................................ 9

2.1.2.Dãy xung.................................................................................10

2.1.3.Bi

ến đổi Fourier rời rạc..........................................................11

2.1.3.1.Bi

ến đổi Fourier rời rạc...................................................12

v

2.1.3.2.Bi

ến đổi Fourier nhanh....................................................13

2.1.4.Bi

ến đổi cosin rời rạc..............................................................13

2.1.5.Các b ộ lọc...............................................................................14

2.1.6. Cửa sổ tín hiệu........................................................................15

2.2.Phân tích tín hi

ệu tiếng nói...........................................................20

2.2.1.Ph ương pháp dãy bộ lọc.........................................................20

2.2.2.Trích đặc trưng MFCC...........................................................28

2.2.3.Ph ương pháp mã hóa dự báo tuyến tính (LPC)......................32

2.2.3.1.Làm rõ tín hi

ệu.................................................................34

2.2.3.2.Phân đoạn thành các frame..............................................34

2.2.3.3. Lấy cửa sổ........................................................................35

2.2.3.4.Phân tích t ự tương quan...................................................36

2.2.3.5.Phân tích LPC..................................................................36

2.2.3.6.Chuy ển các hệ số LPC thành các hệ số cepstral..............37

2.2.3.7. Đặt trọng số cho các hệ số cepstral..................................37

2.3.Phát hi

ện chu kỳ tiếng nói –ph ương pháp tìm tần số cơ bản (Tham khảo phụ lục 2)...................................................................................................38

2.3.1.Các k ỹ thuật theo miền thời gian............................................39

2.3.2.Các k ỹ thuật phân tích phổ hữu hạn.......................................39

2.3.3.Mô t

ả tín hiệu..........................................................................40

2.3.3.1.Ti

ếng nói thô....................................................................40

2.3.3.2. Lỗi dự báo tuyến tính.......................................................40

2.3.4. Một số phương pháp cài đặt các kỹ thuậttrích F0:................41

2.3.4.1.Ph ương pháp dùng cepstral:............................................41

2.3.4.2.Ph ương pháp tự tương quan:...........................................41

2.3.4.3.Ph ương pháp CLIP (center clipping pitch detector)........42

vi

2.3.4.4.Ph ương pháp SIFT (Simplified Inverse Filter Tracking)43

2.3.4.5.Hàm AMDF (Average Magnitude Difference Function)43

2.3.4.6.Ph ương pháp so khớp biên độ .........................................43

Chương 3.Nh ận dạng tiếng nói................................................................46

3.1. Tổng quan một hệ nhận dạng:......................................................46

3.2. Tổng quan một hệ nhận dạng tiếng nói:.......................................46

3.3.Nh

ững thuận lợi và khó khăn của nhận dạng tiếng nói:...............49

3.4.Nh

ận dạng tiếng nói sử dụng mô hình Markov ẩn.......................50

3.4.1.Mô hình Markov

ẩn và các bài toán cần giải quyết:...............50

3.4.1.1.Gi

ải quyết bài toán thứ nhất:...........................................51

3.4.1.2.Gi

ải quyết bài toán thứ hai:.............................................52

3.4.1.3.Gi

ải quyết bài toán thứ ba:...............................................52

3.4.2.Mô hình Markov

ẩn liên tục (CDHMM-Continuous Densities Hidden Markov Model)..................................................................................55

Chương 4. Một số khảo sát về thanh điệu tiếng Việt...............................59

4.1.Thanh 1 (Thanh ngang)................................................................59

4.2.Thanh 2 (Thanh huy

ền)...............................................................60

4.3.Thanh 3 (Thanh ngã)....................................................................61

4.4.Thanh 4 (Thanh h

ỏi).....................................................................63

4.5.Thanh 5 (Thanh s

ắc).....................................................................64

4.6.Thanh 6 (Thanh n

ặng)..................................................................66

Chương 5.Xây d ựng môhình nh ận dạng thanh điệu tiếng Việt..............66

5.1.Ti

ền xử lý......................................................................................66

5.2.Trích F0 t

ừ tín hiệu tiếng nói (pitch extraction)...........................69

5.3. Tạo vector đặc trưng từ vector V(F0)...........................................71

5.4.Hu

ấn luyện cho mô hình...............................................................72

vii

5.5.Nh

ận dạng.....................................................................................73

5.6. Một số kết quả nhận dạng thanh điệu tiếng Việt..........................74

Chương 6.Thi

ết kế mô hình nhận dạng tiếng nói tiếng Việt...................77

6.1.Công

đoạn huấn luyện..................................................................77

6.2.Công

đoạn nhận dạng...................................................................79

Chương 7.Hi

ện thựchoá mô hình nh ận dạng tiếng Việt.........................80

7.1.Nh

ận dạng tiếng đơn.....................................................................80

7.2.Nh

ận dạng câu..............................................................................82

Chương 8. Kết luận...................................................................................84

8.1. Kết luận.........................................................................................84

8.2. Hướng phát triển:..........................................................................85

Tài liệu tham khảo.......................................................................................86

Phụ lục 1: Ngữ âm tiếng Việt......................................................................87

Phụ lục 2: Vai trò của tần số cơ bản và một số kỹ thuật xử lý tần số cơ .100

viii

Chương 1. Tiếng nói và ngữ âm tiếng Việt

1.1.Gi ới thiệu tiếng nói

Tiếng nói là m ột lo ại sóng âm. Khi ta nói, ti ếng nói được truyền đi mang

theo thông tin d ưới dạng các dao động cùng ph ương truy ền đến tai ng ười nh ận. Mức độ truy ền tin c ủa ti ếng nói được xem là nhanh nh ất trong các kh ả năng tự nhiên của con người.

Khác với sách báo, th ư tín… ch ỉ try ền tin m ột chi ều, ti ếng nói giúp ta

truyền tin cả hai chiều. Sách báo giúp ta ghi lại thông tin để sau này đọc lại, nhưng

tiếng nói giúp ta thể hiện bản thân hơn. Thông qua cách nói chuy ện, khả năng ứng xử, ta có th ể đánh giá được trình độ và nhân cách c ủa môt ng ười. Ti ếng nói là

phương tiện truyền tin nhanh nhất và hiệu quả nhất của con người.

Tiếng nói có rất nhiều đặc tính:

Đặc tính của sóng âm g ồm các đặc tính sinh lý, v ật lý nh ư: cường

độ, tần số, biên độ, năng lượng, âm sắc, độ cao, độ to…

Đặc tính xã hội như: ngữ điệu, sắc thái tình cảm, địa phương…

Số từ được sử dụng thường xuyên trong giao ti ếp hằng ngày của một người dao độngtrong kho ảng từ 2000 đến 3000 từ. Số từ người ta s ử dụng trung bình

khoảng 5000 đến 10000 từ. [5]

Nghiên cứu về nhận dạng tiếng nói trên máy tính, ta sẽ xem xét chủ yếu đến tần số, biên độ (hay n ăng lượng). Ti ếng nói có mi ền tần số cơ bản nằm trong

khoảng80 –8000 Hz. [11]

1.1.1. Sự phân bố về biên độ

Khi thống kê v ới khoảng 80 ng ười (4 ng ười/ ngôn ng ữ), người ta nh ận

thấy rằng biên độ tối đa đạt được của một ti ếng nói có th ể lớn hơn 50dB [5]. Trong một chuỗi tiếng nói, biên độ tiếng nói sẽ phân bố liên tục theo dạng hình sin.

1

1.1.2. Sự phân bố về tần số

Khi phát âm các t ừ với tần số từ thấp đến cao, người ta thấy rằng việc tăng dần tần số gắn li ền với vi ệc gi ảm dần biên độ. Th ực nghi ệm cho th ấy với nam cũng như nữ, phổ tiếng nói của chúng ta theo t ần số là một đường cong có độ dốc

khoảng -10dB/Octave.

1.1.3. Sự biến đổi các tần số cơ bản

Thống kê theo thời gian về sự biến đổi các tần số trong giọng nói con người

cho thấy giá trị trung bình và độ lệch tần số cơ bản trong giọng nói nữ thường gấp

đôi nam.

Quá trình kh ảo sát c ũng cho th ấy 18% trong s ố các bi ến đổi về tần số cơ

bản là bi ến đổi tăng, và 50% là gi ảm. Người ta cũng nhận thấy trong chu ỗi tiếng nói của con ng ười, các kho ảng lặng chèn vào gi ữa các t ừ có tác d ụng làm cho tiếng nói của chúng ta ngheêm h ơn, và tần số của chúng ổn định trong miền có độ

biến thiên khoảng 10 Hz.

1.1.4. Tỷ số tiếng nói

Trong chuỗi tiếng nói của chúng ta, có th ể dễ dàng nhận thấy ngoại trừ các tiếng, còn có các khoảng trống được chèn vào, và tỷ số giữa đoạn có tiếng nói thực

sự so với khoảng thời gian tổng cộng của chuỗi âm được gọi là tỷ số tiếng nói.

Thực nghi ệm ch ứng minh khi chúng ta t ăng tốc độ nói thì kho ảng tr ống

giữa các ti ếng bị gi ảm nhi ều. Và ng ược lại, khi gi ảm tốc độ nói thì các kho ảng

trống giữa các từ bị dài ra.

1.2.Ng ữ âm tiếng Việt (Tham khảo phụ lục 1)

1.2.1.Thanh điệu

Thanh điệu là đặc tính đặc trưng của tiếng Việt nói riêng và các ngôn ng ữ

có thanh điệu nói chung so với các ngôn ngữ khác như tiếng Anh, tiếng Pháp,…

Thanh điệu là một thành phần ngữ âm, không phải là nhấn giọng, giúp phân biệt các từ đồng âm. Đây là đặc điểm mà đa số các hệ nhận dạng tiếng Việt trước đây chưa xử lý.

2

Trong ti ếng Vi ệt, thanh điệu cũng là m ột đặc điểm mang đậm tính địa

phương. Tổng cộng có 6 thanh, nhưng tuỳ vào từng địa phương mà số lượng thanh

điệu tiếng Việtcó th ể bị giảm xuống còn 5 hay 4 do s ự sát nh ập một số thanh lại với nhau.

Người ta phân biệt thanh điệu dựa vào 2 yếu tố: âm điệu và âm vực.

Âm điệu là sự thay đổi tần số cơ bản của thanh điệu, hay đường nét

của thanh điệu.

Âm vực: là miền giá trị của tần số cơ bản.

1.2.2.Âm v ị

Trong ngôn ng ữ nói, ti ếng nói bao g ồm nhiều câu, mỗi câu bao g ồm nhiều từ, và mỗi từ lại bao gồm nhiều âm vị. Theo quan điểm ngữ âm, âm vị được xem

là đơn vị nhỏ nhất của tiếng nói.

Âm vị gồm 2 loại chính: nguyên âm và phụ âm.

Nguyên âmlà các âm mà khi phát âm, lu ồng không khí đi ra không

bị cản trở.

Phụ âm là các âm mà lu ồng không khí khi đi ra bị cản trở ở một số bộ phận của bộ máy phát âm.

Ngoài ra, ng ười ta còn chia m ột dạng âm vị nữa như một bán nguyên âm,

khi sự cản trở luồng khôngkhí là không đáng kể. Các bán nguyên âm có đặc điểm

gần như nguyên âm nhưng thường chỉ đi kèm, và bản thân không tạo thành âm tiết được.

Các nguyên âm và ph ụ âm riêng bi ệt lại được chia thành nhi ều nhóm nh ỏ dựa vào các đặc điểm vật lý, sinh học, hay vị trí và cách th ức phát âm của bộ máy phát âm.

1.2.3.Tr ường độ

Trường độ tiếng nói là th ời gian phát âm m ột tiếng. Xét đến trường độ sẽ liên quan đến tính tắc –xát, h ệ thống âm chính–âm cu ối, ảnh hưởng của những biến đổi của âm cuối… Thường thì âm tắc, còn gọi làâm khép, s ẽ làm cho trường độ của tiếng nói giảm do sự tắc thanh quản.

3

Chương 2.

Xử lý tín hiệu số -phân tích tín hi ệu tiếng nói

2.1. Xử lý tín hiệu số

Hiểu một cách đơn giản thì tín hiệu (signal) là tất cả các biến có mang hoặc chứa một loại thông tin nào đấy mà tacó th ể biến đổi, hiển thị hoặc gia công. Các

tín hi ệu trong th ế gi ới th ực nh ư ti ếng nói (voice), âm thanh (sound), hình ảnh

(image)… đều có bản chất hết sức phức tạp. Do đó các tín hi ệu này thường bị biến

đổi thành các tín hi ệu số (s ố hóa) để dễ dàng x ử lýchúng. Tín hi ệu số (digital signal) là tín hiệu được biểu diễn bằng một dãy số. Xử lý tín hiệu số (Digital Signal Processing –DSP) bao hàm mọi phép xử lý các dãy s ố để có được các thông tin cần thiết.

Thông th ường, sau khi s ố hóa tín hi ệu, ta ch ọn các phép bi ến đổi với mục

đích chung là làm cho tín hiệu này dễ xử lý hơn.

2.1.1. Lấy mẫu tín hiệu

Hàm lấy mẫu:

Hàm lấy mẫu là cầu nối giữa các hệ thống rời rạc và các h ệ thống liên tục. Nó được gọi bằng các tên khác nhau nh ư: hàm Dirac Delta, hàm sàng l ọc,… và “hàm lấy mẫu” là một trong số các tên đó. Hàm lấy mẫu có các tính chất sau:

Tính chất 1:

Tính chất 2:

7

là một số thực bất kì. Trong các tính chất trên,

Hình sau đây minh họa hàm lấy mẫu lý tưởng:

Kết quả của phép lấy mẫu là:

Hình 2.1: Hàm lấy mẫu lý tưởng

2.1.1.1.Ph

ổ của các tín hiệu được lấy mẫu

Sử dụng lý thuyết của phép biến đổi Fourier, phổ tần số của các tín hiệu liên

tục theo thời gian được mô tả như sau:

Và dạng sóng của tín hiệu được thể hiện theo phổ của nó như sau:

Do biểu th ức trên được áp d ụng cho t ất cả các hàm liên t ục theo th ời gian

x(t) nên nó cũng đúng cho xs(t):

8

Thay xs(t) vào, ta được:

Trật tự phép lấy phân tích và phép c ộng có thể thay đổi, áp dụng tính ch ất 1

của hàm lấy mẫu, ta được:

Phương trình trên là d ạng biểu diễn chính xác hàm X(f) theo chu ỗi Fourier. Trong đó, Xs(f) là hàm tu ần hoàn theo chu k ỳ 1/T. Các h ệ số của chuỗi Fourier là x(nT) và chúng được tính bằng tích phân sau:

Hai biểu thức (2.8) và (2.9) là c ặp biến đổi giữa tín hi ệu trên mi ền thời gian

và phổ tần số của nó.

Mối quan hệ giữa phổ của tín hiệu rời rạc và phổ của tín hiệu

2.1.1.2. liên tục theo thời gian thời gian

Trong biểu thức (2.5), ta thay t = nT và dùng công thức (2.9):

9

Ta viết lại vế phải của phương trình (2.5):

m T

m T

(thay f = + , df = d ) ta được: Đổi biến = f -

Đưa tổng vào trong tích phân, và thay vào biểu thức (2.10), ta sẽ rút ra được:

2.1.2.Dãy xung

Có duy nh ất 1 dãy g ọi là dãy xung đơn vị, đây là một dãy quan tr ọng, và

ị 0 tại tất cả các giá tr ị n, tr ừ n = 0. T ại

được ký hi ệu là u(n).Dãy này mang giá tr n = 0, dãy xung có giá tr ị bằng 1. Thông th ường dãy này được dịch đi m giá tr ị trước khi s ử dụng u(n-m). Dãy u(n) là ph ần tương ứng của hàm l ấy mẫu trong không gian rời rạc.

10

Tínhch ất của dãy xung cũng tương tự như tính chất của hàm lấy mẫu:

Hình 2.2 : Dãy xung

2.1.3.Bi ến đổi Fourier rời rạc

Các tín hi ệu hình sin sau khi qua x ử lý vẫn đảm bảo cho ra các k ết xuất là các tín hi ệuhình sin, ch ỉ có biên độ và pha là có th ể thay đổi, còn t ần số và hình dạng vẫn giữ nguyên. Tín hiệu trong thế giới thực ở dạng sóng liên tục theo chu kỳ, các sóng này là t ổng hợp của các đường hình sin r ời rạc có t ần số, biên độ khác nhau và pha của tínhi ệu hình sin có tần số f tương ứng với một giá trị biểu diễn đặc tính tần số của tín hiệu tại tần số f. Vì vậy, các tín hiệu Fourier có th ể dùng để tổng hợp trở lại thành các tín hiệu hình sin ban đầu thông qua biến đổi Fourier (Fourier Transform). Có 4 loại biến đổi Fourier tương ứng với 4 loại tín hiệu:

Loại biến đổiLo ại tín hiệu

Biến đổi Fourier Liên tục không chu kỳ

(Fourier Transform)

Chuỗi Fourier Liên tục có chu kỳ

(Fourier Series)

Biến đổi Fourier thời gian rời rạc Rời rạc không chu kỳ

(Discrete Time Fourier Transform)

11

Biến đổi Fourier rời rạc Rời rạc có chu kỳ

(Discrete Fourier Transform –DFT)

Một tín hiệu x(n) có độ dài L hữu hạn được dùng như là một chu kỳ tín hiệu.

(Ta có thể xây dựng tín hiệu xp(n) tuần hoàn bằng cách xếp chồng tuần hoànx(n)).

Biến đổi Fourier của x(n):

Trong đó X(w) được lấy mẫu tại các điểm w=2 k/N, với L≤N là điều kiện để

có thể khôi phục lại x(n) từ X(w) (định lý lấy mẫu Shannon).

Do phải xử lý bằng máy tính nên những tín hiệu có độ dài hữu hạn vàcó tr ục

tần số rời rạc mới có thể thực hiện dễ dàng nên biến đổi Fourier rời rạc là thích hợp nhất.

2.1.3.1.Bi

ến đổi Fourier rời rạc

Sau khi lấy mẫu hàm X(w) ta được một chu ỗi X(k) chi ều dài N, quá trình

này là biến đổi Fourier rời rạc X(k) = DFT(x(n)) và được tóm tắt lại như sau:

Một số tính chất của biến đổi Fourier rời rạc:

- Tính đối xứng

X(k) = X(N-k) với k=N/2, …, N-1

- Tính tuyến tính

Đặt:

X1(k)=DFT(x1(n))

X2(k)=DFT(x2(n))

X(k)=DFT(x(n))

Nếu x(n)=ax1(n)+bx2(n) (a, b là hằng số) thì X(k)=aX1(k)+bX2(k).

12

- Tính dịch vòng

DFT(x(n-p))=e-j2 kp/NX(k) với dãy (n-p) được định ngh ĩa là d ịch vòng c ủa

x(n).

Độ phức tạp của công th ức này là O(N2), không hi ệu quả vì ph ải thực hiện một khối lượng tính toán lớn. Người ta thường dùng một phương pháp hiệu quả hơn

đó là biến đổi Fourier nhanh (Fast Fourier Transform–FFT) .

2.1.3.2.Bi

ến đổi Fourier nhanh

Nguyên tắc cơ bản của tất cả các thu ật toán FFT là d ựa trên vi ệc phân tích cách tính DFT của một dãy N số thành phép tính DFT của các dãy nhỏ hơn (số điểm

tính DFT nh ỏ hơn). Một trong nh ững thuật toán FFT thông d ụng hiện nay là thuật

toán FFT c ơ số 2 phân chia theo t ần số (Radix-2, Decimation-In-Frequency FFT Algorithm). Thuật toán phân chia d ựa trên vi ệc phân chia dãy x(n) thành các dãy nhỏ hơn được gọi là thu ật toán phân chia theo t ần số vì ch ỉ số n th ường được gắn liền với tần số. Ví d ụ phân chia theo t ần số của FFT 16 điểm được minh họa như sau:

ệu 16 1 tín hi

2 tín hi ệu

4 tín hi ệu

8 tín hi ệu

ệu 1 16 tín hi

Độ phức tạp của phương pháp này là O(Nlog2(N)).

2.1.4.Bi ến đổi cosin rời rạc

Với biến đổi fourier, ta sử dụng cả hàm sin và cos để mô tả tín hiệu. Còn với biến đổi cosine, ta ch ỉ sử dụng hàm cos để mô tả tín hi ệu. Cụ thể ta có công th ức biến đổi dãy u(n), n=0...(N-1), sau:

0

Ở đây được tính như sau:

1 N

13

,

k

2 N

với k = 1...(N-1)

Và công thức biến đổi ngược lại là:

2.1.5.Các b ộ lọc

Bộ lọc số có vai trò r ất quan trọng trong DSP, chúng được dùng với 2 mục đích

chính:

- Tách các tín hi ệu đã bị tr ộn: Các tín hi ệu ban đầu th ường ch ứa đựng các nhiễu hoặc các tín hi ệu không mong mu ốn khác, các nhi ễu này sẽ làm gi ảm đáng kể ch ất lượng của các ph ương trình x ử lý tín hi ệu số do đó cần ph ải tách riêng các tín hiệu cần thiết rakh ỏi các nhiễu.

Ví dụ: Âm thanh khi được thu, tín hi ệu thường chứa thêm các ti ếng ồn của môi tr ường nh ư ti ếng ồ ồ của qu ạt tr ần th ổi vào micro; các điểm lốm đốm trên những tấm ảnh lâu ngày ….

- Khôi phục các tín hi ệu méo mó: Có m ột số trường hợp vì một nguyên nhân nào đó (thường là nguyên nhân liên quan đến thiết bị) sẽ tạo ra các tín hi ệu vào bị méo mó. Vì vậy cần phải chỉnh lại để tăng chất lượng chương trình xử lý tín hiệu số.

Ví dụ: Các micro cũ, dơ sẽ cho ra các tín hiệu âm thanh không tốt; “con mắt”

(forcus len) của các máy quét bị mờ sẽ làm cho các ảnh được quét bị mờ theo ….

Trong th ực tế kỹ thu ật, ng ười ta th ường phân bi ệt hai tr ường hợp đáp ứng

xung:

- Hệ có đáp ứng xung hữu hạn (Finite Impulse Response –FIR): hệ có tín hiệu ra ch ỉ phụ thuộc vào tínhi ệu vào nên các h ệ này còn được gọi là mạch

14

không truy h ồi hay m ạch không đệ qui (non-recursive). Ngh ĩa là có N=0 trong phương trình sai tuyến tính hệ số hằng. Khi đó:

- Hệ có đáp ứng xung vô h ạn (Infinite Impulse Response–IIR): hệ xử lý

có đáp ứng xung có độ dài vô h ạn hay đáp ứng xung vô h ạn. Tín hi ệu ra

không những chỉ phụ thuộc vào tín hi ệu vào mà còn ph ụ thuộc vào quá kh ứ của chính tín hiệu ra, vì vậy chúng còn được gọi là các mạch có truy hồi hay

đệ qui. Nghĩa là N>0 trong phươngtrình sai phân tuy ến tính hệ số hăng.

2.1.6. Cửa sổ tín hiệu

Thông thường, việc phân tích tín hi ệu được thực hiện trên một dãy hữu hạn gồm N mẫu xN(n0),…, xN(n0 + N–1). Dãy tín hi ệu này được lấy ra từ một tín hi ệu dài hơn hoặc dài vô hạn x(n). Một dãy con như vậy gọi là một cửa sổ tín hiệu. Việc quan sát tín hi ệu x(n) b ằng một đoạn xN(n) trong kho ảng n0…(n0 + N–1) t ương đương với việc nhân x(n) với một hàm cửa sổ w(n-n0)

Trong xử lý tín hi ệu số, các c ửa sổ thường dùng được biểu diễn thông qua

cửa sổ Hamming tổng quát:

Tuỳ theo các giá trị khác nhau của mà ta có các cửa sổ khác nhau:

15

= 0.54, ta có cửa sổ Hamming:

= 0.5, ta có cửa sổ Hanning:

= 1, ta có cửa sổ chữ nhật:

Thêm vào đó, độ rộng của cửa sổ cũng có tác động khá lớn đến kết quả của

các phép phân tích.

Một số cửa sổ khác cũng được sử dụng trong xử lý tín hi ệu số như: cửa sổ

tam giác, cửa sổ Kaiser, cửa sổ Blackman, cửa sổ cosin…

Sau đây là một số ví dụ cho thấy sự khác biệt giữa các loại cửa sổ. Các ví dụ

16

này áp dụng phép phân tích ph ổ bằng thuật toán FFT cho các khung tín hi ệu tiếng nói có độ dài khác nhau và hàm lấy cửa sổ cũng khác nhau.

Hình 2.7a: Âm /a/, cửa sổ chữ nhật,

512 điểm(45ms, trái) và 64 điểm(5.6ms, phải)

Hình 2.7b: Âm /a/, cửa sổ Hamming,

17

512 điểm(45ms, trái) và 64 điểm(5.6ms, phải)

Hình 2.7c: Âm /a/, cửa sổ Hanning,

512 điểm(45ms, trái) và 64 điểm(5.6ms, phải)

Hình 2.8a: Âm /s/, cửa sổ chữ nhật,

18

512 điểm(45ms, trái) và 64 điểm(5.6ms, phải)

Hình 2.8b: Âm /s/, cửa sổ Hamming,

512 điểm(45ms, trái) và 64 điểm(5.6ms, phải)

Hình 2.8c: Âm /s/, cửa sổ Hanning,

19

512 điểm(45ms, trái) và 64 điểm(5.6ms, phải)

2.2.Phân tích tín hi ệu tiếng nói

2.2.1.Ph ương pháp dãy bộ lọc

Một kỹ thuật phân tích phổ, có ưu điểm là thực hiện thời gian thực, đơn giản,

và dễ làm, sử dụng một dãy bộ lọc, hay một tập hợp các bộ lọc (cả tín hiệu liên tục-

analog lẫn số), mỗi bộ lọc phân tích một miền tần số tín khác nhau c ủa tín hiệu đầu vào. Được sử dụng trong nhi ều bộ nhận dạng tiếng nói mang tính th ương mại, dãy

bộ lọc tỏ ra linh hoạt hơn phép phân tích DFT, bỡi vì băng thông của nó có thể thay

đổi tuỳ theo độ cảm nhận của tai so v ới băng thông cố định ở hai mức phân tích là

băng tần rộng và băng tần hẹp. Hơn nữa, nhiều ứng dụng đòi hỏi một tập hợp nhỏ các tham số về phổ thể hiện cấu trúc phổ của năng lượng. Cường độ kết xuất từ một

dãy 8-12 bộ lọc cơ bản thể hiện phổ đầy đủ và chính xác hơn so với cả một DFT với

mức độ chi tiết hơn. Một phép ước lượng thông dụng là đặt các bộ lọc theo một qui định nào đó, ví d ụ: cách đều nhau, b ăng thông c ố định của các b ộ lọc lên đến 1 KHz, và lấylogarit để tăng băng thông mỗi bộ lọc. Các bộ lọc được dùng là 1-3-8. Một số hệ thống nhận dạng tiếng nói sử dụng hai mức phân tích phổ, một dãy bộ lọc thô chỉ gồm vài bộ dùng để phân lớp thô âm thanh, và theo sau là m ột phép phân tích chi tiết hơn sử dụng một tập hợp lớn các bộ lọc.

Hình 2.9: Sơ đồ phân tích dãy bộ lọc

Mô hình phân tích dãy bộ lọc được trình bày ở hình 2.9.

Tín hiệu tiếng nói được lấy mẫu s(n), được đưa qua một dãy gồm Q bộ lọc

20

thông dải, đầu ra ở mỗi bộ lọc là các tín hiệu:

trong đó, chúng ta giả sử rằng đáp ứng xung của bộ lọc dãy thứ i là hi(m) với chiều dài là Mi mẫu, vì vậy chúng ta sử dụng biểu diễn tích chập cho phép toán l ọc để biểu diễn tường minh s i(n), ta gọi si(n) là tín hi ệu tiếng nói được lọc thông dải. Bởi vì mục đích của bộ phân tích dãy l ọc là cho ra đánh giá về năng lượng tín hiệu tiếng nói trong một băng tần cho trước, nên mỗi tín hiệu được lọc thông dải si(n) sẽ được đưa tiếp qua một bộ tính toán phi tuyến, chẳng hạn bộ nắn chỉnh. Bộ tính toán

phi tuyến sẽ chuyển phổ tín hiệu sang băng tần thấp, đồng thời cũng tạo ra các thành

phần tần số cao. Sau đó, chúng ta c ần dùng một bộ lọc thông th ấp để loại bỏ các thành phần tần số cao, cho ra t ập các tín hi ệu ui(n), 1 i Q, mỗi ui(n) biểu diễn một ước lượng năng lượng của tín hiệu tiếng nói trong mỗi băng tần.

Để hiểu rõ các hi ệu ứng khi đưa si(n) qua b ộ tính toán phi tuy ến và bộ lọc

thông thấp, chúng ta hãy giả sử si(n) là tín hiệu hình sin với tần số i, tức là:

Giả thiết này đúng cho tiếng nói trong trường hợp nó là các âm hữu thanh có trạng thái ổn định khi băng thông của bộ lọc đủ hẹp để chỉ có hài âm được đi qua. Nếu ta sử dụng bộ nắn chỉnh full-wave, tức là:

21

thì có thể biểu diễn kết xuất của bộ tính toán phi tuyến như sau:

nw )(

1 1

neu neu

0) 0)

ns ( i ns ( i

với

Như được minh họa trong hình 2.10(a) –2.10(c). Vì k ết xuất ở bộ tính phi

tuyến có th ể được xem nh ư là bi ến điệu theo th ời gian, nên trong mi ền tần số, ta

nhận được kết quả:

Trong đóVi(ejw), Si(ejw), W(ejw) là các biến đổi Fourier của các tín hiệu vi(n),

22

si(n), w(n) t ương ứng, và là tích ch ập vòng. Ph ổ Si(ejw) là m ột xung đơn tại 0 = i, trong khi đó phổ W(e jw) là một tập hợp các xung t ại các tần số hài âm l ẻ q = iq, q = 1,3,…Q max. Vì vậy phổ Vi(ejw) là một xung tại = 0 và m ột tập hợp các xung biên độ nh ỏ hơn tại q = iq, q = 2,4,6,… nh ư được trình bày ở hình 2.10(d)-2.10(f). Kết quả của bộ lọc thông th ấp là vẫn giữ được thành ph ần DC của Vi(ejw) và lọc ra các thành phần có tần số cao do phép tính phi tuyến tạo ra.

Hình 2.10: Dạng sóng và phổ của tín hiệu thuần sin qua phân tích dãy bộ

lọc.

Phân tích ở trên mặc dù ch ỉ đúng cho s i(n) là tín hi ệu thuần hình sin, nh ưng cũng là một mô hình tốt cho các âm tiếng nói hữu thanh tựa tuần hoàn vói điều kiện bộ lọc thông dải không quá rộng, theo nghĩa không có hơn hai hài âm rõ nét. Bởi vì bản chất thay đổi theo thời gian của tín hiệu thông thấp không phải là một xung DC thuần, nhưng thay vào đó thông tin trong tín hi ệu lại được chứa trong băng tần thấp xung quanh DC.

Băng thông của tín hiệu vi(n) có liên quan đến tốc độ biến đổi nhanh nhất của các hài âm ti ếng nói trong m ột băng tần hẹp, nói chung th ường khoảng 20-30 Hz. Vì vậy hai bước xử lý cu ối cùng trong mô hình dãy b ộ lọc ở mô hình 2.9 là làm giảm tốc độ lấy mẫu, trong đó tín hi ệu qua lọc thông th ấp ti(n) được lấy mẫu lại ở tốc độ khoảng 40-60 Hz, và nén d ải rộng của tín hiệu bằng bộ nén biên độ (thường là bộ nén logarit).

Loại dãy bộ lọc thông dụng nhất được sử dụng trong nhận dạng tiếng nói là dãy bộ lọc đồng chuẩn với tần số trung tâm f i của bộ lọc thông dải thứ i được định nghĩa như sau:

23

trong đó Fs là tần số lấy mẫu tín hiệu, N là số bộ lọc được đặt cách đều nhau để cần phủ dải tần số tín hiệu. Số bộ lọc thật sự Q dùng trong dãy b ộ lọc thoả mãn quan hệ sau:

với dấu đẳng thức xảy ra khi toàn b ộ dãy tần số của tín hi ệu được sử dụng trong phân tích. B ăng thông b i của bộ lọc th ứ i nói chung th ường tho ả mãn tính chất:

với dấu đẳng thức xảy ra khi không có sự chồng lấp tần số giữa các kênh lọc

kề nhau, và dấu bất đẳng thức có nghĩa là các kênh lọc kề nhau có sự chồng lấp (nếu

Fs N

thì một số phần của phổ tiếng nói sẽ bị khiếm khuyết khi phân tích, khi đó bi<

trong phổ tiếng nói sẽ bị mất bớt ý nghĩa).

Thay vì dùng b ộ lọc đồng chuẩn, chúng ta có th ể thiết kế dãy bộ lọc không đồng chu ẩn, tu ỳ theo tiêu chu ẩn sắp đặt các b ộ lọc nh ư th ế nào. M ột tiêu chu ẩn thường được sử dụng là đặt các b ộ lọc theo m ột tỷ lệ tần số logarit. (T ỷ lệ này thường được căn cứ trên cách ti ếp cận thính giác). Vì v ậy, ta có th ể thiết kế Q bộ lọc thông dải với tần số trung tâm fi và băng thông bi như sau:

trong đó, C và fi tương ứng là băng thông và tần số trung tâm của bộ lọc đầu

tiên và là hệ số tăng logarit. Giá trị thường dùng nhất của là 2 hay 4/3.

Phương pháp dãy b ộ lọc có th ể được cài đặt theo nhi ều cách, tu ỳ thuộc vào phương pháp dùng để thiết kế dãy bộ lọc riêng bi ệt. Có hai ph ương pháp thi ết kế

24

dãy bộ lọc số, đó là phương pháp ứng xung vô hạn (IIR) và phương pháp ứng xung hữu hạn (FIR). V ới các b ộ lọc IIR, cách cài đặt hữu hi ệu nh ất là dùng c ấu trúc nối tiếp hay song song. V ới các bộ lọc FIR, cách cài đặt đơn giản nhất là dùng c ấu

trúc trực tiếp. Trong tr ường hợp này, nếu ta ký hi ệu đáp ứng xung th ức i là h i(n), 0 n L –1 thì k ết xuất xi(n) của kênh thứ i có th ể được biểu diễn dưới dạng tích chập hữu hạn, rời rạc của tín hiệu vào s(n) với đáp ứng xung hi(n), tức là:

Việc tính toán bi ểu thức trên được lặp lại cho mỗi kênh i, i = 1,2,…,Q. Ưu điểm của cấu trúc tr ực tiếplà s ự đơn giản của nó và kh ả năng có th ể làm vi ệc với hi(n) bất kỳ. Khuyết điểm của cách cài đặt này là yêu c ầu tính toán nhi ều. Vì vậy, với dãy bộ lọc FIR Q kênh, chúng ta cần:

CDFFIR = LQphép nhân và c ộng để tính xi(n), i = 1,2,…,Q ở mỗi giá trị n.

Mộtcách cài đặt khác ít tốn kém hơn có thể áp dụng cho trường hợp trong đó mỗi đáp ứng xung của bộ lọc thông dải có thể được biểu diễn dưới dạng một cửa sổ thông thấp cố định w(n) được biến điệu bỡi tín hiệu mũ phức ej in, tức là:

khi đó xi(n) trở thành:

trong đó Sn(ej i) là bi ến đổi Fourier ng ắn hạn của s(n) t ại tần số i = 2 fi . Đẳng th ức trên r ất quan tr ọng, vì t ồn tại nh ững ph ương pháp tính toán bi ến đổi

Fourier rất hữu hiệu. đó là FFT (Fast Fourier Transform).

25

Giả sử ta sử dụng dãy bộ lọc đồng chuẩn, tần số của bộ lọc thứ i là:

i

i = fi =

Fs N

khi đó ta có thể viết lại xi(n) như sau:

Bây giờ ta phân tổng theo m thành t ổng kép theo r và k, v ới r và k được xác

m = Nr + k,

0 k N-1,

- < r <

định theo thuật Euclide:

Nói cách khác, ta phân t ổng theo m thành các “m ảnh” có kích th ước N. Nếu

Sn(m) = s(m)w(n-m)

ta đặt:

Thì có thể viết lại xi(n) như sau:

S

(

Nr

k

)

Vì e-j2 ir = 1 với mọi i, r nên:

)( ku n

n

r

, 0 k N-1 Nếu ta định nghĩa:

26

Thì:

j

in

2 N

e

Như vậy xi(n) là bi ến đổi Fourier rời rạc N điểm của dãy u n(k), sau đó biến

. điệu bỡi dãy

Tóm lại, các bước cơ bản để thiết lập dãy bộ lọc đồng chuẩn quacác ph ương

pháp biến đổi FFT như sau:

1. Thành lập tín hiệu được lấy cửa sổ:

Sn(m) = s(m)w(n-m),m = n–L + 1,…,n

Nr

S

k

(

)

Trong đó w(n) là cửa sổ hữu hạn có chiều dài L mẫu.

)( ku n

n

r

2. Thành lập tín hiệu: , 0 k N-1

j

in

2 N

e

Tính DFTN điểm của un(k)

3.Bi ến điệu DFT bởi dãy

Số phép tính khi cài đặt dãy bộ lọc đồng chuẩn theo phương pháp FFT là:

ộng CFBFFT 2N logNphép nhân và c

Ta hãy lập tỷ số giữa số phép tính cho cài đặt theo cấu trúc tr ực tiếp và s ố

DFFIR

R

C C

LQ log

N

2

N

FBFFT

phép tính cho cài đặt theoFFT:

Giả sử N = 32, L = 128, Q = 16 thì:

128 16* 5*32*2

R = = 6.4

27

Như vậy, cài đặt theo FFT hiệu quả hơn 6.4 lần so với cấu trúc trực tiếp.

Hình 2.11: Sơ đồ phân tích dãy bộ lọc có bộ đếm số điểm cắt zero

Như trên đã th ấy, mỗi nhánh c ủa mô hình dãy l ọc lọc ở hình 2.9 tính toán xấp xỉ năng lượng tiếng nói trong b ăng tần được phủ bỡi các bộ lọc thông dải của nhánh đó. Tuy nhiên, trong nhi ều hệ thống nhận dạng, ta th ường bổ sung vào t ập đặc trưng này các bộđế m số điểm cắt zero ở kết xuất của mỗi bộ lọc thông dải, như được trình bày ở hình 2.11. Do vi ệc đưa vào hệ thống thông tin về số điểm cắt zero nên số đặc trưng tăng lên gấp đôi, tuy nhiên độ phức tạp tính toán cũng không tăng lên đáng kể.

2.2.2.Trích đặc trưngMFCC

Một số nghiên cứu cho thấy rằng khi tiếp nhận âm thanh, hệ thống thính giác của con ng ười thu nh ận độ lớn các tần số âm thanh nh ưng không theo thang tuy ến tính. Do đó một số thang đã được xây d ựng nh ằm miêu tả chính xác h ơn sự ti ếp nhận của hệ thốngthính. Các thang này được xây dựng chủ yếu dựa trên thí nghiệm thực tiễn.

Các thang được xây dựng bằng thực nghiệm nên mu ốn chuyển đổi từ tần số Hz sang các thang khác ph ải dùng các b ảng chu ẩn. Nh ư vậy, trong nhi ều tr ường hợp không tiện lợi, do đó người taxây d ựng các công th ức để xấp xỉ sự chuyển đổi này.

28

Một số thang đo khác và công thức chuyển đổi của nó:

Hình 2.3a: Đồ thị biểu diễn mối quan hệ giữa Bark và Hz

Hình 2.3b: Đồ thị biểu diễn mối quan hệ giữa Mel và Hz

29

Trong các thang đo trên, thang Melhay được dùng nhất. MFCC chính là đặc trưng được lấy từ thông tin phổ tín hiệu trên thang Mel. Ta có các b ước tính MFCC sau:

Hình 2.4: Các bước tính đặc trưng MFCC

1

y

rnxb

r

Ở đây, ta s ử dụng ph ương trình sai phân tuy ến tính h ệ số hằng

0r

với b0 = 1, b 1= -0.97 để làm rõ tín hi ệu. Ta s ử dụng cửa sổ

Hamming để lấy cửa sổ tín hi ệu sau khi đã làm rõ tín hi ệu. Sau đó, ta dùng phép biến đổi Fourier để chuyển tín hiệu từ miền thời gian sang mi ền tần số. Dãy bộ lọc được thiết kế là dãy bộ lọc tam giác có tần số giữa đều nhau trên thang Mel.

30

Hình 2.5: Bộ lọc trên thang Mel

Hình 2.6: Bộ lọc trên tần số thật

Lấy log trên dãy k ết qu ả từ dãy b ộ lọc và th ực hi ện bi ến đổi cosin r ời rạc

(DCT: Discrete Cosine Transform) ta thu được véc tơ đặc trưng MFCC.

Vậy quá trình trích đặc trưng MFCC được thực hiện qua các bước sau:

Bước 1: Thiết kế dãy bộ lọc.

Với: Fs: tần số lấy mẫu.

N: số bộ lọc cách đều phủ hết dải tần tiếng nói.

Q: số lượng bộ lọc dải thông th ực tế sử dụng. Q tho ả mãn quan h ệ 2/NQ

b i

/ NF s

Độ rộng dải thông của mỗi bộ lọc .

Tính trọng số của mỗi bộ lọc lên dải thông tương ứng:

Gọi : fc: tần số trung tâm của dải thông hiện tại thuộc bộ lọc.

31

fc’: tần số trung tâm của dải thông thuộc bộ lọc kế tiếp.

f

f: tần số đang xét.

: hiệu fc’ – fc.

Trọng số bộ lọc tác dụng lên tần số f:

Bước 2: Tính đặc trưng MFCC

Gọi khung tín hiệu vào là sN(n).

Thực hiện làm rõ tín hiệu trên sN(n), ta được s’N(n).

Thực hiện lấy cửa sổ trên s’N(n), ta được s’’N(n).

Thực hiện phép biến đổi Fourier trên s’’N(n).

Đối với mỗi bộ lọc, tính tổng các tích giữa biên độ tần số tín hiệu và trọng số

tương ứng ở bộ lọc.

Lấy log trên dãy kết quả và thực hiện phép biến đổi cosin rời rạc ta thu được

vector đặc trưng MFCC.

2.2.3.Ph ương pháp mã hóa dự báo tuyến tính (LPC)

s(n) a1s(n-1) + a2s(n-2) + … + aps(n-p)

Ý tưởng cơ bản của phương pháp mã hóa dự báo tuyến tính (LPC) là tại thời điểm n, mẫu tiếng nói s(n) có th ể được xấp xỉ bỡi một tổ hợp tuyến tính của p mẫu trước đó:

trong đó giả sử a1, a2, … , ap là hằng số trên khung dữ liệu (frame) được phân

tích.

Chúng ta chuy ển quan hệ trên thành d ạng đẳng thức bằng cách thêm vào s ố

hạng Gu(n) gọi là nguồn kích thích:

trong đó u(n) là nguồn kích thích được chuyển hóa và G gọi là độ lợi của nó.

32

Thực hiện biến đổi z ở hai vế của phương trình trên, ta có:

dẫn đến hàm truyền là:

)(~ ns

Hình 2.12: Mô hình dự báo tuyến tính

p

( knsa

)

)(~ ns

k

=

1

k

Ta ký hiệu là giá trị dự báo của s(n):

33

Khi đó sai số dự báo e(n) được định nghĩa là:

Hình 2.13: Sơ đồ bộ xử lý LPC dùng cho trích đặc trưng tiếng nói

Để tìm tập các hệ số dự báo ak, k = 1,2,…,p trên frame được phân tích, cách tiếp cận cơ bản là ta cực tiểu hóa sai số bình phương trung bình. Khi đó sẽ dẫn đến việc ta phải giải một hệ phương trình với p ẩn số. Có nhiều phương pháp để giải hệ phương trình đó, nhưng trong thực tế, hai lớp phương pháp thường được dùng nhất là: ph ương pháp t ự tương quan và ph ương pháp đồng bi ến. Ở đây, chúng tôi ch ỉ trình bày lại kết quả tính toán và cách th ức áp dụng vào một hệ cử lý LPC nh ư thế nào.

Hình 2.13 trình bày s ơ đồ chi tiết của bộ xử lý LPC dùng để trích đặc trưng

tiếng nói. Các bước cơ bản trong tiến trình xử lý như sau:

2.2.3.1.Làm rõ tín hi

ệu

Mục đích của bước này nhằm làm nổi bật đặc trưng của tín hiệu và làm cho nó ít nh ạy hơn với các hi ệu ứng do độ chính xác h ữu hạn ở những bước xử lý sau. Thông thường bộ làm rõ tín hi ệu là một bộ lọc thông cao với phương trình sai phân là:

2.2.3.2.Phân

đoạn thành các frame

)(~ ns

Sau bước làm rõ tín hi ệu, được chia thành các frame, m ỗi frame gồm N

34

mẫu, khoảng cách gi ữacác frame là M m ẫu. Hình 2.14 minh h ọa cách phân thành

nMl

(~ s

)

các frame trong tr ường hợp M = (1/3)N. Frame th ứ nhất gồm N mẫu tiếng nói đầu tiên. Frame th ứ hai bắt đầu sau frame th ứ nhất M mẫu và ch ồng lấp lên frame th ứ nhất (N-M) m ẫu. Tương tự, frame thứ ba bắt đầu sau frame thứ nhất 2M mẫu (hay sau frame th ứ hai M m ẫu) và ch ồng lấp lên frame th ứ nh ất (N–2M) m ẫu. Ti ến trình này ti ếp tục cho đến khi các m ẫu ti ếng nói đều đã thu ộc về một hay nhi ều frame. Ta dễ dàng th ấy rằng nếu M N thì các frame k ề nhau sẽ có sự chồng lấp (như hình 2.14), dẫn đến kết quả là các ước lượng phổ LPC có tương quan với nhau từ frame này sang frame kia; n ếu M << N thì ước lượng ph ổ từ frame này sang frame khác được hoàn toàn tr ơn. Ngược lại, nếu M > N thì s ẽ không có s ự chồng lấp giữa các frame kề nhau, dẫn đến một số mẫu tiếng nói bị mất (tức là không xuất hiện trong b ất kỳ frame nào) và s ự tương quan gi ữa các ước lượng ph ổ của các frame liên tiếp nhau sẽ chứa một phần nhiễu mà biên độ của nó tăng lên khi M tăng (tức là khi càng cónhi ều mẫu tiếng nói bị bỏ qua, không n ằm trong bất cứ frame nào phân tích nào). Đó là điều không thể chấp nhận được trong phân tich LPC cho nhận dạng tiếng nói. Nếu ta ký hiệu frame thứ 1 là x1(n) và giả sử có tất cả L frame trong tín hiệu tiếng nói thì:

xl(n) =

,n = 0,1,..N-1,l = 0,1,..,L-1

Hình 2.14: Phân đoạn tiếng nói thành các frame chồng lấp

Các giá tr ị thông dụng cho N và M là 300 và 100 t ương ứng khi tốc độ lấy

mẫu tín hiệu là 6.67 kHz.

2.2.3.3.

Lấy cửa sổ

Bướcti ếp theo trong x ử lý là l ấy cửa sổ mỗi frame để gi ảm thi ểu sự gián đoạn tín hiệu ở đầu và cuối mỗi frame. Nếu ta định nghĩa cửa sổ là w(n), 0 n N-1 thì kết quả lấy cuẩ sổ frame xl(n)là:

lx~ = xl(n).w(n),

0 n N-1

35

Cửa sổ thườngdùng nh ất là cửa sổ Hamming, có dạng:

w(n) = 0.54–0.46cos

n 2 1 N

, 0 n N-1

2.2.3.4.Phân tích t

ự tương quan

Mỗi frame sau khi được lấy cửa sổ sẽ được đưa qua bước phân tích tự tương

quan và cho ra (p + 1) hệ số tự tương quan:

trong đó giá tr ị tự tương quan cao nh ất , p, được gọi là c ấp của phân tích

LPC. Nói chung, ta thường sử dụng các giá trị p từ 8 đến 16.

2.2.3.5.Phân tích LPC

E(0) = r(0)

i

1

1

ir )(

ir (|

j

|)

i j

j

1

Bước xử lý tiếp theo là phân tích LPC. Ở bước này, ta sẽ chuyển mỗi frame gồm (p + 1) h ệ số tự tương quan thành p h ệ số LPC. Ph ương pháp được sử dụng ở đây là phương pháp tự tương quan với thuật toán Levinson–Durbin. Các công th ức sau sẽ được tính cho mỗi frame l, để thuận tiện, ta sẽ bỏ qua chỉ số l trên rl(m):

ki =

i )1(

E

i

k )(

i

i

, 1 i p

)( i j

)1( i j

k i

)1( i i j

2

E(i) = (1 -

ik )E(i-j)

, 1 j i-1

)

Kết quả cuối cùng:

m

( p m

, 1 m p là các hệ số LPC cho frame 1.

Đến đây, ta có th ể dùng các h ệ số LPC làm đặc tr ưng cho mỗi frame. Tuy nhiên, ta có thể dẫn xuất từ các hệ số LPC thành các hệ số khác có độ tập trung cao

36

hơn và đáng tín cậy hơn trong các hệ nhận dạng tiếng nói so với các hệ số LPC.

2.2.3.6.Chuy

ển các hệ số LPC thành các hệ số cepstral

Từ p hệ số LPC ở mỗi frame, ta dẫnxu ất ra Q hệ số cepstral c(m) theo công

thức đệ quy sau:

m

C0 = ln 2

ac kmk

1

k m

1

k

m

ac kmk

, 1 m p Cm = am +

1

k m

k

1

2

,p < m Q Cm =

là độ lợi của mô hình LPC. Thông thường ta chọn Q (3/2)p. Trong đó,

2.2.3.7.

Đặt trọng số cho các hệ số cepstral

Do độ nhạy của các hệ số cepstral cấp thấp làm cho ph ổ bị đổ dốc và do độ nhạy của các hệ số cepstral cấp cao gây ra nhiễu nên ta thường sử dụng kỹ thuật đặt trọng số để làm giảm thiểu các độ nhạy này:

ĉ1(m)= c(m).w(m)

với w(m) là hàm đặt trọng số. Hàm đặt trọng số thích hợp thường là bộ lọc

1

sin

thông dải:

Q 2

m Q

w(m) = , 1 m Q.

Lấy đạo hàm cepstral theo thời gian

K

)

Đạo hàm theo th ời gian của dãy các vector cepstral có tr ọng số được xấp xỉ bởi một đa thức trực giao cấp một trên cửa số hũư hạn gồm (2K + 1) frame, chính giữa là vector hiện tại. Đạo hàm cepstral của frame l được tính như sau:

ˆ l mci ( i

i

K

G, 1 m Q. ∆ĉ1(m) =

trong đó G là độ lợi sao cho ph ương sai của ĉl(m) và phương sai của ∆ĉ1(m)

gần giống nhau. Giá trị thông thường là 0.375.

Như vậy sau bước lấy đạo hàm cepstral, mỗi frame sẽ được đặc trưng bỡi 2Q

37

hệ số, gồm có Q hệ số cepstral có trọng số kết hợp với Q hệ số đạo hàm cepstral.

Tóm lại, trong mô hình phân tích LPC ở hình 2.13,chúng ta c ần phải đặc tả

một số tham số, gồm có:

N: số mẫu trong mỗi frame phân tích.

M: số mẫu cách nhau giữa hai frame kề nhau.

P: cấp phân tích LPC.

K: số frame mà trên đó ta tính các đạo hàm cepstral.

Q: số chiều của vector cepstral dẫn xuất từ các hệ số LPC.

Tham số Fs = 8 Khz Fs = 10

Fs = 6.67 KHz KHz

300 240 N300

(45 ms) (30 ms) (30 ms)

100 80 M100

(15 ms) (10 ms) (10 ms)

P81010

Q121212

K33 3

Các tham số trên thay đổi tuỳ theo kinh nghi ệm của ngườidùng. Sau đây là bảng các giá trị thông dụng của các tham số đó theo 3 tốc độ lấy mẫu Fs khác nhau:

Mô hình LPC là mô hình đặc biệt thích hợp cho tín hi ệu tiếng nói. Với miền tiếng nói hữu thanh có tr ạng thái gần ổn định, mô hình t ất cả các điểm cực đại của LPC cho ta một xấp xỉ tốt đối với đường bao phổ cơ quan phát âm. V ới miền tiếng nói vô thanh, mô hình LPC t ỏ ra ít h ữu hiệu hơn so với miền hữu thanh, nh ưng nó vẫn là mô hình h ữu ích cho các m ục đích nhận dạng tiếng nói. Mô hình LPC đơn giản và dễ cài đặt trên phần cứng lẫn phần mềm. Đặc biệt, kinh nghiệm đã chứng tỏ rằng phương pháp LPC thực hiện tốt hơn so với bộ trích đặc trưng bằng dãy bộ lọc.

2.3.Phát hi ện chu kỳ tiếng nói –ph ương pháp tìm tần số

cơ bản (Tham khảo phụ lục 2).

Tần số cơ bản đóng một vaitrò quan tr ọng trong nhận dạng tiếng nói. Từ tần số cơ bản, ta có thể có những phân biệt các tiếng theo một số đặc điểm ngữ âm. Tần

38

số cơ bản còn th ể hiện sắc thái, thanh điệu, giọng người nói… Do đó, xác định tần

số cơ bản là một phần công vi ệc không th ể thiếu trong các h ệ nhận dạng tiếng nói,

đặc biệt là tiếng nói có thanh điệu như tiếng Việt.

Sự thể hiện của các thanh điệu liên quan đến giá trị và sự biến đổi của tần số

cơ bản. Trong x ử lý ti ếng nói, tín hi ệu được chia thành các khung liên ti ếp nhau,

nênthanh điệu sẽ được thể hiện bằng tần số cơ bản trong từng khung tín hi ệu cũng

như sự vận động của nó từ khung này sang khung khác.

Tín hiệu đầu vào của các phương pháp trên là tín hi ệu tiếng nói thô, ho ặc tín

hiệu đã được xử lý bằng một phép toán phi tuyến (như cắt tâm) hay dùng lỗi dự báo

(trong mô hình LPC).

Tần số cơ bản chỉ có trong các âm hữu thanh, nên việc rút trích tần số cơ bản

cũng phải đảm nhận luôn việc phân biệt giữa các âm vô thanh và hữu thanh.

Có nhi ều phương pháp rút trích F0, nh ưng về cơ bản, ng ười ta chia chúng thành 2 dạng: theo mi ền thời gian và theo mi ền tần số. Ta cũng có th ể kết hợp các kỹ thuật của cả 2 dạng trong xử lý.

2.3.1.Các k ỹ thuật theo miền thời gian

Các kỹ thuật xử lý F0 theo mi ền thời gian quan tâm đến các yếu tố về thời gian của tiếng nói như: khoảng thời gian một tiếng, thời điểm và thời lượng F0 xác định trong tiếng, các thời điểm có những thay đổi mang tính quyết định đến F0…

Các kỹ thuật xử lý theo miền thời gian còn xem xét đến việc tăng hiệu quả và

độ chính xác cho việc trích F0.

2.3.2.Các k ỹ thuật phân tích phổ hữu hạn

Các kỹ thuật phân tích phổ hữu hạn, hay phân tích theo miền tần số sẽ đề cập nhiều đến tần số, năng lượng hơn. Đối với nhận dạng tiếng nói, các k ỹ thuật xử lý theo miền tần số tỏ ra hi ệu quả hơn. Và kết quả chora là các t ần số, biên độ, năng lượng… cũng được ứng dụng nhiều trong công đoạn rút trích đặc trưng.

Một vấn đề cũng khá quan tr ọng khi ta đề cập đến tính kinh t ế, và c ũng là mục đích khi tiến hành việc rút trích đặc trưng là giảm thiểu bộ nhớ lưu trữ. Việc rút

39

gọn thông tin ảnh hưởng đến sự chọn lựa các thông tin để xét. Do đó ta ph ải cân nhắc kỹ giữa các thông tin rút trích, cách thức lưu trữ, và độ chính xác cần có.

2.3.3.Mô t ả tín hiệu

2.3.3.1.Ti

ếng nói thô

Tiếng nói thô chứa tất cả các thông tin về tiếng nói đượcphát ra, bao g ồm cả

những dao động cộng hưởng của các khoang, hay nhi ễu môi tr ường… Trong tín

hiệu tiếng nói thô, có rất nhiều thông tin kém hiệu quả, hoặc thậm chí vô ích. Do đó,

nếu lấy tín hiệu tiếng nói thô dùng để trích F0 thì hiệu quả sẽ kém.

Để tăng hi ệu qu ả, ng ười ta ti ến hành m ột số bước ti ền xử lý cho tín hi ệu tiếng nói thô, nhằm tăng độ chính xác, giảm khối lượng tính toán. Thông thường tín

hiệu thô được xử lý qua 2 bước trước khi dùng để trích F0:

Lọc thông th ấp: tín hi ệu tiếng nói được cho qua b ộ lọc thông th ấp để loại bỏ các thành phần có tần số cao hơn Fmax. (Tần số cơ bản lớn nhất có thể của tiếng nói). Thông thường Fmax = 900Hz.

Thực hiện việc lấy mẫu lại, giảm bớt kích th ước sóng âm. Tần số lấy mẫu được giảm xuống còn 2 KHz (theo định luậtNyquist: t ần số lấy mẫu phải lớn hơn hoặc bằng 2 lần tần số cơ bản lớn nhất). Lấy mẫu lại tần số giúp gi ảm đáng kể kh ối lượng tính toán. Ở các ph ương pháp tìm F0 thông thường, khối lượng tính toán giảm khoảng Z2 lần. Với Z là tỉ lệ giảm tần số lấy mẫu.

2.3.3.2.

Lỗi dự báo tuyến tính

Mô hình LPC đặc trưng bằng hàm truyền đạt có dạng như sau:

trong miền thời gian là:

trong đó, G*u(n) chính là ngu ồn kích thích, trong tr ường hợp âm hữu thanh,

G*u(n) chính là miêu tả chính xác dạng dao động của dây thanh hay F0.

40

Chúng ta cũng đã định nghĩa lỗi của ước lượng, e~ (n) như sau:

Nếu mô hình LPC hoạt động tốt, ta có đẳng thức:

Như vậy mô hình LPC đã làm cho tín hi ệu lỗi dự báo e~ (n) ch ỉ còn ch ứa thông tin v ề ngu ồn kích thích, và do đó, vi ệc xác định F0 trong tr ường hợp hữu

thanh trở nên dễ dàng hơn.

2.3.4. Một số phương pháp cài đặt các kỹ thuật trích F0:

2.3.4.1.Ph

ương pháp dùng cepstral:

Phương pháp này có thể mô tả đơn giản như sau:

Dùng phép phân tích Cepstral th ực cho tín hiệu vào. Tín hiệu vào này

có thể sử dụng trực tiếp tiếng nói thô.

Tìm đỉnh trong vùng thích hợp của tín hiệu cn.

Nhận xét

Đỉnh được tìm khá chính xác, ít bị lấy nhầm hài âm.

Dùng tốt trong trường hợpti ếng nói có cao độ thấp.

Việc xác định ngưỡng để quyết định có đỉnh tại cn0 không tuỳ thuộc

vào người nói (cid:224) khó phân biệt vô thanh/hữu thanh.

2.3.4.2.Ph

ương pháp tự tương quan:

pN

1 isis ()(

p

)

Thực hiện tính hàm tự tương quan trên khung tín hiệu tiếng nói độ dài N

i

0

rN(p) =

41

trong đó, p được giới hạn trong vùng có âm c ơ bản. Nếu tín hiệu s(n) là tuần hoàn thì sẽ có các đỉnh tại i = 0, P, 2P,…(P là chu k ỳ âm cơ bản). Ngưỡng quyết định đỉnh thường là : r N(p) > 0.8r N(0). Có một vài ý tưởng tạo ra ng ưỡng động dựa

vào tương quan năng lượng của khung tín hi ệu và năng lượng trung bình của cả tín

hiệu.

Nhận xét:

Thông thường, tín hiệu được nhân với một hàm cửa sổ để giảm sự tác

động do sự thay đổi âm điệu.

Nếu áp d ụng ph ương pháp này cho tín hi ệu ti ếng nói thô thì t ỏ ra

không tốt, đỉnh xuất hiện không rõ.

Cần một số bước tiền xử lý để loại bỏ thông tin c ủa đường phát âm

(vocal tract).

Áp dụng phương pháp này cho e~ (n) sẽ tốt hơn.

Có lấy vài đỉnh trong một khung tín hiệu sau đó dựa vào phương pháp Dynamic Programing để tìm ra chu ỗi F0 trong m ột đoạn các khung liên tiếp.

Một ph ương pháp d ẫn xu ất từ ph ương pháp này là dùng hi ệp tương quan giữa hai tín hi ệu x(n) và y(n), y(n) = x(n + P) (tín hi ệu y(n) là do tín hi ệu x(n) dịch đi P đơn vị).

2.3.4.3.Ph

ương pháp CLIP (center clipping pitch detector)

Phương pháp này tương tự phương pháp tự tương quan ở trên, nhưng tín hiệu

được xử lý để loại bỏ thông tin về các phoocmăng (thông tin về đường phát âm).

Có một vài gi ải pháp cho vi ệc này. C ụ th ể là ph ương pháp c ắt tâm (center clipping). Phương pháp này sẽ loại bỏ bớt các đỉnh nhỏ trên sóng âm, làm cho sóng âm nhìn giống dạng xung hơn.

)( Cns

C

L

)( ns

L

C

C

Phép toán cắt C được mô tả như sau:

L

)( ns

0 )( Cns

L )( ns

C

L

L

C{s(n)} =

Trong đó CL là ngưỡng cắt, thường được lấy bằng 30% giá tr ị lớn nhất của

42

tín hiệu.

2.3.4.4.Ph

ương pháp SIFT (Simplified Inverse Filter Tracking)

e~ (n) thu được trong mô hình phân tích LPC.

Phương pháp này thực chất là phương pháp tự tương quan với tín hiệu vào là

2.3.4.5.Hàm AMDF (Average Magnitude Difference Function)

Giống ph ương pháp t ự tương quan ở trên, nh ưng kh ối lượng tính toán s ẽ

giảm xuống do không phải dùng phép nhân.

pN

1 ns )(|

ns (

p

|)

Chúng ta định nghĩa hàm trung bình hiệu biên độ như sau:

1 pN

n

0

D(p) =

Sau khi tính D(p) trong vùng có kh ả năng xuất hiện P0.Ch ọn điểm cực tiểu

D(P0), P0 là chu kỳ tần số cơ bản.

2.3.4.6.Ph

ương pháp so khớp biên độ

Chuỗi tín hiệu tiếng nói đưa vào máy tính có d ạng hình sin. Do đó, ta sẽ tìm hai điểm dao động cùng pha, kho ảng thời gian giữa hai điểm đó chính là chu k ỳ T. Từ T, ta sẽ tìmra t ần số f.

Tuy nhiên cần chú ý r ằng tín hi ệu tiếng nói là s ự tổng hợp của nhiều tần số (xem hình vẽ), do đó, hai điểm dao động cùng pha được xét phải là 2 điểm cắt zero. Bên cạnh đó, ta cũng phải xác định đúng 2 điểm cắt zero để tạo thành chu k ỳ của F0,vì các dao động cộng hưởng cũng có thể gây ra điểm cắt zero.

Hình 2.15: hình dạng tín hiệu tiếng nói

43

Phương pháp so khớp biên độ được tiến hành như sau:

1. Dò tìm điểm cắt zero th ứ nhất theo một chiều nào đó (ví d ụ đi lên nh ư

trong hình vẽ), đặt tên là X1.

2. Dò tìm 2 điểm cắt zero cùng chi ều ti ếp theo, đặt tên là X2, X3. Với khoảng thời gian gi ữa X1X2 và X2X3 là tương đương nhau và n ằm trong khoảng ngưỡng thời gian xác định chu kỳ.

3. Lần lượt so sánh biên độ các điểm tương ứng trong hai kho ảng X1X2 và

X2X3 . Gọi tổng bình phương các độ sai lệch biên độ là S.

4. Nếu S nh ỏ hơn ng ưỡng độ lệch (t ức là hai kho ảng X1X2 và X2X3 giống nhau) thì k ết lu ận mỗi kho ảng đó là m ột chu k ỳ. Nếu không, thay đổi khoảng thời gian, nghĩa là dò tìmcác điểm cắt zero khác.

Làm trơn kết quả F0 bằng bộ lọc median

Bộ lọc Median được dùng khá r ộng rãi trong vi ệc khử nhi ễu. Nội dung k ỹ

thuật được thể hiện như sau:

Để có một tín hiệu ra, một cửa sổ các tín hiệu vào liền nhau được chọn.

Sắp xếp các dữ liệu trong cửa sổ tín hiệu kể trên.

Giá trị trung tâm c ủa dãy đã sắp xếp được chọn làm median c ủa tập

hợp các mẫu trong cửa sổ.

Nói cách khác, bộ lọc median sẽ tính lại giá trị một điểm mẫu bằng cách lấy

trung bình cộng của một số điểm mẫu chung quanh.

44

Đối với lọc median, phần mất nhiều thời gian nhất là bước thứ 2. Nếu độ dài của cửa sổ kể trên là tương đối lớn thì ta nên dùng thuật toán tìm median dựa trên tư tưởng Quick Sort.

) n ( f

n

Hình 2.16a: Kết quả trích pitch

} ) n ( f { n a i d e M = ) n ( f

n

45

Hình 2.16b: Kết quả sau khi lọc Median

Chương 3. Nhận dạng tiếng nói

3.1. Tổng quan một hệ nhận dạng:

Nhận dạng đối với con ng ười là quá trình mô ph ỏng lại sự nhận biết các sự

vật hiện tượng xung quanh của não người. Một hệ nhận dạng trên máy tính cũng mô

phỏng lại quá trình đó, và được xây dựng với các thành phần cơ bản sau:

Module thu nh ận tín hi ệu và trích đặc tr ưng: thu nh ận tín hi ệu cần nhận dạng, tiền xử lý và rút ra các đặc trưng bất biến của đối tượng.

Module học mẫu: cho máy bi ết đối tượng sẽ nh ận dạng vàcác đặc

trưng tương ứng.

Module tra cứu–so kh ớp: tìm mối liên hệ giữa các đối tượng vừa mới nhận vào với các đối tượng đã lưu trước đó bằng một phương pháp tra cứu–so kh ớp nào đó và đưa ra kết quả.

Sơ đồ một hệ nhận dạng tổng quát thông thường như sau:

Hình 3.1: Sơ đồ một hệ nhận dạng tổng quát

3.2. Tổng quan một hệ nhận dạng tiếng nói:

Một hệ nhận dạng tiếng nói sẽ làm việc với dữ liệu vào là ti ếng nói được số

hoá. Hiện nay, hầu hết các hê nh ận dạng tiếng nói đều được xây dựng dựa trên hai giả thiết cơ bản sau:

46

Dạng mang thông tin tr ực ti ếp của tín hi ệu ti ếng nói được th ể hi ện trong các bi ến đổi th ời gian của ph ổ biên độ tức th ời. Ngoài ra m ột phần thông tin được truyền ở khoảng th ời gian gi ữa các ti ếng nói là các dấu hiệu khác như cao độ, cường độ âm thanh…

Dựa vào kết quả nghiên c ứu của Miller, ti ếng nói được tổ chức theo thứ bậc, sao cho các đơn nguyên đơn giản của một bậc theo một qui tắc nhất định sẽ liên kết thành các đơn nguyên ph ức tạp hơn của bậc

sau. Theo quan điểm của lý thuy ết thông tin, các c ấu trúc nh ư vậy sẽ

làm cho mã ổn định so v ới lỗi gây ra b ởi người nói và t ạp âm xung

quanh.

1.Nh ận dạng từ liên tục và nhận dạng từ cách biệt

Tất cả các hệ nhận dạng tiếng nói được chia làm 2 loại: nhận dạng từ liên tục

và nhận dạng từ cách biệt. Nhận dạng từ liên tục tức là nhận biết được các thông tin cần truy ền đạt trong m ột dãy các t ừ được phát âm liên t ục, nh ư một câu nói t ự

nhiên, bình th ường. Các hệ thống loại này rất phức tạp vì khó tách được biên gi ới

giữa các từ,các h ệ nhận dạng từ liên tục gặp phải vấn đề đầu tiên là tách t ừ, hướng

tiếp cận việc xử lý tốt công đoạn tách từ ảnh hưởng nhiều đến kết quả nhận dạng. Trái lại, đối với mô hình nhận dạng từ tách biệt, mỗi từ cần nhận dạng được phát âm một cách rời rạc, có các khoảng nghỉ trước và sau khi phát âm một từ. Mô hình loại này đơn giản hơn mô hình nhận dạng từ liên tục, đồng thời cũng có những ứng dụng thực tiễn như trong các hệ thống điều khiển bằng lời nói, nhận dạng các chữ số qua điện thoại …, với độ chính xác khá cao, tuy nhiênkhó áp d ụng rộng rãi đối với mô hình trên.

Nhận dạng từ liên t ục khó h ơn rất nhi ều so v ới nh ận dạng từ tách bi ệt vì

những lý do sau đây:

Khi nói liên tục, thì các âm cu ối của từ phía trước gây ảnh hưởng đến các âm đầu của từ phía sau, và đôi khi làm biếnâm các âm v ị lân cận

Ngữ cảnh, tình cảm khi nói cũng làm thay đổi nhiều đến cách phát âm một từ.

Do đó rất khó xác định biên giới ngăn cách giữa các từ khi phát âm liên t ục.

Về mặt tín hiệu, các vùng này đôi khi không có sự thay đổi đáng kể về năng lượng.

2.Nh ận dạng phụ thuộc người nói và độc lập người nói:

Một trong nh ững tr ở ng ại chính ảnh hưởng đến độ chính xác c ũng nh ư sự

phát triển của các hệ nhận dạng tiếng nói, là sự khác biệt rất lớn giữa các người nói khác nhau. Sự khác biệt này làm cho vi ệc thiết kế một mô hình nhận dạng tiếng nói cho tất cả mọi giọng nói rất khó kh ăn, và hầu như chưa thực hiện được tốt. Do đó

47

một cách gi ải quy ết trên th ực tế là gi ả độc lập ng ười nói. Ph ương pháp này th ực

hiện bằng cách thu m ẫu một số giọng nói có độ cao khác nhau (gi ả sử chia làm 5

bậc: nữ cao, nữ trầm, trung, nam cao, nam tr ầm). Khi nh ận dạng, ta sẽ kiểm tra độ cao tiếng thu được, rồi lấy bộ mẫu có độ cao tương ứng để nhận dạng.

Nhận dạng độc lập người nói khó hơn rất nhiều so với nhận dạng phụ thuộc

người nói. Vìcùng m ột từ ta phát âm nhiều lần vẫn khác nhau, dù có điều chỉnh cho

giống lần phát âm tr ước. Đối với con ng ười thì chúng ta có th ể hiểu nhau do ng ữ cảnh. Nhưng đối với máy tính thì r ất khó xây d ựng được một mô hình gi ải quyết

cho tất cả các trường hợp. Điều này thường được giải quyết bằng cách cho máy học

mẫu và l ưu tr ữ nhi ều bộ mẫu khác nhau c ủa từng ng ười nói. Nh ưng, với một số

lượng từ lớn, đôi khi tốn rất nhiều thời gian học mẫu và thường phải dùng đến máy mainframe.

Khi xây dựng một hệ thống nhận dạng tiếng nói, ng ười ta th ường theo một

trong ba cách tiếp cận chính sau:

Tiếp cận theo âm học và ngữ âm học.

Tiếp cận theo nhận dạng mẫu thống kê.

Tiếp cận theo trí tuệ nhân tạo.

Một hệ thống nhận dạng tiếng nói thường có các mô đun sau:

Phần xử lý âm: Quátrình trích đặc trưng của chuỗi âm thanh cho ra các vector đặc trưng. Phần này giải quyết 2 bài toán: phát hi ện chu kỳ tiếng nói và khử nhiễu.

Phần định nhóm nhanh: Phần này giúp t ăng tốc độ nhận dạng trên định nhóm

một từ điển lớn. Ứng với một chu ỗi quan sát, quátrình nhanh sẽ đưa ra một nhóm nhỏ các mẫu gần với chuỗi quan sát đó.

Phần ngữ pháp: Thực chất đây là phần suy luận theo luật. Các luật ở đây là các qui tắc ngữ pháp ứng với một ngôn ngữ cụ thể, do đó, phần này dùng trong nhận dạng nguyên câu. Quá trình này sẽ giới hạn số từ có khả năng xảy ra căn cứ vào các từ đã nhận dạng được.

48

Phần nhận dạng chi ti ết: Quá trình này sẽ xác định một hay một vài từ tương ứng với chuỗi quan sát trên m ột nhóm nhỏ các mẫu đã được lọc ra từ các quá trình trên.

Phần giải mã: Quá trình này sẽ căn cứ vào ngữ cảnh cụ thể để chính xác từ cần nhận dạng. Phần này làm cho h ệ nhận dạng mang tính h ệ chuyên gia.

3.3.Nh ững thuận lợi và khó khăn của nhận dạng tiếng

nói:

Thuận lợi: việc nhập liệu tiếng nói th ực hiện dễ dàng hơn các lo ại dữ liệu

khác: đơn giản, nhanh, làm được trong khi vẫn làm việc khác…

Khó khăn: do tính phức tạp của dữ liệu tiếng nói, việc nhận dạng tiếng nói

mang độ phức tạp cao hơn so với các hệ thống nhận dạng khác:

Tiếng nói là lo ại dữ liệu phụ thuộc người nói. Cùng một tiếng, nhưng

hai người khác nhau nói khác nhau.

Tiếng nói mang tính liên t ục, và do đó, mỗi từ chịu ảnh hưởng (pha trộn) của các từ kế bên trong câu. Bên c ạnh đó, sự phát âm cùng m ột từ cũng thay đổi tuỳ theo ngữ điệu câu nói.

Tiếng nói thay đổi theo tình tr ạng tâm lý, sinh lý và tình c ảm người nói và th ời điểm nói. Cùng m ột từ, một câu, nh ưng sáng nói khác, chiều nói khác, t ối nói khác; vui nói khác, bu ồn nói khác; nói v ới người này khác, nói v ới người kia khác; kho ẻ nói khác, đau nói khác; no nói khác, đói nói khác… Nhi ều hệ th ống nh ận dạng th ường gặp thất bại khi chạy Demo vì người điều khiển quá hồi hộp, sợ sệt. Thậm chí lúc tập trung tư tưởng phát âm sẽ khác lúc thư giãn.

Thiết bị ảnh hưởng rất nhiều đối với âm thanh được thu vào hoặc phát ra. Trên th ị tr ường vẫn có các lo ại nhiều lo ại Micro, loa khác nhau, giá tiền đôi khi chênh lệch rất nhiều. Các loại Micro không tốt sẽ ảnh hưởng đến tín hiệu thu vào, làm mất thông tin, hay sẽ gây ra nhiễu do dòng điện bị dao động khi đi qua các kh ớp nối. Thậmchí, dây Micro dài ngắn khác nhau, cấu tạo bằng các chất dẫn khác nhau cũng sẽ ảnh

hưởng đến tín hi ệu ti ếng nói do sóng âm nh ận được từ các ph ương tiện truyền khác nhau. Nói chung, các thi ết bị phần cứng như Micro,

49

dây dẫn, card âm thanh …, đều có ảnh hưởng đáng kể đến tín hiệu âm thanh.

Môi tr ường thu âm c ũng có ảnh hưởng đáng kể. Thông th ường, tín hiệu tiếng nói khi thu vào ph ải đưa qua bước tiền xử lý để lọc bỏ các tần số nhiễu. Nhiễu này có th ể do ti ếng ồn như tiếng máy qu ạt, máy

lạnh, tiếng xe cộ, tiếng nói như tiếng người, tiếng hát, hay thậm chí là

tiếng dội lại của tiếng nói đang thu trong phòng kín…

3.4.Nh ận dạng tiếng nói sử dụng mô hình Markov ẩn

Mô hình Markov ẩn là mô hình d ựa trên th ống kê dùng để mô hình hoá các loại tín hi ệu theo th ời gian, được sử dụng rất thành công trong nh ững ứng dụng về

nhận dạng. Đặc biệt HMM dùng trong nhận dạng tiếng nói đã đạt được những thành

công lớn. Có 2 lý do để giải thích sự thành công này. Th ứ nhất chính là kh ả năng mô hình hoá ti ếng nói theo th ời gian của HMM. Th ứ hai là cấu trúc mô hình d ựa

trên nh ững ràng bu ộc toán h ọc ch ặt ch ẽ [4]. Do đó HMM cung c ấp một công c ụ

nhận dạng với độ tin cậy cao nh ờ vào nh ững ràng bu ộc và suy lu ận toán học. Nhờ những đặc điểm trên mô hình Markov ẩn cũng được sử dụng trong nhiều ứng dụng khác. Thực tế cho thấy đối với nhận dạng tiếng nói, mô hình Markov ẩn cho kết quả cao hơn mạng neural.

3.4.1.Mô hình Markov ẩn và các bài toán cần giải quyết:

Trong ph ương pháp này, m ỗi từ mẫu sẽ được bi ểu di ễn bằng một mạng chuyển đổi các trạng thái. Tại một thời điểm bất kỳ, hệ thống sẽ ở vào trạng thái qt trong tập S = {Si} có N trạng thái. Qua các thời gian rời rạc, hệ thống sẽ chuyển qua các trạng thái khác. Ký hiệu qt là trạng thái ở thời điểm t, ta có:

P[qt = Sj|qt-1 = Si, qt-2 = Sk,…] = P[qt = Sj | qt-1 = Si]

Chúng ta ch ỉ xét các quá trình mà v ế ph ải không ph ụ thu ộc vào th ời gian.

1

Khi đó tập xác suất chuyển trạng thái aij có dạng:

ija

. aij = P[qt = Sj | qt-1 = Si], với aij 0;

Một mô hình Markov ẩn được đặc trưng bởi các tham số sau:

1. N: số trạng thái của mô hình

2. M: số các ký hiệu quan sát được ứng với một trạng thái

3. Tập xác suất chuyển trạng thái: A = {aij}

4. Tập xác suất ký hiệu Vk quan sát được trong một trạng thái:

50

B = {bj(k)}

5. Tập xác suất trạng thái ban đầu là trạng thái i:

i = P[qt = Si], i [1,N]

Như vậy nếu cho các giá tr ị N, M, A, B, thì mô hình Markov ẩn hoàn toàn

xác định.

Ta ký hiệu một mô hình Markov ẩn như sau: = (A, B, ).

Áp dụng mô hình Markov ẩn cho x ử lý ti ếng nói, ta ph ải gi ải quy ết 3 bài

toán cơ bản sau:

1. Cho chuỗi quan sát O và mô hình , ta phải tính xác su ất có điều kiện

P(O| ) của chuỗi quan sát.

2. Cho chuỗi quan sát O và mô hình , ta phải tìm chu ỗi trạng thái Q sao

cho xác suất có điều kiện P(O| ) là tối ưu.

3. Cho chu ỗi quan sát Ovà mô hình , ta ph ải đánh giá lại các thông s ố

của mô hình sao cho xác su ất có điều kiện P(O| ) của chuỗi quan sát là t ối

ưu.

3.4.1.1.Gi

ải quyết bài toán thứ nhất:

Để giải quyết bài toán thứ nhất, chúng ta sử dụng toán tử tiến t(i)

Toán tử tiến t(i) là xácxu ất của chuỗi quan sát t ừng phần O1O2O3…Ot và

t(i) = P(O1O2…Ot, Si| )

trạng thái quan sát Si tại thời điểm t với điều kiện cho mô hình Markov ẩn .

Toán tử tiến có thể được tính theo công thức truy hồi sau:

với i [1,N]

(i) = ibi(O1),

a) Khởi tạo:

N

(

)

t

ij

j

1

a)Qui n ạp:

t+1(j) =

Obai )( t

i

1

,(t [1,T-1],

j [1,N])

51

b) Kết thúc:

N

P(O| ) =

)( T i

i

1

3.4.1.2.Gi

ải quyết bài toán thứ hai:

Vấn đề thứ hai được giải quyết thông qua các tiêu chuẩn tối ưu. Một loại tiêu

chuẩn tối ưu là chọn trạng thái q có xácxu ất cực đại trong từng thời điểm t.

3.4.1.3.Gi

ải quyết bài toán thứ ba:

Để đánh giá lại thông số của mô hình, ta định nghĩa thêm 3 toán tử sau:

Toán tử lùi t(i)

Toán tử lùi t(i) là xác xu ất của chu ỗi quan sát t ừng ph ần Ot+1Ot+2…OT và

t(i) = P(Ot+1Ot+2…OT|qt = Si, )

trạng thái Si tại thời điểm t với điều kiện cho mô hình Markov ẩn .

t(i) có thể tính được theo công thức truy hồi sau:

Khởi tạo:

(1,N)) T(i) = 1,(i

N

(

)

)( j

Qui nạp:

1

1

Oba t j

ij

t

t(i) =

1

j

,(t [1,T-1])

Toán tử t(i):

Toán tử t(i) là xác su ất của hệ thống ở trạng thái i t ại thời điểm t với điều

t(i) = P(qt = S|O, )

)( i

)( i

t

t

N

t(i) =

)( i t OP (

|

)( i )

t

)( i

)( i

t

t

1

i

52

kiện cho chuỗi quan sát O và mô hình .

Toán tử t(i,j):

Toán tử t(i,j) là xác su ất của hệ thống ở trạng thái i t ại thời điểm t và tr ạng

t(i,j) = P(qt = Si, qt+1 = Sj |O, )

(

)

j )(

Obai )( ij

t

1

t

1

t(i,j) =

j OP (

t |

)

(

)

)( j

1

1

)( Obai t j ij

t

t

N

N

t(i,j) =

(

)

)( j

1

1

)( Obai j ij t

t

t

1

1

i

j

thái j tạith ời điểm t+1 với điều kiện có chuỗi quan sát O và mô hình Markov ẩn .

= xác suất của hệ thống ở trạng thái i tại thời điểm t=1, tức là bằng

t(i).

T

1

i ),( j

t

t

a

ij

1 T

1

i )(

t

t

1

kb )( j

i )(

VO t k T 1

t

t

1

Ta có thể đánh giá lại các thông số của mô hình Markov ẩn như sau:

Thuật toán xử lý và đánh giá lại như sau:

,

,

,

1.v = 1.

v T

v T

v T

v T

,

k )(

2.Tính ,(t (1,T)); i,j (1,N))

v ba , ij

k j

)

vOP |(

3.Tính

v i 4.Tính P(O| v),

)

vOP | (

v

thì thay v bằng

v

v

OP (

|

5. Nếu P(O| v) > 6.v = v+1. L ặp lại các bước 2, 3, 4, 5 cho đến khi v = V. 7. Từ cần nhận dạng có chỉ số:

)

arg 1

max Vv

53

Như vậy bài toán của HMM đã giải quyết xong.

Một số mô hình HMM thông dụng là:

Hình 3.2a: Mô hình Left-Right

Hình 3.2b: Mô hình Bakis

54

Hình 3.2c: Mô hình Tuyến tính

3.4.2.Mô hình Markov ẩn liên t ục (CDHMM-Continuous Densities

Hidden Markov Model)

Có 3 loại mô hình Markov ẩn được sử dụng trong nhận dạng tiếng nói: mô

hình Markov ẩn rời rạc, bán liên tục, và liên tục:

Mô hình Markov ẩn rời rạc gặp ph ải một số điểm yếu vì s ử dụng

codebook là các điểm rời rạc trong khitín hi ệu tiếng nói là liên t ục, mặc khác, huấn luyện cho mô hình Markov ẩn rời rạc cũng gặp khó khăn khi số lượng mẫu

lớn, khó huấn luyện thêm mẫu mới.

Mô hình Markov ẩn bán liên tục là mô hình tích h ợp của hai công cụ: lượng

hoá vector (Vector Quantisation) và HMM r ời rạc. Quá trình lượng hoá vector cho phép chuyển đổi từ tín hi ệu quan sát d ạng liên tục sang tín hi ệu rời rạc bằng cách

tìm một vector trong codebook g ần với tín hi ệu vào nh ất. Nhưng trong tr ường hợp này, quá trình lượng hoá vector chia không gian đặc trưng thành các miền riêng biệt vì vậy có th ể gây ra m ất thông tin nhi ều đối với tín hiệu vào, để cải tiến, SCHMM đưa ra m ột cách t ổ ch ức VQ codebook v ới các hàm phân ph ối ch ồng nhau. M ỗi codeword trong VQ codebook đại diện bởi một hàm mật độ,và chúng liên k ết với nhau trong quá trình đánh giá xác suất của một vector đưa vào.

Mặc dù mô hình Markov ẩn bán liên tục làm giảm đi sự sai biệt khi lượng hoá các vector, nh ưng dù sao v ẫn còn một số sai bi ệt. Mô hình Markov ẩn liên tục là mô hình có nh ững hàm mật độ quan sát tr ực tiếp dùng đầu vào là tín hi ệu liên tục. CHMM gồm có nhi ều trạng thái, trong đó mỗi trạng thái ch ứa các hàm phân phối (hàm Gauss ) trên miền quan sát.

Vì vậy trong đề tài, chúng tôi s ử dụng mô hình Markov ẩn liên tục để có

được độ chính xác cao, kích thước từ điển lớn hơn, dễ dàng thêm mẫu mới.

1. Hàm mật độ quan sát liên tục

Biểu di ễn tổng quát c ủa hàm m ật độ quan sát liên t ục theo công th ức ước

lượng tham số của mô hình Markov ẩn là:

55

Trong đó, S là số trạng thái của mô hình Markov ẩn, o là vector quan sát, c jk là hệ số tr ộn của thành ph ần trộn th ứ k ở trạng thái j, và N là hàm m ật độ Gauss

nhiều chiều có vector trung bình jk và ma trận hiệp phương sai Ujk của thành phần trộn thứ k ở trạng thái j là:

với n là s ố chiều của vector quan sát o. Để chuẩn hoá đúng bj(o), hệ số trộn

2.Kh ởi tạo giá trị ban đầu cho CDHMM

cjk phải không âm và thoã mãn ràng buộc:

CDHMM được biểu diễn bằng ma tr ận xác su ất chuyển trạng thái A = {a ij}, với aij là xác su ất chuyển từ trạng thái i ở thời điểm t đến trạng thái j ở thời điểm t+1, bj(o) là hàm mật độ liên tục của vector quan sát o khi mô hình đang ở trạng thái j theo công th ức (3.1) và ma tr ận xác suất trạng thái ban đầu = { i}, với i là xác suất mô hình ở trạn thái i tại thời điểm t = 1. Nếu chúng ta khởi tạo tốt các tham số ban đầu cho CDHMM thì thu ật toán ước lượng sẽ hội tụ đúng và nhanh. Thông thường trong nh ận dạng ti ếng nói, ng ười ta ch ọn mô hình Bakis có b ước nh ảy 2, ở đó:

Để khởi tạo các tham s ố ban đầu cho jk ,Ujk và cjk, đầu tiên chúng ta ph ải phân đoạn các quan sát c ủa mỗi ch ữ số đã bi ết thành các tr ạng thái, có th ể phân đoạn tuyến tính hay phân đoạn đều.

Thuật toán khỏi tạo giá trị đầu của CDHMM như sau:

56

a. Gọi Nj là số lượng các vector quan sát o ở trạng thái j, s ử dụng thu ật toán phân nhóm k-trung bình c ủa Linde-Buzo-Gray, chúng ta có được M vector trung bình jk của các quan sát trên, g ọi Njk là số lượng các vector quan sát o của thành phần trộn thứ k ở trạng thái j, nên

Có thể gi ả thiết các ph ần tử của vector quan sát này là không t ương quan với các phần tử của vector quan sát kia nên ma trận hiệp phương sai Ujk trở thành ma tr ận đường chéo. Ngoài ra, các ph ần tử aij cũng được xác định bằng cách đếm số lần chuyển từ trạng thái i sang tr ạng thái j và chia cho s ố lần ở tr ạng thái i. Nh ư vậy, chúng ta đã có mô hình Markov ẩn 1 ở th ời điểm này. Ti ếp theo, sử dụng thuậttoán Viterbi để tính xác su ất tạo ra mỗi chữ số tương ứng với mô hình Markov ẩn 1 và gọi là P1, đồng thời thu được chuỗi các trạng thái tương ứng với các vector quan sát đã cho.

b.Th ực hiện lại bước a và chúng ta lại có được mô hình Markov ẩn 2 và P2.

Nếu P2 > P1, ngh ĩa là mô hình Markov ẩn 2 tốt hơn 1, gán P 1=P2,

Quá trình lặp chấm dứt khi không thể chọn mô hình Markov ẩn mới nào tốt hơn mô hình Markov ẩn trước đó.

1= 2 rồi lặp lại bước b.

3. Ước lượng các tham số của CDHMM

Gọi t(j,k) là xác su ất đang ở trạng thái j t ại thời điểm t với thành ph ần trộn

thứ k của quan sát ot, 1 t T, trong đó T là số lượng quan sát của một từ. Ta có

57

trong đó, t(j) = P(o 1 o2…ot, qt =j| ) là xác su ất mi ền quan sát o 1 o2 … ot (đến thời điểm t) với trạngthái j ở thời điểm t, và t(j) = P(o1+1 o2+2…oT, qT =j| ) là xác suất của miền quan sát từ t+1 đến cuối T, với trạng thái j ở thời điểm t, ứng với

mô hình CDHMM . Chúng ta sử dụng thuật toán Baum-Welch thu ận và nghịch để tính t(j) và t(j).

Do định nghĩa t(j,k) như trên, nên hệ số trộn cjk là tỷ số giữa kỳ vọng số lần

ở trạng thái j dùng thành phần trộn thứ k và kỳ vọng số lần ở trạng thái j

Tương tự, vector jk là trung bình có tr ọng và ma trận Ujk là hiệp phương sai

có trọng củacác quan sát o t

L

trong đó, H là vector chuy ển vị. Các công th ức (8), (9), (10) ch ỉ dùng để học một chữ số, trong quá trình ước lượng, mỗi chữ số được nói nhiều lấn nên cần thêm

l 1

với Llà s ố từ, phía tr ước tử số và mẫu số trong các công th ức trên. phép tổng

58

Ngoài ra, công th ức ước lượng của aij cũng giống như của mô hình Markov ẩn có mật độ quan sát rời rạc.

Chương 4.

Một số khảo sát về thanh điệu tiếng Việt

Các thông số cơ bản của thanh điệu bao gồm: tần số cơ bản, cường độ, và

trường độ. Tuy nhiên, khác v ới tần số cơ bản và tr ường độ, cường độ không đóng vai trò chủ yếu đối với việc xác định những đặc trưng của thanh điệu. Tuỳ theo ngữ

cảnh và nh ững sắc thái tình c ảm trong giao ti ếp bằng ngôn ng ữ cường độ có th ể bị biến đổi. Do đó, đặc trưng này thuộc ngữ điệu câu, và chỉ là một hiện tượng đi kèm

với thanh điệu. Khi miêu t ả tần số cơ bản, hai thu ộc tính ng ữ âm ảnh hưởng tr ực

tiếp đến các đặc trưng của thanh điệu là: sự vận động của F0 và âm vực. Đường nét của tần số cơ bản thể hiện như một hàm th ời gian, ch ỉ tồn tại trong âm h ữu thanh. Âm vực là độ cao tương đối của tần số cơ bản trong sự vận động của nó. Trường độ của thanh điệu là hàm th ời gian của tần số cơ bản trong một âm tiết. Tần số cơ bản chỉ tồn tại trong các âm h ữu thanh, ph ản ánh tr ực ti ếp tr ường độ của thanh điệu. Do đó, trường độ của thanh điệu không ph ải bao gi ờ cũng trùng với trường độ của âm tiết.

Sự vận động tần số cơ bản của thanh điệu trong từng âm tiết được phân chia thành 2 giai đoạn. Riêng thanh 3 (thanh ngã) có tr ường hợp bị gián đoạn thành 2 phần. Gọi các điểm mốc là: điểm đầu(E), điểm giữa(M), điểm cuối(A). Thanh ngã khi bị gián đoạn có 6 điểm mốc.

4.1.Thanh 1 (Thanh ngang)

Các tiếng được lựa chọn để khảo sát là:

1. â 2. a 3. b 4. cao

5. co 6. c 7. c 8. dan

9. đơ 10. đi 11. lê 12. ngô

13. ng 14. n 15. n 16. nă

17. m 18. h 19. h 20. khô

21. tro 22. tô 23. tâ 24. ph

25. th 26. tư 27. th 28. trư

59

29. sa 30. vă 31. q 32. quy

140

120

100

80

60

40

20

6

0

1

1 1

6 1

1 2

6 2

1 3

6 3

1 4

6 4

1 5

6 5

1 6

6 6

1 7

6 7

1 8

6 8

33. so 34. s 35.36.

Hình 4.1: thanh ngang

Thanhngang có 4 bi ến điệu, nhưng nhìn chung đường nét cơ bản là ngang

và bằng phẳng.

Hiệu tần số cơ bản <10Hz

Giá trị phương sai của tần số cơ bản: ở giọng nữ (8–16) Hz, ở giọng nam

(20 –24) Hz.

Âm vực: nữ (271–296) Hz, nam (239–251) Hz.

Giá trị trung bình của trường độ: nữ 423 ms , nam 266 ms.

Giá trị phương sai của trường độ: nữ 83 ms, nam 39 ms.

4.2.Thanh 2 (Thanh huy ền)

Các tiếng được lựa chọn để khảo sát là:

1. Đ 2. vì 3. trò 4. m

5. 6. n từ 7. cư 8. d

9. 10. g tru 11. kè 12. à

13. 14. d trư 15. và 16. l

17. N 18. trì 19. bà 20. v

21. 22. to th 23. bầ 24. k

25. 26. th nh 27. kè 28. l

29. 30. n lời 31. nà 32. đ

33. Ò 34. È 35. ù 36. Ì

37. 38. p dà 39. thà 40. h

60

41. h 42.43.44.

120

100

80

60

40

9

20

5

0

1

3 1

7 1

1 2

5 2

9 2

3 3

7 3

1 4

5 4

9 4

3 5

7 5

1 6

5 6

9 6

3 7

7 7

1 8

Hình 4.2: thanh huyền

Thanh huyền có 3 bi ến điệu, nhưng đường nét nói chung đi xuống đều đặn,

bằng phẳng.

Hiệu tần số cơ bản: nữ 42Hz, nam 53Hz

Giá trị phương sai của tần số cơ bản: ở giọng nữ (6–11) Hz, ở giọng nam

(9–16) Hz.

Âm vực: nữ (163–256) Hz, nam (122–175) Hz.

Giá trị trung bình của trường độ: nữ 396 ms , nam 304 ms.

Giá trị phương sai của trường độ: nữ 87 ms, nam 45 ms.

4.3.Thanh 3 (Thanh ngã)

Các tiếng được lựa chọn để khảo sát là:

ữ chữ ẽ ãch

chuỗi d giữ dãy ĩ

diễn dỗđỗ hãy

dữ mỗi lưỡimãi

ữa ngãgi mũiNgã

nỗi ĩ ngữ nguyễn

ỹ nhiễulu õquãng

Ũ ĩ nhữngngh quẫy

rõngh ĩatã

61

tiễn sẽ vẫn

200 180 160 140 120 100 80 60 40 20 0

071421283542495663707784

7

200 180 160 140 120 100 80 60 40 20 0

1

3 1

9 1

5 2

1 3

7 3

3 4

9 4

5 5

1 6

7 6

3 7

9 7

5 8

Hình 4.3a: thanh ngã bị tách đôi

Hình 4.3b: thanh ngã không bị tách đôi

Thang ngã có 4 bi ến điệu, đường nét bị gãy ở gi ữa thành 2 đoạn, phần hai đi lên và kết thúc cao. Nét gãy ở giữa phần lớn bị tách ra (hình a), nh ưng cũng có biến điệu mà trong đó nét gãy không b ị đứt ra (hình b). Điều đó ch ứng tỏ hi ện tượng tắc họng ở giữa của thanh ngã không có tính chất bắt buộc.

Hiệu tần số cơ bản:

Nữ:Gi ữa E1 và A2 –101Hz

Giữa E1và A1–5Hz

Giữa M1 và A1–22Hz

Giữa E2 và A2 –72Hz

Nam:Gi ữa E1 và A2 –160Hz

Giữa E1và A1–39Hz

Giữa M1 và A1–2Hz

62

Giữa E2 và A2 –114Hz

Giá trị phương sai của tần số cơ bản: ở giọng nữ (9–19) Hz, ở giọng nam

(19 –59) Hz.

Âm vực: nữ (185–314) Hz,nam (128–308) Hz.

Giá trị trung bình của trường độ: nữ 277 ms , nam 291 ms.

Giá trị phương sai của trường độ: nữ 63 ms, nam 25 ms.

4.4.Thanh 4 (Thanh h ỏi)

Các tiếng được lựa chọn để khảo sát là:

bả 3. c 4. c 1. ả 2.

biể 7. đi 8. l 5. b 6.

cả 11. đ 12. n 9. c 10.

hẳ 15. d 16. n 13. đ 14.

ỉ 19. ẻ 20. ỏ 17. g 18.

kh 23. h 24. s 21. k 22.

kh 27. k 28. t 25. n 26.

kiể 31. lử 32. t 29. t 30.

ng 35. p 36. t 33. T 34.

120

100

80

60

40

20

6

0

1

1 1

6 1

1 2

6 2

1 3

6 3

1 4

6 4

1 5

6 5

1 6

6 6

1 7

6 7

1 8

nh 39. tổ 40. t 37. ủ 38.

Hình 4.4: Thanh hỏi

Thanh hỏi có 3 biến điệu, đường nét ban đầu đi xuống rồi sau đó đi lên hoặc

mạnh (thường gặp ở giọng nam) hoặc yếu (thường gặp ở giọng nữ).

Nữ:Gi ữa E và A –13Hz

Giữa E và M –67Hz

63

Giữa M và A–54Hz

Nam:Gi ữa E và A –7Hz

Giữa E và M –29Hz

Giữa M và A–36Hz

Giá trị phương sai của tần số cơ bản: ở giọng nữ (5–27) Hz, ở giọng nam

(8–49) Hz.

Âm vực: nữ (259–132) Hz, nam (159–83) Hz.

Giá trị trung bình của trường độ: nữ 336 ms , nam 347 ms.

Giá trị phương sai của trường độ: nữ 80 ms, nam 31 ms.

4.5.Thanh 5 (Thanh s ắc)

Các tiếng được lựa chọn để khảosát là:

Trường hợp A:

bá 3. bái 4. bán 1. cấu 2.

có 7. bán 8. chí 5. chí 6.

giống 11. chó 12. chúng 9. cứu 10.

lắm 15. cứng 16. chướng 13. hoá 14.

lối 19. khí 20. nghé 17. lớn 18.

lối 23. ngó 24. tiếng 21. nó 22.

nhóm 27. thí 28. tố 25. phố 26.

tá 31. ý 32. trấn 29. thứ 30.

6

200 180 160 140 120 100 80 60 40 20 0

1

1 1

6 1

1 2

6 2

1 3

6 3

1 4

6 4

1 5

6 5

1 6

6 6

1 7

ứng 35. yếu 36. ví 33. tính 34.

64

Hình 4.5a: Thanh sắc (trường hợp a)

Hiệu tần số cơ bản: nữ 95Hz, nam 141Hz.

Giá trị phương sai của tần số cơ bản: ở giọng nữ (5–27) Hz, ở giọng nam

(19 –31) Hz.

Âm vực: nữ (174–301) Hz, nam (113–224) Hz.

Giá trị trung bình của trường độ: nữ 277 ms , nam 291 ms.

Giá trị phương sai của trường độ: nữ 80 ms, nam 35 ms.

Trường hợp B:

1. hót 2. bức 3. bút 4. chất

5. mát 6. các 7. chức 8. khác

9. tát 10. phát 11. nhích 12. quốc

13. xát 14. thướt 15. pháp 16. tháp

6

200 180 160 140 120 100 80 60 40 20 0

1

1 1

6 1

1 2

6 2

1 3

6 3

1 4

6 4

1 5

17. xuất 18. tót 19. thấp 20. thức

Hình 4.5b: Thanh sắc (trường hợp b)

Thanh sắc có 4 biến điệu, đường nét bằng phẳng hoặc lên gấp và ngắn.

Hiệu tần số cơ bản: nữ 60Hz, nam 104Hz.

Giá trị phương sai của tần số cơ bản: ở giọng nữ (10 –30) Hz, ở giọng nam

(10 –43) Hz.

Âm vực: nữ (224–316) Hz, nam (143–274) Hz.

Giá trị trung bình của trường độ: nữ 105 ms , nam 104 ms.

65

Giá trị phương sai của trường độ: nữ 49 ms, nam 45 ms.

4.6.Thanh 6 (Thanh n ặng)

Trường hợp A:

Các tiếng được lựa chọn để khảo sát là:

1. cộ 2. động 3. hạo 4. điệu

5. đoạn 6. lạnh 7. mạnh 8. định

9. dụng 10. lượng 11. mạo 12. dụ

13. giận 14. lượng 15. tạ 16. hiện

17. gọi 18. mạ 19. tại 20. phụ

21. loại 22. ngoại 23. thị 24. tạn

25. trọng 26. tạ 27. vậy 28. tạo

120

100

80

60

29. vẹn 30. vị 31. vị 32. tụ

z H

40

9

20

5

0

1

3 1

7 1

1 2

5 2

9 2

3 3

7 3

1 4

5 4

9 4

3 5

Frame

Hình 4.6a: thanh nặng (trường hợp a)

Hiệu tần số cơ bản: nữ 53Hz, nam 71Hz.

Giá trị phương sai của tần số cơ bản: ở giọng nữ (8–22) Hz, ở giọng nam

(23 –35) Hz.

Âm vực: nữ (252–151) Hz, nam (166–85) Hz.

Giá trị trung bình của trường độ: nữ 214 ms , nam 204 ms.

Trường hợp B:

Giá trị phương sai của trường độ: nữ 63 ms, nam 45 ms.

1. gặp 2. nhạc 4. lực nhật 3.

66

5. Một 6. việt 8. cập bật 7.

9. đạt 10. đặt 11. đọc 12. thạch

120

100

80

60

40

20

9

0

5 1

3 1

7 1

1 2

5 2

9 2

3 3

7 3

1 4

5 4

13. dược 14. thuật

Hình 4.6b: Thanh nặng (trường hợp b)

Hiệu tần số cơ bản: nữ 33Hz, nam 42Hz.

Giá trị phương sai của tần số cơ bản: ở giọng nữ (13 –24) Hz, ở giọng nam

(20 –26) Hz.

Âm vực: nữ (247–163) Hz, nam (156–95) Hz.

Giá trị trung bình của trường độ: nữ 145 ms , nam 116 ms.

Giá trị phương sai của trường độ: nữ 67 ms, nam 39 ms.

Thanh nặng có 5 biến điệu, đường nét nói chung đi xuống rất gấp và ngắn.

Nhận xét:

Quá trình v ận động của tần số cơ bản của các thanh điệu được chia làm 2

phần:

Phần ổn định

Phần động

Phần ổn định là sự vận động của tần số cơ bản ở phần vần của âm tiết với tư

cách là yếu tố mang những dấu hiệu khu biệt âm vị học chủ yếu của các thanh điệu.

Phần động là sự vận động của tần số cơ bản của phụ âm đầu hữu thanh trong

các âm tiết.

Nếu phần ổn định của thanh điệu được xem nh ư là trung tâm và ph ần động được xem nh ư là ngo ại biên thì ng ười ta có th ể nhận thấy tính ch ất động của phần

67

ngoại biên là m ột yếu tố rất quan tr ọng, đóng vai trò nh ư một vùng đệm đảm bảo

tính ổn định cho nh ững đặc trưng ngữ âm cơ bản và ch ức năng khu bi ệt âm vị học

của các thanh điệu.

Trong khuôn khổ luận văn, chúng em chỉ nghiên cứu đến phần chủ yếu quyết

định thanh điệu, tức là xem như thanh điệu nằm ở phần vần của âm tiết.

Qua khảo sát, kết quả về âm vực của các thanh như sau:

Nhóm cao: ngã, sắc

Nhóm thấp: ngang, huyền, hỏi, ngã, nặng.

Riêng thanh ngã, vì sự biến đổi của nó chạy dài từ vùng tần số thấp đến vùng

tần số cao, nên chúng tôi x ếp thanhngã vào c ả hai lớp. Sự phân lớp này được ứng

dụng vào mô đun phân lớp tiếng nói trong nhận dạng tiếng Việt.

Kết quả về trường độ của các thanh như sau:

Nhóm dài: ngang, huyền, hỏi, ngã, sắc

Nhóm ngắn: sắc, nặng.

68

Như đã trình bày ở trên, thanh s ắc(5) và thanh n ặng(6) có 2 d ạng. Cả hai dạng của thanh n ặng đều có tr ường độ ng ắn. Còn d ạng (b) c ủa thanh s ắc (trong trường hợp âm t ắc) cũng thu ộc dạng ng ắn trong khi d ạng (a) c ủa thanh s ắc vẫn thuộc dạng có trường độ dài.

Chương 5.

Xây

dựng mô hình nh

ận

dạng

thanh điệu tiếng Việt

Hình 5.1: mô hình huấn luyện và nhận dạng;

(a) công đoạn huấn luyện, (b) công đoạn nhận dạng.

5.1.Ti ền xử lý

Tiền xử lý là tác động lên tín hi ệu trước khi đưa vào xử lý, trích đặc trưng. Vì tín hiệu nhận vào ở nhiều điều kiện khác nhau nh ư môi trường (áp xuất, khoảng cách

từ mi ệng tới loa …), thi ết bị (các lo ại micro khác nhau, kho ảng cách truy ền), con người (tình tr ạng tâm sinh lý c ủa con ng ười tại thời điểm thu âm). Cho nên các tín hiệu thu vào ngoài ph ần dữ liệu chính còn có các thông tin trên. Vì v ậy tiền xử lý là một hình thức làm sạch các thông tin không c ần thiết để ta có được dữ liệu tương đối chính xác.

66

s(n) là tín hiệu ban đầu.

Hình 5.3: Khung tín hiệu

1.5 Cửa sổ

Mỗi khung tín hi ệu sau khi được xác định được nhân với hàm cửa sổ để giảm

bớt hiệu ứng biên và tách ra phân đoạn tín hiệu có tập trung năng lượng phổ. Các hàm

cửa sổ đã được đề cập ở ph ần trên. ở đây hàm c ửa sổ được sử dụng là c ửa sổ Hamming.

Hình 5.4: Hàm cửa sổ

5.2.Trích F0 t ừ tín hiệu tiếng nói (pitch extraction)

Như đã đề cập ở phần (I.2),thanh điệu là một đặc trưng quan tr ọng của tiếng Việt. Để xây dựng một hệ thống nhận dạng tiếng Việt hoàn chỉnh thì nhận dạng thanh điệu ti ếng vi ệt là c ần thi ết. Bởivì đa số các h ệ nh ận dạng ti ếng Vi ệt hi ện nay đều chưa giải quyết được vấn đề thanh điệu, dễ nhận dạng nhầm các từ đồng âm, ví d ụ:

69

hai, hài, hái, hải, hãi, hại.

Hình 5.5: Tín hiệu tuần hoàn của nguyên âm [o] trong tiếng ‘hỏi’

Hình trênth ể hiện một mẫu tuần hoàn, chứa một đỉnh lớn và 9 đỉnh nhỏ. Mẫu này cứ lặp lại cứ mỗi 9 ms. Hay nói cách khác một chu kỳ là 9 ms. Do đó mất khoảng 111 chu kỳ trong 1 giây (m ột giây bằng 1.000 ms ). Ta nói t ần số cơ bản có giá tr ị là 111 chu kỳ trên một giây, hay nói cách khác tần số cơ bản là 111 Hz.

Các phương pháp dò tìm tần số cơ bản đã được trình bày ở phần (II.3.4). Trong luận văn này chúng tôi sử dụng phương pháp AMDF (Average Magnitude Difference Function).

Khung tín Tín hiệu sau khi qua các b ướcti ền xử lý được tiến hành trích tần số

cơ bản F0

Thông tin về thanh điệu tập trung ch ủ yếu trên ph ần vần của âm ti ết[2] . Tuy

nhiên, việc dò tìm phần vần gặp rất nhiều khó khăn khi âm đầu là âm hữu thanh. Cũng như trong vi ệc tìm tần số cơ bản rất khó phânbi ệt được phần âm đầu hữu thanh và

nguyên âm theo sau đó. Vì vậy, cách gi ải quyết của chúng tôi là trích t ần số cơ bản toàn bộ phần hữu thanh.

s(n) là tín hiệu tiếng nói

T là hàm trích tần số cơ bản

70

f(m) là vector thu được (chứa các giá trị f0)

với M là số khung tín hi ệu (trong chương trình demo chúng tôi ch ọn khung tín

hiệu là 10ms)

5.3. Tạo vector đặc trưng từ vector V(F0)

Trong nh ận dạng ti ếng Trung Qu ốc (Mandarin),[14], Yang et all định ngh ĩa

vector đặc trưng như sau:

trong đó ft là tần số cơ bản ở khung tín hiệu thứ t.

Thành phần thứ nhất cho bi ết thông tin v ề độ dốc của đường vận động tần số cơ bản, thành phần thứ hai thể hiện độ cao của tần số cơ bản. Kết quả nhận dạng thu độ chính xác kho ảng 96,5%. Nh ưng nếu lấy các đặc tr ưng được củaYang et allcó này áp dụng cho hệ nhận dạng tiếng việt thì kết quả thu được rất thấp, (~ 70%).

Chúng ta có th ể thấy được sự khác bi ệt về thanh điệu giữa tiếng Việt và ti ếng

Trung Quốc:

Thanh điệu của ti ếng vi ệt gồm 6 thanh, trong khi đó ti ếng trung qu ốc

chỉ có 5 thanh

Đường nét của thanh điệu tiếng Trung Quốc rất đơn giản[14].

Đường nét của thanh ngã ti ếng Việt rất phức tạp, có bi ến đổi rất quan

trọng giữa âm vực cao và âm vực thấp.

Từ những kết quả nghiên cứu về thanh điệu tiếng việt, và kết quả trích tần số

cơ bản F0 chúng tôi đề nghị vector đặc trưng có 10 thành phần như sau:

trong đó:

71

- ft là tần số cơ bản tại khung tín hiệu t.

-

-

- ft+1 là tần số cơ bản tại khung tín hiệu t+1 et là năng lượng tại khung tín hiệu t emax là năng lượng cực đại trong phần hữu thanh

- d là chiều dài của phần hữu thanh (tính bằng số khung)

-

-

-

- fmax là tần số cơ bản cực đại trong vùng hữu thanh fmin là tần số cơ bản cực tiểu trong vùng hữu thanh fst là tần số cơ bản ở khung đầu tiên trong vùng hữuthanh fed là tần số cơ bản ở khung cuối cùng trong vùng hữu thanh

5.4.Hu ấn luyện cho mô hình

Trong mô hình nh ận dạng thanh điệu tiếng việt chúng tôi s ử dụng 8 mô hình HMM tương ứng cho 6 thanh điệu. Ở đây chúng tôi sử dụng 8 mô hình vì thanh có 5 có

2 trường hợp là 5a và5b, thanh 6 có 2 tr ường hợp là thanh 6a và 6b (nh ư đã trình bày trong phần IV) .

Hình 5.7: quá trình khởi tạo các tham số

Các tham số của mô hình được khởi tạo theo thuật toán sau:

Với mỗi mô hình, lấy tất cả các vector đặc trưng ứng với mô hình này

Tất cả các vector được chia thành các đoạn bằng nhau tu ỳ vào số trạng

72

thái của mô hình.

Ta tính các tham số thống kê (giá tr ị trung bình và ph ương sai) cho mỗi

đoạn tương ứng với một trạng thái trong mô hình.

Sử dụng thuật toán Viterbi để phân đoạn lại, sau đó tính toán các tham số thống kê và cập nhật trở lại mô hình.

Lặp lại bước cuối cho đến khi hội tụ.

Đây là một thuật toán để khởi tạo các tham số cho mô hình, tuy đây không phải là công vi ệc chính, nh ưng nógóp ph ần làm tăng độ hội tụ của việc tính các tham s ố

của mô hình.

Trong quá trình hu ấn luy ện cho mô hình chúng ta có th ể sử dụng thu ật toán

Baum–Welch để tính các tham s ố. Trong tr ường hợp này, thường gọi là sự khởi tạo

trực tiếp và thường khởi tạo giátr ị trung bình bằng 0 và phương sai bằng 1.

5.5.Nh ận dạng

Quá trình nhận dạng thanh điệu của một tiếng được mô tả bằng hình sau:

Hình 5.8: Mô hình nhận dạng thanh điệu tiếng Việt

73

Tín hiệu tiếng nói sau khi đã qua tiền xử lý, trích tần số cơ bản, tạo các vector đặc trưng dựa vào vector V(F0). Các vector đặc trưng này được đưa qua một bộ nhận dạng (sử dụng thuật toán Viterbi để tìm ra chu ỗi trạng thái có xác su ất lớn nhất) và được chia thành 2 đầu ra là k ết qu ả nh ận dạng. Tuy nhiên, vì thanh 5 và thanh 6 trường hợp, nên đến đây vẫn chưa phải là kết quả cuối cùng, ta ph ải dựa vào 2 lu ật sau để quyết định:

nếu là thanh 5a hay thanh 5b đều quy ết định là thanh 5 (thanh sắc)

nếu là thanh 6a hay 6b đều quyết định là thanh 6 (thanh nặng)

5.6. Một số kết quả nhận dạng thanh điệu tiếng Việt

Tổng cộng và kh ảo sát th ử trên: 257 ti ếng khác nhau, thu m ẫu 4000 ti ếng,

trung bình mỗi tiếng thu mẫu 15 lần, kết quả nhận dạng lại trên những mẫu đã học.

1. Với vector đặc trưng gồm 11 thành phần:

Vớicác thông s ố của mô hình markov ẩn khác nhau có kết quả tương ứng như sau:

5 trạng thái, 1 mixer :92,24%

5 trạng thái, 4 mixer :94,72%

6 trạng thái, 4 mixer :94,91%

7 trạng thái, 4 mixer :95,51%

2. Với vector đặc trưng gồm 11 thành phần:

yt = [ log( f

t ) , | log( ft – ft+1 ) | , log( ft + ft+1 ) , | log(e– e t ) | , log( d ) ,

log( fmax ) , log( fmin ) , log( fmax – fst ) , log( fmax – fed ), log( fst – fmin)

log( fed – fmin) ]

Với các thông số của mô hình markov ẩn có kết quả tương ứng như sau:

7 trạng thái, 4 mixer :92,38%

3. Với vector đặc trưng gồm 9 thành phần:

yt = [ f t , ft – ft+1 , e – e t , fmax , fmin , fmax – fst , fmax – fed , fst – fmin ,

fed – fmin ]

Với các thông số của mô hình markov ẩn có kết quả tương ứng như sau:

6 trạng thái, 4 mixer:92,23%

4. Với vector đặc trưng gồm 9 thành phần:

yt = [ ft , ft – ft+1 , d , fmax , fmin , fmax – fst , fmax – fed , fst – fmin , fed – fmin ]

74

Với các thông số của mô hình markov ẩn có kết quả tương ứng như sau:

6 trạng thái, 4 mixer:94,66%

5. Với vector đặc trưng gồm 13 thành phần:

yt = [ ft , ft – ft+1 , e – e t , d , fmax , fmin , fmax – fst , fmax – fed , fst – fmin ,

fed – fmin , fst , fed , fst – fed ]

Với các thông số của mô hình markov ẩn có kết quả tương ứng như sau:

6 trạng thái, 4 mixer:94,49%

6. Với vector đặc trưng gồm 12 thành phần:

yt = [ ft , ft – ft+1 , ft + ft+1 , e – e t , d , f max , fmin , fmax – fst , fmax – fed ,

fst – fmin , fed – fmin , fmax – fmin ]

Với các thông số của mô hình markov ẩn có kết quả tương ứng như sau:

6 trạng thái, 4 mixer:95,28%

7. Với vector đặc trưng gồm 10 thành phần:

yt = [ ft , ft – ft+1 , e – e t , d , fmax , fmin , fmax – fst , fmax – fed , fst – fmin ,

fed – fmin ]

Với các thông s ố của mô hình markov ẩn khác nhau có k ết quả tương ứng như

sau :

Nhận dạng với 8 mô hình (phân chia m ỗi thanh s ắc và n ặng thành 2 tr ường

hợp)

6 trạng thái, 4 mixer, bỏ phần bắt đầu và kết thúc 10%:95,39%

6 trạng thái, 4 mixer, bỏ phần bắt đầu và kết thúc 5% :95,09%

Nhận dạng 6 mô hình cho 6 thanh điệu (không phân chia thanh sắc và nặng)

6 trạng thái, 4 mixer, bỏ phần bắt đầu 10%:97,67%

Tách riêng huấn luyện 300 mẫu, test 200 mẫu đối với nhận dạng 6 thanh :

6 trạng thái, 4 mixer, bỏ phần bắt đầu 10%:95,69%

6 trạng thái, 4 mixer, b ỏ phần bắt đầu 10%, nh ận dạng 8 mô hình cho 8

75

thanh (mỗi thanh sắc và nặng chia thành 2 tr ường hợp) , sau đó dùng luật quyết định để đưa ra kết luận cho 6 thanh:

Kết quả:

Tổng cộng 4000 tiếng

Đúng 3941 tiếng (98,5 %)

Sai 59 tiếng (1,5%)

HuyềnNgã H ỏi Sắc Nặng Tỉ lệ

Ngan đúng

g

Ngang657699.1%

Huyền657100%

Ngã65724595.77%

Hỏi3657199.39%

Sắc1365698.06%

Nặng311265798.95%

76

Kết qu ả nh ận dạng lại trên nh ững mẫu đã học đúng kho ảng ~98.5%.

Chương 6.

Thiết kế mô hình nhận dạng tiếng nói tiếng Việt

Để giải quyết được bài toán nh ận dạng tiếng Việt thì nh ận dạng thanh điệu là

rất cần thiết. Tuy không tri ệt để (không nhận dạng được toàn bộ các từ) nhưng có thể làm tăng bộ từ vựng trong nhận dạng (bộ từ vựng có thể lớn hơn 200 từ ) với độ chính

xác 90 -96%. Ngoài ra để giải quyết được triệt để bài toán nh ận dạng chúng ta c ần kết hợp với mô hình ngôn ng ữ, hoặc giải quyết bằng phương pháp nh ận dạng âm vị

kết hợp với mô hình ngônng ữ và nhận dạng thanh điệu.

Trong nghiên c ứu của lu ận văn, nh ận dạng tất cả các thanh điệu đạt kho ảng 98,5% trên số lượng từ vựng là 257 từ được thu mẫu 4000 lần. Tỷ lệ trên là tương đối cao so với các nghiên c ứu trước đây (84%) nhưng vẫn chưa dùng tốt cho nhận dạng. Chúng tôi đã tiến hành phân lớp thanh điệu thành 2 lớp: thanh cao và thanh th ấp, kết quả phân l ớp đạt được 99.71%. Vì v ậy, chúng tôi ch ỉ ứng dụng mô đun nh ận dạng thanh điệu tiếng Việt vào vi ệc phân lớp. Nhờ đó có th ể nâng được số lượng từ trong từ điển lên đáng kể mà vẫn giữ được độ chính xác cao.

Hình 6.1: Mô hình tổng quát;

(a) công đoạn huấn luyện; (b) công đoạn nhận dạng

6.1.Công đoạn huấn luyện

Cũng như trong nh ận dạng thanh điệu tiếng Việt, tín hi ệu tiếng nói cũng phải

77

qua bước tiền xử lý, công đoạn huấn luyện cho mô hình, công đoạn nhận dạng mẫu.

Hình 6.2: Công đoạn huấn luyện mẫu

Bộ dữ liệu sau khi thu, được tạo thành 2 bộ từ điển tương ứng với 2 lớp thanh

điệu: thanh cao và thanh thấp. Trong đó bộ từ điển thanh cao gồm: thanh sắc và thanh

ngã, bộ từ điển thanh th ấp gồm: thanh ngang (thanh không d ấu), thanh huy ền, thanh

ngã, thanh hỏi, thanh n ặng, thanh ngã. Ở đây chúng tôi phân thanh ngã ở cả hai từ

điển, bởi vì:

Theo tài liệu thống kê của I. S. Bystrov và M. V. Gordina (1976) thì t ần

số xuất hiện của thanh ngã là thấp nhất trong các thanh (chỉ 7%).

Thanh ngã là thanh n ếu chỉ phân lớp vào lớp thanh cao thì làm cho t ỉ lệ

nhận dạng đúng bị giảm xuống và ngược lại,vì s ự biến đổi của nó chạy

dài từ vùng tần số thấp đến vùng tần số cao.

Do đó cách gi ải quyết của chúng tôi là đưa thanh ngã vào c ả hai bộ từ

điển

Tín hiệu tiếng nói sau khi qua các b ước tiền xử lý được tiến hành rút trích đặc trưng. Tất cả dãy dữ liệu của tín hiệu được chia thành các khung (frame) và dùng LPC phân tích thành các vector với số phần tử ít hơn hẳn.

Các vector đặc trưng này sẽ được dùng để huấn luyện. Kết quả huấn luyện là các mô hình HMM cho các t ừ theo từng lớp từ điển. Ứng với mỗi lớp từ điển, chúng ta có một bộ các mô hình HMM.

Mặt khác, để sử dụng vi ệc phân l ớp, chúng tôi s ử dụng đặc tr ưng F0. Theo

khảo sát của luận văn, thanh điệu tiếng Việt được chia làm hai lớp phân tách nhau bỡi thanh ngang. Do đó, dữ liệu đưa vào sau khi ti ền xử lý, chúng tôi tách riêng các t ừ thanh ngang đem trích F0. Giá tr ị trung bình c ủa F0 của các thanh ngang s ẽ là giá tr ị ngưỡng phân l ớp. Giá tr ị này s ẽ được cộng thêm P trong quá trình phân l ớp, (P là

78

phương sai của F0). (Tham khảo phần IV).

Theo khảo sát, giá tr ị phương sai của tần số cơ bản của thanh ngang: ở giọng

nữ (8 –16) Hz, ở giọng nam (20 –24) Hz. Trong ch ương trình Demo, d ữ liệu tiếng nói là giọng nam nên chúng tôi chọn P = 20.

6.2. Công đoạn nhận dạng

Sau khi huấn luyện mẫu, ta sẽ có các bộ từ điển tương ứng với các lớp. Nếu mô

hình HMM nh ận dạng được X ti ếng, và gi ả sử ta có th ể phân các ti ếng thành A l ớp;

như vậy tổng số từ vựng ta có thể nhận dạng được sẽ tăng lên khoảng ~ X*A tiếng.

Hình 6.3: công đoạn nhận dạng

Bắt đầu công đoạn nhận dạng, tín hi ệu tiếng nói sẽ được đưa qua bộ xác định

lớp thanh điệu. Tại đây các công việc trích pitch và phân lớp sẽ được tiến hành.

Sau khi đã xác định được lớp, chương trình sẽ lấy bộ từ vựng tương ứng của lớp đó lên để tiến hành vi ệc nhận dạng từ. Như vậy, thay vì ph ải nhận dạng X*A từ (sẽ vượt quá khả năng của mô hình HMM), chúng ta ch ỉ cần nhận dạng A từ của lớp thứ Xi.

Tóm lại, công đoạn nhận dạng ở đây chúng tôi chia làm hai bước:

Bước 1: xác định lớp từ điển.

79

Bước 2: nhận dạng trong lớp từ điển đã xác định.

Chương 7.

Hiện thực hoá mô hìnhnh ận dạng tiếng Việt

7.1.Nh ận dạng tiếng đơn

Các tiếng dùng nhận dạng:

STT Tiếng Lớp STT Tiếng Lớp STT Tiếng Lớp

1 Không 2 2 2 Một 3 Hai 2

4 Ba 2 5 1 Bốn 6 Năm 2

7 Sáu 1 8 2 Bảy 9 Tám 1

10 Chín 1 11 2 Mười 12 Báo 1

13 Biết 1 14 2 Bình 15 Bóng 1

16 Cháy 1 17 2 Chèn 18 Chương 2

19 Có 1 20 2 Cửa 21 Đài 2

22 Đi 2 23 2 Điện 24 Đổi 2

25 Đoái 1 26 2 Đọc 27 Dạng 2

28 Dự 2 29 1 Giá 30 Giờ 2

31 Giúp 1 32 1 Hối 33 Hô 2

34 In 2 35 2 Lưu 36 Mở 2

37 Mới 1 38 2 Chạy 39 Phố 1

40 Phút 1 41 2 Quạt 42 Soạn 2

43 Tắt 1 44 2 Thành 45 Thảo 2

80

46 Thiếu 1 47 2 Thời 48 Thoát 1

49 Thứ 1 50 Tính 1 51 Tốc 1

52 Chuyền 2 53 Việt 2 54 Xoá 1

55 Xuống 1 56 Đỡ 2

Trong đó:

Lớp 1 (nhóm thanh cao) gồm có: sắc, ngã.

Lớp 2 (nhóm thanh thấp) gồm có: ngang, huyền, ngã, hỏi, nặng.

Các đặc trưng: Chúng tôi sử dụng phương pháp phân tích LPC để rút trích đặc

trưng với các giá trị tham số như sau:

Các hệ số LPCNMPQ K

Giá trị 25 ms10 ms1012 3

Rút trích đặc tr ưng thanh điệu (F0) b ằng thu ật toán AMDF (M = 10ms,

N = 5ms).

Các tham số mô hình HMM:

Số trạng thái: 5

Số Mixture: 4

Kết quả:

1. Bảng kết quả phân lớp thanh điệu:

NhómNhóm thanh caoNhóm thanh th ấp Kết quả

Nhóm thanh cao60982299,64%

81

Nhóm thanh thấp22761899,71%

Kết thúc vi ệc nh ận dạng hết các t ừ trong câu, câu nào có s ố điểm cao nh ất

83

chính là kết quả.

Chương 8. Kết luận

8.1. Kết luận

Qua thời gian nghiên c ứu và cài đặt, luận văn đã làm được một số công vi ệc

như sau:

Khảo sát một số đặc tính ng ữ âm ti ếng Vi ệt, trong đó ứng dụng được

đặc điểm về thanh điệu vào hệ nhận dạng.

Cài đặt hệ nhận dạng sử dụng mô hình HMM liên tục.

Cài đặt hệ nh ận dạng 6 thanh điệu ti ếng Vi ệt đạt hi ệu qu ả kho ảng

98,5%.

Đề nghị phương pháp ứng dụng đặc điểm thanh điệu tiếng Việt vào việc phân lớp trong hệ nhận dạng tiếng nói tiếng Việt và cài đặt thử nghiệm đạt hiệu quả nâng số từ vựng nhận dạng đượclên đến khoảng 60 từ.

Đề nghị và cài đặt thử nghiệm mô hình nhận dạng câu.

Trong giới hạn thời gian làm lu ận văn, chúng tôi ch ỉ mới có nh ững bước đầu nghiên cứu tiếp cận theo hướng các đặc điểm ngữ âm tiếng Việt, vì vậy chắc chắn đề tài còn nhi ều thiếu sót. Tuy nhiên v ới một số ý tưởng và kết quả đã đạt được, chúng tôi hy vọng rằng luận văn này sẽ góp ph ần xây dựng các h ệ thống nh ận dạng tiếng Việt ngày càng hoàn chỉnh hơn.

Chương trình Demo được cài đặt trên hệ thống với các thông số như sau:

Máy PC Celeron 1.2 Gb Bus 100, 96 Mb Ram.

Card âm thanh hiệu Creative

Micro dùng để thu dùng để thu âm dạng cầm tay.

Tiếng nói được thu với tần số lấy mẫu 16000Hz, kích thước mỗi mẫu là

16 bit.

Tiếng nói được rút trích đặc trưng bằng phương pháp LPC với chiều dài ần ch ồng lấp M = 10 ms, s ố chi ều

frame phân tích là N = 25 ms, ph vector LPC là p = 12.

84

Thanh điệu được lấy đặc trưng (F0) bằng thuật toán AMDF.

8.2. Hướng phát triển:

Do trong th ời gian ng ắn, lượng dữ li ệu thu vào có gi ới hạn dẫn đến kết qu ả

chưa được đánh giá chính xác. Điều này có thể cải tiến bằng cách thu nhiều mẫu hơn, xử lý để tăng độ chính xác, thu m ẫu của nhiều người để có các th ống kê, khảo sát tốt hơn, và xây dựng mô hình nhận dạng độc lập người nói.

Khảo sát thêm các đặc tr ưng ảnh hưởng đến thanh điệu nh ư: phoóc m ăng,

trường độ, ảnh hưởng của phụ âm nh ằm nâng cao ch ất lượng nhận dạng thanh điệu, cũng như chất lượng phân lớp thanh điệu để từ đó có th ể phân nhi ều lớp hơn. (Hiện

tại chỉ phân làm 2 lớp).

Tăng thêm số đặc điểm ngữ âm dùng để phân l ớp như: nguyên âm, ph ụ âm,

trường độ…

85

Cải tiến phương pháp tách t ừ trong câu để có kết quả nhận dạng câu tốt hơn.

Tài liệu tham khảo

[1]B. H. Vu, “V ề đặc tr ưng cơ bản của thanh điệu tiếng Việt ở trạng thái tĩnh”,

1999.

[2]

Đinh Lê Thư –Nguy ễn Văn Huệ, “Cơ cấu ngữ âm tiếng Việt”, NXB giáo dục, 1998

[3] Hồ Ngọc Điệp–Lu ận văn tốt nghiệp Khoa CNTT – ĐH KHTN, 1999

[4]L. R Rabiner, “ATutorial on Hidden Markov Models and Selected

Applications in Speech Recognition”,Proc. IEEE,77(2), pp. 257-286, 1989.

[5]Hà Vi ệt Uyên Synh -Lu ận án thạc sĩ Khoa CNTT – ĐH KHTN, 1999.

[6]Lê V ăn Lợi, “Thanh học –Các b ệnh về giọng nói, lời nói và ngôn ng ữ”, NXB

Y học, 1999.

[7]Nguy ễn Đức Hoàng Hạ –Lu ận văn tốt nghiệp Khoa CNTT – ĐH KHTN, 2002

[8]Nguy ễn Quốc Cường, “Tone Recognition for Vietnamese”, 2001

[9]Steven W. Smith, “Digital Signal Processing”, 1999

[10]Steve Young et all, “The HTK Book”, the Cambridge University Engineering

Department, July 2000

[11]Thái Hùng V ăn -Lu ận án thạc sĩ Khoa CNTT – ĐH KHTN, 2000.

[12]T.T. Doan. “Ng ữ âm tiếng việt”, 1977

[13]Võ Tu ấn Kiệt-Lu ận án thạc sĩ Khoa CNTT – ĐH KHTN, 1999.

[14]W.J Yang et all, "Hidden Markov Model for Mandarin Lexical Tone

Recognition", IEEE Trans. ASSP, vol36, no 7, July 1988, pp 988-992.

[15]P. Renevey, “Speech Recognition in Noisy Conditions Using Missing Feature

Approach”, EPFL, 2000.

[16]Lawrence Rabiner and Biing-Hwang Juang, “Fundamentals of Speech

86

Recognition”, Prentice Hall, 1993

Phụ lục 1:

Ngữ âm tiếng Việt

1. Thanh điệu

Thanh điệu là đặc trưng ngôn điệu của âm ti ết. Nó có ch ức năng khu bi ệt âm

tiết và do đó cũng có ch ức năng khu bi ệt vỏ âm thanh c ủa hình vị hay c ủa từ trong tiếng Việt. Đặc tính của thanh điệu bao trùm lên toàn b ộ âm tiết và thể hiện rõ nhất ở

phần vần. Người ta gọi thanh điệu là âm vị siêu đoạn tính. Số lượng thanh điệu trong

tiếng Việt khác nhau giữa các tiếng địa phương. Số lượng nhiều nhất là6 thanh trong

phát âm Hà Nội –hay trong ti ếng Bắc nói chung và được phản ánh trên ch ữ viết. Đó là các thanh : sắc ( / ), huyền ( \ ), hỏi ( ? ), ngã ( ~ ), nặng ( . ) và thanh không dấu.

1.1 Những nét khu biệt của thanh điệu

Trong các ti ếng địa phương từ Thanh Hóa tr ở vào Nam th ường chỉ có năm thanh, thanh ngã trùng v ới thanh hỏi (trong ti ếng nói của một số vùng ở Thanh Hoá, ti ếng Bình Tr ị Thiên, Nam Trung b ộ và Nam b ộ), ho ặc thanh ngã trùng v ới thanh nặng (trong tiếng nói vùng Nghệ An, Hà Tĩnh). Ngoài ra, trong một vài thổ ngữ lẻ tẻ ở Nghệ An và Quảng Bình chỉ có 4 thanh điệu.

Thanh điệu trong tiếng Việt bao gồm một loạt những đặc trưng ngữ âm

điệu tính và phi điệu tính.

Đặc trưng điệu tính là những đặc trưng ngữ âm được biểu hiện bằng tần

số cơ bản(F0) trong c ấu trúc thanh điệu như âm vực và âm điệu

Đặc tr ưng phi điệu tính là nh ững đặc tr ưng còn l ại khác v ới F0 nh ư

1.1.1 Âm điệu

cường độ, trường độ, hiện tượng yết hầu hóa và thanh hầu hoá.

Âm điệu là đặc điểm của sự biến thiên của tần số thanh cơ bản trong quá trình

phát âm một âm tiết. Sự biến thiên này được gọi là đường nét âm điệu.

Dựa vào đặc tr ưng này có th ể phân thanh điệu thành hai nhóm l ớn: bằng và trắc hay có ng ười gọi đó là th ế đối lập gi ữa không bi ến điệu và bi ến điệu (Nguy ễn

87

Hàm Dương, 1963).

Thanh không d ấu (thanh 1) và thanh huy ền (thanh 2) là nh ững thanh b ằng.

Chúng có âm điệu bằng phẳng hoặc hơi đi xuống.

Thanh ngã ( thanh 3), thanh h ỏi (thanh 4), thanh s ắc (thanh 5) và thanh n ặng

(thanh 6) là những thanh trắc. Chúng có đường nétâm điệu phức tạp và giới hạn biến

đổi rất rộng. Thông thường, thanh sắc được miêu tả là một thanh đi lên, thanh nặng là

thanh đi xuống, thanh hỏi và thanh ngã là thanh có đường nét vừa đi xuống vừa đi lên. Vì vậy, các thanh sắc và thanh nặng còn được gọilà các thanh có đường nét âm điệu

một hướng hay không gãy, đối lập với thanh h ỏi và thanh ngã là nh ững thanh có

1.1.2 Âm vực

đường nét âm điệu đổi hướng hoặc gãy (Đoàn Thiện Thuật, 1977).

Âm vực được hi ểu là m ức âm điệu trung bình (hay cao độ trung bình) c ủa

thanh điệu trong quá trình phát âm tiết.

Trong tiếng Việt, các thanh điệu thuộc hai âm vực vao và thấp:

Âm vực cao gồm các thanh 1, 3, 5 (tức là các thanh không dấu, ngã, sắc).

Âm vực thấp gồm các thanh 2, 4, 6 ( huyền, hỏi, nặng)

1.2 Sự thể hiện của các thanh điệu trong các âm tiết rời

1.2.1 Các thanh điệu trong ngôn ngữ bắc bộ

Trong nhóm thanh cao,thanh 1 có âm điệu bằng phẳng, nên thường có độ cao trung bình thấp hơn thanh 3 và thanh 5. vì vậy có tác giả coi nó thuộc âm vực trung và chia thanh điệu ti ếng vi ệt thành ba âm v ực: cao, trung, th ấp ( Nguy ễn Đình Hoà, 1967; R. B. Jones và Hu ỳnh Sanh thông, 1960). Điều này có th ể đúng với một số thổ ngữ miền nam (M. V. Gordia, 1984). Còn trong ph ương ngữ bắc bộ, các thanh ch ỉ có 2 âm vực cao và thấp.

Thanh 1:(không d ấu)

Trong phương ngữ Bắc bộ, thanh 1 là thanh t ương đối cao, có âm điệu

bằng ph ẳng ổn định, gi ống nhau ở tất cả các âm ti ết. Đô cao c ủa thanh ít thay đổi trong phát âm c ủa mỗi ng ười và nó không ph ụ thu ộc vào thành ph ần của âm ti ết. trong các âm ti ết khác nhau nh ư a, ha, hoa, hoan, hai … đường nét h ầu như không

thay đổi. Thanh này không bị yết hầu hoá, cường độ yếu và đồng đều từ đầu đến cuối.

88

Thanh 2:(huy ền)

Thanh này được phát âm ở âm vực thấp so với thanh 1. Đường nét âm

điệu đi xuốngthoai tho ải. Cũng giống như thanh 1, thanh hai có c ường độ đồng đều không thay đổi , không bị yết hầu hóa trong quá trình phát âm.

Thanh 3:(ngã)

Thanh ngã ch ỉ có trong ph ương ngữ bắc bộ, thuộc âm vực cao, đường

nét gãy, có 2 biến thể như sau:

a. Bắt đầu ở cao độ cao hơn thanh 2 và th ấp hơn thanh 1, ở giữa âm tiết có sự

hạ giọng đột ngột, kèm theo s ự giảm cường độ, sau đó đường nét âm điệu

vút lên cao.

b. Đường nét âm điệu bắt đầu bằng phẳng hoặc hơi đi lên ở phần đầu vần của âm tiết, ở giữa vần có sự hạ giọng đột ngột, giảm cường độ, và đường nét

âm điệu bị gián đoạn do sự bóp thanh hầu. Sau đó đường nét vút lên cao, sự yết hầu hóa tăng cường về cuối âm tiết.

Về mặt âm điệu, thanh 3 r ất gần với thanh 5, đối lập của chúng ch ủ yếu là sự chuyển điệu đột ng ột và đặc tr ưng phi điệu tính. Trong phát âm c ủa tr ẻ em th ường vắng mặt âm t ắc thanh h ầu và đường nét gãy nên thanh 3 trùng v ới thanh 5 ( Đoàn Thiện Thuật, 1977, tr. 112)

Thanh 4:(h ỏi)

Trong tiếng bắc thanh 4 b ắt đầu ở mức cao của thanh 2, đi xuống thoai tho ải đến gần giữa vần thì giữ âm điệu bằng phẳng trong một khoảng thời gian ngắn sau đó chuyển sang đường nét đi lên cân đối với nét đi xuống và kết thúc gần với cao độ bắt đầu. Phần thấp nhất của âm điệu đi qua giữa phần vần.

Trong một số trường hợp, thanh 4 được hiện thực hóa không có ph ần âm điệu đi xuống làm cho nó gi ống với đường nét thanh 5, ho ặc không có đường nét đi lên (đặc biệt thường gặp trong phát âm của trẻ em dưới 3 tuổi) làm cho nó gần đồng nhất với đường nét âm điệu thanh 6.

Thanh 4 thường bị yết hầu hóa mạnh hầu như từ đầu đến cuối.

Thanh 5:(s ắc)

Đây là một thanh cao, đường nét âm điệu đi lên, nhưng có thay đổi ít nhiều phụ

thuộc vào loại hình âm tiết và độ dài ngắn của nguyên âm.

a.Trong nh ững âm tiết không kết thúc bằng phụ âm cuối vô thanh: (ví

89

dụ: bá, bái, bán) thanh 5 b ắt đầu hơi thấp hơn thanh 1, ban đầu có

đường nét b ằng ph ẳng (kho ảng½ độ dài ph ần vần) sau đó đi lên

tương đối dốc. Nh ư vậy, trong nh ững âm ti ết lo ại này, đường nét thanh 5 chỉ khác thanh 1 ở phần cuối. (H2)

b.Trong nh ững âm tiết kết thúc bằng phụ âm cuối vô thanh với nguyên

âm dài, đoạn bằng phẳng của thanh rút ng ắn lại, có khi m ất hẳn, ví

dụ thanh sắc trong hót, th ướt. Còn trong âm ti ết khép có nguyên âm ngắn, thanh 5 b ắt đầu cao h ơn và kho ảng nâng ít h ơn, ví d ụ thanh

sắc trong tắc, mất (H2)

Trong khi t ăng dần cường độ về cu ối âm ti ết, thanh này có s ự yết hầu hóa

mạnh.

Thanh 6:(n ặng)

Thanh này phát âm ở âm vực th ấp. Đường nét đi xu ống và thay đổi ít nhi ều

phụ thu ộc vào lo ại hình âm ti ết và độ dài ng ắn của nguyên âm.

a. Trongnh ững âm ti ết không kết thúc bằng phụ âm cu ối vô thanh (ví d ụ: tạ, tại, tạn), thanh 6 b ắt đầu ở mức của thanh 2, âm điệu đi xu ống đột ng ột thường thể hiện trên bán nguyên âm cuối và phụ âm cuối.

b. Trong nh ững âm ti ết kết thúc b ằng ph ụ âm cu ối vô thanh, âm điệu bằng phẳng và có s ự hạ giọng ở cuối nguyên âm. Vì v ậy đường nét của thanh g ần giống thanh 2. Khi có nguyên âm ngắn, sự đi xuống này có thể vắng mặt. khi ấy nó khu biệt với thanh 2 nhờ những đặc trưng phi điệu tính (H2)

Thanh 6 là thanh ngắn nhất trong các thanh điệu tiếng việt.

Dưới đây là đồ thị về đường nét âm điệu của các thanh trong ph ương ngữ bắc

90

bộ theo M. V. Gordina (1984)

1.2.2 Thanh điệu trong các tiếng địa phương khác

Hình 1: Hệ thống 6 thanh điệu (giọng nữ bắc bộ)

1.2.2.1 Thanh điệu trong các thổ ngữ miền Trung

Ngoài hệ th ống thanh điệu ph ương ng ữ Bắc bộ, mà đại di ện là phát âm Hà Nội, có số lượng đối lập tối đa trong các thanh điệu, có những đặc trưng điệu tính và phi điệu tính khác nhau. Từ Thanh Hóa trở vào Nam còn có nhiều hệ thống thanh điệu khác thanh điệu tiếng Bắc về số lượng và phẩm chất ngữ âm.

Các thổ ngữ miền Trung có nhiều biến dạng phức tạp của hệ thống thanh điệu.

Về số lượng, có các hệ thống 5 thanh và các hệ thống 4 thanh.

Trong những thổ ngữ có 5 thanh điệu, người ta phân biệt ra giọng thanh, giọng

Nghệ và giọng bình trị thiên.

- Giọng Thanh: Trong m ột số th ổ ng ữ vùng Thanh Hoá, thanh 3 (thanh ngã)

91

trùng với thanh 4 (thanh h ỏi) thành một thanh, tạm gọi là thanh ¾. Thanh này có đường nét âm điệu giống thanh 4 Nghệ (thổ ngữ Vinh) với đường nét đi lên gần giống với thanh ngã b ắc. Các thanh 1, 2, 5, 6 nói chung gi ống với tiếng Bắc về âm vực và đường nét âm điệu.

- Giọng Ngệ (vùng Nghệ Tĩnh) cũng thường có 5 thanh: 1, 2, 4, 5 và 3/6. Trong đó thanh 3 (thanh ngã)trùng v ới thanh 6 (thanh n ặng) và có đường nét đi xuống gần giống thanh huyền, nhưng khác với thanh này ở âm vực thấp hơn và

có những đặc trưng phi điệu tính.

Thanh 1(bằng) và thanh 2 (huy ền) giống với tiếng bắc, nhưng thanh 1 th ường được phát âm v ới âm điệu hơi đi xu ống, còn thanh 2 Ngh ệ lại có mức âm điệu cao hơn thanh 2 Bắc, mặc dù vẫn thuộc âm vực thấp, khác với thanh 1 thuộc âm vực cao.

Thanh 5 (thanh sắc) Nghệ thường có đường nét âm điệu gần giống thanh 4 (thanh hỏi)

Bắc nhưng thuộc âm vực cao. Thanh4 th ường có đường nét âm điệu giống thanh 6

Bắc và thường có âm tắc thanh hầu ở cuối, hoặc ở giữa (Maspéro, 1912). Hoặc có nơi (như ở vùng Vinh) thanh 4 có đường nét đi lên g ần với thanh ngã (Maspéro, 1912;

Bùi Ngưyên, 1977). Đường nét âm điệu đi lên củathanh 4 gi ống với giọng Thanh và

giọng Sài Gòn.

Trong giọng bình tr ị thiên nói chung th ường có 5 thanh. Đó là các thanh 1, 2,

1.2.2.2 Thanh điệu trong các thổ ngữ miền Nam

3/4, 5 và 6

1.3 Sự phân bố của thanh điệu

Trong các thổ ngữ miền Nam, thanh hỏi và thanh ngã trùng làm m ột, vì vậy có 5 thanh điệu: 1,2,3, 45, 6. Ở đây thanh 1 có âm điệu bằng phẳng và đi xuống như thanh 2 nhưng chúng khác nhau v ề mặt âm vực. Thanh 5 th ường có đường nét đi lên như tiếng Bắc nhưng hầu như không có ph ần âm điệu bằng ngang mở đầu. Thanh ¾ có 2 cách thể hiện, hoặc ban đầu có âm điệu bằng phẳng, sau đó đi lên, gần giống với thanh ngã tiếng Bắc nhưng thấp hơn, hoặc ban đầu bằng phẳng, rồi đi xuống cùng với âm tắc thanh hầu và sau đó lại đi lên. Thanh 6 gần giống với thanh 6 bắc, kết thúc với âm tắc thanh hầu hoặc đi lên đôi chút ở cuối

92

Như chúng ta đã bi ết, thanh điệu là đặc tính siêu đoạn của âm ti ết. các đặc trưng của thanh điệu được thể hiện đồng thời với các thành phần cấu trúc khác của âm tiết. Vì v ậy, trong ch ừng mực nào đó bị ch ế định bởi các thành ph ần này. Về mặt âm vị học, âm tiết tiếng Việt trước hết được chia thành hai đơn vị: phụ âm đầu và vần. Phần vần, trong đó có nguyên âm, là ph ần luôn mang thanh tính c ủa âm ti ết. các đặc điểm về âm v ực và âm điệu của thanh điệu ch ỉ được bi ểu hi ện trong ph ần mang thanh tính mà thôi. Vì v ậy, trong sự đối lập và th ống nhất các thanh điệu phần vần đóng vai trò quan tr ọng. Còn phụ âm đầu hầu như không đóng vai trò quan tr ọng

trong sự đối lập các thanh. V ề mặt ng ữ âm, đặc tính c ủathanh điệu cũng hầu nh ư

không lan truyền lên phụ âm đầu. Hoặc có chăng (trong tr ường hợp phụ âm đầu hữu thanh và vang), thì trong đoạn đầu của âm ti ết các đặc trưng khu bi ệt của thanh điệu

cũng chưa thể hiện rõ. Tài li ệu ngữ âm thí nghi ệm đã chứng minh rằng, các thông tin

ngôn ngữ học của thanh điệu chỉ thể hiện rõ ở nửa cuối của âm tiết mà thôi.

Phần vần của âm tiết có thể bao gồm âm đệm, một âm chính bắt buộc và có thể có bán nguyên âm hay ph ụ âm cuối. Sự khác nhau của thanh biểu hiện tập trung giữa

và cuối vần (tức là nguyên âm và phụ âm cuối) Trong các vần không có phụ âm cuối

(ví dụ: ta, tu), ho ặc có âm cuối là bán nguyên âm (ví d ụ: mai, sau), hay có âm cu ối là

phụ âm vang (ví d ụ: nam, lan xanh, mang) các đặc tr ưng của thanh điệu được đặc trưng dễ dàng.

Phức tạp hơn là khi vần được kết thúc bằng các phụ âm cuối vô thanh, khép (ví

dụ: tạp, tập, hát, bắt, bác, bắc …) các đoạn giữ các phụ âm cuối vô thanh có zero âm học, vì vậy các đặc trưng của thanh không th ể hiện được ở đoạn này. Nh ưng về mặt thụ cảm,các ph ụ âm cu ối vẫn được nhận di ện là /-p/, hay /-t/, ho ặc /-k/ là nh ờ giai đoạn tạo thành chỗ tắc và sự chuyển tiếp từ nguyên âm đến phụ âm (Gordina, 1984). Giai đoạn chuyển tiếp này luôn luôn h ữu thanh, nên nh ờ dó đặc trưng của thanh điệu phần nào có bi ểu hiện nhưng rất hạn chế. Có thể nói rằng, trong mối quan hệ với các thành phần chiết đoạn của các âm ti ết, thanh điệu bị sự chế định rõ ràng nh ất của âm cuối. Vì vậy sự phân bố của thanh điệu trong âm tiết phụ thuộc vào loại hình kết thúc âm tiết.

Số lượng các thanh điệu xuất hiện trong nh ững âm ti ết kết thúc bằng phụ âm cuối vô thanh là r ất hạn ch ế. Ở các âm ti ết này ch ỉ có th ể là thanh s ắc ho ặc thanh nặng. Hai thanh này có đường nét âm điệu không đổi hướng, hoặc đi lên (nh ư thanh sắc) hoặc đi xuống (như thanh nặng). Nên dễ nhận diện hơn những âm tiết có trường độ giai đoạn thanh tính ngắn

Sự phân bố của thanh điệu trong mối quan hệ với âm cuối có thể tóm tắt trong

93

sơ đồ sau:

Thanh sắc và thanh n ặng trong nh ững âm ti ết có âm cu ối vô thanh có nh ững

đặc điểm riêng v ề độ dài và đường nét âm điệu khác v ới thanh s ắc và thanh n ặng trong các âm tiết còn lại (so sánh: tá / tán v ới tát và ta / t ạn với tạt). Vì vậy, trước đây

đã từng có quan niệm rằng những thanh điệu trong các âm tiết có âm cuốivô thanh là

những thanh điệu đặc biệt khác với 6 thanh còn lại và trong tiếng việt được ghi một hệ

1.4 Về đặc trưng cơ bản của thanh điệu tiếng Việt ở trạng thái

tĩnh

thống gồm 8 thanh điệu: tan, tàn, tãn, tản, tán, tạn, tát, tạt.

Như đã bi ết ti ếng vi ệt thu ộc lo ại ngôn ng ữ đơn lập có thanh điệu.

Nếu như âm tiết là một đơn vị với chức năng làm vỏ vật chất của hình vị (đơn vị nhỏ

nhất có ý ngh ĩa) thì di ện mạo ngữ âm của nó cần được xem xét theo c ả 2 khía c ạnh:

Phổ âm và tần số cơ bản. trên quan điểm âm vị học đó là 2 hệ thống dấu hiệu khu biệt của ngữ âm ti ếng Việt. Quả vậy bất kỳ một âm ti ết nào cũng có một thanh điệu nhất định và thanh điệu bao giờ cũng tồn tại trong âm tiết. Xét về mặt cấu trúc, thanh điệu là thuộc tính ngữ âm của toàn bộ âm tiết, bao gồm3 thông s ố âm học cơ bản: 1- tần số cơ bản (F0), 2- cường độ (I), 3-tr ường độ (T)

Xét về mặt chức năng, thanh điệu là một dấu hiệu hay một chùm các nét khu biệt của toàn bộ âm ti ết. cũng chính bởi lẽ đó, âm ti ết tiếng việt có cấu trúc 2 thành phần: cáu trúc âm và c ấu trúc thanh điệu. cấu trúc âm bao g ồm các yếu tố chiết đoạn; thanh điệu là yếu tố siêu chiết đoạn. thanh điệu là một cấu trúc đa chiều và phi tuy ến tính.

Xét về sự phân chi ết, nó không có đặc tính phân l ập nhưng xét về chức năng

1.5 Diện mạo về đường nét của thanh điệu qua sự thụ cảm bằng

thính giác

nó lại có đặc tính phân lập.

Thanh 1:có b ốn bi ến điệu, nh ưng đường nét v ề cơ bản là ngang và b ằng

phẳng.

Thanh 2:có ba bi ến điệu, nhưng đường nét nói chung đi xuống đều đặn, bằng

phẳng.

94

Thanh 3:có b ốn biến điệu, đường nét bị gãy ở giữa thành 2 đoạn, đoạn hai đi lên và kết thúc cao. Nét gãy ở giữa phần lớn bị tách ra nh ưng cũng

có biến điệu, trong đó nét gãy lại không bị tách ra điều đó chứng tỏ

hiện tượng tắc họng ở giữa của thanh 3 không có tính chất bắt buộc.

Thanh 4:có ba bi ến điệu, đường nét ban đầu đi xuống rồi sau đó đi lên ho ặc

mạnh (thường gặp ở giọng nam) hoặc yếu (thường gặp ở giọng nữ)

Thanh 5:có b ốn biến điệu, đường nét đi lên ho ặc hoặc bằng phẳng hoặc lên

gấp và ngắn.

Thanh 6:có n ăm biến điệu nói chung đi xuống gấp và ngắn.

Đường nét đi lên gấp của thanh 5 và đi xuống gấp của thanh 6 có liên quan trực

tiếp với phương thức kết thúc của âm tiết

Nhận Xét:

Tuỳ theo c ấu trúc c ủa âm ti ết và s ự phát âm cá nhân c ủa cộng tác viên, các

thanh điệu có th ể được thể hiện trong nh ững hình th ức khác nhau nh ưng những nét chung của các thanh điệu vẫn được nhận diện qua các đường nét của thanh điệu, bởi lẽ một trong những đặc trưng ngữ âm cơ bản của các thanh điệu là các đường nét, tức là sự vận động của tần số cơ bản theo hàm thời gian.

Từ những kết quả phân tích, có th ể miêu tả đường nét của các thanh điệu như

sau:

Thanh điệu Sự miêu tả đường nét

1Ngang

2 đi xuống đều đặn bằng phẳng

3lên, xu ống–gãy –lên

4xu ống–lên

5Lên

6xu ống thấp

Thanh 5 và thanh 6 có hai hình thức thể hiện: 5a, 5b, 6a, 6b

Đường nét của chúng được miêu tả như sau:

Thanh điệuHình th ức thể hiện Sự miêu tả đường nét

55a Đi lên đều đặn

Đi lên gấp 5b

95

66a Đi xuống thấp

2. Âm vị

6b Đi xuống thấp gấp

Xét về mặt ngữ âm, âm v ị là đơn vị nhỏ nhất của tiếng nói. Mỗi âm vị có hai

chức năng :

Cấu tạo nên vỏ âm thanh của các đơn vị có nghĩa.

Phân biệt vỏ âm thanh của các đơn vị có nghĩa.

Ví dụ: từ tôi có 3 âm vị: “t”, “ô”, và “i”.

Đến đây, một câu hỏi được đặt ra là các âm v ị khác nhau bởi những đặc trưng

nào. Ta sẽ xét đến các đặc trưng âm học và các c ấu âm tạo nên âm v ị. Các đặc trung cơ bản của âm vị được chia thành các loại tuỳ theo từng tiêu chuẩn như:

2.1 Phân biệt nguyên âm theo vị trí đầu lưỡi:

nguyên âm dòngtr ước: khi phát âm, đầu lưỡi đưa về phía trước. Ví dụ: [i], [e]

nguyên âm dòng gi ữa: khi phát âm, ph ần gi ữa của lưỡi nâng lên phía ngạc

nguyên âm dòng sau: ph ần sau c ủa lưỡi nâng lên phía ng ạc mềm. Ví dụ: [a], [u], [o]

2.2 Phân biệt nguyên âm dựa vào độ mở của miệng:

nguyên âm có độ mở rộng: [a], [ă]

nguyên âm có độ mở hẹp: [i], [u]

2.3 Phân biệt nguyên âm theo hình dáng môi:

không tròn môi: [i], [e], [a]

tròn môi: [o], [u]

Ngoài ra, ng ười ta còn d ựa vào các tiêu chu ẩn khác nh ư: tính mũi hoá, tr ường

độ…Ng ười ta mô tả nguyên âm dựa vào tất cả các tiêu chuẩn trên, ví dụ: [i] là một nguyên âm có độ mở hẹp, hàng tr ước, không tròn môi; [u] là nguyên âm hàng sau, tròn môi, độ mởi hẹp…

96

2.4 Phân biệt phụ âm dựa vào phương thức cấu âm:

phụ âm tắc:không khí đi ra bị cản trở hoàn toàn, phải phá vỡ sự cản trở ấy để ra ngoài và gây ra tiếng nổ.

phụ âm xát: không khí đi ra bị cản trở không hoàn toàn, phải lách ra một khe hở nhỏ giữa hai cơ quan cấu âm, gây nên ti ếng xát nhẹ. Ví dụ: [v],

[f], [h]…

phụ âmrung: khi phát âm, ch ỗ lưỡi con ho ặc đầu lưỡi chấn động liên tục làm cho luồng không khí bị chặn lại và mở ra liên tiếp, gây nên một

loạt tiếng rung. Đó là các phụ âm kiểu [R].

2.5 Căn cứ vào vị trí cấu âm:

âm môi-môi: khi v ật cản là hai môi, nh ư [m], [b]…; âm môi-r ăng, khi

vật cản là răng hàm trên và môi dưới như [v], [f]…

âm đầu lưỡi: đầu lưỡi áp ch ặt vào răng hàm trên: [t], ho ặc đầu lưỡi áp vào ngạc hay lợi: [d], [n], [l]…

âm mặt lưỡi: mặt lưỡi được nâng lên phía ngạc cứng: [c]

âm cuối lưỡi: phần cuối lưỡi nâng lên tiếp xúc ngạc mềm: [g], [k]…

âm thanh hầu: không khí đi ra bị cản trở trong thanh hầu: [h]…

Tổng hợp các tiêu chu ẩn sẽ giúp ta phân bi ệt các âm v ị với nhau. Ví d ụ: phụ âm [p] là âm môi, ồn, vô thanh, t ắc, ph ụ âm; ph ụ âm [d] là âm đầu lưỡi, ốn, hữu thanh, tắc…

2.6 Phân biệt phụ âm dựa vào đặc điểm âm học:

âm vang: [m], [n], [l]… Các ph ụ âm vang có đặc điểm là trong thành phần cấu tạo của chúng, tiếng thanh là chính.

âm ồn: [t], [k], [b], [s]… Có nhi ều ti ếng động (ti ếng ồn) trong thành phần cấu tạo. Ph ụ âm ốn chia là hai lo ại nhỏ: hữu thanh ([b], [d], [g],

[z]: dây thanh rung) và vô thanh ([p], [t], [k], [s]: dây thanh không rung).

Khi phân loại tổng quát, người ta còn dựa vào một số đặc điểm khác. Đó là các

tiêu chí lưỡng phân, tổng hợp lại sẽ tạo thành một cây lưỡng phân:

Phụ âm–không ph ụ âm.

97

Nguyên âm –không nguyên âm. Bổng -tr ầm.

Loãng - đặc. Ngắt –không ng ắt. Gắt –không g ắt. Căng– l ơi. Hữu thanh–vô thanh. Mũi-mi ệng. Giáng –không giáng. Thăng–không th ăng. Thanh hầu hóa–không thanh h ầu hoá.

Ưu điểm của phân loại âm học:

Có th ể xác định tr ực ti ếp các âm mà không c ần ph ải thông qua ho ạt

động của bộ máy phát âm.

Nguyên âm và phụ âm được phân chia bình đẳng.

Dựa trên cây l ưỡng phân trên mà có th ể đề xuất mô hình giúp th ực thi

mô hình giao tiếp người -máy.

Có mối tương ứng với phân loại về cấu âm.

3. Trường độ

Ngoài âm vị, ta còn có khái ni ệm “âm tố”. Âm tố là sự thể hiện cụ thể của âm vị. Ví dụ: cùng một âm vị [n], nh ưng trong các âm ti ết khác nhau thì khác nhau: khi thì mạnh lên, khi thì y ếu đi, khi thì h ơi tròn môi (“no”, “nô”). T ừng cách phát âm c ụ thể của âm vị [n] trong từng âm tiết “no” hay “nô” là m ột âm tố [n]. Tóm lại, các âm tố là các bi ến thể của âm vị. Các biến thể thường được chia làm hai lo ại: biến thể kết hợp khi bị qui định bỡi vị trí, bối cảnh; và bi ến thể tự do nếu không ph ụ thu ộc bối cảnh.

Một trong những đặc điểm của ngôn ngữ tiếng Việt là tính cố định về trường độ của âm ti ết. Các âm ti ết nếu cùng m ột lo ại hình thanh điệu sẽ có m ột độ dài b ằng nhau, không kể đến số yếu tố tham gia cấu tạo âm tiết nhiều hay ít. Ví d ụ, hai âm tiết là và làm, mang cùng m ột thanh điệu là thanh huy ền, có tr ường độ bằng nhau, dù ần vần của làm g ồm hai y ếu tố là phần vần của là chỉ là nguyên âm [ a ], còn ph

nguyên âm [a] và âm cuối [m].

Để đảm bảo cho tính cố định của trường độ âm tiết, trong nội bộ của phần vần có

98

sự đắp đổi lẫn nhau về trường độ: nếu nguyên âm càng ngắn thì bán nguyên âm cuối /

phụ âm cuối càng dài và ng ược lại, nếu nguyên âm càng dài thì bán nguyên âm cu ối /

phụ âm cuối càng ngắn.

Ngoài sự đắp đổi nhau về trường độ, trong ph ần vần còn có s ự lệ thuộc về chất

giữa nguyên âm và âm cuối. Giữa âm cuối và âm chính sẽ có sự tiếp hợp lỏng nếu âm

cuối đi sau một nguyên âm dài.

Từ đặc điểm vừa nêu, có th ể nhận thấy, các nguyên âm (tr ừ / ă / và) và âm

4. Ảnh hưởng của âm cuối lên tiếng

cuối đều có 2 biến thể ngắn dài.

Hệ thống âm cuối

Âm cuối là yếu tố kết thúc âm ti ết. Các âm ti ết trong ti ếng Việt có th ể kết thúc

bằng cách bi ến đổi âm sắc của âm chính do độngtác khép l ại của bộ máy phát âm,

làm cho nó bổng hơn hoặc trầm hơn. Âm cuối trong trường hợp này là hai bán nguyên âm /-u/ và /-i/. Ví dụ: dâu, sao, ngày, mai. Âm ti ết tiếng Việt còn có thể kết thúc bằng động tác khép của bộ máy phát âm với một phụ âm tắc(m ũi hoặc miệng), ví dụ: học, tập, hành, động

Về mặt âm vị học, hệ thống âm cu ối trong ti ếng Việt gồm có 2 bán nguyên âm

và 6 phụ âm

Quy luật biến dạng của âm chính và âm cuối

Trong sự kết hợp với âm đầu và âm đệm, các nguyên âm làm âm chính có b ị , ŋ-/, các ảnh hưởng ít nhi ều. Chẳng hạn, sau các âm đầu là ph ụ âm mũi / m-, n-, ảnh hưởng của tính ch ất tròn nguyên âm ít nhi ều bị mũi hoá. Sau âm đệm /-u-/, do môi của âm đệm, các nguyên âm b ị môi hoá, tr ở thành một nguyên âm chuy ển sắc. Tuy nhiên, đáng kể hơn cả là s ự biến dạng của âm chính và âm cu ối khi chúng k ết hợp với nhau. Trong khuôn khổ của phần vần, có sự liên quan chặt chẽ giữa âm chính và âm cuối. Sự biến đổi của âm chính bao gi ờ cũng kéo theo sự biến đổi của âm cuối

99

và ngược lại.

Phụ lục 2:

Vai trò của tần số cơ bản

và một số kỹ thuật xử lý tần số cơ

Việc xác định tần số cơ bản (F0) hay “pitch” c ủa tín hi ệu là một vấn đề quan

trọng trong nhi ều ứng dụng ti ếng nói. (M ặc dù pitch là m ột đặc tính nh ận bi ết của tiếng nói, và F0 là đối tượng cần tính ở đây, các “b ộướ c lượng” thường được gọi là

các bộ “dò tìm pitch”). Tiếng nói hữu thanh bao gồm các rung động của dây thanh, và “pitch” đề cập đến tần số cơ bản của các rung động đó hay các chu kỳ tính được trong tín hiệu tiếng nói. Các xử lý âm thanh cơ bản về ngữ điệu và nhấn giọng sẽ quyết định âm vị trong ngôn ngữ nói. Hầu hết các bộ mã hoá tiếng nói mức độ thấp đều tính pitch để giúp cho ti ếng nói tái t ạo có th ể chấp nhận được, và một số bộ mã hoá ti ếng nói mức độ vừa sử dụng pitch để gi ảm bớt mức độ chuyển đổi trong khi v ẫn gi ữ được tiếng nói có ch ất lượng cao. Thành ph ần pitch cũng rất có ích trong nh ận dạng người nói và t ổng hợp ti ếng nói (ng ữ điệu tự nhiên ph ải tuân theo lu ật). Bi ểu di ễn tần số theo thời gian thực cũng có thể cho ta một ý tưởng ứng dụng cho người điếc học nói.

Việc xác định pitch khá đơn giản đối với hầu hết tiếng nói, nh ưng vì sự thay đổi của tiếng nói tự nhiên, các dao động bất qui tắc của dây thanh, kho ảng giới hạn giá trị F0 rộng, ảnh hưởng của hình dạng bộ máy phát âm đến F0, và tiếng nói bị giảm chất lượng trong môi trường ồn, các thuật toán thường không đạt độ chính xác 100%. Các kỹ thuật thiết bị phần cứng hiện có đã sử dụng thêm các thông tin khác ngoài tín hiệu tiếng nói, ví dụ: bằng cách đo điện trở thanh quản khi các dây thanh mở và đóng, thông qua ti ếp xúc v ới micrô haygia t ốc kế gắn trên ng ười, hay thông qua siêu âm hoặc hình ảnh hoạt động của các dây thanh. Tuy nhiên, ph ần lớn các bộ dò tìm pitch là các thuật toán máy tính thao tác tr ực tiếp trên tín hi ệu tiếng nói. Hầu hết các xử lý

đều có một phần là quyết định tiếng nói, các xử lý có thể phân loại lên đến 4 lớp tiếng nói: hữu thanh, vô thanh, kết hợp (ví dụ: /z/), và khoảng lặng. Không giống ước lượng pitch, việc dò tìm tiếng nói (gồm các loại rời rạc) có vẻ phù hợp với các kỹ thuật nhận dạng mẫu.

Ta có thể dò tìm F0 t ừ các các tham s ố mang tính chu k ỳ trong miền thời gian

100

hay từ các thay đổi điều hoà cách nhau theo qui lu ật trong mi ền tần số. Các b ộ dò

pitch theo miền thời gian có 3 thành ph ần: bộ tiền xử lý (dùng để lọc và đơn giản hoá

tín hiệu thông qua vi ệc thu nh ỏ dữ liệu), mô đun cơ sở trích F0 ( đánh dấu các pitch nằm trong có trong d ạng sóng), và m ột bộ xử lý chính (dùng để sửa lỗi). Các thu ật

toán đã thử xác định một hay nhiều khía cạnh sau của tín hiệu tiếng nói: các hàm điều

hoà cơ bản, các cấu trúc thời gian có chu kỳ, xen kẽ giữa cường độ cao và thấp, và các

điểm gián đoạn. Các hàm điều hoà và các c ấu trúc có chu k ỳ thường cho kết quả tốt, tuy nhiên cũng có vài tr ường hợp cá bi ệt bị sai. Các thu ật toán dò tìm pitch th ường

chuyển sự phức tạp trong một thành phần sang thành ph ần khác. Ví dụ: rút trích hàm

điều hoà cơ bản cần phải có một bộ lọc phức tạp để làm công việc tiền xử lý nhưng lại

chú ý đến một bộ rút trích c ơ bản sơ cấp đơn giản là đếm số zero crossing c ủa tiếng nói đã được xử lý lọc. Một ngưỡng động khác không được sử dụng trong xử lý chính

để loại bỏ các giá tr ị zero crossing không phù h ợp. Nhìn chung, ti ền xử lý có th ể là

một bộ lọc thông thấp đơn giản, nhưng độ phức tạp trong việc chọn tần số ngưỡng sẽ

tăng lên tuỳ thuộc vào khoảng giới hạn các giá trị F0.

Các kỹ thu ật trong mi ền tần số dùng để trích pitch g ồm: độ tương quan, kh ả năng đúng lớn nhất, và các kỹ thuật xử lý phổ khác có kiểm tra tín hiệu tiếng nói bằng một cửa sổ ng ắn. Tự tương quan, độ lệch trung bình c ủa biên độ, nén ph ổ, và các phương pháp so kh ớp hàm điều hoà là các x ử lý ti ếp cận phổ. Nhìn chung chúng có độ chính xác cao h ơn các kỹ thuật trong mi ền thời gian, nh ưng chi phí tính toán cao hơn.

Trích pitch theo th ờigian th ực có một ràng bu ộc là giá tr ị F0 ph ải được tính với độ trì hoãn nh ỏ nhất. Bởi vì hầu hết các kỹ thuật xử lý theo mi ền tần số cần một vùng đệm các mẫu ti ếng nói tr ước khi chuy ển đổi ph ổ, chúng th ường không nhanh bằng các xử lý tr ực tiếp trên dạng sóng theo th ời gian.Ta có th ể sửa lại một số bộ dò tìm pitch để đạt tốc độ nhanh hơn, bằng cách giảm thời gian chu kỳ F0; ví dụ: có thể ước lượng lại các cấu trúc có chu k ỳ (và thời gian chu kỳ) nhanh hơn các chu kỳ thật sự. Các bộ dò tìm pitch như thế không kết xuất các thời điểm mà tính các khoảng thời

1. Các kỹ thuật theo miền thời gian

gian phù hợp cho ứng dụng như các bộ mã hoá tiếng nói.

Dường như ước lượng tần số cơ bản là một công việc đơn giản; con người, đặc biệt là các nhà ngữ âm học cảm thấy dễ dàng khảo sát một dạng sóng và phân đoạn nó thành các chu kỳ liên tục. Bởi vì sự kích thích của bộ máy phát âm lên mỗi chu kỳ F0 diễn ra khi các s ợi dây thanh đóng lại, mỗi chu k ỳ có khuynh h ướng bắt đầu bằng

101

cường độ lớn (gọi là điểm khởi đầu) và sau đó giảm dần. Mức độ giảm thường tỷ lệ

nghịch với băng tần của F1. Ngoại trừ khi tiếng nói có các chu k ỳ ngắn hay băng tần

của F1 hẹp, thường sẽ có sự suy gi ảm đủ cho ta có th ể định vị được điểm khởi đầu nhờ một phép duy ệt tìm cực đại đơn giản, với vài ràng bu ộc cơ bản về thời gian các

chu kỳ. Nếu gi ới hạn ng ười nói t ừ gi ọng tr ẻ em hay gi ọng nữ cao đến gi ọng nam

trung, thời gian chu kỳ F0 có thể kéo dài từ nhỏ hơn 2 ms đến lớn hơn 20 ms, mặc dù

giới hạn điển hình sẽ nhỏ hơn, ví dụ: 6-12 ms đối với đàn ông. Một ràng bu ộc đáng tin cậy hơn là d ựa trên t ốc độ thay đổi F0; trong ph ần hữu thanh c ủa tiếng nói, F0

thường thay đổi chậm, hiếm khi nhiều hơn một quãng 8 trong kho ảng 100 ms. Tr ước

khi áp dụng các ràng bu ộc liên tục như trên, ng ười ta ph ải tìm chu k ỳ F0 chínhxác

trong vùng hữu thanh, vì F0 có th ể thay đổi rất nhiều trong vùng vô thanh c ủa tiếng nói (ví dụ: điểm bắt đầu lại của tiếng nói sau một khoảng lặng hay âm tắc có thể có F0

sai lệch rất nhiều so với F0 tại điểm kết thúc phần hữu thanh liền trước).

Hầu hết các vấn đề khi tìm F0 xảy ra tại vùng biên giữa hữu thanh và vô thanh, nơi mà các ràng bu ộc liên tục không áp dụng được và các chu k ỳ F0 gần như bất qui tắc. Các khó kh ăn khác ph ụ thuộc vào các thay đổi đột ngột của cường độ và phoóc măng có th ể làm tăng đường biên âm v ị. Để dễ dàng ti ếp cận việc dò tìm điểm khởi đầu, thông th ường tiếng nói cần được xử lý lọc thông th ấp trong bước tiền xử lý để chỉ còn lưu trữ F1 (ví dụ: trong khoảng 0-900 Hz). Điều này sẽ loại bỏ ảnh hường của các phoóc măng cao mà vẫn giữ lại được các tần số có hàm điều hoà đủ mạnh để xác định một điểm kh ởi đầu chính xác h ơn. Một cách ti ếp cận khác ch ọn các ng ưỡng cường độ thay đổi: bởi vì chu kỳ có giá tr ị nhỏ nhất khoảng 2 ms, các điểm khởi đầu phải cách nhau hơn 2 ms, bỏ qua các sai lệch tín hiệu lớn có thể xảy ra ngay sau điểm bắt đầu chu kỳ, và ngưỡng sẽ giảm dần theo hàm mũ ở mức độ đặc trưng của chu kỳ F0.

Một cách ti ếp cận trực tiếp hơn lọc ra tất cả năng lượng từ tín hi ệu tiếng nói ngoại trừ tần số cơ bản và sau đó kiểm tra số zero crossing (m ỗi chu kỳ của dao động cơ bản sẽ có 2 điểm zero crossing). M ột khó kh ăn gặp ph ải là làm sao xác định

ngưỡng cho bộ lọc thông th ấp: ng ưỡng đó phải đủ lớn để nhận được một dao động trong giọng nói cao và ph ải đủ nhỏ để có thể loại bỏ được tất cả các dao động từ thứ

hai trở đi trong gi ọng nói th ấp. Khó kh ăn thứ hai, nhi ều ứng dụng dùng ti ếng nói đã được lọc thông để phân tích (ví d ụ: điện thoại, đã loại bỏ miền tần số 0-300 Hz), và

dao động cơ bản không được biểu diễn. Một giải pháp cho v ấn đế này là tái t ạo dao động cơ bản từ các dao động tần số cao hơn thông qua một phép ước lượng phi tuyến,

102

ví dụ: cho tiếng nói đi qua một bộ tách sóng, để tạo ra năng lượng của tất cả các dao động thành phần.

Các kỹ thuật ước lượng F0 dựa theo miền thời gian cóthu ận lợi về sự tính toán

đơn giản. Thêm vào đó, chúng định vị các th ời điểm chỉ định cho các điểm khởi đầu F0, điều này thật sự có ích khi cần tính chu kỳ F0 so với việc ước lượng F0 đơn thuần.

Tuy nhiên, các h ệ thống có t ốc độ nói khác nhau (t ăng hay gi ảm tốc độ, ph ụ thuộc

người dùng thích nghe ở tốc độ nào) thông thường làm bằng cách bỏ qua hay nhân đôi

2. Các kỹ thuật phân tích phổ hữu hạn

các chu k ỳ F0, ghép n ối các điểm khởi đầu để gi ảm thiểu sự gián đoạn trong d ạng sóng.

Lớp thứ hai của việc ước lượng F0 trong một khối mẫu tiếng nói có nhi ệm vụ

chuyển đổi các mẫu tín hi ệu theo dạng phổ để làm tăng các thông tin mang tính chu

kỳ trong tín hi ệu. Tính chu k ỳ xuất hiện khi đạt cực đại trong ph ổ và mang tính tuàn hoàn. Trong khi c ực đại trong dạng sóng theo mi ền thời gian th ường dựa trên tương

tác giữa các phoóc m ăng (đặc biệt là F1) v ới sự kích thích thanh môn, c ực đại trong phổ thường dễ nhận biết hơn. Trong các h ệ thống này, ng ười ta có th ể xem các phép biến đổi ph ổ nh ư là b ước ti ền xử lý và các b ộ dòtìm c ực đại ph ổ nh ư các b ộướ c lượng F0 cơ sở. Sau đó một bộ xử lý chính sẽ kiểm tra lại và sửa lỗi các F0 được ước lượng. Các lỗi có thể phân thành các lo ại cơ bản sau: gấp đôi hay giảm nửa pitch, do thiếu bước nh ận dạng cơ sở và hàm điều hoà l ần đầu tiên. L ỗi gấp đôi có khuynh hướng xảy ra khi mức năng lượng của tần số cơ bản yếu hơn mức năng lượng của tần số kế ti ếp. (L ỗi chia đôi F0 th ường xảy ra trong các thu ật toán theo mi ền th ời gian hơn, khi hai chu k ỳ bị nh ầm thành m ột). Theo các nghiên c ứu, F0 không th ể bi ến thiên hơn một quãng 8 trong m ột khung ở hầu hết các b ộướ c lượng pitch (thông thường sẽướ c lượng F0 mỗi 10-30 ms), bộ xử lý chính sẽ áp dụng các ràng buộc liên tục để làm tr ơn các ước lượng thay đổi bất th ường. Các l ỗi sai l ệch nh ỏ ch ừng vài hertz khó xử lý hơn các lỗi thô, các lỗi chính (ví dụ: gấp đôi) và có xu hướng gia tăng khi khung phân tích quá ng ắn (không ch ứa đủ thông tin để xác định pitch chính xác) hay quá dài (nếu F0 thay đổi nhanh trong khung).

Hai tr ường hợp sau này minh ho ạ sự lựach ọn độ dài khung thích h ợp. Cũng

như trong các ứng dụng lấy cửa sổ khác, các tham số tiếng nói là tốt nhất khi tín hiệu không đổi trong su ốt khung. Vì v ậy ta nên l ấy khung ng ắn, nhiều nhất là vài chu k ỳ pitch, vì F0 có th ể thay đổi rất nhanh. Cũng có th ể lợi dụng tính ch ất thay đổi nhanh của ph ổ tại đường biên dùng vào các b ộướ c lượng pitch c ủa ph ổ. Mặt khác, m ột khung phải chứa ít nh ất 2 chu k ỳ để cung cấp được các dấu hiệu mang tính chu k ỳ.

103

Tính chính xác c ủa việc tính F0 t ỷ lệ với số mẫu trong khungphân tích. Vì th ế, các

khung ngắn thì dễ gặp lỗi khi tìm pitch h ơn. Vì ch ỉ có một gái tr ị F0 được rút ra t ừ

mỗi khung, người ta thường lấy trung bình các F0 ước lượng được trong khung.

Một phức tạp trong việc trích pitch có nguyên nhân từ sự không chính xác của

pha (gặp phải trong nhiều phương tiện truyền tin, chẳng hạn như điện thoại) và từ sự

sai lệch pha giữa các các dao động. Bởi vì pha của phổ tiếng nói có thể bị thay đổi đến 1800 với mỗi phoóc măng, dao động trong kho ảng 200-900 Hz c ủa F1 dường như có pha khác với pha của dạng sóng ph ức tạp và th ỉnh thoảng làm mờ tính chu k ỳ trong

việc ước lượng pitch theo mi ền thời gian. Một giải pháp cho vi ệc này là lo ại bỏ ảnh

hưởng của pha bằng cách dò tìm điểm cực đại, không ph ải thao tác tr ực tiếp trên tín hiệuti ếng nói đã được lọc mà thông qua tính t ự tương quan hữu hạn (k). Nhắc lại (k) là ngh ịch đảo của phép bi ến đổi Fourier cho ph ổ năng lượng (|X(e jw)|2), do đó, thiết đặt pha điều hoà về giá trị zero. Mặc dù là một tín hiệu theo miềnth ời gian, (k) không thể định vị điểm bắt đầu pitch bởi vì sự mất mát pha trong phân tích hữu hạn.

Vì mục đích ước lượng F0, và vì s ự tái tạo phổ năng lượng không chính xác, tín hiệu tiếng nói thường bị bóp méo trong quá trính xử lý trước khi lấy tự tươngquan để gi ảm bớt tính toán và gi ữ các tham s ố có tính tu ần hoàn. Ph ương pháp c ắt tâm (Center clipping) thỉnh thoảng được dùng để tăng hiệu suất trích pitch. Đó là kỹ thuật gán các mẫu có cường độ thấp bằng 0 và gi ảm các mẫu có cường độ (biên độ) cao. Tuynhiên c ắt như vậy có thể gây khó kh ăn cho vi ệc dò tìm pitch trong ti ếng nói lớn (ồn). Người ta phải dùng một ngưỡng cắt động, thường là 30% của cường độ tiếng nói lớn nhất, để thích nghi v ới các cường độ tiếng nói khác nhau. Ph ương pháp Infinite peak clipping cũng được dùng đểướ c lượng pitch cho kết quả tốt thông qua tự tương quan và giảm đáng kể tính toán vì tất cả các phép nhân đều chỉ gồm các giá trị 0 và 1. Dùng cắt xen kẽ, tín hi ệu có th ể tăng đến cường độ cao (trong khi v ẫn giữ được dấu đại số của mỗi mẫu tiếng nói) để đánh dấu các cực đại dạng sóng.

Có thểướ c lượng F0 trực tiếp bằng cách định vị cực đại phổ cơ bản. Tuy nhiên cách làm này thiếu chính xác vì thực tế có thể rơi vào trường hợp tín hiệu tiếng nói đã được lọc hay tần số cơ bản có năng lượng thấp hơn F1. Cấu trúc điều hoà (phổ đạt cực đại tại nhiều điểm trên tần số cơ bản) là dấu hiệu chính xác hơn để tách F0; tần số của ước số chung lớn nhất của các dao động cho ta m ột ước lượng F0 tốt. Một cách ti ếp cận khác tính sự tách biệt các tần số dao động của phổ; một lực chọn là nén phổ bằng

104

các số nguyên (ví dụ: nén tần số tỷ lệ 2,3,4…): kết quả tần số cơ bản thể hiện các cực đại tốt hơn do được tăng cường các hàm điều hoà.

Kỹ thuật tìm độ tương tự lớn nhất cũng có một cách ước lượng pitch khác, đặc

biệt chạy tốt đối với tín hiệu tiếng nói ồn (lớn). Một cách xác định chu kỳ của tín hiệu trong môi trường ồn là thêm các khoảng lặng của tín hiệu và tín hiệu gốc. Khi khoảng

lặng bằng chu kỳ pitch, tín hiệu tiếng nói sẽ được khuếch đại, trong khi tiếng ồn (khác

pha với khoảng lặng) có xu hướng bị khử.

Các bộ dò tìm pitch c ủa phổ cho ta ước lượng gần đúng hơn các cách ti ếp cận theo miền thời gian nhưng đòi hỏi tính toán chuyển phổ nhiều hơn. Phép biến đổi chú

trọng vào thông tin v ề tính tuần hoàn của tiếng nói trong khi các phân tích theo mi ền

thời gian không làm được. Nh ắc lại, xác định ti ếng nói là m ột ph ần của vi ệc trích

pitch, các lỗi gặp phải trong các h ệ thống có th ể phân làm 4 lo ại: lỗi F0 lớn (ví dụ: gấp đôi), lỗi F0 nh ỏ, lỗi nhầm khung ti ếng nói hữu thanh thành vô thanh, và ng ược

lại. Không có thuật toán nào có thể đồng thời xử lý tốt cả 4 loại lỗi trên. Ta có thểướ c

2.1 Rút gọn thông tin

lượng các bộ dò tìm bằng cách dùng vào các h ệ thống mã hoá ti ếng nói biểu diễn các kích thích bằng F0 và k ết luận kích thích đó cólà ti ếng nói hay không. Không có l ỗi nào tương ứng với khía cạnh chất lượng mong đợi của tiếng nói được mã hoá, nhưng lỗi nhầm lẫn từ hữu thanh sang vô thanh gây cho ta nhi ều khó chịu nhất vì nó dẫn đến tiếng chói tai, âm thanh ồn. Trong khi các tính toánpitch không t ương xứng với mong đợi lắm, vi ệc sử dụng các thu ật toán trích pitch khác nhau cho k ết qu ả cũng không chênh lệch nhi ều. Thu ật toán AMDF có l ẽ là một ch ọn lựa tốt, đã ki ểm tra kết qu ả mong đợi khá cao, cho các b ộ mã hoá ti ếng nói quy ết định dựavào k ết luận một tín hiệu là ti ếng nói hay không và c ả cho vi ệc tìm mối liên quan gi ữa các kết quả mong đợi với các lỗi F0.

Trong các ứng dụng mã hoá và nh ận dạng, một công vi ệc lớn của vi ệc phân tích tiếng nói là bi ểu diễn thông tin trong tín hi ệu một cách có hiệu quả mà vẫn chứa đủ các tham số để có thể tái tạo lại hoặc nhận dạng được tiếng nói. Trong mã hoá, ta nhằm vào mục đích làm giảm bộ nhớ hay tốc độ cần phải truyền tải tiếng nói mà vẫn

giữ được chất lượng tốt nhất của tiếngnói được tái tạo theo các m ặt sau: dễ hiểu, tự nhiên, và có th ể nhận biết được người nói. Vì v ậy, cách bi ểu diễn mang tính kinh t ế

của các khía c ạnh quyết định tín hi ệu tiếng nói là h ết sức quan tr ọng. Trong các h ệ thống nhận dạng, các vấn đề về lưu trữ cũng được chú ý đến bên cạnh quan tâm ch ủ yếu là độ nhận dạng chính xác. Tuy nhiên, các b ộ nhận dạng sẽ chạy nhanh hơn nếu các mẫu dữ liệu được lưu trữ chiếm ít bộ nhớ hơn. Hơn nữa, các mẫu tốt, nhỏ thường

cho kết quả tốt hơn, ví dụ: các mẫu chứa dạng sóngti ếng nói được lấy mẫu cần nhiều

105

bộ nhớ lưu trữ nhưng cho các đặc tính chất lượng kém hơn các mẫu dạng phổ hay dự

báo tuyến tính. Trong c ả hai trường hợp, việc cắt bỏ thông tin d ư chứa trong tín hi ệu

tiếng nói là rất quan tr ọng. Dĩ nhiên một thông tin nào đó là cần thiết hay không còn tuỳ thuộc vào từng ứng dụng: chẳng hạn các khía cạnh phụ thuộc người nói là không

thể thiếu trong các ứng dụng nhận dạng người nói, tuy nhiên các khía c ạnh này lại là

thông tin th ừa đối với ứng dụng nhận dạng thông điệp theo mẫu trong các h ệ thống

nhận dạng tiếng nói tự động.

Không phải lúc nào c ũng xác định rõ ràng các khía c ạnh nào của tiếng nói có

thể cắt bỏ được. Ti ếng nói ch ấp nh ận được có th ể được tổng hợp với tốc độ 600

bit/giây, trong khi biểu diễn tiếng nói dưới dạng số đơn giản nhất chỉ cần một nửa con

số đó. Tuy nhiên, khi ta gi ảm tỷ lệ bit, dần dần sẽ xuất hiện những sai lệch nhỏ trong tiếng nói được tái tạo. Đặc biệt các khía c ạnh của tín hi ệu liên quan đến nhận dạng

người nói thì dường như không được cắt bỏ. Các môhình t ổng hợp tiếng nói hiện nay

2.2 Nắm bắt các thuận lợi do sự chuyển động chậm của bộ máy phát âm.

chú trọng đến các khía cạnh duy trì tính dễ hiểu, thỉnh thoảng cũng chú ý đến sự giảm mất tính tự nhiên.

Bởi vì có th ể xem ti ếng nói nh ư một chuỗi các âm v ị liên kết theo ng ữ điệu, hầu hết các hệ thống phân tích ti ếng nói đều cố gắng rút trích các tham s ố liên quan đến ph ổ và các m ẫu th ời gian th ể hi ện đặc tr ưng riêng c ủa từng âm v ị. Ti ếng nói thường được chuyển thành một tập các tín hi ệu tham số có liên h ệ chặt chẽ với các chuyển động của các bộ phận của bộ máy phát âm. Các tín hi ệu này có th ể gắn với một bộ ph ận riêng bi ệt (ví d ụ: các tham s ố F0 g ắn li ền với sự rung động của dây thanh) hoặc tạo thành do sự kết hợp của một số bộ phận; ví dụ: kết xuất từ một bộ lọc thông hay một mẫu phổ trong phép biến đổi DFT liên quan đến vị trí của phoóc măng và cường độ, các khía cạnh này lại do toàn bộ bộ máy phát âm quyết định.

Bộ máy phát âm chuy ển động rất chậm so với tốc độ lấy mẫu bình th ường; ví dụ: một âm vị (phonetic) trung bình thường có thời lượng dài hơn 50 ms ( mặc dù một số ng ắn hơn, ch ẳng hạn âm n ổ), trong khi t ốc độ lấy mẫu ti ếng nói thông th ường

khoảng 0.1 ms. K ết quả là các tham s ố tiếng nói tương ứng cũng có tốc độ thay đổi chậm nh ư th ế và ta có th ể lấy th ập phân.Ví d ụ, phép bi ến đổi Fourier h ữu hạn (đã

106

được kiểm tra với tần số cố định) là một tín hi ệu thời gian của một băng thông bằng băng thông của cửa sổ dùng trong phân tích ph ổ. Người ta có th ể lấy thập phân v ới một tỷ lệ gấp đôi băng thông của cửa sổ mà vẫn không mất mát thông tin; ví dụ: trong cách biểu diễn phổ băng tần rộng, người ta có th ể dùng một cửa sổ 300 Hz để biểu

diễn với một tốc độ lấy mẫu 600 mẫu/giây. Bởi vì trên th ực tế băng tần cửa sổ không

hoàn toàn bị giới hạn, việc lấy thập phân không làm sai lệch thông tin nhiều lắm.

Xét các khung phân tích ở tốc độ cập nhật tiêu biểu khoảng 10 ms, ch ỉ có một

phần rất nhỏ là có nh ững thay đổi đột ngột. Vì vậy, việc lấy mẫu các tham s ố phổ ở

tốc độ 600 mẫu/giây là không hi ệu quả khi ch ỉ sử dụng tốc độ cao như thế trong một

khoảng thời gian ngắn. Trên thực tế, các thuật toán mã hoá và nh ận dạng lấy mẫu với tốc độ khoảng 25-200 mẫu/giây, tuỳ theo từng ứng dụng. Điều này có th ể làm gi ảm

bớt độ chính xác trong lúc các thay đổi phổ diễn ra nhanh, tuy nhiên theo lý thy ết thì

hiệu quả không giảm nhiều lắm (ví dụ: không cần thiết phải làm trơn các thay đổi dốc

107

trong tiếng nói tái tạo), trong khi lại thu được một thuận lợi rất lớn trong việc giảm bộ nhớ lưu trữ tham số.