Nghiên cứu đặc trưng tiếng Việt áp dụng nhận dạng tiếng nói tiếng Việt (Luận văn)

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

BỘ MÔN CÔNG NGHỆ TRI THỨC

h(cid:243)(cid:243)(cid:243)g

LUẬN VĂN TỐT NGHIỆP

CỬ NHÂN CÔNG NGHỆ THÔNG TIN

NGHIÊN CỨU CÁC ĐẶC TRƯNG CỦA TIẾNG VIỆT

ÁP DỤNG VÀO NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT

Giáo viên hướng dẫn:

Th.S Thái Hùng Văn

Sinh viên thực hiện:

Đỗ Xuân Đạt –9912540

Võ Văn Tuấn –9912737

Thành phố Hồ Chí Minh, tháng 7 năm 2003

Lời Cảm Ơn

Hoàn thành lu ận văn này, chúng em xin chân thành c ảm

ơn thầy Thái Hùng V ăn đã tr ực tiếp hướng dẫn và tạo điều kiện

cho chúng em ti ếp cận với lĩnh vực nhận dạng tiếng nói, một lĩnh vực vô cùng lý thú.

Chúng em xin g ởi lời cảm ơn đến các th ầy cô trong trường, đặc biệt là các th ầy cô bộ môn Công Ngh ệ Tri Th ức, và thầy Trần Tiến Đức trường ĐH Sư Phạm Kỹ Thuật đã truyền đạt

cho chúng em nhiều kiến thức bổ ích.

Chúng tôi c ũng không th ể không nh ắc đến sự động viên

chăm sóc của gia đình, sự cộng tác giúp đỡ và ủng hộ tinh th ần

của bạn bè, đặc bi ệt là b ạn Nguy ễn Tấn Dũng và anh Đặng

Hoàng Vũ. Chúng tôi xin ghi ơn tất cả.

Thành phố Hồ Chí Minh, tháng 7 năm 2003.

Đỗ Xuân Đạt -Võ V ăn Tuấn

dạng tiếng nói chung chung ch ứ chưa có nhiều phân tích kỹ các đặc tính riêng của

tiếng Việt. Các hệ nhận dạng trước đây hầu hết không phân bi ệt được từ đồng âm

như: a, á, à, ả,ã, ạ… Hơn nữa kích thước từ điển (số từ nhận biết được) còn nh ỏ, thời gian học mẫu khá lâu, và nh ận dạng mang tính ph ụ thuộc người nói khá cao.

Vấn đề còn khó kh ăn ở chỗ nhận dạng tiếng nói mang tính liên ngành [T.H.V ăn- 00]. Nghiên cứu nhận dạng tiếng nói bằng máy tính là nghiên cứu cả một hệ thống các ngành khoa học có liên quan như: ngôn ngữ học, thống kê học, sinh lý học, vật

lý học, toán h ọc, âm h ọc, tâm lý h ọc, lý thuy ết thông tin và truy ền tin… và d ĩ

nhiên có cả công nghệ thông tin.

Luận văn này xây dựng với mong muốn góp phần khắc phục những hạn chế trên, nâng cao hiệu quả nhận dạng tiếng Việt; bằng cách rút trích và sử dụng nhiều đặc tr ưng âm học ti ếng Vi ệt hơn, từ đó dùng nhi ều đặc tr ưng hơn để nhận dạng giúp nâng cao độ chính xác và phân bi ệt được các từ đồng âm góp phần nâng kích

thước từ điển lên lớn hơn.

Nội dung luận văn được trình bày thành các chương như sau:

Chương 1: Tiếng nói và ng ữ âm ti ếng Vi ệt. Chương thứ nhất tóm tắt về tiếng nói và trình bày m ột số đặc điểm ngữ âm ti ếng Việt. Trong số đó, luận văn quan tâm nhi ều đến thanh điệu, là đặc điểm khác bi ệt của tiếng Việt so với nhiều

ngôn ngữ khác.

Chương 2: Xử lý tín hi ệu số -phân tích ti ếng nói: Trình bày một số kiến

thức cơ bản về xử lý tín hiệu số và một số phương pháp tiếp cận tín hiệu tiếng nói.

Chương 3: Nhận dạng ti ếng nói. Chương này mô t ả một hệ nh ận dạng

tiếng nói t ổng quát, và đi cụ th ể vào h ệ nh ận dạng ti ếng nói s ử dụng mô hình Markov ẩn liên tục.

Chương 4: Một số khảo sát về thanh điệu tiếng Việt. Đây là các khảo sát của người viết về thanh điệu tiếng Việt. Kết quả khảo sát sẽ được kết hợp, so sánh

với các nghiên cứu về ngữ âm tiếng Việt trước đây để rút ra các đặc điểm ngữ âm

tiếng Việt, làm cơ sở cho vi ệc xây dựng một hệ nhận dạng tiếng Việt theo mô t ả của luận văn.

Chương 5: Xây dựng môhình nh ận dạng thanh điệu ti ếng Vi ệt. Nhận dạng thanh điệu là b ước đầu tiên ứng dụng các nghiên c ứu nói trên vào m ột hệ

iii

nhận dạng tiếng Việt của luận văn. Bắt đầu từ đặc tính đặc trưng của tiếng Việt là

thanh điệu.

Chương 6: Thiết kế mô hình nh ận dạng ti ếng Việt. Phần này là thi ết kế

của luận văn về một hệ nhận dạng tiếng Việt hoàn chỉnh. Ứng dụng mô đun nhận

dạng thanh điệu vào một hệ nhận dạng tiếng Việt hoàn chỉnh.

Chương 7: Hiện th ực hoá mô hình nh ận dạng ti ếng Vi ệt. Chương cuối

cùng là các cài đặt cụ thể của luận văn về một hệ nhận dạng tiếng Việt.

Phần ph ụ lục 1: giới thiệu về một số đặc điểm ngữ âm ti ếng Việt. Trong

đó, luận văn chú ý nhi ều đến đặc điểm thanh điệu được dùng để ứng dụng trong

phân lớp tiếng Việt.

Phần phụ lục 2: Giới thiệu vai trò của tần số cơ bản trong tiếng nói và một

số phương pháp rút trích tần số cơ bản.

Mục Lục

Lời Cảm Ơn....................................................................................................i

Lời Giới Thiệu...............................................................................................ii

Mục Lục......................................................................................................... v

Chương 1.Ti

ếng nói và ngữ âm tiếng Việt................................................ 1

1.1.Gi

ới thiệu tiếng nói......................................................................... 1

1.1.1. Sự phân bố về biên độ............................................................... 1

1.1.2. Sự phân bố về tần số ................................................................. 2

1.1.3. Sự biến đổicác t ần số cơ bản................................................... 2

1.1.4. Tỷ số tiếng nói.......................................................................... 2

1.2.Ng

ữ âm tiếng Việt (Tham khảo phụ lục 1)..................................... 2

1.2.1.Thanh điệu................................................................................ 2

1.2.2.Âm v ị ........................................................................................ 3

1.2.3.Tr ường độ ................................................................................. 3

Chương 2. Xử lý tín hiệu số -phân tích tín hi ệu tiếng nói......................... 7

2.1. Xử lý tín hiệu số ............................................................................. 7

2.1.1. Lấy mẫu tín hiệu....................................................................... 7

Hàm lấy mẫu:.................................................................................... 7

2.1.1.1.Ph ổ của các tín hiệu được lấy mẫu.................................... 8

2.1.1.2. Mối quan hệ giữa phổ của tín hi ệu rời rạc và ph ổ của tín hiệu liên tục theo thời gian thời gian............................................................ 9

2.1.2.Dãy xung.................................................................................10

2.1.3.Bi

ến đổi Fourier rời rạc..........................................................11

2.1.3.1.Bi

ến đổi Fourier rời rạc...................................................12

2.1.3.2.Bi

ến đổi Fourier nhanh....................................................13

2.1.4.Bi

ến đổi cosin rời rạc..............................................................13

2.1.5.Các b ộ lọc...............................................................................14

2.1.6. Cửa sổ tín hiệu........................................................................15

2.2.Phân tích tín hi

ệu tiếng nói...........................................................20

2.2.1.Ph ương pháp dãy bộ lọc.........................................................20

2.2.2.Trích đặc trưng MFCC...........................................................28

2.2.3.Ph ương pháp mã hóa dự báo tuyến tính (LPC)......................32

2.2.3.1.Làm rõ tín hi

ệu.................................................................34

2.2.3.2.Phân đoạn thành các frame..............................................34

2.2.3.3. Lấy cửa sổ........................................................................35

2.2.3.4.Phân tích t ự tương quan...................................................36

2.2.3.5.Phân tích LPC..................................................................36

2.2.3.6.Chuy ển các hệ số LPC thành các hệ số cepstral..............37

2.2.3.7. Đặt trọng số cho các hệ số cepstral..................................37

2.3.Phát hi

ện chu kỳ tiếng nói –ph ương pháp tìm tần số cơ bản (Tham khảo phụ lục 2)...................................................................................................38

2.3.1.Các k ỹ thuật theo miền thời gian............................................39

2.3.2.Các k ỹ thuật phân tích phổ hữu hạn.......................................39

2.3.3.Mô t

ả tín hiệu..........................................................................40

2.3.3.1.Ti

ếng nói thô....................................................................40

2.3.3.2. Lỗi dự báo tuyến tính.......................................................40

2.3.4. Một số phương pháp cài đặt các kỹ thuậttrích F0:................41

2.3.4.1.Ph ương pháp dùng cepstral:............................................41

2.3.4.2.Ph ương pháp tự tương quan:...........................................41

2.3.4.3.Ph ương pháp CLIP (center clipping pitch detector)........42

2.3.4.4.Ph ương pháp SIFT (Simplified Inverse Filter Tracking)43

2.3.4.5.Hàm AMDF (Average Magnitude Difference Function)43

2.3.4.6.Ph ương pháp so khớp biên độ .........................................43

Chương 3.Nh ận dạng tiếng nói................................................................46

3.1. Tổng quan một hệ nhận dạng:......................................................46

3.2. Tổng quan một hệ nhận dạng tiếng nói:.......................................46

3.3.Nh

ững thuận lợi và khó khăn của nhận dạng tiếng nói:...............49

3.4.Nh

ận dạng tiếng nói sử dụng mô hình Markov ẩn.......................50

3.4.1.Mô hình Markov

ẩn và các bài toán cần giải quyết:...............50

3.4.1.1.Gi

ải quyết bài toán thứ nhất:...........................................51

3.4.1.2.Gi

ải quyết bài toán thứ hai:.............................................52

3.4.1.3.Gi

ải quyết bài toán thứ ba:...............................................52

3.4.2.Mô hình Markov

ẩn liên tục (CDHMM-Continuous Densities Hidden Markov Model)..................................................................................55

Chương 4. Một số khảo sát về thanh điệu tiếng Việt...............................59

4.1.Thanh 1 (Thanh ngang)................................................................59

4.2.Thanh 2 (Thanh huy

ền)...............................................................60

4.3.Thanh 3 (Thanh ngã)....................................................................61

4.4.Thanh 4 (Thanh h

ỏi).....................................................................63

4.5.Thanh 5 (Thanh s

ắc).....................................................................64

4.6.Thanh 6 (Thanh n

ặng)..................................................................66

Chương 5.Xây d ựng môhình nh ận dạng thanh điệu tiếng Việt..............66

5.1.Ti

ền xử lý......................................................................................66

5.2.Trích F0 t

ừ tín hiệu tiếng nói (pitch extraction)...........................69

5.3. Tạo vector đặc trưng từ vector V(F0)...........................................71

5.4.Hu

ấn luyện cho mô hình...............................................................72

vii

5.5.Nh

ận dạng.....................................................................................73

5.6. Một số kết quả nhận dạng thanh điệu tiếng Việt..........................74

Chương 6.Thi

ết kế mô hình nhận dạng tiếng nói tiếng Việt...................77

6.1.Công

đoạn huấn luyện..................................................................77

6.2.Công

đoạn nhận dạng...................................................................79

Chương 7.Hi

ện thựchoá mô hình nh ận dạng tiếng Việt.........................80

7.1.Nh

ận dạng tiếng đơn.....................................................................80

7.2.Nh

ận dạng câu..............................................................................82

Chương 8. Kết luận...................................................................................84

8.1. Kết luận.........................................................................................84

8.2. Hướng phát triển:..........................................................................85

Tài liệu tham khảo.......................................................................................86

Phụ lục 1: Ngữ âm tiếng Việt......................................................................87

Phụ lục 2: Vai trò của tần số cơ bản và một số kỹ thuật xử lý tần số cơ .100

viii

Chương 1. Tiếng nói và ngữ âm tiếng Việt

1.1.Gi ới thiệu tiếng nói

Tiếng nói là m ột lo ại sóng âm. Khi ta nói, ti ếng nói được truyền đi mang

theo thông tin d ưới dạng các dao động cùng ph ương truy ền đến tai ng ười nh ận. Mức độ truy ền tin c ủa ti ếng nói được xem là nhanh nh ất trong các kh ả năng tự nhiên của con người.

Khác với sách báo, th ư tín… ch ỉ try ền tin m ột chi ều, ti ếng nói giúp ta

truyền tin cả hai chiều. Sách báo giúp ta ghi lại thông tin để sau này đọc lại, nhưng

tiếng nói giúp ta thể hiện bản thân hơn. Thông qua cách nói chuy ện, khả năng ứng xử, ta có th ể đánh giá được trình độ và nhân cách c ủa môt ng ười. Ti ếng nói là

phương tiện truyền tin nhanh nhất và hiệu quả nhất của con người.

Tiếng nói có rất nhiều đặc tính:

Đặc tính của sóng âm g ồm các đặc tính sinh lý, v ật lý nh ư: cường

độ, tần số, biên độ, năng lượng, âm sắc, độ cao, độ to…

Đặc tính xã hội như: ngữ điệu, sắc thái tình cảm, địa phương…

Số từ được sử dụng thường xuyên trong giao ti ếp hằng ngày của một người dao độngtrong kho ảng từ 2000 đến 3000 từ. Số từ người ta s ử dụng trung bình

khoảng 5000 đến 10000 từ. [5]

Nghiên cứu về nhận dạng tiếng nói trên máy tính, ta sẽ xem xét chủ yếu đến tần số, biên độ (hay n ăng lượng). Ti ếng nói có mi ền tần số cơ bản nằm trong

khoảng80 –8000 Hz. [11]

1.1.1. Sự phân bố về biên độ

Khi thống kê v ới khoảng 80 ng ười (4 ng ười/ ngôn ng ữ), người ta nh ận

thấy rằng biên độ tối đa đạt được của một ti ếng nói có th ể lớn hơn 50dB [5]. Trong một chuỗi tiếng nói, biên độ tiếng nói sẽ phân bố liên tục theo dạng hình sin.

1.1.2. Sự phân bố về tần số

Khi phát âm các t ừ với tần số từ thấp đến cao, người ta thấy rằng việc tăng dần tần số gắn li ền với vi ệc gi ảm dần biên độ. Th ực nghi ệm cho th ấy với nam cũng như nữ, phổ tiếng nói của chúng ta theo t ần số là một đường cong có độ dốc

khoảng -10dB/Octave.

1.1.3. Sự biến đổi các tần số cơ bản

Thống kê theo thời gian về sự biến đổi các tần số trong giọng nói con người

cho thấy giá trị trung bình và độ lệch tần số cơ bản trong giọng nói nữ thường gấp

đôi nam.

Quá trình kh ảo sát c ũng cho th ấy 18% trong s ố các bi ến đổi về tần số cơ

bản là bi ến đổi tăng, và 50% là gi ảm. Người ta cũng nhận thấy trong chu ỗi tiếng nói của con ng ười, các kho ảng lặng chèn vào gi ữa các t ừ có tác d ụng làm cho tiếng nói của chúng ta ngheêm h ơn, và tần số của chúng ổn định trong miền có độ

biến thiên khoảng 10 Hz.

1.1.4. Tỷ số tiếng nói

Trong chuỗi tiếng nói của chúng ta, có th ể dễ dàng nhận thấy ngoại trừ các tiếng, còn có các khoảng trống được chèn vào, và tỷ số giữa đoạn có tiếng nói thực

sự so với khoảng thời gian tổng cộng của chuỗi âm được gọi là tỷ số tiếng nói.

Thực nghi ệm ch ứng minh khi chúng ta t ăng tốc độ nói thì kho ảng tr ống

giữa các ti ếng bị gi ảm nhi ều. Và ng ược lại, khi gi ảm tốc độ nói thì các kho ảng

trống giữa các từ bị dài ra.

1.2.Ng ữ âm tiếng Việt (Tham khảo phụ lục 1)

1.2.1.Thanh điệu

Thanh điệu là đặc tính đặc trưng của tiếng Việt nói riêng và các ngôn ng ữ

có thanh điệu nói chung so với các ngôn ngữ khác như tiếng Anh, tiếng Pháp,…

Thanh điệu là một thành phần ngữ âm, không phải là nhấn giọng, giúp phân biệt các từ đồng âm. Đây là đặc điểm mà đa số các hệ nhận dạng tiếng Việt trước đây chưa xử lý.

Trong ti ếng Vi ệt, thanh điệu cũng là m ột đặc điểm mang đậm tính địa

phương. Tổng cộng có 6 thanh, nhưng tuỳ vào từng địa phương mà số lượng thanh

điệu tiếng Việtcó th ể bị giảm xuống còn 5 hay 4 do s ự sát nh ập một số thanh lại với nhau.

Người ta phân biệt thanh điệu dựa vào 2 yếu tố: âm điệu và âm vực.

Âm điệu là sự thay đổi tần số cơ bản của thanh điệu, hay đường nét

của thanh điệu.

Âm vực: là miền giá trị của tần số cơ bản.

1.2.2.Âm v ị

Trong ngôn ng ữ nói, ti ếng nói bao g ồm nhiều câu, mỗi câu bao g ồm nhiều từ, và mỗi từ lại bao gồm nhiều âm vị. Theo quan điểm ngữ âm, âm vị được xem

là đơn vị nhỏ nhất của tiếng nói.

Âm vị gồm 2 loại chính: nguyên âm và phụ âm.

Nguyên âmlà các âm mà khi phát âm, lu ồng không khí đi ra không

bị cản trở.

Phụ âm là các âm mà lu ồng không khí khi đi ra bị cản trở ở một số bộ phận của bộ máy phát âm.

Ngoài ra, ng ười ta còn chia m ột dạng âm vị nữa như một bán nguyên âm,

khi sự cản trở luồng khôngkhí là không đáng kể. Các bán nguyên âm có đặc điểm

gần như nguyên âm nhưng thường chỉ đi kèm, và bản thân không tạo thành âm tiết được.

Các nguyên âm và ph ụ âm riêng bi ệt lại được chia thành nhi ều nhóm nh ỏ dựa vào các đặc điểm vật lý, sinh học, hay vị trí và cách th ức phát âm của bộ máy phát âm.

1.2.3.Tr ường độ

Trường độ tiếng nói là th ời gian phát âm m ột tiếng. Xét đến trường độ sẽ liên quan đến tính tắc –xát, h ệ thống âm chính–âm cu ối, ảnh hưởng của những biến đổi của âm cuối… Thường thì âm tắc, còn gọi làâm khép, s ẽ làm cho trường độ của tiếng nói giảm do sự tắc thanh quản.

Chương 2.

Xử lý tín hiệu số -phân tích tín hi ệu tiếng nói

2.1. Xử lý tín hiệu số

Hiểu một cách đơn giản thì tín hiệu (signal) là tất cả các biến có mang hoặc chứa một loại thông tin nào đấy mà tacó th ể biến đổi, hiển thị hoặc gia công. Các

tín hi ệu trong th ế gi ới th ực nh ư ti ếng nói (voice), âm thanh (sound), hình ảnh

(image)… đều có bản chất hết sức phức tạp. Do đó các tín hi ệu này thường bị biến

đổi thành các tín hi ệu số (s ố hóa) để dễ dàng x ử lýchúng. Tín hi ệu số (digital signal) là tín hiệu được biểu diễn bằng một dãy số. Xử lý tín hiệu số (Digital Signal Processing –DSP) bao hàm mọi phép xử lý các dãy s ố để có được các thông tin cần thiết.

Thông th ường, sau khi s ố hóa tín hi ệu, ta ch ọn các phép bi ến đổi với mục

đích chung là làm cho tín hiệu này dễ xử lý hơn.

2.1.1. Lấy mẫu tín hiệu

Hàm lấy mẫu:

Hàm lấy mẫu là cầu nối giữa các hệ thống rời rạc và các h ệ thống liên tục. Nó được gọi bằng các tên khác nhau nh ư: hàm Dirac Delta, hàm sàng l ọc,… và “hàm lấy mẫu” là một trong số các tên đó. Hàm lấy mẫu có các tính chất sau:

Tính chất 1:

Tính chất 2:

là một số thực bất kì. Trong các tính chất trên,

Hình sau đây minh họa hàm lấy mẫu lý tưởng:

Kết quả của phép lấy mẫu là:

Hình 2.1: Hàm lấy mẫu lý tưởng

2.1.1.1.Ph

ổ của các tín hiệu được lấy mẫu

Sử dụng lý thuyết của phép biến đổi Fourier, phổ tần số của các tín hiệu liên

tục theo thời gian được mô tả như sau:

Và dạng sóng của tín hiệu được thể hiện theo phổ của nó như sau:

Do biểu th ức trên được áp d ụng cho t ất cả các hàm liên t ục theo th ời gian

x(t) nên nó cũng đúng cho xs(t):

Thay xs(t) vào, ta được:

Trật tự phép lấy phân tích và phép c ộng có thể thay đổi, áp dụng tính ch ất 1

của hàm lấy mẫu, ta được:

Phương trình trên là d ạng biểu diễn chính xác hàm X(f) theo chu ỗi Fourier. Trong đó, Xs(f) là hàm tu ần hoàn theo chu k ỳ 1/T. Các h ệ số của chuỗi Fourier là x(nT) và chúng được tính bằng tích phân sau:

Hai biểu thức (2.8) và (2.9) là c ặp biến đổi giữa tín hi ệu trên mi ền thời gian

và phổ tần số của nó.

Mối quan hệ giữa phổ của tín hiệu rời rạc và phổ của tín hiệu

2.1.1.2. liên tục theo thời gian thời gian

Trong biểu thức (2.5), ta thay t = nT và dùng công thức (2.9):

Ta viết lại vế phải của phương trình (2.5):

m T

(thay f = + , df = d ) ta được: Đổi biến = f -

Đưa tổng vào trong tích phân, và thay vào biểu thức (2.10), ta sẽ rút ra được:

2.1.2.Dãy xung

Có duy nh ất 1 dãy g ọi là dãy xung đơn vị, đây là một dãy quan tr ọng, và

ị 0 tại tất cả các giá tr ị n, tr ừ n = 0. T ại

được ký hi ệu là u(n).Dãy này mang giá tr n = 0, dãy xung có giá tr ị bằng 1. Thông th ường dãy này được dịch đi m giá tr ị trước khi s ử dụng u(n-m). Dãy u(n) là ph ần tương ứng của hàm l ấy mẫu trong không gian rời rạc.

Tínhch ất của dãy xung cũng tương tự như tính chất của hàm lấy mẫu:

Hình 2.2 : Dãy xung

2.1.3.Bi ến đổi Fourier rời rạc

Các tín hi ệu hình sin sau khi qua x ử lý vẫn đảm bảo cho ra các k ết xuất là các tín hi ệuhình sin, ch ỉ có biên độ và pha là có th ể thay đổi, còn t ần số và hình dạng vẫn giữ nguyên. Tín hiệu trong thế giới thực ở dạng sóng liên tục theo chu kỳ, các sóng này là t ổng hợp của các đường hình sin r ời rạc có t ần số, biên độ khác nhau và pha của tínhi ệu hình sin có tần số f tương ứng với một giá trị biểu diễn đặc tính tần số của tín hiệu tại tần số f. Vì vậy, các tín hiệu Fourier có th ể dùng để tổng hợp trở lại thành các tín hiệu hình sin ban đầu thông qua biến đổi Fourier (Fourier Transform). Có 4 loại biến đổi Fourier tương ứng với 4 loại tín hiệu:

Loại biến đổiLo ại tín hiệu

Biến đổi Fourier Liên tục không chu kỳ

(Fourier Transform)

Chuỗi Fourier Liên tục có chu kỳ

(Fourier Series)

Biến đổi Fourier thời gian rời rạc Rời rạc không chu kỳ

(Discrete Time Fourier Transform)

Biến đổi Fourier rời rạc Rời rạc có chu kỳ

(Discrete Fourier Transform –DFT)

Một tín hiệu x(n) có độ dài L hữu hạn được dùng như là một chu kỳ tín hiệu.

(Ta có thể xây dựng tín hiệu xp(n) tuần hoàn bằng cách xếp chồng tuần hoànx(n)).

Biến đổi Fourier của x(n):

Trong đó X(w) được lấy mẫu tại các điểm w=2 k/N, với L≤N là điều kiện để

có thể khôi phục lại x(n) từ X(w) (định lý lấy mẫu Shannon).

Do phải xử lý bằng máy tính nên những tín hiệu có độ dài hữu hạn vàcó tr ục

tần số rời rạc mới có thể thực hiện dễ dàng nên biến đổi Fourier rời rạc là thích hợp nhất.

2.1.3.1.Bi

ến đổi Fourier rời rạc

Sau khi lấy mẫu hàm X(w) ta được một chu ỗi X(k) chi ều dài N, quá trình

này là biến đổi Fourier rời rạc X(k) = DFT(x(n)) và được tóm tắt lại như sau:

Một số tính chất của biến đổi Fourier rời rạc:

- Tính đối xứng

X(k) = X(N-k) với k=N/2, …, N-1

- Tính tuyến tính

Đặt:

X1(k)=DFT(x1(n))

X2(k)=DFT(x2(n))

X(k)=DFT(x(n))

Nếu x(n)=ax1(n)+bx2(n) (a, b là hằng số) thì X(k)=aX1(k)+bX2(k).

- Tính dịch vòng

DFT(x(n-p))=e-j2 kp/NX(k) với dãy (n-p) được định ngh ĩa là d ịch vòng c ủa

x(n).

Độ phức tạp của công th ức này là O(N2), không hi ệu quả vì ph ải thực hiện một khối lượng tính toán lớn. Người ta thường dùng một phương pháp hiệu quả hơn

đó là biến đổi Fourier nhanh (Fast Fourier Transform–FFT) .

2.1.3.2.Bi

ến đổi Fourier nhanh

Nguyên tắc cơ bản của tất cả các thu ật toán FFT là d ựa trên vi ệc phân tích cách tính DFT của một dãy N số thành phép tính DFT của các dãy nhỏ hơn (số điểm

tính DFT nh ỏ hơn). Một trong nh ững thuật toán FFT thông d ụng hiện nay là thuật

toán FFT c ơ số 2 phân chia theo t ần số (Radix-2, Decimation-In-Frequency FFT Algorithm). Thuật toán phân chia d ựa trên vi ệc phân chia dãy x(n) thành các dãy nhỏ hơn được gọi là thu ật toán phân chia theo t ần số vì ch ỉ số n th ường được gắn liền với tần số. Ví d ụ phân chia theo t ần số của FFT 16 điểm được minh họa như sau:

ệu 16 1 tín hi

2 tín hi ệu

4 tín hi ệu

8 tín hi ệu

ệu 1 16 tín hi

Độ phức tạp của phương pháp này là O(Nlog2(N)).

2.1.4.Bi ến đổi cosin rời rạc

Với biến đổi fourier, ta sử dụng cả hàm sin và cos để mô tả tín hiệu. Còn với biến đổi cosine, ta ch ỉ sử dụng hàm cos để mô tả tín hi ệu. Cụ thể ta có công th ức biến đổi dãy u(n), n=0...(N-1), sau:

Ở đây được tính như sau:

1 N

2 N

với k = 1...(N-1)

Và công thức biến đổi ngược lại là:

2.1.5.Các b ộ lọc

Bộ lọc số có vai trò r ất quan trọng trong DSP, chúng được dùng với 2 mục đích

chính:

- Tách các tín hi ệu đã bị tr ộn: Các tín hi ệu ban đầu th ường ch ứa đựng các nhiễu hoặc các tín hi ệu không mong mu ốn khác, các nhi ễu này sẽ làm gi ảm đáng kể ch ất lượng của các ph ương trình x ử lý tín hi ệu số do đó cần ph ải tách riêng các tín hiệu cần thiết rakh ỏi các nhiễu.

Ví dụ: Âm thanh khi được thu, tín hi ệu thường chứa thêm các ti ếng ồn của môi tr ường nh ư ti ếng ồ ồ của qu ạt tr ần th ổi vào micro; các điểm lốm đốm trên những tấm ảnh lâu ngày ….

- Khôi phục các tín hi ệu méo mó: Có m ột số trường hợp vì một nguyên nhân nào đó (thường là nguyên nhân liên quan đến thiết bị) sẽ tạo ra các tín hi ệu vào bị méo mó. Vì vậy cần phải chỉnh lại để tăng chất lượng chương trình xử lý tín hiệu số.

Ví dụ: Các micro cũ, dơ sẽ cho ra các tín hiệu âm thanh không tốt; “con mắt”

(forcus len) của các máy quét bị mờ sẽ làm cho các ảnh được quét bị mờ theo ….

Trong th ực tế kỹ thu ật, ng ười ta th ường phân bi ệt hai tr ường hợp đáp ứng

xung:

- Hệ có đáp ứng xung hữu hạn (Finite Impulse Response –FIR): hệ có tín hiệu ra ch ỉ phụ thuộc vào tínhi ệu vào nên các h ệ này còn được gọi là mạch

không truy h ồi hay m ạch không đệ qui (non-recursive). Ngh ĩa là có N=0 trong phương trình sai tuyến tính hệ số hằng. Khi đó:

- Hệ có đáp ứng xung vô h ạn (Infinite Impulse Response–IIR): hệ xử lý

có đáp ứng xung có độ dài vô h ạn hay đáp ứng xung vô h ạn. Tín hi ệu ra

không những chỉ phụ thuộc vào tín hi ệu vào mà còn ph ụ thuộc vào quá kh ứ của chính tín hiệu ra, vì vậy chúng còn được gọi là các mạch có truy hồi hay

đệ qui. Nghĩa là N>0 trong phươngtrình sai phân tuy ến tính hệ số hăng.

2.1.6. Cửa sổ tín hiệu

Thông thường, việc phân tích tín hi ệu được thực hiện trên một dãy hữu hạn gồm N mẫu xN(n0),…, xN(n0 + N–1). Dãy tín hi ệu này được lấy ra từ một tín hi ệu dài hơn hoặc dài vô hạn x(n). Một dãy con như vậy gọi là một cửa sổ tín hiệu. Việc quan sát tín hi ệu x(n) b ằng một đoạn xN(n) trong kho ảng n0…(n0 + N–1) t ương đương với việc nhân x(n) với một hàm cửa sổ w(n-n0)

Trong xử lý tín hi ệu số, các c ửa sổ thường dùng được biểu diễn thông qua

cửa sổ Hamming tổng quát:

Tuỳ theo các giá trị khác nhau của mà ta có các cửa sổ khác nhau:

= 0.54, ta có cửa sổ Hamming:

= 0.5, ta có cửa sổ Hanning:

= 1, ta có cửa sổ chữ nhật:

Thêm vào đó, độ rộng của cửa sổ cũng có tác động khá lớn đến kết quả của

các phép phân tích.

Một số cửa sổ khác cũng được sử dụng trong xử lý tín hi ệu số như: cửa sổ

tam giác, cửa sổ Kaiser, cửa sổ Blackman, cửa sổ cosin…

Sau đây là một số ví dụ cho thấy sự khác biệt giữa các loại cửa sổ. Các ví dụ

này áp dụng phép phân tích ph ổ bằng thuật toán FFT cho các khung tín hi ệu tiếng nói có độ dài khác nhau và hàm lấy cửa sổ cũng khác nhau.

Hình 2.7a: Âm /a/, cửa sổ chữ nhật,