Luận văn: Nghiên cứu các đặc trưng tiếng Việt áp dụng vào nhận dạng tiếng nói tiếng Việt

Chia sẻ: Nguyen Bao Ngoc | Ngày: | Loại File: PDF | Số trang:0

Thêm vào BST

Báo xấu

176
lượt xem 60
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận văn này xây dựng với mong muốn góp phần khắc phục những hạn chế trên, nâng cao hiệu quả nhận dạng tiếng Việt; bằng cách rút trích và sử dụng nhiều đặc trưng âm học tiếng Việt hơn, từ đó dùng nhiều đặc trưng hơn để nhận dạng giúp nâng cao độ chính xác và phân biệt được các từ đồng âm góp phần nâng kích thước từ điển lên lớn hơn.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận văn: Nghiên cứu các đặc trưng tiếng Việt áp dụng vào nhận dạng tiếng nói tiếng Việt

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN BỘ MÔN CÔNG NGHỆ TRI THỨC hóóóg LUẬN VĂN TỐT NGHIỆP CỬ NHÂN CÔNG NGHỆ THÔNG TIN NGHIÊN CỨU CÁC ĐẶC TRƯNG CỦA TIẾNG VIỆT ÁP DỤNG VÀO NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT Giáo viên hướng dẫn: Th.S Thái Hùng Văn Sinh viên thực hiện: Đỗ Xuân Đạt – 9912540 Võ Văn Tuấn – 9912737 Thành phố Hồ Chí Minh, tháng 7 năm 2003
Lời Cảm Ơn Hoàn thành luận văn này, chúng em xin chân thành cảm ơn thầy Thái Hùng Văn đã trực tiếp hướng dẫn và tạo điều kiện cho chúng em tiếp cận với lĩnh vực nhận dạng tiếng nói, một lĩnh vực vô cùng lý thú. Chúng em xin gởi lời cảm ơn đến các thầy cô trong trường, đặc biệt là các thầy cô bộ môn Công Nghệ Tri Thức, và thầy Trần Tiến Đức trường ĐH Sư Phạm Kỹ Thuật đã truyền đạt cho chúng em nhiều kiến thức bổ ích. Chúng tôi cũng không thể không nhắc đến sự động viên chăm sóc của gia đình, sự cộng tác giúp đỡ và ủng hộ tinh thần của bạn bè, đặc biệt là bạn Nguyễn Tấn Dũng và anh Đặng Hoàng Vũ. Chúng tôi xin ghi ơn tất cả. Thành phố Hồ Chí Minh, tháng 7 năm 2003. Đỗ Xuân Đạt - Võ Văn Tuấn i
Lời Giới Thiệu Trong quá trính tiến hoá, con người đã trở thành động vật mạnh nhất, cao cấp nhất nhờ vào hai thứ: lao động và tiếng nói. Lao động tạo ra tư duy và tiếng nói giúp con người kết hợp với nhau. Cùng với thời gian, các phương tiện giao tiếp - thông tin của con người đã phát triển rất phong phú đa dạng. Tuy nhiên, dù đa dạng đến đâu cũng không thể thay thế được vai trò của tiếng nói. Tiếng nói là một phương tiện giao tiếp đặc biệt hiệu quả và cực kỳ phổ dụng, là một chức năng vô cùng quý giá của con người [L.V.Lợi-99]. Sự phát triển vượt bậc của con người chính là nhờ ở tốc độ và khả năng giao tiếp phong phú của tiếng nói. Ngày nay, nhờ sự phát triển của khoa học kỹ thuật, máy móc dần dần thay thế các lao động tay chân. Tuy nhiên để điều khiển máy móc, con người phải làm khá nhiều thao tác tốn nhiều thời gian và cần phải được đào tạo. Điều này gây trở ngại không ít đối với việc sử dụng các máy móc, thành tựu khoa học kỹ thuật. Chúng ta hãy tưởng tượng trong nhà có một người máy giúp việc. Khi ta muốn người máy làm việc, ta phải lục tìm đĩa chương trình tương ứng, phải nạp chương trình, … phải chạy lăng xăng làm một danh sách các công việc trong khi lúc đó ta đang ngồi bên bàn làm việc, đang phải tập trung suy nghĩ vào một vấn đề cần giải quyết. Và ta hãy tưởng tượng xem nếu người máy đó “nghe hiểu” được những gì ta nói. Lúc đó ta chỉ cần “nhờ vả” một câu, mọi việc sẽ trở nên dễ dàng! Đi tìm giải pháp giúp cho máy có thể “nghe hiểu” được, con người đã bước vào lĩnh vực nhận dạng tiếng nói. Hơn nửa thế kỷ trôi qua, con người đã thu được những thành tựu đáng kể, có những ứng dụng khá hữu ích vào đời sống. Nhưng dù sao, khả năng “nghe hiểu” của máy vẫn còn một khoảng cách khá xa so với thực tế. Mặt khác, các hệ thống nhân dạng hiện nay cũng chỉ được phát triển tương đối tốt đối với một số ngôn ngữ như tiếng Anh, tiếng Pháp, tiếng Hoa,… Còn đối với nước ta, nhận dạng tiếng nói vẫn còn là một lĩnh vực khá mới mẻ. Đến nay tuy cũng đã đạt được một số thành tựu và đã có những ứng dụng nhất định, nhưng nhìn chung, nhận dạng tiếng Việt vẫn chưa đạt được kết quả cần thiết để có thể tạo ra một sản phẩm thực tế hoàn chỉnh. Khó khăn nằm ở tính phức tạp của vấn đề và mức độ đầu tư cũng như kế thừa chưa cao. Các nghiên cứu chủ yếu vẫn là nhận ii
dạng tiếng nói chung chung chứ chưa có nhiều phân tích kỹ các đặc tính riêng c ủa tiếng Việt. Các hệ nhận dạng trước đây hầu hết không phân biệt được từ đồng âm như: a, á, à, ả, ã, ạ… Hơn nữa kích thước từ điển (số từ nhận biết được) còn nhỏ, thời gian học mẫu khá lâu, và nhận dạng mang tính ph ụ thuộc người nói khá cao. Vấn đề còn khó khăn ở chỗ nhận dạng tiếng nói mang tính liên ngành [T.H.Văn- 00]. Nghiên cứu nhận dạng tiếng nói bằng máy tính là nghiên cứu cả một hệ thống các ngành khoa học có liên quan như: ngôn ng ữ học, thống kê h ọc, sinh lý học, vật lý học, toán học, âm học, tâm lý học, lý thuyết thông tin và truy ền tin… và dĩ nhiên có cả công nghệ thông tin. Luận văn này xây dựng với mong muốn góp phần khắc phục những hạn chế trên, nâng cao hiệu quả nhận dạng tiếng Việt; bằng cách rút trích và sử dụng nhiều đặc trưng âm học tiếng Việt hơn, từ đó dùng nhiều đặc trưng hơn để nhận dạng giúp nâng cao độ chính xác và phân bi ệt được các từ đồng âm góp phần nâng kích thước từ điển lên lớn hơn. Nội dung luận văn được trình bày thành các ch ương như sau: Chương 1: Tiếng nói và ngữ âm tiếng Việt. Chương thứ nhất tóm tắt về tiếng nói và trình bày một số đặc điểm ngữ âm tiếng Việt. Trong số đó, luận văn quan tâm nhiều đến thanh điệu, là đặc điểm khác biệt của tiếng Việt so với nhiều ngôn ngữ khác. Chương 2: Xử lý tín hiệu số - phân tích tiếng nói: Trình bày một số kiến thức cơ bản về xử lý tín hiệu số và một số phương pháp tiếp cận tín hiệu tiếng nói. Chương 3: Nhận dạng tiếng nói. Chương này mô tả một hệ nhận dạng tiếng nói tổng quát, và đi cụ thể vào hệ nhận dạng tiếng nói sử dụng mô hình Markov ẩn liên tục. Chương 4: Một số khảo sát về thanh điệu tiếng Việt. Đây là các khảo sát của người viết về thanh điệu tiếng Việt. Kết quả khảo sát sẽ được kết hợp, so sánh với các nghiên cứu về ngữ âm tiếng Việt trước đây để rút ra các đặc điểm ngữ âm tiếng Việt, làm cơ sở cho việc xây dựng một hệ nhận dạng tiếng Việt theo mô tả của luận văn. Chương 5: Xây dựng mô hình nhận dạng thanh điệu tiếng Việt. Nhận dạng thanh điệu là bước đầu tiên ứng dụng các nghiên cứu nói trên vào một hệ iii
nhận dạng tiếng Việt của luận văn. Bắt đầu từ đặc tính đặc trưng của tiếng Việt là thanh điệu. Chương 6: Thiết kế mô hình nhận dạng tiếng Việt. Phần này là thiết kế của luận văn về một hệ nhận dạng tiếng Việt hoàn chỉnh. Ứng dụng mô đun nhận dạng thanh điệu vào một hệ nhận dạng tiếng Việt hoàn chỉnh. Chương 7: Hiện thực hoá mô hình nhận dạng tiếng Việt. Chương cuối cùng là các cài đặt cụ thể của luận văn về một hệ nhận dạng tiếng Việt. Phần phụ lục 1: giới thiệu về một số đặc điểm ngữ âm tiếng Việt. Trong đó, luận văn chú ý nhiều đến đặc điểm thanh điệu được dùng để ứng dụng trong phân lớp tiếng Việt. Phần phụ lục 2: Giới thiệu vai trò của tần số cơ bản trong tiếng nói và một số phương pháp rút trích tần số cơ bản. iv
Mục Lục Lời Cảm Ơn ....................................................................................................i Lời Giới Thiệu ...............................................................................................ii Mục Lục......................................................................................................... v Chương 1. Tiếng nói và ngữ âm tiếng Việt ................................................ 1 Giới thiệu tiếng nói ......................................................................... 1 1.1. 1.1.1. Sự phân bố về biên độ............................................................... 1 1.1.2. Sự phân bố về tần số ................................................................. 2 1.1.3. Sự biến đổi các tần số cơ bản ................................................... 2 1.1.4. Tỷ số tiếng nói .......................................................................... 2 Ngữ âm tiếng Việt (Tham khảo phụ lục 1)..................................... 2 1.2. 1.2.1. Thanh điệu ................................................................................ 2 1.2.2. Âm vị ........................................................................................ 3 1.2.3. Trường độ ................................................................................. 3 Chương 2. Xử lý tín hiệu số - phân tích tín hiệu tiếng nói ......................... 7 Xử lý tín hiệu số ............................................................................. 7 2.1. 2.1.1. Lấy mẫu tín hiệu ....................................................................... 7 Hàm lấy mẫu: .................................................................................... 7 2.1.1.1. Phổ của các tín hiệu được lấy mẫu .................................... 8 2.1.1.2. Mối quan hệ giữa phổ của tín hiệu rời rạc và phổ của tín hiệu liên tục theo thời gian thời gian ............................................................ 9 2.1.2. Dãy xung................................................................................. 10 2.1.3. Biến đổi Fourier rời rạc .......................................................... 11 2.1.3.1. Biến đổi Fourier rời rạc ................................................... 12 v
2.1.3.2. Biến đổi Fourier nhanh .................................................... 13 2.1.4. Biến đổi cosin rời rạc.............................................................. 13 2.1.5. Các bộ lọc ............................................................................... 14 2.1.6. Cửa sổ tín hiệu ........................................................................ 15 Phân tích tín hi ệu tiếng nói ........................................................... 20 2.2. 2.2.1. Phương pháp dãy bộ lọc ......................................................... 20 2.2.2. Trích đặc trưng MFCC ........................................................... 28 2.2.3. Phương pháp mã hóa dự báo tuyến tính (LPC) ...................... 32 2.2.3.1. Làm rõ tín hi ệu.................................................................34 2.2.3.2. Phân đoạn thành các frame .............................................. 34 2.2.3.3. Lấy cửa sổ ........................................................................ 35 2.2.3.4. Phân tích tự tương quan................................................... 36 2.2.3.5. Phân tích LPC ..................................................................36 2.2.3.6. Chuyển các hệ số LPC thành các hệ số cepstral.............. 37 2.2.3.7. Đặt trọng số cho các hệ số cepstral..................................37 2.3. Phát hiện chu kỳ tiếng nói – phương pháp tìm tần số cơ bản (Tham khảo phụ lục 2). ..................................................................................................38 2.3.1. Các kỹ thuật theo miền thời gian ............................................ 39 2.3.2. Các kỹ thuật phân tích phổ hữu hạn ....................................... 39 2.3.3. Mô tả tín hiệu.......................................................................... 40 2.3.3.1. Tiếng nói thô.................................................................... 40 2.3.3.2. Lỗi dự báo tuyến tính....................................................... 40 2.3.4. Một số phương pháp cài đặt các kỹ thuật trích F0: ................ 41 2.3.4.1. Phương pháp dùng cepstral: ............................................ 41 2.3.4.2. Phương pháp tự tương quan: ........................................... 41 2.3.4.3. Phương pháp CLIP (center clipping pitch detector)........ 42 vi
2.3.4.4. Phương pháp SIFT (Simplified Inverse Filter Tracking) 43 2.3.4.5. Hàm AMDF (Average Magnitude Difference Function) 43 2.3.4.6. Phương pháp so khớp biên độ ......................................... 43 Chương 3. Nhận dạng tiếng nói................................................................ 46 Tổng quan một hệ nhận dạng: ...................................................... 46 3.1. Tổng quan một hệ nhận dạng tiếng nói: ....................................... 46 3.2. Những thuận lợi và khó khăn của nhận dạng tiếng nói: ............... 49 3.3. Nhận dạng tiếng nói sử dụng mô hình Markov ẩn ....................... 50 3.4. 3.4.1. Mô hình Markov ẩn và các bài toán cần giải quyết:............... 50 3.4.1.1. Giải quyết bài toán thứ nhất: ........................................... 51 3.4.1.2. Giải quyết bài toán thứ hai: ............................................. 52 3.4.1.3. Giải quyết bài toán thứ ba:............................................... 52 3.4.2. Mô hình Markov ẩn liên tục (CDHMM - Continuous Densities Hidden Markov Model).................................................................................. 55 Chương 4. Một số khảo sát về thanh điệu tiếng Việt ............................... 59 4.1. Thanh 1 (Thanh ngang) ................................................................ 59 Thanh 2 (Thanh huyền) ............................................................... 60 4.2. 4.3. Thanh 3 (Thanh ngã) .................................................................... 61 Thanh 4 (Thanh hỏi) ..................................................................... 63 4.4. Thanh 5 (Thanh sắc) ..................................................................... 64 4.5. Thanh 6 (Thanh nặng) ..................................................................66 4.6. Chương 5. Xây dựng mô hình nhận dạng thanh điệu tiếng Việt .............. 66 Tiền xử lý...................................................................................... 66 5.1. Trích F0 từ tín hiệu tiếng nói (pitch extraction) ........................... 69 5.2. Tạo vector đặc trưng từ vector V(F0)........................................... 71 5.3. Huấn luyện cho mô hình............................................................... 72 5.4. vii
Nhận dạng ..................................................................................... 73 5.5. Một số kết quả nhận dạng thanh điệu tiếng Việt .......................... 74 5.6. Chương 6. Thiết kế mô hình nhận dạng tiếng nói tiếng Việt ................... 77 Công đoạn huấn luyện ..................................................................77 6.1. Công đoạn nhận dạng ................................................................... 79 6.2. Chương 7. Hiện thực hoá mô hình nhận dạng tiếng Việt ......................... 80 Nhận dạng tiếng đơn..................................................................... 80 7.1. Nhận dạng câu .............................................................................. 82 7.2. Chương 8. Kết luận................................................................................... 84 Kết luận......................................................................................... 84 8.1. Hướng phát triển:.......................................................................... 85 8.2. Tài liệu tham khảo ....................................................................................... 86 Phụ lục 1: Ngữ âm tiếng Việt...................................................................... 87 Phụ lục 2: Vai trò của tần số cơ bản và một số kỹ thuật xử lý tần số cơ .100 viii
Chương 1. Tiếng nói và ngữ âm tiếng Việt 1.1. Giới thiệu tiếng nói Tiếng nói là một loại sóng âm. Khi ta nói, tiếng nói được truyền đi mang theo thông tin dưới dạng các dao động cùng phương truyền đến tai người nhận. Mức độ truyền tin của tiếng nói được xem là nhanh nhất trong các khả năng tự nhiên của con người. Khác với sách báo, th ư tín… chỉ tryền tin một chiều, tiếng nói giúp ta truyền tin cả hai chiều. Sách báo giúp ta ghi lại thông tin để sau này đọc lại, nhưng tiếng nói giúp ta thể hiện bản thân hơn. Thông qua cách nói chuyện, khả năng ứng xử, ta có thể đánh giá được trình độ và nhân cách của môt người. Tiếng nói là phương tiện truyền tin nhanh nhất và hiệu quả nhất của con người. Tiếng nói có rất nhiều đặc tính: Đặc tính của sóng âm gồm các đặc tính sinh lý, vật lý như: cường độ, tần số, biên độ, năng lượng, âm sắc, độ cao, độ to… Đặc tính xã hội như: ngữ điệu, sắc thái tình cảm, địa phương… Số từ được sử dụng thường xuyên trong giao tiếp hằng ngày của một người dao động trong khoảng từ 2000 đến 3000 từ. Số từ người ta sử dụng trung bình khoảng 5000 đến 10000 từ. [5] Nghiên cứu về nhận dạng tiếng nói trên máy tính, ta sẽ xem xét chủ yếu đến tần số, biên độ (hay năng lượng). Tiếng nói có miền tần số cơ bản nằm trong khoảng 80 – 8000 Hz. [11] 1.1.1. Sự phân bố về biên độ Khi thống kê với khoảng 80 người (4 người/ ngôn ngữ), người ta nhận thấy rằng biên độ tối đa đạt được của một tiếng nói có thể lớn hơn 50dB [5]. Trong một chuỗi tiếng nói, biên độ tiếng nói sẽ phân bố liên tục theo dạng hình sin. 1
1.1.2. Sự phân bố về tần số Khi phát âm các từ với tần số từ thấp đến cao, người ta thấy rằng việc tăng dần tần số gắn liền với việc giảm dần biên độ. Thực nghiệm cho thấy với nam cũng như nữ, phổ tiếng nói của chúng ta theo tần số là một đường cong có độ dốc khoảng -10dB/Octave. 1.1.3. Sự biến đổi các tần số cơ bản Thống kê theo thời gian về sự biến đổi các tần số trong giọng nói con người cho thấy giá trị trung bình và độ lệch tần số cơ bản trong giọng nói nữ thường gấp đôi nam. Quá trình khảo sát cũng cho thấy 18% trong số các biến đổi về tần số cơ bản là biến đổi tăng, và 50% là giảm. Người ta cũng nhận thấy trong chuỗi tiếng nói của con người, các khoảng lặng chèn vào giữa các từ có tác dụng làm cho tiếng nói của chúng ta nghe êm hơn, và tần số của chúng ổn định trong miền có độ biến thiên khoảng 10 Hz. 1.1.4. Tỷ số tiếng nói Trong chuỗi tiếng nói của chúng ta, có thể dễ dàng nhận thấy ngoại trừ các tiếng, còn có các kho ảng trống được chèn vào, và t ỷ số giữa đoạn có tiếng nói thực sự so với khoảng thời gian tổng cộng của chuỗi âm được gọi là tỷ số tiếng nói. Thực nghiệm chứng minh khi chúng ta tăng tốc độ nói thì khoảng trống giữa các tiếng bị giảm nhiều. Và ngược lại, khi giảm tốc độ nói thì các khoảng trống giữa các từ bị dài ra. 1.2. Ngữ âm tiếng Việt (Tham khảo phụ lục 1) 1.2.1. Thanh điệu Thanh điệu là đặc tính đặc trưng của tiếng Việt nói riêng và các ngôn ngữ có thanh điệu nói chung so với các ngôn ngữ khác như tiếng Anh, tiếng Pháp,… Thanh điệu là một thành phần ngữ âm, không phải là nhấn giọng, giúp phân biệt các từ đồng âm. Đây là đặc điểm mà đa số các hệ nhận dạng tiếng Việt trước đây chưa xử lý. 2
Trong tiếng Việt, thanh điệu cũng là một đặc điểm mang đậm tính địa phương. Tổng cộng có 6 thanh, nhưng tu ỳ vào từng địa phương mà số lượng thanh điệu tiếng Việt có thể bị giảm xuống còn 5 hay 4 do sự sát nhập một số thanh lại với nhau. Người ta phân biệt thanh điệu dựa vào 2 yếu tố: âm điệu và âm vực. Âm điệu là sự thay đổi tần số cơ bản của thanh điệu, hay đường nét của thanh điệu. Âm vực: là miền giá trị của tần số cơ bản. 1.2.2. Âm vị Trong ngôn ngữ nói, tiếng nói bao gồm nhiều câu, mỗi câu bao gồm nhiều từ, và mỗi từ lại bao gồm nhiều âm vị. Theo quan điểm ngữ âm, âm vị được xem là đơn vị nhỏ nhất của tiếng nói. Âm vị gồm 2 loại chính: nguyên âm và phụ âm. Nguyên âm là các âm mà khi phát âm, luồng không khí đi ra không bị cản trở. Phụ âm là các âm mà luồng không khí khi đi ra bị cản trở ở một số bộ phận của bộ máy phát âm. Ngoài ra, người ta còn chia một dạng âm vị nữa như một bán nguyên âm, khi sự cản trở luồng không khí là không đáng kể. Các bán nguyên âm có đặc điểm gần như nguyên âm nhưng thường chỉ đi kèm, và bản thân không t ạo thành âm tiết được. Các nguyên âm và phụ âm riêng biệt lại được chia thành nhiều nhóm nhỏ dựa vào các đặc điểm vật lý, sinh học, hay vị trí và cách thức phát âm của bộ máy phát âm. 1.2.3. Trường độ Trường độ tiếng nói là thời gian phát âm một tiếng. Xét đến trường độ sẽ liên quan đến tính tắc – xát, hệ thống âm chính – âm cuối, ảnh hưởng của những biến đổi của âm cuối… Thường thì âm tắc, còn gọi là âm khép, sẽ làm cho trường độ của tiếng nói giảm do sự tắc thanh quản. 3
Chương 2. Xử lý tín hiệu số - phân tích tín hiệu tiếng nói 2.1. Xử lý tín hiệu số Hiểu một cách đơn giản thì tín hiệu (signal) là tất cả các biến có mang hoặc chứa một loại thông tin nào đấy mà ta có thể biến đổi, hiển thị hoặc gia công. Các tín hiệu trong thế giới thực như tiếng nói (voice), âm thanh (sound), hình ảnh (image)… đều có bản chất hết sức phức tạp. Do đó các tín hiệu này thường bị biến đổi thành các tín hiệu số (số hóa) để dễ dàng xử lý chúng. Tín hiệu số (digital signal) là tín hiệu được biểu diễn bằng một dãy số. Xử lý tín hiệu số (Digital Signal Processing – DSP) bao hàm mọi phép xử lý các dãy số để có được các thông tin cần thiết. Thông thường, sau khi số hóa tín hiệu, ta chọn các phép biến đổi với mục đích chung là làm cho tín hiệu này dễ xử lý hơn. 2.1.1. Lấy mẫu tín hiệu Hàm lấy mẫu: Hàm lấy mẫu là cầu nối giữa các hệ thống rời rạc và các hệ thống liên tục. Nó được gọi bằng các tên khác nhau như: hàm Dirac Delta, hàm sàng lọc,… và “hàm lấy mẫu” là một trong số các tên đó. Hàm lấy mẫu có các tính chất sau: Tính chất 1: Tính chất 2: Trong các tính chất trên, là một số thực bất kì. 7
Hình sau đây minh họa hàm lấy mẫu lý tưởng: Hình 2.1: Hàm lấy mẫu lý tưởng Kết quả của phép lấy mẫu là: Phổ của các tín hiệu được lấy mẫu 2.1.1.1. Sử dụng lý thuyết của phép biến đổi Fourier, phổ tần số của các tín hiệu liên tục theo thời gian được mô tả như sau: Và dạng sóng của tín hiệu được thể hiện theo phổ của nó như sau: Do biểu thức trên được áp dụng cho tất cả các hàm liên tục theo thời gian x(t) nên nó cũng đúng cho xs(t): Thay xs(t) vào, ta được: 8
Trật tự phép lấy phân tích và phép cộng có thể thay đổi, áp dụng tính chất 1 của hàm lấy mẫu, ta được: Phương trình trên là dạng biểu diễn chính xác hàm X(f) theo chuỗi Fourier. Trong đó, Xs(f) là hàm tuần hoàn theo chu kỳ 1/T. Các hệ số của chuỗi Fourier là x(nT) và chúng được tính bằng tích phân sau: Hai biểu thức (2.8) và (2.9) là cặp biến đổi giữa tín hiệu trên miền thời gian và phổ tần số của nó. Mối quan hệ giữa phổ của tín hiệu rời rạc và phổ của tín hiệu 2.1.1.2. liên tục theo thời gian thời gian Trong biểu thức (2.5), ta thay t = nT và dùng công thức (2.9): Ta viết lại vế phải của phương trình (2.5): 9
m m Đổi biến (thay f = + , df = d ) ta được: =f- T T Đưa tổng vào trong tích phân, và thay vào biểu thức (2.10), ta sẽ rút ra được: 2.1.2. Dãy xung Có duy nhất 1 dãy gọi là dãy xung đơn vị, đây là một dãy quan trọng, và được ký hiệu là u(n). Dãy này mang giá trị 0 tại tất cả các giá trị n, trừ n = 0. Tại n = 0, dãy xung có giá trị bằng 1. Thông thường dãy này được dịch đi m giá trị trước khi sử dụng u(n-m). Dãy u(n) là phần tương ứng của hàm lấy mẫu trong không gian rời rạc. Tính chất của dãy xung cũng tương tự như tính chất của hàm lấy mẫu: 10
Hình 2.2 : Dãy xung 2.1.3. Biến đổi Fourier rời rạc Các tín hiệu hình sin sau khi qua xử lý vẫn đảm bảo cho ra các kết xuất là các tín hiệu hình sin, chỉ có biên độ và pha là có thể thay đổi, còn tần số và hình dạng vẫn giữ nguyên. Tín hiệu trong thế giới thực ở dạng sóng liên tục theo chu kỳ, các sóng này là tổng hợp của các đường hình sin rời rạc có tần số, biên độ khác nhau và pha của tín hiệu hình sin có tần số f tương ứng với một giá trị biểu diễn đặc tính tần số của tín hiệu tại tần số f. Vì vậy, các tín hiệu Fourier có thể dùng để tổng hợp trở lại thành các tín hiệu hình sin ban đầu thông qua biến đổi Fourier (Fourier Transform). Có 4 loại biến đổi Fourier tương ứng với 4 loại tín hiệu: Loại biến đổi Loại tín hiệu Biến đổi Fourier Liên tục không chu kỳ (Fourier Transform) Chuỗi Fourier Liên tục có chu kỳ (Fourier Series) Biến đổi Fourier thời gian rời rạc Rời rạc không chu kỳ (Discrete Time Fourier Transform) Biến đổi Fourier rời rạc Rời rạc có chu kỳ 11
(Discrete Fourier Transform – DFT) Một tín hiệu x(n) có độ dài L hữu hạn được dùng như là một chu kỳ tín hiệu. (Ta có thể xây dựng tín hiệu xp(n) tuần hoàn bằng cách xếp chồng tuần hoàn x(n)). Biến đổi Fourier của x(n): Trong đó X(w) được lấy mẫu tại các điểm w=2 k/N, với L≤N là điều kiện để có thể khôi phục lại x(n) từ X(w) (định lý lấy mẫu Shannon). Do phải xử lý bằng máy tính nên những tín hiệu có độ dài hữu hạn và có trục tần số rời rạc mới có thể thực hiện dễ dàng nên biến đổi Fourier rời rạc là thích hợp nhất. Biến đổi Fourier rời rạc 2.1.3.1. Sau khi lấy mẫu hàm X(w) ta được một chuỗi X(k) chiều dài N, quá trình này là biến đổi Fourier rời rạc X(k) = DFT(x(n)) và được tóm tắt lại như sau: Một số tính chất của biến đổi Fourier rời rạc: - Tính đối xứng X(k) = X(N-k) với k=N/2, …, N-1 - Tính tuyến tính Đặt: X1(k)=DFT(x1(n)) X2(k)=DFT(x2(n)) X(k)=DFT(x(n)) Nếu x(n)=ax1(n)+bx2(n) (a, b là hằng số) thì X(k)=aX1(k)+bX2(k). - Tính dịch vòng 12
DFT(x(n-p))=e-j2 kp/N X(k) với dãy (n-p) được định nghĩa là dịch vòng của x(n). Độ phức tạp của công thức này là O(N2), không hiệu quả vì phải thực hiện một khối lượng tính toán lớn. Người ta thường dùng một phương pháp hiệu quả hơn đó là biến đổi Fourier nhanh (Fast Fourier Transform – FFT). Biến đổi Fourier nhanh 2.1.3.2. Nguyên tắc cơ bản của tất cả các thuật toán FFT là dựa trên việc phân tích cách tính DFT của một dãy N số thành phép tính DFT của các dãy nhỏ hơn (số điểm tính DFT nhỏ hơn). Một trong những thuật toán FFT thông dụng hiện nay là thuật toán FFT cơ số 2 phân chia theo tần số (Radix-2, Decimation-In-Frequency FFT Algorithm). Thuật toán phân chia dựa trên việc phân chia dãy x(n) thành các dãy nhỏ hơn được gọi là thuật toán phân chia theo tần số vì chỉ số n thường được gắn liền với tần số. Ví dụ phân chia theo tần số của FFT 16 điểm được minh họa như sau: 1 tín hiệu 16 2 tín hiệu 4 tín hiệu 8 tín hiệu 16 tín hiệu 1 Độ phức tạp của phương pháp này là O(Nlog2(N)). 2.1.4. Biến đổi cosin rời rạc Với biến đổi fourier, ta sử dụng cả hàm sin và cos để mô tả tín hiệu. Còn với biến đổi cosine, ta chỉ sử dụng hàm cos để mô tả tín hiệu. Cụ thể ta có công thức biến đổi dãy u(n), n=0...(N-1), sau: Ở đây được tính như sau: 1 , 0 N 13
2 với k = 1...(N-1) k N Và công thức biến đổi ngược lại là: 2.1.5. Các bộ lọc Bộ lọc số có vai trò rất quan trọng trong DSP, chúng được dùng với 2 mục đích chính: - Tách các tín hiệu đã bị trộn: Các tín hiệu ban đầu thường chứa đựng các nhiễu hoặc các tín hiệu không mong muốn khác, các nhiễu này sẽ làm giảm đáng kể chất lượng của các phương trình xử lý tín hiệu số do đó cần phải tách riêng các tín hiệu cần thiết ra khỏi các nhiễu. Ví dụ: Âm thanh khi được thu, tín hiệu thường chứa thêm các tiếng ồn của môi trường như tiếng ồ ồ của quạt trần thổi vào micro; các điểm lốm đốm trên những tấm ảnh lâu ngày …. - Khôi phục các tín hiệu méo mó: Có một số trường hợp vì một nguyên nhân nào đó (thường là nguyên nhân liên quan đến thiết bị) sẽ tạo ra các tín hiệu vào bị méo mó. Vì vậy cần phải chỉnh lại để tăng chất lượng chương trình xử lý tín hiệu số. Ví dụ: Các micro cũ, dơ sẽ cho ra các tín hiệu âm thanh không tốt; “con mắt” (forcus len) của các máy quét bị mờ sẽ làm cho các ảnh được quét bị mờ theo …. Trong thực tế kỹ thuật, người ta thường phân biệt hai trường hợp đáp ứng xung: - Hệ có đáp ứng xung hữu hạn (Finite Impulse Response – FIR): hệ có tín hiệu ra chỉ phụ thuộc vào tín hiệu vào nên các hệ này còn được gọi là mạch không truy hồi hay mạch không đệ qui (non-recursive). Nghĩa là có N=0 trong phương trình sai tuyến tính hệ số hằng. Khi đó: 14