intTypePromotion=1
ADSENSE

Đồ án Tốt nghiệp: Áp dụng thuật toán Wiener Filtering nâng cao chất lượng tiếng nói

Chia sẻ: Trạc Thanh | Ngày: | Loại File: PDF | Số trang:59

10
lượt xem
1
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Đồ án xây dựng lưu đồ của thuật toán, thực hiện xử lý tiếng nói bằng các thuật toán đó. Dựa trên các kết quả đạt được sau khi xử lý, sau đó sử dụng các phương pháp đánh giá khách quan để đánh giá tính hiệu quả của các thuật toán xử lý trong môi trường thực tế. Mời các bạn cùng tham khảo nội dung chi tiết.

Chủ đề:
Lưu

Nội dung Text: Đồ án Tốt nghiệp: Áp dụng thuật toán Wiener Filtering nâng cao chất lượng tiếng nói

  1. LỜI CẢM ƠN Sau hơn một tháng nghiên cứu em đã hoàn thành đồ án tốt nghiệp của mình. Tập đồ án này là kết quả của ba năm học tập trường Cao đẳng CNTT Hữu Nghị Việt – Hàn. Em xin gửi lời cảm ơn chân thành nhất đến tất cả các thầy giáo, cô giáo trong khoa CNTT Ứng Dụng, những người đã tận tâm, nhiệt tình giảng dạy trong suốt ba năm qua để em có được những kiến thức cơ bản về ngành học cũng như giúp em hoàn thiện được đồ án tốt nghiệp này. Qua đây em xin gửi lời cảm ơn đến cô Phan Thị Lan Anh người đã tận tình hướng dẫn em trong suốt thời gian thực hiện đồ án. Trong quá trình làm đồ án, mặc dù đã cố gắng hết mình xong khả năng hiểu biết của bản thân còn hạn chế và không tránh khỏi thiếu sót. Rất mong sự góp ý của quý thầy cô và các bạn để đồ án này được hoàn chỉnh hơn. Xin chân thành cảm ơn! Đà Nẵng, tháng 6 năm 2013 Sinh viên thực hiện Võ Công Điễn Trang i
  2. MỤC LỤC LỜI CẢM ƠN ................................................................................................................. i MỤC LỤC ......................................................................................................................ii DANH MỤC CÁC HÌNH VẼ ...................................................................................... vi DANH MỤC BẢNG BIỂU .........................................................................................vii DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG ANH ........ viii MỞ ĐẦU ......................................................................................................................... 1 CHƯƠNG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI ........ 2 1.1 GIỚI THIỆU CHƯƠNG .................................................................................... 2 1.2 NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI LÀ GÌ ? ....................................... 2 1.3 LÝ THUYẾT VỀ TÍN HIỆU VÀ NHIỄU......................................................... 3 1.3.1 Tín hiệu ....................................................................................................... 3 1.3.2 Nguồn tín hiệu ............................................................................................ 4 1.3.3 Hệ thống và xử lý tín hiệu ......................................................................... 4 1.3.4 Phân loại tín hiệu ....................................................................................... 5 1.4 LÝ THUYẾT VỀ NHIỄU ................................................................................... 5 1.4.1 Nguồn nhiễu ............................................................................................... 5 1.4.2 Nhiễu và mức tín hiệu tiếng nói trong các môi trường khác nhau ....... 7 1.5 TÍN HIỆU RỜI RẠC THEO THỜI GIAN ....................................................... 8 1.5.1 Tín hiệu bước nhảy đơn vị ........................................................................ 8 1.5.2 Tín hiệu xung đơn vị .................................................................................. 8 1.5.3 Tín hiệu hàm mũ ........................................................................................ 9 1.5.4 Tín hiệu hàm sin rời rạc ............................................................................ 9 1.6 PHÉP BIẾN ĐỔI FOURIER CỦA TÍN HIỆU RỜI RẠC DTFT .................. 9 1.6.1 Sự hội tụ của phép biến đổi Fourier ........................................................ 9 1.6.2 Quan hệ giữa biến đổi Z và biến đổi Fourier ........................................ 10 1.6.3 Phép biến đổi Fourier ngược .................................................................. 10 Trang ii
  3. 1.6.4 Các tính chất của phép biến đổi Fourier ............................................... 11 1.6.5 Phân tích tần số (phổ) cho tín hiệu rời rạc ............................................ 11 1.6.6 Phổ tín hiệu và phổ pha ........................................................................... 12 1.7 CÁC THUẬT TOÁN SỬ DỤNG NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI ....................................................................................................................... 12 1.7.1 Trừ phổ ..................................................................................................... 12 1.7.2 Mô hình thống kê ..................................................................................... 13 1.8 TÍN HIỆU TIẾNG NÓI .................................................................................... 13 1.9 CƠ CHẾ TẠO TIẾNG NÓI ............................................................................. 14 1.9.1 Bộ máy phát âm của con người .............................................................. 14 1.9.2 Mô hình kỹ thuật của việc tạo tiếng nói ................................................ 14 1.9.3 Phân loại âm ............................................................................................. 15 1.9.4 Thuộc tính âm học của tiếng nói ............................................................ 15 1.10 KẾT LUẬN CHƯƠNG ................................................................................... 15 CHƯƠNG 2: ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI ........................................ 16 2.1 GIỚI THIỆU CHƯƠNG .................................................................................. 16 2.2 PHƯƠNG PHÁP ĐÁNH GIÁ CHỦ QUAN ................................................... 16 2.2.1 Các phương pháp đánh giá tuyệt đối ..................................................... 17 2.2.2 Các phương pháp đánh giá tương đối ................................................... 17 2.2.2.1 Đánh giá bằng phương pháp so sánh các mẫu tín hiệu .............. 17 2.2.2.2 Phương pháp đánh giá theo sự suy giảm chất lượng .................. 18 2.3 PHƯƠNG PHÁP ĐÁNH GIÁ KHÁCH QUAN ............................................. 18 2.3.1 Đo tỷ số tín hiệu trên nhiễu trên từng khung ........................................ 18 2.3.2 Đánh giá mô phỏng theo cảm nhận nghe của con người ..................... 20 2.3.2.1 Phương pháp đo Weighted Spectral Slope .................................... 20 2.3.2.2 Phương pháp đo Bark Distortion .................................................. 21 2.3.2.3 Phương pháp đánh giá cảm nhận chất lượng thoại PESQ ......... 22 Trang iii
  4. 2.4 KẾT LUẬN CHƯƠNG ..................................................................................... 22 CHƯƠNG 3: THUẬT TOÁN WIENER FILTERING ........................................... 23 3.1 GIỚI THIỆU CHƯƠNG .................................................................................. 23 3.2 SƠ ĐỒ KHỐI CỦA WIENER FILTERING .................................................. 23 3.3 THUẬT TOÁN WIENER FILTERING ......................................................... 23 3.3.1 Giới thiệu chung....................................................................................... 23 3.3.2 Nguyên lý cơ bản của Wiener Filtering ................................................. 23 3.4 OVERLAP VÀ ADDING TRONG QUÁ TRÌNH XỬ LÝ TÍN HIỆU TIẾNG NÓI .............................................................................................................. 25 3.4.1 Phân tích tín hiệu theo từng frame ........................................................ 25 3.4.2 Overlap và Adding................................................................................... 26 3.5 ƯỚC LƯỢNG VÀ CẬP NHẬT NHIỄU ......................................................... 27 3.5.1 Voice activity detection ........................................................................... 28 3.5.2 Quá trình ước lượng và cập nhật nhiễu ................................................ 28 3.6 KẾT LUẬN CHƯƠNG ..................................................................................... 28 CHƯƠNG 4: MÔ PHỎNG BẰNG PHẦN MỀM MATLAB .................................. 30 4.1 GIỚI THIỆU CHƯƠNG .................................................................................. 30 4.2 QUY TRÌNH THỰC HIỆN VÀ ĐÁNH GIÁ THUẬT TOÁN ...................... 30 4.3 LƯU ĐỒ THUẬT TOÁN WIENER FILTERING ........................................ 32 4.4 CHƯƠNG TRÌNH MÔ PHỎNG ..................................................................... 33 4.5 CHƯƠNG TRÌNH CHẠY MÔ PHỎNG ........................................................ 39 4.6 THỰC HIỆN THUẬT TOÁN VÀ ĐÁNH GIÁ .............................................. 39 4.6.1 Thực hiện xử lý các file âm thanh bị nhiễu với SNR =5dB ................. 39 4.6.1.1 Nhiễu do tiếng ồn với SNR = 5dB ................................................. 39 4.6.1.2 Nhiễu do người nói xung quanh với SNR =5dB .......................... 40 4.6.1.3 Nhiễu do tiếng xe hơi với SNR =5dB ............................................ 41 4.6.2 Thực hiện xử lý các file âm thanh bị nhiễu với SNR =15dB ............... 43 Trang iv
  5. 4.6.2.1 Nhiễu do người nói xung quanh với SNR =15dB ........................ 43 4.6.2.2 Nhiễu do tiếng xe hơi với SNR =15dB .......................................... 44 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI................................................... 47 TÀI LIỆU THAM KHẢO............................................................................................. x PHỤ LỤC ...................................................................................................................... xi NHÂN XÉT CỦA CÁN BỘ HƯỚNG DẪN ..............................................................xii Trang v
  6. DANH MỤC CÁC HÌNH VẼ Hình 1.1 Tín hiệu tiếng nói. ............................................................................................ 4 Hình 1.2 Dạng và sự phân bố phổ năng lượng trung bình nhiễu trên xe. ....................... 6 Hình 1.3 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trên tàu. ............... 6 Hình 1.4 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trong nhà hàng. ... 7 Hình 1.5 Mức nhiễu và tiếng nói (được đo bằng SPL dB) trong các môi trường khác nhau. ................................................................................................................................ 8 Hình 1.6 Dạng sóng tín hiệu tiếng nói của câu “The wife helped her husband” và dạng sóng của phụ âm “f” trong từ “wife, dạng sóng của đoạn nguyên âm “er” trong từ “her”............................................................................................................................... 13 Hình 1.7 Mặt cắt dọc của cơ quan tạo tiếng nói. .......................................................... 14 Hình 1.8 Mô hình kỹ thuật tạo tiếng nói. ...................................................................... 14 Hình 1.9 Bảng phân loại âm vị trong tiếng Anh của người Mỹ. .................................. 15 Hình 3.1 Sơ đồ khối cho hai thuật toán SS và WF ....................................................... 23 Hình 3.2 Sơ đồ khối của thuật toán Wiener Filtering. .................................................. 25 Hình 3.3 Phân tích tín hiệu thành các frame. ................................................................ 26 Hình 3.4 quá trình thực hiện overlap và adding. .......................................................... 27 Hình 4.1. Sơ đồ thực hiện và đánh giá thuật toán tăng cường ...................................... 30 Hình 4.2 Lưu đồ thuật toán WF .................................................................................... 32 Hình 4.3 dạng sóng của tín hiệu sạch ........................................................................... 39 Hình 4.4 Dạng sóng của tín hiệu bị nhiễu với SNR = 5dB .......................................... 39 Hình 4.5 Dạng sóng của tín hiệu sau khi xử lý nhiễu bằng WF với SNR = 5dB ......... 40 Hình 4.6 dạng sóng của tín hiệu sạch ........................................................................... 40 Hình 4.7 Dạng sóng của tín hiệu bị nhiễu do người nói xung quanh với SNR = 5dB . 41 Hình 4.8 Dạng sóng của tín hiệu sau khi xử lý nhiễu bằng WF với SNR = 5dB ......... 41 Hình 4.9 dạng sóng của tín hiệu sạch ........................................................................... 42 Hình 4.10 Dạng sóng của tín hiệu bị nhiễu do tiếng xe hơi với SNR = 5dB. .............. 42 Hình 4.11 Dạng sóng của tín hiệu sau khi xử lý nhiễu bằng WF với SNR = 5dB. ...... 43 Hình 4.12 dạng sóng của tín hiệu sạch ......................................................................... 43 Hình 4.13 Dạng sóng của tín hiệu bị nhiễu do người nói xung quanh với SNR = 15dB. ....................................................................................................................................... 44 Hình 4.14 Dạng sóng của tín hiệu sau khi xử lý nhiễu bằng WF với SNR = 15dB. .... 44 Hình 4.15 dạng sóng của tín hiệu sạch ......................................................................... 45 Hình 4.16 Dạng sóng của tín hiệu bị nhiễu do tiếng xe hơi với SNR = 15dB. ............ 45 Hình 4.17 Dạng sóng của tín hiệu sau khi xử lý nhiễu bằng WF với SNR = 15dB. .... 46 Trang vi
  7. DANH MỤC BẢNG BIỂU Bảng 2.1.Thang điểm đánh giá chất lượng tiếng nói theo MOS .......................... 17 Bảng 2.2. Thang điểm đánh giá chất lượng tín hiệu tiếng nói theo CCR............. 17 Bảng 2.3. Thang đánh giá DCR ............................................................................ 18 Trang vii
  8. DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG ANH Từ viết Tiếng Anh Nghĩa tiếng Việt tắt SNR Signal Noise Ratio Tỉ số tín hiệu trên nhiễu PC Personal Computer Máy tính cá nhân SPL Sound Pressure Level Mức áp suất của âm thanh Tối thiểu hoá sai lệch trung MMSE Minium Mean-Squared Error bình bình phương SVD Singular Value Decomposition Phép phân tích giá trị đơn DFT Discrete Fourier Transform Phép biến đổi Fourier rời rạc FFT Fast Fourier Transform Phép biến đổi Fourier nhanh Phép biến đổi Fourier của tín DTFT Discrete-Time Fourier Transform hiệu rời rạc. ZT Z Transform Phép biến đổi Z ROC Region of Convergence Miền hội tụ Inverse Discrete Fourier Phép biến đổi ngược Fourier IDTFT Transform rời rạc Hệ thống tuyến tính và bất LTI Linear Time-Invariant biến theo thời gian InternationalTelecommunications Hiệp hội tiêu chuẩn viễn ITU-T Union-Telecommunication thông quốc tế ACR Absolute Categories Rating Đánh giá theo giá trị tuyệt đối Đánh giá theo quan điểm MOS Mean Opinion Scores người nghe CCR Comparison Category Rating Đánh giá bằng cách so sánh DCR Degradation Category Rating Đánh giá suy giảm chất lượng SE Subjective Evaluation Đánh giá chủ quan OE Objective Evaluation Đánh giá khách quan WSS Weighted Spectral Slope Đo theo trọng số của phổ Trang viii
  9. LPC Linear Prediction Coefficients Hệ số dự đoán tuyến tính Thăm dò sự hoạt động của VAD Voice Activity Detection tiếng nói Thuật toán giảm nhiễu tín SS Spectral Subtraction hiệu tiếng nói bằng phương pháp trừ phổ. Thuật toán giảm nhiễu tín WF Wiener Filter hiệu tiếng nói bằng cách sử dụng bộ lọc Wiener. Trang ix
  10. Áp dụng thuật toán Wiener Filtering nâng cao chất lượng tiếng nói. MỞ ĐẦU Kỷ nguyên mới, kỷ nguyên của sự phát triển của các ngành khoa học kỹ thuật đặc biệt là kỹ thuật thông tin. Với sự phát triển của xã hội định hướng thông tin, các dịch vụ thông tin như điện thoại, thông tin số liệu, truyền dẫn hình ảnh, thông tin di động... ngày càng trở nên đa dạng. Tiếng nói đóng một vai trò rất quan trọng . Vì lý do đó mà các thuật toán về Speech Enhancement ra đời. Tuy không thể bảo toàn được y nguyên tín hiệu ban đầu nhưng sử dụng các thuật toán này ta có thể tăng cường được chất lượng tiếng nói và giảm bớt nhiễu nền để tín hiệu sau khi xử lý đến người nghe vẫn mang đầy đủ nội dung thông tin và không gây khó chịu bởi nhiễu đối với người nghe. Vì vậy, Speech Enhancement đóng một vai trò rất quan trọng trong lĩnh vực thoại. Thực tế này em đã bắt tay vào tìm hiểu về Speech Enhancement, nghiên cứu thuật toán Wiener Filtering để thực hiện và đánh giá hiệu quả của thuật toán Wiener Filtering trong môi trường thực tế. Đề tài “Áp dụng thuật toán Wiener Filtering nâng cao chất lượng tiếng nói”. Nội dung của đồ án bao gồm 4 chương: CHƯƠNG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI CHƯƠNG 2 : ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI CHƯƠNG 3: THUẬT TOÁN WIENER FILTERING CHƯƠNG 4: MÔ PHỎNG BẰNG PHẦN MỀM MATLAB Phương pháp nghiên cứu của đồ án là xây dựng lưu đồ của thuật toán, thực hiện xử lý tiếng nói bằng các thuật toán đó. Dựa trên các kết quả đạt được sau khi xử lý, sau đó sử dụng các phương pháp đánh giá khách quan để đánh giá tính hiệu quả của các thuật toán xử lý trong môi trường thực tế. Trong thời gian nghiên cứu và làm bài em đã rất cố gắng, nhưng không thể tránh khỏi những sai sót. Em rất mong được sự góp ý, chỉ bảo của các thầy cô giáo. Em xin chân thành cảm ơn cô Phan Thị Lan Anh đã tận tình giúp đỡ em trong suốt thời gian thực hiện bài báo cáo này. SVTH: Võ Công Điễn_CCVT03A Trang 1
  11. Áp dụng thuật toán Wiener Filtering nâng cao chất lượng tiếng nói. CHƯƠNG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI 1.1 GIỚI THIỆU CHƯƠNG Nội dung của chương trình bày mục đích của nâng cao chất lượng tiếng nói là gì, các loại nhiễu trong tiếng nói, cách hình thành của tiếng nói và các đặc điểm cuả tín hiệu tiếng nói. Chương này còn giới thiệu khái quát về các thuật toán sử dụng trong speech enhancement. 1.2 NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI LÀ GÌ ? Nâng cao chất lượng tiếng nói liên quan đến việc cải thiện cảm nhận đối với tiếng nói bị suy giảm chất lượng do sự có mặt của nhiễu trong tiếng nói. Trong hầu hết các ứng dụng, thì mục đích của nâng cao chất lượng tiếng nói là sự cải thiện chất lượng và tính dễ nghe của tiếng nói đã bị suy giảm do nhiễu. Sự cải thiện về chất lượng mà tốt thì nó làm giảm đi sự khó khăn cho người nghe khi nghe và trong nhiều trường hợp nó còn giúp cho người nghe có thể nghe trong môi trường có nhiễu với mức độ cao và nhiễu đó tồn tại trong thời gian dài. Các thuật toán âng cao chất lượng tiếng nói làm giảm và nén nhiễu nền đến một mức độ nào đó và nó được xem như là các thuật toán nén nhiễu. Trong nhiều trường hợp, sự cần thiết của việc tăng cường trong tín hiệu tiếng nói xuất hiện khi tín hiệu tiếng nói hình thành trong vùng có nhiễu hoặc ảnh hưởng bởi nhiễu trong các kênh truyền thông. Có rất nhiều kịch bản yêu cầu đặt ra đối với Speech enhancement trong nhiều trường hợp khác nhau, ví dụ đối với thông tin thoại, trên các hệ thống điện thoại tế bào thì chịu sự ảnh hưởng nhiễu nền từ ô tô, nhà hàng,.. khi truyền đến đích. Chính vì vậy mà các thuật toán trong nâng cao chất lượng tiếng nói có thể được sử dụng để cải thiện chất lượng của tiếng nói tại điểm thu, mặt khác, nó có thể được sử dụng trong các khối tiền xử lý của hệ thống mã hoá tiếng nói dùng trong các điện thoại tế bào chuẩn. Khi nhận dạng tiếng nói, tiếng nói bị nhiễu được tiền xử lý bởi các thuật toán nâng cao chất lượng trước khi được nhận dạng. Trong thông tin liên lạc hàng không, các kỹ thuật nâng cao tiếng nói cần được sử dụng để cải thiện chất lượng và tính dễ nghe của tiếng nói của phi công bị ảnh hưởng bởi nhiễu trong buồng lái. Vì vậy mà nâng cao chất lượng tiếng nói cũng rất cần thiết trong thông tin liên lạc của quân sự. Trong hệ thống hội nghị qua thoại, thì nguồn nhiễu xuất hiện ở một vùng SVTH: Võ Công Điễn_CCVT03A Trang 2
  12. Áp dụng thuật toán Wiener Filtering nâng cao chất lượng tiếng nói. nào đó thì nó sẽ được truyền đến tất cả các vùng khác. Các thuật toán nâng cao chất lượng tiếng nói được sử dụng như tiền xử lý hoặc làm sạch nhiễu trong tiếng trước khi được khuếch đại. Như các ví dụ minh họa ở trên thì mục tiêu của các thuật toán tăng cường tuỳ thuộc vào các ứng dụng mà chúng ta đang dùng. Xét trên phương diện lý tưởng, thì chúng ta mong muốn Speech enhancement cải thiện được cả chất lượng và tính dễ nghe hay sự trong suốt của tiếng nói. Tuy nhiên, xét trên phương diện thực tế thì các thuật toán Speech enhancement chỉ có thể cải thiện được chất lượng của tiếng nói. Nó có thể làm giảm được nhiễu nền trong tiếng nói nhưng nó sẽ làm gia tăng thêm độ méo của tín hiệu tiếng nói, chính điều này làm giảm đi tính dễ nghe của tiếng nói. Do đó, yêu cầu chính trong việc thiết kế một thuật toán Speech enhancement phải đảm bảo nén được nhiễu và không được gây ra méo trong sự cảm nhận tín hiệu tiếng nói. Giải pháp tổng quát trong các vẩn đề của Speech enhancement phụ thuộc rất lớn vào ứng dụng chúng ta cần sử dụng, đó là các vần đề như là nguồn nhiễu và giao thoa gây ra nhiễu, mối liên hệ giữa nhiễu và tín hiệu sạch, số microphone và cảm biến có thể có. Sự giao thoa có thể xem như là nhiễu hoặc được xem như tín hiệu tiếng nói, nó tuỳ thuộc vào môi trường ta đang xét, nó có thể được xem như là sự tranh chấp giữa các speaker. Đặc tính âm nhiễu có thể được cộng thêm vào tín hiệu sạch nếu âm thanh được hình thành trong căn phòng bị dội âm thanh. Hơn nữa, nhiễu có thể có tính tương quan hoặc không tương quan về mặt thống kê với tín hiệu sạch. Số lượng microphone cũng có khả năng ảnh hưởng đến tính hiệu quả của các thuật toán Speech enhancement. 1.3 LÝ THUYẾT VỀ TÍN HIỆU VÀ NHIỄU 1.3.1 Tín hiệu Tín hiệu(signal) dùng để chỉ một đại lượng vật lý mang tin tức. Về mặt toán học, ta có thể mô tả tín hiệu như một hàm theo biến thời gian, không gian hay các biến độc lập khác. Chẳng hạn như, hàm: x(t) = 20t2 mô tả tín hiệu biến thiên theo biến thời gian t. Hay một ví dụ khác, hàm: s(x,y) = 3x + 5xy + y2 mô tả tín hiệu là hàm theo hai biến độc lập x và y, trong đó x và y biểu diễn cho hai tọa độ trong mặt phẳng. Hai tín hiệu trong ví dụ trên về lớp tín hiệu được biểu diễn chính xác bằng hàm theo biến độc lập. Tuy nhiên, trong thực tế, các mối quan hệ giưa các đại lượng vật lý và các biến độc lập thường rất phức tạp nên không thể biểu diễn tín hiệu như trong hai ví dụ vừa nêu trên. SVTH: Võ Công Điễn_CCVT03A Trang 3
  13. Áp dụng thuật toán Wiener Filtering nâng cao chất lượng tiếng nói. Hình 1.1 Tín hiệu tiếng nói. Lấy ví dụ tín hiệu tiếng nói – đó là sự biến thiên của áp suất không khí theo thời gian. Chẳng hạn khi ta phát âm từ “away”, dạng sóng của nó được biểu diễn như hình trên. 1.3.2 Nguồn tín hiệu Tất cả các tín hiệu đều do một nguồn nào đó tạo ra, theo một cách thức nào đó. Ví dụ tín hiệu tiếng nói được tạo ra băngg cách ép không khí đi qua dây thanh âm. Một bức ảnh có được bằng cách phơi sáng một tấm phim chụp một cảnh/đối tượng nào đó. Quá trình tạo tín hiệu như vậy thường liên quan đến một hệ thống, hệ thống này đáp ứng lại một kích thích nào đó. Trong tín hiệu tiếng nói, hệ thống là hệ thống phát âm, gồm môi, răng, lưỡi, dây thanh…Kích thích liên quan đến hệ thống được gọi là nguồn tín hiệu. Như vậy ta có nguồn tiếng nói, nguồn ảnh và các nguồn tín hiệu khác. 1.3.3 Hệ thống và xử lý tín hiệu Hệ thống là một thiết bị vật lý thực hiện một tác động nào đó lên tín hiệu. Ví dụ, bộ lọc dùng để giảm nhiễu trong tín hiệu mang tin được gọi là một hệ thống. Khi ta truyền tín hiệu qua một hệ thống, như bộ lọc chẳng hạn, ta nói rằng đã xử lý tín hiệu đó. Trong trường này, xử lý tín hiệu liên quan đến lọc nhiễu ra khỏi tín hiệu mong muốn. Xử lý tín hiệu là ý muốn nói đến một loạt các công việc hay các phép toán được thực hiện trên các tín hiệu nhằm đạt mục đích nào đó, như là tách tin tức chứa bên trong tín hiệu hoặc là truyền tín hiệu mang tin từ nơi này đến nơi khác. Ở đây ta cần lưu ý đến định nghĩa hệ thống, nó không chỉ đơn thuần là thiết bị vật lý mà còn là phần mềm xử lý tín hiệu hoặc là sự kết hợp giữa phần cứng và phần mềm. Ví dụ khi xử lý số tín hiệu bằng mạch logic, hệ thống xử lý ở đây là phần cứng. SVTH: Võ Công Điễn_CCVT03A Trang 4
  14. Áp dụng thuật toán Wiener Filtering nâng cao chất lượng tiếng nói. Khi xử lý bằng máy tính số, tác động lên tín hiệu bao gồm một loạt các phép toán thực hiện bởi chương trình phần mềm. Khi xử lý bằng các bộ vi xử lý-hệ thống bao gồm kết hợp cả phần cứng và phần mềm, mỗi phần thực hiện các công việc riêng nào đó. 1.3.4 Phân loại tín hiệu Các phương pháp ta sử dụng trong xử lý tín hiệu phụ thuộc chặt chẽ vào đặc điểm của tín hiệu. Có những phương pháp riêng áp dụng cho một loại tín hiệu nào đó. Do vậy, trước tiên ta cần xem qua cách phân loại tín hiệu liên quan đến những ứng dụng cụ thể. Chúng ta có thể phân tín hiệu thành các loại : - Tín hiệu nhiều hướng và tín hiệu đa kênh. - Tín hiệu liên tục và tín hiệu rời rạc. - Tín hiệu biên độ liên tục và tín hiệu biên độ rời rạc. - Tín hiệu xác định và tín hiệu ngẫu nhiên. 1.4 LÝ THUYẾT VỀ NHIỄU 1.4.1 Nguồn nhiễu Nhiễu một hiện thực, nó tồn tại ở mọi nơi, trên đường phố, trên xe, trong văn phòng, trong nhà hàng, trong các toà nhà. Nó có thể là tiếng xe chạy trên đường, tiếng ồn trên các công trường xây dựng, tiếng ồn phát ra từ các quạt chạy trong PC, chuông điện thoại…, nó tồn tại với các hình dạng và hình thức khác nhau trong cuộc sống hằng ngày của chúng ta. Nhiễu có thể hình thành ở một nơi cố định, và không thay đổi theo thời gian, ví dụ như là tiếng ồn phát ra từ quạt chạy trong PC. Nhiễu cũng có thể không đứng yên một chỗ, ví dụ như nhiễu trong nhà hàng, đó là tiếng nói của nhiều người xen lẫn với nhiều cách khác nhau với tiếng ồn phát ra từ nhà bếp. Các đặc tính về phổ cũng như thời gian của nhiễu trong nhà hàng thay đổi không theo quy luật nên việc nén nhiễu trong các môi trường có nhiễu thay đổi như vậy sẽ khó khăn hơn nhiều so với các nguồn nhiễu đứng yên không thay đổi. Các đặc tính đặc biệt khác nhau của các loại nhiễu đó là hình dạng của phổ và sự phân bố của năng lượng nhiễu trong miền tần số. Ví dụ, nhiễu gây ra bởi gió thì năng lượng của nó tập trung ở tần số thấp dưới 500Hz. Nhưng đối với nhiễu trong nhà hàng, trên xe, trên tàu thì khác, năng lượng của nó được phân bố trên một dải tần số rộng. SVTH: Võ Công Điễn_CCVT03A Trang 5
  15. Áp dụng thuật toán Wiener Filtering nâng cao chất lượng tiếng nói. Hình 1.2 Dạng và sự phân bố phổ năng lượng trung bình nhiễu trên xe. Hình 1.3 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trên tàu. SVTH: Võ Công Điễn_CCVT03A Trang 6
  16. Áp dụng thuật toán Wiener Filtering nâng cao chất lượng tiếng nói. Hình 1.4 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trong nhà hàng. 1.4.2 Nhiễu và mức tín hiệu tiếng nói trong các môi trường khác nhau Điểm tới hạn trong việc thiết kế các thuật toán của Speech enhancement là sự nhận biết dải biến thiên của tiếng nói và mức độ cường độ nhiễu trong môi trường thực tế. Từ đó, chúng ta có thể mô tả miền biến thiên của mức độ tỷ số tín hiệu trên nhiễu(SNR) được bắt gặp trong môi trường thực tế. Điều này rất quan trọng để đánh giá tính hiệu quả của các thuật toán Speech enhancement trong việc nén nhiễu và cải thiện chất lượng của tiếng nói trong dải biến thiên của mức SNR. Mức độ của tiếng nói và nhiễu được đo lường bằng mức độ âm thanh. Phép đo lường ở đây là đo mức độ áp suất của âm thanh tính bằng dB SPL(sound pressure level). Khoảng cách giữa người nói và người nghe cũng ảnh hưởng đến mức cường độ âm thanh, nó tương ứng với phép đo được thực hiện khi microphone được đặt tại những vị trí có khoảng cách khác nhau. Khoảng cách đặc trưng trong giao tiếp face-to- face là 1m, khi khoảng cách đó tăng gấp đôi thì mức cường độ âm giảm đi 6 dB. Hình bên dưới này là sự tổng hợp về mức độ âm trung bình giữa tiếng nói và nhiễu trong các môi trường khác nhau. Mức độ của nhiễu nhỏ nhất ở trong các môi trường như phòng học, trong nhà ở, trong bệnh viện và trong các toà nhà. Trong các môi trường khác nhau, thì mức độ âm của nhiễu nằm trong phạm vi biến thiên từ 50 đến 55 dB SPL, và mức độ âm của tiếng nói là 60 đến 70 dB SPL. Và khuyến nghị đưa SVTH: Võ Công Điễn_CCVT03A Trang 7
  17. Áp dụng thuật toán Wiener Filtering nâng cao chất lượng tiếng nói. ra là mức tỷ số SNR có hiệu quả trong các môi trường này là 5 đến 15 dB. Mức độ âm của nhiễu rất cao trong các môi trường ở tàu điện ngầm, ở trên máy bay, nó đạt khoảng 70 đến 75 dB SPL. Và mức độ âm của tiếng nói trong các môi trường này cũng đạt mức đó, nên mức tỷ số SNR trong các môi trường này gần như là 0 dB. Hình 1.5 Mức nhiễu và tiếng nói (được đo bằng SPL dB) trong các môi trường khác nhau. 1.5 TÍN HIỆU RỜI RẠC THEO THỜI GIAN Tín hiệu rời rạc theo thời gian x(n) có thể tạo ra bằng cách lấy mẫu tín hiệu liên tục theo thời gian xa(t) với chu kỳ lấy mẫu là Ts (tần số lấy mẫu Fs = 1/ T). Ta có xa(t)|t=nT = xa(nT) = x(n) , -∞ < n< ∞ (1.1) Lưu ý n là biến nguyên, x(n) là hàm theo biến nguyên, chỉ định tại các giá trị n nguyên. Khi n không nguyên, thì x(n) không xác định, chứ không phải bằng 0. Trong nhiều sách về xử lý tín hiệu số, người ta quy ước: khi biến nguyên thì biến được đặt trong dấu ngoặc vuông và khi biến liên tục thì được đặt trong dấu ngoặc tròn. Từ đây trở đi, ta ký hiệu tín hiệu rời rạc là: x[n]. Một số tín hiệu rời rạc cơ bản: 1.5.1 Tín hiệu bước nhảy đơn vị 1, n  0 u[n] =  (1.2) 2, n  0 Tín hiệu bước nhảy dịch chuyển có dạng sau: 1, n  no u[n - no] =  (1.3) 0, n  no 1.5.2 Tín hiệu xung đơn vị 1, n  0  [n] (1.4) 0, n  0 SVTH: Võ Công Điễn_CCVT03A Trang 8
  18. Áp dụng thuật toán Wiener Filtering nâng cao chất lượng tiếng nói. Tín hiệu xung dịch chuyển có dạng sau 1, n  no  [n no]   (1.5) 0, n  no Chúng ta có thể biểu diễn tín hiệu rời rạc theo thời gian x[n] thông qua tín hiệu xung đơn vị như sau  x[n] =  x[k ] [n  k ] k   (1.6) 1.5.3 Tín hiệu hàm mũ x[n] = C.an (C,a : là những hằng số) (1.7) Tín hiệu hàm mũ phía phải : x[n] = C.an.u[n] Tín hiệu hàm mũ phía trái : x[n] = C.an.u[-n] 1.5.4 Tín hiệu hàm sin rời rạc x[n]  A cos( 2fn   )   n   (1.8) A : là biên độ của tín hiệu sin  : pha ban đầu của tín hiệu sin F f : tần số số, f = , F : là tần số của tín hiệu, Fs : tần số lấy mẫu Fs -0.5 < f < 0.5 1.6 PHÉP BIẾN ĐỔI FOURIER CỦA TÍN HIỆU RỜI RẠC DTFT Phép biến đổi này áp dụng để phân tích cho cả tín hiệu và hệ thống. Nó được dùng trong trường hợp dãy rời rạc dài vô hạn và không tuần hoàn.  DTFT : X ()   x[n]e n    jn (1.9) Ta nhận xét thấy rằng tuy tín hiệu rời rạc trong miền thời gian nhưng DTFT lại liên tục và tuần hoàn trong miền tần số. DTFT chính là hàm phức theo biến tần số thực. Ta gọi DTFT là phổ phức (complex spectrum) hay ngắn gọn là phổ của tín hiệu rời rạc x[n]. 1.6.1 Sự hội tụ của phép biến đổi Fourier Không phải là tất cả DTFT đều tồn tại (hội tụ) vì DTFT chỉ hội tụ khi   x[n]e n    jn  (1.10) SVTH: Võ Công Điễn_CCVT03A Trang 9
  19. Áp dụng thuật toán Wiener Filtering nâng cao chất lượng tiếng nói.    x[n]e  jn  n    x[n]e n    jn   Ta luôn luôn có :  x[n]e  jn  n    | x[n] || e n    jn | (1.11)    x[n]e  jn  n    | x[n] | n    Như vậy, nếu x[n] thoả điều kiện  | x[n] | <  thì biến đổi Fourier hội tụ. n   1.6.2 Quan hệ giữa biến đổi Z và biến đổi Fourier  Biểu thức tính ZT là: X ( z)   x[n]z n   n (1.12) Giả sử ROC có chứa đường tròn đơn vị. Tính X(Z) trên đường tròn đơn vị, ta được  X ( z) z e j   x[n]e  jn  X () (1.13) n   Như vậy, biến đổi Fourier chính là biến đổi Z tính trên đường tròn đơn vị. Dựa vào đây, ta có thể phát biểu lại điều kiện tồn tại của DTFT như sau : Biến đổi Fourier của một tín hiệu chỉ tồn tại khi ROC của biến Z của tín hiệu đó có chứa đường tròn đơn vị. 1.6.3 Phép biến đổi Fourier ngược - Biểu thức tính biến đổi Fourier ngược Ta thấy X(  ) là một hàm tuần hoàn với chu kỳ 2 , do e j tuần hoàn với chu kỳ 2 e j   e j (   2  )  e j  e j 2   e j (1.14) Do đó dải tần số của tín hiệu rời rạc là một dải tần bất kỳ rộng 2  , thường chọn là: ( ,  ) hay (0,2  ). Vậy ta có thể khai triển X(  ) thành chuỗi Fourier trong khoảng (   ,  ) hay (0,2 ) nếu điều kiện tồn tại của X(  ) thoả mãn. Các hệ số Fourier là x[n], ta có thể tính được x[n] từ X(  ) theo cách sau: 1 jl Nhân 2 vế của biểu thức DTFT với e rồi lấy tích phân trong khoảng 2 (   ,  ) tacó SVTH: Võ Công Điễn_CCVT03A Trang 10
  20. Áp dụng thuật toán Wiener Filtering nâng cao chất lượng tiếng nói.    1 1    jn  jl   1  2  X ()e d  jl 2    x[ n ]e  e d   x[ n ]  e j ( l  n ) d   x[l ]    n    n    2  (1.15) Thay l = n và thay cận tích phân, không nhất thiết phải là (   ,  ) mà chỉ cần khoảng giữa cân trên và dưới là 2  , ta được biểu thức tính biến đổi Fourier ngược (IDTFT) như sau: 1  X ()e j n x[n]  d (1.16) 2 2 Ta có thể tính IDFT bằng hai cách : một là tính trực tiếp tích phân trên, hai là chuyển về biến đổi Z rồi tính như biến đổi Z ngược. Tuỳ vào từng trường hợp cụ thể mà ta chọn phương pháp nào cho thuận tiện. 1.6.4 Các tính chất của phép biến đổi Fourier Tính tuyến tính ax1[n]  bx2 [n]  aX1 ()  bX 2 () (1.17) Tính dịch thời gian xn  X   (1.18) xn  n0   e  jn0 X   Qua đây ta thấy sự dịch chuyển tín hiệu trong miền thời gian sẽ không ảnh hưởng biên độ của DTFT, tuy nhiên pha được thêm một lượng. Tính dịch tần số / điều chế x[n]  X () j 0 n e x[n]  X (   0 ) (1.18) 1 1 cos(  0 n) x[n]  x (   0 )  X (   0 ) 2 2 Như vây, việc điều chế gây ra dịch tần số. Tính chập thời gian Tương tự như biến đổi Z, với biến đổi Fourier ta cũng có: x1[n] * x2 [n]  F X 1 () X 2 () (1.19) 1 Tính nhân thời gian x1[n].x2 [n]  2  X ( ) X 2 1 2 (   )d (1.20) 1.6.5 Phân tích tần số (phổ) cho tín hiệu rời rạc Trong miền tần số, mỗi tín hiệu đều có một đặc điểm riêng của nó. Ví dụ như, tín hiệu sin chỉ có duy nhất một tần số đơn, trong khi nhiễu trắng chứa tất cả các thành phần tần số. Sự biến thiên chậm của tín hiệu là do tần số thấp, trong khi sự biến thiến SVTH: Võ Công Điễn_CCVT03A Trang 11
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2