intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Đồ án: "Tìm hiểu về Speech Enhancement"

Chia sẻ: Le Nguyen Chinh | Ngày: | Loại File: DOC | Số trang:75

75
lượt xem
10
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Trong cuộc sống, tiếng nói đóng một vai trò rất quan trọng đối với con người. Cùng với tiếng nói là sự xuất hiện của rất nhiều các loại dịch vụ thoại như ngày.

Chủ đề:
Lưu

Nội dung Text: Đồ án: "Tìm hiểu về Speech Enhancement"

  1. Đồ án tốt nghiệp Luận văn Đề tài: "Tìm hiểu về Speech Enhancement" SVTH: Nguyễn Thị Ngọ c Diệp Trang 1
  2. Đồ án tốt nghiệp CỘNG HÒA XÃ HỘ I CH Ủ NGHĨA VIỆT NAM Độ c lập – Tự do – Hạnh phúc LỜI CAM ĐOAN Kính g ửi: Hộ i đồng b ảo vệ đồ án tố t nghiệp Khoa Điện tử _ Viễn thông _ Trường Đại họ c Bách Khoa Đà Nẵng. Nguyễn Thị Ngọc Diệp Em tên là: Hiện đang học lớp 04ĐT1- Khoa: Điện tử - Viễn thông – Trường: Đại học Bách Khoa Đà Nẵng. Nhóm em xin cam đoan nội dung của đồ án này không phải là bản sao chép của bất cứ đồ án ho ặc công trình đã có từ trước. Sinh viên thực hiện Nguyễn Th ị Ngọc Diệp SVTH: Nguyễn Thị Ngọ c Diệp Trang 2
  3. Đồ án tốt nghiệp MỤC LỤC LỜI CAM ĐOAN................................................................ ................................ 2 MỤC LỤC .......................................................................................................... 3 DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG ANH ........9 MỞ ĐẦU ................................ ................................ .......................................... 11 CHƯƠNG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯ ỢNG TIẾNG NÓI ... 14 Giới thiệu ch ương.............................................................................. 14 1.1 Nâng cao chất lượng tiếng nói là gì ?................................ ................. 14 1.2 Lý thuyết về tín hiệu và nhiễu ........................................................... 16 1.3 Tín hiệu, hệ thống và xử lý tín hiệu ................................................. 16 1.3.1 1.3.1.1 Tín hiệu............................................................................................ 16 1.3.1.2 Nguồn tín hiệu ................................ ................................ ................. 16 1.3.1.3 Hệ thống và xử lý tín hiệu ................................................................ 17 1.3.1.4 Phân lo ại tín hiệu ............................................................................. 17 Lý thuyết về nhiễu ............................................................................. 18 1.4 Nguồn nhiễu ................................................................................... 18 1.4.1 Nhiễu và mứ c tín hiệu tiếng nói trong các môi trường khác nhau .... 20 1.4.2 Tín hiệu rời rạc theo th ời gian ........................................................... 21 1.5 Tín hiệu bước nhảy đ ơn vị .............................................................. 22 1.5.1 Tín hiệu xung đơn vị ....................................................................... 22 1.5.2 Tín hiệu hàm m ũ ............................................................................. 22 1.5.3 Tín hiệu hàm sin rời rạc .................................................................. 22 1.5.4 Phép biến đổ i Fourier củ a tín hiệu rời rạc DTFT................................ 23 1.6 Sự hội tụ củ a phép biến đổ i Fourier................................................. 23 1.6.1 SVTH: Nguyễn Thị Ngọ c Diệp Trang 3
  4. Đồ án tốt nghiệp Quan hệ giữa biến đổ i Z và biến đổ i Fourier ................................... 23 1.6.2 Phép biến đổ i Fourier ngược ........................................................... 24 1.6.3 Các tính ch ất của phép biến đổi Fourier ................................ .......... 24 1.6.4 Phân tích tần số (phổ) cho tín hiệu rời rạc ....................................... 25 1.6.5 Phổ tín hiệu và phổ pha ................................ ................................... 26 1.6.6 Các thu ật toán sử dụng nâng cao chất lượng tiếng nói ....................... 27 1.7 Trừ phổ ........................................................................................... 27 1.7.1 Mô hình thống kê ............................................................................ 27 1.7.2 Tín hiệu tiếng nói .............................................................................. 27 1.8 Cơ chế tạo tiếng nói................................................................ ........... 29 1.9 1.9.1.1 Bộ máy phát âm của con người ................................ ........................ 29 Mô hình kỹ thuật của việc tạo tiếng nói ........................................... 29 1.9.2 Phân lo ại âm ................................................................................... 30 1.9.3 Thuộ c tính âm học của tiếng nói ..................................................... 30 1.9.4 Kết lu ận chương ................................ ................................................ 30 1.10 CHƯƠNG 2 : ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI .................................. 31 Giới thiệu ch ương.............................................................................. 31 2.1 Phương pháp đánh giá chủ quan ................................ ........................ 31 2.2 Các phương pháp đánh giá tuyệt đối ............................................... 32 2.2.1 2.2.1.1 Phương pháp đánh giá tuyệt đối ACR .............................................. 32 Các phương pháp đánh giá tương đối .............................................. 32 2.2.2 2.2.2.1 Đánh giá bằng phương pháp so sánh các m ẫu tín hiệu ...................... 32 2.2.2.2 Phương pháp đánh giá theo sự suy giảm ch ất lượng ......................... 33 Phương pháp đánh giá khách quan .................................................... 34 2.3 SVTH: Nguyễn Thị Ngọ c Diệp Trang 4
  5. Đồ án tốt nghiệp Đo tỷ số tín hiệu trên nhiễu trên từng khung................................ .... 34 2.3.1 Đo khoảng cách phổ dự a trên LPC .................................................. 36 2.3.2 2.3.2.1 Phương pháp đo LLR ....................................................................... 36 2.3.2.2 Phương pháp đo IS ................................................................ ........... 37 2.3.2.3 Phương pháp đo theo khoảng cách cepstrum .................................... 37 Đánh giá mô ph ỏng theo cảm nhận nghe của con người .................. 38 2.3.3 2.3.3.1 Phương pháp đo Weighted Spectral Slope ........................................ 38 2.3.3.2 Phương pháp đo Bark Distortion ...................................................... 39 2.3.3.3 Phương pháp đánh giá cảm nhận chất lượng thoại PESQ ................. 40 Kết lu ận chương ................................ ................................................ 40 2.4 CHƯƠNG 3: THUẬT TOÁN SPECTRAL– SUBTRACTION VÀ WIENER FILTERING ...................................................................................................... 42 Giới thiệu ch ương.............................................................................. 42 3.1 Sơ đồ khối chung củ a Spectral Subtraction và Wiener Filtering......... 42 3.2 Thuật toán Spectral Subtraction ......................................................... 42 3.3 Giới thiệu chung ............................................................................. 42 3.3.1 Spectral subtraction đố i với phổ biên độ................................ .......... 43 3.3.2 Spectral subtraction đố i với phổ công suất ...................................... 44 3.3.3 Thuật toán Wiener Filtering............................................................... 46 3.4 Giới thiệu chung ............................................................................. 46 3.4.1 Nguyên lý cơ bản của Wiener Filtering ........................................... 47 3.4.2 Overlap và Adding trong quá trình xử lý tín hiệu tiếng nói ................ 49 3.5 Phân tích tín hiệu theo từng frame ................................................... 49 3.5.1 3.5.2 Overlap và Adding ................................................................ .......... 50 SVTH: Nguyễn Thị Ngọ c Diệp Trang 5
  6. Đồ án tốt nghiệp Ước lượng và cập nhật nhiễu ............................................................. 51 3.6 3.6.1 Voice activity detection................................ ................................... 52 Quá trình ư ớc lượng và cập nh ật nhiễu ............................................ 52 3.6.2 Kết lu ận chương ................................ ................................................ 53 3.7 CHƯƠNG 4: THỰC HIỆN VÀ ĐÁNH GIÁ CÁC THUẬT TOÁN .................. 54 Giới thiệu ch ương.............................................................................. 54 4.1 Quy trình thực hiện và đánh giá thuật toán ........................................ 54 4.2 Lưu đồ thuật toán Spectral Subtraction .............................................. 56 4.3 Lưu đồ thuật toán Wiener Filtering .................................................... 57 4.4 Thực hiện thuật toán ................................ .......................................... 58 4.5 Đánh giá chất lượng tiếng nói đã đ ược xử lý ................................ ..... 60 4.6 Cơ sở dữ liệu cho việc đánh giá ................................ ...................... 60 4.6.1 Tổng quan về quy trình đ ánh giá ..................................................... 60 4.6.2 Kiểm tra độ tin cậy củ a các phương pháp đánh giá .......................... 61 4.6.3 Thực hiện đánh giá................................................................ .......... 63 4.6.4 4.6.4.1 Đánh giá thu ật toán với các hệ số dự đoán ban đầu .......................... 63 4.6.4.2 Tối ưu hệ số alpha cho thuật toán WF .............................................. 66 4.6.4.3 Hệ số gamma cho thuật toán SS ................................ ....................... 68 4.6.4.4 Đánh giá thu ật toán sau khi đã tố i ưu ............................................... 69 4.6.4.5 Đánh giá độ ổn định của thu ật toán trong môi trường nhiễu khác ..... 70 Kết luận chương .............................................................................. 72 4.6.5 TÀI LIỆU THAM KHẢO ............................................................................. 73 KẾT LUẬN ĐỒ ÁN VÀ HƯ ỚNG PHÁT TRIỂN ĐỀ TÀI ............................... 76 PHỤ LỤC................................ ................................ .......................................... 77 SVTH: Nguyễn Thị Ngọ c Diệp Trang 6
  7. Đồ án tốt nghiệp DANH MỤC CÁC HÌNH VẼ VÀ BẢ NG H ình 1.1 Tín hiệu tiếng nói [2]. ......................................................................... 16 H ình 1.2 Dạng và sự phân bố phổ năng lượng trung bình nhiễu trên xe [4]. ...... 19 H ình 1.3 Dạng và sự phân bố phổ năng lư ợng trung bình của nhiễu trên tàu [4]. .......................................................................................................................... 19 H ình 1.4 Dạng và sự phân bố phổ năng lượng trung bình củ a nhiễu trong nhà h àng[4]. ............................................................................................................. 20 H ình 1.5 Mức nhiễu và tiếng nói (được đo bằng SPL dB) trong các môi trường khác nhau [4]. ................................................................ .................................... 21 H ình 1.6 Mẫu tiếng nói “eee” đ ược lấy m ẫu với tần số lấy mẫu 8kHz [11]. ...... 26 H ình 1.7 Dạng sóng tín hiệu tiếng n ói của câu “The wife helped her husband” và d ạng sóng của phụ âm “f” trong từ “wife, dạng sóng của đoạn nguyên âm “er” trong từ “her” [11]. ............................................................................................ 28 H ình 1.8 mặt cắt dọc củ a cơ quan tạo tiếng nói [11]. ......................................... 29 H ình 1.9 mô hình kỹ thu ật tạo tiếng nói[11]. ..................................................... 29 H ình 1.10 bảng phân loại âm vị trong tiếng Anh của người Mỹ [11] ................. 30 Bảng 2.1.Thang điểm đánh giá chất lượng tiếng nói theo MOS [12] .................. 32 Bảng 2.4. Thang điểm đánh giá chất lượng tín hiệu tiếng nói theo CCR ............ 33 Bảng 2.5. Thang đánh giá DCR ......................................................................... 33 H ình 3.1 Sơ đồ khối cho hai thuật toán SS và WF ............................................. 42 H ình 3.2 Sơ đồ khối của thuật toán Spectral subtraction [26]. ........................... 46 H ình 3.3 Sơ đồ khối của thuật toán Wiener Filtering......................................... 49 H ình 3.4 Phân tích tín hiệu thành các frame [31]............................................... 50 H ình 3.5 quá trình thự c hiện overlap và adding [32]. ........................................ 51 H ình 4.1. Sơ đồ thực hiện và đánh giá thuật toán tăng cường ............................ 54 H ình 4.2 Lưu đồ thuật toán SS ................................ .......................................... 56 H ình 4.3 Lưu đồ thuật toán WF ........................................................................ 57 H ình 4.4 dạng sóng và spectrogram của tín hiệu sạch ....................................... 58 H ình 4.5 Dạng sóng và phổ của tín hiệu bị nhiễu xe hơi với SNR = 10dB......... 58 SVTH: Nguyễn Thị Ngọ c Diệp Trang 7
  8. Đồ án tốt nghiệp H ình 4.6 Dạng sóng và spectrogram của tín hiệu sau khi xử lý nhiễu xe h ơi bằng SS với SNR = 10dB........................................................................................... 59 H ình 4.7 Dạng sóng và spectrogram của tín hiệu sau khi xử lý nhiễu xe h ơi bằng WF với SNR = 10dB. ................................................................ ........................ 59 H ình 4.8 Quy trình thực hiện đánh giá ................................ .............................. 61 H ình 4.9. Đồ thị kiểm tra độ ổn định của đánh giá OE đố i với nhiễu xe hơi ...... 62 H ình 4.10. Đồ thị kiểm tra độ ổn định của đánh giá OE đ ối với nhiễu người nói xung quanh ........................................................................................................ 62 H ình 4.11 Đồ thị đánh giá Objective với h ệ số IS=0.2, NoiseMargin=3 ............ 64 H ình 4.12 Đồ thị đánh giá Objective với h ệ số IS=0.15, NoiseMargin=2. ......... 65 H ình 4.14 Đồ thị đ ánh giá objective với hệ số alpha=0.5, 0.8,0.9 với IS=0.15 và NoiseMargin = 2................................................................................................ 67 H ình 4.15 Đồ thị đánh giá objective với hệ số gamma = 1 và gamma = 2. ........ 68 H ình 4.16 Đồ th ị đánh giá với IS=0.15 NoiMargin= 2 và alpha = 0.8 cho thuật toán WF, gama=1 cho thuật toán SS. ................................................................. 70 H ình 4.17 Đồ thị đánh giá OE với nhiễu người nói xung quanh. ....................... 71 SVTH: Nguyễn Thị Ngọ c Diệp Trang 8
  9. Đồ án tốt nghiệp DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG ANH Từ viết Tiếng Anh Nghĩa tiếng Việt tắ t Tỉ số tín hiệu trên nhiễu SNR Signal Noise Ratio PC Personal Computer Máy tính cá nhân Mứ c áp su ất của âm thanh SPL Sound Pressure Level Tố i thiểu hoá sai lệch trung MMSE Minium Mean-Squared Error b ình bình phương Phép phân tích giá trị đơn SVD Singular Value Decomposition Phép biến đổi Fourier rời rạc DFT Discrete Fourier Transform Phép biến đổi Fourier nhanh FFT Fast Fourier Transform Phép biến đổi Fourier của tín DTFT Discrete-Time Fourier Transform h iệu rời rạc. Phép biến đổi Z ZT Z Transform Miền hội tụ ROC Region of Convergence Phép biến đổi ngư ợc Fourier Inverse Discrete Fourier IDTFT rời rạc Transform Hệ thống tuyến tính và bất LTI Linear Time-Invariant b iến theo thời gian InternationalTelecommunications Hiệp hội tiêu chu ẩn viễn ITU-T thông quốc tế Union -Telecommunication Đánh giá theo giá trị tuyệt đối ACR Absolute Categories Rating Đánh giá theo quan điểm MOS Mean Opinion Scores n gười nghe Đánh giá bằng cách so sánh CCR Comparison Category Rating Đánh giá suy giảm chất lượng DCR Degradation Category Rating SVTH: Nguyễn Thị Ngọ c Diệp Trang 9
  10. Đồ án tốt nghiệp Đánh giá chủ quan SE Subjective Evaluation Đánh giá khách quan OE Objective Evaluation IS Itakura_Saito LLR Log likehook Raito Đo theo trọng số củ a phổ WSS Weighted Spectral Slope Hệ số dự đoán tuyến tính LPC Linear Prediction Coefficients Thăm dò sự ho ạt động của VAD Voice Activity Detection tiếng nói Nâng cao chất lượng tiếng nói Speech Enhancement Thuật toán giảm nhiễu tín SS Spectral Subtraction h iệu tiếng nói bằng phương pháp trừ phổ . Thuật toán giảm nhiễu tín h iệu tiếng nói bằng cách sử WF Wiener Filter dụng bộ lọc Wiener. Thuật toán giảm nhiễu tín Statistical-model-based h iệu tiếng nói dựa trên n guyên lý thống kê Khung tín hiệu. Frame Cửa sổ Hamming Hamming Xếp chồng và cộng Overlap và Adding SVTH: Nguyễn Thị Ngọ c Diệp Trang 10
  11. Đồ án tốt nghiệp MỞ ĐẦU Trong cuộc sống, tiếng nói đóng mộ t vai trò rất quan trọng đối với con n gười. Cùng với tiếng nói là sự xuất hiện của rất nhiều các loại dịch vụ thoại như n gày nay. Tuy nhiên việc bảo toàn được tín hiệu tiếng nói trên các d ịch vụ này là đ iều vô cùng khó khăn do sự mất mát và suy giảm tín hiệu và nhất là ảnh hưởng của nhiễu sẽ làm cho tín hiệu tiếng nói không còn như ban đầu. Vì lý do đó mà các thuật toán về Speech Enhancement ra đời. Tuy không thể bảo toàn được y n guyên tín hiệu ban đầu nhưng sử dụng các thu ật toán này ta có thể tăng cường được chất lượng tiếng nói và giảm b ớt nhiễu nền để tín hiệu sau khi xử lý đến n gười nghe vẫn mang đầy đủ nội dung thông tin và không gây khó chịu bởi nhiễu đối với người nghe. Vì vậy, Speech Enhancement đóng một vai trò rất quan trọng trong lĩnh vực tho ại. Xuất phát từ thực tế này nhóm đã bắt tay vào tìm hiểu về Speech Enhancement, nghiên cứu các thu ật toán của nó đ ể thực hiện và đánh giá hiệu quả củ a các thuật toán đó trong môi trường thực tế. Để th ực hiện được đồ án, nhóm đ ã phân chia thành 3 phần tương ứng với 3 thành viên : Nguyễn Ngọ c Trung : n ghiên cứu và thực hiện thu ật toán xử lý tiếng nói - sử dụng phương pháp Spectral Subtraction. Nguyễn Phúc Nguyên : n ghiên cứu và thực hiện thuật xử lý tiếng nói sử - dụng bộ lọc Wiener. Nguyễn Th ị Ngọc Diệp : n ghiên cứu và thực hiện các phương pháp đánh - giá từ các kết qu ả đạt được của 2 thuật toán trên trong môi trường thự c tế. Để thự c hiện được nội dung phần của em thì đồ án của em được kết cấu thành 2 phần, gồm 5 chương : Ph ần 1 : Lý thuyết Chương 1 : Tổng quan về nâng cao ch ất lư ợng tiếng nói. Chương này giới thiệu một số khái n iệm cơ bản về tín hiệu số, các phép biến đổ i, tìm hiểu về các SVTH: Nguyễn Thị Ngọ c Diệp Trang 11
  12. Đồ án tốt nghiệp lo ại nhiễu , tín hiệu tiếng nói và sự hình thành tiếng nói. Bên cạnh đó còn giới thiệu khái quát về một số thuật toán trong Speech Enhancement . Chương 2 : Đánh giá chất lượng tiếng nói. Chương này giới thiệu mộ t số phương pháp đánh giá hiệu qu ả của thuật toán giảm nhiễu trong tiếng nói. Gồm có đánh giá chủ quan và đánh giá khách quan. Chương 3 : Thuật toán Spectral Subtraction và Wiener Filtering. Chương n ày đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán. Ph ần 2 : Thực hiện và đánh giá Chương 4 : Th ực hiện và đánh giá thuật toán. Chương này trình bày các kết quả nhóm đã làm được gồm có thực hiện giảm nhiễu tín hiệu tiếng nói bằng hai thuật toán đã nghiên cứu ở chương 3. Đồng thời so sánh kết quả thu được bằng cách dùng các phương pháp đánh giá đã đ ược giới thiệu ở chương 2 Phương pháp nghiên cứu của đồ án là xây dựng lưu đồ củ a thuật toán, thực h iện xử lý tiếng nói bằng các thuật toán đó. Dựa trên các kết quả đ ạt được sau khi xử lý, sau đó sử dụng các phương pháp đánh giá khách quan để đánh giá tính h iệu quả của các thu ật toán xử lý trong môi trường thực tế. Đồ án của nhóm đã thực hiện được 2 thuật toán xử lý tiếng nói trong Speech Enhancement và đưa ra được các kết quả đánh giá khách quan làm cơ sở đ ể đ ánh giá tính hiệu qu ả của 2 thuật toán trên. Đó chính là điểm mới trong đồ án của nhóm so với các đồ án đã có trước trong cùng chủ đề n ghiên cứu. SVTH: Nguyễn Thị Ngọ c Diệp Trang 12
  13. Đồ án tốt nghiệp SVTH: Nguyễn Thị Ngọ c Diệp Trang 13
  14. Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói CHƯƠNG 1: TỔNG QUAN VỀ NÂNG CAO CH ẤT LƯỢNG TIẾNG NÓI 1 .1 Giới thiệu chương Nội dung củ a chương trình bày m ục đích của nâng cao chất lượng tiếng nói là gì, các loại nhiễu trong tiếng nói, cách hình thành của tiếng nói và các đ ặc đ iểm cuả tín hiệu tiếng nói. Chương này còn giới thiệu khái quát về các thuật toán sử dụng trong speech enhancement. 1 .2 Nâng cao chất lượng tiếng nói là gì ? Nâng cao ch ất lượng tiếng nói liên quan đến việc cải thiện cảm nhận đố i với tiếng nói b ị suy giảm ch ất lượng do sự có mặt của nhiễu trong tiếng nói. Trong h ầu h ết các ứng dụng, thì mụ c đích củ a nâng cao chất lượng tiếng nói là sự cải thiện chất lượng và tính dễ nghe của tiếng nói đã bị suy giảm do nhiễu. Sự cải thiện về chất lượng mà tố t thì nó làm giảm đi sự khó khăn cho người nghe khi n ghe và trong nhiều trường h ợp nó còn giúp cho người nghe có th ể nghe trong môi trường có nhiễu với m ức độ cao và nhiễu đó tồn tại trong th ời gian dài. Các thuật toán âng cao chất lượng tiếng nói làm giảm và nén nhiễu nền đến một mức độ nào đó và nó được xem như là các thu ật toán nén nhiễu. Trong nhiều trường h ợp, sự cần thiết của việc tăng cường trong tín hiệu tiếng nói xu ất hiện khi tín hiệu tiếng nói hình thành trong vùng có nhiễu hoặc ảnh hưởng bởi nhiễu trong các kênh truyền thông. Có rất nhiều kịch bản yêu cầu đặt ra đối với Speech enhancement trong nhiều trường hợp khác nhau , ví dụ đối với thông tin thoại, trên các h ệ thống điện thoại tế bào thì ch ịu sự ảnh hưởng nhiễu n ền từ ô tô, nhà hàng,.. khi truyền đến đích. Chính vì vậy mà các thuật toán trong n âng cao chất lượng tiếng nói có thể được sử dụng đ ể cải thiện chất lượng của tiếng nói tại điểm thu, mặt khác, nó có th ể được sử dụng trong các khối tiền xử lý của hệ thống mã hoá tiếng nói dùng trong các điện thoại tế bào chu ẩn [1]. Khi nhận dạng tiếng nói, tiếng nói bị nhiễu được tiền xử lý bởi các thuật toán nâng cao chất lượng trước khi được nhận dạng. Trong thông tin liên lạc hàng không, các k ỹ thu ật n âng cao tiếng nói cần được sử dụng để cải thiện ch ất lượng và tính SVTH: Nguyễn Thị Ngọ c Diệp Trang 14
  15. Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói d ễ nghe của tiếng nói của phi công bị ảnh hưởng bởi nhiễu trong buồ ng lái. Vì vậy mà n âng cao chất lượng tiếng nói cũng rất cần thiết trong thông tin liên lạc của quân sự. Trong hệ thống hội ngh ị qua thoại, thì nguồn nhiễu xuất hiện ở mộ t vùng nào đó thì nó sẽ được truyền đến tất cả các vùng khác. Các thuật toán nâng cao ch ất lượng tiếng nói được sử dụng như tiền xử lý hoặc làm sạch nhiễu trong tiếng trước khi được khuếch đại. Như các ví dụ minh họa ở trên thì mục tiêu củ a các thu ật toán tăng cường tu ỳ thuộc vào các ứng dụng mà chúng ta đang dùng. Xét trên phương diện lý tưởng, thì chúng ta mong muốn Speech enhancement cải thiện được cả chất lượng và tính dễ nghe hay sự trong suốt củ a tiếng nói. Tuy nhiên, xét trên phương d iện thực tế thì các thuật toán Speech enhancement chỉ có thể cải thiện được chất lượng của tiếng nói. Nó có thể làm giảm được nhiễu nền trong tiếng nói nhưng nó sẽ làm gia tăng thêm độ m éo của tín hiệu tiếng nói, chính điều này làm giảm đ i tính dễ nghe của tiếng nói. Do đó, yêu cầu chính trong việc thiết kế một thuật toán Speech enhancement phải đảm bảo nén được nhiễu và không được gây ra m éo trong sự cảm nh ận tín hiệu tiếng nói. Giải pháp tổng quát trong các vẩn đề của Speech enhancement phụ thuộc rất lớn vào ứng dụng chúng ta cần sử dụng, đó là các vần đ ề như là nguồn nhiễu và giao thoa gây ra nhiễu, mối liên hệ giữ a nhiễu và tín hiệu sạch, số m icrophone và cảm biến có thể có. Sự giao thoa có th ể xem như là nhiễu hoặc được xem như tín hiệu tiếng nói, nó tu ỳ thuộc vào môi trư ờng ta đang xét, nó có thể được xem như là sự tranh chấp giữa các speaker. Đặc tính âm nhiễu có thể đư ợc cộng thêm vào tín h iệu sạch n ếu âm thanh được hình thành trong căn phòng bị dội âm thanh. Hơn nữa, nhiễu có thể có tính tương quan hoặc không tương quan về m ặt thống kê với tín hiệu sạch. Số lượng microphone cũng có khả năng ảnh hưởng đến tính h iệu quả của các thu ật toán Speech enhancement. SVTH: Nguyễn Thị Ngọ c Diệp Trang 15
  16. Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói 1 .3 Lý thuyết về tín hiệu và nhiễu 1 .3.1 Tín hiệu, hệ thống và xử lý tín hiệu 1.3.1.1 Tín hiệu Tín hiệu(signal) dùng để chỉ một đ ại lượng vật lý mang tin tức. Về m ặt toán học, ta có thể mô tả tín hiệu như một hàm theo biến thời gian, không gian hay các b iến độc lập khác. Ch ẳng hạn như, hàm: x(t) = 20t2 mô tả tín hiệu biến thiên theo b iến thời gian t. Hay mộ t ví dụ khác, hàm: s(x,y) = 3x + 5xy + y2 m ô tả tín hiệu là hàm theo hai biến độ c lập x và y, trong đó x và y biểu diễn cho hai tọa độ trong m ặt phẳng [2]. Hai tín hiệu trong ví dụ trên về lớp tín hiệu được biểu diễn chính xác bằng h àm theo biến độ c lập. Tuy nhiên, trong thực tế, các mố i quan h ệ giưa các đại lượng vật lý và các biến độc lập thường rất phức tạp nên không th ể b iểu diễn tín h iệu như trong h ai ví dụ vừ a nêu trên. H ình 1 .1 Tín hiệu tiếng nói [2 ]. Lấy ví dụ tín hiệu tiếng nói – đó là sự biến thiên củ a áp su ất không khí theo th ời gian. Chẳng h ạn khi ta phát âm từ “away”, dạng sóng củ a nó được biểu diễn như h ình trên. 1.3.1.2 Nguồn tín hiệu Tất cả các tín hiệu đều do một nguồn nào đó tạo ra, theo mộ t cách thức nào đó. Ví dụ tín hiệu tiếng nói được tạo ra băngg cách ép không khí đi qua dây thanh SVTH: Nguyễn Thị Ngọ c Diệp Trang 16
  17. Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói âm. Một bức ảnh có được b ằng cách phơi sáng một tấm phim chụp mộ t cảnh/đố i tượng nào đó. Quá trình tạo tín hiệu như vậy thường liên quan đ ến mộ t hệ thống, h ệ thống này đáp ứng lại một kích thích nào đó. Trong tín hiệu tiếng nói, hệ thống là hệ thống phát âm, gồm môi, răng, lưỡi, dây thanh…Kích thích liên quan đ ến h ệ thống được gọi là nguồn tín hiệu. Như vậ y ta có nguồn tiếng nói, nguồn ảnh và các nguồn tín hiệu khác. 1.3.1.3 Hệ thống và xử lý tín hiệu Hệ thống là một thiết bị vật lý thực hiện một tác động nào đó lên tín hiệu. Ví dụ, bộ lọc dùng để giảm nhiễu trong tín hiệu mang tin được gọ i là một hệ thống. Khi ta truyền tín hiệu qua một hệ thống, như bộ lọc ch ẳng h ạn, ta nói rằng đ ã xử lý tín hiệu đó. Trong trường này, xử lý tín hiệu liên quan đến lọc nhiễu ra khỏi tín hiệu mong mu ốn. Xử lý tín hiệu là ý muốn nói đ ến một loạt các công việc hay các phép toán được thực hiện trên các tín hiệu nhằm đạt mụ c đích nào đó, như là tách tin tức chứa bên trong tín hiệu hoặc là truyền tín hiệu mang tin từ nơi này đến nơi khác. Ở đây ta cần lưu ý đến đ ịnh nghĩa hệ thống, nó không chỉ đơn thu ần là thiết b ị vật lý mà còn là phần mềm xử lý tín hiệu hoặc là sự kết hợp giữ a phần cứng và phần mềm. Ví d ụ khi xử lý số tín hiệu b ằng m ạch logic, hệ thống xử lý ở đây là phần cứng. Khi xử lý bằng máy tính số, tác động lên tín hiệu bao gồm mộ t loạt các phép toán thực hiện b ởi chương trình phần mềm. Khi xử lý bằng các bộ vi xử lý -hệ thống bao gồm kết hợp cả ph ần cứ ng và phần m ềm, mỗi phần thực hiện các công việc riêng nào đó. 1.3.1.4 Phân loại tín hiệu Các phương pháp ta sử dụng trong xử lý tín hiệu phụ thuộc ch ặt chẽ vào đ ặc điểm củ a tín hiệu. Có những phương pháp riêng áp dụng cho một lo ại tín h iệu nào đó. Do vậy, trước tiên ta cần xem qua cách phân loại tín hiệu liên quan đ ến những ứng dụng cụ thể. Chúng ta có thể phân tín hiệu thành các loại : Tín hiệu nhiều hướng và tín hiệu đa kênh - Tín hiệu liên tụ c và tín hiệu rời rạc - SVTH: Nguyễn Thị Ngọ c Diệp Trang 17
  18. Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói Tín hiệu biên độ liên tục và tín hiệu biên độ rời rạc - Tín hiệu xác định và tín hiệu ngẫu nhiên - 1 .4 Lý thuyết về nhiễu 1 .4.1 Nguồn nhiễu Nhiễu mộ t hiện thực, nó tồn tại ở mọi nơi, trên đư ờng phố, trên xe, trong văn phòng, trong nhà hàng, trong các toà nhà. Nó có thể là tiếng xe chạy trên đường, tiếng ồn trên các công trường xây dựng, tiếng ồn phát ra từ các quạt ch ạy trong PC, chuông điện tho ại…, nó tồn tại với các hình d ạng và hình thức khác nhau trong cuộ c sống hằng ngày của chúng ta. Nhiễu có thể h ình thành ở mộ t nơi cố định, và không thay đ ổi theo thời gian, ví dụ như là tiếng ồn phát ra từ quạt chạy trong PC. Nhiễu cũng có thể không đứng yên m ột chỗ, ví dụ như nhiễu trong nhà hàng, đó là tiếng nói của nhiều người xen lẫn với nhiều cách khác nhau với tiếng ồn phát ra từ nhà b ếp. Các đ ặc tính về phổ cũng như thời gian của nhiễu trong nhà hàng thay đổ i không theo quy luật nên việc nén nhiễu trong các môi trường có nhiễu thay đ ổi như vậy sẽ khó khăn hơn nhiều so với các nguồn nhiễu đứng yên không thay đổ i. Các đặc tính đặc biệt khác nhau của các loại nhiễu đó là hình d ạng của phổ và sự phân bố của năng lượng nhiễu trong miền tần số. Ví dụ, nhiễu gây ra bởi gió thì n ăng lượng củ a nó tập trung ở tần số th ấp dưới 500Hz. Nhưng đối với nhiễu trong nhà hàng, trên xe, trên tàu thì khác, năng lượng của nó được phân bố trên một d ải tần số rộng [3 ]. SVTH: Nguyễn Thị Ngọ c Diệp Trang 18
  19. Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói Hình 1.2 Dạng và sự phân bố phổ năng lượng trung bình nhiễu trên xe [4]. Hình 1.3 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trên tàu [4]. SVTH: Nguyễn Thị Ngọ c Diệp Trang 19
  20. Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói Hình 1.4 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trong nhà hàng[4]. 1 .4.2 Nhiễu và mức tín hiệu tiếng nói trong các môi trường khác nhau Điểm tới h ạn trong việc thiết kế các thuật toán của Speech enhancement là sự nh ận biết dải biến thiên của tiếng nói và mức độ cường độ n hiễu trong môi trường thực tế. Từ đó, chúng ta có thể mô tả miền biến thiên của mức độ tỷ số tín h iệu trên nhiễu(SNR) được bắt gặp trong môi trư ờng thực tế. Điều này rất quan trọng để đánh giá tính hiệu quả củ a các thuật toán Speech enhancement trong việc nén nhiễu và cải thiện chất lượng của tiếng nói trong dải biến thiên của mức SNR. Mức độ củ a tiếng nói và nhiễu được đo lường bằng mứ c độ âm thanh. Phép đo lường ở đây là đo m ức độ áp su ất của âm thanh tính bằng dB SPL(sound p ressure level)[4]. Khoảng cách giữa người nói và ngư ời nghe cũng ảnh hưởng đ ến m ức cường độ âm thanh, nó tương ứng với phép đo đư ợc thực hiện khi m icrophone được đặt tại những vị trí có khoảng cách khác nhau. Kho ảng cách đ ặc trưng trong giao tiếp face-to -face là 1m, khi khoảng cách đó tăng gấp đôi th ì mức cường độ âm giảm đi 6 dB[6]. SVTH: Nguyễn Thị Ngọ c Diệp Trang 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
4=>1