intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Phương pháp nâng cao chất lượng tiếng nói bằng cách triệt nhiễu thành phần xấp xỉ và thành phần chi tiết trên miền wavelet

Chia sẻ: Hoang Son | Ngày: | Loại File: PDF | Số trang:5

57
lượt xem
3
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài báo này trình bày phương pháp triệt nhiễu nâng cao chất lượng tiếng nói bằng biến đổi Wavelet cho tín hiệu tiếng nói thành hai thành phần hệ số chi tiết và hệ số xấp xỉ, sau đó áp dụng kỹ thuật trừ phổ và kỹ thuật ước lượng bình phương tối thiểu MMSE (minimum mean square error) của Ephraim/Malah cho các hệ số đó.

Chủ đề:
Lưu

Nội dung Text: Phương pháp nâng cao chất lượng tiếng nói bằng cách triệt nhiễu thành phần xấp xỉ và thành phần chi tiết trên miền wavelet

Đỗ Huy Khôi và Đtg<br /> <br /> Tạp chí KHOA HỌC & CÔNG NGHỆ<br /> <br /> 99(11): 15 - 19<br /> <br /> PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI<br /> BẰNG CÁCH TRIỆT NHIỄU THÀNH PHẦN XẤP XỈ<br /> VÀ THÀNH PHẦN CHI TIẾT TRÊN MIỀN WAVELET<br /> Đỗ Huy Khôi, Nguyễn Thành Trung, Trịnh Văn Hà*<br /> Trường Đại học Công nghệ Thông tin & Truyền thông – ĐH Thái Nguyên<br /> <br /> TÓM TẮT<br /> Kỹ thuật triệt nhiễu và nâng cao chất lượng tiếng nói dùng phép biến đổi Wavelet đã được nghiên<br /> cứu nhiều trên thế giới. Hầu hết các nghiên cứu tập trung vào cách ước lượng và đặt ngưỡng toàn<br /> cục cho toàn bộ tín hiệu. Bài báo này trình bày phương pháp triệt nhiễu nâng cao chất lượng tiếng<br /> nói bằng biến đổi Wavelet cho tín hiệu tiếng nói thành hai thành phần hệ số chi tiết và hệ số xấp<br /> xỉ, sau đó áp dụng kỹ thuật trừ phổ và kỹ thuật ước lượng bình phương tối thiểu MMSE (minimum<br /> mean square error) của Ephraim/Malah cho các hệ số đó. Các kết quả mô phỏng cho thấy tiếng<br /> nói có nhiễu được triệt nhiễu bằng phương pháp đề xuất có SNR cao hơn các phương pháp trừ<br /> phổ, phương pháp MMSE và phương pháp Wavelet của Dohono.<br /> Từ khóa: wavelet, triệt nhiễu, phổ trừ, MMSE, PSNR.<br /> <br /> TỔNG QUAN VỀ TRIỆT NHIỄU TÍN HIỆU<br /> TIẾNG NÓI*<br /> Nhiễu ảnh hưởng nhiều đến hiệu quả xử lý tín<br /> hiệu. Vì vậy, triệt nhiễu và nâng cao chất<br /> lượng tín hiệu là bước quan trọng trong các hệ<br /> thống xử lý tín hiệu thời gian thực [3].<br /> Mô hình chung của tín hiệu có nhiễu là:<br /> <br /> xk = sk + nk , k = 0,.., K − 1<br /> <br /> (1)<br /> <br /> Trong đó sk là tín hiệu tiếng nói sạch, nk là<br /> nguồn nhiễu độc lập với phương sai<br /> σ k (σ n2 = 1) (giả sử nk là nhiễu trắng).<br /> Gọi sˆ là giá trị ước lượng của tín hiệu tiếng<br /> nói sạch. Mục đích của các phương pháp triệt<br /> nhiễu tín hiệu tiếng nói là tối thiểu sai số bình<br /> phương trung bình E (| sˆ, s |2 )<br /> <br /> t −b<br /> ) là hàm wavelet mẹ, ψ (t )<br /> a<br /> là hàm wavelet phức của ψ (t ) , b là toán tử<br /> <br /> Trong đó ψ (<br /> <br /> dịch và a là toán tử tỉ lệ.<br /> Trong thực tế biến đổi wavelet thường dùng<br /> là wavelet rời rạc DWT (Discrete Wavelet<br /> Transform) được thực hiện bằng cấu trúc đa<br /> phân giải MRA (Multiresolution Analysis)<br /> phân tích tín hiệu ra hai thành phần chi tiết<br /> (detail) và xấp xỉ (approximation). Thành<br /> phần chi tiết là thành phần tần số cao và chứa<br /> nhiễu nên các phương pháp triệt nhiễu bằng<br /> wavelet đều dựa trên ý tưởng đặt ngưỡng cho<br /> các thành phần chi tiết và loại bỏ các thành<br /> phần chi tiết nhỏ hơn ngưỡng.<br /> <br /> K −1<br /> <br /> 2<br /> E  sˆ - s  = ∑ E (sˆ k - s k ) 2<br /> <br />  k =0<br /> <br /> (2)<br /> <br /> PHƯƠNG PHÁP BIẾN ĐỔI WAVELET<br /> CHO TÍN HIỆU TIẾNG NÓI CÓ NHIỄU.<br /> Phép biến đổi wavelet<br /> Biến đổi wavelet WT của một tín hiệu x(t)<br /> được định nghĩa<br /> WT(b,a) = | a |<br /> <br /> *<br /> <br /> −<br /> <br /> 1<br /> 2<br /> <br /> t −b<br /> ∫−∞ x(t )ψ ( a )dt<br /> ∞<br /> <br /> Tel: 0983 454755, Email: hatvhit@gmail.com<br /> <br /> (*)<br /> <br /> Hình 1. Biến đổi wavelet rời rạc dùng đa phân giải<br /> <br /> Biến đổi Wavelet rời rạc áp dụng cho tín<br /> hiệu tiếng nói.<br /> DWT được xây dựng dựa trên cấu trúc đa<br /> phân giải MRA [6]. Tín hiệu nguyên thủy S đi<br /> 15<br /> <br /> Đỗ Huy Khôi và Đtg<br /> <br /> Tạp chí KHOA HỌC & CÔNG NGHỆ<br /> <br /> qua 2 bộ lọc có đặc tính bù nhau và phân tách<br /> thành 2 tín hiệu, cA là các hệ số xấp xỉ, cD là<br /> các hệ số chi tiết.<br /> Quá trình phân tách có thể được lặp lại, với<br /> xấp xỉ hoàn toàn được tách ra, do đó một tín<br /> hiệu được tách thành nhiều thành phần phân<br /> giải thấp hơn. Nó được gọi là cây phân tách<br /> Wavelet.<br /> PHƯƠNG PHÁP TRIỆT NHIỄU THAM KHẢO<br /> Phương pháp trừ phổ<br /> Ý tưởng chung của phương pháp trừ phổ [1,<br /> 5] là chọn một mức phổ sàn tương ứng với<br /> phổ của nhiễu nền và tách ra khỏi phổ tín hiệu<br /> lẫn nhiễu. Giả thiết nhiễu nk là quá trình ngẫu<br /> nhiên dừng trong khoảng thời gian một khung<br /> tiếng nói và không tương quan với tín hiệu<br /> tiếng nói.<br /> Từ (1), sau khi cửa sổ hoá ta được:<br /> xw(k) = sw(k) + nw(k) (3)<br /> Phổ của tín hiệu lẫn nhiễu là<br /> <br /> | Xw(w)| =| Sw(w)| +| Nw(w)| +Sw(w).N (w)+S (w).Nw(w)<br /> 2<br /> <br /> 2<br /> <br /> 2<br /> <br /> *<br /> w<br /> <br /> *<br /> w<br /> <br /> (4)<br /> Nếu chúng ta cho rằng n(k) có trung bình<br /> bằng 0 và không tương quan với s(k) thì<br /> S w ( w).N w* ( w) + S w* ( w).N w ( w) tiến tới 0. Do<br /> vậy ta có :<br /> (5)<br /> | S ( w) |2 =| X ( w) |2 − E | N ( w) |2 <br />  E | N ( w) |2  <br />   (6)<br /> | S ( w) |2 =| X ( w) |2 1 − <br /> 2<br /> <br /> <br /> X ( w) |<br /> <br /> <br /> <br /> | S ( w) |2 =| X ( w) |2 .G ( w)<br /> <br /> Các hệ số<br /> xấp xỉ<br /> Tiếng nói<br /> gốc<br /> <br /> 99(11): 15 - 19<br /> <br /> Gọi G(w) là hệ số trọng số phổ. Áp dụng biến<br /> đổi Wiener và đơn giản hóa bằng hàm biến<br /> đổi trọng số theo [1] ta có:<br /> <br /> <br /> <br /> <br /> <br /> G = Max  1 − α<br /> <br /> Với α là hệ số ước lượng trên và β là sàn phổ<br /> được chọn tương ứng.<br /> Phương pháp MMSE (minimum mean<br /> square error) của Ephraim/Malah<br /> Trong<br /> phương<br /> pháp<br /> MMSE<br /> của<br /> Ephraim/Malah [7], các thành phần phổ của<br /> tiếng nói và nhiễu được mô hình thành các<br /> biến ngẫu nhiên Gaussian.<br /> Phân khung băng con tiếng nói thứ i thành các<br /> khung có độ dài bằng nhau. Ngưỡng nhiễu ước<br /> lượng trong khung thứ p và băng con thứ i là<br /> λ i , p được xác định theo Jansen [4].<br /> <br /> (R )<br /> <br /> i post<br /> m<br /> <br /> (R )<br /> <br /> i priori<br /> m<br /> <br /> và<br /> <br /> là các tỉ lệ hệ số trên<br /> <br /> ngưỡng CTR (Cofficient to Thershold Ratio)<br /> tiền nghiệm và hậu nghiệm:<br /> <br /> ( Rmi )<br /> <br /> priori<br /> <br /> | cmi |<br /> <br /> =<br /> <br /> λmi<br /> <br /> (9)<br /> <br /> Các ngưỡng nhiễu đối với từng hệ số cmi là λmi<br /> được ước lượng giống nhau trong từng khung.<br /> Nói cách khác trong khung p λmi = λ i , p .<br /> CTR hậu nghiệm tương ứng<br /> <br /> ( Rmi )<br /> <br /> post<br /> <br /> =α<br /> <br /> | cˆmi |<br /> <br /> (7)<br /> <br /> DW<br /> <br /> λ<br /> <br /> i<br /> m<br /> <br /> + (1−α)max[0,(Rim)priori -1] (10)<br /> <br /> IDW<br /> <br /> h<br /> <br /> ↓2<br /> <br /> cA<br /> <br /> ↑2<br /> <br /> h'<br /> <br /> g<br /> <br /> ↓2<br /> <br /> cD<br /> <br /> ↑2<br /> <br /> g'<br /> <br /> Hình 2. Phân tích Wavelet rời rạc tiếng nói<br /> <br /> 16<br /> <br /> N PSD ( w) <br /> , β  (8)<br /> X PSD ( w) <br /> <br /> Tiếng nói tái tạo<br /> Các hệ số<br /> chi tiết<br /> <br /> Đỗ Huy Khôi và Đtg<br /> <br /> Tạp chí KHOA HỌC & CÔNG NGHỆ<br /> <br /> Với α là một hệ số có thể thay đổi 0 < α <br /> 70 dB) thì sự phân biệt của các phương pháp<br /> là không đáng kể.<br /> 18<br /> <br /> KẾT LUẬN<br /> Dựa trên các kết quả nghiên cứu chúng tôi<br /> đánh giá phương pháp triệt nhiễu sử dụng<br /> biến đổi Wavelet thành các hệ số chi tiết, hệ<br /> số xấp xỉ và áp dụng triệt nhiễu cho từng<br /> thành phần hệ số với kỹ thuật trừ phổ và kỹ<br /> thuật MMSE của Ephraim/Malah là một kỹ<br /> thuật triệt nhiễu hiệu quả và có thể áp dụng<br /> trong khối tiền xử lý của các hệ thống xử lý<br /> tiếng nói thời gian thực như mã hóa, nhận<br /> dạng tiếng nói thời gian thực.<br /> TÀI LIỆU THAM KHẢO<br /> [1]. Hà Đình Dũng, Nguyễn Kim Quang, (2003),<br /> “Xây dựng bộ giảm nhiễu sử dụng phương pháp trừ<br /> phổ ứng dụng trong hệ thống nhận dạng tiếng nói”,<br /> Báo cáo hội thảo quốc gia CNTT, Thái Nguyên.<br /> [2]. Donoho, D. L, (1995), “Denoising via soft<br /> thresholding'', IEEE Trans. Information Theory.<br /> [3]. Gibert Strang, Truong Nguyen, (1996),<br /> Wavelet and Filter Banks, Weliesley- Cambridge<br /> Press, The United States of America.<br /> <br /> Đỗ Huy Khôi và Đtg<br /> <br /> Tạp chí KHOA HỌC & CÔNG NGHỆ<br /> <br /> [4]. Jansen M. , (2001), Noise Reduction by<br /> Wavelet Thresholding, Springer-Verlag, New<br /> York.<br /> [5]. S.F. Boll, “Suppression of Acoustic Noise in<br /> Speech Using Spectral Subtraction”, IEEE<br /> Transactions on Acoustics, Speech, and Signal<br /> Processing, vol. 27, April 1979, pp. 113-120.<br /> <br /> 99(11): 15 - 19<br /> <br /> [6]. Stéphane Mallat, (1999), A Wavelet Tour of<br /> Signal Processing, Second Edition.<br /> [7]. Y. Ephraim and D. Malah, (1985), “Speech<br /> enhancement using a minimum mean square error<br /> log-spectral amplitude estimator” IEEE Trans. on<br /> ASSP, pp. 443-445.<br /> <br /> SUMMARY<br /> SPEECH DENOISING AND ENHANCEMENT BASED<br /> ON DENOISING COMPONENT APPROXIMATIONS<br /> AND DETAILS IN THE WAVLET DOMAIN<br /> Do Huy Khoi, Nguyen Thanh Trung, Trinh Van Ha*<br /> College of Information and Communication Technology - TNU<br /> <br /> There are many researches about the methods of speech denoising and enhancement using wavelet<br /> in the world. Most of researches study the methods to estimate the global or sub band dependent<br /> threshold overall signal.<br /> In this paper, we present a speech denoising approach using discrete Wavelet transform ,with<br /> approximation coefficients based on spectral subtraction method and details coefficients based on<br /> MMSE methods. The simulation results show that the noisy speech denoised by our proposed<br /> method has higher SNR than the spectral subtraction denoising, the MMSE denoising and the<br /> Wavelet denoising of Dohono.<br /> Keyword: Wavelet, denoising, spectral subtraction , MMSE, PSNR (priori signal to noise ratio)<br /> speech processing.<br /> <br /> Ngày nhận bài:05/10/2012 , ngày phản biện: 20/10/2012, ngày duyệt đăng:10/12/2012<br /> *<br /> <br /> Tel: 0983 454755, Email: hatvhit@gmail.com<br /> <br /> 19<br /> <br />
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2