Đỗ Huy Khôi và Đtg<br />
<br />
Tạp chí KHOA HỌC & CÔNG NGHỆ<br />
<br />
99(11): 15 - 19<br />
<br />
PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI<br />
BẰNG CÁCH TRIỆT NHIỄU THÀNH PHẦN XẤP XỈ<br />
VÀ THÀNH PHẦN CHI TIẾT TRÊN MIỀN WAVELET<br />
Đỗ Huy Khôi, Nguyễn Thành Trung, Trịnh Văn Hà*<br />
Trường Đại học Công nghệ Thông tin & Truyền thông – ĐH Thái Nguyên<br />
<br />
TÓM TẮT<br />
Kỹ thuật triệt nhiễu và nâng cao chất lượng tiếng nói dùng phép biến đổi Wavelet đã được nghiên<br />
cứu nhiều trên thế giới. Hầu hết các nghiên cứu tập trung vào cách ước lượng và đặt ngưỡng toàn<br />
cục cho toàn bộ tín hiệu. Bài báo này trình bày phương pháp triệt nhiễu nâng cao chất lượng tiếng<br />
nói bằng biến đổi Wavelet cho tín hiệu tiếng nói thành hai thành phần hệ số chi tiết và hệ số xấp<br />
xỉ, sau đó áp dụng kỹ thuật trừ phổ và kỹ thuật ước lượng bình phương tối thiểu MMSE (minimum<br />
mean square error) của Ephraim/Malah cho các hệ số đó. Các kết quả mô phỏng cho thấy tiếng<br />
nói có nhiễu được triệt nhiễu bằng phương pháp đề xuất có SNR cao hơn các phương pháp trừ<br />
phổ, phương pháp MMSE và phương pháp Wavelet của Dohono.<br />
Từ khóa: wavelet, triệt nhiễu, phổ trừ, MMSE, PSNR.<br />
<br />
TỔNG QUAN VỀ TRIỆT NHIỄU TÍN HIỆU<br />
TIẾNG NÓI*<br />
Nhiễu ảnh hưởng nhiều đến hiệu quả xử lý tín<br />
hiệu. Vì vậy, triệt nhiễu và nâng cao chất<br />
lượng tín hiệu là bước quan trọng trong các hệ<br />
thống xử lý tín hiệu thời gian thực [3].<br />
Mô hình chung của tín hiệu có nhiễu là:<br />
<br />
xk = sk + nk , k = 0,.., K − 1<br />
<br />
(1)<br />
<br />
Trong đó sk là tín hiệu tiếng nói sạch, nk là<br />
nguồn nhiễu độc lập với phương sai<br />
σ k (σ n2 = 1) (giả sử nk là nhiễu trắng).<br />
Gọi sˆ là giá trị ước lượng của tín hiệu tiếng<br />
nói sạch. Mục đích của các phương pháp triệt<br />
nhiễu tín hiệu tiếng nói là tối thiểu sai số bình<br />
phương trung bình E (| sˆ, s |2 )<br />
<br />
t −b<br />
) là hàm wavelet mẹ, ψ (t )<br />
a<br />
là hàm wavelet phức của ψ (t ) , b là toán tử<br />
<br />
Trong đó ψ (<br />
<br />
dịch và a là toán tử tỉ lệ.<br />
Trong thực tế biến đổi wavelet thường dùng<br />
là wavelet rời rạc DWT (Discrete Wavelet<br />
Transform) được thực hiện bằng cấu trúc đa<br />
phân giải MRA (Multiresolution Analysis)<br />
phân tích tín hiệu ra hai thành phần chi tiết<br />
(detail) và xấp xỉ (approximation). Thành<br />
phần chi tiết là thành phần tần số cao và chứa<br />
nhiễu nên các phương pháp triệt nhiễu bằng<br />
wavelet đều dựa trên ý tưởng đặt ngưỡng cho<br />
các thành phần chi tiết và loại bỏ các thành<br />
phần chi tiết nhỏ hơn ngưỡng.<br />
<br />
K −1<br />
<br />
2<br />
E sˆ - s = ∑ E (sˆ k - s k ) 2<br />
<br />
k =0<br />
<br />
(2)<br />
<br />
PHƯƠNG PHÁP BIẾN ĐỔI WAVELET<br />
CHO TÍN HIỆU TIẾNG NÓI CÓ NHIỄU.<br />
Phép biến đổi wavelet<br />
Biến đổi wavelet WT của một tín hiệu x(t)<br />
được định nghĩa<br />
WT(b,a) = | a |<br />
<br />
*<br />
<br />
−<br />
<br />
1<br />
2<br />
<br />
t −b<br />
∫−∞ x(t )ψ ( a )dt<br />
∞<br />
<br />
Tel: 0983 454755, Email: hatvhit@gmail.com<br />
<br />
(*)<br />
<br />
Hình 1. Biến đổi wavelet rời rạc dùng đa phân giải<br />
<br />
Biến đổi Wavelet rời rạc áp dụng cho tín<br />
hiệu tiếng nói.<br />
DWT được xây dựng dựa trên cấu trúc đa<br />
phân giải MRA [6]. Tín hiệu nguyên thủy S đi<br />
15<br />
<br />
Đỗ Huy Khôi và Đtg<br />
<br />
Tạp chí KHOA HỌC & CÔNG NGHỆ<br />
<br />
qua 2 bộ lọc có đặc tính bù nhau và phân tách<br />
thành 2 tín hiệu, cA là các hệ số xấp xỉ, cD là<br />
các hệ số chi tiết.<br />
Quá trình phân tách có thể được lặp lại, với<br />
xấp xỉ hoàn toàn được tách ra, do đó một tín<br />
hiệu được tách thành nhiều thành phần phân<br />
giải thấp hơn. Nó được gọi là cây phân tách<br />
Wavelet.<br />
PHƯƠNG PHÁP TRIỆT NHIỄU THAM KHẢO<br />
Phương pháp trừ phổ<br />
Ý tưởng chung của phương pháp trừ phổ [1,<br />
5] là chọn một mức phổ sàn tương ứng với<br />
phổ của nhiễu nền và tách ra khỏi phổ tín hiệu<br />
lẫn nhiễu. Giả thiết nhiễu nk là quá trình ngẫu<br />
nhiên dừng trong khoảng thời gian một khung<br />
tiếng nói và không tương quan với tín hiệu<br />
tiếng nói.<br />
Từ (1), sau khi cửa sổ hoá ta được:<br />
xw(k) = sw(k) + nw(k) (3)<br />
Phổ của tín hiệu lẫn nhiễu là<br />
<br />
| Xw(w)| =| Sw(w)| +| Nw(w)| +Sw(w).N (w)+S (w).Nw(w)<br />
2<br />
<br />
2<br />
<br />
2<br />
<br />
*<br />
w<br />
<br />
*<br />
w<br />
<br />
(4)<br />
Nếu chúng ta cho rằng n(k) có trung bình<br />
bằng 0 và không tương quan với s(k) thì<br />
S w ( w).N w* ( w) + S w* ( w).N w ( w) tiến tới 0. Do<br />
vậy ta có :<br />
(5)<br />
| S ( w) |2 =| X ( w) |2 − E | N ( w) |2 <br />
E | N ( w) |2 <br />
(6)<br />
| S ( w) |2 =| X ( w) |2 1 − <br />
2<br />
<br />
<br />
X ( w) |<br />
<br />
<br />
<br />
| S ( w) |2 =| X ( w) |2 .G ( w)<br />
<br />
Các hệ số<br />
xấp xỉ<br />
Tiếng nói<br />
gốc<br />
<br />
99(11): 15 - 19<br />
<br />
Gọi G(w) là hệ số trọng số phổ. Áp dụng biến<br />
đổi Wiener và đơn giản hóa bằng hàm biến<br />
đổi trọng số theo [1] ta có:<br />
<br />
<br />
<br />
<br />
<br />
G = Max 1 − α<br />
<br />
Với α là hệ số ước lượng trên và β là sàn phổ<br />
được chọn tương ứng.<br />
Phương pháp MMSE (minimum mean<br />
square error) của Ephraim/Malah<br />
Trong<br />
phương<br />
pháp<br />
MMSE<br />
của<br />
Ephraim/Malah [7], các thành phần phổ của<br />
tiếng nói và nhiễu được mô hình thành các<br />
biến ngẫu nhiên Gaussian.<br />
Phân khung băng con tiếng nói thứ i thành các<br />
khung có độ dài bằng nhau. Ngưỡng nhiễu ước<br />
lượng trong khung thứ p và băng con thứ i là<br />
λ i , p được xác định theo Jansen [4].<br />
<br />
(R )<br />
<br />
i post<br />
m<br />
<br />
(R )<br />
<br />
i priori<br />
m<br />
<br />
và<br />
<br />
là các tỉ lệ hệ số trên<br />
<br />
ngưỡng CTR (Cofficient to Thershold Ratio)<br />
tiền nghiệm và hậu nghiệm:<br />
<br />
( Rmi )<br />
<br />
priori<br />
<br />
| cmi |<br />
<br />
=<br />
<br />
λmi<br />
<br />
(9)<br />
<br />
Các ngưỡng nhiễu đối với từng hệ số cmi là λmi<br />
được ước lượng giống nhau trong từng khung.<br />
Nói cách khác trong khung p λmi = λ i , p .<br />
CTR hậu nghiệm tương ứng<br />
<br />
( Rmi )<br />
<br />
post<br />
<br />
=α<br />
<br />
| cˆmi |<br />
<br />
(7)<br />
<br />
DW<br />
<br />
λ<br />
<br />
i<br />
m<br />
<br />
+ (1−α)max[0,(Rim)priori -1] (10)<br />
<br />
IDW<br />
<br />
h<br />
<br />
↓2<br />
<br />
cA<br />
<br />
↑2<br />
<br />
h'<br />
<br />
g<br />
<br />
↓2<br />
<br />
cD<br />
<br />
↑2<br />
<br />
g'<br />
<br />
Hình 2. Phân tích Wavelet rời rạc tiếng nói<br />
<br />
16<br />
<br />
N PSD ( w) <br />
, β (8)<br />
X PSD ( w) <br />
<br />
Tiếng nói tái tạo<br />
Các hệ số<br />
chi tiết<br />
<br />
Đỗ Huy Khôi và Đtg<br />
<br />
Tạp chí KHOA HỌC & CÔNG NGHỆ<br />
<br />
Với α là một hệ số có thể thay đổi 0 < α <br />
70 dB) thì sự phân biệt của các phương pháp<br />
là không đáng kể.<br />
18<br />
<br />
KẾT LUẬN<br />
Dựa trên các kết quả nghiên cứu chúng tôi<br />
đánh giá phương pháp triệt nhiễu sử dụng<br />
biến đổi Wavelet thành các hệ số chi tiết, hệ<br />
số xấp xỉ và áp dụng triệt nhiễu cho từng<br />
thành phần hệ số với kỹ thuật trừ phổ và kỹ<br />
thuật MMSE của Ephraim/Malah là một kỹ<br />
thuật triệt nhiễu hiệu quả và có thể áp dụng<br />
trong khối tiền xử lý của các hệ thống xử lý<br />
tiếng nói thời gian thực như mã hóa, nhận<br />
dạng tiếng nói thời gian thực.<br />
TÀI LIỆU THAM KHẢO<br />
[1]. Hà Đình Dũng, Nguyễn Kim Quang, (2003),<br />
“Xây dựng bộ giảm nhiễu sử dụng phương pháp trừ<br />
phổ ứng dụng trong hệ thống nhận dạng tiếng nói”,<br />
Báo cáo hội thảo quốc gia CNTT, Thái Nguyên.<br />
[2]. Donoho, D. L, (1995), “Denoising via soft<br />
thresholding'', IEEE Trans. Information Theory.<br />
[3]. Gibert Strang, Truong Nguyen, (1996),<br />
Wavelet and Filter Banks, Weliesley- Cambridge<br />
Press, The United States of America.<br />
<br />
Đỗ Huy Khôi và Đtg<br />
<br />
Tạp chí KHOA HỌC & CÔNG NGHỆ<br />
<br />
[4]. Jansen M. , (2001), Noise Reduction by<br />
Wavelet Thresholding, Springer-Verlag, New<br />
York.<br />
[5]. S.F. Boll, “Suppression of Acoustic Noise in<br />
Speech Using Spectral Subtraction”, IEEE<br />
Transactions on Acoustics, Speech, and Signal<br />
Processing, vol. 27, April 1979, pp. 113-120.<br />
<br />
99(11): 15 - 19<br />
<br />
[6]. Stéphane Mallat, (1999), A Wavelet Tour of<br />
Signal Processing, Second Edition.<br />
[7]. Y. Ephraim and D. Malah, (1985), “Speech<br />
enhancement using a minimum mean square error<br />
log-spectral amplitude estimator” IEEE Trans. on<br />
ASSP, pp. 443-445.<br />
<br />
SUMMARY<br />
SPEECH DENOISING AND ENHANCEMENT BASED<br />
ON DENOISING COMPONENT APPROXIMATIONS<br />
AND DETAILS IN THE WAVLET DOMAIN<br />
Do Huy Khoi, Nguyen Thanh Trung, Trinh Van Ha*<br />
College of Information and Communication Technology - TNU<br />
<br />
There are many researches about the methods of speech denoising and enhancement using wavelet<br />
in the world. Most of researches study the methods to estimate the global or sub band dependent<br />
threshold overall signal.<br />
In this paper, we present a speech denoising approach using discrete Wavelet transform ,with<br />
approximation coefficients based on spectral subtraction method and details coefficients based on<br />
MMSE methods. The simulation results show that the noisy speech denoised by our proposed<br />
method has higher SNR than the spectral subtraction denoising, the MMSE denoising and the<br />
Wavelet denoising of Dohono.<br />
Keyword: Wavelet, denoising, spectral subtraction , MMSE, PSNR (priori signal to noise ratio)<br />
speech processing.<br />
<br />
Ngày nhận bài:05/10/2012 , ngày phản biện: 20/10/2012, ngày duyệt đăng:10/12/2012<br />
*<br />
<br />
Tel: 0983 454755, Email: hatvhit@gmail.com<br />
<br />
19<br />
<br />