Tạp chí KHOA HỌC & CÔNG NGHỆ<br />
<br />
52(4): 47 - 51<br />
<br />
4 - 2009<br />
<br />
MỘT SỐ ĐÁNH GIÁ VỀ HIỆU QUẢ NHẬN DẠNG TIẾNG NÓI<br />
DÙNG KỸ THUẬT PHÂN TÍCH BĂNG CON<br />
Phùng Trung Nghĩa (Khoa Công nghệ thông tin - ĐH Thái Nguyên)<br />
<br />
Tóm tắt<br />
Trong báo cáo này, chúng tôi sử dụng phân tích wavelet rời rạc DWT để phân tích tiếng nói thành các băng<br />
con và thực hiện nhận dạng tiếng nói đã phân tích. Các kết quả nhận dạng cho thấy các băng con có ảnh hưởng<br />
khác nhau tới hiệu quả nhận dạng tiếng nói sạch và tiếng nói có nhiễu. Đặc biệt, một số băng con cho hiệu quả<br />
nhận dạng cao hơn tiếng nói gốc không phân tích băng con. Cụ thể với phân tích DWT, băng A1 là ảnh hưởng<br />
nhiều nhất đối với tiếng nói sạch còn băng A2 ảnh hưởng nhiều nhất đối với tiếng nói có nhiễu. Các kết quả này<br />
cho thấy việc sử dụng phân tích băng con để phân tách ra một số băng tần chọn lọc sẽ cho hiệu quả cao hơn nhận<br />
dạng với tiếng nói gốc. Các băng con khác nhau ảnh hưởng khác nhau tới hiệu quả nhận dạng cho thấy trong kỹ<br />
thuật nhận dạng tiếng nói dùng phân tích băng con, khi kết hợp kết quả nhận dạng trong các băng con để cho ra kết<br />
luận nhận dạng cuối cùng thì các băng con cần phải gán các trọng số khác nhau tương ứng với độ ảnh hưởng lên<br />
kết quả nhận dạng. Ở một khía cạnh khác, các kết quả thực nghiệm ở đây cũng cho thấy việc cắt bỏ các thông tin<br />
tần số cao ở một mức độ thích hợp sẽ làm tăng hiệu quả nhận dạng tiếng nói. Đây là cơ sở cần thiết để khẳng định<br />
việc sử dụng các bộ triệt nhiễu tiếng nói trong khối tiền xử lý của các hệ thống nhận dạng tương ứng với việc cắt<br />
bỏ bớt thông tin tần số cao ở một mức độ thích hợp dù loại bỏ một số thông tin quan trọng nhưng vẫn làm tăng kết<br />
quả nhận dạng.<br />
<br />
I. Đặt vấn đề<br />
Nhiều nghiên cứu gần đây về nhận dạng tiếng<br />
nói quan tâm đến các phương pháp nâng cao tỉ lệ<br />
nhận dạng trong môi trường có nhiễu (noise robust<br />
speech recognition). Đã có rất nhiều phương pháp<br />
được đưa ra, trong đó phương pháp sử dụng biến<br />
đổi wavelet theo hai cách tiếp cận là xây dựng bộ<br />
triệt nhiễu wavelet trong khối tiền xử lý [6, 14, 15]<br />
hoặc sử dụng các đặc trưng wavelet ít nhạy cảm<br />
với nhiễu trong khối trích đặc trưng [5, 8, 9, 10,<br />
11, 12] là các phương pháp có nhiều triển vọng.<br />
Đối với cách tiếp cận dùng khối triệt nhiễu tiền xử<br />
lý, do ý tưởng cơ bản của triệt nhiễu dùng wavelet<br />
là loại bỏ các hệ số tần số cao (hệ số chi tiết) có<br />
mức năng lượng dưới ngưỡng, nên triệt nhiễu<br />
dùng wavelet cũng đồng nghĩa với việc cắt bỏ bớt<br />
thông tin tần số cao. Đối với cách tiếp cận thứ hai<br />
dùng các đặc trưng ít nhạy cảm với nhiễu, đặc<br />
trưng wavelet liên tục CWT và wavelet gói WPT<br />
được sử dụng phổ biến. Nhược điểm cơ bản của<br />
CWT là vấn đề tốc độ thực thi do khối lượng tính<br />
toán lớn. Do vậy trong hầu hết các hệ thống nhận<br />
dạng sử dụng wavelet với tiếng nói được lấy mẫu<br />
với tần số lấy mẫu lớn người ta thường phải giảm<br />
tốc độ lấy mẫu tiếng nói xuống 8 KHz để đảm bảo<br />
tốc độ thực thi. Tuy nhiên, khi giảm tốc độ lấy<br />
<br />
mẫu cũng có nghĩa là cắt bỏ bớt các thông tin tần<br />
số cao (giảm tốc độ lấy mẫu từ 16 KHz xuống 8<br />
KHz tương ứng với cắt phổ tần tiếng nói từ 8 KHz<br />
xuống 4 KHz). Do đó, trong cả hai cách tiếp cận,<br />
tiếng nói gốc đều phải cắt bỏ các thông tin tần số cao<br />
trong khối tiền xử lý và trích đặc trưng. Theo suy<br />
luận logic thông thường, việc cắt bỏ các thông tin tần<br />
số cao này cũng có thể làm mất các đặc trưng của<br />
tiếng nói và ảnh hưởng tới kết quả nhận dạng.<br />
Cũng trong thời gian gần đây, trên thế giới đã<br />
có một số tác giả đề xuất các phương pháp nhận<br />
dạng tiếng nói dùng phân tích băng con trong đó<br />
nhận dạng tiếng nói trong từng băng và kết hợp<br />
các kết quả lại để cho ra kết quả nhận dạng cuối<br />
cùng. Các nghiên cứu hiện tại thường sử dụng kỹ<br />
thuật đặt trọng số cân bằng (equal weighting) cho<br />
các băng con [7]. Mặc dù các kết quả thực nghiệm<br />
cho thấy các kỹ thuật này nâng cao được hiệu quả<br />
nhận dạng đặc biệt với tiếng nói có nhiễu, kỹ thuật<br />
đặt trọng số cân bằng không phản ánh được thực tế<br />
các băng con khác nhau ảnh hưởng khác nhau tới<br />
hiệu quả nhận dạng. Vì vậy đánh giá hiệu quả<br />
nhận dạng của từng băng con độc lập sẽ là cơ sở<br />
để xây dựng một phương pháp đặt trọng số phù<br />
hợp cho các băng con.<br />
<br />
1<br />
<br />
Tạp chí KHOA HỌC & CÔNG NGHỆ<br />
<br />
52(4): 47 - 51<br />
<br />
Trong báo cáo này, chúng tôi sử dụng phân<br />
tích đa phân giải DWT phân tích tiếng nói thành 5<br />
mức và sau đó tái tạo thành 5 băng tần thấp khác<br />
nhau. Để đánh giá ảnh hưởng của từng băng tần<br />
tới kết quả nhận dạng, các mô hình âm thanh cho<br />
mỗi băng tần được lần lượt nhận dạng thử nghiệm<br />
sau khi đã huấn luyện với tiếng nói gốc. Các kết<br />
quả nhận dạng thực nghiệm thu được cho thấy tỉ lệ<br />
nhận dạng ứng với mô hình âm thanh băng 1 là lớn<br />
nhất với tiếng nói sạch, tỉ lệ nhận dạng ứng với mô<br />
hình âm thanh băng 2 là lớn nhất với tiếng nói có<br />
nhiễu. Điều đó chứng tỏ rằng với phân tích DWT,<br />
băng A1 là ảnh hưởng nhiều nhất đối với tiếng nói<br />
sạch còn băng A2 ảnh hưởng nhiều nhất đối với<br />
tiếng nói có nhiễu. Các kết quả nghiên cứu của<br />
chúng tôi đã chứng minh thay vì sử dụng toàn bộ<br />
băng tần A0 của tiếng nói, việc loại bỏ các thông<br />
tin tần số cao (xảy ra khi triệt nhiễu hay giảm tốc<br />
độ lấy mẫu) ở một mức nào đó không những sẽ<br />
không làm giảm tỉ lệ nhận dạng mà còn nâng cao<br />
hiệu quả nhận dạng. Các kết quả thực nghiệm này<br />
cũng sẽ làm cơ sở để chúng tôi xây dựng một kỹ<br />
thuật đặt trọng số phù hợp trong phương pháp<br />
nhận dạng tiếng nói dùng phân tích băng con sẽ<br />
được chúng tôi nghiên cứu tiếp theo.<br />
II. Cơ sở về wavelet<br />
Trong miền thời gian liên tục, biến đổi wavelet<br />
liên tuc CWT của một tín hiệu x(t) được định<br />
nghĩa là một tập các hàm wavelet cơ sở ab (t ) ,<br />
trong đó a là tham số tỉ lệ, b là tham số dịch.<br />
<br />
ab (t ) (<br />
<br />
t b<br />
)<br />
a<br />
<br />
W x(a, b) <br />
<br />
1<br />
a<br />
<br />
(1)<br />
<br />
<br />
x(t )<br />
<br />
<br />
<br />
*<br />
<br />
(<br />
<br />
t b<br />
)dt<br />
a<br />
<br />
T <br />
<br />
4 - 2009<br />
<br />
2<br />
<br />
(3)<br />
<br />
N0<br />
<br />
Trong đó N0 là số lượng mẫu có độ phân giải<br />
đủ lớn đối với tỉ lệ nhỏ nhất (tần số lớn nhất). Tỉ lệ<br />
của wavelet mẹ được lấy mẫu được tính bằng cách<br />
thay đổi khoảng cách mẫu Ta T / a . Hệ số tỉ<br />
lệ a 1 (trường hợp Dyadic SCWT a =2m), tham số<br />
dịch là cố định bằng một hằng số b0 để tránh việc<br />
lấy mẫu không đều.<br />
SCWT khi đó được định nghĩa như sau:<br />
[ /T ] + nb0<br />
<br />
SCWTf (a,n)=<br />
<br />
<br />
<br />
<br />
k= - [<br />
<br />
/T<br />
<br />
(4)<br />
với<br />
<br />
f(k) a* (k nb0 )<br />
<br />
] + nb0<br />
<br />
1<br />
<br />
a (k ) | a | 2 (kTa ),<br />
<br />
(5)<br />
và đáp ứng tần số là<br />
1<br />
<br />
ˆ a ( ) | a | 2 ˆ (<br />
<br />
<br />
T<br />
<br />
k<br />
<br />
a<br />
)<br />
T<br />
<br />
<br />
T<br />
<br />
(6)<br />
<br />
Biến đổi wavelet rời rạc DWT và wavelet gói<br />
WPT được thực hiện dựa trên cấu trúc phân rã các<br />
băng lọc thỏa mãn một số ràng buộc. Ví dụ như<br />
với DWT, mỗi mức phân rã sẽ cho ra hai nhánh<br />
lọc thông cao và thông thấp theo sau bởi các bộ<br />
giảm mẫu 2 lần. DWT sẽ thực hiện việc đa phân rã<br />
lặp lại trên nhánh thông thấp, trong khi đó cây<br />
phân rã trong WPT có thể lặp lại việc phân rã<br />
trong bất kì nhánh nào (thông cao hoặc thông<br />
thấp). Kết quả của phân tích WPT sẽ chia vùng tần<br />
số biểu diễn tín hiệu thành nhiều băng con và cho<br />
phép khôi phục lại tín hiệu ban đầu từ các hệ số<br />
wavelet trong các băng con này.<br />
<br />
(2)<br />
<br />
CWT được tính toán bằng các hệ số tại các tỉ<br />
lệ khác nhau ở các đoạn khác nhau của tín hiệu.<br />
Tính toán các hệ số wavelet ở mọi tỷ lệ dẫn tới<br />
một khối lượng tính toán rất lớn. Ta có thể chọn<br />
một tập con các tỉ lệ và vị trí để giảm sự phức tạp<br />
tính toán bằng cách dùng phép biến đổi wavelet<br />
SCWT (Sampled CWT), DWT (Discrete Wavelet<br />
Transform)<br />
hay WPT<br />
(Wavelet<br />
Packet<br />
Transform).<br />
Trong SCWT, wavelet mẹ được cắt từ vùng<br />
thời gian liên tục từ - đến . Wavelet được<br />
lấy mẫu với khoảng cách mẫu bằng:<br />
<br />
Hình 1. Lọc một tầng DWT cho xấp xỉ và chi tiết<br />
<br />
2<br />
<br />
Tạp chí KHOA HỌC & CÔNG NGHỆ<br />
<br />
52(4): 47 - 51<br />
<br />
4 - 2009<br />
<br />
IV. Nhận dạng các băng tần tiếng nói liên tục<br />
DWT được tái tạo trong hệ thống quay số tự<br />
động bằng tiếng nói tiếng Việt<br />
1. Chuẩn bị dữ liệu<br />
<br />
Hình 2. Phân tích wavelet gói<br />
<br />
III. Phân rã DWT và tái tạo các băng tần thấp<br />
Hình 3. biểu diễn phân tích wavelet 5 mức của<br />
tín hiệu tiếng nói S. Trong đó, Di là thành phần chi<br />
tiết mức i, Ai là thành phần xấp xỉ mức i của tiếng<br />
nói gốc S. Trong nghiên cứu này, chúng tôi thực<br />
nghiệm với tiếng nói có tần số lấy mẫu 16 KHz<br />
(có độ rộng phổ tần là 8 KHz), do đó các băng tần<br />
thấp được tái tạo tương ứng là A0 : 0 – 8000 Hz<br />
(băng tần gốc không phân rã), A1 : 0 – 4000 Hz<br />
(băng tần thấp tái tạo từ phân rã mức 1), .. , A5 : 0<br />
– 250 Hz (băng tần thấp tái tạo từ phân rã mức 5).<br />
Bảng 1 hiển thị các băng tần thấp được tái tạo của<br />
tiếng nói.<br />
<br />
Hình 3. Cây phân rã 5 mức<br />
Tần thấp<br />
<br />
Tần cao<br />
<br />
A1<br />
<br />
0 – 4000 Hz<br />
<br />
D1<br />
<br />
4000 – 8000 Hz<br />
<br />
A2<br />
<br />
0 – 2000 Hz<br />
<br />
D2<br />
<br />
2000 – 4000 Hz<br />
<br />
A3<br />
<br />
0 – 1000 Hz<br />
<br />
D3<br />
<br />
1000 – 2000 Hz<br />
<br />
A4<br />
<br />
0 – 500 Hz<br />
<br />
D4<br />
<br />
500 – 1000 Hz<br />
<br />
A5<br />
<br />
0 – 250 Hz<br />
<br />
D5<br />
<br />
250 – 500 Hz<br />
<br />
Bảng 1. Các băng tần thấp Ai được tái tạo ứng với các<br />
mức phân rã<br />
<br />
Chúng tôi sử dụng wavelet Daubechies 8 để<br />
phân rã tiếng nói và lần lượt thực hiện huấn luyện<br />
và nhận dạng với tiếng nói gốc (A0) và các tiếng<br />
nói tần thấp được tái tạo (A1 – A5).<br />
<br />
Dữ liệu tiếng nói được thu từ 5 nam và 5 nữ<br />
nói đủ số cụm từ trong bộ dữ liệu, mỗi người thu 1<br />
lần ở tần số lấy mẫu 16 KHz, 16 bit / 1 mẫu . Tất<br />
cả các giọng nói đều là giọng miền Bắc từ một số<br />
tỉnh, thành như: Thái Nguyên, Thái Bình, Thanh<br />
Hóa, Nghệ An, ... Tiếng nói được thu trong phòng<br />
đóng kín cửa có chất lượng cách âm khá tốt.<br />
Tổng số có 99 cụm từ các số điện thoại nội bộ<br />
trong khoảng 101 đến 199, 10 cụm từ các tên<br />
riêng, như vậy có tổng cộng có 10x109 = 1090<br />
cụm từ trong bộ dữ liệu dùng để huấn luyện. Đánh<br />
giá kết quả nhận dạng với tiếng nói sạch và tiếng<br />
nói có nhiễu Gauss trắng nhân tạo. Trong đó 2<br />
nam, 2 nữ (không tham gia quá trình huấn luyện)<br />
mỗi người nói đủ 109 cụm từ. Tổng cộng số lần<br />
nhận dạng thử là 2x109 = 218 lần.<br />
2. Môi trường xây dựng hệ thống<br />
Chúng tôi xây dựng hệ thống nhận dạng trên<br />
MATLAB 7.01. Trong MATLAB 7.01, các<br />
Toolbox Signal Processing, Wavelet, Statistic<br />
HMM hỗ trợ hầu hết các hàm cần thiết cho quá<br />
trình tiền xử lý và trích đặc trưng, huấn luyện và<br />
nhận dạng.<br />
3. Tiền xử lý và phân khung tiếng nói<br />
Tiếng nói trước khi tham số hoá được làm rõ<br />
bằng bộ lọc với phương trình sai phân:<br />
s(n) s(n) as(n 1) với a = 0.97<br />
(7)<br />
Sau đó, tiếng nói tại mỗi băng tần được phân<br />
thành các khung 20 ms, 10 ms chồng lấp, sử dụng<br />
cửa sổ Hamming 32 ms cho mỗi khung.<br />
4. Trích đặc trưng<br />
Chúng tôi sử dụng phương pháp trích đặc trưng<br />
MFCC. Số hệ số MFCC là 12 cho mỗi khung,<br />
chung tôi bổ sung thêm đặc trưng log năng lượng<br />
và F0 (xác định theo phương pháp AMDF), các hệ<br />
số đạo hàm bậc nhất, bậc hai tạo thành một tập<br />
vector đặc trưng 42 đặc tính và được dùng làm đầu<br />
vào cho mô hình HMM của hệ thống nhận dạng.<br />
5. Mô hình HMM<br />
<br />
3<br />
<br />
Tạp chí KHOA HỌC & CÔNG NGHỆ<br />
<br />
52(4): 47 - 51<br />
<br />
Hệ thống nhận dạng sử dụng mô hình HMM<br />
trái phải 5 trạng thái, để phục vụ nhận dạng liên<br />
tục, trạng thái sil cho lối vào, ra được sử dụng để<br />
kết hợp các mô hình HMM với nhau. Hàm phân<br />
bố xác suất quan sát được mô hình bằng 3 pha trộn<br />
Gaussian.<br />
V. Kết quả nhận dạng đối với từng băng con<br />
Kết quả nhận dạng với toàn băng và từng băng<br />
con được cho trong bảng 2. Chúng ta thấy trong cả<br />
hai trường hợp tiếng nói sạch và có nhiễu Gauss<br />
trắng SNR = 10 dB các băng con A1, A2 đều cho<br />
kết quả nhận dạng tốt hơn toàn băng A0 (với tiếng<br />
nói có nhiễu thậm chí băng A3 cũng cho kết quả<br />
nhận dạng tốt hơn toàn băng A0). Các băng tần A4<br />
và A5 cho kết quả nhận dạng rất thấp.<br />
Với tiếng nói sạch kết quả nhận dạng trên băng<br />
con A1 (0 – 4000 Hz) là cao nhất, với tiếng nói có<br />
nhiễu, kết quả nhận dạng trên băng con A2 (0 –<br />
2000 Hz) cho kết quả cao nhất.<br />
Băng con<br />
<br />
Clean Speech<br />
<br />
Noisy Speech<br />
SNR=10dB<br />
<br />
A0<br />
<br />
78.44 (171/218)<br />
<br />
38.07 (83/218)<br />
<br />
A1<br />
<br />
82.56 (180/218)<br />
<br />
40.36 (88/218)<br />
<br />
A2<br />
<br />
80.27 (175/218)<br />
<br />
50.00 (109/218)<br />
<br />
A3<br />
<br />
59.63 (130/218)<br />
<br />
44.49 (97/218)<br />
<br />
A4<br />
<br />
30.73 (67/218)<br />
<br />
27.52 (60/218)<br />
<br />
A5<br />
<br />
22.93 (50/218)<br />
<br />
18.34 (40/218)<br />
<br />
Bảng 2. Kết quả nhận dạng tiếng nói toàn băng và các<br />
băng con<br />
<br />
VI. Kết luận<br />
Qua các kết quả thực nghiệm chứng tỏ việc<br />
loại bỏ bớt các thành phần tần số cao (thông qua<br />
các thao tác lọc, triệt nhiễu hay giảm tốc độ lấy<br />
mẫu,...) không những không làm giảm kết quả<br />
nhận dạng mà ở một mức độ nào đó còn làm tăng<br />
kết quả nhận dạng so với tiếng nói gốc. Đặc biệt<br />
với tiếng nói có nhiễu, nhận dạng trực tiếp với<br />
tiếng nói gốc cho kết quả rất thấp so với các tín<br />
hiệu băng con đã lọc bỏ phần cao tần.<br />
<br />
4 - 2009<br />
<br />
Các kết quả thực nghiệm cũng cho thấy khi sử<br />
dụng kỹ thuật nhận dạng dùng phân tích băng con,<br />
các băng con khác nhau cần phải được gán các<br />
trọng số khác nhau do chúng ảnh hưởng khác nhau<br />
tới hiệu quả nhận dạng.<br />
Trong nghiên cứu này, chúng tôi chưa tập trung<br />
xây dựng một hệ thống nhận dạng hoàn chỉnh trong<br />
môi trường có nhiễu. Trong các nghiên cứu tiếp<br />
theo, chúng tôi sẽ hoàn thiện về mặt phương pháp<br />
và xây dựng thực nghiệm hệ thống nhận dạng tiếng<br />
Việt liên tục trong môi trường có nhiễu.<br />
Tài liệu tham khảo<br />
[1] Lê Tiến Thường, Hoàng Đình Chiến, Vietnamese<br />
Speech Recognition Applied to Robot Communications,<br />
Au Journal of Technology, Published by Assumption<br />
University (ABAC) Hua Mak, Bangkok, Thailand,<br />
2004.<br />
[2] Phùng Trung Nghĩa, Nhận dạng tiếng Việt sử dụng<br />
biến đổi Wavelet và mô hình Markov ẩn, Luận văn thạc<br />
sỹ, Đại học Quốc Gia Hà Nội, 2006.<br />
[3] Q.C.Nguyen, Eric Castelli, Ngoc-Yen Pham , Tone<br />
Recognition for Vietnamese,<br />
Euro-Speech 2003,<br />
Geneva.<br />
[4] Thang Tat Vu, Dung Tien Nguyen, Mai Chi Luong,<br />
John-Paul Hosom, Vietnamese Large Vocabulary<br />
Continuous Speech Recognition, EuroSpeech05<br />
International Conference, 2005.<br />
[5] Beng T. TAN, Minyue Fu, Andrew Spray, Phillip<br />
Dermody, The use of wavelet transforms in phoneme<br />
recognition, 1994.<br />
[6] Donoho, D. L, “Denoising via soft thresholding'',<br />
IEEE Trans. Information Theory, 1995.<br />
[7] Long Yan, Gang Liu, and Jun Guo, A Study on<br />
Robustness of Large Vocabulary Mandarin<br />
Chinese Continuous Speech Recognition System Based<br />
on Wavelet Analysis, ICAPR 2005, NCS 3686, pp. 497<br />
– 504, 2005.<br />
[8] M. Krishnan, C. Neophytou, and G. Prescott,<br />
Wavelet transform speech recognition using vector<br />
quantization, dynamic time wraping and articicial<br />
neural networks, 1994.<br />
[9] O. Farooq, S. Datta, Phoneme recognition using<br />
wavelet based features, Information Sciences 150 5–<br />
15, 2003.<br />
<br />
4<br />
<br />
52(4): 47 - 51<br />
<br />
Tạp chí KHOA HỌC & CÔNG NGHỆ<br />
<br />
4 - 2009<br />
<br />
[10] R. Favero and R. King, “Wavelet Parameterization<br />
for Speech Recognition” Int. Conf. Signal Processing<br />
Applications and Technology, Santa Clara, Vo12 pp.<br />
1444-1449, 1993.<br />
[11] R. Favero and R. King, Wavelet Parameterization<br />
for Speech Recognition,Variations in Translation and<br />
Scale Parameters International Symposium on Speech,<br />
Image Processing and Neural Networks, Hong Kong,<br />
13-16 April 1994.<br />
[12] Robert Modic, Borge Lindberg, Bojan Petek,<br />
Comparative Wavelet and MFCC Speech Recognition<br />
Experiments on the Slovenian and English SpeechDat2,<br />
NOLISP-2003.<br />
[13] Steve Young, HTK Speech Recognition Toolkit,<br />
Cambridge University Engineering Department,<br />
http://htk.eng.cam.ac.uk/<br />
[14] S.F. Boll, “Suppression of Acoustic Noise in<br />
Speech<br />
Using<br />
Spectral<br />
Subtraction”,<br />
IEEE<br />
Transactions on Acoustics, Speech, and Signal<br />
Processing, vol. 27, April 1979, pp. 113-120.<br />
[15] Y. Ephraim and D. Malah, “Speech enhancement<br />
using a minimum mean square error log-spectral<br />
amplitude estimator” IEEE Trans. on ASSP, 1985, pp.<br />
443-445.<br />
<br />
5<br />
<br />