intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Một số đánh giá về hiệu quả nhận dạng tiếng nói dung kỹ thuật phân tích băng con

Chia sẻ: Thi Thi | Ngày: | Loại File: PDF | Số trang:6

48
lượt xem
2
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Trong báo cáo này, chúng tôi sử dụng phân tích wavelet rời rạc DWT để phân tích tiếng nói thành các băng con và thực hiện nhận dạng tiếng nói đã phân tích. Các kết quả nhận dạng cho thấy các băng con có ảnh hưởng khác nhau tới hiệu quả nhận dạng tiếng nói sạch và tiếng nói có nhiễu. Đặc biệt, một số băng con cho hiệu quả nhận dạng cao hơn tiếng nói gốc không phân tích băng con.

Chủ đề:
Lưu

Nội dung Text: Một số đánh giá về hiệu quả nhận dạng tiếng nói dung kỹ thuật phân tích băng con

Tạp chí KHOA HỌC & CÔNG NGHỆ<br /> <br /> 52(4): 47 - 51<br /> <br /> 4 - 2009<br /> <br /> MỘT SỐ ĐÁNH GIÁ VỀ HIỆU QUẢ NHẬN DẠNG TIẾNG NÓI<br /> DÙNG KỸ THUẬT PHÂN TÍCH BĂNG CON<br /> Phùng Trung Nghĩa (Khoa Công nghệ thông tin - ĐH Thái Nguyên)<br /> <br /> Tóm tắt<br /> Trong báo cáo này, chúng tôi sử dụng phân tích wavelet rời rạc DWT để phân tích tiếng nói thành các băng<br /> con và thực hiện nhận dạng tiếng nói đã phân tích. Các kết quả nhận dạng cho thấy các băng con có ảnh hưởng<br /> khác nhau tới hiệu quả nhận dạng tiếng nói sạch và tiếng nói có nhiễu. Đặc biệt, một số băng con cho hiệu quả<br /> nhận dạng cao hơn tiếng nói gốc không phân tích băng con. Cụ thể với phân tích DWT, băng A1 là ảnh hưởng<br /> nhiều nhất đối với tiếng nói sạch còn băng A2 ảnh hưởng nhiều nhất đối với tiếng nói có nhiễu. Các kết quả này<br /> cho thấy việc sử dụng phân tích băng con để phân tách ra một số băng tần chọn lọc sẽ cho hiệu quả cao hơn nhận<br /> dạng với tiếng nói gốc. Các băng con khác nhau ảnh hưởng khác nhau tới hiệu quả nhận dạng cho thấy trong kỹ<br /> thuật nhận dạng tiếng nói dùng phân tích băng con, khi kết hợp kết quả nhận dạng trong các băng con để cho ra kết<br /> luận nhận dạng cuối cùng thì các băng con cần phải gán các trọng số khác nhau tương ứng với độ ảnh hưởng lên<br /> kết quả nhận dạng. Ở một khía cạnh khác, các kết quả thực nghiệm ở đây cũng cho thấy việc cắt bỏ các thông tin<br /> tần số cao ở một mức độ thích hợp sẽ làm tăng hiệu quả nhận dạng tiếng nói. Đây là cơ sở cần thiết để khẳng định<br /> việc sử dụng các bộ triệt nhiễu tiếng nói trong khối tiền xử lý của các hệ thống nhận dạng tương ứng với việc cắt<br /> bỏ bớt thông tin tần số cao ở một mức độ thích hợp dù loại bỏ một số thông tin quan trọng nhưng vẫn làm tăng kết<br /> quả nhận dạng.<br /> <br /> I. Đặt vấn đề<br /> Nhiều nghiên cứu gần đây về nhận dạng tiếng<br /> nói quan tâm đến các phương pháp nâng cao tỉ lệ<br /> nhận dạng trong môi trường có nhiễu (noise robust<br /> speech recognition). Đã có rất nhiều phương pháp<br /> được đưa ra, trong đó phương pháp sử dụng biến<br /> đổi wavelet theo hai cách tiếp cận là xây dựng bộ<br /> triệt nhiễu wavelet trong khối tiền xử lý [6, 14, 15]<br /> hoặc sử dụng các đặc trưng wavelet ít nhạy cảm<br /> với nhiễu trong khối trích đặc trưng [5, 8, 9, 10,<br /> 11, 12] là các phương pháp có nhiều triển vọng.<br /> Đối với cách tiếp cận dùng khối triệt nhiễu tiền xử<br /> lý, do ý tưởng cơ bản của triệt nhiễu dùng wavelet<br /> là loại bỏ các hệ số tần số cao (hệ số chi tiết) có<br /> mức năng lượng dưới ngưỡng, nên triệt nhiễu<br /> dùng wavelet cũng đồng nghĩa với việc cắt bỏ bớt<br /> thông tin tần số cao. Đối với cách tiếp cận thứ hai<br /> dùng các đặc trưng ít nhạy cảm với nhiễu, đặc<br /> trưng wavelet liên tục CWT và wavelet gói WPT<br /> được sử dụng phổ biến. Nhược điểm cơ bản của<br /> CWT là vấn đề tốc độ thực thi do khối lượng tính<br /> toán lớn. Do vậy trong hầu hết các hệ thống nhận<br /> dạng sử dụng wavelet với tiếng nói được lấy mẫu<br /> với tần số lấy mẫu lớn người ta thường phải giảm<br /> tốc độ lấy mẫu tiếng nói xuống 8 KHz để đảm bảo<br /> tốc độ thực thi. Tuy nhiên, khi giảm tốc độ lấy<br /> <br /> mẫu cũng có nghĩa là cắt bỏ bớt các thông tin tần<br /> số cao (giảm tốc độ lấy mẫu từ 16 KHz xuống 8<br /> KHz tương ứng với cắt phổ tần tiếng nói từ 8 KHz<br /> xuống 4 KHz). Do đó, trong cả hai cách tiếp cận,<br /> tiếng nói gốc đều phải cắt bỏ các thông tin tần số cao<br /> trong khối tiền xử lý và trích đặc trưng. Theo suy<br /> luận logic thông thường, việc cắt bỏ các thông tin tần<br /> số cao này cũng có thể làm mất các đặc trưng của<br /> tiếng nói và ảnh hưởng tới kết quả nhận dạng.<br /> Cũng trong thời gian gần đây, trên thế giới đã<br /> có một số tác giả đề xuất các phương pháp nhận<br /> dạng tiếng nói dùng phân tích băng con trong đó<br /> nhận dạng tiếng nói trong từng băng và kết hợp<br /> các kết quả lại để cho ra kết quả nhận dạng cuối<br /> cùng. Các nghiên cứu hiện tại thường sử dụng kỹ<br /> thuật đặt trọng số cân bằng (equal weighting) cho<br /> các băng con [7]. Mặc dù các kết quả thực nghiệm<br /> cho thấy các kỹ thuật này nâng cao được hiệu quả<br /> nhận dạng đặc biệt với tiếng nói có nhiễu, kỹ thuật<br /> đặt trọng số cân bằng không phản ánh được thực tế<br /> các băng con khác nhau ảnh hưởng khác nhau tới<br /> hiệu quả nhận dạng. Vì vậy đánh giá hiệu quả<br /> nhận dạng của từng băng con độc lập sẽ là cơ sở<br /> để xây dựng một phương pháp đặt trọng số phù<br /> hợp cho các băng con.<br /> <br /> 1<br /> <br /> Tạp chí KHOA HỌC & CÔNG NGHỆ<br /> <br /> 52(4): 47 - 51<br /> <br /> Trong báo cáo này, chúng tôi sử dụng phân<br /> tích đa phân giải DWT phân tích tiếng nói thành 5<br /> mức và sau đó tái tạo thành 5 băng tần thấp khác<br /> nhau. Để đánh giá ảnh hưởng của từng băng tần<br /> tới kết quả nhận dạng, các mô hình âm thanh cho<br /> mỗi băng tần được lần lượt nhận dạng thử nghiệm<br /> sau khi đã huấn luyện với tiếng nói gốc. Các kết<br /> quả nhận dạng thực nghiệm thu được cho thấy tỉ lệ<br /> nhận dạng ứng với mô hình âm thanh băng 1 là lớn<br /> nhất với tiếng nói sạch, tỉ lệ nhận dạng ứng với mô<br /> hình âm thanh băng 2 là lớn nhất với tiếng nói có<br /> nhiễu. Điều đó chứng tỏ rằng với phân tích DWT,<br /> băng A1 là ảnh hưởng nhiều nhất đối với tiếng nói<br /> sạch còn băng A2 ảnh hưởng nhiều nhất đối với<br /> tiếng nói có nhiễu. Các kết quả nghiên cứu của<br /> chúng tôi đã chứng minh thay vì sử dụng toàn bộ<br /> băng tần A0 của tiếng nói, việc loại bỏ các thông<br /> tin tần số cao (xảy ra khi triệt nhiễu hay giảm tốc<br /> độ lấy mẫu) ở một mức nào đó không những sẽ<br /> không làm giảm tỉ lệ nhận dạng mà còn nâng cao<br /> hiệu quả nhận dạng. Các kết quả thực nghiệm này<br /> cũng sẽ làm cơ sở để chúng tôi xây dựng một kỹ<br /> thuật đặt trọng số phù hợp trong phương pháp<br /> nhận dạng tiếng nói dùng phân tích băng con sẽ<br /> được chúng tôi nghiên cứu tiếp theo.<br /> II. Cơ sở về wavelet<br /> Trong miền thời gian liên tục, biến đổi wavelet<br /> liên tuc CWT của một tín hiệu x(t) được định<br /> nghĩa là một tập các hàm wavelet cơ sở  ab (t ) ,<br /> trong đó a là tham số tỉ lệ, b là tham số dịch.<br /> <br />  ab (t )   (<br /> <br /> t b<br /> )<br /> a<br /> <br /> W x(a, b) <br /> <br /> 1<br /> a<br /> <br /> (1)<br /> <br /> <br />  x(t )<br /> <br /> <br /> <br /> *<br /> <br /> (<br /> <br /> t b<br /> )dt<br /> a<br /> <br /> T <br /> <br /> 4 - 2009<br /> <br /> 2<br /> <br /> (3)<br /> <br /> N0<br /> <br /> Trong đó N0 là số lượng mẫu có độ phân giải<br /> đủ lớn đối với tỉ lệ nhỏ nhất (tần số lớn nhất). Tỉ lệ<br /> của wavelet mẹ được lấy mẫu được tính bằng cách<br /> thay đổi khoảng cách mẫu Ta  T / a . Hệ số tỉ<br /> lệ a  1 (trường hợp Dyadic SCWT a =2m), tham số<br /> dịch là cố định bằng một hằng số b0 để tránh việc<br /> lấy mẫu không đều.<br /> SCWT khi đó được định nghĩa như sau:<br /> [ /T ] + nb0<br /> <br /> SCWTf (a,n)=<br /> <br /> <br /> <br /> <br /> k= - [<br /> <br />  /T<br /> <br /> (4)<br /> với<br /> <br /> f(k) a* (k  nb0 )<br /> <br /> ] + nb0<br /> <br /> 1<br /> <br />  a (k ) | a | 2  (kTa ),<br /> <br /> (5)<br /> và đáp ứng tần số là<br /> 1<br /> <br /> ˆ a ( ) | a | 2 ˆ (<br /> <br /> <br /> T<br /> <br /> k<br /> <br /> a<br /> )<br /> T<br /> <br /> <br /> T<br /> <br /> (6)<br /> <br /> Biến đổi wavelet rời rạc DWT và wavelet gói<br /> WPT được thực hiện dựa trên cấu trúc phân rã các<br /> băng lọc thỏa mãn một số ràng buộc. Ví dụ như<br /> với DWT, mỗi mức phân rã sẽ cho ra hai nhánh<br /> lọc thông cao và thông thấp theo sau bởi các bộ<br /> giảm mẫu 2 lần. DWT sẽ thực hiện việc đa phân rã<br /> lặp lại trên nhánh thông thấp, trong khi đó cây<br /> phân rã trong WPT có thể lặp lại việc phân rã<br /> trong bất kì nhánh nào (thông cao hoặc thông<br /> thấp). Kết quả của phân tích WPT sẽ chia vùng tần<br /> số biểu diễn tín hiệu thành nhiều băng con và cho<br /> phép khôi phục lại tín hiệu ban đầu từ các hệ số<br /> wavelet trong các băng con này.<br /> <br /> (2)<br /> <br /> CWT được tính toán bằng các hệ số tại các tỉ<br /> lệ khác nhau ở các đoạn khác nhau của tín hiệu.<br /> Tính toán các hệ số wavelet ở mọi tỷ lệ dẫn tới<br /> một khối lượng tính toán rất lớn. Ta có thể chọn<br /> một tập con các tỉ lệ và vị trí để giảm sự phức tạp<br /> tính toán bằng cách dùng phép biến đổi wavelet<br /> SCWT (Sampled CWT), DWT (Discrete Wavelet<br /> Transform)<br /> hay WPT<br /> (Wavelet<br /> Packet<br /> Transform).<br /> Trong SCWT, wavelet mẹ được cắt từ vùng<br /> thời gian liên tục từ -  đến  . Wavelet được<br /> lấy mẫu với khoảng cách mẫu bằng:<br /> <br /> Hình 1. Lọc một tầng DWT cho xấp xỉ và chi tiết<br /> <br /> 2<br /> <br /> Tạp chí KHOA HỌC & CÔNG NGHỆ<br /> <br /> 52(4): 47 - 51<br /> <br /> 4 - 2009<br /> <br /> IV. Nhận dạng các băng tần tiếng nói liên tục<br /> DWT được tái tạo trong hệ thống quay số tự<br /> động bằng tiếng nói tiếng Việt<br /> 1. Chuẩn bị dữ liệu<br /> <br /> Hình 2. Phân tích wavelet gói<br /> <br /> III. Phân rã DWT và tái tạo các băng tần thấp<br /> Hình 3. biểu diễn phân tích wavelet 5 mức của<br /> tín hiệu tiếng nói S. Trong đó, Di là thành phần chi<br /> tiết mức i, Ai là thành phần xấp xỉ mức i của tiếng<br /> nói gốc S. Trong nghiên cứu này, chúng tôi thực<br /> nghiệm với tiếng nói có tần số lấy mẫu 16 KHz<br /> (có độ rộng phổ tần là 8 KHz), do đó các băng tần<br /> thấp được tái tạo tương ứng là A0 : 0 – 8000 Hz<br /> (băng tần gốc không phân rã), A1 : 0 – 4000 Hz<br /> (băng tần thấp tái tạo từ phân rã mức 1), .. , A5 : 0<br /> – 250 Hz (băng tần thấp tái tạo từ phân rã mức 5).<br /> Bảng 1 hiển thị các băng tần thấp được tái tạo của<br /> tiếng nói.<br /> <br /> Hình 3. Cây phân rã 5 mức<br /> Tần thấp<br /> <br /> Tần cao<br /> <br /> A1<br /> <br /> 0 – 4000 Hz<br /> <br /> D1<br /> <br /> 4000 – 8000 Hz<br /> <br /> A2<br /> <br /> 0 – 2000 Hz<br /> <br /> D2<br /> <br /> 2000 – 4000 Hz<br /> <br /> A3<br /> <br /> 0 – 1000 Hz<br /> <br /> D3<br /> <br /> 1000 – 2000 Hz<br /> <br /> A4<br /> <br /> 0 – 500 Hz<br /> <br /> D4<br /> <br /> 500 – 1000 Hz<br /> <br /> A5<br /> <br /> 0 – 250 Hz<br /> <br /> D5<br /> <br /> 250 – 500 Hz<br /> <br /> Bảng 1. Các băng tần thấp Ai được tái tạo ứng với các<br /> mức phân rã<br /> <br /> Chúng tôi sử dụng wavelet Daubechies 8 để<br /> phân rã tiếng nói và lần lượt thực hiện huấn luyện<br /> và nhận dạng với tiếng nói gốc (A0) và các tiếng<br /> nói tần thấp được tái tạo (A1 – A5).<br /> <br /> Dữ liệu tiếng nói được thu từ 5 nam và 5 nữ<br /> nói đủ số cụm từ trong bộ dữ liệu, mỗi người thu 1<br /> lần ở tần số lấy mẫu 16 KHz, 16 bit / 1 mẫu . Tất<br /> cả các giọng nói đều là giọng miền Bắc từ một số<br /> tỉnh, thành như: Thái Nguyên, Thái Bình, Thanh<br /> Hóa, Nghệ An, ... Tiếng nói được thu trong phòng<br /> đóng kín cửa có chất lượng cách âm khá tốt.<br /> Tổng số có 99 cụm từ các số điện thoại nội bộ<br /> trong khoảng 101 đến 199, 10 cụm từ các tên<br /> riêng, như vậy có tổng cộng có 10x109 = 1090<br /> cụm từ trong bộ dữ liệu dùng để huấn luyện. Đánh<br /> giá kết quả nhận dạng với tiếng nói sạch và tiếng<br /> nói có nhiễu Gauss trắng nhân tạo. Trong đó 2<br /> nam, 2 nữ (không tham gia quá trình huấn luyện)<br /> mỗi người nói đủ 109 cụm từ. Tổng cộng số lần<br /> nhận dạng thử là 2x109 = 218 lần.<br /> 2. Môi trường xây dựng hệ thống<br /> Chúng tôi xây dựng hệ thống nhận dạng trên<br /> MATLAB 7.01. Trong MATLAB 7.01, các<br /> Toolbox Signal Processing, Wavelet, Statistic<br /> HMM hỗ trợ hầu hết các hàm cần thiết cho quá<br /> trình tiền xử lý và trích đặc trưng, huấn luyện và<br /> nhận dạng.<br /> 3. Tiền xử lý và phân khung tiếng nói<br /> Tiếng nói trước khi tham số hoá được làm rõ<br /> bằng bộ lọc với phương trình sai phân:<br /> s(n)  s(n)  as(n 1) với a = 0.97<br /> (7)<br /> Sau đó, tiếng nói tại mỗi băng tần được phân<br /> thành các khung 20 ms, 10 ms chồng lấp, sử dụng<br /> cửa sổ Hamming 32 ms cho mỗi khung.<br /> 4. Trích đặc trưng<br /> Chúng tôi sử dụng phương pháp trích đặc trưng<br /> MFCC. Số hệ số MFCC là 12 cho mỗi khung,<br /> chung tôi bổ sung thêm đặc trưng log năng lượng<br /> và F0 (xác định theo phương pháp AMDF), các hệ<br /> số đạo hàm bậc nhất, bậc hai tạo thành một tập<br /> vector đặc trưng 42 đặc tính và được dùng làm đầu<br /> vào cho mô hình HMM của hệ thống nhận dạng.<br /> 5. Mô hình HMM<br /> <br /> 3<br /> <br /> Tạp chí KHOA HỌC & CÔNG NGHỆ<br /> <br /> 52(4): 47 - 51<br /> <br /> Hệ thống nhận dạng sử dụng mô hình HMM<br /> trái phải 5 trạng thái, để phục vụ nhận dạng liên<br /> tục, trạng thái sil cho lối vào, ra được sử dụng để<br /> kết hợp các mô hình HMM với nhau. Hàm phân<br /> bố xác suất quan sát được mô hình bằng 3 pha trộn<br /> Gaussian.<br /> V. Kết quả nhận dạng đối với từng băng con<br /> Kết quả nhận dạng với toàn băng và từng băng<br /> con được cho trong bảng 2. Chúng ta thấy trong cả<br /> hai trường hợp tiếng nói sạch và có nhiễu Gauss<br /> trắng SNR = 10 dB các băng con A1, A2 đều cho<br /> kết quả nhận dạng tốt hơn toàn băng A0 (với tiếng<br /> nói có nhiễu thậm chí băng A3 cũng cho kết quả<br /> nhận dạng tốt hơn toàn băng A0). Các băng tần A4<br /> và A5 cho kết quả nhận dạng rất thấp.<br /> Với tiếng nói sạch kết quả nhận dạng trên băng<br /> con A1 (0 – 4000 Hz) là cao nhất, với tiếng nói có<br /> nhiễu, kết quả nhận dạng trên băng con A2 (0 –<br /> 2000 Hz) cho kết quả cao nhất.<br /> Băng con<br /> <br /> Clean Speech<br /> <br /> Noisy Speech<br /> SNR=10dB<br /> <br /> A0<br /> <br /> 78.44 (171/218)<br /> <br /> 38.07 (83/218)<br /> <br /> A1<br /> <br /> 82.56 (180/218)<br /> <br /> 40.36 (88/218)<br /> <br /> A2<br /> <br /> 80.27 (175/218)<br /> <br /> 50.00 (109/218)<br /> <br /> A3<br /> <br /> 59.63 (130/218)<br /> <br /> 44.49 (97/218)<br /> <br /> A4<br /> <br /> 30.73 (67/218)<br /> <br /> 27.52 (60/218)<br /> <br /> A5<br /> <br /> 22.93 (50/218)<br /> <br /> 18.34 (40/218)<br /> <br /> Bảng 2. Kết quả nhận dạng tiếng nói toàn băng và các<br /> băng con<br /> <br /> VI. Kết luận<br /> Qua các kết quả thực nghiệm chứng tỏ việc<br /> loại bỏ bớt các thành phần tần số cao (thông qua<br /> các thao tác lọc, triệt nhiễu hay giảm tốc độ lấy<br /> mẫu,...) không những không làm giảm kết quả<br /> nhận dạng mà ở một mức độ nào đó còn làm tăng<br /> kết quả nhận dạng so với tiếng nói gốc. Đặc biệt<br /> với tiếng nói có nhiễu, nhận dạng trực tiếp với<br /> tiếng nói gốc cho kết quả rất thấp so với các tín<br /> hiệu băng con đã lọc bỏ phần cao tần.<br /> <br /> 4 - 2009<br /> <br /> Các kết quả thực nghiệm cũng cho thấy khi sử<br /> dụng kỹ thuật nhận dạng dùng phân tích băng con,<br /> các băng con khác nhau cần phải được gán các<br /> trọng số khác nhau do chúng ảnh hưởng khác nhau<br /> tới hiệu quả nhận dạng.<br /> Trong nghiên cứu này, chúng tôi chưa tập trung<br /> xây dựng một hệ thống nhận dạng hoàn chỉnh trong<br /> môi trường có nhiễu. Trong các nghiên cứu tiếp<br /> theo, chúng tôi sẽ hoàn thiện về mặt phương pháp<br /> và xây dựng thực nghiệm hệ thống nhận dạng tiếng<br /> Việt liên tục trong môi trường có nhiễu.<br /> Tài liệu tham khảo<br /> [1] Lê Tiến Thường, Hoàng Đình Chiến, Vietnamese<br /> Speech Recognition Applied to Robot Communications,<br /> Au Journal of Technology, Published by Assumption<br /> University (ABAC) Hua Mak, Bangkok, Thailand,<br /> 2004.<br /> [2] Phùng Trung Nghĩa, Nhận dạng tiếng Việt sử dụng<br /> biến đổi Wavelet và mô hình Markov ẩn, Luận văn thạc<br /> sỹ, Đại học Quốc Gia Hà Nội, 2006.<br /> [3] Q.C.Nguyen, Eric Castelli, Ngoc-Yen Pham , Tone<br /> Recognition for Vietnamese,<br /> Euro-Speech 2003,<br /> Geneva.<br /> [4] Thang Tat Vu, Dung Tien Nguyen, Mai Chi Luong,<br /> John-Paul Hosom, Vietnamese Large Vocabulary<br /> Continuous Speech Recognition, EuroSpeech05<br /> International Conference, 2005.<br /> [5] Beng T. TAN, Minyue Fu, Andrew Spray, Phillip<br /> Dermody, The use of wavelet transforms in phoneme<br /> recognition, 1994.<br /> [6] Donoho, D. L, “Denoising via soft thresholding'',<br /> IEEE Trans. Information Theory, 1995.<br /> [7] Long Yan, Gang Liu, and Jun Guo, A Study on<br /> Robustness of Large Vocabulary Mandarin<br /> Chinese Continuous Speech Recognition System Based<br /> on Wavelet Analysis, ICAPR 2005, NCS 3686, pp. 497<br /> – 504, 2005.<br /> [8] M. Krishnan, C. Neophytou, and G. Prescott,<br /> Wavelet transform speech recognition using vector<br /> quantization, dynamic time wraping and articicial<br /> neural networks, 1994.<br /> [9] O. Farooq, S. Datta, Phoneme recognition using<br /> wavelet based features, Information Sciences 150 5–<br /> 15, 2003.<br /> <br /> 4<br /> <br /> 52(4): 47 - 51<br /> <br /> Tạp chí KHOA HỌC & CÔNG NGHỆ<br /> <br /> 4 - 2009<br /> <br /> [10] R. Favero and R. King, “Wavelet Parameterization<br /> for Speech Recognition” Int. Conf. Signal Processing<br /> Applications and Technology, Santa Clara, Vo12 pp.<br /> 1444-1449, 1993.<br /> [11] R. Favero and R. King, Wavelet Parameterization<br /> for Speech Recognition,Variations in Translation and<br /> Scale Parameters International Symposium on Speech,<br /> Image Processing and Neural Networks, Hong Kong,<br /> 13-16 April 1994.<br /> [12] Robert Modic, Borge Lindberg, Bojan Petek,<br /> Comparative Wavelet and MFCC Speech Recognition<br /> Experiments on the Slovenian and English SpeechDat2,<br /> NOLISP-2003.<br /> [13] Steve Young, HTK Speech Recognition Toolkit,<br /> Cambridge University Engineering Department,<br /> http://htk.eng.cam.ac.uk/<br /> [14] S.F. Boll, “Suppression of Acoustic Noise in<br /> Speech<br /> Using<br /> Spectral<br /> Subtraction”,<br /> IEEE<br /> Transactions on Acoustics, Speech, and Signal<br /> Processing, vol. 27, April 1979, pp. 113-120.<br /> [15] Y. Ephraim and D. Malah, “Speech enhancement<br /> using a minimum mean square error log-spectral<br /> amplitude estimator” IEEE Trans. on ASSP, 1985, pp.<br /> 443-445.<br /> <br /> 5<br /> <br />
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2