Sử dụng mảng micro để tăng cường chất lượng nhận dạng tiếng nói

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:3

Thêm vào BST

Báo xấu

11
lượt xem 4
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết Sử dụng mảng micro để tăng cường chất lượng nhận dạng tiếng nói giới thiệu về mảng micro và ứng dụng của nó trong bài toán nhận dạng tiếng nói với khoảng cách xa. Kết quả thử nghiệm với bộ dữ liệu tiếng Việt cho thấy việc sử dụng mảng micro kết hợp với thuật toán beamforming cho kết quả tốt hơn nhiều khi sử dụng micro đơn.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Sử dụng mảng micro để tăng cường chất lượng nhận dạng tiếng nói

Tuyển tập Hội nghị Khoa học thường niên năm 2022. ISBN: 978-604-82-7001-8 SỬ DỤNG MẢNG MICRO ĐỂ TĂNG CƯỜNG CHẤT LƯỢNG NHẬN DẠNG TIẾNG NÓI Phạm Thanh Bình1, Nguyễn Thị Phương Thảo1, Đỗ Văn Hải1 1 Trường Đại học Thủy lợi 1. MỞ ĐẦU cứu đã khá lâu, trước tiên được áp dụng cho các tín hiệu băng hẹp như radar, sonar và sau Chất lượng của các hệ thống nhận dạng này được áp dụng cho các tín hiệu băng rộng tiếng nói hiện nay đã đạt chất lượng khá tốt. như tiếng nói (lưu ý rằng khái niệm băng rộng, Tuy nhiên trong những trường hợp như loa băng hẹp ở đây dựa trên tỷ số giữa băng thông thông minh, nhà thông minh, thu âm cuộc của tín hiệu trên tần số trung tâm). Tùy vào họp thì khoảng cách giữa người nói và micro ứng dụng, việc bố trí các microphone có thể thường ở khá xa nhau lên đến hàng mét. Khi theo dạng đường thẳng, đường tròn, hình chữ đó độ chính xác của hệ thống nhận dạng bị nhật hay hình cầu (Hình 1). giảm rõ rệt. Để giải quyết vấn đề trên, có một cách tiếp cận là sử dụng mảng micro (microphone array). Mảng micro là một hệ thống gồm nhiều micro để thu tín hiệu âm Hình 1. Một số cách bố trí mảng micro. thanh, mảng micro có những ưu điểm nổi Do khoảng cách từ các micro đến nguồn bật so với micro đơn đặc biệt khi nguồn âm âm là khác nhau nên mỗi micro sẽ thu được có khoảng cách xa như: âm thanh với các độ trễ khác nhau. Để đơn  Xác định nguồn âm. giản hóa, giả sử chúng ta có một mảng micro  Beamforming. tuyến tính (các micro nằm trên 1 đường thẳng  Giảm nhiễu. và cách đều nhau một khoảng cách d), giả  Khử vang. thiết rằng nguồn âm ở khá xa (far-field) mảng Trong nghiên cứu này, chúng tôi sẽ thử micro do đó sóng âm đến các micro dưới nghiệm và đánh giá việc sử dụng mảng micro dạng các mặt phẳng song song thay vì các để tăng cường chất lượng nhận dạng tiếng nói hình cầu (Hình 2a). Tín hiệu tổng hợp của cho bài toán tiếng Việt. đầu ra mảng micro có M micro đơn là: M 1 2. GIỚI THIỆU VỀ MẢNG MICRO y  n   x  n  m  m 0 Hệ thống thính giác của con người bao gồm 2 tai có thể định vị được hướng của nguồn âm trong đó: độ trễ Ƭ giữa 2 micro liền nhau có thanh, lọc nhiễu, nghe được từ nguồn âm từ thể được tính toán dựa vào vận tốc truyền âm khoảng cách xa,… Tuy nhiên, hệ thống thính thanh v và góc tới của nguồn âm θ (Hình 2b). giác của con người phức tạp hơn rất nhiều so d cos    với các thiết bị thu âm hiện nay. Do vậy, để v tăng hiệu quả của việc thu âm, chúng ta có thể v phụ thuộc vào nhiệt độ môi trường, sử dụng nhiều hơn 1 micro gọi là mảng micro nhiệt độ càng cao thì v càng lớn. Ở nhiệt độ (microphone array). Đây là một hướng nghiên phòng (24oC), v cỡ 345m/s. 97
Tuyển tập Hội nghị Khoa học thường niên năm 2022. ISBN: 978-604-82-7001-8 Nếu ta phát một xung tín hiệu δ[n] nguồn âm tới từ hướng khác. Như chỉ ra trên (xung Đi-rắc) từ nguồn âm, ta sẽ thu được Hình 3, mảng micro tuyến tính có búp sóng đáp ứng xung h[n] của hệ thống mảng micro. (beamwidth) rộng ở tần số thấp và hẹp ở tần Dùng biến đổi Fourier rời rạc ta thu được đáp số cao. ứng tần số H(ω,θ). Khi ta xét tại một tần số ω, thì đáp ứng tần số lúc này chỉ còn phụ 3. KỸ THUẬT BEAMFORMING thuộc vào góc tới θ và được gọi là directivity Như mô tả ở phần trước, với mảng micro pattern hay beampattern. tuyến tính ta có búp sóng chính lớn và vuông góc với mặt phẳng của mảng micro (góc 90o và 270o, Hình 3). Trong phần này chúng ta tìm hiểu về phương pháp lái búp sóng chính theo hướng mong muốn, kỹ thuật này gọi là beamforming. Để có thể lái búp sóng với một mảng micro có phân bố và số lượng micro bất kì, tín hiệu nhận được bởi các micro trước tiên được làm trễ để triệt tiêu sai khác do quãng đường sóng âm đi tới khác nhau. Kỹ thuật Hình 2. Mảng micro tuyến tính và nguồn âm này được gọi là delay-and-sum beamforming có thể được biểu diễn như sau: M 1 y  n    m xm  n   m  m 0 trong đó: αm là trọng số được áp dụng cho micro m. Cách đơn giản và thông dụng nhất là lựa chọn các trọng số giống nhau và bằng 1/M. Khi đó phương pháp này được gọi là unweighted delay-and-sum beamforming. Bây giờ chúng ta chỉ cần ước lượng thời gian trễ của các mic, nó cũng tương đương việc xác định hướng của nguồn âm. Time difference of arrival (TDOA) tại micro là phương pháp phổ biến nhất trong việc xác định nguồn âm do tính hiệu quả và ổn định của nó. Việc tính toán độ trễ giữa các micro có thể đơn giản dựa vào việc tính toán tương Hình 3. Beampattern của một mảng micro quan chéo (cross-correlation) giữa tín hiệu tuyến tính với 4 tần số khác nhau. Đường thu được từ các micro. màu xanh liền là beampattern ứng với mảng micro có 4 micro, đường màu đỏ đứt là mảng 4. THỬ NGHIỆM micro có 8 micro. Khoảng cách giữa 2 micro Chúng tôi sử dụng mảng micro tên gọi kề nhau, d trong cả hai trường hợp là 7cm Tamago Microphone Array bao gồm 8 Ta có thể thấy rằng, bằng việc sử dụng microphone bố trí xung quanh một khối nhựa mảng micro thay vì 1 mico đơn, ta có thể lựa hình cầu. chọn được hướng nguồn âm mong muốn Để xây dựng bộ dữ liệu thử nghiệm chúng nghe, trong khi giảm sự ảnh hưởng từ các tôi sử dụng một chiếc loa phát ra các file 98
Tuyển tập Hội nghị Khoa học thường niên năm 2022. ISBN: 978-604-82-7001-8 tiếng nói được ghi âm sẵn để cố định trong Từ Bảng 1 ta có thể thấy rằng sai số tăng một phòng kín. Dữ liệu tiếng nói này được lên rõ rệt khi tăng khoảng cách từ loa đến ghi âm từ các đài phát thanh VOV và đài mảng micro. Trong các micro thì micro 3 và truyền hình VTV. Với mỗi lần ghi âm, 4 cho sai số thấp nhất. Điều này có thể lý giải khoảng cách và vị trí của mảng micro được là các micro 3 và 4 hướng về phía loa trong giữ cố định với loa. Tổng cộng 4 lần ghi âm suốt quá trình thu âm. Với cột cuối cùng chỉ được thực hiện với các khoảng cách lần lượt kết quả của beamforming, ta thấy rằng sai số là 0.5m, 1m, 2m, 5m. Chú ý rằng, âm lượng sau khi sử dụng beamforming thấp hơn nhiều của loa cũng như các thiết lập khác trong cả 4 so với các micro đơn kể cả best micro đặc lần đều không đổi, ngoại trừ khoảng cách biệt với các khoảng cách xa. Điều này thể giữa loa và mảng micro. hiện ưu điểm của việc sử dụng mảng micro Sau khi thu âm, ta có bộ dữ liệu 12 phút so với micro đơn trong việc thu âm từ xa, cho mỗi lần ghi âm bao gồm trên 200 câu nói ngoài ra ta không cần quan tâm đến nguồn khác nhau của cả giới tính nam và nữ cũng âm phát ra từ đâu trong khi với micro đơn ta như đa dạng về vùng miền. Dữ liệu này sẽ phải hướng micro về phía nguồn âm để thu được dùng để đánh giá chất lượng của hệ được âm thanh tốt nhất. thống nhận dạng tiếng nói. Với mỗi bộ thu âm, chúng ta thu được dữ liệu từ 8 micro độc 5. KẾT LUẬN lập và dữ liệu sau khi chạy thuật toán Trong bài báo này, chúng tôi giới thiệu về beamforming. mảng micro và ứng dụng của nó trong bài Kết quả sai số từ (Word Error Rate) được toán nhận dạng tiếng nói với khoảng cách xa. thể hiện trên Bảng 1. Trong đó các micro từ 1 Kết quả thử nghiệm với bộ dữ liệu tiếng Việt đến 8, best micro là micro cho kết quả tốt nhất cho thấy việc sử dụng mảng micro kết hợp (sai số thấp nhất) và cột cuối cùng là sai số của với thuật toán beamforming cho kết quả tốt beamforming. Có 4 bộ dữ liệu được sử dụng hơn nhiều khi sử dụng micro đơn. ứng với khoảng cách 0.5m, 1m, 2m, 5m. Bảng 1. Sai số từ với các tập dữ liệu và các micro khác nhau Khoảng Mic1 Mic2 Mic 3 Mic 4 Mic 5 Mic 6 Mic 7 Mic 8 Best Beamforming cách mic 0.5m 15.91 11.13 9.00 9.14 10.42 13.55 14.52 19.85 9.00 8.95 1.0 26.49 18.48 16.38 16.72 19.82 26.49 26.86 30.24 16.38 12.42 2.0 41.43 28.85 23.31 25.23 32.13 40.38 45.26 47.52 23.31 17.72 5.0 53.37 47.57 45.92 43.97 47.68 51.67 53.74 53.37 43.97 33.05 5. TÀI LIỆU THAM KHẢO [2] Pattarapong Rojanasthien, “Microphone Array and Beamforming”, 2008. [1] Seltzer, M. L. “Microphone array [3] Rajesh Hegde, “Microphone Array processing for robust speech recognition”. Processing for Speech Enhancement and CMU, PhD Thesis, 2003. Source Separation”, 2017. 99