intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Xây dựng hệ thống đánh thức thiết bị bằng từ khóa tiếng Việt

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:3

15
lượt xem
2
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết Xây dựng hệ thống đánh thức thiết bị bằng từ khóa tiếng Việt xây dựng hệ thống KWS để kích hoạt thiết bị khi phát hiện từ khóa tiếng Việt dựa trên kiến trúc mạng nơ-ron tích chập tiên tiến - CNN.

Chủ đề:
Lưu

Nội dung Text: Xây dựng hệ thống đánh thức thiết bị bằng từ khóa tiếng Việt

  1. Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN: 978-604-82-2981-8 XÂY DỰNG HỆ THỐNG ĐÁNH THỨC THIẾT BỊ BẰNG TỪ KHÓA TIẾNG VIỆT Dương Văn Phụng1,2, Đỗ Văn Hải1 1 Trường Đại học Thủy lợi 2 Trung tâm Không gian Mạng Viettel, email: haidv@tlu.edu.vn 1. GIỚI THIỆU CHUNG hiện từ khóa tiếng Việt dựa trên kiến trúc mạng nơ-ron tích chập tiên tiến - CNN [3]. Với sự phát triển nhanh chóng của các thiết bị di động và các thiết bị Internet of 2. PHƯƠNG PHÁP NGHIÊN CỨU Things (IoT), hệ thống đánh thức thiết bị ngày càng trở nên cần thiết. Hệ thống này Theo Hình 1, một hệ thống KWS được giúp người dùng kích hoạt thiết bị thông chia làm 3 thành phần chính [3]: qua tiếng nói mà không cần sử dụng đến - Trích chọn đặc trưng (Feature extraction). các nút bấm vật lý hay màn hình cảm ứng. - Mạng nơ-ron (Neural network). Cách thức này được gọi là đánh thức thiết - Đánh giá xác suất hậu nghiệm (Posterior bị bằng cách phát hiện từ khóa (KWS - handling). Keyword spotting). Một ví dụ điển hình của hệ thống đánh thức thiết bị là: Google đã triển khai hệ thống cho phép người dùng sử dụng chế độ kích hoạt nhận dạng giọng nói hoàn toàn rảnh tay, được biết đến với từ khóa "Ok Google" hoặc "Hey Google" [2]. Hệ thống luôn luôn lắng Hình 1. Ba thành phần chính của hệ thống nghe để phát hiện từ khóa từ đó kích hoạt keyword spotting [3] thiết bị trước khi khởi động hệ thống nhận Để xây dựng hệ thống KWS cho tiếng dạng tiếng nói. Hệ thống này đã và đang Việt, chúng tôi sử dụng kiến trúc mạng nơ- được Google nghiên cứu và triển khai rất ron tích chập (CNN) [3]. Như mô tả trên thành công đối với ngôn ngữ là tiếng Anh. Hình 2, chúng tôi sử dụng mạng CNN với Tuy nhiên, hiện chưa có nghiên cứu nào cho 2 lớp tích chập, 1 lớp kết nối đầy đủ và 1 lớp hệ thống KWS với ngôn ngữ là tiếng Việt. softmax. Có nhiều phương pháp để xây dựng KWS như: sử dụng mạng nơ-ron sâu (Deep Neural Network - DNN) [1], mạng nhớ ngắn-dài (Long Short Term Memory - LSTM) [4],... Tuy nhiên, thời gian gần đây cách tiếp cận sử dụng mạng nơ-ron tích chập (Convolutional Neural Network - CNN) [3] đã được thử nghiệm là một trong những phương pháp tốt Hình 2. Kiến trúc mạng tích chập cho KWS nhất để xây dựng hệ thống KWS. tiếng Việt Trong bài báo này, chúng tôi xây dựng hệ Để nhận dạng được các từ khóa, tín hiệu thống KWS để kích hoạt thiết bị khi phát âm thanh đầu vào được chuyển đổi sang miền 189
  2. Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN: 978-604-82-2981-8 tần số. Từ đó, trích chọn ma trận đặc trưng V phải từ khóa. Do đó, đầu ra của mạng có kích thước t×f trong đó t và f lần lượt là CNN có tổng cộng 5 đầu ra ứng với 5 lớp cần kích thước của ma trận đặc trưng theo thời nhận dạng. gian và tần số. Chúng ta sử dụng n cửa sổ có Dữ liệu huấn luyện được chuẩn bị theo kích thước m×r. Do đó, một ma trận trọng số những cách sau đây: W (m×r)×n được tích hợp với đầu vào V. Dữ liệu về 3 lớp từ khóa: mỗi từ khóa Chia ma trận trọng số với kích thước m×r, được ghi âm thành 250 file audio từ nhiều trong đó m < t và r < f. Việc chia ma trận người nói khác nhau và thu âm ở môi trường trọng số này giúp mô hình hóa mối tương làm việc thông thường. Mỗi file có độ dài quan cục bộ trong tín hiệu đầu vào. Ma trận trung bình 1 giây. trọng số có n đơn vị ẩn, nghĩa là có n bản đồ Dữ liệu về lớp UNK: 100.000 file có độ đặc trưng (feature maps). Bộ lọc (filter) có dài 1 giây thể hiện cách nói của các từ không bước chuyển s theo thời gian và p theo tần số. phải là từ khóa được lấy trên Youtube. Sau hoạt động tích chập ta thu được n feature Dữ liệu lớp SIL: 18.000 file audio có độ maps có kích thước: dài 1 giây thể hiện những âm thanh không t − m +1 f − r +1 phải là tiếng nói như nhiễu, ồn, âm nhạc của × s v môi trường. Những dữ liệu này được ghi âm Sau khi thực hiện tích chập, lớp max- và lấy từ Youtube. pooling giúp loại bỏ sự biến đổi trong không Tập dữ liệu trên được chia theo tỉ lệ gian tần số thời gian do kiểu nói, biến dạng 80:10:10 tương ứng với tập huấn luyện, tập kênh,... Với kích thước pooling là p×q ta phát triển và tập kiểm tra. được n feature maps có kích thước: Để trích chọn đặc trưng của tiếng nói, t − m +1 f − r +1 × chúng tôi sử dụng các khung có kích thước s. p v.q 25ms và khoảng cách giữa 2 khung liên tiếp là 10ms. Với mỗi một khung, 40 đặc trưng MFCC được trích chọn. 3.2. Kết quả Kết quả thử nghiệm trên tập dữ liệu kiểm thử với các ngưỡng khác nhau được biểu diễn trên Hình 4. Trong đó: - Tỉ lệ False Alarm: báo động nhầm, tức từ Hình 3. Mô tả lớp tích chập không phải là từ khóa bị nhận nhầm là và lớp max-pooling từ khóa. Lớp kết nối đầy đủ và lớp softmax thực - Tỉ lệ Miss Detection: từ khóa nhưng bị hiện vote để phân loại các từ khóa vào các nhận dạng không phải là từ khóa. lớp đào tạo. - Ngưỡng: Là mức giới hạn, khi sự tự tin (confidence) của đầu ra lớn hơn hoặc 3. KẾT QUẢ NGHIÊN CỨU bằng mức giới hạn này thì hệ thống được 3.1. Đặt bài toán đánh thức. Một hệ thống KWS tốt cần cả 2 tiêu chí Chúng tôi xây dựng hệ thống KWS dựa trên phải nhỏ. Như trên Hình 4, tại ngưỡng trên 3 từ khóa: "chào bót", "hai bót", "xin lựa chọn là 0,89, tỷ lệ false alarm là 0,00007 chào" để đánh thức thiết bị. Ngoài 3 lớp ứng và miss detection là 0,09 tức 100.000 lần thì với 3 từ khóa kể trên, chúng tôi bổ sung thêm chỉ có 7 lần bị nhận nhầm là từ khóa và 10 2 lớp: "SIL-silence": không có tiếng nói, lần gọi thiết bị chỉ chưa đến 1 lần thiết bị "UNK-unknown": có tiếng nói nhưng không không được kích hoạt. 190
  3. Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN: 978-604-82-2981-8 3.3. Tích hợp trên thiết bị di động Android 4. KẾT LUẬN Chúng tôi đã tích hợp thành công hệ thống Trong bài báo này, chúng tôi đã trình bày đánh thức thiết bị bằng từ khóa tiếng Việt lên mô hình mạng nơ-ron tích chập để xây dựng thiết bị di động chạy hệ điều hành Android. hệ thống đánh thức thiết bị cho tiếng Việt. Ứng dụng sử dụng 3 từ khóa mà chúng ta đã Kết quả thử nghiệm cho thấy tỷ lệ sai số là đào tạo ở phần trên: "chào bót", "hai bót", khá thấp. Bên cạnh đó, chúng tôi đã áp dụng "xin chào". Ứng dụng sử dụng service chạy và tích hợp thành công trên thiết bị di động ngầm, hệ thống sẽ lập tức được đánh thức và Android. Phù hợp với các ứng dụng trợ lý ảo mở ứng dụng khi phát hiện 1 trong 3 từ khóa nói riêng và các ứng dụng Android nói chung được gọi. sử dụng chức năng đánh thức bằng giọng nói tiếng Việt. Từ nghiên cứu này, chúng ta hoàn toàn có thể tích hợp lên các thiết bị IoT để đánh thức, kích hoạt hay thậm chí là điều khiển các thiết bị trong nhà bằng chính từ khóa mà chúng ta đào tạo. Có thể đào tạo các từ khóa độc lập để gán cho các chức năng điều khiển thiết bị IoT mà không cần các hệ thống nhận dạng giọng nói phức tạp. Ví dụ: "Bật quạt", "Tắt Hình 4. Biểu đồ thể hiện False Alarm quạt", "Bật đèn", "Bật bình nóng lạnh" , "Mở và Miss Detection theo ngưỡng. điều hòa"... Ngưỡng cân bằng cả 2 yếu tố False alarm 5. TÀI LIỆU THAM KHẢO và Miss detection của mô hình chúng tôi đã [1] G. Chen C. Parada, and G. Heigold. 2014. đào tạo là 0,89. Chúng ta có thể điều chỉnh “Small-footprint Keyword Spotting using ngưỡng phù hợp với từng yêu cầu khác nhau Deep Neural Networks,” in Proc. ICASSP. bằng cách điều chỉnh thanh seek-bar trên giao [2] J. Schalkwyk, D. Beeferman, F. Beaufays, diện ứng dụng Android. B. Byrne, C. Chelba, M. Cohen, M. Hình 5 demo ứng dụng của chúng tôi, hình Kamvar, and B. Strope. 2010. ““Your word bên trái là khi chưa phát hiện từ khóa. Sau is my command”: Google search by voice: khi phát hiện từ khóa, chúng ta sẽ có giao A case study,” in Advances in Speech diện như hình bên phải. Recognition, A. Neustein, Ed. Springer US, pp. 61–90. [3] T. N. Sainath, and C. Parada. 2015. “Convolutional Neural Networks for Small- footprint Keyword Spotting,” in Proc. INTERSPEECH, pp. 1478-1482. [4] T. N. Sainath, O. Vinyals, A. Senior, and H. Sak. 2015. “Convolutional, Long Short- Term Memory, Fully Connected Deep Neural Networks,” in Proc. ICASSP. Hình 5. Demo ứng dụng Android được tích hợp hệ thống đánh thức thiết bị bằng từ khóa tiếng Việt 191
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
4=>1