Giới thiệu tài liệu
Đề tài này tập trung vào việc xác minh giọng nói tiếng Việt sử dụng học sâu đa nhiệm. Mục tiêu là xây dựng một ứng dụng xác minh giọng nói tiếng Việt, đồng thời phát hiện lệnh, nhận dạng giọng nói giả mạo và xác minh người nói. Đề tài cũng thu thập một tập dữ liệu âm thanh tiếng Việt để phục vụ cho nghiên cứu.
Đối tượng sử dụng
sinh viên, nhà nghiên cứu, chuyên gia trong lĩnh vực xử lý ngôn ngữ tự nhiên và bảo mật thông tin
Nội dung tóm tắt
Đề tài nghiên cứu về xác minh giọng nói tiếng Việt sử dụng học sâu đa nhiệm, nhằm xây dựng một ứng dụng xác minh giọng nói tiếng Việt có khả năng phát hiện lệnh, nhận dạng giọng nói giả mạo và xác minh người nói. Đề tài cũng tập trung vào việc thu thập và xây dựng một bộ dữ liệu âm thanh tiếng Việt chất lượng cao, phục vụ cho nghiên cứu và phát triển các ứng dụng liên quan. Các phương pháp học sâu tiên tiến như mạng nơ-ron sâu (DNN), mạng nơ-ron tích chập (CNN) và học chuyển giao (Transfer Learning) được áp dụng để xây dựng mô hình Vi-LMM và Vi-LMM-S, có khả năng học chung ba nhiệm vụ chính: phát hiện lệnh, nhận dạng giọng nói giả và xác minh người nói. Đề tài cũng trình bày chi tiết về quá trình xây dựng bộ dữ liệu, bao gồm thu thập dữ liệu từ người tham gia, tổng hợp giọng nói bằng trí tuệ nhân tạo và kiểm tra, sửa đổi dữ liệu. Các thử nghiệm được thực hiện để đánh giá hiệu suất của mô hình Vi-LMM và Vi-LMM-S so với các mô hình khác, cho thấy khả năng cạnh tranh và hiệu quả của các mô hình đề xuất. Ứng dụng xác minh giọng nói được xây dựng trên nền tảng website, cung cấp các chức năng như ghi âm, tải file âm thanh, xem cơ sở dữ liệu, thêm file giọng nói, xóa người nói, nhận khẩu lệnh và xác thực giọng nói người dùng. Đề tài kết luận rằng việc phát triển tập dữ liệu và ứng dụng xác minh giọng nói tiếng Việt có ý nghĩa quan trọng trong việc thúc đẩy nghiên cứu và ứng dụng công nghệ này trong thực tiễn.