Tóm tắt Luận án Tiến sĩ Khoa học máy tính: Nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên theo hướng thích nghi, ứng dụng với tiếng Mường

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:26

Thêm vào BST

Báo xấu

10
lượt xem 4
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án "Nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên theo hướng thích nghi, ứng dụng với tiếng Mường" nhằm phát triển một hệ thống tổng hợp tiếng nói cho các ngôn ngữ thiếu nguồn tài nguyên, tập trung vào tiếng Mường, bằng cách sử dụng các kỹ thuật thích nghi... Mời các bạn cùng tham khảo!

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Tóm tắt Luận án Tiến sĩ Khoa học máy tính: Nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên theo hướng thích nghi, ứng dụng với tiếng Mường

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI Phạm Văn Đồng NGHIÊN CỨU TỔNG HỢP TIẾNG NÓI CHO NGÔN NGỮ ÍT NGUỒN TÀI NGUYÊN THEO HƯỚNG THÍCH NGHI, ỨNG DỤNG VỚI TIẾNG MƯỜNG Ngành: Khoa học máy tính Mã số: 9480101 TÓM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Hà Nội - 2023
Công trình được hoàn thành tại : Đại học Bách khoa Hà Nội Người hướng dẫn khoa học: 1. TS. Mạc Đăng Khoa 2. PGS. TS. Trần Đỗ Đạt Phản biện 1: …………………………………………… Phản biện 2: …………………………………………… Phản biện 3: …………………………………………… Luận án được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Đại học Bách khoa Hà Nội họp tại Đại học Bách khoa Hà Nội Vào hồi…...giờ…...phút, ngày…… tháng……năm …… Có thể tìm hiểu luận án tại thư viện : 1. Thư viện Tạ Quang Bửu – ĐHBK Hà Nội. 2. Thư viện Quốc gia Việt Nam
GIỚI THIỆU Động lực nghiên cứu Công nghệ xử lý giọng nói ngày nay rất cần thiết trong nhiều khía cạnh tương tác giữa người và máy. Nhiều hệ thống tương tác bằng giọng nói gần đây đã được giới thiệu, cho phép người dùng giao tiếp với các thiết bị trên nhiều nền tảng khác nhau, chẳng hạn như điện thoại thông minh (Apple Siri, Google Cloud, Amazon Alexa, v.v.), ô tô thông minh (BMW, Ford, v.v.), và nhà thông minh. Trong các hệ thống này, một trong những thành phần quan trọng là tổng hợp giọng nói hoặc chuyển văn bản thành giọng nói (Text-To-Speech - TTS), có thể chuyển đổi văn bản đầu vào thành giọng nói. Phát triển hệ thống tổng hợp tiếng nói cho một ngôn ngữ không chỉ là việc thực hiện các kỹ thuật xử lý tiếng nói mà còn đòi hỏi các nghiên cứu về ngôn ngữ như ngữ âm, âm vị học, cú pháp và ngữ pháp. Theo số liệu thống kê trong ấn bản thứ 25 của Ethnologue1 (được coi là nguồn thông tin toàn diện nhất về thống kê ngôn ngữ), có khoảng 7.151 ngôn ngữ đang tồn tại trên thế giới, thuộc 141 họ ngôn ngữ, trong đó có khoảng 2.982 ngôn ngữ không có chữ viết. Một số ngôn ngữ chưa được mô tả trong tài liệu học thuật, chẳng hạn như tiếng địa phương của các dân tộc thiểu số. Các phương pháp học máy dựa trên dữ liệu lớn không thể áp dụng ngay cho các ngôn ngữ có tài nguyên giới hạn. Đặc biệt với các ngôn ngữ không có chữ viết, các công nghệ xử lý ngôn ngữ hiện tại hoàn toàn không thể áp dụng trực tiếp. Lĩnh vực xử lý ngôn ngữ ít tài nguyên/chưa có chữ viết, mới bắt đầu được chú ý trong vài năm trở lại đây và chưa có nhiều kết quả. Tuy nhiên, những kết quả nghiên cứu của lĩnh vực này là rất cần thiết bởi ngoài việc đưa công nghệ truyền thông bằng giọng nói đến với cộng đồng dân tộc thiểu số, các sản phẩm ứng dụng công nghệ này cũng rất cần thiết. Nó cũng góp phần bảo tồn các ngôn ngữ đang dần bị biến mất. Đối với lĩnh vực ngôn ngữ và xử lý tiếng nói của tiếng Việt, các đơn vị nghiên cứu trong nước đã chú trọng đến nhiều khía cạnh, từ các vấn đề xử lý ngôn ngữ tự nhiên như xử lý văn bản, tách phần cú pháp và ngữ nghĩa đến các vấn đề xử lý tiếng nói như tổng hợp và nhận dạng. Tuy nhiên, vấn đề xử lý ngôn ngữ và tiếng nói, bao gồm cả hệ thống tổng hợp tiếng nói cho các ngôn ngữ thiểu số không có hệ thống chữ viết tại Việt Nam, chưa nhận được nhiều sự chú ý do sự khan hiếm của nguồn dữ liệu như dữ liệu văn bản song ngữ và dữ liệu tiếng nói, cũng như thiếu các nghiên cứu ngôn ngữ liên quan. Tiếng Mường có những đặc điểm ngôn ngữ riêng biệt khiến cho việc phát triển hệ thống tổng hợp tiếng nói trở nên khó khăn, chẳng hạn như tính thanh điệu và cấu trúc âm vị phức tạp. Tuy nhiên tiếng Mường là ngôn ngữ họ gần với tiếng Việt, luận án này tập trung vào phát triển hệ thống tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên, tập trung ứng dụng cụ thể cho tiếng Mường, một ngôn ngữ thiểu số tại Việt Nam mà hiện nay còn chưa có chữ viết chính thức (chỉ có phương ngữ Mường Hòa Bình có hệ thống chữ viết vào năm 2016). Lĩnh vực nghiên cứu này không chỉ mới mẻ tại Việt Nam mà còn trên thế giới, và việc phát triển hệ thống tổng hợp tiếng nói cho tiếng Mường không chỉ cung cấp một cống hiến quan trọng cho việc bảo tồn, mà còn kích thích sự phát triển của ngôn ngữ này, ngôn ngữ đang đứng trước nguy cơ bị tuyệt chủng. Các thách thức Tổng hợp giọng nói cho các ngôn ngữ ít tài nguyên đặt ra nhiều thách thức lớn, chủ yếu do nguồn dữ liệu và kiến thức ngôn ngữ. Tài nguyên hạn chế làm cho việc huấn luyện các hệ thống tổng hợp tiếng nói và đạt được chất lượng tổng hợp giọng nói cao trở nên khó khăn. Hơn nữa, thiếu các nghiên cứu ngôn ngữ của các ngôn ngữ này càng làm tình hình trở nên khó khăn hơn, vì chúng cung cấp thông tin quan trọng cho việc xây dựng các hệ thống tổng hợp tiếng nói. Mục tiêu 1 https://www.ethnologue.com/ethnoblog/gary-simons/welcome-25th-edition 1
Luận án này nhằm phát triển một hệ thống tổng hợp tiếng nói cho các ngôn ngữ thiếu nguồn tài nguyên, tập trung vào tiếng Mường, bằng cách sử dụng các kỹ thuật thích nghi. Chúng tôi phân loại các ngôn ngữ thiếu nguồn tài nguyên thành hai nhóm và cho mỗi nhóm, chúng tôi cố gắng áp dụng các phương pháp phù hợp để tạo ra hệ thống tổng hợp tiếng nói: • Nhóm ngôn ngữ thiếu nguồn tài nguyên có hệ thống chữ viết: Sử dụng phương pháp giả lập đầu vào và phương pháp thích nghi để tăng cường tài nguyên ngôn ngữ có sẵn. • Nhóm ngôn ngữ thiếu nguồn tài nguyên không có hệ thống chữ viết: Đề xuất sử dụng các biểu diễn trung gian hoặc sử dụng văn bản từ các ngôn ngữ giàu nguồn lực để thu hẹp khoảng cách trong tài nguyên ngôn ngữ. Như vậy, luận án này nhằm làm cho công nghệ tổng hợp tiếng nói trở nên dễ dàng tiếp cận hơn đối với các ngôn ngữ nghèo tài nguyên, mở rộng các ứng dụng của nó và thúc đẩy giao tiếp giữa các cộng đồng ngôn ngữ đa dạng. Điều này làm cho việc phát triển các ứng dụng cho đài phát thanh tiếng Mường và báo tiếng Mường từ văn bản tiếng Việt trở nên khả thi. Giới hạn và phạm vi nghiên cứu Luận án này sẽ phân loại các ngôn ngữ thiếu nguồn lực thành hai loại: Có hệ thống chữ viết và hệ thống chưa có chữ viết. Tiếng Mường sẽ là đối tượng nghiên cứu trong cả hai trường hợp: • Có hệ thống chữ viết: Sẽ nghiên cứu về phương ngữ Mường Bi Hòa Bình, vì phương ngữ này có hệ thống chữ viết từ năm 2016. • Không có hệ thống chữ viết: Sẽ nghiên cứu về phương ngữ Mường Phú Thọ, vì nó chưa có hệ thống chữ viết, để đối sánh kết quả, phương ngữ Mường Bi cũng được thí nghiệm. Ở các khu vực khác, người Mường hiện nay không sử dụng chữ viết. Họ thường đọc trực tiếp từ văn bản tiếng Việt và chuyển đổi nó thành giọng nói tiếng Mường để phát thanh và giao tiếp. Nghiên cứu này nhằm giải quyết những thách thức này và cải thiện tính khả dụng của công nghệ tổng hợp tiếng nói cho cả trường hợp tiếng Mường có hệ thống chữ viết và trường hợp tiếng Mường chưa có hệ thống chữ viết. Ngoài ra, luận án này được thực hiện trong phạm vi và phối hợp với đề tài ĐLCN.20/17: "Nghiên cứu xây dựng hệ dịch tự động văn bản tiếng Việt ra tiếng nói tiếng Mường, hướng đến áp dụng cho các ngôn ngữ dân tộc thiểu số chưa có chữ viết ở Việt Nam". Chúng tôi đã tham gia và sử dụng một số phần việc của dự án này bao gồm: • Dữ liệu ghi âm giọng nói từ cả hai phiên bản Mường Hòa Bình và Mường Phú Thọ. • Công cụ dịch máy chuyển đổi văn bản tiếng Việt sang biểu diễn trung gian của tiếng Mường. Ngược lại, các kết quả nghiên cứu của luận án này đã được áp dụng và tích hợp thành công vào dự án trên, chứng tỏ giá trị thực tiễn của công việc được thực hiện trong luận án này. Đóng góp Luận án này đề xuất những đóng góp quan trọng sau đây: • Đóng góp đầu tiên: Đề xuất và thử nghiệm thành công một phương pháp mới trong việc tổng hợp tiếng nói cho những ngôn ngữ không có hệ thống chữ viết, với trường hợp ứng dụng cụ thể là tiếng Mường. • Đóng góp thứ hai: Nghiên cứu và thực nghiệm phương pháp tổng hợp tiếng nói thích nghi cho ngôn ngữ ít nguồn tài nguyên có hệ thống chữ viết ứng dụng cho tiếng Mường Bi, tỉnh Hòa Bình. Ngoài hai đóng góp chính đã đề cập ở trên, chúng tôi cũng nghiên cứu so sánh tiếng Việt và tiếng Mường, đưa ra nhiều kết luận có giá trị cho các nghiên cứu ngữ âm học và xử lý ngôn ngữ 2
tự nhiên. Chúng tôi đã chia sẻ nhiều tài liệu tham khảo và công cụ xử lý văn bản và từ vựng trong tiếng Việt và tiếng Mường. Cấu trúc của luận án Luận án được phân thành ba phần và sáu chương, được tổ chức như sau: PHẦN 1: NỀN TẢNG VÀ CÔNG TRÌNH LIÊN QUAN • Chương 1, có tiêu đề "Tổng quan về TTS và TTS cho ngôn ngữ có ít nguồn tài nguyên": Chương này cung cấp một bản tóm tắt về các nghiên cứu hiện có để có được một hiểu biết toàn diện về tổng hợp tiếng nói. Các hướng nghiên cứu cho tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên cũng được đưa ra trong chương này. • Chương 2, có tiêu đề "Ngôn ngữ tiếng Việt và tiếng Mường": Chương này trình bày nghiên cứu về âm vị học của tiếng Việt và tiếng Mường. Đưa ra đối sánh ngữ âm của cặp ngôn ngữ Việt – Mường. PHẦN 2: TỔNG HỢP GIỌNG NÓI CHO TIẾNG MƯỜNG TRONG TRƯỜNG HỢP NGÔN NGỮ NÀY CÓ HỆ THỐNG CHỮ VIẾT • Chương 3, có tiêu đề "Tạo TTS Mường dựa trên việc giả lập đầu vào của TTS tiếng Việt", trình bày đề xuất để tổng hợp giọng nói tiếng Mường bằng cách thích nghi các hệ thống tổng hợp tiếng nói tiếng Việt hiện có. Phương pháp này có thể được áp dụng thử nghiệm để nhanh chóng tạo ra các hệ thống tổng hợp tiếng nói cho các ngôn ngữ thiểu số dân tộc khác của Việt Nam. • Chương 4, có tiêu đề "Học chuyển giao giữa các ngôn ngữ cho tổng hợp giọng nói tiếng Mường": Trong chương này, chúng tôi sử dụng và thử nghiệm các phương pháp cho tổng hợp tiếng nói tiếng Mường sử dụng các tài nguyên tiếng Việt. Chúng tôi tập trung vào học chuyển giao bằng cách tạo hệ thống tổng hợp tiếng nói tiếng Việt, huấn luyện thêm với các tập dữ liệu khác nhau của tiếng Mường và đánh giá kết quả tổng hợp tiếng nói tiếng Mường tương ứng. PHẦN 3: TỔNG HỢP GIỌNG NÓI CHO TIẾNG MƯỜNG TRONG TRƯỜNG HỢP TIẾNG MƯỜNG LÀ NGÔN NGỮ CHƯA CÓ HỆ THỐNG CHỮ VIẾT • Chương 5, có tiêu đề "Tạo giọng nói cho ngôn ngữ có ít nguồn tài nguyên không có hệ thống chữ viết trực tiếp từ văn bản của ngôn ngữ giàu tài nguyên": Trong chương này, chúng tôi trình bày phương pháp của chúng tôi để giải quyết các thách thức tổng hợp tiếng nói cho ngôn ngữ có ít nguồn tài nguyên không có hệ thống chữ viết bằng cách tổng hợp giọng nói L2 trực tiếp từ văn bản L1. Hệ thống được đề xuất được xây dựng bằng công nghệ mạng nơ-ron end-to-end cho từ văn bản đến giọng nói. Chúng tôi sử dụng tiếng Việt như L1 và tiếng Mường như L2 trong các thí nghiệm của mình. • Chương 6, có tiêu đề "Tổng hợp tiếng nói cho ngôn ngữ có ít nguồn tài nguyên không có hệ thống chữ viết sử dụng biểu diễn trung gian": Chương này đề xuất sử dụng biểu diễn âm vị học do mối quan hệ gần gũi của nó với giọng nói trong ngôn ngữ. Phương pháp được đề xuất được áp dụng cho cặp ngôn ngữ tiếng Việt và tiếng Mường. Văn bản tiếng Việt được dịch sang biểu diễn âm vị học trung gian của hai tiếng nói phương ngữ của tiếng Mường: Mường Bi - Hòa Bình và Mường Tân Sơn - Phú Thọ. Đánh giá cho thấy chất lượng tổng hợp tiếng nói tương đối cao cho cả hai phương ngữ. PHẦN 1 : NỀN TẢNG VÀ CÔNG TRÌNH LIÊN QUAN 3
Chương 1. Tổng quan về TTS và TTS cho ngôn ngữ ít tài nguyên Phần này cung cấp một cái nhìn tổng quan ngắn gọn về tổng hợp tiếng nói và ứng dụng của nó trong các ngôn ngữ có ít nguồn tài nguyên. Nó nhấn mạnh các thách thức đối mặt khi phát triển các hệ thống tổng hợp tiếng nói cho các ngôn ngữ với tài nguyên và dữ liệu hạn chế. Ngoài ra, nó giới thiệu các phương pháp và kỹ thuật khác nhau để giải quyết những thách thức này và cải thiện chất lượng tổng hợp tiếng nói cho các ngôn ngữ có ít nguồn tài nguyên. 1.1. Tổng quan về tổng hợp tiếng nói Các hệ thống tổng hợp tiếng nói chuyển đổi văn bản thành giọng nói có thể nghe được bằng cách sử dụng các thuật toán tiên tiến và các kỹ thuật học máy, mô phỏng các đặc điểm của giọng nói như âm sắc, ngữ điệu và ngữ intonation. Công nghệ tổng hợp tiếng nói đã phát triển đáng kể theo thời gian, từ VODER của những năm 1950 đến các hệ thống tổng hợp tiếng nói dựa trên học sâu và mạng nơ-ron end-to-end hiện nay. Ứng dụng của công nghệ tổng hợp tiếng nói rất rộng, bao gồm công nghệ hỗ trợ, công cụ học tập, giải trí và trợ lý ảo. Kiến trúc của hệ thống tổng hợp tiếng nói thường bao gồm các thành phần xử lý văn bản, chuyển đổi từ chữ viết thành phát âm, mô hình ngữ điệu và tổng hợp giọng nói. Xử lý văn bản là rất quan trọng để chuyển đổi các yếu tố không chữ viết thành từ ngữ có thể phát ra giọng nói. Phân tích âm vị và chuyển đổi từ chữ viết thành phát âm quyết định phát âm đúng của từng từ. Phân tích ngữ điệu liên quan đến dự đoán nhịp độ, thời lượng, âm sắc và cường độ để tạo ra giọng nói tự nhiên. Các phương pháp tổng hợp giọng nói truyền thống bao gồm tổng hợp phối hợp và tổng hợp nguồn/lọc, trong khi các kỹ thuật hiện đại bao gồm tổng hợp giọng nói thống kê và kỹ thuật lựa chọn đơn vị. Sự xuất hiện của học sâu đã dẫn đến các hệ thống tổng hợp tiếng nói dùng mạng nơ- ron bao gồm một mô-đun phân tích văn bản, một mô hình âm học và một bộ giải mã, cung cấp các đầu ra giọng nói tự nhiên và dễ hiểu hơn. 1.2. TTS cho các ngôn ngữ ít tài nguyên Sự phát triển của các hệ thống tương tác cho các ngôn ngữ thiếu tài nguyên [23] đối mặt với thách thức do nhu cầu về dữ liệu nhiều hơn và nghiên cứu tối thiểu trong lĩnh vực này. Các hội thảo SLTU-CCURL và các cuộc họp SIGUL nhằm thu hút các nhà nghiên cứu làm việc về giọng nói và xử lý ngôn ngữ tự nhiên (NLP) cho các ngôn ngữ này để trao đổi ý tưởng và kinh nghiệm. Những sự kiện này thúc đẩy sự đổi mới và khuyến khích sự hợp tác giữa các ngành như khoa học máy tính, ngôn ngữ học và nhân chủng học. Trọng tâm là thúc đẩy sự phát triển của các công nghệ ngôn ngữ nói cho các ngôn ngữ thiếu tài nguyên, bao gồm các chủ đề như nhận dạng giọng nói, tổng hợp văn bản thành giọng nói và hệ thống đối thoại. Bằng cách tụ hợp các nhà nghiên cứu học thuật và công nghiệp, những hội thảo này giúp giải quyết các thách thức đối mặt trong xử lý ngôn ngữ thiếu tài nguyên. Những thách thức chính cần giải quyết khi phát triển tổng hợp tiếng nói cho các ngôn ngữ thiếu tài nguyên là a) tổng hợp giọng nói cho các ngôn ngữ có hệ thống chữ viết nhưng dữ liệu hạn chế; b) tổng hợp giọng nói cho các ngôn ngữ không có hệ thống chữ viết, sử dụng văn bản hoặc giọng nói đầu vào từ ngôn ngữ khác. Các hướng nghiên cứu chính, chẳng hạn như tiếp cận thích ứng và 4
đa ngôn ngữ, sẽ được thảo luận chi tiết trong các phần tiếp theo để giải quyết những thách thức này. 1.2.1. TTS theo hướng tiếp cận giả lập Phương pháp "giả lập" nhằm phát triển các hệ thống TTS cho các ngôn ngữ thiếu tài nguyên bằng cách tận dụng các hệ thống TTS hiện có từ các ngôn ngữ có đầy đủ tài nguyên. Phương pháp này tiết kiệm tài nguyên và cho phép phát triển nhanh hơn đồng thời thúc đẩy sự hợp tác giữa các ngành khoa học. Phương pháp này đối mặt với thách thức về chất lượng giọng nói và khả năng nghe rõ do sự không khớp giữa ngôn ngữ cơ sở và ngôn ngữ đích. Khả năng áp dụng của nó phụ thuộc vào việc tìm ra một ngôn ngữ cơ sở phù hợp có đặc điểm âm vị hoặc ngôn ngữ học tương tự với ngôn ngữ đích. Phương pháp này hữu ích trong các tình huống yêu cầu phát triển TTS nhanh chóng hoặc làm bước đầu tiên trong việc tạo ra một hệ thống tinh chỉnh hơn. Các nhà nghiên cứu như Evans et al. và Somers đã khám phá phương pháp này với kết quả đầy hứa hẹn. Họ đã phát triển các phương pháp đánh giá độc đáo, chẳng hạn như MRT, để đánh giá độ rõ ràng và khả năng sử dụng của giọng nói tổng hợp trong các môi trường thiếu tài nguyên. Các thiết kế thí nghiệm và đánh giá giúp hiểu rõ hơn về các thách thức, cơ hội và hạn chế của phương pháp này. Mặc dù phương pháp "giả lập" cho thấy tiềm năng, nhưng thành công của nó chủ yếu phụ thuộc vào việc vượt qua các hạn chế tự nhiên của nó và chọn ngôn ngữ cơ sở phù hợp. 1.2.2. TTS theo hướng Polyglot Polyglot TTS và multilingual TTS là những khái niệm liên quan, Polyglot TTS chỉ sử dụng một mô hình duy nhất xử lý cho nhiều ngôn ngữ còn multilingual TTS dùng một hoặc nhiều mô hình với các ngôn ngữ khác nhau. Polyglot TTS là một phương pháp cụ thể trong multilingual TTS, hiệu quả hơn về tài nguyên và có thể mở rộng. Các nhà nghiên cứu đã chứng minh tiềm năng của Polyglot TTS trong việc tạo ra giọng nói trơn tru và tự nhiên, thậm chí trong các văn bản đa ngôn ngữ. Công nghệ mạng nơ-ron đã cải thiện hơn nữa các hệ thống Polyglot TTS với các mô hình Polyglot NTTS dựa trên nhân bản giọng nói. Những hệ thống này mang lại các lợi ích như hiệu quả tài nguyên, chuyển giao kiến thức và xử lý liền mạch văn bản đa ngôn ngữ. Tuy nhiên, chúng đối mặt với thách thức trong việc tạo ra giọng nói tự nhiên cho các ngôn ngữ cụ thể và tối ưu hóa thành phần tập dữ liệu. Mặc dù có những hạn chế này, Polyglot TTS rất phù hợp cho các ngôn ngữ thiếu tài nguyên, vì nó tận dụng cấu trúc và tham số chung. Các nghiên cứu về đặc điểm tập huấn luyện và tiến bộ công nghệ mạng nơ-ron làm nổi bật tầm quan trọng của phương pháp này đối với các ngôn ngữ thiếu tài nguyên. Nhìn chung, các hệ thống Polyglot TTS cho thấy tiềm năng lớn trong việc giải quyết các thách thức tổng hợp văn bản đa ngôn ngữ, có thể cải thiện chất lượng và hiệu quả của các hệ thống TTS cho các ngôn ngữ thiếu tài nguyên. 1.2.3. TTS cho ngôn ngữ ít nguồn tài nguyên theo hướng thích nghi Phương pháp thích nghi cho các hệ thống TTS tận dụng học chuyển giao ngôn ngữ để cải thiện tổng hợp giọng nói cho các ngôn ngữ thiếu tài nguyên bằng cách sử dụng tài nguyên và kiến thức từ các ngôn ngữ có đủ tài nguyên. Phương pháp này cung cấp giọng nói tự nhiên hơn với dữ liệu giới hạn bằng cách điều chỉnh các mô hình TTS và thông số hiện có cho ngôn ngữ đích thiếu tài nguyên. Phương pháp thích nghi tăng khả năng mở rộng, hiệu quả của công nghệ tổng hợp giọng nói. Bằng cách huấn luyện trước các mô hình TTS trên các ngôn ngữ có nhiều tài nguyên, các nhà nghiên cứu có thể ánh xạ văn bản thành giọng nói trong các ngôn ngữ thiếu tài nguyên. Chen và các cộng sự đã đề xuất một phương pháp để ánh xạ các embedding giữa các tập âm vị, làm giảm khoảng cách giữa các ngôn ngữ. Phương pháp này chỉ yêu cầu một lượng nhỏ dữ liệu ghép nối, chuyển giao kiến thức từ các ngôn ngữ có nhiều tài nguyên và đủ linh hoạt để xử lý các ký hiệu ngôn ngữ khác nhau. Ánh xạ tự động tương quan tốt với âm vị học và giảm việc can thiệp thủ công. Tuy nhiên, phương pháp này phụ thuộc vào việc có dữ liệu ngôn ngữ có nhiều tài nguyên và yêu cầu giải quyết sự không khớp của không gian đầu vào. Phương pháp thích nghi rất lý tưởng cho các hệ thống TTS đa ngôn ngữ, cung cấp nội dung đa ngôn ngữ và bảo tồn ngôn ngữ. 5
1.3. Tiểu kết chương Chương này đã tóm tắt tiến trình chung trong lĩnh vực tổng hợp tiếng nói nói chung và tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên nói riêng. Nội dung tổng quan tập trung vào các hướng giả lập và thích nghi áp dụng cho tổng hợp tiếng nói là trọng tâm của luận án. Các ứng dụng của tổng hợp tiếng nói trong nhiều lĩnh vực khác nhau được thảo luận. Mặc dù đã có một số đột phá trong nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên, nhưng việc phát triển ứng dụng vẫn cần phải cải thiện. Những thách thức bao gồm thiếu dữ liệu văn bản, thiếu dữ liệu âm thanh và thiếu nghiên cứu ngữ âm. Do đó, cần có nhiều nghiên cứu hơn để cải thiện hiệu quả của các hệ thống tổng hợp tiếng nói đối với ngôn ngữ ít nguồn tài nguyên. Chương 2. Tiếng Việt và tiếng Mường Ở Việt Nam, Mường là dân tộc có số dân đứng trong top 5 dân tộc thiểu số có số dân đông nhất, Mường nằm trong nhóm Vietic, gần gũi với tiếng Việt. Đã có một số công trình nghiên cứu về ngữ âm tiếng Mường. Vì vậy chúng tôi chọn tạo ra hệ thống tổng hợp tiếng Mường thích nghi từ hệ thống tổng hợp tiếng nói tiếng Việt. Để làm được điều này, luận án cần nghiên cứu chi tiết hơn về ngữ âm Việt - Mường và đề xuất các phương pháp đối sánh âm vị, thanh điệu. 2.1. Nghiên cứu đối sánh ngôn ngữ Việt – Mường Trong chương này đã trình bày chi tiết về ngữ âm tiếng Việt và ngữ âm tiếng Mường, từ đó đề xuất nghiên cứu đối sánh ngữ âm tiếng Việt-Mường, được trình bày chi tiết trong Bảng 2.1. Bảng 2.1. So sánh ngữ âm tiếng Mường và tiếng Việt (orthography in đậm, IPA in nghiêng; Vi: Việt; Mu: Mường) Trùng nhau Gần nhau Khác biệt Mường Việt Mường Việt Mường Việt Mường Việt k, c /k/ k, c, q /k/ t /t/ t /t/ b /b/ b /ɓ/ hr /hr/ - h /h/ h /h/ th /th/ th /th/ ch /c/ ch, tr kl /kl/ - /tɕ/ l /l/ l /l/ v /v/ v /v/ đ /d/ đ /ɗ/ p /p/ - Phụ âm m /m/ m /m/ w /w/ u, o g /g/ g /ɣ/ r /r/ - đầu /w/ n /n/ n /n/ x /s/ x /s/ kh /kh/ kh /x/ tl /tl/ - ng /ŋ/ ng, ngh z /z/ d, gi ph /ph/ ph /f/ /ŋ/ /z/ nh /ɲ/ nh /ɲ/ p /p/ p /p/ nh /ɲ/ nh /ɲ/ ch /c/ - t /t/ t /t/ ng /ŋ/ ng /ŋ/ l /l/ - Phụ âm c /k/ c /k/ w /w/ o, u cuối /w/ m /m/ m /m/ i, y /j/ i, y /j/ n /n/ n /n/ aa, a /a/ a /a/ ôô, ô /o/ ô /o/ ă /ă/ ă /ă/ ơ /ɤ/ ơ /ɤ/ â /ɤ/̆ ̆ â /ɤ/ uu, u /u/ u /u/ e /ɛ/ e /ɛ/ ưư, ư ư /ɯ/ Nguyên âm /ɯ/ êê, ê/e/ ê /e/ iê /iə/ iê /iə/ i /i/ i /i/ uô /uə/ uô /uə/ oo, o o /ɔ/ ươ /ɯɤ/ ươ /ɔ/ /ɯə/ Âm đệm w /w/ u, o /w/ Thanh điệu tiếng Mường Thanh điệu tiếng Việt 6
33 - Level A1 – Level 42 - Falling A2 – Mid falling Thanh 324 - Falling Rising C1 – Low falling < Hỏi > điệu 34 - High Rising B1 - Rising 342? - Low Falling B2 – Low glottalized 2.2. Sự khác biệt giữa tiếng Việt và Mường Bi Hòa Bình và Mường Tân Sơn Phú Thọ Cấu trúc âm tiết tiếng Việt và tiếng Mường giống nhau đều có năm thành phần: âm đầu, âm đệm, âm chính, âm cuối và thanh điệu. Trong đó, âm chính và thanh điệu giữ vai trò quan trọng không thể vắng mặt trong âm tiết. Về hệ thống âm vị, giữa tiếng Việt, tiếng Mường Bi và Mường Tân Sơn có nhiều âm vị tương đương và một số âm vị khác biệt. Đối với âm đầu, có 18 phụ âm đầu ở hai phương ngữ Mường giống với phụ âm đầu tiếng Việt là /b, m, t, d, th, n, s, z, l, c, ɲ, k, ŋ, ʔ, h, f, , /. Có hai phụ âm quặt lưỡi /, / có trong tiếng Việt mà không có trong tiếng Mường. Có bốn phụ âm có trong tiếng Mường mà không có trong tiếng Việt /p, w, tl (kl), r/. Có hai phụ âm giống tiếng Việt nhưng chỉ xuất hiện ở phương ngữ Mường Tân Sơn mà không có trong Mường Bi /v, /. Đối với âm đệm, âm đệm tiếng Mường có chức năng và vị trí giống với âm đệm tiếng Việt. Đối với âm chính, tiếng Việt có 16 nguyên âm trong khi tiếng Mường chỉ có 14 nguyên âm. Tiếng Mường không có hai nguyên âm ngắn /ɛ/ và /ɔ/ giống như trong tiếng Việt. Đối với âm cuối, tiếng Việt có 8 âm cuối trong đó có 6 phụ âm /p, t, k, m, n, ng, nh/ và 2 bán nguyên âm /u, i/. Tiếng Mường có 11 âm cuối có sự phân biệt 2 cặp âm cuối /k/ và /c/; // và // và âm cuối /l/. Đối với thanh điệu, tiếng Việt có 6 thanh điệu còn tiếng Mường có 5 thanh điệu, không có thanh ngã như trong tiếng Việt. 2.3. Tiểu kết chương Chương này đã trình bày nghiên cứu của luận án về ngữ âm tiếng Việt và ngữ âm tiếng Mường, so sánh ngữ âm tiếng Việt - tiếng Mường. Báo cáo chi tiết đã được công bố trên công trình [2]. Một số công cụ hỗ trợ xây dựng tổng hợp tiếng nói cũng được thực hiện và chia sẻ lên GitHub. Trên cơ sở nghiên cứu đối chiếu ngữ âm tiếng Mường và tiếng Việt, chúng tôi đề xuất nghiên cứu xây dựng hệ thống tổng hợp ngôn ngữ tiếng Mường trên cơ sở thích nghi hệ thống tổng hợp tiếng nói tiếng Việt. Thông tin chi tiết sẽ được trình bày trong phần tiếp theo. PHẦN 2: TỔNG HỢP TIẾNG NÓI CHO TIẾNG MƯỜNG – TRONG TRƯỜNG HỢP NGÔN NGỮ CÓ CHỮ VIẾT Chương 3. TTS Mường dựa trên giả lập đầu vào của TTS tiếng Việt 3.1. Giới thiệu Chúng tôi phân loại các ngôn ngữ ít nguồn tài nguyên thành hai nhóm: ngôn ngữ có chữ viết và ngôn ngữ chưa có chữ viết. Chúng tôi đã thử nghiệm phương pháp đơn giản nhất với TTS dành cho các ngôn ngữ viết ít nguồn tài nguyên: “Emulating it”. Cách tiếp cận của chúng tôi để xây dựng TTS cho người Mường theo ý tưởng do Evans, Polyzoaki và Blenkhorn đề xuất [40]. Ý tưởng là sử dụng hệ thống TTS hiện có cho ngôn ngữ chính (Base Language - BL) để "mô phỏng" TTS cho ngôn ngữ không được hỗ trợ (Target Language - TL). Trong nghiên cứu đó, phương pháp này đã được áp dụng để phát triển bộ tổng hợp giả cho tiếng Hy Lạp, tiếng Albania, tiếng 7
Séc, tiếng Wales và một số ngôn ngữ khác. Cách tiếp cận sử dụng module chuyển văn bản thành âm vị dựa trên quy tắc đơn giản. Các âm vị được chuyển đến một hệ thống chuyển âm vị thành tiếng nói hiện có cho một ngôn ngữ khác. Sự phù hợp giữa ngôn ngữ được tổng hợp và ngôn ngữ đích ảnh hưởng đến tính dễ hiểu của tiếng nói. 3.2. Giả lập cho Mường TTS Ý tưởng giả lập, một cách tiếp cận TTS dựa trên quan hệ ngữ âm giữa BL và TL. Công việc xây dựng TTS ngôn ngữ giả lập cho ngôn ngữ chưa có chữ viết bao gồm các tác vụ sau: • Chọn BL gần với TL về mặt ngôn ngữ. • Đề xuất ánh xạ chính tả giữa BL và TL, dựa trên sự giống nhau về mặt ngữ âm giữa 2 ngôn ngữ. • Xây dựng TTS giả lập cho BL bằng cách áp dụng ánh xạ ngữ âm trên TTS có sẵn của BL. Bảng 1. Ví dụ áp dụng quy tắc chuyển đổi văn bản tiếng Mường thành văn bản đầu vào cho TTS tiếng Việt Faking text cho TTS tiếng Text Mường Tiếng Anh Việt Ho tang học bài Ho tang học bài ‘I'm studying’ Ho phải za ty dộng bầy? Ho phải da ty dộng bầy? ‘I'm with you go out?’ ‘Your house has many Nhà za chiếm từ cúi chăng? Nhà da chiếm từ cúi chăng? pigs?’ Hình 3.1 cho thấy cấu trúc của hệ thống TTS giả lập tiếng Mường, bao gồm ba mô-đun chính. Hình 3.1. Faking TTS cho tiếng Mường 3.2.1. Muong G2P module Figure 3.2 Muong G2P Module Mô-đun chuyển đổi văn bản thành âm điệu (G2P) là một phần không thể thiếu trong hệ thống tổng hợp giọng nói vì nó chuyển đổi văn bản chuẩn thành chuỗi âm vị hoặc âm điệu, tạo ra các khối xây dựng cơ bản để tạo ra sóng âm thanh. 8
3.2.2. Module giả lập IPA Sau khi có mô-đun G2P tiếng Việt, tham khảo vPhone của James, chúng tôi tạo chuỗi âm vị IPA tương ứng cho khoảng 7.000 từ tiếng Việt và xây dựng một từ điển Phoneme to Grapheme (P2G) với khoảng 7.000 từ tiếng Việt, trong đó khóa là chuỗi âm vị IPA tiếng Việt. 3.3. Đánh giá Để kiểm tra xem những người nghe tiếng Mường bản địa có hiểu tiếng nói Mường giả lập hay không và họ đánh giá chất lượng của nó như thế nào, luận án tiến hành một bài đánh giá nghe. Những người tham gia đánh giá sẽ là những người nói tiếng Mường bản ngữ và sẽ được yêu cầu nghe tiếng Mường giả lập do hệ thống tổng hợp tiếng nói tạo ra và đánh giá chất lượng của nó. 3.3.1. Tài liệu thử nghiệm Tài liệu thử nghiệm được thiết kế để kiểm tra các quy tắc chuyển đổi được đề xuất trong phần trên. Dữ liệu thử nghiệm vì vậy được chia thành ba nhóm: Giả thanh điệu, Giả âm vị trùng nhau, Giả âm vị gần tương đương. 3.3.2. Giao thức thử nghiệm Người nghe sẽ nghe mỗi câu từ một đến ba lần. Sau khi nghe, người nghe được yêu cầu: • (1) viết lại câu nghe được bằng tiếng Mường và nghĩa tiếng Việt. Điều đó sẽ được sử dụng để tính toán độ dễ hiểu; • (2) và cho điểm đánh giá chất lượng. Điểm được tính theo các thang điểm sau: 5 - Rất tốt (giống giọng nói tự nhiên), 4 - Khá (khá tự nhiên), 3 - Trung bình (Chấp nhận được), 2 - Kém (Khó nghe), 1 - Tệ (Không nghe được).. 3.3.3. Kết quả Hình 3.3 thể hiện kết quả đánh giá độ dễ hiểu [42] của tiếng Mường tổng hợp trong nhóm 1. Nhìn chung, cả hai hệ thống TTS đều có kết quả tốt trong bài đánh giá độ dễ hiểu. 9
The intelligibility score of emulating Viet - Muong tones. 100 92 90 86 90 84 80 70 70 72 68 66 Intelligibility score (%) 70 60 60 50 40 30 20 10 0 33 - Level (ca) 42 - Falling (mè) 34 - High Rising (ná) 324 - Falling Rising 342? - Low Falling (tẻ) (mệ) TTS 1 (Intel) TTS 2 (Intel) Hình 3.3 Kết quả đánh giá độ thông hiểu cho thanh điệu mô phỏng tiếng Mường MOS Test Result 5 4.21 4.23 4.17 4.25 3.76 3.8 4 MOS score 3 2 1 0 Emulate Tone Emulate Closed Phonemes Emulate Equivalent Phonemes TTS 1 TTS 2 Hình 3.5 Kết quả đánh giá MOS Trong Hình 3.5, điểm kiểm tra MOS của TTS1 với thanh điệu giả lập là 3,76, Âm vị giả lập là 3,8, Âm vị tương đương là 4,17. Những điểm số này cho thấy chất lượng giả lập của TTS1 được đánh giá cao nhất ở tập âm vị trùng nhau, điều này cũng là hợp lý. Điểm MOS cho giả lập thanh điệu là thấp nhất. Điều này cũng có nghĩa là giả lập thanh điệu tiếng Mường chỉ phù hợp với thanh 33 và 342. Với ba thanh điệu khác, mức độ giả lập thanh điệu chỉ ở mức tạm được. Điểm kiểm tra MOS của TTS2 với giả thanh điệu là 4,21, giả lập âm vị là 4,23 và giả âm vị tương đương là 4,25. Nhìn chung, điểm MOS của cả 2 TTS đều ở mức chấp nhận được. Điểm MOS của TTS2 cao hơn một chút chứng tỏ công nghệ tổng hợp giọng nói qua HMM có điểm chất lượng tốt hơn một chút so với TTS1 sử dụng công nghệ ghép nối. Các đánh giá ANOVA hai chiều 10
cũng đã được thực hiện và kiểm chứng được sự đúng đắn của các kết quả đánh giá theo tập tình nguyện viên trên. 3.4. Tiểu kết chương Nghiên cứu đánh giá hệ thống tổng hợp giả lập tiếng nói tiếng Mường Bi tỉnh Hòa Bình và cho thấy hệ thống này khá dễ hiểu đối với người nghe, tuy nhiên trong một số trường hợp, giọng tổng hợp có thể cần được cải thiện để trở nên chính xác hơn. Giọng nói giả lập này tương đồng với tiếng Việt nhưng thiếu sự nhuần nhuyễn trong giọng nói của phương ngữ Mường. Nghiên cứu cũng cho thấy phương pháp này có thể được áp dụng để tạo ra các hệ thống TTS cho các dân tộc thiểu số khác trong tiếng Việt. Công việc được thực hiện trong chương 3 đã được báo cáo tại hội nghị FAIR 10. Các chương tiếp theo sẽ đi sâu hơn vào các phương pháp thích nghi TTS để khắc phục những hạn chế mà phương pháp giả lập gặp phải. Chương 4. Cross-lingual transfer learning cho tổng hợp tiếng nói tiếng Mường 4.1. Giới thiệu Mục tiêu chính của phần nghiên cứu này trong luận án là đánh giá tính hiệu quả của việc áp dụng và tối ưu hóa kỹ thuật học chuyển giao trong xây dựng hệ thống tổng hợp tiếng nói cho ngôn ngữ Mường, với tập trung đặc biệt vào phương ngữ Hòa Bình. Như đã thảo luận ở phần 1.2.3, việc học chuyển giao đã chứng minh được tiềm năng để thích nghi với các lĩnh vực mới. 4.2. Phương pháp đề xuất Đầu tiên, chúng ta sẽ huấn luyện một mô hình Tacotron 2 trên dữ liệu tiếng Việt, được gọi là mô hình được huấn luyện trước. Sau đó, mô hình Tacotron 2 sẽ được điều chỉnh lại trên dữ liệu ngôn ngữ Mường. Trong quá trình điều chỉnh lại, tất cả các trọng số mô hình sẽ được cập nhật với một tốc độ học thấp hơn so với khi huấn luyện trên dữ liệu tiếng Việt, giảm từ 1e-3 xuống còn 1e- 04. Các biểu diễn âm vị học của tiếng Việt và tiếng Mường tương đối giống nhau, chỉ khác nhau ở một số âm vị, và biểu diễn đầu vào cho mô hình Tacotron 2 được sử dụng trong nghiên cứu này là biểu diễn âm vị, kết hợp bằng Bảng phiên âm Quốc tế (IPA) của cả hai ngôn ngữ. Nghiên cứu cũng sử dụng bộ giải mã âm thanh Hifigan thay vì mô hình Wavenet được sử dụng trong bài báo gốc của Tacotron 2, vì nó yêu cầu ít thời gian và tài nguyên hơn để huấn luyện và tổng hợp âm thanh. Mô hình tổng hợp giọng nói được sử dụng trong nghiên cứu tương tự như mô hình Tacotron 2 về kiến trúc và các tham số, chỉ khác nhau ở biểu diễn đầu vào và bộ giải mã âm thanh. 11
Hình 4.1 TTS của ngôn ngữ ít tài nguyên L2 transfer learning từ L1 4.3. Thực nghiệm 4.3.1. Các tập dữ liệu 4.3.1.1. Dữ liệu tiếng Việt Trước tiên, liên quan đến dữ liệu huấn luyện cho mô hình được huấn luyện trước, chúng tôi đã sử dụng khoảng 20 giờ dữ liệu sách nói tiếng Việt được đánh nhãn, được thu thập từ các trang web mở khác nhau. Dữ liệu âm thanh được thu thập từ trang NgheAudio2, và dữ liệu văn bản tương ứng được thu thập từ trang dtruyen3. Dữ liệu gốc không được chia thành các phân đoạn nhỏ (từ 1 giây đến dưới 15 giây) với văn bản tương ứng mà được tổng hợp thành các tệp âm thanh dài (trung bình khoảng một giờ) cho mỗi chương của câu truyện. 4.3.1.2. Dữ liệu tiếng Mường Cơ sở dữ liệu âm thanh tiếng Mường được ghi âm sau khi xây dựng cơ sở dữ liệu văn bản tiếng Việt trong lĩnh vực tin tức. Văn bản tiếng Việt được thu thập từ các nguồn tin tức Việt Nam chung và các nguồn tin tức địa phương của người Mường để đảm bảo phân bố âm vị và từ vựng cân bằng. Một tập hợp 20.000 câu được trích xuất từ bộ sưu tập gốc 4,9 triệu câu bằng thuật toán trích xuất ngẫu nhiên, cân bằng phân bố âm vị và âm tiết. Dữ liệu văn bản tiếng Việt đã được chuẩn hóa bằng bộ công cụ chuẩn hóa tiếng Việt. Bốn người bản ngữ tiếng Mường, hai nam và hai nữ, từ hai phương ngữ được chọn để ghi âm cơ sở dữ liệu. Giọng nói nam của hai phương ngữ được sử dụng để huấn luyện hệ thống, và dữ liệu giọng nói đã được xử lý để chuẩn hóa năng lượng, loại bỏ nhiễu và sửa các lỗi gặp phải trong quá trình ghi âm. Dữ liệu văn bản tiếng Việt cũng được tiền xử lý để thu được biểu diễn phù hợp của câu dưới dạng chuỗi các từ tiếng Việt. Kết quả là dữ liệu giọng nói tương ứng với hơn 1800 phút tín hiệu âm thanh sau khi qua xử lý. 2 https://www.ngheaudio.org/truyen-audio-dai-mong-chu 3 https://dtruyen.com/ 12
4.3.1.3. Dữ liệu tiếng Mường sử dụng để hiệu chỉnh Trong tập dữ liệu tiếng Mường của dự án Mường, dữ liệu tiếng Mường được ghi âm bởi Bùi Việt Cường, một phát thanh viên của Đài phát thanh Hòa Bình, được lựa chọn để thực hiện việc học chuyển giao. Chi tiết về tập dữ liệu ghi âm được mô tả trong bảng dưới đây: Bảng 4.3 Dữ liệu ghi âm tiếng Mường với giọng nam Bùi Việt Cường Mường Bi – Hoa Binh (CauBaoMuong) Thời lượng 4 giờ 24 phút 30 giây Số câu 1932 Số âm tiết 62954 Số âm vị 307491 Số âm tiết khác biệt 2934 Số âm vị khác biệt 44 Tên người đọc Bùi Việt Cường Giới tính Nam Để nghiên cứu mối quan hệ giữa lượng dữ liệu huấn luyện và chất lượng của đầu ra giọng nói được tổng hợp, chúng tôi đã chia tập dữ liệu ghi âm chất lượng cao thành các tập huấn luyện nhỏ hơn cho mục đích hiệu chỉnh mô hình TTS. Chi tiết các tập huấn luyện nhỏ hơn được mô tả trong bảng dưới đây: Table 4.4 Dữ liệu tiếng Mường dùng để hiệu chỉnh mô hình TTS M_15m M_30m M_60m Số âm tiết 3581 7171 14458 Số âm vị 17559 35123 70477 Số âm tiết khác biệt 1004 1333 1753 Số âm vị khác biệt 39 39 39 Số câu 116 229 454 Thời lượng (phút) 15 30 60 Các bài tập huấn luyện được chia thành các tập sao cho đạt được phủ âm vị tối đa và các câu được lấy ngẫu nhiên. Nhìn vào bảng trên, chúng ta có thể thấy tổng số âm vị tăng dần qua các tập M_15M, M_30M và M_60M, tương ứng với các tập dữ liệu với độ dài 15 phút, 30 phút và 60 phút. 4.3.2. Bộ chuyển đổi G2P Để chuyển đổi văn bản viết tiếng Việt hoặc tiếng Mường thành chuỗi âm vị IPA, chúng tôi sử dụng cùng phương pháp ánh xạ ký tự thành âm vị kết hợp với các quy tắc ánh xạ được trình bày trong chương 3 Mô phỏng hệ thống TTS cho tiếng Mường dựa trên việc chuyển đổi đầu vào của hệ thống TTS tiếng Việt. 4.3.3. Huấn luyện mô hình TTS sử dụng ngôn ngữ tiếng Việt Chúng tôi đã sử dụng khoảng 20 giờ dữ liệu sách nói tiếng Việt để huấn luyện mô hình âm học, mô hình học cách chuyển đổi đầu vào âm vị thành các đặc trưng Mel spectrogram. Thuật toán tối ưu hóa mạng nơ-ron cho Mô hình Âm học mà chúng tôi sử dụng là thuật toán tối ưu hóa Adam. Tổng số bước huấn luyện là 100.000 bước và mô hình hội tụ sau khoảng 50.000 bước. Tiếp theo, chúng tôi đã huấn luyện mô hình Vocoder trên dữ liệu tiếng Việt bằng cách sử dụng một mô hình tiếng Anh được huấn luyện trước. Mô hình được huấn luyện trước này được huấn luyện trên tập dữ liệu LJSPEECH tiếng Anh, bao gồm khoảng 24 giờ dữ liệu âm thanh, với 2,5 13
triệu bước huấn luyện. Tổng số bước huấn luyện là 100.000 bước và mô hình hội tụ sau khoảng 20.000 bước. 4.3.4. Tinh chỉnh mô hình TTS trên ngôn ngữ tiếng Mường Sau khi có được mô hình tacotron 2 được huấn luyện trước trên dữ liệu tiếng việt, mô hình ngữ âm học, chúng tôi đã thực hiện hiệu chỉnh mô hình đó trên ba tập dữ liệu tiếng Mường khác nhau từ tỉnh Hòa Bình với thời lượng khác nhau: M_15m, M_30m, M_60m, như đã mô tả trong phần 4.3.1 Các tập dữ liệu. Đối với mô hình ngữ âm học, chúng tôi sử dụng tốc độ học là 1e-04, và đối với mô hình vocoder, tốc độ học là 2e-04. Quá trình huấn luyện mô hình Hifigan vocoder trên tiếng Mường tương tự như trên tiếng Việt, cả hai đều sử dụng ngôn ngữ tiếng Anh được huấn luyện trước và chỉ khác nhau trong ngôn ngữ được sử dụng hiệu chỉnh. 4.4. Đánh giá Với mục đích kiểm tra hiệu quả của mô hình khi điều chỉnh các mô hình được huấn luyện trước trên các tập dữ liệu tiếng Mường khác nhau về thời lượng, chúng tôi sử dụng 50 câu kiểm tra trong lĩnh vực và 50 câu kiểm tra ngoài lĩnh vực. Một nhóm 50 người bản ngữ tiếng Mường Hòa Bình, cân bằng về giới tính với 25 nam và 25 nữ, tham gia đánh giá Mean Opinion Score (MOS). Các thính giả có độ tuổi trung bình là 23,33 và một nửa trong số họ có bằng đại học trong khi những người còn lại có bằng tốt nghiệp trung học. Quá trình đánh giá yêu cầu mỗi thính giả nghe 20 câu, gồm hai bộ 10 câu mỗi bộ. Bộ đầu tiên bao gồm các chủ đề trong lĩnh vực như tin tức và các vấn đề hiện tại, trong khi bộ thứ hai bao gồm các câu ngoài lĩnh vực phản ánh các kịch bản giao tiếp hàng ngày. Cả hai bộ đều được lựa chọn ngẫu nhiên từ một nguồn 50 câu kiểm tra để đảm bảo đa dạng ngữ nghĩa. Đối với đánh giá định lượng, chúng tôi sử dụng điểm MCD DTW (Mel Cepstral Distortion với Dynamic Time Warping), đo lường sự khác biệt giữa hai chuỗi Mel cepstra. Điểm số càng nhỏ, chất lượng của giọng nói tổng hợp càng tốt. Mặc dù đây không phải là một chỉ số hoàn hảo để đánh giá chất lượng giọng nói tổng hợp, nhưng nó có thể hữu ích khi kết hợp với các đo lường khác. Điểm MCD DTW được tính giữa tệp âm thanh tổng hợp và tệp âm thanh gốc và điểm số cuối cùng được tính trung bình trên 50 cặp cho mỗi bộ. Các điểm số MOS, trong bảng 4.9 dưới đây, cho thấy sự cải thiện đáng kể về chất lượng chủ quan của giọng nói tổng hợp với độ dài huấn luyện tăng từ 15 phút đến 30 phút, và sau đó là 60 phút. Tuy nhiên, vẫn còn khoảng cách đáng kể giữa các mô hình và giọng nói tự nhiên, cho thấy còn nhiều khoảng trống để cải tiến. Bảng 4.9 Kết quả đánh giá Đánh giá trong lĩnh vực Đánh giá ngoài lĩnh vực MOS MCD (DTW) MOS MCD (DTW) Ground Truth 4.36 ± 0.21 0.0 4.31 ± 0.22 0.0 M_15m 3.09 ± 0.45 6.875 ± 0.127 2.88 ± 0.45 7.125 ± 0.235 M_30m 3.27 ± 0.30 5.622 ± 0.214 3.08 ± 0.44 6.890 ± 0.161 M_60m 3.63 ± 0.36 5.133 ± 0.091 3.35 ± 0.36 6.521 ± 0.143 14
4.5. Phân tích điểm MOS bằng ANOVA Bảng 4.10 Các kết quả ANOVA cho đánh giá MOS trong lĩnh vực tin tức ANOVAs Tác nhân df f p η2 ANOVA5 TTS_System 3 116.321 0.000 0.162 Subject 49 1.292 0.086 0.034 TTS_System * Subject 49 0.789 0.968 0.061 ANOVA6 TTS_System 1 122.822 0.000 0.170 Sentences 49 0.842 0.773 0.022 TTS_System * Sentences 49 0.935 0.694 0.070 ANOVA5: Tác nhân TTS_System có ảnh hưởng đáng kể đến kết quả, tác nhân Subject không có ảnh hưởng đáng kể, và không có sự tương tác giữa TTS_System và Subject. ANOVA6: Tác nhân TTS_System có ảnh hưởng đáng kể đến kết quả, tác nhân Sentences không có ảnh hưởng đáng kể, và không có sự tương tác giữa TTS_System và Sentences. Tóm lại, kết quả của cả hai phân tích cho thấy tác nhân TTS_System là yếu tố quan trọng ảnh hưởng đến kết quả, trong khi các yếu tố khác như Subject và Sentences không có ảnh hưởng đáng kể đến kết quả. Dưới đây là kết quả của ANOVA7 và ANOVA8 cho thử nghiệm đánh giá điểm MOS ngoài lĩnh vực (các câu giao tiếp hằng ngày) có kết quả tương tự, như được thể hiện trong Bảng 4.11. Bảng 4.11 Các kết quả ANOVA cho đánh giá MOS ngoài lĩnh vực tin tức ANOVAs Tác nhân df f p η2 ANOVA7 TTS_System 3 121.343 0.000 0.168 Subject 49 0.975 0.523 0.026 TTS_System * Subject 49 1.029 0.394 0.077 ANOVA8 TTS_System 1 135.433 0.000 0.184 Sentences 49 1.334 0.062 0.035 TTS_System * Sentences 49 1.079 0.254 0.080 4.6. Tiểu kết chương Transfer learning là một kỹ thuật mạnh mẽ để phát triển hệ thống TTS cho các ngôn ngữ thiếu tài nguyên. Các mô hình được tiền huấn luyện như Tacotron 2 và WaveNet có thể được tinh chỉnh trên một tập dữ liệu nhỏ để tạo ra giọng nói chất lượng cao, ngay cả đối với các ngôn ngữ thiếu tài nguyên như tiếng Mường. Việc lựa chọn kỹ thuật kiến trúc mô hình, tập dữ liệu huấn luyện và chiến lược tinh chỉnh cẩn thận là rất quan trọng để đạt được kết quả tối ưu. PHẦN 3 : TỔNG HỢP TIẾNG NÓI CHO TIẾNG MƯỜNG TRONG TRƯỜNG HỢP TIẾNG MƯỜNG KHÔNG CÓ CHỮ VIẾT Chương 5. Tạo tiếng nói của ngôn ngữ ít tài nguyên chưa có chữ viết trực tiếp từ văn bản của ngôn ngữ giàu tài nguyên 5.1. Giới thiệu Chương 3 và 4 đã trình bày một số phương pháp tổng hợp tiếng nói cho ngôn ngữ có chữ viết ít nguồn tài nguyên. Vấn đề xây dựng hệ thống tổng hợp tiếng nói cho các ngôn ngữ ít nguồn tài nguyên có khả thi không? Ý tưởng là chúng ta có thể sử dụng văn bản của ngôn ngữ có nguồn tài nguyên phong phú để thay thế cho văn bản của ngôn ngữ ít nguồn tài nguyên chưa được viết. Do 15
đó, hệ thống tổng hợp tiếng nói của ngôn ngữ bất thành văn ít nguồn tài nguyên sẽ trở thành một vấn đề trong việc dịch trực tiếp văn bản của ngôn ngữ L1 sang tiếng nói của ngôn ngữ L2. Ngoài việc nghiên cứu và phát triển công nghệ học sâu, đề xuất điều chỉnh và kết hợp công nghệ dịch văn bản và công nghệ xử lý tiếng nói phi văn bản mà không cần biểu diễn trung gian để giải quyết vấn đề dịch trực tiếp. Tổng hợp tiếng nói cho vấn đề này cũng là một đề xuất sáng tạo của luận án. Để xây dựng một hệ thống tổng hợp tiếng nói xuyên ngữ tiếng Mường, một số công trình liên quan đã được nghiên cứu. Phần này cũng sẽ trình bày chi tiết hướng đi của công nghệ tổng hợp tiếng nói xuyên ngôn ngữ, với ý tưởng ứng dụng công nghệ tổng hợp tiếng nói vào bài toán dịch văn bản Việt-Mường. 5.2. Phương pháp đề xuất và thử nghiệm Trên cơ sở nghiên cứu về dịch máy nơ-ron, tổng hợp tiếng nói dựa trên mạng nơ-ron đã trình bày ở các phần trước, với mục đích không cần sử dụng biểu diễn trung gian (dưới dạng chữ viết của ngôn ngữ đích), hướng nghiên cứu hiện nay là có thể đề xuất là phát triển một hệ thống dịch tiếng nói dựa trên mô hình tổng hợp tiếng nói sử dụng mạng nơ-ron, trong đó đầu vào là văn bản của ngôn ngữ nguồn (tiếng Việt) và đầu ra là tín hiệu tiếng nói của ngôn ngữ đích (không có chữ viết, ít nguồn tài nguyên), ngôn ngữ đích. Trong phương pháp này, chúng ta hình dung hệ thống dịch hoàn toàn giống như hệ thống tổng hợp tiếng nói của một ngôn ngữ, trong đó đầu vào là văn bản và đầu ra là tiếng nói. Tuy nhiên, thay vì văn bản và giọng nói của cùng một ngôn ngữ, dữ liệu đầu vào là văn bản tiếng Việt trong quá trình huấn luyện và đầu ra là tệp giọng nói bằng một ngôn ngữ ít nguồn tài nguyên. 5.2.1. Xây dựng CSDL Các mô hình đề xuất được huấn luyện trên các cặp văn bản song ngữ tiếng Việt và âm thanh tiếng Mường theo hai phương ngữ tương ứng. Các chi tiết tương tự như được mô tả trong chương 4. 5.3. Huấn luyện mô hình và đánh giá 5.3.1. Huấn luyện hệ thống tổng hợp tiếng nói Để xây dựng hệ thống dịch văn bản tiếng Việt – tiếng Mường, hai mô hình mạng Tacotron2 và WaveGlow đã được huấn luyện. Các bước huấn luyện của mạng Tacotron2 và WaveGlow đã sử dụng cài đặt tham số mặc định của mạng ban đầu. Tập dữ liệu huấn luyện gồm 5.000 cặp từ song ngữ Việt-Mường của một câu. Tất cả các mô hình đều được huấn luyện trên GPU, NVIDIA GTX 2080Ti, với kích thước lô là 16. Mô hình âm thanh được hội tụ sau 100 nghìn bước, trong khi bộ phát âm được hội tụ sau 100 nghìn bước. 5.3.2. Đánh giá hệ thống tổng hợp tiếng nói Để đánh giá hệ thống tổng hợp tiếng nói, chúng tôi sử dụng các tiêu chí là đánh giá định lượng và định tính. Về đánh giá định tính, điểm số MOS và Intelligibility được sử dụng làm cơ sở để kiểm tra chất lượng mô hình. Bộ test của chúng tôi gồm 50 câu trong domain và 50 câu ngoài domain. Tiêu chí của hệ thống được xác định là giá trị trung bình cộng của kết quả đánh giá cho tất cả các câu, tất cả các lần đánh giá và tất cả những người tham gia. Kết quả của quá trình đánh giá được tóm tắt trong Bảng 5.1. 16
Bảng 5.1 Đánh giá TTS với tập in-domain Tiêu chí đánh giá Ground Muong Ground Muong Truth MB Bi Truth Tan MTS Son Chất lượng Fluency (0-5) 4.37 ± 0.22 3.71 ± 4.44 ± 3.90 ± dịch 0.36 0.25 0.25 Adequacy (0-5) 4.40 ± 0.19 3.77 ± 4.43 ± 3.95 ± 0.36 0.2 0.26 Chất lượng Naturalness on the 4.36 ± 0.23 3.69 ± 4.15 ± 3.90 ± tiếng nói MOS scale (0-5) 0.41 0.24 0.25 MCD (DTW) 0 4.73± 0 4.71± 0.21 0.26 Bảng 5.2 Đánh giá TTS với tập out-domain Tiêu chí đánh giá Ground Muong Ground Muong Truth MB Bi Truth Tan MTS Son Chất lượng Fluency (0-5) 4.37 ± 0.08 3.46 ± 4.35 ± 3.73 ± dịch 0.36 0.060 0.31 Adequacy (0-5) 4.60 ± 0.08 3.40 ± 4.41 ± 3.77 ± 0.35 0.060 0.32 Chất lượng Naturalness on the 4.31 ± 0.22 3.40 ± 4.36 ± 3.79 ± tiếng nói MOS scale (0-5) 0.37 0.11 0.30 MCD (DTW) 0 6.56 ± 0 5.25 ± 0.31 0.27 Kết quả đánh giá cho thấy hệ thống thử nghiệm tổng hợp tiếng nói tiếng Mường qua dùng text của tiếng Việt có thể đạt được kết quả khá cao cả về chất lượng bản dịch và chất lượng tiếng nói tổng hợp. Các thí nghiệm ANOVA 2 chiều cũng đã được thực hiện chi tiết để kiểm chứng được sự đúng đắn của các kết quả trên. 5.4. Tiểu kết chương Chương này trình bày cách tiếp cận của chúng tôi khi giải quyết vấn đề tổng hợp tiếng nói cho ngôn ngữ không có chữ viết - ít nguồn tài nguyên bằng cách tổng hợp tiếng nói L2 trực tiếp từ văn bản L1. Chúng tôi sử dụng tiếng Việt là L1 và tiếng Mường là L2 trong thử nghiệm. Hệ thống đề xuất được xây dựng bằng công nghệ mạng nơ-ron chuyển văn bản thành tiếng nói end-to-end. Trong quá trình huấn luyện, thay vì nhập văn bản và giọng nói cùng một ngôn ngữ, dữ liệu đầu vào bao gồm văn bản tiếng Việt và giọng nói của ngôn ngữ dân tộc thiểu số. Kho ngữ liệu song ngữ gồm 5 nghìn cặp chữ Việt và tiếng Mường ở hai phương ngữ Mường Bi-Hòa Bình và Mường Tân Sơn-Phú Thọ đã được xây dựng. Kết quả đánh giá chủ quan của người dân tại hai vùng trong và ngoài domain cho thấy, hệ thống tổng hợp tiếng nói tiếng Mường từ text tiếng Việt sang tiếng nói tiếng Mường có chất lượng dịch tự động tốt, chất lượng tiếng nói đầu ra được đánh giá cao. Kết quả rất hứa hẹn, đặc biệt đối với các cặp ngôn ngữ họ gần. Do đó, công việc trong tương lai sẽ tiếp tục thử nghiệm một hệ thống dịch tự động từ văn bản của một ngôn ngữ nguồn sang tiếng nói của một ngôn ngữ thiểu số mục tiêu khác. Ví dụ, một số ngôn ngữ họ gần có thể được chọn để thử nghiệm: Tày-Nùng, Việt-Thổ, Mnông-Stieng, v.v. Kết quả của chương này đã được công bố trên tạp chí [1]. 17
Chương 6. Tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên chưa có chữ viết thông qua biểu diễn trung gian 6.1. Giới thiệu Chúng tôi gọi ngôn ngữ giàu tài nguyên là L1, ngôn ngữ ít nguồn tài nguyên chưa có chữ biết là L2. Với bài toán TTS cho ngôn ngữ L2, do L2 không có chữ viết nên chúng ta có thể xây dựng hệ thống tổng hợp tiếng nói L2 bằng cách tạo một biểu diễn cấp độ âm vị trung gian của L2. Để có được biểu diễn trung gian của cấp độ âm vị của L2, chúng ta có thể sử dụng bài toán dịch máy để tự động dịch văn bản L1 thành biểu diễn trung gian của cấp độ âm vị của L2. Bản chất của vấn đề là giải quyết vấn đề dịch máy tự động trong đó đầu vào và đầu ra của hệ thống không khớp về định dạng: đầu vào là văn bản L1 (ngôn ngữ nguồn) - đầu ra là tiếng nói L2 (ngôn ngữ đích). Các bước giải bài toán theo hướng này được mô tả trong Hình 6.1. Một đại diện trung gian được sử dụng thay cho văn bản của một ngôn ngữ chưa có chữ viết. Từ đó, hệ thống tổng hợp tiếng nói L2 sẽ bao gồm hai mô-đun: dịch văn bản tự động từ văn bản L1 thành dạng biểu diễn trung gian và tổng hợp giọng nói từ dạng biểu diễn trung gian của ngôn ngữ L2 thành giọng nói L2. Hình 6.1 TTS từ L1 Text chuyển thành tiếng nói L2 sử dụng biểu diễn trung gian Đề xuất sử dụng một biểu diễn trung gian của cấp độ âm vị trong xử lý tiếng nói của ngôn ngữ không phải chữ viết đã được đề xuất trong một số nghiên cứu áp dụng cho công nghệ nhận dạng tiếng nói, tổng hợp tiếng nói và dịch văn bản thành văn bản. Đối với ngôn ngữ chưa có chữ viết, bài toán nhận dạng tiếng nói chỉ dừng lại ở việc nhận dạng chuỗi âm vị trong tiếng nói đầu vào. Các kỹ thuật đề xuất chủ yếu được điều chỉnh cho phù hợp với bảng âm vị của một hoặc nhiều ngôn ngữ đã biết [155], [156]. Tuy nhiên, đề xuất này chỉ giới hạn trong nhận dạng giọng nói liên tục; đầu ra của hệ thống nhận dạng vẫn là các chuỗi âm vị. Do đó, hầu hết các đề xuất cho cách biểu diễn trung gian này đều dựa trên các âm vị của các ngôn ngữ chưa có chữ viết. 6.2. Phương pháp đề xuất Dựa trên nghiên cứu xung quanh cách biểu diễn âm vị cho tiếng nói của một ngôn ngữ chưa có chữ viết, có thể xây dựng hệ thống tổng hợp tiếng nói L1-L2 bằng cách sử dụng cách biểu diễn âm vị trung gian, như trong Hình 6.2 và Hình 6.3. Từ cơ sở dữ liệu song ngữ văn bản L1 - giọng nói L2, dữ liệu tiếng nói L2 được phiên âm thành chuỗi âm vị bằng bộ nhận dạng âm vị tự động. Sau khi sao chép dữ liệu tiếng nói L2, cơ sở dữ liệu song ngữ của văn bản L1 – biểu diễn âm vị L2 được sử dụng để huấn luyện các mô hình của hệ thống dịch văn bản (mô hình dịch thuật, mô hình ngôn ngữ). Cơ sở dữ liệu biểu diễn âm vị L2 và tiếng nói tương ứng cũng được sử dụng để huấn luyện các mô hình của hệ thống tổng hợp tiếng nói (mô hình âm thanh, mô hình thời lượng). Hệ thống tổng hợp tiếng nói chuyển văn bản thành giọng nói cuối cùng được kết hợp từ hai hệ thống này bằng cách sử dụng biểu diễn trình tự âm vị L2 trung gian. Đối với cặp ngôn ngữ Việt (L1) - Mường (L2), do chưa có mô hình nhận dạng âm vị cho tiếng Mường nên một mô hình nhận dạng âm vị mới đã được huấn luyện từ một số lượng nhỏ tiếng nói được chú thích thủ công. Với các công nghệ và dữ liệu hiện tại, việc sử dụng bộ nhận dạng âm vị tự động để phiên âm các tệp âm thanh của ngôn ngữ không có chữ viết là một phương pháp máy học. Tuy nhiên, độ chính xác của nó hoàn toàn không thể đạt được. Vì vậy, đầu ra của chuỗi âm vị vẫn cần được các nhà ngôn ngữ học hiệu chỉnh để cơ sở dữ liệu chuyển ngữ có độ chính xác cao nhất. Việc sử dụng các bộ nhận dạng âm vị tự động có thể coi là một bước tiền xử lý cho các nhà ngôn ngữ học trong quá trình phiên âm, giúp giảm thiểu thời gian và công sức của họ. 18