Trang chủ » Luận Văn - Báo Cáo » Thạc sĩ - Tiến sĩ - Cao học

27 trang

41 lượt xem

Tóm tắt Luận án Tiến sĩ: Nghiên cứu các phương pháp xác định tần số cơ bản ứng dụng cho tổng hợp thanh điệu tiếng Việt

Luận án tập trung nghiên cứu phương pháp xác định tần số cơ bản (F0) và ứng dụng trong tổng hợp thanh điệu tiếng Việt, đề xuất thuật toán EPM ước lượng PM.

Chủ đề:

vihizuzen

Luận án tiến sĩ

Luận án tiến sĩ Toán học

BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG

VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ

TẠ YÊN THÁI

NGHIÊN CỨU CÁC PHƯƠNG PHÁP XÁC ĐỊNH TẦN SỐ

CƠ BẢN ỨNG DỤNG CHO TỔNG HỢP THANH ĐIỆU

TIẾNG VIỆT

Ngành: Cơ sở toán học cho tin học

Mã số: 9 46 01 10

TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC

HÀ NỘI - 2025

Công trình được hoàn thành tại:

VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ / BTTM

Người hướng dẫn khoa học:

1. TS Nguyễn Văn Hùng

2. TS Đoàn Văn Hòa

Phản biện 1: PGS. TS Lương Chi Mai

Viện Hàn lâm Khoa học và Công nghệ Việt Nam

Phản biện 2: PGS. TS Trần Cao Trưởng

Học viện Kỹ thuật quân sự

Phản biện 3: TS Nguyễn Chí Thành

Viện Khoa học và Công nghệ quân sự

Luận án được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Viện KH-CN

quân sự tại: Viện khoa học và Công nghệ quân sự.

Vào hồi giờ ngày tháng năm 20....

Có thể tìm hiểu luận án tại:

- Thư viện Viện Khoa học và Công nghệ quân sự.

- Thư viện Quốc gia Việt Nam.

MỞ ĐẦU

1. Tính cấp thiết của đề tài luận án

Trong bối cảnh công nghệ số phát triển mạnh mẽ, công nghệ tổng hợp tiếng nói tự nhiên

ngày càng đóng vai trò quan trọng trong nhiều lĩnh vực như giáo dục, y tế, truyền thông, trợ

lý ảo và các hệ thống giao tiếp người-máy. Một trong những yếu tố then chốt quyết định

chất lượng và độ tự nhiên của tiếng nói tổng hợp là khả năng tái tạo các đặc trưng ngữ điệu,

đặc biệt là tần số cơ bản (F0) và thanh điệu.

Tính cấp thiết của luận án được thể hiện qua các khía cạnh sau:

Về mặt khoa học, sự phức tạp của ngôn ngữ có thanh điệu ( trong đó tiếng Việt là một

trong những ngôn ngữ có thanh điệu phức tạp nhất) đặt ra việc không chỉ tái tạo F0 chính

xác, mà còn phải phản ánh mối quan hệ mật thiết giữa cấu trúc âm tiết, đặc điểm ngữ điệu

và cơ chế điều khiển vận động của phát âm. Chính sự giao thoa giữa ngôn ngữ học - âm học

- và cơ học điều khiển phát âm này đã tạo ra những thách thức đặc biệt trong cả việc phân

tích và tổng hợp tiếng nói.

Tính thời sự của luận án liên quan đến các nghiên cứu về về xấp xỉ và cách điệu hóa

đường F0, áp dụng các hàm toán học như đa thức, B-splines, Chebyshev, Legendre, hay sử

dụng mô hình thống kê hoặc mạng nơ-ron vẫn là vấn đề mở như các nghiên cứu gần đây.

Về mặt thực tiễn và ứng dụng, các lĩnh vực ứng dụng được áp dụng ngày càng đa dạng.

Về ý nghĩa xã hội, kết quả nghiên cứu của luận án có thể góp phần quan trọng trong việc

bảo tồn và phát triển tiếng Việt trong thời đại số. Ngoài ra các nghiên cứu có thể được ứng

dụng trong các sản phẩm giáo dục, hỗ trợ người khuyết tật, và cải thiện giao tiếp con người-

máy.

Từ những trình bày trên, nghiên cứu sinh thấy rằng việc việc nghiên cứu sâu hơn về mô

hình hóa F0 và cách điệu hóa thanh điệu là cấp thiết, có ý nghĩa khoa học và thực tiễn, những

kết quả sẽ góp phần vào kho tàng kiến thức về xử lý ngôn ngữ tự nhiên và khoa học âm

thanh, đồng thời mở ra các hướng nghiên cứu mới trong lĩnh vực công nghệ giọng nói tại

Việt Nam.

2. Mục tiêu nghiên cứu

Trên cơ sở đánh giá các vấn đề tồn tại và hạn chế của các nghiên cứu liên quan và xác

định hai hướng nghiên cứu, mục tiêu của luận án là:

- Xác định các điểm đánh dấu pitch và ước lượng tần số cơ bản F0.

- Nghiên cứu và phát triển các mô hình cách điệu thanh điệu phù hợp với đặc điểm

phức tạp của tiếng Việt, giúp cải thiện hiệu quả của quá trình tổng hợp thanh điệu, nâng cao

độ tự nhiên và chất lượng của tổng hợp tiếng nói.

3. Đối tượng và phạm vi nghiên cứu

Đối tượng: đặc trưng tiếng nói, các tham số thanh điệu, mô hình dự báo các giá trị của

tham số ngôn điệu.

Phạm vi: tín hiệu tiếng nói, âm tiết, đoạn âm thanh trong điều kiện người nói trong trạng

thái bình thường, kiểu đọc thông thường, không có tạp âm.

4. Nội dung nghiên cứu

- Xác định các điểm đánh dấu pitch và ước tính tần số cơ bản F0.

- Cách điệu hóa và tái tạo đường F0 của âm tiết tiếng Việt.

- Tổng hợp thanh điệu cũng như tổng hợp tiếng nói.

5. Phương pháp nghiên cứu

Phương pháp nghiên cứu sẽ được sử dụng trong luận án là:

- Thu thập dữ liệu: Thu thập dữ liệu giọng nói tiếng Việt từ nhiều nguồn khác nhau:

cơ sở dữ liệu giọng nói chuẩn, thu thập các mẫu âm thanh đa dạng về giọng điệu và thanh

điệu

- Phân loại và tổ chức dữ liệu theo.

- Tiền xử lý dữ liệu.

- Phát triển thuật toán và xây dựng mô hình.

- Đánh giá và kiểm tra.

- So sánh với các phương pháp hiện có.

- Tối ưu hóa và cải tiến.

6. Ý nghĩa khoa học và thực tiễn

Ý nghĩa khoa học

- Đề xuất giải thuật hiệu quả để ước lượng các điểm đánh dấu pitch của tín hiệu tiếng

nói.

- Đề xuất mô hình tạo ra đường thanh điệu của các từ đa âm tiết cho ngôn ngữ có

thanh điệu dựa trên mô hình qTA, phương pháp ước lượng tự động tham số của mô hình.

Ý nghĩa thực tiễn

Kết quả nghiên cứu của luận án cho thấy rằng các điểm PM có thể được xác định trực

tiếp từ sóng tiếng nói mà không cần phải chia tín hiệu tiếng nói đầu vào thành các khung

(một yêu cầu bắt buộc khi ước lượng F0). Điều này giúp đơn giản hóa đáng kể quá trình tính

toán và loại bỏ sự cần thiết của việc áp dụng các phép biến đổi miền tín hiệu sang miền tần

số. Hơn nữa, kết quả của các điểm PM cũng không bị tác động bởi tham số độ dài của khung

tín hiệu.

Ngoài ra các nghiên cứu của luận án để tìm được cách tự động tạo tham số trong mô

hình qTA áp dụng cho việc cách điệu, tổng hợp đường F0 trong từ đơn cũng như đa âm tiết

sẽ áp dụng hiệu quả hơn trong tổng hợp thanh điệu tiếng Việt.

7. Bố cục của luận án

Ngoài các phần mở đầu, phần kết luận, danh mục các công trình khoa học đã công bố,

tài liệu tham khảo, luận án bố cục thành 03 chương:

Chương 1: Các phương pháp trích chọn tần số cơ bản và mô hình biểu diễn thanh điệu

trong ngôn ngữ có thanh.

Chương này NCS trình bày cơ sở khoa học của vấn đề liên quan đến thanh điệu (đặc

trưng thanh điệu, tiền xử lý, tổng hợp thanh điệu, v.v...), các phương pháp và kĩ thuật cũng

như hiện trạng của các lĩnh vực này trong nước cũng như trên thế giới liên quan đến các đề

xuất của luận án.

Chương 2: Xác định các điểm pitch markers trong tập hợp các đỉnh của tín hiệu tổng

tích lũy.

Chương này tập trung đề xuất thuật toán để xác định các điểm đánh dấu pitch (PM) từ

tập đỉnh của tín hiệu tổng tích lũy, thay vì dựa vào các phương pháp truyền thống. Thuật

toán có độ phức tạp thấp, không cần chia khung tín hiệu và phù hợp với đặc trưng tiếng Việt.

Đồng thời trong chương 2 cũng xây dựng các thực nghiệm trên các cơ sở dữ liệu và đánh

giá với các phương pháp khác.

Chương 3: Cách điệu hóa các đường F0 và tổng hợp thanh điệu tiếng Việt.

Chương này NCS trình bày chi tiết các phương pháp cơ bản để cách điệu hóa đường F0

và tổng hợp thanh điệu tiếng Việt, đề xuất phát triển mô hình qTA-Poly, và mở rộng bằng

việc xây dựng mô hình qTA sử dụng đa thức Chebyshev để nâng cao độ chính xác và ổn

định cho âm tiết đơn và đôi. Đồng thời trong chương 2 cũng xây dựng các thực nghiệm và

đánh giá với các phương pháp khác.

Chương 1

CÁC PHƯƠNG PHÁP TRÍCH CHỌN TẦN SỐ CƠ BẢN VÀ MÔ HÌNH BIỂU DIỄN

THANH ĐIỆU TRONG NGÔN NGỮ CÓ THANH

Trong chương 1, phần đầu tiên giới thiệu tổng quan về bài toán tổng hợp tiếng nói tự

nhiên. Sau đó, mô tả các kiến thức sở, tổng quan về tình hình nghiên cứu trong và ngoài

nước. Cuối cùng là các phương pháp đánh giá so sánh giữa các mô hình.

1.1. Tổng quan về bài toán tổng hợp tiếng nói tự nhiên

Trong quy trình tổng hợp tiếng nói tự nhiên gồm nhiều bước, từ phân tích đặc trưng tần

số cơ bản (F0) đến việc xây dựng mô hình dự đoán và sinh tín hiệu tiếng nói. Các bước này

được thực hiện nhằm đảm bảo chất lượng tổng hợp tiếng nói đạt độ tự nhiên, đặc biệt với

tiếng Việt là ngôn ngữ có nhiều đặc trưng phức tạp như thanh điệu. Dưới đây là các thành

phần chính của bài toán tổng hợp tiếng nói tự nhiên:

- Phân tích F0

- Tiền xử lý và xác định điểm đánh dấu cao độ (PM)

- Cách điệu hóa F0

- Xây dựng mô hình F0 và tổng hợp F0

- Mô hình sinh âm

1.2. Các kiến thức cơ sở

Tiếng Việt: Tiếng Việt là ngôn ngữ đơn âm tiết và có thanh điệu. Không giống như với

nhiều ngôn ngữ khác như tiếng Anh, tiếng Ý, tiếng Tây Ban Nha hay một số nước châu Á

Tóm tắt Luận án Tiến sĩ: Nghiên cứu các phương pháp xác định tần số cơ bản ứng dụng cho tổng hợp thanh điệu tiếng Việt

Luận án tập trung nghiên cứu phương pháp xác định tần số cơ bản (F0) và ứng dụng trong tổng hợp thanh điệu tiếng Việt, đề xuất thuật toán EPM ước lượng PM.

Chủ đề:

Tài liệu liên quan

Tài liêu mới

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi