
BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG
VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ
TẠ YÊN THÁI
NGHIÊN CỨU CÁC PHƯƠNG PHÁP XÁC ĐỊNH TẦN SỐ
CƠ BẢN ỨNG DỤNG CHO TỔNG HỢP THANH ĐIỆU
TIẾNG VIỆT
Ngành: Cơ sở toán học cho tin học
Mã số: 9 46 01 10
TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC
HÀ NỘI - 2025

Công trình được hoàn thành tại:
VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ / BTTM
Người hướng dẫn khoa học:
1. TS Nguyễn Văn Hùng
2. TS Đoàn Văn Hòa
Phản biện 1: PGS. TS Lương Chi Mai
Viện Hàn lâm Khoa học và Công nghệ Việt Nam
Phản biện 2: PGS. TS Trần Cao Trưởng
Học viện Kỹ thuật quân sự
Phản biện 3: TS Nguyễn Chí Thành
Viện Khoa học và Công nghệ quân sự
Luận án được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Viện KH-CN
quân sự tại: Viện khoa học và Công nghệ quân sự.
Vào hồi giờ ngày tháng năm 20....
Có thể tìm hiểu luận án tại:
- Thư viện Viện Khoa học và Công nghệ quân sự.
- Thư viện Quốc gia Việt Nam.

MỞ ĐẦU
1. Tính cấp thiết của đề tài luận án
Trong bối cảnh công nghệ số phát triển mạnh mẽ, công nghệ tổng hợp tiếng nói tự nhiên
ngày càng đóng vai trò quan trọng trong nhiều lĩnh vực như giáo dục, y tế, truyền thông, trợ
lý ảo và các hệ thống giao tiếp người-máy. Một trong những yếu tố then chốt quyết định
chất lượng và độ tự nhiên của tiếng nói tổng hợp là khả năng tái tạo các đặc trưng ngữ điệu,
đặc biệt là tần số cơ bản (F0) và thanh điệu.
Tính cấp thiết của luận án được thể hiện qua các khía cạnh sau:
Về mặt khoa học, sự phức tạp của ngôn ngữ có thanh điệu ( trong đó tiếng Việt là một
trong những ngôn ngữ có thanh điệu phức tạp nhất) đặt ra việc không chỉ tái tạo F0 chính
xác, mà còn phải phản ánh mối quan hệ mật thiết giữa cấu trúc âm tiết, đặc điểm ngữ điệu
và cơ chế điều khiển vận động của phát âm. Chính sự giao thoa giữa ngôn ngữ học - âm học
- và cơ học điều khiển phát âm này đã tạo ra những thách thức đặc biệt trong cả việc phân
tích và tổng hợp tiếng nói.
Tính thời sự của luận án liên quan đến các nghiên cứu về về xấp xỉ và cách điệu hóa
đường F0, áp dụng các hàm toán học như đa thức, B-splines, Chebyshev, Legendre, hay sử
dụng mô hình thống kê hoặc mạng nơ-ron vẫn là vấn đề mở như các nghiên cứu gần đây.
Về mặt thực tiễn và ứng dụng, các lĩnh vực ứng dụng được áp dụng ngày càng đa dạng.
Về ý nghĩa xã hội, kết quả nghiên cứu của luận án có thể góp phần quan trọng trong việc
bảo tồn và phát triển tiếng Việt trong thời đại số. Ngoài ra các nghiên cứu có thể được ứng
dụng trong các sản phẩm giáo dục, hỗ trợ người khuyết tật, và cải thiện giao tiếp con người-
máy.
Từ những trình bày trên, nghiên cứu sinh thấy rằng việc việc nghiên cứu sâu hơn về mô
hình hóa F0 và cách điệu hóa thanh điệu là cấp thiết, có ý nghĩa khoa học và thực tiễn, những
kết quả sẽ góp phần vào kho tàng kiến thức về xử lý ngôn ngữ tự nhiên và khoa học âm
thanh, đồng thời mở ra các hướng nghiên cứu mới trong lĩnh vực công nghệ giọng nói tại
Việt Nam.
2. Mục tiêu nghiên cứu
Trên cơ sở đánh giá các vấn đề tồn tại và hạn chế của các nghiên cứu liên quan và xác
định hai hướng nghiên cứu, mục tiêu của luận án là:
- Xác định các điểm đánh dấu pitch và ước lượng tần số cơ bản F0.
- Nghiên cứu và phát triển các mô hình cách điệu thanh điệu phù hợp với đặc điểm
phức tạp của tiếng Việt, giúp cải thiện hiệu quả của quá trình tổng hợp thanh điệu, nâng cao
độ tự nhiên và chất lượng của tổng hợp tiếng nói.
3. Đối tượng và phạm vi nghiên cứu
Đối tượng: đặc trưng tiếng nói, các tham số thanh điệu, mô hình dự báo các giá trị của

2
tham số ngôn điệu.
Phạm vi: tín hiệu tiếng nói, âm tiết, đoạn âm thanh trong điều kiện người nói trong trạng
thái bình thường, kiểu đọc thông thường, không có tạp âm.
4. Nội dung nghiên cứu
- Xác định các điểm đánh dấu pitch và ước tính tần số cơ bản F0.
- Cách điệu hóa và tái tạo đường F0 của âm tiết tiếng Việt.
- Tổng hợp thanh điệu cũng như tổng hợp tiếng nói.
5. Phương pháp nghiên cứu
Phương pháp nghiên cứu sẽ được sử dụng trong luận án là:
- Thu thập dữ liệu: Thu thập dữ liệu giọng nói tiếng Việt từ nhiều nguồn khác nhau:
cơ sở dữ liệu giọng nói chuẩn, thu thập các mẫu âm thanh đa dạng về giọng điệu và thanh
điệu
- Phân loại và tổ chức dữ liệu theo.
- Tiền xử lý dữ liệu.
- Phát triển thuật toán và xây dựng mô hình.
- Đánh giá và kiểm tra.
- So sánh với các phương pháp hiện có.
- Tối ưu hóa và cải tiến.
6. Ý nghĩa khoa học và thực tiễn
Ý nghĩa khoa học
- Đề xuất giải thuật hiệu quả để ước lượng các điểm đánh dấu pitch của tín hiệu tiếng
nói.
- Đề xuất mô hình tạo ra đường thanh điệu của các từ đa âm tiết cho ngôn ngữ có
thanh điệu dựa trên mô hình qTA, phương pháp ước lượng tự động tham số của mô hình.
Ý nghĩa thực tiễn
Kết quả nghiên cứu của luận án cho thấy rằng các điểm PM có thể được xác định trực
tiếp từ sóng tiếng nói mà không cần phải chia tín hiệu tiếng nói đầu vào thành các khung
(một yêu cầu bắt buộc khi ước lượng F0). Điều này giúp đơn giản hóa đáng kể quá trình tính
toán và loại bỏ sự cần thiết của việc áp dụng các phép biến đổi miền tín hiệu sang miền tần
số. Hơn nữa, kết quả của các điểm PM cũng không bị tác động bởi tham số độ dài của khung
tín hiệu.
Ngoài ra các nghiên cứu của luận án để tìm được cách tự động tạo tham số trong mô
hình qTA áp dụng cho việc cách điệu, tổng hợp đường F0 trong từ đơn cũng như đa âm tiết
sẽ áp dụng hiệu quả hơn trong tổng hợp thanh điệu tiếng Việt.
7. Bố cục của luận án
Ngoài các phần mở đầu, phần kết luận, danh mục các công trình khoa học đã công bố,
tài liệu tham khảo, luận án bố cục thành 03 chương:
Chương 1: Các phương pháp trích chọn tần số cơ bản và mô hình biểu diễn thanh điệu

3
trong ngôn ngữ có thanh.
Chương này NCS trình bày cơ sở khoa học của vấn đề liên quan đến thanh điệu (đặc
trưng thanh điệu, tiền xử lý, tổng hợp thanh điệu, v.v...), các phương pháp và kĩ thuật cũng
như hiện trạng của các lĩnh vực này trong nước cũng như trên thế giới liên quan đến các đề
xuất của luận án.
Chương 2: Xác định các điểm pitch markers trong tập hợp các đỉnh của tín hiệu tổng
tích lũy.
Chương này tập trung đề xuất thuật toán để xác định các điểm đánh dấu pitch (PM) từ
tập đỉnh của tín hiệu tổng tích lũy, thay vì dựa vào các phương pháp truyền thống. Thuật
toán có độ phức tạp thấp, không cần chia khung tín hiệu và phù hợp với đặc trưng tiếng Việt.
Đồng thời trong chương 2 cũng xây dựng các thực nghiệm trên các cơ sở dữ liệu và đánh
giá với các phương pháp khác.
Chương 3: Cách điệu hóa các đường F0 và tổng hợp thanh điệu tiếng Việt.
Chương này NCS trình bày chi tiết các phương pháp cơ bản để cách điệu hóa đường F0
và tổng hợp thanh điệu tiếng Việt, đề xuất phát triển mô hình qTA-Poly, và mở rộng bằng
việc xây dựng mô hình qTA sử dụng đa thức Chebyshev để nâng cao độ chính xác và ổn
định cho âm tiết đơn và đôi. Đồng thời trong chương 2 cũng xây dựng các thực nghiệm và
đánh giá với các phương pháp khác.
Chương 1
CÁC PHƯƠNG PHÁP TRÍCH CHỌN TẦN SỐ CƠ BẢN VÀ MÔ HÌNH BIỂU DIỄN
THANH ĐIỆU TRONG NGÔN NGỮ CÓ THANH
Trong chương 1, phần đầu tiên giới thiệu tổng quan về bài toán tổng hợp tiếng nói tự
nhiên. Sau đó, mô tả các kiến thức sở, tổng quan về tình hình nghiên cứu trong và ngoài
nước. Cuối cùng là các phương pháp đánh giá so sánh giữa các mô hình.
1.1. Tổng quan về bài toán tổng hợp tiếng nói tự nhiên
Trong quy trình tổng hợp tiếng nói tự nhiên gồm nhiều bước, từ phân tích đặc trưng tần
số cơ bản (F0) đến việc xây dựng mô hình dự đoán và sinh tín hiệu tiếng nói. Các bước này
được thực hiện nhằm đảm bảo chất lượng tổng hợp tiếng nói đạt độ tự nhiên, đặc biệt với
tiếng Việt là ngôn ngữ có nhiều đặc trưng phức tạp như thanh điệu. Dưới đây là các thành
phần chính của bài toán tổng hợp tiếng nói tự nhiên:
- Phân tích F0
- Tiền xử lý và xác định điểm đánh dấu cao độ (PM)
- Cách điệu hóa F0
- Xây dựng mô hình F0 và tổng hợp F0
- Mô hình sinh âm
1.2. Các kiến thức cơ sở
Tiếng Việt: Tiếng Việt là ngôn ngữ đơn âm tiết và có thanh điệu. Không giống như với
nhiều ngôn ngữ khác như tiếng Anh, tiếng Ý, tiếng Tây Ban Nha hay một số nước châu Á

