BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG
VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ
TẠ YÊN THÁI
NGHIÊN CỨU CÁC PHƯƠNG PHÁP XÁC ĐỊNH TẦN SỐ
CƠ BẢN ỨNG DỤNG CHO TỔNG HỢP THANH ĐIỆU
TIẾNG VIỆT
Ngành: Cơ sở toán học cho tin học
Mã số: 9 46 01 10
TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC
HÀ NỘI - 2025
Công trình được hoàn thành tại:
VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ / BTTM
Người hướng dẫn khoa học:
1. TS Nguyễn Văn Hùng
2. TS Đoàn Văn Hòa
Phản biện 1: PGS. TS Lương Chi Mai
Viện Hàn lâm Khoa học và Công nghệ Việt Nam
Phản biện 2: PGS. TS Trần Cao Trưởng
Học viện Kỹ thuật quân sự
Phản biện 3: TS Nguyễn Chí Thành
Viện Khoa học và Công nghệ quân sự
Luận án được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Viện KH-CN
quân sự tại: Viện khoa học và Công nghệ quân sự.
Vào hồi giờ ngày tháng năm 20....
Có thể tìm hiểu luận án tại:
- Thư viện Viện Khoa học và Công nghệ quân sự.
- Thư viện Quốc gia Việt Nam.
MỞ ĐẦU
1. Tính cấp thiết của đề tài luận án
Trong bi cnh công ngh s phát trin mnh m, công ngh tng hp tiếng nói t nhiên
ngày càng đóng vai trò quan trọng trong nhiều lĩnh vực như giáo dục, y tế, truyn thông, tr
o các h thng giao tiếp ngưi-máy. Mt trong nhng yếu t then cht quyết định
cht lượng và độ t nhiên ca tiếng nói tng hp là kh năng tái tạo các đặc trưng ngữ điệu,
đặc bit là tn s cơ bản (F0) và thanh điệu.
Tính cp thiết ca luận án được th hin qua các khía cnh sau:
V mt khoa hc, s phc tp ca ngôn ng thanh điệu ( trong đó tiếng Vit mt
trong nhng ngôn ng thanh điệu phc tp nhất) đặt ra vic không ch tái to F0 chính
xác, còn phi phn ánh mi quan h mt thiết gia cu trúc âm tiết, đặc điểm ng điệu
và cơ chế điều khin vận động ca phát âm. Chính s giao thoa gia ngôn ng hc - âm hc
- học điều khiển phát âm này đã tạo ra nhng thách thức đặc bit trong c vic phân
tích và tng hp tiếng nói.
Tính thi s ca luận án liên quan đến các nghiên cu v v xp x cách điệu hóa
đường F0, áp dng các hàm toán học như đa thức, B-splines, Chebyshev, Legendre, hay s
dng mô hình thng kê hoc mạng nơ-ron vn là vấn đ m như các nghiên cứu gần đây.
V mt thc tin và ng dụng, các lĩnh vực ng dụng được áp dụng ngày càng đa dạng.
V ý nghĩa xã hội, kết qu nghiên cu ca lun án có th góp phn quan trng trong vic
bo tn và phát trin tiếng Vit trong thời đại s. Ngoài ra các nghiên cu th đưc ng
dng trong các sn phm giáo dc, h tr người khuyết tt, và ci thin giao tiếp con người-
máy.
T nhng trình bày trên, nghiên cu sinh thy rng vic vic nghiên cứu sâu hơn về
hình hóa F0 cách điệu hóa thanh điệu cp thiết, ý nghĩa khoa học thc tin, nhng
kết qu s góp phn vào kho tàng kiến thc v x ngôn ng t nhiên khoa hc âm
thanh, đồng thi m ra các hướng nghiên cu mới trong lĩnh vực công ngh ging nói ti
Vit Nam.
2. Mục tiêu nghiên cứu
Trên sở đánh giá các vấn đề tn ti hn chế ca các nghiên cu liên quan xác
định hai hướng nghiên cu, mc tiêu ca lun án là:
- Xác định các điểm đánh dấu pitch và ước lượng tn s bản F0.
- Nghiên cu phát triển các nh cách điệu thanh điệu phù hp với đặc điểm
phc tp ca tiếng Vit, giúp ci thin hiu qu ca quá trình tng hợp thanh điệu, nâng cao
độ t nhiên và chất lượng ca tng hp tiếng nói.
3. Đối tượng và phạm vi nghiên cứu
Đối tượng: đặc trưng tiếng nói, các tham s thanh điệu, hình d báo các giá tr ca
2
tham s ngôn điệu.
Phm vi: tín hiu tiếng nói, âm tiết, đoạn âm thanh trong điều kiện người nói trong trng
thái bình thường, kiểu đọc thông thường, không có tp âm.
4. Nội dung nghiên cứu
- Xác định các điểm đánh dấu pitch và ước tính tn s cơ bản F0.
- Cách điệu hóa và tái tạo đường F0 ca âm tiết tiếng Vit.
- Tng hợp thanh điệu cũng như tổng hp tiếng nói.
5. Phương pháp nghiên cứu
Phương pháp nghiên cứu s được s dng trong lun án là:
- Thu thp d liu: Thu thp d liu ging nói tiếng Vit t nhiu ngun khác nhau:
sở d liu ging nói chun, thu thp các mẫu âm thanh đa dng v giọng điệu thanh
điệu
- Phân loi và t chc d liu theo.
- Tin x lý d liu.
- Phát trin thut toán và xây dng mô hình.
- Đánh giá và kiểm tra.
- So sánh với các phương pháp hiện có.
- Tối ưu hóa và cải tiến.
6. Ý nghĩa khoa học và thực tiễn
Ý nghĩa khoa học
- Đề xut gii thut hiu qu để ước lượng các điểm đánh dấu pitch ca tín hiu tiếng
nói.
- Đề xut hình tạo ra đường thanh điệu ca các t đa âm tiết cho ngôn ng
thanh điệu dựa trên mô hình qTA, phương pháp ước lượng t động tham s ca mô hình.
Ý nghĩa thực tiễn
Kết qu nghiên cu ca lun án cho thy rằng các điểm PM có th được xác định trc
tiếp t sóng tiếng nói không cn phi chia n hiu tiếng nói đầu vào thành các khung
(mt yêu cu bt buộc khi ước lượng F0). Điều này giúp đơn giản hóa đáng kể quá trình tính
toán và loi b s cn thiết ca vic áp dng các phép biến đổi min tín hiu sang min tn
số. Hơn nữa, kết qu của các điểm PM cũng không bị tác động bi tham s độ dài ca khung
tín hiu.
Ngoài ra các nghiên cu ca luận án để tìm được cách t động to tham s trong
hình qTA áp dng cho việc cách điệu, tng hợp đường F0 trong t đơn cũng như đa âm tiết
s áp dng hiu qu hơn trong tổng hợp thanh điệu tiếng Vit.
7. Bố cục của luận án
Ngoài các phần mở đầu, phần kết luận, danh mục các công trình khoa học đã công bố,
tài liệu tham khảo, luận án bố cục thành 03 chương:
Chương 1: Các phương pháp trích chọn tn s bản và mô hình biu diễn thanh điệu
3
trong ngôn ng có thanh.
Chương này NCS trình bày sở khoa hc ca vấn đề liên quan đến thanh điệu (đặc
trưng thanh điệu, tin x lý, tng hợp thanh điệu, v.v...), các phương pháp thuật cũng
như hiện trng của các lĩnh vực này trong nước cũng như trên thế giới liên quan đến các đề
xut ca lun án.
Chương 2: Xác định các điểm pitch markers trong tp hợp các đỉnh ca tín hiu tng
tích lũy.
Chương này tập trung đề xut thuật toán để xác định các điểm đánh dấu pitch (PM) t
tập đnh ca tín hiu tổng tích lũy, thay dựa vào các phương pháp truyền thng. Thut
toán đ phc tp thp, không cn chia khung tín hiu phù hp với đặc trưng tiếng Vit.
Đồng thời trong chương 2 cũng xây dựng các thc nghiệm trên các sở d liệu đánh
giá với các phương pháp khác.
Chương 3: Cách điệu hóa các đường F0 và tng hợp thanh điệu tiếng Vit.
Chương này NCS trình bày chi tiết các phương pháp cơ bản để cách điệu hóa đường F0
tng hợp thanh điệu tiếng Việt, đề xut phát trin hình qTA-Poly, m rng bng
vic xây dng hình qTA s dụng đa thức Chebyshev để nâng cao độ chính xác n
định cho âm tiết đơn đôi. Đồng thời trong chương 2 cũng xây dng các thc nghim
đánh giá với các phương pháp khác.
Cơng 1
C PHƯƠNG PHÁP TRÍCH CHỌN TN S BN VÀ MÔ HÌNH BIU DIN
THANH ĐIU TRONG NN NG THANH
Trong chương 1, phần đu tiên gii thiu tng quan v bài toán tng hp tiếng nói t
nhiên. Sau đó, tả các kiến thc s, tng quan v tình nh nghiên cu trong ngoài
nước. Cuối cùng là các phương pháp đánh giá so sánh giữa các mô hình.
1.1. Tổng quan về bài toán tổng hợp tiếng nói tự nhiên
Trong quy trình tng hp tiếng nói t nhiên gm nhiều bước, t phân tích đặc trưng tần
s bản (F0) đến vic xây dng mô hình d đoán và sinh tín hiệu tiếng nói. Các bước này
được thc hin nhằm đảm bo chất lượng tng hp tiếng nói đạt độ t nhiên, đặc bit vi
tiếng Vit ngôn ng nhiều đặc trưng phức tạp như thanh điệu. Dưới đây các thành
phn chính ca bài toán tng hp tiếng nói t nhiên:
- Phân tích F0
- Tin x lý và xác định điểm đánh dấu cao độ (PM)
- Cách điệu hóa F0
- Xây dng mô hình F0 và tng hp F0
- Mô hình sinh âm
1.2. Các kiến thức cơ sở
Tiếng Vit: Tiếng Vit là ngôn ng đơn âm tiết và có thanh điệu. Không giống như với
nhiu ngôn ng khác như tiếng Anh, tiếng Ý, tiếng Tây Ban Nha hay mt s nước châu Á