ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG
TRỊNH THỊ THỦY
PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG
TIẾNG NÓI CÓ NHIỄU DÙNG HỌC MÁY THỐNG KÊ
BẰNG MÔ HÌNH PHA TRỘN GAUSSIAN
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
THÁI NGUYÊN - 2016
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG
TRỊNH THỊ THỦY
PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG
TIẾNG NÓI CÓ NHIỄU DÙNG HỌC MÁY THỐNG KÊ
BẰNG MÔ HÌNH PHA TRỘN GAUSSIAN
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học: TS. PHÙNG TRUNG NGHĨA
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
THÁI NGUYÊN - 2016
i
LỜI CAM ĐOAN
Tên tôi là: Trịnh Thị Thủy
Sinh ngày: 27/07/1985
Học viên lớp cao học K13A – Trường Đại học Công nghệ thông tin và
Truyền thông – Đại học Thái Nguyên.
Tôi xin cam đoan, toàn bộ nội dung liên quan tới đề tài được trình bày
trong luận văn là bản thân tôi tìm hiểu nghiên cứu, dưới sự hướng dẫn khoa
học của thầy giáo TS. Phùng Trung Nghĩa.
Các nội dung trong luận văn đúng như nội dung trong đề cương và yêu
cầu của thầy giáo hướng dẫn. Tất cả tài liệu tham khảo đều có nguồn gốc,
xuất xứ rõ ràng. Nếu sai tôi hoàn toàn chịu tránh nhiệm trước hội đồng khoa
học và trước pháp luật.
Tác giả luận văn
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Trịnh Thị Thủy
ii
LỜI CẢM ƠN
Lời đầu tiên em xin chân thành cảm ơn TS. Phùng Trung Nghĩa, người
đã trực tiếp hướng dẫn em hoàn thành luận văn. Trong suốt thời gian làm luận
văn thầy đã dành nhiều thời gian quý báu để tận tình chỉ bảo, hướng dẫn, định
hướng cho em trong việc nghiên cứu và những lời động viên của thầy đã giúp
em vượt qua nhiều khó khăn trong quá trình thực hiện luận văn này.
Em xin được bày tỏ lòng biết ơn chân thành đến Ban giám hiệu, Phòng
sau đại học, các thầy cô giáo Trường Đại học Công nghệ thông tin và Truyền
thông - Đại học Thái Nguyên đã tận tình giảng dạy truyền đạt cho em những
kiến thức, kinh nghiệm quý báu trong suốt những năm học vừa qua.
Cuối cùng tôi xin chân thành cảm ơn gia đình, người thân, bạn bè, đồng
nghiệp…, đã hết lòng giúp đỡ, tạo điều kiện cho tôi trong suốt quá trình học
tập và hoàn thành luận văn.
Trong khoảng thời gian có hạn, cũng như kiến thức còn nhiều hạn chế
nên luận văn không tránh khỏi những thiếu sót. Rất mong nhận được những ý
kiến đóng góp quý báu của thầy cô, bạn bè và đồng nghiệp.
Thái Nguyên, ngày 15 tháng 04 năm 2016
Tác giả
Trịnh Thị Thuỷ
iii
LỜI CẢM ƠN ............................................................................................................. i
LỜI CAM ĐOAN ....................................................................................................... i
MỤC LỤC ................................................................................................................. iii
DANH MỤC CÁC TỪ VIẾT TẮT .......................................................................... vi
DANH MỤC CÁC HÌNH VẼ, SƠ ĐỒ .................................................................... vii
DANH MỤC BẢNG ................................................................................................. ix
MỞ ĐẦU ..................................................................................................................... 1 1. Lý do chọn đề tài ..................................................................................................... 1
2. Mục tiêu của đề tài .................................................................................................. 2
3. Đối tượng và phạm vi nghiên cứu: ......................................................................... 2
4. Phương pháp nghiên cứu ........................................................................................ 2
5. Ý nghĩa khoa học và thực tiễn ................................................................................. 3
CHƯƠNG I: TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ XỬ LÝ NHIỄU
TRONG TIẾNG NÓI .................................................................................................. 4 1.1. Tổng quan về tiếng nói ......................................................................................... 4
1.1.1. Thông tin tiếng nói ................................................................................... 4
1.1.2. Tín hiệu và tín hiệu tiếng nói ................................................................... 4
1.1.2.1. Tín hiệu tiếng nói .................................................................................. 4
1.1.2.2. Tín hiệu ................................................................................................. 5
1.1.3. Quá trình tạo tiếng nói ............................................................................. 8
1.1.4. Cơ quan thính giác ................................................................................. 11
1.2. Nhiễu trong tiếng nói ......................................................................................... 14
1.2.1. Nguồn nhiễu .......................................................................................... 14
1.2.2. Nhiễu và mức tín hiệu tiếng nói trong các môi trường khác nhau ........ 16
1.2.3. Mô hình hóa tiếng nói ............................................................................ 17
1.3. Xử lý nhiễu tiếng nói ......................................................................................... 20
1.3.1. Cách tiếp cận không dùng học máy ....................................................... 20
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
MỤC LỤC
iv
1.3.2. Cách tiếp cận dùng học máy. ................................................................. 20
CHƯƠNG II: PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI CÓ
NHIỄU PHỨC HỢP BẰNG HỌC MÁY DÙNG MÔ HÌNH PHA TRỘN
GAUSSIAN ............................................................................................................... 21 2.1. Phương pháp nâng cao chất lượng tiếng nói có nhiễu kinh điển dùng kỹ thuật
trừ phổ. ...................................................................................................................... 21
2.1.1. Thuật toán trừ phổ đối với phổ biên độ ................................................. 21
2.1.2. Thuật toántrừ phổ đối với phổ công suất ............................................... 22
2.1.3. Ưu nhược điểm của phương pháp ......................................................... 25
2.2. Phương pháp nâng cao chất lượng tiếng nói có nhiễu dùng học máy GMM. ... 25
2.2.1. Phân bố Gauss ........................................................................................ 25
2.2.2. Mô hình Gaussian hỗn hợp .................................................................... 26
2.2.3. Mô hình dự đoán tuyến tính (LP) trong kĩ thuật nâng cao chất lượng
tiếng nói có nhiễu. ..................................................................................................... 28
2.2.4. Phổ đường cảm thụ (PLSF) ................................................................... 30
2.2.5. Biến đổi phổ sử dụng mô hình GMM .................................................... 32
CHƯƠNG III: ĐÁNH GIÁ THỰC NGHIỆM CÁC PHƯƠNG PHÁP NÂNG CAO
CHẤT LƯỢNG TIẾNG NÓI.................................................................................... 36 3.1. Ngữ âm tiếng Việt .............................................................................................. 36
3.2. Cơ sở dữ liệu tiếng nói tiếng Việt ...................................................................... 39
3.3. Lựa chọn cơ sở dữ liệu ....................................................................................... 42
3.4. Cài đặt các phương pháp .................................................................................... 42
3.4.1. Phương pháp trừ phổ ............................................................................. 42
3.4.2. Phương pháp biến đổi sử dụng học máy thống kê GMM ...................... 43
3.5. Đánh giá kết quả thực nghiệm ........................................................................... 45
3.5.1. Tiêu chí đánh giá chủ quan .................................................................... 46
3.5.2. Tiêu chí đánh giá khách quan ................................................................ 47
3.5.3. Kết quả đánh giá thực nghiệm ............................................................... 48
3.6. Nhận xét chung về kết quả ................................................................................. 49
v
KẾT LUẬN ............................................................................................................... 50
TÀI LIỆU THAM KHẢO ........................................................................................ 51
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
vi
DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết tắt Viết đầy đủ Ý nghĩa
GMM Gaussian model mixture Mô hình Gaussian hỗn hợp
Linear Preditive Phương pháp dự đoán tuyến tính LP
SS Spectral subtraction Trừ phổ
EM Expectation Maximization Lặp cực đại kỳ vọng
LPC Linear predictive coding Mã hóa dự đoán tuyến tính
PLP Perceptual Linear Preditive Dự đoán tuyến tính cảm thụ
LSF Line Spectral Frequency Ðặc trưng phổ đường
NN Neural Network Mạng nơron
F0 Fundamental Frequency Tần số dao động cơ bản
SS Spectral subtraction Trừ phổ
vii
DANH MỤC CÁC HÌNH VẼ, SƠ ĐỒ
Hình 1.1: Dạng sóng tiếng nói một câu tiếng Việt ........................................... 5
Hình 1.2: Tiếng nói hữu thanh .......................................................................... 5
Hình 1.3: Tín hiệu tiếng nói .............................................................................. 6
Hình 1.4: Bộ phận cung cấp làn hơi .................................................................. 8
Hình 1.5: Dây thanh âm .................................................................................... 9
Hình 1.6: Cấu trúc cơ quan phát âm ............................................................... 10
Hình 1.7: Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm........ 10
Hình 1.8: Mô hình hóa cơ quan phát âm ......................................................... 11
Hình 1.9: Biểu diễn mô hình hóa cơ quan phát âm đầy đủ bằng máy tính .... 11
Hình 1.10: Mô hình cơ quan thính giác .......................................................... 12
Hình 1.11: Thang tần số Bark ......................................................................... 12
Hình 1.12: Ngưỡng nghe ................................................................................ 13
Hình 1.13: Mặt nạ thời gian (che âm thanh liền trước và liền sau) ................ 13
Hình 1.14: Mặt nạ tần số (che âm thanh có tần số khác nhau phát cùng
thời điểm) ....................................................................................... 13
Hình 1.15: Dạng và sự phân bố phổ năng lượng trung bình nhiễu trên xe [14] ...... 15
Hình 1.16: Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trên
tàu [14] ........................................................................................... 15
Hình 1.17: Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trong
nhà hàng [14] .................................................................................. 16
Hình 1.18: Mức nhiễu và tiếng nói (được đo bằng SPL dB) trong các môi
trường khác nhau [14] ..................................................................... 17
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Hình 1.19: Mô hình điểm cực formant cơ quan phát âm ................................ 18
viii
Hình 1.20: Mô hình kích thích âm hữu thanh ................................................. 19
Hình 1.21: Mô hình hóa quá trình tạo tiếng nói .............................................. 20
Hình 2.1: Sơ đồ khối của thuật toán Spectral subtraction [12] ....................... 25
Hình 2.2: Hàm mật độ xác suất Gauss (Đường màu đỏ là phân phối chuẩn
chuẩn hóa) ....................................................................................... 26
Hình 2.3: Dự đoán tuyến tính cảm thụ (PLP – Perceptual Linear Preditive) . 31
Hình 2.4: Sơ đồ tổng quát ............................................................................... 33
Hình 3.1: Đường F0 sáu thanh điệu tiếng Việt theo, dấu ? ở thanh ngã chỉ ra
rằng đường F0 của thanh ngã không thống nhất giữa các mẫu ở
vùng giữa. ........................................................................................ 38
Hình 3.2: Lưu đồ thuật toán Spectral subtraction ........................................... 42
Hình 3.3: Huấn luyện mô hình GMM cho tham số phổ LSF ......................... 44
Hình 3.4: Chuyển đổi mô hình GMM cho tham số phổ LSF ......................... 45
ix
DANH MỤC BẢNG
Bảng 3.1: Cấu trúc âm tiết tiếng Việt .............................................................. 38
Bảng 3.2: Sáu thanh điệu tiếng Việt ............................................................... 39
Bảng 3.3: Mô tả mức điểm đánh giá ............................................................... 47
Bảng 3.4 : Kết quả đánh giá bằng phương pháp LCD .................................... 48
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Bảng 3.5 : Kết quả đánh giá bằng phương pháp MOS ................................... 49
1
MỞ ĐẦU
1. Lý do chọn đề tài
Tiếng nói là công cụ giao tiếp tự nhiên nhất của con người. Tiếng nói
cũng là loại hình thông tin phổ biến nhất trong các hệ thống viễn thông. Do
đó, xử lý tiếng nói đã và đang được nhiều nhà nghiên cứu quan tâm. Độ tự
nhiên, độ rõ, khả năng nghe hiểu của tiếng nói bị ảnh hưởng bởi nhiều loại
nguồn nhiễu như nhiễu nền, thông thường được coi là nhiễu cộng, cũng như
nhiễu kênh, thông thường được coi là nhiễu nhân (nhiễu chập - convolutive
noise).
Hầu hết các nghiên cứu về triệt nhiễu nâng cao chất lượng tiếng nói hiện
nay sử dụng phương pháp ước lượng nguồn nhiễu với giải thiết nguồn nhiễu
là cộng tính và biến đổi chậm [29]. Do đó, các phương pháp hiện tại thường
không hiệu quả với nhiễu nhân như nhiễu kênh. Ngoài ra việc ước lượng
nguồn nhiễu là rất khó khăn trong điều kiện nhiễu nặng và môi trường nhiều
nguồn nhiễu, nhiễu phức hợp kết hợp cả nhiễu cộng và nhiễu nhân.
Cách tiếp cận triệt nhiễu nâng cao chất lượng tiếng nói bằng học máy
ước lượng luật biến đổi tiếng nói sạch – tiếng nói có nhiễu thay vì ước lượng
nguồn nhiễu độc lập. Do vậy có thể áp dụng cho nhiều loại nguồn nhiễu khác
nhau với giả thiết nhiễu có tính dừng (stationary). Cách tiếp cận này đã được
sử dụng gần đây để nâng cao chất lượng một số loại tiếng nói bị suy giảm
chất lượng như tiếng nói của người có cơ quan phát âm khiếm khuyết [30, 3],
tiếng nói truyền trong xương [4,5,6].
Trong luận văn này, chúng tôi thử nghiệm cách tiếp cận triệt nhiễu tiếng
nói dùng học máy thống kê, sử dụng mô hình pha trộn Gaussian (GMM) cho
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
môi trường nhiễu phức hợp kết hợp của nhiễu cộng và nhiễu nhân. Cách tiếp
2
cận này đã được một số nhà nghiên cứu trên thế giới quan tâm [7] và bắt đầu
được nghiên cứu ở Việt nam trong thời gian gần đây.
2. Mục tiêu của đề tài
Hướng nghiên cứu của luận văn là nghiên cứu về vấn đề xử lý nhiễu
phức hợp, kết hợp cả nhiễu cộng và nhiễu nhân trong tiếng nói. Trong đó,
luận văn tập trung nghiên cứu các vấn đề lý thuyết về cách tiếp cận xử lý
nhiễu dùng học máy thống kê, đặc biệt là phương pháp sử dụng mô hình pha
trộn Gaussian.
3. Đối tượng và phạm vi nghiên cứu:
Đối tượng nghiên cứu của luận văn là cách tiếp cận triệt nhiễu nâng cao
chất lượng tiếng nói bằng học máy. Đây là đối tượng nghiên cứu được một số
nhà nghiên cứu trên thế giới quan tâm trong thời gian gần đây.
Phạm vi của luận văn bao gồm nghiên cứu tổng quan về tín hiệu tiếng
nói và vấn đề nhiễu trong tiếng nói, một số phương pháp xử lý nhiễu kinh
điển không dùng học máy, cách tiếp cận dùng học máy, đặc biệt là phương
pháp học máy dùng mô hình pha trộn Gaussian [7]. Luận văn cũng nghiên
cứu đánh giá thực nghiệm các phương pháp để đưa ra các nhận xét, đánh giá.
4. Phương pháp nghiên cứu
Phương pháp nghiên cứu của luận văn là nghiên cứu các lý thuyết đã có
trên thế giới [29,30,3-7] để phân tích, đánh giá về các phương pháp xử lý
nhiễu trong tiếng nói.
Dựa trên các cơ sở lý thuyết và các phân tích, đánh giá, luận văn cũng sẽ
nghiên cứu thực nghiệm một số phương pháp xử lý nhiễu trong tiếng nói.
3
5. Ý nghĩa khoa học và thực tiễn
Như đã trình bày trong phần trên, nghiên cứu về xử lý nhiễu trong tiếng
nói có vai trò quan trọng trong các hệ thống xử lý thông tin và truyền thông
hiện đại. Cách tiếp cận nâng cao chất lượng tiếng nói có nhiễu bằng học máy
thống kê có thể áp dụng cho môi trường nhiễu nhân, nhiễu phức hợp kết hợp
cả nhiễu cộng và nhiễu nhân, nên có tiềm năng ứng dụng cao. Đây là hướng
nghiên cứu còn khá mới mẻ ở Việt Nam. Do vậy vấn đề nghiên cứu trong
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
luận văn có ý nghĩa khoa học và thực tiễn.
4
CHƯƠNG I: TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ XỬ LÝ
NHIỄU TRONG TIẾNG NÓI
1.1. Tổng quan về tiếng nói
1.1.1. Thông tin tiếng nói
Tiếng nói là dạng thông tin tự nhiên và phổ biến nhất đối với con
người. Từ khi lịch sử con người hình thành, con người đã biết sử dụng tiếng
nói làm phương tiện giao tiếp chính, trải qua hàng triệu năm trong quá trình
tiến hóa và phát triển của loài người, tiếng nói vẫn luôn giữ vai trò là phương
tiện giao tiếp cơ bản nhất. Do đó tiếng nói là phương tiện giao tiếp cơ bản của
con người, nó cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệ
thống viễn thông từ trước đến nay.
Kể từ khi máy tính và các ứng dụng của máy tính được nghiên cứu và
ứng dụng rộng rãi, người ta cố gắng để máy tính không chỉ có thể xử lý
nhanh, nhiều mà quan trọng hơn nó đủ thông minh để thay thế con người.
Một trong các tiêu chí quan trọng để đánh giá độ thông minh của máy
tính chính là khả năng hiểu được ngôn ngữ tự nhiên của con người
trong đó có tiếng nói. Tuy nhiên, tiếng nói mang nhiều thông tin, ngoài thông
tin ngôn ngữ còn cả các thông tin phi ngôn ngữ như thông tin về người nói,
thông tin về sắc thái tình cảm khi nói…
1.1.2. Tín hiệu và tín hiệu tiếng nói
1.1.2.1. Tín hiệu tiếng nói
Âm thanh là các dao động cơ học lan truyền trong vật chất như các
sóng. Âm thanh, giống như nhiều sóng, được đặc trưng bởi tần số, bước sóng,
chu kỳ, biên độ và vận tốc lan truyền (tốc độ âm thanh).
Đối với thính giác của người, âm thanh thường là sự dao động, trong
dải tần số từ khoảng 20 Hz - 20 kHz, của các phân tử không khí, và lan
5
truyền trong không khí, va đập vào màng nhĩ, làm rung màng nhĩ và kích
thích bộ não.
Tiếng nói là loại âm thanh phổ biến nhất trong truyền thông. Dải tần
tiếng nói trong khoảng 300 Hz - 3400 Hz. Tiếng nói bao gồm hai dạng hữu
thanh và vô thanh. Âm hữu thanh có đặc tính tuần hoàn còn âm vô thanh
tương tự nhiễu.
Hình 1.1: Dạng sóng tiếng nói một câu tiếng Việt
Hình 1.2: Tiếng nói hữu thanh
1.1.2.2. Tín hiệu
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Tín hiệu(signal) dùng để chỉ một đại lượng vật lý mang tin tức. Về mặt
6
toán học, ta có thể mô tả tín hiệu như một hàm theo biến thời gian, không mô tả tín gian hay các biến độc lập khác. Chẳng hạn như, hàm:
hiệu biến thiên theo biến thời gian t. Hay một ví dụ khác, hàm:
mô tả tín hiệu là hàm theo hai biến độc lập x và y,
trong đó x và y biểu diễn cho hai tọa độ trong mặt phẳng.
Hai tín hiệu trong ví dụ trên về lớp tín hiệu được biểu diễn chính xác
bằng hàm theo biến độc lập. Tuy nhiên, trong thực tế, các mối quan hệ
giưa các đại lượng vật lý và các biến độc lập thường rất phức tạp nên không
thể biểu diễn tín hiệu như trong hai ví dụ vừa nêu trên.
Hình 1.3: Tín hiệu tiếng nói
Lấy ví dụ tín hiệu tiếng nói – đó là sự biến thiên của áp suất không khí
theo thời gian. Chẳng hạn khi ta phát âm từ “away”, dạng sóng của nó được
biểu diễn như hình trên.
A. Nguồn tín hiệu
Tất cả các tín hiệu đều do một nguồn nào đó tạo ra, theo một cách thức
nào đó. Ví dụ tín hiệu tiếng nói được tạo ra băng cách ép không khí đi qua dây
thanh âm. Một bức ảnh có được bằng cách phơi sáng một tấm phim chụp
một cảnh/đối tượng nào đó. Quá trình tạo tín hiệu như vậy thường liên quan
7
đến một hệ thống, hệ thống này đáp ứng lại một kích thích nào đó. Trong
tín hiệu tiếng nói, hệ thống là hệ thống phát âm, gồm môi, răng, lưỡi, dây
thanh…Kích thích liên quan đến hệ thống được gọi là nguồn tín hiệu. Như
vậy ta có nguồn tiếng nói, nguồn ảnh và các nguồn tín hiệu khác.
B. Hệ thống và xử lý tín hiệu
Hệ thống là một thiết bị vật lý thực hiện một tác động nào đó lên tín
hiệu.Ví dụ, bộ lọc dùng để giảm nhiễu trong tín hiệu mang tin được gọi là
một hệ thống. Khi ta truyền tín hiệu qua một hệ thống, như bộ lọc chẳng hạn,
ta nói rằng đã xử lý tín hiệu đó. Trong trường hợp này, xử lý tín hiệu liên
quan đến lọc nhiễu ra khỏi tín hiệu mong muốn.
Xử lý tín hiệu là ý muốn nói đến một loạt các công việc hay các
phép toán được thực hiện trên các tín hiệu nhằm đạt mục đích nào đó, như
là tách tin tức chứa bên trong tín hiệu hoặc là truyền tín hiệu mang tin từ nơi
này đến nơi khác.
Ở đây ta cần lưu ý đến định nghĩa hệ thống, nó không chỉ đơn thuần là
thiết bị vật lý mà còn là phần mềm xử lý tín hiệu hoặc là sự kết hợp giữa phần
cứng và phần mềm. Ví dụ khi xử lý số tín hiệu bằng mạch logic, hệ thống xử
lý ở đây là phần cứng. Khi xử lý bằng máy tính số, tác động lên tín hiệu bao
gồm một loạt các phép toán thực hiện bởi chương trình phần mềm. Khi xử lý
bằng các bộ vi xử lý - hệ thống bao gồm kết hợp cả phần cứng và phần mềm,
mỗi phần thực hiện các công việc riêng nào đó.
C. Phân loại tín hiệu
Các phương pháp ta sử dụng trong xử lý tín hiệu phụ thuộc chặt
chẽ vào đặc điểm của tín hiệu. Có những phương pháp riêng áp dụng cho
một loại tín hiệu nào đó. Do vậy, trước tiên ta cần xem qua cách phân loại
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
tín hiệu liên quan đến những ứng dụng cụ thể. Chúng ta có thể phân tín hiệu
8
thành các loại :
- Tín hiệu nhiều hướng và tín hiệu đa kênh
- Tín hiệu liên tục và tín hiệu rời rạc
- Tín hiệu biên độ liên tục và tín hiệu biên độ rời rạc
- Tín hiệu xác định và tín hiệu ngẫu nhiên
1.1.3. Quá trình tạo tiếng nói
a. Bộ phận cung cấp làn hơi:
Bao gồm hai lá phổi, được sự tác động của các cơ ngực, sườn, cơ hoành
cách mô, cơ bụng. Làn hơi đưa lên quyết định cường độ của âm thanh.
Hình 1.4: Bộ phận cung cấp làn hơi
Bộ phận phát thanh vocal cord là thanh đới (dây thanh âm) nằm trong
thanh quản:
Do áp lực của làn hơi từ phổi đưa lên, thanh đới - với những độ căng
khác nhau và hình dạng khác nhau - mở ra và đóng lại nhanh chậm khác nhau,
cắt làn hơi thành những sóng âm có tần số khác nhau, tạo thành những âm
thanh có cao độ khác nhau.
9
Thanh đới ở phụ nữ và trẻ em ngắn và mỏng hơn ở đàn ông, nên giọng
nữ và trẻ em cao hơn giọng đàn ông.
Hình 1.5: Dây thanh âm
b. Bộ phận dẫn âm:
Gồm chủ yếu là cuống họng (yết hầu) thông với đường miệng hoặc
đường mũi. Các chấn động âm thanh do thanh đới tạo ra, được bộ phận dẫn
âm gom lại và dẫn ra ngoài theo hai hướng miệng hoặc mũi. Cuống họng và
miệng chủ yếu đóng vai trò truyền âm.
c. Bộ phận phát âm:
Là miệng với các hoạt động của môi, răng, lưỡi, hàm dưới, vòm miệng.
Chúng ta nhận ra được lời nói, tiếng hát có nghĩa là nhờ vào hoạt động của
các cơ năng trên. Khi nói đến khẩu hình là nói đến hình thể, hình dáng, cả bên
ngoài lẫn bên trong của miệng do hoạt động phối hợp của môi, lưỡi, hàm
dưới, vòm mềm tạo ra khi phát âm. Mở khẩu hình không đúng cách sẽ ảnh
hưởng không chỉ đến chất lượng âm thanh, mà nhất là ảnh hưởng đến việc rõ
lời, phát âm đúng.
Bộ phận phát âm đóng vai trò như một hộp cộng hưởng âm thanh. Nhờ
sự biến đổi của bộ phận phát âm mà âm thanh được cộng hưởng, triệt tiêu ở
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
các tần số khác nhau dẫn tới âm thanh được phát ra nghe khác nhau.
10
Hình 1.6: Cấu trúc cơ quan phát âm
Hình 1.7: Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm
d. Biễu diễn bộ phận phát âm:
Có thể biểu diễn cơ quan phát âm bằng một mô hình gần đúng gồm các
hình trụ có độ dài bằng nhau nhưng có đường kính khác nhau. Trong quá trình
phát âm người ta thấy rằng hình dáng cơ quan phát âm thay đổi rất chậm , do
đó trong một khoảng thời gian ngắn (trong một âm vị) có thể xem như sự thay
đổi là không đáng kể, nhưng chúng sẽ thay đổi rất lớn từ âm vị này sang âm
vị khác.
11
Hình 1.8: Mô hình hóa cơ quan phát âm
Hình 1.9: Biểu diễn mô hình hóa cơ quan phát âm đầy đủ bằng máy tính
1.1.4. Cơ quan thính giác
Để cảm thụ được tiếng nói, con người sử dụng cơ quan thính giác. Cơ
quan thính giác con người có thể cảm thụ được các tần số âm thanh trong
khoảng 15 Hz - 20.000 Hz. Âm thanh với tần số cao hơn được gọi là siêu âm,
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
thấp hơn là hạ âm.
12
Hình 1.10: Mô hình cơ quan thính giác
Người nghe có thể phát hiện sự thay đổi độ ồn âm thanh khi tín hiệu bị
thay đổi khoảng 1dB (biên độ thay đổi 12%). Mặc dù dải nghe của con người
thông thường từ 20Hz đến 20kHz, độ nhạy âm lớn nhất từ 1kHz đến 4kHz.
Khả năng xác định hướng nguồn âm tốt nhưng xác định khoảng cách
đến nguồn âm kém.
Con người nghe âm thanh theo 24 băng cơ bản, tương ứng với thang
tần số Bark như trong hình 1.10. Trong mỗi băng con, con người không cảm
nhận được sự khác biệt.
Hình 1.11: Thang tần số Bark
Khả năng cảm thụ của cơ quan thính giác được giới hạn bởi ngưỡng
nghe (hình 1.11), cũng như không nghe được âm thanh bị che bởi các mặt nạ
trên miền thời gian (hình 1.12) và tần số (hình 1.13).
13
Hình 1.12: Ngưỡng nghe
Hình 1.13: Mặt nạ thời gian (che âm thanh liền trước và liền sau)
Hình 1.14: Mặt nạ tần số (che âm thanh có tần số khác nhau phát cùng thời
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
điểm)
14
1.2. Nhiễu trong tiếng nói
1.2.1. Nguồn nhiễu
Nhiễu tồn tại ở mọi nơi, trên đường phố, trên xe, trong văn phòng,
trong nhà hàng, trong các toà nhà. Nó có thể là tiếng xe chạy trên đường,
tiếng ồn trên các công trường xây dựng, tiếng ồn phát ra từ các quạt chạy
trong PC, chuông điện thoại…, nó tồn tại với các hình dạng và hình thức
khác nhau trong cuộc sống hằng ngày của chúng ta.
Nhiễu có thể hình thành ở một nơi cố định, và không thay đổi
theo thời gian, ví dụ như là tiếng ồn phát ra từ quạt chạy trong PC.
Nhiễu cũng có thể không đứng yên một chỗ, ví dụ như nhiễu trong nhà
hàng, đó là tiếng nói của nhiều người xen lẫn với nhiều cách khác nhau
với tiếng ồn phát ra từ nhà bếp. Các đặc tính về phổ cũng như thời gian của
nhiễu trong nhà hàng thay đổi không theo quy luật nên việc nén nhiễu trong
các môi trường có nhiễu thay đổi như vậy sẽ khó khăn hơn nhiều so với các
nguồn nhiễu đứng yên không thay đổi.
Các đặc tính đặc biệt khác nhau của các loại nhiễu đó là hình dạng của
phổ và sự phân bố của năng lượng nhiễu trong miền tần số. Ví dụ, nhiễu
gây ra bởi gió thì năng lượng của nó tập trung ở tần số thấp dưới 500Hz.
Nhưng đối với nhiễu trong nhà hàng, trên xe, trên tàu thì khác, năng lượng
của nó được phân bố trên một dải tần số rộng [13]
15
Hình 1.15: Dạng và sự phân bố phổ năng lượng trung bình nhiễu trên xe [14]
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Hình 1.16: Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trên tàu [14]
16
Hình 1.17: Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trong nhà hàng [14]
1.2.2. Nhiễu và mức tín hiệu tiếng nói trong các môi trường khác nhau
Điểm tới hạn trong việc thiết kế các thuật toán nâng cao chất lượng
tiếng nói là sự nhận biết dải biến thiên của tiếng nói và mức độ cường độ
nhiễu trong môi trường thực tế. Từ đó, chúng ta có thể mô tả miền biến thiên
của mức độ tỷ số tín hiệu trên nhiễu (SNR) được bắt gặp trong môi trường
thực tế. Điều này rất quan trọng để đánh giá tính hiệu quả của các thuật
toán nâng cao chất lượng tiếng nói trong việc nén nhiễu và cải thiện chất
lượng của tiếng nói trong dải biến thiên của mức SNR.
Mức độ của tiếng nói và nhiễu được đo lường bằng mức độ âm thanh.
Phép đo lường ở đây là đo mức độ áp suất của âm thanh tính bằng dB
SPL(sound pressure level). Khoảng cách giữa người nói và người nghe
cũng ảnh hưởng đến mức cường độ âm thanh, nó tương ứng với phép đo
được thực hiện khi microphone được đặt tại những vị trí có khoảng cách
khác nhau. Khoảng cách đặc trưng trong giao tiếp face-to-face là 1m, khi
khoảng cách đó tăng gấp đôi thì mức cường độ âm giảm đi 6 dB.
17
Hình bên dưới này là sự tổng hợp về mức độ âm trung bình giữa
tiếng nói và nhiễu trong các môi trường khác nhau. Mức độ của nhiễu nhỏ
nhất ở trong các môi trường như phòng học, trong nhà ở, trong bệnh viện
và trong các toà nhà. Trong các môi trường khác nhau, thì mức độ âm của
nhiễu nằm trong phạm vi biến thiên từ 50 đến 55 dB SPL, và mức độ âm
của tiếng nói là 60 đến 70 dB SPL. Và khuyến nghị đưa ra là mức tỷ số
SNR có hiệu quả trong các môi trường này là 5 đến 15 dB. Mức độ âm của
nhiễu rất cao trong các môi trường ở tàu điện ngầm, ở trên máy bay, nó đạt
khoảng 70 đến 75 dB SPL. Và mức độ âm của tiếng nói trong các môi
trường này cũng đạt mức đó, nên mức tỷ số SNR trong các môi trường này
gần như là 0 dB.
Hình 1.18: Mức nhiễu và tiếng nói (được đo bằng SPL dB) trong các môi trường khác nhau [14]
1.2.3. Mô hình hóa tiếng nói
Mô hình hóa cơ quan phát âm (vocal tract)
Các tần số cộng hưởng của tiếng nói formant tương ứng với điểm cực
của hàm truyền V(z).
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
(1.1)
18
Mô hình toàn cực của hàm truyền là mô hình mô tả tốt nhất cho thành
phần âm hữu thanh, tuy nhiên các ảnh hưởng của mũi, và kẽ răng lại yêu cầu
mô hình phải có cả hai sự cộng hưởng và sự triệt tiêu trong trường hợp này,
cần phải thêm các điểm không vào mô hình. Các hệ số của mẫu phương trình
trên phải là hoặc thực hoặc cặp phức.
Tần số cộng hưởng điển hình của cơ quan phát âm:
(1.2)
Tương ứng rời rạc về thời gian là:
(1.3)
Hình 1.19: Mô hình điểm cực formant cơ quan phát âm
Băng tần của formant tương ứng là và tần số trung tâm là 2ΠFk.
Trong mặt phẳng Z đường kính trung tâm đến cực sẽ quyết định băng tần
nghĩa là:
và (1.4)
Bởi vậy nếu V(z) tìm được thì tần số cộng hưởng và băng tần cũng được
tính, như chỉ ra trên hình vẽ trên tần số thực phức của cơ quan phát âm tất cả
thuộc nửa bên trái mặt phẳng s vì vậy nó là hệ thống ổn định của phép biến
19
đổi s, do đó và |Zk|<1 nghĩa là tất cả các điểm cực tương ứng của mô
hình rời rạc thời gian phải nằm bên trong vòng tròn đơn vị để đảm bảo tính ổn
định của hệ thống.
Mô hình sự kích thích nguồn âm (glottal source)
Tiếng nói có thể chia thành vô thanh và hữu thanh. Với âm hữu thanh,
mô hình dạng sóng kích thích phải xuất hiện, ở mô hình này máy phát chuỗi
xung tạo ra chuỗi xung đơn vị quãng cách là chu kỳ cơ bản (chu kỳ cao độ).
Tín hiệu này kích thích một hệ thống tuyến tính mμ có đáp ứng xung h(n) là
dạng sóng "thanh môn-glottal" kích thích.
Hình 1.20: Mô hình kích thích âm hữu thanh
Điều chỉnh biên độ Gv, điều khiển một mạch kích thích âm hữu thanh,
các nghiên cứu chỉ ra rằng dạng sóng "thanh môn" có thể được thay bằng
dạng sóng của xung tổng hợp theo dạng:
(1.5)
N1, N2 là khoảng giới hạn của cửa sổ phân tích với âm vô thanh chỉ cần
một nguồn nhiễu vμ thông số về biên để điều chỉnh mật độ kích thích của nó,
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
máy phát ngẫu nhiên tạo một nguồn nhiễu bằng phẳng, các xuất hiện không
20
quan trọng. Do vậy, mô hình kích thích nguồn âm tổng hợp cả âm hữu thanh
và âm vô thanh để tạo tiếng nói có dạng như trong hình 1.21.
Hình 1.21: Mô hình hóa quá trình tạo tiếng nói
1.3. Xử lý nhiễu tiếng nói
1.3.1. Cách tiếp cận không dùng học máy
Spectral-subtraction (SS) hay còn gọi là trừ phổ là một thuật toán
giảm nhiễu đơn giản nhất. Nó dựa trên nguyên lý cơ bản là nó sẽ mô tả và
cập nhật nhiễu trong tín hiệu có nhiễu bằng cách thu nhiễu khi không có sự
hiện diện của tín hiệu. Và nhiễu đó sẽ được trừ với tín hiệu có nhiễu, kết
quả là tín hiệu của chúng ta sau khi xử lý bằng thuật toán này sẽ được
loại đi nhiễu và xét trên phương diện lý tưởng thì nó là tín hiệu sạch.
1.3.2. Cách tiếp cận dùng học máy.
Vấn đề của nâng cao chất lượng tiếng nói là phải đề ra được khung
mô tả mang tính thống kê. Nó là một tập các phép đo tương ứng với hệ
chuyển đổi Fourier của tín hiệu nhiễu, và chúng ta mong muốn sẽ tìm ra
được một phương thức ước lượng tuyến tính hoặc phi tuyến các tham số có
lợi, đó là hệ chuyển đổi của tín hiệu sạch.
21
CHƯƠNG II: PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG TIẾNG
NÓI CÓ NHIỄU PHỨC HỢP BẰNG HỌC MÁY DÙNG MÔ HÌNH
PHA TRỘN GAUSSIAN
2.1. Phương pháp nâng cao chất lượng tiếng nói có nhiễu kinh điển dùng
kỹ thuật trừ phổ.
Đây là phương pháp truyền thống được sử dụng phổ biến. Phương pháp
nâng cao chất lượng tiếng nói có nhiễu sử dụng thuật toán Spectral
subtraction (trừ phổ) dựa trên một nguyên tắc cơ bản: Thừa nhận sự có mặt
của nhiễu, phổ của tín hiệu tiếng nói sạch thu được bằng cách sau: Lấy phổ
của tín hiệu tiếng nói có nhiễu trừ đi phổ của nhiễu. Phổ của nhiễu có thể
được ước lượng, cập nhật trong nhiều chu kỳ khi không có mặt của tín hiệu.
Sự thừa nhận đó chỉ được thực hiện đối với nhiễu không đổi hoặc có tốc độ
xử lý biến đổi chậm, và khi đó phổ của nhiễu sẽ không thay đổi đáng kể
giữa các khoảng thời gian cập nhật.
2.1.1. Thuật toán trừ phổ đối với phổ biên độ
Giả thiết rằng y[n] là tín hiệu vào đã bị nhiễu, nó là tổng của tín hiệu sạch
x[n] và tín hiệu nhiễu d[n]:
y[n] = x[n] + d[n] (2.1)
Thực hiện biến đổi Fourier rời rạc cả 2 vế, ta được
(2.2)
Chúng ta có thể biểu diễn Y(w) dưới dạng phức như sau:
(2.3)
Khi đó |Y( w)| là biên độ phổ, và là pha của tín hiệu đã bị nhiễu
Phổ của tín hiệu nhiễu D( w) có thể được biểu diễn dạng biên độ và pha:
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
(2.4)
22
Biên độ phổ của nhiễu |D(w)| không xác định được, nhưng có thể thay
thế bằng giá trị trung bình của nó được tính trong khi không có tiếng nói
(tiếng nói bị dừng), và pha của tín hiệu nhiễu có thể thay thế bằng pha của
, việc làm này không ảnh hưởng đến tính dễ nghe của tín hiệu bị nhiễu
tiếng nói [15], có thể ảnh hưởng đến chất lượng của tiếng nói là làm thay đổi
pha của tiếng nói nhưng không đáng kể.
Khi đó chúng ta có thể ước lượng được phổ của tín hiệu sạch:
(2.5)
Ở đây là biên độ phổ ước lượng của nhiễu được tính trong khi
không có tiếng nói hoạt động. Ký hiệu để chỉ rằng giá trị đó là giá trị ước
tính gần đúng. Tín hiệu tiếng nói được tăng cường có thể đạt được bằng cách
rất đơn giản là biến đổi IDFT của
Lưu ý: Biên độ phổ của tín hiệu đã được tăng cường là
, có thể bị âm do sự sai sót trong việc ước lượng phổ
của nhiễu. Tuy nhiên, biên độ của phổ thì không thể âm, nên cần phải đảm
bảo rằng khi thực hiện trừ hai phổ thì phổ của tín hiệu tăng cường |X(w)| luôn
luôn không âm. Giải pháp được đưa ra để khắc phục điều này là chỉnh lưu
nửa sóng hiệu của phổ, nếu thành phần phổ nào mà âm thì chúng ta sẽ gán nó
bằng 0:
(2.6)
Phương pháp xử lý bằng chỉnh lưu nửa sóng là một trong những cách
để đảm bảo cho |X( w)| không bị âm.
2.1.2. Thuật toántrừ phổ đối với phổ công suất
Thuật toán trừ phổđối với phổ biên độ có thể được mở rộng sang
miền phổ công suất. Vì trong một vài trường hợp, nó có thể làm việc tốt với
23
phổ công suất hơn là với phổ biên độ. Lấy phổ công suất của tín hiệu bị
nhiễu trong một khoảng ngắn, chúng ta bình phương |Y( w)|, ta được:
(2.7)
và không thể tính được một cách trực tiếp
mà xấp xỉ bằng và khi đó E[.] là
toán tử kỳ vọng. Bình thường thì được ước lượng khi không có
tiếng nói hoạt động và được biểu thị là . Nếu chúng ta thừa nhận
và không có một sự tương quan nào với tín hiệu sạch x[n],
thì và xem là 0. Khi đó phổ công suất của tín
hiệu sạch có thể tính được như sau:
(2.8)
Công thức trên biểu diễn thuật toán trừ phổ công suất. Như công thức
trên, thì phổ công suất được ước lượng không được đảm bảo luôn là
một số dương, nhưng có thể sử dụng phương pháp chỉnh lưu nửa sóng như đã
trình bày ở trên. Tín hiệu được tăng cường sẽ thu được bằng cách
(bằng cách lấy căn bậc hai của có sử dụng pha tính IDFT của
của tín hiệu tiếng nói bị nhiễu. Chú ý rằng, nếu chúng ta lấy IDFT cả hai
vế của công thức (2.8) trên thì ta có một phương trình tương tự trong miền tự
tương quan:
(2.9)
Khi đó là các hệ số tự tương quan của tín hiệu
sạch, tín hiệu tiếng nói bị nhiễu, và tín hiệu nhiễu đã được ước lượng [9,10]
Công thức (1) có thể được viết theo dạng sau:
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
(2.10)
24
Khi đó: (2.11)
Trong lý thuyết hệ thống tuyến tính, là hàm truyền đạt của hệ
thống. Còn trong lý thuyết của Speech enhancement, chúng ta xem là
hàm độ lợi hay hàm nén. Và là một số thực và luôn luôn dương, và
có giá trị nằm trong phạm vi . Nếu nó có giá trị âm là do có sai
sót trong quá trình ước lượng phổ của nhiễu. được gọi là hàm nén là
vì nó cho ta biết tỷ số giữa phổ công suất của tín hiệu được tăng cường
với phổ công suất của tín hiệu bị nhiễu. Hình dạng của hàm nén là một
đặc trưng duy nhất của mỗi thuật toán Speech enhancement.
Chính vì vậy mà chúng ta thường so sánh các thuật toán bằng cách so
sánh các đáp ứng của hàm nén của chúng. Hệ số có giá trị thực nên
biến đổi IDFT là h[n] đối xứng với nhau qua điểm 0 và không nhân quả.
Trong miền thời gian thì h[n] được xem là một bộ lọc không nhân quả
[11]. Nên sẽ có một phương pháp được đề xuất để hiệu chỉnh hàm để
đáp ứng của nó trở thành bộ lọc nhân quả trong miền thời gian.
Trường hợp chung thì thuật toán trừ phổ có thể được biểu diễn:
(2.12)
Trong đó p là số mũ công suất, với p = 1 là phương pháp trừ phổ biên
độ điển hình, p = 2 là phương pháp trừ phổ công suất.
25
Ước lượng, cập nhật nhiễu
-
Y(w) (w)
+
FFT
+
Sơ đồ khối của thuật toán trừ phổ :
Pha của tín hiệu
IFFT
Tín hiệu sau khi tăng cường
Tín hiệu bị nhiễu
Hình 2.1: Sơ đồ khối của thuật toán trừ phổ [12]
2.1.3. Ưu nhược điểm của phương pháp
Phương pháp nâng cao chất lượng tiếng nói có nhiễu bằng thuật toán
trừ phổ có ưu điểm là quá trình xử lý hiện đơn giản. Tuy nhiên nếu quá trình
xử lý không được thực hiện một cách cẩn thận thì tiếng nói của chúng ta sẽ
bị méo hay nói cách khác là phụ thuộc vào việc ước lượng nhiễu: Nếu như
việc lấy hiệu quá lớn thì có thể loại bỏ đi một phần thông tin của tiếng nói,
còn nếu việc thực hiện lấy hiệu đó nhỏ thì nhiễu sẽ vẫn còn được giữ lại
trong tín hiệu. Hơn nữa đối với nhiễu phức hợp và nhiễu nhân thì phương
pháp truyền thống này không ước lượng được nhiễu. Vấn đề này sẽ được giải
quyết ở phương pháp nâng cao chất lượng tiếng nói có nhiễu dùng học máy
GMM được trình bày phần sau của luận văn.
2.2. Phương pháp nâng cao chất lượng tiếng nói có nhiễu dùng học máy
GMM.
2.2.1. Phân bố Gauss
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Phân phối chuẩn, còn gọi là phân phối Gauss, là một phân phối xác
26
suất cực kì quan trọng trong nhiều lĩnh vực. Nó là họ phân phối có dạng tổng
2).
quát giống nhau, chỉ khác tham số vị trí (giá trị trung bình μ) và tỉ lệ (phương
sai σ
Phân phối chuẩn chuẩn hóa (standard normal distribution) là phân phối
chuẩn với giá trị trung bình bằng 0 và phương sai bằng 1 (đường cong màu đỏ
trong hình bên phải). Phân phối chuẩn còn được gọi là đường cong
chuông (bell curve) vì đồ thị của mật độ xác suất có dạng chuông.
Hình 2.2: Hàm mật độ xác suất Gauss (Đường màu đỏ là phân phối
chuẩn chuẩn hóa)
Hàm mật độ xác suất của phân phối chuẩn với trung bình và phương
sai (hay độ lệch chuẩn ) là một ví dụ của một hàm Gauss.
(2.13)
Nếu một biến ngẫu nhiên có phân phối này, ta kí hiệu là
2.2.2. Mô hình Gaussian hỗn hợp
Mô hình Gaussian hỗn hợp (Gaussian Mixture Model - GMM) là một
hàm tham số mật độ xác suất được biểu diễn như là một tổng trọng số của các
27
mật độ Gaussian thành phần. GMM được sử dụng rộng rãi như là một mô
hình tham số của phân phối xác suất của các phép đo liên tục hay tính năng
trong một hệ thống sinh trắc học. Các tham số GMM được đánh giá từ việc
huấn luyện dữ liệu sử dụng thuật toán lặp cực đại hóa kỳ vọng (Expectation
Maximization – EM) hoặc tối đa hậu nghiệm (Maximum A Posteriori – MAP)
Một mô hình GMM là tổng thành phần của M thành phần mật độ
Gaussian được cho bởi công thức:
(2.14)
Trong đó:
M là số thành phần, mỗi thành phần mật độ là một hàm Gaussian như
định nghĩa trong công thức 2.14.
là trọng số của các thành phần thỏa mãn điều kiện
Phương pháp nâng cao chất lượng tiếng nói có nhiễu dùng mô hình pha
trộn GMM là phương pháp đáp ứng được nhu cầu thực tế đó là áp dụng được
cho nhiễu không dừng, đây là loại nhiễu mà rất khó để ước lượng chính xác.
Phương pháp biến đổi phổ có thể khắc phục những phương pháp truyền thống
bằng việc thay vì sử dụng phương pháp tổng hợp nguồn/bộ lọc truyền thống
để tổng hợp tiếng nói bị méo, ở đây tiếng nói có nhiễu được lọc thành tiếng
nói sạch bởi các thông số dự đoán tuyến tính (LP) của nguồn và đích. Phương
pháp này không sử dụng bất kì sự ước lượng nguồn (F0) nào cho tiếng nói có
nhiễu; do đó nó khôi phục hiệu quả tiếng nói sạch từ tiếng nói có nhiễu. Chi
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
tiết về phương pháp này sẽ được trình bày ở phần sau.
28
2.2.3. Mô hình dự đoán tuyến tính (LP) trong kĩ thuật nâng cao chất
lượng tiếng nói có nhiễu.
Dự đoán tuyến tính (LP) là công cụ quan trọng trong xử lý số tín hiệu.
Nó cung cấp cho chúng ta một kỹ thuật mạnh để ước lượng các thông số của
một đoạn tiếng nói như pitch, tần số format, phổ… với độ chính xác cao và
tốc độ tính toán nhanh
Mô hình dự đoán tuyến tính LP ở đây áp dụng cho việc khôi phục tiếng
nói có nhiễu trong [16,17,6] và được áp dụng cho việc nâng cao chất lượng
tiếng nói có nhiễu.
Giả sử x(t) và y(t) là tín hiệu tiếng nói sạch (trong [18]) và tiếng nói có
nhiễu liên kết (trong [18]). Sử dụng phân tích dự đoán tuyến tính LP, chúng ta
có thể biểu diễn các giá trị rời rạc x(n) và y(n) như sau:
(2.15)
Trong đó là giá trị tín hiệu được dự đoán, x(n-1) là các giá trị
được quan sát trước, là các hệ số dự đoán (hệ số dự đoán tuyến tính - LPC).
Độ dư (residual) có được do sai số giữa các giá trị mẫu hiện tại và mẫu được
dự đoán:
(2.16)
Hai giá trị rời rạc tương ứng x(n) và y(n) được biểu diễn bởi mô hình LP trong
miền Z như sau:
(2.17)
29
(2.18)
Trong đó X(z) và Y(z) là các biến đổi Z của x(n) và y(n) , P là bậc dự
đoán tuyến tính LP, còn ax(i) và ay(i) là hệ sộ dự đoán tuyến tính (LPC) thứ i.
Ở đây, Gx(z) và Gy(z) là biến đổi Z của các độ dư dự đoán tuyến tính (LP)
gx(n) và gy(n).
Chúng ta định nghĩa tỉ số độ dư của x(n) và y(n) trong miền Z (hoặc
miền tần số) là độ khuyếch đại k
or (2.19)
Do các độ dư LP gx(n), gy(n) liên quan tới thông tin nguồn thanh môn
(glottal) của x(n) và y(n), dạng thông tin này có thể không thay đổi giữa các
tín hiệu tiếng nói sạch và tín hiệu tiếng nói có nhiễu liên kết.
Chúng ta hãy giả thiết rằng biểu diễn toán học của hàm truyền đạt h(n) từ
x(n) và y(n) là bộ lọc FIR bậc M. Trong miền Z, nó được biểu diễn như sau:
(2.20)
Chúng ta có thể suy ra phương trình của như sau:
(2.21)
Tiếng nói có nhiễu có thể được khôi phục thành tiếng nói sạch bằng
việc sử dụng hàm ngược .
LSF được sử dụng để mã hóa tín hiệu phổ LP hiệu quả hơn các
thông số LP khác. Giả sử A(z) là một bộ lọc LP tổng quát trên một phép
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
biểu diễn LP, các hệ số LSF có thể nhận được từ một đa thức đối xứng
30
hoặc đa thức bất đối xứng, U(z) và V(z), như pha của các trị không liên
hợp (conjugated zeros).
(2.22)
(2.23)
(2.24)
Thay công thức (2.22) – (2.24) vào công thức (2.21) ta được công thức
của lọc ngược như sau:
(2.25)
Ở đây, (Uy(z), Vy(z)) và (Ux(z), Vx(z)) là các hàm đối xứng và không đối
xứng đối với tiếng nói có nhiễu và tiếng nói sạch mà được xác định từ các hệ
số LSF.
Hàm lọc ngược do đó phụ thuộc vào các hệ số LSF của tiếng nói sạch,
có nhiễu và hệ số khuếch đại k.
2.2.4. Phổ đường cảm thụ (PLSF)
Trong biến đổi phổ của tiếng nói có nhiễu, nếu việc huấn luyện trên dữ
liệu với một môi trường đồng nhất với dữ liệu kiểm tra, thì có thể chuyển đổi
các thông số phổ của tiếng nói có nhiễu tới các tham số phổ của tiếng nói sạch
cho cả nhiễu cộng và nhiễu nhân. Tuy nhiên nhiễu hiếm khi được biết trước
nên mục tiêu của chúng tôi là hiểu và loại bỏ những sai lệch trong tín hiệu
tiếng nói do sự thay đổi của môi trường và như vậy cuối cùng tránh được yêu
cầu huấn luyện mở rộng của hệ thống chuyển đổi trong các môi trường nhiễu
khác nhau.
31
Dự đoán tuyến tính cảm thụ (PLP) gốc được đưa ra trong [20], trong đó
phổ thực (true spectrum) được chuyển đổi sang dạng gần với thính giác của
người trước khi tính toán các hệ số mã hóa dự đoán tuyến tính (LPC). Hai kỹ
thuật chính được sử dụng, bao gồm phân tích phổ băng tới hạn (critical-band
spectral resolution), tăng cường cân bằng âm (equal-loudness pre-emphasis)
Speech
Inverse Discrete Fourier Transform
Critical Band Analysis
Equal Loudness Pre - emphasis
Solution for Autoregressive Coefficient
All – pole Model
Intensity – Loudness Conversion
và nén. Thuật toán PLP được thể hiện trong hình 2.3.
Hình 2.3: Dự đoán tuyến tính cảm thụ (PLP – Perceptual Linear Preditive)
PLP được sử dụng khi có nhiễu mạnh hơn LPC gốc. Tuy nhiên, cũng
như LPC, các hệ số PLP dường như không thích hợp cho các mô hình thống
kê như GMM bởi vì dải động khá lớn của chúng. Do đó đã chuyển đổi biểu
diễn PLP sang dạng LSF nhằm mã hóa thông tin phổ LP hiệu quả hơn trong
biến đổi GMM thống kê.
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
32
2.2.5. Biến đổi phổ sử dụng mô hình GMM
GMM là một trong những phương pháp hiệu quả nhất của việc huấn
luyện trong chuyển đổi giọng nói [19]. GMM phù hợp cho việc huấn
luyện với số lượng lớn dữ liệu và được sử dụng để thích ứng với các mô
hình trong môi trường nhiễu và các mô hình chưa biết trong nhận dạng
giọng nói [23]. Như vậy, GMM có thể sử dụng phù hợp với các mô hình
huấn luyện tiếng nói nhiễu trong các môi trường cụ thể khác nhau và đối
với những điều kiện chưa biết.
GMM và mạng nơron (NN – Neural Network) được sử dụng hiệu quả
nhất cho việc huấn luyện (training) trong biến đổi phổ [16,17,6,18,19, 20].
Tuy nhiên không thể sử dụng NN cho việc huấn luyện trong văn bản lớn vì
vấn đề over-training của NN và NN dường như không phù hợp để huấn luyện
các dạng khác nhau của tiếng nói có nhiễu trong một phiên huấn luyện. Mặt
khác việc huấn luyện mạng noron (NN) là rất khó để thích nghi mô hình NN
với các dạng nhiễu không được biết đến của tiếng nói có nhiễu. Vấn đề này
gây khó khăn cho việc nâng cao chất lượng tiếng nói cho tiếng nói có nhiễu
dữ liệu mở.
Để khắc phục các vấn đề còn hạn chế của mạng nơron (NN – Neural
Network) thì các kết quả trong [17, 6] cũng xác nhận rằng huấn luyện GMM
vượt trội hơn so với huấn luyện NN. Do đó, trong nghiên cứu này đã sử dụng
GMM cho việc huấn luyện các vector phổ liên hợp (joint spectral vectors) của
tiếng nói có nhiễu và tiếng nói sạch. Trong phần này, sẽ trình bày thủ tục huấn
luyện và thủ tục dự đoán sử dụng kĩ thuật chuyển đổi giọng nói dùng GMM
mà chúng tôi sử dụng để nâng cao chất lượng tiếng nói có nhiễu.
33
LSF Extraction
Noisy Speech
Mapping function
GMM Training
LSF Extraction
Clean Speech
LSF Extraction
Synthesis
GMM Conversion
Noisy Speech
Clean Speech
Training Phase
Conversion – Enhancement Phase
Hình 2.4: Sơ đồ tổng quát
A. Thủ tục huấn luyện (training procedure)
Tiếng nói nguồn được biểu diễn bởi một dãy thời gian X=[x1,x2,…..,xn],
trong đó xi là một vector đặc trưng D chiều cho khung (frame) thứ i. Ví dụ:
. Tiếng nói đích được biểu diễn bởi dãy thời gian
. Vector liên hợp nguồn đích Y=[y1,y2,…,yn], trong đó
. Z=[z1,z2,…,zn] trong đó
Phần bố của Z được mô hình hóa bằng mô hình hỗn hợp Gauss (GMM),
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
như trong công thức (2.26)
34
(2.26)
Trong đó M là số các thành phần Gauss. biểu thị phân bố
chuẩn 2D với trị trung bình µm và và ma trận hiệp phương sai , αm là
xác suất tiên nghiệm (prior probability) của z được tạo ra bởi thành phần m,
và nó thỏa mãn . Các tham số (αm, µm,∑m) cho mật độ
liên hợp p(x,y) có thể được ước lượng bằng cách sử dụng thuật toán cực đại
hóa kỳ vọng (EM).
B. Thủ tục dự đoán
Hàm biến đổi để chuyển đặc tính nguồn x sang đặng tính đích y được cho
bởi công thức (2.27):
(2.27)
Do đó
(2.28)
Trong đó
,
Và pm(x) là xác suất của x thuộc thành phần Gauss thứ m.
35
C. Ưu nhược điểm của phương pháp
Các phương pháp nâng cao chất lượng tiếng nói truyền thống chỉ được áp
dụng hiệu quả với nhiễu cộng mà không áp dụng được cho nhiễu phức hợp.
Phương pháp nâng cao chất lượng tiếng nói có nhiễu sự dụng mô hình pha
trộn GMM mà được đưa ra ở đây đã đáp ứng được nhu cầu thực tế đó là cho
cả nhiễu cộng cũng như môi trường nhiễu nhân như tiếng vang. Tuy nhiên
nhược điểm của phương pháp này là cần phải có lượng dữ liệu huấn luyện
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
(training data) lớn và sự thích nghi (adaptation) không theo người nói.
36
CHƯƠNG III: ĐÁNH GIÁ THỰC NGHIỆM CÁC PHƯƠNG PHÁP
NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI
Các phương pháp nâng cao chất lượng tiếng nói có nhiễu đều hướng tới
mô hình độc lập ngôn ngữ, tức là có thể áp dụng cho bất kỳ ngôn ngữ nào.
Tuy nhiên trong thực tế, việc biến đổi các thành phần của tín hiệu tiếng nói có
thể gây ảnh hưởng đến độ nghe hiểu của tiếng nói trong từng ngôn ngữ khác
nhau. Nhiều nghiên cứu đã chỉ ra hiệu quả của từng phương pháp là khác
nhau khi áp dụng vào một ngôn ngữ cụ thể, thậm chí là khác nhau khi đánh
giá trên các bộ cơ sở dữ liệu khác nhau.
Luận văn này tập trung vào việc đánh giá phương pháp nâng cao chất
lượng tiếng nói có nhiễu sử dụng mô hình pha trộn GMM. Để đánh giá được
hiệu quả của việc nâng cao chất lượng tiếng nói cần có các cơ sở dữ liệu tiếng
nói đủ lớn. Các nghiên cứu trước đây đã đánh giá và so sánh hiệu quả phương
pháp nâng cao chất lượng tiếng nói có nhiễu dùng mô hình GMM với cơ sở
dữ liệu tiếng Anh nhưng chưa có đánh giá trên cơ sở dữ liệu lớn tiếng Việt.
Do đó trong luận văn này chúng tôi đánh giá thực nghiệm trên một bộ cơ sở
dữ liệu tiếng Việt đủ lớn. Qua đó, có thể xác định các phương pháp phù hợp
với tiếng nói tiếng Việt trong từng lớp ứng dụng cụ thể. Để xây dựng cơ sở
dữ liệu tiếng nói có nhiễu cần thêm nhiễu từ cơ sở dữ liệu NOISEX-92 vào cơ
sở dữ liệu tiếng nói sạch. Dữ liệu nhiễu bao gồm 3 dạng nhiễu là nhiễu trắng,
nhiễu hồng và nhiễu nhà máy. Do giới hạn về mặt thời gian nên luận văn này
chỉ đánh giá khả năng nhận dạng của phương pháp sử dụng LP với nhiễu
trắng, SNR= -10dB, sử dụng cho bộ dữ liệu tiếng Việt.
3.1. Ngữ âm tiếng Việt
Tiếng Việt là ngôn ngữ chính thức và là quốc ngữ của Việt Nam. Nó được
37
hơn 90 triệu người Việt sử dụng hàng ngày. Khoảng hơn 3 triệu người Việt ở
nước ngoài cũng thường xuyên sử dụng tiếng Việt.
Tóm tắt về ngữ âm tiếng Việt được trình bày dưới đây được tham khảo
từ nghiên cứu của Đoàn Thiện Thuật [2] và Hoàng Phê [1].
a. Cấu trúc âm tiết tiếng Việt
Tiếng Việt là một ngôn ngữ đơn âm có thanh điệu điển hình [2]. Tổng
số âm tiết (syllable) có thể phát âm trong tiếng Việt là khoảng 19.000 tuy
nhiên chỉ có khoảng 7000 âm tiết được sử dụng và giảm xuống 1200 âm tiết
nếu bỏ qua sự khác biệt về thanh điệu (tone). Cấu trúc âm tiết tiếng Việt được
mô tả trong hình 3.1. Mỗi âm tiết được xem là một tổ hợp của phần đầu
(initial), phần vần (final) và thanh điệu. Có 22 phần đầu, 155 phần vần và 6
thanh điệu trong tiếng Việt [23, 24].
Phần đầu thông thường là phụ âm (consonant), nhưng cũng có thể bị
khuyết trong một số âm tiết. Phần vần có thể phân tách thành ba thành phần,
bao gồm đầu vần (onset), nhân âm tiết (nucleus), và đuôi vần (coda). Phần
đầu vần và đuôi vần có thể không tồn tại với một số âm tiết còn nhân âm tiết
là thành phần chính của mọi âm tiết. Nhân âm tiết có thể là một nguyên âm
(vowel) hoặc một nguyên âm đôi (diphthong). Đuôi vần có thể là một phụ âm
hoặc một bán nguyên âm (semi-vowel). Có tất cả một phần đầu vần, 16 nhân
âm tiết, và 8 đuôi vần trong tiếng Việt.
b. Thanh điệu tiếng Việt
Thanh điệu là một thành phần siêu phân đoạn (super-segmental) tồn tại
duy nhất trong các ngôn ngữ có thanh điệu. Có sáu thanh điệu phân biệt trong
tiếng Việt như trong bảng 3.2 và hình 3.1. Mỗi thanh điệu có một đường tần
số cơ bản (F0) xác định.
Trong tiếng Việt, có hai loại âm tiết được phân biệt là âm đóng và âm
mở. Âm tiết đóng kết thúc với các đuôi vần /p/, /t/, /k/ chỉ có thể kết hợp với Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
38
các thanh sắc và nặng trong khi âm tiết mở và các âm tiết đóng khác có thể
kết hợp với tất cả sáu thanh điệu để cấu thành một âm tiết có thanh có nghĩa.
Hình 3.1: Đường F0 sáu thanh điệu tiếng Việt theo, dấu ? ở thanh ngã chỉ ra
rằng đường F0 của thanh ngã không thống nhất giữa các mẫu ở vùng giữa.
Bảng 3.1: Cấu trúc âm tiết tiếng Việt
Thanh điệu
Phần vần
Phần đầu âm tiết
Đầu vần Nhân âm tiết Đuôi vần
39
Bảng 3.2: Sáu thanh điệu tiếng Việt
Số thứ tự thanh Tên tiếng Việt Tên tiếng Anh
1 Ngang Level
2 Huyền Falling
3 Ngã Broken
4 Hỏi Curve
5 Sắc Rising
6 Nặng Drop
3.2. Cơ sở dữ liệu tiếng nói tiếng Việt
Nghiên cứu về xử lý tiếng nói tiếng Việt bắt đầu từ khoảng 2 thập kỷ
nay. Tuy nhiên, số lượng nghiên cứu là không nhiều. Một trong những lí do
dẫn tới sự phát triển của nghiên cứu về xử lý tiếng nói tiếng Việt chưa thực sự
mạnh mẽ là do chưa có nhiều những bộ cơ sở dữ liệu tiếng nói tiếng Việt tin
cậy được chuẩn hóa.
Ở Việt Nam, thông thường mỗi nhóm nghiên cứu tự xây dựng các bộ
cơ sở dữ liệu tiếng nói để thực nghiệm. Do giới hạn về thời gian, kiến thức, và
kinh phí dẫn tới các bộ cơ sở dữ liệu này thường không đủ lớn cũng như chất
lượng chưa cao. Ngoài ra, việc từng nhóm nghiên cứu sử dụng các bộ cơ sở
dữ liệu riêng dẫn tới việc phối hợp nghiên cứu giữa các nhóm nghiên cứu là
rất khó khăn, nhiều khi là không thể.
Trong phần này, chúng tôi liệt kê một số bộ cơ sở dữ liệu tiếng nói
tiếng Việt được sử dụng phổ biến trong các nghiên cứu về xử lý tiếng nói
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
tiếng Việt gần đây.
40
a. Cơ sở dữ liệu số điện thoại
Cơ sở dữ liệu tiếng nói này được xây dựng tại Viện Công nghệ thông
tin, Viện hàn lâm, khoa học và công nghệ Việt Nam [25]. Định dạng âm thanh
là PCM .WAV với tần số lấy mẫu là tần số lấy mẫu của hệ thống điện thoại
công cộng PSTN 8KHz. Mã hóa 16 bit / mẫu. Kích cỡ bộ cơ sở dữ liệu khá
nhỏ với 1541 từ mô tả các số điện thoại. Phần đầu bao gồm 170 người nói với
94 đàn ông và 76 phụ nữ đến từ các địa phương khác nhau trong khu vực
miền Bắc. Phần hai gồm 208 người nói bao gồm 130 đàn ông và 78 phụ nữ
đến từ các địa phương trong khu vực miền Nam. Cơ sở dữ liệu được gán nhãn
ở mức âm vị.
b. Cơ sở dữ liệu tiếng nói phát thanh VOV
Bộ cơ sở dữ liệu này được xây dựng tại Viện Công nghệ thông tin,
Viện hàn lâm, khoa học và công nghệ Việt Nam [25]. Bộ cơ sở dữ liệu gồm
các câu chuyện, báo cáo, bản tin,… được Đài tiếng nói Việt Nam VOV phát
thanh và được sưu tập từ 15 người nói giọng Hà Nội chuẩn. Âm thanh dạng
RealAudio được sưu tập từ website của VOV và được chuyển đổi về dạng âm
thanh PCM WAV với tốc độ bit 256 kbps, tần số lấy mẫu là 16 KHz.
Bộ cơ sở dữ liệu bao gồm 29062 câu với độ dài trung bình 10 âm tiết.
Số lượng các âm tiết phân biệt là 4379 trong khi số lượng các âm tiết phân
biệt không tính thanh điệu là 1646 bao phủ gần như toàn bộ các âm tiết tiếng
Việt. Kích cỡ bộ cơ sở dữ liệu khoảng 2.5 GB.
Bộ cơ sở dữ liệu được lựa chọn cân bằng giữa mỗi người nói và mỗi
phiên và được gán nhãn bằng tay chỉ ở mức âm tiết. Mặc dù đây là một bộ cơ
sở dữ liệu lớn, việc sử dụng bộ cơ sở dữ liệu này cho nghiên cứu là khá khó
khăn do chưa có nhãn gán ở mức âm vị.
c. Cơ sở dữ liệu DEMEN567
Bộ cơ sở dữ liệu này cũng được xây dựng tại Viện Công nghệ thông
41
tin, Viện hàn lâm, khoa học và công nghệ Việt Nam [25]. Kịch bản văn bản
được trích ra từ câu chuyện Dế mèn phiêu lưu ký nổi tiếng. Người nói là một
nữ phát thanh viên giọng Hà Nội chuẩn. Tiếng nói được ghi âm ở dạng PCM
WAV, tần số lấy mẫu là 11025 Hz, mã hóa 16 bit / mẫu. Cơ sở dữ liệu bao
gồm 567 câu với độ dài mỗi câu khoảng 15 âm tiết. Kích cỡ bộ cơ sở dữ liệu
vào khoảng 70 MB và độ dài vào khoảng gần 1 giờ nói.
Bộ cơ sở dữ liệu được gán nhãn bằng tay ở cả mức âm tiết và âm vị bao
gồm thông tin thanh điệu. Mặc dù kích cỡ khá nhỏ, đây có thể xem là một bộ
cơ sở dữ liệu chất lượng cao do việc thiết kế kịch bản văn bản đảm bảo độ cân
bằng âm cao cũng như việc gán nhãn ở mức âm vị là khá chính xác.
d. Cơ sở dữ liệu MICA VNSpeech
Đây là bộ cơ sở dữ liệu được xây dựng tại Trung tâm nghiên cứu quốc
tế MICA, Đại học Bách Khoa Hà Nội. Bộ cơ sở dữ liệu đươc nói bởi 50
người nói bao gồm 25 nữ và 25 nam với độ tuổi từ 15 đến 45. Người nói hầu
hết có trình độ đại học với ba phương ngữ chính: miền Nam, miền Bắc, và
miền Trung Việt nam. Mỗi người nói khoảng 60 phút. Tần số lấy mẫu là 16
KHz. Mức độ cân bằng về ngữ âm và âm vị được đảm bảo khá tốt [26].
Mặc dù bộ cơ sở dữ liệu này được xem là một cơ sở dữ liệu tiếng nói lớn với
chất lượng thu âm cao, nhãn mô tả trong cơ sở dữ liệu được tạo ra bằng
phương pháp gán nhãn tự động có sai số lớn đã giới hạn khả năng sử dụng cơ
sở dữ liệu này trong các nghiên cứu về xử lý tiếng nói tiếng Việt.
e. Các cơ sở dữ liệu khác
Gần đây, một số nhóm nghiên cứu đã cố gắng thu thập các nguồn tài
nguyên tiếng nói để xây dựng các bộ cơ sở dữ liệu tiếng nói tiếng Việt lớn, ví
dụ như bộ cơ sở dữ liệu tin tức phát thanh tiếng Việt (VNBN) với khoảng 40
giờ và một bộ cơ sở dữ liệu đàm thoại với khoảng 11 giờ tiếng nói [27]. Tuy
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
nhiên những bộ cơ sở dữ liệu này hoặc chưa được gán nhãn hoặc chỉ gán nhãn
42
ở mức âm vị. Do đó chúng chưa được sử dụng rộng rãi trong các nghiên cứu
về xử lý tiếng nói tiếng Việt.
3.3. Lựa chọn cơ sở dữ liệu
Dựa trên các phân tích về các bộ cơ sở dữ liệu tiếng Việt hiện có ở mục
3.2, chúng tôi lựa chọn cơ sở dữ liệu DEMEN567 và NOISEX-92 để thực
nghiệm và đánh giá cho luận văn này.
3.4. Cài đặt các phương pháp
3.4.1. Phương pháp trừ phổ
Ước lượng, cập nhật nhiễu
-
Y(w) (w)
FFT
+
Tín hiệu bị nhiễu
Pha của tín hiệu
IFFT
Tín hiệu sau khi tăng cường
Lưu đồ phương pháp trừ phổ được thể hiện trong hình 3.2.
Hình
Hình 3.2: Lưu đồ thuật toán Spectral subtraction (trừ phổ)
Khi cài đặt, chúng tôi tham khảo và sử dụng thư viện mã nguồn mở của
Esfandiar Zavarehei xây dựng năm 2005 cài đặt phương pháp trừ phổ kinh
điển của Boll đề xuất năm 1979.
43
3.4.2. Phương pháp biến đổi sử dụng học máy thống kê GMM
Cơ sở toán học của phương pháp đã được trình bày trong phần 2. Để
cài đặt phương pháp này chúng tôi sử dụng thư viện STRAIGHT để phân tích
tham số, thư viện Voice Conversion Toolbox cho các hàm thống kê GMM và
thực hiện trên MATLAB [28].
Lưu đồ thuật toán của quá trình huấn luyện mô hình GMM cho
tham số phổ tương ứng của cặp tiếng nói có nhiễu – tiếng nói sạch (A-B)
được trình bày trong hình 3.3. Lưu đồ thuật toán của quá trình chuyển đổi
tham số phổ tiếng nói có nhiễu A thành tham số tương ứng với tiếng nói
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
sạch B được cho trong hình 3.4.
44
Tiếng nói nhiễu A
Tiếng nói sạch B
STRAIGHT
Đường bao phổ
Rút gọn đường bao phổ
Rút gọn đường bao phổ
LSF A
LSF B
Huấn luyện GMM
Hình 3.3: Huấn luyện mô hình GMM cho tham số phổ LSF
45
Tiếng nói nhiễu A
STRAIGHT
Đường bao phổ
GMM A-B
Rút gọn đường bao phổ
LSF A
Chuyển đổi phổ
LSF B
STRAIGHT
Tiếng nói sạch B
Hình 3.4: Chuyển đổi mô hình GMM cho tham số phổ LSF
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
3.5. Đánh giá kết quả thực nghiệm
46
Trong phần này luận văn sẽ đánh giá tính khả thi của các mô hình nâng
cao chất lượng tiếng nói có nhiễu. Mục đích chính của việc đánh giá là để
kiểm tra xem liệu mô hình nghiên cứu có thể nâng cao chất lượng âm thanh
tốt hơn và từ đó xác định mô hình hữu ích để áp dụng cho các hệ thống thính
giác của con người và các hệ thống nhận dạng tự động ASR. Ở đây tác giả sử
dụng các phương pháp đánh giá chủ quan MOS (người nghe đánh giá) và
phương pháp đánh giá khách quan (máy đánh giá theo công thức) như LCD
để đánh giá sự cải thiện của việc nâng cao chất lượng tiếng nói có nhiễu khi
sử dụng các phương pháp Spectral subtraction (Trừ phổ) và phương pháp LP-
GMM. Mỗi phương pháp có những ưu nhược điểm riêng.
Trong luận văn này tác giả lựa chọn bộ cơ sở dữ liệu tiếng Việt
DEMEN567 và NOISEX-92 để thực hiện đánh giá kết quả.
3.5.1. Tiêu chí đánh giá chủ quan
Đánh giá chủ quan là tiêu chí sử dụng người nghe để đánh giá chất lượng
tiếng nói. Việc đánh giá chủ quan được xem là quan trọng hơn do mục tiêu
cuối cùng của tiếng nói sau khi được nâng cao chất lượng phải đảm bảo người
nghe hiểu được và chấp nhận được. Tuy nhiên để đánh giá chủ quan thì tốn
kém, mất thời gian vì cần thiết bị nghe và phòng nghe chuyên dụng để tránh
nhiễu môi trường. Ngoài ra các phương pháp đánh giá chủ quan khó đảm bảo
sự tin cậy do người nghe có thể mất tập trung, không chú tâm vào việc đánh
giá hoặc cố tình cho điểm sai. Để khắc phục các yếu điểm đó thì cần tăng số
lượng người nghe, số lượng phép test để đảm bảo các giá trị thống kê có sự ổn
định và tin cậy.
Trong luận văn này chúng tôi sử dụng độ đo MOS - sử dụng để đo lường
chất lượng tiếng nói sau khi khôi phục bằng việc đánh giá chấm điểm theo 5
47
mức cảm nhận của các đối tượng nghe. Các mức đánh giá được trình bày
trong bảng 3.3.
Bảng 3.3: Mô tả mức điểm đánh giá
Mức đánh giá Chất lượng tiếng nói
5 Rất tốt
4 Tốt
3 Trung bình
2 Kém
1 Không đạt yêu cầu
Phương pháp đánh giá chủ quan được thực hiện với 05 người là người
Việt- là các sinh viên tại trường Đại học Công nghệ thông tin và truyền thông
có độ tuổi từ 18 đến 20 và có khả năng nghe bình thường. Tất cả các tín hiệu
tiếng nói của 567 câu tiếng Việt được lấy ngẫu nhiên từ bộ dữ liệu trong các
bài kiểm tra đánh giá. Chúng tôi sử dụng 4 loại tín hiệu âm thanh: tín hiệu
tiếng nói sạch, tín hiệu tiếng nói có nhiễu (nhiễu nhà máy) và 2 loại tín hiệu
khôi phục sử dụng mô hình Spectral subtraction (trừ phổ) và LP-GMM. Mức
điểm đánh giá MOS là điểm trung bình của tất cả các mẫu đánh giá.
3.5.2. Tiêu chí đánh giá khách quan
Nhằm khắc phục một phần các yếu điểm của việc đánh giá chủ quan,
nhiều phương pháp đánh giá khách quan đã được xây dựng. Các phương pháp
đánh giá khách quan truyền thông theo cách tiếp cận so sánh trực tiếp hai tín
hiệu tiếng nói sạch và tín hiệu tiếng nói có nhiễu, tín hiệu tiếng nói sạch và tín
hiệu sử dụng các phương pháp nâng cao chất lượng bằng LCD (khoảng cách
LP). Những số đo mục tiêu đánh giá được tính toán theo công thức sau: Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
48
(3.1)
Trong đó là các hệ số LP thứ i của tín hiệu với thứ tự LP
được thiết lập P=20.
3.5.3. Kết quả đánh giá thực nghiệm
Luận văn đã sử dụng bộ cơ sở dữ liệu đánh giá DEMEN567 và bộ cơ sở
dữ liệu NoiseEX 92. Ở đây nhiễu phức hợp sử dụng trong luận văn được nhân
tạo bằng cách: Lấy tín hiệu nhiễu nhà máy SNR = -10 dB lấy trong bộ CSDL
NoiseEX 92 cộng với tín hiệu tiếng nói sạch trong bộ CSDL DEMEN567.
Trong luận văn đã sử dụng 66 trong tổng số 567 câu tiếng việt trong bộ CSDL
DEMEN567 để đánh giá khách quan cũng như sử dụng 05 người là người
Việt- là các sinh viên tại trường Đại học Công nghệ thong tin và truyền thông
có độ tuổi từ 18 đến 20 và có khả năng nghe bình thường để đánh giá chủ
quan (MOS).
Sau khi đo khoảng cách giữa các tín hiệu tiếng nói sạch với các tín hiệu:
tiếng nói có nhiễu nhà máy và các tín hiệu tiếng nói khôi phục, chúng tôi đánh
giá sự cải thiện của các tín hiệu khôi phục so với tín hiệu tiếng nói có nhiễu.
Bảng 3.4 và 3.5 cho thấy những biến đổi trung bình của các phép đo khách
quan và chủ quan. Kết quả cho thấy mô hình LP-GMM là mô hình tốt hơn cả
cho tất cả các phép đo vì sự cải tiến gần như lớn nhất.
Bảng 3.4 : Kết quả đánh giá bằng phương pháp LCD
Phương pháp khôi phục LCD
Trừ phổ 0.4009
49
LP-GMM 0.1830
Nhiễu và Sạch 0.3838
Bảng 3.5 : Kết quả đánh giá bằng phương pháp MOS
Nhiễu Trừ phổ LP-GMM Sạch
1.19 1.28 3.83 4.21 MOS
3.6. Nhận xét chung về kết quả
So với kết quả nghiên cứu đã công bố kết quả thử nghiệm trong luận văn
này khá tương đồng. Điều đó một lần nữa khẳng định các phương pháp khôi
phục tiếng nói có nhiễu bằng mô hình khôi phục LP-GMM là phương pháp
tốt hơn so với các mô hình kinh điển trước đó. Và với phương pháp sử dụng
mô hình LP-GMM này là phương pháp hiệu quả cần quan tâm nghiên cứu và
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
thử nghiệm tiếp.
50
KẾT LUẬN
Luận văn đã nghiên cứu tổng quan về phương pháp nâng cao chất lượng
tiếng nói có nhiễu sử dụng mô hình pha trộn GMM và phương pháp nâng cao
chất lượng tiếng nói có nhiễu kinh điển sử dụng kỹ thuật trừ phổ (Spectral
subtraction). Luận văn cũng tiến hành đánh giá thực nghiệm các phương pháp
trên bộ cơ sở dữ liệu tiếng Việt DEMEN567 và NOISEX-92.
Kết quả đánh giá thực nghiệm đã cho thấy Phương pháp nâng cao chất
lượng tiếng nói có nhiêu sử dụng mô hình pha trộn GMM là tối ưu hơn cả.
Phương pháp này đã đưa ra được tiếng nói không bị méo cũng như không bị
mất mát thông tin, đạt được tính dễ nghe và dễ hiểu. Đặc biệt hơn nữa là
phương pháp này có thể khắc phục những hạn chế mà những phương pháp
truyền thống không làm được đó là áp dụng được cho môi trường nhiễu phức
hợp.
Hướng nghiên cứu phát triển tiếp theo của luận văn:
- Cải tiến mô hình GMM
- Xây dựng CSDL, thử nghiệm với bộ CSDL lớn hơn
- Thực nghiệm thêm với các phương pháp phân lớp khác SVM, HMM,…
51
TÀI LIỆU THAM KHẢO
Tài liệu tiếng Việt
[1] Hoàng Phê (2003), Chính tả Tiếng Việt, NXB Đà Nẵng, trang. 9-15.
[2] Đoàn Thiện Thuật (2003), Ngữ âm tiếng Việt, NXB Đại học Quốc Gia.
Tài liệu tiếng anh
[3]. K. Nakamura, T. Toda, H. Saruwatari, K. Shikano. “Speaking-aid
systems using GMM-based voice conversion for electrolaryngeal
speech”, Speech Communication, Vol. 54, No. 1, pp. 134-146 (2012).
[4]. T. Hirahara, M. Otani, S. Shimizu, T. Toda, K. Nakamura, Y. Nakajima,
K. Shikano. “Silent-speech enhancement using body-conducted vocal-
tract resonance signals” Speech Communication, Vol. 52, No. 4, pp. 301-
313, (2010).
[5]. V.-A. Tran, G. Bailly, H. Loevenbruck, T. Toda, “Improvement to a
NAM-captured whisper-to-speech system”, Speech Communication, Vol.
52, No.4, pp. 314-326, (2010).
[6]. Trung Nghia Phung, Masashi Unoki and Masato Akagi, “Improving
Bone-Conducted Speech Restoration in noisy environment based on LP
scheme”, Proc. APSIPA 2010, (2010).
[7]. D. Huy-Khoi, P. Trung-Nghia, HC. Nguyen, VT. Nguyen, and QV. Thai,
“A novel spectral conversion based approach for noisy speech
enhancement”, International Journal of Information and Electronics
Engineering, vol. 1, no. 3, 281-285, (2011).
[8]. A. Mouchtaris, J. V. Spiegel, P. Mueller, and Panagiotis Tsakalides, “A
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Spectral Conversion Approach to Single-Channel Speech Enhancement,”
52
“IEEE Trans On Audio, Speech, And Language Processing”, vol.15, no.4,
May 2007
[9]. Weiss, M., Aschkenasy, E., and Parsons, T., (1974), Study and
the Development of the INTEL Technique for Improving Speech
Intelligibility, Technical Report NSC-FR/4023, Nicolet Scientific
Corporation.
[10]. Deller, J., Hansen, J.H.L., and Proakis, J. (2000), Discrete –time
Processing
of Speech Signals, New York : IEEE Press.
[11]. Guastafsson, H., Nordholm, S., and Claesson, I.(2001), Spectral
subtraction using reduced delay convolution and adaptive averaging,
IEEE Trans. Speech Audio Process., 9(8), 799-807.
[12]. Philippos C.Loizou, Speech Enhancement Theory and Practice,pp. 100.
[13].Hu, Y. and Loizou, P(2006), Subjective comparison of speech
enhancement algorithms, Proc. IEEE Int.Conf. Acoust. Speech Signal
Process, I.
[14]. Philippos C.Loizou, Speech Enhancement Theory and Practice,pp. 2-7.
[15]. Paliwal, K. and Alsteris, L.(2005), On the usefulness of STFT
phase spectrum in human listening tests, Speech Commun., 45(2), 153-
170.
[16] T.T. Vu. K. Kimura, M.Unoki, and M. Akagi, “A study on Restoration
of Bone – conducted Speech with MTF – based and LP – based Models ”,
“journal of Signal Processing”, vol.10, no. 6, pp. 407 – 417, 2006.
[17] T. N. Phung, M. Unoki, and M. Akagi, “Comparative Evaluation of Bone
– conducted – speech Restoration based on Linear Prediction Scheme”,
53
“IEICE Technical Report”, vol. 110, no. 71, pp. 53-58, June, 2010.
[18] H. K. DO and Q. V. THAI, “A new approach for speech denoising using
spectral conversion”, “Proc. ICSPS 2011”, August, Yantai, China.
[19] A. Kain and M. W. Macon, “Spectral Voice Conversion For Text – To –
Speech Synthesis”, “proc. ICASSP 1998”, vol. 1, pp. 285-288, 1998.
[20] H.Hermansky., Perceptual linear predictive (PLP) analysis for speech. “J.
Acoust, Soc. Am”, pp. 1738-1752, 1990.
[21] J.S. Lim and A. V. Oppenheim, “Enhancement and band width
compression of noisy speech”, “Proc. Of the IEEE”, Vol. 67, No. 12,
1586-1604, Dec. 1979.
[22] L. Rabiner and B. H. Juang, “Fundamental of Speech Recognition”,
Copyright 1993 by AT&T.
[23] Lê Hồng Minh (2003), “Some results in Research and Development of
Text To Speech conversion system for Vietnamese language based on
formant synthesis," Hội thảo ICT.RDA.
[24] Phung, Trung-Nghia (2013), et al. "Improving Naturalness of HMM-
Based TTS Trained with Limited Data by Temporal
Decomposition." IEICE TRANSACTIONS on Information and
Systems 96.11: 2417-2426.
[25] L.C. Mai and D.N. Duc (2006), “Design of Vietnamese speech corpus
and current status," Proc. ISCSLP-06, pp. 748-758.
[26] V.B. Le, D.D. Tran, L. Besacier, E. Castelli, and J.F. Serignat (2005),
“First steps in building a large vocabulary continuous speech recognition
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
system for Vietnamese," Proc. RIVF05, pp. 330-333, pp. 21-24.
54
[27] Vũ Hải Quân (2010), “VOS: The Corpus-based Vietnamese Text-to-
speech System," Tạp chí CNTT & TT.
[28] Sündermann, David (2007). “Voice conversion Matlab toolbox”.
Technical Report, Siemens Corporate Technology, Munich, Germany.
[29]. S. Boll, “Suppression of acoustic noise in speech using spectral
subtraction”, IEEE Trans. on Acoustics, Speech and Signal Proc, vol. 27
issue. 2, 113 – 120, (1979).
[30]. N. Bi and Y. Qi, “Application of speech conversion to alaryngeal speech
enhancement”, IEEE Trans. on Speech and Audio Proc (1997).