i
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
KHOA CÔNG NGHỆ THÔNG TIN
PHẠM MẠNH CƯỜNG
NGHIÊN CỨU PHƯƠNG PHÁP MÃ HÓA TIẾNG NÓI DÙNG
KỸ THUẬT PHÂN RÃ MA TRẬN KHÔNG ÂM
Chuyên ngành: Khoa học máy tính
Mã số: 848 01 01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS. TS PHÙNG TRUNG NGHĨA
ii
LỜI CAM ĐOAN
Tên tôi là: Phạm Mạnh Cường
Sinh ngày: 31/10/1985
Học viên lớp cao học K17A - Trường Đại học Công nghệ thông tin và Truyền
thông - Thái Nguyên.
Tôi xin cam đoan, toàn bộ nội dung liên quan tới đề tài được trình bày trong
luận văn là bản thân tôi tìm hiều và nghiên cứu, dưới sự hướng dẫn khoa học của
Thầy giáo PGS.TS. Phùng Trung Nghĩa.
Các nội dung trong luận văn đúng như nội dung trong đề cương và yêu cầu
của thầy giáo hướng dẫn. Tất cả tài liệu tham khảo đều có nguồn gốc, xuất xứ rõ
ràng. Nếu sai tôi hoàn toàn chịu trách nhiệm trước hội đồng khoa học và trước
pháp luật.
Tác giả luận văn
Phạm Mạnh Cường
iii
LỜI CẢM ƠN
Sau một thời gian nghiên cứu và làm việc nghiêm túc, được sự động viên,
giúp đỡ và hướng dẫn tận tình của Thầy giáo hướng dẫn PGS.TS. Phùng Trung
Nghĩa, luận văn với đề tài “Nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ
thuật phân rã ma trận không âm” đã hoàn thành.
Em xin bày tỏ lòng biết ơn sâu sắc đến: Thầy giáo hướng dẫn PGS.TS.
Phùng Trung Nghĩa đã tận tình chỉ dẫn, giúp đỡ em hoàn thành luận văn này.
Em xin cảm ơn Khoa sau Đại học Trường Đại học Công nghệ - Thông tin và
Truyền thông đã giúp đỡ em trong quá trình học tập cũng như thực hiện luận văn.
Em xin chân thành cảm ơn bạn bè, đồng nghiệp và gia đình đã động viên,
khích lệ, tạo điều kiện giúp đỡ em trong suốt quá trình học tập, thực hiện và hoàn
thành luận văn này.
Em xin chân thành cảm ơn!
Thái Nguyên, ngày tháng năm 2020
Học viên
Phạm Mạnh Cường
iv
MỤC LỤC
LỜI CAM ĐOAN ............................................................................................. i
LỜI CẢM ƠN ................................................................................................. iii
DANH MỤC CÁC BẢNG ............................................................................ vii
DANH MỤC CÁC HÌNH ............................................................................ viii
Ý NGHĨA CÁC TỪ VIẾT TẮT .................................................................... ix
1. Lý do chọn đề tài ............................................................................................ 2
2. Đối tượng và phạm vi nghiên cứu: ................................................................. 3
3. Hướng nghiên cứu của luận văn: .................................................................... 3
4. Phương pháp nghiên cứu ................................................................................ 3
5. Ý nghĩa khoa học và thực tiễn ........................................................................ 4
MỞ ĐẦU .......................................................................................................... 2
1.1. Tổng quan về tiếng nói ................................................................................ 5
1.1.1. Thông tin tiếng nói ............................................................................. 5
1.1.2. Tín hiệu tiếng nói ............................................................................... 6
1.1.2.1. Tín hiệu .................................................................................... 6
1.1.2.2. Nguồn tín hiệu .......................................................................... 7
1.1.2.3. Hệ thống và xử lý tín hiệu ........................................................ 7
1.2. Tổng quan về mã hóa tiếng nói .................................................................... 8
1.3. Mã hóa tiếng nói tốc độ bit thấp .................................................................. 9
1.4. Mục tiêu của luận văn ................................................................................ 10
CHƯƠNG 1 TỔNG QUAN VỀ MÃ HÓA TIẾNG NÓI ............................. 5
v
2.1. Tổng quan về kỹ thuật phân rã ma trận không âm NMF .......................... 12
2.1.1. Khái niệm ......................................................................................... 12
2.1.2. Lịch sử ............................................................................................. 12
2.1.3. Nền tảng ........................................................................................... 12
2.1.4. Tích chất phân cụm .......................................................................... 14
2.2. Kỹ thuật phân rã ma trận không âm NMF và ứng dụng trong mã hóa tiếng 15 nói
2.2.1 Kỹ thuật phân rã ma trận không âm NMF ........................................ 15
2.2.2 Ứng dụng trong mã hóa tiếng nói ..................................................... 21
2.3. Phương pháp mã hóa tiếng nói dùng NMF của Xue ................................. 22
2.4. Phương pháp mã hóa NMF của Chien ...................................................... 28
CHƯƠNG 2 PHƯƠNG PHÁP MÃ HÓA TIẾNG NÓI DÙNG KỸ THUẬT PHÂN RÃ MA TRẬN KHÔNG ÂM NMF ................................................ 12
3.1. Thu thập dữ liệu tiếng nói ........................................................................ 36
3.1.1. Ngữ âm tiếng Việt ............................................................................ 36
3.1.1.1. Cấu trúc âm tiết tiếng Việt ..................................................... 36
3.1.1.2. Thanh điệu tiếng Việt ............................................................. 37
3.1.2. Cơ sở dữ liệu tiếng nói tiếng Việt .......................................................... 38
3.1.2.1 Cơ sở dữ liệu tiếng nói phát thanh VOV ................................. 38
3.1.2.2 Cơ sở dữ liệu DEMEN567 ...................................................... 39
3.1.2.3 Cơ sở dữ liệu MICA VNSpeech ............................................. 39
3.1.3. Tổng hợp tiếng nói tiếng Việt ......................................................... 40
3.2. Cài đặt phương pháp mã hóa trên Matlab ................................................. 40
CHƯƠNG 3 ĐÁNH GIÁ THỰC NGHIỆM PHƯƠNG PHÁP MÃ HÓA TIẾNG NÓI DÙNG KỸ THUẬT PHÂN RÃ MA TRẬN KHÔNG ÂM NMF ................................................................................................................ 36
vi
3.3. Đánh giá khách quan, chủ quan và so sánh các phương pháp .................. 42
3.3.1.Đánh giá khách quan và chủ quan .................................................... 42
3.3.2. So sánh với các phương pháp khác. ................................................. 44
3.4. Phân tích, đánh giá ưu nhược điểm ........................................................... 46
KẾT LUẬN .................................................................................................... 47
TÀI LIỆU THAM KHẢO ............................................................................ 48
vii
DANH MỤC CÁC BẢNG
Bảng 2.1. Hiệu suất của hai sơ đồ lượng tử hóa ............................................. 25
Bảng 2.2. Tỉ lệ phân giải cao độ khác nhau .................................................... 26
Bảng 3.1. Cấu trúc âm Tiếng Việt .................................................................. 38
Bảng 3.2. Sáu thanh điệu Tiếng Việt .............................................................. 38
Bảng 3.3. Thang điểm PESQ .......................................................................... 44
viii
DANH MỤC CÁC HÌNH
Hình 1.1. Dạng sóng tiếng nói một câu tiếng Việt .......................................... 6
Hình 1.2. Tiếng nói hữu thanh ........................................................................ 6
Hình 1.3. Một số ứng dụng của xử lý tiếng nói .............................................. 8
Hình 2.1. NMF tuần tự .................................................................................... 18
Hình 2.2. Dạng sóng lời nói và đường viền cao độ của nó ............................. 25
Hình 2.3. Dấu vết điện .................................................................................... 27
Hình 2.4. Hàm sự kiện có tính chất “hình học chuẩn” và “hình học không
chuẩn” .............................................................................................................. 30
Hình 2.5. Thuật toán chuẩn hóa vector sự kiện trong NMF ........................... 34
Hình 2.6. Hình vẽ các hàm sự kiện nhận được khi NMF phân tích một câu,
chỉ số trên miền thời gian là số khung. ........................................................... 35
Hình 3.1. Đường F0 sáu thanh điệu Tiếng Việt .............................................. 37
Hình 3.2. Thuật toán mã hóa và đánh giá chất lượng tiếng nói mã hóa bằng
NMF ................................................................................................................ 41
Hình 3.3. Mô hình hóa người nghe trong PESQ ............................................. 43
Hình 3.4. Kết quả đánh giá chủ quan bằng phương pháp của Scheffe với tỷ lệ
nén đầu vào là 20 ............................................................................................. 45
Hình 3.5. Kết quả đánh giá chủ quan bằng phương pháp của Scheffe với tỷ lệ
nén đầu vào là 30 ............................................................................................. 45
Hình 3.6. Hình ảnh dạng sóng tiếng nói có nén, không nén với tỷ lệ nén là 46
ix
Ý NGHĨA CÁC TỪ VIẾT TẮT
Từ viết tắt Ý nghĩa
ASD Phổ trung bình
ADPCM Mã hóa thích nghi
CELP Mã hóa dự đoán tuyến tính kích thích mã
Dạng sóng đặc trưng CW
Phương thức sử dụng phổ biến DCT
Bộ lọc thông thấp FIR
Phương sai dư phân số FRV
Phương pháp thống kê HMM
Biến đổi cosine rời rạc IDCT
Mã hóa dự đoán tuyến tính LPC
Đặc trưng phổ đường LSF
MELP Tuyến tính kích thích hỗn hợp
NCCF Phương pháp hàm tương quan chéo đã chuẩn hóa
Kỹ thuật phân rã ma trận không âm NMF
Phương trình bậc hai không âm NQP
Thành phần chính PCA
PESQ
Mã hóa theo dạng xung PCM
Đánh giá cảm quan về chất lượng lời nói
Sóng phát triển nhanh REW
x
SEW Sóng phát triển chậm
SFTR Tỉ lệ dịch phổ
SVM Vector hỗ trợ
WI Bộ mã hóa dựa trên NMF
2
MỞ ĐẦU
1. Lý do chọn đề tài
Tiếng nói là phương tiện giao tiếp cơ bản của con người. Vì vậy tiếng nói
cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệ thống viễn thông.
Để truyền tiếng nói trong mạng viễn thông, tiếng nói cần phải được số hóa. Phương
pháp số hóa cơ bản mã hóa theo dạng xung (Pulse Code Modulation – PCM) cho
tốc độ bit của tiếng nói đã số hóa là 64 Kbps giống tốc độ bit của một kênh thông
tin số cơ bản chưa ghép kênh [7]. Với sự bùng nổ về thông tin trong các mạng viễn
thông hiện đại, việc sử dụng phương pháp mã hóa PCM với tốc độ cơ bản 64 Kbps
là tiêu tốn lãng phí nguồn tài nguyên, hạn chế dung lượng thông tin trên một kênh
truyền vật lý. Chính vì vậy, rất nhiều nhà nghiên cứu trên thế giới đã tập trung vào
vấn đề mã hóa tiếng nói để đảm bảo tiếng nói được mã hóa có tốc độ bit thấp, có
thể dễ dàng tăng số kênh truyền logic trên một kênh truyền vật lý, trong khi vẫn
phải đảm bảo các yêu cầu về chất lượng [8, 9, 10, 12, 17, 18]. Các phương pháp
mã hóa tiếng nói phổ biến được biết đến là mã hóa dự đoán tuyến tính LPC [8],
mã hóa thích nghi ADPCM [12],... Mặc dù các phương pháp mã hóa này là tin cậy
và đã được tiêu chuẩn hóa và sử dụng rộng rãi trong các hệ thống viễn thông. Hiệu
quả nén của các phương pháp mã hóa phổ biến này vẫn chưa đảm bảo trong điều
kiện tài nguyên hạn chế như các hệ thống thông tin di động. Kỹ thuật phân rã ma
trận không âm (Nonnegative Matrix Factorization - NMF) là một kỹ thuật phân
tích tiếng nói được đề xuất bởi Xue năm 2008 [17]. Các kết quả nghiên cứu cho
thấy NMF rất thích hợp để phân tích mô hình hóa tiếng nói cũng như mã hóa nén
tiếng nói. Hướng nghiên cứu này vẫn được tiếp tục phát triển trong những năm
gần đây [10, 18]. Luận văn này nghiên cứu về phương pháp mã hóa tiếng nói tốc
độ bit thấp thời gian thực dùng kỹ thuật NMF, phân tích lý thuyết, cài đặt thực
nghiệm và đánh giá hiệu quả các phương pháp, từ đó đưa ra các khuyến nghị cho
3
việc phát triển hệ thống mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ
thuật NMF.
2. Đối tượng và phạm vi nghiên cứu:
Đối tượng nghiên cứu của luận văn là các phương pháp mã hóa nén tiếng
nói tốc độ bit thấp thời gian thực dùng kỹ thuật NMF. Đây là đối tượng nghiên
cứu được một số nhà nghiên cứu trên thế giới quan tâm trong thời gian gần đây.
Phạm vi của luận văn bao gồm nghiên cứu tổng quan về mã hóa nén tiếng
nói [7, 8, 12], một số phương pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực
[8, 10, 12, 17, 18], đặc biệt tập trung vào kỹ thuật mã hóa nén tiếng nói dùng NMF
[10, 17, 18]. Luận văn cũng nghiên cứu cài đặt thực nghiệm phương pháp mã hóa
dùng NMF để có những phân tích, đánh giá, và đưa ra các khuyến nghị.
3. Hướng nghiên cứu của luận văn:
Hướng nghiên cứu của luận văn là nghiên cứu về kỹ thuật phân rã ma trận
không âm NMF và ứng dụng trong mã hóa tiếng nói tốc độ bit thấp. Trong đó,
luận văn tập trung nghiên cứu cả các vấn đề lý thuyết về tiếng nói, về các kỹ thuật
số hóa và mã hóa tiếng nói, về kỹ thuật phân rã ma trận không âm NMF. Luận văn
cũng nghiên cứu đánh giá thực nghiệm phương pháp mã hóa tiếng nói tốc độ bit
thấp dùng NMF.
4. Phương pháp nghiên cứu
Phương pháp nghiên cứu của luận văn là nghiên cứu các lý thuyết đã có trên
thế giới [7, 8, 9, 10, 12, 17, 20] để phân tích, đánh giá về các kỹ thuật mã hóa tiếng
nói tốc độ bit thấp.
Dựa trên các cơ sở lý thuyết và các phân tích, đánh giá, luận văn cũng sẽ
nghiên cứu thực nghiệm phương pháp mã hóa tiếng nói tốc độ bit thấp thời gian
thực dùng kỹ thuât ma trận không âm NMF. Cơ sở dữ liệu để đánh giá thực nghiệm
4
là cơ sở dữ liệu tiếng nói tiếng Việt. Môi trường để thực nghiệm là MATLAB
2012.
5. Ý nghĩa khoa học và thực tiễn
Như đã trình bày trong phần 1, nghiên cứu về mã hóa tiếng nói tốc độ bit thấp
có vai trò quan trọng trong các hệ thống truyền thông hiện đại. Nghiên cứu chuyên
sâu về các phương pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ
thuật NMF chưa được nghiên cứu ở Việt Nam. Do vậy vấn đề nghiên cứu trong
luận văn có ý nghĩa khoa học và thực tiễn.
5
CHƯƠNG 1
TỔNG QUAN VỀ MÃ HÓA TIẾNG NÓI
1.1. Tổng quan về tiếng nói
1.1.1. Thông tin tiếng nói
Tiếng nói là dạng thông tin tự nhiên và phổ biến nhất đối với con người. Từ
khi lịch sử con người hình thành, con người đã biết sử dụng tiếng nói làm phương
tiện giao tiếp chính, trải qua hàng triệu năm trong quá trình tiến hóa và phát triển
của loài người, tiếng nói vẫn luôn giữ vai trò là phương tiện giao tiếp cơ bản nhất.
Do đó tiếng nói là phương tiện giao tiếp cơ bản của con người, nó cũng là loại
hình thông tin cơ bản và phổ biến nhất trong các hệ thống viễn thông từ trước đến
nay.
Kể từ khi máy tính và các ứng dụng của máy tính được nghiên cứu và ứng
dụng rộng rãi, người ta cố gắng để máy tính không chỉ có thể xử lý nhanh, nhiều
mà quan trọng hơn nó đủ thông minh để thay thế con người. Một trong các tiêu
chí quan trọng để đánh giá độ thông minh của máy tính chính là khả năng hiểu
được ngôn ngữ tự nhiên của con người trong đó có tiếng nói. Tuy nhiên, tiếng nói
mang nhiều thông tin, ngoài thông tin ngôn ngữ còn cả các thông tin phi ngôn ngữ
như thông tin về người nói, thông tin về sắc thái tình cảm khi nói…
Tín hiệu tiếng nói là loại tín hiệu âm thanh phổ biến nhất trong viễn thông.
Dải tần tín hiệu tiếng nói nằm trong khoảng 300 Hz - 3400 Hz. Tiếng nói bao gồm
hai dạng hữu thanh và vô thanh. Âm hữu thanh có đặc tính tuần hoàn còn âm vô
thanh tương tự nhiễu.
6
Hình 1.1. Dạng sóng tiếng nói một câu tiếng Việt
Hình 1.2.Tiếng nói hữu thanh
1.1.2. Tín hiệu tiếng nói
1.1.2.1. Tín hiệu
Tín hiệu(signal) dùng để chỉ một đại lượng vật lý mang tin tức. Về mặt toán
học, ta có thể mô tả tín hiệu như một hàm theo biến thời gian, không gian hay các
biến độc lập khác.
Chẳng hạn như, hàm: mô tả tín hiệu biến thiên theo biến thời
gian t. Hay một ví dụ khác, hàm: mô tả tín hiệu là hàm
theo hai biến độc lập x và y, trong đó x và y biểu diễn cho hai tọa độ trong mặt
phẳng.
7
Hai tín hiệu trong ví dụ trên về lớp tín hiệu được biểu diễn chính xác bằng
hàm theo biến độc lập. Tuy nhiên, trong thực tế, các mối quan hệ giữa các đại
lượng vật lý và các biến độc lập thường rất phức tạp nên không thể biểu diễn tín
hiệu như trong hai ví dụ vừa nêu trên.
Lấy ví dụ tín hiệu tiếng nói – đó là sự biến thiên của áp suất không khí theo
thời gian. Chẳng hạn khi ta phát âm câu “Cô ấy đang đi chơi”, dạng sóng của
nó được biểu diễn như Hình 1.1.
1.1.2.2. Nguồn tín hiệu
Tất cả các tín hiệu đều do một nguồn nào đó tạo ra, theo một cách thức nào
đó. Ví dụ tín hiệu tiếng nói được tạo ra băng cách ép không khí đi qua dây thanh
âm. Quá trình tạo tín hiệu như vậy thường liên quan đến một hệ thống, hệ thống
này đáp ứng lại một kích thích nào đó. Trong tín hiệu tiếng nói, hệ thống là
hệ thống phát âm, gồm: môi, răng, lưỡi, còn kích thích là sự rung của dây thanh…
1.1.2.3. Hệ thống và xử lý tín hiệu
Hệ thống là một thiết bị vật lý thực hiện một tác động nào đó lên tín hiệu.
Ví dụ, bộ lọc nhiễu tiếng nói dùng để giảm nhiễu trong tín hiệu mang tin được
gọi là một hệ thống. Khi ta truyền tín hiệu qua một hệ thống, như bộ lọc chẳng
hạn, ta nói rằng đã xử lý tín hiệu đó. Trong trường hợp này, xử lý tín hiệu liên
quan đến lọc nhiễu ra khỏi tín hiệu tiếng nói mong muốn.
Xử lý tín hiệu là ý muốn nói đến một loạt các công việc hay các phép toán
được thực hiện trên các tín hiệu nhằm đạt mục đích nào đó, như là tách tin tức
chứa bên trong tín hiệu hoặc là truyền tín hiệu mang tin từ nơi này đến nơi khác.
Xử lý tiếng nói hay xử lý tín hiệu tiếng nói được hiểu là các thao tác, kỹ thuật
xử lý trên máy tính nhằm mục đích đưa tiếng nói vào máy tính, xử lý theo yêu cầu
và phát lại cho con người. Yêu cầu xử lý ở đây phụ thuộc vào từng ứng dụng cụ
thể. Chẳng hạn để có thể truyền tiếng nói tin cậy và hiệu quả trên các hệ thống
viễn thông truyền với khoảng cách rất xa, người ta cần nghiên cứu và xây dựng
8
các giải thuật mã hóa nén tiếng nói. Để xây dựng các ứng dụng nhận dạng tiếng
nói, người ta cần nghiên cứu và xây dựng các giải thuật trích đặc trưng tiếng nói
và huấn luyện tiếng nói. Để biến đổi tiếng nói, người ta cần xác định các đặc trưng
tiếng nói theo các tiêu chí cụ thể khác nhau (như người nói, cảm xúc, ngữ điệu khi
nói) và biến đổi trực tiếp hoặc gián tiếp các đặc trưng này.
Hình 1.3. Một số ứng dụng của xử lý tiếng nói
1.2. Tổng quan về mã hóa tiếng nói
Vào năm 1892 Alexander Graham Bell khai trương tuyến điện thoại thương
mại đầu tiên trên thế giới và cho tới gần đây con người coi điện thoại là một công
cụ truyền tin hữu hiệu.
Nhờ điện thoại mà con người có khả năng trao đổi thông tin giữa các điểm
khác nhau trên toàn thế giới một cách dễ dàng. Ngoài ưu thế như khả năng truyền
thông tin theo thời gian thực và dễ sử dụng, mạng điện thoại ngày nay còn có các
ưu điểm rất cơ bản, đó là được phổ biến trên toàn cầu, giúp ta có khả năng liên lạc
hầu như mọi điểm trên trái đất, thời gian đáp ứng ngắn và thuận tiện cho người sử
dụng.
9
Cũng từ đó tín hiệu tiếng nói trở thành một đối tượng và cũng là một nguồn
tải lớn nhất của mạng viễn thông, cùng với sự phát triển của kỹ thuật số, các công
nghệ bán dẫn thì các phương pháp mã hoá tín hiệu tiếng nói cũng phát triển mạnh.
Bộ mã hoá tiếng nói được phân thành hai loại lớn: bộ mã hoá dạng sóng và
bộ mã hoá tham số nguồn.
Bộ mã hoá dạng sóng nhằm tạo ra dạng sóng thời gian của tín hiệu tiếng nói
càng chính xác càng tốt, chúng được thiết kế độc lập với nguồn tín hiệu (có nghĩa
là có thể áp dụng cho cả loại tín hiệu khác) nên chất lượng không phụ thuộc nhiều
vào nguồn tín hiệu chúng có ưu điểm là chất lượng ổn định với phạm vi rộng của
các đặc trưng tiếng nói, và các môi trường ồn khác nhau.
Còn các bộ mã hoá nguồn tiếng nói thì lại có ưu thế trong việc tiết kiệm băng
tần nhưng lại rất phức tạp và có độ ổn định không cao tuy nhiên chúng ngày càng
được khắc phục, để phục vụ cho các công nghệ viễn thông hiện tại và trong tương
lai.
1.3. Mã hóa tiếng nói tốc độ bit thấp
Mã hóa PCM cho tốc độ bit của tiếng nói đã số hóa là 64 Kbps giống tốc độ
bit của một kênh thông tin số cơ bản chưa ghép kênh [2]. Khoảng 20 năm trở lại
đây với sự phát triển mạnh của mạng viễn thông toàn cầu, mạng Internet các dịch
vụ viễn thông tích hợp thoại, hình, số liệu... thì băng tần truyền dẫn ngày càng trở
nên hạn chế. Khi đó, việc sử dụng phương pháp mã hóa PCM với tốc độ cơ bản
64 Kbps là tiêu tốn lãng phí nguồn tài nguyên, hạn chế dung lượng thông tin trên
một kênh truyền vật lý. Chính vì vậy, rất nhiều nhà nghiên cứu trên thế giới đã tập
trung vào vấn đề mã hóa nguồn tiếng nói để đảm bảo tiếng nói được mã hóa có
tốc độ bit thấp, có thể dễ dàng tăng số kênh truyền logic trên một kênh truyền vật
lý, trong khi vẫn phải đảm bảo các yêu cầu về chất lượng [1, 7, 9, 13]. Các phương
pháp mã hóa nguồn tiếng nói phổ biến được biết đến là mã hóa dự đoán tuyến tính
LPC [11], mã hóa thích nghi CELP [10],...
10
Một trong những phương thức phân tích mạnh nhất là kỹ thuật phân tích dự
đoán tuyến tính LPC [11]. Đây là phương pháp chọn trên phương pháp coi tín hiệu
tiếng nói là hệ thống thay đổi chậm theo thời gian được kích thích bởi xung tựa
tuần hoàn và nhiễu ngẫu nhiên. Mẫu tiếng nói s(n) liên hệ với xung kích thích âm
hữu thanh u(n):
(1.1)
Ý tưởng cơ bản của việc phân tích dự đoán tuyến tính là một mẫu tiếng nói
có thể xấp xỉ một cách tuyến tính với một mẫu trước đó.
Một bộ dự đoán tuyến tính, với hệ số được định nghĩa như là một hệ
thống mà đầu ra của nó có phương trình:
(1.2)
Sai số dự đoán định nghĩa là e(n)
(1.3)
Bằng việc tối thiểu hóa tổng bình phương sự khác nhau giữa mẫu thực và
mẫu dự đoán được, các hệ số dự đoán sẽ quyết định việc truyền tới thiểu hoá này.
Phương pháp LPC có ưu thế vượt trội cho việc ước lượng các thông số cơ
bản của tiếng nói như cao độ, formants, phổ,… và mã hoá tốc độ bít thấp để truyền
dẫn và lưu trữ. Điều quan trọng của phương pháp này là khả năng thực hiện ước
lượng các thông số này một cách chính xác và mối liên hệ trong việc tính toán tín
hiệu tiếng nói. Phương pháp này cũng đã được tiêu chuẩn hóa trong các tiêu chuẩn
của ITU-T.
1.4. Mục tiêu của luận văn
11
Hướng nghiên cứu mã hóa tiếng nói tốc độ bit thấp dùng kỹ thuật phân rã ma
trận không âm hiện vẫn được tiếp tục phát triển trong những năm gần đây nhưng
ở Việt Nam, hướng nghiên cứu này còn khá mới mẻ.
Luận văn này nghiên cứu về phương pháp mã hóa tiếng nói dùng kỹ thuật
phân rã ma trận không âm dùng NMF.
Phân tích lý thuyết, cài đặt thực nghiệm với cơ sở dữ liệu tiếng Việt và đánh
giá hiệu quả của phương pháp NMF, từ đó đưa ra các khuyến nghị cho việc phát
triển hệ thống mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuật phân
rã ma trận không âm cho phù hợp với tiếng nói tiếng Việt.
12
CHƯƠNG 2
PHƯƠNG PHÁP MÃ HÓA TIẾNG NÓI DÙNG KỸ THUẬT
PHÂN RÃ MA TRẬN KHÔNG ÂM NMF
2.1. Tổng quan về kỹ thuật phân rã ma trận không âm NMF
2.1.1. Khái niệm
Phân rã ma trận không âm (NMF), hoặc còn gọi là phép xấp xỉ ma trận không
âm là một nhóm các thuật toán trong phân tích đa biến và đại số tuyến tính trong
đó ma trận V được phân rã thành hai ma trận W và H, với tính chất mà cả ba ma
trận không có phần tử âm. Tính chất không âm này làm cho ma trận kết quả dễ
kiểm tra hơn. Ngoài ra, trong các ứng dụng như xử lý âm thanh tính không âm là
thuộc tính tự nhiên của dữ liệu. Vì vấn đề không thể giải quyết chính xác nói
chung, nên nó thường được tính gần đúng.
NMF có nhiều ứng dụng trong các lĩnh vực như thiên văn học, thị giác máy
tính, phân cụm dữ liệu, hóa học, xử lý tín hiệu âm thanh và tin sinh học.
2.1.2. Lịch sử
Trong phép đo nhân tử ma trận không âm có một lịch sử lâu dài dưới cái tên
"mô hình độ phân giải đường cong". Trong khung này các vectơ trong ma trận bên
phải là các đường cong liên tục chứ không phải là các vectơ rời rạc. Ngoài ra, công
việc ban đầu về các yếu tố ma trận không âm được thực hiện bởi một nhóm các
nhà nghiên cứu Phần Lan vào giữa những năm 1990 dưới tên gọi là phân rã ma
trận dương. Nó được biết đến rộng rãi hơn như là phân rã ma trận không âm sau
khi Lee và Seung kiểm tra các thuộc tính của thuật toán và công bố một số thuật
toán đơn giản và hữu ích cho hai loại phân rã.
2.1.3. Nền tảng
Đặt ma trận V là tích của ma trận W và H
(2.1) V=W*H
13
Phép nhân ma trận có thể được thực hiện khi tính toán các vectơ cột của V
dưới dạng kết hợp tuyến tính của vectơ cột trong W bằng các hệ số được cung cấp
bởi các cột của H. Nghĩa là, mỗi cột của V có thể được tính như sau:
(2.2) 𝒗𝒊 = 𝑾 ∗ 𝒉𝒊
Trong đó 𝒗𝒊 là vectơ cột thứ i của ma trận sản phẩm V và 𝒉𝒊 là vectơ cột thứ
i của ma trận H.
Khi nhân ma trận, kích thước của ma trận phân rã có thể thấp hơn đáng kể so
với ma trận sản phẩm và chính đặc tính này tạo thành nền tảng của NMF. NMF
tạo ra các yếu tố với kích thước giảm đáng kể so với ma trận ban đầu.
Ví dụ: nếu V là ma trận m × n, W là ma trận m × p và H là ma trận p × n thì
p có thể nhỏ hơn đáng kể so với cả m và n.
Dưới đây là một ví dụ dựa trên ứng dụng khai thác văn bản:
Đặt ma trận đầu vào (ma trận được bao thanh toán) là V với 10000 hàng và
500 cột trong đó các từ nằm trong hàng và tài liệu nằm trong các cột. Với hơn 500
tài liệu được lập chỉ mục bởi 10000 từ. Theo sau đó một vectơ cột v trong V đại
diện cho một tài liệu.
Giả sử yêu cầu thuật toán tìm 10 tính năng để tạo ma trận tính năng W với
10000 hàng và 10 cột và ma trận hệ số H với 10 hàng và 500 cột.
Tích của W và H là một ma trận có 10000 hàng và 500 cột, có hình dạng
giống như ma trận đầu vào V và, nếu hệ số hóa hoạt động, đó là một xấp xỉ hợp lý
với ma trận đầu vào V.
Từ việc xử lý nhân ma trận ở trên, theo đó mỗi cột trong ma trận tích WH là
tổ hợp tuyến tính của 10 vectơ cột trong ma trận tính năng W với các hệ số được
cung cấp bởi ma trận hệ số H.
Điểm cuối cùng này là nền tảng của NMF có thể xem xét từng tài liệu gốc
trong ví dụ của mình như được xây dựng từ một tập hợp nhỏ các tính năng ẩn.
NMF tạo ra các tính năng này.
14
Sẽ là rất hữu ích khi từng tính năng (vectơ cột) trong ma trận tính năng W
dưới dạng nguyên mẫu, tài liệu bao gồm một tập hợp các từ trong đó giá trị ô của
mỗi từ xác định thứ hạng của từ trong tính năng đó: Giá trị ô của từ càng cao thì
thứ hạng của từ càng cao trong tính năng. Một cột trong ma trận hệ số H đại diện
cho một tài liệu gốc có giá trị ô xác định thứ hạng của tài liệu cho một tính năng.
Bây giờ có thể xây dựng lại một tài liệu (vectơ cột) từ ma trận đầu vào của mình
bằng cách kết hợp tuyến tính các tính năng (vectơ cột trong W) trong đó mỗi tính
năng được cân bằng giá trị ô của tính năng từ cột của tài liệu trong H.
2.1.4. Tích chất phân cụm
NMF có thuộc tính phân cụm vốn có, tức là, nó tự động phân cụm các cột
của dữ liệu đầu vào 𝑽 = (𝑣1, … … 𝑣𝑛).
Cụ thể hơn, gần đúng V bởi V≅ 𝑾𝑯 đạt được bằng cách giảm thiểu hàm lỗi
𝒎𝒊𝒏 𝑾,𝑯
(2.3) tùy thuộc vào W≥ 0, H≥ 0 ‖𝑽 − 𝑾𝑯‖𝑭
Hơn nữa, H được tính thành viên của cụm, nghĩa là, nếu 𝐻𝑘𝑗 > 𝐻𝑖𝑗 cho tất cả i ≠ k, điều này cho thấy rằng dữ liệu đầu vào 𝑣𝑗 thuộc về 𝑘𝑡ℎ cụm. W được tính toán cho các cụm trung tâm cụm, nghĩa là cột 𝑘𝑡ℎ cung cấp cho cụm trung tâm của
𝑘𝑡ℎ. Đại diện của trung tâm này có thể được tăng cường đáng kể bởi NMF lồi.
Khi tính trực giao 𝑯𝑯𝑻 = 𝑰 không được áp đặt rõ ràng, tính trực giao giữ ở
mức độ lớn và thuộc tính phân cụm cũng giữ. Phân cụm là mục tiêu chính của hầu
hết các ứng dụng khai thác dữ liệu của NMF.
Khi chức năng lỗi được sử dụng là phân kỳ KullbackTHER Leibler, NMF
giống hệt với phân tích ngữ nghĩa tiềm ẩn xác suất, một phương pháp phân cụm
tài liệu phổ biến.
15
2.2. Kỹ thuật phân rã ma trận không âm NMF và ứng dụng trong mã hóa
tiếng nói
2.2.1 Kỹ thuật phân rã ma trận không âm NMF
Xấp xỉ phân rã ma trận không âm
Thông thường số cột của W và số hàng của H trong NMF được chọn để ma
trận tích WH sẽ trở thành xấp xỉ với V. Sự phân tách hoàn toàn của V sau đó lên
tới hai ma trận không âm W và H cũng như U dư, sao cho:
(2.4) V = WH + U
Các phần tử của ma trận dư có thể là âm hoặc dương.
Khi W và H nhỏ hơn V, chúng trở nên dễ dàng hơn để lưu trữ và thao tác.
Một lý do khác để nhân tố V thành các ma trận nhỏ hơn W và H, là nếu có thể biểu
diễn xấp xỉ các phần tử của V bằng dữ liệu ít hơn đáng kể, thì phải suy ra một số
cấu trúc tiềm ẩn trong dữ liệu.
𝐦∗𝐤 tức là, W có thể là bất cứ
Hệ số ma trận không âm
Trong NMF tiêu chuẩn, hệ số ma trận 𝐖 ∈ 𝐑+
thứ gì trong không gian đó. Convex NMF giới hạn các cột của W để kết hợp lồi
các vectơ dữ liệu đầu vào (𝑣1, … … 𝑣𝑛). Điều này cải thiện đáng kể chất lượng biểu
diễn dữ liệu của W. Hơn nữa, yếu tố ma trận kết quả H trở nên thưa thớt và trực
giao hơn.
Hệ số xếp hạng không âm
Trong trường hợp thứ hạng không âm của V bằng với thứ hạng thực tế của
nó, V = WH được gọi là hệ số thứ hạng không âm. Vấn đề tìm NRF của V, nếu nó
tồn tại, được biết đến là có độ phức tạp NP-hard.
Hàm chi phí khác nhau và tiêu chuẩn hóa
Có nhiều loại yếu tố ma trận không âm khác nhau. Các loại khác nhau phát
sinh từ việc sử dụng các hàm chi phí khác nhau để đo độ phân rã giữa V và WH
và có thể bằng cách chính quy hóa ma trận W và/hoặc H.
16
Hai hàm phân kỳ đơn giản được nghiên cứu bởi Lee và Seung là sai số bình
phương (hoặc chỉ tiêu Frobenius) và phần mở rộng của phân kỳ Kullback-Leibler
thành ma trận dương (phân kỳ Kullback-Leibler ban đầu được xác định trên các
phân phối xác suất). Mỗi phân kỳ dẫn đến một thuật toán NMF khác nhau, thường
giảm thiểu phân kỳ bằng cách sử dụng các quy tắc cập nhật lặp.
Vấn đề lỗi trong bình phương của NMF có thể được nêu là: Đưa ra ma trận
V tìm ma trận không âm W và H làm giảm thiểu hàm số:
2 F(W,H)=‖𝑽 − 𝑾𝑯‖𝐹 Một loại NMF khác cho hình ảnh dựa trên tổng chỉ tiêu biến thể.
(2.5)
Khi chính quy hóa L1 (gần giống với Lasso) được thêm vào NMF với hàm
chi phí lỗi bình phương trung bình, vấn đề kết quả có thể được gọi là mã hóa thưa
không âm do sự tương tự với vấn đề mã hóa thưa thớt, mặc dù có thể vẫn còn được
gọi là NMF.
NMF trực tuyến
Nhiều thuật toán NMF tiêu chuẩn phân tích tất cả các dữ liệu cùng nhau; tức
là, toàn bộ ma trận có sẵn từ đầu. Điều này có thể không đạt yêu cầu trong các ứng
dụng có quá nhiều dữ liệu phù hợp với bộ nhớ hoặc nơi dữ liệu được cung cấp
theo kiểu truyền phát. Một cách sử dụng như vậy là để lọc cộng tác trong các hệ
thống khuyến nghị, nơi có thể có nhiều người dùng và nhiều mục để đề xuất, và
sẽ không hiệu quả khi tính toán lại mọi thứ khi một người dùng hoặc một mục
được thêm vào hệ thống. Hàm chi phí để tối ưu hóa trong những trường hợp này
có thể giống hoặc không giống với NMF tiêu chuẩn, nhưng các thuật toán cần phải
khá khác nhau.
Thuật toán
Có một số cách có thể tìm thấy W và H: quy tắc cập nhật nhân của Lee và
Seung là một phương pháp phổ biến do tính đơn giản của việc thực hiện. Thuật
toán này là khởi tạo: W và H không âm.
17
Sau đó cập nhật các giá trị trong W và H bằng cách tính toán như sau, với n
𝑛
𝑛+1 ← 𝐻[𝑖,𝑗]
là một chỉ mục của lần lặp.
𝐻[𝑖,𝑗] ((𝑊𝑛)𝑇𝑉)[𝑖,𝑗] ((𝑊𝑛)𝑇𝑊𝑛𝐻𝑛)[𝑖,𝑗]
𝑛+1 ← 𝑊[𝑖,𝑗] 𝑛
Và (2.6)
𝑊[𝑖,𝑗] (𝑉(𝐻𝑛+1)𝑇)[𝑖,𝑗] (𝑊𝑛𝐻𝑛+1(𝐻𝑛+1)𝑇)[𝑖,𝑗]
Cho đến khi W và H ổn định.
Lưu ý rằng các cập nhật được thực hiện trên một phần tử theo cơ sở phần tử
chứ không phải nhân ma trận.
Lưu ý rằng hệ số nhân W và H là ma trận danh tính khi V = W H.
Gần đây, các thuật toán khác đã được phát triển. Một số cách tiếp cận dựa
trên các bình phương tối thiểu không âm xen kẽ, trong mỗi bước của thuật toán
như vậy, H đầu tiên được cố định và W được tìm thấy bởi một bộ giải bình phương
tối thiểu không âm, sau đó W được cố định và H được tìm thấy tương tự. Các quy
trình được sử dụng để giải quyết cho W và H có thể giống nhau hoặc khác nhau,
vì một số biến thể NMF thường hóa một trong W và H. Các phương pháp cụ thể
bao gồm các phương pháp giảm độ dốc dự kiến, phương pháp thiết lập hoạt động,
phương pháp gradient tối ưu, và phương pháp xoay vòng chính trong số nhiều
phương pháp khác.
Các thuật toán hiện tại là tối ưu phụ ở chỗ chúng chỉ đảm bảo tìm được mức
tối thiểu cục bộ, thay vì mức tối thiểu toàn cầu của hàm chi phí. Một thuật toán tối
ưu có thể chứng minh là không thể xảy ra trong tương lai gần vì vấn đề đã được
chứng minh là khái quát hóa bài toán phân cụm k-mean bài toán NP-đầy đủ. Tuy
nhiên, như trong nhiều ứng dụng khai thác dữ liệu khác, mức tối thiểu cục bộ vẫn
có thể chứng minh là hữu ích.
18
NMF tuần tự
Hình 2.1. NMF tuần tự
Cấu trúc tuần tự của các thành phần NMF (W và H) trước tiên được sử dụng
để liên kết NMF với phân tích thành phần chính (PCA) trong thiên văn học. Sự
đóng góp từ các thành phần PCA được xếp hạng theo độ lớn của giá trị bản địa
tương ứng của chúng; đối với NMF, các thành phần của nó có thể được xếp hạng
theo kinh nghiệm khi chúng được xây dựng từng cái một (tuần tự), tức là tìm hiểu
(n + 1) - thành phần thứ nhất với n thành phần được xây dựng.
Các phương sai dư phân số (FRV) cho PCA và NMF tuần tự; đối với PCA,
các giá trị lý thuyết là sự đóng góp từ các giá trị riêng còn lại. So sánh, các đường
cong FRV cho PCA đạt đến đoạn bằng phẳng nơi không có tín hiệu nào được thu
một cách hiệu quả; trong khi các đường cong NMF FRV đang giảm liên tục, cho
thấy khả năng thu tín hiệu tốt hơn. Các đường cong FRV cho NMF cũng hội tụ ở
mức cao hơn PCA, cho thấy đặc tính ít bị quá tải của NMF.
Sự đóng góp của các thành phần NMF tuần tự có thể được so sánh với định
lý Karhunen-Loève, một ứng dụng của PCA, sử dụng các giá trị riêng. Một lựa
chọn điển hình về số lượng thành phần với PCA dựa trên "điểm gập", sau đó sự
tồn tại của đoạn bằng phẳng cho thấy PCA không thu thập dữ liệu một cách hiệu
19
quả và cuối cùng có sự sụt giảm đột ngột phản ánh việc bắt ngẫu nhiên tiếng ồn
và rơi vào chế độ quá mức. Đối với NMF tuần tự, biểu đồ các giá trị riêng được
xấp xỉ bằng biểu đồ của các đường cong phương sai dư phân đoạn, trong đó các
đường cong giảm liên tục và hội tụ ở mức cao hơn PCA, là dấu hiệu của sự phù
hợp ít hơn của NMF tuần tự .
NMF chính xác
Các giải pháp chính xác cho các biến thể của NMF có thể được mong đợi
(trong thời gian đa thức) khi các ràng buộc bổ sung giữ cho ma trận V. Một thuật
toán thời gian đa thức để giải quyết hệ số xếp hạng không âm nếu V chứa ma trận
phụ đơn vị có thứ hạng bằng với thứ hạng của nó được đưa ra bởi Campbell và
Poole năm 1981. Kalofolias và Gallopoulos (2012) đã giải quyết được đối tác đối
xứng của vấn đề này, trong đó V là đối xứng và chứa ma trận phụ chính chéo của
cấp r. Thuật toán này chạy trong thời gian O(rm^2) trong trường hợp dày đặc.
Arora, Ge, Halpern, Mimno, Moitra, Sontag, Wu, & Zhu (2013) đưa ra thuật toán
thời gian đa thức cho NMF chính xác hoạt động trong trường hợp một trong các
yếu tố W thỏa mãn điều kiện phân tách.
Liên quan đến các kỹ thuật khác
Khi tìm hiểu các bộ phận của các đối tượng bằng hệ số ma trận không âm,
Lee và Seung đã đề xuất NMF chủ yếu cho việc
phân tách hình ảnh dựa trên các bộ phận. Nó so
sánh NMF với lượng tử hóa vector và phân tích
thành phần chính, và cho thấy rằng mặc dù ba kỹ
thuật có thể được viết dưới dạng các yếu tố,
chúng thực hiện các ràng buộc khác nhau và do
đó tạo ra các kết quả khác nhau.
Sau đó, người ta đã chứng minh rằng một số loại NMF là một ví dụ của mô
hình xác suất tổng quát hơn gọi là "PCA đa phương". Khi thu được NMF bằng
20
cách giảm thiểu phân kỳ KullbackTHER Leibler,
thực tế nó tương đương với một trường hợp khác
của PCA đa phân tích, phân tích ngữ nghĩa tiềm
ẩn xác suất, được đào tạo theo ước tính khả năng
NMF như một mô hình đồ họa xác suất: các đơn vị nhìn thấy (V) được kết nối với các đơn vị ẩn (H) thông qua các trọng số W, do đó V được tạo từ phân phối xác suất với giá trị trung bình
tối đa. Phương pháp đó thường được sử dụng để
phân tích và phân cụm dữ liệu văn bản và cũng
∑ 𝑊𝑖𝑎ℎ𝑎 𝑎
liên quan đến mô hình lớp tiềm ẩn.
NMF với mục tiêu bình phương nhỏ nhất
tương đương với một dạng phân cụm K-mean thoải mái: hệ số ma trận W chứa
trọng tâm cụm và H chứa các chỉ số thành viên cụm. Điều này cung cấp một nền
tảng lý thuyết cho việc sử dụng NMF để phân cụm dữ liệu. Tuy nhiên, k-mean
không thực thi tính không âm trên trọng tâm của nó, do đó, sự tương tự gần nhất
thực tế là với "semi-NMF".
NMF có thể được xem như là một mô hình đồ họa hướng hai lớp với một lớp
biến ngẫu nhiên quan sát và một lớp biến ngẫu nhiên ẩn.
NMF mở rộng ra ngoài ma trận đến các thang đo của thứ tự tùy ý. Tiện ích
mở rộng này có thể được xem như một đối tác không âm.
Ví dụ: mô hình PARAFAC.
Các phần mở rộng khác của NMF bao gồm hệ số chung của một số ma trận
dữ liệu và tenxơ trong đó một số yếu tố được chia sẻ. Những mô hình như vậy rất
hữu ích cho phản ứng tổng hợp cảm biến và học tập quan hệ.
NMF là một ví dụ của lập trình bậc hai không âm (NQP), giống như máy
vectơ hỗ trợ (SVM). Tuy nhiên, SVM và NMF có liên quan ở mức độ thân mật
hơn so với NQP, cho phép áp dụng trực tiếp các thuật toán giải pháp được phát
triển cho một trong hai phương pháp cho các vấn đề trong cả hai miền.
21
Tính duy nhất
Hệ số hóa không phải là duy nhất: Một ma trận và nghịch đảo của nó có thể
được sử dụng để biến đổi hai ma trận nhân tố hóa bằng, ví dụ.
(2.7) WH=𝑾𝑩𝑩−𝟏𝑯
Nếu hai ma trận mới 𝑾̃=WB và 𝑯̃ = 𝑩−𝟏𝑯 không âm mà chúng tạo thành
một tham số khác của nhân tố hóa.
Tính không phủ định của 𝑾̃ và 𝑯̃ áp dụng ít nhất nếu B là ma trận đơn âm
không âm. Trong trường hợp đơn giản này, nó sẽ chỉ tương ứng với một tỷ lệ và
hoán vị.
Kiểm soát nhiều hơn đối với tính không độc đáo của NMF có được với các
ràng buộc về độ thưa thớt.
2.2.2 Ứng dụng trong mã hóa tiếng nói
WI (WI là một bộ mã hóa dựa trên NMF 2kb/s được gọi là tiện ích NMF-WI)
là một thuật toán nén hiệu quả, có thể tạo ra lời nói chất lượng cao với tốc độ bit
thấp. Nó đạt được bằng cách khai thác bản chất của sản xuất và nhận thức lời nói
của con người [1]. Trong bộ mã hóa WI truyền thống, tín hiệu dư dự báo tuyến
tính được phân tách thành dạng sóng phát triển chậm (SEW) và dạng sóng phát
triển nhanh (REW) bằng bộ lọc thông thấp FIR.
Sự phân tách này sẽ mang lại sự chậm trễ bổ sung và nó có thể làm cho SEW
và REW hoàn toàn độc lập. Vì vậy, nó cần thiết để thay thế một phương pháp phân
tách mới cho lọc thông thấp FIR. Một loại phương pháp NMF hiệu quả đã được
áp dụng để phân rã các dạng sóng đặc trưng (CW) [8]. Phân tách dựa trên NMF
được đề xuất chỉ yêu cầu tín hiệu giọng nói từ khung hiện tại và nó có thể mang
lại chất lượng phân tách cao với độ phức tạp tính toán thấp. Để đáp ứng nhu cầu
của truyền thông bảo mật kỹ thuật số băng tần hẹp, nghiên cứu về mã hóa giọng
nói ở tốc độ bit rất thấp là có ý nghĩa. Hiện tại, một số bộ mã hóa lời nói tồn tại
với tốc độ bit từ 2 đến 4kb / giây đã cho chất lượng chấp nhận được cho các ứng
22
dụng giao tiếp, chẳng hạn như dự đoán tuyến tính kích thích hỗn hợp (MELP)
[12]. Một số bộ mã hóa giọng nói ở tốc độ bit rất thấp đã được đề xuất dựa trên
thuật toán MELP bằng cách khai thác cả tương quan giữa và giữa các khung của
các tham số, tức là lượng tử hóa tham số đa khung đã được áp dụng cho MELP
thành công [10, 17]. Mục đích làm giảm tốc độ bit xuống 1kb / giây dựa trên NMF-
WI và tìm kiếm phân bổ bit tối ưu.
2.3. Phương pháp mã hóa tiếng nói dùng NMF của Xue
Trong mã hóa lời nói WI, một khung lời nói được mô hình hóa bằng bộ lọc
dự đoán tuyến tính và tín hiệu dư dạng sóng. Cao độ được ước tính từ tín hiệu dư.
Tốc độ lấy mẫu dạng sóng đặc trưng là 400 Hz và 10 CW được trích xuất trên mỗi
khung. Sau khi trích xuất CW, CW được đại diện bởi chuỗi Fourier, và sau đó
được chuyển đổi thành cường độ và phổ pha bằng cách chuyển đổi tọa độ cực. Vì
tai người không nhạy cảm với phổ pha CW, thông tin pha được loại bỏ trong bộ
mã hóa và được khôi phục bằng pha cố định trong bộ giải mã. Các thủ tục NMF
sau đó được thực hiện trên phổ cường độ CW. Nó mô tả như sau:
(2.8) 𝑉𝑛∗𝑚 ≈ 𝑊𝑛∗𝑟𝐻𝑟∗𝑚
Ma trận n*m V đại diện cho phổ cường độ CW, mục tiêu của NMF là ước
tính nó là một sản phẩm của hai ma trận không âm 𝑊𝑅𝑛∗𝑟 và 𝐻𝑅𝑟∗𝑚, trong đó W
và H được gọi là ma trận cơ sở và mã hóa ma trận tương ứng. Ma trận W đại diện
cho các sóng hài giống như xung cục bộ và H được mô tả là trọng số của các vectơ
cơ sở.
Trong bài báo này, thứ hạng được chọn là 16. Các vectơ cơ bản của W được
xác định trước thông qua các bộ huấn luyện. Sau đó, phổ biên độ CWs chiều cao
có thể được biểu thị bằng ma trận mã hóa chiều thấp H sau khi nhân tử ma trận
không âm, và điều này sẽ tạo điều kiện cho lượng tử hóa phổ cường độ CW ở tốc
độ bit thấp
23
Thông số lượng tử hóa
Bộ mã hóa lời nói 1kb / s dựa trên NMF-WI được phát triển mà không có bất
kỳ thay đổi nào đối với phân tích và tổng hợp tham số. Giảm hơn nữa tốc độ bit
đạt được bằng cách loại bỏ khung để dự phòng khung trong các tham số. Trong
bộ mã hóa được đề xuất, các tham số của hai khung liên tiếp được nhóm thành
một siêu khung và được lượng tử hóa cùng nhau. Có bốn tham số truyền bao gồm
tần số phổ dòng (LSF), cường độ, công suất và ma trận mã hóa H. Các sơ đồ lượng
tử hóa của chúng được giới thiệu tương ứng như sau.
Lượng tử hóa LSF.
Đối với các bộ mã hóa lời nói dựa trên dự đoán tuyến tính, việc giảm tốc độ
bit được liên kết chặt chẽ với lượng tử hóa hiệu quả của các hệ số bộ lọc mã hóa
dự báo tuyến tính (LPC). Do các hệ số bộ lọc LPC có dải động rộng và không ổn
định trong bộ lọc tổng hợp, nên sẽ sử dụng LSF thay thế. Bài viết này sẽ trình bày
các phương pháp lượng tử hóa vectơ phân tách dự đoán giữa các khung và các
phương pháp lượng tử hóa vectơ đa giai đoạn dự đoán giữa các khung cho tham
số LSF.
Thủ tục dự đoán giữa các khung được mô tả như sau. Đầu tiên, hai khung
hình liên tiếp hiện tại được nhóm thành một siêu khung. Thứ hai, vectơ trung bình
được trừ khỏi vectơ LSF để có được vectơ LSF không thiên vị hiện tại. Vectơ
trung bình LSF nhiệt được xác định trước thông qua các bộ huấn luyện. Vectơ
(𝑛)} , 𝑖: 1,2, … … 10
(𝑛) là vectơ LSF không thiên vị của khung đầu tiên trong siêu
(2.9) LSF siêu khung hiện tại được mô tả là phương trình (2). (𝑛), 𝜔̅2,𝑖 𝜔̅(𝑛) = {𝜔̅1,𝑖
(𝑛) là vectơ LSF không thiên vị của khung thứ hai trong siêu
Trong đó 𝜔̅1,𝑖
khung hiện tại, 𝜔̅2,𝑖
khung hiện tại. Thứ ba, dự đoán giữa các khung được tính như sau:
24
(𝑛−1) (𝑛−1) i=1,2,…….10;
(2.10) 𝑤̃ (𝑛) = {
(𝑛−1) đại diện cho vectơ LSF được lượng tử hóa và không thiên
𝛼1,𝑖 ∗ 𝑤̂2,𝑖 𝛼2,𝑖 ∗ 𝑤̂2,𝑖
Trong đó 𝑤̂2,𝑖
vị của khung thứ hai trong khung chắc chắn trước đó. Các hệ số dự đoán α1,i và
2 (𝑛))
2 (𝑛))
α2,i có thể được xác định trước bằng cách giảm thiểu lỗi bình phương sau:
𝑁 𝐸 = ∑ [(𝑟1,𝑖 𝑛=0
] + (𝑟2,𝑖
𝑁
2 (𝑛−1))
2 (𝑛−1))
(2.11)
(𝑛) − 𝛼1,𝑖 ∗ 𝑤̂2,𝑖
(𝑛) − 𝛼2,𝑖 ∗ 𝑤̂2,𝑖
𝑛=0
] = ∑ [(𝜔̅1,𝑖 + (𝜔̅2,𝑖
Sau đó, có được vectơ LSF dư trong khung siêu hiện tại. Hai sơ đồ được thực
hiện trong coder. Đầu tiên là chia lượng tử vector. Có hai giai đoạn, 10 bit cho giai
đoạn đầu tiên, trong giai đoạn thứ hai, vectơ LSF 20 chiều ban đầu được chia thành
hai vectơ với 10 chiều và 7 bit cho mỗi vectơ. Sơ đồ thứ hai là lượng tử hóa vector
ba giai đoạn. Phân bổ 9 bit, 8 bit và 7 bit tương ứng cho mỗi vector giai đoạn.
Bài kiểm tra được thực hiện trên cơ sở dữ liệu lời nói với 66 phút. Hiệu suất
lượng tử hóa của các hệ số LSF được đánh giá bằng độ méo phổ trung bình (ASD).
Các kết quả trong bảng 1 cho thấy rằng lượng tử hóa vectơ ba giai đoạn dự đoán
liên khung thực hiện tốt hơn so với lượng tử hóa vectơ phân chia hai giai đoạn.
Cuối cùng, áp dụng phương pháp dự đoán lượng tử vector ba giai đoạn dự đoán
trong khung trong bộ mã hóa của.
Bảng 2.1. Hiệu suất của hai sơ đồ lượng tử hóa
Sơ đồ ASD(dB) 0~2dB 2~4dB >4dB
Chia hai giai đoạn VQ 77,7% 21,6% 0,7% 1,55
Ba giai đoạn VQ 81,8% 17,9% 0,3% 1,47
Lượng tử hóa cao độ.
25
Vì các sơ đồ ước lượng và lượng tử hóa tốt là rất quan trọng đối với mã hóa
giọng nói tốc độ bit rất thấp. Trong việc cố gắng ước tính cao độ bằng phương
pháp hàm tương quan chéo đã chuẩn hóa (NCCF) [18]. Khi bài phát biểu không
được truyền đạt, xác định rằng giá trị khoảng thời gian cao độ là 80 mẫu. Lượng
tử hóa cao độ cần 6 bit cho một siêu khung trong bộ mã hóa này. Vì vậy, lượng tử
hóa cao độ với bảng mã cố định 7 bit được tìm thấy là không phù hợp. Sau đó,
một phương pháp lượng tử hóa sân khác được mô tả. Trước hết, hai khung cao độ
liên tiếp được nhóm lại thành một siêu khung. Sau đó, các giá trị logarit của cao
độ được lượng tử hóa. Trong Hình 1, mô tả về dạng sóng lời nói và đường viền
cao độ của nó được mô tả. Cao độ ước tính trong bộ mã hóa được hiển thị trong
đường liền nét. Đường chấm chấm biểu thị cao độ lượng tử trong bộ giải mã. Đối
với mục đích so sánh, dấu vết cao độ trong bộ giải mã gần với dấu vết của bộ mã
hóa.
Hình 2.2. Dạng sóng lời nói và đường viền cao độ của nó
Tham chiếu [9] đã chỉ ra rằng lời nói được giải mã chất lượng cao có thể đạt
được khi độ phân giải cao không lớn hơn 3 và 5 mẫu đối với loa nữ và nam. Sau
đó, một bài kiểm tra đã được thực hiện trên cơ sở dữ liệu giọng nói với 39044
khung. Tỷ lệ độ phân giải cao độ khác nhau được thể hiện trong Bảng 2. 𝛥𝑠𝑎𝑚𝑝𝑙𝑒
mẫu đại diện cho độ phân giải giữa cao độ lượng tử và ước tính. Kết quả từ thí
26
nghiệm này cho thấy độ phân giải dưới 3 mẫu chiếm 95,7305%. Và bài kiểm tra
nghe chủ quan không chính thức chỉ ra rằng lời nói được xây dựng lại là tốt mà
không làm suy giảm chất lượng âm thanh.
Bảng 2.2. Tỷ lệ phân giải cao độ khác nhau
𝛥𝑠𝑎𝑚𝑝𝑙𝑒 Proportion 𝛥𝑠𝑎𝑚𝑝𝑙𝑒 Proportion
0 13,746%
1 22,5079% <=3 95,7305% 2 9,9682%
3 49,5082%
4 1,8415% >3 4,2695% >5 2,428%
Lượng tử hóa điện.
Trong bộ mã hóa NMF-WI, 10 CW được trích xuất trên mỗi khung và công
suất được tính một lần cho mỗi CW. Vì vậy, vectơ năng lượng trở thành 20 chiều
trong một siêu khung. Để làm cho việc lượng tử hóa hiệu quả hơn, nên giảm số
lượng kích thước lúc đầu. Biến đổi K-L và DCT là các phương thức được sử dụng
phổ biến nhất. Vì phép biến đổi K-L cần biết trước ma trận hiệp phương sai, và
sau đó các giá trị riêng được yêu cầu để tính toán. Nó là quá chuyên sâu tính toán
để xử lý trong thời gian thực. DCT là một sơ đồ nén phổ biến khác với cơ sở trực
giao và độ nén năng lượng cao. Và DCT có lợi thế về tốc độ tính toán nhanh. Nó
thường được coi là phép biến đổi nhỏ gọn gần đúng nhất, vì lỗi lượng tử hóa của
DCT gần với phép biến đổi K-L. Cuối cùng, DCT được thực hiện trên vectơ công
suất logarit. Biểu thức của DCT được mô tả như sau:
(2.12)
27
𝑁−1
𝑛=0
(2.13) 𝑋(𝑘) = √ , 𝑘 = 0,1,2, … … 𝑁 − 1 𝑐(𝑘) ∑ 𝑥(𝑛) cos (2𝑛 + 1)𝑘𝜋 2𝑁 2 𝑁
Các hệ số kết quả sau DCT được sắp xếp theo chuỗi giảm và năng lượng chủ
yếu tập trung vào các hệ số tần số thấp. Việc lấy các hệ số sắp xếp lại DCT 10
chiều đầu tiên để lượng tử hóa. Sách mã được thiết kế bằng thuật toán LBG. Trong
Hình 2.3 dấu vết sức mạnh được mô tả. Kết quả dữ liệu thực nghiệm chứng minh
rằng lượng tử hóa các hệ số DCT có thể tạo ra hiệu suất tốt.
Hình 2.3. Dấu vết điện
Mã hóa lượng tử hóa ma trận.
Khi hai ma trận mã hóa liên tiếp tham gia, kích thước trong một siêu khung
trở nên rất lớn, được biểu thị bằng 𝐻16×20. Nó cần phải được nén để giảm kích
thước ma trận để đạt được tốc độ bit rất thấp để truyền hoặc lưu trữ, trong khi vẫn
giữ được thông tin chính. Theo mối tương quan giữa các phần tử trong hàng, trước
tiên thay đổi các cột của chúng thành 5-imension bằng DCT và trong bộ giải mã
và có thể khôi phục các cột bị loại bỏ trong bộ mã hóa bằng phép biến đổi cosine
rời rạc (IDCT) [13]. Và biết rằng các phần tử chiều thấp trong cột của H là các
trọng số cho các sóng hài giống như xung tần số thấp, và các phần tử chiều cao là
các trọng số cho các phần phổ tần số cao. Theo đặc tính này của ma trận mã hóa,
chia ma trận H thành 3 ma trận phụ. Về mặt ma trận 16 × 5 H, ma trận con 5 × 5
28
đầu tiên, được sử dụng để cân cho các vectơ cơ sở tần số thấp, được gọi là ma trận
thấp, trong khi ma trận phụ 5 × 5 thứ hai được gọi là ma trận giữa, và ma trận con
6 × 5 cuối cùng được gọi là ma trận cao. Để nhận thức về thính giác nhạy hơn với
tần số thấp, sử dụng sơ đồ lượng tử hóa ma trận (MQ) để định lượng các ma trận
phụ này, phân bổ nhiều bit cho ma trận thấp hơn ma trận trung bình hoặc ma trận
cao.
2.4. Phương pháp mã hóa NMF của Chien
Kỹ thuật phân rã tiếng nói theo thời gian được đề xuất bởi Atal [9] và được
coi như một phương pháp mã hóa tiếng nói tham số hiệu quả. Giả sử một chuỗi
tiếng nói được tạo ra bởi K chuyển động thực hiện bởi K điểm sự kiện. Ở đây gọi
các tham số tiếng nói tương ứng với điểm sự kiện thứ k là , và sự biến đổi theo
thời gian của sự kiện này biểu diễn bằng một hàm . Khung tiếng nói thứ n đi từ
1 đến N. Khi phân rã tiếng nói theo thời gian, các tham số tiếng nói quan sát được
y(n) được xấp xỉ bằng , là một tổ hợp tuyến tính của các điểm sự kiện như sau:
(2.14)
(2.15)
(2.16)
(2.17)
Chỉ số mũ T của vector hay ma trận là phép chuyển vị. Viết công thức trên
dưới dạng ma trận như sau:
(2.18)
29
với P là số chiều của các tham số phổ. là một ma trận cỡ PxN với cột thứ
n là . A là một ma trận PxK với cột thứ k là , và phi là một ma trận cỡ KxN
với hàng thứ k là .
Ở công thức 2.14 cả điểm sự kiện và hàm chuyển dịch giữa các sự kiện là
chưa biết và kỹ thuật phân rã theo thời gian phải xác định chúng khi một chuỗi
tiếng nói đầu vào được đưa ra.
Ở công thức 2.14 và 2.18, chỉ Y là biết trước. Để xác định A và Phi, Y được
phân rã bằng phép toán trực giao. Thủ tục phân tích trong phương pháp nguyên
thủy của Atal được thực hiện bằng 2 bước:
Các vị trí của các điểm sự kiện được xác định bằng phép phân tích ma trận
SVD
Các điểm sự kiện và hàm chuyển dịch sự kiện được xác định bằng phương
pháp lặp tối thiểu khoảng cách (hoặc lỗi) giữa tiếng nói được tái tạo và tiếng nói
gốc.
Phương pháp NMF Chien[2] là phương pháp phân rã tiếng nói bit thấp theo
thời gian thực được đề xuất nhằm tiếp tục cải thiện các vấn đề tồn tại đối với tham
số phổ đường LSF.
Ràng buộc bổ sung với các hàm sự kiện
Dựa trên đặc tính hình học của phân rã theo thời gian, tính chất “hình học
chuẩn” của hàm sự kiện được mô tả là hàm sự kiện chỉ có một đỉnh như trong
Hình 2.4. Hàm có tính chất “hình học chuẩn” là tốt cho phép lượng tử trong mã
hóa tiếng nói cũng như trong biểu diễn sự biến đổi theo thời gian của tiếng nói do
nó phù hợp với đặc tính tự nhiên của tiếng nói.
30
Hình 2.4 Hàm sự kiện có tính “hình học chuẩn” và “hình học không chuẩn”
Tuy nhiên, việc xác định hàm sự kiện trong các phương pháp mã hóa khác
không đảm bảo tính chất “hình học chuẩn”, tức hàm sự kiện có thể có nhiều đỉnh,
làm giảm hiệu quả mã hóa tiếng nói do làm tăng lỗi lượng tử. Để khắc phục điều
đó, trong NMF, hàm sự kiện được xác định như sau trong công thức 2.19.
(2.19)
Với
(2.20)
31
Tinh chỉnh vector sự kiện
Vector sự kiện được ước lượng tương ứng với việc xác định hàm sự kiện dựa
vào trung bình phương tối thiểu theo các công thức 2.21.
(2.21)
Các phương pháp trước được cho rằng đã đảm bảo tính chất thứ tự với tham
số LSF tuy nhiên các nghiên cứu sau đó đã chỉ ra rằng tính chất thứ tự vẫn chưa
hoàn toàn được đảm bảo (ở đây ta so sánh cụ thể với phương pháp RTD). Vector
sự kiện ước lượng được có thể vi phạm tính chất thứ tự của tham số phổ đường
LSF vì tiêu chuẩn lỗi không quan tâm tới tính chất này. Với giá trị nhỏ nhất
của dLSF, vector sự kiện trong RTD được ước lượng từ hệ số thấp đến cao nhất, thay
thế và bằng và tương ứng bất cứ khi nào
. Xem xét sự tăng của lỗi E với gây ra bởi sự
thay đổi này đã xác định được như sau:
(2.22)
Ở đây, quá trình này chưa đảm bảo thứ tự của vì và không
có gì đảm bảo rằng và . Phương pháp NMF đã giải quyết được
điều này.
Đầu tiên, một quá trình thay đổi J thành phần tổng quát hơn :
tương tới
ứng được thiết lập. Xem xét rằng sự tăng lỗi E gây ra bởi sự thay đổi này là:
(2.23)
32
cần được xác định để giảm thiểu như sau Và
(2.24)
Với
(2.25)
Tiếp theo, một thuật toán để chuẩn hóa các vector sự kiện được phát triển.
Để đảm bảo rằng và a, 0 và . Do đó được thêm vào
(2.26)
Để đơn giản, 0 và và .Chú ý rằng và được gán là
không thể thay đổi trong quá trình chuẩn hóa. Toàn bộ thuật toán được trình bày
trong Hình 2.5 và được mô tả như sau:
Bước 1. Khởi tạo
Bước 2. Nếu gán . Lặp lại bước này cho đến khi
hoặc , nếu nhảy đến bước 6.
Bước 3. Nếu ,gán và vì không thể thay đổi, nếu không, gán
.
Bước 4. Thay đổi thành sử dụng công thức
. Nếu nhảy tới bước 6.
Bước 5. Nếu khôi phục và từ bước trước, đặt
quay trở lại bước 4. Nếu không, đặt . Nhảy tới bước 2 nếu .
33
Bước 6. Nếu được chuẩn hóa. Nếu không, khôi phục i và
giá trị tương ứng của vector từ bước trước, đặt và trở lại bước 4.
Ở bước 6, chú ý rằng nếu i là thành phần cuối cùng của một đoạn bị thay đổi,
i sẽ được đặt vào đầu của đoạn. Nếu ,vector sẽ được đặt bằng
. Tuy nhiên trong thực tế trường hợp này hiếm khi xảy
ra.
Trong kết quả, nếu các vị trí của các sự kiện khi
đã được biết và tương ứng với các vector sự kiện đã được khởi tạo với các mẫu của vector phổ
đường LSF , có thể tính toán chính xác hàm sự kiện, vector sự kiện. Ở đây
sử dụng thuật toán ước lượng cực tiểu cục bộ của tỷ lệ dịch phổ (SFTR) dựa vào
các tham số phổ đường LSF như các vị trí khởi tạo của các sự kiện.
(2.27)
Với
(2.28)
34
BEGIN
i = 0
-
i < P
i = i + 1
+
ai,k + > ai+1,k
i = i + j
+
-
i = 0
i = 1; j
j =2
Change ai,k, . . ai+j- 1,k
-
i+j-1 <
+
Khôi phục vector ak j = j + 1
+
ai+j-1,k + > ai+j,k
-
+
+
Khôi phục i và vector ak j = P - i + 1
-
END
aP,k + > aP+1,k
Hình 2.5. Thuật toán chuẩn hóa vector sự kiện trong NMF
35
Kích cỡ cửa sổ, 2M, của phân tích SFTR là tham số duy nhất ảnh hưởng tới
số lượng và vị trí khởi tạo của các sự kiện. Ngoài ra, một sự kiện mới sẽ được
thêm vào khi lỗi tái tạo ban đầu có một cực đại cục bộ lớn hơn
một ngưỡng xác định như đã xem xét trong [1].
Hình 2.6. Hình vẽ các hàm sự kiện nhận được khi NMF phân tích một câu
chỉ số trên miền thời gian là số khung.
36
CHƯƠNG 3
ĐÁNH GIÁ THỰC NGHIỆM PHƯƠNG PHÁP MÃ HÓA TIẾNG
NÓI DÙNG KỸ THUẬT PHÂN RÃ MA TRẬN KHÔNG ÂM NMF
Các phương pháp mã hóa tiếng nói đều hướng tới mô hình độc lập ngôn ngữ,
tức là có thể áp dụng cho bất kỳ ngôn ngữ nào. Tuy nhiên nhiều nghiên cứu đã chỉ
ra hiệu quả của từng phương pháp là khác nhau khi áp dụng vào một ngôn ngữ
khác nhau [1, 2].
Luận văn này tập trung vào việc đánh giá các phương pháp mã hóa tiếng nói
dùng kỹ thuật phân rã tiếng nói theo thời gian, cụ thể là phương pháp phân rã tiếng
nói cải tiến NMF của tác giả N.P Chien [1, 2] và Xue [17, 18] đối với cơ sở dữ
liệu tiếng nói tiếng Việt. Qua đó, đánh giá mức độ phù hợp của phương pháp với
tiếng nói tiếng Việt.
3.1. Thu thập dữ liệu tiếng nói
3.1.1. Ngữ âm tiếng Việt
Tiếng Việt là ngôn ngữ chính thức tại Việt Nam. Nó được hơn 90 triệu người
Việt sử dụng hàng ngày. Khoảng hơn 3 triệu người Việt ở nước ngoài cũng thường
xuyên sử dụng tiếng Việt.
Tóm tắt về ngữ âm tiếng Việt được trình bày dưới đây được tham khảo từ
nghiên cứu của Đoàn Thiện Thuật [6] và Hoàng Phê [5].
3.1.1.1. Cấu trúc âm tiết tiếng Việt
Tiếng Việt là một ngôn ngữ đơn âm có thanh điệu điển hình [6]. Tổng số âm
tiết (syllable) có thể phát âm trong tiếng Việt là khoảng 19.000 tuy nhiên chỉ có
khoảng 7000 âm tiết được sử dụng và giảm xuống 1200 âm tiết nếu bỏ qua sự khác
biệt về thanh điệu (tone). Cấu trúc âm tiết tiếng Việt được mô tả trong Hình 3.1.
Mỗi âm tiết được xem là một tổ hợp của phần đầu (initial), phần vần (final) và
thanh điệu. Có 22 phần đầu, 155 phần vần và 6 thanh điệu trong tiếng Việt [5].
37
Phần đầu thông thường là phụ âm (consonant), nhưng cũng có thể bị khuyết
trong một số âm tiết. Phần vần có thể phân tách thành ba thành phần, bao gồm đầu
vần (onset), nhân âm tiết (nucleus), và đuôi vần (coda). Phần đầu vần và đuôi vần
có thể không tồn tại với một số âm tiết còn nhân âm tiết là thành phần chính của
mọi âm tiết. Nhân âm tiết có thể là một nguyên âm (vowel) hoặc một nguyên âm
đôi (diphthong). Đuôi vần có thể là một phụ âm hoặc một bán nguyên âm (semi-
vowel). Có tất cả một phần đầu vần, 16 nhân âm tiết, và 8 đuôi vần trong tiếng
Việt.
3.1.1.2. Thanh điệu tiếng Việt
Thanh điệu là một thành phần siêu phân đoạn (super-segmental) tồn tại duy
nhất trong các ngôn ngữ có thanh điệu. Có sáu thanh điệu phân biệt trong tiếng
Việt như trong Bảng 3.2 và Hình 3.1 (dấu ? ở thanh ngã chỉ ra rằng đường F0 của
thanh ngã không thống nhất giữa các mẫu ở vùng giữa). Mỗi thanh điệu có một
đường tần số cơ bản (F0) xác định.
Trong tiếng Việt, có hai loại âm tiết được phân biệt là âm đóng và âm mở.
Âm tiết đóng kết thúc với các đuôi vần /p/, /t/, /k/ chỉ có thể kết hợp với các thanh
sắc và nặng trong khi âm tiết mở và các âm tiết đóng khác có thể kết hợp với tất
cả sáu thanh điệu để cấu thành một âm tiết có thanh có nghĩa.
Hình 3.1. Đường F0 sáu thanh điệu tiếng Việt
Bảng 3.1. Cấu trúc âm tiết tiếng Việt
38
Thanh điệu
Phần vần
Phần đầu âm tiết
Đầu vần Nhân âm tiết Đuôi vần
Bảng 3.2. Sáu thanh điệu tiếng Việt
Số thứ tự thanh Tên tiếng Việt Tên tiếng Anh
1 Ngang Level
2 Huyền Falling
3 Ngã Broken
4 Hỏi Curve
5 Sắc Rising
6 Nặng Drop
3.1.2. Cơ sở dữ liệu tiếng nói tiếng Việt
Trong phần này, học viên giới thiệu một số bộ cơ sở dữ liệu tiếng nói tiếng
Việt trung bình và lớn phổ biến.
3.1.2.1 Cơ sở dữ liệu tiếng nói phát thanh VOV
Bộ cơ sở dữ liệu này được xây dựng tại Viện Công nghệ thông tin, Viện hàn
lâm, khoa học và công nghệ Việt Nam [4]. Bộ cơ sở dữ liệu gồm các câu chuyện,
báo cáo, bản tin,… được Đài tiếng nói Việt Nam VOV phát thanh và được sưu tập
từ 15 người nói giọng Hà Nội chuẩn. Âm thanh dạng RealAudio được sưu tập từ
website của VOV và được chuyển đổi về dạng âm thanh PCM WAV với tốc độ
bit 256 kbps, tần số lấy mẫu là 16 KHz.
39
Bộ cơ sở dữ liệu bao gồm 29062 câu với độ dài trung bình 10 âm tiết. Số
lượng các âm tiết phân biệt là 4379 trong khi số lượng các âm tiết phân biệt không
tính thanh điệu là 1646 bao phủ gần như toàn bộ các âm tiết tiếng Việt. Kích cỡ
bộ cơ sở dữ liệu khoảng 2.5 GB.
Bộ cơ sở dữ liệu được lựa chọn cân bằng giữa mỗi người nói và mỗi phiên
và được gán nhãn bằng tay chỉ ở mức âm tiết. Mặc dù đây là một bộ cơ sở dữ liệu
lớn, việc sử dụng bộ cơ sở dữ liệu này cho nghiên cứu là khá khó khăn do chưa có
nhãn gán ở mức âm vị.
3.1.2.2 Cơ sở dữ liệu DEMEN567
Bộ cơ sở dữ liệu này cũng được xây dựng tại Viện Công nghệ thông tin, Viện
hàn lâm, khoa học và công nghệ Việt Nam [4]. Kịch bản văn bản được trích ra từ
câu chuyện Dế mèn phiêu lưu ký nổi tiếng. Người nói là một nữ phát thanh viên
giọng Hà Nội chuẩn. Tiếng nói được ghi âm ở dạng PCM WAV, tần số lấy mẫu
là 11025 Hz, mã hóa 16 bit/mẫu. Cơ sở dữ liệu bao gồm 567 câu với độ dài mỗi
câu khoảng 15 âm tiết. Kích cỡ bộ cơ sở dữ liệu vào khoảng 70 MB và độ dài vào
khoảng gần 1 giờ nói.
Bộ cơ sở dữ liệu được gán nhãn bằng tay ở cả mức âm tiết và âm vị bao gồm
thông tin thanh điệu. Đây là bộ cơ sở dữ liệu kích cỡ trung bình với chất lượng cao
do việc thiết kế kịch bản văn bản đảm bảo độ cân bằng âm cao cũng như việc gán
nhãn ở mức âm vị là khá chính xác.
3.1.2.3 Cơ sở dữ liệu MICA VNSpeech
Đây là bộ cơ sở dữ liệu được xây dựng tại Trung tâm nghiên cứu quốc tế
MICA, Đại học Bách Khoa Hà Nội. Bộ cơ sở dữ liệu đươc nói bởi 50 người nói
bao gồm 25 nữ và 25 nam với độ tuổi từ 15 đến 45. Người nói hầu hết có trình độ
đại học với ba phương ngữ chính: miền Nam, miền Bắc, và miền Trung Việt Nam.
Mỗi người nói khoảng 60 phút. Tần số lấy mẫu là 16 KHz. Mức độ cân bằng về
ngữ âm và âm vị được đảm bảo khá tốt [15].
40
Mặc dù bộ cơ sở dữ liệu này được xem là một cơ sở dữ liệu tiếng nói lớn với
chất lượng thu âm cao, nhãn mô tả trong cơ sở dữ liệu được tạo ra bằng phương
pháp gán nhãn tự động có sai số lớn đã giới hạn khả năng sử dụng cơ sở dữ liệu
này trong các nghiên cứu về xử lý tiếng nói tiếng Việt.
3.1.3. Tổng hợp tiếng nói tiếng Việt
Chuyển đổi thông tin người nói có thể xem là một nhánh nghiên cứu về tổng
hợp tiếng nói. Do đó, trong phần này học viên điểm lại một số nghiên cứu về tổng
hợp tiếng nói tiếng Việt.
Tổng hợp tiếng nói tiếng Việt được bắt đầu nghiên cứu khoảng hai thập kỷ
trở lại đây. Hai bộ tổng hợp tiếng nói tiếng Việt có thế coi là sơ khai nhất là
VnSpeech sủ dụng công nghệ tổng hợp Formant và VnVoice sủ dụng kỹ thuật
ghép nối đơn vị âm. Chất lượng của các bộ tổng hợp này là chưa cao, học viên
cũng gần như không phát triển tiếp cho đến nay.
Một số bộ tổng hợp tiếng nói tiếng Việt đã được thương mai hóa như bộ tổng
hợp tiếng nói phương Nam (VOS), Sao Mai, Hoa Súng. Đây là những bộ tổng hợp
dựa trên kỹ thuật ghép nối ở mức âm tiết hay mức từ. Chúng có thể tổng hợp rất
tốt với giọng của người nói trong cơ sở dữ liệu.
Tuy nhiên các hệ thống này chưa tích hợp khả năng chuyển đổi giọng người
nói để có thể tổng hợp ra nhiều giọng khác nhau.
Gần đây các hệ thống tổng hợp tiếng nói dùng phương pháp thống kê HMM
cũng được nghiên cứu phát triển, tuy nhiên vấn đề chuyển đổi giọng người nói để
có thể tổng hợp ra nhiều giọng nói đầu ra khác nhau với nhiều cảm xúc nói khác
nhau cũng chưa được quan tâm nghiên cứu.
3.2. Cài đặt phương pháp mã hóa trên Matlab
Môi trường để cài đặt là MATLAB R2012. Các hàm phân tích, xử lý tiếng
nói được lấy từ thư viện của tác giả.
41
Thư viện hàm tính toán đánh giá khách quan PESQ được lấy từ thư viện của
tác giả Rix Antony.
Input: Các file âm thanh có đuôi *.wav.
Output: Dữ liệu âm thanh đã được nén nhưng chất lượng vẫn đảm bảo.
Hình 3.2. Thuật toán mã hóa và đánh giá chất lượng tiếng nói mã hóa bằng NMF
Thuật toán cài đặt hệ thống mã hóa tiếng nói dùng NMF của Chien [2], học
viên chỉ thực hiện mã hóa NMF của Chien [2] với tham số phổ LSF với tỷ lệ sự
kiện tương ứng với tỷ lệ nén. Nói cách khác tỷ lệ nén được cố định. Sau đó chất
42
lượng tiếng nói được tái tạo được so sánh với chất lượng tiếng nói nguồn. Đây
chưa phải hệ thống mã hóa hoàn thiện (bao gồm cả các khối mã hóa F0, AP), tuy
nhiên đủ để đánh giá chất lượng tiếng nói tái tạo khi mã hóa nén tham số phổ với
một tỷ lệ nén cho trước.
3.3. Đánh giá khách quan, chủ quan và so sánh các phương pháp
3.3.1.Đánh giá khách quan và chủ quan
Trong đánh giá chất lượng tiếng nói thì cả các phương pháp khách quan (máy
đánh giá theo công thức) và chủ quan (người nghe đánh giá) đều được sử dụng.
Mỗi phương pháp có những ưu nhược điểm riêng. Dưới đây sẽ xem xét cụ thể
từng tiêu chí của từng phương pháp.
Tiêu chí chủ quan:
Tiêu chí đánh giá chủ quan là tiêu chí sử dụng người nghe để đánh giá chất
lượng tiếng nói. Tiêu chí chủ quan được xem là quan trọng hơn do mục tiêu cuối
cùng của tiếng nói mã hóa vẫn phải là đảm bảo người nghe hiểu được, chấp nhận
được. Tuy nhiên để thực hiện các đánh giá chủ quan là tốn kém, mất thời gian, cần
thiết bị nghe và phòng nghe chuyên dụng để tránh nhiễu môi trường. Ngoài ra, các
phương pháp chủ quan khó đảm bảo sự tin cậy hoàn toàn do người nghe có thể
mất tập trung, không chú tâm vào việc đánh giá hoặc thậm chí cố tình cho điểm
sai. Các điểm yếu của các phương pháp chủ quan có thể khắc phục bằng cách tăng
số lượng người nghe, số lượng phép test để đảm bảo các giá trị thống kê có sự ổn
định và tin cậy.
Trong luận văn này học viên sử dụng phương pháp của Scheffe [17]. Trong
đó 5 sinh viên có khả năng nghe bình thường được lựa chọn để thực hiện các đánh
giá nghe chủ quan mỗi loại tiếng nói (có nén, không nén) 20 mẫu. Mỗi người được
hỏi để phân loại chất lượng tiếng nói nghe được theo thang từ -2 đến 2 khi so sánh
hai mẫu tiếng nói nguồn và mã hóa trong một cặp.
Tiêu chí khách quan:
43
Nhằm khắc phục các yếu điểm của tiêu chí đánh giá chủ quan, nhiều phương
pháp đánh giá khách quan đã được xây dựng. Các phương pháp đánh giá khách
quan truyền thông theo cách tiếp cận so sánh trực tiếp hai tín hiệu nguồn và mã
hóa để tính toán sai số khác biệt đã chứng tỏ không hiệu quả do khả năng nghe
của con người không tỷ lệ tuyến tính với sai số. Nói cách khác hai tín hiệu có sai
khác lớn có thể người nghe sẽ thấy giống hơn hai tín hiệu có sai khác nhỏ (nhưng
các điểm khác là các điểm quan trọng với tai người). Các phương pháp đánh giá
khách quan hiện đại nhất được sử dụng là các phương pháp mô hình hóa khả năng
nghe của con người để “chủ quan hóa” các tham số khách quan, từ đó đưa ra các
phương pháp tính toán khách quan phù hợp nhất với khả năng nghe của con người.
Trong số các phương pháp đánh giá chất lượng tiếng nói khách quan thì
phương pháp PESQ [18] được sử dụng phổ biến nhất và cũng được sử dụng trong
luận văn này. Đây là một tiêu chí khách quan mô phỏng tiêu chí chủ quan mô tả
trong Hình 3.3 bằng cách xây dựng một mô hình nghe nhân tạo tích hợp các phân
tích về khả năng cảm thụ âm của con người. Trong đó chất lượng tiếng nói được
đánh giá theo thang 5 điểm như trong Bảng 3.3, với tiếng nói chuẩn được quy
chiếu ở thang điểm cao nhất 5 điểm.
Hình 3.3. Mô hình hóa người nghe trong PESQ
44
Bảng 3.3. Thang điểm PESQ
Chất lượng tiếng nói Điểm
Rất tốt 5
Tốt 4
Trung bình 3
Kém 2
Rất kém 1
3.3.2. So sánh với các phương pháp khác.
Sau khi thực nghiệm phương pháp mã hóa tiếng nói NMF của Chien [2], học
viên thử nghiệm phương pháp trên cơ sở dữ liệu tiếng nói tiếng Việt DEMEN567.
Tỷ lệ nén được sử dụng làm căn cứ để chọn tỷ lệ sự kiện tiếng nói, trên từng
tỷ lệ nén đầu vào, học viên sẽ so sánh tiếng nói được mã hóa nén và tiếng nói gốc
để tính toán các tiêu chí đánh giá khách quan như PESQ cũng như đánh giá chủ
quan.
Kết quả đánh giá chủ quan bằng phương pháp của Scheffe trung bình với 20
mẫu mỗi loại tiếng nói trích từ cơ sở dữ liệu DEMEN567 (có nén với tỷ lệ nén là
20, không nén) được cho Hình 3.4 và Hình 3.5. Kết quả đánh giá khách quan bằng
phương pháp PESQ với 50 mẫu tiếng nói trích từ DEMEN567 cho thấy PESQ với
tiếng nói không nén trung bình là 4.5/5 còn tiếng nói có nén là 2.6/5 như trên Hình
3.6.
45
Tiếng nói mã hóa bằng NMF (nén) với tỉ lệ nén là 20
Tiếng nói mã hóa bằng STRAIGHT (không nén)
-2
-1
0
1
2
Chất lượng thấp
Chất lượng cao
Hình 3.4. Kết quả đánh giá chủ quan bằng phương pháp của Scheffe với tỷ
Tiếng nói mã hóa bằng NMF (nén) với tỷ lệ nén 30
Tiếng nói mã hóa bằng STRAIGHT (không nén)
-2
-1
0
1
2
Chất lượng thấp
Chất lượng cao
lệ nén đầu vào là 20
Hình 3.5. Kết quả đánh giá chủ quan bằng phương pháp của Scheffe với tỷ
lệ nén đầu vào là 30
Hình 3.6. Hình ảnh dạng sóng tiếng nói nén, không nén với tỷ lệ nén là 50.
46
3.4. Phân tích, đánh giá ưu nhược điểm
Với các phương pháp nén truyền thống như nén MP3, tỷ lệ nén trung bình
khoảng 1/11 cho đầu ra âm thanh CD có tốc độ bit là 128 Kbps. Trong luận văn
này, khi học viên thử nghiệm ở tỷ lệ nén ở mức rất cao (20-30 lần) để cho ra tiếng
nói có tốc độ bit rất thấp thì chất lượng tiếng nói có nén vẫn chấp nhận được với
cả đánh giá chủ quan và khách quan. Hình 3.4 và Hình 3.5 cho thấy khi thay đổi
tỷ lệ nén từ 20 đến 30 thì chất lượng tiếng nói suy giảm không nhiều và vẫn ở mức
chấp nhận được, đủ để nghe hiểu. Các kết quả trên cho thấy phương pháp mã hóa
nén tiếng nói NMF là một phương pháp tốt trên tiếng Việt. Cùng với các kết quả
đánh giá hiệu quả NMF trên tiếng Anh, tiếng Nhật [1, 2] thì kết quả nghiên cứu
này cho thấy NMF là một phương pháp mã hóa nén hiệu quả với nhiều ngôn ngữ,
có nhiều tiềm năng ứng dụng.
Ưu điểm
NMF chuyển một matrix X thành phép nhân 2 maxtrix cấp thấp hơn với
độ xấp xỉ và sai số nhỏ. Mục đích để giảm cho việc lưu trữ và việc tính toán nhưng
vẫn đảm bảo được các đặc điểm của dữ liệu (các đặc tính của mô hình).
Một thuật toán mới dựa trên NMF-WI được trình bày có thể hoạt động ở
tốc độ bit rất thấp với tốc độ 1kb / s. Trong bộ mã hóa này, các tham số của hai
khung liên tiếp được nhóm thành một siêu khung và được lượng tử hóa cùng nhau.
Để giảm sự dư thừa hơn nữa, một số kỹ thuật được sử dụng, tức là dự đoán giữa
các khung đã được giới thiệu cho LSF và DCT được áp dụng để giảm kích thước
khi ma trận mã hóa và mã hóa H được lượng tử hóa.
Nhược điểm
Hiện tại không có nhiều kết quả lý thuyết về NMF hoàn chỉnh từ quan
điểm phân rã ma trận, chẳng hạn như độ phức tạp tính toán.
Hiện tại vẫn cần được nghiên cứu và xem xét để lựa chọn và đánh giá các
hàm mục tiêu khác nhau để hình thành các phương pháp NMF.
47
Để có thể sử dụng thực tế NMF trên tập dữ liệu quy mô lớn, các thuật toán
NMF cải tiến về độ phức tạp tính toán thì cần được nghiên cứu thêm.
KẾT LUẬN
Trong luận văn này học viên đã nghiên cứu về phương pháp mã hóa tiếng nói
tốc độ bit thấp thời gian thực dùng kỹ thuật NMF nói chung, phương pháp NMF
của Xue và NMF của N.P.Chien nói riêng. Học viên đã phân tích lý thuyết, cài đặt
thực nghiệm và đánh giá hiệu quả của phương pháp mã hóa tiếng nói dùng kỹ
thuật NMF. Tuy nhiên thuật toán NMF có độ phức tạp tính toán cao, không phù
hợp với việc mã hóa tiếng nói thời gian thực
Kỹ thuật phân rã tiếng nói theo thời gian NMF của Chien [2] là một kỹ thuật
phân tích tiếng nói được đề xuất bởi Chien [2] năm 2007. Một số nhà nghiên cứu
đã cải tiến thuật toán NMF của Chien [2] theo hướng giảm độ phức tạp tính toán,
48
ứng dụng trong mã hóa tiếng nói tốc độ bit thấp thời gian thực. Các kết quả nghiên
cứu cho thấy NMF của N.P.Chien[2] rất thích hợp để phân tích mô hình hóa tiếng
nói cũng như mã hóa nén tiếng nói với tiếng nói tiếng Việt, từ đó trên cho thấy
phương pháp mã hóa nén tiếng nói NMF là một phương pháp tốt trên tiếng Việt.
Cùng với các kết quả đánh giá hiệu quả NMF trên tiếng Anh, tiếng Nhật thì kết
quả nghiên cứu này cho thấy NMF là một phương pháp mã hóa nén hiệu quả với
nhiều ngôn ngữ, có nhiều tiềm năng ứng dụng.
Hướng nghiên cứu này vẫn được tiếp tục phát triển trong những năm gần đây
và theo hướng:
Tối ưu thuật toán thông qua tinh chỉnh tham số rate.
Tối ưu mã nguồn và giao diện của chương trình thử nghiệm.
TÀI LIỆU THAM KHẢO
[1]. Nguyen, Phu Chien, Ochi Takao, and Masato Akagi. "Modified restricted
temporal decomposition and its application to low rate speech coding." IEICE
TRANSACTIONS on Information and Systems 86.3 (2003): 397-405.
[2]. Nguyen, Phu Chien, Masato Akagi, and Binh Phu Nguyen. "Limited error
based event localizing temporal decomposition and its application to variable-
rate speech coding." Speech communication 49.4 (2007): 292-304.
[3]. Phung, Trung-Nghia, et al. "Improving naturalness of HMM-based TTS
trained with limited data by temporal decomposition." IEICE
TRANSACTIONS on Information and Systems 96.11 (2013): 2417-2426.
49
[4]. L.C. Mai and D.N. Duc, “Design of Vietnamese speech corpus and current
status," Proc. ISCSLP-06, pp. 748-758 (2006).
[5]. Hoàng Phê, Chính tả Tiếng Việt, NXB Đà Nẵng, trang. 9-15, 2003.
[6]. Đoàn Thiện Thuật, Ngữ âm tiếng Việt, NXB Đại học Quốc Gia, 2003.
[7]. Atal, Bishnu S., and Manfred R. Schroeder. "Adaptive predictive coding of
speech signals." Bell System Technical Journal, The 49.8 (1970): 1973-1986.
[8]. Atal, Bishnu S., and J. Remde. "A new model of LPC excitation for producing
natural-sounding speech at low bit rates." Acoustics, Speech, and Signal
Processing, IEEE International Conference on ICASSP'82. Vol.7. IEEE,
1982.
[9]. Atal, Bishnu S. "Efficient coding of LPC parameters by temporal
decomposition." Acoustics, Speech, and Signal Processing, IEEE
International Conference on ICASSP'83.. Vol. 8. IEEE, 1983.
[10]. GUO, Li-li, and Chang-chun BAO. "2kb/s Bayesian Ying-Yang Waveform
Interpolative Speech Coding Based on Non-Negative Matrix Factorization
[J]." Acta Electronica Sinica 5 (2009).
[11]. Hiroya, Sadao. "Non-Negative Temporal Decomposition of Speech
Parameters by Multiplicative Update Rules", IEEE Transactions on Audio,
Speech, and Language Processing, 21.10 (2013): 2108-2117.
[12]. Kleijn, W. Bastiaan, and Kuldip K. Paliwal. Speech coding and synthesis.
Elsevier Science Inc., 1995.
[13]. Kim, Sung-Joo, and Yung-Hwan Oh. "Efficient quantization method for LSF
parameters based on restricted temporal decomposition." Electronics
Letters35.12 (1999): 962-964.
[14]. Kawahara, Hideki. "STRAIGHT, exploitation of the other aspect of
VOCODER: Perceptually isomorphic decomposition of speech sounds.
" Acoustical science and technology 27.6 (2006): 349-353.
50
[15]. H. Scheffe, “An analysis of variance for paired comparisons,” Journal of the
AmericanStatistical Association, vol. 47, pp. 381-400, 1952.
[16]. Rix, Antony W., et al. "Perceptual evaluation of speech quality (PESQ)-a
new method for speech quality assessment of telephone networks and
codecs."Acoustics, Speech, and Signal Processing, 2001.
Proceedings.(ICASSP'01). 2001 IEEE International Conference on. Vol. 2.
IEEE, 2001.
[17]. Xue, Er-juan, and Chang-chun Bao. "1kb/s waveform interpolation speech
coding based on non-negative matrix factorization." 2008 9th International
Conference on Signal Processing. IEEE, 2008.
[18]. XUE, Er-juan, Chang-chun BAO, and Ru-wei LI. "1 kb/s waveform
interpolative speech coding based on two-dimensional nonnegative matrix
factorization." Acta Electronica Sinica 38 (2010): 1574-1579.