i

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

KHOA CÔNG NGHỆ THÔNG TIN

PHẠM MẠNH CƯỜNG

NGHIÊN CỨU PHƯƠNG PHÁP MÃ HÓA TIẾNG NÓI DÙNG

KỸ THUẬT PHÂN RÃ MA TRẬN KHÔNG ÂM

Chuyên ngành: Khoa học máy tính

Mã số: 848 01 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC

PGS. TS PHÙNG TRUNG NGHĨA

ii

LỜI CAM ĐOAN

Tên tôi là: Phạm Mạnh Cường

Sinh ngày: 31/10/1985

Học viên lớp cao học K17A - Trường Đại học Công nghệ thông tin và Truyền

thông - Thái Nguyên.

Tôi xin cam đoan, toàn bộ nội dung liên quan tới đề tài được trình bày trong

luận văn là bản thân tôi tìm hiều và nghiên cứu, dưới sự hướng dẫn khoa học của

Thầy giáo PGS.TS. Phùng Trung Nghĩa.

Các nội dung trong luận văn đúng như nội dung trong đề cương và yêu cầu

của thầy giáo hướng dẫn. Tất cả tài liệu tham khảo đều có nguồn gốc, xuất xứ rõ

ràng. Nếu sai tôi hoàn toàn chịu trách nhiệm trước hội đồng khoa học và trước

pháp luật.

Tác giả luận văn

Phạm Mạnh Cường

iii

LỜI CẢM ƠN

Sau một thời gian nghiên cứu và làm việc nghiêm túc, được sự động viên,

giúp đỡ và hướng dẫn tận tình của Thầy giáo hướng dẫn PGS.TS. Phùng Trung

Nghĩa, luận văn với đề tài “Nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ

thuật phân rã ma trận không âm” đã hoàn thành.

Em xin bày tỏ lòng biết ơn sâu sắc đến: Thầy giáo hướng dẫn PGS.TS.

Phùng Trung Nghĩa đã tận tình chỉ dẫn, giúp đỡ em hoàn thành luận văn này.

Em xin cảm ơn Khoa sau Đại học Trường Đại học Công nghệ - Thông tin và

Truyền thông đã giúp đỡ em trong quá trình học tập cũng như thực hiện luận văn.

Em xin chân thành cảm ơn bạn bè, đồng nghiệp và gia đình đã động viên,

khích lệ, tạo điều kiện giúp đỡ em trong suốt quá trình học tập, thực hiện và hoàn

thành luận văn này.

Em xin chân thành cảm ơn!

Thái Nguyên, ngày tháng năm 2020

Học viên

Phạm Mạnh Cường

iv

MỤC LỤC

LỜI CAM ĐOAN ............................................................................................. i

LỜI CẢM ƠN ................................................................................................. iii

DANH MỤC CÁC BẢNG ............................................................................ vii

DANH MỤC CÁC HÌNH ............................................................................ viii

Ý NGHĨA CÁC TỪ VIẾT TẮT .................................................................... ix

1. Lý do chọn đề tài ............................................................................................ 2

2. Đối tượng và phạm vi nghiên cứu: ................................................................. 3

3. Hướng nghiên cứu của luận văn: .................................................................... 3

4. Phương pháp nghiên cứu ................................................................................ 3

5. Ý nghĩa khoa học và thực tiễn ........................................................................ 4

MỞ ĐẦU .......................................................................................................... 2

1.1. Tổng quan về tiếng nói ................................................................................ 5

1.1.1. Thông tin tiếng nói ............................................................................. 5

1.1.2. Tín hiệu tiếng nói ............................................................................... 6

1.1.2.1. Tín hiệu .................................................................................... 6

1.1.2.2. Nguồn tín hiệu .......................................................................... 7

1.1.2.3. Hệ thống và xử lý tín hiệu ........................................................ 7

1.2. Tổng quan về mã hóa tiếng nói .................................................................... 8

1.3. Mã hóa tiếng nói tốc độ bit thấp .................................................................. 9

1.4. Mục tiêu của luận văn ................................................................................ 10

CHƯƠNG 1 TỔNG QUAN VỀ MÃ HÓA TIẾNG NÓI ............................. 5

v

2.1. Tổng quan về kỹ thuật phân rã ma trận không âm NMF .......................... 12

2.1.1. Khái niệm ......................................................................................... 12

2.1.2. Lịch sử ............................................................................................. 12

2.1.3. Nền tảng ........................................................................................... 12

2.1.4. Tích chất phân cụm .......................................................................... 14

2.2. Kỹ thuật phân rã ma trận không âm NMF và ứng dụng trong mã hóa tiếng 15 nói

2.2.1 Kỹ thuật phân rã ma trận không âm NMF ........................................ 15

2.2.2 Ứng dụng trong mã hóa tiếng nói ..................................................... 21

2.3. Phương pháp mã hóa tiếng nói dùng NMF của Xue ................................. 22

2.4. Phương pháp mã hóa NMF của Chien ...................................................... 28

CHƯƠNG 2 PHƯƠNG PHÁP MÃ HÓA TIẾNG NÓI DÙNG KỸ THUẬT PHÂN RÃ MA TRẬN KHÔNG ÂM NMF ................................................ 12

3.1. Thu thập dữ liệu tiếng nói ........................................................................ 36

3.1.1. Ngữ âm tiếng Việt ............................................................................ 36

3.1.1.1. Cấu trúc âm tiết tiếng Việt ..................................................... 36

3.1.1.2. Thanh điệu tiếng Việt ............................................................. 37

3.1.2. Cơ sở dữ liệu tiếng nói tiếng Việt .......................................................... 38

3.1.2.1 Cơ sở dữ liệu tiếng nói phát thanh VOV ................................. 38

3.1.2.2 Cơ sở dữ liệu DEMEN567 ...................................................... 39

3.1.2.3 Cơ sở dữ liệu MICA VNSpeech ............................................. 39

3.1.3. Tổng hợp tiếng nói tiếng Việt ......................................................... 40

3.2. Cài đặt phương pháp mã hóa trên Matlab ................................................. 40

CHƯƠNG 3 ĐÁNH GIÁ THỰC NGHIỆM PHƯƠNG PHÁP MÃ HÓA TIẾNG NÓI DÙNG KỸ THUẬT PHÂN RÃ MA TRẬN KHÔNG ÂM NMF ................................................................................................................ 36

vi

3.3. Đánh giá khách quan, chủ quan và so sánh các phương pháp .................. 42

3.3.1.Đánh giá khách quan và chủ quan .................................................... 42

3.3.2. So sánh với các phương pháp khác. ................................................. 44

3.4. Phân tích, đánh giá ưu nhược điểm ........................................................... 46

KẾT LUẬN .................................................................................................... 47

TÀI LIỆU THAM KHẢO ............................................................................ 48

vii

DANH MỤC CÁC BẢNG

Bảng 2.1. Hiệu suất của hai sơ đồ lượng tử hóa ............................................. 25

Bảng 2.2. Tỉ lệ phân giải cao độ khác nhau .................................................... 26

Bảng 3.1. Cấu trúc âm Tiếng Việt .................................................................. 38

Bảng 3.2. Sáu thanh điệu Tiếng Việt .............................................................. 38

Bảng 3.3. Thang điểm PESQ .......................................................................... 44

viii

DANH MỤC CÁC HÌNH

Hình 1.1. Dạng sóng tiếng nói một câu tiếng Việt .......................................... 6

Hình 1.2. Tiếng nói hữu thanh ........................................................................ 6

Hình 1.3. Một số ứng dụng của xử lý tiếng nói .............................................. 8

Hình 2.1. NMF tuần tự .................................................................................... 18

Hình 2.2. Dạng sóng lời nói và đường viền cao độ của nó ............................. 25

Hình 2.3. Dấu vết điện .................................................................................... 27

Hình 2.4. Hàm sự kiện có tính chất “hình học chuẩn” và “hình học không

chuẩn” .............................................................................................................. 30

Hình 2.5. Thuật toán chuẩn hóa vector sự kiện trong NMF ........................... 34

Hình 2.6. Hình vẽ các hàm sự kiện nhận được khi NMF phân tích một câu,

chỉ số trên miền thời gian là số khung. ........................................................... 35

Hình 3.1. Đường F0 sáu thanh điệu Tiếng Việt .............................................. 37

Hình 3.2. Thuật toán mã hóa và đánh giá chất lượng tiếng nói mã hóa bằng

NMF ................................................................................................................ 41

Hình 3.3. Mô hình hóa người nghe trong PESQ ............................................. 43

Hình 3.4. Kết quả đánh giá chủ quan bằng phương pháp của Scheffe với tỷ lệ

nén đầu vào là 20 ............................................................................................. 45

Hình 3.5. Kết quả đánh giá chủ quan bằng phương pháp của Scheffe với tỷ lệ

nén đầu vào là 30 ............................................................................................. 45

Hình 3.6. Hình ảnh dạng sóng tiếng nói có nén, không nén với tỷ lệ nén là 46

ix

Ý NGHĨA CÁC TỪ VIẾT TẮT

Từ viết tắt Ý nghĩa

ASD Phổ trung bình

ADPCM Mã hóa thích nghi

CELP Mã hóa dự đoán tuyến tính kích thích mã

Dạng sóng đặc trưng CW

Phương thức sử dụng phổ biến DCT

Bộ lọc thông thấp FIR

Phương sai dư phân số FRV

Phương pháp thống kê HMM

Biến đổi cosine rời rạc IDCT

Mã hóa dự đoán tuyến tính LPC

Đặc trưng phổ đường LSF

MELP Tuyến tính kích thích hỗn hợp

NCCF Phương pháp hàm tương quan chéo đã chuẩn hóa

Kỹ thuật phân rã ma trận không âm NMF

Phương trình bậc hai không âm NQP

Thành phần chính PCA

PESQ

Mã hóa theo dạng xung PCM

Đánh giá cảm quan về chất lượng lời nói

Sóng phát triển nhanh REW

x

SEW Sóng phát triển chậm

SFTR Tỉ lệ dịch phổ

SVM Vector hỗ trợ

WI Bộ mã hóa dựa trên NMF

2

MỞ ĐẦU

1. Lý do chọn đề tài

Tiếng nói là phương tiện giao tiếp cơ bản của con người. Vì vậy tiếng nói

cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệ thống viễn thông.

Để truyền tiếng nói trong mạng viễn thông, tiếng nói cần phải được số hóa. Phương

pháp số hóa cơ bản mã hóa theo dạng xung (Pulse Code Modulation – PCM) cho

tốc độ bit của tiếng nói đã số hóa là 64 Kbps giống tốc độ bit của một kênh thông

tin số cơ bản chưa ghép kênh [7]. Với sự bùng nổ về thông tin trong các mạng viễn

thông hiện đại, việc sử dụng phương pháp mã hóa PCM với tốc độ cơ bản 64 Kbps

là tiêu tốn lãng phí nguồn tài nguyên, hạn chế dung lượng thông tin trên một kênh

truyền vật lý. Chính vì vậy, rất nhiều nhà nghiên cứu trên thế giới đã tập trung vào

vấn đề mã hóa tiếng nói để đảm bảo tiếng nói được mã hóa có tốc độ bit thấp, có

thể dễ dàng tăng số kênh truyền logic trên một kênh truyền vật lý, trong khi vẫn

phải đảm bảo các yêu cầu về chất lượng [8, 9, 10, 12, 17, 18]. Các phương pháp

mã hóa tiếng nói phổ biến được biết đến là mã hóa dự đoán tuyến tính LPC [8],

mã hóa thích nghi ADPCM [12],... Mặc dù các phương pháp mã hóa này là tin cậy

và đã được tiêu chuẩn hóa và sử dụng rộng rãi trong các hệ thống viễn thông. Hiệu

quả nén của các phương pháp mã hóa phổ biến này vẫn chưa đảm bảo trong điều

kiện tài nguyên hạn chế như các hệ thống thông tin di động. Kỹ thuật phân rã ma

trận không âm (Nonnegative Matrix Factorization - NMF) là một kỹ thuật phân

tích tiếng nói được đề xuất bởi Xue năm 2008 [17]. Các kết quả nghiên cứu cho

thấy NMF rất thích hợp để phân tích mô hình hóa tiếng nói cũng như mã hóa nén

tiếng nói. Hướng nghiên cứu này vẫn được tiếp tục phát triển trong những năm

gần đây [10, 18]. Luận văn này nghiên cứu về phương pháp mã hóa tiếng nói tốc

độ bit thấp thời gian thực dùng kỹ thuật NMF, phân tích lý thuyết, cài đặt thực

nghiệm và đánh giá hiệu quả các phương pháp, từ đó đưa ra các khuyến nghị cho

3

việc phát triển hệ thống mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ

thuật NMF.

2. Đối tượng và phạm vi nghiên cứu:

Đối tượng nghiên cứu của luận văn là các phương pháp mã hóa nén tiếng

nói tốc độ bit thấp thời gian thực dùng kỹ thuật NMF. Đây là đối tượng nghiên

cứu được một số nhà nghiên cứu trên thế giới quan tâm trong thời gian gần đây.

Phạm vi của luận văn bao gồm nghiên cứu tổng quan về mã hóa nén tiếng

nói [7, 8, 12], một số phương pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực

[8, 10, 12, 17, 18], đặc biệt tập trung vào kỹ thuật mã hóa nén tiếng nói dùng NMF

[10, 17, 18]. Luận văn cũng nghiên cứu cài đặt thực nghiệm phương pháp mã hóa

dùng NMF để có những phân tích, đánh giá, và đưa ra các khuyến nghị.

3. Hướng nghiên cứu của luận văn:

Hướng nghiên cứu của luận văn là nghiên cứu về kỹ thuật phân rã ma trận

không âm NMF và ứng dụng trong mã hóa tiếng nói tốc độ bit thấp. Trong đó,

luận văn tập trung nghiên cứu cả các vấn đề lý thuyết về tiếng nói, về các kỹ thuật

số hóa và mã hóa tiếng nói, về kỹ thuật phân rã ma trận không âm NMF. Luận văn

cũng nghiên cứu đánh giá thực nghiệm phương pháp mã hóa tiếng nói tốc độ bit

thấp dùng NMF.

4. Phương pháp nghiên cứu

Phương pháp nghiên cứu của luận văn là nghiên cứu các lý thuyết đã có trên

thế giới [7, 8, 9, 10, 12, 17, 20] để phân tích, đánh giá về các kỹ thuật mã hóa tiếng

nói tốc độ bit thấp.

Dựa trên các cơ sở lý thuyết và các phân tích, đánh giá, luận văn cũng sẽ

nghiên cứu thực nghiệm phương pháp mã hóa tiếng nói tốc độ bit thấp thời gian

thực dùng kỹ thuât ma trận không âm NMF. Cơ sở dữ liệu để đánh giá thực nghiệm

4

là cơ sở dữ liệu tiếng nói tiếng Việt. Môi trường để thực nghiệm là MATLAB

2012.

5. Ý nghĩa khoa học và thực tiễn

Như đã trình bày trong phần 1, nghiên cứu về mã hóa tiếng nói tốc độ bit thấp

có vai trò quan trọng trong các hệ thống truyền thông hiện đại. Nghiên cứu chuyên

sâu về các phương pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ

thuật NMF chưa được nghiên cứu ở Việt Nam. Do vậy vấn đề nghiên cứu trong

luận văn có ý nghĩa khoa học và thực tiễn.

5

CHƯƠNG 1

TỔNG QUAN VỀ MÃ HÓA TIẾNG NÓI

1.1. Tổng quan về tiếng nói

1.1.1. Thông tin tiếng nói

Tiếng nói là dạng thông tin tự nhiên và phổ biến nhất đối với con người. Từ

khi lịch sử con người hình thành, con người đã biết sử dụng tiếng nói làm phương

tiện giao tiếp chính, trải qua hàng triệu năm trong quá trình tiến hóa và phát triển

của loài người, tiếng nói vẫn luôn giữ vai trò là phương tiện giao tiếp cơ bản nhất.

Do đó tiếng nói là phương tiện giao tiếp cơ bản của con người, nó cũng là loại

hình thông tin cơ bản và phổ biến nhất trong các hệ thống viễn thông từ trước đến

nay.

Kể từ khi máy tính và các ứng dụng của máy tính được nghiên cứu và ứng

dụng rộng rãi, người ta cố gắng để máy tính không chỉ có thể xử lý nhanh, nhiều

mà quan trọng hơn nó đủ thông minh để thay thế con người. Một trong các tiêu

chí quan trọng để đánh giá độ thông minh của máy tính chính là khả năng hiểu

được ngôn ngữ tự nhiên của con người trong đó có tiếng nói. Tuy nhiên, tiếng nói

mang nhiều thông tin, ngoài thông tin ngôn ngữ còn cả các thông tin phi ngôn ngữ

như thông tin về người nói, thông tin về sắc thái tình cảm khi nói…

Tín hiệu tiếng nói là loại tín hiệu âm thanh phổ biến nhất trong viễn thông.

Dải tần tín hiệu tiếng nói nằm trong khoảng 300 Hz - 3400 Hz. Tiếng nói bao gồm

hai dạng hữu thanh và vô thanh. Âm hữu thanh có đặc tính tuần hoàn còn âm vô

thanh tương tự nhiễu.

6

Hình 1.1. Dạng sóng tiếng nói một câu tiếng Việt

Hình 1.2.Tiếng nói hữu thanh

1.1.2. Tín hiệu tiếng nói

1.1.2.1. Tín hiệu

Tín hiệu(signal) dùng để chỉ một đại lượng vật lý mang tin tức. Về mặt toán

học, ta có thể mô tả tín hiệu như một hàm theo biến thời gian, không gian hay các

biến độc lập khác.

Chẳng hạn như, hàm: mô tả tín hiệu biến thiên theo biến thời

gian t. Hay một ví dụ khác, hàm: mô tả tín hiệu là hàm

theo hai biến độc lập x và y, trong đó x và y biểu diễn cho hai tọa độ trong mặt

phẳng.

7

Hai tín hiệu trong ví dụ trên về lớp tín hiệu được biểu diễn chính xác bằng

hàm theo biến độc lập. Tuy nhiên, trong thực tế, các mối quan hệ giữa các đại

lượng vật lý và các biến độc lập thường rất phức tạp nên không thể biểu diễn tín

hiệu như trong hai ví dụ vừa nêu trên.

Lấy ví dụ tín hiệu tiếng nói – đó là sự biến thiên của áp suất không khí theo

thời gian. Chẳng hạn khi ta phát âm câu “Cô ấy đang đi chơi”, dạng sóng của

nó được biểu diễn như Hình 1.1.

1.1.2.2. Nguồn tín hiệu

Tất cả các tín hiệu đều do một nguồn nào đó tạo ra, theo một cách thức nào

đó. Ví dụ tín hiệu tiếng nói được tạo ra băng cách ép không khí đi qua dây thanh

âm. Quá trình tạo tín hiệu như vậy thường liên quan đến một hệ thống, hệ thống

này đáp ứng lại một kích thích nào đó. Trong tín hiệu tiếng nói, hệ thống là

hệ thống phát âm, gồm: môi, răng, lưỡi, còn kích thích là sự rung của dây thanh…

1.1.2.3. Hệ thống và xử lý tín hiệu

Hệ thống là một thiết bị vật lý thực hiện một tác động nào đó lên tín hiệu.

Ví dụ, bộ lọc nhiễu tiếng nói dùng để giảm nhiễu trong tín hiệu mang tin được

gọi là một hệ thống. Khi ta truyền tín hiệu qua một hệ thống, như bộ lọc chẳng

hạn, ta nói rằng đã xử lý tín hiệu đó. Trong trường hợp này, xử lý tín hiệu liên

quan đến lọc nhiễu ra khỏi tín hiệu tiếng nói mong muốn.

Xử lý tín hiệu là ý muốn nói đến một loạt các công việc hay các phép toán

được thực hiện trên các tín hiệu nhằm đạt mục đích nào đó, như là tách tin tức

chứa bên trong tín hiệu hoặc là truyền tín hiệu mang tin từ nơi này đến nơi khác.

Xử lý tiếng nói hay xử lý tín hiệu tiếng nói được hiểu là các thao tác, kỹ thuật

xử lý trên máy tính nhằm mục đích đưa tiếng nói vào máy tính, xử lý theo yêu cầu

và phát lại cho con người. Yêu cầu xử lý ở đây phụ thuộc vào từng ứng dụng cụ

thể. Chẳng hạn để có thể truyền tiếng nói tin cậy và hiệu quả trên các hệ thống

viễn thông truyền với khoảng cách rất xa, người ta cần nghiên cứu và xây dựng

8

các giải thuật mã hóa nén tiếng nói. Để xây dựng các ứng dụng nhận dạng tiếng

nói, người ta cần nghiên cứu và xây dựng các giải thuật trích đặc trưng tiếng nói

và huấn luyện tiếng nói. Để biến đổi tiếng nói, người ta cần xác định các đặc trưng

tiếng nói theo các tiêu chí cụ thể khác nhau (như người nói, cảm xúc, ngữ điệu khi

nói) và biến đổi trực tiếp hoặc gián tiếp các đặc trưng này.

Hình 1.3. Một số ứng dụng của xử lý tiếng nói

1.2. Tổng quan về mã hóa tiếng nói

Vào năm 1892 Alexander Graham Bell khai trương tuyến điện thoại thương

mại đầu tiên trên thế giới và cho tới gần đây con người coi điện thoại là một công

cụ truyền tin hữu hiệu.

Nhờ điện thoại mà con người có khả năng trao đổi thông tin giữa các điểm

khác nhau trên toàn thế giới một cách dễ dàng. Ngoài ưu thế như khả năng truyền

thông tin theo thời gian thực và dễ sử dụng, mạng điện thoại ngày nay còn có các

ưu điểm rất cơ bản, đó là được phổ biến trên toàn cầu, giúp ta có khả năng liên lạc

hầu như mọi điểm trên trái đất, thời gian đáp ứng ngắn và thuận tiện cho người sử

dụng.

9

Cũng từ đó tín hiệu tiếng nói trở thành một đối tượng và cũng là một nguồn

tải lớn nhất của mạng viễn thông, cùng với sự phát triển của kỹ thuật số, các công

nghệ bán dẫn thì các phương pháp mã hoá tín hiệu tiếng nói cũng phát triển mạnh.

Bộ mã hoá tiếng nói được phân thành hai loại lớn: bộ mã hoá dạng sóng và

bộ mã hoá tham số nguồn.

Bộ mã hoá dạng sóng nhằm tạo ra dạng sóng thời gian của tín hiệu tiếng nói

càng chính xác càng tốt, chúng được thiết kế độc lập với nguồn tín hiệu (có nghĩa

là có thể áp dụng cho cả loại tín hiệu khác) nên chất lượng không phụ thuộc nhiều

vào nguồn tín hiệu chúng có ưu điểm là chất lượng ổn định với phạm vi rộng của

các đặc trưng tiếng nói, và các môi trường ồn khác nhau.

Còn các bộ mã hoá nguồn tiếng nói thì lại có ưu thế trong việc tiết kiệm băng

tần nhưng lại rất phức tạp và có độ ổn định không cao tuy nhiên chúng ngày càng

được khắc phục, để phục vụ cho các công nghệ viễn thông hiện tại và trong tương

lai.

1.3. Mã hóa tiếng nói tốc độ bit thấp

Mã hóa PCM cho tốc độ bit của tiếng nói đã số hóa là 64 Kbps giống tốc độ

bit của một kênh thông tin số cơ bản chưa ghép kênh [2]. Khoảng 20 năm trở lại

đây với sự phát triển mạnh của mạng viễn thông toàn cầu, mạng Internet các dịch

vụ viễn thông tích hợp thoại, hình, số liệu... thì băng tần truyền dẫn ngày càng trở

nên hạn chế. Khi đó, việc sử dụng phương pháp mã hóa PCM với tốc độ cơ bản

64 Kbps là tiêu tốn lãng phí nguồn tài nguyên, hạn chế dung lượng thông tin trên

một kênh truyền vật lý. Chính vì vậy, rất nhiều nhà nghiên cứu trên thế giới đã tập

trung vào vấn đề mã hóa nguồn tiếng nói để đảm bảo tiếng nói được mã hóa có

tốc độ bit thấp, có thể dễ dàng tăng số kênh truyền logic trên một kênh truyền vật

lý, trong khi vẫn phải đảm bảo các yêu cầu về chất lượng [1, 7, 9, 13]. Các phương

pháp mã hóa nguồn tiếng nói phổ biến được biết đến là mã hóa dự đoán tuyến tính

LPC [11], mã hóa thích nghi CELP [10],...

10

Một trong những phương thức phân tích mạnh nhất là kỹ thuật phân tích dự

đoán tuyến tính LPC [11]. Đây là phương pháp chọn trên phương pháp coi tín hiệu

tiếng nói là hệ thống thay đổi chậm theo thời gian được kích thích bởi xung tựa

tuần hoàn và nhiễu ngẫu nhiên. Mẫu tiếng nói s(n) liên hệ với xung kích thích âm

hữu thanh u(n):

(1.1)

Ý tưởng cơ bản của việc phân tích dự đoán tuyến tính là một mẫu tiếng nói

có thể xấp xỉ một cách tuyến tính với một mẫu trước đó.

Một bộ dự đoán tuyến tính, với hệ số được định nghĩa như là một hệ

thống mà đầu ra của nó có phương trình:

(1.2)

Sai số dự đoán định nghĩa là e(n)

(1.3)

Bằng việc tối thiểu hóa tổng bình phương sự khác nhau giữa mẫu thực và

mẫu dự đoán được, các hệ số dự đoán sẽ quyết định việc truyền tới thiểu hoá này.

Phương pháp LPC có ưu thế vượt trội cho việc ước lượng các thông số cơ

bản của tiếng nói như cao độ, formants, phổ,… và mã hoá tốc độ bít thấp để truyền

dẫn và lưu trữ. Điều quan trọng của phương pháp này là khả năng thực hiện ước

lượng các thông số này một cách chính xác và mối liên hệ trong việc tính toán tín

hiệu tiếng nói. Phương pháp này cũng đã được tiêu chuẩn hóa trong các tiêu chuẩn

của ITU-T.

1.4. Mục tiêu của luận văn

11

Hướng nghiên cứu mã hóa tiếng nói tốc độ bit thấp dùng kỹ thuật phân rã ma

trận không âm hiện vẫn được tiếp tục phát triển trong những năm gần đây nhưng

ở Việt Nam, hướng nghiên cứu này còn khá mới mẻ.

Luận văn này nghiên cứu về phương pháp mã hóa tiếng nói dùng kỹ thuật

phân rã ma trận không âm dùng NMF.

Phân tích lý thuyết, cài đặt thực nghiệm với cơ sở dữ liệu tiếng Việt và đánh

giá hiệu quả của phương pháp NMF, từ đó đưa ra các khuyến nghị cho việc phát

triển hệ thống mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuật phân

rã ma trận không âm cho phù hợp với tiếng nói tiếng Việt.

12

CHƯƠNG 2

PHƯƠNG PHÁP MÃ HÓA TIẾNG NÓI DÙNG KỸ THUẬT

PHÂN RÃ MA TRẬN KHÔNG ÂM NMF

2.1. Tổng quan về kỹ thuật phân rã ma trận không âm NMF

2.1.1. Khái niệm

Phân rã ma trận không âm (NMF), hoặc còn gọi là phép xấp xỉ ma trận không

âm là một nhóm các thuật toán trong phân tích đa biến và đại số tuyến tính trong

đó ma trận V được phân rã thành hai ma trận W và H, với tính chất mà cả ba ma

trận không có phần tử âm. Tính chất không âm này làm cho ma trận kết quả dễ

kiểm tra hơn. Ngoài ra, trong các ứng dụng như xử lý âm thanh tính không âm là

thuộc tính tự nhiên của dữ liệu. Vì vấn đề không thể giải quyết chính xác nói

chung, nên nó thường được tính gần đúng.

NMF có nhiều ứng dụng trong các lĩnh vực như thiên văn học, thị giác máy

tính, phân cụm dữ liệu, hóa học, xử lý tín hiệu âm thanh và tin sinh học.

2.1.2. Lịch sử

Trong phép đo nhân tử ma trận không âm có một lịch sử lâu dài dưới cái tên

"mô hình độ phân giải đường cong". Trong khung này các vectơ trong ma trận bên

phải là các đường cong liên tục chứ không phải là các vectơ rời rạc. Ngoài ra, công

việc ban đầu về các yếu tố ma trận không âm được thực hiện bởi một nhóm các

nhà nghiên cứu Phần Lan vào giữa những năm 1990 dưới tên gọi là phân rã ma

trận dương. Nó được biết đến rộng rãi hơn như là phân rã ma trận không âm sau

khi Lee và Seung kiểm tra các thuộc tính của thuật toán và công bố một số thuật

toán đơn giản và hữu ích cho hai loại phân rã.

2.1.3. Nền tảng

Đặt ma trận V là tích của ma trận W và H

(2.1) V=W*H

13

Phép nhân ma trận có thể được thực hiện khi tính toán các vectơ cột của V

dưới dạng kết hợp tuyến tính của vectơ cột trong W bằng các hệ số được cung cấp

bởi các cột của H. Nghĩa là, mỗi cột của V có thể được tính như sau:

(2.2) 𝒗𝒊 = 𝑾 ∗ 𝒉𝒊

Trong đó 𝒗𝒊 là vectơ cột thứ i của ma trận sản phẩm V và 𝒉𝒊 là vectơ cột thứ

i của ma trận H.

Khi nhân ma trận, kích thước của ma trận phân rã có thể thấp hơn đáng kể so

với ma trận sản phẩm và chính đặc tính này tạo thành nền tảng của NMF. NMF

tạo ra các yếu tố với kích thước giảm đáng kể so với ma trận ban đầu.

Ví dụ: nếu V là ma trận m × n, W là ma trận m × p và H là ma trận p × n thì

p có thể nhỏ hơn đáng kể so với cả m và n.

Dưới đây là một ví dụ dựa trên ứng dụng khai thác văn bản:

Đặt ma trận đầu vào (ma trận được bao thanh toán) là V với 10000 hàng và

500 cột trong đó các từ nằm trong hàng và tài liệu nằm trong các cột. Với hơn 500

tài liệu được lập chỉ mục bởi 10000 từ. Theo sau đó một vectơ cột v trong V đại

diện cho một tài liệu.

Giả sử yêu cầu thuật toán tìm 10 tính năng để tạo ma trận tính năng W với

10000 hàng và 10 cột và ma trận hệ số H với 10 hàng và 500 cột.

Tích của W và H là một ma trận có 10000 hàng và 500 cột, có hình dạng

giống như ma trận đầu vào V và, nếu hệ số hóa hoạt động, đó là một xấp xỉ hợp lý

với ma trận đầu vào V.

Từ việc xử lý nhân ma trận ở trên, theo đó mỗi cột trong ma trận tích WH là

tổ hợp tuyến tính của 10 vectơ cột trong ma trận tính năng W với các hệ số được

cung cấp bởi ma trận hệ số H.

Điểm cuối cùng này là nền tảng của NMF có thể xem xét từng tài liệu gốc

trong ví dụ của mình như được xây dựng từ một tập hợp nhỏ các tính năng ẩn.

NMF tạo ra các tính năng này.

14

Sẽ là rất hữu ích khi từng tính năng (vectơ cột) trong ma trận tính năng W

dưới dạng nguyên mẫu, tài liệu bao gồm một tập hợp các từ trong đó giá trị ô của

mỗi từ xác định thứ hạng của từ trong tính năng đó: Giá trị ô của từ càng cao thì

thứ hạng của từ càng cao trong tính năng. Một cột trong ma trận hệ số H đại diện

cho một tài liệu gốc có giá trị ô xác định thứ hạng của tài liệu cho một tính năng.

Bây giờ có thể xây dựng lại một tài liệu (vectơ cột) từ ma trận đầu vào của mình

bằng cách kết hợp tuyến tính các tính năng (vectơ cột trong W) trong đó mỗi tính

năng được cân bằng giá trị ô của tính năng từ cột của tài liệu trong H.

2.1.4. Tích chất phân cụm

NMF có thuộc tính phân cụm vốn có, tức là, nó tự động phân cụm các cột

của dữ liệu đầu vào 𝑽 = (𝑣1, … … 𝑣𝑛).

Cụ thể hơn, gần đúng V bởi V≅ 𝑾𝑯 đạt được bằng cách giảm thiểu hàm lỗi

𝒎𝒊𝒏 𝑾,𝑯

(2.3) tùy thuộc vào W≥ 0, H≥ 0 ‖𝑽 − 𝑾𝑯‖𝑭

Hơn nữa, H được tính thành viên của cụm, nghĩa là, nếu 𝐻𝑘𝑗 > 𝐻𝑖𝑗 cho tất cả i ≠ k, điều này cho thấy rằng dữ liệu đầu vào 𝑣𝑗 thuộc về 𝑘𝑡ℎ cụm. W được tính toán cho các cụm trung tâm cụm, nghĩa là cột 𝑘𝑡ℎ cung cấp cho cụm trung tâm của

𝑘𝑡ℎ. Đại diện của trung tâm này có thể được tăng cường đáng kể bởi NMF lồi.

Khi tính trực giao 𝑯𝑯𝑻 = 𝑰 không được áp đặt rõ ràng, tính trực giao giữ ở

mức độ lớn và thuộc tính phân cụm cũng giữ. Phân cụm là mục tiêu chính của hầu

hết các ứng dụng khai thác dữ liệu của NMF.

Khi chức năng lỗi được sử dụng là phân kỳ KullbackTHER Leibler, NMF

giống hệt với phân tích ngữ nghĩa tiềm ẩn xác suất, một phương pháp phân cụm

tài liệu phổ biến.

15

2.2. Kỹ thuật phân rã ma trận không âm NMF và ứng dụng trong mã hóa

tiếng nói

2.2.1 Kỹ thuật phân rã ma trận không âm NMF

Xấp xỉ phân rã ma trận không âm

Thông thường số cột của W và số hàng của H trong NMF được chọn để ma

trận tích WH sẽ trở thành xấp xỉ với V. Sự phân tách hoàn toàn của V sau đó lên

tới hai ma trận không âm W và H cũng như U dư, sao cho:

(2.4) V = WH + U

Các phần tử của ma trận dư có thể là âm hoặc dương.

Khi W và H nhỏ hơn V, chúng trở nên dễ dàng hơn để lưu trữ và thao tác.

Một lý do khác để nhân tố V thành các ma trận nhỏ hơn W và H, là nếu có thể biểu

diễn xấp xỉ các phần tử của V bằng dữ liệu ít hơn đáng kể, thì phải suy ra một số

cấu trúc tiềm ẩn trong dữ liệu.

𝐦∗𝐤 tức là, W có thể là bất cứ

Hệ số ma trận không âm

Trong NMF tiêu chuẩn, hệ số ma trận 𝐖 ∈ 𝐑+

thứ gì trong không gian đó. Convex NMF giới hạn các cột của W để kết hợp lồi

các vectơ dữ liệu đầu vào (𝑣1, … … 𝑣𝑛). Điều này cải thiện đáng kể chất lượng biểu

diễn dữ liệu của W. Hơn nữa, yếu tố ma trận kết quả H trở nên thưa thớt và trực

giao hơn.

Hệ số xếp hạng không âm

Trong trường hợp thứ hạng không âm của V bằng với thứ hạng thực tế của

nó, V = WH được gọi là hệ số thứ hạng không âm. Vấn đề tìm NRF của V, nếu nó

tồn tại, được biết đến là có độ phức tạp NP-hard.

Hàm chi phí khác nhau và tiêu chuẩn hóa

Có nhiều loại yếu tố ma trận không âm khác nhau. Các loại khác nhau phát

sinh từ việc sử dụng các hàm chi phí khác nhau để đo độ phân rã giữa V và WH

và có thể bằng cách chính quy hóa ma trận W và/hoặc H.

16

Hai hàm phân kỳ đơn giản được nghiên cứu bởi Lee và Seung là sai số bình

phương (hoặc chỉ tiêu Frobenius) và phần mở rộng của phân kỳ Kullback-Leibler

thành ma trận dương (phân kỳ Kullback-Leibler ban đầu được xác định trên các

phân phối xác suất). Mỗi phân kỳ dẫn đến một thuật toán NMF khác nhau, thường

giảm thiểu phân kỳ bằng cách sử dụng các quy tắc cập nhật lặp.

Vấn đề lỗi trong bình phương của NMF có thể được nêu là: Đưa ra ma trận

V tìm ma trận không âm W và H làm giảm thiểu hàm số:

2 F(W,H)=‖𝑽 − 𝑾𝑯‖𝐹 Một loại NMF khác cho hình ảnh dựa trên tổng chỉ tiêu biến thể.

(2.5)

Khi chính quy hóa L1 (gần giống với Lasso) được thêm vào NMF với hàm

chi phí lỗi bình phương trung bình, vấn đề kết quả có thể được gọi là mã hóa thưa

không âm do sự tương tự với vấn đề mã hóa thưa thớt, mặc dù có thể vẫn còn được

gọi là NMF.

NMF trực tuyến

Nhiều thuật toán NMF tiêu chuẩn phân tích tất cả các dữ liệu cùng nhau; tức

là, toàn bộ ma trận có sẵn từ đầu. Điều này có thể không đạt yêu cầu trong các ứng

dụng có quá nhiều dữ liệu phù hợp với bộ nhớ hoặc nơi dữ liệu được cung cấp

theo kiểu truyền phát. Một cách sử dụng như vậy là để lọc cộng tác trong các hệ

thống khuyến nghị, nơi có thể có nhiều người dùng và nhiều mục để đề xuất, và

sẽ không hiệu quả khi tính toán lại mọi thứ khi một người dùng hoặc một mục

được thêm vào hệ thống. Hàm chi phí để tối ưu hóa trong những trường hợp này

có thể giống hoặc không giống với NMF tiêu chuẩn, nhưng các thuật toán cần phải

khá khác nhau.

Thuật toán

Có một số cách có thể tìm thấy W và H: quy tắc cập nhật nhân của Lee và

Seung là một phương pháp phổ biến do tính đơn giản của việc thực hiện. Thuật

toán này là khởi tạo: W và H không âm.

17

Sau đó cập nhật các giá trị trong W và H bằng cách tính toán như sau, với n

𝑛

𝑛+1 ← 𝐻[𝑖,𝑗]

là một chỉ mục của lần lặp.

𝐻[𝑖,𝑗] ((𝑊𝑛)𝑇𝑉)[𝑖,𝑗] ((𝑊𝑛)𝑇𝑊𝑛𝐻𝑛)[𝑖,𝑗]

𝑛+1 ← 𝑊[𝑖,𝑗] 𝑛

Và (2.6)

𝑊[𝑖,𝑗] (𝑉(𝐻𝑛+1)𝑇)[𝑖,𝑗] (𝑊𝑛𝐻𝑛+1(𝐻𝑛+1)𝑇)[𝑖,𝑗]

Cho đến khi W và H ổn định.

Lưu ý rằng các cập nhật được thực hiện trên một phần tử theo cơ sở phần tử

chứ không phải nhân ma trận.

Lưu ý rằng hệ số nhân W và H là ma trận danh tính khi V = W H.

Gần đây, các thuật toán khác đã được phát triển. Một số cách tiếp cận dựa

trên các bình phương tối thiểu không âm xen kẽ, trong mỗi bước của thuật toán

như vậy, H đầu tiên được cố định và W được tìm thấy bởi một bộ giải bình phương

tối thiểu không âm, sau đó W được cố định và H được tìm thấy tương tự. Các quy

trình được sử dụng để giải quyết cho W và H có thể giống nhau hoặc khác nhau,

vì một số biến thể NMF thường hóa một trong W và H. Các phương pháp cụ thể

bao gồm các phương pháp giảm độ dốc dự kiến, phương pháp thiết lập hoạt động,

phương pháp gradient tối ưu, và phương pháp xoay vòng chính trong số nhiều

phương pháp khác.

Các thuật toán hiện tại là tối ưu phụ ở chỗ chúng chỉ đảm bảo tìm được mức

tối thiểu cục bộ, thay vì mức tối thiểu toàn cầu của hàm chi phí. Một thuật toán tối

ưu có thể chứng minh là không thể xảy ra trong tương lai gần vì vấn đề đã được

chứng minh là khái quát hóa bài toán phân cụm k-mean bài toán NP-đầy đủ. Tuy

nhiên, như trong nhiều ứng dụng khai thác dữ liệu khác, mức tối thiểu cục bộ vẫn

có thể chứng minh là hữu ích.

18

NMF tuần tự

Hình 2.1. NMF tuần tự

Cấu trúc tuần tự của các thành phần NMF (W và H) trước tiên được sử dụng

để liên kết NMF với phân tích thành phần chính (PCA) trong thiên văn học. Sự

đóng góp từ các thành phần PCA được xếp hạng theo độ lớn của giá trị bản địa

tương ứng của chúng; đối với NMF, các thành phần của nó có thể được xếp hạng

theo kinh nghiệm khi chúng được xây dựng từng cái một (tuần tự), tức là tìm hiểu

(n + 1) - thành phần thứ nhất với n thành phần được xây dựng.

Các phương sai dư phân số (FRV) cho PCA và NMF tuần tự; đối với PCA,

các giá trị lý thuyết là sự đóng góp từ các giá trị riêng còn lại. So sánh, các đường

cong FRV cho PCA đạt đến đoạn bằng phẳng nơi không có tín hiệu nào được thu

một cách hiệu quả; trong khi các đường cong NMF FRV đang giảm liên tục, cho

thấy khả năng thu tín hiệu tốt hơn. Các đường cong FRV cho NMF cũng hội tụ ở

mức cao hơn PCA, cho thấy đặc tính ít bị quá tải của NMF.

Sự đóng góp của các thành phần NMF tuần tự có thể được so sánh với định

lý Karhunen-Loève, một ứng dụng của PCA, sử dụng các giá trị riêng. Một lựa

chọn điển hình về số lượng thành phần với PCA dựa trên "điểm gập", sau đó sự

tồn tại của đoạn bằng phẳng cho thấy PCA không thu thập dữ liệu một cách hiệu

19

quả và cuối cùng có sự sụt giảm đột ngột phản ánh việc bắt ngẫu nhiên tiếng ồn

và rơi vào chế độ quá mức. Đối với NMF tuần tự, biểu đồ các giá trị riêng được

xấp xỉ bằng biểu đồ của các đường cong phương sai dư phân đoạn, trong đó các

đường cong giảm liên tục và hội tụ ở mức cao hơn PCA, là dấu hiệu của sự phù

hợp ít hơn của NMF tuần tự .

NMF chính xác

Các giải pháp chính xác cho các biến thể của NMF có thể được mong đợi

(trong thời gian đa thức) khi các ràng buộc bổ sung giữ cho ma trận V. Một thuật

toán thời gian đa thức để giải quyết hệ số xếp hạng không âm nếu V chứa ma trận

phụ đơn vị có thứ hạng bằng với thứ hạng của nó được đưa ra bởi Campbell và

Poole năm 1981. Kalofolias và Gallopoulos (2012) đã giải quyết được đối tác đối

xứng của vấn đề này, trong đó V là đối xứng và chứa ma trận phụ chính chéo của

cấp r. Thuật toán này chạy trong thời gian O(rm^2) trong trường hợp dày đặc.

Arora, Ge, Halpern, Mimno, Moitra, Sontag, Wu, & Zhu (2013) đưa ra thuật toán

thời gian đa thức cho NMF chính xác hoạt động trong trường hợp một trong các

yếu tố W thỏa mãn điều kiện phân tách.

Liên quan đến các kỹ thuật khác

Khi tìm hiểu các bộ phận của các đối tượng bằng hệ số ma trận không âm,

Lee và Seung đã đề xuất NMF chủ yếu cho việc

phân tách hình ảnh dựa trên các bộ phận. Nó so

sánh NMF với lượng tử hóa vector và phân tích

thành phần chính, và cho thấy rằng mặc dù ba kỹ

thuật có thể được viết dưới dạng các yếu tố,

chúng thực hiện các ràng buộc khác nhau và do

đó tạo ra các kết quả khác nhau.

Sau đó, người ta đã chứng minh rằng một số loại NMF là một ví dụ của mô

hình xác suất tổng quát hơn gọi là "PCA đa phương". Khi thu được NMF bằng

20

cách giảm thiểu phân kỳ KullbackTHER Leibler,

thực tế nó tương đương với một trường hợp khác

của PCA đa phân tích, phân tích ngữ nghĩa tiềm

ẩn xác suất, được đào tạo theo ước tính khả năng

NMF như một mô hình đồ họa xác suất: các đơn vị nhìn thấy (V) được kết nối với các đơn vị ẩn (H) thông qua các trọng số W, do đó V được tạo từ phân phối xác suất với giá trị trung bình

tối đa. Phương pháp đó thường được sử dụng để

phân tích và phân cụm dữ liệu văn bản và cũng

∑ 𝑊𝑖𝑎ℎ𝑎 𝑎

liên quan đến mô hình lớp tiềm ẩn.

NMF với mục tiêu bình phương nhỏ nhất

tương đương với một dạng phân cụm K-mean thoải mái: hệ số ma trận W chứa

trọng tâm cụm và H chứa các chỉ số thành viên cụm. Điều này cung cấp một nền

tảng lý thuyết cho việc sử dụng NMF để phân cụm dữ liệu. Tuy nhiên, k-mean

không thực thi tính không âm trên trọng tâm của nó, do đó, sự tương tự gần nhất

thực tế là với "semi-NMF".

NMF có thể được xem như là một mô hình đồ họa hướng hai lớp với một lớp

biến ngẫu nhiên quan sát và một lớp biến ngẫu nhiên ẩn.

NMF mở rộng ra ngoài ma trận đến các thang đo của thứ tự tùy ý. Tiện ích

mở rộng này có thể được xem như một đối tác không âm.

Ví dụ: mô hình PARAFAC.

Các phần mở rộng khác của NMF bao gồm hệ số chung của một số ma trận

dữ liệu và tenxơ trong đó một số yếu tố được chia sẻ. Những mô hình như vậy rất

hữu ích cho phản ứng tổng hợp cảm biến và học tập quan hệ.

NMF là một ví dụ của lập trình bậc hai không âm (NQP), giống như máy

vectơ hỗ trợ (SVM). Tuy nhiên, SVM và NMF có liên quan ở mức độ thân mật

hơn so với NQP, cho phép áp dụng trực tiếp các thuật toán giải pháp được phát

triển cho một trong hai phương pháp cho các vấn đề trong cả hai miền.

21

Tính duy nhất

Hệ số hóa không phải là duy nhất: Một ma trận và nghịch đảo của nó có thể

được sử dụng để biến đổi hai ma trận nhân tố hóa bằng, ví dụ.

(2.7) WH=𝑾𝑩𝑩−𝟏𝑯

Nếu hai ma trận mới 𝑾̃=WB và 𝑯̃ = 𝑩−𝟏𝑯 không âm mà chúng tạo thành

một tham số khác của nhân tố hóa.

Tính không phủ định của 𝑾̃ và 𝑯̃ áp dụng ít nhất nếu B là ma trận đơn âm

không âm. Trong trường hợp đơn giản này, nó sẽ chỉ tương ứng với một tỷ lệ và

hoán vị.

Kiểm soát nhiều hơn đối với tính không độc đáo của NMF có được với các

ràng buộc về độ thưa thớt.

2.2.2 Ứng dụng trong mã hóa tiếng nói

WI (WI là một bộ mã hóa dựa trên NMF 2kb/s được gọi là tiện ích NMF-WI)

là một thuật toán nén hiệu quả, có thể tạo ra lời nói chất lượng cao với tốc độ bit

thấp. Nó đạt được bằng cách khai thác bản chất của sản xuất và nhận thức lời nói

của con người [1]. Trong bộ mã hóa WI truyền thống, tín hiệu dư dự báo tuyến

tính được phân tách thành dạng sóng phát triển chậm (SEW) và dạng sóng phát

triển nhanh (REW) bằng bộ lọc thông thấp FIR.

Sự phân tách này sẽ mang lại sự chậm trễ bổ sung và nó có thể làm cho SEW

và REW hoàn toàn độc lập. Vì vậy, nó cần thiết để thay thế một phương pháp phân

tách mới cho lọc thông thấp FIR. Một loại phương pháp NMF hiệu quả đã được

áp dụng để phân rã các dạng sóng đặc trưng (CW) [8]. Phân tách dựa trên NMF

được đề xuất chỉ yêu cầu tín hiệu giọng nói từ khung hiện tại và nó có thể mang

lại chất lượng phân tách cao với độ phức tạp tính toán thấp. Để đáp ứng nhu cầu

của truyền thông bảo mật kỹ thuật số băng tần hẹp, nghiên cứu về mã hóa giọng

nói ở tốc độ bit rất thấp là có ý nghĩa. Hiện tại, một số bộ mã hóa lời nói tồn tại

với tốc độ bit từ 2 đến 4kb / giây đã cho chất lượng chấp nhận được cho các ứng

22

dụng giao tiếp, chẳng hạn như dự đoán tuyến tính kích thích hỗn hợp (MELP)

[12]. Một số bộ mã hóa giọng nói ở tốc độ bit rất thấp đã được đề xuất dựa trên

thuật toán MELP bằng cách khai thác cả tương quan giữa và giữa các khung của

các tham số, tức là lượng tử hóa tham số đa khung đã được áp dụng cho MELP

thành công [10, 17]. Mục đích làm giảm tốc độ bit xuống 1kb / giây dựa trên NMF-

WI và tìm kiếm phân bổ bit tối ưu.

2.3. Phương pháp mã hóa tiếng nói dùng NMF của Xue

Trong mã hóa lời nói WI, một khung lời nói được mô hình hóa bằng bộ lọc

dự đoán tuyến tính và tín hiệu dư dạng sóng. Cao độ được ước tính từ tín hiệu dư.

Tốc độ lấy mẫu dạng sóng đặc trưng là 400 Hz và 10 CW được trích xuất trên mỗi

khung. Sau khi trích xuất CW, CW được đại diện bởi chuỗi Fourier, và sau đó

được chuyển đổi thành cường độ và phổ pha bằng cách chuyển đổi tọa độ cực. Vì

tai người không nhạy cảm với phổ pha CW, thông tin pha được loại bỏ trong bộ

mã hóa và được khôi phục bằng pha cố định trong bộ giải mã. Các thủ tục NMF

sau đó được thực hiện trên phổ cường độ CW. Nó mô tả như sau:

(2.8) 𝑉𝑛∗𝑚 ≈ 𝑊𝑛∗𝑟𝐻𝑟∗𝑚

Ma trận n*m V đại diện cho phổ cường độ CW, mục tiêu của NMF là ước

tính nó là một sản phẩm của hai ma trận không âm 𝑊𝑅𝑛∗𝑟 và 𝐻𝑅𝑟∗𝑚, trong đó W

và H được gọi là ma trận cơ sở và mã hóa ma trận tương ứng. Ma trận W đại diện

cho các sóng hài giống như xung cục bộ và H được mô tả là trọng số của các vectơ

cơ sở.

Trong bài báo này, thứ hạng được chọn là 16. Các vectơ cơ bản của W được

xác định trước thông qua các bộ huấn luyện. Sau đó, phổ biên độ CWs chiều cao

có thể được biểu thị bằng ma trận mã hóa chiều thấp H sau khi nhân tử ma trận

không âm, và điều này sẽ tạo điều kiện cho lượng tử hóa phổ cường độ CW ở tốc

độ bit thấp

23

 Thông số lượng tử hóa

Bộ mã hóa lời nói 1kb / s dựa trên NMF-WI được phát triển mà không có bất

kỳ thay đổi nào đối với phân tích và tổng hợp tham số. Giảm hơn nữa tốc độ bit

đạt được bằng cách loại bỏ khung để dự phòng khung trong các tham số. Trong

bộ mã hóa được đề xuất, các tham số của hai khung liên tiếp được nhóm thành

một siêu khung và được lượng tử hóa cùng nhau. Có bốn tham số truyền bao gồm

tần số phổ dòng (LSF), cường độ, công suất và ma trận mã hóa H. Các sơ đồ lượng

tử hóa của chúng được giới thiệu tương ứng như sau.

 Lượng tử hóa LSF.

Đối với các bộ mã hóa lời nói dựa trên dự đoán tuyến tính, việc giảm tốc độ

bit được liên kết chặt chẽ với lượng tử hóa hiệu quả của các hệ số bộ lọc mã hóa

dự báo tuyến tính (LPC). Do các hệ số bộ lọc LPC có dải động rộng và không ổn

định trong bộ lọc tổng hợp, nên sẽ sử dụng LSF thay thế. Bài viết này sẽ trình bày

các phương pháp lượng tử hóa vectơ phân tách dự đoán giữa các khung và các

phương pháp lượng tử hóa vectơ đa giai đoạn dự đoán giữa các khung cho tham

số LSF.

Thủ tục dự đoán giữa các khung được mô tả như sau. Đầu tiên, hai khung

hình liên tiếp hiện tại được nhóm thành một siêu khung. Thứ hai, vectơ trung bình

được trừ khỏi vectơ LSF để có được vectơ LSF không thiên vị hiện tại. Vectơ

trung bình LSF nhiệt được xác định trước thông qua các bộ huấn luyện. Vectơ

(𝑛)} , 𝑖: 1,2, … … 10

(𝑛) là vectơ LSF không thiên vị của khung đầu tiên trong siêu

(2.9) LSF siêu khung hiện tại được mô tả là phương trình (2). (𝑛), 𝜔̅2,𝑖 𝜔̅(𝑛) = {𝜔̅1,𝑖

(𝑛) là vectơ LSF không thiên vị của khung thứ hai trong siêu

Trong đó 𝜔̅1,𝑖

khung hiện tại, 𝜔̅2,𝑖

khung hiện tại. Thứ ba, dự đoán giữa các khung được tính như sau:

24

(𝑛−1) (𝑛−1) i=1,2,…….10;

(2.10) 𝑤̃ (𝑛) = {

(𝑛−1) đại diện cho vectơ LSF được lượng tử hóa và không thiên

𝛼1,𝑖 ∗ 𝑤̂2,𝑖 𝛼2,𝑖 ∗ 𝑤̂2,𝑖

Trong đó 𝑤̂2,𝑖

vị của khung thứ hai trong khung chắc chắn trước đó. Các hệ số dự đoán α1,i và

2 (𝑛))

2 (𝑛))

α2,i có thể được xác định trước bằng cách giảm thiểu lỗi bình phương sau:

𝑁 𝐸 = ∑ [(𝑟1,𝑖 𝑛=0

] + (𝑟2,𝑖

𝑁

2 (𝑛−1))

2 (𝑛−1))

(2.11)

(𝑛) − 𝛼1,𝑖 ∗ 𝑤̂2,𝑖

(𝑛) − 𝛼2,𝑖 ∗ 𝑤̂2,𝑖

𝑛=0

] = ∑ [(𝜔̅1,𝑖 + (𝜔̅2,𝑖

Sau đó, có được vectơ LSF dư trong khung siêu hiện tại. Hai sơ đồ được thực

hiện trong coder. Đầu tiên là chia lượng tử vector. Có hai giai đoạn, 10 bit cho giai

đoạn đầu tiên, trong giai đoạn thứ hai, vectơ LSF 20 chiều ban đầu được chia thành

hai vectơ với 10 chiều và 7 bit cho mỗi vectơ. Sơ đồ thứ hai là lượng tử hóa vector

ba giai đoạn. Phân bổ 9 bit, 8 bit và 7 bit tương ứng cho mỗi vector giai đoạn.

Bài kiểm tra được thực hiện trên cơ sở dữ liệu lời nói với 66 phút. Hiệu suất

lượng tử hóa của các hệ số LSF được đánh giá bằng độ méo phổ trung bình (ASD).

Các kết quả trong bảng 1 cho thấy rằng lượng tử hóa vectơ ba giai đoạn dự đoán

liên khung thực hiện tốt hơn so với lượng tử hóa vectơ phân chia hai giai đoạn.

Cuối cùng, áp dụng phương pháp dự đoán lượng tử vector ba giai đoạn dự đoán

trong khung trong bộ mã hóa của.

Bảng 2.1. Hiệu suất của hai sơ đồ lượng tử hóa

Sơ đồ ASD(dB) 0~2dB 2~4dB >4dB

Chia hai giai đoạn VQ 77,7% 21,6% 0,7% 1,55

Ba giai đoạn VQ 81,8% 17,9% 0,3% 1,47

 Lượng tử hóa cao độ.

25

Vì các sơ đồ ước lượng và lượng tử hóa tốt là rất quan trọng đối với mã hóa

giọng nói tốc độ bit rất thấp. Trong việc cố gắng ước tính cao độ bằng phương

pháp hàm tương quan chéo đã chuẩn hóa (NCCF) [18]. Khi bài phát biểu không

được truyền đạt, xác định rằng giá trị khoảng thời gian cao độ là 80 mẫu. Lượng

tử hóa cao độ cần 6 bit cho một siêu khung trong bộ mã hóa này. Vì vậy, lượng tử

hóa cao độ với bảng mã cố định 7 bit được tìm thấy là không phù hợp. Sau đó,

một phương pháp lượng tử hóa sân khác được mô tả. Trước hết, hai khung cao độ

liên tiếp được nhóm lại thành một siêu khung. Sau đó, các giá trị logarit của cao

độ được lượng tử hóa. Trong Hình 1, mô tả về dạng sóng lời nói và đường viền

cao độ của nó được mô tả. Cao độ ước tính trong bộ mã hóa được hiển thị trong

đường liền nét. Đường chấm chấm biểu thị cao độ lượng tử trong bộ giải mã. Đối

với mục đích so sánh, dấu vết cao độ trong bộ giải mã gần với dấu vết của bộ mã

hóa.

Hình 2.2. Dạng sóng lời nói và đường viền cao độ của nó

Tham chiếu [9] đã chỉ ra rằng lời nói được giải mã chất lượng cao có thể đạt

được khi độ phân giải cao không lớn hơn 3 và 5 mẫu đối với loa nữ và nam. Sau

đó, một bài kiểm tra đã được thực hiện trên cơ sở dữ liệu giọng nói với 39044

khung. Tỷ lệ độ phân giải cao độ khác nhau được thể hiện trong Bảng 2. 𝛥𝑠𝑎𝑚𝑝𝑙𝑒

mẫu đại diện cho độ phân giải giữa cao độ lượng tử và ước tính. Kết quả từ thí

26

nghiệm này cho thấy độ phân giải dưới 3 mẫu chiếm 95,7305%. Và bài kiểm tra

nghe chủ quan không chính thức chỉ ra rằng lời nói được xây dựng lại là tốt mà

không làm suy giảm chất lượng âm thanh.

Bảng 2.2. Tỷ lệ phân giải cao độ khác nhau

𝛥𝑠𝑎𝑚𝑝𝑙𝑒 Proportion 𝛥𝑠𝑎𝑚𝑝𝑙𝑒 Proportion

0 13,746%

1 22,5079% <=3 95,7305% 2 9,9682%

3 49,5082%

4 1,8415% >3 4,2695% >5 2,428%

 Lượng tử hóa điện.

Trong bộ mã hóa NMF-WI, 10 CW được trích xuất trên mỗi khung và công

suất được tính một lần cho mỗi CW. Vì vậy, vectơ năng lượng trở thành 20 chiều

trong một siêu khung. Để làm cho việc lượng tử hóa hiệu quả hơn, nên giảm số

lượng kích thước lúc đầu. Biến đổi K-L và DCT là các phương thức được sử dụng

phổ biến nhất. Vì phép biến đổi K-L cần biết trước ma trận hiệp phương sai, và

sau đó các giá trị riêng được yêu cầu để tính toán. Nó là quá chuyên sâu tính toán

để xử lý trong thời gian thực. DCT là một sơ đồ nén phổ biến khác với cơ sở trực

giao và độ nén năng lượng cao. Và DCT có lợi thế về tốc độ tính toán nhanh. Nó

thường được coi là phép biến đổi nhỏ gọn gần đúng nhất, vì lỗi lượng tử hóa của

DCT gần với phép biến đổi K-L. Cuối cùng, DCT được thực hiện trên vectơ công

suất logarit. Biểu thức của DCT được mô tả như sau:

(2.12)

27

𝑁−1

𝑛=0

(2.13) 𝑋(𝑘) = √ , 𝑘 = 0,1,2, … … 𝑁 − 1 𝑐(𝑘) ∑ 𝑥(𝑛) cos (2𝑛 + 1)𝑘𝜋 2𝑁 2 𝑁

Các hệ số kết quả sau DCT được sắp xếp theo chuỗi giảm và năng lượng chủ

yếu tập trung vào các hệ số tần số thấp. Việc lấy các hệ số sắp xếp lại DCT 10

chiều đầu tiên để lượng tử hóa. Sách mã được thiết kế bằng thuật toán LBG. Trong

Hình 2.3 dấu vết sức mạnh được mô tả. Kết quả dữ liệu thực nghiệm chứng minh

rằng lượng tử hóa các hệ số DCT có thể tạo ra hiệu suất tốt.

Hình 2.3. Dấu vết điện

 Mã hóa lượng tử hóa ma trận.

Khi hai ma trận mã hóa liên tiếp tham gia, kích thước trong một siêu khung

trở nên rất lớn, được biểu thị bằng 𝐻16×20. Nó cần phải được nén để giảm kích

thước ma trận để đạt được tốc độ bit rất thấp để truyền hoặc lưu trữ, trong khi vẫn

giữ được thông tin chính. Theo mối tương quan giữa các phần tử trong hàng, trước

tiên thay đổi các cột của chúng thành 5-imension bằng DCT và trong bộ giải mã

và có thể khôi phục các cột bị loại bỏ trong bộ mã hóa bằng phép biến đổi cosine

rời rạc (IDCT) [13]. Và biết rằng các phần tử chiều thấp trong cột của H là các

trọng số cho các sóng hài giống như xung tần số thấp, và các phần tử chiều cao là

các trọng số cho các phần phổ tần số cao. Theo đặc tính này của ma trận mã hóa,

chia ma trận H thành 3 ma trận phụ. Về mặt ma trận 16 × 5 H, ma trận con 5 × 5

28

đầu tiên, được sử dụng để cân cho các vectơ cơ sở tần số thấp, được gọi là ma trận

thấp, trong khi ma trận phụ 5 × 5 thứ hai được gọi là ma trận giữa, và ma trận con

6 × 5 cuối cùng được gọi là ma trận cao. Để nhận thức về thính giác nhạy hơn với

tần số thấp, sử dụng sơ đồ lượng tử hóa ma trận (MQ) để định lượng các ma trận

phụ này, phân bổ nhiều bit cho ma trận thấp hơn ma trận trung bình hoặc ma trận

cao.

2.4. Phương pháp mã hóa NMF của Chien

Kỹ thuật phân rã tiếng nói theo thời gian được đề xuất bởi Atal [9] và được

coi như một phương pháp mã hóa tiếng nói tham số hiệu quả. Giả sử một chuỗi

tiếng nói được tạo ra bởi K chuyển động thực hiện bởi K điểm sự kiện. Ở đây gọi

các tham số tiếng nói tương ứng với điểm sự kiện thứ k là , và sự biến đổi theo

thời gian của sự kiện này biểu diễn bằng một hàm . Khung tiếng nói thứ n đi từ

1 đến N. Khi phân rã tiếng nói theo thời gian, các tham số tiếng nói quan sát được

y(n) được xấp xỉ bằng , là một tổ hợp tuyến tính của các điểm sự kiện như sau:

(2.14)

(2.15)

(2.16)

(2.17)

Chỉ số mũ T của vector hay ma trận là phép chuyển vị. Viết công thức trên

dưới dạng ma trận như sau:

(2.18)

29

với P là số chiều của các tham số phổ. là một ma trận cỡ PxN với cột thứ

n là . A là một ma trận PxK với cột thứ k là , và phi là một ma trận cỡ KxN

với hàng thứ k là .

Ở công thức 2.14 cả điểm sự kiện và hàm chuyển dịch giữa các sự kiện là

chưa biết và kỹ thuật phân rã theo thời gian phải xác định chúng khi một chuỗi

tiếng nói đầu vào được đưa ra.

Ở công thức 2.14 và 2.18, chỉ Y là biết trước. Để xác định A và Phi, Y được

phân rã bằng phép toán trực giao. Thủ tục phân tích trong phương pháp nguyên

thủy của Atal được thực hiện bằng 2 bước:

Các vị trí của các điểm sự kiện được xác định bằng phép phân tích ma trận

SVD

Các điểm sự kiện và hàm chuyển dịch sự kiện được xác định bằng phương

pháp lặp tối thiểu khoảng cách (hoặc lỗi) giữa tiếng nói được tái tạo và tiếng nói

gốc.

Phương pháp NMF Chien[2] là phương pháp phân rã tiếng nói bit thấp theo

thời gian thực được đề xuất nhằm tiếp tục cải thiện các vấn đề tồn tại đối với tham

số phổ đường LSF.

Ràng buộc bổ sung với các hàm sự kiện

Dựa trên đặc tính hình học của phân rã theo thời gian, tính chất “hình học

chuẩn” của hàm sự kiện được mô tả là hàm sự kiện chỉ có một đỉnh như trong

Hình 2.4. Hàm có tính chất “hình học chuẩn” là tốt cho phép lượng tử trong mã

hóa tiếng nói cũng như trong biểu diễn sự biến đổi theo thời gian của tiếng nói do

nó phù hợp với đặc tính tự nhiên của tiếng nói.

30

Hình 2.4 Hàm sự kiện có tính “hình học chuẩn” và “hình học không chuẩn”

Tuy nhiên, việc xác định hàm sự kiện trong các phương pháp mã hóa khác

không đảm bảo tính chất “hình học chuẩn”, tức hàm sự kiện có thể có nhiều đỉnh,

làm giảm hiệu quả mã hóa tiếng nói do làm tăng lỗi lượng tử. Để khắc phục điều

đó, trong NMF, hàm sự kiện được xác định như sau trong công thức 2.19.

(2.19)

Với

(2.20)

31

Tinh chỉnh vector sự kiện

Vector sự kiện được ước lượng tương ứng với việc xác định hàm sự kiện dựa

vào trung bình phương tối thiểu theo các công thức 2.21.

(2.21)

Các phương pháp trước được cho rằng đã đảm bảo tính chất thứ tự với tham

số LSF tuy nhiên các nghiên cứu sau đó đã chỉ ra rằng tính chất thứ tự vẫn chưa

hoàn toàn được đảm bảo (ở đây ta so sánh cụ thể với phương pháp RTD). Vector

sự kiện ước lượng được có thể vi phạm tính chất thứ tự của tham số phổ đường

LSF vì tiêu chuẩn lỗi không quan tâm tới tính chất này. Với giá trị nhỏ nhất

của dLSF, vector sự kiện trong RTD được ước lượng từ hệ số thấp đến cao nhất, thay

thế và bằng và tương ứng bất cứ khi nào

. Xem xét sự tăng của lỗi E với gây ra bởi sự

thay đổi này đã xác định được như sau:

(2.22)

Ở đây, quá trình này chưa đảm bảo thứ tự của vì và không

có gì đảm bảo rằng và . Phương pháp NMF đã giải quyết được

điều này.

Đầu tiên, một quá trình thay đổi J thành phần tổng quát hơn :

tương tới

ứng được thiết lập. Xem xét rằng sự tăng lỗi E gây ra bởi sự thay đổi này là:

(2.23)

32

cần được xác định để giảm thiểu như sau Và

(2.24)

Với

(2.25)

Tiếp theo, một thuật toán để chuẩn hóa các vector sự kiện được phát triển.

Để đảm bảo rằng và a, 0 và . Do đó được thêm vào

(2.26)

Để đơn giản, 0 và và .Chú ý rằng và được gán là

không thể thay đổi trong quá trình chuẩn hóa. Toàn bộ thuật toán được trình bày

trong Hình 2.5 và được mô tả như sau:

Bước 1. Khởi tạo

Bước 2. Nếu gán . Lặp lại bước này cho đến khi

hoặc , nếu nhảy đến bước 6.

Bước 3. Nếu ,gán và vì không thể thay đổi, nếu không, gán

.

Bước 4. Thay đổi thành sử dụng công thức

. Nếu nhảy tới bước 6.

Bước 5. Nếu khôi phục và từ bước trước, đặt

quay trở lại bước 4. Nếu không, đặt . Nhảy tới bước 2 nếu .

33

Bước 6. Nếu được chuẩn hóa. Nếu không, khôi phục i và

giá trị tương ứng của vector từ bước trước, đặt và trở lại bước 4.

Ở bước 6, chú ý rằng nếu i là thành phần cuối cùng của một đoạn bị thay đổi,

i sẽ được đặt vào đầu của đoạn. Nếu ,vector sẽ được đặt bằng

. Tuy nhiên trong thực tế trường hợp này hiếm khi xảy

ra.

Trong kết quả, nếu các vị trí của các sự kiện khi

đã được biết và tương ứng với các vector sự kiện đã được khởi tạo với các mẫu của vector phổ

đường LSF , có thể tính toán chính xác hàm sự kiện, vector sự kiện. Ở đây

sử dụng thuật toán ước lượng cực tiểu cục bộ của tỷ lệ dịch phổ (SFTR) dựa vào

các tham số phổ đường LSF như các vị trí khởi tạo của các sự kiện.

(2.27)

Với

(2.28)

34

BEGIN

i = 0

-

i < P

i = i + 1

+

ai,k +  > ai+1,k

i = i + j

+

-

i = 0

i = 1; j

j =2

Change ai,k, . . ai+j- 1,k

-

i+j-1 <

+

Khôi phục vector ak j = j + 1

+

ai+j-1,k + > ai+j,k

-

+

+

Khôi phục i và vector ak j = P - i + 1

-

END

aP,k + > aP+1,k

Hình 2.5. Thuật toán chuẩn hóa vector sự kiện trong NMF

35

Kích cỡ cửa sổ, 2M, của phân tích SFTR là tham số duy nhất ảnh hưởng tới

số lượng và vị trí khởi tạo của các sự kiện. Ngoài ra, một sự kiện mới sẽ được

thêm vào khi lỗi tái tạo ban đầu có một cực đại cục bộ lớn hơn

một ngưỡng xác định như đã xem xét trong [1].

Hình 2.6. Hình vẽ các hàm sự kiện nhận được khi NMF phân tích một câu

chỉ số trên miền thời gian là số khung.

36

CHƯƠNG 3

ĐÁNH GIÁ THỰC NGHIỆM PHƯƠNG PHÁP MÃ HÓA TIẾNG

NÓI DÙNG KỸ THUẬT PHÂN RÃ MA TRẬN KHÔNG ÂM NMF

Các phương pháp mã hóa tiếng nói đều hướng tới mô hình độc lập ngôn ngữ,

tức là có thể áp dụng cho bất kỳ ngôn ngữ nào. Tuy nhiên nhiều nghiên cứu đã chỉ

ra hiệu quả của từng phương pháp là khác nhau khi áp dụng vào một ngôn ngữ

khác nhau [1, 2].

Luận văn này tập trung vào việc đánh giá các phương pháp mã hóa tiếng nói

dùng kỹ thuật phân rã tiếng nói theo thời gian, cụ thể là phương pháp phân rã tiếng

nói cải tiến NMF của tác giả N.P Chien [1, 2] và Xue [17, 18] đối với cơ sở dữ

liệu tiếng nói tiếng Việt. Qua đó, đánh giá mức độ phù hợp của phương pháp với

tiếng nói tiếng Việt.

3.1. Thu thập dữ liệu tiếng nói

3.1.1. Ngữ âm tiếng Việt

Tiếng Việt là ngôn ngữ chính thức tại Việt Nam. Nó được hơn 90 triệu người

Việt sử dụng hàng ngày. Khoảng hơn 3 triệu người Việt ở nước ngoài cũng thường

xuyên sử dụng tiếng Việt.

Tóm tắt về ngữ âm tiếng Việt được trình bày dưới đây được tham khảo từ

nghiên cứu của Đoàn Thiện Thuật [6] và Hoàng Phê [5].

3.1.1.1. Cấu trúc âm tiết tiếng Việt

Tiếng Việt là một ngôn ngữ đơn âm có thanh điệu điển hình [6]. Tổng số âm

tiết (syllable) có thể phát âm trong tiếng Việt là khoảng 19.000 tuy nhiên chỉ có

khoảng 7000 âm tiết được sử dụng và giảm xuống 1200 âm tiết nếu bỏ qua sự khác

biệt về thanh điệu (tone). Cấu trúc âm tiết tiếng Việt được mô tả trong Hình 3.1.

Mỗi âm tiết được xem là một tổ hợp của phần đầu (initial), phần vần (final) và

thanh điệu. Có 22 phần đầu, 155 phần vần và 6 thanh điệu trong tiếng Việt [5].

37

Phần đầu thông thường là phụ âm (consonant), nhưng cũng có thể bị khuyết

trong một số âm tiết. Phần vần có thể phân tách thành ba thành phần, bao gồm đầu

vần (onset), nhân âm tiết (nucleus), và đuôi vần (coda). Phần đầu vần và đuôi vần

có thể không tồn tại với một số âm tiết còn nhân âm tiết là thành phần chính của

mọi âm tiết. Nhân âm tiết có thể là một nguyên âm (vowel) hoặc một nguyên âm

đôi (diphthong). Đuôi vần có thể là một phụ âm hoặc một bán nguyên âm (semi-

vowel). Có tất cả một phần đầu vần, 16 nhân âm tiết, và 8 đuôi vần trong tiếng

Việt.

3.1.1.2. Thanh điệu tiếng Việt

Thanh điệu là một thành phần siêu phân đoạn (super-segmental) tồn tại duy

nhất trong các ngôn ngữ có thanh điệu. Có sáu thanh điệu phân biệt trong tiếng

Việt như trong Bảng 3.2 và Hình 3.1 (dấu ? ở thanh ngã chỉ ra rằng đường F0 của

thanh ngã không thống nhất giữa các mẫu ở vùng giữa). Mỗi thanh điệu có một

đường tần số cơ bản (F0) xác định.

Trong tiếng Việt, có hai loại âm tiết được phân biệt là âm đóng và âm mở.

Âm tiết đóng kết thúc với các đuôi vần /p/, /t/, /k/ chỉ có thể kết hợp với các thanh

sắc và nặng trong khi âm tiết mở và các âm tiết đóng khác có thể kết hợp với tất

cả sáu thanh điệu để cấu thành một âm tiết có thanh có nghĩa.

Hình 3.1. Đường F0 sáu thanh điệu tiếng Việt

Bảng 3.1. Cấu trúc âm tiết tiếng Việt

38

Thanh điệu

Phần vần

Phần đầu âm tiết

Đầu vần Nhân âm tiết Đuôi vần

Bảng 3.2. Sáu thanh điệu tiếng Việt

Số thứ tự thanh Tên tiếng Việt Tên tiếng Anh

1 Ngang Level

2 Huyền Falling

3 Ngã Broken

4 Hỏi Curve

5 Sắc Rising

6 Nặng Drop

3.1.2. Cơ sở dữ liệu tiếng nói tiếng Việt

Trong phần này, học viên giới thiệu một số bộ cơ sở dữ liệu tiếng nói tiếng

Việt trung bình và lớn phổ biến.

3.1.2.1 Cơ sở dữ liệu tiếng nói phát thanh VOV

Bộ cơ sở dữ liệu này được xây dựng tại Viện Công nghệ thông tin, Viện hàn

lâm, khoa học và công nghệ Việt Nam [4]. Bộ cơ sở dữ liệu gồm các câu chuyện,

báo cáo, bản tin,… được Đài tiếng nói Việt Nam VOV phát thanh và được sưu tập

từ 15 người nói giọng Hà Nội chuẩn. Âm thanh dạng RealAudio được sưu tập từ

website của VOV và được chuyển đổi về dạng âm thanh PCM WAV với tốc độ

bit 256 kbps, tần số lấy mẫu là 16 KHz.

39

Bộ cơ sở dữ liệu bao gồm 29062 câu với độ dài trung bình 10 âm tiết. Số

lượng các âm tiết phân biệt là 4379 trong khi số lượng các âm tiết phân biệt không

tính thanh điệu là 1646 bao phủ gần như toàn bộ các âm tiết tiếng Việt. Kích cỡ

bộ cơ sở dữ liệu khoảng 2.5 GB.

Bộ cơ sở dữ liệu được lựa chọn cân bằng giữa mỗi người nói và mỗi phiên

và được gán nhãn bằng tay chỉ ở mức âm tiết. Mặc dù đây là một bộ cơ sở dữ liệu

lớn, việc sử dụng bộ cơ sở dữ liệu này cho nghiên cứu là khá khó khăn do chưa có

nhãn gán ở mức âm vị.

3.1.2.2 Cơ sở dữ liệu DEMEN567

Bộ cơ sở dữ liệu này cũng được xây dựng tại Viện Công nghệ thông tin, Viện

hàn lâm, khoa học và công nghệ Việt Nam [4]. Kịch bản văn bản được trích ra từ

câu chuyện Dế mèn phiêu lưu ký nổi tiếng. Người nói là một nữ phát thanh viên

giọng Hà Nội chuẩn. Tiếng nói được ghi âm ở dạng PCM WAV, tần số lấy mẫu

là 11025 Hz, mã hóa 16 bit/mẫu. Cơ sở dữ liệu bao gồm 567 câu với độ dài mỗi

câu khoảng 15 âm tiết. Kích cỡ bộ cơ sở dữ liệu vào khoảng 70 MB và độ dài vào

khoảng gần 1 giờ nói.

Bộ cơ sở dữ liệu được gán nhãn bằng tay ở cả mức âm tiết và âm vị bao gồm

thông tin thanh điệu. Đây là bộ cơ sở dữ liệu kích cỡ trung bình với chất lượng cao

do việc thiết kế kịch bản văn bản đảm bảo độ cân bằng âm cao cũng như việc gán

nhãn ở mức âm vị là khá chính xác.

3.1.2.3 Cơ sở dữ liệu MICA VNSpeech

Đây là bộ cơ sở dữ liệu được xây dựng tại Trung tâm nghiên cứu quốc tế

MICA, Đại học Bách Khoa Hà Nội. Bộ cơ sở dữ liệu đươc nói bởi 50 người nói

bao gồm 25 nữ và 25 nam với độ tuổi từ 15 đến 45. Người nói hầu hết có trình độ

đại học với ba phương ngữ chính: miền Nam, miền Bắc, và miền Trung Việt Nam.

Mỗi người nói khoảng 60 phút. Tần số lấy mẫu là 16 KHz. Mức độ cân bằng về

ngữ âm và âm vị được đảm bảo khá tốt [15].

40

Mặc dù bộ cơ sở dữ liệu này được xem là một cơ sở dữ liệu tiếng nói lớn với

chất lượng thu âm cao, nhãn mô tả trong cơ sở dữ liệu được tạo ra bằng phương

pháp gán nhãn tự động có sai số lớn đã giới hạn khả năng sử dụng cơ sở dữ liệu

này trong các nghiên cứu về xử lý tiếng nói tiếng Việt.

3.1.3. Tổng hợp tiếng nói tiếng Việt

Chuyển đổi thông tin người nói có thể xem là một nhánh nghiên cứu về tổng

hợp tiếng nói. Do đó, trong phần này học viên điểm lại một số nghiên cứu về tổng

hợp tiếng nói tiếng Việt.

Tổng hợp tiếng nói tiếng Việt được bắt đầu nghiên cứu khoảng hai thập kỷ

trở lại đây. Hai bộ tổng hợp tiếng nói tiếng Việt có thế coi là sơ khai nhất là

VnSpeech sủ dụng công nghệ tổng hợp Formant và VnVoice sủ dụng kỹ thuật

ghép nối đơn vị âm. Chất lượng của các bộ tổng hợp này là chưa cao, học viên

cũng gần như không phát triển tiếp cho đến nay.

Một số bộ tổng hợp tiếng nói tiếng Việt đã được thương mai hóa như bộ tổng

hợp tiếng nói phương Nam (VOS), Sao Mai, Hoa Súng. Đây là những bộ tổng hợp

dựa trên kỹ thuật ghép nối ở mức âm tiết hay mức từ. Chúng có thể tổng hợp rất

tốt với giọng của người nói trong cơ sở dữ liệu.

Tuy nhiên các hệ thống này chưa tích hợp khả năng chuyển đổi giọng người

nói để có thể tổng hợp ra nhiều giọng khác nhau.

Gần đây các hệ thống tổng hợp tiếng nói dùng phương pháp thống kê HMM

cũng được nghiên cứu phát triển, tuy nhiên vấn đề chuyển đổi giọng người nói để

có thể tổng hợp ra nhiều giọng nói đầu ra khác nhau với nhiều cảm xúc nói khác

nhau cũng chưa được quan tâm nghiên cứu.

3.2. Cài đặt phương pháp mã hóa trên Matlab

Môi trường để cài đặt là MATLAB R2012. Các hàm phân tích, xử lý tiếng

nói được lấy từ thư viện của tác giả.

41

Thư viện hàm tính toán đánh giá khách quan PESQ được lấy từ thư viện của

tác giả Rix Antony.

Input: Các file âm thanh có đuôi *.wav.

Output: Dữ liệu âm thanh đã được nén nhưng chất lượng vẫn đảm bảo.

Hình 3.2. Thuật toán mã hóa và đánh giá chất lượng tiếng nói mã hóa bằng NMF

Thuật toán cài đặt hệ thống mã hóa tiếng nói dùng NMF của Chien [2], học

viên chỉ thực hiện mã hóa NMF của Chien [2] với tham số phổ LSF với tỷ lệ sự

kiện tương ứng với tỷ lệ nén. Nói cách khác tỷ lệ nén được cố định. Sau đó chất

42

lượng tiếng nói được tái tạo được so sánh với chất lượng tiếng nói nguồn. Đây

chưa phải hệ thống mã hóa hoàn thiện (bao gồm cả các khối mã hóa F0, AP), tuy

nhiên đủ để đánh giá chất lượng tiếng nói tái tạo khi mã hóa nén tham số phổ với

một tỷ lệ nén cho trước.

3.3. Đánh giá khách quan, chủ quan và so sánh các phương pháp

3.3.1.Đánh giá khách quan và chủ quan

Trong đánh giá chất lượng tiếng nói thì cả các phương pháp khách quan (máy

đánh giá theo công thức) và chủ quan (người nghe đánh giá) đều được sử dụng.

Mỗi phương pháp có những ưu nhược điểm riêng. Dưới đây sẽ xem xét cụ thể

từng tiêu chí của từng phương pháp.

Tiêu chí chủ quan:

Tiêu chí đánh giá chủ quan là tiêu chí sử dụng người nghe để đánh giá chất

lượng tiếng nói. Tiêu chí chủ quan được xem là quan trọng hơn do mục tiêu cuối

cùng của tiếng nói mã hóa vẫn phải là đảm bảo người nghe hiểu được, chấp nhận

được. Tuy nhiên để thực hiện các đánh giá chủ quan là tốn kém, mất thời gian, cần

thiết bị nghe và phòng nghe chuyên dụng để tránh nhiễu môi trường. Ngoài ra, các

phương pháp chủ quan khó đảm bảo sự tin cậy hoàn toàn do người nghe có thể

mất tập trung, không chú tâm vào việc đánh giá hoặc thậm chí cố tình cho điểm

sai. Các điểm yếu của các phương pháp chủ quan có thể khắc phục bằng cách tăng

số lượng người nghe, số lượng phép test để đảm bảo các giá trị thống kê có sự ổn

định và tin cậy.

Trong luận văn này học viên sử dụng phương pháp của Scheffe [17]. Trong

đó 5 sinh viên có khả năng nghe bình thường được lựa chọn để thực hiện các đánh

giá nghe chủ quan mỗi loại tiếng nói (có nén, không nén) 20 mẫu. Mỗi người được

hỏi để phân loại chất lượng tiếng nói nghe được theo thang từ -2 đến 2 khi so sánh

hai mẫu tiếng nói nguồn và mã hóa trong một cặp.

Tiêu chí khách quan:

43

Nhằm khắc phục các yếu điểm của tiêu chí đánh giá chủ quan, nhiều phương

pháp đánh giá khách quan đã được xây dựng. Các phương pháp đánh giá khách

quan truyền thông theo cách tiếp cận so sánh trực tiếp hai tín hiệu nguồn và mã

hóa để tính toán sai số khác biệt đã chứng tỏ không hiệu quả do khả năng nghe

của con người không tỷ lệ tuyến tính với sai số. Nói cách khác hai tín hiệu có sai

khác lớn có thể người nghe sẽ thấy giống hơn hai tín hiệu có sai khác nhỏ (nhưng

các điểm khác là các điểm quan trọng với tai người). Các phương pháp đánh giá

khách quan hiện đại nhất được sử dụng là các phương pháp mô hình hóa khả năng

nghe của con người để “chủ quan hóa” các tham số khách quan, từ đó đưa ra các

phương pháp tính toán khách quan phù hợp nhất với khả năng nghe của con người.

Trong số các phương pháp đánh giá chất lượng tiếng nói khách quan thì

phương pháp PESQ [18] được sử dụng phổ biến nhất và cũng được sử dụng trong

luận văn này. Đây là một tiêu chí khách quan mô phỏng tiêu chí chủ quan mô tả

trong Hình 3.3 bằng cách xây dựng một mô hình nghe nhân tạo tích hợp các phân

tích về khả năng cảm thụ âm của con người. Trong đó chất lượng tiếng nói được

đánh giá theo thang 5 điểm như trong Bảng 3.3, với tiếng nói chuẩn được quy

chiếu ở thang điểm cao nhất 5 điểm.

Hình 3.3. Mô hình hóa người nghe trong PESQ

44

Bảng 3.3. Thang điểm PESQ

Chất lượng tiếng nói Điểm

Rất tốt 5

Tốt 4

Trung bình 3

Kém 2

Rất kém 1

3.3.2. So sánh với các phương pháp khác.

Sau khi thực nghiệm phương pháp mã hóa tiếng nói NMF của Chien [2], học

viên thử nghiệm phương pháp trên cơ sở dữ liệu tiếng nói tiếng Việt DEMEN567.

Tỷ lệ nén được sử dụng làm căn cứ để chọn tỷ lệ sự kiện tiếng nói, trên từng

tỷ lệ nén đầu vào, học viên sẽ so sánh tiếng nói được mã hóa nén và tiếng nói gốc

để tính toán các tiêu chí đánh giá khách quan như PESQ cũng như đánh giá chủ

quan.

Kết quả đánh giá chủ quan bằng phương pháp của Scheffe trung bình với 20

mẫu mỗi loại tiếng nói trích từ cơ sở dữ liệu DEMEN567 (có nén với tỷ lệ nén là

20, không nén) được cho Hình 3.4 và Hình 3.5. Kết quả đánh giá khách quan bằng

phương pháp PESQ với 50 mẫu tiếng nói trích từ DEMEN567 cho thấy PESQ với

tiếng nói không nén trung bình là 4.5/5 còn tiếng nói có nén là 2.6/5 như trên Hình

3.6.

45

Tiếng nói mã hóa bằng NMF (nén) với tỉ lệ nén là 20

Tiếng nói mã hóa bằng STRAIGHT (không nén)

-2

-1

0

1

2

Chất lượng thấp

Chất lượng cao

Hình 3.4. Kết quả đánh giá chủ quan bằng phương pháp của Scheffe với tỷ

Tiếng nói mã hóa bằng NMF (nén) với tỷ lệ nén 30

Tiếng nói mã hóa bằng STRAIGHT (không nén)

-2

-1

0

1

2

Chất lượng thấp

Chất lượng cao

lệ nén đầu vào là 20

Hình 3.5. Kết quả đánh giá chủ quan bằng phương pháp của Scheffe với tỷ

lệ nén đầu vào là 30

Hình 3.6. Hình ảnh dạng sóng tiếng nói nén, không nén với tỷ lệ nén là 50.

46

3.4. Phân tích, đánh giá ưu nhược điểm

Với các phương pháp nén truyền thống như nén MP3, tỷ lệ nén trung bình

khoảng 1/11 cho đầu ra âm thanh CD có tốc độ bit là 128 Kbps. Trong luận văn

này, khi học viên thử nghiệm ở tỷ lệ nén ở mức rất cao (20-30 lần) để cho ra tiếng

nói có tốc độ bit rất thấp thì chất lượng tiếng nói có nén vẫn chấp nhận được với

cả đánh giá chủ quan và khách quan. Hình 3.4 và Hình 3.5 cho thấy khi thay đổi

tỷ lệ nén từ 20 đến 30 thì chất lượng tiếng nói suy giảm không nhiều và vẫn ở mức

chấp nhận được, đủ để nghe hiểu. Các kết quả trên cho thấy phương pháp mã hóa

nén tiếng nói NMF là một phương pháp tốt trên tiếng Việt. Cùng với các kết quả

đánh giá hiệu quả NMF trên tiếng Anh, tiếng Nhật [1, 2] thì kết quả nghiên cứu

này cho thấy NMF là một phương pháp mã hóa nén hiệu quả với nhiều ngôn ngữ,

có nhiều tiềm năng ứng dụng.

Ưu điểm

 NMF chuyển một matrix X thành phép nhân 2 maxtrix cấp thấp hơn với

độ xấp xỉ và sai số nhỏ. Mục đích để giảm cho việc lưu trữ và việc tính toán nhưng

vẫn đảm bảo được các đặc điểm của dữ liệu (các đặc tính của mô hình).

 Một thuật toán mới dựa trên NMF-WI được trình bày có thể hoạt động ở

tốc độ bit rất thấp với tốc độ 1kb / s. Trong bộ mã hóa này, các tham số của hai

khung liên tiếp được nhóm thành một siêu khung và được lượng tử hóa cùng nhau.

Để giảm sự dư thừa hơn nữa, một số kỹ thuật được sử dụng, tức là dự đoán giữa

các khung đã được giới thiệu cho LSF và DCT được áp dụng để giảm kích thước

khi ma trận mã hóa và mã hóa H được lượng tử hóa.

Nhược điểm

 Hiện tại không có nhiều kết quả lý thuyết về NMF hoàn chỉnh từ quan

điểm phân rã ma trận, chẳng hạn như độ phức tạp tính toán.

 Hiện tại vẫn cần được nghiên cứu và xem xét để lựa chọn và đánh giá các

hàm mục tiêu khác nhau để hình thành các phương pháp NMF.

47

 Để có thể sử dụng thực tế NMF trên tập dữ liệu quy mô lớn, các thuật toán

NMF cải tiến về độ phức tạp tính toán thì cần được nghiên cứu thêm.

KẾT LUẬN

Trong luận văn này học viên đã nghiên cứu về phương pháp mã hóa tiếng nói

tốc độ bit thấp thời gian thực dùng kỹ thuật NMF nói chung, phương pháp NMF

của Xue và NMF của N.P.Chien nói riêng. Học viên đã phân tích lý thuyết, cài đặt

thực nghiệm và đánh giá hiệu quả của phương pháp mã hóa tiếng nói dùng kỹ

thuật NMF. Tuy nhiên thuật toán NMF có độ phức tạp tính toán cao, không phù

hợp với việc mã hóa tiếng nói thời gian thực

Kỹ thuật phân rã tiếng nói theo thời gian NMF của Chien [2] là một kỹ thuật

phân tích tiếng nói được đề xuất bởi Chien [2] năm 2007. Một số nhà nghiên cứu

đã cải tiến thuật toán NMF của Chien [2] theo hướng giảm độ phức tạp tính toán,

48

ứng dụng trong mã hóa tiếng nói tốc độ bit thấp thời gian thực. Các kết quả nghiên

cứu cho thấy NMF của N.P.Chien[2] rất thích hợp để phân tích mô hình hóa tiếng

nói cũng như mã hóa nén tiếng nói với tiếng nói tiếng Việt, từ đó trên cho thấy

phương pháp mã hóa nén tiếng nói NMF là một phương pháp tốt trên tiếng Việt.

Cùng với các kết quả đánh giá hiệu quả NMF trên tiếng Anh, tiếng Nhật thì kết

quả nghiên cứu này cho thấy NMF là một phương pháp mã hóa nén hiệu quả với

nhiều ngôn ngữ, có nhiều tiềm năng ứng dụng.

Hướng nghiên cứu này vẫn được tiếp tục phát triển trong những năm gần đây

và theo hướng:

 Tối ưu thuật toán thông qua tinh chỉnh tham số rate.

 Tối ưu mã nguồn và giao diện của chương trình thử nghiệm.

TÀI LIỆU THAM KHẢO

[1]. Nguyen, Phu Chien, Ochi Takao, and Masato Akagi. "Modified restricted

temporal decomposition and its application to low rate speech coding." IEICE

TRANSACTIONS on Information and Systems 86.3 (2003): 397-405.

[2]. Nguyen, Phu Chien, Masato Akagi, and Binh Phu Nguyen. "Limited error

based event localizing temporal decomposition and its application to variable-

rate speech coding." Speech communication 49.4 (2007): 292-304.

[3]. Phung, Trung-Nghia, et al. "Improving naturalness of HMM-based TTS

trained with limited data by temporal decomposition." IEICE

TRANSACTIONS on Information and Systems 96.11 (2013): 2417-2426.

49

[4]. L.C. Mai and D.N. Duc, “Design of Vietnamese speech corpus and current

status," Proc. ISCSLP-06, pp. 748-758 (2006).

[5]. Hoàng Phê, Chính tả Tiếng Việt, NXB Đà Nẵng, trang. 9-15, 2003.

[6]. Đoàn Thiện Thuật, Ngữ âm tiếng Việt, NXB Đại học Quốc Gia, 2003.

[7]. Atal, Bishnu S., and Manfred R. Schroeder. "Adaptive predictive coding of

speech signals." Bell System Technical Journal, The 49.8 (1970): 1973-1986.

[8]. Atal, Bishnu S., and J. Remde. "A new model of LPC excitation for producing

natural-sounding speech at low bit rates." Acoustics, Speech, and Signal

Processing, IEEE International Conference on ICASSP'82. Vol.7. IEEE,

1982.

[9]. Atal, Bishnu S. "Efficient coding of LPC parameters by temporal

decomposition." Acoustics, Speech, and Signal Processing, IEEE

International Conference on ICASSP'83.. Vol. 8. IEEE, 1983.

[10]. GUO, Li-li, and Chang-chun BAO. "2kb/s Bayesian Ying-Yang Waveform

Interpolative Speech Coding Based on Non-Negative Matrix Factorization

[J]." Acta Electronica Sinica 5 (2009).

[11]. Hiroya, Sadao. "Non-Negative Temporal Decomposition of Speech

Parameters by Multiplicative Update Rules", IEEE Transactions on Audio,

Speech, and Language Processing, 21.10 (2013): 2108-2117.

[12]. Kleijn, W. Bastiaan, and Kuldip K. Paliwal. Speech coding and synthesis.

Elsevier Science Inc., 1995.

[13]. Kim, Sung-Joo, and Yung-Hwan Oh. "Efficient quantization method for LSF

parameters based on restricted temporal decomposition." Electronics

Letters35.12 (1999): 962-964.

[14]. Kawahara, Hideki. "STRAIGHT, exploitation of the other aspect of

VOCODER: Perceptually isomorphic decomposition of speech sounds.

" Acoustical science and technology 27.6 (2006): 349-353.

50

[15]. H. Scheffe, “An analysis of variance for paired comparisons,” Journal of the

AmericanStatistical Association, vol. 47, pp. 381-400, 1952.

[16]. Rix, Antony W., et al. "Perceptual evaluation of speech quality (PESQ)-a

new method for speech quality assessment of telephone networks and

codecs."Acoustics, Speech, and Signal Processing, 2001.

Proceedings.(ICASSP'01). 2001 IEEE International Conference on. Vol. 2.

IEEE, 2001.

[17]. Xue, Er-juan, and Chang-chun Bao. "1kb/s waveform interpolation speech

coding based on non-negative matrix factorization." 2008 9th International

Conference on Signal Processing. IEEE, 2008.

[18]. XUE, Er-juan, Chang-chun BAO, and Ru-wei LI. "1 kb/s waveform

interpolative speech coding based on two-dimensional nonnegative matrix

factorization." Acta Electronica Sinica 38 (2010): 1574-1579.