Nghiên cứu khoa học công nghệ<br />
<br />
KẾT HỢP MÔ HÌNH THỪA SỐ HÓA MA TRẬN KHÔNG ÂM<br />
VỚI CÁC NHÓM RÀNG BUỘC THƯA ĐỂ KHAI THÁC<br />
MÔ HÌNH PHỔ TỔNG QUÁT TRONG BÀI TOÁN<br />
TÁCH NGUỒN ÂM THANH ĐƠN KÊNH<br />
Dương Thị Hiền Thanh1,2, Nguyễn Công Phương1,3, Nguyễn Quốc Cường3*<br />
Tóm tắt: Bài báo tập trung giải quyết bài toán phân tách những âm thanh mong<br />
muốn từ tín hiệu thu âm đơn kênh gồm nhiều âm thanh khác nhau bị trộn lẫn trong<br />
điều kiện không có dữ liệu huấn luyện cho các âm thanh cần phân tách. Đây là vấn đề<br />
còn nhiều khó khăn thách thức trong lĩnh vực tách nguồn âm thanh (audio/acoustic<br />
source separation). Tiếp cận theo hướng sử dụng mô hình thừa số hóa ma trận không<br />
âm (Nonnegative Matrix Factorization - NMF) để xử lý thông tin phổ của tín hiệu, bài<br />
báo đề xuất giải pháp xây dựng và khai thác mô hình phổ tổng quát cho các tín hiệu<br />
nguồn cần tách. Đặc biệt, chúng tôi đề xuất kết hợp mô hình NMF với các nhóm ràng<br />
buộc thưa (group sparsity constraint) để hướng dẫn quá trình phân tách. Thí nghiệm<br />
được thực hiện cho hai trường hợp: phân tách tiếng nói và âm thanh nhiễu môi trường<br />
từ tín hiệu tiếng nói chứa nhiễu, phân tách giọng hát và âm thanh các loại nhạc cụ<br />
trong bài hát đã cho thấy hiệu quả của thuật toán đề xuất.<br />
Từ khóa: Tách nguồn âm thanh, NMF, Ràng buộc thưa, Mô hình phổ tổng quát.<br />
<br />
1. MỞ ĐẦU<br />
Trong lĩnh vực xử lý tín hiệu, tách nguồn âm thanh là nhiệm vụ khôi phục<br />
những âm thanh mong muốn từ tín hiệu thu âm gồm nhiều âm thanh khác nhau bị<br />
trộn lẫn [1, 2]. Một ví dụ điển hình về tách nguồn âm thanh là trong “bữa tiệc<br />
cocktail”, nơi có nhiều người cùng nói chuyện, tiếng nhạc, các âm thanh khác và<br />
người nghe đang cố gắng theo dõi một trong các cuộc thảo luận. Trong tình huống<br />
đó, bộ não của con người cùng với khả năng thính giác bình thường có thể dễ dàng<br />
định vị và phân tách âm thanh mong muốn để nghe, hiểu và xử lý thông tin. Nhưng<br />
đối với học máy (machine learning) và xử lý tín hiệu số thì đó là một vấn đề vô<br />
cùng khó khăn. Các đánh giá khoa học uy tín những năm gần đây [2–5] cũng cho<br />
thấy các kỹ thuật tách nguồn âm thanh được tập trung nghiên cứu trên thế giới và<br />
có vai trò quan trọng trong nhiều ứng dụng thực tế như: phân tích và xử lí âm<br />
thanh trong an ninh quốc phòng, chăm sóc y tế, thiết bị hỗ trợ người khiếm thính;<br />
hỗ trợ giao tiếp qua mạng viễn thông (telephone, mobile phone), internet và hội<br />
nghị truyền hình (video/audio conferencing); hỗ trợ hệ thống nhận dạng tiếng nói<br />
tự động (Automatic Speech Recognition - ASR),...<br />
Có nhiều lớp thuật toán tách nguồn âm thanh đã được nghiên cứu, hầu hết các<br />
phương pháp đều biến đổi tín hiệu âm thanh từ miền thời gian (time domain) sang<br />
miền thời gian-tần số (time-frequency domain) qua phép biến đổi Fourier (Short<br />
Time Fourier Transform - STFT). Sau đó, các thông tin về phổ (spatial cues)<br />
và/hoặc các thông tin về không gian (spatial cues) được sử dụng cho quá trình xử lí<br />
và phân tách. Tín hiệu sau khi phân tách được biến đổi ngược lại miền thời gian<br />
qua phép biến đổi Fourier ngược (Inverse Short Time Fourier Transform - ISTFT).<br />
Đối với bài toán phân tách tín hiệu đơn kênh, không thể khai thác được các thông<br />
tin về không gian trong quá trình xử lý, một số nghiên cứu công bố gần đây đã phát<br />
triển các giải thuật học có giám sát (supervised) hay giải thuật học sâu (deep<br />
<br />
<br />
Tạp chí Nghiên cứu KH&CN quân sự, Số 54, 04 - 2018 83<br />
Kỹ thuật điều khiển & Điện tử<br />
<br />
learning) [6, 7], sử dụng dữ liệu huấn luyện để học các đặc tính phổ của tín hiệu,<br />
sau đó dùng kết quả của bước học để hướng dẫn phân tách tín hiệu mong muốn.<br />
Trong trường hợp không có dữ liệu huấn luyện hoặc dữ liệu huấn luyện không đầy<br />
đủ, các công bố gần đây của Sun và Mysore [6] hay nhóm của El Badawy [8, 9] đã<br />
đề xuất giải pháp xây dựng mô hình phổ tổng quát cho tín hiệu nguồn cần tách, sau<br />
đó sử dụng mô hình thừa số hóa ma trận không âm (Nonnegative Matrix<br />
Factorization – NMF) [10] kết hợp với nhóm ràng buộc thưa để ước lượng các tín<br />
hiệu cần phân tách.<br />
Phát triển từ các kết quả nghiên cứu chúng tôi đã công bố gần đây [11, 12],<br />
trong bài báo này chúng tôi đề xuất thuật toán tách nguồn âm thanh đơn kênh trong<br />
điều kiện không có dữ liệu huấn luyện. Trong đó, chúng tôi thu thập và sử dụng<br />
một số mẫu âm thanh cùng loại với dữ liệu cần phân tách để huấn luyện mô hình<br />
phổ tổng quát cho tín hiệu, đồng thời sử dụng kết hợp mô hình NMF với hai loại<br />
ràng buộc thưa trong qúa trình phân tách. Chúng tôi thực hiện hai thí nghiệm là hai<br />
trường hợp khá điển hình trong các ứng dụng thực tế để đánh giá hiệu quả của<br />
thuật toán đề xuất, đồng thời khảo sát sự hội tụ của thuật toán và sự ảnh hưởng của<br />
từng loại ràng buộc thưa đối với chất lượng của tín hiệu tách. Với ý tưởng đó,<br />
chúng tôi trình bày thuật toán tách nguồn âm thanh sử dụng mô hình NMF cơ bản<br />
đã được công bố trong phần 2. Sau đó, mô tả thuật toán tách nguồn âm thanh đề<br />
xuất ở phần 3. Phần 4 trình bầy thí nghiệm và các kết quả đánh giá, so sánh, cuối<br />
cùng là phần kết luận.<br />
2. THUẬT TOÁN TÁCH NGUỒN ÂM THANH ĐƠN KÊNH<br />
SỬ DỤNG MÔ HÌNH NMF<br />
Mục tiêu của bài toán là phân tách các tín hiệu âm thanh thành phần từ tín hiệu<br />
thu âm đơn kênh bị trộn lẫn bởi nhiều âm thanh khác nhau (gọi là “tín hiệu trộn”).<br />
Gọi ∈ ℂ × và ∈ ℂ × ( = 1, 2 … , ) lần lượt là các ma trận phức biểu<br />
diễn tín hiệu trộn và các tín hiệu thành phần sau phép biến đổi STFT. là số bin<br />
tần số (frequency bins), là số khung thời gian (time frames), là số tín hiệu<br />
thành phần có trong tín hiệu trộn. Tín hiệu trộn là sự kết hợp của các âm thanh<br />
thành phần theo công thức (1).<br />
<br />
= , (1)<br />
<br />
Gọi = | |. là ma trận phổ của tín hiệu trộn, với | |. là ma trận có các phần<br />
tử là [ ] , mô hình NMF sẽ phân tách ma trận không âm ∈ ℝ × thành hai ma<br />
trận không âm và theo công thức:<br />
≈ ∗ , (2)<br />
Trong đó: ∗ là phép nhân ma trận thông thường, ∈ ℝ × là ma trận đặc trưng<br />
phổ (spectral basis matrix) có các véc tơ cột là các đặc trưng phổ xuất hiện thường<br />
xuyên trong , ∈ ℝ × là ma trận kích hoạt (activation matrix) có các véc tơ<br />
hàng là thời gian xuất hiện các mẫu phổ trong , là số đặc trưng được tổng hợp.<br />
Trong các ứng dụng, thường được chọn sao cho đủ nhỏ và đảm bảo có thể trích<br />
chọn được những đặc trưng phổ hữu ích từ [13].<br />
<br />
<br />
84 D. T. H. Thanh, N. C. Phương, N. Q. Cường, “Kết hợp mô hình thừa số hóa … đơn kênh.”<br />
Nghiên cứu khoa học công nghệ<br />
<br />
Để ước lượng các ma trận thành phần, và được khởi tạo với các giá trị<br />
không âm ngẫu nhiên và được cập nhật trong quá trình lặp sao cho hàm giá (3) thể<br />
hiện sự sai khác giữa và ∗ giảm dần đến điểm hội tụ. Trong từng bước lặp,<br />
và được cập nhật theo quy tắc cập nhật MU-rules [14] được mô tả trong công<br />
thức (4) và (5):<br />
( ‖ ∗ )=∑ ∑ ∗ , (3)<br />
.( )<br />
(( ∗ ) ⨀ )<br />
← ⨀ , (4)<br />
( ∗ ) ) .(<br />
<br />
( ∗ ).( ) ⨀<br />
← ⨀ , (5)<br />
( ∗ ).( )<br />
Trong đó, và lần lượt là chỉ số tần số và chỉ số khung thời gian,<br />
( ‖ )= − − 1 là độ đo Itakura-Saito-divergence được sử dụng phổ<br />
biến với dữ liệu âm thanh [14], ký hiệu là ma trận chuyển vị của ma trận ,<br />
.( )<br />
là lũy thừa n lần từng phẩn tử của , ⊙ là phép toán nhân từng phần tử của<br />
hai ma trận (element-wise Hadamard), phép chia trong công thức (4) và (5) cũng là<br />
phép chia theo từng phần tử của ma trận.<br />
Gọi , ,… lần lượt là ma trận đặc trưng phổ của các tín hiệu thành<br />
phần , , …, . Chúng được ước lượng từ tập dữ liệu huấn luyện ở bước học,<br />
sau đó ghép lại thành ma trận đặc trưng phổ theo công thức (6).<br />
=[ , ,…, ]. (6)<br />
Ở bước tách nguồn, NMF cố định ma trận và ước lượng bằng công thức<br />
cập nhật (5), gồm các thành phần , ,… là ma trận kích hoạt tương<br />
ứng của từng tín hiệu thành phần như công thức (7).<br />
=[ , ,…, ] . (7)<br />
Sau khi ước lượng ma trận , các tín hiệu thành phần được xác định bởi công<br />
thức Wiener filtering (8) và được biến đổi về miền thời gian qua phép biến đổi<br />
Fourier ngược.<br />
∗<br />
= ⨀ , = 1, . . , . (8)<br />
∗<br />
Thuật toán tách nguồn âm thanh áp dụng mô hình NMF cơ bản nêu trên cho kết<br />
quả tương đối tốt khi có dữ liệu huấn luyện chính xác cho các tín hiệu cần tách.<br />
Tuy nhiên, khi không có dữ liệu huấn luyện thì chất lượng của các tín hiệu tách<br />
được là khá thấp.<br />
3. THUẬT TOÁN ĐỀ XUẤT<br />
Trong tình huống không có dữ liệu huấn luyện mà bài báo đề cập tới, chúng tôi<br />
nhận định rằng sẽ dễ dàng thu thập được một số file âm thanh có ít nhiều đặc tính<br />
phổ giống tín hiệu nguồn cần phân tách. Ví dụ, để tách tiếng nói và âm thanh nhiễu<br />
môi trường từ tín hiệu thu âm, chúng tôi tìm kiếm và sử dụng một số file tiếng nói<br />
(gồm cả giọng nam và giọng nữ) và một số file âm thanh nhiễu môi trường như:<br />
tiếng ồn đường phố, tiếng gió, tiếng nước chảy,… để làm tập mẫu huấn luyện. Từ<br />
đó, chúng tôi đề xuất thuật toán tách nguồn âm gồm hai pha huấn luyện và tách<br />
nguồn được mô tả trong hình 1. Cụ thể hơn, phần 3.1 sẽ mô tả cách xây dựng mô<br />
hình phổ tổng quát (Generic Spectral Source Model - GSSM) cho các tín hiệu cần<br />
<br />
<br />
Tạp chí Nghiên cứu KH&CN quân sự, Số 54, 04 - 2018 85<br />
K<br />
Kỹỹ thuật điều khiển & Điện tử<br />
<br />
tách trong pha huhuấn<br />
ấn luyện<br />
luyện.. Phần<br />
Phần 3.<br />
3.2 đđềề xuất công thức kết hợp hai loại<br />
lo ại ràng bu<br />
buộc<br />
ộc<br />
thưa đđểể ước<br />
ớc lượng<br />
l ợng các đặc trtrưng<br />
ưng ph<br />
phổ<br />
ổ của tín hiệu dựa trtrên<br />
ên mô hình GSSM trong<br />
pha tách ngu<br />
nguồn<br />
ồn..<br />
<br />
<br />
<br />
<br />
Hình 1.. Sơ đồ<br />
đồ thu<br />
thuật<br />
ật toán tách<br />
tách nguồn<br />
ngu n âm đđề xuấ<br />
xuất.<br />
3.1. Xây d<br />
dựng<br />
ng mô hình ph phổ tổng<br />
t ng quát cho các ngu<br />
nguồnn cầ<br />
cần n tách<br />
G<br />
Gọii là số<br />
số mẫẫuu hu<br />
huấấn<br />
n luy<br />
luyện<br />
n thu th<br />
thậpp được<br />
đư c cho tín hiệ<br />
hiệuu nguồn<br />
ngu n , ma trậ<br />
trậnn đđặcc<br />
trưng phổ<br />
ph củủaa ttừng<br />
ng m<br />
mẫuu được<br />
đư c ước<br />
ư c lư<br />
lượng<br />
ng bằng<br />
b ng cách tố<br />
tốii ưu hóa hàm theo công<br />
( ) ( ) . ( ) ( )<br />
thức<br />
th ức ((9),<br />
), với<br />
với = là ma trậ<br />
trậnn ph<br />
phổ<br />
ổ, và lầần<br />
n lượ<br />
lượtt là ma trậ<br />
trậnn đđặcc<br />
trưng phổ<br />
ph và ma trậ<br />
trận<br />
n kích ho<br />
hoạạt củ<br />
ủaa m thứ , 1 ≤ ≤<br />
mẫẫuu th .<br />
( ) ( ) ( )<br />
( )<br />
min( ) ∗ , (9))<br />
,<br />
Sau đó, m<br />
maa tr<br />
trậnn ph<br />
phổ tổng<br />
ng quát củủaa tín hiệu<br />
hi u đư<br />
đượợc xác định<br />
đ nh từ các ma tr<br />
trận<br />
n<br />
thành phần<br />
ph n theo công th thứ<br />
ứcc (10<br />
(10).<br />
( ) ( )<br />
= , …, , = 1.. . . (1<br />
(10))<br />
Mô hình phhổ ttổng ng quát cho các tín hi hiệệu nguồn<br />
ngu n cầ<br />
cầnn tách đượ<br />
được ghép ttừ các<br />
thành phần<br />
ph n , =1 1. . theo công th thứcc (11).<br />
(1 ). Ở pha tách nguồn<br />
ngu n, thuậ<br />
thu ậtt toán ssẽẽ cố<br />
ố<br />
địịnh<br />
nh và cập p nh<br />
nhậtt ma tr n kích ho<br />
trận hoạtt trong ttừngừng bước<br />
b ớc lặp theo công th ức (5) để<br />
thức<br />
cực<br />
ực tiểu hhóaóa hàm giá (3). Ma trận tr n cũng ũng gồ ồmm thành ph phần<br />
n là các ma tr trận<br />
n<br />
kích ho<br />
hoạạtt của<br />
c a tín hi<br />
hiệuu theo công th<br />
thứứcc (1<br />
(12<br />
2).<br />
= [ ,…, ], (1<br />
(11))<br />
= [ ,…, ] . (1<br />
(12))<br />
3.22. K<br />
Kết<br />
ết hợp hai lo loạii ràng buộc<br />
bu c thưa và mô hình NMF trong bước bư c tách ngunguồồn<br />
Mô hình ph phổổ tổổng<br />
ng quát sẽẽ có kích th thưước<br />
ớc lớn khi số mẫu huấn<br />
ấn luyện tăng. Vì<br />
các<br />
ác đđặc<br />
ặc trưng<br />
trưng phphổổ trong mô hình GSSM được được trích chọn từ nhiều mẫu huấn luyện<br />
khác nhau nên các đđặc ặc tr ưng của<br />
trưng của tín hiệu ccầnần tách thường<br />
thường chỉ chiếm<br />
c ếm một ột phần nh nhỏ<br />
ỏ<br />
<br />
<br />
86 D. T. H. Thanh, N. C. Phương, N. Q. Cư<br />
Cường<br />
ờng,, “Kết<br />
“Kết hợp mô hình th<br />
thừa<br />
ừa số hóa … đđơn kênh.””<br />
ơn kênh.<br />
Nghiên cứu khoa học công nghệ<br />
<br />
trong GSSM. Hơn nữa, các đặc trưng quan trọng đó lại có thể nằm rải rác trong các<br />
mẫu khác nhau chứ không tập trung ở một vài mẫu cụ thể [13, 15]. Để tìm ra<br />
những tập con của chứa đặc trưng phổ của tín hiệu cần tách, một số nghiên cứu<br />
trước đây đã đề xuất kết hợp nhóm ràng buộc thưa (sparsity constraint) trong quá<br />
trình ước lượng ma trận với hàm giá như sau:<br />
min ∗ + λΩ( ). (13)<br />
Ω( ) thể hiện sự ảnh hưởng của ràng buộc thưa, được gọi là hàm penalty [11]<br />
với là một hằng số dương xác định mức độ ảnh hưởng. Có hai hàm penalty đã<br />
được công bố là block sparsity [6] và component sparsity [8, 9] lần lượt theo công<br />
thức (14) và (15) với là hằng số dương đủ nhỏ.<br />
<br />
Ω = log ( + ( ) ), (14)<br />
<br />
<br />
Ω = log ( + ‖ ‖ ). (15)<br />
<br />
Trong đó, ( ) là ma trận kích hoạt của block thứ , mỗi block tương ứng với<br />
một mẫu huấn luyện và = ∑ là tổng số mẫu huấn luyện được dùng, ‖. ‖<br />
là l1-norm của ma trận hay véc tơ tương ứng. Hàm Ω sẽ kích hoạt những block<br />
trong ma trận chứa đặc trưng phổ tương tự với tín hiệu nguồn cần tách, các block<br />
còn lại sẽ hội tụ về giá trị 0 [6]. Hàm Ω với là véc tơ thứ của ma trận sẽ<br />
kích hoạt những véc tơ trong chứa đặc trưng phổ giống đặc trưng phổ của tín<br />
hiệu nguồn cần tách [8].<br />
Nhận thấy block sparsity tác động lên từng “block” của GSSM, tức là sẽ loại<br />
bỏ hoặc giữ lại toàn bộ các đặc trưng phổ của một mẫu huấn luyện nào đó. Như<br />
vậy, ràng buộc thưa này sẽ có thể bỏ qua những mẫu có ít đặc tính tương đồng với<br />
tín hiệu cần tách, hoặc cũng có thể giữ lại toàn bộ mẫu đó tùy theo độ lớn nhỏ của<br />
tham số λ trong công thức (13). Trong khi đó, component sparsity lại xem xét từng<br />
véc tơ trong mô hình GSSM nên có ưu thế hơn block sparsity trong việc trích chọn<br />
được những đặc trưng giá trị từ những mẫu ít tương đồng với nguồn cần tách. Tuy<br />
nhiên, điều đó cũng làm cho việc loại bỏ các thành phần không tương đồng với đặc<br />
trưng của nguồn cần tách diễn ra khá chậm, dẫn đến tốc độ hội tụ của thuật toán<br />
chậm khi có kích thước lớn. Từ những phân tích trên, chúng tôi đã đề xuất sử<br />
dụng kết hợp hai loại ràng buộc thưa để có thể loại bỏ nhanh những block không<br />
giá trị, đồng thời vẫn đảm bảo giữ lại được những đặc trưng quan trọng trong mô<br />
hình GSSM theo công thức sau [11, 12]:<br />
Ω = ∑ log ( + ( ) ) + (1 − ) ∑ log ( +<br />
(16)<br />
1),<br />
Với là trọng số thể hiện sự đóng góp của mỗi loại ràng buộc thưa (0 ≤ ≤<br />
1). Công thức (16) chính là sự tổng quát hóa của (14) và (15): (16) sẽ hoạt động<br />
như một block sparsity khi = 1 và là component sparsity khi = 0. Với<br />
0 < < 1, trong quá trình cập nhật, một số block sẽ hội tụ về 0 do ảnh hưởng của<br />
thành phần block sparsity, với những block còn lại, một số véc tơ cũng hội tụ về 0<br />
do ảnh hưởng của thành phần component sparsity. Như vậy, sau quá trình cập nhật,<br />
<br />
<br />
Tạp chí Nghiên cứu KH&CN quân sự, Số 54, 04 - 2018 87<br />
Kỹ thuật điều khiển & Điện tử<br />
<br />
những thành phần khác 0 còn lại sẽ kích hoạt những đặc trưng phổ phù hợp với tín<br />
hiệu nguồn cần tách.<br />
Algorithm 1 NMF – Proposed<br />
Require: , , ,<br />
Ensure:<br />
Khởi tạo với các giá trị không âm ngẫu nhiên.<br />
= ∗<br />
Repeat<br />
//Tính toán thành phần block sparsity<br />
For = 1, … , do<br />
( )←<br />
( )<br />
<br />
End for<br />
= ( ), … , ( )<br />
//Tính toán thành phần component sparsity<br />
For = 1, … , do<br />
← ‖ ‖<br />
End for<br />
= [ ,…, ]<br />
//Cập nhật<br />
<br />
∗( . ⨀ )<br />
← ⨀( ).<br />
∗ . ( ( ) )<br />
//Cập nhật<br />
← ∗<br />
Until Thỏa mãn điều kiện hội tụ<br />
Thuật toán đề xuất được mô tả chi tiết trong Algorithm 1, trong đó, ( ) là ma<br />
trận có cùng kích thước với ( ) , là véc tơ có cùng kích thước với với .<br />
4. THÍ NGHIỆM<br />
Để đánh giá hiệu quả của thuật toán đề xuất, chúng tôi đã thực hiện hai thí<br />
nghiệm như sau:<br />
Thí nghiệm 1: Phân tách tiếng nói (speech) và âm thanh nhiễu môi trường<br />
(noise) từ file thu âm tiếng nói chứa nhiễu.<br />
Thí nghiệm 2: Phân tách giọng hát (vocals) và âm thanh các nhạc cụ<br />
(music) từ file bài hát đã được thu âm.<br />
4.1. Dữ liệu thí nghiệm và cách thiết lập các tham số<br />
Các thí nghiệm được thực hiện với dữ liệu chuẩn hóa được công bố tại các<br />
website uy tín thuộc lĩnh vực nghiên cứu. Ở mỗi thí nghiệm, dữ liệu được chia<br />
thành hai tập riêng biệt cho hai pha huấn luyện và thử nghiệm như sau:<br />
Thí nghiệm 1<br />
<br />
<br />
<br />
88 D. T. H. Thanh, N. C. Phương, N. Q. Cường, “Kết hợp mô hình thừa số hóa … đơn kênh.”<br />
Nghiên cứu khoa học công nghệ<br />
<br />
Tập mẫu huấn luyện cho tín hiệu speech gồm 3 file tiếng nói không chứa nhiễu<br />
có kích thước 5 giây, 1 giọng nam và 2 giọng nữ1. Tập mẫu huấn luyện noise gồm<br />
3 file có kích thước từ 10 đến 15 giây, là âm thanh của 3 loại nhiễu môi trường2:<br />
kitchen sound, bird song, metro. Chúng được dùng để xây dựng mô hình phổ tổng<br />
quát cho tín hiệu speech và noise.<br />
Tập dữ liệu test gồm 12 file đơn kênh là tín hiệu trộn của speech và noise với tỷ<br />
lệ tín hiệu trên nhiễu (Signal to Noise Ratio) SNR = 0 dB, các file có kích thước từ<br />
5 đến 10 giây. Tập test chứa nhiều loại nhiễu khác nhau và khác các mẫu trong tập<br />
huấn luyện. Một số tín hiệu trộn có sự kết hợp hai loại nhiễu như: traffic + wind<br />
sound, ocean waves + wind sound, cafeteria + music, forest birds + car,....<br />
Thí nghiệm 2<br />
Tập mẫu huấn luyện vocals gồm 4 file với 2 giọng nam và 2 giọng nữ. Tập mẫu<br />
huấn luyện cho music gồm 9 file: 3 file âm thanh bass, 3 file âm thanh drums và 3<br />
file âm thanh các nhạc cụ khác. Kích thước mỗi file trong tập huấn luyện từ 10 đến<br />
15 giây3.<br />
Tập dữ liệu test gồm 5 file là trích đoạn của 5 bài hát có độ dài từ 14 đến 25<br />
giây như mô tả trong bảng 14.<br />
Bảng 1. Dữ liệu test của thí nghiệm 2.<br />
TT Tên bài hát Độ dài<br />
1 Bearlin - Roads 14 giây<br />
2 Tamy - Que pena Tanto faz 15 giây<br />
3 Another dreamer - The ones we love 25 giây<br />
4 Fort Minor - Remember the name 25 giây<br />
5 Ultimate nz tour 19 giây<br />
Các tham số của thuật toán được thiết lập như sau: tần số lấy mẫu các file âm<br />
thanh là 16000 Hz, kích thước cửa sổ trong phép biến đổi Fourier là 1024. Số<br />
thành phần đặc trưng phổ của speech và noise lần lượt là 32 và 16, của bass và<br />
drums là 15, của các loại nhạc cụ khác là 25 và vocals là 32. Số bước lặp MU là 50<br />
cho pha huấn luyện, và được thử nghiệm với các giá trị từ 1 đến 100 trong bước<br />
tách nguồn để khảo sát sự hội tụ của thuật toán. Hai tham số và được thử<br />
nghiệm với tập các giá trị khác nhau để xem xét tính ổn định của thuật toán:<br />
= {0, 1, 10, 25, 50, 100, 200, 500}, = {0, 0.2, 0.4, 0.6, 0.8, 1}.<br />
4.2. Phương pháp đánh giá kết quả<br />
<br />
<br />
<br />
<br />
1<br />
Speech files are from the International Signal Separation and Evaluation Campaign (SiSEC):<br />
http://sisec.wiki.irisa.fr/.<br />
2<br />
Noise files are from the Diverse Environments Multichannel Acoustic Noise Database<br />
(DEMAND): http://parole.loria.fr/DEMAND.<br />
3<br />
Training data is from SiSEC: https://sisec.inria.fr/sisec-2016/2016-professionally-produced-<br />
music-recordings.<br />
4<br />
Test data is from SiSEC: https://sisec.wiki.irisa.fr/tiki-index165d.html.<br />
<br />
<br />
Tạp chí Nghiên cứu KH&CN quân sự, Số 54, 04 - 2018 89<br />
Kỹ thuật điều khiển & Điện tử<br />
<br />
Trên cùng một tập dữ liệu thử nghiệm và điều kiện thí nghiệm, chúng tôi so<br />
sánh kết quả của thuật toán NMF cơ bản và kết quả của thuật toán đề xuất khi kết<br />
hợp mô hình NMF với các nhóm ràng buộc thưa khác nhau như sau:<br />
NMF non-sparsity: Thuật toán NMF cơ bản được mô tả trong phần 2, dữ<br />
liệu huấn luyện cho từng tín hiệu là 1 file ghép từ các file trong tập mẫu<br />
huấn luyện tương ứng với tín hiệu đó (theo mô tả trong phần 4.1).<br />
NMF - B: Thuật toán đề xuất, sử dụng kết hợp NMF với ràng buộc thưa<br />
block sparsity theo công thức (14) [6].<br />
NMF - C: Thuật toán đề xuất, sử dụng kết hợp NMF với ràng buộc thưa<br />
component sparsity theo công thức (15) [8, 9].<br />
Proposed NMF: Thuật toán đề xuất, sử dụng kết hợp NMF với hai loại<br />
ràng buộc thưa block sparsity và component sparsity theo công thức (16).<br />
Mỗi tín hiệu sau khi tách được tính toán các độ đo SDR (Source to Distortion<br />
Ratio), SIR (Source to Interference Ratio), SAR (Source to Artifacts Ratio), đơn<br />
vị đo dB. Các độ đo càng lớn thì chất lượng của tín hiệu tách được là càng tốt. Để<br />
tính toán các độ đo đó, chúng tôi dùng bộ công cụ được cung cấp và sử dụng phổ<br />
biến hiện nay trong cộng đồng nghiên cứu về xử lý âm thanh là BSS-EVAL<br />
Tools [16].<br />
<br />
4.3. Kết quả thí nghiệm và bình luận<br />
Bảng 2. Độ đo trung bình của các tập tín hiệu sau khi tách.<br />
Speech/Vocals Noise/Music<br />
Thuật toán SDR SIR SAR SDR SIR SAR<br />
(dB) (dB) (dB) (dB) (dB) (dB)<br />
NMF non-<br />
2.7 6.9 11.7 3.6 14.3 5.2<br />
sparsity<br />
NMF - B [6]<br />
Thí nghiệm 1<br />
<br />
<br />
<br />
<br />
7.4 10.2 16.4 6.9 19.8 8.5<br />
( = 25, = 1)<br />
NMF - C [8, 9]<br />
7.4 10.9 16.2 7.6 16.3 9.3<br />
( = 50, = 0)<br />
Proposed NMF<br />
( = 50, 7.7 10.8 17.8 7.8 18.7 9.4<br />
= 0.2)<br />
NMF non-<br />
1.3 3.7 7.1 3.8 9.5 11.2<br />
sparsity<br />
NMF - B [6]<br />
Thí nghiệm 2<br />
<br />
<br />
<br />
<br />
2.5 4.9 8.1 6.2 7.7 13.3<br />
( = 50, = 1)<br />
NMF - C [8, 9]<br />
2.7 5.6 7.3 6.2 7.7 13.5<br />
( = 25, = 0)<br />
Proposed NMF<br />
( = 50, 3.2 6.2 7.9 6.4 7.9 14.2<br />
= 0.4)<br />
<br />
<br />
90 D. T. H. Thanh, N. C. Phương, N. Q. Cường, “Kết hợp mô hình thừa số hóa … đơn kênh.”<br />
Nghiên ccứu<br />
ứu khoa học công nghệ<br />
<br />
<br />
<br />
<br />
Hình 2.. Sự<br />
Hình ự hội tụ của thuật toán với từng tín hiệu<br />
hiệu:: (a) – Speech, (b) – Noise<br />
Noise,<br />
(c)<br />
( – Vocals, ((d<br />
d) - Music.<br />
Music<br />
<br />
<br />
<br />
<br />
3 Ả<br />
Hình 3. Ảnh<br />
nh hư<br />
hưởng<br />
ng của<br />
c a , α đđối<br />
ối với<br />
ới kết<br />
kết quả phân tách<br />
tách:: (a) – Speech, (b) –<br />
Noise,<br />
Noise, (c) – Vocals, (d) - Music<br />
Music.<br />
<br />
<br />
Tạp<br />
ạp chí Nghi<br />
Nghiên<br />
ên cứu<br />
cứu KH&CN quân<br />
uân sự,<br />
sự, Số 54<br />
54, 044 - 2018<br />
2018 91<br />
Kỹ thuật điều khiển & Điện tử<br />
<br />
Bảng 2 là độ đo trung bình của các tín hiệu sau khi tách từ tập dữ liệu test của<br />
hai thí nghiệm, tương ứng với các thiết lập tham số và α tối ưu cho từng thuật<br />
toán. Sự hội tụ của thuật toán đề xuất theo từng tín hiệu được thể hiện trong hình 2.<br />
Hình 3 cho thấy sự ảnh hưởng của các tham số và α đối với kết quả phân tách<br />
theo độ đo SDR.<br />
Với cả hai thí nghiệm, thuật toán đề xuất “Proposed NMF” sử dụng kết hợp<br />
NMF với hai loại ràng buộc thưa block sparsity và component sparsity đều cho kết<br />
quả tốt hơn ba thuật toán còn lại trên hầu hết các độ đo, đặc biệt là tốt hơn ở độ đo<br />
quan trọng nhất SDR. Điều này đã khẳng định hiệu quả của việc sử dụng kết hợp<br />
hai loại ràng buộc thưa mà chúng tôi đề xuất so với các công bố trước đó. Ngoài ra,<br />
sự chênh lệch kết quả giữa thuật toán “NMF non-sparsity” và ba thuật toán còn lại<br />
cũng cho thấy trong trường hợp dữ liệu huấn luyện không chính xác thì việc sử<br />
dụng kết hợp các nhóm loại buộc thưa trong mô hình NMF đã giúp nâng cao đáng<br />
kể chất lượng các nguồn âm thanh tách được.<br />
Khảo sát kỹ hơn về sự hội tụ và ổn định của thuật toán đề xuất, hình 2 cho thấy<br />
thuật toán hội tụ nhanh sau khoảng 20 bước lặp và hội tụ khá đồng đều đối với các<br />
loại tín hiệu tách khác nhau. Tính ổn định của thuật toán được thể hiện trong hình 3<br />
khi giá trị của các tham số và α thay đổi, có thể quan sát thấy thuật toán đạt kết<br />
quả tốt và ổn định với giá trị 10 ≤ ≤ 50 và 0 ≤ ≤ 0.4. Ngoài ra, thuật toán<br />
cũng ổn định hơn với giá trị α nhỏ.<br />
5. KẾT LUẬN<br />
Trong bài báo, chúng tôi đã trình bầy thuật toán tách nguồn âm thanh có hướng<br />
dẫn sử dụng mô hình NMF cơ bản. Từ đó, để giải quyết bài toán tách nguồn âm<br />
thanh đơn kênh và không có dữ liệu huấn luyện, chúng tôi đã đề xuất giải pháp xây<br />
dựng mô hình phổ tổng quát cho các tín hiệu cần tách bằng một số file âm thanh<br />
cùng loại thu thập được. Trong quá trình phân tách, chúng tôi đề xuất công thức<br />
kết hợp mô hình NMF với hai loại ràng buộc thưa để nâng cao hiệu quả ước lượng<br />
tín hiệu cần tách dựa trên mô hình phổ tổng quát đã xây dựng. Kết quả của hai thí<br />
nghiệm thực hiện với hai loại dữ liệu khác nhau đã cho thấy hiệu quả của thuật<br />
toán đề xuất. Ngoài ra, thí nghiệm cũng cho thấy tốc độ hội tụ của thuật toán là khá<br />
tốt và chỉ ra miền giá trị của các tham số để đảm bảo sự ổn định của thuật toán.<br />
Những đánh giá này rất hữu ích cho việc thiết lập tham số khi sử dụng thuật toán<br />
trong các ứng dụng thực tế.<br />
Chúng tôi mong muốn sẽ tiếp tục phát triển thuật toán cho bài toán tách nguồn<br />
âm thanh đa kênh theo hướng kết hợp mô hình NMF với mô hình xử lý thông tin<br />
không gian (spatial model). Đồng thời, chúng tôi dự định sẽ tiến hành thử nghiệm<br />
hiệu quả của thuật toán đối với hệ thống nhận dạng tiếng nói tự động (Automatic<br />
Speech Recognition - ASR) trong thời gian gần đây.<br />
TÀI LIỆU THAM KHẢO<br />
[1]. "Source Separation and Speech Dereverberation", in Acoustic MIMO Signal<br />
Processing, Boston, MA: Springer US, 2006, pp. 319–351.<br />
[2]. S. Makino, T.-W. Lee, and H. Sawada, "Blind speech separation". Dordrecht,<br />
the Netherlands: Springer, 2007.<br />
<br />
<br />
<br />
92 D. T. H. Thanh, N. C. Phương, N. Q. Cường, “Kết hợp mô hình thừa số hóa … đơn kênh.”<br />
Nghiên cứu khoa học công nghệ<br />
<br />
[3]. E. Vincent et al., "The signal separation evaluation campaign (2007–2010):<br />
Achievements and remaining challenges", Signal Process., vol. 92, no. 8, pp.<br />
1928–1936, Aug. 2012.<br />
[4]. E. Vincent, J. Barker, S. Watanabe, J. Le Roux, F. Nesta, and M. Matassoni,<br />
"The second 'chime' speech separation and recognition challenge: Datasets,<br />
tasks and baselines", in IEEE Int. Conf. on Acoustics, Speech and Signal<br />
Processing (ICASSP), 2013, pp. 126–130.<br />
[5]. K. Kinoshita et al., "The reverb challenge: A common evaluation framework<br />
for dereverberation and recognition of reverberant speech", in IEEE<br />
Workshop on Applications of Signal Processing to Audio and Acoustics<br />
(WASPAA), 2013, pp. 1–4.<br />
[6]. D. L. Sun and G. J. Mysore, "Universal speech models for speaker<br />
independent single channel source separation", in IEEE International<br />
Conference on Acoustics, Speech and Signal Processing (ICASSP), 2013, pp.<br />
141–145.<br />
[7]. L. Chen, X. Ma, and S. Ding, "Single Channel Speech Separation Using Deep<br />
Neural Network", in Advances in Neural Networks - ISNN 2017, vol. 10261,<br />
F. Cong, A. Leung, and Q. Wei, Eds. Cham: Springer International<br />
Publishing, 2017, pp. 285–292.<br />
[8]. D. El Badawy, N. Q. K. Duong, and A. Ozerov, "On-the-fly audio source<br />
separation", in IEEE International Workshop on Machine Learning for Signal<br />
Processing (MLSP 2014), 2014, pp. 1–6.<br />
[9]. D. E. Badawy, N. Q. K. Duong, and A. Ozerov, "On-the-Fly Audio Source<br />
Separation—A Novel User-Friendly Framework", IEEEACM Trans. Audio<br />
Speech Lang. Process., vol. 25, no. 2, pp. 261–272, Feb. 2017.<br />
[10]. D. D. Lee and H. S. Seung, "Algorithms for non-negative matrix<br />
factorization", in Advances in neural information processing systems, 2001,<br />
pp. 556–562.<br />
[11]. H.-T. T. Duong, Q.-C. Nguyen, C.-P. Nguyen, T.-H. Tran, and N. Q. K.<br />
Duong, "Speech enhancement based on nonnegative matrix factorization<br />
with mixed group sparsity constraint", in Proceedings of the Sixth<br />
International Symposium on Information and Communication Technology,<br />
2015, pp. 247–251.<br />
[12]. H.-T. T. Duong, Q.-C. Nguyen, C.-P. Nguyen, and N. Q. K. Duong, "Single-<br />
channel speaker-dependent speech enhancement exploiting generic noise<br />
model learned by non-negative matrix factorization", in International<br />
Conference on Electronics, Information, and Communications (ICEIC), 2016,<br />
pp. 1–4.<br />
[13]. A. Lefevre, F. Bach, and C. Févotte, "Itakura-Saito nonnegative matrix<br />
factorization with group sparsity", in Acoustics, Speech and Signal Processing<br />
(ICASSP), 2011 IEEE International Conference on, 2011, pp. 21–24.<br />
[14]. C. Févotte, N. Bertin, and J.-L. Durrieu, "Nonnegative Matrix Factorization<br />
with the Itakura-Saito Divergence: With Application to Music Analysis",<br />
Neural Comput., vol. 21, no. 3, pp. 793–830, Mar. 2009.<br />
<br />
<br />
Tạp chí Nghiên cứu KH&CN quân sự, Số 54, 04 - 2018 93<br />
Kỹ thuật điều khiển & Điện tử<br />
<br />
[15]. T. Virtanen, "Monaural Sound Source Separation by Nonnegative Matrix<br />
Factorization With Temporal Continuity and Sparseness Criteria", IEEE<br />
Trans. Audio Speech Lang. Process., vol. 15, no. 3, pp. 1066–1074, Mar. 2007.<br />
[16]. E. Vincent, R. Gribonval, and C. Fevotte, "Performance measurement in<br />
blind audio source separation", IEEE Trans. Audio Speech Lang. Process.,<br />
vol. 14, no. 4, pp. 1462–1469, Jul. 2006.<br />
ABSTRACT<br />
COMBINATION OF NONNEGATIVE MATRIX FACTORIZATION<br />
AND MIXED GROUP SPARSITY CONSTRAINT<br />
TO EXPLOIT GENERIC SOURCE SPECTRAL MODEL<br />
IN SINGLE-CHANNEL AUDIO SOURCE SEPARATION ALGORITHM<br />
This paper considers the audio source separation problem given a<br />
single-channel mixture in the absence of exact training data. Based on non-<br />
negative matrix factorization framework, a generic spectral source model<br />
for each source from using several examples of them in training process is<br />
proposed to learn. In source separation process, two existing group<br />
sparsity-inducing penalties in the optimization function and derive the<br />
corresponding algorithm for parameter estimation based on multiplicative<br />
update (MU) rule. Experiment in two cases: speech and environmental<br />
noise separation, and vocal and music separation confirms the effectiveness<br />
of our approach.<br />
Keywords: Audio source separation, Nonnegative matrix factorizarion (NMF), Sparsity constraint, Universal<br />
model.<br />
<br />
<br />
Nhận bài ngày 26 tháng 12 năm 2017<br />
Hoàn thiện ngày 16 tháng 02 năm 2018<br />
Chấp nhận đăng ngày 10 tháng 4 năm 2018<br />
<br />
<br />
1<br />
Địa chỉ: Viện nghiên cứu quốc tế MICA, Trường Đại học Bách khoa Hà Nội, Việt Nam;<br />
2<br />
Khoa Công nghệ thông tin, Trường Đại học Mỏ-Địa chất, Hà Nội, Việt Nam;<br />
3<br />
Bộ môn Kỹ thuật đo và Tin học công nghiệp, Trường Đại học Bách khoa Hà Nội.<br />
*<br />
Email: cuong.nguyenquoc@hust.edu.vn.<br />
<br />
<br />
<br />
<br />
94 D. T. H. Thanh, N. C. Phương, N. Q. Cường, “Kết hợp mô hình thừa số hóa … đơn kênh.”<br />