Phùng Thị Thu Hiền và Đtg<br />
<br />
Tạp chí KHOA HỌC & CÔNG NGHỆ<br />
<br />
112(12)/2: 33 - 38<br />
<br />
SO SÁNH HAI PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG ÂM THANH:<br />
ĐƯỜNG BAO PHỔ (MFCC) VÀ CAO ĐỘ PITCH TRONG VIỆC<br />
TÌM KIẾM ÂM NHẠC THEO NỘI DUNG<br />
Phùng Thị Thu Hiền1*, Đoàn Xuân Ngọc2, Phùng Trung Nghĩa3<br />
1<br />
<br />
Trường Đại học Kỹ thuật Công nghiệp - ĐH Thái Nguyên<br />
2<br />
Cục thuế tỉnh Thái Nguyên<br />
3<br />
Trường Đại học CNTT&TT - ĐH Thái Nguyên<br />
<br />
TÓM TẮT<br />
Trong cách tiếp cận truyền thống, các vector đặc trưng của tín hiệu âm thanh được xây dựng từ các<br />
đặc trưng vật lý của âm thanh như độ to, độ cao, năng lượng, phổ tần số,… Có rất nhiều phương<br />
pháp trích chọn đặc trưng âm thanh đã và đang được nghiên cứu để áp dụng vào bài toán tìm kiếm<br />
âm nhạc theo nội dung. Tuy nhiên hai phương pháp phổ biến nhất và được đánh giá cao là phương<br />
pháp sử dụng đường bao phổ (MFCC) và phương pháp sử dụng cao độ (F0).<br />
Bài báo này nghiên cứu về hai phương pháp này đồng thời so sánh đánh giá hiệu quả của từng<br />
phương pháp.<br />
Từ khóa: Vector đặc trưng, Mel Cepstral, K-means, F0, pitch, DTW.<br />
<br />
ĐẶT VẤN ĐỀ*<br />
Hiện nay, có rất nhiều nghiên cứu về vấn đề<br />
trích chọn đặc trưng âm thanh trong bài toán<br />
tìm kiếm âm nhạc theo nội dung.<br />
S.Blackburn và D.DeRoure [4] đã sử dụng kỹ<br />
thuật hiệu chỉnh cao độ (F0) để xác định giai<br />
điệu chính của đoạn nhạc. Trong nghiên cứu<br />
của mình, S.Blackburn và D.DeRoure đã so<br />
sánh tính toán độ tương tự của bài hát bằng<br />
kỹ thuật so khớp xâu. Trong khi đó, Mc Nab,<br />
Smith, Witten, Henderson và Cunningham [5]<br />
đã sử dụng phương thức tính toán giai điệu<br />
bằng cách ước lượng cao độ Pitch để so sánh<br />
giữa các bản phiên âm của mỗi bài hát.<br />
Tuy nhiên, theo một nghiên cứu của Beth<br />
Logan [3] thì cấu trúc âm thanh của âm nhạc<br />
là quan trọng. Vì vậy cần phải có một hệ<br />
thống nhận biết độ tương tự âm thanh theo<br />
cách gần giống như hệ thống nghe của con<br />
người, và hệ thống thính giác của con người<br />
dễ dàng thu và nhận dạng các nhóm âm thanh<br />
hơn là từng nốt nhạc hay âm riêng lẻ.<br />
Bài báo này trình bày phương pháp tìm kiếm<br />
âm nhạc theo nội dung sử dụng theo hai đặc<br />
trưng, thứ nhất là sử dụng đặc trưng cao độ<br />
(Pitch) và thứ hai là sử dụng đặc trưng đường<br />
*<br />
<br />
bao phổ (MFCC), cuối cùng là đưa ra một số<br />
kết quả thực nghiệm để so sánh hiệu quả của<br />
hai phương pháp.<br />
CƠ SỞ LÝ THUYẾT<br />
Sử dụng đặc trưng cao độ<br />
Cao độ Pitch<br />
Không khí đi qua thanh quản làm thanh quản<br />
rung lên. Sự rung động này với một tỷ lệ nào<br />
đó cũng được gọi là tần số cơ bản – f0 . Tần<br />
số cơ bản phụ thuộc vào kích cỡ và áp lực của<br />
thanh quản. Tần số cơ bản liên quan đến âm<br />
thanh về cao độ và nó có thể được ước lượng<br />
chính xác từ tín hiệu âm thanh.<br />
Độ cao hay độ trầm bổng của âm thanh chính<br />
là tần số sóng cơ học của âm thanh. Âm thanh<br />
nào cũng phát ra ở một độ cao nhất định. Độ<br />
cao của âm thanh phụ thuộc vào tần số dao<br />
động. Đối với tiếng nói, tần số dao động của<br />
dây thanh quy định độ cao giọng nói của con<br />
người. Mỗi người có một cao độ giọng nói<br />
khác nhau, độ cao của nữ giới thường cao hơn<br />
nam giới và độ cao của trẻ em thường cao<br />
hơn của người lớn.<br />
Cao độ Pitch do đó là đại lượng tỷ lệ nghịch<br />
với tần số cơ bản F0.<br />
Pitch là thuộc tính cơ bản của tiếng nói. Tai<br />
người nhạy cảm với sự thay đổi tần số cơ bản<br />
<br />
Tel: 0986060545; Email: pthientng@gmail.com<br />
<br />
33<br />
<br />
Phùng Thị Thu Hiền và Đtg<br />
<br />
Tạp chí KHOA HỌC & CÔNG NGHỆ<br />
<br />
hơn là các tham số khác của tín hiệu tiếng<br />
nói. Ước lượng pitch khó do sự thay đổi của<br />
sóng âm thanh. Sóng âm thanh thay đổi nhỏ<br />
giữa các chu kỳ, thời điểm lựa chọn để đo sẽ<br />
ảnh hưởng tới chu kỳ cao độ. Ước lượng cao<br />
độ thiếu chính xác do sự xuất hiện của sóng<br />
hài hoặc hài bậc ba của cao độ tần số.<br />
Có rất nhiều thuật toán và phương thức ước<br />
lượng cao độ. Các thuật toán ước lượng pitch<br />
cố gắng để định vị chu kỳ trong miền thời<br />
gian của tín hiệu tiếng nói hoặc miền tần số<br />
của tín hiệu âm thanh. Các cách tính Pitch hầu<br />
hết dựa vào phương pháp tự tương quan hoặc<br />
biến thể của nó.<br />
Ước lượng Pitch bằng phương pháp tự<br />
tương quan<br />
Ước lượng Pitch thường sử dụng phương<br />
pháp tự tương quan. Ý nghĩa của sự tương<br />
quan là đo độ tương tự giữa 2 tín hiệu, và sự<br />
tự tương quan đo độ tương tự giữa chính nó<br />
và biến đổi theo thời gian của chính nó.<br />
Phương thức tự tương quan trong một khoảng<br />
thời gian ngắn của một đoạn s(m), của một tín<br />
hiệu rời rạc theo thời gian s(n) có thể được<br />
biểu diễn là:<br />
<br />
r (k ) =<br />
<br />
N −1− k<br />
<br />
∑ s (m) s (m + k )<br />
<br />
m=0<br />
<br />
[1]<br />
k là độ trễ và N là độ dài đoạn, s(m) = 0 ngoài<br />
miền (0 ≤ m ≤N − 1) .<br />
<br />
Hình 1: Dạng sóng và tự tương quan trên miền<br />
thời gian của một đoạn tiếng nói ngắn<br />
<br />
Hình 1 thể hiện một đoạn âm thanh ngắn và<br />
tính tự tương quan của đoạn đó. Chu kỳ cao<br />
độ được theo dõi trên khoảng 80 mẫu. Đỉnh<br />
nhô lên trong sóng tự tương quan biểu thị<br />
điều này. Giá trị cực đại để xuất hiện quá<br />
trình tự tương quan là ở mức trễ 0. Một giá trị<br />
34<br />
<br />
112(12)/2: 33 - 38<br />
<br />
cực đại khác ở mức trễ 162, cho thấy một sự<br />
kết hợp tốt khi dịch chuyển là hai lần chu kỳ<br />
cao độ. Vì vậy, để ước lượng cao độ pitch,<br />
cửa sổ âm thanh nên chứa ít nhất hai chu kỳ<br />
cao độ (N >2/Fo).<br />
Ước lượng Cepstral Pitch<br />
Khi một tín hiệu tuần hoàn với tần số cơ bản<br />
Fo chứa nhiều sóng hài sát nhau thì đoạn phổ<br />
tương ứng thể hiện các đường gợn sóng như<br />
cấu trúc hài của nó. Cepstrum của tín hiệu này<br />
sẽ thể hiện bằng một chóp cao tại tần số 1/F0.<br />
Cepstrum được định nghĩa là một biến đổi<br />
Fourier rời rạc ngược về cường độ với tín<br />
hiệu vào s(n).<br />
Cepstrum được biểu diễn là:<br />
Cepstrum (d ) = IFFT (log 10 | FFT ( s (n)) |)<br />
<br />
[2]<br />
d là miền tần số của tín hiệu cepstrum. Các hệ<br />
số của chỉ số trên miền thời gian là các thành<br />
phần tuần hoàn của tín hiệu gốc. Thông tin<br />
cao độ được trích ra bởi vì một tín hiệu âm<br />
thanh không chỉ chứa các thành phần phổ có<br />
tần số cơ bản mà còn chứa các hài. Cepstrum<br />
thu được có cấu trúc lặp lại theo cường độ<br />
phổ. Miền tần số thấp của cepstrum thể hiện<br />
dạng vocal tract của hệ thống tiếng nói con<br />
người. Tần số cao của cepstrum mô tả thông<br />
tin kích thích trong tiếng nói – pitch.<br />
Hình 2 thể hiện cường độ phổ và cepstrum<br />
tương ứng với đoạn tiếng nói trong hình 1.<br />
Giá trị tại Cepstrum(0), được bỏ đi để thu<br />
được giải động tốt hơn. Đỉnh nhô lên tại tần<br />
số 82 biểu thị chu kỳ cao độ. Tần số này<br />
tương ứng với tỷ lệ mẫu của tín hiệu gốc,<br />
8000Hz. Vì vậy tần số 82 thể hiện tần số cao<br />
độ 8000/82 = 97.2 Hz.<br />
Cấu trúc quan trọng trong miền tần số<br />
frequency thấp, từ 1 tới 16 miêu tả thông tin<br />
vocal tract.<br />
Với âm hữu thanh, phép phân tích Cepstral<br />
của một đoạn tiếng nói ngắn sẽ tạo ra một<br />
đỉnh của chu kỳ cao độ, nhưng đối với những<br />
âm vô thanh thì không. Phép phân tích<br />
Cepstral có thể được sử dụng cho đoạn âm<br />
thanh là hữu thanh hay vô thanh để xác định<br />
chu kỳ cao độ, 1/F0 nếu là đoạn hữu thanh.<br />
<br />
Phùng Thị Thu Hiền và Đtg<br />
<br />
Tạp chí KHOA HỌC & CÔNG NGHỆ<br />
<br />
112(12)/2: 33 - 38<br />
<br />
Mô phỏng lại quá trình tạo âm của cơ quan<br />
phát âm.<br />
Cường độ log phổ của hai tín hiệu s1 và s2 là<br />
sự tổ hợp tuyến tính của cường độ phổ log<br />
như được thể hiện trong biểu thức 3:<br />
log10(|DFT[s1*s2](k)|) = log10(|s1(k)|) +log10(|s2(k)|) [3]<br />
<br />
Hình 2: Cường độ Log của DFT và tần số<br />
Cepstrum của đoạn tiếng nói trong hình 1<br />
<br />
Sử dụng đặc trưng đường bao phổ MFCC<br />
Tần số cảm thụ có nghĩa<br />
Tai của con người nhận biết được những âm<br />
thanh có tần số thấp (