intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

So sánh hai phương pháp trích chọn đặc trưng âm thanh: đường bao phổ (MFCC) và cao độ Pitch trong việc tìm kiếm âm nhạc theo nội dung

Chia sẻ: Thi Thi | Ngày: | Loại File: PDF | Số trang:6

247
lượt xem
24
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Trong cách tiếp cận truyền thống, các vector đặc trưng của tín hiệu âm thanh được xây dựng từ các đặc trưng vật lý của âm thanh như độ to, độ cao, năng lượng, phổ tần số,… Có rất nhiều phương pháp trích chọn đặc trưng âm thanh đã và đang được nghiên cứu để áp dụng vào bài toán tìm kiếm âm nhạc theo nội dung. Tuy nhiên hai phương pháp phổ biến nhất và được đánh giá cao là phương pháp sử dụng đường bao phổ (MFCC) và phương pháp sử dụng cao độ (F0). Bài báo này nghiên cứu về hai phương pháp này đồng thời so sánh đánh giá hiệu quả của từng phương pháp.

Chủ đề:
Lưu

Nội dung Text: So sánh hai phương pháp trích chọn đặc trưng âm thanh: đường bao phổ (MFCC) và cao độ Pitch trong việc tìm kiếm âm nhạc theo nội dung

Phùng Thị Thu Hiền và Đtg<br /> <br /> Tạp chí KHOA HỌC & CÔNG NGHỆ<br /> <br /> 112(12)/2: 33 - 38<br /> <br /> SO SÁNH HAI PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG ÂM THANH:<br /> ĐƯỜNG BAO PHỔ (MFCC) VÀ CAO ĐỘ PITCH TRONG VIỆC<br /> TÌM KIẾM ÂM NHẠC THEO NỘI DUNG<br /> Phùng Thị Thu Hiền1*, Đoàn Xuân Ngọc2, Phùng Trung Nghĩa3<br /> 1<br /> <br /> Trường Đại học Kỹ thuật Công nghiệp - ĐH Thái Nguyên<br /> 2<br /> Cục thuế tỉnh Thái Nguyên<br /> 3<br /> Trường Đại học CNTT&TT - ĐH Thái Nguyên<br /> <br /> TÓM TẮT<br /> Trong cách tiếp cận truyền thống, các vector đặc trưng của tín hiệu âm thanh được xây dựng từ các<br /> đặc trưng vật lý của âm thanh như độ to, độ cao, năng lượng, phổ tần số,… Có rất nhiều phương<br /> pháp trích chọn đặc trưng âm thanh đã và đang được nghiên cứu để áp dụng vào bài toán tìm kiếm<br /> âm nhạc theo nội dung. Tuy nhiên hai phương pháp phổ biến nhất và được đánh giá cao là phương<br /> pháp sử dụng đường bao phổ (MFCC) và phương pháp sử dụng cao độ (F0).<br /> Bài báo này nghiên cứu về hai phương pháp này đồng thời so sánh đánh giá hiệu quả của từng<br /> phương pháp.<br /> Từ khóa: Vector đặc trưng, Mel Cepstral, K-means, F0, pitch, DTW.<br /> <br /> ĐẶT VẤN ĐỀ*<br /> Hiện nay, có rất nhiều nghiên cứu về vấn đề<br /> trích chọn đặc trưng âm thanh trong bài toán<br /> tìm kiếm âm nhạc theo nội dung.<br /> S.Blackburn và D.DeRoure [4] đã sử dụng kỹ<br /> thuật hiệu chỉnh cao độ (F0) để xác định giai<br /> điệu chính của đoạn nhạc. Trong nghiên cứu<br /> của mình, S.Blackburn và D.DeRoure đã so<br /> sánh tính toán độ tương tự của bài hát bằng<br /> kỹ thuật so khớp xâu. Trong khi đó, Mc Nab,<br /> Smith, Witten, Henderson và Cunningham [5]<br /> đã sử dụng phương thức tính toán giai điệu<br /> bằng cách ước lượng cao độ Pitch để so sánh<br /> giữa các bản phiên âm của mỗi bài hát.<br /> Tuy nhiên, theo một nghiên cứu của Beth<br /> Logan [3] thì cấu trúc âm thanh của âm nhạc<br /> là quan trọng. Vì vậy cần phải có một hệ<br /> thống nhận biết độ tương tự âm thanh theo<br /> cách gần giống như hệ thống nghe của con<br /> người, và hệ thống thính giác của con người<br /> dễ dàng thu và nhận dạng các nhóm âm thanh<br /> hơn là từng nốt nhạc hay âm riêng lẻ.<br /> Bài báo này trình bày phương pháp tìm kiếm<br /> âm nhạc theo nội dung sử dụng theo hai đặc<br /> trưng, thứ nhất là sử dụng đặc trưng cao độ<br /> (Pitch) và thứ hai là sử dụng đặc trưng đường<br /> *<br /> <br /> bao phổ (MFCC), cuối cùng là đưa ra một số<br /> kết quả thực nghiệm để so sánh hiệu quả của<br /> hai phương pháp.<br /> CƠ SỞ LÝ THUYẾT<br /> Sử dụng đặc trưng cao độ<br /> Cao độ Pitch<br /> Không khí đi qua thanh quản làm thanh quản<br /> rung lên. Sự rung động này với một tỷ lệ nào<br /> đó cũng được gọi là tần số cơ bản – f0 . Tần<br /> số cơ bản phụ thuộc vào kích cỡ và áp lực của<br /> thanh quản. Tần số cơ bản liên quan đến âm<br /> thanh về cao độ và nó có thể được ước lượng<br /> chính xác từ tín hiệu âm thanh.<br /> Độ cao hay độ trầm bổng của âm thanh chính<br /> là tần số sóng cơ học của âm thanh. Âm thanh<br /> nào cũng phát ra ở một độ cao nhất định. Độ<br /> cao của âm thanh phụ thuộc vào tần số dao<br /> động. Đối với tiếng nói, tần số dao động của<br /> dây thanh quy định độ cao giọng nói của con<br /> người. Mỗi người có một cao độ giọng nói<br /> khác nhau, độ cao của nữ giới thường cao hơn<br /> nam giới và độ cao của trẻ em thường cao<br /> hơn của người lớn.<br /> Cao độ Pitch do đó là đại lượng tỷ lệ nghịch<br /> với tần số cơ bản F0.<br /> Pitch là thuộc tính cơ bản của tiếng nói. Tai<br /> người nhạy cảm với sự thay đổi tần số cơ bản<br /> <br /> Tel: 0986060545; Email: pthientng@gmail.com<br /> <br /> 33<br /> <br /> Phùng Thị Thu Hiền và Đtg<br /> <br /> Tạp chí KHOA HỌC & CÔNG NGHỆ<br /> <br /> hơn là các tham số khác của tín hiệu tiếng<br /> nói. Ước lượng pitch khó do sự thay đổi của<br /> sóng âm thanh. Sóng âm thanh thay đổi nhỏ<br /> giữa các chu kỳ, thời điểm lựa chọn để đo sẽ<br /> ảnh hưởng tới chu kỳ cao độ. Ước lượng cao<br /> độ thiếu chính xác do sự xuất hiện của sóng<br /> hài hoặc hài bậc ba của cao độ tần số.<br /> Có rất nhiều thuật toán và phương thức ước<br /> lượng cao độ. Các thuật toán ước lượng pitch<br /> cố gắng để định vị chu kỳ trong miền thời<br /> gian của tín hiệu tiếng nói hoặc miền tần số<br /> của tín hiệu âm thanh. Các cách tính Pitch hầu<br /> hết dựa vào phương pháp tự tương quan hoặc<br /> biến thể của nó.<br /> Ước lượng Pitch bằng phương pháp tự<br /> tương quan<br /> Ước lượng Pitch thường sử dụng phương<br /> pháp tự tương quan. Ý nghĩa của sự tương<br /> quan là đo độ tương tự giữa 2 tín hiệu, và sự<br /> tự tương quan đo độ tương tự giữa chính nó<br /> và biến đổi theo thời gian của chính nó.<br /> Phương thức tự tương quan trong một khoảng<br /> thời gian ngắn của một đoạn s(m), của một tín<br /> hiệu rời rạc theo thời gian s(n) có thể được<br /> biểu diễn là:<br /> <br /> r (k ) =<br /> <br /> N −1− k<br /> <br /> ∑ s (m) s (m + k )<br /> <br /> m=0<br /> <br /> [1]<br /> k là độ trễ và N là độ dài đoạn, s(m) = 0 ngoài<br /> miền (0 ≤ m ≤N − 1) .<br /> <br /> Hình 1: Dạng sóng và tự tương quan trên miền<br /> thời gian của một đoạn tiếng nói ngắn<br /> <br /> Hình 1 thể hiện một đoạn âm thanh ngắn và<br /> tính tự tương quan của đoạn đó. Chu kỳ cao<br /> độ được theo dõi trên khoảng 80 mẫu. Đỉnh<br /> nhô lên trong sóng tự tương quan biểu thị<br /> điều này. Giá trị cực đại để xuất hiện quá<br /> trình tự tương quan là ở mức trễ 0. Một giá trị<br /> 34<br /> <br /> 112(12)/2: 33 - 38<br /> <br /> cực đại khác ở mức trễ 162, cho thấy một sự<br /> kết hợp tốt khi dịch chuyển là hai lần chu kỳ<br /> cao độ. Vì vậy, để ước lượng cao độ pitch,<br /> cửa sổ âm thanh nên chứa ít nhất hai chu kỳ<br /> cao độ (N >2/Fo).<br /> Ước lượng Cepstral Pitch<br /> Khi một tín hiệu tuần hoàn với tần số cơ bản<br /> Fo chứa nhiều sóng hài sát nhau thì đoạn phổ<br /> tương ứng thể hiện các đường gợn sóng như<br /> cấu trúc hài của nó. Cepstrum của tín hiệu này<br /> sẽ thể hiện bằng một chóp cao tại tần số 1/F0.<br /> Cepstrum được định nghĩa là một biến đổi<br /> Fourier rời rạc ngược về cường độ với tín<br /> hiệu vào s(n).<br /> Cepstrum được biểu diễn là:<br /> Cepstrum (d ) = IFFT (log 10 | FFT ( s (n)) |)<br /> <br /> [2]<br /> d là miền tần số của tín hiệu cepstrum. Các hệ<br /> số của chỉ số trên miền thời gian là các thành<br /> phần tuần hoàn của tín hiệu gốc. Thông tin<br /> cao độ được trích ra bởi vì một tín hiệu âm<br /> thanh không chỉ chứa các thành phần phổ có<br /> tần số cơ bản mà còn chứa các hài. Cepstrum<br /> thu được có cấu trúc lặp lại theo cường độ<br /> phổ. Miền tần số thấp của cepstrum thể hiện<br /> dạng vocal tract của hệ thống tiếng nói con<br /> người. Tần số cao của cepstrum mô tả thông<br /> tin kích thích trong tiếng nói – pitch.<br /> Hình 2 thể hiện cường độ phổ và cepstrum<br /> tương ứng với đoạn tiếng nói trong hình 1.<br /> Giá trị tại Cepstrum(0), được bỏ đi để thu<br /> được giải động tốt hơn. Đỉnh nhô lên tại tần<br /> số 82 biểu thị chu kỳ cao độ. Tần số này<br /> tương ứng với tỷ lệ mẫu của tín hiệu gốc,<br /> 8000Hz. Vì vậy tần số 82 thể hiện tần số cao<br /> độ 8000/82 = 97.2 Hz.<br /> Cấu trúc quan trọng trong miền tần số<br /> frequency thấp, từ 1 tới 16 miêu tả thông tin<br /> vocal tract.<br /> Với âm hữu thanh, phép phân tích Cepstral<br /> của một đoạn tiếng nói ngắn sẽ tạo ra một<br /> đỉnh của chu kỳ cao độ, nhưng đối với những<br /> âm vô thanh thì không. Phép phân tích<br /> Cepstral có thể được sử dụng cho đoạn âm<br /> thanh là hữu thanh hay vô thanh để xác định<br /> chu kỳ cao độ, 1/F0 nếu là đoạn hữu thanh.<br /> <br /> Phùng Thị Thu Hiền và Đtg<br /> <br /> Tạp chí KHOA HỌC & CÔNG NGHỆ<br /> <br /> 112(12)/2: 33 - 38<br /> <br /> Mô phỏng lại quá trình tạo âm của cơ quan<br /> phát âm.<br /> Cường độ log phổ của hai tín hiệu s1 và s2 là<br /> sự tổ hợp tuyến tính của cường độ phổ log<br /> như được thể hiện trong biểu thức 3:<br /> log10(|DFT[s1*s2](k)|) = log10(|s1(k)|) +log10(|s2(k)|) [3]<br /> <br /> Hình 2: Cường độ Log của DFT và tần số<br /> Cepstrum của đoạn tiếng nói trong hình 1<br /> <br /> Sử dụng đặc trưng đường bao phổ MFCC<br /> Tần số cảm thụ có nghĩa<br /> Tai của con người nhận biết được những âm<br /> thanh có tần số thấp (
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
14=>2