intTypePromotion=1

Tìm kiếm âm nhạc theo nội dung sử dụng đặc trưng đường bao phổ và phương pháp phân cụm K-MEANS

Chia sẻ: Thi Thi | Ngày: | Loại File: PDF | Số trang:6

0
30
lượt xem
2
download

Tìm kiếm âm nhạc theo nội dung sử dụng đặc trưng đường bao phổ và phương pháp phân cụm K-MEANS

Mô tả tài liệu
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Trong các cơ sở dữ liệu đa phương tiện lớn vấn đề tìm kiếm âm nhạc theo nội dung rất quan trọng. Tìm kiếm âm nhạc trong các cơ sở dữ liệu hiện tại thường dựa trên cơ sở tìm kiếm chỉ mục. Tuy nhiên, việc tìm kiếm âm nhạc theo chỉ mục có nhiều nhược điểm. Nhiều khi người dùng có thể không nhớ được các từ khóa text của bài hát như tên bài hát, tác giả, ca sĩ hoặc lời bài hát. Tìm kiếm âm nhạc theo nội dung khắc phục được những nhược điểm này.

Chủ đề:
Lưu

Nội dung Text: Tìm kiếm âm nhạc theo nội dung sử dụng đặc trưng đường bao phổ và phương pháp phân cụm K-MEANS

TÌM KIẾM ÂM NHẠC THEO NỘI DUNG SỬ DỤNG ĐẶC TRƢNG ĐƢỜNG BAO PHỔ<br /> VÀ PHƢƠNG PHÁP PHÂN CỤM K-MEANS<br /> Phùng Thị Thu Hiền1, Vũ Tất Thắng2,<br /> Thái Quang Vinh2, Nguyễn Văn Huy1<br /> 1<br /> <br /> Trường Đại học Kỹ thuật Công nghiệp – ĐH Thái Nguyên,<br /> 2<br /> <br /> Viện Công nghệ thông tin - Viện KHCN Việt nam<br /> <br /> TÓM TẮT<br /> Trong các cơ sở dữ liệu đa phương tiện lớn vấn đề tìm kiếm âm nhạc theo nội dung rất quan trọng.<br /> Tìm kiếm âm nhạc trong các cơ sở dữ liệu hiện tại thường dựa trên cơ sở tìm kiếm chỉ mục. Tuy<br /> nhiên, việc tìm kiếm âm nhạc theo chỉ mục có nhiều nhược điểm. Nhiều khi người dùng có thể<br /> không nhớ được các từ khóa text của bài hát như tên bài hát, tác giả, ca sĩ hoặc lời bài hát. Tìm kiếm<br /> âm nhạc theo nội dung khắc phục được những nhược điểm này. Trong cách tiếp cận truyền thống,<br /> các vector đặc trưng của tín hiệu âm thanh được xây dựng từ các đặc trưng vật lý của âm thanh<br /> như độ to, độ cao, năng lượng, phổ tần số,… Gần đây, một số nghiên cứu trên thế giới tập trung<br /> vào một cách tiếp cận khác, trong đó áp dụng các kiến thức về xử lý tín hiệu âm thanh, về phân<br /> tích mô hình tạo âm thanh, mô hình cảm thụ âm thanh của con người có thể giúp việc tính toán<br /> vector đặc trưng âm thanh được chính xác và hạn chế tối đa thông tin dư thừa. Bài báo này trình<br /> bày phương pháp tìm kiếm âm nhạc theo nội dung dùng đặc trưng đường bao phổ Mel Cepstral, được<br /> xây dựng dựa trên mô hình cảm thụ âm thanh của con ngườ, và thuật toán phân cụm K-means.<br /> Từ khóa: Vector đặc trưng, Mel Cepstral, K-mean, MFCC.<br /> <br /> <br /> ĐẶT VẤN ĐỀ<br /> Tìm kiếm âm nhạc theo nội dung là một lĩnh<br /> vực nghiên cứu mới và được nhiều nhà<br /> nghiên cứu quan tâm. Hiện có một số phương<br /> thức đã được áp dụng tìm kiếm âm nhạc theo<br /> nội dung.<br /> Theo Bel Logan [3] cấu trúc âm thanh của âm<br /> nhạc là quan trọng. Vì vậy cần phải có một hệ<br /> thống nhận biết độ tương tự âm thanh theo<br /> cách gần giống như hệ thống nghe của con<br /> người, và hệ thống thính giác của con người<br /> dễ dàng thu và nhận dạng các nhóm âm thanh<br /> hơn là từng nốt nhạc hay âm riêng lẻ. David<br /> Pye [7] áp dụng phương pháp nhận dạng sự<br /> thay đổi phổ của tiếng nói với hai kỹ thuật<br /> chính, Gaussian Mixture Modelling (GMM) –<br /> mô hình phân loại độ vang âm thanh và<br /> phương thức Tree-Based Vector Quantization<br /> (TreeQ) (Lượng tử hoá vector dựa trên cấu<br /> trúc cây). Các kỹ thuật này yêu cầu biểu hiện<br /> các tham số của mẫu âm thanh thành các<br /> vector đặc trưng. Mel Frequency Cepstral<br /> Coefficients (MFCC) - hệ số Mel được sử<br /> <br /> dụng như là một hệ số cơ sở trong xử lý tiếng<br /> nói. Những giá trị khác thể hiện một hệ thống<br /> chỉ số dựa trên việc kết nối các đặc trưng như<br /> là độ cao, độ to hoặc hệ số tần số Mel [9].<br /> Foote [9] đã thiết kế một hệ thống chỉ mục âm<br /> nhạc dựa trên biểu đồ các đặc trưng MFCC<br /> xuất phát từ vector lượng tử hóa. Beth Logan<br /> [3] đã thực hiện theo cách của Foote sử dụng<br /> các biểu đồ của các đặc trưng MFCC nhưng<br /> sử dụng thêm giải thuật phân cụm K-means.<br /> Phương thức của ông thực hiện sau kỹ thuật<br /> phục hồi âm thanh thực hiện bởi Liu và<br /> Huang [11].<br /> Trong các nghiên cứu về giác quan của con<br /> người, phương thức sử dụng hệ số tần Mel để<br /> biểu hiện âm thanh bằng tham số cũng đã<br /> được chứng minh là rất thành công. MFCC<br /> tạo ra chữ ký hay dấu riêng cho mỗi bài hát.<br /> Việc so sánh giữa chữ ký với nội dung âm<br /> thanh là hiệu quả, bởi vì nó không liên quan<br /> tới dữ liệu đã được bỏ đi trong quá trình tính<br /> toán chữ ký, kết quả là cải thiện được việc tìm<br /> kiếm dữ liệu với tỷ lệ thiết lập dữ liệu nhỏ và<br /> yêu cầu lưu trữ bộ nhớ nhỏ.<br /> <br /> <br /> <br /> Tel:0986060545, Email: pthientng@gmail.com<br /> <br /> Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên<br /> <br /> http://www.lrc-tnu.edu.vn<br /> <br /> | 80<br /> <br /> Phùng Thị Thu Hiền và cs<br /> <br /> Tạp chí KHOA HỌC & CÔNG NGHỆ<br /> <br /> Bài báo này trình bày phương pháp tìm kiếm<br /> âm nhạc theo nội dung sử dụng đặc trưng<br /> đường bao phổ kết hợp phương pháp phân<br /> cụm K-means, cuối cùng là đưa ra một số kết<br /> quả thực nghiệm.<br /> <br /> 74(12): 80 - 85<br /> <br /> khung. Quá trình phân khung được thể hiện<br /> trong hình 2.<br /> <br /> CƠ SỞ LÝ THUYẾT<br /> Quá trình lọc theo thang Mel Cepstral<br /> Theo Beth Logan [3], MFCC gồm 5 bước:<br /> 1. Chia tín hiệu thành các khung<br /> 2. Với mỗi khung, ta thu được biên độ phổ.<br /> 3. Lấy log của biên độ<br /> 4. Chuyển đổi sang thang Mel<br /> 5. Thực hiện biến đổi Cosine rời rạc.<br /> <br /> Hình 1. Quá trình tạo các đặc tính MFCC<br /> <br /> Quan sát quá trình trên ta thấy, âm thanh<br /> được chia thành những khung có độ dài cố<br /> định. Mục đích là để lấy mẫu những đoạn tín<br /> hiệu nhỏ (theo lý thuyết là ổn định). Trong<br /> việc lấy mẫu dữ liệu, chúng ta xem xét đến tín<br /> hiệu âm thanh đã được số hóa bằng việc rời<br /> rạc hóa các giá trị trên những khoảng đều<br /> nhau vì vậy cần phải chắc chắn rằng tốc độ<br /> lấy mẫu là đủ lớn để mô tả tín hiệu dạng<br /> sóng. Tấn số lấy mẫu nên ít nhất gấp đôi tần<br /> số dạng sóng như trong định lý của Nyquist.<br /> Tốc độ lấy mẫu phổ biến là 8000, 11025,<br /> 22050, 44000, thông thường sử dụng tần số<br /> trên 10kHz<br /> Phân khung là quá trình chia mẫu tín hiệu<br /> thành một số khung chồng lấp lên nhau hoặc<br /> không, mục đích của phân khung là để lấy<br /> mẫu các đoạn tín hiệu nhỏ. Bản chất của âm<br /> thanh là không ổn định, vì vậy, biến đổi<br /> Fourier sẽ thể hiện tần số xảy ra trên toàn<br /> miền thời gian thay vì thời gian cụ thể. Do đó<br /> khi tín hiệu là không ổn định, thì nó nên được<br /> chia nhỏ thành các cửa sổ rời rạc, nhờ đó mỗi<br /> tín hiệu trong một cửa sổ trở nên tĩnh và phép<br /> biến đổi Fourier có thể thực hiện trên mỗi<br /> <br /> Hình 2. Phân khung tín hiệu<br /> <br /> Hàm cửa sổ bỏ đi những hiệu ứng phụ và<br /> vector đặc trưng cepstral được thực hiện trên<br /> mỗi khung cửa sổ. Thông thường, cửa sổ<br /> Hamming được sử dụng, cửa sổ này có dạng:<br />  2 n <br /> w(n)  0.54  0.46cos <br />  , 0  n  N  1 (1)<br />  N 1 <br /> Ý tưởng ở đây là giảm bớt sự méo phổ bằng<br /> việc sử dụng các cửa sổ để giảm tín hiệu về<br /> không tại điểm bắt đầu và kết thúc mỗi<br /> khung.<br /> Biến đổi Fourier rời rạc của mỗi khung được<br /> tính toán và lấy logarith biên độ phổ. Thông<br /> tin về pha bị bỏ qua do biên độ phổ là quan<br /> trọng hơn pha. Thực hiện lấy logarith biên độ<br /> phổ do âm lượng của tín hiệu là xấp xỉ<br /> logarith. Bước tiếp theo là biến đổi phổ theo<br /> thang Mel. Từ kết quả này, trong vector Mel<br /> – spectral của các thành phần tương quan cao,<br /> bước cuối cùng là thực hiện biến đổi cosine<br /> rời rạc để tổng hợp vector phổ Mel để tương<br /> quan lại các thành phần này.<br /> Độ lệch tần số Mel<br /> Để mô tả chính xác sự tiếp nhận tần số của hệ<br /> thống thính giác, người ta xây dựng một<br /> thang khác – thang Mel.<br /> Độ lệch tần số Mel làm nhẵn phổ và làm nổi<br /> lên các tần số cảm thụ có nghĩa. Biến đổi<br /> Fourier lên tín hiệu qua bộ lọc thông dải để<br /> làm đơn giản phổ mà không làm mất dữ liệu.<br /> Điều này được thực hiện bằng cách tập hợp<br /> các thành phần phổ thành một dải tần số. Phổ<br /> được làm đơn giản hóa do sử dụng một giàn<br /> bộ lọc để tách phổ thành các kênh. Các bộ lọc<br /> được đặt cách đều nhau trên thang Mel và lấy<br /> logarit trên thang tần số, các kênh có tần số<br /> thấp là không gian tuyến tính trong khi các<br /> kênh có tần số cao là không gian logarit.<br /> <br /> Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên<br /> <br /> http://www.lrc-tnu.edu.vn<br /> <br /> | 81<br /> <br /> Phùng Thị Thu Hiền và cs<br /> <br /> Tạp chí KHOA HỌC & CÔNG NGHỆ<br /> <br /> Tai người không cảm nhận sự thay đổi tần số<br /> của tiếng nói tuyến tính mà theo thang Mel.<br /> Thang tần số Mel tuyến tính ở tần số dưới<br /> 1kHz và logarit ở tần số cao hơn 1kHz. Ta<br /> chọn tần số 1kHz, 40 dB trên ngưỡng nghe<br /> 1000 Mel. Do đó công thức gần đúng biểu<br /> diễn quan hệ tần số ở thang Mel và thang<br /> tuyến tính như sau:<br /> (2)<br /> <br /> Một phương pháp để chuyển đổi sang thang<br /> Mel là sử dụng băng lọc. Khoảng cách của<br /> băng lọc được định nghĩa bởi một hằng số tần<br /> số mel theo thời gian. Băng lọc này được áp<br /> dụng trong miền tần số, nó có thể xem như<br /> các điểm thu được của bộ lọc chính. Với các<br /> khung nhỏ tốt nhất là sử dụng các bộ lọc dạng<br /> tam giác hoặc thậm chí hình chữ nhật vì độ<br /> phân giải là quá thấp trong miền tần số thấp.<br /> <br /> Hình 3. Băng lọc khoảng cách theo tần số mel<br /> <br /> Mỗi bộ lọc trong băng lọc được nhân với phổ<br /> tín hiệu vì vậy chỉ có một giá trị đơn của<br /> cường độ trên bộ lọc được trả lại. Điều này có<br /> thể đạt được qua các tính toán của ma trận<br /> đơn. Kết quả là tổng của biên độ trong dải lọc<br /> và vì vậy làm giảm độ chính xác tới mức mà<br /> tai của con người có thể cảm nhận được.<br /> <br /> Hình 4. Phổ sau khi lọc theo thang Mel<br /> <br /> Quá trình độ lệch tần số mel được thực hiện<br /> theo ba bước sau:<br /> <br /> 74(12): 80 - 85<br /> <br /> 1. Cố định vùng giá trị dưới mỗi bộ lọc và đôi<br /> khi đưa thang về 1. Đặt M bằng số băng lọc<br /> yêu cầu<br /> 2. Phân bố đều trên thang tần số Mel<br /> 3. Chuyển đổi từ Hz sang Wi trên thang tuyến<br /> tính. Mối quan hệ giữa mel và frq được cho<br /> bởi công thức:<br /> m=ln(1+f/700)*1000/ln(1+1000/700)<br /> <br /> (3)<br /> <br /> Phƣơng pháp phân cụm K-means<br /> K-means là một phương pháp phân cụm.<br /> Phương pháp này quan sát k cụm trong dữ<br /> liệu, và trả lại vector chỉ số của K cụm đã<br /> quan sát.<br /> K-means quan sát trong dữ liệu và tìm cách<br /> phân vùng dữ liệu sao cho dữ liệu trong một<br /> cụm càng gần nhau càng tốt và so với dữ liệu<br /> trong các cụm khác phải càng xa càng tốt.<br /> Mỗi cụm được xác định bởi các thành phần<br /> của nó và bởi thành phần trung tâm của nó.<br /> Thành phần trung tâm của mỗi cụm là thành<br /> phần mà có tổng khoảng cách từ các đối<br /> tượng trong cụm đến nó là nhỏ nhất. Cụm<br /> trung tâm được tính toán khác nhau với mỗi<br /> thước đo khoảng cách, để tổng khoảng cách là<br /> nhỏ nhất với mỗi tiêu chuẩn đánh giá.<br /> Để thực hiện phương thức K-means ta sử<br /> dụng một thuật toán lặp để tính tổng khoảng<br /> cách từ mỗi đối tượng tới cụm trung tâm là<br /> nhỏ nhất trên toàn bộ cụm. Thuật toán này di<br /> chuyển các đối tượng giữa các cụm cho tới<br /> khi tổng khoảng cách không thể giảm hơn<br /> được nữa. Kết quả là tạo được các cụm có<br /> khoảng cách đủ nhỏ và có độ phân cách hợp<br /> lý. Độ nhỏ của dữ liệu có thể được chỉ ra bằng<br /> việc thay đổi các tham số đầu vào giống với<br /> số lượng cụm trung tâm và số lần lặp.<br /> Ý tưởng chính ở đây là tìm cách xác định cụm<br /> trung tâm k từ mỗi cụm. Nên lựa chọn điểm<br /> trung tâm vì các vị trí khác nhau cho các kết<br /> quả khác nhau. Trong điều kiện lý tưởng<br /> chúng phải cách xa các điểm khác tối đa khả<br /> năng có thể. Mỗi điểm trong dữ liệu được gắn<br /> với điểm trung tâm gần nhất. Điểm trung tâm<br /> thứ k mới sẽ được tính toán lại từ kết quả<br /> <br /> Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên<br /> <br /> http://www.lrc-tnu.edu.vn<br /> <br /> | 82<br /> <br /> Phùng Thị Thu Hiền và cs<br /> <br /> Tạp chí KHOA HỌC & CÔNG NGHỆ<br /> <br /> phân cụm của bước trước và quá trình nhóm<br /> các điểm dữ liệu với các điểm trung tâm gần<br /> nhất sẽ được thực hiện lặp đi lặp lại và điều<br /> đó sẽ tiếp tục cho tới khi xác định được điểm<br /> trung tâm chính.<br /> Phương pháp phân cụm K-means tìm nhóm<br /> có kích thước nhỏ nhất trong tổng bình<br /> phương các cụm, chúng ta sử dụng thuật toán<br /> sai số bình phương để tính bình phương<br /> khoảng cách Euclidean.<br /> Thuật toán K-means thực hiện theo các<br /> bước sau:<br /> 1. Đặt K điểm vào vùng phân cụm các đối<br /> tượng. Các điểm này mô tả nhóm trung tâm<br /> đầu tiên.<br /> 2. Gán mỗi đối tượng vào một nhóm có điểm<br /> trung tâm gần nhất.<br /> 3. Khi tất cả các đối tượng đã được đưa vào<br /> các nhóm, tính toán lại vị trí của K điểm trung<br /> tâm.<br /> 4. Thực hiện lặp lại bước 2 và 3 cho tới khi<br /> bỏ đi được các điểm trung tâm ở xa. Điều này<br /> giúp phân cách các đối tượng thành các nhóm<br /> có kích thước nhỏ nhất có thể.<br /> Thủ tục lặp sẽ luôn kết thúc khi điểm trung<br /> tâm không thay đổi. Tuy nhiên, cần lưu ý<br /> rằng các thuật toán không nhất thiết phải đưa<br /> ra những kết quả tối ưu. Hình 5 mô tả các<br /> bước đã nêu trên. Mỗi bước dưới đây tương<br /> ứng với trình tự của biểu đồ.<br />  Chọn số lượng cụm k. Ví dụ k=5<br />  Tạo ra ngẫu nhiên vị trí trung tâm cụm<br />  Tại mỗi Centre tìm điểm trung tâm của<br /> chính nó<br />  Thực hiện bước nhảy<br />  Thực hiện lặp lại cho tới khi kết thúc<br /> <br /> Hình 5. Thủ tục K-means<br /> <br /> Hình 6 minh họa phương thức phân cụm K<br /> trong hình 5. Chú ý rằng những dữ liệu tương<br /> tự được nhóm cùng nhau.<br /> <br /> 74(12): 80 - 85<br /> <br /> Hình 6. Phương pháp phân cụm K-means<br /> <br /> KẾT QUẢ THỰC NGHIỆM<br /> Chuẩn bị dữ liệu<br /> Dữ liệu bao gồm 10 bài hát nhạc trẻ Việt nam<br /> được lưu ở định dạng PCM wave, tần số lấy<br /> mẫu 44 KHz, mã hóa 16 bit trên một mẫu.<br /> Mỗi bài hát được trích ra một đoạn ngắn < 5 s<br /> sử dụng làm mẫu tìm kiếm.<br /> Các tham số thực nghiệm<br /> Đặc trưng MFCC được cài đặt với các tham<br /> số sau : Kích cỡ khung là 512 ms, không sử<br /> dụng khung chồng lấp, số bộ lọc trong dãy<br /> băng lọc Mel là 20, số hệ số Ceptral là 12,<br /> không sử dụng các hệ số đạo hàm Delta, kết<br /> hợp các hệ số MFCC với 1 hệ số năng lượng<br /> Giống như Beth Logan [8], phân lớp bằng<br /> cách phân hệ số cepstral thành 16 cụm theo<br /> thuật toán K-means chuẩn. Sử dụng khoảng<br /> cách Euclidean để tính toán độ tương tự.<br /> Kết quả thực nghiệm và đánh giá<br /> Chương trình demo tìm kiếm bài hát theo đặc<br /> trưng đường bao phổ MFCC thử nghiệm trên<br /> cơ sở dữ liệu nhỏ (10 bài hát) nên được thiết<br /> kế tích hợp cả thao tác huấn luyện và nhận<br /> dạng cho trực quan. Thao tác tìm kiếm nhận<br /> dạng được thử nghiệm với từng mẫu âm<br /> thanh riêng rẽ và ghi lại kết quả thủ công. Kết<br /> quả nhận dạng đúng sau đó được tổng hợp lại<br /> để cho ra kết quả nhận dạng của hệ thống.<br /> Trong thực tế khi lượng dữ liệu huấn luyện<br /> lớn cần thực hiện huấn luyện trước và lưu<br /> trong cơ sở dữ liệu. Thao tác nhận dạng và<br /> tìm kiếm được tách ra độc lập so sánh với cơ<br /> sở dữ liệu huấn luyện đã lưu. Việc tách riêng<br /> 2 thao tác huấn luyện và tìm kiếm sẽ làm<br /> giảm thời gian khi tiến hành thử nghiệm.<br /> <br /> Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên<br /> <br /> http://www.lrc-tnu.edu.vn<br /> <br /> | 83<br /> <br /> Phùng Thị Thu Hiền và cs<br /> <br /> Tạp chí KHOA HỌC & CÔNG NGHỆ<br /> <br /> Trong chương trình thử nghiệm, kết quả nhận<br /> dạng đúng cuối cùng sau 10 lần thử nghiệm là<br /> 100%. Kết quả này cao hơn kết quả đã công<br /> bố trong [8] và [10] dù dùng cùng thuật toán.<br /> Lý do có thể do chương trình demo mới thử<br /> nghiệm trên bộ cơ sở dữ liệu rất nhỏ. Hơn nữa<br /> độ dài âm thanh đầu vào (trích 1 đoạn từ file<br /> âm thanh cần tìm kiếm) đủ lớn (so với âm<br /> thanh tìm kiếm). Tỷ lệ nhận dạng sẽ giảm<br /> xuống khi dùng cơ sở dữ liệu lớn hơn (đặc<br /> biệt khi trong cơ sở dữ liệu có các bài hát có<br /> những phần tương tự nhau), tỷ lệ nhận dạng<br /> và tìm kiếm đúng cũng sẽ giảm xuống khi độ<br /> dài mẫu âm thanh đầu vào là nhỏ.<br /> Về mặt thời gian, quá trình huấn luyện và sau<br /> đó tìm kiếm hết ~ 4 s với một bài hát.<br /> Chương trình mô phỏng được xây dựng trên<br /> phần mềm matlab:<br /> <br /> Hình 7. Kết quả chạy chương trình<br /> <br /> nội dung”, Luận văn thạc sỹ công nghệ thông tin,<br /> Đại học Thái Nguyên, 12/2009.<br /> [2]. Phùng Thị Thu Hiền, PGS.TS. Thái Quang<br /> Vinh, Phùng Trung Nghĩa, Lê Tuấn Anh, “Tìm<br /> kiếm âm nhạc theo nội dung sử dụng đặc trưng<br /> tần số cơ bản F0 và giải thuật thời gian động<br /> DTW”, Tạp chí Khoa học & Công nghệ ISSN,<br /> 1859 – 2171, 2009, T55 – 59.<br /> [3]. Beth Logan and Ariel Salomon, “A Music<br /> Similarity Function Based on Signal Analysis”,<br /> Cambridge Research Laboratory<br /> [4]. S.Blackburn and D. De Roure, “A tool for<br /> content based navigation of music”, in ACM<br /> Multimedia ,1998<br /> [5]. R. Mc Nab, L. Smith, I. Witten, C.Henderson,<br /> and S.Cunningham, “Towards the digital music<br /> library: Tune retrieval from acoustic input,” in<br /> Digital Libraries 1996, 1996, pp.11-18<br /> [6]. A.Ghias, J.Logan, D. Chamberlin and<br /> B.Smith, “Query by humming,” in ACM<br /> Multimedia, 1995<br /> [7]. David Pye, “Content Based Methods for the<br /> Management of Digital Music” AT& T<br /> Labaratories Cambridge<br /> [8]. Beth Logan and Stephen Chu, “Music<br /> Summarization Using Key Phrases”, Cambridge<br /> Research Laboratories<br /> [9]. J.T. Foote, “Content-based retrieval of Music<br /> and Audio,” in SPIE, 1997, p.p 138- 147<br /> [10]. J.-S. Roger Jang, Hong-Ru Lee,<br /> "Hierarchical Filtering Method for Content-based<br /> Music Retrieval via Acoustic Input", The 9th<br /> ACM Multimedia Conference, PP. 401-410,<br /> Ottawa, Ontario, Canada, September 2001.<br /> [11]. Z.Liu and Q.Huang, “Content-based<br /> indexing and retrieval by example in audio,” in<br /> ICME 2000, 2000<br /> <br /> Hƣớng phát triển<br /> Cần xây dựng một cơ sở dữ liệu âm nhạc đủ<br /> lớn để thử nghiệm. Từ đó sẽ đánh giá được độ<br /> chính xác, hiệu quả của các phương pháp tìm<br /> kiếm và có thể đề xuất các phương pháp cải<br /> tiến thao tác trích đặc trưng và phân lớp của<br /> hệ thống tìm kiếm.<br /> Hướng nghiên cứu tiếp theo sẽ là tìm hiểu sâu<br /> hơn về các phương pháp phân lớp dữ liệu<br /> triển vọng như dùng mạng Neural, giải thuật<br /> di truyền GA, mô hình Markov ẩn HMM,…<br /> TÀI LIỆU THAM KHẢO<br /> <br /> 74(12): 80 - 85<br /> <br /> TÀI LIỆU THAM KHẢO<br /> [1]. Phùng Thị Thu Hiền, “Trích chọn đặc trưng<br /> âm thanh trong bài toán tìm kiếm âm nhạc theo<br /> nội dung”, Luận văn thạc sỹ công nghệ thông tin,<br /> Đại học Thái Nguyên, 12/2009.<br /> [2]. Phùng Thị Thu Hiền, PGS.TS. Thái Quang<br /> Vinh, Phùng Trung Nghĩa, Lê Tuấn Anh, “Tìm<br /> kiếm âm nhạc theo nội dung sử dụng đặc trưng<br /> tần số cơ bản F0 và giải thuật thời gian động<br /> DTW”, Tạp chí Khoa học & Công nghệ ISSN,<br /> 1859 – 2171, 2009, T55 – 59.<br /> <br /> [1]. Phùng Thị Thu Hiền, “Trích chọn đặc trưng<br /> âm thanh trong bài toán tìm kiếm âm nhạc theo<br /> Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên<br /> <br /> http://www.lrc-tnu.edu.vn<br /> <br /> | 84<br /> <br />
ADSENSE
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2