YOMEDIA
ADSENSE
Phát hiện vi phạm bản quyền trong âm nhạc
7
lượt xem 2
download
lượt xem 2
download
Download
Vui lòng tải xuống để xem tài liệu đầy đủ
Bài viết Phát hiện vi phạm bản quyền trong âm nhạc đề xuất giải pháp nhằm tự động hóa việc phát hiện vi phạm bản quyền trong âm nhạc. Trong một đoạn âm thanh, các điểm cực đại trên miền tần số - thời gian sẽ chứa những đặc trưng nổi bật nhất, chúng khó có thể bị mất mát khi gặp nhiễu.
AMBIENT/
Chủ đề:
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Phát hiện vi phạm bản quyền trong âm nhạc
- Tuyển tập Hội nghị Khoa học thường niên năm 2022. ISBN: 978-604-82-7001-8 PHÁT HIỆN VI PHẠM BẢN QUYỀN TRONG ÂM NHẠC Nguyễn Đức Huy1, Đỗ Văn Hải2 1 Trung tâm Không gian Mạng Viettel 2 Trường Đại học Thủy lợi 1. GIỚI THIỆU CHUNG trưng bằng phương pháp tương tự, sau đó tìm kiếm các đặc trưng trùng khớp trong cơ sở dữ Hiện nay, việc vi phạm bản quyền âm nhạc liệu các đặc trưng. Cuối cùng, kết quả đầu ra là đang diễn ra ngày càng phổ biến và phức tạp, các bài hát có tỉ lệ trùng khớp đặc trưng cao nhưng phần lớn việc phát hiện vi phạm vẫn nhất. Các đặc trưng được gọi là Fingerprint, phải làm thủ công. Vì vậy, chúng tôi đề xuất việc trích xuất đặc trưng của tệp âm thanh giải pháp nhằm tự động hóa việc phát hiện vi được gọi là trích xuất Fingerprint [2]. phạm bản quyền trong âm nhạc. Trong một đoạn âm thanh, các điểm cực đại trên miền tần 2.1. Trích xuất đặc trưng số - thời gian sẽ chứa những đặc trưng nổi bật Phương pháp để trích xuất đặc trưng của nhất, chúng khó có thể bị mất mát khi gặp một bài hát là tìm ra những điểm cực đại trên nhiễu. Vì thế, chúng tôi trích xuất các đặc biểu đồ phổ Spectrogram sau đó mã hóa trưng của điểm cực đại, và sử dụng các đặc chúng để lưu trữ và đối chiếu. trưng đó để so sánh giữa các đoạn nhạc. Từ đó đưa ra kết quả dự đoán một đoạn nhạc đầu vào giống với bài hát nào, giống ở đoạn nào, và các điểm đánh giá khác. Chúng tôi tiến hành thử nghiệm trên bộ dữ liệu gồm 44 bài hát và dùng 84 đoạn nhạc để dự đoán. Kết quả đạt được độ chính xác 80% đối với tập dữ liệu trên. 2. PHƯƠNG PHÁP Hình 1. Mô hình chung của phương pháp Như mô tả trên Hình 1, đầu tiên, các bài hát Hình 2. Biểu đồ phổ và các điểm cực đại sẽ được trích xuất đặc trưng và lưu các đặc Spectrogram trưng vào một cơ sở dữ liệu, gọi là cơ sở dữ liệu các đặc trưng. Khi nhận được một đoạn Trượt một cửa sổ dọc theo tín hiệu để lấy nhạc mới, đoạn nhạc sẽ được trích xuất đặc ra các frame rồi áp dụng thuật toán Fast 94
- Tuyển tập Hội nghị Khoa học thường niên năm 2022. ISBN: 978-604-82-7001-8 Fourier Transform (FFT) trên từng frame hash{freq_1; freq_2; time_difference} này. Đầu ra của bước này là một dãy các giá Trong đó, freq_1 là tần số của điểm cực trị thực, các giá trị này chính là cường độ đại gốc, freq_2 là tần số của điểm cực đại lân tương ứng với từng tần số. Áp dụng trên tất cận, time_difference là khoảng cách thời gian cả các frame sẽ thu được một biểu đồ giữa hai điểm cực đại, được tính bằng Spectrogram. (time_2 - time_1). Nhờ sử dụng cách hash Như vậy, có thể coi biểu đồ Spectrogram trên, các đặc trưng được tạo ra ít khi có sự là một ma trận MxN với M là số tần số thu trùng lặp giữa các bài hát. Các đặc trưng này được và N là thời gian thu. Và mỗi giá trị được gọi là Fingerprint, được sử dụng để lưu trong ma trận đó là cường độ có vị trí được trữ và đối chiếu giữa các đoạn nhạc [2]. biểu diễn bởi một cặp (tần số, thời gian) [2]. Hơn nữa, nhằm phục vụ cho việc đối chiếu giữa các đoạn nhạc, ta lưu thêm một giá trị Điểm cực đại offset. Giá trị offset của một Fingerprint Một bài hát sẽ được đặc trưng bởi các chính là time_1, tức là giá trị thời gian của điểm cực đại trên biểu đồ phổ. Điểm cực đại điểm làm gốc. Như vậy, giá trị offset đại diện ở đây có nghĩa là những điểm có giá trị cao cho khoảng cách thời gian từ điểm gốc của hơn so với những điểm lân cận. Fingerprint đến đầu đoạn nhạc. Việc lưu lại Như đã đề cập ở trên, biểu đồ phổ có thể giá trị offset sẽ giúp tính toán được thời gian coi như một hình ảnh hay một ma trận hai xuất hiện Fingerprint trùng nhau của đoạn chiều. Để tìm ra được các điểm cực đại trong nhạc này trong đoạn nhạc kia. Như vậy, một một vùng ảnh, chúng tôi đã sử dụng một bộ Fingerprint sẽ được đại diện bởi một cặp lọc áp dụng lên từng vùng ảnh để lấy ra giá (hash_value, offset). trị lớn nhất. Và các điểm cực đại được lưu 2.2 Đối chiếu đoạn nhạc dưới dạng một cặp (tần số, thời gian) tương ứng. Sau khi áp dụng bộ lọc lên toàn bộ biểu Sau khi có được cơ sở dữ liệu các đặc đồ phổ, thu được một tập hợp các điểm cực trưng bằng cách sử dụng các bài hát và trích đại, mỗi điểm được đại diện bởi một cặp (tần xuất Fingerprint, ta trích xuất Fingerprint đối số, thời gian) [2]. với một đoạn nhạc mới. Mỗi Fingerprint của Để phục vụ cho việc tìm kiếm, so sánh đoạn nhạc mới này sẽ được tìm kiếm trong giữa các bài hát, các điểm cực đại cần được cơ sở dữ liệu các đặc trưng. Cụ thể hơn là tìm lưu trữ dưới dạng một dữ liệu tiêu chuẩn, có kiếm các hash_value trùng khớp trong cơ sở độ dài giống nhau nhưng cũng phải đảm bảo dữ liệu các đặc trưng. Sau đó, kết quả đầu ra việc ít bị trùng lặp. Hàm hash ở bước tiếp là những bài hát có tỉ lệ trùng khớp theo được sử dụng với mục đích này. Fingerprint cao nhất. Giả sử ta cần so sánh bài hát song với đoạn Fingerprint hashing nhạc mới là sample, các điểm đánh giá được Hàm hash có tác dụng biến đầu vào là một tính bằng cách: nội dung có độ dài bất kỳ thành đầu ra tiêu match_fingerprints Input_confidence chuẩn có độ dài nhất định. Sau khi đưa qua sample_fingerprints hàm hash, giá trị đầu vào giống nhau sẽ có match_fingerprints đầu ra giống nhau, còn giá trị đầu vào khác Fingerprint_confidence song_fingerprints sau sẽ sinh ra đầu ra rất ít có sự trùng lặp. Giả sử, có hai điểm cực đại peak_1 và Trong đó: match_fingerprints: số lượng fingerprint peak_2 được đại diện bởi cặp (freq_1, trùng khớp giữa song và sample time_1), (freq_2, time_2). Một Fingerprint là sample_fingerprints: số lượng fingerprint kết quả khi đưa vào hàm hash các giá trị: của sample 95
- Tuyển tập Hội nghị Khoa học thường niên năm 2022. ISBN: 978-604-82-7001-8 song_fingerprints: số lượng fingerprint của song Kết quả được xếp hạng dựa trên điểm Input_confidence, sau đó tính đến Fingerprint_confidence. 3. KẾT QUẢ NGHIÊN CỨU Để đánh giá hiệu quả của phương pháp đã đề xuất, chúng tôi sử dụng bộ dữ liệu gồm 44 bài hát nhạc Việt Nam. Các bài hát được lấy từ nhaccuatui.com. Môi trường được cài đặt là Google Colab và không sử dụng GPU. Hình 3. Thời gian thực thi của phương pháp Thực nghiệm được tiến hành với các tham số: đối với các đoạn nhạc có độ dài khác nhau Kích thước bộ lọc: 2020 Số lượng điểm cực đại lân cận được sử 4. KẾT LUẬN dụng để hash: 5 Phương pháp của chúng tôi phát hiện tốt với Để kiểm tra độ chính xác với những đoạn những đoạn nhạc không có sự biến đổi về tốc âm thanh không bị biến đổi, chúng tôi thực độ và tần số. Việc thay đổi tốc độ và tần số của hiện cắt ngẫu nhiên các đoạn dài ngắn khác bài hát tác động trực tiếp đến biểu đồ phổ được nhau của 44 bài hát và nhận diện 44 đoạn trích xuất từ bài hát, vì thế nên ảnh hưởng đến nhạc đó. Kết quả cho ra độ chính xác là chất lượng của phương pháp đã đề xuất. Định 100% đối với bộ dữ liệu, tức là đoán đúng hướng tiếp theo của nghiên cứu sẽ là sử dụng 44/44 đoạn nhạc. những mô hình học sâu để trích xuất Để thử nghiệm với những đoạn âm thanh fingerprint tự động nhằm tăng độ chính xác bị biến đổi, chúng tôi đã tăng tốc độ của 20 trên cả những dữ liệu bị biến đổi. Bên cạnh đó, đoạn nhạc đã được cắt ra lên 1.4 lần thì kết chúng tôi tiếp tục thử nghiệm với các cơ sở dữ quả đạt được giảm xuống 95%, tức là đoán liệu bài hát có chèn nhiễu từ môi trường. đúng 19/20 đoạn nhạc. Tiếp theo, chúng tôi đã thử kết hợp tăng tốc độ 1.4 lần và tăng 5. TÀI LIỆU THAM KHẢO tần số của bài hát, và kết quả là độ chính [1] Cheng Yang, “MACS: Music Audio xác giảm xuống 10%, tức là đoán đúng 2/20 Characteristic Sequence Indexing For đoạn nhạc. Similarity Retrieval”, in IEEE Workshop on Để kiểm tra tốc độ của phương pháp được Applications of Signal Processing to Audio cài đặt, chúng tôi sử dụng một bài hát, và cắt and Acoustics, 2001. ra các đoạn nhạc có độ dài khác nhau. Sau đó [2] Wang, Avery. (2003). An Industrial đối chiếu với cơ sở dữ liệu đặc trưng của 44 Strength Audio Search Algorithm. bài hát trên. Kết quả là trung bình thời gian [3] W. Drevo, “Dejavu: open-source audio fingerprinting project,” 2014, [Online]. của 3 lần chạy đối với từng đoạn nhạc. 96
ADSENSE
CÓ THỂ BẠN MUỐN DOWNLOAD
Thêm tài liệu vào bộ sưu tập có sẵn:
Báo xấu
LAVA
AANETWORK
TRỢ GIÚP
HỖ TRỢ KHÁCH HÀNG
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn