intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận án Tiến sĩ Kỹ thuật máy tính: Định danh tự động một số làn điệu dân ca Việt Nam

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:123

18
lượt xem
11
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án "Định danh tự động một số làn điệu dân ca Việt Nam" tập trung nghiên cứu một số mô hình và đề xuất mô hình phù hợp dùng cho định danh tự động làn điệu dân ca Việt Nam, với bộ dữ liệu dùng cho định danh là các làn điệu phổ biến của Chèo và Quan họ. Ngoài ra, luận án cũng thực hiện phân lớp thể loại âm nhạc trên hai bộ dữ liệu nổi tiếng là GTZAN và FMA nhằm khẳng định khả năng tổng quát hoá của mô hình đề xuất, đồng thời đánh giá ảnh hưởng của các phương pháp tăng cường dữ liệu đến độ chính xác của mô hình.

Chủ đề:
Lưu

Nội dung Text: Luận án Tiến sĩ Kỹ thuật máy tính: Định danh tự động một số làn điệu dân ca Việt Nam

  1. LỜI CAM ĐOAN Tôi xin cam đoan tất cả các nội dung trong luận án “Định danh tự động một số làn điệu dân ca Việt Nam” là công trình nghiên cứu của cá nhân tôi. Các số liệu, kết quả trong luận án là trung thực và chưa từng được tác giả khác công bố. Việc tham khảo các nguồn tài liệu đã được thực hiện trích dẫn đầy đủ và ghi nguồn tài liệu tham khảo đúng quy định. Hà Nội, ngày 25 tháng 8 năm 2023 GIÁO VIÊN HƯỚNG DẪN TÁC GIẢ LUẬN ÁN PGS.TS. Trịnh Văn Loan Chu Bá Thành 1
  2. LỜI CẢM ƠN Để hoàn thành Luận án này, ngoài sự nỗ lực, cố gắng của bản thân, tôi còn nhận được sự hỗ trợ, giúp đỡ tận tình từ thầy hướng dẫn; các thầy cô trong Khoa Kỹ thuật máy tính - Trường Công nghệ Thông tin & Truyền thông, Đại học Bách khoa Hà Nội và các thành viên trong gia đình. Tôi muốn bày tỏ lòng biết ơn của mình đến các thầy cô, bạn bè và đồng nghiệp đã giúp đỡ tôi để có được kết quả này. Trước hết, tôi xin gửi lời cảm ơn sâu sắc đến thầy hướng dẫn là PGS.TS. Trịnh Văn Loan. Thầy đã luôn tận tình giúp đỡ, chỉ bảo, đưa ra những lời khuyên bổ ích, những định hướng khoa học và phương pháp nghiên cứu hết sức quý báu để tôi có thể triển khai và hoàn thành luận án này. Tiếp đến, tôi xin trân trọng cảm ơn Đại học Bách khoa Hà Nội; Trường Công nghệ Thông tin & Truyền thông; Khoa Kỹ thuật máy tính đã tạo điều kiện tốt nhất cho tôi trong thời gian học tập. Tôi cũng xin chân thành cảm ơn các đồng nghiệp tại Khoa Công nghệ Thông tin - Trường Đại học Sư phạm Kỹ thuật Hưng Yên đã hỗ trợ, giúp đỡ và động viên tôi trong suốt thời gian học tập. Cuối cùng, tôi xin bày tỏ lòng biết ơn sâu sắc đến cha mẹ, anh, chị, em và gia đình đã luôn ở bên để động viên, giúp đỡ tôi vượt qua các khó khăn, trở ngại để hoàn thành quá trình học tập của mình. Xin trân trọng cảm ơn! 2
  3. MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ................................................ 6 DANH MỤC CÁC BẢNG ......................................................................................... 7 DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ ................................................................. 9 MỞ ĐẦU .................................................................................................................. 12 Chương 1. TỔNG QUAN VỀ ÂM NHẠC VÀ PHÂN LỚP ÂM NHẠC THEO THỂ LOẠI ......................................................................................................................... 16 1.1 Âm thanh, âm nhạc ................................................................................................. 16 1.1.1 Khái niệm âm thanh, âm nhạc................................................................... 16 1.1.2 Một số yếu tố cơ bản của âm nhạc ............................................................ 17 1.2 Một số đặc trưng trích chọn từ tín hiệu âm nhạc................................................... 18 1.2.1 Đặc trưng thống kê.................................................................................... 18 1.2.2 Đặc trưng trong miền thời gian ................................................................. 19 1.2.3 Đặc trưng phổ............................................................................................ 22 1.3 Một số thể loại âm nhạc phổ biến trên thế giới ..................................................... 25 1.4 Đôi nét về nhạc dân ca Việt Nam........................................................................... 26 1.4.1 Đặc điểm âm nhạc, lời ca trong Chèo ....................................................... 27 1.4.2 Đặc điểm âm nhạc, lời ca trong Quan họ.................................................. 28 1.4.3 Đặc điểm kỹ thuật hát Chèo và Quan họ .................................................. 30 1.5 Phân lớp âm nhạc theo thể loại............................................................................... 34 1.6 Một số bộ dữ liệu âm nhạc theo thể loại điển hình ............................................... 35 1.7 Một số mô hình dùng trong phân lớp thể loại âm nhạc ........................................ 35 1.7.1 Bộ phân lớp SVM (Support Vector Machine) .......................................... 35 1.7.2 Bộ phân lớp GMM (Gaussian Mixture Model) ........................................ 36 1.7.3 Mạng nơ-ron nhân tạo (Artificial Neural Network) ................................. 38 1.8 Một số kết quả nghiên cứu phân lớp thể loại âm nhạc trong và ngoài nước ....... 48 1.8.1 Tình hình nghiên cứu ngoài nước ............................................................. 48 1.8.2 Tình hình nghiên cứu trong nước ............................................................. 54 1.9 Kết chương 1 ........................................................................................................... 55 3
  4. Chương 2. ĐỊNH DANH MỘT SỐ LÀN ĐIỆU DÂN CA VIỆT NAM ................. 56 2.1 Bộ dữ liệu âm nhạc Chèo và Quan họ ................................................................... 56 2.2 Một số phương pháp tăng cường dữ liệu ............................................................... 58 2.2.1 Chia đôi các file dữ liệu âm nhạc.............................................................. 59 2.2.2 Tạo tiếng vọng (creating echo) ................................................................. 59 2.2.3 Cộng nhiễu trắng (adding white noise) ..................................................... 59 2.2.4 Thay đổi cao độ (changing pitch) ............................................................. 60 2.3 Phân lớp, định danh một số làn điệu dân ca Việt Nam dùng một số thuật toán học máy truyền thống ........................................................................................................... 61 2.3.1 Trường hợp 1: Định danh một số làn điệu Quan họ dùng một số mô hình truyền thống thuộc bộ công cụ WEKA .............................................................. 61 2.3.2 Trường hợp 2: Định danh một số làn điệu Quan họ dùng GMM ............. 64 2.3.3 Trường hợp 3: Phân lớp, định danh Chèo và Quan họ ............................. 66 2.3.4 Trường hợp 4: Phân lớp Chèo và Quan họ ............................................... 69 2.3.5 Trường hợp 5: Định danh Chèo hoặc Quan họ ......................................... 72 2.3.6 Trường hợp 6: Định danh Chèo và Quan họ dùng i-vector ...................... 75 2.4 Phân lớp và định danh một số làn điệu dân ca Việt Nam dùng học sâu .............. 77 2.4.1 Bộ dữ liệu và tham số sử dụng.................................................................. 77 2.4.2 Các mạng nơ-ron sâu dùng trong nghiên cứu ........................................... 78 2.4.3 Kết quả nghiên cứu phân lớp và định danh .............................................. 84 2.5 Kết chương 2 ........................................................................................................... 88 Chương 3. PHÂN LỚP THỂ LOẠI ÂM NHẠC TRÊN BỘ DỮ LIỆU NHẠC VIỆT, GTZAN VÀ FMA DÙNG HỌC SÂU ..................................................................... 89 3.1 Các độ đo Accuracy, Precision, Recall và f1-score .............................................. 89 3.2 Phân lớp nhạc Việt dùng RAN (Residual Attention Network) ............................ 90 3.3 Nghiên cứu phân lớp thể loại âm nhạc đối với các bộ dữ liệu GTZAN và FMA_SMALL ............................................................................................................... 93 3.3.1 Nghiên cứu phân lớp đối với GTZAN ...................................................... 93 3.3.3 Nghiên cứu phân lớp đối với FMA_SMALL ......................................... 102 3.4 Kết chương 3 ......................................................................................................... 108 4
  5. KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN .................................................. 110 1. Kết luận ........................................................................................................ 110 2. Định hướng phát triển .................................................................................. 111 DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN ................. 113 TÀI LIỆU THAM KHẢO ...................................................................................... 114 5
  6. DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Chữ viết tắt Chữ viết đầy đủ Ý nghĩa ANN Artificial Neural Network Mạng nơ-ron nhân tạo CNN Convolutional Neural Networks Mạng nơ-ron lấy chập Convolutional Recurrent Neural CRNN Mạng nơ-ron hồi quy lấy chập Networks CSN Capsule Neural Networks Mạng nơ-ron viên nang Deep Convolutional Neural DCNN Mạng nơ-ron lấy chập sâu Networks Đơn vị kích hoạt tuyến tính và ELU Exponential Linear Unit hàm mũ GMM Gaussian Mixture Model Mô hình hỗn hợp Gauss Bộ phân lớp k- láng giềng gần k-NN k- Nearest Neighbor nhất Mel Frequency Cepstral Các hệ số Cepstrum theo thang MFCC Coefficients tần số Mel MGC Music Genre Classification Phân lớp thể loại âm nhạc MIR Music Information Retrieval Truy xuất thông tin âm nhạc ReLU Rectified Linear Unit Đơn vị chỉnh lưu tuyến tính Sequential Minimal Thuật toán tối ưu hóa tối thiểu SMO Optimization tuần tự SVM Support Vector Machine Máy vector hỗ trợ UBM Universal Background Model Mô hình nền phổ quát DFT Discrete Fourier Transforms Biến đổi Fourier rời rạc MSE Mean Square for Error Trung bình bình phương lỗi EM Expectation Maximization Cực đại hóa kỳ vọng ML Maximum-Likelihood Cực đại khả hiện 6
  7. DANH MỤC CÁC BẢNG Bảng 1.1 So sánh giữa các kỹ thuật hát Chèo và hát Quan họ (nguồn: [77]) .......... 30 Bảng 1.2 Một số bộ dữ liệu âm nhạc điển hình theo thể loại ................................... 35 Bảng 1.3 Một số hàm kích hoạt thường dùng (nguồn: [89]) .................................... 39 Bảng 1.4 Thời gian và địa điểm tổ chức ISMIR hàng năm (nguồn: [38]) ............... 49 Bảng 1.5 Tóm tắt một số kết quả nghiên cứu nổi bật về MGC trên GTZAN .......... 50 Bảng 1.6 Tóm tắt một số kết quả nghiên cứu nổi bật về MGC trên FMA_SMALL 52 Bảng 2.1 Ký hiệu các làn điệu Chèo và Quan họ dùng cho bộ dữ liệu .................... 57 Bảng 2.2 Các trường hợp phân lớp và định danh ..................................................... 61 Bảng 2.3 Tỷ lệ (%) định danh đúng dùng SMO ....................................................... 62 Bảng 2.4 Tỷ lệ (%) định danh đúng dùng MultiLayer Perceptron ........................... 63 Bảng 2.5 Tỷ lệ (%) định danh đúng dùng MultiClass Classifier ............................. 63 Bảng 2.6 Tổng hợp kết quả định danh...................................................................... 63 Bảng 2.7 Ma trận nhầm lẫn với M = 16 trên 2 bộ tham số ...................................... 64 Bảng 2.8 Ma trận nhầm lẫn với M = 8192 trên 2 bộ tham số .................................. 65 Bảng 2.9 Ma trận nhầm lẫn trong định danh làn điệu Chèo với M = 16.................. 67 Bảng 2.10 Ma trận nhầm lẫn trong định danh làn điệu Quan họ với M = 16 .......... 67 Bảng 2.11 Ma trận nhầm lẫn trong định danh làn điệu Chèo với M = 4096............ 68 Bảng 2.12 Ma trận nhầm lẫn trong định danh làn điệu Quan họ với M = 4096 ...... 68 Bảng 2.13 Các bộ tham số sử dụng .......................................................................... 70 Bảng 2.14 Các bộ tham số dùng trong nghiên cứu................................................... 78 Bảng 2.15 Các tham số của CNN dùng trong trường hợp phân lớp ........................ 79 Bảng 2.16a Các tham số của LSTM-1 dùng trong định danh .................................. 80 Bảng 2.16b Các tham số của LSTM-2 dùng trong định danh .................................. 81 Bảng 2.17a Các tham số của CRNN-1 dùng trong phân lớp.................................... 83 Bảng 2.17b Các tham số của CRNN-2 dùng trong định danh ................................. 83 Bảng 2.18 Tổng hợp kết quả phân lớp Chèo và Quan họ với 2 bộ tham số............. 85 Bảng 2.19 Tổng hợp kết quả định danh trên bộ dữ liệu Quan họ ............................ 85 Bảng 2.20 Tổng hợp kết quả định danh trên bộ dữ liệu Chèo.................................. 86 Bảng 2.21 Chênh lệch về tỷ lệ định danh đúng của CNN so với 2 mô hình còn lại 87 Bảng 3.1 Độ chính xác của phân loại ảnh phổ trên tập xác thực ............................. 92 Bảng 3.2 Độ chính xác của tập xác thực cho mỗi lần huấn luyện với fold_ext ....... 92 Bảng 3.3 Độ chính xác của tập xác thực trên ảnh phổ và trên file âm thanh ........... 93 Bảng 3.4 Số lượng từng thể loại nhạc trong bộ dữ liệu GTZAN [24] ..................... 94 Bảng 3.5 Cấu hình của CNN với 300 tham số ......................................................... 94 7
  8. Bảng 3.6 Cấu hình của LSTM với 300 tham số ....................................................... 95 Bảng 3.7 Cấu hình của GRU với 300 tham số ......................................................... 95 Bảng 3.8 Cấu hình của CSN với 300 tham số .......................................................... 96 Bảng 3.9 Mô tả các bộ dữ liệu được sử dụng trong nghiên cứu .............................. 96 Bảng 3.10: Kết quả phân lớp trên tập dữ liệu S2n1 ................................................. 97 Bảng 3.11 Trung bình độ chính xác, AUC của LSTM, CNN, GRU, CSN trên S7 100 Bảng 3.12: Kết quả phân lớp trên tập dữ liệu S8 và S9 ......................................... 100 Bảng 3.13: Kết quả phân lớp trên tập dữ liệu S0, S1, S2n2, S2n3 ......................... 101 Bảng 3.14: Kết quả phân lớp trên tập dữ liệu S2n2 và S2n3 dùng GRU ............... 101 Bảng 3.15 Diễn giải các bộ dữ liệu sử dụng........................................................... 103 Bảng 3.16: Kết quả phân lớp trên tập dữ liệu S4fH và S4fL dùng DensetNet169 104 Bảng 3.17: Kết quả phân lớp trên tập dữ liệu S4fL ................................................ 104 Bảng 3.18: Kết quả phân lớp trên tập dữ liệu S3e, S2 và S1 ................................. 106 Bảng 3.19: Kết quả phân lớp trên tập dữ liệu S3s, S5s và S5t ............................... 107 Bảng 3.20 Thời gian trung bình để huấn luyện một epoch và thời gian để hàm tổn thất hội tụ ....................................................................................................................... 108 8
  9. DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ Hình 1.1 Minh hoạ phân phối Skewness ................................................................. 19 Hình 1.2 Minh hoạ phân bố Kurtosis ....................................................................... 19 Hình 1.3 Năng lượng và RMS của một làn điệu Chèo ............................................ 20 Hình 1.4 ZCR của một làn điệu Chèo ...................................................................... 20 Hình 1.5 Các bước tính các hệ số MFCC ................................................................ 21 Hình 1.6 Các hệ số MFCC và các đạo hàm MFCC của một làn điệu Chèo ............ 22 Hình 1.7 Spectral Centroid của một làn điệu Chèo và Quan họ .............................. 22 Hình 1.8 Spectral Contrast của một làn điệu Quan họ và Chèo .............................. 23 Hình 1.9 Spectral Rolloff của một làn điệu Chèo và Quan họ ................................ 23 Hình 1.10 Spectral Bandwidth của một làn điệu Chèo và Quan họ ........................ 24 Hình 1.11 Spectral Flux của một làn điệu Quan họ ................................................. 24 Hình 1.12 Sơ đồ chung cho hệ thống phân lớp thể loại âm nhạc (nguồn: [22]) ...... 34 Hình 1.13 Hình ảnh dữ liệu, đường biên và lề trong SVM ..................................... 36 Hình 1.14 Phân bố Gauss với một số giá trị của 𝜇 và 𝜎 .......................................... 36 Hình 1.15 Phân bố Gauss đa thể hiện là tổ hợp của 3 phân bố Gauss đơn thể hiện 37 Hình 1.16a Cấu trúc của một nơ-ron sinh học (nguồn: [88]) .................................. 38 Hình 1.16b Cấu trúc của một nơ-ron nhân tạo ........................................................ 38 Hình 1.17 Minh hoạ cách lấy chập khi áp bộ lọc lên ma trận đầu vào .................... 41 Hình 1.18 Minh hoạ thao tác pooling sử dụng max-pooling ................................... 42 Hình 1.19 Gated Recurrent Unit (nguồn: [103]) ..................................................... 43 Hình 1.20 Sơ đồ của Residual Block với hàm ReLU .............................................. 44 Hình 1.21 Attention module là sự kết hợp của Soft mask branch và Trunk branch 44 Hình 1.22 Soft mask branch sử dụng trong Attention module ................................ 45 Hình 1.23 Kiến trúc DenseNet với 3 khối Dense .................................................... 46 Hình 1.24 Mạng CSN gồm M capsule ở mức cao và N capsule ở mức thấp .......... 47 Hình 1.25 Dạng sóng và phổ Mel tương ứng cho một trích đoạn của file blues.00011.wav của thể loại nhạc Blue. ................................................................. 48 Hình 1.26 Thống kê số lượng bài báo có trích dẫn đến [24] ................................... 50 Hình 2.1 Minh họa việc chia một file âm thanh thành hai nửa cùng thể loại và phổ Mel tương ứng .......................................................................................................... 59 Hình 2.2 Tiếng vọng được quan sát ở phần cuối của file âm thanh ........................ 59 Hình 2.3 Cách tính SNR của một file và giá trị trung bình của SNR ...................... 60 Hình 2.4 Minh hoạ việc dịch chuyển cao độ lên nửa cung và một cung ................. 60 Hình 2.5 Kết quả định danh dùng GMM với số thành phần Gauss M = 16  8192 65 9
  10. Hình 2.6 Tỷ lệ nhận dạng đúng trong phân lớp sơ bộ ............................................. 66 Hình 2.7 Tổng hợp kết quả phân lớp chi tiết với M = 16  4096 ............................ 69 Hình 2.8 Sơ đồ phân lớp Chèo và Quan họ trên toàn bộ tập dữ liệu ....................... 70 Hình 2.9 Tỷ lệ phân lớp tương ứng với 4 bộ tham số trên dữ liệu Quan họ............ 70 Hình 2.10 Trung bình tỷ lệ phân lớp đúng với 4 bộ tham số trên dữ liệu Quan họ 71 Hình 2.11 Tỷ lệ phân lớp tương ứng với 4 bộ tham số trên dữ liệu Chèo ............... 71 Hình 2.12 Trung bình tỷ lệ phân lớp đúng với 4 bộ tham số trên dữ liệu Chèo ...... 72 Hình 2.13 Sơ đồ định danh Chèo và Quan họ dựa trên trích đoạn ngắn ................. 72 Hình 2.14 Tỷ lệ định danh đúng của các trích đoạn Chèo ứng với 3 giá trị của M. 73 Hình 2.15 Tỷ lệ định danh đúng của các trích đoạn Quan họ với 3 giá trị của M... 75 Hình 2.16 So sánh tỷ lệ định danh đúng trung bình của PLDA, SphNormPLDA sử dụng i-vector với GMM sử dụng bộ tham số S1 trên tập dữ liệu Chèo ................... 76 Hình 2.17 So sánh tỷ lệ định danh đúng trung bình của PLDA, SphNormPLDA sử dụng i-vector với GMM sử dụng bộ tham số S1 trên tập dữ liệu Quan họ .............. 76 Hình 2.18 Cấu hình của mô hình CNN với 157 tham số dùng trong định danh ..... 80 Hình 2.19 Cấu hình của LSTM với 183 tham số dùng trong định danh ................. 81 Hình 2.20 Cấu hình của CRNN với 157 tham số dùng trong định danh ................. 82 Hình 2.21 Phân chia dữ liệu dùng cho huấn luyện, xác thực và nhận dạng ............ 84 Hình 2.22 Tổn thất của độ chính xác huấn luyện, xác thực trong phân lớp và định danh biến thiên theo epoch ....................................................................................... 87 Hình 3.1 Số lượng file tương ứng với mỗi thể loại trong bộ dữ liệu ....................... 90 Hình 3.2 Số lượng ảnh phổ trong tập dữ liệu huấn luyện ........................................ 91 Hình 3.3 Kiến trúc của RAN dùng trong phân lớp thể loại nhạc Việt .................... 91 Hình 3.4 Trung bình độ chính xác phân lớp của các mô hình LSTM, CNN, GRU và CSN trên bộ dữ liệu S2n1 ......................................................................................... 98 Hình 3.5 Mô hình LSTM: Trung bình cực đại và cực tiểu của Precision, Recall và f1-score của 10 thể loại nhạc trong tập dữ liệu S7 ................................................... 98 Hình 3.6 Mô hình CNN: Trung bình cực đại và cực tiểu của Precision, Recall và f1- score của 10 thể loại nhạc trong tập dữ liệu S7 ........................................................ 99 Hình 3.7 Mô hình GRU: Trung bình cực đại và cực tiểu của Precision, Recall và f1- score của 10 thể loại nhạc trong tập dữ liệu S7 ........................................................ 99 Hình 3.8 Mô hình CSN: Trung bình cực đại và cực tiểu của Precision, Recall và f1- score của 10 thể loại nhạc trong tập dữ liệu S7 ........................................................ 99 Hình 3.9 So sánh độ chính xác phân lớp của LSTM, CNN, GRU và CSN trên bộ dữ liệu S7; GRU và CSN trên bộ dữ liệu S8 và S9. .................................................... 101 Hình 3.10 Độ chính xác phân lớp của GRU trên những tập dữ liệu khác nhau .... 102 10
  11. Hình 3.11 Tóm tắt về độ phân lớp chính xác của các mô hình trên bộ dữ liệu S4fL ................................................................................................................................ 105 Hình 3.12 Tổn thất của các độ chính xác huấn luyện và xác thực biến thiên theo epoch; ma trận nhầm lẫn và đường cong ROC ...................................................... 105 Hình 3.13 Độ chính xác của DenseNet169 phụ thuộc vào kích thước dữ liệu ...... 106 11
  12. MỞ ĐẦU 1. Lý do chọn đề tài Âm nhạc là một trong những món ăn tinh thần không thể thiếu trong đời sống của mỗi con người. Con người thường nghe nhạc để giải toả cảm xúc, tạo cảm giác thoải mái, thư giãn và tìm lại cân bằng trong cuộc sống hàng ngày. Trước đây, các tác phẩm âm nhạc thường được phân phối đến người dùng dưới dạng các đĩa CD/DVD, băng từ… thông qua các cửa hàng băng đĩa nhạc. Mỗi album như vậy thường chứa từ 10 đến 15 bài hát thường của cùng một ca sĩ hay nghệ sĩ. Ngày nay, cùng với sự bùng nổ của Internet băng thông rộng, các đĩa CD/DVD và băng từ đã trở nên không còn phổ biến và dần được thay thế bằng các cơ sở dữ liệu (CSDL) nhạc số. Mỗi cá nhân hiện nay có thể sở hữu hàng nghìn bản nhạc số và họ có thể tự xây dựng thư viện âm nhạc theo sở thích cho riêng mình để thưởng thức và có thể chia sẻ chúng đến với cộng đồng. Các nghiên cứu liên quan đến khai phá dữ liệu âm nhạc rất đa dạng và đã được thực hiện từ rất lâu, theo nhiều hướng khác nhau như: Phân lớp âm nhạc theo thể loại (MGC - Music Genre Classification), định danh nghệ sĩ/ca sĩ, phát hiện cảm xúc/tâm trạng, nhận biết nhạc cụ… Tuy nhiên, với số lượng các tác phẩm âm nhạc được số hoá ngày càng nhiều đã gây ra không ít khó khăn cho người yêu nhạc (thậm chí ngay cả các chuyên gia) trong việc tổ chức các CSDL nhạc số khổng lồ. Việc tìm kiếm các phương pháp mới để khám phá, giới thiệu và quảng bá âm nhạc cũng đặt ra cho ngành công nghiệp nhạc số và các nhóm nghiên cứu những thách thức không hề nhỏ. Năm 2003, trong luận văn của mình, Heittola [1] đã đề xuất phương pháp hữu dụng nhất để quản lý các CSDL nhạc số khổng lồ bằng cách phân lớp âm nhạc theo thể loại. Tuy nhiên, việc xác định một thể loại âm nhạc cụ thể vẫn còn là một vấn đề rất khó, vì ranh giới giữa các thể loại âm nhạc thường không rõ ràng. Một bản nhạc có thể kết hợp các yếu tố từ nhiều thể loại khác nhau, làm cho việc phân loại trở nên khó khăn. Mặt khác, một thể loại âm nhạc có thể chứa nhiều phong cách, biến thể, hoặc ảnh hưởng từ văn hóa khác nhau, dẫn đến sự đa dạng trong cách biểu đạt và âm thanh. Do đó, việc đưa ra khái niệm về thể loại còn chưa rõ ràng, phụ thuộc nhiều vào cảm tính và nhận thức của con người [2]. Việt Nam là một quốc gia đa dân tộc với nền văn hóa lâu đời nên dân ca Việt Nam hết sức đa dạng và phong phú. Dân ca của mỗi dân tộc, mỗi vùng miền lại mang màu sắc, bản sắc văn hoá riêng. Ở Bắc Bộ có Quan họ Bắc Ninh, hát Chèo, hát Xoan, hát Ví, hát Trống quân, hát Dô, …; ở Trung Bộ có hát Ví dặm, Hò Huế, Lý Huế, hát Sắc bùa, …; ở Nam Bộ có các điệu Lý, điệu Hò, nói thơ, …; ở miền núi phía Bắc có dân ca của đồng bào Thái, H' Mông, Mường, …; vùng Tây Nguyên có dân ca của các dân tộc Gia-Rai, Ê-Đê, Ba-Na, Xơ-Đăng… Dân ca là kho tàng văn hoá vô cùng rộng lớn, rất đa dạng và phong phú của dân tộc Việt Nam. Từ những lý do nêu trên, tác giả đã lựa chọn đề tài nghiên cứu của luận án “Định danh tự động một số làn điệu dân ca Việt Nam” nhằm tìm hiểu sâu hơn về kho tàng 12
  13. dân ca Việt Nam, đặc biệt là nghiên cứu đề xuất các mô hình hiệu quả trong định danh tự động một số làn điệu dân ca Việt Nam, góp phần bảo tồn và đưa dân ca Việt Nam ngày càng trở nên phổ biến hơn. 2. Mục tiêu nghiên cứu của luận án Mục tiêu chính của Luận án là nghiên cứu định danh tự động một số làn điệu dân ca Việt Nam dựa trên phương diện xử lý tín hiệu dùng học máy và học sâu. Luận án tập trung nghiên cứu một số mô hình và đề xuất mô hình phù hợp dùng cho định danh tự động làn điệu dân ca Việt Nam, với bộ dữ liệu dùng cho định danh là các làn điệu phổ biến của Chèo và Quan họ. Ngoài ra, luận án cũng thực hiện phân lớp thể loại âm nhạc trên hai bộ dữ liệu nổi tiếng là GTZAN và FMA nhằm khẳng định khả năng tổng quát hoá của mô hình đề xuất, đồng thời đánh giá ảnh hưởng của các phương pháp tăng cường dữ liệu đến độ chính xác của mô hình. 3. Nhiệm vụ nghiên cứu của luận án Để đạt được những mục tiêu đã đề ra, luận án cần thực hiện các nhiệm vụ chính sau đây: • Nghiên cứu quy trình, phương pháp luận xây dựng bộ dữ liệu dân ca dùng cho nghiên cứu. • Nghiên cứu các đặc trưng trong tín hiệu âm nhạc thường được sử dụng để xác định thể loại âm nhạc. • Nghiên cứu tổng quan về các phương pháp và các thuật toán phân lớp âm nhạc theo thể loại. • Nghiên cứu các mô hình thường dùng để phân lớp thể loại âm nhạc như SVM, GMM, DNN … • Thực hiện định danh tự động một số làn điệu dân ca Việt Nam phổ biến (Chèo, Quan họ) và đưa ra các phân tích, nhận xét, đánh giá về kết quả đạt được. • Thực hiện phân lớp thể loại âm nhạc trên hai bộ dữ liệu âm nhạc theo thể loại là GTZAN và FMA_SMALL, phân tích các kết quả và đưa ra các kết luận về mô hình đề xuất, đồng thời đánh giá ảnh hưởng của các phương pháp tăng cường dữ liệu đã thực hiện. 4. Đối tượng và phạm vi nghiên cứu của luận án Mỗi một vùng miền, mỗi một dân tộc trên đất nước Việt Nam lại có những thể loại dân ca khác nhau. Đối tượng nghiên cứu của luận án là định danh tự động một số làn điệu dân ca Việt Nam dựa trên phương diện xử lý tín hiệu, học máy và học sâu, từ đó đề xuất mô hình phù hợp cho nhiệm vụ này. Trong khuôn khổ có hạn của luận án, việc nghiên cứu sẽ chỉ tập trung vào định danh tự động các làn điệu dân ca phổ biến của Chèo và Quan họ. 5. Ý nghĩa khoa học và thực tiễn của luận án • Về mặt lý thuyết, luận án sẽ góp phần làm sáng tỏ các mô hình phân lớp âm nhạc theo thể loại và áp dụng cho định danh các làn điệu dân ca Việt Nam phổ 13
  14. biến là Chèo và Quan họ, đồng thời tạo tiền đề cho các nghiên cứu tiếp theo trong lĩnh vực này. • Kết quả nghiên cứu của luận án có nhiều đóng góp trong thực tiễn, có thể kể đến như: o Trong lịch sử và văn hoá: Định danh làn điệu dân ca góp phần ghi nhận và lưu giữ di sản văn hóa của dân tộc; phản ánh lịch sử phát triển, sinh hoạt và tinh thần của một cộng đồng; đồng thời cũng giúp tìm hiểu về sự đa dạng văn hóa, sự kết nối giữa các dân tộc và sự tương tác giữa con người với tự nhiên. o Trong giáo dục: Việc định danh và nghiên cứu về làn điệu dân ca góp phần giới thiệu văn hóa dân gian cho các thế hệ trẻ, giúp họ có thêm hiểu biết và tự hào về di sản văn hóa của tổ tiên. Đồng thời, việc dạy học và truyền bá các làn điệu dân ca cũng góp phần giáo dục đạo lý, tình yêu quê hương đất nước và bồi dưỡng nhân cách cho con người. o Trong nghệ thuật: Làn điệu dân ca là nguồn gốc của nhiều loại hình nghệ thuật như âm nhạc, múa, kịch... Việc định danh và nghiên cứu về làn điệu dân ca góp phần phát triển, bảo tồn và tiếp nối các loại hình nghệ thuật dân gian, từ đó đóng góp vào sự phong phú, đa dạng của nền văn hóa. o Trong công nghệ liên quan đến âm nhạc: ▪ Đối với hệ thống quản lý âm nhạc: Hỗ trợ các hệ thống quản lý âm nhạc có thể tự động phân lớp và đưa các bài hát vào các danh mục tương ứng, giúp cho việc quản lý và tìm kiếm âm nhạc trở nên dễ dàng hơn. ▪ Đối với người nghe nhạc: Giúp người nghe nhạc có thể dễ dàng tìm kiếm và lựa chọn được những ca khúc phù hợp với sở thích hoặc tâm trạng. o Trong nghiên cứu: Làm tiền đề cho các nghiên cứu tiếp theo về khai phá dữ liệu âm nhạc, đặc biệt là kho tàng âm nhạc dân ca Việt Nam. 6. Phương pháp nghiên cứu Phương pháp nghiên cứu thực hiện trong luận án là nghiên cứu lý thuyết kết hợp với thực nghiệm. • Về mặt lý thuyết, luận án sẽ nghiên cứu lý thuyết chung về các mô hình phân lớp âm nhạc theo thể loại, đề xuất các mô hình định danh các làn điệu dân ca Việt Nam phổ biến. • Về mặt thực nghiệm, sử dụng các mô hình phân lớp đã được đề xuất để định danh tự động các làn điệu dân ca phổ biến của Việt Nam là Chèo và Quan họ, từ đó nhận xét, đánh giá kết quả đạt được để xác nhận giá trị của các mô hình đã đề xuất. 7. Kết quả mới của luận án Kết quả nghiên cứu mới của luận án có thể được tóm tắt tập trung vào các điểm chính sau: • Xây dựng được bộ dữ liệu âm nhạc dân ca gồm các làn điệu dân ca phổ biến là Chèo và Quan họ dùng cho nghiên cứu định danh các làn điệu dân ca thuộc bộ dữ liệu này. 14
  15. • Đề xuất các mô hình học máy truyền thống và học sâu để định danh một số làn điệu Chèo và Quan họ phổ biến. • Đề xuất các phương pháp tăng cường dữ liệu và mô hình học sâu thích hợp cho phân lớp thể loại âm nhạc nói chung. 8. Cấu trúc của luận án Luận án được trình bày trong 3 chương với nội dung tóm tắt như sau: Chương 1: Tổng quan về âm nhạc và phân lớp âm nhạc theo thể loại. Chương này trình bày một số khái niệm liên quan đến âm thanh, âm nhạc; một số yếu tố cơ bản và một số đặc trưng được trích chọn từ tín hiệu âm nhạc; một số thể loại nhạc phổ biến trên thế giới và đôi nét về nhạc dân ca Việt Nam (Chèo và Quan họ); khái niệm thể loại âm nhạc và sơ đồ hệ thống phân lớp âm nhạc theo thể loại; một số bộ dữ liệu âm nhạc theo thể loại điển hình; một số mô hình thường dùng trong phân lớp thể loại âm nhạc; tình hình nghiên cứu về phân lớp âm nhạc theo thể loại ở trong và ngoài nước cũng được đề cập trong Chương 1. Chương 2: Định danh một số làn điệu dân ca Việt Nam. Đầu tiên, phần giới thiệu về việc thu thập dữ liệu nhạc dân ca, phương pháp xử lý dữ liệu để xây dựng bộ dữ liệu nhạc dân ca. Một số phương pháp tăng cường dữ liệu âm nhạc như: chia đôi các file dữ liệu âm nhạc, tạo tiếng vọng, cộng nhiễu trắng và thay đổi cao độ cũng được đề cập trong Chương này. Bộ tham số dùng cho phân lớp và định danh bao gồm các hệ số MFCC, năng lượng, tần số cơ bản F0 và các biến thể của F0, phổ Mel, pitch, tonnetz, spectral và chroma. Tiếp theo, chương này trình bày kết quả phân lớp, định danh một số làn điệu dân ca Chèo và Quan họ dùng một số thuật toán học máy truyền thống như SVM, GMM và các mô hình học sâu như mạng CNN, LSTM, CRNN... Chương 3: Trình bày một số kết quả nghiên cứu phân lớp thể loại âm nhạc trên bộ dữ liệu nhạc Việt (Zalo AI Challenge 2018), GTZAN và FMA_SMALL sử dụng học sâu như RAN, LSTM, CNN, GRU, CSN, và DenseNet. Việc phân tích, đánh giá ảnh hưởng của các phương pháp tăng cường dữ liệu đến kết quả phân lớp cũng được trình bày trong Chương 3. Cuối cùng, phần Kết luận tổng hợp các kết quả nghiên cứu đã đạt được, những đóng góp mới và hướng mở rộng nghiên cứu phát triển của luận án. 15
  16. Chương 1. TỔNG QUAN VỀ ÂM NHẠC VÀ PHÂN LỚP ÂM NHẠC THEO THỂ LOẠI Âm nhạc là món ăn tinh thần không thể thiếu trong đời sống của mỗi con người. Âm nhạc làm cho cuộc sống trở nên tươi đẹp hơn và làm cho tâm hồn con người trở nên thư thái hơn sau những bộn bề của công việc. Với thư viện nhạc số có số lượng các tác phẩm âm nhạc rất lớn và liên tục được bổ sung như hiện nay, việc tìm kiếm và truy xuất một thể loại nhạc theo yêu cầu thực sự là một thách thức lớn. Trong trường hợp này, phân lớp âm nhạc theo thể loại tỏ ra hiệu quả hơn cả. Tuy nhiên, việc phân lớp thể loại âm nhạc nếu thực hiện thủ công sẽ vô cùng khó khăn do khối lượng công việc lớn và bị chi phối bởi các yếu tố mang tính chủ quan, phụ thuộc nhiều vào kiến thức và kinh nghiệm của người thực hiện phân loại. Chương này trình bày tổng quan về một số khái niệm liên quan đến âm thanh, âm nhạc; khái niệm và đặc điểm một số thể loại nhạc phổ biến trên thế giới; đôi nét về nhạc dân ca Việt Nam là Chèo và Quan họ; một số bộ dữ liệu âm nhạc theo thể loại điển hình; tình hình nghiên cứu phân lớp âm nhạc theo thể loại ở trong nước và trên thế giới. 1.1 Âm thanh, âm nhạc 1.1.1 Khái niệm âm thanh, âm nhạc Âm thanh được tạo ra bởi sự dao động của một vật thể đàn hồi nào đó. Vật thể đàn hồi dao động sẽ tạo ra các sóng âm. Những sóng âm này lan truyền trong không gian đến tai người nghe làm cho màng nhĩ cũng dao động cùng với tần số của sóng âm đó. Các rung động từ màng nhĩ được truyền qua hệ thần kinh đến não bộ tạo nên cảm giác về âm thanh. Con người có thể nghe được một số lượng lớn các loại âm thanh khác nhau, nhưng không phải mọi âm thanh đều được dùng trong âm nhạc. Hệ thống thính giác của con người có khả năng phân biệt được những âm thanh có tính nhạc và những âm thanh không có tính nhạc. Âm thanh mà con người cảm thụ được có các tần số được xác định và có cao độ biến thiên theo quy luật nào đó như: tiếng hát, tiếng đàn, tiếng sáo… là những âm thanh có tính nhạc (âm nhạc). Những âm thanh như tiếng nói chuyện, tiếng ồn, tiếng động cơ, tiếng đập gõ, tiếng sấm chớp, gió thổi… được gọi là tiếng nói, tiếng động hoặc tạp âm [3]. Âm nhạc được hình thành trên cơ sở những âm thanh đã được chọn lọc với những thuộc tính riêng, đáp ứng được yêu cầu về sự diễn tả và sự hoà hợp của âm nhạc. Âm nhạc được xác định bởi 4 thuộc tính là cao độ (pitch), trường độ (duration), cường độ (loudness/strength of tone) và âm sắc (tone colour/timbre) [3]. - Cao độ [3]: Là độ cao hay thấp của âm thanh, phụ thuộc vào tần số dao động của vật thể rung. Dao động càng nhanh thì tần số càng cao và ngược lại. Tai người có khả năng phân biệt tốt những âm thanh có cao độ trong khoảng từ 27,5Hz  4.186Hz. 16
  17. - Trường độ (độ dài) [3]: Là độ dài/ngắn của âm thanh, phụ thuộc vào thời hạn của nguồn phát âm. Thông thường, tầm cữ dao động lúc bắt đầu của âm thanh càng rộng thì thời gian tắt dần của âm thanh càng dài. Trường độ tham gia đóng vai trò quyết định một âm thanh nào đó có phải là âm nhạc hay không. - Cường độ (độ mạnh) [3]: Là độ vang to hay nhỏ của âm thanh, phụ thuộc vào tầm cữ dao động của nguồn phát âm. Phạm vi trong đó diễn ra các dao động được gọi là biên độ dao động. Biên độ dao động càng rộng thì âm thanh càng to và ngược lại. Đơn vị để đo cường độ âm thanh là Decibel (ký hiệu là dB). - Âm sắc [3]: Đề cập đến khía cạnh chất lượng hay sắc thái của âm thanh. Để xác định đặc điểm của âm sắc, cần phải sử dụng những tính từ thuộc các lĩnh vực cảm giác khác nhau. Mỗi nhạc cụ hoặc mỗi giọng hát đều chứa đựng một âm sắc riêng. Một âm thanh có cùng một cao độ nhất định, nhưng do các loại nhạc cụ hay giọng hát khác nhau phát ra thì mỗi nhạc cụ hay mỗi giọng hát đó lại có một sắc thái riêng. 1.1.2 Một số yếu tố cơ bản của âm nhạc Mỗi yếu tố của âm nhạc giống như một thành phần trong công thức để nấu một món ăn. Các nguyên liệu được hoà quyện với nhau theo một tỷ lệ nhất định sẽ tạo nên hương vị tổng thể cho một món ăn. Người nhạc sĩ hay các nhà soạn nhạc thường sử dụng các yếu tố âm nhạc để tạo “hương vị” cho các tác phẩm âm nhạc sao cho phù hợp với sở thích và phong cách cá nhân của họ. Các yếu tố âm nhạc giúp phân biệt một bản nhạc với những âm thanh khác. Một số yếu tố cơ bản của âm nhạc có thể kể đến như: • Dynamic (độ mạnh/nhẹ) [4]: Được coi là linh hồn của âm nhạc, liên quan đến cường độ của âm thanh. Trong một bài hát, dynamic là sự biến động của âm lượng do sắc thái chơi hoặc hát mạnh nhẹ, trầm bổng khác nhau tại các đoạn khác nhau của các nhạc cụ hoặc giọng hát. • Form (hình thức) [4]: Việc hiểu về form rất quan trọng trong sáng tác nhạc, giúp người nhạc sĩ thấy được bức tranh tổng thể của một tác phẩm âm nhạc như: nhạc dạo, lời nhạc (đoạn 1, đoạn 2), điệp khúc, gian tấu... • Melody (giai điệu) [4]: Là một dãy các nốt nhạc được sắp xếp theo một trật tự nhất định dựa trên cao độ và nhịp. Mỗi thể loại âm nhạc sử dụng giai điệu theo một cách khác nhau. • Harmony (hoà âm) [4]: Hai hay nhiều nốt nhạc được vang lên cùng lúc với mục đích hỗ trợ và làm giàu cho giai điệu, làm cho giai điệu có chiều sâu. • Rhythm (nhịp điệu/tiết tấu) [4]: Chỉ sự nối tiếp có tổ chức các trường độ giống nhau và khác nhau của âm thanh. Khi liên kết với nhau theo một thứ tự nhất định, trường độ của âm thanh tạo ra nhóm tiết tấu (còn gọi là hình tiết tấu). Hình tiết tấu là đại diện tiêu biểu về trường độ của tác phẩm âm nhạc. • Texture (kết cấu) [4]: Dùng để chỉ cách kết hợp giữa các “nguyên vật liệu” về giai điệu, nhịp độ, độ hoà âm trong một bản nhạc để tạo nên chất lượng của âm thanh. Các từ thường dùng để chỉ kết cấu như: “dày”, “mỏng”... 17
  18. • Tempo (nhịp độ) [4]: Mô tả tốc độ mà âm nhạc được trình diễn, là tốc độ thay đổi của nhịp điệu (cụ thể là chỉ sự chuyển động của tiết tấu). Nhịp độ còn được gọi là độ nhanh để chỉ sự chuyển động nhanh hay chậm của bản nhạc. • Timbre (âm sắc) [4]: Là phẩm chất của một nốt nhạc hay các âm thanh khác nhau của các nhạc cụ. Trong một dàn nhạc nếu có bao nhiêu loại nhạc khí khác nhau thì cũng có bấy nhiêu âm sắc khác nhau. Mỗi một giọng hát cũng có âm sắc riêng. • Tonality (điệu thức) [4]: Là hệ thống thể hiện mối tương quan về cao độ của các âm thanh trong một bản nhạc hay trong một giai điệu. Điệu thức là một phương tiện diễn tả quan trọng của âm nhạc. Màu sắc, tính chất âm nhạc được hình thành qua kết cấu và mối tương quan điệu thức đã góp phần thể hiện nội dung của tác phẩm. 1.2 Một số đặc trưng trích chọn từ tín hiệu âm nhạc Trích chọn đặc trưng là quá trình trong đó dữ liệu thô được chuyển đổi thành biểu diễn các đặc trưng để phục vụ cho các mục đích xử lý tiếp theo. Trong phân tích nội dung âm nhạc, các bản nhạc kỹ thuật số được chuyển đổi thành ma trận các đặc trưng chứa các thông tin về các khía cạnh khác nhau của âm nhạc như: cao độ, thời lượng, giai điệu, hoà âm hoặc âm sắc… Với mỗi nhiệm vụ khác nhau thì các đặc trưng được trích rút là khác nhau. Dưới đây là một số đặc trưng được hầu hết các tác giả nghiên cứu trong lĩnh vực trích chọn thông tin âm nhạc lựa chọn sử dụng. 1.2.1 Đặc trưng thống kê 1.2.1.1 Giá trị trung bình (Mean) Giá trị trung bình hay kỳ vọng [5] của biến ngẫu nhiên rời rạc 𝑋, ký hiệu là 𝐸(𝑋), thường được gọi là giá trị trung bình (ký hiệu là ) được tính theo công thức (1.1). 𝜇 = 𝐸(𝑋) = ∑ 𝑥. 𝑃(𝑥) (1.1) Trong đó: x đại diện cho các giá trị của biến ngẫu nhiên 𝑋 và 𝑃(𝑥) là xác suất tương ứng với mỗi giá trị của x. 1.2.1.2 Phương sai (Variance) Phương sai [5] của 𝑋 là đơn vị đo độ tản mát của dữ liệu quanh giá trị trung bình (tâm). Nếu phương sai lớn, độ tản mát của dữ liệu cao (dữ liệu ở xa so với tâm) và ngược lại. Phương sai có thể được tính theo công thức (1.2). 𝜎 2 = 𝑉(𝑋) = 𝐸(𝑋 − 𝜇)2 = ∑(𝑥 − 𝜇)2 . 𝑃(𝑥) = ∑ 𝑥 2 . 𝑃(𝑥) − 𝜇 2 (1.2) 1.2.1.3 Độ lệch chuẩn (Standard Deviation) Độ lệch chuẩn [5] cho biết phần lớn dữ liệu nằm trong vùng đó, dữ liệu nằm ngoài vùng đó được gọi là ngoại lệ. Độ lệch chuẩn dùng để xác định sự tản mát của dữ liệu, được tính bằng căn bậc hai của phương sai (1.3). 18
  19. 𝜎 = √𝑉(𝑋) = √𝐸(𝑋 − 𝜇)2 = √∑ 𝑥 2 . 𝑃(𝑥) − 𝜇 2 (1.3) 1.2.1.4 Độ lệch (Skewness) Độ lệch [5] của một biết ngẫu nhiên X được ký hiệu là 𝑠𝑘𝑒𝑤(𝑋), được định nghĩa như trong (1.4). 𝐸(𝑋 − 𝜇)3 𝑠𝑘𝑒𝑤(𝑋) = (1.4) 𝜎3 Trong đó:  - là giá trị trung bình của 𝑋,  - là độ lệch chuẩn của 𝑋 và 𝐸(𝑋) - là giá trị kỳ vọng của 𝑋. Độ lệch là thước đo tính đối xứng (cân đối) hoặc thiếu đối xứng của dữ liệu xung quanh giá trị trung bình của mẫu (cho biết độ lệch của một phân phối so với một phân phối chuẩn). Độ lệch còn được gọi là moment bậc 3. Hình 1.1 minh hoạ phân phối Skewness. Hình 1.1 Minh hoạ phân phối Skewness 1.2.1.5 Độ nhọn (Kurtosis) Độ nhọn [5] của biến ngẫu nhiên 𝑋 được ký hiệu là 𝑘𝑢𝑟𝑡(𝑋), được định nghĩa như sau (1.5): 𝐸(𝑋 − 𝜇)4 𝑘𝑢𝑟𝑡 ( 𝑋 ) = (1.5) 𝜎4 Trong đó:  - là giá trị trung bình,  - là độ lệch chuẩn và 𝐸(𝑋) - là giá trị kỳ vọng của 𝑋. Độ nhọn là đơn vị đo độ cao của phần trung tâm so với một phân phối chuẩn. Phần trung tâm càng cao (nhọn) thì chỉ số Kurtosis càng lớn và ngược lại. Độ nhọn còn được gọi là moment bậc 4. Giá trị của 𝑘𝑢𝑟𝑡(𝑋) cho một phân phối chuẩn là 3. Hình 1.2 minh hoạ phân phối kurtosis. 1.2.2 Đặc trưng trong miền thời gian 1.2.2.1 Giá trị hiệu dụng (RMS - Root Mean Square) RMS [6] được dùng để đo độ lớn của các Hình 1.2 Minh hoạ phân bố tín hiệu biến thiên rời rạc theo thời gian. Trong Kurtosis xử lý âm thanh, RMS dùng để đo độ to của âm 19
  20. thanh trong một cửa sổ. Giá trị thu được là trung bình của tín hiệu âm thanh. Hình 1.3 là giá trị RMS của một làn điệu Chèo. RMS sẽ được tính như trong (1.6): 1 2 2 𝑥 𝑅𝑀𝑆 = √ (𝑥1 + 𝑥2 + … + 𝑥 2 ) 𝑛 (1.6) 𝑛 1.2.2.2 Năng lượng (Energy) Năng lượng [7] là một tham số cơ bản được sử dụng trong xử lý âm thanh và tiếng nói. Năng lượng của tín hiệu tương ứng với độ lớn của tín hiệu. Năng lượng của tín hiệu rời rạc được tính như trong (1.7). 𝑁 𝐸 𝑠 = ∑| 𝑥(𝑛)|2 (1.7) 𝑛=0 Trong đó, 𝑥(𝑛) là tín hiệu đầu vào trong miền thời gian và N là độ dài của tín hiệu. Hình 1.3 là độ lớn của năng lượng trong một làn điệu Chèo. Hình 1.3 Năng lượng và RMS của một làn điệu Chèo 1.2.2.3 Tỷ lệ cắt qua trục không (ZCR - Zero Crossing Rate) ZCR [8] là số lần tín hiệu dạng sóng cắt qua trục thời gian (trục không) hay nói cách khác là tốc độ thay đổi của tín hiệu từ giá trị dương về không rồi sang giá trị âm hoặc ngược lại. ZCR được ứng dụng rộng rãi trong phân loại âm thanh hoặc giọng nói, nhận dạng và truy xuất thông tin âm nhạc. Hình 1.4 ZCR của một làn điệu Chèo 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2