Tóm tắt Luận án Tiến sĩ Kỹ thuật máy tính: Định danh tự động một số làn điệu dân ca Việt Nam

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:24

Thêm vào BST

Báo xấu

17
lượt xem 5
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án "Định danh tự động một số làn điệu dân ca Việt Nam" tập trung nghiên cứu một số mô hình và đề xuất mô hình phù hợp dùng cho định danh tự động làn điệu dân ca Việt Nam, với bộ dữ liệu dùng cho định danh là các làn điệu phổ biến của Chèo và Quan họ. Ngoài ra, luận án cũng thực hiện phân lớp thể loại âm nhạc trên hai bộ dữ liệu nổi tiếng là GTZAN và FMA nhằm khẳng định khả năng tổng quát hoá của mô hình đề xuất, đồng thời đánh giá ảnh hưởng của các phương pháp tăng cường dữ liệu đến độ chính xác của mô hình.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Tóm tắt Luận án Tiến sĩ Kỹ thuật máy tính: Định danh tự động một số làn điệu dân ca Việt Nam

MỞ ĐẦU 1. Lý do chọn đề tài Âm nhạc là một trong những món ăn tinh thần không thể thiếu trong đời sống của mỗi con người. Con người thường nghe nhạc để giải toả cảm xúc, tạo cảm giác thoải mái, thư giãn và tìm lại cân bằng trong cuộc sống hàng ngày. Trước đây, các tác phẩm âm nhạc thường được phân phối đến người dùng dưới dạng các đĩa CD/DVD, băng từ… thông qua các cửa hàng băng đĩa nhạc. Mỗi album như vậy thường chứa từ 10 đến 15 bài hát thường của cùng một ca sĩ hay nghệ sĩ. Ngày nay, cùng với sự bùng nổ của Internet băng thông rộng, các đĩa CD/DVD và băng từ đã trở nên không còn phổ biến và dần được thay thế bằng các cơ sở dữ liệu (CSDL) nhạc số. Mỗi cá nhân hiện nay có thể sở hữu hàng nghìn bản nhạc số và họ có thể tự xây dựng thư viện âm nhạc theo sở thích cho riêng mình để thưởng thức và có thể chia sẻ chúng đến với cộng đồng. Các nghiên cứu liên quan đến khai phá dữ liệu âm nhạc rất đa dạng và đã được thực hiện từ rất lâu, theo nhiều hướng khác nhau như: Phân lớp âm nhạc theo thể loại (MGC - Music Genre Classification), định danh nghệ sĩ/ca sĩ, phát hiện cảm xúc/tâm trạng, nhận biết nhạc cụ… Tuy nhiên, với số lượng các tác phẩm âm nhạc được số hoá ngày càng nhiều đã gây ra không ít khó khăn cho người yêu nhạc (thậm chí ngay cả các chuyên gia) trong việc tổ chức các CSDL nhạc số khổng lồ. Việc tìm kiếm các phương pháp mới để khám phá, giới thiệu và quảng bá âm nhạc cũng đặt ra cho ngành công nghiệp nhạc số và các nhóm nghiên cứu những thách thức không hề nhỏ. Năm 2003, trong luận văn của mình, Heittola [1] đã đề xuất phương pháp hữu dụng nhất để quản lý các CSDL nhạc số khổng lồ bằng cách phân lớp âm nhạc theo thể loại. Tuy nhiên, việc xác định một thể loại âm nhạc cụ thể vẫn còn là một vấn đề rất khó, vì ranh giới giữa các thể loại âm nhạc thường không rõ ràng. Một bản nhạc có thể kết hợp các yếu tố từ nhiều thể loại khác nhau, làm cho việc phân loại trở nên khó khăn. Mặt khác, một thể loại âm nhạc có thể chứa nhiều phong cách, biến thể, hoặc ảnh hưởng từ văn hóa khác nhau, dẫn đến sự đa dạng trong cách biểu đạt và âm thanh. Do đó, việc đưa ra khái niệm về thể loại còn chưa rõ ràng, phụ thuộc nhiều vào cảm tính và nhận thức của con người [2]. Việt Nam là một quốc gia đa dân tộc với nền văn hóa lâu đời nên dân ca Việt Nam hết sức đa dạng và phong phú. Dân ca của mỗi dân tộc, mỗi 1
vùng miền lại mang màu sắc, bản sắc văn hoá riêng. Ở Bắc Bộ có Quan họ Bắc Ninh, hát Chèo, hát Xoan, hát Ví, hát Trống quân, hát Dô, …; ở Trung Bộ có hát Ví dặm, Hò Huế, Lý Huế, hát Sắc bùa, …; ở Nam Bộ có các điệu Lý, điệu Hò, nói thơ, …; ở miền núi phía Bắc có dân ca của đồng bào Thái, H' Mông, Mường, …; vùng Tây Nguyên có dân ca của các dân tộc Gia-Rai, Ê-Đê, Ba-Na, Xơ-Đăng… Dân ca là kho tàng văn hoá vô cùng rộng lớn, rất đa dạng và phong phú của dân tộc Việt Nam. Từ những lý do nêu trên, tác giả đã lựa chọn đề tài nghiên cứu của luận án “Định danh tự động một số làn điệu dân ca Việt Nam” nhằm tìm hiểu sâu hơn về kho tàng dân ca Việt Nam, đặc biệt là nghiên cứu đề xuất các mô hình hiệu quả trong định danh tự động một số làn điệu dân ca Việt Nam, góp phần bảo tồn và đưa dân ca Việt Nam ngày càng trở nên phổ biến hơn. 2. Mục tiêu nghiên cứu của luận án Mục tiêu chính của Luận án là nghiên cứu định danh tự động một số làn điệu dân ca Việt Nam dựa trên phương diện xử lý tín hiệu dùng học máy và học sâu. Luận án tập trung nghiên cứu một số mô hình và đề xuất mô hình phù hợp dùng cho định danh tự động làn điệu dân ca Việt Nam, với bộ dữ liệu dùng cho định danh là các làn điệu phổ biến của Chèo và Quan họ. Ngoài ra, luận án cũng thực hiện phân lớp thể loại âm nhạc trên hai bộ dữ liệu nổi tiếng là GTZAN và FMA nhằm khẳng định khả năng tổng quát hoá của mô hình đề xuất, đồng thời đánh giá ảnh hưởng của các phương pháp tăng cường dữ liệu đến độ chính xác của mô hình. 3. Nhiệm vụ nghiên cứu của luận án Để đạt được những mục tiêu đã đề ra, luận án cần thực hiện các nhiệm vụ chính sau đây: • Nghiên cứu quy trình, phương pháp luận xây dựng bộ dữ liệu dân ca dùng cho nghiên cứu. • Nghiên cứu các đặc trưng trong tín hiệu âm nhạc thường được sử dụng để xác định thể loại âm nhạc. • Nghiên cứu tổng quan về các phương pháp và các thuật toán phân lớp âm nhạc theo thể loại. • Nghiên cứu các mô hình thường dùng để phân lớp thể loại âm nhạc như SVM, GMM, DNN … • Thực hiện định danh tự động một số làn điệu dân ca Việt Nam phổ biến (Chèo, Quan họ) và đưa ra các phân tích, nhận xét, đánh giá về kết quả đạt được. 2
• Thực hiện phân lớp thể loại âm nhạc trên hai bộ dữ liệu âm nhạc theo thể loại là GTZAN và FMA_SMALL, phân tích các kết quả và đưa ra các kết luận về mô hình đề xuất, đồng thời đánh giá ảnh hưởng của các phương pháp tăng cường dữ liệu đã thực hiện. 4. Đối tượng và phạm vi nghiên cứu của luận án Mỗi vùng miền, mỗi dân tộc trên đất nước Việt Nam lại có những thể loại dân ca khác nhau. Đối tượng nghiên cứu của luận án là định danh tự động một số làn điệu dân ca Việt Nam dựa trên phương diện xử lý tín hiệu, học máy và học sâu, từ đó đề xuất mô hình phù hợp cho nhiệm vụ này. Trong khuôn khổ có hạn của luận án, việc nghiên cứu sẽ chỉ tập trung vào định danh tự động các làn điệu dân ca phổ biến của Chèo và Quan họ. 5. Ý nghĩa khoa học và thực tiễn của luận án • Về mặt lý thuyết, luận án sẽ góp phần làm sáng tỏ các mô hình phân lớp âm nhạc theo thể loại và áp dụng cho định danh các làn điệu dân ca Việt Nam phổ biến, tạo tiền đề cho các nghiên cứu tiếp theo trong lĩnh vực này. • Kết quả nghiên cứu của luận án có nhiều đóng góp trong thực tiễn, có thể kể đến như: o Trong lịch sử và văn hoá: Định danh làn điệu dân ca góp phần giúp ghi nhận và lưu giữ di sản văn hóa của một dân tộc, phản ánh lịch sử phát triển, sinh hoạt và tinh thần của một cộng đồng, đồng thời cũng giúp tìm hiểu về sự đa dạng văn hóa, sự kết nối giữa các dân tộc và sự tương tác giữa con người với tự nhiên. o Trong giáo dục: Việc định danh và nghiên cứu về làn điệu dân ca góp phần giới thiệu văn hóa dân gian cho các thế hệ trẻ, giúp họ có thêm hiểu biết và tự hào về di sản văn hóa của tổ tiên. Đồng thời, việc dạy học và truyền bá các làn điệu dân ca cũng góp phần giáo dục đạo lý, tình yêu quê hương đất nước và bồi dưỡng nhân cách cho con người. o Trong nghệ thuật: Làn điệu dân ca là nguồn gốc của nhiều loại hình nghệ thuật như âm nhạc, múa, kịch... Việc định danh và nghiên cứu về làn điệu dân ca góp phần phát triển, bảo tồn và tiếp nối các loại hình nghệ thuật dân gian, từ đó đóng góp vào sự phong phú, đa dạng của nền văn hóa. o Trong công nghệ liên quan đến âm nhạc: 3
▪ Đối với hệ thống quản lý âm nhạc: Hỗ trợ các hệ thống quản lý âm nhạc có thể tự động phân lớp và đưa các bài hát vào các danh mục tương ứng, giúp cho việc quản lý và tìm kiếm âm nhạc trở nên dễ dàng hơn. ▪ Đối với người nghe nhạc: Giúp người nghe nhạc có thể dễ dàng tìm kiếm và lựa chọn được những bài hát phù hợp với sở thích hay tâm trạng của mình. o Trong nghiên cứu: Làm tiền đề cho các nghiên cứu tiếp theo về khai phá dữ liệu âm nhạc, đặc biệt là kho tàng âm nhạc dân ca Việt Nam. 6. Phương pháp nghiên cứu Phương pháp nghiên cứu thực hiện trong luận án là nghiên cứu lý thuyết kết hợp với thực nghiệm. • Về mặt lý thuyết, luận án sẽ nghiên cứu lý thuyết chung về các mô hình phân lớp âm nhạc theo thể loại, đề xuất các mô hình định danh các làn điệu dân ca Việt Nam phổ biến. • Về mặt thực nghiệm, sử dụng các mô hình phân lớp đã được đề xuất để định danh tự động các làn điệu dân ca phổ biến của Việt Nam là Chèo và Quan họ, từ đó nhận xét, đánh giá kết quả đạt được để xác nhận giá trị của các mô hình đã đề xuất. 7. Kết quả mới của luận án Kết quả nghiên cứu mới của luận án có thể được tóm tắt tập trung vào các điểm chính sau: • Xây dựng được bộ dữ liệu âm nhạc dân ca gồm các làn điệu dân ca phổ biến là Chèo và Quan họ dùng cho nghiên cứu định danh các làn điệu dân ca thuộc bộ dữ liệu này. • Đề xuất các mô hình học máy truyền thống và học sâu để định danh một số làn điệu Chèo và Quan họ phổ biến. • Đề xuất các phương pháp tăng cường dữ liệu và mô hình học sâu thích hợp cho phân lớp thể loại âm nhạc nói chung. 8. Cấu trúc của luận án Luận án được trình bày trong 3 chương với nội dung tóm tắt như sau: Chương 1: Tổng quan về âm nhạc và phân lớp âm nhạc theo thể loại. Chương này trình bày một số khái niệm liên quan đến âm thanh, âm nhạc; một số yếu tố cơ bản và một số đặc trưng được trích chọn từ tín hiệu âm nhạc; một số thể loại nhạc phổ biến trên thế giới và đôi nét về nhạc dân ca Việt Nam (Chèo và Quan họ); khái niệm thể loại âm nhạc và sơ đồ hệ 4
thống phân lớp âm nhạc theo thể loại; một số bộ dữ liệu âm nhạc theo thể loại điển hình; một số mô hình thường dùng trong phân lớp thể loại âm nhạc; tình hình nghiên cứu về phân lớp âm nhạc theo thể loại ở trong và ngoài nước cũng được đề cập trong Chương 1. Chương 2: Định danh một số làn điệu dân ca Việt Nam. Đầu tiên, phần giới thiệu về việc thu thập dữ liệu nhạc dân ca, phương pháp xử lý dữ liệu để xây dựng bộ dữ liệu nhạc dân ca. Một số phương pháp tăng cường dữ liệu âm nhạc như: chia đôi các file dữ liệu âm nhạc, tạo tiếng vọng, cộng nhiễu trắng và thay đổi cao độ cũng được đề cập trong Chương này. Bộ tham số dùng cho phân lớp và định danh bao gồm các hệ số MFCC, năng lượng, tần số cơ bản F0 và các biến thể của F0, phổ Mel, pitch, tonnetz, spectral và chroma. Tiếp theo, chương này trình bày kết quả phân lớp, định danh một số làn điệu dân ca Chèo và Quan họ dùng một số thuật toán học máy truyền thống như SVM, GMM và các mô hình học sâu như mạng CNN, LSTM, CRNN... Chương 3: Trình bày một số kết quả nghiên cứu phân lớp thể loại âm nhạc trên bộ dữ liệu nhạc Việt (Zalo AI Challenge 2018), GTZAN và FMA_SMALL sử dụng học sâu như RAN, LSTM, CNN, GRU, CSN, và DenseNet. Việc phân tích, đánh giá ảnh hưởng của các phương pháp tăng cường dữ liệu đến kết quả phân lớp cũng được trình bày trong Chương 3. Cuối cùng, phần Kết luận tổng hợp các kết quả nghiên cứu đã đạt được, những đóng góp mới và hướng mở rộng nghiên cứu phát triển của luận án. 1. TỔNG QUAN VỀ PHÂN LỚP ÂM NHẠC THEO THỂ LOẠI 1.1 Âm thanh, âm nhạc Trình bày một số khái niệm về âm thanh, âm nhạc; 4 thuộc tính của âm nhạc và một số yếu tố cơ bản của âm nhạc. 1.2 Một số đặc trưng được trích chọn từ tín hiệu âm nhạc Phần này trình bày một số đặc trưng được trích chọn từ tín hiệu âm nhạc: Các đặc trưng thống kê; các đặc trưng trong miền thời gian; các đặc trưng trong miền tần số và các đặc trưng phổ. 1.3 Một số thể loại âm nhạc phổ biến trên thế giới Trình bày khái niệm thể loại âm nhạc và một số thể loại âm nhạc phổ biến trên thế giới như: Pop, Rock, Classical, Country… 1.4 Đôi nét về dân ca Việt Nam Trình bày khái quát về dân ca Việt Nam và 2 loại hình dân ca có số 5
lượng làn điệu phong phú nhất là Chèo và Quan họ. Đặc điểm âm nhạc, lời ca trong Chèo và Quan họ. So sánh kỹ thuật hát Chèo với kỹ thuật hát Quan họ. 1.5 Phân lớp âm nhạc theo thể loại Sơ đồ khối tổng quan của hệ thống phân lớp âm nhạc theo thể loại dùng các kỹ thuật học máy đã được các tác giả nước ngoài đề xuất [22]: 1 2 5 Xây dựng mô hình Huấn luyện Trích rút đặc trưng Bộ dữ liệu 5 4 âm nhạc 3 Đánh giá Nhận dạng Trích rút đặc trưng mô hình Các kỹ thuật Thể loại nhạc Bài hát cần Trích rút đặc trưng học máy xác định được phân lớp Ứng dụng Hình 1.12 Sơ đồ chung cho hệ thống phân lớp thể loại âm nhạc 1.6 Một số bộ dữ liệu âm nhạc theo thể loại điển hình Các nghiên cứu về âm nhạc hết sức đa dạng và phong phú, với mỗi khía cạnh nghiên cứu lại có các bộ dữ liệu tương ứng. Tuy nhiên, trong phần này chỉ trình bày một số bộ dữ liệu âm nhạc theo thể loại điển hình được sử dụng trong các nghiên cứu phân lớp thể loại âm nhạc như: GTZAN, ISMIR2004, LATIN MUSIC, FMA… 1.7 Một số bộ phân lớp thường dùng trong định danh thể loại âm nhạc Phần này trình bày về một số mô hình học máy truyền thống như SVM, GMM và một số mô hình học sâu như CNN, LSTM, GRU, CRNN, RAN, CSN, DenseNet được sử dụng trong nghiên cứu phân lớp âm nhạc theo thể loại. 1.8 Một số kết quả định nghiên cứu phân lớp âm nhạc trong và ngoài nước Phần này trình bày một số kết quả nghiên cứu phân lớp thể loại âm nhạc đã được thực hiện ở ngoài nước. Tại Việt Nam nghiên cứu về phân lớp âm nhạc theo thể loại vẫn còn mới mẻ và chưa được phát triển mạnh mẽ. 1.9 Kết chương 1 Chương 1 đã trình bày tổng quan một số khái niệm và các yếu tố về 6
âm nhạc; các đặc trưng trong tín hiệu âm nhạc; khái niệm về thể loại nhạc, đặc điểm của một số thể loại nhạc phổ biến và đôi nét về nhạc dân ca Việt Nam. Đồng thời, Chương 1 cũng trình bày một số nghiên cứu về phân lớp âm nhạc theo thể loại đã được thực hiện bởi các tác giả nước ngoài. Có thể thấy, các nghiên cứu trong lĩnh vực âm nhạc phát triển mạnh mẽ theo nhiều hướng khác nhau từ sau những năm 2000. Tuy nhiên, phân lớp thể loại âm nhạc vẫn còn là vấn đề khó giải quyết, nếu giải quyết tốt sẽ có đóng góp rất nhiều trong thực tiễn và thương mại. Tại Việt Nam, đã có một số nghiên cứu về phân lớp thể loại âm nhạc trên bộ dữ liệu nhạc Quốc tế và nhạc Việt Nam. Tuy nhiên, chưa có một công bố chính thức nào về phân lớp các thể loại nhạc Việt, đặc biệt là nhạc Dân ca Việt Nam. 2. ĐỊNH DANH MỘT SỐ LÀN ĐIỆU DÂN CA VIỆT NAM 2.1 Bộ dữ liệu âm nhạc Chèo và Quan họ Trình bày các tiêu chí và phương pháp xây dựng bộ dữ liệu DANCA dùng cho nghiên cứu. Bộ dữ liệu DANCA gồm 25 làn điệu Chèo và 25 làn điệu Quan họ, số lượng file ứng với mỗi làn điệu được lấy cân bằng nhau và bằng 20 file. Do đó, số lượng file cho các làn điệu Chèo là 500 file và bằng số lượng file cho các làn điệu Quan họ. Tổng số file trong bộ dữ liệu là 1000 file. 2.2 Một số phương pháp tăng cường dữ liệu Phần này trình bày vai trò của dữ liệu trong các mô hình mạng nơ- ron sâu. Một số phương pháp tăng cường dữ liệu âm nhạc được sử dụng trong nghiên cứu của luận án như: chia đôi các file dữ liệu âm nhạc, tạo tiếng vọng, cộng nhiễu trắng và thay đổi cao độ. 2.3 Phân lớp, định danh một số làn điệu dân ca Việt Nam dùng một số thuật toán học máy truyền thống Trong phần này, luận án đã tiến hành 6 trường hợp nghiên cứu phân lớp và định danh một số làn điệu dân ca Việt Nam. Phân lớp là xác định loại hoặc thể loại của một đoạn nhạc hoặc một bài hát cụ thể. Định danh là xác định cụ thể tên một bản nhạc hoặc bài hát dựa trên một đoạn âm thanh nhất định. Bảng 2.2 là thông tin chi tiết về mô hình, bộ dữ liệu, bộ tham số và số lượng tham số được sử dụng trong mỗi trường hợp. 7
Bảng 2.2 Các trường hợp nghiên cứu phân lớp và định danh Các trường Số Bộ dữ liệu Mô hình hợp nghiên Bộ tham số lượng cứu SMO, MultiLayer Perceptron, MFCC, ZCR, xác xuất âm Định danh 384 MultiClass hữu thanh, F0, năng lượng. 10 làn điệu Classifier Quan họ thuộc WEKA MFCC + năng lượng 60 GMM Định danh MFCC+năng lượng + F0 61 Phân lớp và MFCC, năng lượng 60 Định danh S1 (MFCC + năng lượng) 60 S1 + tempo 61 Phân lớp S1 + F0 + intensity 62 GMM S1 + F0 + intensity + tempo 63 DANCA S1 (MFCC + năng lượng) 60 S1 + tempo 61 Định danh S1 + F0 + intensity 62 S1 + F0 + intensity + tempo 63 i-Vector Định danh MFCC + năng lượng 60 2.3.1 Trường hợp 1: Định danh một số làn điệu Quan họ dùng một số mô hình truyền thống thuộc bộ công cụ WEKA Bảng 2.6 Tổng hợp kết quả định danh MultiLayer MultiClass Phương pháp SMO Perceptron Classifier Trung bình tỷ lệ 89,0% 86,0% 71,0% định danh đúng 8
2.3.2 Trường hợp 2: Định danh một số làn điệu Quan họ dùng GMM Nghiên cứu được thực hiện trên mô hình GMM với bộ dữ liệu dùng trong trường hợp này cũng chính là bộ dữ liệu đã được dùng trong trường hợp 1. Mục đích của nghiên cứu này nhằm đánh giá ảnh hưởng của tham số là tần số cơ bản (F0) đến kết quả định danh. Bộ tham số thứ nhất gồm 60 hệ số (19 MFCC + năng lượng = 20, đạo hàm bậc nhất và đạo hàm bậc hai của 20 hệ số này). Bộ tham số thứ 2 gồm 61 hệ số, là các hệ số trong bộ tham số thứ nhất được bổ sung thêm F0. 85 Tỷ lệ nhận dạng đúng trung bình (%) 80 75 79 75 72 72 73 70 69 69 70 70 71 65 64 65 65 66 65 62 61 62 63 60 58 55 16 32 64 128 256 512 1024 2048 4096 8192 Số thành phần Gauss M 60 tham số 61 tham số Hình 2.5 Kết quả định danh với số thành phần Gauss M = 16  8192 Kết luận: Tham số F0 được bổ sung đã làm tăng kết quả định danh. 2.3.3 Trường hợp 3: Phân lớp, định danh Chèo và Quan họ dùng GMM Nghiên cứu được thực hiện trên bộ dữ liệu DANCA dùng GMM và được tiến hành trong 2 trường hợp là: Phân lớp và Định danh. 1. Phân lớp: Trong trường hợp này, dữ liệu đưa vào nhận dạng sẽ được phân vào một trong 2 lớp Chèo hoặc Quan họ. Hình 2.6 Tỷ lệ phân lớp đúng trong phân lớp sơ bộ 2. Định danh: Trong trường hợp này, dữ liệu đưa vào nhận dạng sẽ được xác định là làn điệu nào trong Chèo hoặc Quan họ. 9
Hình 2.7 Tổng hợp kết quả định danh với M = 16  4096 2.3.4 Trường hợp 4: Phân lớp Chèo và Quan họ dùng GMM Phân lớp Chèo và Quan họ dùng GMM với 4 bộ tham số S1 (60 MFCC), S2 (S1 + tempo), S3 (S1 + F0 + Intensity) và S4 (S3 + Tempo). Mục đích của nghiên cứu này là đánh giá ảnh hưởng của các tham số Tempo, Intensity và F0 đến kết quả phân lớp. Hình 2.10 Trung bình tỷ lệ phân lớp đúng với 4 bộ tham số trên dữ liệu Quan họ Hình 2.12 Trung bình tỷ lệ phân lớp đúng với 4 bộ tham số trên dữ liệu Chèo 10
3.2.5 Trường hợp 5: Định danh Choè và Quan họ dùng các trích đoạn ngắn Dữ liệu dùng cho nhận dạng là các trích đoạn ngắn có độ dài thay đổi từ 4, 6, 8, …, 16 giây, được trích xuất ngẫu nhiên từ 20% dữ liệu nhận dạng. Mục đích của nghiên cứu này là để xác định xem tỷ lệ nhận dạng thay đổi như thế nào khi thay đổi độ dài của các đoạn trích. Trong phạm vi nội dung của luận án chỉ trình bày kết quả nghiên cứu ứng với 3 giá trị của M = 512, 1024 và 2048. Với các giá trị này của M thể hiện rõ ảnh hưởng của các tham số Tempo, Intensity và F0 đến kết quả định danh. Hình 2.14 là kết quả định danh đối với các trích đoạn của các làn điệu Chèo với ba giá trị M tương ứng. Có thể thấy rằng khi độ dài của đoạn trích ngắn thì các thông số như Tempo, Intensity và F0 không có ảnh hưởng đáng kể đến tỷ lệ định danh. Với M = 512 (Hình 2.14a), tác động của các tham số bổ sung này càng rõ rệt khi độ dài của đoạn trích từ 14 giây trở lên. a) M = 512 b) M = 1024 11
c) M = 2048 Hình 2.14 Tỷ lệ định danh đúng của các trích đoạn Chèo ứng với 3 giá trị của M Kết quả định danh đối với các trích đoạn của các làn điệu Quan họ với ba giá trị M tương ứng trong các Hình 2.15a, 2.15b và 2.15c. Các thông số bổ sung cũng có tác động tích cực đến kết quả định danh. a) M = 512 b) M = 1024 12
c) M = 2048 Hình 2.15 Tỷ lệ định danh đúng của các trích đoạn Quan họ với 3 giá trị của M Kết quả cho thấy, với độ dài trích đoạn 16 giây, trung bình tỷ lệ định danh đạt 91,09% so với 94,18% khi sử dụng toàn bộ thời lượng các làn điệu Chèo. Với độ dài trích đoạn 16 giây cho các bài hát Quan họ, tỷ lệ định danh này đạt 94,44% so với 96,89% cho toàn bộ file âm thanh. 2.3.6 Trường hợp 6: Định danh Chèo và Quan họ dùng i-vectors Các i-vector đã được sử dụng cho mô hình GMM để nhận dạng người nói và sau đây là kết quả thử nghiệm sử dụng i-vector cùng với mô hình GMM để phân loại hai thể loại dân ca Việt Nam là Chèo và Quan họ. Hình 3.12 và 3.13 lần lượt là so sánh tỷ lệ định danh Chèo và Quan họ với i-vector trên bộ tham số S1. Hình 2.16 So sánh tỷ lệ định danh đúng trung bình sử dụng i-vector với GMM đối với bộ tham số S1 trên tập dữ liệu Chèo 13
Hình 2.17 So sánh tỷ lệ định danh đúng trung bình sử dụng i-vector với GMM đối với bộ tham số S1 trên tập dữ liệu Quan họ 2.4 Phân lớp và định danh một số làn điệu dân ca Việt Nam dùng học sâu 2.4.1 Bộ dữ liệu và tham số sử dụng Dữ liệu sử dụng là bộ dữ liệu DANCA gồm 1000 file của 2 loại hình dân ca Chèo và Quan họ. Công cụ LibROSA [111] được sử dụng để phân tích và trích xuất các đặc trưng từ dữ liệu thử nghiệm. Các đặc trưng được chọn bao gồm 157 hệ số phổ mel và 26 tham số khác (cao độ (1), tonnetz (6), độ tương phản phổ (7) và âm sắc (12)). Bảng 2.14 Các bộ tham số dùng trong thử nghiệm Các đặc trưng Số lượng S1 S2 Mel spectrogram 157 157 pitch 1 tonnetz 6 183 spectral contrast 7 chroma 12 Tổng số: 183 157 183 2.4.2 Kết quả phân lớp và định danh Chèo và Quan họ Nghiên cứu được tiến hành trong 2 trường hợp: Phân lớp (xác định một làn điệu là Chèo hay Quan họ) và định danh (xác định làn điệu nào trong Chèo hoặc Quan họ). Bảng 4.5 là trung bình độ chính xác phân lớp Chèo và Quan họ với hai bộ tham số S1 và S2 trên ba mô hình CNN, LSTM và CRNN. 14
Bảng 2.18 Tổng hợp kết quả phân lớp Chèo và Quan họ với 2 bộ tham số Đối với bộ tham số S1, mô hình CRNN2 có trung bình tỷ lệ định danh đúng cao nhất đạt 99,66%. Còn đối với bộ tham số S2, mô hình CNN có trung bình tỷ lệ định danh đúng cao nhất đạt 99,92%. Bảng 2.19 và Bảng 2.20 là độ chính xác trung bình của việc định danh các làn điệu Quan họ và Chèo với 3 mô hình CNN, LSTM và CRNN. Mô hình CNN có trung bình tỷ lệ định danh đúng cao nhất trên cả hai bộ tham số S1 và S2. Bảng 2.19 Tổng hợp kết quả định danh trên bộ dữ liệu Quan họ 15
Bảng 2.20 Tổng hợp kết quả định danh trên bộ dữ liệu Chèo Với cùng một bộ dữ liệu DANCA, độ chính xác phân lớp và định danh của 3 mô hình CNN, LSTM và CRNN đều cao hơn so với các kết quả đạt được trước đó khi dùng mô hình GMM. 2.5 Kết chương 2 Chương 2 đã trình bày kết quả phân lớp và định danh một số làn điệu Chèo và Quan họ sử dụng mạng nơ-ron sâu là CNN, LSTM và CRNN. Kết quả phân lớp và định danh cho thấy, mạng CNN có kết quả cao hơn so với LSTM và CRNN. Kết quả phân lớp và định danh dùng mạng nơ- ron sâu đều cao hơn so với kết quả dùng mô hình GMM trên cùng bộ dữ liệu. Các kết quả nghiên cứu chính của Chương 2 đã được công bố trong các bài báo số 1, 2, 3, 5 và 6 trong Danh mục các công trình nghiên cứu của luận án. III. PHÂN LỚP THỂ LOẠI ÂM NHẠC TRÊN BỘ DỮ LIỆU NHẠC VIỆT, GTZAN VÀ FMA DÙNG HỌC SÂU 3.1. Các độ đo Accuracy, Precision, Recall và f1-score Trình bày về các đại lượng đánh giá đã được dùng trong nghiên cứu trên bộ dữ liệu GTZAN và FMA. 3.2. Phân lớp nhạc Việt dùng RAN Bộ dữ liệu âm nhạc Music Classification được đưa ra tại thử thách Zalo AI Challenge 2018. Đây là bộ dữ liệu gồm 10 thể loại nhạc Việt Nam 16
được gán nhãn từ Class 1 đến Class 10. Số lượng file trong mỗi thể loại là không đều nhau, tổng số lượng file trong bộ dữ liệu là 867 file. Hình 3.1 là chi tiết số lượng file tương ứng với 10 thể loại nhạc. Hình 3.1 Số lượng file tương ứng với mỗi thể loại trong tập dữ liệu Để giải quyết vấn đề mất cân bằng dữ liệu, trong quá trình chuyển đổi dữ liệu âm thanh (dạng MP3) thành ảnh phổ. Đối với mỗi lớp có ít dữ liệu hơn, dữ liệu âm thanh sẽ được chia thành nhiều hình ảnh hơn. Ngược lại, đối với các mẫu có nhiều lớp dữ liệu, dữ liệu âm thanh sẽ tách thành ít hình ảnh hơn. Cuối cùng, số lượng ảnh phổ của các Class được hiển thị trong Hình 3.2. Mỗi fold sẽ có 12.441 ảnh phổ. Hình 3.2 Số lượng ảnh phổ trong tập dữ liệu huấn luyện Trong nghiên cứu này, RAN được sử dụng để phân lớp các thể loại nhạc trong bộ dữ liệu Zalo AI Challenge 2018 dựa trên ảnh phổ của tín hiệu âm nhạc. Hình 3.3 là kiến trúc của RAN được đề xuất sử dụng trong nghiên cứu phân lớp thể loại nhạc. 17
Dữ liệu huấn luyện được chia Input images thành 5 phần bằng nhau, sử dụng 224x224x3 Residual Block Residual Block phương pháp đánh giá chéo. Convolution and Attention Residual Block Thử nghiệm phân lớp trên tập Max Pooling Module dữ liệu nhận dạng (test) cho độ images chính xác là 71,7%. Đây là một kết Residual Block images 7x7x2048 14x14x1024 quả cạnh tranh và đầy hứa hẹn so images Max Pooling and với 70,1% là kết quả của đội đạt giải 56x56x256 Residual Block Full Connected nhất tại Zalo AI Challenge 2018 với Attention Attention Output cùng bộ dữ liệu. Module Module 1x1x10 Residual Block images 3.3. Nghiên cứu phân lớp đối với 28x28x512 các bộ dữ liệu GTZAN và FMA Như sẽ trình bày trong nội dung Hình 3.3 Sơ đồ kiến trúc của RAN dưới đây, các kết quả nghiên cứu dùng trong nghiên cứu phân lớp của luận án đối với các bộ dữ liệu GTZAN và FMA_SMALL đều vượt trội so với các kết quả nghiên cứu phân lớp khác hiện có trên thế giới (Bảng 1.5 và 1.6) với cùng hai bộ dữ liệu này. 3.3.1 Nghiên cứu phân lớp đối với GTZAN Trong nghiên cứu này, các mô hình CNN, LSTM, GRU và CSN được sử dụng để phân lớp các thể loại âm nhạc trong bộ dữ liệu GTZAN. Bộ tham số sử dụng gồm 300 hệ số phổ Mel. Chi tiết bộ dữ liệu sử dụng được mô tả chi tiết trong Bảng 3.9 Bảng 3.11 thể hiện trung bình độ chính xác (%) phân lớp và AUC của 4 mô hình LSTM, CNN, GRU và CSN khi thực hiện phân lớp trên bộ dữ liệu S7. Có thể thấy, mô hình CSN có trung bình tỷ lệ định danh đúng cao nhất đạt 99,91%. Kết quả này vượt trội so với các nghiên cứu đã được công bố trên cùng tập dữ liệu. 18
Bảng 3.11 Trung bình độ chính xác và AUC của LSTM, CNN, GRU, CSN trên S7 Mô hình LSTM CNN GRU CSN Accuracy (%) 99,66 99,87 99,87 99,91 AUC 1 1 1 1 Để xác định hiệu quả của việc tăng cường dữ liệu, mô hình GRU đã thực hiện MGC với các tập dữ liệu S0, S1, S2n1, S2n2, S2n3, S2u và S2d. Hình 3.10 Độ chính xác phân loại của GRU trên những tập dữ liệu khác nhau Hình 3.10 thể hiện độ chính xác của MGC, trong các thử nghiệm dùng mô hình GRU trên các tập dữ liệu S0, S1, S2n1, S2n2, S2n3, S2u và S2d. Có thể thấy, các kỹ thuật tăng cường dữ liệu đã phát huy được hiệu quả tích cực trong việc nâng cao tỷ lệ phân lớp. 3.3.3 Nghiên cứu phân lớp đối với Small FMA Bộ dữ liệu dùng trong nghiên cứu được mô tả trong Bảng 3.15. Các mô hình sử dụng gồm CNN, GRU, DenseNet (169, 121 và 201). Dữ liệu sử dụng được tăng cường bằng cách kết hợp nhiều phương pháp tăng cường dữ liệu khác nhau. Kích thước file ảnh đầu vào là 230 × 230. 19
Tóm tắt về độ chính xác của các mô hình DenseNet169, DenseNet121, DenseNet201, CNN và GRU được mô tả trong Hình 3.11. Hình 3.11 Độ phân lớp chính xác của các mô hình trên bộ dữ liệu S4fL Như vậy, mô hình DenseNet121 cho độ chính xác cao nhất là 98,97% với tập dữ liệu S4fL và độ chính xác này vượt trội so với hầu hết các nghiên cứu hiên có trên thế giới với cùng tập dữ liệu. Để hiểu rõ hơn về tác động của việc tăng cường dữ liệu, thực nghiệm đã được thực hiện trên ba bộ dữ liệu S1, S2 và S3e dùng mô hình DenseNet169. Độ chính xác MGC của mô hình DenseNet169 theo kích thước dữ liệu tăng cường được cho trong Hình 3.13. Có thể thấy rằng, độ chính xác của MCG tăng lên khi kích thước dữ liệu tăng từ hai lên bốn lần. Hình 3.13 Độ chính xác của DenseNet169 phụ thuộc vào kích thước dữ liệu 3.4 Kết chương 3 Chương 3 đã trình bày các kết quả nghiên cứu phân lớp thể loại âm nhạc trên bộ dữ liệu nhạc Việt tại thử thách Zalo AI 2018 và hai bộ dữ liệu âm nhạc theo thể loại nổi tiếng là GTZAN và FMA_SMALL sử dụng các mô hình CNN, 20