
1
MỞ ĐẦU
Tính cấp thiết của luận án
Phân lớp là một trong những bài toán điển hình trong khai phá
dữ liệu; ứng dụng của phân lớp xuất hiện trong rất nhiều lĩnh vực của
đời sống. Tính ứng dụng cao của phân lớp làm cho bài toán phân lớp
được tiến hóa từ đơn giản tới phức tạp hơn theo hướng từ phân lớp
đơn nhãn tới phân lớp đa nhãn hoặc phân lớp đa thể hiện, và cho tới
phân lớp đa nhãn đa thể hiện. Phân lớp đơn nhãn (phân lớp truyền
thống) quy ước mỗi đối tượng dữ liệu có duy nhất một nhãn. Phân
lớp đa nhãn quy ước mỗi đối tượng dữ liệu có thể có hơn một nhãn.
Phân lớp đa thể hiện quy ước một đối tượng dữ liệu có thể tương ứng
với nhiều thể hiện và tương ứng với một nhãn. Phân lớp đa nhãn đa
thể hiện quy ước một đối tượng dữ liệu tương ứng với nhiều thể hiện
và các thể hiện này tương ứng với nhiều nhãn.
Phân lớp đa nhãn đòi hỏi những tiến hóa mới đối với các phương
pháp học máy cho các giải pháp thích hợp với các phần tử dữ liệu đa
nhãn như vấn đề mối quan hệ giữa các nhãn, chi phí tính toán của thuật
toán, vấn đề mất cân bằng nhãn, vấn đề đa chiều của dữ liệu... Phân
lớp đa nhãn là một chủ đề nghiên cứu, triển khai cuốn hút một cộng
đồng nghiên cứu rộng rãi với một số nhóm nghiên cứu nổi bật như các
nhóm nghiên cứu của Zhi-Hua Zhou, Min-Ling Zhang và cộng
sự, Ioannis P. Vlahavas, Grigorios Tsoumakas và cộng sự, Sebastián
Ventura Soto và cộng sự, v.v.
Luận án này tập trung vào chủ đề nghiên cứu phân lớp đa nhãn,
tiếp nối những nghiên cứu trước đó về bài toán phân lớp đa nhãn, các
phương pháp biểu diễn dữ liệu, lựa chọn đặc trưng và tiếp tục giải quyết
những vấn đề còn tồn tại liên quan đến bài toán phân lớp đa nhãn.