ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM THỊ NGÂN
NGHIÊN CỨU CẢI TIẾN PHÂN LỚP ĐA NHÃN VĂN BẢN
VÀ ỨNG DỤNG
Chuyên ngành: Hệ thống thông tin
Mã số: 62.48.01.04
TÓM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội – 2017
Công trình được hoàn thành tại: Trường Đại học Công nghệ, Đại
học Quốc gia Hà Nội
Người hướng dẫn khoa học: PGS. TS. Hà Quang Thụy
PGS.TS. Phan Xuân Hiếu
Phản biện: PGS. TS Lương Chi Mai ...........................
Viện CNTT, Viện Hàn lâm KH&CNVN ........................
Phản biện: PGS.TS Đỗ Văn Thành .............................
Bộ Kế hoạch và Đầu ...................................................
Phản biện: TS. Nguyễn Thị Minh Huyền ...................
Trường Đại học Khoa học Tự nhiên, ĐHQGHN ............
Luận án được bảo vệ trước Hội đồng cấp Đại học Quốc gia
chấm luận án tiến sĩ họp tại Đại học Công nghệ, ĐHQGHN
vào hồi 09 giờ ngày 12 tháng 12 năm 2017
Có thể tìm hiểu luận án tại:
- Thư viện Quốc gia Việt Nam
- Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà
1
MỞ ĐẦU
Tính cấp thiết của luận án
Phân lớp một trong những bài toán điển hình trong khai phá
dữ liệu; ứng dụng của phân lớp xuất hiện trong rất nhiều lĩnh vực của
đời sống. Tính ứng dụng cao của phân lớp làm cho bài toán phân lớp
được tiến hóa từ đơn giản tới phức tạp n theo hướng từ phân lớp
đơn nhãn tới phân lớp đa nhãn hoặc phân lớp đa thể hiện, cho tới
phân lớp đa nhãn đa thể hiện. Phân lớp đơn nhãn (phân lớp truyền
thống) quy ước mỗi đối tượng dữ liệu duy nhất một nhãn. Phân
lớp đa nhãn quy ước mỗi đối tượng dữ liệu thể hơn một nhãn.
Phân lớp đa thể hiện quy ước một đối tượng dữ liệu có thể tương ứng
với nhiều thể hiện ơng ứng với một nhãn. Phân lớp đa nhãn đa
thể hiện quy ước một đối tượng dữ liệu tương ứng với nhiều thể hiện
và các thể hiện này tương ứng với nhiều nhãn.
Pn lớp đa nhãn đòi hỏi những tiến hóa mới đi với các pơng
pháp học máy cho các giải pháp thích hợp với c phần tử dữ liệu đa
nhãn n vấn đề mối quan hệ giữa các nhãn, chi p tính toán của thuật
toán, vấn đề mất n bằng nhãn, vấn đề đa chiều của dữ liệu... Phân
lớp đa nhãn là một chđề nghiên cứu, triển khai cuốn t mt cộng
đồng nghiên cứu rng i với một số nm nghiên cứu nổi bật n c
nhóm nghiên cứu của Zhi-Hua Zhou, Min-Ling Zhang và cộng
sự, Ioannis P. Vlahavas, Grigorios Tsoumakas và cộng sự, Sebastián
Ventura Soto và cộng sự, v.v.
Luận án y tập trung o chđề nghiên cứu phân lớp đa nhãn,
tiếp nối những nghn cứu trước đó vbài tn phân lớp đa nhãn, các
phương pháp biểu diễn dữ liệu, lựa chọn đặc trưng tiếp tục giải quyết
những vấn đn tồn tại liên quan đến bài toán phân lớp đa nn.
2
Luận án tập trung nghiên cứu về phân lớp đa nhãn và ứng dụng
vào phân lớp văn bản tiếng Việt.
Thứ nhất, luận án đề nghị một thuật toán phân lớp đa nhãn khai
thác đặc trưng riêng biệt dựa trên phân cụm bán giám sát (Thuật toán
MULTICS [PTNgan5], [PTNgan6]) trên sở áp dụng một chiến
lược tham lam khi tích hợp hai thuật toán LIFT và TESC .
Th hai, lun án đ nghhai mô hình biểu din d liu cho phân lớp đa
nhãn là mô hình biểu diễn d liu đth khong cách [PTNgan4] khai thác
các thông tin bc cao về trt tự và khoảng cách đc tng trong văn bn và
mô hình biu din d liu ch đn [PTNgan3] khai thác c thông tin ng
nga ẩn trong văn bn làm giàu thêm c đc trưng cho mô hình.
Đồng thời, luận án cũng đề xuất hai mô hình phân lớp đơn nhãn
văn bản tiếng Việt tương ứng với hai bài toán ứng dụng thực tiễn bao
gồm mô hình gán nhãn thực thể tên đề xuất trong [PTNgan1]
mô hình hệ tư vấn xã hội đề xuất trong [PTNgan2].
Luận án ng thực thi c thực nghiệm kiểm chứng c thuật toán
và mô nh đxuất. Dliệu thực nghiệm được thu thập từ các trang web
tiếng Việt liên quan tới miền ứng dụng. Luận án cũng cung cấp một
nghiên cứu tổng quan về học máy đa nhãn.
Bố cục của luận án gồm phần mđu và bốn chương nội dung,
phần kết luận và danh mục i liệu tham khảo. Hình 0.1 cung cấp một
khung nn bộ về phân bố c chđề trong bốn chương của luận án.
Cơng 1 cung cấp mt khái quát t pn lp đơn nn tới pn lớp
đa nhãn; tập trung vào các vấn đ cơ bản của hc đa nn bao gm
phương pp tiếp cận, rút gọn đặc trưng; độ đo và phương pháp đánh g.
Cơng 2 đề xuất hai hình phân lớp đơn nn thông qua hai
i toán là gán nhãn thực thể có tên và hệ tư vấn xã hội tiếng Việt.
3
Hình 0.1 Phân bố các chủ đề trong các chương của luận án
Chương 3 đề xuất hai mô hình biểu diễn dữ liệu cho phân lớp đa
nhãn: sử dụng hình chủ đề ẩn LDA hình đồ thị khoảng
cách kết hợp với mô hình LDA.
Cơng 4 phân ch và đề xuất một tiếp cận pn lớp đa nhãn n
gm t với đặc trưng riêng biệt dựa trên kỹ thuật phân cụm.
Chương 1
TỪ PHÂN LỚP ĐƠN NHÃN TỚI PHÂN LỚP ĐA NHÃN
1.1. Từ phân lớp đơn nhãn đơn thể hiện tới phân lớp đa nhãn đa
thể hiện
Mục này cung cấp một khung tổng quát về sự tiến hóa trong bài
toán phân lớp t phân lớp truyền thống đơn nhãn tới phân lớp đa
nhãn đơn thể hiện, phân lớp đơn nhãn đa thể hiện phân lớp đa
nhãn đa thể hiện.
1.2. Giới thiệu chung về phân lớp đa nhãn
1.2.1. Kỹ thuật phân lớp đa nhãn
Kỹ thuật phân lớp đa nhãn được định hướng theo hai tiếp cận là