intTypePromotion=1
ADSENSE

Tóm tắt Luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng

Chia sẻ: Nguyễn Văn H | Ngày: | Loại File: PDF | Số trang:27

21
lượt xem
0
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án tập trung vào chủ đề nghiên cứu phân lớp đa nhãn, tiếp nối những nghiên cứu trước đó về bài toán phân lớp đa nhãn, các phương pháp biểu diễn dữ liệu, lựa chọn đặc trưng và tiếp tục giải quyết những vấn đề còn tồn tại liên quan đến bài toán phân lớp đa nhãn. Luận án tập trung nghiên cứu về phân lớp đa nhãn và ứng dụng vào phân lớp văn bản tiếng Việt.

Chủ đề:
Lưu

Nội dung Text: Tóm tắt Luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng

ĐẠI HỌC QUỐC GIA HÀ NỘI<br /> TRƯỜNG ĐẠI HỌC CÔNG NGHỆ<br /> <br /> PHẠM THỊ NGÂN<br /> <br /> NGHIÊN CỨU CẢI TIẾN PHÂN LỚP ĐA NHÃN VĂN BẢN<br /> VÀ ỨNG DỤNG<br /> <br /> Chuyên ngành: Hệ thống thông tin<br /> Mã số: 62.48.01.04<br /> <br /> TÓM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN<br /> <br /> Hà Nội – 2017<br /> <br /> Công trình được hoàn thành tại: Trường Đại học Công nghệ, Đại<br /> học Quốc gia Hà Nội<br /> Người hướng dẫn khoa học: PGS. TS. Hà Quang Thụy<br /> PGS.TS. Phan Xuân Hiếu<br /> Phản biện: PGS. TS Lương Chi Mai...........................<br /> Viện CNTT, Viện Hàn lâm KH&CNVN........................<br /> Phản biện: PGS.TS Đỗ Văn Thành .............................<br /> Bộ Kế hoạch và Đầu tư ...................................................<br /> Phản biện: TS. Nguyễn Thị Minh Huyền ...................<br /> Trường Đại học Khoa học Tự nhiên, ĐHQGHN............<br /> Luận án được bảo vệ trước Hội đồng cấp Đại học Quốc gia<br /> chấm luận án tiến sĩ họp tại Đại học Công nghệ, ĐHQGHN<br /> vào hồi 09 giờ ngày 12 tháng 12 năm 2017<br /> Có thể tìm hiểu luận án tại:<br /> -<br /> <br /> Thư viện Quốc gia Việt Nam<br /> <br /> -<br /> <br /> Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà<br /> <br /> MỞ ĐẦU<br /> Tính cấp thiết của luận án<br /> Phân lớp là một trong những bài toán điển hình trong khai phá<br /> dữ liệu; ứng dụng của phân lớp xuất hiện trong rất nhiều lĩnh vực của<br /> đời sống. Tính ứng dụng cao của phân lớp làm cho bài toán phân lớp<br /> được tiến hóa từ đơn giản tới phức tạp hơn theo hướng từ phân lớp<br /> đơn nhãn tới phân lớp đa nhãn hoặc phân lớp đa thể hiện, và cho tới<br /> phân lớp đa nhãn đa thể hiện. Phân lớp đơn nhãn (phân lớp truyền<br /> thống) quy ước mỗi đối tượng dữ liệu có duy nhất một nhãn. Phân<br /> lớp đa nhãn quy ước mỗi đối tượng dữ liệu có thể có hơn một nhãn.<br /> Phân lớp đa thể hiện quy ước một đối tượng dữ liệu có thể tương ứng<br /> với nhiều thể hiện và tương ứng với một nhãn. Phân lớp đa nhãn đa<br /> thể hiện quy ước một đối tượng dữ liệu tương ứng với nhiều thể hiện<br /> và các thể hiện này tương ứng với nhiều nhãn.<br /> Phân lớp đa nhãn đòi hỏi những tiến hóa mới đối với các phương<br /> pháp học máy cho các giải pháp thích hợp với các phần tử dữ liệu đa<br /> nhãn như vấn đề mối quan hệ giữa các nhãn, chi phí tính toán của thuật<br /> toán, vấn đề mất cân bằng nhãn, vấn đề đa chiều của dữ liệu... Phân<br /> lớp đa nhãn là một chủ đề nghiên cứu, triển khai cuốn hút một cộng<br /> đồng nghiên cứu rộng rãi với một số nhóm nghiên cứu nổi bật như các<br /> nhóm nghiên cứu của Zhi-Hua Zhou, Min-Ling Zhang và cộng<br /> sự, Ioannis P. Vlahavas, Grigorios Tsoumakas và cộng sự, Sebastián<br /> Ventura Soto và cộng sự, v.v.<br /> Luận án này tập trung vào chủ đề nghiên cứu phân lớp đa nhãn,<br /> tiếp nối những nghiên cứu trước đó về bài toán phân lớp đa nhãn, các<br /> phương pháp biểu diễn dữ liệu, lựa chọn đặc trưng và tiếp tục giải quyết<br /> những vấn đề còn tồn tại liên quan đến bài toán phân lớp đa nhãn.<br /> 1<br /> <br /> Luận án tập trung nghiên cứu về phân lớp đa nhãn và ứng dụng<br /> vào phân lớp văn bản tiếng Việt.<br /> Thứ nhất, luận án đề nghị một thuật toán phân lớp đa nhãn khai<br /> thác đặc trưng riêng biệt dựa trên phân cụm bán giám sát (Thuật toán<br /> MULTICS [PTNgan5], [PTNgan6]) trên cơ sở áp dụng một chiến<br /> lược tham lam khi tích hợp hai thuật toán LIFT và TESC .<br /> Thứ hai, luận án đề nghị hai mô hình biểu diễn dữ liệu cho phân lớp đa<br /> nhãn là mô hình biểu diễn dữ liệu đồ thị khoảng cách [PTNgan4] khai thác<br /> các thông tin bậc cao về trật tự và khoảng cách đặc trưng trong văn bản và<br /> mô hình biểu diễn dữ liệu chủ đề ẩn [PTNgan3] khai thác các thông tin ngữ<br /> nghĩa ẩn trong văn bản làm giàu thêm các đặc trưng cho mô hình.<br /> Đồng thời, luận án cũng đề xuất hai mô hình phân lớp đơn nhãn<br /> văn bản tiếng Việt tương ứng với hai bài toán ứng dụng thực tiễn bao<br /> gồm mô hình gán nhãn thực thể có tên đề xuất trong [PTNgan1] và<br /> mô hình hệ tư vấn xã hội đề xuất trong [PTNgan2].<br /> Luận án cũng thực thi các thực nghiệm kiểm chứng các thuật toán<br /> và mô hình đề xuất. Dữ liệu thực nghiệm được thu thập từ các trang web<br /> tiếng Việt liên quan tới miền ứng dụng. Luận án cũng cung cấp một<br /> nghiên cứu tổng quan về học máy đa nhãn.<br /> Bố cục của luận án gồm phần mở đầu và bốn chương nội dung,<br /> phần kết luận và danh mục tài liệu tham khảo. Hình 0.1 cung cấp một<br /> khung nhìn sơ bộ về phân bố các chủ đề trong bốn chương của luận án.<br /> Chương 1 cung cấp một khái quát từ phân lớp đơn nhãn tới phân lớp<br /> đa nhãn; tập trung vào các vấn đề cơ bản của học đa nhãn bao gồm<br /> phương pháp tiếp cận, rút gọn đặc trưng; độ đo và phương pháp đánh giá.<br /> Chương 2 đề xuất hai mô hình phân lớp đơn nhãn thông qua hai<br /> bài toán là gán nhãn thực thể có tên và hệ tư vấn xã hội tiếng Việt.<br /> 2<br /> <br /> Hình 0.1 Phân bố các chủ đề trong các chương của luận án<br /> <br /> Chương 3 đề xuất hai mô hình biểu diễn dữ liệu cho phân lớp đa<br /> nhãn: sử dụng mô hình chủ đề ẩn LDA và mô hình đồ thị khoảng<br /> cách kết hợp với mô hình LDA.<br /> Chương 4 phân tích và đề xuất một tiếp cận phân lớp đa nhãn bán<br /> giám sát với đặc trưng riêng biệt dựa trên kỹ thuật phân cụm.<br /> Chương 1<br /> TỪ PHÂN LỚP ĐƠN NHÃN TỚI PHÂN LỚP ĐA NHÃN<br /> 1.1. Từ phân lớp đơn nhãn đơn thể hiện tới phân lớp đa nhãn đa<br /> thể hiện<br /> Mục này cung cấp một khung tổng quát về sự tiến hóa trong bài<br /> toán phân lớp từ phân lớp truyền thống đơn nhãn tới phân lớp đa<br /> nhãn đơn thể hiện, phân lớp đơn nhãn đa thể hiện và phân lớp đa<br /> nhãn đa thể hiện.<br /> 1.2. Giới thiệu chung về phân lớp đa nhãn<br /> 1.2.1.<br /> <br /> Kỹ thuật phân lớp đa nhãn<br /> <br /> Kỹ thuật phân lớp đa nhãn được định hướng theo hai tiếp cận là<br /> 3<br /> <br />
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2