Tóm tắt luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng tóm tắt

Chia sẻ: Yi Yi | Ngày: | Loại File: PDF | Số trang:27

Thêm vào BST

Báo xấu

39
lượt xem 2
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án này tập trung vào chủ đề nghiên cứu phân lớp đa nhãn, tiếp nối những nghiên cứu trước đó về bài toán phân lớp đa nhãn, các phương pháp biểu diễn dữ liệu, lựa chọn đặc trưng và tiếp tục giải quyết những vấn đề còn tồn tại liên quan đến bài toán phân lớp đa nhãn.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Tóm tắt luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng tóm tắt

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ NGÂN NGHIÊN CỨU CẢI TIẾN PHÂN LỚP ĐA NHÃN VĂN BẢN VÀ ỨNG DỤNG Chuyên ngành: Hệ thống thông tin Mã số: 62.48.01.04 TÓM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2017
Công trình được hoàn thành tại: Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Người hướng dẫn khoa học: PGS. TS. Hà Quang Thụy PGS.TS. Phan Xuân Hiếu Phản biện: PGS. TS Lương Chi Mai........................... Viện CNTT, Viện Hàn lâm KH&CNVN........................ Phản biện: PGS.TS Đỗ Văn Thành ............................. Bộ Kế hoạch và Đầu tư ................................................... Phản biện: TS. Nguyễn Thị Minh Huyền ................... Trường Đại học Khoa học Tự nhiên, ĐHQGHN............ Luận án được bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận án tiến sĩ họp tại Đại học Công nghệ, ĐHQGHN vào hồi 09 giờ ngày 12 tháng 12 năm 2017 Có thể tìm hiểu luận án tại: - Thư viện Quốc gia Việt Nam - Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà
MỞ ĐẦU Tính cấp thiết của luận án Phân lớp là một trong những bài toán điển hình trong khai phá dữ liệu; ứng dụng của phân lớp xuất hiện trong rất nhiều lĩnh vực của đời sống. Tính ứng dụng cao của phân lớp làm cho bài toán phân lớp được tiến hóa từ đơn giản tới phức tạp hơn theo hướng từ phân lớp đơn nhãn tới phân lớp đa nhãn hoặc phân lớp đa thể hiện, và cho tới phân lớp đa nhãn đa thể hiện. Phân lớp đơn nhãn (phân lớp truyền thống) quy ước mỗi đối tượng dữ liệu có duy nhất một nhãn. Phân lớp đa nhãn quy ước mỗi đối tượng dữ liệu có thể có hơn một nhãn. Phân lớp đa thể hiện quy ước một đối tượng dữ liệu có thể tương ứng với nhiều thể hiện và tương ứng với một nhãn. Phân lớp đa nhãn đa thể hiện quy ước một đối tượng dữ liệu tương ứng với nhiều thể hiện và các thể hiện này tương ứng với nhiều nhãn. Phân lớp đa nhãn đòi hỏi những tiến hóa mới đối với các phương pháp học máy cho các giải pháp thích hợp với các phần tử dữ liệu đa nhãn như vấn đề mối quan hệ giữa các nhãn, chi phí tính toán của thuật toán, vấn đề mất cân bằng nhãn, vấn đề đa chiều của dữ liệu... Phân lớp đa nhãn là một chủ đề nghiên cứu, triển khai cuốn hút một cộng đồng nghiên cứu rộng rãi với một số nhóm nghiên cứu nổi bật như các nhóm nghiên cứu của Zhi-Hua Zhou, Min-Ling Zhang và cộng sự, Ioannis P. Vlahavas, Grigorios Tsoumakas và cộng sự, Sebastián Ventura Soto và cộng sự, v.v. Luận án này tập trung vào chủ đề nghiên cứu phân lớp đa nhãn, tiếp nối những nghiên cứu trước đó về bài toán phân lớp đa nhãn, các phương pháp biểu diễn dữ liệu, lựa chọn đặc trưng và tiếp tục giải quyết những vấn đề còn tồn tại liên quan đến bài toán phân lớp đa nhãn. 1
Luận án tập trung nghiên cứu về phân lớp đa nhãn và ứng dụng vào phân lớp văn bản tiếng Việt. Thứ nhất, luận án đề nghị một thuật toán phân lớp đa nhãn khai thác đặc trưng riêng biệt dựa trên phân cụm bán giám sát (Thuật toán MULTICS [PTNgan5], [PTNgan6]) trên cơ sở áp dụng một chiến lược tham lam khi tích hợp hai thuật toán LIFT và TESC . Thứ hai, luận án đề nghị hai mô hình biểu diễn dữ liệu cho phân lớp đa nhãn là mô hình biểu diễn dữ liệu đồ thị khoảng cách [PTNgan4] khai thác các thông tin bậc cao về trật tự và khoảng cách đặc trưng trong văn bản và mô hình biểu diễn dữ liệu chủ đề ẩn [PTNgan3] khai thác các thông tin ngữ nghĩa ẩn trong văn bản làm giàu thêm các đặc trưng cho mô hình. Đồng thời, luận án cũng đề xuất hai mô hình phân lớp đơn nhãn văn bản tiếng Việt tương ứng với hai bài toán ứng dụng thực tiễn bao gồm mô hình gán nhãn thực thể có tên đề xuất trong [PTNgan1] và mô hình hệ tư vấn xã hội đề xuất trong [PTNgan2]. Luận án cũng thực thi các thực nghiệm kiểm chứng các thuật toán và mô hình đề xuất. Dữ liệu thực nghiệm được thu thập từ các trang web tiếng Việt liên quan tới miền ứng dụng. Luận án cũng cung cấp một nghiên cứu tổng quan về học máy đa nhãn. Bố cục của luận án gồm phần mở đầu và bốn chương nội dung, phần kết luận và danh mục tài liệu tham khảo. Hình 0.1 cung cấp một khung nhìn sơ bộ về phân bố các chủ đề trong bốn chương của luận án. Chương 1 cung cấp một khái quát từ phân lớp đơn nhãn tới phân lớp đa nhãn; tập trung vào các vấn đề cơ bản của học đa nhãn bao gồm phương pháp tiếp cận, rút gọn đặc trưng; độ đo và phương pháp đánh giá. Chương 2 đề xuất hai mô hình phân lớp đơn nhãn thông qua hai bài toán là gán nhãn thực thể có tên và hệ tư vấn xã hội tiếng Việt. 2
Hình 0.1 Phân bố các chủ đề trong các chương của luận án Chương 3 đề xuất hai mô hình biểu diễn dữ liệu cho phân lớp đa nhãn: sử dụng mô hình chủ đề ẩn LDA và mô hình đồ thị khoảng cách kết hợp với mô hình LDA. Chương 4 phân tích và đề xuất một tiếp cận phân lớp đa nhãn bán giám sát với đặc trưng riêng biệt dựa trên kỹ thuật phân cụm. Chương 1 TỪ PHÂN LỚP ĐƠN NHÃN TỚI PHÂN LỚP ĐA NHÃN 1.1. Từ phân lớp đơn nhãn đơn thể hiện tới phân lớp đa nhãn đa thể hiện Mục này cung cấp một khung tổng quát về sự tiến hóa trong bài toán phân lớp từ phân lớp truyền thống đơn nhãn tới phân lớp đa nhãn đơn thể hiện, phân lớp đơn nhãn đa thể hiện và phân lớp đa nhãn đa thể hiện. 1.2. Giới thiệu chung về phân lớp đa nhãn 1.2.1. Kỹ thuật phân lớp đa nhãn Kỹ thuật phân lớp đa nhãn được định hướng theo hai tiếp cận là 3
các kỹ thuật theo tiếp cận chuyển đổi bài toán và các kỹ thuật theo tiếp cận thích nghi thuật toán. Kỹ thuật chuyển đổi bài toán là đưa bài toán phân lớp đa nhãn trở về bài toán phân lớp truyền thống và sử dụng các kỹ thuật vốn có. Kỹ thuật thích nghi thuật toán là cải biên các thuât toán vốn có cho bài toán phân lớp truyền thống thích nghi được với bài toán phân lớp. 1.2.2. Biểu diễn dữ liệu cho phân lớp đa nhãn Ngoài đặc thù mỗi dữ liệu có thể tương ứng với nhiều nhãn lớp, dữ liệu đầu vào của bài toán phân lớp đa nhãn có thêm một số đặc điểm bổ sung so với dữ liệu đầu vào của bài toán phân lớp đơn nhãn. Một số đặc điểm cần quan tâm là độ đo dữ liệu đa nhãn, phân bố nhãn trong tập dữ liệu miền ứng dụng, mỗi quan hệ giữa các nhãn,… 1.2.3. Đánh giá phân lớp đa nhãn Trong bài toán học máy truyền thống, hiệu quả của hệ thống học được đánh giá thông qua các độ đo thông thường như độ chính xác (accuracy), độ hồi tưởng (recall), độ đo hài hoà F-measure,… Tuy nhiên, việc đánh giá hiệu quả thực thi trong học đa nhãn phức tạp hơn nhiều so với học đơn nhãn truyền thống vì mỗi một mẫu có thể đồng thời thuộc về nhiều lớp. Do đó, một số độ đo đánh giá hiệu quả của hệ thống học đa nhãn được đề xuất. M.L. Zhang và Z.H. Zhou [Zhang14] chia các độ đo thành hai nhóm là độ do dựa trên mẫu và độ đo dựa trên nhãn. 1.3. Giảm chiều dữ liệu trong phân lớp đa nhãn Xu thế của dữ liệu lớn làm nảy sinh hiện tượng “bủng nổ chiều dữ liệu” làm ảnh hưởng trực tiếp đến việc áp dụng các thuật toán vốn có. Mặt khác, tập đặc trưng có thể tồn tại các đặc trưng không liên quan hoặc dư thừa tác động không tốt tới hiệu quả học mô hình và 4
phân lớp. Hai vấn đề về giảm chiều dữ liệu được đề xuất bao gồm giảm chiều đặc trưng đầu vào và giảm chiều không gian nhãn đầu ra. 1.4. Học bán giám sát cho phân lớp đa nhãn Việc gán nhãn cho dữ liệu đòi hỏi nhiều công sức và thời gian trong khi dữ liệu không có nhãn thì rất sẵn có và dễ dàng thu được. Tiếp cận học bán giám sát nhận được sự quan tâm của cộng đồng. 1.5. Kết luận chương 1 Chương 1 trình bày về các dạng bài toán phân lớp với bước phát triển từ phân lớp đơn nhãn, phân lớp đa nhãn đến phân lớp đa nhãn đa thể hiện. Chương này tập trung vào trình bày tổng quan về phân lớp đa nhãn bao gồm dữ liệu đa nhãn và biểu diễn dữ liệu đa nhãn; kỹ thuật phân lớp đa nhãn và phương pháp đánh giá phân lớp đa nhãn. Chương 2 HAI MÔ HÌNH PHÂN LỚP ĐƠN NHÃN VĂN BẢN TIẾNG VIỆT 2.1. Mô hình nhận diện thực thể có tên dựa trên trường ngẫu nhiên có điều kiện và tiêu chuẩn kỳ vọng tổng quát 2.1.1. Nhận diện thực thể có tên Nhận diện thực thể có tên (NER) là bài toán khá cơ bản trong nhóm các bài toán trích chọn thông tin. Bài toán có nhiệm vụ tìm kiếm và rút ra những thông tin liên quan đến thực thể trong văn bản, thông thường là loại thực thể. 2.1.2. Mô hình đề xuất Tiêu chuẩn kỳ vọng tổng quát [Druck08] là những điều kiện trong hàm mục tiêu huấn luyện cho phép gán giá trị cho kỳ vọng mô hình [Gideon08, Gideon10]. Luận án đề xuất một mô hình gán nhãn bán giám sát [PTNgan1] sử dụng các tiêu chuẩn kỳ vọng tổng quát [Gideon08] nhằm kết hợp những tri thức tiền nghiệm vào mô hình huấn luyện, khai 5
thác mô hình xác suất theo chủ đề ẩn Latent Dirichlet Allocation (LDA) để xây dựng tập ràng buộc về phân phối xác suất của các đặc trưng và tập thực thể cho trước, từ đó tính toán kỳ vọng có điều kiện của mô hình. Tiêu chuẩn kỳ vọng tổng quát được sử dụng để xác định tham số ước lượng cho hàm mục tiêu của mô hình trường ngẫu nhiên có điều kiện CRFs trên tập đặc trưng mức từ như đặc trưng từ loại (POS), đặc trưng theo ký tự và đặc trưng theo cửa sổ trượt để bổ sung thêm quan hệ trước sau nhằm nâng cao hiệu quả cho mô hình. Bài toán nhận diện thực thể có tên: Đầu vào: - D: tập mọi dữ liệu văn bản liên quan đến miền ứng dụng - DL ⊂ D: tập ví dụ mẫu chứa thực thể đã được gán nhãn. - DU ⊂ D: tập ví dụ mẫu chứa dữ liệu văn bản chưa gán nhãn. - L: tập các thực thể có tên Đầu ra: - Bộ gán nhãn thực thể có tên M: DL. Mô hình giải quyết bài toán trình bày ở Quy trình 2.1 và hình 2.1. Pha 1: Các bước tiền xử lý dữ liệu - Bước 1: Module tách câu, tách từ - Bước 2: Gán nhãn từ loại cho mỗi từ POS - Bước 3: Gán nhãn thực thể NER Pha 2: Xây dựng bộ phân lớp bán giám sát dựa trên mô hình trường điều kiện ngẫu nhiên CRF kết hợp tiêu chuẩn tổng quát - Bước 1: Xây dựng tập ràng buộc trên tập DU - Bước 2: Lựa chọn tập thuộc tính trên DL - Bước 3: Xây dựng bộ gán nhãn - Bước 4: Đánh giá mô hình Quy trình 2.1. Thủ tục giải quyết bài toán 2.1.3 Ứng dụng mô hình Mô hình áp dụng trong miền ứng dụng nhận diện thực thể có tên tiếng Việt trên văn bản pháp luật. Thực nghiệm được tiến hành trên một số tập ràng buộc khác nhau kết hợp với các tập dữ liệu huấn luyện khác nhau để đánh giá mức độ ảnh hưởng của các ràng buộc và dữ liệu có nhãn đến mô hình. Đồng thời, chúng tôi tiến hành thực 6
nghiệm gán nhãn thực thể sử dụng mô hình CRF làm cơ sở để so sánh với phương pháp đề xuất. Hình 2.1. Mô hình đề xuất Kết quả thực nghiệm ở Bảng 2.3 cho thấy, mô hình đề xuất cho kết quả tốt nhất là 90.14% và luôn cao hơn mô hình cơ sở. CRF CRF-GE ER PR% RE% F1 % PR% RE% F1 % 500 tokens of training data ORG 90.00 75.00 81.82 90.00 100.00 94.74 PER 100.00 66.67 80.00 100.00 66.67 80.00 LOC 12.50 100.00 22.22 25.00 100.00 40.00 ALL 58.33 72.41 64.62 63.89 82.14 71.88 1000 tokens of training data ORG 90.00 100.00 94.74 90.00 100.00 94.74 PER 100.00 83.33 90.91 100.00 90.91 95.24 LOC 56.25 81.82 66.67 56.25 75.00 64.29 ALL 77.78 87.50 82.35 77.78 87.50 82.35 1500 tokens of training data ORG 100.00 71.43 83.33 100.00 83.33 90.91 PER 100.00 100.00 100.00 100.00 90.91 95.24 LOC 75.00 100.00 85.71 75.00 100.00 85.71 ALL 88.89 88.89 88.89 88.89 91.43 90.14 Bảng 2.1. Kêt quả thực nghiệm mô hình gán nhãn thực thể có tên 7
2.2. Một mô hình phân lớp đơn nhãn trong hệ tư vấn xã hội 2.2.1. Sơ bộ về tư vấn xã hội Hệ tư vấn xã hội được định nghĩa trên hai khía cạnh: theo nghĩa hẹp và theo nghĩa rộng. Trong đó, theo nghĩa hẹp, hệ tư vấn xã hội là hệ tư vấn truyền thống có sử dụng các quan hệ xã hội trực tuyến như quan hệ niềm tin, quan hệ bạn bè, quan hệ thành viên, quan hệ theo dõi,… là một đầu vào bổ sung cho hệ thống. Theo nghĩa rộng, hệ tư vấn xã hội là hệ tư vấn bất kỳ hướng tới lĩnh vực phương diện xã hội. 2.2.2. Mô hình đề xuất Luận án đề xuất một hệ thống tư vấn xã hội sử dụng mô hình lọc cộng tác với phương pháp hướng người dùng xây dựng tập đặc trưng từ mối quan hệ xã hội và độ tương đồng giữa người dùng [PTNgan2]. Mô hình đề xuất xây dựng tập người dùng tin cậy dựa trên sự kết hợp kỹ thuật phân tích quan điểm người dùng, tính toán độ tương đồng người dùng và xây dựng tập đặc trưng khác nhau nhằm đánh giá sự ảnh hưởng đặc trưng đền quyết định tư vấn, bằng phân tích thống kê sản phầm yêu thích của người dụng tin cậy, lựa chọn sản phẩm có khả năng cao nhất tư vấn cho người dùng. Trong mô hình, tập sản phẩm xem xét được coi là tập nhãn được xác định trước, việc tư vấn sản phẩm chính là gán cho người dùng một sản phẩm trong tập các sản phẩm xem xét. Bài toán tư vấn xã hội: Đầu vào: - D: Tập dữ liệu là tập các bình luận của người dùng về sản phẩm. Chia tập D thành tập Dtrain làm dữ liệu huấn luyện và Dtest làm dữ liệu kiểm thử. - L: Danh sách các sản phẩm quan tâm Đầu ra: - Hệ tư vấn các sản phẩm cho người dùng mới M:DtrainL 8
Phương pháp giải quyết bài toán được trình bày ở Quy trình 2.2. Pha 1: Xây dựng tập dữ liệu về người dùng - Bước 1: Lựa chọn các danh mục sản phẩm để tư vấn – tập nhãn L - Bước 2: Phân tích quan điểm người dùng trên tập dữ liệu D để tìm ra tập sản phẩm người dùng quan tâm Pha 2: Xây dựng hệ thống tư vấn cho người dùng mới về sản phẩm - Bước 1: Tập dữ liệu về người dùng được chia ngẫu nhiên thành 2 tập dữ liệu huấn luyện (Dtrain) và tập kiểm thử (Dtest) - Bước 2: Xác định độ tương đồng trên tập người dùng Dtrain và mỗi người dùng trên tập Dtest để tìm ra tập người dùng tin cậy trên Dtrain. - Bước 3: Xác định tập sản phẩm ưa thích của tập người dùng tin cậy để tư vấn cho người dùng mới. - Bước 4: Đánh giá hiệu quả của hệ tư vấn. Quy trình 2.2. Thủ tục giải quyết bài toán Hình 2.2. Mô hình đề xuất 2.2.3. Ứng dụng mô hình Mô hình được áp dụng trong xây dựng hệ tư vấn xã hội cho người dùng về sản phẩm điện thoại di động (ĐTDĐ) trên mạng xã hội Facebook bao gồm 7 thương hiệu sản phẩm ĐTDĐ nổi tiếng. Dữ liệu 9
về người dùng được thu thập và phân tích quan điểm để xây dựng danh sách sản phẩm yêu thích. Mô hình cũng đề xuất xây dựng 2 loại tập tập đặc trưng bao gồm đặc trưng tiểu sử và đặc trưng xã hội được đánh giá riêng biệt và kết hợp để xác định độ tương đồng giữa người dùng và tập người dùng tin cậy làm cơ sở tư vấn sản phẩm. Kết quả thực nghiệm ở Bảng 2.2. cho thấy, việc sử dụng tập đặc trưng khác nhau ảnh hưởng đến quyết định tư vấn, trong đó đặc trưng xã hội có ảnh hưởng tốt hơn đặc trưng tiểu sử, đồng thời việc kết hợp cả hai loại đặc trưng cho kết quả tốt nhất. Mặt khác, tại mỗi thực nghiệm, độ chính xác bậc thấp luôn cao hơn độ chính xác bậc cao cho thấy kết quả tư vấn với số lượng ít sản phẩm cho kết quả tốt hơn nhiều sản phẩm. Features P@1 P@2 P@3 MAP@3 Đặc trưng tiểu sử 0.416 0.385 0.353 0.377 Đặc trưng xã hội 0.456 0.429 0.407 0.424 Kết hợp 2 loại đặc trưng 0.512 0.487 0.446 0.481 Bảng 2.2. Kết quả thực nghiệm 2.3. Kết luận chương 2 Chương này trình bày về hai mô hình phân lớp đơn nhãn do luận án đề xuất bao gồm mô hình gán nhãn thực thể có tên và mô hình hệ tư vấn xã hội. Các kết quả nghiên cứu trong Chương 2 được công bố trong [PTNgan1], [PTNgan2]. Chương 3 PHÂN LỚP ĐA NHÃN VĂN BẢN DỰA TRÊN BIỂU DIỄN DỮ LIỆU THEO CHỦ ĐỀ ẨN 3.1. Phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo chủ đề ẩn 3.1.1. Biểu diễn dữ liệu theo chủ đề ẩn Mục này trình bày về biểu diễn dữ liệu theo mô hình chủ đề ẩn 10
LDA [Blei03, Blei12]. 3.1.2. Mô hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo chủ đề ẩn Phát biểu bài toán phân lớp sử dụng phương pháp biểu diễn dữ liệu theo chủ đề ẩn như sau: Đầu vào: - : tập dữ liệu văn bản đa nhãn chia thành 2 tập Dtrain làm tập dữ liệu huấn luyện và tập Dtest làm tập dữ liệu kiểm thử. - DU: tập dữ liệu không nhãn liên quan đến chủ đề thuộc miền ứng dụng để xây dựng mô hình chủ đề ẩn. - L: tập nhãn cho trước gồm q nhãn Đầu ra: - Mô hình phân lớp đa nhãn M sao cho M được đánh giá kiểm thử đạt hiệu quả cao. Mô hình đề xuất được thể hiện trong Quy trình 3.1 và mô hình đề xuất tại hình 3.1. Pha 1: Huấn luyện mô hình - Bước 1: Tiền xử lý dữ liệu: tách câu, tách từ, loại bỏ từ dừng, chuẩn hóa dữ liệu và biểu diễn dữ liệu theo đặc trưng TF.IDF cho tập Dtrain - Bước 2: Xây dựng mô hình chủ đề ẩn LDA trên tập DU và tập đặc trưng về phân phối chủ đề ẩn trên mỗi câu của tập Dtrain. - Bước 3: Lựa chọn đặc trưng dựa trên phương pháp thông tin tương hỗ MI [Doquire11] để rút gọn và tìm ra tập đặc trưng tiêu biểu nhất cho quá trình phân lớp. - Bước 4: Xây dựng bộ phân lớp đa nhãn Pha 2: Phân lớp đa nhãn sử dụng mô hình huấn luyện - Bước 1: Tiền xử lý dữ liệu kiểm thử Dtest - Bước 2: Xây dựng tập đặc trưng cho dữ liệu kiểm thử D- test - Bước 3: Phân lớp sử dụng bộ phân lớp đa nhãn ở Pha 1 Quy trình 3.1. Thủ tục giải quyết bài toán 11
Hình 3.1. Mô hình đề xuất Trọng tâm của mô hình xây dựng tập đặc trưng bao gồm đặc trưng TF.IDF và đặc trưng về phân phối xác suất chủ đề ẩn LDA trong văn bản được thực hiện ở bước 1, 2 ở pha huấn luyện mô hình. Mô hình chủ đề ẩn LDA cung cấp các đặc trưng ngữ nghĩa ẩn trong văn bản nhằm biểu diễn văn bản được đầy đủ hơn. Ngoài ra, mô hình còn áp dụng một kỹ thuật lựa chọn đặc trưng nhằm làm loại bỏ đặc trưng dư thừa, chọn lọc các đặc trưng hữu ích nhất. Đây là một trong các bước cơ bản trong các mô hình học máy nhằm tăng cường thực thi của mô hình. 3.1.3. Ứng dụng phân lớp đa nhãn đánh giá khách sạn Mô hình đề xuất được áp dụng trong bài toán đánh giá danh tiếng khách sạn, trong đó tập trung vào 5 lĩnh vực: sự phục vụ nhân viên, chất lượng phòng, khách sạn, chất lượng đồ ăn, vị trí và giá cả, trang thiết bị. Dữ liệu thực nghiệm được thu thập từ các website du lịch, xây dựng 2 tập dữ liệu bao gồm tập dữ liệu có gán nhãn làm tập huấn luyện và kiểm thử, và tập dữ liệu không nhãn để xây dựng mô hình chủ đề ẩn LDA. Để đánh giá hiệu quả 12
mô hình chúng tôi thiết kế thực nghiệm với các tập đặc trưng khác nhau bao gồm: đặc trưng TF.IDF; TF.IDF và đặc trưng xác suất chủ đề ẩn LDA với số lượng chủ đề ẩn khác nhau; TF.IDF+đặc trưng LDA+kỹ thuật rút gọn đặc trưng MI. Kết quả thực nghiệm được thể hiện ở Bảng 3.2 cho thấy kết quả tốt nhất nhận được khi kết hợp đặc trưng theo cách thứ 3 là TF.IDF + LDA + MI. Average of 5-folds valuation Precision Recall F1 TF.IDF 0.6764 0.7025 0.6804 TF.IDF + LDA_15 topics 0.6798 0.7056 0.6842 TF.IDF + LDA_20 topics 0.6827 0.7125 0.6883 TF.IDF + LDA_25 topics 0.6793 0.7075 0.6844 TF.IDF + LDA_20 topics + Feature Selection 0.6835 0.7108 0.6890 Bảng 3.1. Kết quả mô hình đề xuất 3.2. Phân lớp đa nhãn văn bản dựa trên đồ thị khoảng cách và mô hình chủ đề ẩn 3.2.1. Mô hình biểu diễn văn bản theo đồ thị khoảng cách Mục này trình bày về biểu diễn dữ liệu theo đồ thị khoảng cách [Aggarwal13]. Luận án giới thiêu một số phát hiện so sánh biểu diễn dữ liệu văn bản theo n-gram và theo đồ thị khoảng cách. 3.2.2. Mô hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo đồ thị khoảng cách chủ đề ẩn Mô hình chủ đề ẩn [Blei03, Blei12] được sử dụng hiệu quả trong nhiều bài toán, khai thác được các đặc trưng ngữ nghĩa ẩn, đặc trưng tổng quát trong tài liệu. Bên cạnh đó, mô hình đồ thị khoảng cách [Aggarwal13] biểu diễn được thông tin ở bậc cao bao gồm các đặc trưng tần suất, các đặc trưng trật tự và khoảng cách giữa các từ trong văn bản. Luận án đề xuất tiếp cận làm giàu đặc trưng kết hợp hai mô hình theo hướng khai thác đặc trưng về chủ đề ẩn trong các tài liệu, sau đó sử dụng đồ thị khoảng cách biểu diễn cấu trúc kết nối giữa các chủ đề (thay vì cấu trúc từ như trong [Aggarwal13]) thể hiện ở Bước 1, 2 13
trong pha huấn luyện mô hình nhằm khai thác các thông tin về tần suất chủ đề, khoảng cách giữa các chủ đề, thứ tự giữa các chủ đề… làm giàu thêm đặc trưng cho mô hình. Phát biểu bài toán như đã trình bày tại mục 3.1.2. Mô hình giải quyết bài toán thể hiện ở Quy trình 3.2.và Hình 3.2. Pha 1: Huấn luyện mô hình - Bước 1: Xây dựng mô hình chủ đề ẩn LDA trên tập DU và biểu diễn câu chủ đề trên tập dữ liệu Dtrain - Bước 2: Biểu diễn đồ thị khoảng cách trên câu chủ đề trên tập Dtrain - Bước 3: Xây dựng bộ phân lớp đa nhãn Pha 2: Phân lớp đa nhãn sử dụng mô hình huấn luyện - Bước 1: Xây dựng tập đặc trưng dựa trên mô hình chủ đề ẩn và biểu diễn đồ thị khoảng cách cho tập Dtest - Bước 2: Phân lớp và đánh giá hiệu quả của mô hình Quy trình 3.2. Thủ tục giải quyết bài toán Hình 3.2. Mô hình phân lớp đa nhãn dựa trên đồ thị khoảng cách và mô hình chủ đề ẩn. 3.2.3. Ứng dụng phân lớp đa nhãn đánh giá khách sạn Mô hình được ứng dụng giải quyết bài toán đánh giá danh tiếng khách sạn như trình bày ở mục 3.1.3. Đầu tiên, xây dựng các mô hình chủ 14
đề ẩn LDA với số lượng chủ đề ẩn khác nhau là 10, 15, 25 50 và 100. Bảng 3.2. Kết quả mô hình đề xuất Dựa trên mô hình chủ đề ẩn, chuyển đổi dữ liệu biểu diễn theo từ sang biểu diễn câu chủ đề. Xây dựng mô hình đồ thị khoảng cách trên câu chủ đề với số bậc khác nhau lần lượt là: 0,1,2,3 Kết quả phân lớp thể hiện ở Bảng 3.2 cho thấy mô hình đề xuất cho kết quả tốt hơn phương pháp cơ sở sử dụng đặc trưng tần suất xuất hiện theo mô hình không gian vectơ và tốt hơn phương pháp biểu diễn sử dụng mô hình đồ thị khoảng cách trên tập từ. 3.3. Kết luận chương 3 Chương 3 đã trình bày hai phương pháp biểu diễn dữ liệu cho phân lớp đa nhãn bao gồm mô hình biểu diễn dựa trên mô hình chủ 15
đề ẩn LDA và mô hình biểu diễn dựa trên đồ thị khoảng cách kết hợp chủ đề ẩn LDA. Các kết quả nghiên cứu trong Chương 3 được công [PTNgan3, PTNgan4]. Chương 4 KỸ THUẬT BÁN GIÁM SÁT PHÂN LỚP ĐA NHÃN VĂN BẢN TIẾNG VIỆT 4.1. Tiếp cận phân cụm bán giám sát Mục này giới thiệu về kỹ thuật phân cụm bán giám sát nói chung gồm tiếp cận dựa trên ràng buộc và tiếp cận dựa trên khoảng cách. 4.2. Mô hình phân lớp đa nhãn bán giám sát 4.2.1. Phát biểu bài toán phân lớp đa nhãn bán giám sát Phát biểu bài toán phân lớp đa nhãn bán giám sát theo tiếp cận phân cụm bán giám sát được thể hiện như sau: Gọi D = {D , D } là tập văn bản, trong đó D và D tương ứng là tập dữ liệu đã gán nhãn và tập dữ liệu chưa gán nhãn, trong đó L là tập bao gồm q nhãn được định nghĩa trước L = l , l , … , l ; Trong bước huấn luyện, mục tiêu là xây dựng một phân hoạch C trên tập dữ liệu D = {D , D }, C = {C , … , C } và () () C = d , … , d| (1 ≤ i ≤ m), trong đó, ⋃ | C = D và C ∩ C = ∅ (1 ≤ i ≠ j ≤ m). Các văn bản trong mỗi hoạch C được gán cùng nhãn cụm l . Sau khi thu được phân hoạch C, chúng tôi xây dựng mô hình phân lớp sử dụng phương pháp tìm kiếm láng giềng gần nhất để dự đoán tập nhãn cho các dữ liệu không nhãn theo công thức. l(d ) = l (4.1) Trong đó, C = arg min dis d , c , c là tâm cụm C và dis(. ) là độ đo khoảng cách được sử dụng để xác định độ tương tự của dữ liệu. Theo đó, văn bản chưa gán nhãn d sẽ được gán nhãn của cụm C là cụm gần nhất với d . Mô hình đã tận dụng được dữ liệu chưa gán nhãn đưa vào quá trình phân hoạch và xây dựng mô hình phân lớp f 16
để dự đoán nhãn cho các dữ liệu không nhãn d . 4.2.2. Thuật toán phân lớp đa nhãn dựa trên kỹ thuật phân cụm bán giám sát Ý tưởng của thuật toán được phát triển từ tiếp cận khai thác đặc trưng riêng nhãn là đặc trưng mang tính chất phân biệt của một nhãn trong LIFT do M. L. Zhang và L. Wu đề xuất [Zhang15] và tiếp cận về phân cụm bán giám sát TESC do W. Zhang và cộng sự đề xuất [Zhang15]. Trong khi việc xây dựng tập đặc trưng riêng nhãn trong LIFT dựa trên tập âm, dương (tập chứa nhãn và không chứa nhãn), tiếp cận của luận có sự khác biệt trong phân chia tập dữ liệu kết hợp chiến thuật tham lam, tập đặc trưng riêng biệt được tạo ra không chỉ cho một nhãn mà có thể là cho cả một tập nhãn. Trong khi LIFT sử dụng kỹ thuật phân cụm giám sát (Kmeans), luận án sử dụng một kỹ thuật phân cụm bán giám sát TESC nhằm tận dụng được nguồn tài nguyên không nhãn phong phú để nâng cao thực thi của mô hình. TESC nguyên thủy được sử dụng cho dữ liệu đơn nhãn, do đó thuật toán đề xuất đã có những bước chuyển đồi thích hợp mà không làm mất tính chất dữ liệu đa nhãn. Sau khi phân cụm dữ liệu, bước phân lớp dựa trên kỹ thuật láng giềng gần nhất để gán nhãn của cụm gần nhất cho dữ liệu không nhãn. Mô hình gồm hai bước: Bước 1 – phân cụm dữ liệu. Bản chất là xây dựng tập đặc trưng riêng biệt cho các nhãn theo trình tự nhãn chiếm ưu thế. Bước 2 – phân lớp nhằm xác định tập nhãn cho dữ liệu dựa trên kỹ thuật láng giềng gần nhất khai thác tập nhãn của cụm láng giềng gần nhất. Thuật toán phân cụm được đặt tên là MULTICSLearn(.) được trình bày theo dạng giả mã (pseudo-code) như sau: ( , 1, 2, ) Đầu vào: : Tập dữ liệu có nhãn và không nhãn. ={ , }, Trong đó 17
và lần lượt là tập dữ liệu có nhãn và không nhãn. Khởi tạo ban đầu là toàn bộ tập dữ liệu huấn luyện. : tập nhãn mặc định cho tất cả dữ liệu trong . Khởi tạo ban đầu là tập rỗng. : tập nhãn (ngoài ) có thể thêm vào dữ liệu trong ( = \ ). Khởi tạo ban đầu là tập tất cả các nhãn Đầu ra: : tập các cụm được gán nhãn. 1. Gọi là một nhãn trong tập có tần xuất xuất hiện lớn nhất trong tập dữ liệu 2. Xây dựng tập nhãn giả ∗ = { , , }, trong đó ← ∪ { }, ← ∪ { } ∪ {" : ¹Æ Ù Ì \{ }}, ← \{ } ← ( , { , , }); ∗ ← ( , ∗) 3. Chia tập dữ liệu thành 3 tập con dựa trên phân hoạch ∗ : a. : tập chứa dữ liệu có nhãn và không nhãn trong đó dữ liệu có nhãn được gãn nhãn b. : tập chứa dữ liệu có nhãn và không nhãn trong đó dữ liệu có nhãn được gãn nhãn c. : tập chứa dữ liệu có nhãn và không nhãn trong đó dữ liệu có nhãn được gãn nhãn 4. Đối với tập : ← ∪ ( , 1 ∪ { }) 5. Đối với tập a. Nếu mọi dữ liệu trong có cùng tập nhãn, gọi tập nhãn này là ← ∪ ( , ) b. Ngược lại ( , È{ λ }, \{λ}, ) 6. Đối với tập a. Nếu mọi dữ liệu trong có cùng tập nhãn, gọi tập nhãn này là ← ∪ ( , ) b. Ngược lại ( , , \{λ}, ) 7. Return Thủ tục 4.1. Thủ tục phân cụm MULTICSLearn Để tìm được phân hoạch trên tập dữ liệu, đầu tiên khởi tạo tập C rỗng ={}, sau đó gọi thủ tục phân cụm với các tham số như sau: ( , { }, , ). Phân hoạch này là cơ sở xây dựng mô hình phân lớp ở bước tiếp theo. Trong bước phân lớp dữ liệu, đầu vào là phân hoạch trên tập 18