ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

PHẠM THỊ NGÂN

NGHIÊN CỨU CẢI TIẾN PHÂN LỚP ĐA NHÃN VĂN BẢN

VÀ ỨNG DỤNG

Chuyên ngành: Hệ thống thông tin

Mã số: 62.48.01.04

TÓM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội – 2017

Công trình được hoàn thành tại: Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội

Người hướng dẫn khoa học: PGS. TS. Hà Quang Thụy

PGS.TS. Phan Xuân Hiếu

Phản biện: PGS. TS Lương Chi Mai ...........................

Viện CNTT, Viện Hàn lâm KH&CNVN ........................

Phản biện: PGS.TS Đỗ Văn Thành .............................

Bộ Kế hoạch và Đầu tư ...................................................

Phản biện: TS. Nguyễn Thị Minh Huyền ...................

Trường Đại học Khoa học Tự nhiên, ĐHQGHN ............

Luận án được bảo vệ trước Hội đồng cấp Đại học Quốc gia

chấm luận án tiến sĩ họp tại Đại học Công nghệ, ĐHQGHN

vào hồi 09 giờ ngày 12 tháng 12 năm 2017

Có thể tìm hiểu luận án tại:

Thư viện Quốc gia Việt Nam -

- Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà

MỞ ĐẦU

Tính cấp thiết của luận án

Phân lớp là một trong những bài toán điển hình trong khai phá

dữ liệu; ứng dụng của phân lớp xuất hiện trong rất nhiều lĩnh vực của

đời sống. Tính ứng dụng cao của phân lớp làm cho bài toán phân lớp

được tiến hóa từ đơn giản tới phức tạp hơn theo hướng từ phân lớp

đơn nhãn tới phân lớp đa nhãn hoặc phân lớp đa thể hiện, và cho tới

phân lớp đa nhãn đa thể hiện. Phân lớp đơn nhãn (phân lớp truyền

thống) quy ước mỗi đối tượng dữ liệu có duy nhất một nhãn. Phân

lớp đa nhãn quy ước mỗi đối tượng dữ liệu có thể có hơn một nhãn.

Phân lớp đa thể hiện quy ước một đối tượng dữ liệu có thể tương ứng

với nhiều thể hiện và tương ứng với một nhãn. Phân lớp đa nhãn đa

thể hiện quy ước một đối tượng dữ liệu tương ứng với nhiều thể hiện

và các thể hiện này tương ứng với nhiều nhãn.

Phân lớp đa nhãn đòi hỏi những tiến hóa mới đối với các phương

pháp học máy cho các giải pháp thích hợp với các phần tử dữ liệu đa

nhãn như vấn đề mối quan hệ giữa các nhãn, chi phí tính toán của thuật

toán, vấn đề mất cân bằng nhãn, vấn đề đa chiều của dữ liệu... Phân

lớp đa nhãn là một chủ đề nghiên cứu, triển khai cuốn hút một cộng

đồng nghiên cứu rộng rãi với một số nhóm nghiên cứu nổi bật như các

nhóm nghiên cứu của Zhi-Hua Zhou, Min-Ling Zhang và cộng

sự, Ioannis P. Vlahavas, Grigorios Tsoumakas và cộng sự, Sebastián

Ventura Soto và cộng sự, v.v.

Luận án này tập trung vào chủ đề nghiên cứu phân lớp đa nhãn,

tiếp nối những nghiên cứu trước đó về bài toán phân lớp đa nhãn, các

phương pháp biểu diễn dữ liệu, lựa chọn đặc trưng và tiếp tục giải quyết

những vấn đề còn tồn tại liên quan đến bài toán phân lớp đa nhãn.

1

Luận án tập trung nghiên cứu về phân lớp đa nhãn và ứng dụng

vào phân lớp văn bản tiếng Việt.

Thứ nhất, luận án đề nghị một thuật toán phân lớp đa nhãn khai

thác đặc trưng riêng biệt dựa trên phân cụm bán giám sát (Thuật toán

MULTICS [PTNgan5], [PTNgan6]) trên cơ sở áp dụng một chiến

lược tham lam khi tích hợp hai thuật toán LIFT và TESC .

Thứ hai, luận án đề nghị hai mô hình biểu diễn dữ liệu cho phân lớp đa

nhãn là mô hình biểu diễn dữ liệu đồ thị khoảng cách [PTNgan4] khai thác

các thông tin bậc cao về trật tự và khoảng cách đặc trưng trong văn bản và

mô hình biểu diễn dữ liệu chủ đề ẩn [PTNgan3] khai thác các thông tin ngữ

nghĩa ẩn trong văn bản làm giàu thêm các đặc trưng cho mô hình.

Đồng thời, luận án cũng đề xuất hai mô hình phân lớp đơn nhãn

văn bản tiếng Việt tương ứng với hai bài toán ứng dụng thực tiễn bao

gồm mô hình gán nhãn thực thể có tên đề xuất trong [PTNgan1] và

mô hình hệ tư vấn xã hội đề xuất trong [PTNgan2].

Luận án cũng thực thi các thực nghiệm kiểm chứng các thuật toán

và mô hình đề xuất. Dữ liệu thực nghiệm được thu thập từ các trang web

tiếng Việt liên quan tới miền ứng dụng. Luận án cũng cung cấp một

nghiên cứu tổng quan về học máy đa nhãn.

Bố cục của luận án gồm phần mở đầu và bốn chương nội dung,

phần kết luận và danh mục tài liệu tham khảo. Hình 0.1 cung cấp một

khung nhìn sơ bộ về phân bố các chủ đề trong bốn chương của luận án.

Chương 1 cung cấp một khái quát từ phân lớp đơn nhãn tới phân lớp

đa nhãn; tập trung vào các vấn đề cơ bản của học đa nhãn bao gồm

phương pháp tiếp cận, rút gọn đặc trưng; độ đo và phương pháp đánh giá.

Chương 2 đề xuất hai mô hình phân lớp đơn nhãn thông qua hai

bài toán là gán nhãn thực thể có tên và hệ tư vấn xã hội tiếng Việt.

2

Hình 0.1 Phân bố các chủ đề trong các chương của luận án

Chương 3 đề xuất hai mô hình biểu diễn dữ liệu cho phân lớp đa

nhãn: sử dụng mô hình chủ đề ẩn LDA và mô hình đồ thị khoảng

cách kết hợp với mô hình LDA.

Chương 4 phân tích và đề xuất một tiếp cận phân lớp đa nhãn bán

giám sát với đặc trưng riêng biệt dựa trên kỹ thuật phân cụm.

Chương 1

TỪ PHÂN LỚP ĐƠN NHÃN TỚI PHÂN LỚP ĐA NHÃN

1.1. Từ phân lớp đơn nhãn đơn thể hiện tới phân lớp đa nhãn đa

thể hiện

Mục này cung cấp một khung tổng quát về sự tiến hóa trong bài

toán phân lớp từ phân lớp truyền thống đơn nhãn tới phân lớp đa

nhãn đơn thể hiện, phân lớp đơn nhãn đa thể hiện và phân lớp đa

nhãn đa thể hiện.

1.2. Giới thiệu chung về phân lớp đa nhãn

1.2.1. Kỹ thuật phân lớp đa nhãn

Kỹ thuật phân lớp đa nhãn được định hướng theo hai tiếp cận là

3

các kỹ thuật theo tiếp cận chuyển đổi bài toán và các kỹ thuật theo

tiếp cận thích nghi thuật toán.

Kỹ thuật chuyển đổi bài toán là đưa bài toán phân lớp đa nhãn

trở về bài toán phân lớp truyền thống và sử dụng các kỹ thuật vốn có.

Kỹ thuật thích nghi thuật toán là cải biên các thuât toán vốn có cho

bài toán phân lớp truyền thống thích nghi được với bài toán phân lớp.

1.2.2. Biểu diễn dữ liệu cho phân lớp đa nhãn

Ngoài đặc thù mỗi dữ liệu có thể tương ứng với nhiều nhãn lớp,

dữ liệu đầu vào của bài toán phân lớp đa nhãn có thêm một số đặc

điểm bổ sung so với dữ liệu đầu vào của bài toán phân lớp đơn nhãn.

Một số đặc điểm cần quan tâm là độ đo dữ liệu đa nhãn, phân bố

nhãn trong tập dữ liệu miền ứng dụng, mỗi quan hệ giữa các nhãn,…

1.2.3. Đánh giá phân lớp đa nhãn

Trong bài toán học máy truyền thống, hiệu quả của hệ thống học

được đánh giá thông qua các độ đo thông thường như độ chính xác

(accuracy), độ hồi tưởng (recall), độ đo hài hoà F-measure,… Tuy

nhiên, việc đánh giá hiệu quả thực thi trong học đa nhãn phức tạp

hơn nhiều so với học đơn nhãn truyền thống vì mỗi một mẫu có thể

đồng thời thuộc về nhiều lớp. Do đó, một số độ đo đánh giá hiệu quả

của hệ thống học đa nhãn được đề xuất. M.L. Zhang và Z.H. Zhou

[Zhang14] chia các độ đo thành hai nhóm là độ do dựa trên mẫu và

độ đo dựa trên nhãn.

1.3. Giảm chiều dữ liệu trong phân lớp đa nhãn

Xu thế của dữ liệu lớn làm nảy sinh hiện tượng “bủng nổ chiều

dữ liệu” làm ảnh hưởng trực tiếp đến việc áp dụng các thuật toán vốn

có. Mặt khác, tập đặc trưng có thể tồn tại các đặc trưng không liên

quan hoặc dư thừa tác động không tốt tới hiệu quả học mô hình và

4

phân lớp. Hai vấn đề về giảm chiều dữ liệu được đề xuất bao gồm

giảm chiều đặc trưng đầu vào và giảm chiều không gian nhãn đầu ra.

1.4. Học bán giám sát cho phân lớp đa nhãn

Việc gán nhãn cho dữ liệu đòi hỏi nhiều công sức và thời gian

trong khi dữ liệu không có nhãn thì rất sẵn có và dễ dàng thu được.

Tiếp cận học bán giám sát nhận được sự quan tâm của cộng đồng.

1.5. Kết luận chương 1

Chương 1 trình bày về các dạng bài toán phân lớp với bước phát

triển từ phân lớp đơn nhãn, phân lớp đa nhãn đến phân lớp đa nhãn đa

thể hiện. Chương này tập trung vào trình bày tổng quan về phân lớp đa

nhãn bao gồm dữ liệu đa nhãn và biểu diễn dữ liệu đa nhãn; kỹ thuật

phân lớp đa nhãn và phương pháp đánh giá phân lớp đa nhãn.

Chương 2 HAI MÔ HÌNH PHÂN LỚP ĐƠN NHÃN VĂN BẢN

TIẾNG VIỆT

2.1. Mô hình nhận diện thực thể có tên dựa trên trường ngẫu nhiên

có điều kiện và tiêu chuẩn kỳ vọng tổng quát

2.1.1. Nhận diện thực thể có tên

Nhận diện thực thể có tên (NER) là bài toán khá cơ bản trong

nhóm các bài toán trích chọn thông tin. Bài toán có nhiệm vụ tìm

kiếm và rút ra những thông tin liên quan đến thực thể trong văn bản,

thông thường là loại thực thể.

2.1.2. Mô hình đề xuất

Tiêu chuẩn kỳ vọng tổng quát [Druck08] là những điều kiện trong

hàm mục tiêu huấn luyện cho phép gán giá trị cho kỳ vọng mô hình

[Gideon08, Gideon10]. Luận án đề xuất một mô hình gán nhãn bán giám

sát [PTNgan1] sử dụng các tiêu chuẩn kỳ vọng tổng quát [Gideon08]

nhằm kết hợp những tri thức tiền nghiệm vào mô hình huấn luyện, khai

5

thác mô hình xác suất theo chủ đề ẩn Latent Dirichlet Allocation (LDA)

để xây dựng tập ràng buộc về phân phối xác suất của các đặc trưng và tập

thực thể cho trước, từ đó tính toán kỳ vọng có điều kiện của mô hình. Tiêu

chuẩn kỳ vọng tổng quát được sử dụng để xác định tham số ước lượng

cho hàm mục tiêu của mô hình trường ngẫu nhiên có điều kiện CRFs trên

tập đặc trưng mức từ như đặc trưng từ loại (POS), đặc trưng theo ký tự và

đặc trưng theo cửa sổ trượt để bổ sung thêm quan hệ trước sau nhằm nâng

cao hiệu quả cho mô hình. Bài toán nhận diện thực thể có tên: Đầu vào:

- D: tập mọi dữ liệu văn bản liên quan đến miền ứng dụng - DL ⊂ D: tập ví dụ mẫu chứa thực thể đã được gán nhãn. - DU ⊂ D: tập ví dụ mẫu chứa dữ liệu văn bản chưa gán nhãn. - L: tập các thực thể có tên Đầu ra:

- Bộ gán nhãn thực thể có tên M: DL. Mô hình giải quyết bài toán trình bày ở Quy trình 2.1 và hình 2.1.

Pha 1: Các bước tiền xử lý dữ liệu

Bước 1: Module tách câu, tách từ Bước 2: Gán nhãn từ loại cho mỗi từ POS Bước 3: Gán nhãn thực thể NER

- - -

Pha 2: Xây dựng bộ phân lớp bán giám sát dựa trên mô hình trường điều kiện ngẫu nhiên CRF kết hợp tiêu chuẩn tổng quát

Bước 1: Xây dựng tập ràng buộc trên tập DU Bước 2: Lựa chọn tập thuộc tính trên DL Bước 3: Xây dựng bộ gán nhãn Bước 4: Đánh giá mô hình

- - - -

Quy trình 2.1. Thủ tục giải quyết bài toán

2.1.3 Ứng dụng mô hình

Mô hình áp dụng trong miền ứng dụng nhận diện thực thể có tên

tiếng Việt trên văn bản pháp luật. Thực nghiệm được tiến hành trên

một số tập ràng buộc khác nhau kết hợp với các tập dữ liệu huấn

luyện khác nhau để đánh giá mức độ ảnh hưởng của các ràng buộc và

dữ liệu có nhãn đến mô hình. Đồng thời, chúng tôi tiến hành thực

6

nghiệm gán nhãn thực thể sử dụng mô hình CRF làm cơ sở để so

sánh với phương pháp đề xuất.

Hình 2.1. Mô hình đề xuất

Kết quả thực nghiệm ở Bảng 2.3 cho thấy, mô hình đề xuất cho

ER

kết quả tốt nhất là 90.14% và luôn cao hơn mô hình cơ sở. CRF-GE RE%

CRF RE%

PR%

F1 %

ORG PER LOC ALL

90.00 100.00 12.50 58.33

75.00 66.67 100.00 72.41

100.00 66.67 100.00 82.14

94.74 80.00 40.00 71.88

ORG PER LOC ALL

90.00 100.00 56.25 77.78

100.00 83.33 81.82 87.50

100.00 90.91 75.00 87.50

94.74 95.24 64.29 82.35

ORG PER LOC ALL

100.00 100.00 75.00 88.89

PR% F1 % 500 tokens of training data 90.00 81.82 100.00 80.00 25.00 22.22 64.62 63.89 1000 tokens of training data 90.00 94.74 100.00 90.91 56.25 66.67 82.35 77.78 1500 tokens of training data 100.00 83.33 100.00 100.00 75.00 85.71 88.89 88.89

71.43 100.00 100.00 88.89

83.33 90.91 100.00 91.43

90.91 95.24 85.71 90.14

Bảng 2.1. Kêt quả thực nghiệm mô hình gán nhãn thực thể có tên

7

2.2. Một mô hình phân lớp đơn nhãn trong hệ tư vấn xã hội

2.2.1. Sơ bộ về tư vấn xã hội

Hệ tư vấn xã hội được định nghĩa trên hai khía cạnh: theo nghĩa

hẹp và theo nghĩa rộng. Trong đó, theo nghĩa hẹp, hệ tư vấn xã hội là

hệ tư vấn truyền thống có sử dụng các quan hệ xã hội trực tuyến như

quan hệ niềm tin, quan hệ bạn bè, quan hệ thành viên, quan hệ theo

dõi,… là một đầu vào bổ sung cho hệ thống. Theo nghĩa rộng, hệ tư

vấn xã hội là hệ tư vấn bất kỳ hướng tới lĩnh vực phương diện xã hội.

2.2.2. Mô hình đề xuất

Luận án đề xuất một hệ thống tư vấn xã hội sử dụng mô hình lọc

cộng tác với phương pháp hướng người dùng xây dựng tập đặc trưng

từ mối quan hệ xã hội và độ tương đồng giữa người dùng [PTNgan2].

Mô hình đề xuất xây dựng tập người dùng tin cậy dựa trên sự kết hợp

kỹ thuật phân tích quan điểm người dùng, tính toán độ tương đồng

người dùng và xây dựng tập đặc trưng khác nhau nhằm đánh giá sự

ảnh hưởng đặc trưng đền quyết định tư vấn, bằng phân tích thống kê

sản phầm yêu thích của người dụng tin cậy, lựa chọn sản phẩm có khả

năng cao nhất tư vấn cho người dùng. Trong mô hình, tập sản phẩm

xem xét được coi là tập nhãn được xác định trước, việc tư vấn sản

phẩm chính là gán cho người dùng một sản phẩm trong tập các sản

phẩm xem xét. Bài toán tư vấn xã hội: Đầu vào:

- D: Tập dữ liệu là tập các bình luận của người dùng về sản

phẩm. Chia tập D thành tập Dtrain làm dữ liệu huấn luyện và Dtest làm dữ liệu kiểm thử.

- L: Danh sách các sản phẩm quan tâm Đầu ra:

- Hệ tư vấn các sản phẩm cho người dùng mới M:DtrainL

8

Phương pháp giải quyết bài toán được trình bày ở Quy trình 2.2.

Pha 1: Xây dựng tập dữ liệu về người dùng

-

-

Bước 1: Lựa chọn các danh mục sản phẩm để tư vấn – tập nhãn L Bước 2: Phân tích quan điểm người dùng trên tập dữ liệu D để tìm ra tập sản phẩm người dùng quan tâm

Pha 2: Xây dựng hệ thống tư vấn cho người dùng mới về sản phẩm

-

-

-

Bước 1: Tập dữ liệu về người dùng được chia ngẫu nhiên thành 2 tập dữ liệu huấn luyện (Dtrain) và tập kiểm thử (Dtest) Bước 2: Xác định độ tương đồng trên tập người dùng Dtrain và mỗi người dùng trên tập Dtest để tìm ra tập người dùng tin cậy trên Dtrain. Bước 3: Xác định tập sản phẩm ưa thích của tập người dùng tin cậy để tư vấn cho người dùng mới. Bước 4: Đánh giá hiệu quả của hệ tư vấn.

-

Quy trình 2.2. Thủ tục giải quyết bài toán

Hình 2.2. Mô hình đề xuất

2.2.3. Ứng dụng mô hình

Mô hình được áp dụng trong xây dựng hệ tư vấn xã hội cho người

dùng về sản phẩm điện thoại di động (ĐTDĐ) trên mạng xã hội

Facebook bao gồm 7 thương hiệu sản phẩm ĐTDĐ nổi tiếng. Dữ liệu

9

về người dùng được thu thập và phân tích quan điểm để xây dựng

danh sách sản phẩm yêu thích. Mô hình cũng đề xuất xây dựng 2 loại

tập tập đặc trưng bao gồm đặc trưng tiểu sử và đặc trưng xã hội được

đánh giá riêng biệt và kết hợp để xác định độ tương đồng giữa người

dùng và tập người dùng tin cậy làm cơ sở tư vấn sản phẩm.

Kết quả thực nghiệm ở Bảng 2.2. cho thấy, việc sử dụng tập đặc

trưng khác nhau ảnh hưởng đến quyết định tư vấn, trong đó đặc

trưng xã hội có ảnh hưởng tốt hơn đặc trưng tiểu sử, đồng thời việc

kết hợp cả hai loại đặc trưng cho kết quả tốt nhất. Mặt khác, tại mỗi

thực nghiệm, độ chính xác bậc thấp luôn cao hơn độ chính xác bậc

cao cho thấy kết quả tư vấn với số lượng ít sản phẩm cho kết quả tốt

hơn nhiều sản phẩm.

Features Đặc trưng tiểu sử Đặc trưng xã hội Kết hợp 2 loại đặc trưng

P@1 0.416 0.456 0.512

P@2 0.385 0.429 0.487

P@3 MAP@3 0.377 0.353 0.424 0.407 0.481 0.446

Bảng 2.2. Kết quả thực nghiệm

2.3. Kết luận chương 2

Chương này trình bày về hai mô hình phân lớp đơn nhãn do

luận án đề xuất bao gồm mô hình gán nhãn thực thể có tên và mô

hình hệ tư vấn xã hội. Các kết quả nghiên cứu trong Chương 2 được

công bố trong [PTNgan1], [PTNgan2].

Chương 3

PHÂN LỚP ĐA NHÃN VĂN BẢN DỰA TRÊN BIỂU DIỄN DỮ

LIỆU THEO CHỦ ĐỀ ẨN

3.1. Phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo

chủ đề ẩn

3.1.1. Biểu diễn dữ liệu theo chủ đề ẩn

Mục này trình bày về biểu diễn dữ liệu theo mô hình chủ đề ẩn

10

LDA [Blei03, Blei12].

3.1.2. Mô hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo

chủ đề ẩn

Phát biểu bài toán phân lớp sử dụng phương pháp biểu diễn dữ

liệu theo chủ đề ẩn như sau:

Đầu vào: - : tập dữ liệu văn bản đa nhãn chia thành 2 tập Dtrain làm tập dữ

liệu huấn luyện và tập Dtest làm tập dữ liệu kiểm thử.

- DU: tập dữ liệu không nhãn liên quan đến chủ đề thuộc miền

ứng dụng để xây dựng mô hình chủ đề ẩn.

- L: tập nhãn cho trước gồm q nhãn

Đầu ra:

- Mô hình phân lớp đa nhãn M sao cho M được đánh giá kiểm thử

đạt hiệu quả cao.

Mô hình đề xuất được thể hiện trong Quy trình 3.1 và mô hình

đề xuất tại hình 3.1.

Pha 1: Huấn luyện mô hình

-

-

-

-

Bước 1: Tiền xử lý dữ liệu: tách câu, tách từ, loại bỏ từ dừng, chuẩn hóa dữ liệu và biểu diễn dữ liệu theo đặc trưng TF.IDF cho tập Dtrain Bước 2: Xây dựng mô hình chủ đề ẩn LDA trên tập DU và tập đặc trưng về phân phối chủ đề ẩn trên mỗi câu của tập Dtrain. Bước 3: Lựa chọn đặc trưng dựa trên phương pháp thông tin tương hỗ MI [Doquire11] để rút gọn và tìm ra tập đặc trưng tiêu biểu nhất cho quá trình phân lớp. Bước 4: Xây dựng bộ phân lớp đa nhãn Pha 2: Phân lớp đa nhãn sử dụng mô hình huấn luyện

- -

Bước 1: Tiền xử lý dữ liệu kiểm thử Dtest Bước 2: Xây dựng tập đặc trưng cho dữ liệu kiểm thử D- test Bước 3: Phân lớp sử dụng bộ phân lớp đa nhãn ở Pha 1

-

Quy trình 3.1. Thủ tục giải quyết bài toán

11

Hình 3.1. Mô hình đề xuất

Trọng tâm của mô hình xây dựng tập đặc trưng bao gồm đặc

trưng TF.IDF và đặc trưng về phân phối xác suất chủ đề ẩn LDA

trong văn bản được thực hiện ở bước 1, 2 ở pha huấn luyện mô hình.

Mô hình chủ đề ẩn LDA cung cấp các đặc trưng ngữ nghĩa ẩn trong

văn bản nhằm biểu diễn văn bản được đầy đủ hơn. Ngoài ra, mô hình

còn áp dụng một kỹ thuật lựa chọn đặc trưng nhằm làm loại bỏ đặc

trưng dư thừa, chọn lọc các đặc trưng hữu ích nhất. Đây là một trong

các bước cơ bản trong các mô hình học máy nhằm tăng cường thực

thi của mô hình.

3.1.3. Ứng dụng phân lớp đa nhãn đánh giá khách sạn

Mô hình đề xuất được áp dụng trong bài toán đánh giá danh tiếng

khách sạn, trong đó tập trung vào 5 lĩnh vực: sự phục vụ nhân viên, chất

lượng phòng, khách sạn, chất lượng đồ ăn, vị trí và giá cả, trang thiết bị.

Dữ liệu thực nghiệm được thu thập từ các website du lịch, xây dựng 2 tập

dữ liệu bao gồm tập dữ liệu có gán nhãn làm tập huấn luyện và kiểm thử, và tập

dữ liệu không nhãn để xây dựng mô hình chủ đề ẩn LDA. Để đánh giá hiệu quả

12

mô hình chúng tôi thiết kế thực nghiệm với các tập đặc trưng khác nhau bao

gồm: đặc trưng TF.IDF; TF.IDF và đặc trưng xác suất chủ đề ẩn LDA với số

lượng chủ đề ẩn khác nhau; TF.IDF+đặc trưng LDA+kỹ thuật rút gọn đặc trưng

MI. Kết quả thực nghiệm được thể hiện ở Bảng 3.2 cho thấy kết quả tốt nhất

nhận được khi kết hợp đặc trưng theo cách thứ 3 là TF.IDF + LDA + MI.

Average of 5-folds valuation TF.IDF TF.IDF + LDA_15 topics TF.IDF + LDA_20 topics TF.IDF + LDA_25 topics TF.IDF + LDA_20 topics + Feature Selection

Precision 0.6764 0.6798 0.6827 0.6793 0.6835

Recall 0.7025 0.7056 0.7125 0.7075 0.7108

F1 0.6804 0.6842 0.6883 0.6844 0.6890

Bảng 3.1. Kết quả mô hình đề xuất

3.2. Phân lớp đa nhãn văn bản dựa trên đồ thị khoảng cách và mô hình chủ đề ẩn

3.2.1. Mô hình biểu diễn văn bản theo đồ thị khoảng cách

Mục này trình bày về biểu diễn dữ liệu theo đồ thị khoảng cách [Aggarwal13]. Luận án giới thiêu một số phát hiện so sánh biểu diễn dữ liệu văn bản theo n-gram và theo đồ thị khoảng cách.

3.2.2. Mô hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo

đồ thị khoảng cách chủ đề ẩn

Mô hình chủ đề ẩn [Blei03, Blei12] được sử dụng hiệu quả trong

nhiều bài toán, khai thác được các đặc trưng ngữ nghĩa ẩn, đặc trưng

tổng quát trong tài liệu. Bên cạnh đó, mô hình đồ thị khoảng cách

[Aggarwal13] biểu diễn được thông tin ở bậc cao bao gồm các đặc

trưng tần suất, các đặc trưng trật tự và khoảng cách giữa các từ trong

văn bản.

Luận án đề xuất tiếp cận làm giàu đặc trưng kết hợp hai mô hình

theo hướng khai thác đặc trưng về chủ đề ẩn trong các tài liệu, sau đó

sử dụng đồ thị khoảng cách biểu diễn cấu trúc kết nối giữa các chủ đề

(thay vì cấu trúc từ như trong [Aggarwal13]) thể hiện ở Bước 1, 2

13

trong pha huấn luyện mô hình nhằm khai thác các thông tin về tần suất

chủ đề, khoảng cách giữa các chủ đề, thứ tự giữa các chủ đề… làm

giàu thêm đặc trưng cho mô hình.

Phát biểu bài toán như đã trình bày tại mục 3.1.2. Mô hình giải

-

-

Bước 1: Xây dựng mô hình chủ đề ẩn LDA trên tập DU và biểu diễn câu chủ đề trên tập dữ liệu Dtrain Bước 2: Biểu diễn đồ thị khoảng cách trên câu chủ đề trên tập Dtrain Bước 3: Xây dựng bộ phân lớp đa nhãn

-

quyết bài toán thể hiện ở Quy trình 3.2.và Hình 3.2. Pha 1: Huấn luyện mô hình

Pha 2: Phân lớp đa nhãn sử dụng mô hình huấn luyện

-

-

Bước 1: Xây dựng tập đặc trưng dựa trên mô hình chủ đề ẩn và biểu diễn đồ thị khoảng cách cho tập Dtest Bước 2: Phân lớp và đánh giá hiệu quả của mô hình Quy trình 3.2. Thủ tục giải quyết bài toán

Hình 3.2. Mô hình phân lớp đa nhãn dựa trên đồ thị khoảng cách và mô hình chủ đề ẩn.

3.2.3. Ứng dụng phân lớp đa nhãn đánh giá khách sạn

Mô hình được ứng dụng giải quyết bài toán đánh giá danh tiếng

khách sạn như trình bày ở mục 3.1.3. Đầu tiên, xây dựng các mô hình chủ

14

đề ẩn LDA với số lượng chủ đề ẩn khác nhau là 10, 15, 25 50 và 100.

Bảng 3.2. Kết quả mô hình đề xuất Dựa trên mô hình chủ đề ẩn, chuyển đổi dữ liệu biểu diễn theo từ sang biểu diễn câu chủ đề. Xây dựng mô hình đồ thị khoảng cách trên câu chủ đề với số bậc khác nhau lần lượt là: 0,1,2,3

Kết quả phân lớp thể hiện ở Bảng 3.2 cho thấy mô hình đề xuất cho kết quả tốt hơn phương pháp cơ sở sử dụng đặc trưng tần suất xuất hiện theo mô hình không gian vectơ và tốt hơn phương pháp biểu diễn sử dụng mô hình đồ thị khoảng cách trên tập từ. 3.3. Kết luận chương 3

Chương 3 đã trình bày hai phương pháp biểu diễn dữ liệu cho phân lớp đa nhãn bao gồm mô hình biểu diễn dựa trên mô hình chủ

15

đề ẩn LDA và mô hình biểu diễn dựa trên đồ thị khoảng cách kết hợp chủ đề ẩn LDA. Các kết quả nghiên cứu trong Chương 3 được công [PTNgan3, PTNgan4]. Chương 4 KỸ THUẬT BÁN GIÁM SÁT PHÂN LỚP ĐA NHÃN VĂN BẢN TIẾNG VIỆT

4.1. Tiếp cận phân cụm bán giám sát

Mục này giới thiệu về kỹ thuật phân cụm bán giám sát nói chung

gồm tiếp cận dựa trên ràng buộc và tiếp cận dựa trên khoảng cách. 4.2. Mô hình phân lớp đa nhãn bán giám sát 4.2.1. Phát biểu bài toán phân lớp đa nhãn bán giám sát

Phát biểu bài toán phân lớp đa nhãn bán giám sát theo tiếp cận

phân cụm bán giám sát được thể hiện như sau:

Gọi D = {D, D } là tập văn bản, trong đó D và D tương ứng là tập dữ liệu đã gán nhãn và tập dữ liệu chưa gán nhãn, trong đó L là tập bao gồm q nhãn được định nghĩa trước L = l, l, … , l;

Trong bước huấn luyện, mục tiêu là xây dựng một phân hoạch C

liệu D = {D, D }, C = {C, … , C}

C dữ tập () (1 ≤ i ≤ m), trong đó, ⋃ (), … , d||

và trên = D và C ∩ C = d C = ∅ (1 ≤ i ≠ j ≤ m). Các văn bản trong mỗi hoạch C được gán cùng nhãn cụm l . Sau khi thu được phân hoạch C, chúng tôi xây dựng mô hình phân

lớp sử dụng phương pháp tìm kiếm láng giềng gần nhất để dự đoán tập

nhãn cho các dữ liệu không nhãn theo công thức.

(4.1) l(d) = l

Trong đó, C = arg min disd, c, c là tâm cụm C và dis(. ) là độ đo khoảng cách được sử dụng để xác định độ tương tự của dữ liệu. Theo đó, văn bản chưa gán nhãn d sẽ được gán nhãn của cụm C là cụm gần nhất với d. Mô hình đã tận dụng được dữ liệu chưa gán nhãn đưa vào quá trình phân hoạch và xây dựng mô hình phân lớp f

16

để dự đoán nhãn cho các dữ liệu không nhãn d. 4.2.2. Thuật toán phân lớp đa nhãn dựa trên kỹ thuật phân cụm bán giám sát

Ý tưởng của thuật toán được phát triển từ tiếp cận khai thác đặc

trưng riêng nhãn là đặc trưng mang tính chất phân biệt của một nhãn

trong LIFT do M. L. Zhang và L. Wu đề xuất [Zhang15] và tiếp cận về

phân cụm bán giám sát TESC do W. Zhang và cộng sự đề xuất

[Zhang15]. Trong khi việc xây dựng tập đặc trưng riêng nhãn trong

LIFT dựa trên tập âm, dương (tập chứa nhãn và không chứa nhãn),

tiếp cận của luận có sự khác biệt trong phân chia tập dữ liệu kết hợp

chiến thuật tham lam, tập đặc trưng riêng biệt được tạo ra không chỉ

cho một nhãn mà có thể là cho cả một tập nhãn. Trong khi LIFT sử

dụng kỹ thuật phân cụm giám sát (Kmeans), luận án sử dụng một kỹ

thuật phân cụm bán giám sát TESC nhằm tận dụng được nguồn tài

nguyên không nhãn phong phú để nâng cao thực thi của mô hình.

TESC nguyên thủy được sử dụng cho dữ liệu đơn nhãn, do đó thuật

toán đề xuất đã có những bước chuyển đồi thích hợp mà không làm

mất tính chất dữ liệu đa nhãn. Sau khi phân cụm dữ liệu, bước phân

lớp dựa trên kỹ thuật láng giềng gần nhất để gán nhãn của cụm gần

nhất cho dữ liệu không nhãn.

Mô hình gồm hai bước: Bước 1 – phân cụm dữ liệu. Bản chất là xây

dựng tập đặc trưng riêng biệt cho các nhãn theo trình tự nhãn chiếm ưu

thế. Bước 2 – phân lớp nhằm xác định tập nhãn cho dữ liệu dựa trên kỹ

thuật láng giềng gần nhất khai thác tập nhãn của cụm láng giềng gần nhất.

Thuật toán phân cụm được đặt tên là MULTICSLearn(.) được

trình bày theo dạng giả mã (pseudo-code) như sau: (, 1, 2, ) Đầu vào: : Tập dữ liệu có nhãn và không nhãn. = {, }, Trong đó

17

và lần lượt là tập dữ liệu có nhãn và không nhãn. Khởi tạo ban đầu là toàn bộ tập dữ liệu huấn luyện. : tập nhãn mặc định cho tất cả dữ liệu trong . Khởi tạo ban đầu là tập rỗng. : tập nhãn (ngoài ) có thể thêm vào dữ liệu trong ( = \). Khởi tạo ban đầu là tập tất cả các nhãn Đầu ra: : tập các cụm được gán nhãn.

1. Gọi là một nhãn trong tập có tần xuất xuất hiện

lớn nhất trong tập dữ liệu

2. Xây dựng tập nhãn giả ∗ = {, , }, trong đó ← ∪ {},

← ∪ {} ∪ {": ¹Æ Ù Ì \{}}, ← \{} ← (, {, , }); ∗ ← (, ∗)

3. Chia tập dữ liệu thành 3 tập con dựa trên phân hoạch

∗:

a. : tập chứa dữ liệu có nhãn và không nhãn

trong đó dữ liệu có nhãn được gãn nhãn

b. : tập chứa dữ liệu có nhãn và không nhãn

trong đó dữ liệu có nhãn được gãn nhãn

c. : tập chứa dữ liệu có nhãn và không nhãn

trong đó dữ liệu có nhãn được gãn nhãn

4. Đối với tập :

← ∪ (, 1 ∪ {})

5. Đối với tập

a. Nếu mọi dữ liệu trong có cùng tập nhãn, gọi

tập nhãn này là

← ∪ (, )

b. Ngược lại

(, È{ λ }, \{λ}, )

6. Đối với tập

a. Nếu mọi dữ liệu trong có cùng tập nhãn, gọi

tập nhãn này là

← ∪ (, )

b. Ngược lại

( , , \{λ}, )

7. Return

Thủ tục 4.1. Thủ tục phân cụm MULTICSLearn

Để tìm được phân hoạch trên tập dữ liệu, đầu tiên khởi tạo tập

C rỗng ={}, sau đó gọi thủ tục phân cụm với các tham số như sau: (, { }, , ). Phân hoạch này là cơ sở xây dựng mô hình phân lớp ở bước tiếp theo.

Trong bước phân lớp dữ liệu, đầu vào là phân hoạch trên tập

18

dữ liệu được xây dựng ở bước huấn luyện và dữ liệu cần gán nhãn.

Đầu ra của bước này sẽ là tập nhãn tương ứng với mỗi văn bản cần

gán nhãn. Phương pháp 1NN được áp dụng ở bước này theo hướng

tính khoảng cách của văn bản cần gán nhãn với tâm các cụm để tìm

ra cụm gần nhất, khi đó nhãn cụm gần nhất sẽ được gán cho văn bản

= // là cụm đầu tiên xét đến trong = //là nhãn của cụm

, = − //tính khoảng cách của và

1. Với mỗi văn bản ∈ 2. 3. 4. Với mỗi cụm ∈ 5. 6. If , > , = 7. 8. End if 9. End for 10. = 11. Thêm vào tập 12. End for

cần gán nhãn. Giả mã của bước phân lớp được thể hiện như sau: Thủ tục MULTICSClassifier Đầu vào: : tập các cụm dữ liệu đã được gán nhãn = {, … , } : tập dữ liệu chưa gán nhãn Đẩu ra: : Tập các nhãn tương ứng với mỗi văn bản trong

Thủ tục 4.2. Thủ tục MULTICSClassification

Do tính chất phức tạp trong phân chia dữ liệu, độ phức tạp thuật

toán đề xuất rất khó để đưa ra trường hợp tổng quát. Một số trường

hợp đơn giản có thể xác định thuật toán thực thi tương đối tốt.

- Trường hợp vùng |D2| ≈ |D3| ≈ ||/2. Thời gian thực thi bao gồm thời gian phân hoạch theo TESC và 2 lần đệ quy MULTICS trên D2 và D3: () ≈ + 2(/2). Độ phức tạp trong trường hợp này là ().

- Trường hợp vùng |D1| ≈ |D2| ≈ |D3| ≈ ||/3. Tương tự, tính được thời gian thực thi: () ≈ + /9 + 2 × (/3). Độ phức tạp trong trường hợp này là ().

19

4.2.3. Mô hình phân lớp đa nhãn bán giám sát đề xuất

Quy trình các bước giải quyết bài toán được thực hiện như sau:

Pha 1: Xây dựng mô hình phân lớp đa nhãn dựa trên kỹ thuật phân cụm bán giám sát

-

- - -

Bước 1: Tiền xử lý và xây dựng tập đặc trưng cho dữ liệu huấn luyện bao gồm dữ liệu có nhãn và dữ liệu không nhãn Bước 2: Làm giàu đặc trưng Bước 3: Rút gọn đặc trưng Bước 4: Xây dựng bộ phân lớp theo thuật toán MULTICSLearn.

Pha 2: Phân lớp dữ liệu và đánh giá

-

- -

-

Bước 1: Tiền xử lý và xây dựng tập đặc trưng cho dữ liệu kiểm thử Bước 2: Làm giàu đặc trưng Bước 3: Biểu diễn dữ liệu kiểm thử theo tập đặc trưng rút gọn Bước 4: Sử dụng bộ phân lớp trên tập dữ liệu kiểm thử và đánh giá.

Quy trình 4.1. Các bước giải quyết bài toán theo mô hình đề xuất Mô hình biểu diễn cho quy trình này được thể hiện ở Hình

Hình 4.1. Mô hình phân lớp bán giám sát đề xuất 4.3. Một mô hình ứng dụng phân lớp đa nhãn văn bản bán giám sát Thừa hưởng các kết quả thu được từ các mô hình biểu diễn

dữ liệu theo chủ đề ẩn (đã trình bày ở Chương 3) nhằm khai thác các

ngữ nghĩa ẩn làm giàu cho tập đặc trưng và tiếp cận bán giám sát

phân lớp đa nhãn theo thuật toán MULTICS trình bày ở trên, luận án 20

đề xuất một mô hình phân lớp đa nhãn bán giám sát cho miền ứng

dụng văn bản tiếng Việt như trình bày ở mục 3.1.3 và các bước giải

quyết bài toán được thực hiện theo Quy trình 4.2.

Pha 1: Huấn luyện mô hình

-

-

-

-

Bước 1: Tiền xử lý dữ liệu: tách câu, tách từ, loại bỏ từ dừng, chuẩn hóa dữ liệu và biểu diễn dữ liệu theo đặc trưng TF.IDF / Nhị phân Bước 2: Xây dựng mô hình chủ đề ẩn LDA và tập đặc trưng chủ đề ẩn. Bước 3: Lựa chọn đặc trưng dựa trên phương pháp thông tin tương hỗ MI do Doquire và Verleysen đề xuất để rút gọn và tìm ra tập đặc trưng tiêu biểu nhất cho quá trình phân lớp. Bước 4: Xây dựng bộ phân lớp đa nhãn sử dụng thuật toán MULTICS

Pha 2: Phân lớp đa nhãn sử dụng mô hình huấn luyện

-

-

-

Bước 1: Tiền xử lý dữ liệu kiểm thử và xây dựng tập đặc trưng Bước 2: Bổ sung tập đặc trưng phân phối chủ đề ẩn cho dữ liệu huấn luyện Bước 3: Biểu diễn dữ liệu kiểm thử theo tập đặc trưng lựa chọn Bước 4: Phân lớp sử dụng bộ phân lớp đa nhãn ở Pha 1

-

Quy trình 4.2. Quy trình giải quyết bài toán.

Hình 4.2. Mô hình phân lớp đa nhãn bán giám sát mở rộng

21

Để đánh giá hiệu quả của mô hình đề xuất, một bộ thực nghiệm

trưng sử dụng thông tin tương hỗ.

được thiết kế như sau : - Thực nghiệm 1 (BN): Chỉ sử dụng tập đặc trưng nhị phân. - Thực nghiệm 2 (BN+MI): Sử dụng đặc trưng nhị phân và lựa chọn đặc

- Thực nghiệm 3 (BN+LDA): Sử dụng đặc trưng nhị phân và đặc trưng

phân phối xác suất chủ đề ẩn LDA.

- Thực nghiệm 4 (TFIDF+LDA): Sử dụng tập đặc trưng TFIDF và đặc

trưng phân phối xác suất chủ đề ẩn LDA.

- Thực nghiệm 5 (TFIDF+LDA+MI): Sử dụng tập đặc trưng TFIDF và đặc

trưng chủ đề ẩn LDA với kỹ thuật lựa chọn đặc trưng.

BN + MI

Training dataset size

500

750

1000

Unlabeled dataset size 0 50 100 200 300 0 50 100 200 300 0 50 100 200 300

Precisionmicro (%) 77.4 81.4 80.6 83 79.6 77.7 82.4 82.1 80.7 79 80.1 80.7 81.3 81 82.4

BN Recallmicro (%) 81.1 77.7 78.7 82.5 80.4 81.5 81.3 82.3 82.5 82.3 79.6 81 83.3 84.4 83.9

Precisionmicro (%) 74.3 76.3 73.1 74.8 81 75.7 77 74.8 74.1 79.9 80.3 78.4 83.1 75.9 78.2

Recallmicro (%) 75.8 78.7 78.5 76.4 76.1 76.8 78.2 78.2 81.2 80.4 78.1 81.2 82.7 84.6 80.9

F1micro (%) 75 77.5 75.7 75.6 78.5 76.2 77.6 76.4 77.5 80.2 79.1 79.8 82.8 80 79.5

F1micro (%) 79.2 79.5 79.7 82.7 80 79.6 81.8 82.2 81.6 80.6 79.8 80.9 82.3 82.6 83.2

Bảng 4.2. Kết quả thực nghiệm 1 và thực nghiệm 2

BN+LDA F1micro (%)

TFIDF+LDA F1micro (%)

TFIDF+LDA+MI F1 micro (%)

Number of topics

Number of topics

Number of topics

d e l e b a l n U

e z i s t e s a t a d

10

15

25

50

100

10

15

25

100

10

15

25

50

100

50

79.4 79.1 79.2 80.5 80.6 79.2 81.5 82.4

80.9 79.5 82.4 80.5 80.7 80.6

80

0

79.5 80.1

80

82

50

80.9 80.9 78.4 82.5 85.3 81.5 82.2

83.9 81.8 83.7 82.8

100

81.1 81.1 79.6 80.3 80.2 81.3 84.9 84.4 82.3 83.5 83.4 83.5 82.8 83.6 82.7

200

79.8 80.6 79.8

80

79.8

81.9 81.2 81.4 82.3 82.3 81.4 83.5 83.8 83.6

79.4 3

300

84

83.6 83.9

80.2 79.8 80.6 79.7 80.3 80.8 81.9 82.6 81.7 83.8 80.5 83.4 Bảng 4.3. Kết quả thực nghiệm 3, thực nghiệm 4 và thực nghiệm 5

Kết quả thực nghiệm 1, 2 ở Bảng 4.2 và Bảng 4.3 cho thấy mô hình đề xuất bổ sung đặc trưng chủ đề ẩn LDA kết hợp đặc trưng 22

TFIDF cho kết quả tốt nhất khi thực thi thuật toán MULTICS. Đồng thời, việc sử dụng lựa chọn đặc trưng không cho hiệu quả tốt hơn. Điều này có thể lý giải bởi trong thuật toán MULTICS, không phải toàn bộ tập đặc trưng được lựa chọn mà chỉ sử dụng các đặc trưng liên quan do đó cũng có ý nghĩa của việc lựa chọn đặc trưng liên quan và bỏ đi những đặc trưng dư thừa. Mặt khác do với đặc trưng phân phối xác suất chủ đề ẩn LDA, nên đặc trưng TFIDF kết hợp LDA cho kết quả tốt hơn đặc trưng nhị phân BN kết hợp LDA.

4.5. Kết luận chương 4

Chương 4 đề xuất một thuật toán phân lớp đa nhãn dựa trên phân

cụm bán giám sát (MULTICSLearn, MULTICSClassification) trên cơ

sở tích hợp thuật toán phân lớp đa nhãn LIFT và thuật toán phân cụm

đơn nhãn TESC. Một chiến thuật “tham lam” và một phương thức gán

“nhãn giả” được áp dụng trong tích hợp hai thuật toán nền. Thuật

toán được đề xuất được áp dụng vào một mô hình phân lớp đa nhãn

văn bản tiếng Việt. Các kết quả nghiên cứu trong Chương 4 được

công bố trong [PTNgan5 ,PTNgan6]

KẾT LUẬN

I. Những kết quả chính của luận án

Luận án đạt được một số đóng góp sau đây về phân lớp đơn

nhãn và đa nhãn văn bản tiếng Việt.

Thứ nhất, luận án đề xuất hai mô hình phân lớp đơn nhãn. Mô

hình gán nhãn thực thể có tên được đề xuất là một mô hình học bán

giám sát trường ngẫu nhiên có điều kiện CRFs dựa trên tiêu chuẩn kỳ

vọng tổng quát. Mô hình hệ tư vấn xã hội dựa trên các kỹ thuật phân

tích quan điểm người dùng, sử dụng mô hình lọc cộng tác hướng người

dùng dựa vào sự tương đồng giữa các người dùng trong mạng xã hội.

Thứ hai, luận án đề xuất hai giải pháp biểu diễn dữ liệu phân

lớp đa nhãn văn bản tiếng Việt bao gồm phương pháp biểu diễn dữ 23

liệu theo mô hình chủ đề ẩn và phương pháp biểu diễn dữ liệu theo

đồ thị khoảng cách nhằm khai thác được các thông tin ngữ nghĩa ẩn

trong mô hình chủ đề ẩn LDA và khai thác thông tin về trật tự và

khoảng cách giữa các thành phần dữ liệu trong văn bản.

Thứ ba, luận án đề xuất thuật toán MULTICS phân lớp dữ liệu

đa nhãn dựa trên kỹ thuật phân cụm bán giám sát nhằm khai thác

thông tin đặc trưng riêng biệt cho mỗi nhãn/tập nhãn con dựa trên kỹ

thuật phân cụm bán giám sát và bộ phân lớp được xây dựng dựa trên

khoảng cách với các tâm cụm trong phân cụm phân hoạch.

Đồng thời, luận án cũng cung cấp một khảo sát khái quát về

phân lớp đa nhãn.

II. Hạn chế của luận án

Luận án vẫn còn một số hạn chế. Một là, luận án mới tập trung

vào phân lớp đa nhãn đơn thể hiện, chưa đề cập được tới phân lớp đa

nhãn đa thể hiện. Hai là, thuật toán phân lớp đa nhãn do luận án đề

xuất cần được nghiên cứu công phu hơn về độ phức tạp thời gian và

nâng cấp cải tiến. Ba là, vấn đề giảm chiều dữ liệu trong phân lớp

đơn nhãn và phân lớp đa nhãn mới chỉ đề cập ở mức độ rất cơ bản.

III. Định hướng nghiên cứu tiếp theo

Thời gian tới, Nghiên cứu sinh sẽ tập trung nghiên cứu giải quyết

các hạn chế của luận án: quan tâm bài toán phân lớp đa nhãn đa thể hiện đối với dữ liệu ảnh và dữ liệu văn bản, cải tiến kỹ thuật tìm nhãn để phân hoạch tập dữ liệu theo bộ nhãn giả theo hướng tìm nhãn có ảnh

hưởng lớn nhất trong mạng xã hội tập nhãn hiện thời [Szymanski16]

, nghiên cứu và áp dụng các kỹ thuật tiên tiến [Cheng16, Jian16,

Li16] giảm chiều dữ liệu phân lớp đa nhãn.

24

DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ

LIÊN QUAN TỚI LUẬN ÁN 1. [PTNgan1] Thi-Ngan Pham, Le-Minh Nguyen, Quang-Thuy Ha (2012). Named Entity Recognition for Vietnamese documents using semi-supervised learning method of CRFs with Generalized Expectation Criteria. IALP 2012: 85-89 (Scopus1, DBLP2).

2. [PTNgan2] Thi-Ngan Pham, Thi-Hong Vuong, Thi-Hoai Thai, Mai- Vu Tran, Quang-Thuy Ha (2016). Sentiment Analysis and User Similarity for Social Recommender System: An Experimental Study. Lecture Notes in Electrical Engineering (376): 1147-1156 (Scopus) 3. [PTNgan3] Thi-Ngan Pham, Thi-Thom Phan, Phuoc-Thao Nguyen, Quang-Thuy Ha (2013). Hidden Topic Models for Multi-label Review Classification: An Experimental Study. Computational Collective Intelligence. Technologies and Applications, Lecture Notes in Computer Science Volume 8083:603-611 (Scopus, DBLP).

4. [PTNgan4] Thi-Ngan Pham, Van-Hien Tran, Tri-Thanh Nguyen, Quang-Thuy Ha (2017). Exploiting Distance graph and Hidden Topic Models for Multi-label Text Classification. ACIIDS 2017. Studies in Computational Intelligence, Volume 710 (Advanced Topics in Intelligent Information and Database Systems): 321- 331. (Scopus).

5. [PTNgan5] Thi-Ngan Pham, Van-Quang Nguyen, Duc-Trong Dinh, Tri-Thanh Nguyen, Quang-Thuy Ha (2017). MASS: a Semi- supervised Multi-label Classification Algorithm With specific in Computational Intelligence, Features. ACIIDS 2017. Studies Volume 710 (Advanced Topics in Intelligent Information and Database Systems): 37-47. (Scopus).

6. [PTNgan6] Thi-Ngan Pham, Van-Quang Nguyen, Van-Hien Tran, Tri-Thanh Nguyen, and Quang-Thuy Ha (2017). A semi-supervised multi-label classification framework with feature reduction and enrichment. Journal of Information and Telecommunication, 1(2), 141-154 (DBLP).

1 https://www.scopus.com/authid/detail.uri?authorId=56013971500 2 http://dblp.uni-trier.de/pers/hd/p/Pham:Thi=Ngan