ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

PHẠM THỊ NGÂN

NGHIÊN CỨU CẢI TIẾN PHÂN LỚP ĐA NHÃN VĂN BẢN VÀ ỨNG DỤNG

LUẬN ÁN TIẾN SĨ CÔNG NGHÊ THÔNG TIN

Hà Nội – 2017

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

PHẠM THỊ NGÂN

NGHIÊN CỨU CẢI TIẾN PHÂN LỚP ĐA NHÃN VĂN BẢN VÀ ỨNG DỤNG

Chuyên ngành: Hệ thống thông tin

Mã số: 62.48.01.04

LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:

1. PGS.TS HÀ QUANG THỤY

2. PGS.TS PHAN XUÂN HIẾU

Hà Nội – 2017

LỜI CAM ĐOAN

Tôi xin cam đoan luận án này là công trình nghiên cứu của riêng tôi. Các

kết quả được viết chung với các tác giả khác đều được sự đồng ý của các đồng

tác giả trước khi đưa vào luận án. Các kết quả nêu trong luận án là trung thực

và chưa từng được công bố trong các công trình nào khác.

Nghiên cứu sinh

Phạm Thị Ngân

i

LỜI CẢM ƠN

Luận án được thực hiện tại Bộ môn Hệ thống thông tin – Khoa Công nghệ

thông tin – Trường Đại học Công nghệ - Đại học quốc gia Hà Nội dưới sự hướng dẫn khoa học của PGS.TS. Hà Quang Thụy và PGS.TS. Phan Xuân Hiếu.

Trước tiên tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy Hà Quang Thụy và

thầy Phan Xuân Hiếu, những người đã đưa tôi tiếp cận và đạt được những thành

công trong lĩnh vực nghiên cứu của mình. Tôi đặc biệt gửi lời cảm ơn tới thầy Hà Quang Thụy đã luôn tận tâm, động viên, khuyến khích và chỉ dẫn tôi hoàn thành

được bản luận án này.

Tôi xin bày tỏ lòng biết ơn tới thầy Nguyễn Trí Thành đã nhiệt tình hướng

dẫn và truyền đạt các kinh nghiệm nghiên cứu trong quá trình tôi thực hiện luận án.

Tôi xin chân thành cảm ơn tới tập thể các thầy cô giáo, các nhà khoa học

thuộc Trường Đại học Công nghệ (đặc biệt là các thành viên của Phòng thí nghiệm khoa học dữ liệu và công nghệ tri thức – DS&KTlab) - Đại học Quốc gia Hà Nội đã

giúp đỡ về chuyên môn và tạo điều kiện thuận lợi cho tôi trong suốt thời gian học

tập và nghiên cứu.

Tôi xin bày tỏ lòng cảm ơn chân thành tới các cộng sự đã cùng tôi thực hiện

các công trình nghiên cứu và các bạn đồng nghiệp đã giúp đỡ, trao đổi và chia sẻ

những kinh nghiệm về chuyên môn, đóng góp các ý kiến quý báu cho tôi trong quá

trình nghiên cứu.

Tôi xin trân trọng cảm ơn các thầy cô trong hội đồng chuyên môn đã đóng

góp các ý kiến quý báu để tôi hoàn thiện luận án.

Tôi cũng bày tỏ lòng lòng cảm ơn sâu sắc tới Ban giám đốc Học viện Cảnh

sát nhân dân; Tập thể lãnh đạo Bộ môn Toán-Tin học, Học viện Cảnh sát nhân dân

đã tạo kiện thuận lợi cho tôi trong quá trình nghiên cứu; cảm ơn các đồng chí trong Bộ môn Toán-Tin học đã luôn ủng hộ, quan tâm và động viên tôi.

Tôi luôn biết ơn những người thân trong gia đình, bố mẹ nội, bố mẹ ngoại, các anh chị em đã luôn chia sẻ khó khăn, động viên và là chỗ dựa tinh thần vững chắc cho tôi trong suốt thời gian qua.

ii

MỤC LỤC

LỜI CAM ĐOAN ....................................................................................................... i

LỜI CẢM ƠN ............................................................................................................ ii

MỤC LỤC ................................................................................................................ iii

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ........................................... vii

DANH MỤC CÁC BẢNG ....................................................................................... ix

DANH MỤC CÁC HÌNH VẼ................................................................................... x

MỞ ĐẦU .................................................................................................................... 1

Chương 1. TỪ PHÂN LỚP ĐƠN NHÃN TỚI PHÂN LỚP ĐA NHÃN ...... 10

1.1. Từ phân lớp đơn nhãn đơn thể hiện tới phân lớp đa nhãn đa thể hiện .... 10

1.1.1. Phân lớp đơn nhãn ................................................................................. 10

1.1.2. Phân lớp đơn nhãn đa thể hiện .............................................................. 11

1.1.3. Phân lớp đa nhãn ................................................................................... 12

1.1.4. Phân lớp đa nhãn đa thể hiện ................................................................. 13

1.2. Giới thiệu chung về phân lớp đa nhãn ......................................................... 14

1.2.1. Kỹ thuật phân lớp đa nhãn ..................................................................... 15

1.2.1.1. Tiếp cận chuyển đổi bài toán ....................................................... 16

1.2.1.2. Tiếp cận thích nghi thuật toán...................................................... 22

1.2.1.3. Tóm tắt về các thuật toán được giới thiệu ................................... 28

1.2.2. Dữ liệu đa nhãn ..................................................................................... 29

1.2.2.1. Các độ đo dữ liệu đa nhãn............................................................ 29

1.2.2.2. Phân bố nhãn ................................................................................ 30

1.2.2.3. Mối quan hệ giữa các nhãn .......................................................... 30

1.2.3. Đánh giá phân lớp đa nhãn .................................................................... 31

1.2.3.1. Các độ đo dựa trên mẫu ............................................................... 32

1.2.3.2. Các độ đo dựa trên nhãn .............................................................. 34

1.3. Giảm chiều dữ liệu trong phân lớp đa nhãn ................................................ 36

iii

1.3.1. Tiếp cận giảm chiều không gian đặc trưng đầu vào .............................. 37

1.3.2. Tiếp cận giảm chiều không gian nhãn đầu ra ........................................ 41

1.4. Học bán giám sát cho phân lớp đa nhãn ...................................................... 43

1.5. Kết luận chương 1 .......................................................................................... 43

Chương 2. HAI MÔ HÌNH PHÂN LỚP ĐƠN NHÃN VĂN BẢN TIẾNG

VIỆT ........................................................................................................... 45

2.1. Mô hình nhận diện thực thể có tên dựa trên trường ngẫu nhiên có điều kiện và tiêu chuẩn kỳ vọng tổng quát ........................................................... 45

2.1.1. Nhận diện thực thể có tên ...................................................................... 45

2.1.2. Mô hình đề xuất ..................................................................................... 46

2.1.2.1. Sử dụng tiêu chuẩn kỳ vọng tổng quát vào mô hình trường nhẫu nhiên có điều kiện CRFs .............................................................................. 48

2.1.2.2. Xây dựng tập ràng buộc cho tiêu chuẩn kỳ vọng tổng quát ........ 51

2.1.2.3. Mô hình đề xuất cho bài toán nhận diện thực thể có tên ............. 52

2.1.3. Ứng dụng mô hình ................................................................................. 56

2.2. Một mô hình phân lớp đơn nhãn trong hệ tư vấn xã hội ........................... 59

2.2.1. Sơ bộ về tư vấn xã hội ........................................................................... 59

2.2.2. Mô hình đề xuất ..................................................................................... 62

2.2.3. Ứng dụng mô hình ................................................................................. 66

2.3. Kết luận chương ............................................................................................. 68

Chương 3. PHÂN LỚP ĐA NHÃN VĂN BẢN DỰA TRÊN BIỂU DIỄN DỮ

LIỆU THEO CHỦ ĐỀ ẨN .................................................................................... 70

3.1. Phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo chủ đề ẩn ...... 70

3.1.1. Biểu diễn dữ liệu theo chủ đề ẩn ........................................................... 70

3.1.2. Mô hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo chủ ................................................................................................ 75 đề ẩn

3.1.2.1. Pha 1 – Huấn luyện mô hình ........................................................ 77

3.1.2.2. Pha 2 – Đánh giá mô hình huấn luyện ......................................... 82

iv

3.1.3. Ứng dụng phân lớp đa nhãn đánh giá khách sạn ................................... 83

3.1.3.1. Xây dựng tập dữ liệu thực nghiệm .............................................. 84

3.1.3.2. Thực nghiệm ................................................................................ 85

3.1.3.3. Kết quả thực nghiệm .................................................................... 86

3.2. Phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo đồ thị khoảng

cách các chủ đề ẩn .......................................................................................... 87

3.2.1. Mô hình biểu diễn văn bản theo đồ thị khoảng cách ............................. 89

3.2.1.1. Biểu diễn dữ liệu theo đồ thị khoảng cách ................................... 89

3.2.1.2. Mô hình đồ thị khoảng cách và mô hình n-gram ......................... 92

3.2.2. Mô hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo đồ

thị khoảng cách chủ đề ẩn ..................................................................... 93

3.2.2.1. Pha huấn luyện mô hình ............................................................... 95

3.2.2.2. Pha phân lớp sử dụng mô hình huấn luyện .................................. 97

3.2.3. Ứng dụng phân lớp đa nhãn đánh giá khách sạn ................................... 98

3.3. Kết luận chương 3 ........................................................................................ 100

Chương 4. KỸ THUẬT BÁN GIÁM SÁT PHÂN LỚP ĐA NHÃN VĂN

BẢN TIẾNG VIỆT ................................................................................................ 102

4.1. Tiếp cận phân cụm bán giám sát ................................................................ 102

4.1.1. Tiếp cận dựa trên ràng buộc ................................................................ 102

4.1.2. Tiếp cận dựa trên khoảng cách ............................................................ 103

4.2. Mô hình phân lớp đa nhãn bán giám sát ................................................... 105

4.2.1. Phát biểu bài toán phân lớp đa nhãn bán giám sát .............................. 105

4.2.2. Thuật toán phân lớp đa nhãn dựa trên kỹ thuật phân cụm bán giám sát106

4.2.2.1. Thuật toán TESC và LIFT ......................................................... 107

4.2.2.2. Thuật toán phân lớp đa nhãn bán giám sát ................................ 109

4.2.3. Mô hình phân lớp đa nhãn bán giám sát đề xuất ................................. 116

4.3. Một mô hình ứng dụng phân lớp đa nhãn văn bản bán giám sát ............ 117

4.3.1. Mô hình đề xuất ................................................................................... 117

v

4.3.1.1. Pha 1. Huấn luyện mô hình ........................................................ 118

4.3.1.2. Pha 2. Phân lớp sử dụng mô hình huấn luyện ........................... 120

4.3.2. Ứng dụng phân lớp đa nhãn sử dụng mô hình đề xuất ........................ 120

4.4. Kết luận chương 4 ........................................................................................ 123

KẾT LUẬN ............................................................................................................ 124

DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN TỚI

LUẬN ÁN ............................................................................................................... 128

TÀI LIỆU THAM KHẢO .................................................................................... 129

vi

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

Kí hiệu Tiếng Anh

ANN

BPMLL

Artificial neural network Backpropagation for Multilabel Learning Binary Relevance Classifier Chains BR CC

ChiDep Ensemble CDE

Tiếng Việt Mạng Nơ-ron nhân tạo Phân lớp đa nhãn mạng Nơron lan truyền ngược Phân lớp nhị phân Chuỗi bộ phân lớp Phương pháp tích hợp phụ thuộc Chi Xếp hạng nhãn xác định

CLR CML CRFs CTM DTM ECC

EPCC

EPS FE FS

IBLR

IG kNN LC LP LDA

LIFT

Calibrated Label Ranking Collective Multi-Label Classifier Bộ phân lớp đa nhãn nhóm Conditional Random Fields Corelated Topic Model Dynamic Topic Model Ensemble of Classifier Chains Ensemble of Probabilistic Classifier Chains Ensemble of Pruned Sets Feature Extraction Feature Selection Instance-Based Learning by Logistic Regresion Information Gain k Nearest Neighbour Label Combination Label Powerset Latent Dirichlet Allocation Multi-Label Learning with Label specIfic FeaTures Label Power set Latent Semantic Analysis Mutual Information Multi-Instance Multi-Label Multi-Label Classiffication Multi-Label Decision Tree Trường ngẫu nhiên có điều kiện Mô hình chủ đề tương quan Mô hình chủ đề động Tích hợp chuỗi bộ phân lớp Tích hợp chuỗi bộ phân lớp xác suất Tích hợp các tập cắt tỉa Trích chọn đặc trưng Lựa chọn đặc trưng Học dựa trên thực thể bằng hồi quy logic Độ lợi thông tin k láng giềng gần nhất Kết hợp nhãn Tập lũy thừa nhãn Mô hình chủ đề ẩn Học đa nhãn với đặc trưng nhãn riêng biệt Tập lũy thừa nhãn Phân tích ngữ nghĩa ẩn Thông tin tương hỗ Đa nhãn đa thể hiện Phân lớp đa nhãn Cây quyết định đa nhãn

Học đa nhãn Naïve Bayes đa nhãn LP LSA MI MIML MLC ML-DT ML-kNN Multi-Label k Nearest Neighbour k Láng giềng gần nhất đa nhãn MLL MLNB

Phân lớp kết hợp đa nhãn đa lớp MMAC

MMP Multi-Label Learning Multilabel Naive Bayes Multiclass Multilabel Associative Classification Multilabel Multiclass Perceptron Thuật toán Perceptron phân lớp đa lớp đa nhãn

vii

MuLAM Multilabel Ant - Miner

Named Entity Recognition Principal Component Analysis Probabilistic Classifier Chains NER PCA PCC

Predictive Clustering Trees PCT Thuật toán tối ưu đàn kiến đa nhãn Nhận dạng thực thể có tên Phân tích thành phần chính Chuỗi bộ phân lớp xác suất Thuật toán cây phân cụm dự đoán

Parametric Mixture Models Mô hình hòa trộn tham số

PMM1 PMM2 POS PS PW

RPC

RSL

SVM

TESC

TFIDF Part Of Speech Pruned Sets Pairwise Methods Ranking by Pairwise Comparision Ranking via Single-label Learning Support Vector Machine TExt classification using Semi- supervised Clustering Term Frequency Inverse Document Frequency Từ loại Các tập bị cắt tỉa Phương pháp cặp đôi Phương pháp xếp hạng theo so sánh cặp đôi Xếp hạng thông qua học đơn nhãn Máy vectơ hỗ trợ Phân lớp văn bản sử dụng phân cụm bán giám sát Trọng số về tần suất và độ quan trọng của từ

viii

DANH MỤC CÁC BẢNG

Bảng 1.1 Ví dụ về dữ liệu đa nhãn ............................................................................ 16 Bảng 1.2 Tóm tắt các thuật toán phân lớp đa nhãn ................................................... 29 Bảng 1.3 Bảng ký hiệu dữ liệu phân lớp thực và dự đoán ........................................ 34

Bảng 2.1 Mẫu ngữ cảnh từ vựng ............................................................................... 55

Bảng 2.2 Mẫu ngữ cảnh phát hiện tên thực thể ......................................................... 55

Bảng 2.3 Kết quả thực nghiệm .................................................................................. 57

Bảng 2.4 Bảng đặc trưng tiểu sử và đặc trưng xã hội của người dùng ..................... 67 Bảng 2.5 Kết quả thực nghiệm .................................................................................. 67

Bảng 3.1 Ví dụ về kết quả của mô hình chủ đề ẩn cho tài liệu ................................. 81

Bảng 3.2 Ví dụ về dữ liệu đa nhãn ............................................................................ 82

Bảng 3.3 Tập dữ liệu thực nghiệm ............................................................................ 84

Bảng 3.4 Tập dữ liệu huấn luyện .............................................................................. 84

Bảng 3.5 Tập dữ liệu cho mô hình chủ đề ẩn............................................................ 85

Bảng 3.6 Kết quả phân lớp ........................................................................................ 86

Bảng 3.7 Bảng phân phối tập từ trên mỗi chủ đề ẩn ................................................. 96

Bảng 3.8 Kết quả thực nghiệm của mô hình phân lớp đa nhãn dựa trên mô hình chủ

đề ẩn và đồ thị khoảng cách .................................................................................... 100

Bảng 4.1 Kết quả thực nghiệm 1 và thực nghiệm 2 ................................................ 121

Bảng 4.2 Kết quả thực nghiệm 3, thực nghiệm 4 và thực nghiệm 5 ....................... 122

ix

DANH MỤC CÁC HÌNH VẼ

Hình 0.1 Phân bố bài báo và lượng trích dẫn về học máy đa nhãn trong ISI (trái) và Scopus (phải) tới năm 2013 [22] ................................................................................. 3 Hình 0.2 Phân bố các chủ đề trong các chương của luận án ....................................... 7

Hình 1.1 Phân lớp đơn nhãn truyền thống [128] ....................................................... 10

Hình 1.2 Học đơn nhãn đa thể hiện [128] ................................................................. 11

Hình 1.3 Học đa nhãn [128] ...................................................................................... 13

Hình 1.4 Học đa nhãn đa thể hiện [128] ................................................................... 14 Hình 1.5 Hai tiếp cận học đa nhãn [21] .................................................................... 15

Hình 1.6 Các bộ phân lớp nhị phân tương ứng với 4 nhãn ....................................... 17

Hình 1.7 Thuật toán phân lớp BR [89] ..................................................................... 18

Hình 1.8 Thuật toán phân lớp CC [64] ..................................................................... 20

Hình 1.9 Thuật toán phân lớp CLR [84] ................................................................... 21

Hình 1.10 Thuật toán phân lớp RakEL [43], [84] ..................................................... 22

Hình 1.11 Thuật toán ML-kNN [84] ......................................................................... 23

Hình 1.12 Thuật toán phân lớp ML-DT [84] ............................................................ 25

Hình 1.13 Thuật toán phân lớp Rank-SVM [84] ...................................................... 26

Hình 1.14 Thuật toán phân lớp CML [84] ................................................................ 27

Hình 1.15 Các độ đo đánh giá của hệ thống đa nhãn [84] ........................................ 31

Hình 1.16 Mô hình lựa chọn đặc trưng cho phân lớp dữ liệu [47] ........................... 36 Hình 2.1 Đồ thị vô hướng mô tả CRFs ..................................................................... 49

Hình 2.2 Mô hình gán nhãn bán giám sát CRFs kết hợp tiêu chuẩn kỳ vọng tổng

quát ............................................................................................................................ 53

Hình 2.3 Tập các ràng buộc (Constraint file) ............................................................ 54

Hình 2.4 Kết quả mô hình gán nhãn bán giám sát CRFs kết hợp tiêu chuẩn kỳ vọng tổng quát trên các tập ràng buộc khác nhau .............................................................. 58

Hình 2.5 Mô hình hệ thống tư vấn xã hội ................................................................. 64 Hình 3.1 Phân phối các chủ đề trong bài báo, tập các từ và xác suất các từ trong chủ đề [16] ....................................................................................................................... 72 Hình 3.2 Mô hình sinh trong LDA [15] .................................................................... 73 Hình 3.3 Thuật toán sinh trong mô hình LDA .......................................................... 73 Hình 3.4 Mô hình chủ đề ẩn cho bài toán phân lớp đa nhãn .................................... 78

Hình 3.5 Phân tích nhận xét của người dùng về khách sạn Romana ........................ 87

x

Hình 3.6 Biểu diễn văn bản theo không gian vectơ, v1 và v2 là hai văn bản trong không gian vectơ ba chiều T1, T2, T3 trong đó Ti là từ ............................................. 88 Hình 3.7 Minh họa biểu diễn đồ thị khoảng cách ..................................................... 90

Hình 3.8 Mô hình phân lớp đa nhãn dựa trên biểu diễn dữ liệu theo đồ thị khoảng

cách các chủ đề ẩn. .................................................................................................... 94 Hình 3.9 Biểu diễn đồ thị khoảng cách trên câu chủ đề............................................ 96

Hình 4.1 Mô hình phân lớp bán giám sát đề xuất ................................................... 117

Hình 4.2 Mô hình ứng dụng phân lớp đa nhãn bán giám sát cho văn bản tiếng Việt

................................................................................................................................. 119

xi

MỞ ĐẦU

Tính cấp thiết của luận án

Cùng với sự bùng nổ dữ liệu cả về dung lượng lẫn về chủng loại, phân lớp dữ

liệu tự động là rất cần thiết và là một trong những chủ đề chính trong khai phá dữ

liệu. Trong mười thuật toán khai phá dữ liệu điển hình nhất có tới bảy thuật toán

liên quan tới bài toán phân lớp là thuật toán C4.5 và cải biên, thuật toán máy vectơ

hỗ trợ SVM (Support Vector Machine, còn được gọi là máy vectơ tựa), thuật toán

EM (Expectation–Maximization), thuật toán Adaboost, thuật toán k-láng giềng gần

nhất k-NN, thuật toán Bayes “ngây thơ” (Naïve Bayes), thuật toán CART

(Classification and Regression Trees) [121]. Bản chất của bài toán phân lớp dữ liệu

là xây dựng một hàm (hoặc ánh xạ) toàn phần từ tập dữ liệu (gồm các dữ liệu đã tồn

tại hoặc sẽ xuất hiện) thuộc một miền ứng dụng tới một tập hữu hạn nhãn cho trước

dựa trên thông tin đã biết về hàm này trên một tập con các dữ liệu đã được gán nhãn

(được gọi là tập ví dụ mẫu). Hàm kết quả được gọi là mô hình (bộ) phân lớp

(classification model/classifier) hay mô hình dự báo (prediction model) lớp. Do bài

toán phân lớp đòi hỏi cho trước một tập ví dụ mẫu cho nên nó cũng được gọi là bài

toán học có giám sát.

Một thuật toán phân lớp điển hình thường trải qua hai bước thực hiện. Bước

thứ nhất, được gọi là bước học mô hình (learning step), thực hiện việc phân tích dữ

liệu thuộc một tập con ví dụ mẫu, được gọi là tập dữ liệu huấn luyện (training

dataset), để xây dựng một mô hình phân lớp phù hợp với tập dữ liệu huấn luyện. Về

bản chất, ở bước học, thuật toán phân lớp “học” một hàm có khả năng gán nhãn cho

mọi dữ liệu miền ứng dụng. Hàm phân lớp kết quả từ bước học được sử dụng để dự

báo nhãn cho các dữ liệu mới. Tuy nhiên, trước khi đem mô hình phân lớp vào ứng

dụng thực tế, thuật toán phân lớp cần tiến hành bước đánh giá mô hình (model

evaluation, hay kiểm thử mô hình (model testing)). Ở bước đánh giá mô hình, một

tập con ví dụ mẫu, được gọi là tập dữ liệu kiểm thử (testing data), được sử dụng để

đo độ chính xác của thuật toán. Mô hình phân lớp được áp dụng trên các ví dụ trong

tập dữ liệu kiểm thử để nhận được các nhãn dự báo và các nhãn này được so sánh

1

với nhãn thực sự đã có tương ứng của ví dụ. Nếu tỷ lệ nhãn dự báo trùng hợp với

nhãn thực sự càng cao thì mô hình phân lớp càng chính xác. Nhằm đảm bảo việc

đánh giá mô hình phân lớp là khách quan, tập dữ liệu kiểm thử và tập dữ liệu huấn

luyện là rời nhau (hai tập dữ liệu không chứa chung một ví dụ bất kỳ). Khi chất

lượng của mô hình phân lớp được khẳng định thì nó được sử dụng để “gán” nhãn

cho mọi dữ liệu chưa có nhãn (hiện có và sẽ có) thuộc miền ứng dụng.

Tính ứng dụng cao của phân lớp làm cho bài toán phân lớp được tiến hóa từ

đơn giản tới ngày càng phức tạp hơn theo hướng từ phân lớp đơn nhãn tới phân lớp

đa nhãn hoặc phân lớp đa thể hiện, và cho tới phân lớp đa nhãn đa thể hiện [128].

Phân lớp đơn nhãn (còn được gọi là phân lớp truyền thống) quy ước mỗi đối tượng

dữ liệu có duy nhất một nhãn (hàm phân lớp đơn trị). Phân lớp đa nhãn quy ước mỗi

đối tượng dữ liệu có thể có hơn một nhãn (hàm phân lớp đa trị), chẳng hạn, một tài

liệu về chuyển nhượng cầu thủ bóng đá có thể vừa thuộc lớp kinh tế vừa thuộc lớp

thể thao. Phân lớp đa thể hiện quy ước một đối tượng dữ liệu có thể tương ứng với

nhiều thể hiện và mỗi đối tượng này tương ứng với một nhãn. Một ví dụ điển hình

về đối tượng đơn nhãn đa thể hiện là coi mỗi đối tượng là một chùm chìa khóa chứa

nhiều chìa khóa, mỗi khóa có thể mở được một phòng [124]. Giả sử có một phòng

khóa cửa và có N chùm chìa khóa, nếu một chùm nào đó chứa chìa khóa mở được

phòng này thì chùm đó được coi là hữu ích. Phân lớp đa nhãn - đa thể hiện quy ước

một đối tượng dữ liệu tương ứng với nhiều thể hiện và các thể hiện này tương ứng

với nhiều nhãn. Chương 1 của luận án sẽ đề cập chi tiết hơn về quá trình tiến hóa

bài toán phân lớp.

Luận án “Nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng” tập

trung vào bài toán phân lớp đa nhãn. Phân lớp đa nhãn (Multi-Label Classiffication:

MLC) hay học đa nhãn (Multi-Label Learning: MLL) là một khung học máy

(learning framwork) giám sát mới nổi trong thời gian gần đây [22], [40], [42], [84].

Khung học máy này đã thể hiện sự phù hợp với thực tế và tính ứng dụng rộng rãi

trong các bài toán phân lớp, điển hình là trong phân lớp văn bản, phân tích dữ liệu

đa phương tiện, sinh học, khai phá mạng xã hội, học điện tử và nhiều miền ứng

2

dụng khác [21], [40]. Tuy nhiên, học đa nhãn đòi hỏi những tiến hóa mới đối với

các phương pháp học máy cho giải pháp thích hợp với dữ liệu đa nhãn như vấn đề

về mối quan hệ giữa các nhãn, chi phí tính toán của thuật toán, vấn đề mất cân bằng

nhãn, vấn đề đa chiều của dữ liệu... Đây là các vấn đề cần tiếp tục nghiên cứu, cải

tiến và phát triển để nâng cao hiệu quả phân lớp đa nhãn.

Hình 0.1 Phân bố bài báo và lượng trích dẫn về học máy đa nhãn trong ISI (trái) và Scopus (phải) tới năm 2013 [22]

Chính vì lý do đó, học đa nhãn cuốn hút một cộng đồng nhiên cứu rộng rãi trên

thế giới. Bằng các truy vấn phù hợp vào cơ sở dữ liệu ISI và Scopus [22], E. Gibaja và

S. Ventura nhận được thông tin về số lượng hàng năm các công bố khoa học về học đa

nhãn và trích dẫn tới các công bố đó trong các cơ sở dữ liệu ISI và Scopus. Kết quả số

liệu thống kê của các tác giả được chỉ dẫn tại Hình 0.1. Các biểu đồ trong Hình 0.1

chứng tỏ rằng học đa nhãn là chủ đề nhận được sự quan tâm ngày càng tăng trong cộng

đồng nghiên cứu. Tính tới năm 2013, theo các tác giả thì hội nghị ECML/PKDD 2009

và hai hội nghị MLD 2009 và MLD 2010 chứa một lượng đáng kể các công trình

nghiên cứu về học đa nhãn. Các nhóm nghiên cứu của Zhi-Hua Zhou, Min-Ling Zhang và cộng sự1, Ioannis P. Vlahavas, Grigorios Tsoumakas và cộng sự2, Sebastián Ventura Soto3 và cộng sự với nhiều đóng góp nổi bật về học đa nhãn.

1 http://cs.nju.edu.cn/zhouzh/ và http://cse.seu.edu.cn/PersonalPage/zhangml/ 2 http://plase.csd.auth.gr/vlahavas/ và http://intelligence.csd.auth.gr/people/tsoumakas 3 http://www.uco.es/users/sventura/en/

3

Học đa nhãn là chủ đề nghiên cứu của một số luận án Tiến sỹ trên thế giới,

chẳng hạn như [51], [67], [92], [111], [113]. Luận án của J. Read [67] đề xuất giải

pháp phân lớp đa nhãn trên quy mô lớn với hai mô hình phân lớp dựa trên phương

pháp tập cắt tỉa và chuỗi bộ phân lớp; hai tiếp cận này nhận được đánh giá tốt từ

cộng đồng nghiên cứu nhờ tính hiệu quả trên cả phương diện về sự đa dạng và quy

mô của dữ liệu. Tác giả H.Q.Le [51] đề xuất một kỹ thuật lựa chọn đặc trưng đa lớp

và một thuật toán phân lớp đa nhãn trên miền dữ liệu web có cấu trúc nhóm. Thuật

toán phân lớp đa nhãn đa cặp (Multi-Pair) chuyển đổi bài toán phân lớp đa nhãn về

nhiều bài toán phân lớp nhị phân (OVA One-Vs-All), sau đó, tiếp tục phân tách mỗi

bộ phân lớp nhị phân thành các cặp so sánh nhỏ hơn và đơn giản hơn giữa một

nhóm và một tập con của phần bù của nhóm. Phân tách như vậy giúp tận dụng được

cấu trúc nhóm trong phần bù và giảm sự mất cân bằng dữ liệu trong phương pháp

OVA. Trong một tiếp cận khác, S.S.Bucak [113] đề xuất một phương pháp biểu

diễn ảnh dựa trên học đa nhân và thuật toán học đa nhãn dựa trên tiếp cận xếp hạng

đa nhãn, trong đó thuật toán xếp hạng đa nhãn sẽ xếp hạng tất cả lớp ảnh sao cho

các lớp liên quan sẽ có hạng cao hơn các lớp ít liên quan. Luận án của S.Jungjit

[111] đề xuất một mô hình phân lớp đa nhãn kết hợp hai bộ phân lớp đa nhãn kinh

điển là phân lớp đa nhãn k láng giềng gần nhất (MLkNN) và phân lớp đa nhãn mạng

Nơron lan truyền ngược (BPMLL) với giải pháp lựa chọn đặc trưng thông qua tìm

kiếm các tập con đặc trưng phù hợp.

Theo M. L. Zhang và Z. H. Zhou [84], các công trình nghiên cứu sớm nhất về

học đa nhãn là tập trung vào miền ứng dụng phân lớp văn bản [6], [106]. Theo thời

gian, học đa nhãn được ứng dụng vào nhiều miền ứng dụng đa dạng (đặc biệt là miền

ứng dụng phân lớp dữ liệu ảnh) và nhiều phương pháp học đa nhãn đã được đề xuất

[1], [7], [23], [25], [42], [44], [63], [66], [73], [74], [76], [114], [117], [118], [127]. Các

phương pháp ban đầu thường đi theo cách tiếp cận là cố gắng chia bài toán học đa nhãn

thành nhiều bài toán phân lớp hai nhãn hoặc chuyển nó thành phương pháp học máy

xếp hạng nhãn trong phân lớp đa nhãn [23], [42], [73], [74], những tiếp cận gần đây

chú trọng hơn đến việc khai thác mối quan hệ giữa các nhãn [7], [76], [117], [118], tiếp

4

cận khai thác mối quan hệ đa nhãn và dự đoán chuỗi tuần tự [65].

Trong học đa nhãn, các giải pháp biểu diễn dữ liệu và lựa chọn đặc trưng dữ

liệu tốt cho phép nâng cao tính hiệu quả của các giải pháp học đa nhãn [24], [82],

[83], [87], [93], [94], [127] và nhiều giải pháp đã được đề xuất. M.L. Zhang và cộng

sự sử dụng chiến thuật lựa chọn đặc trưng dựa trên phân tích thành phần chính PCA

và các thuật toán di truyền để loại bỏ các đặc trưng dư thừa, không liên quan và chọn

ra tập đặc trưng phù hợp nhất cho bài toán phân lớp [82] hoặc khai thác các đặc trưng

cụ thể cho từng nhãn để sử dụng cho quá trình huấn luyện và kiểm thử [83], [87].

A.Elisseeff và J.Weston sử dụng các đặc trưng nhãn được sắp xếp để khai thác mối

quan hệ giữa các nhãn trong bài toán phân lớp đa nhãn [1]. O.G.R. Pupo và cộng sự

đánh trọng số đặc trưng dựa trên bộ lọc nhằm cải tiến các thuật toán lười (lazy

algorithm) phân lớp đa nhãn [93] hoặc cải tiến thuật toán ReliefF đánh trọng số và

lựa chọn đặc trưng cho phân lớp đa nhãn bao gồm việc sử dụng phương pháp chuyển

đổi bài toán đa nhãn về bài toán phân lớp đơn nhãn và thích nghi thuật toán ReliefF

trực tiếp giải quyết bài toán phân lớp đa nhãn [94]. Phân tích các đặc trưng dữ liệu

cho phân lớp đa nhãn cũng là một trong các hướng nghiên cứu được quan tâm gần

đây [44].

Tại Việt Nam, qua khảo sát các công trình khoa học được công bố, phân lớp đơn nhãn đã nhận được sự quan tâm rộng rãi của cộng đồng nghiên cứu4. Trong khi đó, phân lớp đa nhãn, đặc biệt là phân lớp đa nhãn văn bản tiếng Việt, còn khá ít5 và

đa phần do các nhóm nghiên cứu tại Đại học Công nghệ, Đại học Quốc gia Hà Nội

tiến hành và hiện chưa có luận án tiến sỹ nào về phân lớp đa nhãn.

Các tiếp cận về phân lớp đa nhãn trước đây chủ yếu tập trung vào giải thuật

theo phương pháp học giám sát, các mô hình phân lớp đa nhãn bán giám sát vẫn còn

hiếm. Luận án này tiếp nối các nghiên cứu về phân lớp đa nhãn, tiếp tục phân tích,

đánh giá và đề xuất cải tiến mô hình phân lớp về phương pháp biểu diễn dữ liệu, lựa

4 Google Scholar trả về tài liệu đối với truy vấn “classification” + “Vietnamese” ngày 26/9/2017 5 Google Scholar trả về 29 tài liệu đối với truy vấn ““multi-label classification” + “Vietnamese”” ngày 20/12/2016.

5

chọn đặc trưng và đề xuất mới thuật toán phân lớp đa nhãn theo phương pháp bán

giám sát nhằm tận dụng nguồn tài nguyên dữ liệu chưa gán nhãn phong phú. Phân

lớp văn bản có tính ứng dụng do sự xuất hiện rộng rãi của văn bản trong mọi lĩnh

vực của đời sống, ở sách báo, thông điệp, diễn đàn,… Do đó, luận án tập trung vào

bài toán phân lớp đa nhãn văn bản tiếng Việt.

Nghiên cứu của luận án hướng tới một số mục tiêu sau đây. Thứ nhất,

luận án cung cấp một khảo sát khái quát về phân lớp đa nhãn. Thứ hai, luận án đề

xuất các phương pháp biểu diễn dữ liệu và lựa chọn đặc trưng phù hợp nhằm nâng

cao hiệu quả của giải pháp phân lớp đa nhãn văn bản tiếng Việt. Nghiên cứu, đề

xuất các thuật toán phân lớp đa nhãn dựa trên các thuật toán phân lớp hiện đại là

mục tiêu thứ ba của luận án. Cuối cùng, luận án xây dựng một số phần mềm thử

nghiệm thực thi các giải pháp biểu diễn dữ liệu và thuật toán phân lớp đa nhãn được

luận án đề xuất để kiểm chứng tính hiệu quả của các đề xuất đó.

Đối tượng nghiên cứu của luận án là phương pháp biểu diễn dữ liệu, lựa

chọn đặc trưng và thuật toán phân lớp đa nhãn trong miền dữ liệu văn bản tiếng Việt.

Phạm vi nghiên cứu của luận án được giới hạn ở phương pháp biểu diễn dữ

liệu, lựa chọn đặc trưng và thuật toán phân lớp đa nhãn văn bản tiếng Việt, tập trung

vào miền ứng dụng phân tích nhận xét đánh giá tiếng Việt.

Phương pháp nghiên cứu của luận án là nghiên cứu lý thuyết đề xuất mô

hình biểu diễn dữ liệu và thuật toán phân lớp đa nhãn cũng như nghiên cứu thực

nghiệm để kiểm chứng đánh giá các đề xuất của luận án.

Luận án tham gia vào dòng nghiên cứu về phân lớp đa nhãn trên thế giới và

đạt được một số đóng góp được ghi nhận, tập trung vào các nghiên cứu về phân lớp

đa nhãn văn bản tiếng Việt.

Thứ nhất, luận án đề xuất hai mô hình biểu diễn dữ liệu cho phân lớp đa nhãn

là mô hình biểu diễn dữ liệu chủ đề ẩn [PTNgan3] và mô hình biểu diễn dữ liệu theo

đồ thị khoảng cách các chủ đề [PTNgan4].

Thứ hai, trên cơ sở phát triển thuật toán phân cụm bán giám sát đơn nhãn

TESC [120], luận án đề xuất một thuật toán phân lớp đa nhãn bán giám sát (Thuật

6

toán MULTICS [PTNgan5], [PTNgan6]) sử dụng chiến thuật “tham lam” khai thác

các đặc trưng riêng biệt của các nhãn.

Thứ ba, luận án tham gia đóng góp vào dòng nghiên cứu về học phân lớp đơn

nhãn văn bản tiếng Việt tương ứng với hai ứng dụng thực tiễn là đề xuất mô hình

gán nhãn thực thể có tên [PTNgan1] và mô hình hệ tư vấn xã hội [PTNgan2].

Đồng thời, nhằm minh chứng cho tiềm năng ứng dụng thực tiễn của các mô

hình đề xuất, luận án thực thi các thực nghiệm để kiểm chứng tính hữu dụng của các

thuật toán và mô hình được luận án đề xuất. Kết quả thực nghiệm cho thấy tiềm

năng ứng dụng cao các kết quả nghiên cứu từ luận án.

Luận án cũng có đóng góp trong việc cung cấp một nghiên cứu tổng quan về

học máy đa nhãn.

Bố cục của luận án gồm phần mở đầu và bốn chương nội dung, phần kết

luận và danh mục các tài liệu tham khảo. Hình 0.2 cung cấp một khung nhìn sơ bộ

về phân bố các chủ đề trong bốn chương nội dung của luận án.

Hình 0.2 Phân bố các chủ đề trong các chương của luận án

Chương 1 của luận án cung cấp một nghiên cứu khái quát từ phân lớp đơn

nhãn tới phân lớp đa nhãn. Phân lớp đơn nhãn tuy đơn giản, hiệu quả nhưng không

phù hợp với không ít tình huống trong thực tế; khung học máy đa nhãn (đơn thể

7

hiện) thể hiện được tính thực tế và ứng dụng rộng rãi trong nhiều bài toán phân lớp;

Các vấn đề cơ bản liên quan đến khung học máy đa nhãn kết tinh ở hai lớp phương

pháp phân lớp đa nhãn (chuyển đổi bài toán và thịch nghi thuật toán), rút gọn đặc

trưng (giảm chiều) và lựa chọn các đặc trưng hữu ích trong phân lớp đa nhãn; các

độ đo và phương pháp đánh giá phân lớp đa nhãn.

Luận án cung cấp hai mô hình phân lớp đơn nhãn ứng dụng thực tế

[PTNgan1], [PTNgan2]. Mô hình gán nhãn thực thể có tên tiếng Việt dựa trên mô

hình trường ngẫu nhiên điều kiện (CRFs) sử dụng tập ràng buộc theo tiêu chuẩn kỳ

vọng tổng quát. Mô hình hệ tư vấn xã hội tiếng Việt dựa trên tiếp cận lọc cộng tác

kết hợp thông tin bổ sung về người dùng liên quan từ phương tiện xã hội; tác động

của các đặc trưng bổ sung từ phương tiện xã hội tới hiệu quả tư vấn cũng được khảo

sát. Chương 2 của luận án trình bày chi tiết về cách tiếp cận của luận án và mô hình

phân lớp đơn nhãn được đề cập.

Chương 3 của luận án đề xuất hai mô hình phân lớp đa nhãn dựa trên tiếp cận

về biểu diễn dữ liệu nhằm cung cấp các đặc trưng mới nâng cao hiệu quả mô hình.

Trong mô hình đầu tiên [PTNgan3], biểu diễn dữ liệu theo chủ đề ẩn nhằm khai

thác thông tin ngữ nghĩa ẩn trong văn bản giúp làm giàu thêm các đặc trưng của dữ

liệu và lựa chọn các đặc trưng tiêu biểu, quan trọng hoặc mang tính quyết định (loại

bỏ những đặc trưng không có hoặc ít quan trọng) dựa trên thông tin tương hỗ

(Mutual Information). Một mô hình ứng dụng cho bài toán đánh giá danh tiếng cho

1000 khách sạn Việt Nam đã được xây dựng. Mô hình thứ hai [PTNgan4] đề nghị

một phương pháp biểu diễn dữ liệu theo đồ thị khoảng cách các chủ đề ẩn. Kết quả

áp dụng mô hình vào bài toán đánh giá danh tiếng cho 1000 khách sạn ở Việt Nam

đã minh chứng được tính hiệu quả khi sử dụng biểu diễn đồ thị khoảng cách.

Xây dựng được ví dụ mẫu trong phân lớp đa nhãn là một công việc rất tốn

kém và mất nhiều thời gian do sự tồn tại các mối liên quan giữa các nhãn trong cùng

một thể hiện, vì vậy, phân lớp đa nhãn bán giám sát là một giải pháp hiệu quả. Luận

án đề xuất một thuật toán phân lớp đa nhãn bán giám sát MULTICS [PTNgan5,

PTNgan6] trên cơ sở mở rộng thuật toán phân lớp văn bản đơn nhãn bán giám sát

8

TESC [120]. Luận án xây dựng một mô hình phân lớp đa nhãn bán giám sát trên nền

thuật toán MULTICS áp dụng vào bài toán xây dựng hệ thống đánh giá danh tiếng

cho 1000 khách sạn ở Việt Nam. Kết quả thực nghiệm cho thấy tính hiệu quả của

thuật toán MULTICS. Thuật toán MULTICS và các nội dung liên quan được trình

bày trong Chương 4 của luận án.

9

Chương 1. TỪ PHÂN LỚP ĐƠN NHÃN TỚI PHÂN LỚP ĐA NHÃN

Trong mục đầu tiên, luận án trình bày về sự tiến hóa của bài toán phân lớp từ

phân lớp đơn nhãn truyền thống tới phân lớp đa nhãn đơn thể hiện, phân lớp đơn

nhãn đa thể hiện và cuối cùng là phân lớp đa nhãn đa thể hiện. Tiếp đó, luận án tập

trung phân tích các đặc điểm của phân lớp đa nhãn (đơn thể hiện) bao gồm đặc điểm

của dữ liệu đa nhãn và biểu diễn dữ liệu, kỹ thuật phân lớp đa nhãn và phương pháp

đánh giá phân lớp đa nhãn.

1.1. Từ phân lớp đơn nhãn đơn thể hiện tới phân lớp đa nhãn đa thể hiện

Bài toán phân lớp dữ liệu về bản chất là xây dựng một hàm từ tập dữ liệu của

miền ứng dụng vào một tập nhãn cho trước. Đối tượng phân lớp trong tập dữ liệu

miền ứng dụng được biểu diễn bằng một tập đặc trưng là kết quả của quá trình khảo

sát và hiểu dữ liệu. Như vậy, một đối tượng phân lớp có thể được biểu diễn bằng

các tập đặc trưng khác nhau. “Đơn thể hiện” (single instance) chỉ dẫn rằng chỉ một

tập đặc trưng được sử dụng để biểu diễn dữ liệu miền ứng dụng, ngược lại, “đa thể

hiện” (multi-instance) chỉ dẫn rằng một vài tập đặc trưng được sử dụng để biểu diễn

dữ liệu miền ứng dụng. Ngầm định bài toán phân lớp trong luận án là phân lớp dữ

liệu “đơn thể hiện” nếu không có chỉ dẫn tường minh.

1.1.1. Phân lớp đơn nhãn

Một cách hình thức, bài toán phân lớp đơn nhãn được phát biểu như sau: Ký

hiệu là không gian thể hiện (hoặc không gian thuộc tính) và là tập các nhãn.

Cho trước một tập mẫu D = *( ) ( ) ( )+ trong đó là một

thể hiện và là một nhãn đã biết của . Nhiệm vụ đặt ra là cần học một hàm

ánh xạ từ không gian thể hiện vào tập các nhãn.

Hình 1.1 Phân lớp đơn nhãn truyền thống [128]

Trong phân lớp đơn nhãn văn bản, các đối tượng phân lớp là tập các văn bản.

Xây dựng một tập các đặc trưng (ví dụ như tập tất cả các từ xuất hiện trong tập văn

10

bản), mỗi văn bản được biểu diễn bởi tập đặc trưng vừa xây dựng (đơn thể hiện).

Mô hình phân lớp đơn nhãn nhị phân truyền thống đánh giá và kiểm tra mỗi tài liệu

trong tập dữ liệu phân lớp có thuộc vào lớp đang xét hay không.

Tồn tại một số biến thể của bài toán phân lớp đơn nhãn. Khác với phân lớp

đơn nhãn nguyên thủy yêu cầu mỗi đối tượng được gán duy nhất một nhãn, một số

biến thể phân lớp đơn nhãn cho phép mỗi đối tượng được gán tới một tập nhãn với

mỗi nhãn trong tập tương ứng với một giá trị xác suất hoặc một giá trị hạng [11].

C. C. Aggarwa [11] tổng kết một số kỹ thuật cơ bản trong phân lớp đơn nhãn

và trở thành nền tảng cho các phương pháp phân lớp như phương pháp cây quyết

định, phương pháp dựa trên luật, phương pháp dựa trên thực thể, phương pháp máy

vectơ hỗ trợ, phương pháp mạng nơron, phương pháp xác suất...

1.1.2. Phân lớp đơn nhãn đa thể hiện

Trong nhiều ứng dụng thực tế (phân lớp ảnh, trích chọn ảnh, phân lớp văn

bản, khai phá web, phát hiện thư rác (spam), an ninh máy tính, phát hiện khuôn

mặt…), một phần tử dữ liệu chỉ thuộc vào một lớp nhưng được biểu diễn bằng một

tập các thể hiện kết hợp với nhau. Đây là bài toán phân lớp đơn nhãn đa thể hiện,

một dạng tiến hóa từ phân lớp đơn nhãn. Theo Z.H Zhou và cộng sự [128], [129],

các công trình công bố sớm nhất về học đa thể hiện là [95], [115]. Trong bài toán

phân lớp đa thể hiện, mỗi phần tử dữ liệu được biểu diễn dưới dạng túi; tập dữ liệu

huấn luyện bao gồm nhiều túi, mỗi túi chứa nhiều thể hiện, túi được gán nhãn

dương nếu nó chứa ít nhất một thể hiện dương; ngược lại thì gán nhãn âm. Mục tiêu

là gán nhãn cho các túi chưa biết một cách chính xác.

Hình 1.2 Học đơn nhãn đa thể hiện [128]

Cho trước một tập dữ liệu *( ) ( ) ( )+ trong đó, là

11

một tập các thể hiện { } ( ) trong đó, là số thể hiện trong và là nhãn của . Khung học máy này học một hàm ánh xạ từ không gian thể hiện vào tập nhãn.

Trong phân lớp đơn nhãn đa thể hiện trên miền dữ liệu văn bản, các đối tượng

phân lớp là tập các văn bản. Xây dựng các tập các đặc trưng khác nhau (ví dụ như mỗi

tập đặc trưng biểu diễn cho một đoạn văn bản [107], hay mỗi tập đặc trưng biểu diễn

cho một câu trong văn bản [119]), một văn bản được biểu diễn bởi các tập đặc trưng

vừa xây dựng (đa thể hiện). Mô hình phân lớp đơn nhãn đa thể hiện đánh giá và kiểm

tra mỗi tài liệu trong tập dữ liệu phân lớp có thuộc vào lớp đang xét hay không.

Hầu hết các tiếp cận phân lớp đơn nhãn đa thể hiện được tiến hành theo

phương pháp thích nghi thuật toán, trong đó một thuật toán phân lớp đơn nhãn đơn

thể hiện được chuyển đổi theo hướng chuyển hóa mục tiêu phân biệt trên thể hiện

sang mục tiêu phân biệt trên các túi dữ liệu. Theo Z.H Zhou và cộng sự [128], một

số thuật toán phân lớp đơn nhãn đa thể hiện điển hình là: Thuật toán mật độ thay đổi

(Diverse Density) [95] và thuật toán mật độ thay đổi dựa trên entropy cực đại EM-

DD [105], thuật toán cây quyết định RELIC [36], thuật toán k láng giềng gần nhất

Citation-kNN và Bayesian – kNN [72], thuật toán mạng nơron BP-MIP và mở rộng

[85], các thuật toán dựa trên máy vectơ hỗ trợ và phương pháp nhân như MI-SVM

[107], DD-SVM [123], MISS-SVM [130], MI-Kernel [116]. Một số tiếp cận theo

phương pháp chuyển đổi bài toán theo hướng chuyển đổi biểu diễn đa thể hiện về

đơn thể hiện được Z.H Zhou và M.L Zhang đề xuất [130].

1.1.3. Phân lớp đa nhãn

Cũng trong nhiều ứng dụng thực tế (phân lớp văn bản, gán nhãn ảnh, dự đoán

chức năng gen, phân lớp video,… ), một đối tượng có thể đồng thời được gán vào

nhiều lớp khác nhau. Đây là bài toán phân lớp đa nhãn. Bài toán này là một sự tiến

hóa của phân lớp đơn nhãn do đó nó tồn tại nhiều đặc trưng phức tạp hơn về dữ liệu

đa nhãn, phương pháp tiếp cận đa nhãn và đánh giá học máy đa nhãn… Các vấn đề

này sẽ được chỉ ra ở các phần tiếp theo.

12

Hình 1.3 Học đa nhãn [128]

Cho trước một tập dữ liệu *( ) ( ) ( )+ trong đó, là

một thể hiện và là một tập nhãn { } ( ), là số nhãn trong . Khung học máy này học một hàm ánh xạ từ không gian thể hiện vào tập nhãn.

Trong phân lớp đa nhãn văn bản, các đối tượng phân lớp là tập các văn bản.

Xây dựng một tập các đặc trưng (ví dụ như tập tất cả các từ xuất hiện trong tập văn

bản), mỗi văn bản được biểu diễn bởi tập đặc trưng vừa xây dựng (đơn thể hiện).

Mô hình phân lớp đa nhãn đánh giá và gán cho văn bản phân lớp đồng thời vào

nhiều lớp khác nhau .

Các thách thức về dữ liệu đa nhãn, về mối quan hệ nhãn và đưa phân lớp đa

nhãn vào ứng dụng thực tế tạo nên các chủ đề nghiên cứu thời sự và nhiều giải pháp

kết quả đã và đang được công bố. Vì vậy, các chủ đề này được lựa chọn là các chủ

đề tập trung nghiên cứu trong luận án.

1.1.4. Phân lớp đa nhãn đa thể hiện

Ở mức tiến hóa cao nhất của bài toán phân lớp là phân lớp đa nhãn đa thể

hiện được M.L Zhang và Z.H Zhou lần đầu tiên hình thức hóa trong [129] và được

khái quát hóa trong [128]. Bài toán phân lớp đa nhãn đa thể hiện được phát biểu

khái quát như sau: Cho trước một tập nhãn lớp, mỗi phần tử dữ liệu được phân lớp

có thể đồng thời thuộc về nhiều lớp và mỗi phần tử dữ liệu có thể được biểu diễn

qua nhiều thể hiện. Khung phân lớp đa nhãn - đa thể hiện quan tâm tới sự nhập

nhằng đồng thời trong biểu diễn của không gian đầu vào và đầu ra; nó cung cấp một

khung nhìn mang tính tự nhiên và gần với thực tế hơn.

13

Cho trước một tập dữ liệu *( ) ( ) ( )+, trong đó,

là một tập các thể hiện { } ( ) và là một

tập nhãn { } ( ), với là số thể hiện trong và là số nhãn trong . Khung học máy đa nhãn đa thể hiện học một hàm ánh xạ từ không gian thể hiện vào không gian tập nhãn.

Hình 1.4 Học đa nhãn đa thể hiện [128]

Trong phân lớp đa nhãn đa thể hiện văn bản, các đối tượng phân lớp là tập

các văn bản. Xây dựng các tập các đặc trưng khác nhau, mỗi văn bản được biểu

diễn bởi các tập đặc trưng vừa xây dựng (đa thể hiện). Mô hình phân lớp đa nhãn đa

thể hiện đánh giá và gán cho văn bản phân lớp đồng thời vào nhiều lớp khác nhau .

Z.H. Zhou và cộng sự [128] hệ thống hóa các giải pháp học máy đa nhãn đa

thể hiện và một số phương pháp điển hình được giới thiệu sau đây. Hai thuật toán

MIMLSVM và MIMLBoost [128], [129] tiến hành việc giảm cấp bài toán phân lớp

đa nhãn đa thể hiện thành các bài toán đơn giản hơn sử dụng học máy đa nhãn đơn

thể hiện và học máy đa thể hiện đơn nhãn làm cầu nối. Thuật toán DBA [110] biểu

diễn bài toán MIML dưới dạng mô hình sinh thống kê. Thuật toán Ranking Loss

[27] tối ưu hóa hàm rủi ro xếp hạng nhãn cho túi và gán nhãn thể hiện. Thuật toán

láng giềng gần nhất MIML-kNN được đề xuất trong [86].

1.2. Giới thiệu chung về phân lớp đa nhãn

Tuy không phải là dạng tiến hóa cao nhất trong khung học máy như giới

thiệu trên đây, nhưng phân lớp đa nhãn có phạm vi ứng dụng rất rộng lớn trong thực

tiễn, và vì vậy, phân lớp đa nhãn luôn là một chủ đề nghiên cứu – triển khai thời sự.

Phần tiếp theo trình bày khái quát một số vấn đề cơ bản về phân lớp đa nhãn.

14

1.2.1. Kỹ thuật phân lớp đa nhãn

Hình 1.5 Hai tiếp cận học đa nhãn [21]

Phân lớp đa nhãn được chia thành hai nhóm tiếp cận chính là tiếp cận chuyển

đổi bài toán và tiếp cận thích nghi thuật toán.

Tiếp cận chuyển đổi bài toán là phương pháp chuyển đổi bài toán phân lớp

đa nhãn thành một hoặc nhiều bài toán phân lớp đơn nhãn (phân lớp đa lớp hoặc

phân lớp nhị phân) hoặc các bài toán hồi quy. Theo tiếp cận này, các bộ phân lớp

đơn nhãn được thực thi sau đó các dự đoán phân lớp đơn nhãn được kết hợp lại

thành kết quả dự đoán đa nhãn. Phương pháp này khá linh động vì có thể sử dụng

bất kỳ bộ phân lớp đơn nhãn nào như Máy vectơ hỗ trợ SVM [109], Naïve Bayes

[6], k láng giềng gần nhất kNN [26] và Perceptrons [57]…

15

Tiếp cận thích nghi thuật toán là phương pháp mở rộng các thuật toán học

phân lớp đơn nhãn đã biết để áp dụng trực tiếp giải quyết bài toán phân lớp đa nhãn.

Các thuật toán phân lớp đơn nhãn điển hình nhất được chọn lựa để thích nghi là

AdaBoost [106], cây quyết định [12], thuật toán học lười [86]...

Hình 1.5 thể hiện một cách trực quan các nhóm phương pháp cho phân lớp

đa nhãn và một số thuật toán thuộc mỗi nhóm. Luận án trình bày một số thuật toán

điển hình của mỗi tiếp cận ở phần tiếp theo.

1.2.1.1. Tiếp cận chuyển đổi bài toán

Để minh họa cho phương pháp này, luận án sử dụng tập dữ liệu ở Bảng 1.1.

Trong bảng dữ liệu có bốn mẫu được phân lớp vào tập nhãn lớp gồm bốn nhãn:

.

Mẫu 1 2 3 4 Tập nhãn * + * + * + * +

Bảng 1.1 Ví dụ về dữ liệu đa nhãn

Sau đây là phát biểu của bài toán phân lớp đa nhãn được sử dụng chung cho

các phương pháp được trình bày ở các phần tiếp theo.

Đầu vào:

- : Tập dữ liệu đa nhãn

- L: Tập nhãn cho trước gồm q nhãn

Đầu ra:

- Một bộ phân lớp đa nhãn ( )

Độ phức tạp tính toán của các thuật toán trình bày dưới đây được xác định

chủ yếu qua ba thành phần chung cho mọi thuật toán là: số mẫu huấn luyện ( ), số

chiều thuộc tính ( ) và số nhãn lớp ( ). Ngoài ra, các thuật toán học nhị phân (hoặc

đa lớp) trong phương pháp chuyển đổi bài toán có ký hiệu độ phức tạp pha huấn

luyện là ( ) và pha kiểm thử là ( ).

16

a. Thuật toán tương hợp nhị phân – Binary Relevance(BR)

Theo M. R. Boutell và cộng sự [89], ý tưởng chính của thuật toán này là giảm

cấp bài toán học đa nhãn thành q bài toán phân lớp nhị phân độc lập, trong đó mỗi bài

toán phân lớp nhị phân tương ứng với một nhãn trong không gian nhãn. Theo đó, để

xác định nhãn lớp thứ được ký hiệu là , đầu tiên thuật toán BR xây dựng một tập

huấn luyện nhị phân tương ứng bằng việc xem xét sự liên quan của mỗi mẫu huấn

luyện với nhãn .

(1.1)

{. ( )/ }

Trong đó ( ) {

Tiếp đó, có thể sử dụng bất kỳ thuật toán học máy nhị phân để xây dựng

một bộ phân lớp nhị phân ví dụ ( ). Khi đó, với bất kỳ mẫu

huấn luyện đa nhãn ( ), sẽ xem xét quá trình học của q bộ phân lớp nhị phân

trên dữ liệu . Nếu nhãn tương ứng thì được coi là một dữ liệu dương,

ngược lại được coi là một dữ liệu âm. Chiến thuật này là huấn luyện chéo (cross-

training).

Với một dữ liệu cần phân lớp, BR sẽ dự đoán tập nhãn tương ứng bằng

việc kết hợp các nhãn được xác định từ mỗi bộ phân lớp nhị phân.

(1.2)

{ ( ) }

Mẫu Nhãn Mẫu Nhãn

1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 Mẫu Nhãn Mẫu Nhãn (b) (c) (d)

(a)

Hình 1.6 Các bộ phân lớp nhị phân tương ứng với 4 nhãn

Tuy nhiên, khi tất cả các bộ phân lớp nhị phân cho đầu ra là âm, thì tập nhãn

dự đoán Y sẽ bị rỗng. Để tránh việc dự đoán tập nhãn rỗng, luật T-Criterion có thể

được áp dụng:

17

{ ( ) } ⋃* ( )+ (1.3)

Trường hợp không bộ phân lớp nhị phân nào cho kết quả dương, T-Criterion

sẽ bổ sung công thức (1.2) bằng việc đưa vào nhãn lớp với đầu ra tốt nhất (ít âm

nhất). Bộ phân lớp đa nhãn được xác định theo công thức (1.3). Ngoài T-Criterion,

một số quy tắc khác cũng có thể được sử dụng trong việc dự đoán tập nhãn dựa trên

đầu ra của mỗi bộ phân lớp nhị phân.

( )

Hình 1.7 mô tả đoạn giả mã minh họa cho thuật toán BR.

1. For j=1 to q do 2. Xây dựng tập huấn luyện nhị phân theo công thức (1.1) 3. Gán ( ); 4. Endfor 5. Trả kết quả Y theo công thức (1.3)

Hình 1.7 Thuật toán phân lớp BR [89]

Ưu điểm vượt trội của BR là cách tiếp cận trực tiếp để giải quyết vấn đề dữ

liệu đa nhãn. Ngược lại, nhược điểm của BR là đã loại bỏ tất cả các mối quan hệ

tiềm năng giữa các nhãn và bộ phân lớp nhị phân cho mỗi nhãn có thể rơi vào trạng

thái mất cân bằng lớp khi lớn và mật độ nhãn thấp. Dựa theo đoạn chương trình

giả mã, M.R Boutell và cộng sự [89] xác định được độ phức tạp tính toán cho giai

b. Phương pháp chuỗi bộ phân lớp – Classifier Chain(CC)

đoạn huấn luyện là ( ( )) và cho giai đoạn kiểm tra là ( ( )).

Theo J.Read và cộng sự [64], ý tưởng của phương pháp này là chuyển bài

toán học đa nhãn thành một chuỗi các phân lớp nhị phân, trong đó các bộ phân lớp

nhị phân trong chuỗi được xây dựng dựa trên dự đoán của các bộ phân lớp trước đó.

Cho nhãn lớp { }, hàm * + * + là hàm hoán vị

các nhãn theo một thứ tự xác định ( ) ( ) ( ). Với nhãn thứ trong

danh sách, ( ) ( ), một tập huấn luyện nhị phân tương ứng được xây dựng

bằng việc kết hợp mỗi dữ liệu với các dữ liệu liên quan đến các nhãn trước ( )

18

. ( ( )) ( ( ))/

(1.4) ] ( ( ))/ } ( ) {.[ ( )

Trong đó, ( )

] là vectơ kết hợp của vectơ và vectơ ( )

( )

. Tiếp đó, các thuật toán học nhị phân được sử

[ ( ) là vectơ nhãn nhị phân cho các nhãn đứng trước ( ) trên dữ liệu

Trường hợp đặc biệt ( )

dụng để đưa ra bộ phân lớp nhị phân ( ) * + , ví dụ ( )

( ( )). Nói cách khác, ( ) xác định ( ) có là nhãn liên quan hay không.

* + là giá trị nhị

Đối với một dữ liệu chưa biết, tập nhãn kết hợp của nó được dự đoán bằng

cách đi qua chuỗi bộ phân lớp một số lần lặp. Ký hiệu ( )

phân dự đoán của ( ) trên dữ liệu x, được xác định như sau:

[ ( )([ ( ) ( )

[ ( )( )] ( ) ( )

(1.5) ])] ( )

Trong đó, , - là hàm xác định giá trị nhị phân dự đoán của nhãn. Theo đó, tập

}

nhãn dự đoán tương ứng là:

{ ( ) ( ) (1.6) Rõ ràng là, hiệu quả của chuỗi bộ phân lớp được xây dựng như trên phụ

thuộc nhiều vào hàm sắp xếp . Để giải thích cho ảnh hưởng của trật tự nhãn, một

tập chuỗi bộ phân lớp (Ensemble of Classifier Chain) có thể được xây dựng với

hoán vị ngẫu nhiên trên không gian nhãn, ví dụ ( ) ( ) ( ). Với mỗi hoán vị,

( ) ( ) một chuỗi bộ phân lớp áp dụng hàm ( ) không trực tiếp trên tập

huấn luyện ban đầu mà lên một tập huấn luyện đã thay đổi ( ), trong đó ( )

được xác định bằng việc lấy mẫu không thay thế hoặc có thay thế [67].

Hình 1.8 mô tả đoạn giả mã thuật toán chuỗi bộ phân lớp (CC). Trong thuật

toán này, mối quan hệ giữa các nhãn đã được xem xét theo một cách ngẫu nhiên. So

với thuật toán BR, thuật toán chuỗi bộ phân lớp có ưu điểm là đã khai thác mối

quan hệ giữa các nhãn nhưng nhược điểm là không thực thi song song được do đặc

điểm của chuỗi. Luận án J. Read [67] chỉ ra rằng độ phức tạp tính toán của thuật

19

toán chuỗi bộ phân lớp cho pha huấn luyện là ( ( )) và pha kiểm tra

( )

1. For j=1 to q do 2. Xây dựng chuỗi tập huấn luyện nhị phân ( ) theo công

thức (1.4)

là ( ( )).

3. Gán ( ) ( ( )); 4. Endfor 5. Trả kết quả Y theo công thức (1.6)

Hình 1.8 Thuật toán phân lớp CC [64]

c. Phương pháp xếp hạng nhãn theo kích cỡ - CalibratedLabelRanking (CLR)

Ý tưởng chính của thuật toán này là chuyển bài toán học đa nhãn thành bài

toán xếp hạng nhãn trong đó việc xếp hạng các nhãn được thực thi bằng kỹ thuật so

sánh cặp đôi.

Với q nhãn lớp { }, có tổng cộng ( ) bộ phân lớp nhị

phân có thể được sinh ra bằng phương pháp so sánh cặp đôi, mỗi bộ phân lớp cho

một cặp nhãn ( ) ( ). Cụ thể là, với mỗi cặp nhãn ( ), so

sánh cặp đôi đầu tiên sẽ xây dựng một tập huấn luyện nhị phân tương ứng bằng việc

xem xét mối quan hệ của mỗi mẫu huấn luyện với :

(1.7) {. ( )/ | ( ) ( ) }

Trong đó

( ) { ( ) ( ) ( ) ( )

Đối với thể hiện chưa biết , thuật toán CLR đầu tiên sẽ xây dựng (

) bộ phân lớp nhị phân được huấn luyện để đạt được tất cả các phiếu bầu cho

mỗi nhãn lớp có thể.

( ) ∑ ⟦ ( ) ⟧

( ) (1.8) ∑ ⟦ ( ) ⟧

20

Dựa vào định nghĩa trên, ta có ∑ . Do đó, các nhãn ( ) ( )

( )

1. for j=1 to q-1 do 2. for k=j+1 to q do 3. Xây dựng tập huấn luyện nhị phân theo công thức

{. ( )/ | ( ) ( ) }

trong không gian nhãn có thể được xếp hạng theo số phiếu bầu của nó.

4. Gán ( ); 5. endfor 6. endfor 7. for j=1 to q do

8.

Xây dựng tập huấn luyện nhị phân theo công thức

{. ( )/ }

9.

Gán ( );

10. endfor 11. Trả kết quả Y theo công thức { ( ) ( ) }

Hình 1.9 Thuật toán phân lớp CLR [84]

Hình 1.9 trình bày đoạn giả mã của thuật toán CLR. Thuật toán này có độ

phức tạp tính toán cho pha huấn luyện là ( ( )) và pha kiểm tra là

d. Thuật toán tập k nhãn ngẫu nhiên – Random k Labelset (RakEL)

( ( )) [84]

Ý tưởng chính của thuật toán này là chuyển bài toán học đa nhãn thành một

bộ các phân lớp đa lớp, trong đó mỗi máy học thành phần trong bộ tập trung vào

một tập con ngẫu nhiên của không gian nhãn dựa trên bộ phân lớp đa lớp được

tạo ra bằng kỹ thuật tập lũy thừa nhãn – LP [41], [43]. Chiến thuật chính là sử dụng

thuật toán LP trên các tập k nhãn ngẫu nhiên (tập con kích thước k trên không gian

nhãn để đảm báo hiệu quả tính toán), sau đó xây dựng bộ kết hợp các bộ phân lớp

LP để đạt được tính hoàn thiện trong dự đoán.

Gọi là tập hợp tất cả các tập nhãn kích thước trong không gian nhãn ,

21

trong đó tập nhãn kích thước thứ được kí hiệu là ( ), ( ) ( )

).

( )

theo công thức

1. for r=1 to n do 2. Chọn ngẫu nhiên một tập k nhãn ( ) với ( ) 3. Xây dựng tập huấn luyện đa lớp

( )

{( ( ). ( )/) }

4. Gán

.

/;

( )

( ) ( )

(

5. endfor 6. Trả kết quả Y theo công thức { ( ) ( ) }

Hình 1.10 Thuật toán phân lớp RakEL [43], [84]

Hình 1.10 trình bày đoạn giả mã của thuật toán Random k-Labelsets. Tiếp cận

thể hiện mức độ liên quan của nhãn được kiểm soát bởi kích thước của tập nhãn k.

Thuật toán RakEL có độ phức tạp tính toán cho pha huấn luyện là ( ( ))

và pha kiểm tra là ( ( )) được trình bày trong [43], [84].

1.2.1.2. Tiếp cận thích nghi thuật toán

a. Thuật toán k láng giềng gần nhất đa nhãn – Multi-Label k Nearest Neighbour

(ML-kNN)

Ý tưởng chính của thuật toán này là sử dụng kỹ thuật k láng giềng gần nhất

để xác định các láng giềng gần nhất của dữ liệu cần gán nhãn, sau đó sử dụng luật

cực đại hậu nghiệm trên các thông tin liên quan đến nhãn từ các láng giềng để đưa

ra tập nhãn dự đoán.

Đoạn giả mã thuật toán ML-kNN được trình bày ở Hình 1.11. Thuật toán này

có ưu điểm là thừa kế được những điểm mạnh của phương pháp học lười và suy diễn

Bayesian đó là: Một là, biên quyết định có thể điều chỉnh một cách thích hợp dựa trên

các láng giềng khác nhau được xác định cho mỗi dữ liệu chưa biết. Hai là, có thể xác

định cân bằng lớp dựa trên các xác suất tiên nghiệm ước lượng cho mỗi nhãn lớp.

Thuật toán có độ phức tạp tính toán cho pha huấn luyện là ( ) và pha

kiểm thử là ( ) được trình bày trong [84].

22

( )

1. for i=1 to m do

2. Xác định tập ( ) gồm k láng giềng gần nhất của x 3. endfor 4. for j=1 to q do

5. Xác định xác suất tiên nghiệm ( ) và ( ) theo công thức

( )

∑ ⟦ ⟧

( ) ( ) ( )

6. Tính mảng tần suất và ̃ theo công thức

, - ∑ ⟦ ⟧ ⟦ ( ) ⟧ ( )

7. endfor

8. Xác định tập ( ) gồm k láng giềng gần nhất của x 9. for j=1 to q do

Xác định lớp theo công thức

⟦ ⟧

( ) ( )

10. endfor

11. Trả kết quả Y theo công thức { ( ) ( ) }

Hình 1.11 Thuật toán ML-kNN [84]

b. Thuật toán cây quyết định đa nhãn – Multi-Label Decision Tree(ML-DT)

Ý tưởng chính của phương pháp này là sử dụng thuật toán cây quyết định để

giải quyết với dữ liệu đa nhãn, trong đó sử dụng độ lợi thông tin dựa trên entropy đa

nhãn để xây dựng cây quyết định đệ quy.

Cho một tập dữ liệu đa nhãn *( ) + với là số mẫu, thông tin

thu được bằng việc chia theo đặc trưng thứ tại giá trị chia như sau:

* +

( ) ( ) ∑ ( ) (1.9)

Trong đó,

(1.10) *( ) + *( ) +

23

và bao gồm các mẫu có giá trị trên đặc trưng thứ l tương ứng thấp hơn và

lớn hơn .

Bắt đầu từ nút gốc ( ), ML-DT xác định đặc trưng và giá trị chia cắt

tương ứng làm cực đại hóa thông tin đạt được trong công thức (1.9) sau đó sinh ra 2

nút con tương ứng với và . Quá trình trên được thực thi một cách đệ quy bằng

việc coi hoặc là nút gốc mới và kết thúc khi đáp ứng một số tiêu chuẩn dừng

(ví dụ như kích thước của nút con nhỏ hơn một ngưỡng được xác định trước).

(1.11) ( )̂ ∑ ( ) ( ( ))

⟦ ⟧

Trong đó, ( )

Để minh họa cho thuật toán ML-DT, cơ chế tính entropy đa nhãn, MLEnt(.)

trong công thức (1.9) cần được xây dựng trước. Một giải pháp trực tiếp là coi mỗi

tập con là một lớp mới và sắp xếp lại theo entropy đơn nhãn. Tuy nhiên, khi

số lớp mới tăng theo hàm mũ theo , nhiều lớp mới có thể không xuất hiện trong

, do đó, xác suất được cho là tầm thường (ví dụ ( ) ) Để hạn chế được vấn

đề này, ML-DT giả thiết độc lập giữa các nhãn và tính entropy đa nhãn theo cách có

thể phân rã được:

(1.12) ( ) ∑ ( ) ( )

⟦ ⟧

Trong đó,

Ở đây, thể hiện tỷ lệ các mẫu trong với nhãn . Công thức (1.12) có thể

coi là dạng đơn giản của công thức (1.9) với giải thiết độc lập nhãn và

( ) ̂ ( ).

Đối với một thể hiện x chưa biết, nó được thực hiện trên cây quyết định bằng

cách duyệt qua các cạnh cho đến khi gặp một nút lá được kết hợp với một số mẫu

huấn luyện . Sau đó, tập nhãn được dự đoán tương ứng với:

{ } (1.13)

Nói cách khác, nếu đối với một nút lá, phần lớn các mẫu huấn luyện được gán nhãn và thể hiện kiểm tra được đặt trong cùng nút là sẽ được gán nhãn .

24

( )

1. Tạo cây quyết định với nút gốc liên kết với toàn bộ

tập huấn luyện ( )

hjff

2. if điều kiên dừng thỏa mãn then 3. break và go to bước 9 4. else

5.

6.

Xác định cặp thuộc tính-giá trị ( ) làm cực đại công thức (1.9) Thiết lập và theo công thức (1.10) Thiết lập 2 nút con tương ứng với và

7. 8. endif 9. Duyệt x từ nút gốc đến khi gặp nút lá 10. Trả kết quả Y theo công thức (1.13)

Hình 1.12 Thuật toán phân lớp ML-DT [84]

Hình 1.12 mô tả giả mã của thuật toán ML-DT với giả thiết độc lập về nhãn

trong việc tính toán entropy đa nhãn. Một ưu điểm nổi bật của ML-DT là hiệu quả

cao trong việc xây dựng mô hình cây quyết định từ dữ liệu đa nhãn.

Thuật toán có độ phức tạp tính toán cho pha huấn luyện là ( ) và pha

c. Thuật toán xếp hạng máy vectơ hỗ trợ - Rank-SVM

kiểm tra là ( ) được trình bày trong [84].

Ý tưởng chính của thuật toán này là thích nghi chiến thuật cực đại biên để

giải quyết bài toán học đa nhãn, tiến hành xây dựng hệ thống học gồm q bộ phân

lớp tuyến tính {( ) } trong đó và là vectơ

trọng số và giá trị xếp hạng (bias) của nhãn lớp thứ j - ; khi đó biên quyết định

trên mẫu ( ) được xác định dựa trên xếp hạng trên các lớp liên quan và không

liên quan của mẫu.

(1.14) ( ) ̅

〈 〉 ‖ ‖ Ở đây, 〈 〉 trả về tích vô hướng . Về phương diện hình học, mỗi cặp

nhãn liên quan và không liên quan ( ) ̅ , biên phân biệt tương ứng với

25

siêu phẳng 〈 〉 . Do đó, công thức (1.14) coi khoảng cách L2 của

đến siêu phẳng của mọi cặp nhãn liên quan, không liên quan, công thức này trả về giá trị cực tiểu là biên trên ( ). Do đó, đường biên của hệ thống học trên toàn

tập huấn luyện được xác định như sau:

(1.15) ( ) ( ) ̅ 〈 〉 ‖ ‖

Xếp hạng các biên quyết định cho mỗi một mẫu, khi đó việc xác định tập

nhãn của một mẫu dựa trên ngưỡng sao cho đồng thời cực đại hóa biên quyết định

( )

(1.16)

( )

∑ ‖ ‖

1. Xây dựng hệ thống phân lớp {( ) } bằng việc giải quyết bài toán quy hoạch toàn phương trong công thức ̅

( ) ̅

Với giả thiết 〈 〉

( ( ) ̅ )

2. Xác định cặp ( ) cho hàm ngưỡng bằng cách giải quyết vấn đề bình phương tối thiểu tuyến tính trong công thức

(1.17)

* +

∑(〈 ( )〉 ( ))

Trong đó: ( ) ( * ( ) + * ̅ ( ) + )

3. Trả kết quả Y theo công thức

{ 〈 〉 〈 ( )〉 }

và cực tiểu hóa độ đo rủi ro xếp hạng.

Hình 1.13 Thuật toán phân lớp Rank-SVM [84]

Hình 1.13 là đoạn giả mã của thuật toán Rank-SVM. Đây là tiếp cận theo quy

hoạch toàn phương (bậc hai), định nghĩa một biên trên các siêu phẳng cho cặp nhãn liên

quan và không liên quan. Rank-SVM thừa hưởng ưu điểm từ phương pháp nhân (kernel)

để giải quyết vấn đề phân lớp không tuyến tính và nhiều biến thể khác có thể đạt được.

Thuật toán có độ phức tạp tính toán cho pha huấn luyện là ( ( )

( )) trong đó ( ) là độ phức tạp tính toán của thuật toán quy hoạch toàn

26

phương QP để giải quyết công thức (1.16)với a là các biến và b là các ràng buộc; độ

d. Thuật toán bộ phân lớp đa nhãn nhóm – Collective Multi-Label (CML)

phức tạp tính toán cho pha kiểm tra là ( ) được trình bày trong [84].

Ý tưởng cơ bản của thuật toán này là sử dụng nguyên lý cực đại entropy để giải

( )

quyết bài toán học đa nhãn với yêu cầu thỏa mãn các ràng buộc về phân phối nhãn.

1. for l=1 to d do // d là số tài liệu 2. for j=1 to q do 3. Thiết lập tập ràng buộc ( ) ⟦ ⟧ ( ( ) )

// *( ) +

4. endfor 5. endfor 6. for =1 to q-1 do 7. for = 1 to q do 8. Thiết lập ràng buộc ( ) ⟦ ⟧ ⟦ ⟧

( ( )

// {( ) * +}

9. endfor 10. endfor 11. Xác định các tham số * + ( ) bằng việc

cực đại hóa công thức

( ) (∏ ( )

) ∑

( )

(∑ ( )

( ))

( ) 12. Trả kết quả Y theo công thức

( )

Hình 1.14 Thuật toán phân lớp CML [84]

Với một mẫu đa nhãn bất kỳ ( ), ta có ( ) là biểu diễn các biến ngẫu

* + , nhiên tương ứng sử dụng vectơ nhãn nhị phân ( )

trong đó thành phần thứ j thể hiện Y chứa nhãn thứ j tương ứng với và Y

không chứa nhãn thứ j tương ứng với . Khi đó, học đa nhãn tương ứng với

việc học một phân phối xác suất chung ( ).

Đầu tiên xây dựng các ràng buộc về mối quan hệ nhãn, từ đó xác định phân

phối xác suất có điều kiện ( ) dựa trên nguyên lý cực đại hóa entropy của mẫu

27

( ) . Tập nhãn của mẫu quan sát là giá trị làm cực đại phân phối xác suất này.

Hình 1.14 là đoạn giả mã thuật toán CML, đây là tiếp cận quy hoạch toàn

phương (bậc hai) trong đó mối quan hệ giữa mọi cặp nhãn được xác định thông qua

các ràng buộc trong Mối quan hệ bậc hai trong CML tổng quan hơn trong thuật

toán Rank-SVM do thuật toán Rank-SVM chỉ xem xét đến những cặp nhãn liên

quan-không liên quan. Thuật toán có độ phức tạp tính toán cho pha huấn luyện là

( ( )) và pha kiểm tra là (( ) ) trong đó ( ) là

hàm độ phức tạp về thời gian cho phương pháp tối ưu không ràng buộc để giải

quyết công thức với biến [84].

1.2.1.3. Tóm tắt về các thuật toán được giới thiệu

Bảng 1.2 tổng kết các đặc trưng cơ bản nhất của một số thuật toán điển hình

của hai tiếp cận cho bài toán phân lớp đa nhãn, trong đó thể hiện rõ ý tưởng, độ

phức tạp tính toán, miền ứng dụng phù hợp và độ đo tối ưu sử dụng trên mỗi

phương pháp. Đây là cơ sở để lựa chọn thuật toán sử dụng trong các mô hình đề

xuất tiếp theo.

Ý tưởng

Thuật toán

Độ phức tạp Huấn luyện/Kiểm thử

Loại dữ liệu

ảnh

Binary Relevance

Chuyển bài toán đa nhãn về q bộ phân lớp nhị phân.

( ( ))/ ( ( ))

Độ đo tối ưu Phân lớp (hamming loss)

Classifier Chains

( ( ))/ ( ( ))

Chuyển bài toán đa nhãn về chuỗi các bộ phân lớp nhị phân.

ảnh, video, văn bản, sinh học

Phân lớp (hamming loss)

Chuyển bài toán đa nhãn về ( ) bộ phân lớp nhị phân

( ( ))/ ( ( ))

Calibrated Label Ranking

ảnh, văn bản, sinh học

Random k Labelsets

Chuyển bài toán đa nhãn về n bộ phân lớp đa lớp.

. ( )// . ( )/

ảnh, văn bản, sinh học

ML-kNN

Phân lớp (hamming loss) Phân lớp (độ chính xác tập con) Phân lớp (hamming loss)

( )/ ( )

ảnh, văn bản, sinh học

Sử dụng thuật toán k láng giềng kết hợp luật cực đại hậu nghiệm để xác định tập nhãn.

28

Ý tưởng

Thuật toán

Độ phức tạp Huấn luyện/Kiểm thử

Loại dữ liệu

Độ đo tối ưu Phân lớp (hamming loss)

ML-DT

sinh học

( ) ( )

Sử dụng thuật toán cây quyết định xác định độ lợi thông tin dựa trên entropy đa nhãn để xây dựng cây quyết định đệ quy.

sinh học

Rank- SVM

Xếp hạng / ranking

( ( ) ( ))/ ( )

Sử dụng thuật toán SVM thích nghi cho phân lớp đa nhãn bằng cách tối ưu các bộ phân lớp tuyến tính để cực đại hóa biên quyết định và cực tiểu rủi ro xếp hạng sử dụng phương pháp nhân.

CML

văn bản

( ( )) / (( ) )

Phân lớp (độ chinh xác tập nhỏ.)

Sử dụng tiếp cận cực đại hóa entropy cho bài toán học đa nhãn dựa trên ràng buộc quan hệ nhãn để xác định phân phối xác suất có điều kiện của tập nhãn.

Bảng 1.2 Tóm tắt các thuật toán phân lớp đa nhãn

1.2.2. Dữ liệu đa nhãn

1.2.2.1. Các độ đo dữ liệu đa nhãn

Tương tự trong dữ liệu đơn nhãn, dữ liệu đa nhãn có thể đo bằng số các mẫu

(n), số các thuộc tính của không gian đầu vào (d) và số các nhãn (q). Một số độ đo

về chiều đa nhãn như sau:

- LCard là một độ đo chuẩn của dữ liệu đa nhãn được G.Tsoumakas và

I.Katakis giới thiệu trong [42], LCard được định nghĩa là trung bình số nhãn

(1.18)

( )

liên quan đến mỗi mẫu.

- LDens là độ đo cũng được giới thiệu trong [42], liên quan đến LCard nhưng

có tính đến kích thước của không gian nhãn.

(1.19) ( ) ( )

Hai độ đo này liên quan đến tần xuất của nhãn nhưng không mang lại thông tin

29

về tính cân đối trong lược đồ gán nhãn. J.Read [67] giới thiệu khái niệm tỷ lệ của sự

kết hợp nhãn duy nhất, trong đó tỷ lệ của tập nhãn là duy nhất trên tổng các mẫu.

(1.20) ( ) * ( ) + J.Read [67] còn giới thiệu khái niệm tỷ lệ xuất hiện của tập nhãn với tần suất

lớn nhất PMax. Đại lượng này thể hiện tỷ lệ của các mẫu liên quan tập nhãn xuất

hiện nhiều nhất.

( )

(1.21) ( ) ( )

Trong đó, ( ) là tần suất nhãn y trong tổ hợp nhãn trong tập dữ liệu .

Hai đại lượng này thể hiện mức độ về tính cân đối và tính đồng nhất trong

lược đồ gán nhãn. PUniq( ) cao thể hiện gán nhãn không đều và khi PMax( ) cao

là trường hợp dữ liệu lệch nhãn. Trong ngữ cảnh đa nhãn, lệch nhãn tương ứng với

số lượng lớn các mẫu liên quan đến các tập nhãn phổ biến nhất, trong khi một lượng

lớn các mẫu liên quan đến tập nhãn hiếm. Lệch nhãn thì đối lập với đồng nhất nhãn,

đây là trường hợp phổ biến trong ngữ cảnh đa nhãn trong đó nhiều nhãn có thể được

liên quan đến hơn một nửa số mẫu.

1.2.2.2. Phân bố nhãn

Phân bố nhãn là sự phân bố của tần suất các tập nhãn xuất hiện trong dữ liệu.

Phân bố này có thể đặc trưng theo các độ đo đã được giới thiệu ở mục con 1.2.2.1

Giá trị LCard (LDens) thấp là điển hình của phân lớp dữ liệu văn bản và dữ

liệu đa phương tiện trong trường hợp hầu hết các mẫu vừa khớp tự nhiên với một

lược đồ nhãn đơn và gán đa nhãn được đưa ra để giải quyết sự nhập nhằng này. Giá

trị LCard thường cao trong những tập dữ liệu ở miền hẹp.

Phân bố nhãn trong các tập dữ liệu có thể xấp xỉ bằng phân bố Poisson. Sự

thay đổi các giá trị PUniq( ) và PMax( ) thể hiện các bậc khác nhau của luật phân

bố trong dữ liệu thực.

1.2.2.3. Mối quan hệ giữa các nhãn

Trong các bài toán đa nhãn, luôn tồn tại các mối quan hệ giữa các nhãn. Nếu

30

thiếu đi mối quan hệ này, dữ liệu đa nhãn không còn thú vị nữa vì mỗi nhãn có thể

giả thiết độc lập và được coi như là một bài toán nhị nhân riêng rẽ không mất bất kỳ

thông tin nào và ý nghĩa của phân lớp đa nhãn không còn.

Trong phân lớp văn bản, không gian thể hiện của một mẫu được gán cả nhãn A

và B có thể biểu diễn một hỗn hợp của các mẫu A và các mẫu B. Một bài báo có thể

được gán nhãn “kinh tế” và “chiến tranh” có thể vì những từ trong bài báo liên quan

đến cả hai nhãn này. Tuy nhiên, điều này không áp dụng hoàn toàn cho tất cả mọi

miền. Một ảnh chứa vùng ảnh biển và vùng ảnh về người có thể không phải là một sự

pha trộn của đặc trưng biển và người vì rõ ràng người nhìn khác với biển và ngược lại.

1.2.3. Đánh giá phân lớp đa nhãn

Trong bài toán học máy truyền thống, hiệu quả của hệ thống học được đánh

giá thông qua các độ đo thông thường như độ chính xác (accuracy), độ hồi tưởng

(recall), độ đo hài hoà F-measure,… Tuy nhiên, việc đánh giá hiệu quả thực thi

trong học đa nhãn phức tạp hơn nhiều so với học đơn nhãn truyền thống vì mỗi một

mẫu có thể đồng thời thuộc về nhiều lớp. Do đó, một số độ đo đánh giá hiệu quả

của hệ thống học đa nhãn được đề xuất.

Hình 1.15 Các độ đo đánh giá của hệ thống đa nhãn [84]

M.L Zhang và Z.H Zhou [84] chia các độ đo thành hai nhóm là độ do dựa

trên mẫu và độ đo dựa trên nhãn. Độ đo dựa trên mẫu thực hiện bằng cách đánh giá

31

sự thực thi của hệ thống học trên mỗi mẫu kiểm tra riêng biệt, sau đó trả về giá trị

trung bình của tập kiểm tra. Khác với độ đo dựa trên mẫu, độ do dựa trên nhãn thực

hiện bằng cách đánh giá sự thực thi của hệ thống trên mỗi nhãn riêng biệt, sau đó trả

về giá trị trung bình macro/micro của tất các các nhãn lớp.

Hình 1.15 thể hiện tóm tắt các độ đo đánh giá học đa nhãn trên hai ứng dụng

chính là phân lớp và xếp hạng đa nhãn.

1.2.3.1. Các độ đo dựa trên mẫu

- Độ chính xác tập con:

(1.22) ( )

∑⟦ ( ) ⟧

Độ chính xác tập con đánh giá sự phân chia của các mẫu được phân lớp

chính xác, ví dụ tập nhãn được dự đoán là đồng nhất với tập nhãn đúng.

- Hamming Loss

(1.23) ∑ ( ) ( )

Trong đó, là sự khác nhau giữa 2 tập dữ liệu. Chỉ số hamming loss đánh

giá tỷ lệ cặp thể hiện-nhãn bị phân lớp sai, ví dụ một nhãn liên quan bị bỏ qua hoặc

gán nhãn không liên quan. Khi mỗi mẫu trong chỉ liên quan đến một nhãn,

( ) bằng lần về tỷ lệ phân lớp nhầm theo phương pháp truyền thống.

- ,

∑ ( ) (1.24) ( ) ( )

∑ ( ) (1.25) ( ) ( )

∑ ( ) (1.26) ( )

32

( )

( )

(1.27) ( ) ( ) ( ) ( )

là một

Ngoài ra, phiên bản tích hợp của

( ) ( ) với nhân tố cân bằng . Lựa chọn phổ

biến nhất là dẫn đến trung bình điều hòa của độ đo precision và recall.

Khi hàm giá trị thực trung gian ( ) đã xác định, bốn độ đo xếp hạng dựa

trên nhãn có thể được định nghĩa như sau:

- One-error

( ) (1.28) ∑⟦[ ( )] ⟧

One-error đánh giá số lần nhãn được xếp hạng cao nhất không nằm trong tập

nhãn có thể. Do đó, nếu mục tiêu của hệ thống đa lớp là gán một nhãn đơn cho một

tài liệu, độ đo one-error sẽ đếm số lần nhãn được dự đoán không nằm trong Y.

Trong phân lớp đơn nhãn, độ đo one-error tương ứng với độ đo lỗi thông thường.

- Coverage:

∑ ( )

(1.29) ( )

Trong khi độ đo one-error đánh giá thực thi của một hệ thống đối với nhãn

được xếp hạng đầu, mục tiêu của độ đo coverage là xác định độ đo của một hệ thống

đối với tất cả các nhãn có thể của tài liệu. Coverage được định nghĩa như khoảng

cách trung bình cho tất cả các nhãn thích hợp được gán cho một ví dụ thử nghiệm.

Đối với phân lớp đơn nhãn, coverage là thứ hạng trung bình của nhãn đúng

- Ranking Loss: Tính phân bố trung bình của các cặp nhãn.

và coverage nhận giá trị zero nếu hệ thống không xuất hiện lỗi phân lớp nào.

̅

(1.30) ∑ ( ) *( ) ( ) ( ) ( ) ̅ +|

- Average Precision

33

∑ ( ) ∑ (1.31) |{ ( ) ( ) }| ( )

Độ đo Average Precision đánh giá thành phần trung bình của các nhãn liên

quan được xếp hạng cao hơn một nhãn cụ thể .

Các độ đo, one-error, coverage và ranking loss, giá trị càng thấp thì thực thi

của hệ thống càng tốt, với giá trị tối ưu của cho coverage và 0 cho

one-error và ranking loss. Đối với độ đo đa nhãn dựa trên mẫu khác, giá trị đo càng

lớn, thì hệ thống thực thi càng tốt, và giá trị tối ưu là 1.

1.2.3.2. Các độ đo dựa trên nhãn

Đối với một nhãn thứ j ( ), bốn đại lượng cơ bản đặc trưng cho thực thi

phân lớp nhị phân trên nhãn này có thể được định nghĩa dựa trên hàm phân lớp ( )

như sau theo khảo sát của F. Sebastiani [31]:

Dữ liệu thực Nhãn

Dự đoán Có nhãn TPj FPj Không có nhãn TNj FNj Có nhãn Không có nhãn

Bảng 1.3 Bảng ký hiệu dữ liệu phân lớp thực và dự đoán

Trong đó:

TPj (True Positives): số lượng ví dụ dương được thuật toán gán đúng nhãn

TNj (True Negatives): số lượng ví dụ dương được thuật toán gán sai vào nhãn

FPj (False Positives): số lượng ví dụ âm được thuật toán gán sai vào nhãn

FNj (False Negatives): số lượng ví dụ âm được thuật toán gán sai vào nhãn

|{ ( ) }|

|{ ( ) }|

|{ ( ) }|

|{ ( ) }|

Theo định nghĩa trên, + .

34

Dựa trên bốn đại lượng, hầu hết các độ do phân lớp đa nhãn nhị phân có thể

nhận được. Cho ( ) là độ đo phân lớp nhị phân cụ thể

( ), độ đo phân lớp dựa trên nhãn có thể đạt được

theo mô hình sau:

- Độ trung bình thô ( Macro-averaging):

(1.32) ( ) ∑ ( )

- Độ trung bình mịn (Micro-averaging)

) (1.33) ( ) (∑ ∑ ∑ ∑

Trong đó: ( ) (1.34)

( ) (1.35)

(1.36) ( )

( ) (1.37) ( ) ( )

Theo công thức tính, độ trung bình thô và độ trung bình mịn giả thiết “trọng

số bằng nhau” lần lượt cho các nhãn và các mẫu. Dễ dàng chỉ ra rằng

( ) ( ) và ( ) ( ) .

Khi hàm giá trị thực trung gian ( ) đã xác định, độ đo xếp hạng dựa trên

nhãn có thể được tính như sau:

(1.38)

∑ |{( ) ( ) ( ) ( ) ̅ }| | || ̅ |

Trong đó, * +, ̅ * + tương

35

ứng với tập thể hiện kiểm tra với nhãn và tập thể hiện kiểm tra không có nhãn .

Tương tự, giá trị độ trung bình mịn được xác định như sau:

(1.39)

*( ) ( ) ( ,y") ( ) ( ,y") +

Trong đó, *( ) +, *( ) + là tập các cặp thể hiện-nhãn liên quan và tập các cặp thể hiện-nhãn không liên quan.

Đối với các độ đo đa nhãn dựa trên nhãn, giá trị độ đo càng lớn thể hiện thực

thi của hệ thống càng tốt, với giá trị tối ưu là 1.

1.3. Giảm chiều dữ liệu trong phân lớp đa nhãn

Trong bài toán khai phá dữ liệu (nói chung) và bài toán phân lớp (nói riêng),

dữ liệu miền ứng dụng được phân tích để sinh một tập đặc trưng “đại diện” cho dữ

liệu đó. Tuỳ thuộc vào thuật toán phân lớp mà tập đặc trưng có thể cần được biến

đổi tiếp để phù hợp với thuật toán phân lớp đó, ví dụ như, nếu thuật toán phân lớp

chỉ áp dụng được với dữ liệu rời rạc thì các đặc trưng có giá trị liên tục cần được rời

rạc hoá. Khi đó, thuật toán phân lớp tiến hành học một bộ phân lớp f là một

hàm/ánh xạ từ không gian các đặc trưng tới tập nhãn lớp.

Hình 1.16 Mô hình lựa chọn đặc trưng cho phân lớp dữ liệu [47]

Theo xu thế dữ liệu lớn (big data), dữ liệu với số chiều lớn (số lượng đặc trưng

lớn) nảy sinh hiện tượng “bùng nổ chiều dữ liệu” (the curse of dimensionality) mà các

thuật toán được thiết kế cho dữ liệu có số chiều nhỏ không thể áp dụng được [62].

Trong tập đặc trưng có thể tồn tại các đặc trưng không liên quan đến mục

36

tiêu phân lớp (được gọi là đặc trưng dư thừa) và sự có mặt của đặc trưng này tác

động tiêu cực tới hiệu quả của quá trình học mô hình về cả thời gian tính toán và cả

độ chính xác của thuật toán học mô hình. Bài toán tìm ra một tập đặc trưng dữ liệu

với số chiều thấp hơn so với số chiều ban đầu mà vẫn giữ được tính đại diện dữ liệu

cho bài toán phân lớp là một bài toán rất có ý nghĩa. Bài toán này trở thành một tác

vụ quan trọng trong lĩnh vực học máy cũng như lĩnh vực khai phá dữ liệu và được

gọi là bài toán giảm số lượng đặc trưng (còn được gọi là rút gọn đặc trưng, rút gọn

thuộc tính, giảm chiều dữ liệu). Giảm số lượng đặc trưng có thể được coi là bước

tiền xử lý cho phân lớp, nên việc kết hợp các thuật toán phân lớp với thuật toán

giảm chiều đặc trưng cũng là một giải pháp hữu dụng.

Lựa chọn đặc trưng trong phân lớp đa nhãn và phân lớp đơn nhãn có nhiều

khác biệt quan trọng [78], [79]. Thứ nhất, các nhãn trong phân lớp đơn nhãn là loại

trừ lẫn nhau, trong khi đó, các nhãn trong phân lớp đa nhãn không độc lập mà lại

tương quan nhau. Thứ hai, nhãn trong phân lớp đa nhãn thường do con người định

nghĩa (annotate) do đó thường là không chính xác và không đầy đủ, đặc biệt khi số

lượng nhãn lên tới hàng trăm thậm chí hàng nghìn. Bài toán khai thác hợp lý mối

tương quan giữa các nhãn trong phân lớp đa nhãn là vấn đề quan trọng đặc biệt và

đây là vấn đề không được đặt ra đối với các phương pháp giảm chiều trong phân lớp

đơn nhãn. Chính vì lý do đó việc áp dụng các thuật toán giảm chiều giám sát truyền

thống vào phân lớp đa nhãn theo tiếp cận chuyển đổi bài toán (chuyển đổi phân lớp

đa nhãn về phân lớp đơn nhãn) [84] thường rất kém hiệu quả. Ngoài ra, trong phân

lớp đa nhãn, vấn đề không gian nhãn đầu ra có chiều lớn cũng ảnh hưởng không nhỏ

đến thuật toán phân lớp. Việc nghiên cứu những kỹ thuật giảm chiều đặc trưng với

định hướng khai thác mỗi tương quan giữa các nhãn là rất cần thiết và rất có ý nghĩa

trong phân lớp đa nhãn. Phần tiếp theo, luận án sẽ luận giải và trình bày tóm tắt các

tiếp cận về giảm chiều đặc trưng đầu vào và giảm chiều không gian nhãn đầu ra.

1.3.1. Tiếp cận giảm chiều không gian đặc trưng đầu vào

Các dữ liệu đa nhãn trong các ứng dụng thực tế như phân lớp văn bản, gán

nhãn ảnh,… thường có chiều rất lớn cỡ hàng trăm, thậm chí hàng nghìn đặc trưng.

37

Không gian đặc trưng trong dữ liệu đa nhãn đôi khi được sắp theo một hoặc nhiều

trật tự khác nhau dẫn đến không gian tìm kiếm bùng nổ hơn nhiều so với dữ liệu

trong phân lớp nhị phân và phân lớp đa lớp truyền thống.

Theo F.Herrera và cộng sự [29], các phương pháp giảm chiều đặc trưng phân

chia theo nhiều cách khác nhau tùy thuộc vào tiêu chuẩn lựa chọn tập con đặc trưng

như sau:

- Tiếp cận lựa chọn đặc trưng và trích rút đặc trưng: Phương pháp lựa chọn

đặc trưng tiến hành lựa chọn các đặc trưng hữu ích dựa trên đánh giá độ liên

quan của đặc trưng xuất hiện trong dữ liệu nguồn. Phương pháp trích rút đặc

trưng sinh ra đặc trưng mới từ tập đặc trưng ban đầu.

- Tiếp cận giảm chiều đặc trưng có giám sát và không giám sát: Phương pháp

không giám sát thực hiện giảm chiều đặc trưng chỉ dựa trên bản thân dữ liệu

mà không quan tâm đến tập nhãn của phần tử dữ liệu, điển hình là phương

pháp phân tích thành phần chính PCA[55]. Ngược lại, các phương pháp giảm

chiều có giám sát tận dụng được thông tin về nhãn lớp thông qua việc phân

tích mối quan hệ giữa đặc trưng và nhãn lớp, điển hình là phương pháp phân tích tương quan kinh điển CCA[45] và phân tích biệt thức tuyến tính LDA6

[33], trong đó mối quan hệ phụ thuộc giữa đầu vào và đầu ra được xác định

thông qua các ma trận biến thiên chéo.

- Tiếp cận lọc và đóng gói: Tiếp cận lọc thực hiện lựa chọn đặc trưng dựa hoàn

toàn vào tập dữ liệu ban đầu dựa trên một số tiêu chuẩn như độ đo khoảng cách

và độ đo phân kỳ, độ đo thông tin, xác suất lỗi, độ đồng nhất hoặc khoảng cách

giữa các lớp,… Tiếp cận này không phụ thuộc vào bất kỳ thuật toán học nào nên

loại bỏ được vấn đề sai lệch (bias) giữa việc lựa chọn đặc trưng và mô hình học.

Trong khi đó, tiếp cận đóng gói được thiết kế để tối ưu tập con đặc trưng sử

dụng một bộ phân lớp cho trước trong quá trình đánh giá. Tiếp cận này bị phụ

thuộc vào bộ phân lớp và do đó có thể suy diễn các tương tác giữa các đặc

6 LDA – Linear Discriminant Analysis

38

trưng. Tiếp cận lai giữa hai phương pháp này cũng được đề xuất trong đó khâu

lựa chọn đặc trưng được coi là một phần của quá trình huấn luyện mô hình.

Phương pháp cây quyết định và rừng ngẫu nhiên [77] là hai điển hình của

phương pháp lai. Trong khi, tiếp cận lọc cho hiệu quả tốt hơn về thời gian, tiếp

cận đóng gói lại cho thực thi tốt hơn.

- Tiếp cận giảm chiều đặc trưng tuyến tính và phi tuyến tính: Hầu hết các thuật toán

lựa chọn đặc trưng dựa trên phương pháp thống kê tuyến tính (hồi quy tuyến tính)

như PCA và LDA. Trong PCA, một chuyển đổi tuyến tính được áp dụng trên tập

đặc trưng ban đầu để ánh xạ sang không gian đặc trưng ít chiều hơn.

Các phương pháp giảm chiều đặc trưng không giám sát chỉ dựa trên sự phân

tích của thông tin dư thừa trên tập đặc trưng đầu vào mà không sử dụng các thông

tin nhãn lớp, do đó các phương pháp này có thể áp dụng trực tiếp trên dữ liệu đa

nhãn. Ngược lại, các phương pháp giảm chiều đặc trưng có giám sát có sử dụng

thông tin về nhãn lớp nên cần biến đổi để thích nghi với dữ liệu đa nhãn. Hướng

tiếp cận chuyển đổi bài toán đa nhãn về dạng truyền thống sử dụng biến đổi nhị

phân BR và biến đổi tập con LP; sau đó kết quả đánh giá tương ứng với mỗi nhãn

được kết hợp để tạo ra xếp hạng tổng thể cho các đặc trưng. Tiếp cận này là tiêu

chuẩn quan hệ đơn biến hay nói cách khác các đặc trưng được đánh giá một cách

độc lập, không xem xét đến sự dư thừa đặc trưng và mối quan hệ giữa các đặc

trưng. Một tiêu chuẩn đa biến như kỹ thuật thông tin tương hỗ là một giải pháp

được sử dụng trong nhiều nghiên cứu để khắc phục những nhược điểm này.

G.Doquire và M.Verleysen [33], [34] đề xuất mô hình phân lớp đa nhãn theo tiếp

cận chuyển đổi bài toán sử dụng phương pháp cắt tỉa PPT theo chiến thuật tìm kiếm

tham lam với tiêu chuẩn tìm kiếm là thông tin tương hỗ đa chiều. J. Lee và cộng sự

[61] đề xuất một thuật toán lựa chọn đặc trưng đa nhãn sử dụng độ đo thông tin

tương hỗ xấp xỉ để đánh giá mối quan hệ giữa tập đặc trưng và tập nhãn.

S. Li và cộng sự [112] đề xuất bộ thuật toán lựa chọn thuộc tính đa nhãn dựa

trên độ lợi thông tin để đánh giá mối quan hệ giữa đặc trưng và tập nhãn, sau đó tiến

hành lựa chọn các đặc trưng hữu ích dựa trên ngưỡng. Mô hình đề xuất là độc lập

39

với máy phân lớp nên có thể được áp dụng cho nhiều bài toán.

Trong luận án của mình [111], S. Jungjit đã đề xuất một số phương pháp lựa

chọn đặc trưng cho phân lớp đa nhãn dựa trên mối quan hệ tương quan, trong đó tập

trung vào các phương pháp tìm kiếm tập con đặc trưng phù hợp bao gồm kỹ thuật

tìm kiếm leo đồi (hill-climbing search), kỹ thuật khai thác tri thức di truyền sử dụng

tìm kiếm leo đồi và kỹ thuật tìm kiếm sử dụng giải thuật di truyền (Genetic

Algorithms), đồng thời kết hợp với hai bộ phân lớp đa nhãn kinh điển là phân lớp

đa nhãn k láng giềng gần nhất (MLkNN) và phân lớp đa nhãn trên mạng Nơron lan

truyền ngược (BPMLL).

Gần đây, L.Jian và cộng sự [78] đã đề xuất một tiếp cận lựa chọn đặc trưng đa

nhãn MIFS (Multi-label Informed Feature Selection) với hai đóng góp chính là sử

dụng các ngữ nghĩa ẩn của đa nhãn để định hướng pha lựa chọn đặc trưng bằng cách

ánh xạ không gian nhãn vào không gian rút gọn có chiều thấp hơn rồi sử dụng không

gian rút gọn này thay vì sử dụng không gian nhãn ban đầu để điều chỉnh quá trình lựa

chọn đặc trưng và khai thác mối quan hệ nhãn trong không gian nhãn để chọn các đặc

trưng tiêu biểu chung cho các nhãn. J.Li và H.Liu [62] đã khái quát một số thách thức

trong lựa chọn đặc trưng đối với dữ liệu lớn và cung cấp một kho mã nguồn mở

(scikit-feature) các thuật toán lựa chọn đặc trưng phổ biến như nhóm thuật toán lựa

chọn đặc trưng có giám sát và không giám sát dựa trên lý thuyết thông tin, nhóm

thuật toán dựa trên thống kê, nhóm thuật toán lựa chọn đặc trưng luồng, đặc trưng có

cấu trúc,… nhằm thúc đẩy các nghiên cứu về lựa chọn đặc trưng. Kho mã nguồn mở

này được K.Cheng và cộng sự [75] phát triển thành bộ công cụ FeatureMiner với mục

đích giúp việc sử dụng các thuật toán lựa chọn đặc trưng dễ dàng hơn.

Xây dựng tập đặc trưng riêng cho từng nhãn hoặc tập con nhãn là một hướng

mới trong bài toán giảm chiều đặc trưng [54], [59], [83]. Theo xu thế đó, luận án

tiến hành các nghiên cứu xây dựng tập đặc trưng riêng cho từng nhãn / tập con nhãn

nhằm tìm kiếm tập con đặc trưng tối ưu nhất và nâng cao hiệu quả phân lớp tại công

trình [PTNgan5, PTNgan6].

40

1.3.2. Tiếp cận giảm chiều không gian nhãn đầu ra

Không gian nhãn đầu ra với số chiều lớn cũng mang lại nhiều khó khăn về

thời gian và độ phức tạp cho các tiếp cận phân lớp đa nhãn như:

- Tiếp cận chuyển đổi bài toán phân lớp đa nhãn thành các bài toán phân lớp

nhị phân truyền thống có thời gian thực thi tuyến tính với số lượng nhãn.

- Tiếp cận dựa trên tập lũy thừa nhãn (LP) đối mặt với số lượng tập con nhãn

tăng theo hàm mũ, thêm vào đó dữ liệu huấn luyện thưa dẫn đến sự suy giảm

trong thực thi của nhiều mô hình.

- Một vấn đề cũng cần phải đề cập là mối quan hệ giữa các nhãn cũng là yếu tố

quan trọng trong học các mô hình. Điển hình như tiếp cận láng giềng gần

nhất, lựa chọn tập nhãn của các phần tử dữ liệu láng giềng gần nhất để gán

cho phần tử dữ liệu đang xem xét. Khi không gian nhãn tăng, mối quan hệ và

độ phức tạp giữa các nhãn cũng tăng theo.

Việc giảm chiều không gian nhãn đầu ra sẽ góp phần giảm thời gian và bộ nhớ

huấn luyện các bộ phân lớp. Tuy nhiên, các nhãn không chỉ đơn giản là loại bỏ ra

khỏi dữ liệu vì tất cả các nhãn phải có mặt trong pha dự đoán của bộ phân lớp. Do đó,

các kỹ thuật sử dụng cho bài toán giảm không gian đặc trưng đầu vào không thể áp

dụng trong trường hợp này. Mặt khác, có hai vấn đề cần xem xét về không gian nhãn.

Một là vấn đề thưa nhãn xuất hiện khá phổ biến, đặc biệt là trong các ứng dụng về

phân lớp văn bản. Vấn đề này được hiểu là dữ liệu đa nhãn có số lượng nhãn lớn

nhưng sự xuất hiện của từng nhãn lại thấp. Vấn đề thứ hai là mối quan hệ phụ thuộc

nhãn. Trong một số tiếp cận phân lớp như BR đều giả thiết là các nhãn là hoàn toàn

độc lập, nên bỏ qua mối quan hệ đồng xuất hiện hoặc phụ thuộc nào đó giữa các

nhãn. F. Herrera và cộng sự [29] trình bày hai mô hình quan hệ phụ thuộc: Phụ thuộc

không điều kiện là quan hệ phụ thuộc được cho là tồn tại giữa hai nhãn bất kỳ mà

không chịu sự tác động của đặc trưng đầu vào và mối quan hệ này có thể được khai

thác trên toàn tập dữ liệu khi thiết kế bộ phân lớp đa nhãn. Phụ thuộc có điều kiện là

quan hệ phụ thuộc giữa các nhãn theo giá trị đặc trưng đầu vào của phần tử dữ liệu.

Một số tiếp cận đề xuất cho tiếp cận giảm chiều không gian nhãn như sau:

41

- Phương pháp lựa chọn tập con nhãn: Điển hình là thuật toán RAkEL [43],

[84] trình bày ở mục 1.2.1.1. Trong đó, tập nhãn được chia thành các tập con

nhẫu nhiên dựa trên kỹ thuật chuyển đổi dữ liệu tập lũy thừa nhãn LP, từ đó

mô hình huấn luyện một nhóm các bộ phân lớp sử dụng tập con nhãn được

phân chia ở trên cho mỗi bộ phân lớp.

- Phương pháp cắt tỉa tập nhãn hiếm: Điển hình là phương pháp tập cắt tỉa

(Pruned Set) PS [66] và bộ tập cắt tỉa (Ensemble of Pruned Set) EPS [67]

cũng dựa trên kỹ thuật chuyển đổi dữ liệu LP, phát hiện các tập nhãn hiếm và

cắt tỉa chúng. Bằng cách này, số lượng tập con nhãn sẽ giảm đi đáng kể.

Phương pháp này tránh được các sự kết hợp của nhãn hiếm nhưng thường

không giảm số lượng nhãn.

- Phương pháp ước lượng phụ thuộc nhân KDE (Kernel Dependency

Estimation): Đây là một kỹ thuật khái quát để tìm mối quan hệ phụ thuộc

giữa tập đầu vào và dầu ra. Phương pháp này sử dụng kỹ thuật phân tích

thành phần chính PCA trên không gian nhãn ban đầu để thu được một tập các

ánh xạ độc lập, từ đó giữ lại các nhãn quan trọng dựa trên xác định ngưỡng

về giá trị riêng. Sau các bước dự đoán trên tập nhãn giảm, một thủ tục khôi

phục lại tập nhãn ban đầu được thực hiện.

- Phương pháp suy luận nhãn giải quyết bài toán số chiều lớn trong không gian

nhãn: Phương pháp này được để xuất trong [28] gọi là LI-MLC dựa trên

thông tin về quan hệ phụ thuộc nhãn thu được từ thuật toán khai phá luật kết

hợp. Trong đó, coi nhãn là các mục và các phân tử dữ liệu là các giao dịch,

một tập các luật kết hợp sẽ được sinh ra từ tập các giao dịch này. Vế thứ nhất

của mỗi luật chỉ ra những nhãn nào phải xuất hiện trong dự đoán để suy luận

ra nhãn trong vế thứ hai cũng sẽ xuất hiện cùng. Từ đó chỉ giữ lại những luật

tin cậy và loại bỏ những nhãn được suy luận từ các nhãn khác. Kết quả thu

được là tập dữ liệu đa nhãn với không gian nhãn được thu gọn nên có thể áp

dụng các thuật toán phân lớp đa nhãn đã biết.

42

1.4. Học bán giám sát cho phân lớp đa nhãn

Trong nhiều bài toán ứng dụng thực tế, các dữ liệu có nhãn thu được cần tốn

nhiều thời gian và công sức trong khi đó dữ liệu chưa có nhãn thì rất phong phú và dễ

dàng thu được. Tiếp cận học giám sát đòi hỏi cần có lượng lớn dữ liệu có nhãn để

thực thi có hiệu quả, trong khi đó, tiếp cận học không giám sát chỉ tập trung khai thác

dữ liệu không nhãn. Để khai thác được các thông tin hữu ích từ dữ liệu có nhãn và

không nhãn, tiếp cận học bán giám sát ra đời và thu hút được nhiều sự quan tâm của

cộng đồng nghiên cứu. Trong ngữ cảnh này, dữ liệu huấn luyện được cho là bao gồm

lượng lớn dữ liệu không nhãn so với một lượng nhỏ dữ liệu có nhãn. Mục tiêu của

tiếp cận này là huấn luyện một bộ phân lớp trên cả dữ liệu có nhãn và không nhãn

cho hiệu quả tốt hơn bộ phân lớp giám sát được huấn luyện trên tập dữ liệu có nhãn.

Theo X. Zhu và A. B. Goldberg [122], có hai tiếp cận học bán giám sát là

học bán giám sát quy nạp và học bán giám sát diễn dịch, trong đó phương pháp học

bán giám sát quy nạp xây dựng mô hình dự đoán nhãn cho tập dữ liệu kiểm thử

trong tương lai; còn phương pháp học bán giám sát diễn dịch xây dựng mô hình dự

đoán nhãn cho tập dữ liệu không nhãn trong tập huấn luyện.

Bài toán phân lớp truyền thống vốn là bài toán giám sát trong đó dữ liệu có

nhãn được sử dụng để huấn luyện mô hình. Xuất phát từ tiếp cận về học bán giám sát

và các đặc điểm của dữ liệu đa nhãn, nhiều nhà nghiên cứu đã đề xuất các tiếp cận

liên quan đến phân lớp bán giám sát trong phân lớp đa nhãn như phương pháp tìm

thừa số ma trận ràng buộc [126], phương pháp dựa trên đồ thị [32], phương pháp

giảm chiều [8], tiếp cận học trên không gian con đồng thời với biên lớn [125]...

Luận án cũng đề xuất một tiếp cận học bán giám sát cho phân lớp đa nhãn

trong đó kỹ thuật phân cụm bán giám sát được sử dụng để khai thác các thông tin từ

dữ liệu có nhãn và không nhãn xây dựng phân hoạch trên miền dữ liệu ứng dụng

phục vụ quá trình phân lớp. Tiếp cận này được trình bày tại Chương 4 của luận án.

1.5. Kết luận chương 1

Chương 1 đã trình bày về bài toán phân lớp với bước phát triển từ phân lớp

đơn nhãn truyền thống, phân lớp đơn nhãn đa thể hiện, phân lớp đa nhãn đơn thể hiện

43

đến phân lớp đa nhãn đa thể hiện. Chương này tập trung vào trình bày tổng quan về

phân lớp đa nhãn bao gồm dữ liệu đa nhãn và các độ đo dữ liệu đa nhãn; kỹ thuật

phân lớp đa nhãn và phương pháp đánh giá phân lớp đa nhãn. Đây sẽ là nội dung nền

tảng cho phương pháp luận giải quyết bài toán phân lớp đa nhãn ở các chương sau

xây dựng mô hình gồm các bước phân tích, đánh giá các đặc điểm, đặc trưng về dữ

liệu đa nhãn, phân tích ảnh hưởng, tác động của các đặc trưng đến mô hình phân lớp,

bước lựa chọn đặc trưng để loại bỏ các đặc trưng dư thừa, giữ lại đặc trưng quan

trọng và bước sử dụng thuật toán phân lớp. Để kiểm chứng tính hiệu quả của mô hình

đề xuất, luận án xây dựng các kịch bản thực nghiệm với cấu hình các tham số khác

nhau và so sánh với các mô hình cơ sở. Kịch bản thực nghiệm được thực hiện trên

miền dữ liệu văn bản tiếng Việt. Một số tiếp cận trong luận án sau đó được một số tác

giả khác triển khai trên miền dữ liệu văn bản tiếng Anh cũng cho hiệu quả tốt hơn các

mô hình cơ sở cho thấy tính ứng dụng thực tiễn của mô hình đề xuất.

44

Chương 2. HAI MÔ HÌNH PHÂN LỚP ĐƠN NHÃN VĂN BẢN

TIẾNG VIỆT

Như trình bày tại Chương 1, bài toán phân lớp đã tiến hóa từ phân lớp đơn

nhãn truyền thống, phân lớp đơn nhãn đa thể hiện, phân lớp đa nhãn đơn thể hiện và

phân lớp đa nhãn đa thể hiện. Trong nhiều ứng dụng thực tế, một số bài toán trích

chọn thông tin như gán nhãn thực thể có tên, gán nhãn từ loại… có thể được coi là

bài toán phân lớp đơn nhãn và áp dụng các tiếp cận phân lớp đơn nhãn trên cơ sở

các đặc trưng riêng của từng lớp bài toán. Chương này trình bày hai mô hình phân

lớp đơn nhãn được xây dựng trong bài toán nhận diện thực thể có tên gán cho dữ

liệu một kiểu thực thể trong tập các thực thể định nghĩa trước và mô hình hệ tư vấn

xã hội đề xuất danh sách sản phẩm trong tập sản phẩm xem xét. Kết quả các nghiên

cứu trong chương này được công bố trong [PTNgan1, PTNgan2]. Ý tưởng sử dụng

phân phối chủ đề ẩn, cung cấp thêm các thông tin ngữ nghĩa ẩn từ kho dữ liệu, làm

giàu tập đặc trưng cho mô hình phân lớp đa nhãn trong Chương 3 được hình thành

từ giải pháp sử dụng kỹ thuật xây dựng tiêu chuẩn kỳ vọng tổng quát trong mô hình

nhận diện thực thể.

2.1. Mô hình nhận diện thực thể có tên dựa trên trường ngẫu nhiên có điều

kiện và tiêu chuẩn kỳ vọng tổng quát

2.1.1. Nhận diện thực thể có tên

Nhận diện thực thể có tên (Named Entity Recognition - NER) là một bài toán

cơ bản trong trích chọn thông tin. Nó được ứng dụng nhiều trong dịch tự động, tóm

tắt văn bản, hiểu ngôn ngữ tự nhiên, nhận biết tên thực thể trong sinh/y học và đặc

biệt được ứng dụng trong việc tích hợp tự động các đối tượng, thực thể từ môi trường

Web vào các ontology ngữ nghĩa và các cơ sở tri thức. Bài toán có nhiệm vụ tìm kiếm

và rút ra những thông tin liên quan đến thực thể trong văn bản, thông thường là loại

thực thể. Tác vụ nhận diện thực thể có tên được khởi xướng từ Hội nghị MUC-6

(Message Understanding Conference - 1995) với ngôn ngữ đích là tiếng Anh. Kể từ

đó, bài toán nhận diện thực thể có tên đã thu hút được cộng đồng nghiên cứu trong

45

việc đề xuất các giải pháp xây dựng tập đặc trưng, kỹ thuật đoán nhận, phương pháp

đánh giá và các ứng dụng trên các miền ngôn ngữ khác nhau.

Danh sách các kiểu thực thể được nhận dạng khác nhau tùy thuộc vào từng

bài toán và lĩnh vực ứng dụng cụ thể. Một số kiểu thực thể có tên phổ biến nhất là:

- Thực thể chỉ người (PERSON)

- Thực thể chỉ tổ chức (ORGANIZATION)

- Thực thể chỉ địa điểm (LOCATION)

- Thực thể chỉ ngày (DATE)

- Thực thể chỉ thời gian (TIME)

- Thực thể chỉ các đơn vị đo tiền tệ (MONEY)

- Thực thể chỉ phần trăm (PERCENT)

Bài toán nhận diện thực thể có tên có thể coi là bài toán phân lớp đơn nhãn

với tập nhãn định nghĩa trước là tập thực thể có tên. Trong văn bản, thực thể được

xét là tập từ, mỗi từ được gán một nhãn tương ứng với loại thực thể.

Trong nhiều ứng dụng phân lớp trên văn bản, đối tượng phân lớp thường

đoạn văn bản có thể là văn bản ngắn độ vài câu hoặc là một văn bản dài gồm nhiều

đoạn. Đối với bài toán nhận diện thực thể này, đối tượng nhận diện là từ nên bài

toán mang những đặc trưng riêng về quá trình tiền xử lý trên toàn bộ văn bản và

cách thức xây dựng tập đặc trưng hiệu quả cho mô hình. Phần tiếp theo sẽ phân tích

các bước để xây dựng mô hình nhận diện thực thể có tên.

2.1.2. Mô hình đề xuất

Theo khảo sát của A. Mansouri và cộng sự [4], J. Jiang [60], những tiếp cận

giải quyết bài toán nhận diện thực thể có tên được chia thành hai nhóm phương

pháp chính bao gồm tiếp cận dựa trên luật và tiếp cận dựa trên học máy. Ngoài ra,

một số công trình kết hợp cả hai phương pháp trên.

Trong đó, tiếp cận dựa trên luật định nghĩa thủ công một bộ các luật như các

mẫu ngữ pháp, cú pháp, đặc trưng chính tả kết hợp với từ điển,… Các thực thể cần

nhận dạng được so sánh với tập luật, nếu khớp với luật nào thì thực thể sẽ được xem

xét nhận dạng theo quy tắc đặt ra trong luật.

46

Tiếp cận dựa trên học máy cũng nhận được sự quan tâm trong nhiều nghiên

cứu, trong đó bài toán nhận dạng thực thể có tên được chuyển thể thành bài toán

gán nhãn chuỗi quen thuộc như gán nhãn từ loại (Part of speech tagging), phân khúc

(chunking) và nhận dạng thực thể có tên.

Theo khảo sát của D.Nadeau và S.Sekine [18], các phương pháp học máy

cho bài toán này chủ yếu theo tiếp cận học giám sát bao gồm mô hình Markov ẩn

(HMM), thuật toán cây quyết định, mô hình Entropy cực đại, thuật toán máy vectơ

hỗ trợ (SVM) và thuật toán trường ngẫu nhiên có điều kiện (CRFs). Một số tiếp cận

theo phương pháp học bán giám sát dựa trên kỹ thuật tự huấn luyện (self-training

hay bootstrapping), trong đó từ tập dữ liệu có nhãn ban đầu huấn luyện bộ phân lớp,

sau đó sử dụng bộ phân lớp này gán nhãn cho dữ liệu chưa có nhãn, các dữ liệu

chưa có nhãn sau khi được gán nhãn sẽ được bổ sung vào tập huấn luyện; điểm chú

ý là bộ phân lớp sẽ được huấn luyện lại và lặp lại các quy trình. Ngoài ra, một số

tiếp cận theo phương pháp học không giám sát cũng được đề xuất sử dụng kỹ thuật

phân cụm, từ vựng và thống kê.

Việc khai thác không gian đặc trưng trong bài toán nhận diện thực thể có tên

cũng là một vấn đề được quan tâm do đối tượng dữ liệu được nhận diện là từ, nên

có nhiều đặc trưng riêng cho đối tượng này. Trong khảo sát [18] cũng chỉ ra các đặc

trưng được sử dụng phổ biến bao gồm đặc trưng mức từ như từ loại (POS), ký tự,

mẫu số, chấm câu,… đặc trưng từ điển (danh sách) và đặc trưng mức văn bản và tập

văn bản.

Các công trình nhận diện thực thể có tên cho tiếng Việt cũng được tiếp cận

theo cả hai hướng tiếp cận dựa trên luật và học máy (học có giám sát và học bán giám

sát). Tác giả H.Q. Lê và cộng sự [52] đề xuất mô hình tích hợp nhận dạng thực thể

người dựa trên CRF và kho ngữ liệu vàng (NER Golden corpus) là tập đặc trưng liên

quan được định nghĩa trước. Tác giả Q.T. Tran và cộng sự [104] đề xuất mô hình

nhận diện thực thể định danh dựa trên mô hình máy vector hỗ trợ SVM. Tác giả D. B.

Nguyen và cộng sự [13] đề xuất mô hình nhận diện thực thể định danh dựa trên tiếp

cận xây dựng kho thực thể được gán nhãn kết hợp với luật. Tác giả H. Le Trung và

47

cộng sự [46] đề xuất mô hình nhận diện thực thể có tên dựa trên tập luật kết hợp với

kỹ thuật bootstrapping. Tác giả H.Q. Pham và cộng sự [53] đề xuất một mô hình học

máy bán giám sát nhận diện thực thể có tên dựa trên CRF kết hợp kỹ thuật

bootstrapping với một thuật toán học trực tuyến để nâng cao hiệu quả mô hình.

Mô hình được đề xuất trong luận án hòa chung vào xu hướng xây dựng học

máy bán giám sát nhằm tận dụng được nguồn dữ liệu chưa gán nhãn phong phú và

tiếp cận này là không trùng lặp với các nghiên cứu đã có cho văn bản tiếng Việt.

Mô hình đề xuất sử dụng mô hình CRF kết hợp với tiêu chuẩn kỳ vọng tổng quát

[35] là những điều kiện trong hàm mục tiêu huấn luyện cho phép gán giá trị cho kỳ

vọng mô hình. Kỹ thuật tiêu chuẩn kỳ vọng tổng quát đã được chứng minh hiệu quả

trong một số tiếp cận [37], [38] cho bài toán nhận diện thực thể có tên, ngoài ra các

ràng buộc được phát hiện có ích cho các phương pháp học suốt đời (lifelong

machine learning).

Dựa theo tiếp cận về tiêu chuẩn kỳ vọng tổng quát, phương pháp đề xuất

trong luận án khai thác mô hình xác suất theo chủ đề ẩn Latent Dirichlet Allocation

(LDA) – (sẽ được trình bày chi tiết ở Chương 3) – để xây dựng tập ràng buộc đặc

trưng thực thể và sử dụng mô hình học trường ngẫu nhiên có điều kiện CRFs trên

tập đặc trưng mức từ như đặc trưng từ loại (POS), đặc trưng theo ký tự và đặc trưng

theo cửa sổ trượt để bổ sung thêm quan hệ trước sau nhằm nâng cao hiệu quả cho

mô hình. Phần tiếp theo sẽ làm rõ hơn về sử dụng tiêu chuẩn kỳ vọng tổng quát vào

mô hình trường ngẫu nhiên có điều kiện và ứng dụng vào bài toán nhận diện thực

thể có tên.

2.1.2.1. Sử dụng tiêu chuẩn kỳ vọng tổng quát vào mô hình trường nhẫu nhiên

có điều kiện CRFs

Mô hình trường ngẫu nhiên có điều kiện CRFs (Conditional Random Fields)

được J.D.Lafferty và cộng sự [56] giới thiệu lần đầu tiên vào năm 2001. CRFs là

mô hình dựa trên xác suất có điều kiện, nó cho phép tích hợp được các thuộc tính đa

dạng của chuỗi dữ liệu quan sát nhằm hỗ trợ cho quá trình phân lớp. Điểm khác biệt

của CRFs là mô hình đồ thị vô hướng đã cho phép CRFs có thể định nghĩa phân

48

phối xác suất của toàn bộ chuỗi trạng thái với điều kiện biết chuỗi quan sát cho

trước thay vì phân phối trên mỗi trạng thái với điều kiện biết trạng thái trước đó và

quan sát hiện tại như trong các mô hình đồ thị có hướng khác. Do bản chất “phân

phối điều kiện” và “phân phối toàn cục”, CRFs khắc phục được những nhược điểm

của các mô hình trước đó trong việc gán nhãn và phân đoạn các dữ liệu dạng chuỗi

mà tiêu biểu là vấn đề ít chú ý đến các trạng thái có phân phối chuyển với entropy

thấp (label bias).

Kí hiệu X là biến ngẫu nhiên nhận giá trị là chuỗi dữ liệu cần phải gán nhãn

và Y là biến ngẫu nhiên nhận giá trị là chuỗi nhãn tương ứng. Mỗi thành phần Yi của

Y là một biến ngẫu nhiên nhận giá trị trong tập hữu hạn các trạng thái S.

Cho một đồ thị vô hướng phi chu trình G = (V, E), ở đây V là tập các đỉnh

của đồ thị và E là tập các cạnh vô hướng nối các đỉnh đồ thị. Các đỉnh V biểu diễn

các thành phần của biến ngẫu nhiên Y sao cho tồn tại ánh xạ một- một giữa một

đỉnh và một thành phần Yv của Y. Ta nói (Y|X) là một trường ngẫu nhiên điều kiện

(Conditional Random Field) khi với điều kiện X, các biến ngẫu nhiên Yv tuân theo

tính chất Markov đối với đồ thị G [56]:

(2.1) ( ) ( ( ))

Ở đây, N(v) là tập tất cả các đỉnh kề với v. Như vậy, một CRF là một trường

ngẫu nhiên phụ thuộc toàn cục vào X. Trong các bài toán xử lý dữ liệu dạng chuỗi,

G đơn giản chỉ là dạng chuỗi G = (V={1,2,…m}, E={(i,i+1)}).

Kí hiệu X=(X1, X2,…, Xl), Y=(Y1,Y2,...,Yn ). Một cách tóm lược, mô hình đồ

thị cho CRFs được biểu diễn như sau:

Hình 2.1 Đồ thị vô hướng mô tả CRFs

49

Gọi C là tập hợp tất cả các đồ thị con đầy đủ của đồ thị G - đồ thị biểu diễn

cấu trúc của một CRFs. Khi đó xác suất của chuỗi nhãn với điều kiện biết chuỗi dữ

liệu quan sát p(y|x) sẽ được thừa số hóa thành tích của các hàm tiềm năng như sau.

(2.2) ( ) ∏ ( )

Trong đó, các hàm tiềm năng cho mô hình CRFs được xác định dựa trên

nguyên lý cực đại hóa Entropy cho phép đánh giá các phân phối xác suất từ một tập

các dữ liệu huấn luyện. Lafferty và cộng sự [56] xác định hàm tiềm năng của một

CRF có dạng một hàm mũ:

( ) ∑ ( ) (2.3)

Trong đó, là một thuộc tính của chuỗi dữ liệu quan sát và là trọng số chỉ

mức độ biểu đạt thông tin của thuộc tính .

Có hai loại thuộc tính là thuộc tính chuyển (kí hiệu là ) và thuộc tính trạng

thái (kí hiệu là ) tùy thuộc vào A là đồ thị con gồm một đỉnh hay một cạnh của G.

Thay các hàm tiềm năng vào công thức (2.2) và thêm vào đó một thừa sổ chuẩn hóa

( ) để đảm bảo tổng xác suất của tất cả các chuỗi nhãn tương ứng với một chuỗi

dữ liệu quan sát bằng 1, ta được:

) ( ) (2.4) (∑ ∑ ( ) ( ) ∑ ∑ ( )

Ở đây, là chuỗi dữ liệu quan sát và chuỗi trạng thái tương ứng; là

thuộc tính của tòan bộ chuỗi quan sát và các trạng thái tại ví trí trong chuỗi

trạng thái; là thuộc tính của toàn bộ chuỗi quan sát và trạng thái tại ví trí trong

chuỗi trạng thái. Thừa số chuẩn hóa ( ) được tính như sau:

) (2.5) ( ) ∑ (∑ ∑ ( ) ∑ ∑ ( )

( ) là các vector các tham số của mô hình, sẽ được ước

lượng giá trị nhờ các phương pháp ước lượng tham số cho mô hình.

50

Trong bài toán gán nhãn cho dữ liệu dạng chuỗi, chuỗi trạng thái mô tả tốt

nhất cho chuỗi dữ liệu quan sát x là nghiệm của phương trình:

* ( )+

Nhiệm vụ là ước lượng tham số cho mô hình CRFs làm cực đại hóa hàm log-

likelihood.

Trong mô hình trường ngẫu nhiên có điều kiện ứng dụng nhận diện thực thể

có tên, tiêu chuẩn kỳ vọng tổng quát được xây dựng và vận dụng vào mô hình như

sau. Theo G.Druck và cộng sự [5], tiêu chuẩn kỳ vọng tổng quát có thể được xây

dựng từ phân phối xác suất điều kiện của các nhãn cho trước với một đặc trưng; các

phân phối này là các ràng buộc (constraint) thể hiện mối quan hệ giữa từ và nhãn.

Tiến hành xây dựng một tập các ràng buộc về phân phối xác suất của tập nhãn cho

trước một đặc trưng dựa trên các tri thức tiền nghiệm ước lượng từ dữ liệu. Trong

mô hình đề xuất, tập ràng buộc này được xây dựng từ mô hình chủ đề ẩn Latent

Dirichlet Allocation (LDA).

Khi đó, kỳ vọng có điều kiện của mô hình với bộ tham số và tập quan sát

cho trước ̃ * + là: [ ( ) ̃] (2.6) | ̃| ∑ ∑ ( ) ( ) ̃

Để đơn giản, ký hiệu ( ) là hàm ánh xạ mô hình. Tiêu chuẩn kỳ vọng tổng

quát là một hàm G với tham số là kỳ vọng của mô hình (tính ở công thức (2.6) và

trả về một giá trị vô hướng là tham số ước lượng cho hàm mục tiêu.

(2.7) ( , ( )-)

Trong mô hình đề xuất, hàm G được định nghĩa dựa trên khoảng cách từ kỳ

vọng mô hình đến giá trị đích.

(2.8) ̃( , ( )-) ( , ( )- ̃)

Trong đó, ̃ là giá trị mục tiêu, và ( ) là hàm khoảng cách.

2.1.2.2. Xây dựng tập ràng buộc cho tiêu chuẩn kỳ vọng tổng quát

Mỗi ràng buộc thể hiện phân phối xác suất điều kiện của các nhãn cho trước

51

với một đặc trưng có cấu trúc như sau:

Đặc_trưng nhãn_1 = xác_xuất nhãn_2 = xác_xuất …

Ví dụ, xét một đặc trưng là từ “Hồ_Chí_Minh”, đặc trưng này có thể là tên của

một người, hoặc đặc trưng này xuất hiện trong tên của một tổ chức “Đoàn thanh_niên

cộng_sản Hồ_Chí_Minh” hoặc đặc trưng này xuất hiện trong tên của một vị trí địa lý

“thành_phố Hồ_Chí_Minh”. Trên một tập dữ liệu, tính xác xuất mà đặc trưng

Hồ_Chí_Minh thuộc về một nhóm thực thể dựa trên ngữ cảnh là quan hệ với đặc trưng

đứng trước, đứng sau nó và tần suất xuất hiện của đặc trưng trong tập dữ liệu.

Trong mô hình này, tập ràng buộc được xây dựng theo phương pháp sinh đặc

trưng máy học sử dụng mô hình chủ đề ẩn LDA [15], [16] (được trình bày ở mục

3.1.1) nhằm thu được tập phân phối xác suất các nhãn thực thể trên mỗi đặc trưng

2.1.2.3. Mô hình đề xuất cho bài toán nhận diện thực thể có tên

Phát biểu cho bài toán nhận diện thực thể có tên như sau.

Đầu vào:

- D: tập mọi dữ liệu văn bản liên quan đến chủ đề thuộc miền ứng dụng

- DL: tập ví dụ mẫu là một tập con của D chứa các dữ liệu văn bản với nhãn

thực thể cho trước.

- DU: tập ví dụ mẫu là tập con của D chứa các dữ liệu văn bản chưa gán nhãn

để xây dựng tiêu chuẩn kỳ vọng tổng quát.

- L: tập các thực thể có tên

- Bộ gán nhãn thực thể có tên M: DL sao cho M được đánh giá kiểm thử

Đầu ra:

trên tập ví dụ mẫu DL đạt hiệu quả cao.

Quy trình giải quyết bài toán được trình bày ở Quy trình 2.1.

Pha 1: Các bước tiền xử lý dữ liệu trên tập DL

- Bước 1: Module tách câu, tách từ - Bước 2: Gán nhãn từ loại cho mỗi từ POS - Bước 3: Gán nhãn thực thể NER

52

Pha 2: Xây dựng bộ gán nhãn bán giám sát dựa trên mô hình trường ngẫu

nhiên có điều kiện CRFs kết hợp với tiêu chuẩn tổng quát Bước 1: Xây dựng tập ràng buộc trên tập DU

Bước 2: Lựa chọn tập thuộc tính trên DL

-

- - -

Bước 3: Xây dựng bộ gán nhãn Bước 4: Đánh giá mô hình

Quy trình 2.1 Quy trình giải quyết bài toán

Mô hình đề xuất tương ứng với Quy trình 2.1 cho bài toán gán nhãn thực thể

(như thể hiện ở Hình 2.1) được xây dựng gồm 2 giai đoạn như sau:

Hình 2.2 Mô hình gán nhãn bán giám sát CRFs kết hợp tiêu chuẩn kỳ vọng tổng quát

Giai đoạn 1: Tập văn bản dữ liệu cần tiến hành hai bước tiền xử lý bán tự

động đó là tách từ, gán nhãn từ loại POS, gán nhãn thực thể NER.

Bước 1: Dữ liệu được đưa qua module tách câu để thu được tập các câu. Mỗi

53

câu được đưa qua module tách từ để thu được tập các từ trong câu. Sau bước này

thu được tập dữ liệu gồm mỗi từ nằm trên một dòng. Và giữa mỗi câu có một dòng trống.

Bước 2: Tiến hành gán nhãn từ loại POS cho mỗi từ. Việc gán nhãn POS sử

dụng tool vnTagger của tác giả Lê Hồng Phương tại trang web

http://www.loria.fr/~lehong/tools/vnTagger.php. Đây là phần mềm gán nhãn từ loại

POS cho tiếng Việt có độ chính xác cao (khoảng 95%), phần mềm được viết dựa

trên phương pháp cực đại entropy.

Bước 3: Tiến hành gán nhãn NER cho mỗi từ một cách thủ công.

Giai đoạn 2: Xây dựng bộ phân lớp bán giám sát dựa trên mô hình trường

ngẫu nhiên có điều kiện CRFs kết hợp với tiêu chuẩn tổng quát.

Bước 1: Xây dựng tập ràng buộc.

Áp dụng mô hình chủ đề ẩn LDA trên tập dữ liệu DU để thu được tập các

ràng buộc thể hiện phân phối xác suất của tập nhãn thực thể cho trước đặc trưng.

Hình 2.3 Tập các ràng buộc (Constraint file)

Bước 2: Lựa chọn thuộc tính

54

Các thuộc tính được chọn theo mẫu ngữ cảnh từ vựng (kích thước cửa sổ

trượt bằng 5):

Mẫu ngữ cảnh Ý nghĩa

Âm tiết quan sát tại vị trí -2 so với vị trí hiện tại S-2

Âm tiết quan sát tại vị trí liền trước so với vị trí hiện tại S-1

Âm tiết quan sát tại vị trí liền sau so với vị trí hiện tại S1

Âm tiết quan sát tại vị trí +2 so với vị trị hiện tại S2

Âm tiết quan sát tại vị trí hiện tại và vị trí liền sau S0S1

Âm tiết quan sát tại vị trí liền trước và vị trí hiện tại S-1S0

Âm tiết quan sát tại vị trí -2 và vị trí liền trước S-2S-1

Âm tiết quan sát tại vị trí 2 và vị trí liền sau S1S2

Âm tiết quan sát tại vị trí liền trước, hiện tại và liền sau S-1S0S1

Âm tiết quan sát tại vị trí -2, vị trí liền trước và hiện tại S-2S-1S0

Âm tiết quan sát tại vị trí 2, vị trí liền sau và hiện tại S0S1S2

Bảng 2.1 Mẫu ngữ cảnh từ vựng

Việc lựa chọn thuộc tính còn được dựa trên ngữ cảnh phát hiện tên thực thể:

Các tên thực thể thường được viết hoa ký tự đầu tiên, nếu tất cả các ký tự đều viết

hoa thì khả năng đó là tên viết tắt của tổ chức, đôi khi tên thực thể có thể đi cùng

với các ký tự số….

Mẫu ngữ cảnh Ý nghĩa

InitialCap AllCaps CapsMix SingleDigit HasDigit DoubleDigits Viết hoa chữ cái đầu Viết hoa tất cả các chữ cái Chữ cái thường và hoa lẫn lộn Số 1 chữ số Có chứa số Số 2 chữ số

Bảng 2.2 Mẫu ngữ cảnh phát hiện tên thực thể

Bước 3: Xây dựng bộ gán nhãn

Bước này sử dụng mô hình CRFs để gán nhãn cho chuỗi quan sát trong đó

sử dụng các tham số ước lượng được xác định từ tiêu chuẩn kỳ vọng tổng quát đưa

vào thuật toán Viterbi cải tiến để tìm chuỗi trạng thái tốt nhất.

55

Bước 4: Đánh giá mô hình

Luận án sử dụng bộ các độ đo cơ bản gồm độ chính xác (precision), độ hồi

tưởng (recall) và độ đo F1 (F1 là một chỉ số cân bằng giữa độ chính xác và độ hồi

tưởng) để đánh giá mô hình. Mục tiêu của mô hình là xây dựng được mô hình gán

nhãn thực thể đạt được giả trị F1 cao.

2.1.3. Ứng dụng mô hình

Luận án ứng dụng mô hình đề xuất để gán nhãn thực thể có tên cho đối tượng

trên miền dữ liệu văn bản pháp luật tiếng Việt được thu thập từ website

http://www.cand.com.vn – đây là website chính thức của cơ quan công an về các vụ

án, những tình tiết sự việc vi phạm pháp luật được công khai, khá gần với tài liệu hồ

sơ vụ án cần khai thác. Các loại thực thể được xác định dựa theo các thực thể trong

tác vụ CoNLL2003 bao gồm: LOC (Location), PER (Person), ORG (Organization)

và MISC (Miscellaneous). Tiến hành thu thập hơn 400 bài viết điều tra, ghi chép

các vụ án về an ninh trật tự, an ninh kinh tế… (trong đó xây dựng tập dữ liệu huấn

luyện và tập kiểm thử từ khoảng 150 tài liệu và tập dữ liệu cho mô hình chủ đề ẩn

xây dựng tập ràng buộc từ khoảng 250 tài liệu). Để đánh giá ảnh hưởng của dữ liệu

có nhãn trong tập huấn luyện và tập ràng buộc đối với mô hình, các thực nghiệm

được thiết lập cài đặt như sau:

 Tập huấn luyện được xây dựng với 3 tập dữ liệu với số lượng thực thể khác

nhau là 500, 1000 và 1500

 Tập dữ liệu kiểm thử được sử dụng cố định trong các thực nghiệm bao gồm

500 thực thể

 Tập ràng buộc cũng được xây dựng với số lượng ràng buộc khác nhau là 614,

669 và 914.

 Sử dụng bộ công cụ Mallet [91] của A.McCallum và cộng sự (2002) để xây

dựng bộ gán nhãn dựa trên mô hình trường ngẫu nhiên có điều kiện.

Đồng thời tiến hành thực nghiệm gán nhãn thực thể sử dụng mô hình CRFs theo

phương pháp giám sát làm cơ sở để so sánh với phương pháp bán giám sát đề xuất.

Do số lượng thực nghiệm do sự kết hợp tập ràng buộc và tập dữ liệu huấn

56

luyện là tương đối nhiều, trong mục này luận án chỉ chọn trình bày kết quả so sánh

thực thi mô hình gán nhãn sử dụng CRF và mô hình đề xuất trong trường hợp tốt

nhất khi sử dụng tập ràng buộc 914 ràng buộc kết hợp với các tập dữ liệu huấn

luyện khác nhau ở Bảng 2.3 và kết quả so sánh thực thi mô hình đề xuất khi sử dụng

các tập ràng buộc khác nhau để đánh giá mức độ đóng góp của các ràng buộc với

mô hình ở Hình 2.4

Bảng 2.3 cho thấy mô hình đề xuất luôn cho kết quả tốt hơn mô hình cơ sở và

kết quả tốt nhất là 90.14%. Với tập dữ liệu huấn luyện kích thước nhỏ (500 thực thể)

có thể thấy rõ hơn hiệu quả của mô hình đề xuất với kết quả chênh lệch với mô hình

cơ sở là 71.88% so với 64.62%. Khi tăng kích thước tập dữ liệu huấn luyện lên 1000

và 1500 thực thể, mô hình cơ sở theo tiếp cận mô hình giám sát cho kết quả tăng lên

tương đối. Tuy vậy, mô hình bán giám sát đề xuất vẫn có hiệu quả cao hơn 90.14% so

với 88.89%. Thêm nữa, trong mô hình đề xuất việc sử dụng tập ràng buộc có kích

thước lớn cho kết quả tốt hơn khi sử dụng tập ràng buộc có kích thước nhỏ.

Thực thể CRFs-GE RE% CRFs RE% PR% PR% F1 %

ORG PER LOC Trung bình 90.00 100.00 12.50 58.33 75.00 66.67 100.00 72.41 90.00 100.00 25.00 63.89 100.00 66.67 100.00 82.14 94.74 80.00 40.00 71.88

ORG PER LOC Trung bình 90.00 100.00 56.25 77.78 90.00 100.00 56.25 77.78 100.00 83.33 81.82 87.50 100.00 90.91 75.00 87.50 94.74 95.24 64.29 82.35

ORG PER LOC Trung bình 100.00 100.00 75.00 88.89 100.00 100.00 75.00 88.89 71.43 100.00 100.00 88.89 83.33 90.91 100.00 91.43 F1 % Dữ liệu huấn luyện với 500 thực thể 81.82 80.00 22.22 64.62 Dữ liệu huấn luyện với 1000 thực thể 94.74 90.91 66.67 82.35 Dữ liệu huấn luyện với 1500 thực thể 83.33 100.00 85.71 88.89 90.91 95.24 85.71 90.14

Bảng 2.3 Kết quả thực nghiệm

57

Hình 2.4 biểu diễn so sánh kết quả thực nghiệm mô hình đề xuất trên các tập

ràng buộc khác nhau. Kết quả cho thấy khi tăng số lượng ràng buộc đã cải thiện kết

quả mô hình. Cụ thể là thực thi của mô hình đề xuất với tập ràng buộc 614 cho kết

quả thấp nhất trong cả 3 trường hợp thực nghiệm với các tập huấn luyện khác nhau.

Thực nghiệm với tập ràng buộc 669 cho kết quả tốt hơn thực nghiệm với tập ràng

buộc 914 khi kết hợp với tập dữ liệu huấn luyện 1000 thực thể. Tuy nhiên khi kết

hợp với tập dữ liệu huấn luyện 1500 thực thể, thực nghiệm với tập ràng buộc 914

cho kết quả vượt hơn và là kết quả tốt nhất trong mọi thực nghiệm 90,14%. Có thể

lý giải vấn đề này là do khi sử dụng tập huấn luyện 1000 thực thể, tập ràng buộc

699 là phù hợp và đủ để thể hiện quan hệ thực thể trong tập dữ liệu huấn luyện, còn

tập ràng buộc 914 thực thể bị dư thừa, vượt ra ngoài các quan hệ thực thể trong tập

dữ liệu huấn luyện nên kết quả mô hình khi kết hợp với tập ràng buộc 699 cho kết

quả tốt hơn.

Nhưng khi tăng số lượng thực thể lên 1500 trong tập dữ liệu huấn luyện thì

tập ràng buộc 914 với số lượng ràng buộc lớn hơn sẽ biểu diễn tốt hơn quan hệ thực

100

95

90

85

thể tốt hơn, nên cho kết quả tốt nhất.

)

%

Tập 614 ràng buộc

80

Tập 669 ràng buộc

75

Tập 914 ràng buộc

( e r u s a e m - F

70

65

60

Tập huấn luyện 500

Tập huấn luyện 1000

Tập huấn luyện 1500

Hình 2.4 Kết quả mô hình gán nhãn bán giám sát CRFs kết hợp tiêu chuẩn kỳ vọng tổng quát trên các tập ràng buộc khác nhau

58

Kết quả tại Bảng 2.3 và Hình 2.4 cho thấy mô hình đề xuất đối sánh được

với các công trình nhận diện thực thể tiếng Việt công bố trước đó như mô hình

trong [104] đạt 87.75%, mô hình trong [52] đạt 83.39%, mô hình trong [13] đạt

83% trên cùng độ đo F1,… Mô hình trong [52] dựa trên một kho ngữ liệu vàng

NER (NER golden corpus) trong khi mô hình đề xuất đạt độ đo F1 là 90.14% không

dựa trên một tài nguyên dữ liệu nào khác.

2.2. Một mô hình phân lớp đơn nhãn trong hệ tư vấn xã hội

2.2.1. Sơ bộ về tư vấn xã hội

Theo F.Ricci và cộng sự [30], hệ tư vấn (recommender system hoặc

recommendation system, còn được gọi là hệ gợi ý) là công cụ phần mềm và kỹ thuật

cung cấp các tư vấn về các mục ví dụ như sản phẩm, dịch vụ,… cho một người

dùng. Các tư vấn này thường liên quan đến quá trình ra quyết định khác nhau của

người dùng nhất định như nên mua sản phẩm nào, nghe loại nhạc nào, đọc quyển

sách nào,…

Hệ tư vấn từ khi ra đời đã mang đến nhiều lợi ích cho người dùng bằng sự

thu thập và chọn lọc thông tin để đưa ra các gợi ý như hệ tư vấn trên các trang bán

hàng trực tuyến: Amazon.com, Youbtube, Netflix, Yahoo,…

Bài toán hệ tư vấn được mô tả như sau [70]:

Cho tập người dùng * + và tập mục * +

trong đó, n là số lượng người dùng và m là số lượng mục. Một người dùng sẽ đánh

giá điểm cho một tập con của tập mục. Ma trận đánh giá được xây dựng

trong đó là điểm số người dùng đánh giá mục , trường hợp chưa đánh giá

mục nào thì sử dụng dấu “?”. Nhiệm vụ của hệ tư vấn là dự đoán hạng mà người

dùng đánh giá mục chưa được đánh giá hoặc gợi ý một số mục cho người dùng.

Học máy SVM, lý thuyết xấp xỉ, các kỹ thuật dựa trên kinh nghiệm,… là các

kỹ thuật điển hình được sử dụng để dự đoán, ước lượng hạng cho các mục. Các kỹ

thuật được sử dụng trong hệ tư vấn thuộc ba nhóm là phương pháp dựa trên nội

dung, phương pháp lọc cộng tác và phương pháp kết hợp (lai) hai phương pháp trên,

trong đó, phương pháp lọc cộng tác được sử dụng rộng rãi hơn cả [70].

59

Như vậy, nói theo ngôn ngữ của bài toán phân lớp, tập các sản phẩm xem xét

là tập nhãn được xác định trước, việc tư vấn các sản phẩm là gán nhãn sản phẩm

cho đối tượng người dùng.

Hiện nay, tư vấn xã hội là một chủ đề nghiên cứu, triển khai nhận được sự

quan tâm đặc biệt do tính phổ biến rộng rãi của các mạng xã hội và tính phức tạp

trong cấu trúc và kỹ thuật của mạng xã hội so với hệ tư vấn truyền thống. Trong đó,

nhiều tiếp cận tập trung vào khai thác mối quan hệ giữa người dùng trong hệ thống

là đặc trưng cơ bản trong hệ tư vấn xã hội. Trong hệ tư vấn xã hội, dựa trên thông

tin về người dùng, lịch sử tìm kiếm và các tương tác của người dùng trong mạng xã

hội để đưa ra các tư vấn về lĩnh vực tìm kiếm.

Có hai định nghĩa cho “tư vấn xã hội” là định nghĩa theo nghĩa hẹp và định

nghĩa theo nghĩa rộng [70]. Theo nghĩa hẹp, hệ tư vấn xã hội là hệ tư vấn truyền

thống có sử dụng các quan hệ xã hội trực tuyến như quan hệ niềm tin, quan hệ bạn

bè, quan hệ thành viên, quan hệ theo dõi,… là một đầu vào bổ sung cho hệ thống.

Định nghĩa này giả định rằng người dùng có liên quan với nhau khi họ thiết lập mối

quan hệ xã hội. Khi đó, sở thích của người dùng có thể sẽ tương đương hoặc bị ảnh

hưởng bởi kết nối bạn bè của họ. Theo nghĩa rộng, hệ tư vấn xã hội đề cập tới (1) tư

vấn về đối tượng bất kỳ trong phương tiện xã hội: mục (như định nghĩa hẹp), thẻ

(tag), người, cộng đồng; (2) sử dụng không chỉ quan hệ xã hội mà mọi dữ liệu

phương tiện sẵn có như gán thẻ xã hội, tương tác người dùng, hành vi kích chuột....

Luận án nghiên cứu tiếp cận về tư vấn xã hội theo nghĩa hẹp. Khi đó, mối quan

hệ giữa người dùng được bổ sung vào hệ thống thông qua ma trận quan hệ

với nếu giữa người dùng và có quan hệ kết nối, ngược lại .

Các phương pháp đề xuất cho hệ tư vấn xã hội hầu hết dựa trên phương pháp

lọc cộng tác kết hợp với các phân tích mạng xã hội về thông tin người dùng. Do đó,

một khung hệ tư vấn xã hội tổng quát được xây dựng gồm hai phần: mô hình lọc

cộng tác và mô hình thông tin xã hội. Theo sự phân chia của hệ thống tư vấn dựa

trên lọc cộng tác, tiếp cận cho hệ tư vấn xã hội cũng chia thành hai nhóm chính bao

gồm hệ tư vấn xã hội dựa vào bộ nhớ và hệ tư vấn xã hội dựa trên mô hình [70].

60

- Tiếp cận hệ tư vấn xã hội sử dụng mô hình lọc cộng tác dựa trên bộ nhớ và

đặc biệt là phương pháp hướng người dùng. Trong đó, các đánh giá còn thiếu

của một người dùng đối với một sản phẩm được xác định thông qua đánh giá

của tập người dùng có liên quan đến người đó mà những đánh giá này thu

được từ cả thông tin đánh giá và thông tin xã hội. Hệ thống tư vấn xã hội

theo tiếp cận này thường theo hai bước. Bước 1: Tìm kiếm tập những người

dùng có liên quan đến người dùng đang xem xét. Bước 2: Kết hợp các đánh

giá từ các người dùng liên quan thu được ở bước 1 để suy diễn các đánh giá

về sản phẩm bị thiếu. Các đề xuất theo tiếp cận này sử dụng các kỹ thuật

khác nhau để thu được tập người dùng liên quan ở bước 1 như trung bình

trọng số dựa trên xã hội [101], [102], TidalTrust [58], MoleTrust [96], [97],

[98], TrustWalker [81].

- Tiếp cận hệ tư vấn xã hội dựa trên mô hình chọn các mô hình lọc cộng tác

dựa trên mô hình làm mô hình cơ bản, trong đó phổ biến là sử dụng các kỹ

thuật tìm thừa số ma trận [3], [17]. Tiếp cận này thừa hưởng được các ưu

điểm từ kỹ thuật tìm thừa số ma trận như: (1) áp dụng được nhiều phương

pháp tối ưu (phương pháp dựa trên độ nghiêng) với quy mô hàng nghìn

người dùng với hàng triệu quan hệ tin cậy; (2) kỹ thuật tìm thừa số ma trận

có thể biểu diễn xác suất với nhiễu Gauxơ; (3) cho phép linh hoạt bổ sung

các tri thức đã có. Sự khác biệt với hệ tư vấn truyền thống dựa trên kỹ thuật

tìm thừa số ma trận là mỗi mối quan hệ xã hội có ý nghĩa tác động khác nhau

đến quyết định của người dùng, một số công trình đề xuất gán trọng số cho

mỗi quan hệ xã hội xem xét, thông thường qua việc tính toán độ tương đồng

giữa các người dùng. Tùy thuộc vào cách thức định nghĩa sự đóng góp của

thông tin xã hội, các đề xuất cho tiếp cận này được chia thành ba nhóm

phương pháp: phương pháp đồng tìm thừa số (co-factorization methods)

[49], [69], phương pháp tích hợp (ensemble methods) [50], [68] và phương

pháp chính quy (regularization methods) [80], [48].

61

2.2.2. Mô hình đề xuất

Khảo sát các công trình liên quan về hệ thống tư vấn, nghiên cứu sinh nhận

thấy một số công trình sử dụng kết hợp các kỹ thuật về phân tích quan điểm cho kết

quả khả quan. Tác giả D.Yang và cộng sự [20] đề xuất mô hình tư vấn lai dựa trên

thông tin đăng ký và dữ liệu hỗ trợ thu được từ kỹ thuật phân tích quan điểm người

dùng, sau đó mở rộng tiếp cận tìm thừa số ma trận (matrix factorization) kết hợp

ảnh hưởng của sự tương đồng về mặt xã hội và sự tương đồng trong đặc điểm của

tuyến đường đưa vào hệ thống tư vấn địa điểm. P.V.Krishna và cộng sự [100] đề

xuất mô hình máy tự động học (Learning Automata) kết hợp với phân tích quan

điểm cho bài toán tư vấn địa điểm trong đó phân tích và tính điểm các hồi đáp của

người dùng về các địa điểm để nâng cao hiệu quả của mô hình. M.V.Tran và cộng

sự [90] cũng đề xuất một hệ tư vấn tin tức cho tiếng Việt sử dụng mô hình lọc dựa

trên nội dung kết hợp với kỹ thuật chủ đề ẩn phân tích sở thích trong thông tin hồ sơ

người dùng.

Như vậy, một số công trình kể trên đã kết hợp phân tích quan điểm trên các

thông tin liên quan của người dùng (như các hồi đáp, bình luận, hồ sơ người

dùng…) để khai thác đặc trưng cho mô hình. Mô hình đề xuất trong luận án cho hệ

tư vấn xã hội trong luận án thuộc nhóm tiếp cận sử dụng mô hình lọc cộng tác dựa

trên bộ nhớ với một vài điểm cụ thể hóa khác biệt.

Một là ở bước chọn tập người dùng có liên quan: Khác với các công trình

nêu ở 2.2.1, mô hình này đề xuất tập người dùng liên quan dựa trên việc thu thập dữ

liệu trực tiếp từ website của nhà cung cấp sản phẩm, trong đó tập người dùng tham

gia đánh giá sản phẩm chính là những người dùng có cùng sự quan tâm tới sản

phẩm đó. Trong số tập người dùng thu được, mô hình tiếp tục tính toán sự tương

đồng giữa các người dùng để tìm ra tập con người dùng tin cậy có ảnh hưởng nhất

đến quyết định của người dùng đang xem xét. Hai là, mô hình đã kết hợp sử dụng

phương pháp phân tích quan điểm người dùng trên các bình luận về sản phẩm với

các trọng số khác nhau để tạo danh sách các sản phẩm ưa thích. Ba là, mô hình đã

62

xem xét đến sự ảnh hưởng của các loại đặc trưng khác nhau bao gồm đặc trưng về

tiểu sử và đặc trưng xã hội đến quyết định của người dùng.

Trong mô hình, tập sản phẩm xem xét được coi là tập nhãn được xác định trước,

việc tư vấn sản phẩm chính là gán cho người dùng một sản phẩm có khả năng nhất

trong tập các sản phẩm xem xét. Bài toán tư vấn xã hội được trình bày như dưới đây.

Đầu vào:

- D: Tập dữ liệu là tập các bình luận của người dùng về sản phẩm. (Sau khi

biến đổi tập dữ liệu D thành tập dữ liệu về người dung, tiến hành chia tập dữ

liệu về người dùng thành tập Dtrain làm dữ liệu huấn luyện và tập Dtest làm dữ

liệu kiểm thử.

- L: Danh sách các sản phẩm quan tâm

Đầu ra:

- Hệ tư vấn các sản phẩm cho người dùng mới M:DtrainL sao cho M được

đánh giá kiểm thử trên tập ví dụ mẫu Dtest đạt kết quả cao

Quy trình giải quyết bài toán theo mô hình đề xuất được trình bày ở Quy

trình 2.2

Pha 1: Xây dựng tập dữ liệu về người dùng

- Bước 1: Lựa chọn các danh mục sản phẩm để tư vấn – tập nhãn L - Bước 2: Phân tích quan điểm người dùng trên tập dữ liệu D để tìm ra tập

sản phẩm người dùng quan tâm

Pha 2: Xây dựng hệ thống tư vấn cho người dùng mới về sản phẩm

- Bước 1: Tập dữ liệu về người dùng được chia ngẫu nhiên thành 2 tập dữ

liệu huấn luyện (Dtrain) và tập dữ liệu kiểm thử (Dtest)

- Bước 2: Xác định độ tương đồng trên tập người dùng Dtrain và mỗi người

dùng trên tập Dtest để tìm ra tập người dùng tin cậy trên Dtrain.

- Bước 3: Xác định tập sản phẩm ưa thích của tập người dùng tin cậy trên

Dtrain để tư vấn cho người dùng mới. - Bước 4: Đánh giá hiệu quả của hệ tư vấn.

Quy trình 2.2 Quy trình giải quyết bài toán

63

Hệ thống đưa ra lời tư vấn cho người dùng mới khi tìm kiếm thông tin về

sản phẩm trên trang Facebook của nhà cung cấp sản phẩm thi hành Quy trình 2.1

được thể hiện tại Hình 2.5 Mô hình hệ thống tư vấn xã hội. Mô hình đề xuất gồm 2

pha chính:

Pha 1: Xây dựng tập dữ liệu về người dùng bao gồm tập các sản phẩm mà

người dùng quan tâm

Bước 1: Danh sách các sản phẩm điện thoại di động được xây dựng dựa trên

các thương hiệu nổi tiếng như Iphone, Samsung, Nokia, Oppo, Sony,…

Bước 2: Các dữ liệu được tải về từ Facebook được trích xuất ra thông tin về

người dùng và các bình luận liên quan đến danh sách sản phẩm.

Hình 2.5 Mô hình hệ thống tư vấn xã hội

64

Dữ liệu được đưa qua module phân tích quan điểm dựa trên tập những bình

luận dựa trên 3 tập từ điển về quan điểm như trong ví dụ sau:

 BAD_SENTIMENT = {“chả”, “chê”, “xấu”, “tệ”, “kém”, “tồi”, “chán”,

“ghét”, “thua”, “chậm”}

 GOOD_SENTIMENT = {“ngon”, “tốt”, “bền”, “được”, “chuẩn”, “thích”,

“yêu”, “nhanh”, “khỏe”, “hay”, “tiện”}

 WEIGHT_SENTIMENT = {“ghê”, “hơn”, “khá”, “nhất”, “rất”, “được”,

“hơi”, “tạm”}

Sau bước này thu được tập dữ về tập người dùng và danh sách 4 sản phẩm

mà người đó quan tâm nhất.

Pha 2: Xây dựng hệ thống tư vấn xã hội dựa trên mối quan hệ giữa người dùng

Bước 1: Dữ liệu về người dùng được chia ngẫu nhiên thành tập dữ liệu huấn

luyện Dtrain và tập dữ liệu kiểm thử Dtest theo hướng đánh giá kiểm thử chéo 4-fold

(Trong đó, ba phần dữ liệu làm tập dữ liệu huấn luyện và một phần làm dữ liệu

kiểm thử). Theo đó, mỗi người dùng trong tập Dtest được coi như một người dùng

mới cần tư vấn. Tập sản phẩm do mô hình tư vấn sẽ được so sánh với tập sản phẩm

trong thông tin người dùng để đánh giá hiệu quả mô hình.

Bước 2: Xác định mối quan hệ giữa người dùng dựa trên độ tương đồng để

tìm ra tập người dùng tin cậy. Đây là những người dùng có quan hệ gần gũi với

người dùng mới dựa trên độ đo về các đặc trưng. Có nhiều cách thiết lập độ tương

đồng, trong công trình này, nhóm tác giả sử dụng độ đo Cosin trên tập đặc trưng về

người dùng bao gồm: giới tính, năm sinh, thành phố, giáo dục, cơ quan, sở thích…

Trước đó, các đặc trưng được ánh xạ theo mã và kiểu giá trị thuộc tính, ví dụ:

- Đặc trưng giới tính bao gồm {nam, nữ}  {1,0}

- Đặc trưng tuổi được phân chia theo nhóm {0-10, 10-20, 20-30,…} 

{1,2,3,…}

Bước 3: Sau khi thu được tập người dùng tin cậy, thực hiện thống kê trên tập dữ

liệu để đưa ra sản phẩm có tần suất xuất hiện lớn nhất trong nhóm người này. Những

sản phẩm này được coi là các tư vấn của hệ thống do người dùng tin cậy đề xuất.

65

Bước 4: Đánh giá hiệu quả mô hình bằng cách so sánh tập sản phẩn do người

dùng tin cậy tư vấn ở Bước 2 và tập sản phẩm người dùng yêu thích khi phân tích

thông tin người dùng.

Để đánh giá hiệu quả mô hình, luận án sử dụng các độ đo thông tin về độ

chính xác xếp hạng bao gồm: độ chính xác bậc k (P@K); độ chính xác trung bình

AP và độ chính xác trung bình bình quân MAP, trong đó:

- P@K: là độ chính xác của K đối tượng đầu bảng xếp hạng; Gọi Match@K

là số đối tượng đúng ở K vị trí đầu tiên, khi đó độ chính xác bậc K sẽ được

tính như sau:

(2.9)

- AP : độ chính xác trung bình là một độ đo kết hợp độ chính xác ở các mức

bao phủ. Xét một tập gồm N truy vấn, độ chính xác của truy vấn thứ i ký

hiệu là APi , gọi mi số đối tượng liên quan đến truy vấn thứ i, khi đó công

thức tính độ chính xác trung bình như sau:

∑ (2.10)

- MAP: Độ chính xác trung bình bình quân trên N truy vấn. Một hệ thống

tìm kiếm được chạy thử nghiệm trên nhiều truy vấn, mỗi truy vấn có một

thứ tự xếp hạng kết quả tương ứng. Do đó, MAP được định nghĩa là bình

quân của độ chính xác trung bình của tất cả các truy vấn trên tập kiểm thử.

(2.11)

2.2.3. Ứng dụng mô hình

Mô hình trên được ứng dụng để xây dựng hệ thống tư vấn cho người dùng

khi tìm kiếm sản phẩm điện thoại di dộng cho khách hàng trên trang facebook của

nhà cung cấp.

Luận án xây dựng tập dữ liệu như sau:

- Chọn 7 thương hiệu sản phẩm điện thoại nổi tiếng bao gồm: iPhone,

66

Xperia Z3, Blackberry, Lumia 730, Z3, Lumia 830, Galaxy Alpha.

- Tập dữ liệu về người dùng bao gồm 2904 người dùng với các mức độ quan

tâm đến số lượng sản phẩm khác nhau. Trong đó, thiết lập cơ sở dữ liệu

người dùng bao gồm 3 sản phẩm yêu thích nhất và mô hình cũng chọn ba

sản phẩm do hệ tư vấn cung cấp để so sánh.

Để xác định mức độ ảnh hưởng của tập đặc trưng về người dùng đến quan hệ

và kết quả tư vấn, thực hiện thực nghiệm với các tập đặc trưng khác nhau bao gồm

đặc trưng về tiểu sử và đặc trưng xã hội như Bảng 2.4.

Các đặc trưng về tiểu sử Location (Vị trí) Hometown (Quê quán) Work (Job) (Công việc) Education (Giáo dục) School (Trường học) Gender (Giới tính) Age (Tuổi) Relation_status (Trang thái quan hệ) Các đặc trưng xã hội Interest (Sở thích) Favourit_teams (Đội bóng yêu thích) Favourit_athletes (Vận động viên yêu thích Music (Âm nhạc yêu thích) Films (Phim yêu thích) Television (Tivi) Games (Game yêu thích) Inspirational_People (người truyền cảm hứng) Book (Sách yêu thích) Facebook_page (Trang Facebook)

Bảng 2.4 Bảng đặc trưng tiểu sử và đặc trưng xã hội của người dùng

Kết quả thực nghiệm được thể hiện tại Bảng 2.5. Các thực nghiệm cho thấy,

các đặc trưng xã hội ảnh hưởng nhiều hơn đến mối tương đồng giữa người dùng nên

có tác dụng lớn hơn trong hệ thống tư vấn. Việc kết hợp cả hai bộ đặc trưng cho kết

quả tốt nhất trong các mẫu thực nghiệm.

Features P@1 P@2 P@3 MAP@3

Đặc trưng tiểu sử 0.416 0.385 0.353 0.377

Đặc trưng xã hội 0.456 0.429 0.407 0.424

Kết hợp 2 loại đặc trưng 0.512 0.487 0.446 0.481

Bảng 2.5 Kết quả thực nghiệm

67

Đồng thời, tại mỗi mẫu thực nghiệm, độ chính xác bậc thấp luôn cho kết quả

tốt hơn độ chính xác bậc cao. Điều này thể hiện kết quả tư vấn với số lượng ít sản

phẩm cho kết quả tốt hơn tư vấn nhiều sản phẩm.

2.3. Kết luận chương

Chương này trình bày về hai mô hình phân lớp đơn nhãn do luận án đề xuất

bao gồm mô hình gán nhãn thực thể có tên và mô hình hệ tư vấn xã hội. Hai kết quả

này này là việc vận dụng, thừa kế và phát triển các nghiên cứu về phân lớp đơn

nhãn. Trong đó, mô hình gán nhãn thực thể có tên là mô hình bán giám sát vận dụng

mô hình trường ngẫu nhiên có điều kiện với tham số ước lượng mô hình được xây

dựng từ tiêu chuẩn kỳ vọng tổng quát trên tập ràng buộc về phân phối xác xuất của

tập nhãn cho trước một đặc trưng thu được từ tri thức tiền nghiệm ước lượng từ dữ

liệu. Mô hình đề xuất sử dụng mô hình chủ đề ẩn LDA trên kho dữ liệu thuộc miền

ứng dụng để xây dựng tập ràng buộc. Mô hình hệ tư vấn xã hội đề xuất theo tiếp cận

sử dụng mô hình lọc cộng tác dựa trên bộ nhớ và đặc biệt là phương pháp hướng

người dùng với đóng góp chính từ việc tìm kiếm tập người dùng tin cậy theo tiếp

cận khai phá quan điểm người dùng về sản phẩm và mối quan hệ người dùng trên

mạng xã hội dựa trên các đặc trưng người dùng về tiểu sử và xã hội.

Kỹ thuật sử dụng tiêu chuẩn kỳ vọng tổng quát trên cơ sở xây dựng tập ràng

buộc về phân phối xác suất tập thực thể là định hướng và cơ sở ý tưởng cho việc

xây dựng phân phối chủ đề ẩn, khai thác thông tin ngữ nghĩa ẩn, làm giàu tập đặc

trưng cho mô hình được sử dụng ở chương tiếp theo.

Ngoài ra, việc nghiên cứu tư vấn danh sách sản phẩm trong tập sản phẩm cho

trước trong mô hình hệ tư vấn xã hội có thể mở rộng lên mức tư vấn nhiều sản

phẩm cho người dùng. Theo cách đó, có thể coi bài toán tư vấn là bài toán phân lớp

đa nhãn khi có thể đồng thời tư vấn nhiều sản phẩm theo thứ tự ưu tiên.

Trong các chương tiếp theo, luận án tiếp tục nghiên cứu các đặc điểm trên

miền dữ liệu đa nhãn và đề xuất các tiếp cận mới cho bài toán phân lớp đa nhãn

theo hướng khai thác các biểu diễn dữ liệu, làm giàu tập đặc trưng cho mô hình

phân lớp và xây dựng kỹ thuật phân lớp đa nhãn bán giám sát khai thác đặc trưng

68

riêng nhãn và tận dụng nguồn tài nguyên không nhãn phong phú để nâng cao hiệu

quả của phân lớp đa nhãn.

69

Chương 3. PHÂN LỚP ĐA NHÃN VĂN BẢN DỰA TRÊN

BIỂU DIỄN DỮ LIỆU THEO CHỦ ĐỀ ẨN

Xây dựng tập đặc trưng là một bước quan trọng trong xây dựng mô hình.

Một tập đặc trưng tốt sẽ thể hiện được các đặc điểm đặc trưng nhất và không chứa

nhiễu sẽ giúp nâng cao hiệu quả phân lớp. Chương này sẽ trình bày hai phương

pháp biểu diễn dữ liệu dựa trên mô hình chủ đề ẩn Latent Dirichlet Allocation

(LDA) [15], [16] làm giàu thêm các đặc trưng hữu ích cho mô hình và biểu diễn dữ

liệu theo mô hình đồ thị khoảng cách. Với giả thiết là mỗi văn bản được tạo ra bằng

việc kết hợp của nhiều chủ đề ẩn và mỗi chủ đề ẩn là một phân phối trên các từ. Mô

hình chủ đề ẩn LDA cung cấp một phương pháp khai thác ngữ nghĩa ẩn trong văn

bản để làm giàu thêm đặc trưng cho mô hình. Trên cơ sở dữ liệu được đề xuất về

tập các đánh giá của khách hàng về khách sạn Việt Nam, một mô hình phân lớp đa

nhãn được đề xuất dựa trên tập đặc trưng được làm giàu từ mô hình chủ đề ẩn LDA

và lựa chọn dựa trên thông tin tương hỗ MI để làm tăng hiệu quả mô hình phân lớp.

Kết quả nghiên cứu này được công bố trong [PTNgan3].

Phương pháp biểu diễn theo mô hình không gian vectơ tuy được sử dụng

rộng rãi nhưng vẫn tồn tại những nhược điểm. C.C. Aggarwal và P. Zhao [10] đã đề

xuất một phương pháp biểu diễn dữ liệu mới theo mô hình đồ thị khoảng cách nhằm

khắc phục những tồn tại của mô hình không gian vectơ và khai thác được các đặc

trưng về thứ bậc của các thành phần dữ liệu. Cách tiếp cận kết hợp mô hình chủ đề

ẩn LDA và mô hình biểu diễn dữ liệu theo đồ thị khoảng cách được đề xuất nhằm

khai thác các thông tin ngữ nghĩa ẩn phục vụ cho mô hình phân lớp. Kết quả của mô

hình đề xuất được trình bày trong [PTNgan04].

3.1. Phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo chủ đề ẩn

3.1.1. Biểu diễn dữ liệu theo chủ đề ẩn

Mô hình chủ đề là mô hình học máy không giám sát trong đó giả thiết rằng

mỗi văn bản được tạo ra là một sự kết hợp của nhiều chủ đề và mỗi chủ đề là một

phân phối trên các từ. Mô hình chủ đề về cơ bản là mô hình sinh văn bản, nó quan

70

tâm quá trình xác suất mà văn bản được tạo ra. Đầu ra của mô hình chủ đề là các cụm

từ. Mỗi cụm từ là dạng của một chủ đề và phân phối xác suất của cụm trên các từ.

Trong quá trình mô hình hóa xác suất, dữ liệu được xem như tạo ra từ quá trình sinh

trong đó có chứa các biến ẩn. Quá trình sinh này định nghĩa một phân bố xác suất

đồng thời trên cả biến quan sát và biến ẩn. Phân bố có điều kiện của biến ẩn cho trên

các biến quan sát được tính thông qua phân tích dữ liệu sử dụng phân bố đồng thời đó.

Mô hình LDA được D.M. Blei và cộng sự [15] đề xuất đầu tiên vào năm 2003,

trong đó đưa ra giả thiết về quá trình sinh ngẫu nhiên văn bản. Khái niệm chủ đề là

một phân bố xác suất trên tập từ vựng cố định. Trong giả thiết sinh văn bản thì các

chủ đề đã được tồn tại trước quá trình sinh. Ý tưởng của mô hình là mỗi tài liệu là sự

trộn lẫn của nhiều chủ đề, mỗi chủ đề là một phân phối xác suất trên tập các từ.

Ví dụ, xem xét một bài báo ở Hình 3.1 có tiêu đề “Seeking Life’s Bare

(Genetic) Necessities”, bài báo trình bày về ý tưởng sử dụng phân tích dữ liệu để

xác định số gen mà một sinh vật cần để sống sót. Nếu làm thủ công, có thể đánh dấu

các từ khác nhau được sử dụng trong bài báo theo màu sắc: Đánh dấu màu xanh cho

các từ về phân tích dữ liệu như “computer” và “prediction”; đánh dấu màu hồng cho

các từ về sinh vật học tiến hóa như “life” và “organism”; đánh dấu màu vàng cho

các từ gen như “sequenced” và “genes”. Việc đánh dấu này cho thấy bài báo là sự

pha trộn các chủ đề gen, phân tích dữ liệu và sinh vật học tiến hóa theo các phân bố

khác nhau. Xét một cách hình thức, mỗi chủ đề là một phân bố trên tập từ vựng cố

định thì chủ đề gen sẽ chứa các từ về gen với xác suất cao, chủ đề về sinh vật học

tiến hóa sẽ chứa các từ về sinh vật học tiến hóa với xác suất cao… Ngoài ra việc xác

định được các chủ đề pha trộn trong bài báo cũng giúp cho việc phân bài báo này

vào các tập bài báo khoa học. Việc sử dụng mô hình LDA sẽ giúp thực hiện được

các công việc này một cách tự động.

Về bản chất, LDA là một mô hình sinh 3 mức:

- Mức tập dữ liệu (corpus level)

- Mức tài liệu (document level)

- Mức từ ( word level)

71

Hình 3.1 Phân phối các chủ đề trong bài báo, tập các từ và xác suất các từ trong chủ đề [16]

Trong đó, mỗi phần của mô hình được coi như một mô hình trộn hữu hạn

trên cơ sở tập các xác suất của chủ đề. Các khái niệm sử dụng trong mô hình

- Từ: được lấy từ tập từ vựng * + - Tài liệu: là một dãy các từ ( ) - Tập dữ liệu: là một tập hợp của các tài liệu * + - Chủ đề: là một phân phối xác suất trên tập các từ

Cho một tập dữ liệu gồm M tài liệu * +, trong đó tài liệu m chứa từ lấy từ tập từ vựng * +. Mục tiêu của LDA là tìm một cấu

trúc ẩn của các chủ đề hàm chứa ý nghĩa của văn bản. Mặc dù thuật ngữ “chủ đề ẩn”

đã được đề cập đến trong các mô hình LSA và pLSA, LDA cung cấp một mô hình

sinh đầy đủ cho kết quả tốt hơn các tiếp cận trước đó.

Xem xét biểu diễn mô hình đồ họa của LDA ở Hình 3.2, quá trình LDA sinh

được mô tả như sau:

một tập các từ được phân bố trong tài liệu ⃗

, một phân phối chủ đề ⃗ được tạo ra và từ đây các

- Đối với mỗi tài liệu ⃗

từ trên mỗi chủ đề được xác định.

- Sinh ra chỉ số chủ đề dựa vào phân phối chủ đề

- Từ w được sinh ra dựa vào phân phối từ ⃗⃗ . Các chủ đề ⃗⃗ được lấy mẫu

một lần cho toàn bộ tập dữ liệu.

72

Hình 3.2 Mô hình sinh trong LDA [15]

Thuật toán sinh trong LDA được thể hiện như sau:

for tất cả chủ đề , - do

Sinh ra phân phối từ ⃗⃗ ( )

end for

for tất cả tài liệu , - do

Sinh ra phân phối chủ đề ⃗m ~ Dir ( )

Sinh ra độ dài tài liệu ( )

for tất cả các từ , - do Sinh ra chỉ số chủ đề ( ⃗ )

Sinh ra từ ( ⃗⃗ )

end for

end for

Hình 3.3 Thuật toán sinh trong mô hình LDA

Chú thích: Dir, Poiss và Mult lần lượt là các phân phối Dirichlet, Poisson và

Multinomial.

Các tham số và các biến trong thuật toán như sau:

- M là số tài liệu trong tập dữ liệu

- K là số chủ đề ẩn

73

- V là độ lớn của tập từ vựng

- và : tham số mức tập hợp tập dữ liệu – là các tham số của phân phối

Dirichlet.

- ⃗m: phân bố chủ đề trên tài liệu m (tham số mức tài liệu), nó biểu diễn tham

: ma trận

số cho ( ), thành phần trộn chủ đề cho tài liệu m

- Và Θ = * ⃗ + - m,n: chỉ số chủ đề của từ thứ n trong tài liệu m

- ⃗⃗ phân phối các từ cho chủ đề thứ k, nó biểu diễn tham số cho ( ),

thành phần trộn của chủ đề k : ma trận - Φ = * ⃗⃗ + - m,n: từ thứ n của văn bản m - số lượng các tài liệu - m: số lượng từ trong tài liệu m (độ dài văn bản sau khi đã loại bỏ các từ dừng)

Các phân phối được sử dụng trong mô hình

-

Phân phối Dirichlet: Phân phối Dirichlet của biến ngẫu nhiên với tham số ( ) ( ) ∑

(3.1)

( ) ( )

( )

Với ( ) là hàm beta, được triển khai dựa trên hàm gamma:

∏ ( ) (∑ )

(3.2)

Hàm gamma được định nghĩa như sau:

( ) ∫

(3.3)

Với là số phức có phần thực dương ( ( ) )

-

Phân phối đa thức (Multinomial) là trường hợp tổng quát của phân phối nhị phân. Phân phối đa thức của biến ngẫu nhiên ( ) với tham số n là số đặc trưng, N là số lần thực hiện phép thử, ( ) ( ) là các xác suất của phép thử Bernoulli,

74

: ∑ )

(3.4)

( )

∑ {

Luận án đã khai thác thông tin ngữ nghĩa ẩn từ mô hình sinh của mô hình chủ

đề ẩn LDA trên các mức tài liệu và mức từ nhằm bổ sung các đặc trưng tăng cường

biểu diễn dữ liệu cho các mô hình phân lớp trong phần tiếp theo.

3.1.2. Mô hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo chủ đề ẩn

Hầu hết các ứng dụng học máy nói chung và bài toán phân lớp nói riêng xây

dựng tập đặc trưng theo mô hình không gian vectơ, trong đó mỗi văn bản được biểu

diễn thành một vectơ có chiều dài cố định và mỗi thành phần vectơ được xác định là

giá trị của một đặc trưng xác định trước. Trong ứng dụng phân lớp văn bản, đặc

trưng được xét ở đây thông thường là một từ trong tập từ vựng xây dựng trên toàn

bộ tập văn bản. Một số kiểu đặc trưng về từ phổ biến như đặc trưng nhị phân (xuất

hiện/không xuất hiện), đặc trưng về độ đo tần số xuất hiện của cụm từ trong văn bản

(Term Frequency – TF), đặc trưng về độ đo nghịch đảo sự phổ biến của một từ

trong một tập văn bản (Inverse Document Frequency – IDF), và đặc trưng về độ đo

đánh giá ý nghĩa, độ quan trọng của một cụm từ với văn bản, lớp (TFIDF). Trong

đó, TFIDF là độ đo được sử dụng phổ biến. Nguyên lý cơ bản của TFIDF là độ

quan trọng của một từ sẽ tăng lên cùng với tần số xuất hiện của nó trong văn bản và

sẽ giảm xuống nếu từ đó xuất hiện trong nhiều văn bản khác.

Theo T. N. Rubin và cộng sự [117], tiếp cận khai thác mô hình chủ đề ẩn

LDA theo hướng thích nghi mô hình không giám sát cho bài toán phân lớp giám sát

từ phân lớp đơn nhãn đến phân lớp đa nhãn đang được quan tâm và ứng dụng trong

nhiều bài toán học máy. Ở đây, luận án chỉ đề cập đến các ứng dụng của LDA trong

phân lớp đa nhãn. D.Ramage và cộng sự [19] đã đề xuất một tiếp cận sử dụng mô

hình LDA có gán nhãn L-LDA (Labeled LDA) theo hướng biến đổi mô hình không

giám sát LDA để thích nghi cho phân lớp đa nhãn. T.N. Rubin và cộng sự [117]

75

cũng đề xuất một bộ mô hình sử dụng mô hình LDA (Flat-LDA, Prior-LDA và

Dependency-LDA) để khai thác các thông tin về nhãn như tần suất nhãn và mối

quan hệ phụ thuộc giữa các nhãn.

Luận án đề xuất một tiếp cận sử dụng mô hình LDA truyền thống ở mức tài

liệu với mục đích bổ sung các đặc trưng phân phối xác suất tập chủ đề ẩn trên mỗi

văn bản cho mô hình phân lớp (điều này thể hiện ở Bước 2 của Pha 1 trong Quy

trình giải quyết bài toán), sau đó vận dụng các thuật toán phân lớp đã biết. Các đặc

trưng được bổ sung từ mô hình chủ đề ẩn LDA có chất lượng tốt, đặc biệt là trong

việc thực thi trên tài liệu không nằm trong tập dữ liệu học, từ đó có thể cải tiến kết

quả của bộ phân lớp dữ liệu đa nhãn. Hướng tiếp cận này, sau đó cũng được một số

tác giả sử dụng và cải tiến với kết quả khả quan. A.H.Razavi và D.Inkpen [2] cũng

bổ sung đặc trưng về phân phối xác suất chủ đề ẩn trên mỗi văn bản nhưng có sự cải

tiến trong việc sử dụng đa bậc mô hình LDA để làm mịn phân phối xác suất thu

được. J.V. Carrera-Trejo và cộng sự [71] cũng sử dụng ý tưởng kết hợp đặc trưng

phân phối xác suất chủ đề ẩn có sự bổ sung các đặc trưng unigram (TFIDF), đặc

trưng bigrams và unigrams.

Các bước giải quyết bài toán được trình bày ở Quy trình 3.1 và mô hình của

phương pháp đề xuất thể hiện ở Hình 3.4

Đầu vào:

- : tập dữ liệu văn bản đa nhãn liên quan đến chủ đề thuộc miền ứng dụng,

chia thành 2 tập Dtrain làm tập dữ liệu huấn luyện và tập Dtest làm tập dữ liệu

kiểm thử.

- DU: tập dữ liệu không nhãn liên quan đến chủ đề thuộc miền ứng dụng để

xây dựng mô hình chủ đề ẩn.

- L: tập nhãn cho trước gồm q nhãn

- Mô hình phân lớp đa nhãn M sao cho M được đánh giá kiểm thử đạt hiệu quả

Đầu ra:

cao.

76

- Bước 1: Tiền xử lý dữ liệu: tách câu, tách từ, loại bỏ từ dừng, chuẩn hóa dữ

Pha 1: Huấn luyện mô hình

- Bước 2: Xây dựng mô hình chủ đề ẩn LDA trên tập DU và tập đặc trưng về

liệu và biểu diễn dữ liệu theo đặc trưng TFIDF cho tập Dtrain

- Bước 3: Lựa chọn đặc trưng dựa trên phương pháp thông tin tương hỗ

phân phối xác suất chủ đề ẩn trên mỗi câu của tập Dtrain.

(Mutual Information – MI) do Doquire và Verleysen [34] đề xuất để rút gọn

- Bước 4: Xây dựng bộ phân lớp đa nhãn

và tìm ra tập đặc trưng tiêu biểu nhất cho quá trình phân lớp.

- Bước 1: Tiền xử lý dữ liệu kiểm thử Dtest

- Bước 2: Xây dựng tập đặc trưng cho dữ liệu kiểm thử Dtest

- Bước 3: Phân lớp sử dụng bộ phân lớp đa nhãn ở Pha 1

Pha 2: Phân lớp đa nhãn sử dụng mô hình huấn luyện

Quy trình 3.1 Quy trình giải quyết bài toán

3.1.2.1. Pha 1 – Huấn luyện mô hình

a. Quá trình tiền xử lý dữ liệu

Quá trình tiền xử lý dữ liệu gồm các bước sau:

- Bước tách câu: Dữ liệu được đưa qua module tách câu để thu được tập các câu.

Quá trình biểu diễn dữ liệu và phân lớp được thực hiện trên tập các câu.

Dữ liệu thu được được đưa qua module tách câu để lọc dữ liệu, loại bỏ câu

cảm thán và câu không có nghĩa. Ví dụ, nội dung của một nhận xét của khách hàng

trong lĩnh vực khách sạn sau khi đi qua bộ tách câu như sau:

Tôi đã ở đây 3 đêm, đó là khoảng thời gian tuyệt vời, tiện nghi và thoải mái. Giá cả thì tuyệt vời, trên cả sự mong đợi, mà chất lượng phòng thì không có gì để bàn cãi. Cảm ơn!

Sau đó dữ liệu được loại bỏ những câu cảm thán, câu không có ý nghĩa là những

câu có dấu kết thúc câu là chấm than. Kết quả thu được như sau:

77

Tôi đã ở đây 3 đêm, đó là khoảng thời gian tuyệt vời, tiện nghi và thoải mái.

Giá cả thì tuyệt vời, trên cả sự mong đợi, mà chất lượng phòng thì không có gì để bàn cãi.

Hình 3.4 Mô hình chủ đề ẩn cho bài toán phân lớp đa nhãn

- Bước tách từ: Mỗi câu sẽ được đưa qua module tách từ để thu được tập các

từ trong câu. Đây là cơ sở cho việc xử lý và xây dựng các tập đặc trưng trên đơn vị

dữ liệu là từ.

Mỗi câu sẽ được đưa qua module tách từ để thu được tập các từ trong câu như sau:

78

Tôi đã ở đây 3 đêm, đó là khoảng thời_gian tuyệt_vời, tiện_nghi và thoải_mái.

Giá_cả thì tuyệt_vời, trên cả sự mong_đợi, mà chất_lượng phòng thì không có gì để bàn_cãi.

- Loại bỏ từ dừng: Từ dừng là các từ mà không có ý nghĩa hoàn chỉnh, ví dụ

như từ “và, như, là,…”. Việc phân lớp dữ liệu trên các từ dừng là hoàn toàn vô

nghĩa, bởi vậy các từ dừng sẽ bị loại bỏ khỏi dữ liệu. Sau khi loại bỏ các từ dừng, cơ

sở dữ liệu sẽ nhỏ hơn, các thuật toán áp dụng sẽ trở nên dễ dàng hơn, chính xác hơn.

Loại bỏ từ dừng là các từ không có ý nghĩa hoàn chỉnh như: “và”, “là”, “đã”,

“để”, “mà”…

Tôi ở 3 đêm, khoảng thời_gian tuyệt_vời, tiện_nghi thoải_mái.

Giá_cả tuyệt_vời, trên cả sự mong_đợi, chất_lượng phòng không có gì bàn_cãi.

- Chuẩn hóa dữ liệu: Các từ viết sai chỉnh tả sẽ được chuyển về dạng đúng

chính tả Tiếng Việt dựa trên phương pháp so sánh từ điển n-gram.

- Bước biểu diễn dữ liệu: Các câu được được biểu diễn theo đặc trưng TFIDF

– đây là một kỹ thuật thống kê đánh giá ý nghĩa, độ quan trọng của một cụm từ đối

với một văn bản hoặc một lớp. Độ đo TFIDF được xây dựng như sau:

o Độ đo tần số (Term Frequency – TF): đo tần suất xuất hiện của cụm

từ trong một văn bản

(3.5)

Trong đó: là tần suất xuất hiện của từ khóa trong tài liệu j

o Độ đo nghịch đảo sự phổ biến của một từ trong một tập văn bản

(Inverse Document Frequency – IDF): là độ đo tổng quát độ quan

(3.6)

trọng của cụm từ.

* +

Trong đó: |D| là số lượng tài liệu trong tập D * + là số lượng tài liệu mà từ khóa xuất hiện

79

b. Xây dựng mô hình chủ đề ẩn LDA và tập đặc trưng chủ đề ẩn

o Từ đó, độ đo TFIDF được tính bằng công thức:

LDA là kết quả trộn lẫn chủ đề trong tài liệu của mô hình. Cho trước một tập

các văn bản sẽ khải quát được mô hình chủ đề sinh ra tập văn bản trên bao gồm: tìm

phân phối xác suất tập từ trên mỗi chủ đề, tìm phân phối chủ đề ở mỗi tài liệu. Ở

đây, tập dữ liệu được xây dựng từ các trang web thuộc các website về du lịch và

khách sạn của Việt Nam (tập dữ liệu chuyên ngành). Các trang web sau khi lấy về

được làm sạch như loại bỏ các thẻ html, các thông tin dưới dạng hình ảnh, âm

thanh, thông tin không nằm trong nội dung của trang web,…

Tiếp theo, mô hình LDA được thực thi trên tập dữ liệu xây dựng được nhằm

khai thác các thông tin tiềm ẩn về tập các chủ đề ẩn trên tập dữ liệu và phân phối

chủ đề ẩn trên tài liệu, phân phối xác suất của tập từ trên mỗi chủ đề. Mô hình LDA

được thực thi với các tham số chủ đề khác nhau sẽ cho các tập thuộc tính khác nhau

là cơ sở cho các thực nghiệm, nhằm tìm ra những trường hợp tối ưu trên mối quan

hệ giữa chủ đề và mô hình.

Luận án đề xuất tiếp cận khai thác đặc trưng về phân phối xác suất của các

chủ đề trên mỗi tài liệu bổ sung vào tập đặc trưng TFIDF tương ứng của tài liệu.

Giả sử, lấy chủ đề từ tập dữ liệu học. Với mỗi tài liệu , tiến hành tính xác

suất để tài liệu thuộc vào chủ đề là ( ), với .

Khi đó, tập đặc trưng bổ sung từ mô hình chủ đề ẩn LDA được xác định như sau:

( ) , -

Sau bước này, kết hợp vectơ TFIDF và vectơ đặc trưng chủ đề ẩn ở trên, thu

được vectơ đại diện cho dữ liệu V(d):

( ) ( ( ) ( ) ( ) )

Áp dụng mô hình LDA trên tập dữ liệu sử dụng công cụ GibbsLDA++ sẽ thu

được tập các chủ đề ẩn và các từ khóa đại diện cho mỗi chủ đề. Để biểu diễn tác

động của mô hình LDA trong việc làm giàu đặc trưng cho dữ liệu, chúng tôi đã cấu

hình mô hình LDA với số lượng chủ đề ẩn khác nhau như 15, 20 và 25 chủ đề.

80

Tiếp đó, dữ liệu huấn luyện sẽ được đưa qua mô hình LDA ở trên để thu

được đặc trưng là phân phối xác suất của các chủ đề ẩn trên mỗi tài liệu. Ví dụ, xét

tài liệu đầu vào là d, phân phối xác suất của tài liệu d trên các chủ đề ẩn được xác

định như sau:

Xác suất Từ khóa đại diện

Chủ đề Topic 1 Topic 2 Topic 3 Topic 4 … 0.924 0.001 0.002 0.065 … Nhân viên, tốt, phục vụ, nhiệt tình, thân thiện,… Sáng, ngon, món, nhiều, được,… Đẹp, view, hướng, rộng, vườn,… Gần, trung tâm, vị trí, đường,… …

Bảng 3.1 Ví dụ về kết quả của mô hình chủ đề ẩn cho tài liệu

Khi đó, tập đặc trưng bổ sung từ mô hình chủ đề ẩn là:

T(d) = [0.924, 0.001, 0.002, 0.065,…]

Sau bước này sẽ thu được các vectơ đặc trưng của dữ liệu bao gồm tập đặc

c. Lựa chọn đặc trưng

trưng TFIDF và đặc trưng bổ sung từ mô hình chủ đề ẩn ở trên.

Trong số các đặc trưng được đưa ra ở trên (bao gồm đặc trưng TFIDF và đặc

trưng chủ đề ẩn), có những đặc trưng có vai trò quan trọng hơn và những đặc trưng

ít quan trọng hơn do ý nghĩa của đặc trưng đó đóng góp vào quá trình phân lớp. Do

đó, việc lựa chọn đặc trưng sẽ giúp đưa ra được những đặc trưng có đóng góp quan

trọng vào tác vụ phân lớp đồng thời giảm được số chiều thuộc tính, góp phần vào

giảm độ phức tạp tính toán của các thuật toán phân lớp. Trong mô hình này, chúng

tôi sử dụng phương pháp lựa chọn đặc trưng dựa vào độ đo thông tin tương hỗ

(Mutual Information – MI) [34] . MI là một độ đo về lượng thông tin chung giữa hai

biến. Độ do này được sử dụng rộng rãi trong việc lựa chọn đặc trưng vì nó có khả

năng phát hiện ra các mối quan hệ phi tuyến giữa các biến. Hơn nữa, MI được định

nghĩa cho nhóm của các biến, thể hiện được sự phụ thuộc của nhóm đặc trưng với

một lớp trong quá trình lựa chọn đặc trưng. Tập đặc trưng thu được cuối cùng sẽ là

tập hợp các tập đặc trưng nhỏ chọn được ở trên.

Trong mô hình này chúng tôi sử dụng phương pháp rút gọn tập đặc trưng dựa

81

trên độ đo thông tin tương hỗ MI. Chiến thuật được sử dụng là phương pháp thêm

dần đặc trưng đồng thời loại bỏ đặc trưng dư thừa (Forward-Backward) để thu được

d. Xây dựng bộ phân lớp

tập đặc trưng tối ưu nhất.

Mẫu 1 2 3 4 Thể thao X X Tôn giáo Khoa học Chính trị X X X X X

Bảng 3.2 Ví dụ về dữ liệu đa nhãn

Mô hình sử dụng tiếp cận chuyển đổi bài toán theo phương pháp chuyển đổi

nhị phân. Trong đó, tiến hành xây dựng |L| bộ phân lớp nhị phân (với L là số nhãn):

* + cho L nhãn khác nhau. Dữ liệu trong mỗi bộ phân lớp được gán

nhãn nếu nó thuộc lớp , các dữ liệu khác được gán nhãn . Để minh họa cho

phương pháp này, chúng tôi sử dụng tập dữ liệu ở Bảng 3.2. Trong bảng dữ liệu có

bốn tài liệu được phân lớp vào một hoặc nhiều hơn một lớp trong bốn lớp: Thể thao,

Tôn giáo, Khoa học và Chính trị. Theo phương pháp chuyển đổi nhị phân, ta sẽ thu

được bốn tập dữ liệu tương ứng với bốn nhãn và xây dựng bốn bộ phân lớp nhị

phân tương ứng. Kết quả phân lớp cuối cùng là sự kết hợp từ kết quả phân lớp của

các bộ phân lớp đơn nhãn này.

3.1.2.2. Pha 2 – Đánh giá mô hình huấn luyện

Sau pha 1, chúng tôi xây dựng được một bộ phân lớp đa nhãn cho dữ liệu. Để

đánh giá mức độ hiệu quả của bộ phân lớp này, pha 2 tiến hành kiểm thử bằng cách

đưa dữ liệu đầu vào vào bộ phân lớp, tiến hành so sánh kết quả phân lớp thu được

từ bộ phân lớp và kết quả phân lớp thủ công. Hiệu năng của bộ phân lớp được đánh

a. Tiền xử lý dữ liệu

giá thông qua các độ đo tiêu biểu cho bài toán phân lớp đa nhãn.

Dữ liệu kiểm thử cũng phải tiến hành các bước tiền xử lý như ở Pha 1. Dữ

liệu được đưa qua các bước tách câu, tách từ, loại bỏ từ dừng, chuẩn hóa dữ liệu và

cuối cùng là biểu diễn dữ liệu theo đặc trưng TFIDF.

82

b. Xây dựng tập đặc trưng

Dữ liệu sau khi tiền xử lý được đưa vào mô hình xác suất tham chiếu chủ đề

ẩn LDA đã xây dựng từ Pha 1 để thu được tập đặc trưng về chủ đề ẩn tương ứng.

Sau đó kết hợp các đặc trưng chủ đề ẩn với các đặc trưng TFIDF để thu được vectơ

c. Phân lớp và đánh giá độ chính xác của hệ thống

đặc trưng của tập dữ liệu kiểm tra.

Bước này tiến hành phân lớp dữ liệu kiểm thử - đưa vectơ đặc trưng của dữ

liệu kiểm thử vào mô hình đã xây dựng ở Pha 1. Kết quả phân lớp sẽ được đối sánh

với kết quả phân lớp được thực hiện thủ công để đánh giá độ chính xác của hệ thống.

Trong mô hình này, chúng tôi đánh giá mô hình thông qua độ đo dựa trên

nhãn bao gồm độ hồi tưởng Recallmicro và độ chính xác Precisionmicro, và độ đo điều

hòa F1micro.

3.1.3. Ứng dụng phân lớp đa nhãn đánh giá khách sạn

Mô hình phân lớp xây dựng ở Phần 3.2.1 được sử dụng để đánh giá danh

tiếng cho các khách sạn ở Việt Nam dựa trên nhận xét của người dùng. Các tiêu chí

đánh giá được coi là tập nhãn cho phân lớp như sau:

- Sự phục vụ của nhân viên:

o Những đánh giá về thái độ phục vụ của nhân viên khách sạn bao gồm:

Lễ tân, dọn phòng, bảo vệ, quản lý, nhân viên nhà hàng…

o Các dịch vụ đi kèm

- Chất lượng phòng, khách sạn:

o Những đánh giá cảm tưởng chung về khách sạn

o Những đánh giá về chất lượng phòng ốc

- Chất lượng đồ ăn: Bao gồm đánh giá về chất lượng đồ ăn, bữa ăn.

- Vị trí và giá cả:

o Những đánh giá về vị trí, không gian, mức độ thuận lợi mà khách sạn

mang lại cho khách hàng.

o Những đánh giá về giá cả phòng, giá đồ ăn và giá các dịch vụ đi kèm.

- Trang thiết bị: Bao gồm các đánh giá về trang thiết bị, nội thất của khách sạn.

83

Bài toán đánh giá danh tiếng cho các khách sạn ở Việt Nam dựa trên nhận

xét của người dùng được thể hiện như sau:

3.1.3.1. Xây dựng tập dữ liệu thực nghiệm

Các thực nghiệm được thực hiện trên miền dữ liệu là tập đánh giá của khách

hàng về 1000 khách sạn ở Việt Nam. Tập đánh giá này được thu thập từ website

http://www.chudu24.com theo cấu trúc gồm: người đánh giá, khách sạn, thời gian

và nội dung ý kiến. Dữ liệu này chứa nhiều thông tin và nhiễu dưới dạng hình ảnh,

âm thanh, quảng cáo, thông tin không nằm trong nội dung trang web, thẻ html…

nên bước đầu của quá trình tiền xử lý dữ liệu là “làm sạch” dữ liệu - lọc bỏ nhiễu.

Tập dữ liệu gồm 3700 nhận xét của khách hàng chia thành 2 tập rời nhau:

Tập dữ liệu huấn luyện và tập dữ liệu kiểm thử. Tập dữ liệu huấn luyện được gán

nhãn thủ công.

Tổng số tài liệu Tập dữ liệu học Tập dữ liệu kiểm tra 3700 3200 500

Bảng 3.3 Tập dữ liệu thực nghiệm

Phân bố số lượng tài liệu theo lớp trong tập dữ liệu huấn luyện được mô tả

như sau:

Phân lớp 1 Sự phục vụ của nhân viên

Chất lượng phòng, khách sạn

Vị trí và giá cả

Chất lượng đồ ăn

Trang thiết bị STT 1 2 3 4 5 6 7 8 9 10 Phân lớp 2 Tích cực Tiêu cực Tích cực Tiêu cực Tích cực Tiêu cực Tích cực Tiêu cực Tích cực Tiêu cực Ký hiệu NV-T NV-X P-KS-T P-KS-X VT-GC-T VT-GC-X DA-T DA-X TTB-T TTB-X Số lượng tài liệu 632 242 654 345 426 255 423 368 233 355

Bảng 3.4 Tập dữ liệu huấn luyện

Xây dựng tập dữ liệu được lấy từ một số website về du lịch và khách sạn của

Việt Nam - đây được coi là tập dữ liệu chuyên ngành như: http://vi.hotels.com,

84

http://www.dulichnamchau.vn, http://dulichanz.com, http://bookhotel.vn,

http://www.dulichvtv.com, http://chudu24.com... Dữ liệu từ các trang web lấy về

sau khi “làm sạch” thu được tập dữ liệu chuyên ngành với hơn 22000 tài liệu.

STT

Trang website

http://vi.hotels.com http://www.dulichnamchau.vn http://www.dulichanz.com http://bookhotel.vn http://www.dulichvtv.com http://chudu24.com

1 2 3 4 5 6

Bảng 3.5 Tập dữ liệu cho mô hình chủ đề ẩn

3.1.3.2. Thực nghiệm

Quá trình thực nghiệm gồm các bước chính sau đây

 Xử lý dữ liệu : Tiền xử lý dữ liệu, xây dựng tập tài liệu học cho mô hình

phân lớp, tập tài liệu cho mô hình LDA và vectơ hóa dữ liệu.

 Xây dựng hàm lựa chọn đặc trưng : Tiến hành lựa chọn tập đặc trưng từ tập

đặc trưng đã có bằng cách sử dụng đô đo tương hỗ MI.

 Xây dựng hàm phân lớp : Tiến hành xây dựng hàm phân lớp dữ liệu đa nhãn

bằng cách xây dựng các bộ phân lớp nhị phân chuyển đổi dựa trên kỹ thuật

cực đại hóa kỳ vọng EM (Maximum Entropy).

 Tiến hành đánh giá danh tiếng cho 1000 khách sạn theo mô hình xây dựng ở trên.

Trong mô hình này, chúng tôi sử dụng phương pháp chuyển đổi nhị phân để

xây dựng các bộ phân lớp nhị phân cho mỗi nhãn. Các lĩnh vực được quan tâm cho

bài toán phân lớp là: Sự phục vụ của nhân viên; Chất lượng phòng, khách sạn; Chất

lượng đồ ăn; Vị trí và giá cả; Trang thiết bị,…

Tuy nhiên, với yêu cầu của bài toán quản lý danh tiếng thì các nhận xét của

khách hàng còn phải được đánh giá xem nó thuộc vào lớp tích cực hay tiêu cực. Từ

đó, bộ phân lớp của hệ thống sẽ bao gồm hai bộ phân lớp nhỏ:

Bộ phân lớp thứ nhất: Bao gồm 5 bộ phân lớp nhị phân cho năm lớp: Sự

phục vụ của nhân viên; chất lượng phòng, khách sạn; Chất lượng đồ ăn; Vị trí và

85

giá cả; Trang thiết bị

Bộ phân lớp thứ hai: Bao gồm 10 bộ phân lớp nhị phân cho 2 lớp: Lớp tích

cực và lớp tiêu cực cho mỗi lớp lớn ở trên.

Thiết kế thực nghiệm

Để đánh giá sử ảnh hưởng của chủ đề ẩn và việc lựa chọn đặc trưng đối với

kết quả của bộ phân lớp, chúng tôi tiến hành cài đặt 3 thực nghiệm như sau :

 Thực nghiệm 1: Thực hiện việc phân lớp chỉ sử dụng tập đặc trưng TFIDF

của tập dữ liệu đầu vào (không sử dụng đặc trưng chủ đề ẩn).

 Thực nghiệm 2: Thực hiện việc phân lớp sử dụng tập đặc trưng TFIDF của

tập dữ liệu đầu vào và tập đặc trưng chủ đề ẩn. Số lượng chủ đề sẽ được thay

đổi từ 15, 20 và 25 chủ đề để đánh giá mức độ ảnh hưởng của số lượng chủ

đề ẩn khác nhau đến kết quả của bộ phân lớp.

 Thực nghiệm 3: Thực hiện việc phân lớp qua hai giai đoạn: làm giàu đặc

trưng gồm tập đặc trưng TFIDF, tập đặc trưng chủ đề ẩn và lựa chọn đặc

trưng sử dụng độ đo thông tin tương mỗ MI. Các thực nghiệm được thực

hiện với số lượng chủ đề ẩn là 20.

3.1.3.3. Kết quả thực nghiệm

Precisionmicro (%) Recallmicro (%) F1micro(%)

67.64 67.98 68.27 67.93 70.25 70.56 71.25 70.75 68.04 68.42 68.83 68.44

68.35 71.08 68.9

Thực nghiệm TFIDF TFIDF + LDA_15 chủ đề TFIDF + LDA_20 chủ đề TFIDF + LDA_25 chủ đề TFIDF + LDA_20 chủ đề + Lựa chọn đặc trưng

Bảng 3.6 Kết quả phân lớp

Kết quả thực nghiệm được thể hiện ở Bảng 3.6 cho thấy việc sử dụng tập đặc

trưng được bổ sung thêm đặc trưng chủ đề ẩn cho kết quả cao hơn các thực nghiệm chỉ

sử dụng đặc trưng TFIDF ở tất cả các thực nghiệm với số lượng chủ đề ẩn khác nhau.

Mặt khác việc sử dụng phương pháp lựa chọn đặc trưng nhằm rút gọn tập đặc

trưng dựa trên độ đo MI cho kết quả tốt nhất trong các thực nghiệm.Hệ thống còn

86

tiến hành đánh giá các nhận xét của người dùng ở các mặt tích cực và tiêu cực.

Hình 3.5 Phân tích nhận xét của người dùng về khách sạn Romana

Hình 3.5 minh họa về kết quả thực nghiệm đánh giá các nhận xét của người

dùng về khách sạn Romana ở tỉnh Phan Thiết. Theo các đánh giá của người dùng,

Romana là khách sạn tốt. Dựa trên năm lĩnh vực đánh giá, số lượng đánh giá tích

cực nhiều hơn số lượng đánh giá tiêu cực, đặc biệt là về Sự phục vụ của nhân viên

(19 nhận xét tích cực – 0 nhận xét tiêu cực) và Chất lượng phòng, khách sạn (30

nhận xét tích cực – 4 nhận xét tiêu cực).

Ví dụ, xem xét một nhận xét sau: "Phòng ở: mình ở villa pool ocean view,

phòng và view khá đẹp, phòng tắm lộ thiên, hồ bơi riêng rất đẹp, nằm trong

phòng nhìn ra hồ rất đã". Câu nhận xét này được phân lớp vào 3 lĩnh vực: Sự

phục vụ của nhân viên (Hàng 1), Vị trí và giả cả (Hàng 2) và Trang thiết bị (Hàng

3). Câu nhận xét này cũng được xếp vào lớp đánh giá tích cực trong mỗi lĩnh vực.

3.2. Phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo đồ thị khoảng

cách các chủ đề ẩn

Trong hầu hết các thuật toán khai phá và quản lý dữ liệu văn bản, dữ liệu

thường được biểu diễn dưới dạng chuỗi mà phổ biến nhất là mô hình không gian

vectơ. Mô hình không gian vectơ được G.Salton và cộng sự [39] đề xuất vào khi

giải quyết bài toán truy vấn thông tin. Theo cách biểu diễn này, mỗi văn bản được

87

biểu diễn trong một không gian nhiều chiều, mỗi chiều tương ứng với một từ trong

văn bản. Một từ với độ quan trọng của nó được xác định bằng một phương pháp

đánh trọng số trong văn bản và giá trị trọng số được chuẩn hóa trong đoạn [0,1].

Hình 3.6 mô tả hai văn bản d1 và d2 được biểu diễn bằng các vectơ ký hiệu là v1 và

v2, gồm 3 chiều T1, T2, T3, trong đó mỗi từ có một trọng số khác nhau đặc trưng cho

độ quan trọng của từ đó trong văn bản.

Tổng quát hơn, một văn bản d trong không gian vectơ ký hiệu là vd sẽ được

biểu diễn trong một không gian vectơ gồm N chiều, trong đó N là số lượng từ có

[ ]

trong tập văn bản. Mỗi thành phần của vectơ là trọng số của từ tương ứng.

Điểm hạn chế của phương pháp biểu diễn này là coi mỗi văn bản là một “túi

các từ” không có trật tự nên không thể hiện được các thông tin liên quan đến trật tự

có cấu trúc của các từ trong văn bản, nên phương pháp này có thể không cho kết quả

tốt khi phân tích sâu văn bản trong các ứng dụng mà trật tự có cấu trúc của văn bản

đóng vai trò quan trọng trong phân tích ngữ nghĩa. Để khắc phục được nhược điểm

của phương pháp này, C. C. Aggarwal và P. Zhao [10] đã đề xuất một phương pháp

biểu diễn bằng đồ thị khoảng cách, phương pháp này sẽ giữ lại được các đặc trưng về

trật tự từ mà không làm mất tính linh động và hiệu quả trong việc xử lý dữ liệu.

v1

v2

T2

𝜃

T1

T3

Hình 3.6 Biểu diễn văn bản theo không gian vectơ, v1 và v2 là hai văn bản trong không gian vectơ ba chiều T1, T2, T3 trong đó Ti là từ

C. Aggarwal và P. Zhao [10] đã minh chứng bằng thực nghiệm về hiệu quả

của việc sử dụng biểu diễn theo mô hình đồ thị khoảng cách trên các ứng dụng như

88

phân cụm, phân lớp, đánh chỉ mục,… Q.T. Ha và cộng sự [103] đã ứng dụng mô

hình đồ thị khoảng cách biểu diễn vết cho bài toán phân cụm vết trong khai phá quy

trình và thực nghiệm đã chứng tỏ về tính hữu hiệu quả của biểu diễn vết sự kiện

theo đồ thị khoảng cách. M. Poyraz và cộng sự [88] đề xuất một mô hình tương tự

mô hình đồ thị khoảng cách dựa trên biểu diễn đồ thị vô hướng trên tập từ của tập

dữ liệu huấn luyện; mô hình đồ thị này cũng cho kết quả tốt trong ứng dụng làm

trơn bậc cao cho thuật toán Naïve Bayes trong phân lớp văn bản.

Luận án đề xuất một mô hình phân lớp đa nhãn với một số cải tiến kết hợp

mô hình chủ đề ẩn nhằm khai thác các thông tin ngữ nghĩa ẩn trong văn bản, sau đó

áp dụng biểu diễn theo mô hình đồ thị khoảng cách trên tập chủ đề ẩn của văn bản.

Kỹ thuật này sẽ khai thác được các thông tin bậc cao hơn về thứ tự và khoảng cách

giữa các chủ đề ẩn trong văn bản, qua đó làm giàu tập đặc trưng nhằm nâng cao

thực thi của phân lớp.

3.2.1. Mô hình biểu diễn văn bản theo đồ thị khoảng cách

3.2.1.1. Biểu diễn dữ liệu theo đồ thị khoảng cách

Biểu diễn dữ liệu bằng đồ thị khoảng cách là cách biểu diễn có thể giữ được

các thông tin giàu ý nghĩa về trật tự và khoảng cách giữa các từ trong văn bản.

Đồng thời, cách biểu diễn có cấu trúc theo đồ thị khoảng cách khá hiệu quả cho bài

toán xử lý văn bản. Đồ thị khoảng cách có thể được xác định theo các bậc khác

nhau tùy thuộc vào mức thông tin khoảng cách muốn lưu giữ. Đặc biệt là, đồ thị

khoảng cách bậc k sẽ lưu giữ thông tin về các cặp từ có khoảng cách tối đa là

trong văn bản. Đồ thị khoảng cách được định nghĩa như sau:

Một đồ thị khoảng cách bậc k của một văn bản được lấy ra từ tập dữ liệu

được định nghĩa ( ) ( ( ) ( )) trong đó, ( ) là tập các đỉnh được

xác định trong tập dữ liệu và ( ) là tâp các cạnh trong văn bản. Tập

( ) ( ) được xác định như sau:

 ( ): là tập các đỉnh, trong đó mỗi đỉnh là một từ trong tập các từ được xây

dựng từ toàn bộ tập dữ liệu . Số lượng từ trong tập dữ liệu có thể lớn và trật

tự từ trong tập từ này là không đổi khi biểu diễn trên tập văn bản khác trong .

89

 ( ): là tập các cạnh từ đỉnh i nối đỉnh j nếu từ i đứng trước từ j nhiều

nhất k vị trí. Ví dụ, k = 1 được hiểu là thứ tự tuần tự các từ. Tần suất của các

cạnh là số lần từ i đứng trước từ j nhiều nhất k vị trí trong văn bản.

Tập ( ) luôn chứa một cạnh từ mỗi nút đến chính nó. Tần số của mỗi

cạnh là số lần một từ đứng trước từ khác trong văn bản với khoảng cách nhiều nhất

k vị trí. Vì mỗi từ được coi là đứng trước nó với khoảng cách k=0, tần số của mỗi

cạnh ít nhất bằng tần số của từ tương ứng trong văn bản.

Hầu hết các tập dữ liệu chứa nhiều từ xuất hiện với tần xuất lớn như giới từ,

mạo từ và liên từ - hay còn gọi là từ dừng. Do đó, trước khi biểu diễn đồ thị khoảng

cách, cần loại bỏ các từ dừng, giảm số lượng cạnh trong biểu diễn đồ thị khoảng cách.

Hình 3.7 Minh họa biểu diễn đồ thị khoảng cách

Biểu diễn bậc 0 tương ứng với tần suất xuất hiện của từ nên biểu diễn này

khá giống với biểu diễn theo không gian vectơ. Biểu diễn của các bậc khác nhau thể

hiện được lượng thông tin thu được về khoảng cách cho một câu văn bản được thể

hiện ở Hình 3.7. Hình thể hiện đồ thị khoảng cách bậc 0, 1 và 2 đối với tập đỉnh là

90

tập từ. Đồ thị khoảng cách này được xây dựng dựa vào tập từ trong văn bản sau khi

loại bỏ từ dừng. Đồ thị khoảng cách bậc 0 chỉ bao gồm tần suất. Tần suất của từ

trong trong văn bản là số lần một từ xuất hiện với khoảng cách 0. Số cạnh trong

biểu diễn sẽ tăng đối với đồ thị khoảng cách với số bậc cao hơn. Tần suất của từ tự

lặp trong đồ thị khoảng cách bậc 2 cao hơn trong đồ thị khoảng cách bậc 1 và bậc 0.

Sự lặp lại này không thay đổi tần suất bậc 1 và bậc 0 đồ thị khoảng cách nhưng ảnh

hưởng tới đồ thị khoảng cách bậc 2. Đồ thị khoảng cách có bậc cao hơn có thể chứa

nhiều thông tin hơn nhưng đồ thị bậc quá cao như bậc 5 hoặc bậc 10 thì có thể

không còn đúng do mẫu dữ liệu mà hai từ cách nhau với khoảng cách lơn (5-10) từ

thường không có nhiều ý nghĩa đối với mô hình. Đồ thị khoảng cách bậc 0 không

chứa nhiều thông tin hữu ích.

Một đặc điểm quan trọng của đồ thị khoảng cách là nó tương đối thưa và

chứa một lượng nhỏ các cạnh đối với đồ thị bậc nhỏ. Nhưng qua các thực nghiệm,

C. Aggarwal và P. Zhao [10] đã cho thấy, đồ thị khoảng cách bậc nhỏ mang lại hiệu

quả xử lý trong hầu hết các ứng dụng khai phá như phân lớp, phân cụm,... Một số

- Cho ( ) là số từ trong văn bản (tính cả trường hợp lặp) và ( ) là số từ

tính chất của đồ thị khoảng cách như sau:

phân biệt trong (không tính trường hợp lặp). Khi đó, đồ thị khoảng cách

bậc k chứa ít nhất ( ) ( ) ( ) cạnh và nhiều nhất là

- Các đồ thị khoảng cách bậc 2 hoặc bậc thấp hơn trong các văn bản chỉ chứa

( ) ( ) cạnh.

- Cho và là hai văn bản trong tập dữ liệu , là một tập con của . Khi

các từ đơn lẻ là mặt phẳng (hai chiều).

đó, đồ thị khoảng cách ( ) là đồ thị con của đồ thị khoảng cách ( ) - Cho và là hai văn bản trong tập dữ liệu và chúng có tập từ chung

liền kề kí hiệu là . Khi đó, đồ thị khoảng cách ( ) và ( ) có

- Cho là một đồ thị hai chiều chứa m đỉnh và là một văn bản trong tập dữ

chúng đồ thị con ( )

liệu . Gọi E là tập giao cạnh của tập các cạnh trong đồ thị ( ) với

91

các cạnh trong . Gọi q là tổng tần suất các cạnh trong . Khi đó, q chính là

số lần từ khóa trong các đỉnh tương ứng với xuất hiện trong một khoảng

cách với k của một đỉnh khác trong văn bản.

3.2.1.2. Mô hình đồ thị khoảng cách và mô hình n-gram

Có thể thấy mô hình đồ thị khoảng cách có một số điểm tương đồng với biểu

diễn đặc trưng n-grams [14]. Trong đó, đặc trưng n-grams là chuỗi n phần tử liên

tiếp nhau của một dãy các phần tử cho trước trong văn bản; nhiệm vụ là tính xác

suất một chuỗi trong văn bản. ( )

)

Khi đó, theo luật dãy của xác suất:

) (

( ) ( ) ( ) (

)

(3.7) ∏ (

Áp dụng luật dãy vào các từ, ta có:

)

) ( ) ( ) (

) (

) ∏ (

(3.8) (

Luật dãy thể hiện mối liên kết giữa việc tính xác suất của một chuỗi và xác suất

có điều kiện của một từ cho trước các từ đứng trước nó. Công thức (3.8) gợi ý rằng, có

thể ước lượng xác suất của một chuỗi các từ bằng tích các xác suất có điều kiện.

) thì chỉ

Khởi xướng ban đầu của mô hình n-grams là mô hình bigram, trong đó, thay

vì tính xác suất của một từ khi biết tất cả các từ đứng trước nó (

quan tâm đến các từ đứng trước nó bằng cách sử dụng xác suất có điều kiện của từ

đứng trước nó ( ). Giả thiết coi xác suất của một từ chỉ phụ thuộc vào từ

đứng trước nó gọi là giả thiết Markov.

Từ đó, công thức tổng quát cho xấp xỉ n-gram với xác suất có điều kiện của

từ tiếp theo trong chuỗi là:

) (

) ( (3.9)

Trong đó N là kích thước chuỗi xem xét. Đặc trưng n-gram sử dụng phổ biến

là n-gram có kích thước 1 (unigram), n-gram có kích thước 2 (bigram) và n-gram có

kích thước 3 (trigram),…

92

Qua phân tích về mô hình n-gram cho thấy, mô hình biểu diễn đồ thị khoảng

cách cũng bao trùm các đặc trưng n-grams phổ biến này. Điểm khác biệt hơn là mô

hình biểu diễn đồ thị khoảng cách tích hợp các thông tin từ bậc thấp đến bậc cao và

mang tính tổng quát hơn.

3.2.2. Mô hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo đồ thị

khoảng cách chủ đề ẩn

Phát biểu bài toán xây dựng mô hình phân lớp đa nhãn văn bản dựa trên biểu

diễn dữ liệu theo đồ thị khoảng cách chủ đề ẩn như sau:

Đầu vào:

- : tập dữ liệu văn bản đa nhãn liên quan đến chủ đề thuộc miền ứng dụng,

chia thành tập Dtrain là tập dữ liệu huấn luyện và Dtest là tập dữ liệu kiểm thử

- DU: tập dữ liệu không nhãn liên quan đến chủ đề thuộc miền ứng dụng để

xây dựng mô hình chủ đề ẩn.

- L: tập nhãn cho trước gồm q nhãn

- Mô hình phân lớp đa nhãn M sao cho M được đánh giá kiểm thử đạt hiệu quả

Đầu ra:

cao.

Quy trình giải quyết bài toán được thể hiện trong Quy trình 3.2 và mô hình

phân lớp được mô tả ở Hình 3.8.

Pha 1: Huấn luyện mô hình

- Bước 1: Xây dựng mô hình chủ đề ẩn LDA trên tập DU và biểu diễn câu chủ

đề trên tập dữ liệu Dtrain

- Bước 2: Biểu diễn đồ thị khoảng cách trên câu chủ đề trên tập Dtrain

- Bước 3: Xây dựng bộ phân lớp đa nhãn

Pha 2: Phân lớp đa nhãn sử dụng mô hình huấn luyện

- Bước 1: Xây dựng tập đặc trưng dựa trên mô hình chủ đề ẩn và biểu diễn đồ

-

thị khoảng cách cho tập Dtest

Bước 2: Phân lớp và đánh giá hiệu quả của mô hình

Quy trình 3.2 Quy trình giải quyết bài toán

93

Hình 3.8 Mô hình phân lớp đa nhãn dựa trên biểu diễn dữ liệu theo đồ thị khoảng cách các chủ đề ẩn.

Mô hình phân lớp đa nhãn dựa trên biểu diễn đồ thị khoảng cách và mô hình

chủ đề ẩn được thể hiện trong [PTNgan4]. Để xây dựng mô hình, một tập dữ liệu về

miền ứng dụng được thu thập để xây dựng mô hình xác suất chủ đề ẩn, làm cơ sở để

biến đổi dữ liệu huấn luyện và kiểm thử từ dạng câu văn bản thành câu chủ đề; tiếp

đó biểu diễn đồ thị khoảng cách được áp dụng trên câu chủ đề nhằm khai thác được

thông tin bậc cao về trật tự và khoảng cách giữa các chủ đề trong văn bản. Đồ thị

khoảng cách có thể được xác định theo các bậc khác nhau để thu được các thông tin

94

bậc văn bản khác nhau.

Sau đó áp dụng một bộ phân lớp đa nhãn trên tập đặc trưng được sinh ra từ

biểu diễn đồ thị trên câu chủ đề để thu được kết quả phân lớp.

3.2.2.1. Pha huấn luyện mô hình

a. Xây dựng mô hình chủ đề ẩn LDA và biểu diễn câu chủ đề

Từ tập dữ liệu thu thập được trên miền ứng dụng, xây dựng mô hình chủ đề

nhằm khai thác các thông tin tiềm ẩn về chủ đề ẩn trên tập dữ liệu và phân phối chủ

đề ẩn trên mỗi tài liệu; phân phối xác suất của tập từ trên mỗi chủ đề. Mô hình LDA

được thực thi với các tham số chủ đề ẩn khác nhau sẽ cho tập thuộc tính khác nhau

làm cơ sở cho các thực nghiệm, nhằm tìm ra những trường hợp tối ưu trên mỗi quan

hệ giữa chủ đề và mô hình.

Tiếp theo, dựa trên tập từ trong mỗi chủ đề, các câu văn bản trong dữ liệu huấn

luyện được chuyển thành câu chủ đề bằng cách thay thế mỗi từ trong văn bản bằng

chủ đề mà từ đó thuộc về. Cách biểu diễn này đã thu hẹp không gian giá trị của tập từ

vựng sang không gian tập chủ đề. Điều này có thể tác động đến độ phức tạp tính toán

b. Biểu diễn đồ thị khoảng cách trên câu chủ đề

của mô hình. Sau bước này, thu được câu chủ đề tương ứng cho mỗi câu văn bản.

Ở bước này, mô hình biểu diễn đồ thị khoảng cách do C.C. Aggarwal và P.

Zhao [10] đề xuất được áp dụng trên tập câu chủ đề ở bước trên. Trong đó, số bậc

của đồ thị được lựa chọn với nhiều giá trị khác nhau nhằm xây dựng được tập đặc

trưng hữu ích với lượng thông tin khác nhau.

Với mỗi biểu diễn câu chủ đề, dữ liệu được biểu diễn theo mô hình đồ thị

khoảng cách, trong đó mỗi đỉnh là một chủ đề; cạnh của đồ thị nếu có là mối quan

hệ về thứ tự của chủ đề và trọng số của cạnh đồ thị là tần suất xuất hiện của quan hệ

thứ tự của chủ đề trong văn bản.

Hình 3.7 thể hiện một biểu diễn đồ thị khoảng cách cho một câu văn bản với

số bậc lần lượt là 0, 1, 2. Khi biến đổi câu văn bản sang câu chủ đề, sẽ thu được một

biểu diễn mới về câu chủ đề trên miền chủ đề ẩn. Việc biến đổi này sẽ làm thu hẹp

kích thước đầu vào cho biểu diễn đồ thị khoảng cách từ không gian tập từ sang

95

không gian tập chủ đề. Đồng thời, có thể làm tăng tần suất của những chủ đề khi các

từ khác nhau trong cùng chủ đề cùng xuất hiện trong văn bản. Kỹ thuật này sẽ làm

giảm kích thước của các đồ thị khoảng cách trên câu chủ đề đồng thời giảm độ phức

tạp tính toán cho mô hình.

Giả thiết là sau khi xây dựng mô hình chủ đề ẩn ở bước trên sẽ thu được tập

các chủ đề ẩn và tập từ tương ứng trên mỗi chủ đề ẩn. Ví dụ, danh sách tập từ trong

các chủ đề ẩn như sau:

Chủ đề 1 khách_sạn Chủ đề 2 đẹp Chủ đề 3 đánh_giá Chủ đề 4 nhân_viên ….

phòng tuyệt_vời nhận_xét tiếp_viên

khuôn_viên tốt …. bảo_vệ

Bảng 3.7 Bảng phân phối tập từ trên mỗi chủ đề ẩn

Hình 3.9 Biểu diễn đồ thị khoảng cách trên câu chủ đề

96

Với phân phối tập từ trên mỗi chủ đề ẩn thu được từ mô hình chủ đề ẩn, câu

văn bản sau khi loại bỏ từ dừng ở Hình 3.7 “Khách_sạn đẹp, phòng tuyệt_vời,

nhân_viên tuyệt_vời, đánh_giá khách_sạn tốt.” sẽ được chuyển thành câu chủ đề như

sau: “topic1 topic2 topic1 topic 2 topic4 topic2 topic 3 topic1 topic2”. Khi đó, ta

có biểu diễn đồ thị khoảng cách cho câu chủ đề Hình 3.9. Số lượng nút đồ thị bây giờ

là số chủ đề ẩn chứ không phải là số từ trong tập từ. Theo đó, số lượng nút của đồ thị

sẽ giảm đi đáng kể, kèm theo đó trọng số các cạnh của đồ thị sẽ biến đổi theo hướng

tăng cường các thông tin có liên quan thể hiện ở các từ thuộc cùng một chủ đề.

Trong thực nghiệm, chúng tôi cũng thay đối số bậc của đồ thị nhằm tìm được

biểu diễn mang lại nhiều thông tin hữu ích nhất cho mô hình. Số bậc của đồ thị

c. Xây dựng bộ phân lớp đa nhãn

được thiết lập các giá trị 0,1,2…

Để xây dựng bộ phân lớp, có thể sử dụng các thuật toán phân lớp khác nhau

như đã trình bày ở Chương 1. Trong mô hình phân lớp thực nghiệm, sau khi thực

nghiệm với các thuật toán ML-kNN, BR, CC, CLR, v.v., chúng tôi lựa chọn thuật

toán phân lớp đa nhãn k láng giềng gần nhất ML-kNN vì ML-kNN cho kết quả tốt

nhất.

Ý tưởng chính của thuật toán là sử dụng kỹ thuật k láng giềng gần nhất để

giải quyết bài toán học đa nhãn, trong đó sử dụng luật cực đại hậu nghiệm để đưa ra

dự đoán bằng việc xem xét các thông tin liên quan đến nhãn từ các láng giềng.

3.2.2.2. Pha phân lớp sử dụng mô hình huấn luyện

Sau pha xây dựng mô hình huấn luyện, chúng tôi thu được một bộ phân lớp

đa nhãn cho dữ liệu là các câu nhận xét của người dùng về các Khách sạn ở Việt

Nam. Ở pha này, bộ phân lớp được sử dụng đoán nhận nhãn của tập dữ liệu kiểm

thử; nhãn đoán nhận sẽ so sánh với nhãn thực của dữ liệu để đánh giá mức độ hiệu

a. Xây dựng tập đặc trưng dựa trên mô hình chủ đề ẩn và biểu diễn đồ thị khoảng cách Dữ liệu kiểm thử cũng được ánh xạ vào mô hình xác suất tham chiếu chủ đề

quả của mô hình.

ẩn LDA đã xây dựng ở Pha 1 để biến đổi câu văn bản thành câu chủ đề. Sau đó câu

97

chủ đề sẽ được tiếp tục biểu diễn theo mô hình đồ thị khoảng cách để thu được tập

đặc trưng về thông tin trật tự và khoảng cách của chủ đề trong câu. Bậc của đồ thị

b. Phân lớp và đánh giá hiệu quả của mô hình

biểu diễn dữ liệu kiểm thử cũng được thiết lập tương ứng với dữ liệu huấn luyện.

Bước này tiến hành phân lớp dữ liệu kiểm thử bằng cách đưa tập đặc trưng

của dữ liệu kiểm thử thu được ở bước trên được đưa vào bộ phân lớp đa nhãn xây

dựng ở pha 1. Kết quả phân lớp được đối sánh với dữ liệu phân lớp thực để đánh giá

mô hình thông qua các độ đo.

Trong mô hình này, chúng tôi sử dụng các độ đo dựa trên mẫu, trong đó đánh

giá kết quả mô hình trên từng mẫu kiểm thử độc lập sau đó trả về kết quả trung bình

trên toàn tập dữ liệu kiểm thử. Các độ đo bao gồm: độ đo hamming loss – đánh giá

tỷ lệ cặp thể hiện – nhãn bị phân lớp sai; one-error – đánh giá số lần nhãn được xếp

hạng cao nhất không nằm trong tập nhãn có thể; coverage – xác định độ đo của một

hệ thống đối với tất cả các nhãn có thể của tài liệu là khoảng cách trung bình cho tất

cả các nhãn thích hợp được gán cho một ví dụ thử nghiệm; ranking loss – phân bố

trung bình của các cặp nhãn và average precision – đánh giá thành phần trung bình

của các nhãn liên quan được xếp hạng cao hơn một nhãn cụ thể. Các độ đo

hamming loss, one-error, coverage và ranking loss giá trị càng thấp thì thực thi của

hệ thống càng tốt; riêng độ đo Average Precision thì giá trị càng cao thì thể hiện hệ

thống thực thi càng tốt.

3.2.3. Ứng dụng phân lớp đa nhãn đánh giá khách sạn

Mô hình được ứng dụng để giải quyết bài toán đánh giá danh tiếng khách sạn

ở Việt Nam dựa trên tập nhận xét của người dùng được trình bày ở Chương 3 mục

3.2.1 Chúng tôi cũng sử dụng lại bộ dữ liệu về tập nhận xét của người dùng về các

Khách sạn của Việt Nam như trong ví dụ bài toán ở Chương 3 mục 3.1

Quá trình thực nghiệm gồm các bước chính sau đây

 Xử lý dữ liệu : Tiền xử lý dữ liệu, xây dựng tập tài liệu học cho mô hình

phân lớp, kho tài liệu cho mô hình LDA.

98

 Xây dựng mô hình chủ đề ẩn và biểu diễn câu chủ đề. Tiến hành xây dựng

mô hình chủ đề ẩn với số lượng chủ đề ẩn khác nhau để so sánh và đánh giá.

Sau đó, dữ liệu học được chuyển hóa thành dữ liệu câu chủ đề.

 Biểu diễn đồ thị khoảng cách : Áp dụng mô hình đồ thị khoảng cách trên tập

dữ liệu câu chủ đề phục vụ để xây dựng tập đặc trưng của mô hình.

 Tiến hành đánh giá danh tiếng cho 1000 khách sạn theo mô hình tối ưu

Để so sánh hiệu quả của mô hình, chúng tôi thực hiện thêm 2 thực nghiệm cơ

sở: một là thực nghiệm trên dữ liêu nguyên thủy với tập đặc trưng TFIDF và sử

dụng phương pháp chuyển đổi thuật toán thành q bộ phân lớp nhị phân trên nền

thuật toán SVM; hai là thực nghiệm với tập đặc trưng biểu diễn đồ thị khoảng cách

trên dữ liệu văn bản theo mô hình của C.C. Aggarwal và P. Zhao [10] và cùng sử

dụng thuật toán phân lớp đa nhãn k láng giềng gần nhất ML-kNN như trong mô

hình đề xuất.

Kết quả thực nghiệm được thể hiện ở Bảng 3.8 cho thấy, sự kết hợp của mô

hình chủ đề ẩn và đồ thị khoảng cách mang lại kết quả tốt hơn với hai thực nghiệm

cơ sở ở hầu hết 5 đơn vị đo: hloss, oneError, coverage, rloss, average preicision

(AP). Điều này đã minh chứng cho sự đóng góp của tri thức cung cấp từ mô hình

chủ đề ẩn đã bổ sung thêm cho mô hình đồ thị khoảng cách. Trong đó, kết quả tốt

nhất được ghi nhận với số lượng chủ đề ẩn là 25. Mặc dù, theo đánh giá của C.C.

Aggarwal và P. Zhao [10] khi thực nghiệm với bậc của đồ thị lớn hớn 5 thì kết quả

thực thi không được cải thiện tăng. Tuy nhiên, bằng kết quả thực nghiệm, chúng tôi

nhận thấy khi bậc đồ thị lớn hơn 3 thì kết quả mô hình không được cải thiện nữa mà

đi xuống. Điều này có thể lý giải bởi nút trong đồ thị đang xét của mô hình là chủ

đề ẩn chứ không phải từ như đồ thị khoảng cách nguyên thủy, nên mẫu về thứ tự

xuất hiện và khoảng cách giữa các nút trong đồ thị sẽ giảm đi đáng kể so với đồ thị

với nút là các từ. Kết quả này cũng có thể bị ảnh hưởng từ miền dữ liệu và đặc điểm

văn bản ngắn trong ứng dụng của chúng tôi.

99

hloss ↓

oneError ↓

Coverage ↓

rloss ↓

AP ↑

0.6626±0.0186

0.9473±0.1438

0.0733±0.0123

0.7487±0.0201

0.0547±0.0050

0.1401±0.0148

0.2459±0.0405

0.9693±0.1355

0.1586±0.0301

0.8250±0.0296

0.1369±0.0136

0.2184±0.0193

0.8204±0.1006

0.1255±0.0172

0.8542±0.0136

0.1359±0.0211

0.2136±0.0341

0.8217±0.0962

0.1263±0.0171

0.8559±0.0197

0

0.2056±0.0359

0.1283±0.0167

0.7695±0.0955

0.1150±0.0208

0.8645±0.0222

c ậ B

0.1398±0.0157

0.8566±0.1094

0.1338±0.0212

0.8507±0.0188

0.2157±0.0263

0.1473±0.0104

0.2464±0.0227

0.9215±0.1063

0.1513±0.0184

0.8318±0.0172

0.1518±0.0178

0.2384±0.0283

0.8567±0.1227

0.1351±0.0215

0.8405±0.0203

0.1479±0.0140

0.2384±0.0274

0.8707±0.0865

0.1390±0.0160

0.8397±0.0168

1

0.1310±0.0167

0.2056±0.0305

0.8384±0.1010

0.1300±0.0206

0.8565±0.0195

n ẩ ề đ ủ h c à v

c ậ B

0.1401±0.0111

0.2317±0.0311

0.9082±0.1076

0.1458±0.0234

0.8364±0.0209

h c á c

0.1642±0.0146

0.2913±0.0361

0.9966±0.1133

0.1677±0.0223

0.8041±0.0213

0.1412±0.0113

0.2103±0.0194

0.7910±0.1050

0.8592±0.0117

0.1163±0.0151

g n ả o h k ị h t

0.1360±0.0133

0.2203±0.0280

0.8090±0.1152

0.1238±0.0210

0.8541±0.0207

ồ đ p ợ h

2

0.1175±0.0178

0.1271±0.0161

0.1995±0.0286

0.7835±0.0935

0.8646±0.0194

c ậ B

t ế k h n ì h

0.1546±0.0098

0.2719±0.0315

0.9236±0.0897

0.1508±0.0171

0.8197±0.0183

ô M

0.1546±0.0098

0.2719±0.0315

0.9236±0.0897

0.1508±0.0171

0.8197±0.0183

0.0659±0.0114

0.8364±0.0250

0.4182±0.0471

0.0997±0.0047

0.6380±0.0270

0.4455±0.0472

0.0731±0.0110

0.8302±0.0227

0.0983±0.0066

0.6356±0.0254

3

0.4196±0.0497

0.0642±0.0098

0.8487±0.0204

0.0918±0.0062

0.6200±0.0273

c ậ B

0.4810±0.0400

0.0809±0.0111

0.8113±0.0246

0.0985±0.0070

0.6476±0.0303

0.4664±0.0368

0.0779±0.0093

0.8170±0.0194

0.0991±0.0066

0.6449±0.0280

Thực nghiệm Đặc trưng tần suất theo mô hình không gian vectỏ Mô hình đồ thị khoảng cách nguyên thủy 10 chủ đề 15 chủ đề 25 chủ đề 50 chủ đề 100 chủ đề 10 chủ đề 15 chủ đề 25 chủ đề 50 chủ đề 100 chủ đề 10 chủ đề 15 chủ đề 25 chủ đề 50 chủ đề 100 chủ đề 10 chủ đề 15 chủ đề 25 chủ đề 50 chủ đề 100 chủ đề

Bảng 3.8 Kết quả thực nghiệm của mô hình phân lớp đa nhãn dựa trên mô hình chủ đề ẩn và đồ thị khoảng cách

3.3. Kết luận chương 3

Chương 3 đã trình bày hai phương pháp biểu diễn dữ liệu cho phân lớp đa

100

nhãn bao gồm mô hình biểu diễn dựa trên mô hình chủ đề ẩn LDA và mô hình biểu

diễn dựa trên đồ thị khoảng cách kết hợp chủ đề ẩn LDA. LDA là một mô hình học

máy không giám sát trong đó giả thiết rằng mỗi văn bản được tạo ra là một sự kết

hợp của nhiều chủ đề và mỗi chủ đề là một phân phối trên các từ. Luận án khai thác

mô hình LDA theo hai mức thông tin. Đặc trưng phân phối xác suất của các chủ đề

ẩn đối với một văn bản được bổ sung kết hợp với các đặc trưng phổ biến (TFIDF)

để làm giàu thêm đặc trưng cho mô hình. Tiếp cận này đã thể hiện ưu thế do

phương pháp biểu diễn dữ liệu dựa trên mô hình chủ đề ẩn mang lại và được tiếp

tục vận dụng trong các tiếp cận tiếp theo của luận án. Kỹ thuật khai thác đặc trưng

về phân phối chủ đề ẩn mức văn bản được công bố trong công trình [PTNgan1]

(năm 2013) và kỹ thuật này cũng đã được minh chứng sử dụng có hiệu quả trong

công trình của A.H.Razavi và D.Inkpen [2] (năm 2014), J.V. Carrera-Trejo và cộng

sự [71] (năm 2015) trên ngôn ngữ tiếng Anh cho thấy tính tổng quát của mô hình đề

xuất không chỉ trên miền ngôn ngữ tiếng Việt trong thực nghiệm.

Ở tiếp cận mô hình LDA theo mức từ, luận án cũng đề xuất mô hình kết hợp

phương pháp biểu diễn dữ liệu theo mô hình đồ thị khoảng cách và phân phối của

tập từ trên mỗi chủ đề ẩn nhằm khai thác được đặc trưng về mối quan hệ về thứ bậc

của các chủ đề ngữ nghĩa ẩn trong văn bản. Sự kết hợp này đã khai thác được các

đặc trưng thông tin ngữ nghĩa ẩn ở mức cao hơn, tổng quát hơn mang lại tính hiệu

quả của mô hình.

Các mô hình đề xuất được ứng dụng trong bài toán đánh giá danh tiếng

khách sạn Việt Nam dựa trên nhận xét của người dùng đã thể hiện hiệu quả so với

các mô hình cơ sở.

101

Chương 4. KỸ THUẬT BÁN GIÁM SÁT PHÂN LỚP

ĐA NHÃN VĂN BẢN TIẾNG VIỆT

Học máy bán giám sát là một tiếp cận nhận được nhiều sự quan tâm trong

cộng đồng nhiên cứu nhờ sự kết hợp hiệu quả giữa dữ liệu có nhãn làm định hướng

và dữ liệu không có nhãn phong phú sẵn có trong miền ứng dụng. Trong chương

này, tác giả đề xuất một thuật toán phân lớp đa nhãn bán giám sát về bản chất là sử

dụng kỹ thuật phân cụm bán giám sát trên miền dữ liệu đa nhãn. Từ đó đề xuất một

mô hình phân lớp bán giám sát tổng quát và một mô hình ứng dụng phân lớp đa

nhãn bán giám sát trên miền dữ liệu văn bản kết hợp các kỹ thuật biểu diễn dữ liệu

dữ liệu sử dụng mô hình chủ đề ẩn và kỹ thuật rút gọn đặc trưng nhằm nâng cao

hiệu quả mô hình. Mô hình đề xuất được công bố trong [PTNgan5, PTNgan6].

4.1. Tiếp cận phân cụm bán giám sát

4.1.1. Tiếp cận dựa trên ràng buộc

Trong tiếp cận dựa trên ràng buộc, thuật toán phân cụm sẽ tự thay đổi để các

nhãn hoặc ràng buộc có sẵn được sử dụng để tìm kiếm một phân cụm phù hợp với dữ

liệu. Dữ liệu có nhãn xác định nhóm mà thực thể thuộc về, trong khi các ràng buộc cặp

đôi xác định hai thực thể sẽ thuộc về cùng một cụm hay hai cụm khác nhau. Tiếp cận

phân cụm bán giám sát dựa vào ràng buộc sử dụng một số kỹ thuật: thay đổi hàm mục

tiêu cụm để thỏa mãn ràng buộc, phân cụm sử dụng thông tin theo khía cạnh từ phân

bố có điều kiện trong không gian phụ, các ràng buộc phải được thỏa mãn trong suốt

quá trình phân cụm; khởi tạo cụm và các ràng buộc phân cụm dựa trên kỹ thuật k láng

giềng gần nhất; Thuật toán COP-Kmeans và SS-SOM thay đổi pha cập nhật mối quan

hệ cụm của thuật toán K-means và thuật toán ánh xạ Self Organizing để đảm bảo các

phân hoạch đồng nhất với các ràng buộc cặp đôi cho trước. Trong thuật toán COP-

Kmeans, các tâm cụm đầu tiên được khởi tạo ngẫu nhiên, mỗi điểm dữ liệu sau đó

được gán với tâm cụm gần nhất để đảm bảo không có ràng buộc nào bị vi phạm. Các

tâm cụm được cập nhật theo trung bình các điểm dữ liệu được gán trong cùng một cụm

giống như thuật toán K-means. Thuật toán cực đại hóa kỳ vọng tổng quát được thay đổi

sao cho chỉ các mô hình hỗn hợp thỏa mãn các ràng buộc mới được xem xét. Tiếp cận

102

này coi các thông tin bổ sung là các ràng buộc cứng và đảm bảo rằng tất cả các ràng

buộc đều được thỏa mãn một cách nghiêm ngặt. Cách tiếp cận này có thể giải quyết

vấn đề phân cụm theo trực giác và các vấn đề khác của phân cụm.

Một số tiếp cận sử dụng thông tin bổ sung để tạo ra các ràng buộc mềm.

Thay vì thỏa mãn tất cả các ràng buộc, các tiếp cận này chỉ yêu cầu thỏa mãn nhiều

nhất càng ràng buộc có thể và đưa ra điểm trừ đối với những ràng buộc không thỏa

mãn. Các nhà nghiên cứu đã thay đổi mô hình trộn cho phân cụm dữ liệu bằng cách

định nghĩa lại quá trình sinh dữ liệu thông qua các biến ẩn.

4.1.2. Tiếp cận dựa trên khoảng cách

Trong tiếp cận này, một số thuật toán phân cụm sử dụng độ đo khoảng cách. Tuy

nhiên, độ đo khoảng cách trước tiên được huấn luyện để thỏa mãn các nhãn hoặc ràng

buộc trong dữ liệu huấn luyện. Các tiếp cận phân cụm bán giám sát được chia thành 2

nhóm: các điểm dữ liệu trong ràng buộc must-link được phân cách bằng khoảng cách

nhỏ và điểm dữ liệu trong ràng buộc cannot-link được phân cách bằng khoảng cách lớn.

( ) ( )

Khoảng cách giữa hai điểm dữ liệu bất kỳ và được biểu diễn như sau:

( ) ‖ ‖

(4.1) Trong đó, là độ đo khoảng cách bao gồm khoảng cách chuỗi chỉnh sửa sử

dụng kỹ thuật Maximum Entropy, độ phân kỳ Jensen-Shannon giảm độ nghiêng,

khoảng cách Euclide biến đổi theo thuật toán đường đi ngắn nhất, khoảng cách

Mahalanobis tối ưu.

Một số kỹ thuật học độ đo khoảng cách được nghiên cứu rộng rãi trong học

bán giám sát và không giám sát như: Độ đo khoảng cách địa phương chỉ tập trung

vào các ràng buộc trong miền cục bộ và được sử dụng điển hình trong phân lớp bán

giám sát. Mặt khác, độ đo khoảng cách toàn cục xem xét đồng thời tất cả các ràng

buộc cặp đôi. Ví dụ, vấn đề tối ưu lồi - cực tiểu khoảng cách giữa các điểm dữ liệu

có quan hệ ràng buộc must-link và cực đại khoảng cách giữa các điểm dữ liệu có

quan hệ ràng buộc cannot-link – được giải quyết để tìm độ đo tối ưu. Kỹ thuật học

độ đo khoảng cách phi tuyến.

Ý tưởng về phân cụm bán giám sát dựa trên độ đo khoảng cách được mở

103

rộng thành học nhãn biểu diễn độ tương đồng dữ liệu cặp đôi. Tương tự như học

dựa trên độ đo khoảng cách, hàm tính độ tương đồng dựa trên nhân (kernel

similarity function) được thay đổi để phù hợp với các ràng buộc cặp đôi cho trước,

ví dụ: các điểm dữ liệu trong quan hệ must-link có độ tương tự lớn và các điểm dữ

liệu trong quan hệ cannot-link có độ tương tự nhỏ. Độ tương đồng dựa trên nhân

(kernel similarity) được thay đổi bằng cách kết hợp các ràng buộc trong hàm mục

tiêu. Một số tiếp cận không tham số cho học dựa trên nhân (kernel learning) cũng

được đề xuất để học độ đo tương tự cặp đôi.

Một số tiếp cận kết hợp hai phương pháp học bán giám sát cũng được đề

xuất. S. Basu [108] đã đề xuất một tiếp cận MCP-Kmeans kết hợp hai giải pháp trên

bằng việc thích nghi hàm mục tiêu trong K-means. Đồng thời, thuật toán cực đại

hóa entropy được sử dụng để cập nhật khoảng cách tương tự của các điểm dữ liệu.

Theo Basu, sự kết hợp này có thể mang lại hiệu quả thực thi vượt bậc. Tuy nhiên,

vấn đề lớn nhất là xác định trọng số của hàm mục tiêu, bên cạnh đó, hàm mục tiêu

có thể hội tụ ở cực tiểu địa phương.

Trong tiếp cận của chúng tôi, một thuật toán phân cụm bán giám sát dựa trên

tiếp cận dựa vào tìm kiếm được sử dụng nhằm cải tiến chất lượng phân cụm và phân

lớp dữ liệu. Mặc dù, phân lớp và phân cụm là hai tác vụ có liên quan gần gũi với

nhau, nhưng có nhiều điểm hoàn toàn khác nhau. Trong khi, phân cụm là kỹ thuật

học không giám sát để nhóm các dữ liệu có nội dung tương tự với nhau, phân lớp là

tác vụ học giám sát để phân lớp dữ liệu vào các lớp theo chủ đề, theo loại.

Các kỹ thuật học bán giám sát như thuật toán Bayes ngây thơ và thuật toán

cực đại hóa entropy EM và phương pháp DKS thường sử dụng kỹ thuật lặp để sử

dụng dữ liệu không nhãn để làm mịn bộ phân lớp. Đầu tiên, mỗi mẫu dữ liệu không

nhãn sẽ được bộ phân lớp gán một nhãn. Tiếp đó, các mẫu dữ liệu không nhãn sau

khi được gán nhãn sẽ tham gia vào việc huấn luyện lại bộ phân lớp. Cuối cùng, Quy

trình gán nhãn và huấn luyện lại sẽ lặp cho đến khi đạt điểm hội tụ của bộ phân lớp.

Điểm khác biệt là trong thuật toán phân cụm bán giám sát TESC được sử dụng

trong tiếp cận của chúng tôi, việc sử dụng dữ liệu có nhãn và không nhãn không

104

thực hiện tuần tự mà cả dữ liệu có hãn và không nhãn đồng thời tham gia vào quá

trình phân cụm. Với giả thiết, các mẫu dữ liệu được lấy ra từ đa thành phần dữ liệu.

Các dữ liệu có nhãn được sử dụng để xác định cụm và dữ liệu không nhãn được sử

dụng để điều chỉnh tâm cụm.

4.2. Mô hình phân lớp đa nhãn bán giám sát

4.2.1. Phát biểu bài toán phân lớp đa nhãn bán giám sát

Phát biểu bài toán phân lớp đa nhãn bán giám sát theo tiếp cận phân cụm bán

giám sát được thể hiện như sau:

Gọi ̅ * ̅ ̅ + là tập văn bản, trong đó ̅ ̅ tương ứng là tập dữ

liệu đã gán nhãn và tập dữ liệu chưa gán nhãn, trong đó L là tập bao gồm nhãn

được định nghĩa trước { };

( ) } ( ), trong đó,

Trong bước huấn luyện, mục tiêu là xây dựng một phân hoạch trên tập dữ

( )

liệu ̅ * ̅ ̅ + * + và {

̅ và ( ). Các văn bản trong mỗi hoạch

được gán cùng nhãn cụm .

Trong tiếp cận phân cụm không giám sát truyền thống, số cụm thường được

xác định trước một cách thủ công. Tuy nhiên, trong mô hình của chúng tôi, số cụm

trong phân hoạch không được xác định trước mà được tính toán dựa trên tập

nhãn, bản thân tập dữ liệu bao gồm dữ liệu có nhãn và dữ liệu không nhãn. Điều

này thể hiện sự linh động cũng như phụ thuộc miền dữ liệu của bài toán.

Sau khi thu được phân hoạch , chúng tôi xây dựng mô hình phân lớp sử

dụng phương pháp tìm kiếm láng giềng gần nhất để dự đoán tập nhãn cho các dữ

liệu không nhãn theo công thức.

( )

(4.2) Trong đó, ( ), là tâm cụm và ( ) là độ đo

khoảng cách được sử dụng để xác định độ tương tự của dữ liệu. Theo đó, văn bản chưa gán nhãn sẽ được gán nhãn của cụm là cụm gần nhất với . Mô hình đã tận dụng được dữ liệu chưa gán nhãn đưa vào quá trình phân hoạch và xây dựng

105

mô hình phân lớp để dự đoán nhãn cho các dữ liệu không nhãn .

Tư tưởng lớn nhất của mô hình là xây dựng tập đặc trưng riêng cho nhãn/ tập

nhãn dựa trên kỹ thuật phân cụm bán giám sát nhằm tận dụng được nguồn dữ liệu

chưa gán nhãn dồi dào. Ý tưởng này xuất phát từ hai công trình LIFT và TESC sẽ

được trình bày tổng quát sau đây.

4.2.2. Thuật toán phân lớp đa nhãn dựa trên kỹ thuật phân cụm bán giám sát

Tiếp cận phổ biến cho phân lớp đa nhãn là chuyển đổi bài toán như trình bày

ở phần 1.2.1.1. Trong đó, bài toán phân lớp đa nhãn chuyển về các bài toán phân

lớp truyền thống, điển hình là xây dựng mỗi một bộ phân lớp cho một nhãn sau đó

tập nhãn của mỗi phần tử dữ liệu được tập hợp lại từ các bộ phân lớp nhị phân

(phương pháp chuyển đổi nhị phân). Phương pháp này có ưu điểm là đơn giản

nhưng lại bỏ qua mối quan hệ giữa các nhãn nên trong một số trường hợp làm giảm

thực thi phân lớp. Mặt khác, thuật toán sử dụng chung một tập đặc trưng cho tất cả

các bộ phân lớp trên từng nhãn. Thực tế là mỗi nhãn chỉ phụ thuộc vào một số đặc

trưng nhất định nên tiếp cận sử dụng chung một tập đặc trưng cho tất cả các bộ phân

lớp trên từng nhãn có thể không tối ưu.

Dựa trên giả thiết rằng, các đặc trưng riêng nhãn là những đặc trưng mang

tính chất phân biệt của một nhãn, khi sử dụng tập đặc trưng này vào quá trình phân

lớp sẽ mang lại hiệu quả tốt hơn, một số tiếp cận đã được đề xuất nhằm xây dựng

tập đặc trưng riêng nhãn như [54], [59], [83], trong đó xem xét tập dữ liệu theo từng

nhãn chia thành hai tập con âm và dương với tập dương là tập chứa các phần tử dữ

liệu có nhãn đang xét, ngược lại tập âm là tập chứa các phần tử dữ liệu không chứa

nhãn đang xét; sau đó xây dựng tập đặc trưng trên từng tập dữ liệu âm/dương bằng

các kỹ thuật khác nhau. H. Qu và cộng sự [54] xây dựng tập đặc trưng riêng nhãn

bằng kỹ thuật tính toán và lựa chọn các đặc trưng có mật độ cao trong tập âm, tập

dương theo từng nhãn. M.L. Zhang và L.Wu [83] xây dựng tập đặc trưng riêng biệt

sử dụng kỹ thuật phân cụm truyền thống (k-means). J.J. Zhang và cộng sự [59] đề

xuất một thuật toán phân cụm quang phổ để tìm quan hệ cấu trúc giữa hai tập âm,

dương.

106

Tiếp thu ý tưởng về việc xây dựng tập đặc trưng riêng nhãn, tiếp cận của chúng

tôi có sự khác biệt trong phân chia tập dữ liệu kết hợp chiến thuật tham lam, tập đặc

trưng riêng biệt được tạo ra không chỉ cho một nhãn mà có thể là cho cả một tập nhãn.

Thêm nữa, chúng tôi sử dụng một kỹ thuật phân cụm bán giám sát nhằm tận dụng được

nguồn tài nguyên không nhãn phong phú để nâng cao thực thi của mô hình.

Trước tiên, luận án tóm tắt các ý tưởng chính trong hai thuật toán phân lớp

đa nhãn theo tiếp cận giám sát khai thác các đặc trưng riêng nhãn LIFT cho dữ liệu

đa nhãn và thuật toán phân cụm bán giám sát TESC cho dữ liệu đa lớp.

4.2.2.1. Thuật toán TESC và LIFT

a. Thuật toán phân lớp đa nhãn sử dụng tập đặc trưng riêng biệt LIFT

M.L. Zhang và L.Wu [83] đề xuất thuật toán LIFT theo tiếp cận chuyển đổi

bài toán, trong đó bài toán phân lớp đa nhãn thường được đưa về q bộ phân lớp đơn

nhãn tương ứng với tập q nhãn. Điểm nổi bật của LIFT là bước xây dựng tập đặc

trưng riêng biệt cho mỗi một bộ phân lớp tương ứng với nhãn đang xét thông qua

việc ánh xạ tập dữ liệu sang đặc trưng khoảng cách đến các tâm cụm thu được từ

phân hoạch trên tập dữ liệu. Thuật toán gồm 2 phần:

Phần 1. Xây dựng tập đặc trưng nhãn riêng biệt

1. Với mỗi nhãn: (nhãn lk) Xác định tập âm và tập dương

 Tập âm : Tập các thể hiện không có nhãn lk

 Tập dương : Tập các thể hiện có nhãn lk

2. Phân cụm k-means trên tập âm, dương với số lượng cụm bằng nhau và được

(4.3)

tính theo công thức.

⌈ ( )⌉

Trong đó, , - là tham số tỷ lệ để điều chỉnh số lượng cụm

(4.4)

)]

( ) [ (

) (

) (

) (

3. Tính khoảng cách của thể hiện với các tâm cụm được ánh xạ

Phần 2. Xây dựng mô hình

(4.5)

*( ( ) ( )) ( ) +

1. Với mỗi nhãn lk Xây dựng tập huấn luyện nhị phân

107

Trong đó:

( ) ( )

2. Áp dụng bộ phân lớp nhị phân vào tập trên để thu được bộ phân lớp

cho nhãn lk

3. Bộ phân lớp đa nhãn bao gồm q bộ phân lớp gk (k=1,..,q)

Cho 1 thể hiện u chưa có nhãn, xác định nhãn cho u theo công thức

{ ( ( )) } (4.6) Thuật toán LIFT có thể cải tiến với một số tùy biến như xác định số lượng

cụm trên các tập dữ liệu âm, dương; kỹ thuật phân cụm k-means có thể được thay

thế bằng các kỹ thuật phân cụm khác.

Thừa kế sự linh hoạt và cải tiến trong tiếp cận này, chúng tôi đã đề xuất một

kỹ thuật xác định tập nhãn đặc trưng cho mỗi nhãn hoặc tập nhãn, trong đó kết hợp

kỹ thuật phân cụm bán giám sát thay thế cho kỹ thuật phân cụm k-means truyền

b. Thuật toán phân cụm bán giám sát TESC

thống, và phân chia dữ liệu dựa trên kỹ thuật tham lam để xác định nhãn ưu tiên…

TESC [120] là thuật toán phân cụm bán giám sát được đề xuất cho dữ liệu đa

lớp, trong đó tập nhãn lớp được định nghĩa trước nhưng mỗi điểm dữ liệu chỉ thuộc

về một lớp. Tiếp cận TESC gồm hai phần: phần 1 là bước phân cụm để xác định các

phân hoạch trên dữ liệu có nhãn và dữ liệu không nhãn; phần 2 là dự đoán nhãn lớp

cho dữ liệu mới dựa trên các phân hoạch dữ liệu xây dựng ở bước trên.

Phần 1 – Phân hoạch dữ liệu

Trong bước phân hoạch dữ liệu, tác giả sử dụng dữ liệu có nhãn để giám sát

quá trình học các phân hoạch và dữ liệu không nhãn được sử dụng để điều chỉnh

tâm cụm. Ý tưởng của bước phân cụm được thể hiện như sau:

Bước 1. Khởi tạo

Mỗi điểm dữ liệu coi là 1 cụm, kể cả đối tượng chưa có nhãn thì phân cụm

một mình cụm này và tâm cụm chính là điểm dữ liệu đó, nhãn của cụm là nhãn của

điểm dữ liệu. Lưu ý, nhãn cụm của điểm dữ liệu không có nhãn được đặt là

unlabeled. Cụm này đánh dấu là chưa xác định.

108

Bước 2. Gom cụm - Lặp lại quy trình sau:

Tính khoảng cách giữa các tâm cụm, 2 cụm nào có khoảng cách nhỏ nhất thì

có thể gộp lại hoặc xác định lại theo tiêu chuẩn sau:

- Nếu hai cụm đều được gán nhãn khác nhau: không gộp mà xác định hai cụm

phân biệt. Đánh dấu lại là cụm đã được xác định,

- Nếu hai cụm đều chưa được gán nhãn: gộp hai cụm lại và đặt tên nhãn là

unlabeled,

- Nếu hai cụm có một cụm đã được gán nhãn và cụm kia chưa được gán nhãn:

gộp lại thành một cụm chung với nhãn cụm là nhãn của cụm đã có nhãn,

- Nếu hai cụm đều đã được gán cùng một nhãn: gộp hai cụm này thành một

cụm.

Điều kiện dừng vòng lặp: số cụm có nhãn chưa xác định còn lại nhỏ hơn hai.

Bước 3. Đầu ra:

- Loại bỏ các cụm có kích thước nhỏ hơn ba

- Phân hoạch các cụm đã gán nhãn.

Phần 2: Phân lớp - gán nhãn cho dữ liệu không nhãn dựa trên tập các cụm ở phần 1.

- Tính khoảng cách của dữ liệu cần gán nhãn đến các tâm cụm; từ đó tìm cụm

gần nhất với dữ liệu cần gán nhãn

- Gán nhãn của cụm gần nhất cho dữ liệu cần gán nhãn

Thuật toán TESC được thiết kế để thực thi trên tập dữ liệu đa lớp, trong đó

có nhiều nhãn lớp được định nghĩa trước, nhưng mỗi điểm dữ liệu chỉ thuộc về một

lớp. Do đó để sử dụng TESC vào tập dữ liệu đa nhãn, chúng tôi đã biến đổi dữ liệu

đa nhãn về dữ liệu đơn nhãn theo hướng sử dụng kỹ thuật tập con.

4.2.2.2. Thuật toán phân lớp đa nhãn bán giám sát

Tiếp cận xây dựng tập đặc trưng riêng biệt cho nhãn/tập nhãn trong mô hình

- Một là, LIFT tiến hành xây dựng tập đặc trưng cho tất cả các nhãn theo tuần

đề xuất có những điểm khác biệt so với LIFT ở các khâu quyết định sau:

tự. Chúng tôi tiến hành xác định nhãn chiếm ưu thế rồi xây dựng tập đặc

109

trưng riêng biệt cho nhãn đó. Trong đó, nhãn chiếm ưu thế là nhãn được

chọn theo chiến thuật tham lam có tần suất xuất hiện lớn nhất. Theo đó, các

- Hai là, LIFT tiến hành phân chia tập dữ liệu theo khái niệm tập âm và tập

nhãn xuất hiện với tần suất lớn được coi là nhãn nổi bật và có ảnh hưởng.

dương. Trong đó, tập âm là tập các dữ liệu không chứa nhãn đang xét và tập

dương là tập các dữ liệu chứa nhãn đang xét. Trong tiếp cận của chúng tôi,

phân chia dữ liệu một cách sâu sắc hơn bao gồm tập dữ liệu chỉ chứa nhãn

chiếm ưu thế đang xét, tập dữ liệu chứa nhãn đang xét và các nhãn khác và

- Ba là, LIFT xây dựng tập đặc trưng dựa trên kỹ thuật phân cụm, tác giả đã

tập dữ liệu không chưa nhãn đang xét.

khuyến khích sử dụng các thuật toán phân cụm khác nhau và lựa chọn k-

means là thuật toán phân cụm dữ liệu. Trong tiếp cận của chúng tôi, một

thuật toán phân cụm bán giám sát được sử dụng nhằm tận dụng được các dữ

liệu chưa gán nhãn phong phú bên ngoài. TESC là thuật toán phân cụm bán

giám sát được áp dụng cho dữ liệu đa lớp, nên một bước biến đổi trung gian

được sử dụng để thích nghi dữ liệu đa nhãn cho TESC.

Sau khi các đặc trưng nhãn riêng biệt được tạo ra dựa trên kết quả phân cụm

bán giám sát, mô hình phân lớp được xây dựng dựa trên kỹ thuật láng giềng gần

nhất để gán nhãn của cụm gần nhất cho dữ liệu cần dự đoán nhãn.

Cụ thể, mô hình gồm hai bước: Bước 1 – phân cụm dữ liệu. Bản chất là xây

dựng tập đặc trưng riêng biệt cho các nhãn theo trình tự nhãn chiếm ưu thế. Bước 2

– phân lớp nhằm xác định tập nhãn cho dữ liệu dựa trên kỹ thuật láng giềng gần

a. Phân cụm dữ liệu

nhất khai thác tập nhãn của cụm láng giềng gần nhất.

Trong bước phân cụm, dựa trên chiến thuật tham lam lựa chọn nhãn chiếm

ưu thế theo tần suất xuất hiện, tập dữ liệu huấn luyện bao gồm dữ liệu có nhãn và

dữ liệu không nhãn được phân chia thành ba tập con, qua bước biến đổi dữ liệu để

thích nghi vận dụng kỹ thuật phân cụm bán giám sát TESC trên các tập con dữ liệu.

110

Thuật toán phân cụm được đặt tên là MULTICSLearn(.) được trình bày theo dạng

( ̅ )

giả mã (pseudo-code) như sau:

Đầu vào:

̅: Tập dữ liệu có nhãn và không nhãn. ̅ * ̅ ̅ +, Trong đó

̅ và ̅ lần lượt là tập dữ liệu có nhãn và không nhãn.

Khởi tạo ban đầu ̅ là toàn bộ tập dữ liệu huấn luyện.

: tập nhãn mặc định cho tất cả dữ liệu trong ̅ . Khởi tạo

ban đầu là tập rỗng. : tập nhãn (ngoài ) có thể thêm vào dữ liệu trong ̅

( ). Khởi tạo ban đầu là tập tất cả các nhãn Đầu ra:

: tập các cụm được gán nhãn.

Thuật toán:

1. Gọi là một nhãn trong tập có tần xuất xuất hiện

lớn nhất trong tập dữ liệu ̅

2. Xây dựng tập nhãn giả * +, trong đó

* +, * + * * ++, * +

/* gán cho dữ liệu hiện tại có nhãn * +, gán

cho dữ liệu hiện tại có nhãn * + các nhãn khác

và gán cho dữ liệu hiện tại không chứa nhãn */

̅ ( ̅ * +); /* Xây dựng tập dữ liệu đơn nhãn ̅ từ tập ̅ bằng cách

chuyển đổi theo bộ ba nhãn giả * + để thích nghi cho thuật toán phân cụm bán giám sát TESC và thu được

phân hoạch trên tập dữ liệu theo 3 loại nhãn giả.*/

( ̅ )

3. Chia tập dữ liệu ̅ thành 3 tập con dựa trên phân hoạch :

a. ̅ : tập chứa dữ liệu có nhãn và không nhãn trong

đó dữ liệu có nhãn được gãn nhãn

111

b. ̅ : tập chứa dữ liệu có nhãn và không nhãn trong

đó dữ liệu có nhãn được gãn nhãn

c. ̅ : tập chứa dữ liệu có nhãn và không nhãn trong

đó dữ liệu có nhãn được gãn nhãn

4. Đối với tập ̅ :

( ̅ * +)

5. Đối với tập ̅

a. Nếu mọi dữ liệu trong ̅ có cùng tập nhãn, gọi

tập nhãn này là

( ̅ )

b. Ngược lại

// Trường hợp các dữ liệu trong ̅ không đồng nhất nhãn.

// Chuyển nhãn từ tập nhãn sang tập nhãn

( ̅ , * + * + )

6. Đối với tập ̅

a. Nếu mọi dữ liệu trong ̅ có cùng tập nhãn, gọi

tập nhãn này là

( ̅ )

b. Ngược lại

//Trường hợp các dữ liệu trong ̅ không đồng nhất nhãn

// Xóa từ tập nhãn

( ̅ * + )

7. Return

Thủ tục 4.1 Thủ tục phân cụm MULTICSLearn

Để tìm phân hoạch trên tập dữ liệu, đầu tiên khởi tạo tập C rỗng {},

sau đó gọi thủ tục phân cụm với các tham số như sau: ( ̅ * + ).

Phân hoạch C kết quả của MULTICSLearn chính là bộ phân lớp đa nhãn cần tìm.

Sau đây là ví dụ minh họa tư tưởng thuật toán trên tập dữ liệu nhỏ:

112

Giả sử tập dữ liệu đầu vào gồm 350 văn bản D=(d1, d2, …, d350} gồm cả tài

liệu đã được gán nhãn và chưa được gán nhãn trong tập 5 nhãn L = {l1, l2, l3,l4, l5}

với 10 tài liệu có 5 nhãn, 12 tài liệu có bốn nhãn {l1, l2, l3,l4 }, …

Khởi tạo: *+, * +, ( xuất hiện với tần suất

lớn nhất 100 lần)

Xây dựng tập nhãn giả: * + trong đó: Tài liệu chỉ có nhãn được gán nhãn giả ; tài liệu có nhãn và ít nhất một nhãn khác được gán nhãn

giả , tài liệu không có nhãn được gán nhãn giả . Ví dụ tập dữ liệu được gán

nhãn giả như sau: 20 tài liệu gán nhãn , 80 tài liệu gán nhãn , 70 tài liệu gán

nhãn và 180 tài liệu chưa gán nhãn.

Phân hoạch trên tập dữ liệu với nhãn giả sử dụng thuật toán TESC, trong đó

sẽ gom được dữ liệu có nhãn va không nhãn vào các cụm. Sau phân hoạch chia tập

D thành 3 tập con: D1 bao gồm các tài liệu có nhãn và tài liệu không nhãn, D2

bao gồm các tài liệu có nhãn và tài liệu không nhãn, D3 bao gồm các tài liệu có

nhãn và tài liệu không nhãn.

Lần lượt xét các tập con:

- Xét D1 là tập có các tài liệu có nhãn đồng nhất và các tài liệu không nhãn:

Thực hiện phân hoạch trên tập D1 sử dụng thuật toán TESC thu được một

tập các cụm.

- Xét D2:

o Nếu các tài liệu có nhãn trong D2 đồng nhất nhãn (theo tập nhãn ban

đầu ) thì tiến hành phân hoạch trên D2 sử dụng thuật

toán TESC (coi như các tài liệu đồng nhất nhãn tương đương với tài

liệu được gán một nhãn đơn) thu được một tập các cụm.

o Nếu các tài liệu có nhãn trong D2 không đồng nhất nhãn nhãn (theo

tập nhãn ban đầu ) thì chuyển nhãn l1 sang tập L1 sau đó

tiến hành đệ quy MULTICS trên D2 với đầu vào * +, * +.

- Xét D3:

113

o Nếu các tài liệu có nhãn trong D3 đồng nhất nhãn (theo tập nhãn ban

đầu ) thì tiến hành phân hoạch trên D3 sử dụng thuật

toán TESC (coi như các tài liệu đồng nhất nhãn tương đương với tài

liệu được gán một nhãn đơn) thu được một tập các cụm.

o Nếu các tài liệu có nhãn trong D3 không đồng nhất nhãn nhãn (theo

tập nhãn ban đầu ) thì loại bỏ nhãn l1 trong tập L2 sau đó

tiến hành đệ quy MULTICS trên D3 với đầu vào * +, * +.

Thuật toán sẽ dừng lại khi các tập con đồng nhất nhãn hoặc số lượng văn bản

nhỏ hơn 3 (theo cấu hình của thuật toán TESC). Cuối cùng thu được tập các cụm là

b. Phân lớp dữ liệu

phân hoạch trên tập dữ liệu.

Trong bước phân lớp dữ liệu, đầu vào là phân hoạch trên tập dữ liệu được

xây dựng ở bước huấn luyện và dữ liệu cần gán nhãn. Đầu ra của bước này sẽ là tập

nhãn tương ứng với văn bản cần gán nhãn. Phương pháp 1NN được áp dụng ở bước

này theo hướng tính khoảng cách của văn bản cần gán nhãn với tâm các cụm để tìm

ra cụm gần nhất, khi đó tập nhãn của cụm gần nhất sẽ được gán cho văn bản cần

gán nhãn. Giả mã của bước xác định nhãn được thể hiện như sau:

Thủ tục MULTICSClassifier

Đầu vào:

: tập các cụm dữ liệu đã được gán nhãn * + : dữ liệu cần gán nhãn

Đẩu ra:

: Tập các nhãn tương ứng với văn bản Thuật toán:

1. // là cụm đầu tiên xét đến trong

2. // là nhãn của cụm

3. Với mỗi cụm

4. ( ) ‖ ‖ //tính khoảng cách của và

114

5. If ( ) ( )

6.

7.

8. End for

9.

Thủ tục 4.2 Thủ tục phân lớp MULTICSClassifier

Bằng việc chia nhỏ tập dữ liệu thành ba tập con, mô hình đề xuất MULTICS đã

hạn chế được các vấn đề về độ phức tạp tính toán. Tuy nhiên, do sự phức tạp của dữ liệu

nên việc xác định tính chất và lực lượng các tập con để tính toán số vòng lặp của thuật

toán trong trường hợp tổng quát là rất khó. Xét một số trường hợp đơn giản như sau:

- Trường hợp vùng |D2| |D3| | ̅|/2. Theo công thức truy hồi, công thức

tính thời gian thực thi như sau:

T(n) = thời gian phân hoạch dữ liệu thành 3 tập (D1, D2, D3) và 2 lần đệ quy

MULTICS trên D2 và D3

Trong đó thời gian phân hoạch dữ liệu thành 3 tập (D1, D2, D3) sử dụng TESC có độ phức tạp là O(n2), thời gian đệ quy MULTICS trên D2 và D3 là T(n/2).

Do đó:

( ) ( )

/ ( . /) .

/ ( ) ( . /) ( ) .

( . ) . / ( ) /

Công thức dừng khi đạt được T(1). Khi đó 

Ta có: ( ) . / ( ) ( )

115

Khi đó, độ phức tạp tính toán trong trường hợp này là ( )

- Trường hợp vùng |D1| |D2| |D3| | ̅|/3.

T(n) = thời gian phân hoạch dữ liệu thành 3 tập (D1, D2, D3), thời gian phân

hoạch trên D1 và 2 lần đệ quy MULTICS trên D2 và D3

Trong đó thời gian phân hoạch dữ liệu thành 3 tập (D1, D2, D3) sử dụng TESC có độ phức tạp là O(n2), thời gian phân hoạch thời gian đệ quy MULTICS

trên D2 và D3 là T(n/3). Do đó:

Theo công thức truy hồi, ta có công thức tính thời gian thực thi như sau:

( ) . /

Tương tự như trên thì ( ) ( )

Như vậy, có thể thấy mô hình thực thi tương đối tốt trong các trường hợp

đơn giản xét trên đây.

4.2.3. Mô hình phân lớp đa nhãn bán giám sát đề xuất

Luận án đề xuất một mô hình phân lớp đa nhãn bán giám sát, trong đó kết hợp

các bước bổ sung, làm giàu các đặc trưng nhằm tăng cường biểu diễn cho dữ liệu, bước

lựa chọn đặc trưng nhằm loại bỏ các đặc trưng dư thừa, không liên quan và giữ lại các

đặc trưng quan trọng, bước vận dụng thuật toán phân lớp bán giám sát MULTICS đề

xuất ở trên nhằm khai thác các nguồn dữ liệu đa nhãn phong phú và sẵn có trong miền

ứng dụng. Quy trình các bước giải quyết bài toán được thực hiện như sau:

Pha 1: Xây dựng mô hình phân lớp đa nhãn dựa trên kỹ thuật phân cụm bán

giám sát

- Bước 1: Tiền xử lý và xây dựng tập đặc trưng cho dữ liệu huấn luyện bao

gồm dữ liệu có nhãn và dữ liệu không nhãn

- Bước 2: Làm giàu đặc trưng

- Bước 3: Rút gọn đặc trưng

- Bước 4: Xây dựng bộ phân lớp theo thuật toán MULTICSLearn.

Pha 2: Phân lớp dữ liệu và đánh giá

116

- Bước 1: Tiền xử lý và xây dựng tập đặc trưng cho dữ liệu kiểm thử

- Bước 2: Làm giàu đặc trưng

- Bước 3: Biểu diễn dữ liệu kiểm thử theo tập đặc trưng rút gọn

- Bước 4: Sử dụng bộ phân lớp trên tập dữ liệu kiểm thử và đánh giá.

Quy trình 4.1 Các bước giải quyết bài toán theo mô hình đề xuất

Mô hình biểu diễn cho quy trình này được thể hiện ở Hình 4.1

Hình 4.1 Mô hình phân lớp bán giám sát đề xuất

4.3. Một mô hình ứng dụng phân lớp đa nhãn văn bản bán giám sát

4.3.1. Mô hình đề xuất

Thừa hưởng các kết quả thu được từ các mô hình biểu diễn dữ liệu theo chủ

đề ẩn (đã trình bày ở Chương 3) nhằm khai thác các ngữ nghĩa ẩn làm giàu cho tập

đặc trưng và tiếp cận bán giám sát phân lớp đa nhãn theo thuật toán MULTICS trình

bày ở trên, luận án đề xuất một mô hình phân lớp đa nhãn bán giám sát cho miền

ứng dụng văn bản tiếng Việt như trình bày ở Hình 4.2bvà các bước giải quyết bài

toán được thực hiện theo Quy trình 4.2.

117

- Bước 1: Tiền xử lý dữ liệu: tách câu, tách từ, loại bỏ từ dừng, chuẩn hóa

Pha 1: Huấn luyện mô hình

- Bước 2: Xây dựng mô hình chủ đề ẩn LDA và tập đặc trưng chủ đề ẩn.

- Bước 3: Lựa chọn đặc trưng dựa trên phương pháp thông tin tương hỗ MI

dữ liệu và biểu diễn dữ liệu theo đặc trưng TFIDF / Nhị phân

do G. Doquire và M. Verleysen [34] đề xuất để rút gọn và tìm ra tập đặc

- Bước 4: Xây dựng bộ phân lớp đa nhãn sử dụng thuật toán MULTICS

trưng tiêu biểu nhất cho quá trình phân lớp.

- Bước 1: Tiền xử lý dữ liệu kiểm thử và xây dựng tập đặc trưng

- Bước 2: Bổ sung tập đặc trưng phân phối chủ đề ẩn cho dữ liệu huấn luyện

- Bước 3: Biểu diễn dữ liệu kiểm thử theo tập đặc trưng lựa chọn

- Bước 4: Phân lớp sử dụng bộ phân lớp đa nhãn ở Pha 1

Pha 2: Phân lớp đa nhãn sử dụng mô hình huấn luyện

Quy trình 4.2 Quy trình giải quyết bài toán.

4.3.1.1. Pha 1. Huấn luyện mô hình

Bước 1: Xuất phát từ đặc điểm kiểu dữ liệu về phân phối xác suất chủ đề ẩn

là kiểu dữ liệu thực, trong khi thuật toán MULTICS ở trên sử dụng đặc trưng nhị

phân, nên để khảo sát đặc trưng về kiểu dữ liệu, luận án đề xuất xây dựng các tập

đặc trưng khác nhau bao gồm biểu diễn theo đặc trưng TFIDF (dữ liệu kiểu thực –

liên tục) và đặc trưng nhị phân (dữ liệu kiểu nguyên – rời rạc). Sau bước này, thu

được vector biểu diễn đặc trưng.

Bước 2: Xây dựng mô hình chủ đề ẩn LDA và tập vector đặc trưng phân

phối xác suất các chủ đề ẩn. Sau bước này, thu được tập đặc trưng dữ liệu bao gồm

đặc trưng TFIDF/nhị phân và đặc trưng phân phối xác suất chủ đề ẩn.

( ) ( ( ) ( ) ( ) ) ( ) ( ( ) ( ) ( ) ) Trong đó, ( ) là giá trị TFIDF của từ thứ i trong văn bản d

( ) là giá trị nhị phân của từ thứ i trong văn bản d

118

là giá trị phân phối xác xuất của văn bản d trên chủ đề ẩn thứ i

Hình 4.2 Mô hình ứng dụng phân lớp đa nhãn bán giám sát cho văn bản tiếng Việt

Bước 3: Lựa chọn đặc trưng là một bước cơ bản trong mô hình xử lý dữ liệu

nhằm loại bỏ các đặc trưng dư thừa, không liên quan và giữ lại các đặc trưng quan

trọng. Luận án khảo sát ý nghĩa của bước lựa chọn đặc trưng sử dụng kỹ thuật thông

tin tương hỗ.

Bước 4: Xây dựng mô hình phân lớp sử dụng thuật toán bán giám sát

MULTICS. Sau khi thu được phân hoạch trên tập dữ liệu, mô hình được xây dựng

theo phương pháp tìm kiếm láng giềng gần nhất để dự đoán tập nhãn cho dữ liệu

mới dựa trên tập nhãn của cụm gần nhất.

119

4.3.1.2. Pha 2. Phân lớp sử dụng mô hình huấn luyện

Dữ liệu mới được tiền xử lý và xây dựng tập đặc trưng tương tự như ở Bước

1, 2, 3 trong pha huấn luyện mô hình. Sau đó được đưa vào bộ phân lớp để xác định

nhãn theo phương pháp 1NN.

4.3.2. Ứng dụng phân lớp đa nhãn sử dụng mô hình đề xuất

Để đánh giá hiệu quả của mô hình đề xuất, mô hình cũng được áp dụng vào

bài toán đánh giá khách sạn như đã trình bày ở Chương 3. Ba tập dữ liệu được xây

dựng bao gồm: dữ liệu có nhãn, dữ liệu không nhãn và dữ liệu kiểm tra. Để đánh giá

sự đóng góp của dữ liệu có nhãn với mô hình, chúng tôi sinh ra các tập con tập dữ

liệu có nhãn với kích thước 500, 750, 1000 đánh giá. Đồng thời để đánh giá sự đóng

góp của dữ liệu không nhãn với mô hình, chúng tôi cũng sử dụng tập dữ liệu không

nhãn với các kích thước 0, 50, 100, 200 và 300 đánh giá. Các thực nghiệm sử dụng

cùng một tập dữ liệu kiểm thử bao gồm 250 đánh giá.

Ngoài ra, thực nghiệm sử dụng một tập dữ liệu trong miền ứng dụng để xây

dựng mô hình chủ đề ẩn LDA gồm hơn 22000 đánh giá. Các mô hình chủ đề ẩn

được xây dựng với số lượng chủ đề ẩn khác nhau để đánh giá mức độ ảnh hưởng

của đăc trưng phân phối xác suất chủ đề ẩn này.

Chúng tôi cũng xây dựng một mô hình phân lớp đa nhãn theo tiếp cận giám

sát dựa trên phương pháp chuyển đổi bài toán đa nhãn về bài toán đơn nhãn truyền

thống với nhân là kỹ thuật SVM. Mô hình này cũng được thực thi trên cùng tập dữ

liệu và kết quả tốt nhất ở nhóm dữ liệu huấn luyện gồm 750 đánh giá được sử dụng

để so sánh với mô hình đề xuất.

- Thực nghiệm 1 (ký hiệu là BN): Chỉ sử dụng tập đặc trưng nhị phân cho mô

Kịch bản thực nghiệm được thiết kế như sau:

- Thực nghiệm 2 (ký hiệu là BN+MI): Sử dụng tập đặc trưng nhị phân kết hợp

hình. Đây chính là thực nghiệm ở Mục 4.3

- Thực nghiệm 3 (ký hiệu là BN+LDA): Sử dụng tập đặc trưng nhị phân và

bước lựa chọn đặc trưng sử dụng thông tin tương hỗ.

đặc trưng phân phối xác suất chủ đề ẩn LDA.

120

- Thực nghiệm 4 (ký hiệu là TFIDF+LDA): Sử dụng tập đặc trưng TFIDF và

- Thực nghiệm 5 (ký hiệu là TFIDF+LDA+MI): Sử dụng tập đặc trưng TFIDF

đặc trưng phân phối xác suất chủ đề ẩn LDA.

và đặc trưng phân phối xác suất chủ đề ẩn LDA kết hợp với kỹ thuật lựa

chọn đặc trưng sử dụng thông tin tương hỗ.

Chúng tôi sử dụng độ đo dựa trên nhãn

( * +) như đã trình bày ở mục 1.2.3.2.

Kết quả thực nghiệm cơ sở theo hướng sử dụng tiếp cận chuyển đổi bài toán

về các bộ phân lớp nhị phân với nhân là kỹ thuật SVM cho kết quả tốt nhất ở bộ dữ

liệu huấn luyện gồm 750 nhận xét có gán nhãn với độ đo F1 là 63.9%. Các kết quả

thực nghiệm ứng dụng mô hình đề xuất đều cho thực thi tốt hơn phương pháp cơ sở

với kết quả tốt nhất có độ đo F1 là 85.3%. Sau đây sẽ đi sâu phân tích các kết quả

của kịch bản thực nghiệm theo mô hình đề xuất để phân tích ảnh hưởng của các

BN

BN + MI

Precisionmicro (%)

Recallmicro (%)

F1micro (%)

Precisionmicro (%)

Recallmicro (%)

F1micro (%)

Kích thước tập dữ liệu không nhãn

Kích thước tập dữ liệu huấn luyện

bước trong mô hình.

500

750

1000

0 50 100 200 300 0 50 100 200 300 0 50 100 200 300 74.3 76.3 73.1 74.8 81 75.7 77 74.8 74.1 79.9 80.3 78.4 83.1 75.9 78.2 75.8 78.7 78.5 76.4 76.1 76.8 78.2 78.2 81.2 80.4 78.1 81.2 82.7 84.6 80.9 75 77.5 75.7 75.6 78.5 76.2 77.6 76.4 77.5 80.2 79.1 79.8 82.8 80 79.5 77.4 81.4 80.6 83 79.6 77.7 82.4 82.1 80.7 79 80.1 80.7 81.3 81 82.4 81.1 77.7 78.7 82.5 80.4 81.5 81.3 82.3 82.5 82.3 79.6 81 83.3 84.4 83.9 79.2 79.5 79.7 82.7 80 79.6 81.8 82.2 81.6 80.6 79.8 80.9 82.3 82.6 83.2

Bảng 4.1 Kết quả thực nghiệm 1 và thực nghiệm 2

121

Kết quả thực nghiệm 1 và 2 được thể hiện ở Bảng 4.1 cho thấy việc sử dụng

dữ liệu không nhãn đều làm tăng hiệu quả thực thi của mô hình so với các thực

nghiệm không sử dụng dữ liệu không nhãn. Tuy nhiên, kết quả thực nghiệm 2 đều

thấp hơn các kết quả thực nghiệm 1 cho thấy kỹ thuật lựa chọn đặc trưng không làm

tăng hiệu quả thực thi của mô hình. Theo quan điểm của nghiên cứu sinh, bản thân

thuật toán MULTICS có quá trình xây dựng tập đặc trưng riêng nhãn/tập con nhãn

chứ không sử dụng toàn bộ tập đặc trưng, như vậy có thể coi đây là bước lựa chọn

các đặc trưng hữu ích riêng biệt cho nhãn/tập con nhãn. Do đó, việc sử dụng thêm

bước lựa chọn đặc trưng sử dụng thông tin tương hỗ ở thực nghiệm 2 làm giảm đi

hiệu quả thực thi của thuật toán MULTICS.

BN+LDA F1micro (%)

TFIDF+LDA F1micro (%)

TFIDF+LDA+MI F1 micro (%)

u ệ i l

Số lượng chủ đề

Số lượng chủ đề

Số lượng chủ đề

ữ d p ậ t

c ớ ư h t h c í K

n ã h n g n ô h k

10

15

25

50

100

10

15

25

100

10

15

25

50

100

50

0

79.4 79.1 79.2 80.5 80.6 79.2 81.5 82.4

80.9 79.5 82.4 80.5 80.7 80.6

80

50

79.5 80.1

80

82

80.9 80.9 78.4 82.5 85.3 81.5 82.2

83.9 81.8 83.7 82.8

100

81.1 81.1 79.6 80.3 80.2 81.3 84.9 84.4 82.3 83.5 83.4 83.5 82.8 83.6 82.7

200

79.8 80.6 79.8

80

79.8

81.9 81.2 81.4 82.3 82.3 81.4 83.5 83.8 83.6

79.4 3

300

80.2 79.8 80.6 79.7 80.3 80.8 81.9 82.6 81.7 83.8 80.5 83.4

84

83.6 83.9

Bảng 4.2 Kết quả thực nghiệm 3, thực nghiệm 4 và thực nghiệm 5

Số lượng thực nghiệm trong các nhóm thực nghiệm 3, 4, 5 tương đối lớn nên

luận án chọn các thực nghiệm có kết quả tốt nhất ở mỗi nhóm thực nghiệm để trình

bày ở Bảng 4.2. Kết quả thực nghiệm 3 cho thấy việc kết hợp đặc trưng nhị phân với

đặc trưng phân phối xác suất chủ đề ẩn làm giảm hiệu quả thực thi của mô hình. Điều

này có thể được lý giải bởi sự khác biệt về kiểu dữ liệu đặc trưng nhị phân (dữ liệu

nguyên) và kiểu dữ liệu của phân phối xác suất chủ đề ẩn (dữ liệu thực). Do đó, luận

án đề xuất tiến hành thực nghiệm 4 với sự đồng nhất kiểu dữ liệu thực trong đặc trưng

TFIDF và đặc trưng phân phối xác xuất chủ đề ẩn LDA. Kết quả thực nghiệm 4 cho

kết quả tốt hơn tất cả các thực nghiệm khác với kết quả tốt nhất là 85.3%. Thực

nghiệm 5 đề xuất kết hợp kỹ thuật lựa chọn đặc trưng sử dụng thông tin tương hỗ

không làm tăng hiệu quả thực thi mô hình so với thực nghiệm 4. Kết quả này một lần

122

nữa khẳng định thuật toán phân lớp đa nhãn bán giám sát MULTICS vẫn cho kết quả

tốt hơn mà không cần kết hợp với kỹ thuật lựa chọn đặc trưng.

4.4. Kết luận chương 4

Chương 4 đã trình bày một mô hình đề xuất cho phân lớp đa nhãn bán giám

sát. Trong đó, kỹ thuật phân cụm bán giám sát được xây dựng để tạo ra các đặc

trưng cho đối tượng. Bên cạnh đó, tiếp thu đề xuất liên quan về việc xây dựng tập

đặc trưng riêng biệt cho từng nhãn nhằm tăng hiệu quả phân lớp, luận án đã xây

dựng một thuật toán phân lớp đa nhãn hướng tới việc cá thể các nhãn và nhóm nhãn

có quan hệ với nhau và xây dựng tập đặc trưng cho riêng các cá thể, từ đó làm tăng

hiệu quả phân lớp cho từng đối tượng. Việc sử dụng nguồn dữ liệu không nhãn

phong phú tham gia vào học mô hình sẽ tận dụng được nguồn tài nguyên sẵn có và

kết hợp với dữ liệu có nhãn để tăng hiệu quả mô hình. Đây là một xu hướng đang

được nhiều nhà nghiên cứu quan tâm.

123

KẾT LUẬN

I. Những kết quả chính của luận án

Luận án tham gia vào dòng nghiên cứu về phân lớp đa nhãn trên thế giới và

đạt được một số đóng góp sau đây về phân lớp đơn nhãn và phân lớp đa nhãn văn

bản tiếng Việt.

Thứ nhất, luận án đề xuất hai mô hình phân lớp đơn nhãn là mô hình gán nhãn

thực thể có tên và mô hình hệ tư vấn xã hội. Trong đó, nhận dạng thực thể có tên là

bài toán khá cơ bản trong nhóm các bài toán trích chọn thông tin nhằm tìm kiếm và

rút ra các thông tin liên quan thực thể trong văn bản. Bài toán này có thể được coi là

bài toán phân lớp đơn nhãn trong đó mỗi thực thể sẽ được gán cho một nhãn (tên gọi)

trong tập các nhãn cho trước. Luận án đề xuất một mô hình học bán giám sát trường

ngẫu nhiên có điều kiện CRFs dựa trên tiêu chuẩn kỳ vọng tổng quát được xây dựng

từ tập các ràng buộc về đặc trưng và phân phối xác suất các thực thể có tên được khai

thác từ các thông tin hữu ích trên tập dữ liệu không nhãn. Tiếp theo, đề án cũng đề

xuất mô hình hệ tư vấn xã hội dựa trên các kỹ thuật phân tích quan điểm người dùng,

sử dụng mô hình lọc cộng tác với phương pháp hướng người dùng dựa trên mối quan

hệ và sự tương đồng giữa người dùng trong hệ thống mạng xã hội. Mô hình đã khai

thác và xây dựng các tập đặc trưng phong phú về xã hội và tiểu sử để tăng cường

quan hệ người dùng.

Thứ hai, luận án khảo sát hai giải pháp biểu diễn dữ liệu phân lớp đa nhãn

văn bản tiếng Việt bao gồm phương pháp biểu diễn dữ liệu theo mô hình chủ đề ẩn

và phương pháp biểu diễn dữ liệu theo đồ thị khoảng cách. Với giả thiết là mỗi văn

bản được tạo ra bằng việc kết hợp của nhiều chủ đề và mỗi chủ đề là một phân phối

trên các từ, mô hình chủ đề ẩn LDA đã cung cấp một phương pháp khai thác các

ngữ nghĩa ẩn trong văn bản để làm giàu thêm đặc trưng cho mô hình. Luận án đã đề

xuất mô hình phân lớp dữ liệu dựa trên một số bước quan trọng như sau: Xây dựng

tập đặc trưng cho mô hình bao gồm đặc trưng TFIDF truyền thống kết hợp với tập

đặc trưng xác suất chủ đề ẩn mà văn bản đang xét thuộc về; đặc trưng xác suất chủ

đề ẩn này được khai thác từ mô hình chủ đề ẩn LDA trên tập dữ liệu của miền ứng

124

dụng. Bước tiếp theo là sử dụng phương pháp lựa chọn đặc trưng dựa trên thông tin

tương hỗ nhằm loại bỏ các đặc trưng dư thừa và giữ lại được các đặc trưng có tính

chất quan trọng, quyết định của mô hình, từ đó tăng hiệu quả mô hình và giảm độ

phức tạp tính toán. Mô hình thứ hai được đề xuất nhằm khai thác các đặc trưng về

khoảng cách và trật tự từ trong biểu diễn mô hình đồ thị khoảng cách. Mô hình này

đã khắc phục được các nhược điểm của mô hình biểu diễn theo không gian vectơ

truyền thống – chỉ quan tâm đến đặc trưng đơn lẻ mà không quan tâm đến quan hệ,

trật từ và khoảng cách giữa các đặc trưng. Mô hình do luận án đề xuất kết hợp khai

thác cả đặc trưng ngữ nghĩa ẩn do mô hình chủ đề ẩn LDA cung cấp đồng thời áp

dụng mô hình đồ thị khoảng cách trên đối tượng chủ đề ẩn từ đó khai thác thông tin

về quan hệ thứ bậc và khoảng cách giữa các chủ đề ẩn trong văn bản. Cả hai mô

hình đã cung cấp phương pháp biểu diễn dữ liệu mới nhằm tăng cường hiệu quả cho

mô hình phân lớp dữ liệu đa nhãn.

Thứ ba, luận án đề xuất một thuật toán MULTICS phân lớp dữ liệu đa nhãn

bán giám sát dựa trên kỹ thuật phân cụm nhằm khai thác thông tin đặc trưng riêng

biệt cho nhãn / tập nhãn. Học máy bán giám sát là một tiếp cận được cho là phương

pháp tiên tiến hiệu quả nhờ sự kết hợp của dữ liệu có nhãn làm định hướng và dữ

liệu không có nhãn để mở rộng và củng cố mô hình. Trong khi dữ liệu có nhãn cần

tốn nhiều thời gian và công sức để gán nhãn thủ công thì dữ liệu không nhãn rất

phong phú và dễ dàng thu được. Dựa trên giả thiết rằng, các đặc trưng riêng biệt của

nhãn / tập nhãn là những đặc trưng mang tính chất phân biệt và tối ưu cho nhãn/tập

nhãn đó, khi sử dụng tập đặc trưng này vào quá trình phân lớp sẽ mang lại hiệu quả

tốt hơn. Luận án đề xuất một mô hình phân lớp bán giám sát dựa trên kỹ thuật phân

cụm bán giám sát để xây dựng phân hoạch trên tập dữ liệu có nhãn và không nhãn

trong miền ứng dụng. Dựa vào các phân hoạch trên tập dữ liệu này, xây dựng bộ

phân lớp để đoán nhận nhãn cho các dữ liệu mới dựa trên khoảng cách với các tâm

cụm trong phân hoạch. Thuật toán MULTICS [PTNgan6] được B. Trawiński và

cộng sự [9] tham chiếu cho thấy sự tham gia của thuật toán vào dòng nghiên cứu

phân lớp đa nhãn trên thế giới.

125

Đồng thời, luận án cũng cung cấp một khảo sát khái quát về phân lớp đa

nhãn. Phân lớp đa nhãn là một tiến hóa tiên tiến hơn phân lớp đơn nhãn truyền

thống, nó phù hợp với nhiều ứng dụng thực tế như phân lớp văn bản, gán nhãn ảnh,

dự đoán chức năng gen,… khi mà một đối tượng có thể đồng thời thuộc về nhiều

phân lớp khác nhau. Sự khác biệt này đã đề ra nhiều thách thức về tiếp cận giải

quyết bài toán, mối quan hệ giữa các nhãn, các độ đo và đánh giá bài toán phân lớp

đa nhãn. Luận án đã khảo sát các tiếp cận cho bài toán đa nhãn, các kỹ thuật giảm

chiều dữ liệu cho bài toán phân lớp đa nhãn nhằm loại bỏ các đặc trưng không liên

quan và giữ lại các đặc trưng quan trọng từ đó tăng cường hiệu quả mô hình; các độ

đo và phương pháp đánh giá cho bài toán phân lớp đa nhãn làm cơ sở để đánh giá

hiệu quả mô hình đề xuất.

II. Hạn chế của luận án

Trong quá trình triển khai các mô hình, luận án vẫn còn tồn tại một số hạn

chế như sau:

Một là, thuật toán phân lớp đa nhãn dựa trên phân cụm bán giám sát cần

được nghiên cứu công phu hơn bao gồm các phân tích chi tiết về độ phức tạp thuật

toán, các cải tiến phù hợp trong từng thành phần thuật toán để phát huy lợi thế

“tham lam” của thuật toán.

Hai là, tuy đã đề cập tới vấn đề giảm chiều dữ liệu trong phân lớp đơn nhãn

và phân lớp đa nhãn song nghiên cứu trong luận án mới chỉ đề cập ở mức độ rất cơ

bản mà chưa khảo sát các giải pháp tiên tiến trong giảm chiều dữ liệu, đặc biệt là

giảm chiều dữ liệu trong phân lớp đa nhãn.

Ba là, miền ứng dụng văn bản có lợi thế cho các nghiên cứu về phân lớp đa

nhãn song lại không tạo điều kiện tốt cho phân lớp đa nhãn – đa thể hiện như các

miền ứng dụng khác, chẳng hạn miền ứng dụng dữ liệu ảnh.

III. Định hướng nghiên cứu tiếp theo

Trong thời gian tiếp theo, nghiên cứu sinh sẽ tiếp tục nghiên cứu các hướng

giải quyết cho các hạn chế còn tồn tại của luận án và tiếp tục triển khai các đề xuất

126

để hoàn thiện hơn các giải pháp cho phân lớp đa nhãn.

Một là, thuật toán MULTICSLearn cần được phân tích sâu sắc hơn đặc biệt ở

khía cạnh độ phức tạp thời gian tính toán trong một vùng hoặc toàn bộ miền ứng

dụng. Cải tiến kỹ thuật tìm nhãn để phân hoạch tập dữ liệu theo bộ nhãn giả theo

hướng tìm nhãn có ảnh hưởng lớn nhất trong mạng xã hội tập nhãn hiện thời [99].

Hai là, các kỹ thuật giảm chiều dữ liệu tiên tiến cho phân lớp đa nhãn như

[62], [75], [78] cần được nghiên cứu để áp dụng sáng tạo vào các bài toán ứng dụng

trong luận án.

Ba là, khảo sát miền ứng dụng dữ liệu ảnh, nghiên cứu các mô hình và giải

pháp phân lớp đa nhãn – đa thể hiện đối với dữ liệu ảnh nhằm làm phù hợp với quá

trình tiến hóa của phân lớp dữ liệu như được đề cập ở Chương 1.

127

DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN TỚI LUẬN ÁN

1.

2.

3.

4.

5.

6.

[PTNgan1] Thi-Ngan Pham, Le-Minh Nguyen, Quang-Thuy Ha (2012). Named Entity Recognition for Vietnamese documents using semi- supervised learning method of CRFs with Generalized Expectation Criteria. IALP 2012: 85-89 (Scopus7, DBLP8). [PTNgan2] Thi-Ngan Pham, Thi-Hong Vuong, Thi-Hoai Thai, Mai-Vu Tran, Quang-Thuy Ha (2016). Sentiment Analysis and User Similarity for Social Recommender System: An Experimental Study. Lecture Notes in Electrical Engineering (376): 1147-1156 (Scopus) [PTNgan3] Thi-Ngan Pham, Thi-Thom Phan, Phuoc-Thao Nguyen, Quang-Thuy Ha (2013). Hidden Topic Models for Multi-label Review Classification: An Experimental Study. Computational Collective Intelligence. Technologies and Applications, Lecture Notes in Computer Science Volume 8083:603-611 (Scopus, DBLP). [PTNgan4] Thi-Ngan Pham, Van-Hien Tran, Tri-Thanh Nguyen, Quang- Thuy Ha (2017). Exploiting Distance graph and Hidden Topic Models for Multi-label Text Classification. ACIIDS 2017. Studies in Computational Intelligence, Volume 710 (Advanced Topics in Intelligent Information and Database Systems): 321-331. (Scopus). [PTNgan5] Thi-Ngan Pham, Van-Quang Nguyen, Duc-Trong Dinh, Tri- Thanh Nguyen, Quang-Thuy Ha (2017). MASS: a Semi-supervised Multi- specific Features. ACIIDS label Classification Algorithm With 2017. Studies in Computational Intelligence, Volume 710 (Advanced Topics in Intelligent Information and Database Systems): 37-47. (Scopus). [PTNgan6] Thi-Ngan Pham, Van-Quang Nguyen, Van-Hien Tran, Tri-Thanh Nguyen, and Quang-Thuy Ha (2017). A semi-supervised multi-label classification framework with feature reduction and enrichment. Journal of Information and Telecommunication, 1(2), 141-154 (DBLP).

7 https://www.scopus.com/authid/detail.uri?authorId=56013971500 8 http://dblp.uni-trier.de/pers/hd/p/Pham:Thi=Ngan

128

TÀI LIỆU THAM KHẢO

[1]

A. Elisseeff and J. Weston. A Kernel method for Multi-Labelled Classification. Neural Information Proceesing Systems 2001 (NIPS 2001): 681–687.

[2]

A. H. Razavi, D. Inkpen. Text Representation Using Multi-level Latent

[3]

A. K. Menon, C. Elkan. Link prediction via matrix factorization. In Joint

Dirichlet Allocation. Canadian Conference on AI 2014: 215-226.

[4]

A. Mansouri, L.S. Affendey, A. Mamat. Named entity recognition

european conference on machine learning and knowledge discovery in databases. Springer, Berlin, Heidelberg, 2011: 437-452.

approaches. International Journal of Computer Science and Network

[5]

A. McCallum, G. Mann, G. Druck. Generalized Expectation Criteria.

Security 8.2 (2008): 339-344

Technical Report UM-CS-2007-60, University of Massachusetts Amherst,

[6]

A. McCallum. Multi-label text classification with a mixture model trained

2007.

[7]

B. Hariharan, S. V. N. Vishwanathan, M. Varma. Efficient max-margin

by EM. AAAI Workshop on text learning, 1999: 1-7.

multi-label classification with applications to zero-shot learning. Machine

[8]

B. Qian, I. Davidson. Semi-Supervised Dimension Reduction for Multi-

Learning, 88 (1-2) 2012: 127-155.

[9]

B. Trawiński, T. Lasota, O. Kempa, Z. Telec, M. Kutrzyński. Comparison

Label Classification. AAAI, Volumn10, 2010: 569-574.

of Ensemble Learning Models with Expert Algorithms Designed for a

Property Valuation System. In: Conference on Computational Collective Intelligence Technologies and Applications. Springer, Cham, 2017: 317-

[10] C. C. Aggarwal and P. Zhao. Towards Graphical Models for Text

327.

[11] C. C. Aggarwal. Data classification: algorithms and applications. CRC

Processing. Knowledge and Information Systems Vol 36:1, 2013: 1-21.

[12] C. Vens, J. Struyf, L. Schietgat, S. Džeroski, H. Blockeel. Decision trees

Press, 2014.

for hierarchical multilabel classification. Machine Learning, 73(2) 2008:

129

[13] D. B. Nguyen, S.H. Hoang, S.B. Pham, T.P. Nguyen. Named entity recognition for Vietnamese. In Asian Conference on Intelligent Information

185–214.

and Database Systems, Springer, Berlin, Heidelberg, 2010: 205-214 [14] D. Jurafsky, J.H. Martin. Speech and language processing. Pearson, 2014. [15] D. M. Blei, A. Y. Ng, M. I. Jordan. Latent Dirichlet Allocation. Journal of

[16] D. M. Blei. Probabilistic topic models. Communications of the ACM 55.4,

Machine Learning Research 3, 2003: 993-1022.

[17] D. M. Dunlavy, T. G. Kolda, E. Acar. Temporal link prediction using matrix and tensor factorizations. ACM Transactions on Knowledge Discovery from Data (TKDD), 5(2), 10, 2011.

[18] D. Nadeau, S. Sekine. A survey of named entity recognition and

2012: 77-84.

[19] D. Ramage, D. Hall, R. Nallapati, C. D. Manning. Labeled LDA: A supervised topic model for credit attribution in multi-labeled corpora.

classification. Lingvisticae Investigationes 30(1), 2007: 3-26.

[20] D. Yang, D. Zhang, Z. Yu, Z. Wang. A sentiment-enhanced personalized location recommendation system. In Proceedings of the 24th ACM

EMNLP 2009: 248-256.

Conference on Hypertext and Social Media, ACM 2013: 119-128.] [21] E. Gibaja, S. Ventura. A tutorial on multilabel learning. ACM Computing

[22] E. Gibaja, S. Ventura. Multi-label learning: a review of the state of the art and ongoing research. Wiley Interdisc. Rew.: Data Mining and Knowledge

Surveys (CSUR) 47(3), 2015: 52.

[23] E. Hüllermeier, J. Fürnkranz, W. Cheng, K. Brinker. Label ranking by

Discovery, 4(6), 2014: 411-444.

[24] E. L. Mencía, F. Janssen. Stacking Label Features for Learning Multilabel

learning pairwise preferences. Artif. Intell. 172(16-17), 2008: 1897-1916.

[25] E. L. Mencia, J. Furnkranz. Pairwise learning of multilabel classifications with perceptrons. Neural Networks, 2008. IJCNN 2008.(IEEE World

Rules. Discovery Science 2014: 192-203.

Congress on Computational Intelligence). IEEE International Joint

Conference on. IEEE, 2008: 2899-2906.

130

[26] E. Spyromitros, G. Tsoumakas, I. Vlahavas. An empirical study of lazy multilabel classification algorithms. In: Hellenic conference on artificial

[27] F. Briggst, X.Z. Fern, R. Raich. Rank-loss support instance machines for MIML instance annotation. In: Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM,

intelligence. Springer, Berlin, Heidelberg, 2008: 401-406.

[28] F. Charte, A.J. Rivera, M.J. Del Jesus, F. Herrera. LI-MLC: A label inference methodology for addressing high dimensionality in the label

2012: 534-542.

[29] F. Herrera, F. Charte, A. J. Rivera, M.J. Del Jesus. Multilabel Classification: Problem Analysis, Metrics and Techniques. Springer

space for multilabel classification. IEEE transactions on neural networks and learning systems, 25(10), 2014:1842-1854.

[30] F. Ricci, L. Rokach, B. Shapira, P. B. Kantor. Recommender systems

International, 2016

[31] F. Sebastiani. Machine Learning in Automated Text Categorization. ACM

handbook. Springer US, 2011.

[32] G. Chen, Y. Song, F. Wang, C. Zhang. Semi-supervised multi-label learning by solving a sylvester equation. In: Proceedings of the 2008 SIAM

Computing Survey 34, 2002: 1-47.

International Conference on Data Mining. Society for Industrial and

[33] G. Doquire, M. Verleysen. Mutual information-based feature selection for

Applied Mathematics, 2008: 410-419.

[34] G. Doquire, M. Verleysen. Feature Selection for Multi-label Classification

multilabel classification. Neurocomputing 122 (2013): 148-155.

[35] G. Druck, G. Mann, A. McCallum. Learning from Labeled Features using Generalized Expectation Criteria. In: Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2008: 595-602.

[36] G. Ruffo. Learning single and multiple instance decision trees for computer

Problems. Advances in Computational Intelligence, 2011: 9-16.

[37] G. S. Mann, A. McCallum. Generalized Expectation Criteria for Semi-

security applications. PhD Thesis, University of Turin, 2000.

131

[38] G. S. Mann, A. McCallum. Generalized Expectation Criteria for Semi- Supervised Learning with Weakly Labeled Data. Journal of Machine

Supervised Learning of Conditional Random Fields. In ACL Volumn 8, 2008: 870–878.

[39] G. Salton, A. Wong, C. S. Yang. A vector space model for automatic

Learning Research 11, 2010: 955-984.

[40] G. Tsoumakas, I. Katakis, I. Vlahavas. Mining Multi-label Data. Data

indexing. Communications of the ACM, 18(11), 1975: 613-620.

[41] G. Tsoumakas, I. Katakis, I. Vlahavas. Random k-labelsets for multi-label classification. IEEE Transactions on Knowledge and Data Engineering, 2011, 23.7: 1079-1089.

[42] G. Tsoumakas, I. Katakis. Multi-label Classification: An Overview. International Journal of Data Warehousing and Mining (IJDWM), 2007,

Mining and Knowledge Discovery Handbook, Springer, 2010: 667–686.

[43] G. Tsoumakas, I. Vlahavas. Random k-labelsets: An ensemble method for

3.3: 1-13.

multilabel classification. European Conference on Machine Learning 2007:

[44] G. Tsoumakas, M. Zhang, Z.H. Zhou. Introduction to the special issue on learning from multi-label data. Machine Learning 88 (1-2), 2012: 1-4. [45] H. Hotelling. Relations between two sets of variates. In: Breakthroughs in

406-417.

[46] H. Le Trung, V. Le Anh, K. Le Trung. Bootstrapping and rule-based model for recognizing Vietnamese named entity. In Asian Conference on

Statistics, Springer, 1992: 162–190.

[47] H. Liu, L. Yu. Toward integrating feature selection algorithms for classification and clustering. IEEE Transactions on Knowledge and Data Engineering 17, 2005: 491–502.

[48] H. Ma, D. Zhou, C. Liu, M.R. Lyu, I. King. Recommender systems with social regularization. In: Proceedings of the fourth ACM international conference on Web search and data mining, 2011: 287–296.

[49] H. Ma, H. Yang, M.R. Lyu, I. King. Sorec: social recommendation using

Intelligent Information and Database Systems (ACIIDS) 2014: 167–176.

probabilistic matrix factorization. In: Proceeding of the 17th ACM

132

[50] H. Ma, I. King, M.R. Lyu. Learning to recommend with social trust international ACM SIGIR

conference on Information and knowledge management, 2008: 931–940.

ensemble. In: Proceedings of the 32nd

conference on Research and development in information retrieval, 2009:

[51] H. Q. Le. Making use of category structure for multi-class classification.

203–210.

[52] H. Q. Le, M. V. Tran, N. N. Bui, N. C. Phan, Q. T. Phan. An integrated approach using conditional random fields for named entity recognition

PhD Thesis, Heinrich Heine University Düsseldorf, 2010.

[53] H. Q. Pham, M.L. Nguyen, B. Nguyen, V.C. Nguyen. Semi-supervised for Vietnamese Named Entity Recognition using Online

and person property extraction in vietnamese text. In: Asian Language Processing (IALP), 2011: 115-118.

Learning

Conditional Random Fields. In: Proceedings of NEWS 2015 the fifth

[54] H. Qu, S. Zhang, H. Liu, J. Zhao: A multi-label classification algorithm

named entities workshop, 2015: 53-8.

based on label-specific features. Wuhan University Journal of Natural

[55]

Sciences 16, (6), 2011: 520-524.

[56]

I. T. Jolliffe. Principal Component Analysis. Springer, 2002.

J. D. Lafferty, A. McCallum, F.C.N. Pereira. Conditional Random Fields:

Probabilistic Models for Segmenting and Labeling Sequence Data.

In: Proceedings of the 18th International Conference on Machine Learning.

[57]

2001: 282-289.

J. Fürnkranz, E. Hüllermeier, E.L. Mencía, K. Brinker. Multilabel

[58]

[59]

[60]

classification via calibrated label ranking. Machine Learning, 73 (2), 2008:

[61]

133–153. J. Golbeck. Generating predictive movie recommendations from trust in social networks. Trust Management, 2006: 93-104. J. J. Zhang, M. Fang, X. Li. Multi-label learning with discriminative features for each label. Neurocomputing 154, 2015: 305-316. J. Jiang. Information extraction from text. Mining text data, 2012: 11-41.

J. Lee, H. Lim, D.W. Kim. Approximating Mutual Information for Multi-

Label Feature Selection. Electronics Letters, vol. 48(15), 2012: 129-130.

133

[62]

[63]

J. Li, H. Liu. Challenges of Feature Selection for Big Data Analytics. IEEE Inteligent Systems 32(2), 2017: 9-15.

J. Read, A. Bifet, G. Holmes, B. Pfahringer. Scalable and efficient multi-

[64]

label classification for evolving data streams. Machine Learning, 88 (1-2),

2012: 243-272. J. Read, B. Pfahringer, G. Holmes, E. Frank. Classifier chains for multi-

[65]

label classification. Machine Learning 85(3), 2011: 333-359.

J. Read, L. Martino, J. Hollmén. Multi-label methods for prediction with

[66]

sequential data. Pattern Recognition 63, 2017: 45-55.

[67]

J. Read. A Pruned Problem Transformation Method for Multi-label Classification. In: Proceedings of 2008 New Zealand Computer Science Research Student Conference (NZCSRS), 2008: 143–150.

J. Read. Scalable Multi-label Classification. PhD Thesis, The University of

[68]

Waikat, 2010.

J. Tang, H. Gao, H. Liu. mTrust: Discerning multi-faceted trust in a

connected world. In: Proceedings of the fifth ACM international conference

[69]

on Web search and data mining. ACM, 2012: 93-102.

J. Tang, H. Gao, X. Hu, H. Liu. Exploiting homophily effect for trust

prediction. In: Proceedings of the sixth ACM international conference on

[70]

Web search and data mining. ACM, 2013: 53-62.

J. Tang, X. Hu, H. Liu. Social Recommendation: A Review. Social Network

[71]

Analysis and Mining, 2013, 3.4: 1113-1133.

J. V. Carrera-Trejo, G. Sidorov, S. Miranda-Jiménez, M. M. Ibarra, R. C.

Martínez. Latent Dirichlet Allocation complement in the vector space model

[72]

for Multi-Label Text Classification. International Journal of Combinatorial

[73] K. Brinker, J. Furnkranz, E. Hullermeier. A unified model for multilabel classification and ranking. In: Proceedings of the 2006 conference on ECAI

Optimization Problems and Informatics, 6(1), 2015: 7-19. J. Wang, J. D. Zucker. Solving the multi-instance problem: A lazy learning approach. In Proceedings of 17th International Conf. on Machine Learning, 2000: 1119–1126.

2006: 17th European Conference on Artificial Intelligence August 29--

September 1, 2006, Riva del Garda, Italy. IOS Press, 2006: 489-493.

134

[74] K.

Brinker,. Hullermeier. Case-based E.

multilabel ranking. In: Proceedings of the 20th international joint conference on

Artifical intelligence. Morgan Kaufmann Publishers Inc., 2007. p. 702-707. [75] K. Cheng, J. Li, H. Liu. FeatureMiner: A Tool for Interactive Feature Selection. In: Proceedings of the 25th ACM International on Conference on Information and Knowledge Management. ACM, 2016: 2445-2448. [76] K. Dembczynski, W. Waegeman, W. Cheng, E. Hüllermeier. On label

dependence and loss minimization in multi-label classification. Machine

[77] L. Breiman. Random forests. Machine Learning. 45(1), 2001:5–32. [78] L. Jian, J. Li, K. Shu, H. Liu. Multi-Label Informed Feature Selection. In: IJCAI International Joint Conference on Artificial Intelligence. 2016:

Learning, 88 (1-2), 2012: 5-45.

[79] L. Sun, S. Ji, J. Ye. Multi-label dimensionality reduction. CRC Press, 2013. [80] M. Jamali, M. Ester. A matrix factorization technique with trust propagation for recommendation in social networks. In: Proceedings of the

1627-1633.

[81] M. Jamali, M. Ester. Trustwalker: a random walk model for combining trust-based and item-based recommendation. In: Proceedings of the 15th

fourth ACM conference on Recommender systems, ACM 2010: 135–142.

ACM SIGKDD international conference on Knowledge discovery and data

[82] M. L. Zhang, J. M. Peña, V. Robles. Feature selection for multi-label naive Bayes classification. Information Sciences, 2009, 179.19: 3218-3229. [83] M. L. Zhang, L. Wu. LIFT: Multi-label learning with label-specific

mining, ACM 2009: 397–406.

features. IEEE transactions on pattern analysis and machine intelligence,

[84] M. L. Zhang, Z. H. Zhou. A Review on Multi-Label Learning Algorithms. IEEE transactions on knowledge and data engineering, 2014, 26.8: 1819- 1837

[85] M. L. Zhang, Z. H. Zhou. Improve multi-instance neural networks through

37(1), 2015: 107-120.

[86] M. L. Zhang, Z. H. Zhou. ML-KNN: A Lazy Learning Approach to Multi-

feature selection. Neural Processing Letters. 2004: 1–10.

Label Learning. Pattern Recogn, 40, 2007: 2038–2048.

135

[87] M. L. Zhang. LIFT: Multi-Label Learning with Label-Specific joint

In: Proceedings of the Twenty-Second international Features.

conference on Artificial Intelligence-Volume Volume Two. AAAI Press,

[88] M. Poyraz, Z.H. Kilimci, M.C. Ganiz. Higher-order smoothing: a novel semantic smoothing method for text classification. Journal of Computer

2011: 1609-1614.

[89] M. R. Boutell, J. Luo, X. Shen, C.M. Brown. Learning multi-label scene

Science and Technology 29(3), 2014: 376-391.

[90] M. V. Tran, X. T. Tran, and H. L. Uong. User Interest Analysis with in News Recommendation System. Asian Language

classification. Pattern Recognition, 37 (9), 2004: 1757–1771.

Hidden Topic Processing (IALP), 2010: 211-214. [91] MALLET. n.d. http://mallet.cs.umass.edu/. [92] N. Nguyen. Semi-Supervised Learning With Partially Labeled Examples.

[93] O. G. R. Pupo, C. Morell, S. Ventura. Evolutionary feature weighting to

PhD Thesis, Cornell University, 2010.

improve the performance of multi-label lazy algorithms. Integrated

[94] O. G. R. Pupo, C. Morell, S. Ventura. Scalable extensions of the ReliefF algorithm for weighting and selecting features on the multi-label learning

Computer-Aided Engineering 21(4), 2014: 339-354.

[95] O. Maron, T. Lozano-Pérez. A Framework

context. Neurocomputing 161, 2015: 168-182.

for Multiple-Instance

Learning. In: Advances in neural information processing systems. 1998:

[96] P. Massa, P. Avesani. Controversial users demand local trust metrics: An

570-576..

[97] P. Massa, P. Avesani. Trust-aware collaborative filtering for recommender systems. In: OTM Confederated International Conferences" On the Move to Meaningful Internet Systems". Springer, Berlin, Heidelberg, 2004: 492-508. [98] P. Massa, P. Avesani. Trust-aware recommender systems. In: Proceedings of the 2007 ACM conference on Recommender systems. ACM, 2007: 17-24. [99] P. Szymanski, T. Kajdanowicz, K. Kersting. How Is a Data-Driven

experimental study on Epinions.com community. AAAI 2005: 121-126.

Approach Better than Random Choice in Label Space Division for Multi-

136

[100] P. V. Krishna, S. Misra, D. Joshi, M.S. Obaidat. Learning automata based sentiment analysis for recommender system on cloud. In Computer,

Label Classification? Entropy 18(8) 282, 2016.

Information and Telecommunication Systems (CITS), 2013 International

[101] P. Victor, C. Cornelis, M. De Cock, A. Teredesai. A comparative analysis of trustenhanced recommenders for controversial items. The International

Conference on IEEE 2013: 1-5.

[102] P. Victor, M. De Cock, C. Cornelis. Trust and recommendations.

AAI Conference on Weblogs and Social Media, 2009: 342–345.

[103] Q. T. Ha, H. N Bui, T. T. Nguyen. A Trace Clustering Solution Based on International Conference on

Recommender Systems Handbook, Springer, 2011: 645–675.

the Distance Graph Model. Using

Computational Collective Intelligence. Springer International Publishing,

[104] Q. T. Tran, T. T. Pham, Q. H. Ngo, D. Dinh, N. Collier. Named entity recognition in Vietnamese documents. Progress in Informatics Journal 5,

2016: 313-322.

[105] Q. Zhang, S.A. Goldman. EM-DD: An improved multi-instance learning technique. In: Advances in neural information processing systems. 2002:

2007: 14-17.

[106] R. E. Schapire, Y. Singer. BoosTexter: A Boosting-based System for Text

1073-1080.

[107] S. Andrews, I. Tsochantaridis, T. Hofmann. Support vector machines for multiple-instance learning. In: Advances in neural information processing

Categorization. Machine Learning 39(2-3), 2000: 135-168.

[108] S. Basu. Semi-supervised clustering: probabilistic models, algorithms and experiments. PhD Thesis, The University of Texas at Austin, 2005. [109] S. Godbole, S. Sarawagi. Discriminative methods for multi-labeled classification. Advances in knowledge discovery and data mining (PAKDD) 2004: 22–30.

[110] S. H. Yang, H. Zha, B. G. Hu. Dirichlet-bernoulli alignment: A generative model for multi-class multi-label multi-instance corpora. In: Advances in

systems, 2002: 561-568.

neural information processing systems, 2009: 2143-2150.

137

[111] S. Jungjit. New Multi-Label Correlation-Based Feature Selection Methods for Multi-Label Classification and Application in Bioinformatics. PhD

[112] S. Li, Z. Zhang, J. Duan. An ensemble multi-label feature selection algorithm based on information entropy. International Arab Journal of Information Technology (IAJIT), 2014, 11.4: 379-386.

[113] S. S. Bucak. Multiple Kernel and Multi-Label Learning for Image

Thesis, University of Kent at Canterbury, March 2016.

[114] S. Vembu, T. Gartner. Label ranking algorithms: A survey. Preference

Categorization. PhD Thesis, Michigan State University, 2014.

[115] T. G. Dietterich, R. H. Lathrop, T. Lozano-Pérez. Solving the Multiple Instance Problem with Axis-Parallel Rectangles. Artificial intelligence,

Learning 2010: 45-64

[116] T. Gartner, P. A. Flach, A. Kowalczyk, A. J. Smola. Multi-instance kernels. The 19th International Conference on Machine Learning (ICML 2002):

89(1-2), 1997: 31-71.

[117] T. N. Rubin, A. Chambers, P. Smyth, M. Steyvers. Statistical topic models for multi-label document classification. Machine Learning, 88(1-2), 2012:

179–186.

[118] T. Zhou, D. Tao, X. Wu. Compressed labeling on distilled labelsets for

157-208.

[119] W. He, Y. Wang. Text representation and classification based on multi- instance learning. In: Management Science and Engineering, ICMSE 2009.

multi-label learning. Machine Learning, 88 (1-2), 2012: 69-126.

[120] W. Zhang, X. Tang, T. Yoshida. TESC: An approach to text classification using semi-supervised clustering. Knowledge-Based Systems 75, 2015: 152-160.

[121] X. Wu, V. Kumar. Top 10 algorithms in data mining. CRC Press, 2009 [122] X. Zhu, A. B. Goldberg. Introduction to Semi-Supervised Learning. Morgan

International Conference on. IEEE, 2009: 34-39.

[123] Y. Chen and J. Z. Wang. Image categorization by learning and reasoning

and Claypool, 2009.

[124] Y. Chevaleyre, J. D. Zucker. Solving Multiple-Instance and Multiple-Part

with regions. Machine Learning Research 5, 2004: 913–939.

138

Learning Problems with Decision Trees and Rule Sets. Application to the Mutagenesis Problem. Canadian Conference on AI 2001: 204-214. [125] Y. Guo, D. Schuurmans. Semi-supervised multi-label classification: A Simultaneous Large-Margin, Subspace Learning Approach. Machine

[127] Y. Yang, S. Gopal. Multi-label classification with meta-level features in a

Learning and Knowledge Discovery in Databases, (2) 2012: 355-370. [126] Y. Liu, R.Jin, L. Yang. Semi-supervised multi-label learning by constrained nonnegative matrix factorization. AAAI Volumn 1, 2006: 421-426.

[128] Z. H Zhou, M. L. Zhang, S.J. Huang, Y.F. Li. Multi-instance multi-label

learning-to-rank framework. Machine Learning, 88 (1-2), 2012: 47-68.

[129] Z. H Zhou, M. L. Zhang. Multi-Instance Multi-Label Learning with Application to Scene Classification. In: Advances in neural information

learning. Artificial intelligence. 176(1), 2012: 2291-2320.

[130] Z. H. Zhou, J. M. Xu. On the relation between multi-instance learning and international learning. In: Proceedings of

processing systems. 2007: 1609-1616.

semisupervised the 24th

conference on Machine learning. ACM, 2007: 1167-1174.

139