ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM THỊ NGÂN
NGHIÊN CỨU CẢI TIẾN PHÂN LỚP ĐA NHÃN VĂN BẢN VÀ ỨNG DỤNG
LUẬN ÁN TIẾN SĨ CÔNG NGHÊ THÔNG TIN
Hà Nội – 2017
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM THỊ NGÂN
NGHIÊN CỨU CẢI TIẾN PHÂN LỚP ĐA NHÃN VĂN BẢN VÀ ỨNG DỤNG
Chuyên ngành: Hệ thống thông tin
Mã số: 62.48.01.04
LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TS HÀ QUANG THỤY
2. PGS.TS PHAN XUÂN HIẾU
Hà Nội – 2017
LỜI CAM ĐOAN
Tôi xin cam đoan luận án này là công trình nghiên cứu của riêng tôi. Các
kết quả được viết chung với các tác giả khác đều được sự đồng ý của các đồng
tác giả trước khi đưa vào luận án. Các kết quả nêu trong luận án là trung thực
và chưa từng được công bố trong các công trình nào khác.
Nghiên cứu sinh
Phạm Thị Ngân
i
LỜI CẢM ƠN
Luận án được thực hiện tại Bộ môn Hệ thống thông tin – Khoa Công nghệ
thông tin – Trường Đại học Công nghệ - Đại học quốc gia Hà Nội dưới sự hướng dẫn khoa học của PGS.TS. Hà Quang Thụy và PGS.TS. Phan Xuân Hiếu.
Trước tiên tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy Hà Quang Thụy và
thầy Phan Xuân Hiếu, những người đã đưa tôi tiếp cận và đạt được những thành
công trong lĩnh vực nghiên cứu của mình. Tôi đặc biệt gửi lời cảm ơn tới thầy Hà Quang Thụy đã luôn tận tâm, động viên, khuyến khích và chỉ dẫn tôi hoàn thành
được bản luận án này.
Tôi xin bày tỏ lòng biết ơn tới thầy Nguyễn Trí Thành đã nhiệt tình hướng
dẫn và truyền đạt các kinh nghiệm nghiên cứu trong quá trình tôi thực hiện luận án.
Tôi xin chân thành cảm ơn tới tập thể các thầy cô giáo, các nhà khoa học
thuộc Trường Đại học Công nghệ (đặc biệt là các thành viên của Phòng thí nghiệm khoa học dữ liệu và công nghệ tri thức – DS&KTlab) - Đại học Quốc gia Hà Nội đã
giúp đỡ về chuyên môn và tạo điều kiện thuận lợi cho tôi trong suốt thời gian học
tập và nghiên cứu.
Tôi xin bày tỏ lòng cảm ơn chân thành tới các cộng sự đã cùng tôi thực hiện
các công trình nghiên cứu và các bạn đồng nghiệp đã giúp đỡ, trao đổi và chia sẻ
những kinh nghiệm về chuyên môn, đóng góp các ý kiến quý báu cho tôi trong quá
trình nghiên cứu.
Tôi xin trân trọng cảm ơn các thầy cô trong hội đồng chuyên môn đã đóng
góp các ý kiến quý báu để tôi hoàn thiện luận án.
Tôi cũng bày tỏ lòng lòng cảm ơn sâu sắc tới Ban giám đốc Học viện Cảnh
sát nhân dân; Tập thể lãnh đạo Bộ môn Toán-Tin học, Học viện Cảnh sát nhân dân
đã tạo kiện thuận lợi cho tôi trong quá trình nghiên cứu; cảm ơn các đồng chí trong Bộ môn Toán-Tin học đã luôn ủng hộ, quan tâm và động viên tôi.
Tôi luôn biết ơn những người thân trong gia đình, bố mẹ nội, bố mẹ ngoại, các anh chị em đã luôn chia sẻ khó khăn, động viên và là chỗ dựa tinh thần vững chắc cho tôi trong suốt thời gian qua.
ii
MỤC LỤC
LỜI CAM ĐOAN ....................................................................................................... i
LỜI CẢM ƠN ............................................................................................................ ii
MỤC LỤC ................................................................................................................ iii
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ........................................... vii
DANH MỤC CÁC BẢNG ....................................................................................... ix
DANH MỤC CÁC HÌNH VẼ................................................................................... x
MỞ ĐẦU .................................................................................................................... 1
Chương 1. TỪ PHÂN LỚP ĐƠN NHÃN TỚI PHÂN LỚP ĐA NHÃN ...... 10
1.1. Từ phân lớp đơn nhãn đơn thể hiện tới phân lớp đa nhãn đa thể hiện .... 10
1.1.1. Phân lớp đơn nhãn ................................................................................. 10
1.1.2. Phân lớp đơn nhãn đa thể hiện .............................................................. 11
1.1.3. Phân lớp đa nhãn ................................................................................... 12
1.1.4. Phân lớp đa nhãn đa thể hiện ................................................................. 13
1.2. Giới thiệu chung về phân lớp đa nhãn ......................................................... 14
1.2.1. Kỹ thuật phân lớp đa nhãn ..................................................................... 15
1.2.1.1. Tiếp cận chuyển đổi bài toán ....................................................... 16
1.2.1.2. Tiếp cận thích nghi thuật toán...................................................... 22
1.2.1.3. Tóm tắt về các thuật toán được giới thiệu ................................... 28
1.2.2. Dữ liệu đa nhãn ..................................................................................... 29
1.2.2.1. Các độ đo dữ liệu đa nhãn............................................................ 29
1.2.2.2. Phân bố nhãn ................................................................................ 30
1.2.2.3. Mối quan hệ giữa các nhãn .......................................................... 30
1.2.3. Đánh giá phân lớp đa nhãn .................................................................... 31
1.2.3.1. Các độ đo dựa trên mẫu ............................................................... 32
1.2.3.2. Các độ đo dựa trên nhãn .............................................................. 34
1.3. Giảm chiều dữ liệu trong phân lớp đa nhãn ................................................ 36
iii
1.3.1. Tiếp cận giảm chiều không gian đặc trưng đầu vào .............................. 37
1.3.2. Tiếp cận giảm chiều không gian nhãn đầu ra ........................................ 41
1.4. Học bán giám sát cho phân lớp đa nhãn ...................................................... 43
1.5. Kết luận chương 1 .......................................................................................... 43
Chương 2. HAI MÔ HÌNH PHÂN LỚP ĐƠN NHÃN VĂN BẢN TIẾNG
VIỆT ........................................................................................................... 45
2.1. Mô hình nhận diện thực thể có tên dựa trên trường ngẫu nhiên có điều kiện và tiêu chuẩn kỳ vọng tổng quát ........................................................... 45
2.1.1. Nhận diện thực thể có tên ...................................................................... 45
2.1.2. Mô hình đề xuất ..................................................................................... 46
2.1.2.1. Sử dụng tiêu chuẩn kỳ vọng tổng quát vào mô hình trường nhẫu nhiên có điều kiện CRFs .............................................................................. 48
2.1.2.2. Xây dựng tập ràng buộc cho tiêu chuẩn kỳ vọng tổng quát ........ 51
2.1.2.3. Mô hình đề xuất cho bài toán nhận diện thực thể có tên ............. 52
2.1.3. Ứng dụng mô hình ................................................................................. 56
2.2. Một mô hình phân lớp đơn nhãn trong hệ tư vấn xã hội ........................... 59
2.2.1. Sơ bộ về tư vấn xã hội ........................................................................... 59
2.2.2. Mô hình đề xuất ..................................................................................... 62
2.2.3. Ứng dụng mô hình ................................................................................. 66
2.3. Kết luận chương ............................................................................................. 68
Chương 3. PHÂN LỚP ĐA NHÃN VĂN BẢN DỰA TRÊN BIỂU DIỄN DỮ
LIỆU THEO CHỦ ĐỀ ẨN .................................................................................... 70
3.1. Phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo chủ đề ẩn ...... 70
3.1.1. Biểu diễn dữ liệu theo chủ đề ẩn ........................................................... 70
3.1.2. Mô hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo chủ ................................................................................................ 75 đề ẩn
3.1.2.1. Pha 1 – Huấn luyện mô hình ........................................................ 77
3.1.2.2. Pha 2 – Đánh giá mô hình huấn luyện ......................................... 82
iv
3.1.3. Ứng dụng phân lớp đa nhãn đánh giá khách sạn ................................... 83
3.1.3.1. Xây dựng tập dữ liệu thực nghiệm .............................................. 84
3.1.3.2. Thực nghiệm ................................................................................ 85
3.1.3.3. Kết quả thực nghiệm .................................................................... 86
3.2. Phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo đồ thị khoảng
cách các chủ đề ẩn .......................................................................................... 87
3.2.1. Mô hình biểu diễn văn bản theo đồ thị khoảng cách ............................. 89
3.2.1.1. Biểu diễn dữ liệu theo đồ thị khoảng cách ................................... 89
3.2.1.2. Mô hình đồ thị khoảng cách và mô hình n-gram ......................... 92
3.2.2. Mô hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo đồ
thị khoảng cách chủ đề ẩn ..................................................................... 93
3.2.2.1. Pha huấn luyện mô hình ............................................................... 95
3.2.2.2. Pha phân lớp sử dụng mô hình huấn luyện .................................. 97
3.2.3. Ứng dụng phân lớp đa nhãn đánh giá khách sạn ................................... 98
3.3. Kết luận chương 3 ........................................................................................ 100
Chương 4. KỸ THUẬT BÁN GIÁM SÁT PHÂN LỚP ĐA NHÃN VĂN
BẢN TIẾNG VIỆT ................................................................................................ 102
4.1. Tiếp cận phân cụm bán giám sát ................................................................ 102
4.1.1. Tiếp cận dựa trên ràng buộc ................................................................ 102
4.1.2. Tiếp cận dựa trên khoảng cách ............................................................ 103
4.2. Mô hình phân lớp đa nhãn bán giám sát ................................................... 105
4.2.1. Phát biểu bài toán phân lớp đa nhãn bán giám sát .............................. 105
4.2.2. Thuật toán phân lớp đa nhãn dựa trên kỹ thuật phân cụm bán giám sát106
4.2.2.1. Thuật toán TESC và LIFT ......................................................... 107
4.2.2.2. Thuật toán phân lớp đa nhãn bán giám sát ................................ 109
4.2.3. Mô hình phân lớp đa nhãn bán giám sát đề xuất ................................. 116
4.3. Một mô hình ứng dụng phân lớp đa nhãn văn bản bán giám sát ............ 117
4.3.1. Mô hình đề xuất ................................................................................... 117
v
4.3.1.1. Pha 1. Huấn luyện mô hình ........................................................ 118
4.3.1.2. Pha 2. Phân lớp sử dụng mô hình huấn luyện ........................... 120
4.3.2. Ứng dụng phân lớp đa nhãn sử dụng mô hình đề xuất ........................ 120
4.4. Kết luận chương 4 ........................................................................................ 123
KẾT LUẬN ............................................................................................................ 124
DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN TỚI
LUẬN ÁN ............................................................................................................... 128
TÀI LIỆU THAM KHẢO .................................................................................... 129
vi
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Kí hiệu Tiếng Anh
ANN
BPMLL
Artificial neural network Backpropagation for Multilabel Learning Binary Relevance Classifier Chains BR CC
ChiDep Ensemble CDE
Tiếng Việt Mạng Nơ-ron nhân tạo Phân lớp đa nhãn mạng Nơron lan truyền ngược Phân lớp nhị phân Chuỗi bộ phân lớp Phương pháp tích hợp phụ thuộc Chi Xếp hạng nhãn xác định
CLR CML CRFs CTM DTM ECC
EPCC
EPS FE FS
IBLR
IG kNN LC LP LDA
LIFT
Calibrated Label Ranking Collective Multi-Label Classifier Bộ phân lớp đa nhãn nhóm Conditional Random Fields Corelated Topic Model Dynamic Topic Model Ensemble of Classifier Chains Ensemble of Probabilistic Classifier Chains Ensemble of Pruned Sets Feature Extraction Feature Selection Instance-Based Learning by Logistic Regresion Information Gain k Nearest Neighbour Label Combination Label Powerset Latent Dirichlet Allocation Multi-Label Learning with Label specIfic FeaTures Label Power set Latent Semantic Analysis Mutual Information Multi-Instance Multi-Label Multi-Label Classiffication Multi-Label Decision Tree Trường ngẫu nhiên có điều kiện Mô hình chủ đề tương quan Mô hình chủ đề động Tích hợp chuỗi bộ phân lớp Tích hợp chuỗi bộ phân lớp xác suất Tích hợp các tập cắt tỉa Trích chọn đặc trưng Lựa chọn đặc trưng Học dựa trên thực thể bằng hồi quy logic Độ lợi thông tin k láng giềng gần nhất Kết hợp nhãn Tập lũy thừa nhãn Mô hình chủ đề ẩn Học đa nhãn với đặc trưng nhãn riêng biệt Tập lũy thừa nhãn Phân tích ngữ nghĩa ẩn Thông tin tương hỗ Đa nhãn đa thể hiện Phân lớp đa nhãn Cây quyết định đa nhãn
Học đa nhãn Naïve Bayes đa nhãn LP LSA MI MIML MLC ML-DT ML-kNN Multi-Label k Nearest Neighbour k Láng giềng gần nhất đa nhãn MLL MLNB
Phân lớp kết hợp đa nhãn đa lớp MMAC
MMP Multi-Label Learning Multilabel Naive Bayes Multiclass Multilabel Associative Classification Multilabel Multiclass Perceptron Thuật toán Perceptron phân lớp đa lớp đa nhãn
vii
MuLAM Multilabel Ant - Miner
Named Entity Recognition Principal Component Analysis Probabilistic Classifier Chains NER PCA PCC
Predictive Clustering Trees PCT Thuật toán tối ưu đàn kiến đa nhãn Nhận dạng thực thể có tên Phân tích thành phần chính Chuỗi bộ phân lớp xác suất Thuật toán cây phân cụm dự đoán
Parametric Mixture Models Mô hình hòa trộn tham số
PMM1 PMM2 POS PS PW
RPC
RSL
SVM
TESC
TFIDF Part Of Speech Pruned Sets Pairwise Methods Ranking by Pairwise Comparision Ranking via Single-label Learning Support Vector Machine TExt classification using Semi- supervised Clustering Term Frequency Inverse Document Frequency Từ loại Các tập bị cắt tỉa Phương pháp cặp đôi Phương pháp xếp hạng theo so sánh cặp đôi Xếp hạng thông qua học đơn nhãn Máy vectơ hỗ trợ Phân lớp văn bản sử dụng phân cụm bán giám sát Trọng số về tần suất và độ quan trọng của từ
viii
DANH MỤC CÁC BẢNG
Bảng 1.1 Ví dụ về dữ liệu đa nhãn ............................................................................ 16 Bảng 1.2 Tóm tắt các thuật toán phân lớp đa nhãn ................................................... 29 Bảng 1.3 Bảng ký hiệu dữ liệu phân lớp thực và dự đoán ........................................ 34
Bảng 2.1 Mẫu ngữ cảnh từ vựng ............................................................................... 55
Bảng 2.2 Mẫu ngữ cảnh phát hiện tên thực thể ......................................................... 55
Bảng 2.3 Kết quả thực nghiệm .................................................................................. 57
Bảng 2.4 Bảng đặc trưng tiểu sử và đặc trưng xã hội của người dùng ..................... 67 Bảng 2.5 Kết quả thực nghiệm .................................................................................. 67
Bảng 3.1 Ví dụ về kết quả của mô hình chủ đề ẩn cho tài liệu ................................. 81
Bảng 3.2 Ví dụ về dữ liệu đa nhãn ............................................................................ 82
Bảng 3.3 Tập dữ liệu thực nghiệm ............................................................................ 84
Bảng 3.4 Tập dữ liệu huấn luyện .............................................................................. 84
Bảng 3.5 Tập dữ liệu cho mô hình chủ đề ẩn............................................................ 85
Bảng 3.6 Kết quả phân lớp ........................................................................................ 86
Bảng 3.7 Bảng phân phối tập từ trên mỗi chủ đề ẩn ................................................. 96
Bảng 3.8 Kết quả thực nghiệm của mô hình phân lớp đa nhãn dựa trên mô hình chủ
đề ẩn và đồ thị khoảng cách .................................................................................... 100
Bảng 4.1 Kết quả thực nghiệm 1 và thực nghiệm 2 ................................................ 121
Bảng 4.2 Kết quả thực nghiệm 3, thực nghiệm 4 và thực nghiệm 5 ....................... 122
ix
DANH MỤC CÁC HÌNH VẼ
Hình 0.1 Phân bố bài báo và lượng trích dẫn về học máy đa nhãn trong ISI (trái) và Scopus (phải) tới năm 2013 [22] ................................................................................. 3 Hình 0.2 Phân bố các chủ đề trong các chương của luận án ....................................... 7
Hình 1.1 Phân lớp đơn nhãn truyền thống [128] ....................................................... 10
Hình 1.2 Học đơn nhãn đa thể hiện [128] ................................................................. 11
Hình 1.3 Học đa nhãn [128] ...................................................................................... 13
Hình 1.4 Học đa nhãn đa thể hiện [128] ................................................................... 14 Hình 1.5 Hai tiếp cận học đa nhãn [21] .................................................................... 15
Hình 1.6 Các bộ phân lớp nhị phân tương ứng với 4 nhãn ....................................... 17
Hình 1.7 Thuật toán phân lớp BR [89] ..................................................................... 18
Hình 1.8 Thuật toán phân lớp CC [64] ..................................................................... 20
Hình 1.9 Thuật toán phân lớp CLR [84] ................................................................... 21
Hình 1.10 Thuật toán phân lớp RakEL [43], [84] ..................................................... 22
Hình 1.11 Thuật toán ML-kNN [84] ......................................................................... 23
Hình 1.12 Thuật toán phân lớp ML-DT [84] ............................................................ 25
Hình 1.13 Thuật toán phân lớp Rank-SVM [84] ...................................................... 26
Hình 1.14 Thuật toán phân lớp CML [84] ................................................................ 27
Hình 1.15 Các độ đo đánh giá của hệ thống đa nhãn [84] ........................................ 31
Hình 1.16 Mô hình lựa chọn đặc trưng cho phân lớp dữ liệu [47] ........................... 36 Hình 2.1 Đồ thị vô hướng mô tả CRFs ..................................................................... 49
Hình 2.2 Mô hình gán nhãn bán giám sát CRFs kết hợp tiêu chuẩn kỳ vọng tổng
quát ............................................................................................................................ 53
Hình 2.3 Tập các ràng buộc (Constraint file) ............................................................ 54
Hình 2.4 Kết quả mô hình gán nhãn bán giám sát CRFs kết hợp tiêu chuẩn kỳ vọng tổng quát trên các tập ràng buộc khác nhau .............................................................. 58
Hình 2.5 Mô hình hệ thống tư vấn xã hội ................................................................. 64 Hình 3.1 Phân phối các chủ đề trong bài báo, tập các từ và xác suất các từ trong chủ đề [16] ....................................................................................................................... 72 Hình 3.2 Mô hình sinh trong LDA [15] .................................................................... 73 Hình 3.3 Thuật toán sinh trong mô hình LDA .......................................................... 73 Hình 3.4 Mô hình chủ đề ẩn cho bài toán phân lớp đa nhãn .................................... 78
Hình 3.5 Phân tích nhận xét của người dùng về khách sạn Romana ........................ 87
x
Hình 3.6 Biểu diễn văn bản theo không gian vectơ, v1 và v2 là hai văn bản trong không gian vectơ ba chiều T1, T2, T3 trong đó Ti là từ ............................................. 88 Hình 3.7 Minh họa biểu diễn đồ thị khoảng cách ..................................................... 90
Hình 3.8 Mô hình phân lớp đa nhãn dựa trên biểu diễn dữ liệu theo đồ thị khoảng
cách các chủ đề ẩn. .................................................................................................... 94 Hình 3.9 Biểu diễn đồ thị khoảng cách trên câu chủ đề............................................ 96
Hình 4.1 Mô hình phân lớp bán giám sát đề xuất ................................................... 117
Hình 4.2 Mô hình ứng dụng phân lớp đa nhãn bán giám sát cho văn bản tiếng Việt
................................................................................................................................. 119
xi
MỞ ĐẦU
Tính cấp thiết của luận án
Cùng với sự bùng nổ dữ liệu cả về dung lượng lẫn về chủng loại, phân lớp dữ
liệu tự động là rất cần thiết và là một trong những chủ đề chính trong khai phá dữ
liệu. Trong mười thuật toán khai phá dữ liệu điển hình nhất có tới bảy thuật toán
liên quan tới bài toán phân lớp là thuật toán C4.5 và cải biên, thuật toán máy vectơ
hỗ trợ SVM (Support Vector Machine, còn được gọi là máy vectơ tựa), thuật toán
EM (Expectation–Maximization), thuật toán Adaboost, thuật toán k-láng giềng gần
nhất k-NN, thuật toán Bayes “ngây thơ” (Naïve Bayes), thuật toán CART
(Classification and Regression Trees) [121]. Bản chất của bài toán phân lớp dữ liệu
là xây dựng một hàm (hoặc ánh xạ) toàn phần từ tập dữ liệu (gồm các dữ liệu đã tồn
tại hoặc sẽ xuất hiện) thuộc một miền ứng dụng tới một tập hữu hạn nhãn cho trước
dựa trên thông tin đã biết về hàm này trên một tập con các dữ liệu đã được gán nhãn
(được gọi là tập ví dụ mẫu). Hàm kết quả được gọi là mô hình (bộ) phân lớp
(classification model/classifier) hay mô hình dự báo (prediction model) lớp. Do bài
toán phân lớp đòi hỏi cho trước một tập ví dụ mẫu cho nên nó cũng được gọi là bài
toán học có giám sát.
Một thuật toán phân lớp điển hình thường trải qua hai bước thực hiện. Bước
thứ nhất, được gọi là bước học mô hình (learning step), thực hiện việc phân tích dữ
liệu thuộc một tập con ví dụ mẫu, được gọi là tập dữ liệu huấn luyện (training
dataset), để xây dựng một mô hình phân lớp phù hợp với tập dữ liệu huấn luyện. Về
bản chất, ở bước học, thuật toán phân lớp “học” một hàm có khả năng gán nhãn cho
mọi dữ liệu miền ứng dụng. Hàm phân lớp kết quả từ bước học được sử dụng để dự
báo nhãn cho các dữ liệu mới. Tuy nhiên, trước khi đem mô hình phân lớp vào ứng
dụng thực tế, thuật toán phân lớp cần tiến hành bước đánh giá mô hình (model
evaluation, hay kiểm thử mô hình (model testing)). Ở bước đánh giá mô hình, một
tập con ví dụ mẫu, được gọi là tập dữ liệu kiểm thử (testing data), được sử dụng để
đo độ chính xác của thuật toán. Mô hình phân lớp được áp dụng trên các ví dụ trong
tập dữ liệu kiểm thử để nhận được các nhãn dự báo và các nhãn này được so sánh
1
với nhãn thực sự đã có tương ứng của ví dụ. Nếu tỷ lệ nhãn dự báo trùng hợp với
nhãn thực sự càng cao thì mô hình phân lớp càng chính xác. Nhằm đảm bảo việc
đánh giá mô hình phân lớp là khách quan, tập dữ liệu kiểm thử và tập dữ liệu huấn
luyện là rời nhau (hai tập dữ liệu không chứa chung một ví dụ bất kỳ). Khi chất
lượng của mô hình phân lớp được khẳng định thì nó được sử dụng để “gán” nhãn
cho mọi dữ liệu chưa có nhãn (hiện có và sẽ có) thuộc miền ứng dụng.
Tính ứng dụng cao của phân lớp làm cho bài toán phân lớp được tiến hóa từ
đơn giản tới ngày càng phức tạp hơn theo hướng từ phân lớp đơn nhãn tới phân lớp
đa nhãn hoặc phân lớp đa thể hiện, và cho tới phân lớp đa nhãn đa thể hiện [128].
Phân lớp đơn nhãn (còn được gọi là phân lớp truyền thống) quy ước mỗi đối tượng
dữ liệu có duy nhất một nhãn (hàm phân lớp đơn trị). Phân lớp đa nhãn quy ước mỗi
đối tượng dữ liệu có thể có hơn một nhãn (hàm phân lớp đa trị), chẳng hạn, một tài
liệu về chuyển nhượng cầu thủ bóng đá có thể vừa thuộc lớp kinh tế vừa thuộc lớp
thể thao. Phân lớp đa thể hiện quy ước một đối tượng dữ liệu có thể tương ứng với
nhiều thể hiện và mỗi đối tượng này tương ứng với một nhãn. Một ví dụ điển hình
về đối tượng đơn nhãn đa thể hiện là coi mỗi đối tượng là một chùm chìa khóa chứa
nhiều chìa khóa, mỗi khóa có thể mở được một phòng [124]. Giả sử có một phòng
khóa cửa và có N chùm chìa khóa, nếu một chùm nào đó chứa chìa khóa mở được
phòng này thì chùm đó được coi là hữu ích. Phân lớp đa nhãn - đa thể hiện quy ước
một đối tượng dữ liệu tương ứng với nhiều thể hiện và các thể hiện này tương ứng
với nhiều nhãn. Chương 1 của luận án sẽ đề cập chi tiết hơn về quá trình tiến hóa
bài toán phân lớp.
Luận án “Nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng” tập
trung vào bài toán phân lớp đa nhãn. Phân lớp đa nhãn (Multi-Label Classiffication:
MLC) hay học đa nhãn (Multi-Label Learning: MLL) là một khung học máy
(learning framwork) giám sát mới nổi trong thời gian gần đây [22], [40], [42], [84].
Khung học máy này đã thể hiện sự phù hợp với thực tế và tính ứng dụng rộng rãi
trong các bài toán phân lớp, điển hình là trong phân lớp văn bản, phân tích dữ liệu
đa phương tiện, sinh học, khai phá mạng xã hội, học điện tử và nhiều miền ứng
2
dụng khác [21], [40]. Tuy nhiên, học đa nhãn đòi hỏi những tiến hóa mới đối với
các phương pháp học máy cho giải pháp thích hợp với dữ liệu đa nhãn như vấn đề
về mối quan hệ giữa các nhãn, chi phí tính toán của thuật toán, vấn đề mất cân bằng
nhãn, vấn đề đa chiều của dữ liệu... Đây là các vấn đề cần tiếp tục nghiên cứu, cải
tiến và phát triển để nâng cao hiệu quả phân lớp đa nhãn.
Hình 0.1 Phân bố bài báo và lượng trích dẫn về học máy đa nhãn trong ISI (trái) và Scopus (phải) tới năm 2013 [22]
Chính vì lý do đó, học đa nhãn cuốn hút một cộng đồng nhiên cứu rộng rãi trên
thế giới. Bằng các truy vấn phù hợp vào cơ sở dữ liệu ISI và Scopus [22], E. Gibaja và
S. Ventura nhận được thông tin về số lượng hàng năm các công bố khoa học về học đa
nhãn và trích dẫn tới các công bố đó trong các cơ sở dữ liệu ISI và Scopus. Kết quả số
liệu thống kê của các tác giả được chỉ dẫn tại Hình 0.1. Các biểu đồ trong Hình 0.1
chứng tỏ rằng học đa nhãn là chủ đề nhận được sự quan tâm ngày càng tăng trong cộng
đồng nghiên cứu. Tính tới năm 2013, theo các tác giả thì hội nghị ECML/PKDD 2009
và hai hội nghị MLD 2009 và MLD 2010 chứa một lượng đáng kể các công trình
nghiên cứu về học đa nhãn. Các nhóm nghiên cứu của Zhi-Hua Zhou, Min-Ling Zhang và cộng sự1, Ioannis P. Vlahavas, Grigorios Tsoumakas và cộng sự2, Sebastián Ventura Soto3 và cộng sự với nhiều đóng góp nổi bật về học đa nhãn.
1 http://cs.nju.edu.cn/zhouzh/ và http://cse.seu.edu.cn/PersonalPage/zhangml/ 2 http://plase.csd.auth.gr/vlahavas/ và http://intelligence.csd.auth.gr/people/tsoumakas 3 http://www.uco.es/users/sventura/en/
3
Học đa nhãn là chủ đề nghiên cứu của một số luận án Tiến sỹ trên thế giới,
chẳng hạn như [51], [67], [92], [111], [113]. Luận án của J. Read [67] đề xuất giải
pháp phân lớp đa nhãn trên quy mô lớn với hai mô hình phân lớp dựa trên phương
pháp tập cắt tỉa và chuỗi bộ phân lớp; hai tiếp cận này nhận được đánh giá tốt từ
cộng đồng nghiên cứu nhờ tính hiệu quả trên cả phương diện về sự đa dạng và quy
mô của dữ liệu. Tác giả H.Q.Le [51] đề xuất một kỹ thuật lựa chọn đặc trưng đa lớp
và một thuật toán phân lớp đa nhãn trên miền dữ liệu web có cấu trúc nhóm. Thuật
toán phân lớp đa nhãn đa cặp (Multi-Pair) chuyển đổi bài toán phân lớp đa nhãn về
nhiều bài toán phân lớp nhị phân (OVA One-Vs-All), sau đó, tiếp tục phân tách mỗi
bộ phân lớp nhị phân thành các cặp so sánh nhỏ hơn và đơn giản hơn giữa một
nhóm và một tập con của phần bù của nhóm. Phân tách như vậy giúp tận dụng được
cấu trúc nhóm trong phần bù và giảm sự mất cân bằng dữ liệu trong phương pháp
OVA. Trong một tiếp cận khác, S.S.Bucak [113] đề xuất một phương pháp biểu
diễn ảnh dựa trên học đa nhân và thuật toán học đa nhãn dựa trên tiếp cận xếp hạng
đa nhãn, trong đó thuật toán xếp hạng đa nhãn sẽ xếp hạng tất cả lớp ảnh sao cho
các lớp liên quan sẽ có hạng cao hơn các lớp ít liên quan. Luận án của S.Jungjit
[111] đề xuất một mô hình phân lớp đa nhãn kết hợp hai bộ phân lớp đa nhãn kinh
điển là phân lớp đa nhãn k láng giềng gần nhất (MLkNN) và phân lớp đa nhãn mạng
Nơron lan truyền ngược (BPMLL) với giải pháp lựa chọn đặc trưng thông qua tìm
kiếm các tập con đặc trưng phù hợp.
Theo M. L. Zhang và Z. H. Zhou [84], các công trình nghiên cứu sớm nhất về
học đa nhãn là tập trung vào miền ứng dụng phân lớp văn bản [6], [106]. Theo thời
gian, học đa nhãn được ứng dụng vào nhiều miền ứng dụng đa dạng (đặc biệt là miền
ứng dụng phân lớp dữ liệu ảnh) và nhiều phương pháp học đa nhãn đã được đề xuất
[1], [7], [23], [25], [42], [44], [63], [66], [73], [74], [76], [114], [117], [118], [127]. Các
phương pháp ban đầu thường đi theo cách tiếp cận là cố gắng chia bài toán học đa nhãn
thành nhiều bài toán phân lớp hai nhãn hoặc chuyển nó thành phương pháp học máy
xếp hạng nhãn trong phân lớp đa nhãn [23], [42], [73], [74], những tiếp cận gần đây
chú trọng hơn đến việc khai thác mối quan hệ giữa các nhãn [7], [76], [117], [118], tiếp
4
cận khai thác mối quan hệ đa nhãn và dự đoán chuỗi tuần tự [65].
Trong học đa nhãn, các giải pháp biểu diễn dữ liệu và lựa chọn đặc trưng dữ
liệu tốt cho phép nâng cao tính hiệu quả của các giải pháp học đa nhãn [24], [82],
[83], [87], [93], [94], [127] và nhiều giải pháp đã được đề xuất. M.L. Zhang và cộng
sự sử dụng chiến thuật lựa chọn đặc trưng dựa trên phân tích thành phần chính PCA
và các thuật toán di truyền để loại bỏ các đặc trưng dư thừa, không liên quan và chọn
ra tập đặc trưng phù hợp nhất cho bài toán phân lớp [82] hoặc khai thác các đặc trưng
cụ thể cho từng nhãn để sử dụng cho quá trình huấn luyện và kiểm thử [83], [87].
A.Elisseeff và J.Weston sử dụng các đặc trưng nhãn được sắp xếp để khai thác mối
quan hệ giữa các nhãn trong bài toán phân lớp đa nhãn [1]. O.G.R. Pupo và cộng sự
đánh trọng số đặc trưng dựa trên bộ lọc nhằm cải tiến các thuật toán lười (lazy
algorithm) phân lớp đa nhãn [93] hoặc cải tiến thuật toán ReliefF đánh trọng số và
lựa chọn đặc trưng cho phân lớp đa nhãn bao gồm việc sử dụng phương pháp chuyển
đổi bài toán đa nhãn về bài toán phân lớp đơn nhãn và thích nghi thuật toán ReliefF
trực tiếp giải quyết bài toán phân lớp đa nhãn [94]. Phân tích các đặc trưng dữ liệu
cho phân lớp đa nhãn cũng là một trong các hướng nghiên cứu được quan tâm gần
đây [44].
Tại Việt Nam, qua khảo sát các công trình khoa học được công bố, phân lớp đơn nhãn đã nhận được sự quan tâm rộng rãi của cộng đồng nghiên cứu4. Trong khi đó, phân lớp đa nhãn, đặc biệt là phân lớp đa nhãn văn bản tiếng Việt, còn khá ít5 và
đa phần do các nhóm nghiên cứu tại Đại học Công nghệ, Đại học Quốc gia Hà Nội
tiến hành và hiện chưa có luận án tiến sỹ nào về phân lớp đa nhãn.
Các tiếp cận về phân lớp đa nhãn trước đây chủ yếu tập trung vào giải thuật
theo phương pháp học giám sát, các mô hình phân lớp đa nhãn bán giám sát vẫn còn
hiếm. Luận án này tiếp nối các nghiên cứu về phân lớp đa nhãn, tiếp tục phân tích,
đánh giá và đề xuất cải tiến mô hình phân lớp về phương pháp biểu diễn dữ liệu, lựa
4 Google Scholar trả về tài liệu đối với truy vấn “classification” + “Vietnamese” ngày 26/9/2017 5 Google Scholar trả về 29 tài liệu đối với truy vấn ““multi-label classification” + “Vietnamese”” ngày 20/12/2016.
5
chọn đặc trưng và đề xuất mới thuật toán phân lớp đa nhãn theo phương pháp bán
giám sát nhằm tận dụng nguồn tài nguyên dữ liệu chưa gán nhãn phong phú. Phân
lớp văn bản có tính ứng dụng do sự xuất hiện rộng rãi của văn bản trong mọi lĩnh
vực của đời sống, ở sách báo, thông điệp, diễn đàn,… Do đó, luận án tập trung vào
bài toán phân lớp đa nhãn văn bản tiếng Việt.
Nghiên cứu của luận án hướng tới một số mục tiêu sau đây. Thứ nhất,
luận án cung cấp một khảo sát khái quát về phân lớp đa nhãn. Thứ hai, luận án đề
xuất các phương pháp biểu diễn dữ liệu và lựa chọn đặc trưng phù hợp nhằm nâng
cao hiệu quả của giải pháp phân lớp đa nhãn văn bản tiếng Việt. Nghiên cứu, đề
xuất các thuật toán phân lớp đa nhãn dựa trên các thuật toán phân lớp hiện đại là
mục tiêu thứ ba của luận án. Cuối cùng, luận án xây dựng một số phần mềm thử
nghiệm thực thi các giải pháp biểu diễn dữ liệu và thuật toán phân lớp đa nhãn được
luận án đề xuất để kiểm chứng tính hiệu quả của các đề xuất đó.
Đối tượng nghiên cứu của luận án là phương pháp biểu diễn dữ liệu, lựa
chọn đặc trưng và thuật toán phân lớp đa nhãn trong miền dữ liệu văn bản tiếng Việt.
Phạm vi nghiên cứu của luận án được giới hạn ở phương pháp biểu diễn dữ
liệu, lựa chọn đặc trưng và thuật toán phân lớp đa nhãn văn bản tiếng Việt, tập trung
vào miền ứng dụng phân tích nhận xét đánh giá tiếng Việt.
Phương pháp nghiên cứu của luận án là nghiên cứu lý thuyết đề xuất mô
hình biểu diễn dữ liệu và thuật toán phân lớp đa nhãn cũng như nghiên cứu thực
nghiệm để kiểm chứng đánh giá các đề xuất của luận án.
Luận án tham gia vào dòng nghiên cứu về phân lớp đa nhãn trên thế giới và
đạt được một số đóng góp được ghi nhận, tập trung vào các nghiên cứu về phân lớp
đa nhãn văn bản tiếng Việt.
Thứ nhất, luận án đề xuất hai mô hình biểu diễn dữ liệu cho phân lớp đa nhãn
là mô hình biểu diễn dữ liệu chủ đề ẩn [PTNgan3] và mô hình biểu diễn dữ liệu theo
đồ thị khoảng cách các chủ đề [PTNgan4].
Thứ hai, trên cơ sở phát triển thuật toán phân cụm bán giám sát đơn nhãn
TESC [120], luận án đề xuất một thuật toán phân lớp đa nhãn bán giám sát (Thuật
6
toán MULTICS [PTNgan5], [PTNgan6]) sử dụng chiến thuật “tham lam” khai thác
các đặc trưng riêng biệt của các nhãn.
Thứ ba, luận án tham gia đóng góp vào dòng nghiên cứu về học phân lớp đơn
nhãn văn bản tiếng Việt tương ứng với hai ứng dụng thực tiễn là đề xuất mô hình
gán nhãn thực thể có tên [PTNgan1] và mô hình hệ tư vấn xã hội [PTNgan2].
Đồng thời, nhằm minh chứng cho tiềm năng ứng dụng thực tiễn của các mô
hình đề xuất, luận án thực thi các thực nghiệm để kiểm chứng tính hữu dụng của các
thuật toán và mô hình được luận án đề xuất. Kết quả thực nghiệm cho thấy tiềm
năng ứng dụng cao các kết quả nghiên cứu từ luận án.
Luận án cũng có đóng góp trong việc cung cấp một nghiên cứu tổng quan về
học máy đa nhãn.
Bố cục của luận án gồm phần mở đầu và bốn chương nội dung, phần kết
luận và danh mục các tài liệu tham khảo. Hình 0.2 cung cấp một khung nhìn sơ bộ
về phân bố các chủ đề trong bốn chương nội dung của luận án.
Hình 0.2 Phân bố các chủ đề trong các chương của luận án
Chương 1 của luận án cung cấp một nghiên cứu khái quát từ phân lớp đơn
nhãn tới phân lớp đa nhãn. Phân lớp đơn nhãn tuy đơn giản, hiệu quả nhưng không
phù hợp với không ít tình huống trong thực tế; khung học máy đa nhãn (đơn thể
7
hiện) thể hiện được tính thực tế và ứng dụng rộng rãi trong nhiều bài toán phân lớp;
Các vấn đề cơ bản liên quan đến khung học máy đa nhãn kết tinh ở hai lớp phương
pháp phân lớp đa nhãn (chuyển đổi bài toán và thịch nghi thuật toán), rút gọn đặc
trưng (giảm chiều) và lựa chọn các đặc trưng hữu ích trong phân lớp đa nhãn; các
độ đo và phương pháp đánh giá phân lớp đa nhãn.
Luận án cung cấp hai mô hình phân lớp đơn nhãn ứng dụng thực tế
[PTNgan1], [PTNgan2]. Mô hình gán nhãn thực thể có tên tiếng Việt dựa trên mô
hình trường ngẫu nhiên điều kiện (CRFs) sử dụng tập ràng buộc theo tiêu chuẩn kỳ
vọng tổng quát. Mô hình hệ tư vấn xã hội tiếng Việt dựa trên tiếp cận lọc cộng tác
kết hợp thông tin bổ sung về người dùng liên quan từ phương tiện xã hội; tác động
của các đặc trưng bổ sung từ phương tiện xã hội tới hiệu quả tư vấn cũng được khảo
sát. Chương 2 của luận án trình bày chi tiết về cách tiếp cận của luận án và mô hình
phân lớp đơn nhãn được đề cập.
Chương 3 của luận án đề xuất hai mô hình phân lớp đa nhãn dựa trên tiếp cận
về biểu diễn dữ liệu nhằm cung cấp các đặc trưng mới nâng cao hiệu quả mô hình.
Trong mô hình đầu tiên [PTNgan3], biểu diễn dữ liệu theo chủ đề ẩn nhằm khai
thác thông tin ngữ nghĩa ẩn trong văn bản giúp làm giàu thêm các đặc trưng của dữ
liệu và lựa chọn các đặc trưng tiêu biểu, quan trọng hoặc mang tính quyết định (loại
bỏ những đặc trưng không có hoặc ít quan trọng) dựa trên thông tin tương hỗ
(Mutual Information). Một mô hình ứng dụng cho bài toán đánh giá danh tiếng cho
1000 khách sạn Việt Nam đã được xây dựng. Mô hình thứ hai [PTNgan4] đề nghị
một phương pháp biểu diễn dữ liệu theo đồ thị khoảng cách các chủ đề ẩn. Kết quả
áp dụng mô hình vào bài toán đánh giá danh tiếng cho 1000 khách sạn ở Việt Nam
đã minh chứng được tính hiệu quả khi sử dụng biểu diễn đồ thị khoảng cách.
Xây dựng được ví dụ mẫu trong phân lớp đa nhãn là một công việc rất tốn
kém và mất nhiều thời gian do sự tồn tại các mối liên quan giữa các nhãn trong cùng
một thể hiện, vì vậy, phân lớp đa nhãn bán giám sát là một giải pháp hiệu quả. Luận
án đề xuất một thuật toán phân lớp đa nhãn bán giám sát MULTICS [PTNgan5,
PTNgan6] trên cơ sở mở rộng thuật toán phân lớp văn bản đơn nhãn bán giám sát
8
TESC [120]. Luận án xây dựng một mô hình phân lớp đa nhãn bán giám sát trên nền
thuật toán MULTICS áp dụng vào bài toán xây dựng hệ thống đánh giá danh tiếng
cho 1000 khách sạn ở Việt Nam. Kết quả thực nghiệm cho thấy tính hiệu quả của
thuật toán MULTICS. Thuật toán MULTICS và các nội dung liên quan được trình
bày trong Chương 4 của luận án.
9
Chương 1. TỪ PHÂN LỚP ĐƠN NHÃN TỚI PHÂN LỚP ĐA NHÃN
Trong mục đầu tiên, luận án trình bày về sự tiến hóa của bài toán phân lớp từ
phân lớp đơn nhãn truyền thống tới phân lớp đa nhãn đơn thể hiện, phân lớp đơn
nhãn đa thể hiện và cuối cùng là phân lớp đa nhãn đa thể hiện. Tiếp đó, luận án tập
trung phân tích các đặc điểm của phân lớp đa nhãn (đơn thể hiện) bao gồm đặc điểm
của dữ liệu đa nhãn và biểu diễn dữ liệu, kỹ thuật phân lớp đa nhãn và phương pháp
đánh giá phân lớp đa nhãn.
1.1. Từ phân lớp đơn nhãn đơn thể hiện tới phân lớp đa nhãn đa thể hiện
Bài toán phân lớp dữ liệu về bản chất là xây dựng một hàm từ tập dữ liệu của
miền ứng dụng vào một tập nhãn cho trước. Đối tượng phân lớp trong tập dữ liệu
miền ứng dụng được biểu diễn bằng một tập đặc trưng là kết quả của quá trình khảo
sát và hiểu dữ liệu. Như vậy, một đối tượng phân lớp có thể được biểu diễn bằng
các tập đặc trưng khác nhau. “Đơn thể hiện” (single instance) chỉ dẫn rằng chỉ một
tập đặc trưng được sử dụng để biểu diễn dữ liệu miền ứng dụng, ngược lại, “đa thể
hiện” (multi-instance) chỉ dẫn rằng một vài tập đặc trưng được sử dụng để biểu diễn
dữ liệu miền ứng dụng. Ngầm định bài toán phân lớp trong luận án là phân lớp dữ
liệu “đơn thể hiện” nếu không có chỉ dẫn tường minh.
1.1.1. Phân lớp đơn nhãn
Một cách hình thức, bài toán phân lớp đơn nhãn được phát biểu như sau: Ký
hiệu là không gian thể hiện (hoặc không gian thuộc tính) và là tập các nhãn.
Cho trước một tập mẫu D = *( ) ( ) ( )+ trong đó là một
thể hiện và là một nhãn đã biết của . Nhiệm vụ đặt ra là cần học một hàm
ánh xạ từ không gian thể hiện vào tập các nhãn.
Hình 1.1 Phân lớp đơn nhãn truyền thống [128]
Trong phân lớp đơn nhãn văn bản, các đối tượng phân lớp là tập các văn bản.
Xây dựng một tập các đặc trưng (ví dụ như tập tất cả các từ xuất hiện trong tập văn
10
bản), mỗi văn bản được biểu diễn bởi tập đặc trưng vừa xây dựng (đơn thể hiện).
Mô hình phân lớp đơn nhãn nhị phân truyền thống đánh giá và kiểm tra mỗi tài liệu
trong tập dữ liệu phân lớp có thuộc vào lớp đang xét hay không.
Tồn tại một số biến thể của bài toán phân lớp đơn nhãn. Khác với phân lớp
đơn nhãn nguyên thủy yêu cầu mỗi đối tượng được gán duy nhất một nhãn, một số
biến thể phân lớp đơn nhãn cho phép mỗi đối tượng được gán tới một tập nhãn với
mỗi nhãn trong tập tương ứng với một giá trị xác suất hoặc một giá trị hạng [11].
C. C. Aggarwa [11] tổng kết một số kỹ thuật cơ bản trong phân lớp đơn nhãn
và trở thành nền tảng cho các phương pháp phân lớp như phương pháp cây quyết
định, phương pháp dựa trên luật, phương pháp dựa trên thực thể, phương pháp máy
vectơ hỗ trợ, phương pháp mạng nơron, phương pháp xác suất...
1.1.2. Phân lớp đơn nhãn đa thể hiện
Trong nhiều ứng dụng thực tế (phân lớp ảnh, trích chọn ảnh, phân lớp văn
bản, khai phá web, phát hiện thư rác (spam), an ninh máy tính, phát hiện khuôn
mặt…), một phần tử dữ liệu chỉ thuộc vào một lớp nhưng được biểu diễn bằng một
tập các thể hiện kết hợp với nhau. Đây là bài toán phân lớp đơn nhãn đa thể hiện,
một dạng tiến hóa từ phân lớp đơn nhãn. Theo Z.H Zhou và cộng sự [128], [129],
các công trình công bố sớm nhất về học đa thể hiện là [95], [115]. Trong bài toán
phân lớp đa thể hiện, mỗi phần tử dữ liệu được biểu diễn dưới dạng túi; tập dữ liệu
huấn luyện bao gồm nhiều túi, mỗi túi chứa nhiều thể hiện, túi được gán nhãn
dương nếu nó chứa ít nhất một thể hiện dương; ngược lại thì gán nhãn âm. Mục tiêu
là gán nhãn cho các túi chưa biết một cách chính xác.
Hình 1.2 Học đơn nhãn đa thể hiện [128]
Cho trước một tập dữ liệu *( ) ( ) ( )+ trong đó, là
11
một tập các thể hiện { } ( ) trong đó, là số thể hiện trong và là nhãn của . Khung học máy này học một hàm ánh xạ từ không gian thể hiện vào tập nhãn.
Trong phân lớp đơn nhãn đa thể hiện trên miền dữ liệu văn bản, các đối tượng
phân lớp là tập các văn bản. Xây dựng các tập các đặc trưng khác nhau (ví dụ như mỗi
tập đặc trưng biểu diễn cho một đoạn văn bản [107], hay mỗi tập đặc trưng biểu diễn
cho một câu trong văn bản [119]), một văn bản được biểu diễn bởi các tập đặc trưng
vừa xây dựng (đa thể hiện). Mô hình phân lớp đơn nhãn đa thể hiện đánh giá và kiểm
tra mỗi tài liệu trong tập dữ liệu phân lớp có thuộc vào lớp đang xét hay không.
Hầu hết các tiếp cận phân lớp đơn nhãn đa thể hiện được tiến hành theo
phương pháp thích nghi thuật toán, trong đó một thuật toán phân lớp đơn nhãn đơn
thể hiện được chuyển đổi theo hướng chuyển hóa mục tiêu phân biệt trên thể hiện
sang mục tiêu phân biệt trên các túi dữ liệu. Theo Z.H Zhou và cộng sự [128], một
số thuật toán phân lớp đơn nhãn đa thể hiện điển hình là: Thuật toán mật độ thay đổi
(Diverse Density) [95] và thuật toán mật độ thay đổi dựa trên entropy cực đại EM-
DD [105], thuật toán cây quyết định RELIC [36], thuật toán k láng giềng gần nhất
Citation-kNN và Bayesian – kNN [72], thuật toán mạng nơron BP-MIP và mở rộng
[85], các thuật toán dựa trên máy vectơ hỗ trợ và phương pháp nhân như MI-SVM
[107], DD-SVM [123], MISS-SVM [130], MI-Kernel [116]. Một số tiếp cận theo
phương pháp chuyển đổi bài toán theo hướng chuyển đổi biểu diễn đa thể hiện về
đơn thể hiện được Z.H Zhou và M.L Zhang đề xuất [130].
1.1.3. Phân lớp đa nhãn
Cũng trong nhiều ứng dụng thực tế (phân lớp văn bản, gán nhãn ảnh, dự đoán
chức năng gen, phân lớp video,… ), một đối tượng có thể đồng thời được gán vào
nhiều lớp khác nhau. Đây là bài toán phân lớp đa nhãn. Bài toán này là một sự tiến
hóa của phân lớp đơn nhãn do đó nó tồn tại nhiều đặc trưng phức tạp hơn về dữ liệu
đa nhãn, phương pháp tiếp cận đa nhãn và đánh giá học máy đa nhãn… Các vấn đề
này sẽ được chỉ ra ở các phần tiếp theo.
12
Hình 1.3 Học đa nhãn [128]
Cho trước một tập dữ liệu *( ) ( ) ( )+ trong đó, là
một thể hiện và là một tập nhãn { } ( ), là số nhãn trong . Khung học máy này học một hàm ánh xạ từ không gian thể hiện vào tập nhãn.
Trong phân lớp đa nhãn văn bản, các đối tượng phân lớp là tập các văn bản.
Xây dựng một tập các đặc trưng (ví dụ như tập tất cả các từ xuất hiện trong tập văn
bản), mỗi văn bản được biểu diễn bởi tập đặc trưng vừa xây dựng (đơn thể hiện).
Mô hình phân lớp đa nhãn đánh giá và gán cho văn bản phân lớp đồng thời vào
nhiều lớp khác nhau .
Các thách thức về dữ liệu đa nhãn, về mối quan hệ nhãn và đưa phân lớp đa
nhãn vào ứng dụng thực tế tạo nên các chủ đề nghiên cứu thời sự và nhiều giải pháp
kết quả đã và đang được công bố. Vì vậy, các chủ đề này được lựa chọn là các chủ
đề tập trung nghiên cứu trong luận án.
1.1.4. Phân lớp đa nhãn đa thể hiện
Ở mức tiến hóa cao nhất của bài toán phân lớp là phân lớp đa nhãn đa thể
hiện được M.L Zhang và Z.H Zhou lần đầu tiên hình thức hóa trong [129] và được
khái quát hóa trong [128]. Bài toán phân lớp đa nhãn đa thể hiện được phát biểu
khái quát như sau: Cho trước một tập nhãn lớp, mỗi phần tử dữ liệu được phân lớp
có thể đồng thời thuộc về nhiều lớp và mỗi phần tử dữ liệu có thể được biểu diễn
qua nhiều thể hiện. Khung phân lớp đa nhãn - đa thể hiện quan tâm tới sự nhập
nhằng đồng thời trong biểu diễn của không gian đầu vào và đầu ra; nó cung cấp một
khung nhìn mang tính tự nhiên và gần với thực tế hơn.
13
Cho trước một tập dữ liệu *( ) ( ) ( )+, trong đó,
là một tập các thể hiện { } ( ) và là một
tập nhãn { } ( ), với là số thể hiện trong và là số nhãn trong . Khung học máy đa nhãn đa thể hiện học một hàm ánh xạ từ không gian thể hiện vào không gian tập nhãn.
Hình 1.4 Học đa nhãn đa thể hiện [128]
Trong phân lớp đa nhãn đa thể hiện văn bản, các đối tượng phân lớp là tập
các văn bản. Xây dựng các tập các đặc trưng khác nhau, mỗi văn bản được biểu
diễn bởi các tập đặc trưng vừa xây dựng (đa thể hiện). Mô hình phân lớp đa nhãn đa
thể hiện đánh giá và gán cho văn bản phân lớp đồng thời vào nhiều lớp khác nhau .
Z.H. Zhou và cộng sự [128] hệ thống hóa các giải pháp học máy đa nhãn đa
thể hiện và một số phương pháp điển hình được giới thiệu sau đây. Hai thuật toán
MIMLSVM và MIMLBoost [128], [129] tiến hành việc giảm cấp bài toán phân lớp
đa nhãn đa thể hiện thành các bài toán đơn giản hơn sử dụng học máy đa nhãn đơn
thể hiện và học máy đa thể hiện đơn nhãn làm cầu nối. Thuật toán DBA [110] biểu
diễn bài toán MIML dưới dạng mô hình sinh thống kê. Thuật toán Ranking Loss
[27] tối ưu hóa hàm rủi ro xếp hạng nhãn cho túi và gán nhãn thể hiện. Thuật toán
láng giềng gần nhất MIML-kNN được đề xuất trong [86].
1.2. Giới thiệu chung về phân lớp đa nhãn
Tuy không phải là dạng tiến hóa cao nhất trong khung học máy như giới
thiệu trên đây, nhưng phân lớp đa nhãn có phạm vi ứng dụng rất rộng lớn trong thực
tiễn, và vì vậy, phân lớp đa nhãn luôn là một chủ đề nghiên cứu – triển khai thời sự.
Phần tiếp theo trình bày khái quát một số vấn đề cơ bản về phân lớp đa nhãn.
14
1.2.1. Kỹ thuật phân lớp đa nhãn
Hình 1.5 Hai tiếp cận học đa nhãn [21]
Phân lớp đa nhãn được chia thành hai nhóm tiếp cận chính là tiếp cận chuyển
đổi bài toán và tiếp cận thích nghi thuật toán.
Tiếp cận chuyển đổi bài toán là phương pháp chuyển đổi bài toán phân lớp
đa nhãn thành một hoặc nhiều bài toán phân lớp đơn nhãn (phân lớp đa lớp hoặc
phân lớp nhị phân) hoặc các bài toán hồi quy. Theo tiếp cận này, các bộ phân lớp
đơn nhãn được thực thi sau đó các dự đoán phân lớp đơn nhãn được kết hợp lại
thành kết quả dự đoán đa nhãn. Phương pháp này khá linh động vì có thể sử dụng
bất kỳ bộ phân lớp đơn nhãn nào như Máy vectơ hỗ trợ SVM [109], Naïve Bayes
[6], k láng giềng gần nhất kNN [26] và Perceptrons [57]…
15
Tiếp cận thích nghi thuật toán là phương pháp mở rộng các thuật toán học
phân lớp đơn nhãn đã biết để áp dụng trực tiếp giải quyết bài toán phân lớp đa nhãn.
Các thuật toán phân lớp đơn nhãn điển hình nhất được chọn lựa để thích nghi là
AdaBoost [106], cây quyết định [12], thuật toán học lười [86]...
Hình 1.5 thể hiện một cách trực quan các nhóm phương pháp cho phân lớp
đa nhãn và một số thuật toán thuộc mỗi nhóm. Luận án trình bày một số thuật toán
điển hình của mỗi tiếp cận ở phần tiếp theo.
1.2.1.1. Tiếp cận chuyển đổi bài toán
Để minh họa cho phương pháp này, luận án sử dụng tập dữ liệu ở Bảng 1.1.
Trong bảng dữ liệu có bốn mẫu được phân lớp vào tập nhãn lớp gồm bốn nhãn:
.
Mẫu 1 2 3 4 Tập nhãn * + * + * + * +
Bảng 1.1 Ví dụ về dữ liệu đa nhãn
Sau đây là phát biểu của bài toán phân lớp đa nhãn được sử dụng chung cho
các phương pháp được trình bày ở các phần tiếp theo.
Đầu vào:
- : Tập dữ liệu đa nhãn
- L: Tập nhãn cho trước gồm q nhãn
Đầu ra:
- Một bộ phân lớp đa nhãn ( )
Độ phức tạp tính toán của các thuật toán trình bày dưới đây được xác định
chủ yếu qua ba thành phần chung cho mọi thuật toán là: số mẫu huấn luyện ( ), số
chiều thuộc tính ( ) và số nhãn lớp ( ). Ngoài ra, các thuật toán học nhị phân (hoặc
đa lớp) trong phương pháp chuyển đổi bài toán có ký hiệu độ phức tạp pha huấn
luyện là ( ) và pha kiểm thử là ( ).
16
a. Thuật toán tương hợp nhị phân – Binary Relevance(BR)
Theo M. R. Boutell và cộng sự [89], ý tưởng chính của thuật toán này là giảm
cấp bài toán học đa nhãn thành q bài toán phân lớp nhị phân độc lập, trong đó mỗi bài
toán phân lớp nhị phân tương ứng với một nhãn trong không gian nhãn. Theo đó, để
xác định nhãn lớp thứ được ký hiệu là , đầu tiên thuật toán BR xây dựng một tập
huấn luyện nhị phân tương ứng bằng việc xem xét sự liên quan của mỗi mẫu huấn
luyện với nhãn .
(1.1)
{. ( )/ }
Trong đó ( ) {
Tiếp đó, có thể sử dụng bất kỳ thuật toán học máy nhị phân để xây dựng
một bộ phân lớp nhị phân ví dụ ( ). Khi đó, với bất kỳ mẫu
huấn luyện đa nhãn ( ), sẽ xem xét quá trình học của q bộ phân lớp nhị phân
trên dữ liệu . Nếu nhãn tương ứng thì được coi là một dữ liệu dương,
ngược lại được coi là một dữ liệu âm. Chiến thuật này là huấn luyện chéo (cross-
training).
Với một dữ liệu cần phân lớp, BR sẽ dự đoán tập nhãn tương ứng bằng
việc kết hợp các nhãn được xác định từ mỗi bộ phân lớp nhị phân.
(1.2)
{ ( ) }
Mẫu Nhãn Mẫu Nhãn
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 Mẫu Nhãn Mẫu Nhãn (b) (c) (d)
(a)
Hình 1.6 Các bộ phân lớp nhị phân tương ứng với 4 nhãn
Tuy nhiên, khi tất cả các bộ phân lớp nhị phân cho đầu ra là âm, thì tập nhãn
dự đoán Y sẽ bị rỗng. Để tránh việc dự đoán tập nhãn rỗng, luật T-Criterion có thể
được áp dụng:
17
{ ( ) } ⋃* ( )+ (1.3)
Trường hợp không bộ phân lớp nhị phân nào cho kết quả dương, T-Criterion
sẽ bổ sung công thức (1.2) bằng việc đưa vào nhãn lớp với đầu ra tốt nhất (ít âm
nhất). Bộ phân lớp đa nhãn được xác định theo công thức (1.3). Ngoài T-Criterion,
một số quy tắc khác cũng có thể được sử dụng trong việc dự đoán tập nhãn dựa trên
đầu ra của mỗi bộ phân lớp nhị phân.
( )
Hình 1.7 mô tả đoạn giả mã minh họa cho thuật toán BR.
1. For j=1 to q do 2. Xây dựng tập huấn luyện nhị phân theo công thức (1.1) 3. Gán ( ); 4. Endfor 5. Trả kết quả Y theo công thức (1.3)
Hình 1.7 Thuật toán phân lớp BR [89]
Ưu điểm vượt trội của BR là cách tiếp cận trực tiếp để giải quyết vấn đề dữ
liệu đa nhãn. Ngược lại, nhược điểm của BR là đã loại bỏ tất cả các mối quan hệ
tiềm năng giữa các nhãn và bộ phân lớp nhị phân cho mỗi nhãn có thể rơi vào trạng
thái mất cân bằng lớp khi lớn và mật độ nhãn thấp. Dựa theo đoạn chương trình
giả mã, M.R Boutell và cộng sự [89] xác định được độ phức tạp tính toán cho giai
b. Phương pháp chuỗi bộ phân lớp – Classifier Chain(CC)
đoạn huấn luyện là ( ( )) và cho giai đoạn kiểm tra là ( ( )).
Theo J.Read và cộng sự [64], ý tưởng của phương pháp này là chuyển bài
toán học đa nhãn thành một chuỗi các phân lớp nhị phân, trong đó các bộ phân lớp
nhị phân trong chuỗi được xây dựng dựa trên dự đoán của các bộ phân lớp trước đó.
Cho nhãn lớp { }, hàm * + * + là hàm hoán vị
các nhãn theo một thứ tự xác định ( ) ( ) ( ). Với nhãn thứ trong
danh sách, ( ) ( ), một tập huấn luyện nhị phân tương ứng được xây dựng
bằng việc kết hợp mỗi dữ liệu với các dữ liệu liên quan đến các nhãn trước ( )
18
. ( ( )) ( ( ))/
(1.4) ] ( ( ))/ } ( ) {.[ ( )
Trong đó, ( )
] là vectơ kết hợp của vectơ và vectơ ( )
( )
. Tiếp đó, các thuật toán học nhị phân được sử
[ ( ) là vectơ nhãn nhị phân cho các nhãn đứng trước ( ) trên dữ liệu
Trường hợp đặc biệt ( )
dụng để đưa ra bộ phân lớp nhị phân ( ) * + , ví dụ ( )
( ( )). Nói cách khác, ( ) xác định ( ) có là nhãn liên quan hay không.
* + là giá trị nhị
Đối với một dữ liệu chưa biết, tập nhãn kết hợp của nó được dự đoán bằng
cách đi qua chuỗi bộ phân lớp một số lần lặp. Ký hiệu ( )
phân dự đoán của ( ) trên dữ liệu x, được xác định như sau:
[ ( )([ ( ) ( )
[ ( )( )] ( ) ( )
(1.5) ])] ( )
Trong đó, , - là hàm xác định giá trị nhị phân dự đoán của nhãn. Theo đó, tập
}
nhãn dự đoán tương ứng là:
{ ( ) ( ) (1.6) Rõ ràng là, hiệu quả của chuỗi bộ phân lớp được xây dựng như trên phụ
thuộc nhiều vào hàm sắp xếp . Để giải thích cho ảnh hưởng của trật tự nhãn, một
tập chuỗi bộ phân lớp (Ensemble of Classifier Chain) có thể được xây dựng với
hoán vị ngẫu nhiên trên không gian nhãn, ví dụ ( ) ( ) ( ). Với mỗi hoán vị,
( ) ( ) một chuỗi bộ phân lớp áp dụng hàm ( ) không trực tiếp trên tập
huấn luyện ban đầu mà lên một tập huấn luyện đã thay đổi ( ), trong đó ( )
được xác định bằng việc lấy mẫu không thay thế hoặc có thay thế [67].
Hình 1.8 mô tả đoạn giả mã thuật toán chuỗi bộ phân lớp (CC). Trong thuật
toán này, mối quan hệ giữa các nhãn đã được xem xét theo một cách ngẫu nhiên. So
với thuật toán BR, thuật toán chuỗi bộ phân lớp có ưu điểm là đã khai thác mối
quan hệ giữa các nhãn nhưng nhược điểm là không thực thi song song được do đặc
điểm của chuỗi. Luận án J. Read [67] chỉ ra rằng độ phức tạp tính toán của thuật
19
toán chuỗi bộ phân lớp cho pha huấn luyện là ( ( )) và pha kiểm tra
( )
1. For j=1 to q do 2. Xây dựng chuỗi tập huấn luyện nhị phân ( ) theo công
thức (1.4)
là ( ( )).
3. Gán ( ) ( ( )); 4. Endfor 5. Trả kết quả Y theo công thức (1.6)
Hình 1.8 Thuật toán phân lớp CC [64]
c. Phương pháp xếp hạng nhãn theo kích cỡ - CalibratedLabelRanking (CLR)
Ý tưởng chính của thuật toán này là chuyển bài toán học đa nhãn thành bài
toán xếp hạng nhãn trong đó việc xếp hạng các nhãn được thực thi bằng kỹ thuật so
sánh cặp đôi.
Với q nhãn lớp { }, có tổng cộng ( ) bộ phân lớp nhị
phân có thể được sinh ra bằng phương pháp so sánh cặp đôi, mỗi bộ phân lớp cho
một cặp nhãn ( ) ( ). Cụ thể là, với mỗi cặp nhãn ( ), so
sánh cặp đôi đầu tiên sẽ xây dựng một tập huấn luyện nhị phân tương ứng bằng việc
xem xét mối quan hệ của mỗi mẫu huấn luyện với :
(1.7) {. ( )/ | ( ) ( ) }
Trong đó
( ) { ( ) ( ) ( ) ( )
Đối với thể hiện chưa biết , thuật toán CLR đầu tiên sẽ xây dựng (
) bộ phân lớp nhị phân được huấn luyện để đạt được tất cả các phiếu bầu cho
mỗi nhãn lớp có thể.
( ) ∑ ⟦ ( ) ⟧
( ) (1.8) ∑ ⟦ ( ) ⟧
20
Dựa vào định nghĩa trên, ta có ∑ . Do đó, các nhãn ( ) ( )
( )
1. for j=1 to q-1 do 2. for k=j+1 to q do 3. Xây dựng tập huấn luyện nhị phân theo công thức
{. ( )/ | ( ) ( ) }
trong không gian nhãn có thể được xếp hạng theo số phiếu bầu của nó.
4. Gán ( ); 5. endfor 6. endfor 7. for j=1 to q do
8.
Xây dựng tập huấn luyện nhị phân theo công thức
{. ( )/ }
9.
Gán ( );
10. endfor 11. Trả kết quả Y theo công thức { ( ) ( ) }
Hình 1.9 Thuật toán phân lớp CLR [84]
Hình 1.9 trình bày đoạn giả mã của thuật toán CLR. Thuật toán này có độ
phức tạp tính toán cho pha huấn luyện là ( ( )) và pha kiểm tra là
d. Thuật toán tập k nhãn ngẫu nhiên – Random k Labelset (RakEL)
( ( )) [84]
Ý tưởng chính của thuật toán này là chuyển bài toán học đa nhãn thành một
bộ các phân lớp đa lớp, trong đó mỗi máy học thành phần trong bộ tập trung vào
một tập con ngẫu nhiên của không gian nhãn dựa trên bộ phân lớp đa lớp được
tạo ra bằng kỹ thuật tập lũy thừa nhãn – LP [41], [43]. Chiến thuật chính là sử dụng
thuật toán LP trên các tập k nhãn ngẫu nhiên (tập con kích thước k trên không gian
nhãn để đảm báo hiệu quả tính toán), sau đó xây dựng bộ kết hợp các bộ phân lớp
LP để đạt được tính hoàn thiện trong dự đoán.
Gọi là tập hợp tất cả các tập nhãn kích thước trong không gian nhãn ,
21
trong đó tập nhãn kích thước thứ được kí hiệu là ( ), ( ) ( )
).
( )
theo công thức
1. for r=1 to n do 2. Chọn ngẫu nhiên một tập k nhãn ( ) với ( ) 3. Xây dựng tập huấn luyện đa lớp
( )
{( ( ). ( )/) }
4. Gán
.
/;
( )
( ) ( )
(
5. endfor 6. Trả kết quả Y theo công thức { ( ) ( ) }
Hình 1.10 Thuật toán phân lớp RakEL [43], [84]
Hình 1.10 trình bày đoạn giả mã của thuật toán Random k-Labelsets. Tiếp cận
thể hiện mức độ liên quan của nhãn được kiểm soát bởi kích thước của tập nhãn k.
Thuật toán RakEL có độ phức tạp tính toán cho pha huấn luyện là ( ( ))
và pha kiểm tra là ( ( )) được trình bày trong [43], [84].
1.2.1.2. Tiếp cận thích nghi thuật toán
a. Thuật toán k láng giềng gần nhất đa nhãn – Multi-Label k Nearest Neighbour
(ML-kNN)
Ý tưởng chính của thuật toán này là sử dụng kỹ thuật k láng giềng gần nhất
để xác định các láng giềng gần nhất của dữ liệu cần gán nhãn, sau đó sử dụng luật
cực đại hậu nghiệm trên các thông tin liên quan đến nhãn từ các láng giềng để đưa
ra tập nhãn dự đoán.
Đoạn giả mã thuật toán ML-kNN được trình bày ở Hình 1.11. Thuật toán này
có ưu điểm là thừa kế được những điểm mạnh của phương pháp học lười và suy diễn
Bayesian đó là: Một là, biên quyết định có thể điều chỉnh một cách thích hợp dựa trên
các láng giềng khác nhau được xác định cho mỗi dữ liệu chưa biết. Hai là, có thể xác
định cân bằng lớp dựa trên các xác suất tiên nghiệm ước lượng cho mỗi nhãn lớp.
Thuật toán có độ phức tạp tính toán cho pha huấn luyện là ( ) và pha
kiểm thử là ( ) được trình bày trong [84].
22
( )
1. for i=1 to m do
2. Xác định tập ( ) gồm k láng giềng gần nhất của x 3. endfor 4. for j=1 to q do
5. Xác định xác suất tiên nghiệm ( ) và ( ) theo công thức
( )
∑ ⟦ ⟧
( ) ( ) ( )
6. Tính mảng tần suất và ̃ theo công thức
, - ∑ ⟦ ⟧ ⟦ ( ) ⟧ ( )
7. endfor
8. Xác định tập ( ) gồm k láng giềng gần nhất của x 9. for j=1 to q do
Xác định lớp theo công thức
∑
⟦ ⟧
( ) ( )
10. endfor
11. Trả kết quả Y theo công thức { ( ) ( ) }
Hình 1.11 Thuật toán ML-kNN [84]
b. Thuật toán cây quyết định đa nhãn – Multi-Label Decision Tree(ML-DT)
Ý tưởng chính của phương pháp này là sử dụng thuật toán cây quyết định để
giải quyết với dữ liệu đa nhãn, trong đó sử dụng độ lợi thông tin dựa trên entropy đa
nhãn để xây dựng cây quyết định đệ quy.
Cho một tập dữ liệu đa nhãn *( ) + với là số mẫu, thông tin
thu được bằng việc chia theo đặc trưng thứ tại giá trị chia như sau:
* +
( ) ( ) ∑ ( ) (1.9)
Trong đó,
(1.10) *( ) + *( ) +
23
và bao gồm các mẫu có giá trị trên đặc trưng thứ l tương ứng thấp hơn và
lớn hơn .
Bắt đầu từ nút gốc ( ), ML-DT xác định đặc trưng và giá trị chia cắt
tương ứng làm cực đại hóa thông tin đạt được trong công thức (1.9) sau đó sinh ra 2
nút con tương ứng với và . Quá trình trên được thực thi một cách đệ quy bằng
việc coi hoặc là nút gốc mới và kết thúc khi đáp ứng một số tiêu chuẩn dừng
(ví dụ như kích thước của nút con nhỏ hơn một ngưỡng được xác định trước).
∑
(1.11) ( )̂ ∑ ( ) ( ( ))
⟦ ⟧
Trong đó, ( )
Để minh họa cho thuật toán ML-DT, cơ chế tính entropy đa nhãn, MLEnt(.)
trong công thức (1.9) cần được xây dựng trước. Một giải pháp trực tiếp là coi mỗi
tập con là một lớp mới và sắp xếp lại theo entropy đơn nhãn. Tuy nhiên, khi
số lớp mới tăng theo hàm mũ theo , nhiều lớp mới có thể không xuất hiện trong
, do đó, xác suất được cho là tầm thường (ví dụ ( ) ) Để hạn chế được vấn
đề này, ML-DT giả thiết độc lập giữa các nhãn và tính entropy đa nhãn theo cách có
thể phân rã được:
∑
(1.12) ( ) ∑ ( ) ( )
⟦ ⟧
Trong đó,
Ở đây, thể hiện tỷ lệ các mẫu trong với nhãn . Công thức (1.12) có thể
coi là dạng đơn giản của công thức (1.9) với giải thiết độc lập nhãn và
( ) ̂ ( ).
Đối với một thể hiện x chưa biết, nó được thực hiện trên cây quyết định bằng
cách duyệt qua các cạnh cho đến khi gặp một nút lá được kết hợp với một số mẫu
huấn luyện . Sau đó, tập nhãn được dự đoán tương ứng với:
{ } (1.13)
Nói cách khác, nếu đối với một nút lá, phần lớn các mẫu huấn luyện được gán nhãn và thể hiện kiểm tra được đặt trong cùng nút là sẽ được gán nhãn .
24
( )
1. Tạo cây quyết định với nút gốc liên kết với toàn bộ
tập huấn luyện ( )
hjff
2. if điều kiên dừng thỏa mãn then 3. break và go to bước 9 4. else
5.
6.
Xác định cặp thuộc tính-giá trị ( ) làm cực đại công thức (1.9) Thiết lập và theo công thức (1.10) Thiết lập 2 nút con tương ứng với và
7. 8. endif 9. Duyệt x từ nút gốc đến khi gặp nút lá 10. Trả kết quả Y theo công thức (1.13)
Hình 1.12 Thuật toán phân lớp ML-DT [84]
Hình 1.12 mô tả giả mã của thuật toán ML-DT với giả thiết độc lập về nhãn
trong việc tính toán entropy đa nhãn. Một ưu điểm nổi bật của ML-DT là hiệu quả
cao trong việc xây dựng mô hình cây quyết định từ dữ liệu đa nhãn.
Thuật toán có độ phức tạp tính toán cho pha huấn luyện là ( ) và pha
c. Thuật toán xếp hạng máy vectơ hỗ trợ - Rank-SVM
kiểm tra là ( ) được trình bày trong [84].
Ý tưởng chính của thuật toán này là thích nghi chiến thuật cực đại biên để
giải quyết bài toán học đa nhãn, tiến hành xây dựng hệ thống học gồm q bộ phân
lớp tuyến tính {( ) } trong đó và là vectơ
trọng số và giá trị xếp hạng (bias) của nhãn lớp thứ j - ; khi đó biên quyết định
trên mẫu ( ) được xác định dựa trên xếp hạng trên các lớp liên quan và không
liên quan của mẫu.
(1.14) ( ) ̅
〈 〉 ‖ ‖ Ở đây, 〈 〉 trả về tích vô hướng . Về phương diện hình học, mỗi cặp
nhãn liên quan và không liên quan ( ) ̅ , biên phân biệt tương ứng với
25
siêu phẳng 〈 〉 . Do đó, công thức (1.14) coi khoảng cách L2 của
đến siêu phẳng của mọi cặp nhãn liên quan, không liên quan, công thức này trả về giá trị cực tiểu là biên trên ( ). Do đó, đường biên của hệ thống học trên toàn
tập huấn luyện được xác định như sau:
(1.15) ( ) ( ) ̅ 〈 〉 ‖ ‖
Xếp hạng các biên quyết định cho mỗi một mẫu, khi đó việc xác định tập
nhãn của một mẫu dựa trên ngưỡng sao cho đồng thời cực đại hóa biên quyết định
( )
∑
∑
(1.16)
( )
∑ ‖ ‖
1. Xây dựng hệ thống phân lớp {( ) } bằng việc giải quyết bài toán quy hoạch toàn phương trong công thức ̅
( ) ̅
Với giả thiết 〈 〉
( ( ) ̅ )
2. Xác định cặp ( ) cho hàm ngưỡng bằng cách giải quyết vấn đề bình phương tối thiểu tuyến tính trong công thức
(1.17)
* +
∑(〈 ( )〉 ( ))
Trong đó: ( ) ( * ( ) + * ̅ ( ) + )
3. Trả kết quả Y theo công thức
{ 〈 〉 〈 ( )〉 }
và cực tiểu hóa độ đo rủi ro xếp hạng.
Hình 1.13 Thuật toán phân lớp Rank-SVM [84]
Hình 1.13 là đoạn giả mã của thuật toán Rank-SVM. Đây là tiếp cận theo quy
hoạch toàn phương (bậc hai), định nghĩa một biên trên các siêu phẳng cho cặp nhãn liên
quan và không liên quan. Rank-SVM thừa hưởng ưu điểm từ phương pháp nhân (kernel)
để giải quyết vấn đề phân lớp không tuyến tính và nhiều biến thể khác có thể đạt được.
Thuật toán có độ phức tạp tính toán cho pha huấn luyện là ( ( )
( )) trong đó ( ) là độ phức tạp tính toán của thuật toán quy hoạch toàn
26
phương QP để giải quyết công thức (1.16)với a là các biến và b là các ràng buộc; độ
d. Thuật toán bộ phân lớp đa nhãn nhóm – Collective Multi-Label (CML)
phức tạp tính toán cho pha kiểm tra là ( ) được trình bày trong [84].
Ý tưởng cơ bản của thuật toán này là sử dụng nguyên lý cực đại entropy để giải
( )
quyết bài toán học đa nhãn với yêu cầu thỏa mãn các ràng buộc về phân phối nhãn.
1. for l=1 to d do // d là số tài liệu 2. for j=1 to q do 3. Thiết lập tập ràng buộc ( ) ⟦ ⟧ ( ( ) )
// *( ) +
4. endfor 5. endfor 6. for =1 to q-1 do 7. for = 1 to q do 8. Thiết lập ràng buộc ( ) ⟦ ⟧ ⟦ ⟧
( ( )
// {( ) * +}
9. endfor 10. endfor 11. Xác định các tham số * + ( ) bằng việc
cực đại hóa công thức
( ) (∏ ( )
) ∑
( )
∑
∑
(∑ ( )
( ))
( ) 12. Trả kết quả Y theo công thức
( )
Hình 1.14 Thuật toán phân lớp CML [84]
Với một mẫu đa nhãn bất kỳ ( ), ta có ( ) là biểu diễn các biến ngẫu
* + , nhiên tương ứng sử dụng vectơ nhãn nhị phân ( )
trong đó thành phần thứ j thể hiện Y chứa nhãn thứ j tương ứng với và Y
không chứa nhãn thứ j tương ứng với . Khi đó, học đa nhãn tương ứng với
việc học một phân phối xác suất chung ( ).
Đầu tiên xây dựng các ràng buộc về mối quan hệ nhãn, từ đó xác định phân
phối xác suất có điều kiện ( ) dựa trên nguyên lý cực đại hóa entropy của mẫu
27
( ) . Tập nhãn của mẫu quan sát là giá trị làm cực đại phân phối xác suất này.
Hình 1.14 là đoạn giả mã thuật toán CML, đây là tiếp cận quy hoạch toàn
phương (bậc hai) trong đó mối quan hệ giữa mọi cặp nhãn được xác định thông qua
các ràng buộc trong Mối quan hệ bậc hai trong CML tổng quan hơn trong thuật
toán Rank-SVM do thuật toán Rank-SVM chỉ xem xét đến những cặp nhãn liên
quan-không liên quan. Thuật toán có độ phức tạp tính toán cho pha huấn luyện là
( ( )) và pha kiểm tra là (( ) ) trong đó ( ) là
hàm độ phức tạp về thời gian cho phương pháp tối ưu không ràng buộc để giải
quyết công thức với biến [84].
1.2.1.3. Tóm tắt về các thuật toán được giới thiệu
Bảng 1.2 tổng kết các đặc trưng cơ bản nhất của một số thuật toán điển hình
của hai tiếp cận cho bài toán phân lớp đa nhãn, trong đó thể hiện rõ ý tưởng, độ
phức tạp tính toán, miền ứng dụng phù hợp và độ đo tối ưu sử dụng trên mỗi
phương pháp. Đây là cơ sở để lựa chọn thuật toán sử dụng trong các mô hình đề
xuất tiếp theo.
Ý tưởng
Thuật toán
Độ phức tạp Huấn luyện/Kiểm thử
Loại dữ liệu
ảnh
Binary Relevance
Chuyển bài toán đa nhãn về q bộ phân lớp nhị phân.
( ( ))/ ( ( ))
Độ đo tối ưu Phân lớp (hamming loss)
Classifier Chains
( ( ))/ ( ( ))
Chuyển bài toán đa nhãn về chuỗi các bộ phân lớp nhị phân.
ảnh, video, văn bản, sinh học
Phân lớp (hamming loss)
Chuyển bài toán đa nhãn về ( ) bộ phân lớp nhị phân
( ( ))/ ( ( ))
Calibrated Label Ranking
ảnh, văn bản, sinh học
Random k Labelsets
Chuyển bài toán đa nhãn về n bộ phân lớp đa lớp.
. ( )// . ( )/
ảnh, văn bản, sinh học
ML-kNN
Phân lớp (hamming loss) Phân lớp (độ chính xác tập con) Phân lớp (hamming loss)
( )/ ( )
ảnh, văn bản, sinh học
Sử dụng thuật toán k láng giềng kết hợp luật cực đại hậu nghiệm để xác định tập nhãn.
28
Ý tưởng
Thuật toán
Độ phức tạp Huấn luyện/Kiểm thử
Loại dữ liệu
Độ đo tối ưu Phân lớp (hamming loss)
ML-DT
sinh học
( ) ( )
Sử dụng thuật toán cây quyết định xác định độ lợi thông tin dựa trên entropy đa nhãn để xây dựng cây quyết định đệ quy.
sinh học
Rank- SVM
Xếp hạng / ranking
( ( ) ( ))/ ( )
Sử dụng thuật toán SVM thích nghi cho phân lớp đa nhãn bằng cách tối ưu các bộ phân lớp tuyến tính để cực đại hóa biên quyết định và cực tiểu rủi ro xếp hạng sử dụng phương pháp nhân.
CML
văn bản
( ( )) / (( ) )
Phân lớp (độ chinh xác tập nhỏ.)
Sử dụng tiếp cận cực đại hóa entropy cho bài toán học đa nhãn dựa trên ràng buộc quan hệ nhãn để xác định phân phối xác suất có điều kiện của tập nhãn.
Bảng 1.2 Tóm tắt các thuật toán phân lớp đa nhãn
1.2.2. Dữ liệu đa nhãn
1.2.2.1. Các độ đo dữ liệu đa nhãn
Tương tự trong dữ liệu đơn nhãn, dữ liệu đa nhãn có thể đo bằng số các mẫu
(n), số các thuộc tính của không gian đầu vào (d) và số các nhãn (q). Một số độ đo
về chiều đa nhãn như sau:
- LCard là một độ đo chuẩn của dữ liệu đa nhãn được G.Tsoumakas và
I.Katakis giới thiệu trong [42], LCard được định nghĩa là trung bình số nhãn
(1.18)
( )
∑
liên quan đến mỗi mẫu.
- LDens là độ đo cũng được giới thiệu trong [42], liên quan đến LCard nhưng
có tính đến kích thước của không gian nhãn.
(1.19) ( ) ( )
Hai độ đo này liên quan đến tần xuất của nhãn nhưng không mang lại thông tin
29
về tính cân đối trong lược đồ gán nhãn. J.Read [67] giới thiệu khái niệm tỷ lệ của sự
kết hợp nhãn duy nhất, trong đó tỷ lệ của tập nhãn là duy nhất trên tổng các mẫu.
(1.20) ( ) * ( ) + J.Read [67] còn giới thiệu khái niệm tỷ lệ xuất hiện của tập nhãn với tần suất
lớn nhất PMax. Đại lượng này thể hiện tỷ lệ của các mẫu liên quan tập nhãn xuất
hiện nhiều nhất.
( )
(1.21) ( ) ( )
Trong đó, ( ) là tần suất nhãn y trong tổ hợp nhãn trong tập dữ liệu .
Hai đại lượng này thể hiện mức độ về tính cân đối và tính đồng nhất trong
lược đồ gán nhãn. PUniq( ) cao thể hiện gán nhãn không đều và khi PMax( ) cao
là trường hợp dữ liệu lệch nhãn. Trong ngữ cảnh đa nhãn, lệch nhãn tương ứng với
số lượng lớn các mẫu liên quan đến các tập nhãn phổ biến nhất, trong khi một lượng
lớn các mẫu liên quan đến tập nhãn hiếm. Lệch nhãn thì đối lập với đồng nhất nhãn,
đây là trường hợp phổ biến trong ngữ cảnh đa nhãn trong đó nhiều nhãn có thể được
liên quan đến hơn một nửa số mẫu.
1.2.2.2. Phân bố nhãn
Phân bố nhãn là sự phân bố của tần suất các tập nhãn xuất hiện trong dữ liệu.
Phân bố này có thể đặc trưng theo các độ đo đã được giới thiệu ở mục con 1.2.2.1
Giá trị LCard (LDens) thấp là điển hình của phân lớp dữ liệu văn bản và dữ
liệu đa phương tiện trong trường hợp hầu hết các mẫu vừa khớp tự nhiên với một
lược đồ nhãn đơn và gán đa nhãn được đưa ra để giải quyết sự nhập nhằng này. Giá
trị LCard thường cao trong những tập dữ liệu ở miền hẹp.
Phân bố nhãn trong các tập dữ liệu có thể xấp xỉ bằng phân bố Poisson. Sự
thay đổi các giá trị PUniq( ) và PMax( ) thể hiện các bậc khác nhau của luật phân
bố trong dữ liệu thực.
1.2.2.3. Mối quan hệ giữa các nhãn
Trong các bài toán đa nhãn, luôn tồn tại các mối quan hệ giữa các nhãn. Nếu
30
thiếu đi mối quan hệ này, dữ liệu đa nhãn không còn thú vị nữa vì mỗi nhãn có thể
giả thiết độc lập và được coi như là một bài toán nhị nhân riêng rẽ không mất bất kỳ
thông tin nào và ý nghĩa của phân lớp đa nhãn không còn.
Trong phân lớp văn bản, không gian thể hiện của một mẫu được gán cả nhãn A
và B có thể biểu diễn một hỗn hợp của các mẫu A và các mẫu B. Một bài báo có thể
được gán nhãn “kinh tế” và “chiến tranh” có thể vì những từ trong bài báo liên quan
đến cả hai nhãn này. Tuy nhiên, điều này không áp dụng hoàn toàn cho tất cả mọi
miền. Một ảnh chứa vùng ảnh biển và vùng ảnh về người có thể không phải là một sự
pha trộn của đặc trưng biển và người vì rõ ràng người nhìn khác với biển và ngược lại.
1.2.3. Đánh giá phân lớp đa nhãn
Trong bài toán học máy truyền thống, hiệu quả của hệ thống học được đánh
giá thông qua các độ đo thông thường như độ chính xác (accuracy), độ hồi tưởng
(recall), độ đo hài hoà F-measure,… Tuy nhiên, việc đánh giá hiệu quả thực thi
trong học đa nhãn phức tạp hơn nhiều so với học đơn nhãn truyền thống vì mỗi một
mẫu có thể đồng thời thuộc về nhiều lớp. Do đó, một số độ đo đánh giá hiệu quả
của hệ thống học đa nhãn được đề xuất.
Hình 1.15 Các độ đo đánh giá của hệ thống đa nhãn [84]
M.L Zhang và Z.H Zhou [84] chia các độ đo thành hai nhóm là độ do dựa
trên mẫu và độ đo dựa trên nhãn. Độ đo dựa trên mẫu thực hiện bằng cách đánh giá
31
sự thực thi của hệ thống học trên mỗi mẫu kiểm tra riêng biệt, sau đó trả về giá trị
trung bình của tập kiểm tra. Khác với độ đo dựa trên mẫu, độ do dựa trên nhãn thực
hiện bằng cách đánh giá sự thực thi của hệ thống trên mỗi nhãn riêng biệt, sau đó trả
về giá trị trung bình macro/micro của tất các các nhãn lớp.
Hình 1.15 thể hiện tóm tắt các độ đo đánh giá học đa nhãn trên hai ứng dụng
chính là phân lớp và xếp hạng đa nhãn.
1.2.3.1. Các độ đo dựa trên mẫu
- Độ chính xác tập con:
(1.22) ( )
∑⟦ ( ) ⟧
Độ chính xác tập con đánh giá sự phân chia của các mẫu được phân lớp
chính xác, ví dụ tập nhãn được dự đoán là đồng nhất với tập nhãn đúng.
- Hamming Loss
(1.23) ∑ ( ) ( )
Trong đó, là sự khác nhau giữa 2 tập dữ liệu. Chỉ số hamming loss đánh
giá tỷ lệ cặp thể hiện-nhãn bị phân lớp sai, ví dụ một nhãn liên quan bị bỏ qua hoặc
gán nhãn không liên quan. Khi mỗi mẫu trong chỉ liên quan đến một nhãn,
( ) bằng lần về tỷ lệ phân lớp nhầm theo phương pháp truyền thống.
- ,
∑ ( ) (1.24) ( ) ( )
∑ ( ) (1.25) ( ) ( )
∑ ( ) (1.26) ( )
32
( )
( )
(1.27) ( ) ( ) ( ) ( )
là một
Ngoài ra, phiên bản tích hợp của
( ) ( ) với nhân tố cân bằng . Lựa chọn phổ
biến nhất là dẫn đến trung bình điều hòa của độ đo precision và recall.
Khi hàm giá trị thực trung gian ( ) đã xác định, bốn độ đo xếp hạng dựa
trên nhãn có thể được định nghĩa như sau:
- One-error
( ) (1.28) ∑⟦[ ( )] ⟧
One-error đánh giá số lần nhãn được xếp hạng cao nhất không nằm trong tập
nhãn có thể. Do đó, nếu mục tiêu của hệ thống đa lớp là gán một nhãn đơn cho một
tài liệu, độ đo one-error sẽ đếm số lần nhãn được dự đoán không nằm trong Y.
Trong phân lớp đơn nhãn, độ đo one-error tương ứng với độ đo lỗi thông thường.
- Coverage:
∑ ( )
(1.29) ( )
Trong khi độ đo one-error đánh giá thực thi của một hệ thống đối với nhãn
được xếp hạng đầu, mục tiêu của độ đo coverage là xác định độ đo của một hệ thống
đối với tất cả các nhãn có thể của tài liệu. Coverage được định nghĩa như khoảng
cách trung bình cho tất cả các nhãn thích hợp được gán cho một ví dụ thử nghiệm.
Đối với phân lớp đơn nhãn, coverage là thứ hạng trung bình của nhãn đúng
- Ranking Loss: Tính phân bố trung bình của các cặp nhãn.
và coverage nhận giá trị zero nếu hệ thống không xuất hiện lỗi phân lớp nào.
̅
(1.30) ∑ ( ) *( ) ( ) ( ) ( ) ̅ +|
- Average Precision
33
∑ ( ) ∑ (1.31) |{ ( ) ( ) }| ( )
Độ đo Average Precision đánh giá thành phần trung bình của các nhãn liên
quan được xếp hạng cao hơn một nhãn cụ thể .
Các độ đo, one-error, coverage và ranking loss, giá trị càng thấp thì thực thi
∑
của hệ thống càng tốt, với giá trị tối ưu của cho coverage và 0 cho
one-error và ranking loss. Đối với độ đo đa nhãn dựa trên mẫu khác, giá trị đo càng
lớn, thì hệ thống thực thi càng tốt, và giá trị tối ưu là 1.
1.2.3.2. Các độ đo dựa trên nhãn
Đối với một nhãn thứ j ( ), bốn đại lượng cơ bản đặc trưng cho thực thi
phân lớp nhị phân trên nhãn này có thể được định nghĩa dựa trên hàm phân lớp ( )
như sau theo khảo sát của F. Sebastiani [31]:
Dữ liệu thực Nhãn
Dự đoán Có nhãn TPj FPj Không có nhãn TNj FNj Có nhãn Không có nhãn
Bảng 1.3 Bảng ký hiệu dữ liệu phân lớp thực và dự đoán
Trong đó:
TPj (True Positives): số lượng ví dụ dương được thuật toán gán đúng nhãn
TNj (True Negatives): số lượng ví dụ dương được thuật toán gán sai vào nhãn
FPj (False Positives): số lượng ví dụ âm được thuật toán gán sai vào nhãn
FNj (False Negatives): số lượng ví dụ âm được thuật toán gán sai vào nhãn
|{ ( ) }|
|{ ( ) }|
|{ ( ) }|
|{ ( ) }|
Theo định nghĩa trên, + .
34
Dựa trên bốn đại lượng, hầu hết các độ do phân lớp đa nhãn nhị phân có thể
nhận được. Cho ( ) là độ đo phân lớp nhị phân cụ thể
( ), độ đo phân lớp dựa trên nhãn có thể đạt được
theo mô hình sau:
- Độ trung bình thô ( Macro-averaging):
(1.32) ( ) ∑ ( )
- Độ trung bình mịn (Micro-averaging)
) (1.33) ( ) (∑ ∑ ∑ ∑
Trong đó: ( ) (1.34)
( ) (1.35)
(1.36) ( )
( ) (1.37) ( ) ( )
Theo công thức tính, độ trung bình thô và độ trung bình mịn giả thiết “trọng
số bằng nhau” lần lượt cho các nhãn và các mẫu. Dễ dàng chỉ ra rằng
( ) ( ) và ( ) ( ) .
Khi hàm giá trị thực trung gian ( ) đã xác định, độ đo xếp hạng dựa trên
nhãn có thể được tính như sau:
∑
(1.38)
∑ |{( ) ( ) ( ) ( ) ̅ }| | || ̅ |
Trong đó, * +, ̅ * + tương
35
ứng với tập thể hiện kiểm tra với nhãn và tập thể hiện kiểm tra không có nhãn .
Tương tự, giá trị độ trung bình mịn được xác định như sau:
(1.39)
*( ) ( ) ( ,y") ( ) ( ,y") +
Trong đó, *( ) +, *( ) + là tập các cặp thể hiện-nhãn liên quan và tập các cặp thể hiện-nhãn không liên quan.
Đối với các độ đo đa nhãn dựa trên nhãn, giá trị độ đo càng lớn thể hiện thực
thi của hệ thống càng tốt, với giá trị tối ưu là 1.
1.3. Giảm chiều dữ liệu trong phân lớp đa nhãn
Trong bài toán khai phá dữ liệu (nói chung) và bài toán phân lớp (nói riêng),
dữ liệu miền ứng dụng được phân tích để sinh một tập đặc trưng “đại diện” cho dữ
liệu đó. Tuỳ thuộc vào thuật toán phân lớp mà tập đặc trưng có thể cần được biến
đổi tiếp để phù hợp với thuật toán phân lớp đó, ví dụ như, nếu thuật toán phân lớp
chỉ áp dụng được với dữ liệu rời rạc thì các đặc trưng có giá trị liên tục cần được rời
rạc hoá. Khi đó, thuật toán phân lớp tiến hành học một bộ phân lớp f là một
hàm/ánh xạ từ không gian các đặc trưng tới tập nhãn lớp.
Hình 1.16 Mô hình lựa chọn đặc trưng cho phân lớp dữ liệu [47]
Theo xu thế dữ liệu lớn (big data), dữ liệu với số chiều lớn (số lượng đặc trưng
lớn) nảy sinh hiện tượng “bùng nổ chiều dữ liệu” (the curse of dimensionality) mà các
thuật toán được thiết kế cho dữ liệu có số chiều nhỏ không thể áp dụng được [62].
Trong tập đặc trưng có thể tồn tại các đặc trưng không liên quan đến mục
36
tiêu phân lớp (được gọi là đặc trưng dư thừa) và sự có mặt của đặc trưng này tác
động tiêu cực tới hiệu quả của quá trình học mô hình về cả thời gian tính toán và cả
độ chính xác của thuật toán học mô hình. Bài toán tìm ra một tập đặc trưng dữ liệu
với số chiều thấp hơn so với số chiều ban đầu mà vẫn giữ được tính đại diện dữ liệu
cho bài toán phân lớp là một bài toán rất có ý nghĩa. Bài toán này trở thành một tác
vụ quan trọng trong lĩnh vực học máy cũng như lĩnh vực khai phá dữ liệu và được
gọi là bài toán giảm số lượng đặc trưng (còn được gọi là rút gọn đặc trưng, rút gọn
thuộc tính, giảm chiều dữ liệu). Giảm số lượng đặc trưng có thể được coi là bước
tiền xử lý cho phân lớp, nên việc kết hợp các thuật toán phân lớp với thuật toán
giảm chiều đặc trưng cũng là một giải pháp hữu dụng.
Lựa chọn đặc trưng trong phân lớp đa nhãn và phân lớp đơn nhãn có nhiều
khác biệt quan trọng [78], [79]. Thứ nhất, các nhãn trong phân lớp đơn nhãn là loại
trừ lẫn nhau, trong khi đó, các nhãn trong phân lớp đa nhãn không độc lập mà lại
tương quan nhau. Thứ hai, nhãn trong phân lớp đa nhãn thường do con người định
nghĩa (annotate) do đó thường là không chính xác và không đầy đủ, đặc biệt khi số
lượng nhãn lên tới hàng trăm thậm chí hàng nghìn. Bài toán khai thác hợp lý mối
tương quan giữa các nhãn trong phân lớp đa nhãn là vấn đề quan trọng đặc biệt và
đây là vấn đề không được đặt ra đối với các phương pháp giảm chiều trong phân lớp
đơn nhãn. Chính vì lý do đó việc áp dụng các thuật toán giảm chiều giám sát truyền
thống vào phân lớp đa nhãn theo tiếp cận chuyển đổi bài toán (chuyển đổi phân lớp
đa nhãn về phân lớp đơn nhãn) [84] thường rất kém hiệu quả. Ngoài ra, trong phân
lớp đa nhãn, vấn đề không gian nhãn đầu ra có chiều lớn cũng ảnh hưởng không nhỏ
đến thuật toán phân lớp. Việc nghiên cứu những kỹ thuật giảm chiều đặc trưng với
định hướng khai thác mỗi tương quan giữa các nhãn là rất cần thiết và rất có ý nghĩa
trong phân lớp đa nhãn. Phần tiếp theo, luận án sẽ luận giải và trình bày tóm tắt các
tiếp cận về giảm chiều đặc trưng đầu vào và giảm chiều không gian nhãn đầu ra.
1.3.1. Tiếp cận giảm chiều không gian đặc trưng đầu vào
Các dữ liệu đa nhãn trong các ứng dụng thực tế như phân lớp văn bản, gán
nhãn ảnh,… thường có chiều rất lớn cỡ hàng trăm, thậm chí hàng nghìn đặc trưng.
37
Không gian đặc trưng trong dữ liệu đa nhãn đôi khi được sắp theo một hoặc nhiều
trật tự khác nhau dẫn đến không gian tìm kiếm bùng nổ hơn nhiều so với dữ liệu
trong phân lớp nhị phân và phân lớp đa lớp truyền thống.
Theo F.Herrera và cộng sự [29], các phương pháp giảm chiều đặc trưng phân
chia theo nhiều cách khác nhau tùy thuộc vào tiêu chuẩn lựa chọn tập con đặc trưng
như sau:
- Tiếp cận lựa chọn đặc trưng và trích rút đặc trưng: Phương pháp lựa chọn
đặc trưng tiến hành lựa chọn các đặc trưng hữu ích dựa trên đánh giá độ liên
quan của đặc trưng xuất hiện trong dữ liệu nguồn. Phương pháp trích rút đặc
trưng sinh ra đặc trưng mới từ tập đặc trưng ban đầu.
- Tiếp cận giảm chiều đặc trưng có giám sát và không giám sát: Phương pháp
không giám sát thực hiện giảm chiều đặc trưng chỉ dựa trên bản thân dữ liệu
mà không quan tâm đến tập nhãn của phần tử dữ liệu, điển hình là phương
pháp phân tích thành phần chính PCA[55]. Ngược lại, các phương pháp giảm
chiều có giám sát tận dụng được thông tin về nhãn lớp thông qua việc phân
tích mối quan hệ giữa đặc trưng và nhãn lớp, điển hình là phương pháp phân tích tương quan kinh điển CCA[45] và phân tích biệt thức tuyến tính LDA6
[33], trong đó mối quan hệ phụ thuộc giữa đầu vào và đầu ra được xác định
thông qua các ma trận biến thiên chéo.
- Tiếp cận lọc và đóng gói: Tiếp cận lọc thực hiện lựa chọn đặc trưng dựa hoàn
toàn vào tập dữ liệu ban đầu dựa trên một số tiêu chuẩn như độ đo khoảng cách
và độ đo phân kỳ, độ đo thông tin, xác suất lỗi, độ đồng nhất hoặc khoảng cách
giữa các lớp,… Tiếp cận này không phụ thuộc vào bất kỳ thuật toán học nào nên
loại bỏ được vấn đề sai lệch (bias) giữa việc lựa chọn đặc trưng và mô hình học.
Trong khi đó, tiếp cận đóng gói được thiết kế để tối ưu tập con đặc trưng sử
dụng một bộ phân lớp cho trước trong quá trình đánh giá. Tiếp cận này bị phụ
thuộc vào bộ phân lớp và do đó có thể suy diễn các tương tác giữa các đặc
6 LDA – Linear Discriminant Analysis
38
trưng. Tiếp cận lai giữa hai phương pháp này cũng được đề xuất trong đó khâu
lựa chọn đặc trưng được coi là một phần của quá trình huấn luyện mô hình.
Phương pháp cây quyết định và rừng ngẫu nhiên [77] là hai điển hình của
phương pháp lai. Trong khi, tiếp cận lọc cho hiệu quả tốt hơn về thời gian, tiếp
cận đóng gói lại cho thực thi tốt hơn.
- Tiếp cận giảm chiều đặc trưng tuyến tính và phi tuyến tính: Hầu hết các thuật toán
lựa chọn đặc trưng dựa trên phương pháp thống kê tuyến tính (hồi quy tuyến tính)
như PCA và LDA. Trong PCA, một chuyển đổi tuyến tính được áp dụng trên tập
đặc trưng ban đầu để ánh xạ sang không gian đặc trưng ít chiều hơn.
Các phương pháp giảm chiều đặc trưng không giám sát chỉ dựa trên sự phân
tích của thông tin dư thừa trên tập đặc trưng đầu vào mà không sử dụng các thông
tin nhãn lớp, do đó các phương pháp này có thể áp dụng trực tiếp trên dữ liệu đa
nhãn. Ngược lại, các phương pháp giảm chiều đặc trưng có giám sát có sử dụng
thông tin về nhãn lớp nên cần biến đổi để thích nghi với dữ liệu đa nhãn. Hướng
tiếp cận chuyển đổi bài toán đa nhãn về dạng truyền thống sử dụng biến đổi nhị
phân BR và biến đổi tập con LP; sau đó kết quả đánh giá tương ứng với mỗi nhãn
được kết hợp để tạo ra xếp hạng tổng thể cho các đặc trưng. Tiếp cận này là tiêu
chuẩn quan hệ đơn biến hay nói cách khác các đặc trưng được đánh giá một cách
độc lập, không xem xét đến sự dư thừa đặc trưng và mối quan hệ giữa các đặc
trưng. Một tiêu chuẩn đa biến như kỹ thuật thông tin tương hỗ là một giải pháp
được sử dụng trong nhiều nghiên cứu để khắc phục những nhược điểm này.
G.Doquire và M.Verleysen [33], [34] đề xuất mô hình phân lớp đa nhãn theo tiếp
cận chuyển đổi bài toán sử dụng phương pháp cắt tỉa PPT theo chiến thuật tìm kiếm
tham lam với tiêu chuẩn tìm kiếm là thông tin tương hỗ đa chiều. J. Lee và cộng sự
[61] đề xuất một thuật toán lựa chọn đặc trưng đa nhãn sử dụng độ đo thông tin
tương hỗ xấp xỉ để đánh giá mối quan hệ giữa tập đặc trưng và tập nhãn.
S. Li và cộng sự [112] đề xuất bộ thuật toán lựa chọn thuộc tính đa nhãn dựa
trên độ lợi thông tin để đánh giá mối quan hệ giữa đặc trưng và tập nhãn, sau đó tiến
hành lựa chọn các đặc trưng hữu ích dựa trên ngưỡng. Mô hình đề xuất là độc lập
39
với máy phân lớp nên có thể được áp dụng cho nhiều bài toán.
Trong luận án của mình [111], S. Jungjit đã đề xuất một số phương pháp lựa
chọn đặc trưng cho phân lớp đa nhãn dựa trên mối quan hệ tương quan, trong đó tập
trung vào các phương pháp tìm kiếm tập con đặc trưng phù hợp bao gồm kỹ thuật
tìm kiếm leo đồi (hill-climbing search), kỹ thuật khai thác tri thức di truyền sử dụng
tìm kiếm leo đồi và kỹ thuật tìm kiếm sử dụng giải thuật di truyền (Genetic
Algorithms), đồng thời kết hợp với hai bộ phân lớp đa nhãn kinh điển là phân lớp
đa nhãn k láng giềng gần nhất (MLkNN) và phân lớp đa nhãn trên mạng Nơron lan
truyền ngược (BPMLL).
Gần đây, L.Jian và cộng sự [78] đã đề xuất một tiếp cận lựa chọn đặc trưng đa
nhãn MIFS (Multi-label Informed Feature Selection) với hai đóng góp chính là sử
dụng các ngữ nghĩa ẩn của đa nhãn để định hướng pha lựa chọn đặc trưng bằng cách
ánh xạ không gian nhãn vào không gian rút gọn có chiều thấp hơn rồi sử dụng không
gian rút gọn này thay vì sử dụng không gian nhãn ban đầu để điều chỉnh quá trình lựa
chọn đặc trưng và khai thác mối quan hệ nhãn trong không gian nhãn để chọn các đặc
trưng tiêu biểu chung cho các nhãn. J.Li và H.Liu [62] đã khái quát một số thách thức
trong lựa chọn đặc trưng đối với dữ liệu lớn và cung cấp một kho mã nguồn mở
(scikit-feature) các thuật toán lựa chọn đặc trưng phổ biến như nhóm thuật toán lựa
chọn đặc trưng có giám sát và không giám sát dựa trên lý thuyết thông tin, nhóm
thuật toán dựa trên thống kê, nhóm thuật toán lựa chọn đặc trưng luồng, đặc trưng có
cấu trúc,… nhằm thúc đẩy các nghiên cứu về lựa chọn đặc trưng. Kho mã nguồn mở
này được K.Cheng và cộng sự [75] phát triển thành bộ công cụ FeatureMiner với mục
đích giúp việc sử dụng các thuật toán lựa chọn đặc trưng dễ dàng hơn.
Xây dựng tập đặc trưng riêng cho từng nhãn hoặc tập con nhãn là một hướng
mới trong bài toán giảm chiều đặc trưng [54], [59], [83]. Theo xu thế đó, luận án
tiến hành các nghiên cứu xây dựng tập đặc trưng riêng cho từng nhãn / tập con nhãn
nhằm tìm kiếm tập con đặc trưng tối ưu nhất và nâng cao hiệu quả phân lớp tại công
trình [PTNgan5, PTNgan6].
40
1.3.2. Tiếp cận giảm chiều không gian nhãn đầu ra
Không gian nhãn đầu ra với số chiều lớn cũng mang lại nhiều khó khăn về
thời gian và độ phức tạp cho các tiếp cận phân lớp đa nhãn như:
- Tiếp cận chuyển đổi bài toán phân lớp đa nhãn thành các bài toán phân lớp
nhị phân truyền thống có thời gian thực thi tuyến tính với số lượng nhãn.
- Tiếp cận dựa trên tập lũy thừa nhãn (LP) đối mặt với số lượng tập con nhãn
tăng theo hàm mũ, thêm vào đó dữ liệu huấn luyện thưa dẫn đến sự suy giảm
trong thực thi của nhiều mô hình.
- Một vấn đề cũng cần phải đề cập là mối quan hệ giữa các nhãn cũng là yếu tố
quan trọng trong học các mô hình. Điển hình như tiếp cận láng giềng gần
nhất, lựa chọn tập nhãn của các phần tử dữ liệu láng giềng gần nhất để gán
cho phần tử dữ liệu đang xem xét. Khi không gian nhãn tăng, mối quan hệ và
độ phức tạp giữa các nhãn cũng tăng theo.
Việc giảm chiều không gian nhãn đầu ra sẽ góp phần giảm thời gian và bộ nhớ
huấn luyện các bộ phân lớp. Tuy nhiên, các nhãn không chỉ đơn giản là loại bỏ ra
khỏi dữ liệu vì tất cả các nhãn phải có mặt trong pha dự đoán của bộ phân lớp. Do đó,
các kỹ thuật sử dụng cho bài toán giảm không gian đặc trưng đầu vào không thể áp
dụng trong trường hợp này. Mặt khác, có hai vấn đề cần xem xét về không gian nhãn.
Một là vấn đề thưa nhãn xuất hiện khá phổ biến, đặc biệt là trong các ứng dụng về
phân lớp văn bản. Vấn đề này được hiểu là dữ liệu đa nhãn có số lượng nhãn lớn
nhưng sự xuất hiện của từng nhãn lại thấp. Vấn đề thứ hai là mối quan hệ phụ thuộc
nhãn. Trong một số tiếp cận phân lớp như BR đều giả thiết là các nhãn là hoàn toàn
độc lập, nên bỏ qua mối quan hệ đồng xuất hiện hoặc phụ thuộc nào đó giữa các
nhãn. F. Herrera và cộng sự [29] trình bày hai mô hình quan hệ phụ thuộc: Phụ thuộc
không điều kiện là quan hệ phụ thuộc được cho là tồn tại giữa hai nhãn bất kỳ mà
không chịu sự tác động của đặc trưng đầu vào và mối quan hệ này có thể được khai
thác trên toàn tập dữ liệu khi thiết kế bộ phân lớp đa nhãn. Phụ thuộc có điều kiện là
quan hệ phụ thuộc giữa các nhãn theo giá trị đặc trưng đầu vào của phần tử dữ liệu.
Một số tiếp cận đề xuất cho tiếp cận giảm chiều không gian nhãn như sau:
41
- Phương pháp lựa chọn tập con nhãn: Điển hình là thuật toán RAkEL [43],
[84] trình bày ở mục 1.2.1.1. Trong đó, tập nhãn được chia thành các tập con
nhẫu nhiên dựa trên kỹ thuật chuyển đổi dữ liệu tập lũy thừa nhãn LP, từ đó
mô hình huấn luyện một nhóm các bộ phân lớp sử dụng tập con nhãn được
phân chia ở trên cho mỗi bộ phân lớp.
- Phương pháp cắt tỉa tập nhãn hiếm: Điển hình là phương pháp tập cắt tỉa
(Pruned Set) PS [66] và bộ tập cắt tỉa (Ensemble of Pruned Set) EPS [67]
cũng dựa trên kỹ thuật chuyển đổi dữ liệu LP, phát hiện các tập nhãn hiếm và
cắt tỉa chúng. Bằng cách này, số lượng tập con nhãn sẽ giảm đi đáng kể.
Phương pháp này tránh được các sự kết hợp của nhãn hiếm nhưng thường
không giảm số lượng nhãn.
- Phương pháp ước lượng phụ thuộc nhân KDE (Kernel Dependency
Estimation): Đây là một kỹ thuật khái quát để tìm mối quan hệ phụ thuộc
giữa tập đầu vào và dầu ra. Phương pháp này sử dụng kỹ thuật phân tích
thành phần chính PCA trên không gian nhãn ban đầu để thu được một tập các
ánh xạ độc lập, từ đó giữ lại các nhãn quan trọng dựa trên xác định ngưỡng
về giá trị riêng. Sau các bước dự đoán trên tập nhãn giảm, một thủ tục khôi
phục lại tập nhãn ban đầu được thực hiện.
- Phương pháp suy luận nhãn giải quyết bài toán số chiều lớn trong không gian
nhãn: Phương pháp này được để xuất trong [28] gọi là LI-MLC dựa trên
thông tin về quan hệ phụ thuộc nhãn thu được từ thuật toán khai phá luật kết
hợp. Trong đó, coi nhãn là các mục và các phân tử dữ liệu là các giao dịch,
một tập các luật kết hợp sẽ được sinh ra từ tập các giao dịch này. Vế thứ nhất
của mỗi luật chỉ ra những nhãn nào phải xuất hiện trong dự đoán để suy luận
ra nhãn trong vế thứ hai cũng sẽ xuất hiện cùng. Từ đó chỉ giữ lại những luật
tin cậy và loại bỏ những nhãn được suy luận từ các nhãn khác. Kết quả thu
được là tập dữ liệu đa nhãn với không gian nhãn được thu gọn nên có thể áp
dụng các thuật toán phân lớp đa nhãn đã biết.
42
1.4. Học bán giám sát cho phân lớp đa nhãn
Trong nhiều bài toán ứng dụng thực tế, các dữ liệu có nhãn thu được cần tốn
nhiều thời gian và công sức trong khi đó dữ liệu chưa có nhãn thì rất phong phú và dễ
dàng thu được. Tiếp cận học giám sát đòi hỏi cần có lượng lớn dữ liệu có nhãn để
thực thi có hiệu quả, trong khi đó, tiếp cận học không giám sát chỉ tập trung khai thác
dữ liệu không nhãn. Để khai thác được các thông tin hữu ích từ dữ liệu có nhãn và
không nhãn, tiếp cận học bán giám sát ra đời và thu hút được nhiều sự quan tâm của
cộng đồng nghiên cứu. Trong ngữ cảnh này, dữ liệu huấn luyện được cho là bao gồm
lượng lớn dữ liệu không nhãn so với một lượng nhỏ dữ liệu có nhãn. Mục tiêu của
tiếp cận này là huấn luyện một bộ phân lớp trên cả dữ liệu có nhãn và không nhãn
cho hiệu quả tốt hơn bộ phân lớp giám sát được huấn luyện trên tập dữ liệu có nhãn.
Theo X. Zhu và A. B. Goldberg [122], có hai tiếp cận học bán giám sát là
học bán giám sát quy nạp và học bán giám sát diễn dịch, trong đó phương pháp học
bán giám sát quy nạp xây dựng mô hình dự đoán nhãn cho tập dữ liệu kiểm thử
trong tương lai; còn phương pháp học bán giám sát diễn dịch xây dựng mô hình dự
đoán nhãn cho tập dữ liệu không nhãn trong tập huấn luyện.
Bài toán phân lớp truyền thống vốn là bài toán giám sát trong đó dữ liệu có
nhãn được sử dụng để huấn luyện mô hình. Xuất phát từ tiếp cận về học bán giám sát
và các đặc điểm của dữ liệu đa nhãn, nhiều nhà nghiên cứu đã đề xuất các tiếp cận
liên quan đến phân lớp bán giám sát trong phân lớp đa nhãn như phương pháp tìm
thừa số ma trận ràng buộc [126], phương pháp dựa trên đồ thị [32], phương pháp
giảm chiều [8], tiếp cận học trên không gian con đồng thời với biên lớn [125]...
Luận án cũng đề xuất một tiếp cận học bán giám sát cho phân lớp đa nhãn
trong đó kỹ thuật phân cụm bán giám sát được sử dụng để khai thác các thông tin từ
dữ liệu có nhãn và không nhãn xây dựng phân hoạch trên miền dữ liệu ứng dụng
phục vụ quá trình phân lớp. Tiếp cận này được trình bày tại Chương 4 của luận án.
1.5. Kết luận chương 1
Chương 1 đã trình bày về bài toán phân lớp với bước phát triển từ phân lớp
đơn nhãn truyền thống, phân lớp đơn nhãn đa thể hiện, phân lớp đa nhãn đơn thể hiện
43
đến phân lớp đa nhãn đa thể hiện. Chương này tập trung vào trình bày tổng quan về
phân lớp đa nhãn bao gồm dữ liệu đa nhãn và các độ đo dữ liệu đa nhãn; kỹ thuật
phân lớp đa nhãn và phương pháp đánh giá phân lớp đa nhãn. Đây sẽ là nội dung nền
tảng cho phương pháp luận giải quyết bài toán phân lớp đa nhãn ở các chương sau
xây dựng mô hình gồm các bước phân tích, đánh giá các đặc điểm, đặc trưng về dữ
liệu đa nhãn, phân tích ảnh hưởng, tác động của các đặc trưng đến mô hình phân lớp,
bước lựa chọn đặc trưng để loại bỏ các đặc trưng dư thừa, giữ lại đặc trưng quan
trọng và bước sử dụng thuật toán phân lớp. Để kiểm chứng tính hiệu quả của mô hình
đề xuất, luận án xây dựng các kịch bản thực nghiệm với cấu hình các tham số khác
nhau và so sánh với các mô hình cơ sở. Kịch bản thực nghiệm được thực hiện trên
miền dữ liệu văn bản tiếng Việt. Một số tiếp cận trong luận án sau đó được một số tác
giả khác triển khai trên miền dữ liệu văn bản tiếng Anh cũng cho hiệu quả tốt hơn các
mô hình cơ sở cho thấy tính ứng dụng thực tiễn của mô hình đề xuất.
44
Chương 2. HAI MÔ HÌNH PHÂN LỚP ĐƠN NHÃN VĂN BẢN
TIẾNG VIỆT
Như trình bày tại Chương 1, bài toán phân lớp đã tiến hóa từ phân lớp đơn
nhãn truyền thống, phân lớp đơn nhãn đa thể hiện, phân lớp đa nhãn đơn thể hiện và
phân lớp đa nhãn đa thể hiện. Trong nhiều ứng dụng thực tế, một số bài toán trích
chọn thông tin như gán nhãn thực thể có tên, gán nhãn từ loại… có thể được coi là
bài toán phân lớp đơn nhãn và áp dụng các tiếp cận phân lớp đơn nhãn trên cơ sở
các đặc trưng riêng của từng lớp bài toán. Chương này trình bày hai mô hình phân
lớp đơn nhãn được xây dựng trong bài toán nhận diện thực thể có tên gán cho dữ
liệu một kiểu thực thể trong tập các thực thể định nghĩa trước và mô hình hệ tư vấn
xã hội đề xuất danh sách sản phẩm trong tập sản phẩm xem xét. Kết quả các nghiên
cứu trong chương này được công bố trong [PTNgan1, PTNgan2]. Ý tưởng sử dụng
phân phối chủ đề ẩn, cung cấp thêm các thông tin ngữ nghĩa ẩn từ kho dữ liệu, làm
giàu tập đặc trưng cho mô hình phân lớp đa nhãn trong Chương 3 được hình thành
từ giải pháp sử dụng kỹ thuật xây dựng tiêu chuẩn kỳ vọng tổng quát trong mô hình
nhận diện thực thể.
2.1. Mô hình nhận diện thực thể có tên dựa trên trường ngẫu nhiên có điều
kiện và tiêu chuẩn kỳ vọng tổng quát
2.1.1. Nhận diện thực thể có tên
Nhận diện thực thể có tên (Named Entity Recognition - NER) là một bài toán
cơ bản trong trích chọn thông tin. Nó được ứng dụng nhiều trong dịch tự động, tóm
tắt văn bản, hiểu ngôn ngữ tự nhiên, nhận biết tên thực thể trong sinh/y học và đặc
biệt được ứng dụng trong việc tích hợp tự động các đối tượng, thực thể từ môi trường
Web vào các ontology ngữ nghĩa và các cơ sở tri thức. Bài toán có nhiệm vụ tìm kiếm
và rút ra những thông tin liên quan đến thực thể trong văn bản, thông thường là loại
thực thể. Tác vụ nhận diện thực thể có tên được khởi xướng từ Hội nghị MUC-6
(Message Understanding Conference - 1995) với ngôn ngữ đích là tiếng Anh. Kể từ
đó, bài toán nhận diện thực thể có tên đã thu hút được cộng đồng nghiên cứu trong
45
việc đề xuất các giải pháp xây dựng tập đặc trưng, kỹ thuật đoán nhận, phương pháp
đánh giá và các ứng dụng trên các miền ngôn ngữ khác nhau.
Danh sách các kiểu thực thể được nhận dạng khác nhau tùy thuộc vào từng
bài toán và lĩnh vực ứng dụng cụ thể. Một số kiểu thực thể có tên phổ biến nhất là:
- Thực thể chỉ người (PERSON)
- Thực thể chỉ tổ chức (ORGANIZATION)
- Thực thể chỉ địa điểm (LOCATION)
- Thực thể chỉ ngày (DATE)
- Thực thể chỉ thời gian (TIME)
- Thực thể chỉ các đơn vị đo tiền tệ (MONEY)
- Thực thể chỉ phần trăm (PERCENT)
Bài toán nhận diện thực thể có tên có thể coi là bài toán phân lớp đơn nhãn
với tập nhãn định nghĩa trước là tập thực thể có tên. Trong văn bản, thực thể được
xét là tập từ, mỗi từ được gán một nhãn tương ứng với loại thực thể.
Trong nhiều ứng dụng phân lớp trên văn bản, đối tượng phân lớp thường
đoạn văn bản có thể là văn bản ngắn độ vài câu hoặc là một văn bản dài gồm nhiều
đoạn. Đối với bài toán nhận diện thực thể này, đối tượng nhận diện là từ nên bài
toán mang những đặc trưng riêng về quá trình tiền xử lý trên toàn bộ văn bản và
cách thức xây dựng tập đặc trưng hiệu quả cho mô hình. Phần tiếp theo sẽ phân tích
các bước để xây dựng mô hình nhận diện thực thể có tên.
2.1.2. Mô hình đề xuất
Theo khảo sát của A. Mansouri và cộng sự [4], J. Jiang [60], những tiếp cận
giải quyết bài toán nhận diện thực thể có tên được chia thành hai nhóm phương
pháp chính bao gồm tiếp cận dựa trên luật và tiếp cận dựa trên học máy. Ngoài ra,
một số công trình kết hợp cả hai phương pháp trên.
Trong đó, tiếp cận dựa trên luật định nghĩa thủ công một bộ các luật như các
mẫu ngữ pháp, cú pháp, đặc trưng chính tả kết hợp với từ điển,… Các thực thể cần
nhận dạng được so sánh với tập luật, nếu khớp với luật nào thì thực thể sẽ được xem
xét nhận dạng theo quy tắc đặt ra trong luật.
46
Tiếp cận dựa trên học máy cũng nhận được sự quan tâm trong nhiều nghiên
cứu, trong đó bài toán nhận dạng thực thể có tên được chuyển thể thành bài toán
gán nhãn chuỗi quen thuộc như gán nhãn từ loại (Part of speech tagging), phân khúc
(chunking) và nhận dạng thực thể có tên.
Theo khảo sát của D.Nadeau và S.Sekine [18], các phương pháp học máy
cho bài toán này chủ yếu theo tiếp cận học giám sát bao gồm mô hình Markov ẩn
(HMM), thuật toán cây quyết định, mô hình Entropy cực đại, thuật toán máy vectơ
hỗ trợ (SVM) và thuật toán trường ngẫu nhiên có điều kiện (CRFs). Một số tiếp cận
theo phương pháp học bán giám sát dựa trên kỹ thuật tự huấn luyện (self-training
hay bootstrapping), trong đó từ tập dữ liệu có nhãn ban đầu huấn luyện bộ phân lớp,
sau đó sử dụng bộ phân lớp này gán nhãn cho dữ liệu chưa có nhãn, các dữ liệu
chưa có nhãn sau khi được gán nhãn sẽ được bổ sung vào tập huấn luyện; điểm chú
ý là bộ phân lớp sẽ được huấn luyện lại và lặp lại các quy trình. Ngoài ra, một số
tiếp cận theo phương pháp học không giám sát cũng được đề xuất sử dụng kỹ thuật
phân cụm, từ vựng và thống kê.
Việc khai thác không gian đặc trưng trong bài toán nhận diện thực thể có tên
cũng là một vấn đề được quan tâm do đối tượng dữ liệu được nhận diện là từ, nên
có nhiều đặc trưng riêng cho đối tượng này. Trong khảo sát [18] cũng chỉ ra các đặc
trưng được sử dụng phổ biến bao gồm đặc trưng mức từ như từ loại (POS), ký tự,
mẫu số, chấm câu,… đặc trưng từ điển (danh sách) và đặc trưng mức văn bản và tập
văn bản.
Các công trình nhận diện thực thể có tên cho tiếng Việt cũng được tiếp cận
theo cả hai hướng tiếp cận dựa trên luật và học máy (học có giám sát và học bán giám
sát). Tác giả H.Q. Lê và cộng sự [52] đề xuất mô hình tích hợp nhận dạng thực thể
người dựa trên CRF và kho ngữ liệu vàng (NER Golden corpus) là tập đặc trưng liên
quan được định nghĩa trước. Tác giả Q.T. Tran và cộng sự [104] đề xuất mô hình
nhận diện thực thể định danh dựa trên mô hình máy vector hỗ trợ SVM. Tác giả D. B.
Nguyen và cộng sự [13] đề xuất mô hình nhận diện thực thể định danh dựa trên tiếp
cận xây dựng kho thực thể được gán nhãn kết hợp với luật. Tác giả H. Le Trung và
47
cộng sự [46] đề xuất mô hình nhận diện thực thể có tên dựa trên tập luật kết hợp với
kỹ thuật bootstrapping. Tác giả H.Q. Pham và cộng sự [53] đề xuất một mô hình học
máy bán giám sát nhận diện thực thể có tên dựa trên CRF kết hợp kỹ thuật
bootstrapping với một thuật toán học trực tuyến để nâng cao hiệu quả mô hình.
Mô hình được đề xuất trong luận án hòa chung vào xu hướng xây dựng học
máy bán giám sát nhằm tận dụng được nguồn dữ liệu chưa gán nhãn phong phú và
tiếp cận này là không trùng lặp với các nghiên cứu đã có cho văn bản tiếng Việt.
Mô hình đề xuất sử dụng mô hình CRF kết hợp với tiêu chuẩn kỳ vọng tổng quát
[35] là những điều kiện trong hàm mục tiêu huấn luyện cho phép gán giá trị cho kỳ
vọng mô hình. Kỹ thuật tiêu chuẩn kỳ vọng tổng quát đã được chứng minh hiệu quả
trong một số tiếp cận [37], [38] cho bài toán nhận diện thực thể có tên, ngoài ra các
ràng buộc được phát hiện có ích cho các phương pháp học suốt đời (lifelong
machine learning).
Dựa theo tiếp cận về tiêu chuẩn kỳ vọng tổng quát, phương pháp đề xuất
trong luận án khai thác mô hình xác suất theo chủ đề ẩn Latent Dirichlet Allocation
(LDA) – (sẽ được trình bày chi tiết ở Chương 3) – để xây dựng tập ràng buộc đặc
trưng thực thể và sử dụng mô hình học trường ngẫu nhiên có điều kiện CRFs trên
tập đặc trưng mức từ như đặc trưng từ loại (POS), đặc trưng theo ký tự và đặc trưng
theo cửa sổ trượt để bổ sung thêm quan hệ trước sau nhằm nâng cao hiệu quả cho
mô hình. Phần tiếp theo sẽ làm rõ hơn về sử dụng tiêu chuẩn kỳ vọng tổng quát vào
mô hình trường ngẫu nhiên có điều kiện và ứng dụng vào bài toán nhận diện thực
thể có tên.
2.1.2.1. Sử dụng tiêu chuẩn kỳ vọng tổng quát vào mô hình trường nhẫu nhiên
có điều kiện CRFs
Mô hình trường ngẫu nhiên có điều kiện CRFs (Conditional Random Fields)
được J.D.Lafferty và cộng sự [56] giới thiệu lần đầu tiên vào năm 2001. CRFs là
mô hình dựa trên xác suất có điều kiện, nó cho phép tích hợp được các thuộc tính đa
dạng của chuỗi dữ liệu quan sát nhằm hỗ trợ cho quá trình phân lớp. Điểm khác biệt
của CRFs là mô hình đồ thị vô hướng đã cho phép CRFs có thể định nghĩa phân
48
phối xác suất của toàn bộ chuỗi trạng thái với điều kiện biết chuỗi quan sát cho
trước thay vì phân phối trên mỗi trạng thái với điều kiện biết trạng thái trước đó và
quan sát hiện tại như trong các mô hình đồ thị có hướng khác. Do bản chất “phân
phối điều kiện” và “phân phối toàn cục”, CRFs khắc phục được những nhược điểm
của các mô hình trước đó trong việc gán nhãn và phân đoạn các dữ liệu dạng chuỗi
mà tiêu biểu là vấn đề ít chú ý đến các trạng thái có phân phối chuyển với entropy
thấp (label bias).
Kí hiệu X là biến ngẫu nhiên nhận giá trị là chuỗi dữ liệu cần phải gán nhãn
và Y là biến ngẫu nhiên nhận giá trị là chuỗi nhãn tương ứng. Mỗi thành phần Yi của
Y là một biến ngẫu nhiên nhận giá trị trong tập hữu hạn các trạng thái S.
Cho một đồ thị vô hướng phi chu trình G = (V, E), ở đây V là tập các đỉnh
của đồ thị và E là tập các cạnh vô hướng nối các đỉnh đồ thị. Các đỉnh V biểu diễn
các thành phần của biến ngẫu nhiên Y sao cho tồn tại ánh xạ một- một giữa một
đỉnh và một thành phần Yv của Y. Ta nói (Y|X) là một trường ngẫu nhiên điều kiện
(Conditional Random Field) khi với điều kiện X, các biến ngẫu nhiên Yv tuân theo
tính chất Markov đối với đồ thị G [56]:
(2.1) ( ) ( ( ))
Ở đây, N(v) là tập tất cả các đỉnh kề với v. Như vậy, một CRF là một trường
ngẫu nhiên phụ thuộc toàn cục vào X. Trong các bài toán xử lý dữ liệu dạng chuỗi,
G đơn giản chỉ là dạng chuỗi G = (V={1,2,…m}, E={(i,i+1)}).
Kí hiệu X=(X1, X2,…, Xl), Y=(Y1,Y2,...,Yn ). Một cách tóm lược, mô hình đồ
thị cho CRFs được biểu diễn như sau:
Hình 2.1 Đồ thị vô hướng mô tả CRFs
49
Gọi C là tập hợp tất cả các đồ thị con đầy đủ của đồ thị G - đồ thị biểu diễn
cấu trúc của một CRFs. Khi đó xác suất của chuỗi nhãn với điều kiện biết chuỗi dữ
liệu quan sát p(y|x) sẽ được thừa số hóa thành tích của các hàm tiềm năng như sau.
(2.2) ( ) ∏ ( )
Trong đó, các hàm tiềm năng cho mô hình CRFs được xác định dựa trên
nguyên lý cực đại hóa Entropy cho phép đánh giá các phân phối xác suất từ một tập
các dữ liệu huấn luyện. Lafferty và cộng sự [56] xác định hàm tiềm năng của một
CRF có dạng một hàm mũ:
( ) ∑ ( ) (2.3)
Trong đó, là một thuộc tính của chuỗi dữ liệu quan sát và là trọng số chỉ
mức độ biểu đạt thông tin của thuộc tính .
Có hai loại thuộc tính là thuộc tính chuyển (kí hiệu là ) và thuộc tính trạng
thái (kí hiệu là ) tùy thuộc vào A là đồ thị con gồm một đỉnh hay một cạnh của G.
Thay các hàm tiềm năng vào công thức (2.2) và thêm vào đó một thừa sổ chuẩn hóa
( ) để đảm bảo tổng xác suất của tất cả các chuỗi nhãn tương ứng với một chuỗi
dữ liệu quan sát bằng 1, ta được:
) ( ) (2.4) (∑ ∑ ( ) ( ) ∑ ∑ ( )
Ở đây, là chuỗi dữ liệu quan sát và chuỗi trạng thái tương ứng; là
thuộc tính của tòan bộ chuỗi quan sát và các trạng thái tại ví trí trong chuỗi
trạng thái; là thuộc tính của toàn bộ chuỗi quan sát và trạng thái tại ví trí trong
chuỗi trạng thái. Thừa số chuẩn hóa ( ) được tính như sau:
) (2.5) ( ) ∑ (∑ ∑ ( ) ∑ ∑ ( )
( ) là các vector các tham số của mô hình, sẽ được ước
lượng giá trị nhờ các phương pháp ước lượng tham số cho mô hình.
50
Trong bài toán gán nhãn cho dữ liệu dạng chuỗi, chuỗi trạng thái mô tả tốt
nhất cho chuỗi dữ liệu quan sát x là nghiệm của phương trình:
* ( )+
Nhiệm vụ là ước lượng tham số cho mô hình CRFs làm cực đại hóa hàm log-
likelihood.
Trong mô hình trường ngẫu nhiên có điều kiện ứng dụng nhận diện thực thể
có tên, tiêu chuẩn kỳ vọng tổng quát được xây dựng và vận dụng vào mô hình như
sau. Theo G.Druck và cộng sự [5], tiêu chuẩn kỳ vọng tổng quát có thể được xây
dựng từ phân phối xác suất điều kiện của các nhãn cho trước với một đặc trưng; các
phân phối này là các ràng buộc (constraint) thể hiện mối quan hệ giữa từ và nhãn.
Tiến hành xây dựng một tập các ràng buộc về phân phối xác suất của tập nhãn cho
trước một đặc trưng dựa trên các tri thức tiền nghiệm ước lượng từ dữ liệu. Trong
mô hình đề xuất, tập ràng buộc này được xây dựng từ mô hình chủ đề ẩn Latent
Dirichlet Allocation (LDA).
Khi đó, kỳ vọng có điều kiện của mô hình với bộ tham số và tập quan sát
cho trước ̃ * + là: [ ( ) ̃] (2.6) | ̃| ∑ ∑ ( ) ( ) ̃
Để đơn giản, ký hiệu ( ) là hàm ánh xạ mô hình. Tiêu chuẩn kỳ vọng tổng
quát là một hàm G với tham số là kỳ vọng của mô hình (tính ở công thức (2.6) và
trả về một giá trị vô hướng là tham số ước lượng cho hàm mục tiêu.
(2.7) ( , ( )-)
Trong mô hình đề xuất, hàm G được định nghĩa dựa trên khoảng cách từ kỳ
vọng mô hình đến giá trị đích.
(2.8) ̃( , ( )-) ( , ( )- ̃)
Trong đó, ̃ là giá trị mục tiêu, và ( ) là hàm khoảng cách.
2.1.2.2. Xây dựng tập ràng buộc cho tiêu chuẩn kỳ vọng tổng quát
Mỗi ràng buộc thể hiện phân phối xác suất điều kiện của các nhãn cho trước
51
với một đặc trưng có cấu trúc như sau:
Đặc_trưng nhãn_1 = xác_xuất nhãn_2 = xác_xuất …
Ví dụ, xét một đặc trưng là từ “Hồ_Chí_Minh”, đặc trưng này có thể là tên của
một người, hoặc đặc trưng này xuất hiện trong tên của một tổ chức “Đoàn thanh_niên
cộng_sản Hồ_Chí_Minh” hoặc đặc trưng này xuất hiện trong tên của một vị trí địa lý
“thành_phố Hồ_Chí_Minh”. Trên một tập dữ liệu, tính xác xuất mà đặc trưng
Hồ_Chí_Minh thuộc về một nhóm thực thể dựa trên ngữ cảnh là quan hệ với đặc trưng
đứng trước, đứng sau nó và tần suất xuất hiện của đặc trưng trong tập dữ liệu.
Trong mô hình này, tập ràng buộc được xây dựng theo phương pháp sinh đặc
trưng máy học sử dụng mô hình chủ đề ẩn LDA [15], [16] (được trình bày ở mục
3.1.1) nhằm thu được tập phân phối xác suất các nhãn thực thể trên mỗi đặc trưng
2.1.2.3. Mô hình đề xuất cho bài toán nhận diện thực thể có tên
Phát biểu cho bài toán nhận diện thực thể có tên như sau.
Đầu vào:
- D: tập mọi dữ liệu văn bản liên quan đến chủ đề thuộc miền ứng dụng
- DL: tập ví dụ mẫu là một tập con của D chứa các dữ liệu văn bản với nhãn
thực thể cho trước.
- DU: tập ví dụ mẫu là tập con của D chứa các dữ liệu văn bản chưa gán nhãn
để xây dựng tiêu chuẩn kỳ vọng tổng quát.
- L: tập các thực thể có tên
- Bộ gán nhãn thực thể có tên M: DL sao cho M được đánh giá kiểm thử
Đầu ra:
trên tập ví dụ mẫu DL đạt hiệu quả cao.
Quy trình giải quyết bài toán được trình bày ở Quy trình 2.1.
Pha 1: Các bước tiền xử lý dữ liệu trên tập DL
- Bước 1: Module tách câu, tách từ - Bước 2: Gán nhãn từ loại cho mỗi từ POS - Bước 3: Gán nhãn thực thể NER
52
Pha 2: Xây dựng bộ gán nhãn bán giám sát dựa trên mô hình trường ngẫu
nhiên có điều kiện CRFs kết hợp với tiêu chuẩn tổng quát Bước 1: Xây dựng tập ràng buộc trên tập DU
Bước 2: Lựa chọn tập thuộc tính trên DL
-
- - -
Bước 3: Xây dựng bộ gán nhãn Bước 4: Đánh giá mô hình
Quy trình 2.1 Quy trình giải quyết bài toán
Mô hình đề xuất tương ứng với Quy trình 2.1 cho bài toán gán nhãn thực thể
(như thể hiện ở Hình 2.1) được xây dựng gồm 2 giai đoạn như sau:
Hình 2.2 Mô hình gán nhãn bán giám sát CRFs kết hợp tiêu chuẩn kỳ vọng tổng quát
Giai đoạn 1: Tập văn bản dữ liệu cần tiến hành hai bước tiền xử lý bán tự
động đó là tách từ, gán nhãn từ loại POS, gán nhãn thực thể NER.
Bước 1: Dữ liệu được đưa qua module tách câu để thu được tập các câu. Mỗi
53
câu được đưa qua module tách từ để thu được tập các từ trong câu. Sau bước này
thu được tập dữ liệu gồm mỗi từ nằm trên một dòng. Và giữa mỗi câu có một dòng trống.
Bước 2: Tiến hành gán nhãn từ loại POS cho mỗi từ. Việc gán nhãn POS sử
dụng tool vnTagger của tác giả Lê Hồng Phương tại trang web
http://www.loria.fr/~lehong/tools/vnTagger.php. Đây là phần mềm gán nhãn từ loại
POS cho tiếng Việt có độ chính xác cao (khoảng 95%), phần mềm được viết dựa
trên phương pháp cực đại entropy.
Bước 3: Tiến hành gán nhãn NER cho mỗi từ một cách thủ công.
Giai đoạn 2: Xây dựng bộ phân lớp bán giám sát dựa trên mô hình trường
ngẫu nhiên có điều kiện CRFs kết hợp với tiêu chuẩn tổng quát.
Bước 1: Xây dựng tập ràng buộc.
Áp dụng mô hình chủ đề ẩn LDA trên tập dữ liệu DU để thu được tập các
ràng buộc thể hiện phân phối xác suất của tập nhãn thực thể cho trước đặc trưng.
Hình 2.3 Tập các ràng buộc (Constraint file)
Bước 2: Lựa chọn thuộc tính
54
Các thuộc tính được chọn theo mẫu ngữ cảnh từ vựng (kích thước cửa sổ
trượt bằng 5):
Mẫu ngữ cảnh Ý nghĩa
Âm tiết quan sát tại vị trí -2 so với vị trí hiện tại S-2
Âm tiết quan sát tại vị trí liền trước so với vị trí hiện tại S-1
Âm tiết quan sát tại vị trí liền sau so với vị trí hiện tại S1
Âm tiết quan sát tại vị trí +2 so với vị trị hiện tại S2
Âm tiết quan sát tại vị trí hiện tại và vị trí liền sau S0S1
Âm tiết quan sát tại vị trí liền trước và vị trí hiện tại S-1S0
Âm tiết quan sát tại vị trí -2 và vị trí liền trước S-2S-1
Âm tiết quan sát tại vị trí 2 và vị trí liền sau S1S2
Âm tiết quan sát tại vị trí liền trước, hiện tại và liền sau S-1S0S1
Âm tiết quan sát tại vị trí -2, vị trí liền trước và hiện tại S-2S-1S0
Âm tiết quan sát tại vị trí 2, vị trí liền sau và hiện tại S0S1S2
Bảng 2.1 Mẫu ngữ cảnh từ vựng
Việc lựa chọn thuộc tính còn được dựa trên ngữ cảnh phát hiện tên thực thể:
Các tên thực thể thường được viết hoa ký tự đầu tiên, nếu tất cả các ký tự đều viết
hoa thì khả năng đó là tên viết tắt của tổ chức, đôi khi tên thực thể có thể đi cùng
với các ký tự số….
Mẫu ngữ cảnh Ý nghĩa
InitialCap AllCaps CapsMix SingleDigit HasDigit DoubleDigits Viết hoa chữ cái đầu Viết hoa tất cả các chữ cái Chữ cái thường và hoa lẫn lộn Số 1 chữ số Có chứa số Số 2 chữ số
Bảng 2.2 Mẫu ngữ cảnh phát hiện tên thực thể
Bước 3: Xây dựng bộ gán nhãn
Bước này sử dụng mô hình CRFs để gán nhãn cho chuỗi quan sát trong đó
sử dụng các tham số ước lượng được xác định từ tiêu chuẩn kỳ vọng tổng quát đưa
vào thuật toán Viterbi cải tiến để tìm chuỗi trạng thái tốt nhất.
55
Bước 4: Đánh giá mô hình
Luận án sử dụng bộ các độ đo cơ bản gồm độ chính xác (precision), độ hồi
tưởng (recall) và độ đo F1 (F1 là một chỉ số cân bằng giữa độ chính xác và độ hồi
tưởng) để đánh giá mô hình. Mục tiêu của mô hình là xây dựng được mô hình gán
nhãn thực thể đạt được giả trị F1 cao.
2.1.3. Ứng dụng mô hình
Luận án ứng dụng mô hình đề xuất để gán nhãn thực thể có tên cho đối tượng
trên miền dữ liệu văn bản pháp luật tiếng Việt được thu thập từ website
http://www.cand.com.vn – đây là website chính thức của cơ quan công an về các vụ
án, những tình tiết sự việc vi phạm pháp luật được công khai, khá gần với tài liệu hồ
sơ vụ án cần khai thác. Các loại thực thể được xác định dựa theo các thực thể trong
tác vụ CoNLL2003 bao gồm: LOC (Location), PER (Person), ORG (Organization)
và MISC (Miscellaneous). Tiến hành thu thập hơn 400 bài viết điều tra, ghi chép
các vụ án về an ninh trật tự, an ninh kinh tế… (trong đó xây dựng tập dữ liệu huấn
luyện và tập kiểm thử từ khoảng 150 tài liệu và tập dữ liệu cho mô hình chủ đề ẩn
xây dựng tập ràng buộc từ khoảng 250 tài liệu). Để đánh giá ảnh hưởng của dữ liệu
có nhãn trong tập huấn luyện và tập ràng buộc đối với mô hình, các thực nghiệm
được thiết lập cài đặt như sau:
Tập huấn luyện được xây dựng với 3 tập dữ liệu với số lượng thực thể khác
nhau là 500, 1000 và 1500
Tập dữ liệu kiểm thử được sử dụng cố định trong các thực nghiệm bao gồm
500 thực thể
Tập ràng buộc cũng được xây dựng với số lượng ràng buộc khác nhau là 614,
669 và 914.
Sử dụng bộ công cụ Mallet [91] của A.McCallum và cộng sự (2002) để xây
dựng bộ gán nhãn dựa trên mô hình trường ngẫu nhiên có điều kiện.
Đồng thời tiến hành thực nghiệm gán nhãn thực thể sử dụng mô hình CRFs theo
phương pháp giám sát làm cơ sở để so sánh với phương pháp bán giám sát đề xuất.
Do số lượng thực nghiệm do sự kết hợp tập ràng buộc và tập dữ liệu huấn
56
luyện là tương đối nhiều, trong mục này luận án chỉ chọn trình bày kết quả so sánh
thực thi mô hình gán nhãn sử dụng CRF và mô hình đề xuất trong trường hợp tốt
nhất khi sử dụng tập ràng buộc 914 ràng buộc kết hợp với các tập dữ liệu huấn
luyện khác nhau ở Bảng 2.3 và kết quả so sánh thực thi mô hình đề xuất khi sử dụng
các tập ràng buộc khác nhau để đánh giá mức độ đóng góp của các ràng buộc với
mô hình ở Hình 2.4
Bảng 2.3 cho thấy mô hình đề xuất luôn cho kết quả tốt hơn mô hình cơ sở và
kết quả tốt nhất là 90.14%. Với tập dữ liệu huấn luyện kích thước nhỏ (500 thực thể)
có thể thấy rõ hơn hiệu quả của mô hình đề xuất với kết quả chênh lệch với mô hình
cơ sở là 71.88% so với 64.62%. Khi tăng kích thước tập dữ liệu huấn luyện lên 1000
và 1500 thực thể, mô hình cơ sở theo tiếp cận mô hình giám sát cho kết quả tăng lên
tương đối. Tuy vậy, mô hình bán giám sát đề xuất vẫn có hiệu quả cao hơn 90.14% so
với 88.89%. Thêm nữa, trong mô hình đề xuất việc sử dụng tập ràng buộc có kích
thước lớn cho kết quả tốt hơn khi sử dụng tập ràng buộc có kích thước nhỏ.
Thực thể CRFs-GE RE% CRFs RE% PR% PR% F1 %
ORG PER LOC Trung bình 90.00 100.00 12.50 58.33 75.00 66.67 100.00 72.41 90.00 100.00 25.00 63.89 100.00 66.67 100.00 82.14 94.74 80.00 40.00 71.88
ORG PER LOC Trung bình 90.00 100.00 56.25 77.78 90.00 100.00 56.25 77.78 100.00 83.33 81.82 87.50 100.00 90.91 75.00 87.50 94.74 95.24 64.29 82.35
ORG PER LOC Trung bình 100.00 100.00 75.00 88.89 100.00 100.00 75.00 88.89 71.43 100.00 100.00 88.89 83.33 90.91 100.00 91.43 F1 % Dữ liệu huấn luyện với 500 thực thể 81.82 80.00 22.22 64.62 Dữ liệu huấn luyện với 1000 thực thể 94.74 90.91 66.67 82.35 Dữ liệu huấn luyện với 1500 thực thể 83.33 100.00 85.71 88.89 90.91 95.24 85.71 90.14
Bảng 2.3 Kết quả thực nghiệm
57
Hình 2.4 biểu diễn so sánh kết quả thực nghiệm mô hình đề xuất trên các tập
ràng buộc khác nhau. Kết quả cho thấy khi tăng số lượng ràng buộc đã cải thiện kết
quả mô hình. Cụ thể là thực thi của mô hình đề xuất với tập ràng buộc 614 cho kết
quả thấp nhất trong cả 3 trường hợp thực nghiệm với các tập huấn luyện khác nhau.
Thực nghiệm với tập ràng buộc 669 cho kết quả tốt hơn thực nghiệm với tập ràng
buộc 914 khi kết hợp với tập dữ liệu huấn luyện 1000 thực thể. Tuy nhiên khi kết
hợp với tập dữ liệu huấn luyện 1500 thực thể, thực nghiệm với tập ràng buộc 914
cho kết quả vượt hơn và là kết quả tốt nhất trong mọi thực nghiệm 90,14%. Có thể
lý giải vấn đề này là do khi sử dụng tập huấn luyện 1000 thực thể, tập ràng buộc
699 là phù hợp và đủ để thể hiện quan hệ thực thể trong tập dữ liệu huấn luyện, còn
tập ràng buộc 914 thực thể bị dư thừa, vượt ra ngoài các quan hệ thực thể trong tập
dữ liệu huấn luyện nên kết quả mô hình khi kết hợp với tập ràng buộc 699 cho kết
quả tốt hơn.
Nhưng khi tăng số lượng thực thể lên 1500 trong tập dữ liệu huấn luyện thì
tập ràng buộc 914 với số lượng ràng buộc lớn hơn sẽ biểu diễn tốt hơn quan hệ thực
100
95
90
85
thể tốt hơn, nên cho kết quả tốt nhất.
)
%
Tập 614 ràng buộc
80
Tập 669 ràng buộc
75
Tập 914 ràng buộc
( e r u s a e m - F
70
65
60
Tập huấn luyện 500
Tập huấn luyện 1000
Tập huấn luyện 1500
Hình 2.4 Kết quả mô hình gán nhãn bán giám sát CRFs kết hợp tiêu chuẩn kỳ vọng tổng quát trên các tập ràng buộc khác nhau
58
Kết quả tại Bảng 2.3 và Hình 2.4 cho thấy mô hình đề xuất đối sánh được
với các công trình nhận diện thực thể tiếng Việt công bố trước đó như mô hình
trong [104] đạt 87.75%, mô hình trong [52] đạt 83.39%, mô hình trong [13] đạt
83% trên cùng độ đo F1,… Mô hình trong [52] dựa trên một kho ngữ liệu vàng
NER (NER golden corpus) trong khi mô hình đề xuất đạt độ đo F1 là 90.14% không
dựa trên một tài nguyên dữ liệu nào khác.
2.2. Một mô hình phân lớp đơn nhãn trong hệ tư vấn xã hội
2.2.1. Sơ bộ về tư vấn xã hội
Theo F.Ricci và cộng sự [30], hệ tư vấn (recommender system hoặc
recommendation system, còn được gọi là hệ gợi ý) là công cụ phần mềm và kỹ thuật
cung cấp các tư vấn về các mục ví dụ như sản phẩm, dịch vụ,… cho một người
dùng. Các tư vấn này thường liên quan đến quá trình ra quyết định khác nhau của
người dùng nhất định như nên mua sản phẩm nào, nghe loại nhạc nào, đọc quyển
sách nào,…
Hệ tư vấn từ khi ra đời đã mang đến nhiều lợi ích cho người dùng bằng sự
thu thập và chọn lọc thông tin để đưa ra các gợi ý như hệ tư vấn trên các trang bán
hàng trực tuyến: Amazon.com, Youbtube, Netflix, Yahoo,…
Bài toán hệ tư vấn được mô tả như sau [70]:
Cho tập người dùng * + và tập mục * +
trong đó, n là số lượng người dùng và m là số lượng mục. Một người dùng sẽ đánh
giá điểm cho một tập con của tập mục. Ma trận đánh giá được xây dựng
trong đó là điểm số người dùng đánh giá mục , trường hợp chưa đánh giá
mục nào thì sử dụng dấu “?”. Nhiệm vụ của hệ tư vấn là dự đoán hạng mà người
dùng đánh giá mục chưa được đánh giá hoặc gợi ý một số mục cho người dùng.
Học máy SVM, lý thuyết xấp xỉ, các kỹ thuật dựa trên kinh nghiệm,… là các
kỹ thuật điển hình được sử dụng để dự đoán, ước lượng hạng cho các mục. Các kỹ
thuật được sử dụng trong hệ tư vấn thuộc ba nhóm là phương pháp dựa trên nội
dung, phương pháp lọc cộng tác và phương pháp kết hợp (lai) hai phương pháp trên,
trong đó, phương pháp lọc cộng tác được sử dụng rộng rãi hơn cả [70].
59
Như vậy, nói theo ngôn ngữ của bài toán phân lớp, tập các sản phẩm xem xét
là tập nhãn được xác định trước, việc tư vấn các sản phẩm là gán nhãn sản phẩm
cho đối tượng người dùng.
Hiện nay, tư vấn xã hội là một chủ đề nghiên cứu, triển khai nhận được sự
quan tâm đặc biệt do tính phổ biến rộng rãi của các mạng xã hội và tính phức tạp
trong cấu trúc và kỹ thuật của mạng xã hội so với hệ tư vấn truyền thống. Trong đó,
nhiều tiếp cận tập trung vào khai thác mối quan hệ giữa người dùng trong hệ thống
là đặc trưng cơ bản trong hệ tư vấn xã hội. Trong hệ tư vấn xã hội, dựa trên thông
tin về người dùng, lịch sử tìm kiếm và các tương tác của người dùng trong mạng xã
hội để đưa ra các tư vấn về lĩnh vực tìm kiếm.
Có hai định nghĩa cho “tư vấn xã hội” là định nghĩa theo nghĩa hẹp và định
nghĩa theo nghĩa rộng [70]. Theo nghĩa hẹp, hệ tư vấn xã hội là hệ tư vấn truyền
thống có sử dụng các quan hệ xã hội trực tuyến như quan hệ niềm tin, quan hệ bạn
bè, quan hệ thành viên, quan hệ theo dõi,… là một đầu vào bổ sung cho hệ thống.
Định nghĩa này giả định rằng người dùng có liên quan với nhau khi họ thiết lập mối
quan hệ xã hội. Khi đó, sở thích của người dùng có thể sẽ tương đương hoặc bị ảnh
hưởng bởi kết nối bạn bè của họ. Theo nghĩa rộng, hệ tư vấn xã hội đề cập tới (1) tư
vấn về đối tượng bất kỳ trong phương tiện xã hội: mục (như định nghĩa hẹp), thẻ
(tag), người, cộng đồng; (2) sử dụng không chỉ quan hệ xã hội mà mọi dữ liệu
phương tiện sẵn có như gán thẻ xã hội, tương tác người dùng, hành vi kích chuột....
Luận án nghiên cứu tiếp cận về tư vấn xã hội theo nghĩa hẹp. Khi đó, mối quan
hệ giữa người dùng được bổ sung vào hệ thống thông qua ma trận quan hệ
với nếu giữa người dùng và có quan hệ kết nối, ngược lại .
Các phương pháp đề xuất cho hệ tư vấn xã hội hầu hết dựa trên phương pháp
lọc cộng tác kết hợp với các phân tích mạng xã hội về thông tin người dùng. Do đó,
một khung hệ tư vấn xã hội tổng quát được xây dựng gồm hai phần: mô hình lọc
cộng tác và mô hình thông tin xã hội. Theo sự phân chia của hệ thống tư vấn dựa
trên lọc cộng tác, tiếp cận cho hệ tư vấn xã hội cũng chia thành hai nhóm chính bao
gồm hệ tư vấn xã hội dựa vào bộ nhớ và hệ tư vấn xã hội dựa trên mô hình [70].
60
- Tiếp cận hệ tư vấn xã hội sử dụng mô hình lọc cộng tác dựa trên bộ nhớ và
đặc biệt là phương pháp hướng người dùng. Trong đó, các đánh giá còn thiếu
của một người dùng đối với một sản phẩm được xác định thông qua đánh giá
của tập người dùng có liên quan đến người đó mà những đánh giá này thu
được từ cả thông tin đánh giá và thông tin xã hội. Hệ thống tư vấn xã hội
theo tiếp cận này thường theo hai bước. Bước 1: Tìm kiếm tập những người
dùng có liên quan đến người dùng đang xem xét. Bước 2: Kết hợp các đánh
giá từ các người dùng liên quan thu được ở bước 1 để suy diễn các đánh giá
về sản phẩm bị thiếu. Các đề xuất theo tiếp cận này sử dụng các kỹ thuật
khác nhau để thu được tập người dùng liên quan ở bước 1 như trung bình
trọng số dựa trên xã hội [101], [102], TidalTrust [58], MoleTrust [96], [97],
[98], TrustWalker [81].
- Tiếp cận hệ tư vấn xã hội dựa trên mô hình chọn các mô hình lọc cộng tác
dựa trên mô hình làm mô hình cơ bản, trong đó phổ biến là sử dụng các kỹ
thuật tìm thừa số ma trận [3], [17]. Tiếp cận này thừa hưởng được các ưu
điểm từ kỹ thuật tìm thừa số ma trận như: (1) áp dụng được nhiều phương
pháp tối ưu (phương pháp dựa trên độ nghiêng) với quy mô hàng nghìn
người dùng với hàng triệu quan hệ tin cậy; (2) kỹ thuật tìm thừa số ma trận
có thể biểu diễn xác suất với nhiễu Gauxơ; (3) cho phép linh hoạt bổ sung
các tri thức đã có. Sự khác biệt với hệ tư vấn truyền thống dựa trên kỹ thuật
tìm thừa số ma trận là mỗi mối quan hệ xã hội có ý nghĩa tác động khác nhau
đến quyết định của người dùng, một số công trình đề xuất gán trọng số cho
mỗi quan hệ xã hội xem xét, thông thường qua việc tính toán độ tương đồng
giữa các người dùng. Tùy thuộc vào cách thức định nghĩa sự đóng góp của
thông tin xã hội, các đề xuất cho tiếp cận này được chia thành ba nhóm
phương pháp: phương pháp đồng tìm thừa số (co-factorization methods)
[49], [69], phương pháp tích hợp (ensemble methods) [50], [68] và phương
pháp chính quy (regularization methods) [80], [48].
61
2.2.2. Mô hình đề xuất
Khảo sát các công trình liên quan về hệ thống tư vấn, nghiên cứu sinh nhận
thấy một số công trình sử dụng kết hợp các kỹ thuật về phân tích quan điểm cho kết
quả khả quan. Tác giả D.Yang và cộng sự [20] đề xuất mô hình tư vấn lai dựa trên
thông tin đăng ký và dữ liệu hỗ trợ thu được từ kỹ thuật phân tích quan điểm người
dùng, sau đó mở rộng tiếp cận tìm thừa số ma trận (matrix factorization) kết hợp
ảnh hưởng của sự tương đồng về mặt xã hội và sự tương đồng trong đặc điểm của
tuyến đường đưa vào hệ thống tư vấn địa điểm. P.V.Krishna và cộng sự [100] đề
xuất mô hình máy tự động học (Learning Automata) kết hợp với phân tích quan
điểm cho bài toán tư vấn địa điểm trong đó phân tích và tính điểm các hồi đáp của
người dùng về các địa điểm để nâng cao hiệu quả của mô hình. M.V.Tran và cộng
sự [90] cũng đề xuất một hệ tư vấn tin tức cho tiếng Việt sử dụng mô hình lọc dựa
trên nội dung kết hợp với kỹ thuật chủ đề ẩn phân tích sở thích trong thông tin hồ sơ
người dùng.
Như vậy, một số công trình kể trên đã kết hợp phân tích quan điểm trên các
thông tin liên quan của người dùng (như các hồi đáp, bình luận, hồ sơ người
dùng…) để khai thác đặc trưng cho mô hình. Mô hình đề xuất trong luận án cho hệ
tư vấn xã hội trong luận án thuộc nhóm tiếp cận sử dụng mô hình lọc cộng tác dựa
trên bộ nhớ với một vài điểm cụ thể hóa khác biệt.
Một là ở bước chọn tập người dùng có liên quan: Khác với các công trình
nêu ở 2.2.1, mô hình này đề xuất tập người dùng liên quan dựa trên việc thu thập dữ
liệu trực tiếp từ website của nhà cung cấp sản phẩm, trong đó tập người dùng tham
gia đánh giá sản phẩm chính là những người dùng có cùng sự quan tâm tới sản
phẩm đó. Trong số tập người dùng thu được, mô hình tiếp tục tính toán sự tương
đồng giữa các người dùng để tìm ra tập con người dùng tin cậy có ảnh hưởng nhất
đến quyết định của người dùng đang xem xét. Hai là, mô hình đã kết hợp sử dụng
phương pháp phân tích quan điểm người dùng trên các bình luận về sản phẩm với
các trọng số khác nhau để tạo danh sách các sản phẩm ưa thích. Ba là, mô hình đã
62
xem xét đến sự ảnh hưởng của các loại đặc trưng khác nhau bao gồm đặc trưng về
tiểu sử và đặc trưng xã hội đến quyết định của người dùng.
Trong mô hình, tập sản phẩm xem xét được coi là tập nhãn được xác định trước,
việc tư vấn sản phẩm chính là gán cho người dùng một sản phẩm có khả năng nhất
trong tập các sản phẩm xem xét. Bài toán tư vấn xã hội được trình bày như dưới đây.
Đầu vào:
- D: Tập dữ liệu là tập các bình luận của người dùng về sản phẩm. (Sau khi
biến đổi tập dữ liệu D thành tập dữ liệu về người dung, tiến hành chia tập dữ
liệu về người dùng thành tập Dtrain làm dữ liệu huấn luyện và tập Dtest làm dữ
liệu kiểm thử.
- L: Danh sách các sản phẩm quan tâm
Đầu ra:
- Hệ tư vấn các sản phẩm cho người dùng mới M:DtrainL sao cho M được
đánh giá kiểm thử trên tập ví dụ mẫu Dtest đạt kết quả cao
Quy trình giải quyết bài toán theo mô hình đề xuất được trình bày ở Quy
trình 2.2
Pha 1: Xây dựng tập dữ liệu về người dùng
- Bước 1: Lựa chọn các danh mục sản phẩm để tư vấn – tập nhãn L - Bước 2: Phân tích quan điểm người dùng trên tập dữ liệu D để tìm ra tập
sản phẩm người dùng quan tâm
Pha 2: Xây dựng hệ thống tư vấn cho người dùng mới về sản phẩm
- Bước 1: Tập dữ liệu về người dùng được chia ngẫu nhiên thành 2 tập dữ
liệu huấn luyện (Dtrain) và tập dữ liệu kiểm thử (Dtest)
- Bước 2: Xác định độ tương đồng trên tập người dùng Dtrain và mỗi người
dùng trên tập Dtest để tìm ra tập người dùng tin cậy trên Dtrain.
- Bước 3: Xác định tập sản phẩm ưa thích của tập người dùng tin cậy trên
Dtrain để tư vấn cho người dùng mới. - Bước 4: Đánh giá hiệu quả của hệ tư vấn.
Quy trình 2.2 Quy trình giải quyết bài toán
63
Hệ thống đưa ra lời tư vấn cho người dùng mới khi tìm kiếm thông tin về
sản phẩm trên trang Facebook của nhà cung cấp sản phẩm thi hành Quy trình 2.1
được thể hiện tại Hình 2.5 Mô hình hệ thống tư vấn xã hội. Mô hình đề xuất gồm 2
pha chính:
Pha 1: Xây dựng tập dữ liệu về người dùng bao gồm tập các sản phẩm mà
người dùng quan tâm
Bước 1: Danh sách các sản phẩm điện thoại di động được xây dựng dựa trên
các thương hiệu nổi tiếng như Iphone, Samsung, Nokia, Oppo, Sony,…
Bước 2: Các dữ liệu được tải về từ Facebook được trích xuất ra thông tin về
người dùng và các bình luận liên quan đến danh sách sản phẩm.
Hình 2.5 Mô hình hệ thống tư vấn xã hội
64
Dữ liệu được đưa qua module phân tích quan điểm dựa trên tập những bình
luận dựa trên 3 tập từ điển về quan điểm như trong ví dụ sau:
BAD_SENTIMENT = {“chả”, “chê”, “xấu”, “tệ”, “kém”, “tồi”, “chán”,
“ghét”, “thua”, “chậm”}
GOOD_SENTIMENT = {“ngon”, “tốt”, “bền”, “được”, “chuẩn”, “thích”,
“yêu”, “nhanh”, “khỏe”, “hay”, “tiện”}
WEIGHT_SENTIMENT = {“ghê”, “hơn”, “khá”, “nhất”, “rất”, “được”,
“hơi”, “tạm”}
Sau bước này thu được tập dữ về tập người dùng và danh sách 4 sản phẩm
mà người đó quan tâm nhất.
Pha 2: Xây dựng hệ thống tư vấn xã hội dựa trên mối quan hệ giữa người dùng
Bước 1: Dữ liệu về người dùng được chia ngẫu nhiên thành tập dữ liệu huấn
luyện Dtrain và tập dữ liệu kiểm thử Dtest theo hướng đánh giá kiểm thử chéo 4-fold
(Trong đó, ba phần dữ liệu làm tập dữ liệu huấn luyện và một phần làm dữ liệu
kiểm thử). Theo đó, mỗi người dùng trong tập Dtest được coi như một người dùng
mới cần tư vấn. Tập sản phẩm do mô hình tư vấn sẽ được so sánh với tập sản phẩm
trong thông tin người dùng để đánh giá hiệu quả mô hình.
Bước 2: Xác định mối quan hệ giữa người dùng dựa trên độ tương đồng để
tìm ra tập người dùng tin cậy. Đây là những người dùng có quan hệ gần gũi với
người dùng mới dựa trên độ đo về các đặc trưng. Có nhiều cách thiết lập độ tương
đồng, trong công trình này, nhóm tác giả sử dụng độ đo Cosin trên tập đặc trưng về
người dùng bao gồm: giới tính, năm sinh, thành phố, giáo dục, cơ quan, sở thích…
Trước đó, các đặc trưng được ánh xạ theo mã và kiểu giá trị thuộc tính, ví dụ:
- Đặc trưng giới tính bao gồm {nam, nữ} {1,0}
- Đặc trưng tuổi được phân chia theo nhóm {0-10, 10-20, 20-30,…}
{1,2,3,…}
Bước 3: Sau khi thu được tập người dùng tin cậy, thực hiện thống kê trên tập dữ
liệu để đưa ra sản phẩm có tần suất xuất hiện lớn nhất trong nhóm người này. Những
sản phẩm này được coi là các tư vấn của hệ thống do người dùng tin cậy đề xuất.
65
Bước 4: Đánh giá hiệu quả mô hình bằng cách so sánh tập sản phẩn do người
dùng tin cậy tư vấn ở Bước 2 và tập sản phẩm người dùng yêu thích khi phân tích
thông tin người dùng.
Để đánh giá hiệu quả mô hình, luận án sử dụng các độ đo thông tin về độ
chính xác xếp hạng bao gồm: độ chính xác bậc k (P@K); độ chính xác trung bình
AP và độ chính xác trung bình bình quân MAP, trong đó:
- P@K: là độ chính xác của K đối tượng đầu bảng xếp hạng; Gọi Match@K
là số đối tượng đúng ở K vị trí đầu tiên, khi đó độ chính xác bậc K sẽ được
tính như sau:
(2.9)
- AP : độ chính xác trung bình là một độ đo kết hợp độ chính xác ở các mức
bao phủ. Xét một tập gồm N truy vấn, độ chính xác của truy vấn thứ i ký
hiệu là APi , gọi mi số đối tượng liên quan đến truy vấn thứ i, khi đó công
thức tính độ chính xác trung bình như sau:
∑ (2.10)
- MAP: Độ chính xác trung bình bình quân trên N truy vấn. Một hệ thống
tìm kiếm được chạy thử nghiệm trên nhiều truy vấn, mỗi truy vấn có một
thứ tự xếp hạng kết quả tương ứng. Do đó, MAP được định nghĩa là bình
quân của độ chính xác trung bình của tất cả các truy vấn trên tập kiểm thử.
∑
(2.11)
2.2.3. Ứng dụng mô hình
Mô hình trên được ứng dụng để xây dựng hệ thống tư vấn cho người dùng
khi tìm kiếm sản phẩm điện thoại di dộng cho khách hàng trên trang facebook của
nhà cung cấp.
Luận án xây dựng tập dữ liệu như sau:
- Chọn 7 thương hiệu sản phẩm điện thoại nổi tiếng bao gồm: iPhone,
66
Xperia Z3, Blackberry, Lumia 730, Z3, Lumia 830, Galaxy Alpha.
- Tập dữ liệu về người dùng bao gồm 2904 người dùng với các mức độ quan
tâm đến số lượng sản phẩm khác nhau. Trong đó, thiết lập cơ sở dữ liệu
người dùng bao gồm 3 sản phẩm yêu thích nhất và mô hình cũng chọn ba
sản phẩm do hệ tư vấn cung cấp để so sánh.
Để xác định mức độ ảnh hưởng của tập đặc trưng về người dùng đến quan hệ
và kết quả tư vấn, thực hiện thực nghiệm với các tập đặc trưng khác nhau bao gồm
đặc trưng về tiểu sử và đặc trưng xã hội như Bảng 2.4.
Các đặc trưng về tiểu sử Location (Vị trí) Hometown (Quê quán) Work (Job) (Công việc) Education (Giáo dục) School (Trường học) Gender (Giới tính) Age (Tuổi) Relation_status (Trang thái quan hệ) Các đặc trưng xã hội Interest (Sở thích) Favourit_teams (Đội bóng yêu thích) Favourit_athletes (Vận động viên yêu thích Music (Âm nhạc yêu thích) Films (Phim yêu thích) Television (Tivi) Games (Game yêu thích) Inspirational_People (người truyền cảm hứng) Book (Sách yêu thích) Facebook_page (Trang Facebook)
Bảng 2.4 Bảng đặc trưng tiểu sử và đặc trưng xã hội của người dùng
Kết quả thực nghiệm được thể hiện tại Bảng 2.5. Các thực nghiệm cho thấy,
các đặc trưng xã hội ảnh hưởng nhiều hơn đến mối tương đồng giữa người dùng nên
có tác dụng lớn hơn trong hệ thống tư vấn. Việc kết hợp cả hai bộ đặc trưng cho kết
quả tốt nhất trong các mẫu thực nghiệm.
Features P@1 P@2 P@3 MAP@3
Đặc trưng tiểu sử 0.416 0.385 0.353 0.377
Đặc trưng xã hội 0.456 0.429 0.407 0.424
Kết hợp 2 loại đặc trưng 0.512 0.487 0.446 0.481
Bảng 2.5 Kết quả thực nghiệm
67
Đồng thời, tại mỗi mẫu thực nghiệm, độ chính xác bậc thấp luôn cho kết quả
tốt hơn độ chính xác bậc cao. Điều này thể hiện kết quả tư vấn với số lượng ít sản
phẩm cho kết quả tốt hơn tư vấn nhiều sản phẩm.
2.3. Kết luận chương
Chương này trình bày về hai mô hình phân lớp đơn nhãn do luận án đề xuất
bao gồm mô hình gán nhãn thực thể có tên và mô hình hệ tư vấn xã hội. Hai kết quả
này này là việc vận dụng, thừa kế và phát triển các nghiên cứu về phân lớp đơn
nhãn. Trong đó, mô hình gán nhãn thực thể có tên là mô hình bán giám sát vận dụng
mô hình trường ngẫu nhiên có điều kiện với tham số ước lượng mô hình được xây
dựng từ tiêu chuẩn kỳ vọng tổng quát trên tập ràng buộc về phân phối xác xuất của
tập nhãn cho trước một đặc trưng thu được từ tri thức tiền nghiệm ước lượng từ dữ
liệu. Mô hình đề xuất sử dụng mô hình chủ đề ẩn LDA trên kho dữ liệu thuộc miền
ứng dụng để xây dựng tập ràng buộc. Mô hình hệ tư vấn xã hội đề xuất theo tiếp cận
sử dụng mô hình lọc cộng tác dựa trên bộ nhớ và đặc biệt là phương pháp hướng
người dùng với đóng góp chính từ việc tìm kiếm tập người dùng tin cậy theo tiếp
cận khai phá quan điểm người dùng về sản phẩm và mối quan hệ người dùng trên
mạng xã hội dựa trên các đặc trưng người dùng về tiểu sử và xã hội.
Kỹ thuật sử dụng tiêu chuẩn kỳ vọng tổng quát trên cơ sở xây dựng tập ràng
buộc về phân phối xác suất tập thực thể là định hướng và cơ sở ý tưởng cho việc
xây dựng phân phối chủ đề ẩn, khai thác thông tin ngữ nghĩa ẩn, làm giàu tập đặc
trưng cho mô hình được sử dụng ở chương tiếp theo.
Ngoài ra, việc nghiên cứu tư vấn danh sách sản phẩm trong tập sản phẩm cho
trước trong mô hình hệ tư vấn xã hội có thể mở rộng lên mức tư vấn nhiều sản
phẩm cho người dùng. Theo cách đó, có thể coi bài toán tư vấn là bài toán phân lớp
đa nhãn khi có thể đồng thời tư vấn nhiều sản phẩm theo thứ tự ưu tiên.
Trong các chương tiếp theo, luận án tiếp tục nghiên cứu các đặc điểm trên
miền dữ liệu đa nhãn và đề xuất các tiếp cận mới cho bài toán phân lớp đa nhãn
theo hướng khai thác các biểu diễn dữ liệu, làm giàu tập đặc trưng cho mô hình
phân lớp và xây dựng kỹ thuật phân lớp đa nhãn bán giám sát khai thác đặc trưng
68
riêng nhãn và tận dụng nguồn tài nguyên không nhãn phong phú để nâng cao hiệu
quả của phân lớp đa nhãn.
69
Chương 3. PHÂN LỚP ĐA NHÃN VĂN BẢN DỰA TRÊN
BIỂU DIỄN DỮ LIỆU THEO CHỦ ĐỀ ẨN
Xây dựng tập đặc trưng là một bước quan trọng trong xây dựng mô hình.
Một tập đặc trưng tốt sẽ thể hiện được các đặc điểm đặc trưng nhất và không chứa
nhiễu sẽ giúp nâng cao hiệu quả phân lớp. Chương này sẽ trình bày hai phương
pháp biểu diễn dữ liệu dựa trên mô hình chủ đề ẩn Latent Dirichlet Allocation
(LDA) [15], [16] làm giàu thêm các đặc trưng hữu ích cho mô hình và biểu diễn dữ
liệu theo mô hình đồ thị khoảng cách. Với giả thiết là mỗi văn bản được tạo ra bằng
việc kết hợp của nhiều chủ đề ẩn và mỗi chủ đề ẩn là một phân phối trên các từ. Mô
hình chủ đề ẩn LDA cung cấp một phương pháp khai thác ngữ nghĩa ẩn trong văn
bản để làm giàu thêm đặc trưng cho mô hình. Trên cơ sở dữ liệu được đề xuất về
tập các đánh giá của khách hàng về khách sạn Việt Nam, một mô hình phân lớp đa
nhãn được đề xuất dựa trên tập đặc trưng được làm giàu từ mô hình chủ đề ẩn LDA
và lựa chọn dựa trên thông tin tương hỗ MI để làm tăng hiệu quả mô hình phân lớp.
Kết quả nghiên cứu này được công bố trong [PTNgan3].
Phương pháp biểu diễn theo mô hình không gian vectơ tuy được sử dụng
rộng rãi nhưng vẫn tồn tại những nhược điểm. C.C. Aggarwal và P. Zhao [10] đã đề
xuất một phương pháp biểu diễn dữ liệu mới theo mô hình đồ thị khoảng cách nhằm
khắc phục những tồn tại của mô hình không gian vectơ và khai thác được các đặc
trưng về thứ bậc của các thành phần dữ liệu. Cách tiếp cận kết hợp mô hình chủ đề
ẩn LDA và mô hình biểu diễn dữ liệu theo đồ thị khoảng cách được đề xuất nhằm
khai thác các thông tin ngữ nghĩa ẩn phục vụ cho mô hình phân lớp. Kết quả của mô
hình đề xuất được trình bày trong [PTNgan04].
3.1. Phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo chủ đề ẩn
3.1.1. Biểu diễn dữ liệu theo chủ đề ẩn
Mô hình chủ đề là mô hình học máy không giám sát trong đó giả thiết rằng
mỗi văn bản được tạo ra là một sự kết hợp của nhiều chủ đề và mỗi chủ đề là một
phân phối trên các từ. Mô hình chủ đề về cơ bản là mô hình sinh văn bản, nó quan
70
tâm quá trình xác suất mà văn bản được tạo ra. Đầu ra của mô hình chủ đề là các cụm
từ. Mỗi cụm từ là dạng của một chủ đề và phân phối xác suất của cụm trên các từ.
Trong quá trình mô hình hóa xác suất, dữ liệu được xem như tạo ra từ quá trình sinh
trong đó có chứa các biến ẩn. Quá trình sinh này định nghĩa một phân bố xác suất
đồng thời trên cả biến quan sát và biến ẩn. Phân bố có điều kiện của biến ẩn cho trên
các biến quan sát được tính thông qua phân tích dữ liệu sử dụng phân bố đồng thời đó.
Mô hình LDA được D.M. Blei và cộng sự [15] đề xuất đầu tiên vào năm 2003,
trong đó đưa ra giả thiết về quá trình sinh ngẫu nhiên văn bản. Khái niệm chủ đề là
một phân bố xác suất trên tập từ vựng cố định. Trong giả thiết sinh văn bản thì các
chủ đề đã được tồn tại trước quá trình sinh. Ý tưởng của mô hình là mỗi tài liệu là sự
trộn lẫn của nhiều chủ đề, mỗi chủ đề là một phân phối xác suất trên tập các từ.
Ví dụ, xem xét một bài báo ở Hình 3.1 có tiêu đề “Seeking Life’s Bare
(Genetic) Necessities”, bài báo trình bày về ý tưởng sử dụng phân tích dữ liệu để
xác định số gen mà một sinh vật cần để sống sót. Nếu làm thủ công, có thể đánh dấu
các từ khác nhau được sử dụng trong bài báo theo màu sắc: Đánh dấu màu xanh cho
các từ về phân tích dữ liệu như “computer” và “prediction”; đánh dấu màu hồng cho
các từ về sinh vật học tiến hóa như “life” và “organism”; đánh dấu màu vàng cho
các từ gen như “sequenced” và “genes”. Việc đánh dấu này cho thấy bài báo là sự
pha trộn các chủ đề gen, phân tích dữ liệu và sinh vật học tiến hóa theo các phân bố
khác nhau. Xét một cách hình thức, mỗi chủ đề là một phân bố trên tập từ vựng cố
định thì chủ đề gen sẽ chứa các từ về gen với xác suất cao, chủ đề về sinh vật học
tiến hóa sẽ chứa các từ về sinh vật học tiến hóa với xác suất cao… Ngoài ra việc xác
định được các chủ đề pha trộn trong bài báo cũng giúp cho việc phân bài báo này
vào các tập bài báo khoa học. Việc sử dụng mô hình LDA sẽ giúp thực hiện được
các công việc này một cách tự động.
Về bản chất, LDA là một mô hình sinh 3 mức:
- Mức tập dữ liệu (corpus level)
- Mức tài liệu (document level)
- Mức từ ( word level)
71
Hình 3.1 Phân phối các chủ đề trong bài báo, tập các từ và xác suất các từ trong chủ đề [16]
Trong đó, mỗi phần của mô hình được coi như một mô hình trộn hữu hạn
trên cơ sở tập các xác suất của chủ đề. Các khái niệm sử dụng trong mô hình
- Từ: được lấy từ tập từ vựng * + - Tài liệu: là một dãy các từ ( ) - Tập dữ liệu: là một tập hợp của các tài liệu * + - Chủ đề: là một phân phối xác suất trên tập các từ
Cho một tập dữ liệu gồm M tài liệu * +, trong đó tài liệu m chứa từ lấy từ tập từ vựng * +. Mục tiêu của LDA là tìm một cấu
trúc ẩn của các chủ đề hàm chứa ý nghĩa của văn bản. Mặc dù thuật ngữ “chủ đề ẩn”
đã được đề cập đến trong các mô hình LSA và pLSA, LDA cung cấp một mô hình
sinh đầy đủ cho kết quả tốt hơn các tiếp cận trước đó.
Xem xét biểu diễn mô hình đồ họa của LDA ở Hình 3.2, quá trình LDA sinh
được mô tả như sau:
một tập các từ được phân bố trong tài liệu ⃗
, một phân phối chủ đề ⃗ được tạo ra và từ đây các
- Đối với mỗi tài liệu ⃗
từ trên mỗi chủ đề được xác định.
- Sinh ra chỉ số chủ đề dựa vào phân phối chủ đề
- Từ w được sinh ra dựa vào phân phối từ ⃗⃗ . Các chủ đề ⃗⃗ được lấy mẫu
một lần cho toàn bộ tập dữ liệu.
72
Hình 3.2 Mô hình sinh trong LDA [15]
Thuật toán sinh trong LDA được thể hiện như sau:
for tất cả chủ đề , - do
Sinh ra phân phối từ ⃗⃗ ( )
end for
for tất cả tài liệu , - do
Sinh ra phân phối chủ đề ⃗m ~ Dir ( )
Sinh ra độ dài tài liệu ( )
for tất cả các từ , - do Sinh ra chỉ số chủ đề ( ⃗ )
Sinh ra từ ( ⃗⃗ )
end for
end for
Hình 3.3 Thuật toán sinh trong mô hình LDA
Chú thích: Dir, Poiss và Mult lần lượt là các phân phối Dirichlet, Poisson và
Multinomial.
Các tham số và các biến trong thuật toán như sau:
- M là số tài liệu trong tập dữ liệu
- K là số chủ đề ẩn
73
- V là độ lớn của tập từ vựng
- và : tham số mức tập hợp tập dữ liệu – là các tham số của phân phối
Dirichlet.
- ⃗m: phân bố chủ đề trên tài liệu m (tham số mức tài liệu), nó biểu diễn tham
: ma trận
số cho ( ), thành phần trộn chủ đề cho tài liệu m
- Và Θ = * ⃗ + - m,n: chỉ số chủ đề của từ thứ n trong tài liệu m
- ⃗⃗ phân phối các từ cho chủ đề thứ k, nó biểu diễn tham số cho ( ),
thành phần trộn của chủ đề k : ma trận - Φ = * ⃗⃗ + - m,n: từ thứ n của văn bản m - số lượng các tài liệu - m: số lượng từ trong tài liệu m (độ dài văn bản sau khi đã loại bỏ các từ dừng)
Các phân phối được sử dụng trong mô hình
-
Phân phối Dirichlet: Phân phối Dirichlet của biến ngẫu nhiên với tham số ( ) ( ) ∑
(3.1)
∏
( ) ( )
( )
Với ( ) là hàm beta, được triển khai dựa trên hàm gamma:
∏ ( ) (∑ )
(3.2)
Hàm gamma được định nghĩa như sau:
( ) ∫
(3.3)
Với là số phức có phần thực dương ( ( ) )
-
Phân phối đa thức (Multinomial) là trường hợp tổng quát của phân phối nhị phân. Phân phối đa thức của biến ngẫu nhiên ( ) với tham số n là số đặc trưng, N là số lần thực hiện phép thử, ( ) ( ) là các xác suất của phép thử Bernoulli,
74
∑
: ∑ )
(3.4)
( )
∑ {
Luận án đã khai thác thông tin ngữ nghĩa ẩn từ mô hình sinh của mô hình chủ
đề ẩn LDA trên các mức tài liệu và mức từ nhằm bổ sung các đặc trưng tăng cường
biểu diễn dữ liệu cho các mô hình phân lớp trong phần tiếp theo.
3.1.2. Mô hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo chủ đề ẩn
Hầu hết các ứng dụng học máy nói chung và bài toán phân lớp nói riêng xây
dựng tập đặc trưng theo mô hình không gian vectơ, trong đó mỗi văn bản được biểu
diễn thành một vectơ có chiều dài cố định và mỗi thành phần vectơ được xác định là
giá trị của một đặc trưng xác định trước. Trong ứng dụng phân lớp văn bản, đặc
trưng được xét ở đây thông thường là một từ trong tập từ vựng xây dựng trên toàn
bộ tập văn bản. Một số kiểu đặc trưng về từ phổ biến như đặc trưng nhị phân (xuất
hiện/không xuất hiện), đặc trưng về độ đo tần số xuất hiện của cụm từ trong văn bản
(Term Frequency – TF), đặc trưng về độ đo nghịch đảo sự phổ biến của một từ
trong một tập văn bản (Inverse Document Frequency – IDF), và đặc trưng về độ đo
đánh giá ý nghĩa, độ quan trọng của một cụm từ với văn bản, lớp (TFIDF). Trong
đó, TFIDF là độ đo được sử dụng phổ biến. Nguyên lý cơ bản của TFIDF là độ
quan trọng của một từ sẽ tăng lên cùng với tần số xuất hiện của nó trong văn bản và
sẽ giảm xuống nếu từ đó xuất hiện trong nhiều văn bản khác.
Theo T. N. Rubin và cộng sự [117], tiếp cận khai thác mô hình chủ đề ẩn
LDA theo hướng thích nghi mô hình không giám sát cho bài toán phân lớp giám sát
từ phân lớp đơn nhãn đến phân lớp đa nhãn đang được quan tâm và ứng dụng trong
nhiều bài toán học máy. Ở đây, luận án chỉ đề cập đến các ứng dụng của LDA trong
phân lớp đa nhãn. D.Ramage và cộng sự [19] đã đề xuất một tiếp cận sử dụng mô
hình LDA có gán nhãn L-LDA (Labeled LDA) theo hướng biến đổi mô hình không
giám sát LDA để thích nghi cho phân lớp đa nhãn. T.N. Rubin và cộng sự [117]
75
cũng đề xuất một bộ mô hình sử dụng mô hình LDA (Flat-LDA, Prior-LDA và
Dependency-LDA) để khai thác các thông tin về nhãn như tần suất nhãn và mối
quan hệ phụ thuộc giữa các nhãn.
Luận án đề xuất một tiếp cận sử dụng mô hình LDA truyền thống ở mức tài
liệu với mục đích bổ sung các đặc trưng phân phối xác suất tập chủ đề ẩn trên mỗi
văn bản cho mô hình phân lớp (điều này thể hiện ở Bước 2 của Pha 1 trong Quy
trình giải quyết bài toán), sau đó vận dụng các thuật toán phân lớp đã biết. Các đặc
trưng được bổ sung từ mô hình chủ đề ẩn LDA có chất lượng tốt, đặc biệt là trong
việc thực thi trên tài liệu không nằm trong tập dữ liệu học, từ đó có thể cải tiến kết
quả của bộ phân lớp dữ liệu đa nhãn. Hướng tiếp cận này, sau đó cũng được một số
tác giả sử dụng và cải tiến với kết quả khả quan. A.H.Razavi và D.Inkpen [2] cũng
bổ sung đặc trưng về phân phối xác suất chủ đề ẩn trên mỗi văn bản nhưng có sự cải
tiến trong việc sử dụng đa bậc mô hình LDA để làm mịn phân phối xác suất thu
được. J.V. Carrera-Trejo và cộng sự [71] cũng sử dụng ý tưởng kết hợp đặc trưng
phân phối xác suất chủ đề ẩn có sự bổ sung các đặc trưng unigram (TFIDF), đặc
trưng bigrams và unigrams.
Các bước giải quyết bài toán được trình bày ở Quy trình 3.1 và mô hình của
phương pháp đề xuất thể hiện ở Hình 3.4
Đầu vào:
- : tập dữ liệu văn bản đa nhãn liên quan đến chủ đề thuộc miền ứng dụng,
chia thành 2 tập Dtrain làm tập dữ liệu huấn luyện và tập Dtest làm tập dữ liệu
kiểm thử.
- DU: tập dữ liệu không nhãn liên quan đến chủ đề thuộc miền ứng dụng để
xây dựng mô hình chủ đề ẩn.
- L: tập nhãn cho trước gồm q nhãn
- Mô hình phân lớp đa nhãn M sao cho M được đánh giá kiểm thử đạt hiệu quả
Đầu ra:
cao.
76
- Bước 1: Tiền xử lý dữ liệu: tách câu, tách từ, loại bỏ từ dừng, chuẩn hóa dữ
Pha 1: Huấn luyện mô hình
- Bước 2: Xây dựng mô hình chủ đề ẩn LDA trên tập DU và tập đặc trưng về
liệu và biểu diễn dữ liệu theo đặc trưng TFIDF cho tập Dtrain
- Bước 3: Lựa chọn đặc trưng dựa trên phương pháp thông tin tương hỗ
phân phối xác suất chủ đề ẩn trên mỗi câu của tập Dtrain.
(Mutual Information – MI) do Doquire và Verleysen [34] đề xuất để rút gọn
- Bước 4: Xây dựng bộ phân lớp đa nhãn
và tìm ra tập đặc trưng tiêu biểu nhất cho quá trình phân lớp.
- Bước 1: Tiền xử lý dữ liệu kiểm thử Dtest
- Bước 2: Xây dựng tập đặc trưng cho dữ liệu kiểm thử Dtest
- Bước 3: Phân lớp sử dụng bộ phân lớp đa nhãn ở Pha 1
Pha 2: Phân lớp đa nhãn sử dụng mô hình huấn luyện
Quy trình 3.1 Quy trình giải quyết bài toán
3.1.2.1. Pha 1 – Huấn luyện mô hình
a. Quá trình tiền xử lý dữ liệu
Quá trình tiền xử lý dữ liệu gồm các bước sau:
- Bước tách câu: Dữ liệu được đưa qua module tách câu để thu được tập các câu.
Quá trình biểu diễn dữ liệu và phân lớp được thực hiện trên tập các câu.
Dữ liệu thu được được đưa qua module tách câu để lọc dữ liệu, loại bỏ câu
cảm thán và câu không có nghĩa. Ví dụ, nội dung của một nhận xét của khách hàng
trong lĩnh vực khách sạn sau khi đi qua bộ tách câu như sau:
Tôi đã ở đây 3 đêm, đó là khoảng thời gian tuyệt vời, tiện nghi và thoải mái. Giá cả thì tuyệt vời, trên cả sự mong đợi, mà chất lượng phòng thì không có gì để bàn cãi. Cảm ơn!
Sau đó dữ liệu được loại bỏ những câu cảm thán, câu không có ý nghĩa là những
câu có dấu kết thúc câu là chấm than. Kết quả thu được như sau:
77
Tôi đã ở đây 3 đêm, đó là khoảng thời gian tuyệt vời, tiện nghi và thoải mái.
Giá cả thì tuyệt vời, trên cả sự mong đợi, mà chất lượng phòng thì không có gì để bàn cãi.
Hình 3.4 Mô hình chủ đề ẩn cho bài toán phân lớp đa nhãn
- Bước tách từ: Mỗi câu sẽ được đưa qua module tách từ để thu được tập các
từ trong câu. Đây là cơ sở cho việc xử lý và xây dựng các tập đặc trưng trên đơn vị
dữ liệu là từ.
Mỗi câu sẽ được đưa qua module tách từ để thu được tập các từ trong câu như sau:
78
Tôi đã ở đây 3 đêm, đó là khoảng thời_gian tuyệt_vời, tiện_nghi và thoải_mái.
Giá_cả thì tuyệt_vời, trên cả sự mong_đợi, mà chất_lượng phòng thì không có gì để bàn_cãi.
- Loại bỏ từ dừng: Từ dừng là các từ mà không có ý nghĩa hoàn chỉnh, ví dụ
như từ “và, như, là,…”. Việc phân lớp dữ liệu trên các từ dừng là hoàn toàn vô
nghĩa, bởi vậy các từ dừng sẽ bị loại bỏ khỏi dữ liệu. Sau khi loại bỏ các từ dừng, cơ
sở dữ liệu sẽ nhỏ hơn, các thuật toán áp dụng sẽ trở nên dễ dàng hơn, chính xác hơn.
Loại bỏ từ dừng là các từ không có ý nghĩa hoàn chỉnh như: “và”, “là”, “đã”,
“để”, “mà”…
Tôi ở 3 đêm, khoảng thời_gian tuyệt_vời, tiện_nghi thoải_mái.
Giá_cả tuyệt_vời, trên cả sự mong_đợi, chất_lượng phòng không có gì bàn_cãi.
- Chuẩn hóa dữ liệu: Các từ viết sai chỉnh tả sẽ được chuyển về dạng đúng
chính tả Tiếng Việt dựa trên phương pháp so sánh từ điển n-gram.
- Bước biểu diễn dữ liệu: Các câu được được biểu diễn theo đặc trưng TFIDF
– đây là một kỹ thuật thống kê đánh giá ý nghĩa, độ quan trọng của một cụm từ đối
với một văn bản hoặc một lớp. Độ đo TFIDF được xây dựng như sau:
o Độ đo tần số (Term Frequency – TF): đo tần suất xuất hiện của cụm
từ trong một văn bản
∑
(3.5)
Trong đó: là tần suất xuất hiện của từ khóa trong tài liệu j
o Độ đo nghịch đảo sự phổ biến của một từ trong một tập văn bản
(Inverse Document Frequency – IDF): là độ đo tổng quát độ quan
(3.6)
trọng của cụm từ.
* +
Trong đó: |D| là số lượng tài liệu trong tập D * + là số lượng tài liệu mà từ khóa xuất hiện
79
b. Xây dựng mô hình chủ đề ẩn LDA và tập đặc trưng chủ đề ẩn
o Từ đó, độ đo TFIDF được tính bằng công thức:
LDA là kết quả trộn lẫn chủ đề trong tài liệu của mô hình. Cho trước một tập
các văn bản sẽ khải quát được mô hình chủ đề sinh ra tập văn bản trên bao gồm: tìm
phân phối xác suất tập từ trên mỗi chủ đề, tìm phân phối chủ đề ở mỗi tài liệu. Ở
đây, tập dữ liệu được xây dựng từ các trang web thuộc các website về du lịch và
khách sạn của Việt Nam (tập dữ liệu chuyên ngành). Các trang web sau khi lấy về
được làm sạch như loại bỏ các thẻ html, các thông tin dưới dạng hình ảnh, âm
thanh, thông tin không nằm trong nội dung của trang web,…
Tiếp theo, mô hình LDA được thực thi trên tập dữ liệu xây dựng được nhằm
khai thác các thông tin tiềm ẩn về tập các chủ đề ẩn trên tập dữ liệu và phân phối
chủ đề ẩn trên tài liệu, phân phối xác suất của tập từ trên mỗi chủ đề. Mô hình LDA
được thực thi với các tham số chủ đề khác nhau sẽ cho các tập thuộc tính khác nhau
là cơ sở cho các thực nghiệm, nhằm tìm ra những trường hợp tối ưu trên mối quan
hệ giữa chủ đề và mô hình.
Luận án đề xuất tiếp cận khai thác đặc trưng về phân phối xác suất của các
chủ đề trên mỗi tài liệu bổ sung vào tập đặc trưng TFIDF tương ứng của tài liệu.
Giả sử, lấy chủ đề từ tập dữ liệu học. Với mỗi tài liệu , tiến hành tính xác
suất để tài liệu thuộc vào chủ đề là ( ), với .
Khi đó, tập đặc trưng bổ sung từ mô hình chủ đề ẩn LDA được xác định như sau:
( ) , -
Sau bước này, kết hợp vectơ TFIDF và vectơ đặc trưng chủ đề ẩn ở trên, thu
được vectơ đại diện cho dữ liệu V(d):
( ) ( ( ) ( ) ( ) )
Áp dụng mô hình LDA trên tập dữ liệu sử dụng công cụ GibbsLDA++ sẽ thu
được tập các chủ đề ẩn và các từ khóa đại diện cho mỗi chủ đề. Để biểu diễn tác
động của mô hình LDA trong việc làm giàu đặc trưng cho dữ liệu, chúng tôi đã cấu
hình mô hình LDA với số lượng chủ đề ẩn khác nhau như 15, 20 và 25 chủ đề.
80
Tiếp đó, dữ liệu huấn luyện sẽ được đưa qua mô hình LDA ở trên để thu
được đặc trưng là phân phối xác suất của các chủ đề ẩn trên mỗi tài liệu. Ví dụ, xét
tài liệu đầu vào là d, phân phối xác suất của tài liệu d trên các chủ đề ẩn được xác
định như sau:
Xác suất Từ khóa đại diện
Chủ đề Topic 1 Topic 2 Topic 3 Topic 4 … 0.924 0.001 0.002 0.065 … Nhân viên, tốt, phục vụ, nhiệt tình, thân thiện,… Sáng, ngon, món, nhiều, được,… Đẹp, view, hướng, rộng, vườn,… Gần, trung tâm, vị trí, đường,… …
Bảng 3.1 Ví dụ về kết quả của mô hình chủ đề ẩn cho tài liệu
Khi đó, tập đặc trưng bổ sung từ mô hình chủ đề ẩn là:
T(d) = [0.924, 0.001, 0.002, 0.065,…]
Sau bước này sẽ thu được các vectơ đặc trưng của dữ liệu bao gồm tập đặc
c. Lựa chọn đặc trưng
trưng TFIDF và đặc trưng bổ sung từ mô hình chủ đề ẩn ở trên.
Trong số các đặc trưng được đưa ra ở trên (bao gồm đặc trưng TFIDF và đặc
trưng chủ đề ẩn), có những đặc trưng có vai trò quan trọng hơn và những đặc trưng
ít quan trọng hơn do ý nghĩa của đặc trưng đó đóng góp vào quá trình phân lớp. Do
đó, việc lựa chọn đặc trưng sẽ giúp đưa ra được những đặc trưng có đóng góp quan
trọng vào tác vụ phân lớp đồng thời giảm được số chiều thuộc tính, góp phần vào
giảm độ phức tạp tính toán của các thuật toán phân lớp. Trong mô hình này, chúng
tôi sử dụng phương pháp lựa chọn đặc trưng dựa vào độ đo thông tin tương hỗ
(Mutual Information – MI) [34] . MI là một độ đo về lượng thông tin chung giữa hai
biến. Độ do này được sử dụng rộng rãi trong việc lựa chọn đặc trưng vì nó có khả
năng phát hiện ra các mối quan hệ phi tuyến giữa các biến. Hơn nữa, MI được định
nghĩa cho nhóm của các biến, thể hiện được sự phụ thuộc của nhóm đặc trưng với
một lớp trong quá trình lựa chọn đặc trưng. Tập đặc trưng thu được cuối cùng sẽ là
tập hợp các tập đặc trưng nhỏ chọn được ở trên.
Trong mô hình này chúng tôi sử dụng phương pháp rút gọn tập đặc trưng dựa
81
trên độ đo thông tin tương hỗ MI. Chiến thuật được sử dụng là phương pháp thêm
dần đặc trưng đồng thời loại bỏ đặc trưng dư thừa (Forward-Backward) để thu được
d. Xây dựng bộ phân lớp
tập đặc trưng tối ưu nhất.
Mẫu 1 2 3 4 Thể thao X X Tôn giáo Khoa học Chính trị X X X X X
Bảng 3.2 Ví dụ về dữ liệu đa nhãn
Mô hình sử dụng tiếp cận chuyển đổi bài toán theo phương pháp chuyển đổi
nhị phân. Trong đó, tiến hành xây dựng |L| bộ phân lớp nhị phân (với L là số nhãn):
* + cho L nhãn khác nhau. Dữ liệu trong mỗi bộ phân lớp được gán
nhãn nếu nó thuộc lớp , các dữ liệu khác được gán nhãn . Để minh họa cho
phương pháp này, chúng tôi sử dụng tập dữ liệu ở Bảng 3.2. Trong bảng dữ liệu có
bốn tài liệu được phân lớp vào một hoặc nhiều hơn một lớp trong bốn lớp: Thể thao,
Tôn giáo, Khoa học và Chính trị. Theo phương pháp chuyển đổi nhị phân, ta sẽ thu
được bốn tập dữ liệu tương ứng với bốn nhãn và xây dựng bốn bộ phân lớp nhị
phân tương ứng. Kết quả phân lớp cuối cùng là sự kết hợp từ kết quả phân lớp của
các bộ phân lớp đơn nhãn này.
3.1.2.2. Pha 2 – Đánh giá mô hình huấn luyện
Sau pha 1, chúng tôi xây dựng được một bộ phân lớp đa nhãn cho dữ liệu. Để
đánh giá mức độ hiệu quả của bộ phân lớp này, pha 2 tiến hành kiểm thử bằng cách
đưa dữ liệu đầu vào vào bộ phân lớp, tiến hành so sánh kết quả phân lớp thu được
từ bộ phân lớp và kết quả phân lớp thủ công. Hiệu năng của bộ phân lớp được đánh
a. Tiền xử lý dữ liệu
giá thông qua các độ đo tiêu biểu cho bài toán phân lớp đa nhãn.
Dữ liệu kiểm thử cũng phải tiến hành các bước tiền xử lý như ở Pha 1. Dữ
liệu được đưa qua các bước tách câu, tách từ, loại bỏ từ dừng, chuẩn hóa dữ liệu và
cuối cùng là biểu diễn dữ liệu theo đặc trưng TFIDF.
82
b. Xây dựng tập đặc trưng
Dữ liệu sau khi tiền xử lý được đưa vào mô hình xác suất tham chiếu chủ đề
ẩn LDA đã xây dựng từ Pha 1 để thu được tập đặc trưng về chủ đề ẩn tương ứng.
Sau đó kết hợp các đặc trưng chủ đề ẩn với các đặc trưng TFIDF để thu được vectơ
c. Phân lớp và đánh giá độ chính xác của hệ thống
đặc trưng của tập dữ liệu kiểm tra.
Bước này tiến hành phân lớp dữ liệu kiểm thử - đưa vectơ đặc trưng của dữ
liệu kiểm thử vào mô hình đã xây dựng ở Pha 1. Kết quả phân lớp sẽ được đối sánh
với kết quả phân lớp được thực hiện thủ công để đánh giá độ chính xác của hệ thống.
Trong mô hình này, chúng tôi đánh giá mô hình thông qua độ đo dựa trên
nhãn bao gồm độ hồi tưởng Recallmicro và độ chính xác Precisionmicro, và độ đo điều
hòa F1micro.
3.1.3. Ứng dụng phân lớp đa nhãn đánh giá khách sạn
Mô hình phân lớp xây dựng ở Phần 3.2.1 được sử dụng để đánh giá danh
tiếng cho các khách sạn ở Việt Nam dựa trên nhận xét của người dùng. Các tiêu chí
đánh giá được coi là tập nhãn cho phân lớp như sau:
- Sự phục vụ của nhân viên:
o Những đánh giá về thái độ phục vụ của nhân viên khách sạn bao gồm:
Lễ tân, dọn phòng, bảo vệ, quản lý, nhân viên nhà hàng…
o Các dịch vụ đi kèm
- Chất lượng phòng, khách sạn:
o Những đánh giá cảm tưởng chung về khách sạn
o Những đánh giá về chất lượng phòng ốc
- Chất lượng đồ ăn: Bao gồm đánh giá về chất lượng đồ ăn, bữa ăn.
- Vị trí và giá cả:
o Những đánh giá về vị trí, không gian, mức độ thuận lợi mà khách sạn
mang lại cho khách hàng.
o Những đánh giá về giá cả phòng, giá đồ ăn và giá các dịch vụ đi kèm.
- Trang thiết bị: Bao gồm các đánh giá về trang thiết bị, nội thất của khách sạn.
83
Bài toán đánh giá danh tiếng cho các khách sạn ở Việt Nam dựa trên nhận
xét của người dùng được thể hiện như sau:
3.1.3.1. Xây dựng tập dữ liệu thực nghiệm
Các thực nghiệm được thực hiện trên miền dữ liệu là tập đánh giá của khách
hàng về 1000 khách sạn ở Việt Nam. Tập đánh giá này được thu thập từ website
http://www.chudu24.com theo cấu trúc gồm: người đánh giá, khách sạn, thời gian
và nội dung ý kiến. Dữ liệu này chứa nhiều thông tin và nhiễu dưới dạng hình ảnh,
âm thanh, quảng cáo, thông tin không nằm trong nội dung trang web, thẻ html…
nên bước đầu của quá trình tiền xử lý dữ liệu là “làm sạch” dữ liệu - lọc bỏ nhiễu.
Tập dữ liệu gồm 3700 nhận xét của khách hàng chia thành 2 tập rời nhau:
Tập dữ liệu huấn luyện và tập dữ liệu kiểm thử. Tập dữ liệu huấn luyện được gán
nhãn thủ công.
Tổng số tài liệu Tập dữ liệu học Tập dữ liệu kiểm tra 3700 3200 500
Bảng 3.3 Tập dữ liệu thực nghiệm
Phân bố số lượng tài liệu theo lớp trong tập dữ liệu huấn luyện được mô tả
như sau:
Phân lớp 1 Sự phục vụ của nhân viên
Chất lượng phòng, khách sạn
Vị trí và giá cả
Chất lượng đồ ăn
Trang thiết bị STT 1 2 3 4 5 6 7 8 9 10 Phân lớp 2 Tích cực Tiêu cực Tích cực Tiêu cực Tích cực Tiêu cực Tích cực Tiêu cực Tích cực Tiêu cực Ký hiệu NV-T NV-X P-KS-T P-KS-X VT-GC-T VT-GC-X DA-T DA-X TTB-T TTB-X Số lượng tài liệu 632 242 654 345 426 255 423 368 233 355
Bảng 3.4 Tập dữ liệu huấn luyện
Xây dựng tập dữ liệu được lấy từ một số website về du lịch và khách sạn của
Việt Nam - đây được coi là tập dữ liệu chuyên ngành như: http://vi.hotels.com,
84
http://www.dulichnamchau.vn, http://dulichanz.com, http://bookhotel.vn,
http://www.dulichvtv.com, http://chudu24.com... Dữ liệu từ các trang web lấy về
sau khi “làm sạch” thu được tập dữ liệu chuyên ngành với hơn 22000 tài liệu.
STT
Trang website
http://vi.hotels.com http://www.dulichnamchau.vn http://www.dulichanz.com http://bookhotel.vn http://www.dulichvtv.com http://chudu24.com
1 2 3 4 5 6
Bảng 3.5 Tập dữ liệu cho mô hình chủ đề ẩn
3.1.3.2. Thực nghiệm
Quá trình thực nghiệm gồm các bước chính sau đây
Xử lý dữ liệu : Tiền xử lý dữ liệu, xây dựng tập tài liệu học cho mô hình
phân lớp, tập tài liệu cho mô hình LDA và vectơ hóa dữ liệu.
Xây dựng hàm lựa chọn đặc trưng : Tiến hành lựa chọn tập đặc trưng từ tập
đặc trưng đã có bằng cách sử dụng đô đo tương hỗ MI.
Xây dựng hàm phân lớp : Tiến hành xây dựng hàm phân lớp dữ liệu đa nhãn
bằng cách xây dựng các bộ phân lớp nhị phân chuyển đổi dựa trên kỹ thuật
cực đại hóa kỳ vọng EM (Maximum Entropy).
Tiến hành đánh giá danh tiếng cho 1000 khách sạn theo mô hình xây dựng ở trên.
Trong mô hình này, chúng tôi sử dụng phương pháp chuyển đổi nhị phân để
xây dựng các bộ phân lớp nhị phân cho mỗi nhãn. Các lĩnh vực được quan tâm cho
bài toán phân lớp là: Sự phục vụ của nhân viên; Chất lượng phòng, khách sạn; Chất
lượng đồ ăn; Vị trí và giá cả; Trang thiết bị,…
Tuy nhiên, với yêu cầu của bài toán quản lý danh tiếng thì các nhận xét của
khách hàng còn phải được đánh giá xem nó thuộc vào lớp tích cực hay tiêu cực. Từ
đó, bộ phân lớp của hệ thống sẽ bao gồm hai bộ phân lớp nhỏ:
Bộ phân lớp thứ nhất: Bao gồm 5 bộ phân lớp nhị phân cho năm lớp: Sự
phục vụ của nhân viên; chất lượng phòng, khách sạn; Chất lượng đồ ăn; Vị trí và
85
giá cả; Trang thiết bị
Bộ phân lớp thứ hai: Bao gồm 10 bộ phân lớp nhị phân cho 2 lớp: Lớp tích
cực và lớp tiêu cực cho mỗi lớp lớn ở trên.
Thiết kế thực nghiệm
Để đánh giá sử ảnh hưởng của chủ đề ẩn và việc lựa chọn đặc trưng đối với
kết quả của bộ phân lớp, chúng tôi tiến hành cài đặt 3 thực nghiệm như sau :
Thực nghiệm 1: Thực hiện việc phân lớp chỉ sử dụng tập đặc trưng TFIDF
của tập dữ liệu đầu vào (không sử dụng đặc trưng chủ đề ẩn).
Thực nghiệm 2: Thực hiện việc phân lớp sử dụng tập đặc trưng TFIDF của
tập dữ liệu đầu vào và tập đặc trưng chủ đề ẩn. Số lượng chủ đề sẽ được thay
đổi từ 15, 20 và 25 chủ đề để đánh giá mức độ ảnh hưởng của số lượng chủ
đề ẩn khác nhau đến kết quả của bộ phân lớp.
Thực nghiệm 3: Thực hiện việc phân lớp qua hai giai đoạn: làm giàu đặc
trưng gồm tập đặc trưng TFIDF, tập đặc trưng chủ đề ẩn và lựa chọn đặc
trưng sử dụng độ đo thông tin tương mỗ MI. Các thực nghiệm được thực
hiện với số lượng chủ đề ẩn là 20.
3.1.3.3. Kết quả thực nghiệm
Precisionmicro (%) Recallmicro (%) F1micro(%)
67.64 67.98 68.27 67.93 70.25 70.56 71.25 70.75 68.04 68.42 68.83 68.44
68.35 71.08 68.9
Thực nghiệm TFIDF TFIDF + LDA_15 chủ đề TFIDF + LDA_20 chủ đề TFIDF + LDA_25 chủ đề TFIDF + LDA_20 chủ đề + Lựa chọn đặc trưng
Bảng 3.6 Kết quả phân lớp
Kết quả thực nghiệm được thể hiện ở Bảng 3.6 cho thấy việc sử dụng tập đặc
trưng được bổ sung thêm đặc trưng chủ đề ẩn cho kết quả cao hơn các thực nghiệm chỉ
sử dụng đặc trưng TFIDF ở tất cả các thực nghiệm với số lượng chủ đề ẩn khác nhau.
Mặt khác việc sử dụng phương pháp lựa chọn đặc trưng nhằm rút gọn tập đặc
trưng dựa trên độ đo MI cho kết quả tốt nhất trong các thực nghiệm.Hệ thống còn
86
tiến hành đánh giá các nhận xét của người dùng ở các mặt tích cực và tiêu cực.
Hình 3.5 Phân tích nhận xét của người dùng về khách sạn Romana
Hình 3.5 minh họa về kết quả thực nghiệm đánh giá các nhận xét của người
dùng về khách sạn Romana ở tỉnh Phan Thiết. Theo các đánh giá của người dùng,
Romana là khách sạn tốt. Dựa trên năm lĩnh vực đánh giá, số lượng đánh giá tích
cực nhiều hơn số lượng đánh giá tiêu cực, đặc biệt là về Sự phục vụ của nhân viên
(19 nhận xét tích cực – 0 nhận xét tiêu cực) và Chất lượng phòng, khách sạn (30
nhận xét tích cực – 4 nhận xét tiêu cực).
Ví dụ, xem xét một nhận xét sau: "Phòng ở: mình ở villa pool ocean view,
phòng và view khá đẹp, phòng tắm lộ thiên, hồ bơi riêng rất đẹp, nằm trong
phòng nhìn ra hồ rất đã". Câu nhận xét này được phân lớp vào 3 lĩnh vực: Sự
phục vụ của nhân viên (Hàng 1), Vị trí và giả cả (Hàng 2) và Trang thiết bị (Hàng
3). Câu nhận xét này cũng được xếp vào lớp đánh giá tích cực trong mỗi lĩnh vực.
3.2. Phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo đồ thị khoảng
cách các chủ đề ẩn
Trong hầu hết các thuật toán khai phá và quản lý dữ liệu văn bản, dữ liệu
thường được biểu diễn dưới dạng chuỗi mà phổ biến nhất là mô hình không gian
vectơ. Mô hình không gian vectơ được G.Salton và cộng sự [39] đề xuất vào khi
giải quyết bài toán truy vấn thông tin. Theo cách biểu diễn này, mỗi văn bản được
87
biểu diễn trong một không gian nhiều chiều, mỗi chiều tương ứng với một từ trong
văn bản. Một từ với độ quan trọng của nó được xác định bằng một phương pháp
đánh trọng số trong văn bản và giá trị trọng số được chuẩn hóa trong đoạn [0,1].
Hình 3.6 mô tả hai văn bản d1 và d2 được biểu diễn bằng các vectơ ký hiệu là v1 và
v2, gồm 3 chiều T1, T2, T3, trong đó mỗi từ có một trọng số khác nhau đặc trưng cho
độ quan trọng của từ đó trong văn bản.
Tổng quát hơn, một văn bản d trong không gian vectơ ký hiệu là vd sẽ được
biểu diễn trong một không gian vectơ gồm N chiều, trong đó N là số lượng từ có
[ ]
trong tập văn bản. Mỗi thành phần của vectơ là trọng số của từ tương ứng.
Điểm hạn chế của phương pháp biểu diễn này là coi mỗi văn bản là một “túi
các từ” không có trật tự nên không thể hiện được các thông tin liên quan đến trật tự
có cấu trúc của các từ trong văn bản, nên phương pháp này có thể không cho kết quả
tốt khi phân tích sâu văn bản trong các ứng dụng mà trật tự có cấu trúc của văn bản
đóng vai trò quan trọng trong phân tích ngữ nghĩa. Để khắc phục được nhược điểm
của phương pháp này, C. C. Aggarwal và P. Zhao [10] đã đề xuất một phương pháp
biểu diễn bằng đồ thị khoảng cách, phương pháp này sẽ giữ lại được các đặc trưng về
trật tự từ mà không làm mất tính linh động và hiệu quả trong việc xử lý dữ liệu.
v1
v2
T2
𝜃
T1
T3
Hình 3.6 Biểu diễn văn bản theo không gian vectơ, v1 và v2 là hai văn bản trong không gian vectơ ba chiều T1, T2, T3 trong đó Ti là từ
C. Aggarwal và P. Zhao [10] đã minh chứng bằng thực nghiệm về hiệu quả
của việc sử dụng biểu diễn theo mô hình đồ thị khoảng cách trên các ứng dụng như
88
phân cụm, phân lớp, đánh chỉ mục,… Q.T. Ha và cộng sự [103] đã ứng dụng mô
hình đồ thị khoảng cách biểu diễn vết cho bài toán phân cụm vết trong khai phá quy
trình và thực nghiệm đã chứng tỏ về tính hữu hiệu quả của biểu diễn vết sự kiện
theo đồ thị khoảng cách. M. Poyraz và cộng sự [88] đề xuất một mô hình tương tự
mô hình đồ thị khoảng cách dựa trên biểu diễn đồ thị vô hướng trên tập từ của tập
dữ liệu huấn luyện; mô hình đồ thị này cũng cho kết quả tốt trong ứng dụng làm
trơn bậc cao cho thuật toán Naïve Bayes trong phân lớp văn bản.
Luận án đề xuất một mô hình phân lớp đa nhãn với một số cải tiến kết hợp
mô hình chủ đề ẩn nhằm khai thác các thông tin ngữ nghĩa ẩn trong văn bản, sau đó
áp dụng biểu diễn theo mô hình đồ thị khoảng cách trên tập chủ đề ẩn của văn bản.
Kỹ thuật này sẽ khai thác được các thông tin bậc cao hơn về thứ tự và khoảng cách
giữa các chủ đề ẩn trong văn bản, qua đó làm giàu tập đặc trưng nhằm nâng cao
thực thi của phân lớp.
3.2.1. Mô hình biểu diễn văn bản theo đồ thị khoảng cách
3.2.1.1. Biểu diễn dữ liệu theo đồ thị khoảng cách
Biểu diễn dữ liệu bằng đồ thị khoảng cách là cách biểu diễn có thể giữ được
các thông tin giàu ý nghĩa về trật tự và khoảng cách giữa các từ trong văn bản.
Đồng thời, cách biểu diễn có cấu trúc theo đồ thị khoảng cách khá hiệu quả cho bài
toán xử lý văn bản. Đồ thị khoảng cách có thể được xác định theo các bậc khác
nhau tùy thuộc vào mức thông tin khoảng cách muốn lưu giữ. Đặc biệt là, đồ thị
khoảng cách bậc k sẽ lưu giữ thông tin về các cặp từ có khoảng cách tối đa là
trong văn bản. Đồ thị khoảng cách được định nghĩa như sau:
Một đồ thị khoảng cách bậc k của một văn bản được lấy ra từ tập dữ liệu
được định nghĩa ( ) ( ( ) ( )) trong đó, ( ) là tập các đỉnh được
xác định trong tập dữ liệu và ( ) là tâp các cạnh trong văn bản. Tập
( ) ( ) được xác định như sau:
( ): là tập các đỉnh, trong đó mỗi đỉnh là một từ trong tập các từ được xây
dựng từ toàn bộ tập dữ liệu . Số lượng từ trong tập dữ liệu có thể lớn và trật
tự từ trong tập từ này là không đổi khi biểu diễn trên tập văn bản khác trong .
89
( ): là tập các cạnh từ đỉnh i nối đỉnh j nếu từ i đứng trước từ j nhiều
nhất k vị trí. Ví dụ, k = 1 được hiểu là thứ tự tuần tự các từ. Tần suất của các
cạnh là số lần từ i đứng trước từ j nhiều nhất k vị trí trong văn bản.
Tập ( ) luôn chứa một cạnh từ mỗi nút đến chính nó. Tần số của mỗi
cạnh là số lần một từ đứng trước từ khác trong văn bản với khoảng cách nhiều nhất
k vị trí. Vì mỗi từ được coi là đứng trước nó với khoảng cách k=0, tần số của mỗi
cạnh ít nhất bằng tần số của từ tương ứng trong văn bản.
Hầu hết các tập dữ liệu chứa nhiều từ xuất hiện với tần xuất lớn như giới từ,
mạo từ và liên từ - hay còn gọi là từ dừng. Do đó, trước khi biểu diễn đồ thị khoảng
cách, cần loại bỏ các từ dừng, giảm số lượng cạnh trong biểu diễn đồ thị khoảng cách.
Hình 3.7 Minh họa biểu diễn đồ thị khoảng cách
Biểu diễn bậc 0 tương ứng với tần suất xuất hiện của từ nên biểu diễn này
khá giống với biểu diễn theo không gian vectơ. Biểu diễn của các bậc khác nhau thể
hiện được lượng thông tin thu được về khoảng cách cho một câu văn bản được thể
hiện ở Hình 3.7. Hình thể hiện đồ thị khoảng cách bậc 0, 1 và 2 đối với tập đỉnh là
90
tập từ. Đồ thị khoảng cách này được xây dựng dựa vào tập từ trong văn bản sau khi
loại bỏ từ dừng. Đồ thị khoảng cách bậc 0 chỉ bao gồm tần suất. Tần suất của từ
trong trong văn bản là số lần một từ xuất hiện với khoảng cách 0. Số cạnh trong
biểu diễn sẽ tăng đối với đồ thị khoảng cách với số bậc cao hơn. Tần suất của từ tự
lặp trong đồ thị khoảng cách bậc 2 cao hơn trong đồ thị khoảng cách bậc 1 và bậc 0.
Sự lặp lại này không thay đổi tần suất bậc 1 và bậc 0 đồ thị khoảng cách nhưng ảnh
hưởng tới đồ thị khoảng cách bậc 2. Đồ thị khoảng cách có bậc cao hơn có thể chứa
nhiều thông tin hơn nhưng đồ thị bậc quá cao như bậc 5 hoặc bậc 10 thì có thể
không còn đúng do mẫu dữ liệu mà hai từ cách nhau với khoảng cách lơn (5-10) từ
thường không có nhiều ý nghĩa đối với mô hình. Đồ thị khoảng cách bậc 0 không
chứa nhiều thông tin hữu ích.
Một đặc điểm quan trọng của đồ thị khoảng cách là nó tương đối thưa và
chứa một lượng nhỏ các cạnh đối với đồ thị bậc nhỏ. Nhưng qua các thực nghiệm,
C. Aggarwal và P. Zhao [10] đã cho thấy, đồ thị khoảng cách bậc nhỏ mang lại hiệu
quả xử lý trong hầu hết các ứng dụng khai phá như phân lớp, phân cụm,... Một số
- Cho ( ) là số từ trong văn bản (tính cả trường hợp lặp) và ( ) là số từ
tính chất của đồ thị khoảng cách như sau:
phân biệt trong (không tính trường hợp lặp). Khi đó, đồ thị khoảng cách
bậc k chứa ít nhất ( ) ( ) ( ) cạnh và nhiều nhất là
- Các đồ thị khoảng cách bậc 2 hoặc bậc thấp hơn trong các văn bản chỉ chứa
( ) ( ) cạnh.
- Cho và là hai văn bản trong tập dữ liệu , là một tập con của . Khi
các từ đơn lẻ là mặt phẳng (hai chiều).
đó, đồ thị khoảng cách ( ) là đồ thị con của đồ thị khoảng cách ( ) - Cho và là hai văn bản trong tập dữ liệu và chúng có tập từ chung
liền kề kí hiệu là . Khi đó, đồ thị khoảng cách ( ) và ( ) có
- Cho là một đồ thị hai chiều chứa m đỉnh và là một văn bản trong tập dữ
chúng đồ thị con ( )
liệu . Gọi E là tập giao cạnh của tập các cạnh trong đồ thị ( ) với
91
các cạnh trong . Gọi q là tổng tần suất các cạnh trong . Khi đó, q chính là
số lần từ khóa trong các đỉnh tương ứng với xuất hiện trong một khoảng
cách với k của một đỉnh khác trong văn bản.
3.2.1.2. Mô hình đồ thị khoảng cách và mô hình n-gram
Có thể thấy mô hình đồ thị khoảng cách có một số điểm tương đồng với biểu
diễn đặc trưng n-grams [14]. Trong đó, đặc trưng n-grams là chuỗi n phần tử liên
tiếp nhau của một dãy các phần tử cho trước trong văn bản; nhiệm vụ là tính xác
suất một chuỗi trong văn bản. ( )
)
Khi đó, theo luật dãy của xác suất:
) (
( ) ( ) ( ) (
)
(3.7) ∏ (
Áp dụng luật dãy vào các từ, ta có:
)
) ( ) ( ) (
) (
) ∏ (
(3.8) (
Luật dãy thể hiện mối liên kết giữa việc tính xác suất của một chuỗi và xác suất
có điều kiện của một từ cho trước các từ đứng trước nó. Công thức (3.8) gợi ý rằng, có
thể ước lượng xác suất của một chuỗi các từ bằng tích các xác suất có điều kiện.
) thì chỉ
Khởi xướng ban đầu của mô hình n-grams là mô hình bigram, trong đó, thay
vì tính xác suất của một từ khi biết tất cả các từ đứng trước nó (
quan tâm đến các từ đứng trước nó bằng cách sử dụng xác suất có điều kiện của từ
đứng trước nó ( ). Giả thiết coi xác suất của một từ chỉ phụ thuộc vào từ
đứng trước nó gọi là giả thiết Markov.
Từ đó, công thức tổng quát cho xấp xỉ n-gram với xác suất có điều kiện của
từ tiếp theo trong chuỗi là:
) (
) ( (3.9)
Trong đó N là kích thước chuỗi xem xét. Đặc trưng n-gram sử dụng phổ biến
là n-gram có kích thước 1 (unigram), n-gram có kích thước 2 (bigram) và n-gram có
kích thước 3 (trigram),…
92
Qua phân tích về mô hình n-gram cho thấy, mô hình biểu diễn đồ thị khoảng
cách cũng bao trùm các đặc trưng n-grams phổ biến này. Điểm khác biệt hơn là mô
hình biểu diễn đồ thị khoảng cách tích hợp các thông tin từ bậc thấp đến bậc cao và
mang tính tổng quát hơn.
3.2.2. Mô hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo đồ thị
khoảng cách chủ đề ẩn
Phát biểu bài toán xây dựng mô hình phân lớp đa nhãn văn bản dựa trên biểu
diễn dữ liệu theo đồ thị khoảng cách chủ đề ẩn như sau:
Đầu vào:
- : tập dữ liệu văn bản đa nhãn liên quan đến chủ đề thuộc miền ứng dụng,
chia thành tập Dtrain là tập dữ liệu huấn luyện và Dtest là tập dữ liệu kiểm thử
- DU: tập dữ liệu không nhãn liên quan đến chủ đề thuộc miền ứng dụng để
xây dựng mô hình chủ đề ẩn.
- L: tập nhãn cho trước gồm q nhãn
- Mô hình phân lớp đa nhãn M sao cho M được đánh giá kiểm thử đạt hiệu quả
Đầu ra:
cao.
Quy trình giải quyết bài toán được thể hiện trong Quy trình 3.2 và mô hình
phân lớp được mô tả ở Hình 3.8.
Pha 1: Huấn luyện mô hình
- Bước 1: Xây dựng mô hình chủ đề ẩn LDA trên tập DU và biểu diễn câu chủ
đề trên tập dữ liệu Dtrain
- Bước 2: Biểu diễn đồ thị khoảng cách trên câu chủ đề trên tập Dtrain
- Bước 3: Xây dựng bộ phân lớp đa nhãn
Pha 2: Phân lớp đa nhãn sử dụng mô hình huấn luyện
- Bước 1: Xây dựng tập đặc trưng dựa trên mô hình chủ đề ẩn và biểu diễn đồ
-
thị khoảng cách cho tập Dtest
Bước 2: Phân lớp và đánh giá hiệu quả của mô hình
Quy trình 3.2 Quy trình giải quyết bài toán
93
Hình 3.8 Mô hình phân lớp đa nhãn dựa trên biểu diễn dữ liệu theo đồ thị khoảng cách các chủ đề ẩn.
Mô hình phân lớp đa nhãn dựa trên biểu diễn đồ thị khoảng cách và mô hình
chủ đề ẩn được thể hiện trong [PTNgan4]. Để xây dựng mô hình, một tập dữ liệu về
miền ứng dụng được thu thập để xây dựng mô hình xác suất chủ đề ẩn, làm cơ sở để
biến đổi dữ liệu huấn luyện và kiểm thử từ dạng câu văn bản thành câu chủ đề; tiếp
đó biểu diễn đồ thị khoảng cách được áp dụng trên câu chủ đề nhằm khai thác được
thông tin bậc cao về trật tự và khoảng cách giữa các chủ đề trong văn bản. Đồ thị
khoảng cách có thể được xác định theo các bậc khác nhau để thu được các thông tin
94
bậc văn bản khác nhau.
Sau đó áp dụng một bộ phân lớp đa nhãn trên tập đặc trưng được sinh ra từ
biểu diễn đồ thị trên câu chủ đề để thu được kết quả phân lớp.
3.2.2.1. Pha huấn luyện mô hình
a. Xây dựng mô hình chủ đề ẩn LDA và biểu diễn câu chủ đề
Từ tập dữ liệu thu thập được trên miền ứng dụng, xây dựng mô hình chủ đề
nhằm khai thác các thông tin tiềm ẩn về chủ đề ẩn trên tập dữ liệu và phân phối chủ
đề ẩn trên mỗi tài liệu; phân phối xác suất của tập từ trên mỗi chủ đề. Mô hình LDA
được thực thi với các tham số chủ đề ẩn khác nhau sẽ cho tập thuộc tính khác nhau
làm cơ sở cho các thực nghiệm, nhằm tìm ra những trường hợp tối ưu trên mỗi quan
hệ giữa chủ đề và mô hình.
Tiếp theo, dựa trên tập từ trong mỗi chủ đề, các câu văn bản trong dữ liệu huấn
luyện được chuyển thành câu chủ đề bằng cách thay thế mỗi từ trong văn bản bằng
chủ đề mà từ đó thuộc về. Cách biểu diễn này đã thu hẹp không gian giá trị của tập từ
vựng sang không gian tập chủ đề. Điều này có thể tác động đến độ phức tạp tính toán
b. Biểu diễn đồ thị khoảng cách trên câu chủ đề
của mô hình. Sau bước này, thu được câu chủ đề tương ứng cho mỗi câu văn bản.
Ở bước này, mô hình biểu diễn đồ thị khoảng cách do C.C. Aggarwal và P.
Zhao [10] đề xuất được áp dụng trên tập câu chủ đề ở bước trên. Trong đó, số bậc
của đồ thị được lựa chọn với nhiều giá trị khác nhau nhằm xây dựng được tập đặc
trưng hữu ích với lượng thông tin khác nhau.
Với mỗi biểu diễn câu chủ đề, dữ liệu được biểu diễn theo mô hình đồ thị
khoảng cách, trong đó mỗi đỉnh là một chủ đề; cạnh của đồ thị nếu có là mối quan
hệ về thứ tự của chủ đề và trọng số của cạnh đồ thị là tần suất xuất hiện của quan hệ
thứ tự của chủ đề trong văn bản.
Hình 3.7 thể hiện một biểu diễn đồ thị khoảng cách cho một câu văn bản với
số bậc lần lượt là 0, 1, 2. Khi biến đổi câu văn bản sang câu chủ đề, sẽ thu được một
biểu diễn mới về câu chủ đề trên miền chủ đề ẩn. Việc biến đổi này sẽ làm thu hẹp
kích thước đầu vào cho biểu diễn đồ thị khoảng cách từ không gian tập từ sang
95
không gian tập chủ đề. Đồng thời, có thể làm tăng tần suất của những chủ đề khi các
từ khác nhau trong cùng chủ đề cùng xuất hiện trong văn bản. Kỹ thuật này sẽ làm
giảm kích thước của các đồ thị khoảng cách trên câu chủ đề đồng thời giảm độ phức
tạp tính toán cho mô hình.
Giả thiết là sau khi xây dựng mô hình chủ đề ẩn ở bước trên sẽ thu được tập
các chủ đề ẩn và tập từ tương ứng trên mỗi chủ đề ẩn. Ví dụ, danh sách tập từ trong
các chủ đề ẩn như sau:
Chủ đề 1 khách_sạn Chủ đề 2 đẹp Chủ đề 3 đánh_giá Chủ đề 4 nhân_viên ….
phòng tuyệt_vời nhận_xét tiếp_viên
khuôn_viên tốt …. bảo_vệ
Bảng 3.7 Bảng phân phối tập từ trên mỗi chủ đề ẩn
Hình 3.9 Biểu diễn đồ thị khoảng cách trên câu chủ đề
96
Với phân phối tập từ trên mỗi chủ đề ẩn thu được từ mô hình chủ đề ẩn, câu
văn bản sau khi loại bỏ từ dừng ở Hình 3.7 “Khách_sạn đẹp, phòng tuyệt_vời,
nhân_viên tuyệt_vời, đánh_giá khách_sạn tốt.” sẽ được chuyển thành câu chủ đề như
sau: “topic1 topic2 topic1 topic 2 topic4 topic2 topic 3 topic1 topic2”. Khi đó, ta
có biểu diễn đồ thị khoảng cách cho câu chủ đề Hình 3.9. Số lượng nút đồ thị bây giờ
là số chủ đề ẩn chứ không phải là số từ trong tập từ. Theo đó, số lượng nút của đồ thị
sẽ giảm đi đáng kể, kèm theo đó trọng số các cạnh của đồ thị sẽ biến đổi theo hướng
tăng cường các thông tin có liên quan thể hiện ở các từ thuộc cùng một chủ đề.
Trong thực nghiệm, chúng tôi cũng thay đối số bậc của đồ thị nhằm tìm được
biểu diễn mang lại nhiều thông tin hữu ích nhất cho mô hình. Số bậc của đồ thị
c. Xây dựng bộ phân lớp đa nhãn
được thiết lập các giá trị 0,1,2…
Để xây dựng bộ phân lớp, có thể sử dụng các thuật toán phân lớp khác nhau
như đã trình bày ở Chương 1. Trong mô hình phân lớp thực nghiệm, sau khi thực
nghiệm với các thuật toán ML-kNN, BR, CC, CLR, v.v., chúng tôi lựa chọn thuật
toán phân lớp đa nhãn k láng giềng gần nhất ML-kNN vì ML-kNN cho kết quả tốt
nhất.
Ý tưởng chính của thuật toán là sử dụng kỹ thuật k láng giềng gần nhất để
giải quyết bài toán học đa nhãn, trong đó sử dụng luật cực đại hậu nghiệm để đưa ra
dự đoán bằng việc xem xét các thông tin liên quan đến nhãn từ các láng giềng.
3.2.2.2. Pha phân lớp sử dụng mô hình huấn luyện
Sau pha xây dựng mô hình huấn luyện, chúng tôi thu được một bộ phân lớp
đa nhãn cho dữ liệu là các câu nhận xét của người dùng về các Khách sạn ở Việt
Nam. Ở pha này, bộ phân lớp được sử dụng đoán nhận nhãn của tập dữ liệu kiểm
thử; nhãn đoán nhận sẽ so sánh với nhãn thực của dữ liệu để đánh giá mức độ hiệu
a. Xây dựng tập đặc trưng dựa trên mô hình chủ đề ẩn và biểu diễn đồ thị khoảng cách Dữ liệu kiểm thử cũng được ánh xạ vào mô hình xác suất tham chiếu chủ đề
quả của mô hình.
ẩn LDA đã xây dựng ở Pha 1 để biến đổi câu văn bản thành câu chủ đề. Sau đó câu
97
chủ đề sẽ được tiếp tục biểu diễn theo mô hình đồ thị khoảng cách để thu được tập
đặc trưng về thông tin trật tự và khoảng cách của chủ đề trong câu. Bậc của đồ thị
b. Phân lớp và đánh giá hiệu quả của mô hình
biểu diễn dữ liệu kiểm thử cũng được thiết lập tương ứng với dữ liệu huấn luyện.
Bước này tiến hành phân lớp dữ liệu kiểm thử bằng cách đưa tập đặc trưng
của dữ liệu kiểm thử thu được ở bước trên được đưa vào bộ phân lớp đa nhãn xây
dựng ở pha 1. Kết quả phân lớp được đối sánh với dữ liệu phân lớp thực để đánh giá
mô hình thông qua các độ đo.
Trong mô hình này, chúng tôi sử dụng các độ đo dựa trên mẫu, trong đó đánh
giá kết quả mô hình trên từng mẫu kiểm thử độc lập sau đó trả về kết quả trung bình
trên toàn tập dữ liệu kiểm thử. Các độ đo bao gồm: độ đo hamming loss – đánh giá
tỷ lệ cặp thể hiện – nhãn bị phân lớp sai; one-error – đánh giá số lần nhãn được xếp
hạng cao nhất không nằm trong tập nhãn có thể; coverage – xác định độ đo của một
hệ thống đối với tất cả các nhãn có thể của tài liệu là khoảng cách trung bình cho tất
cả các nhãn thích hợp được gán cho một ví dụ thử nghiệm; ranking loss – phân bố
trung bình của các cặp nhãn và average precision – đánh giá thành phần trung bình
của các nhãn liên quan được xếp hạng cao hơn một nhãn cụ thể. Các độ đo
hamming loss, one-error, coverage và ranking loss giá trị càng thấp thì thực thi của
hệ thống càng tốt; riêng độ đo Average Precision thì giá trị càng cao thì thể hiện hệ
thống thực thi càng tốt.
3.2.3. Ứng dụng phân lớp đa nhãn đánh giá khách sạn
Mô hình được ứng dụng để giải quyết bài toán đánh giá danh tiếng khách sạn
ở Việt Nam dựa trên tập nhận xét của người dùng được trình bày ở Chương 3 mục
3.2.1 Chúng tôi cũng sử dụng lại bộ dữ liệu về tập nhận xét của người dùng về các
Khách sạn của Việt Nam như trong ví dụ bài toán ở Chương 3 mục 3.1
Quá trình thực nghiệm gồm các bước chính sau đây
Xử lý dữ liệu : Tiền xử lý dữ liệu, xây dựng tập tài liệu học cho mô hình
phân lớp, kho tài liệu cho mô hình LDA.
98
Xây dựng mô hình chủ đề ẩn và biểu diễn câu chủ đề. Tiến hành xây dựng
mô hình chủ đề ẩn với số lượng chủ đề ẩn khác nhau để so sánh và đánh giá.
Sau đó, dữ liệu học được chuyển hóa thành dữ liệu câu chủ đề.
Biểu diễn đồ thị khoảng cách : Áp dụng mô hình đồ thị khoảng cách trên tập
dữ liệu câu chủ đề phục vụ để xây dựng tập đặc trưng của mô hình.
Tiến hành đánh giá danh tiếng cho 1000 khách sạn theo mô hình tối ưu
Để so sánh hiệu quả của mô hình, chúng tôi thực hiện thêm 2 thực nghiệm cơ
sở: một là thực nghiệm trên dữ liêu nguyên thủy với tập đặc trưng TFIDF và sử
dụng phương pháp chuyển đổi thuật toán thành q bộ phân lớp nhị phân trên nền
thuật toán SVM; hai là thực nghiệm với tập đặc trưng biểu diễn đồ thị khoảng cách
trên dữ liệu văn bản theo mô hình của C.C. Aggarwal và P. Zhao [10] và cùng sử
dụng thuật toán phân lớp đa nhãn k láng giềng gần nhất ML-kNN như trong mô
hình đề xuất.
Kết quả thực nghiệm được thể hiện ở Bảng 3.8 cho thấy, sự kết hợp của mô
hình chủ đề ẩn và đồ thị khoảng cách mang lại kết quả tốt hơn với hai thực nghiệm
cơ sở ở hầu hết 5 đơn vị đo: hloss, oneError, coverage, rloss, average preicision
(AP). Điều này đã minh chứng cho sự đóng góp của tri thức cung cấp từ mô hình
chủ đề ẩn đã bổ sung thêm cho mô hình đồ thị khoảng cách. Trong đó, kết quả tốt
nhất được ghi nhận với số lượng chủ đề ẩn là 25. Mặc dù, theo đánh giá của C.C.
Aggarwal và P. Zhao [10] khi thực nghiệm với bậc của đồ thị lớn hớn 5 thì kết quả
thực thi không được cải thiện tăng. Tuy nhiên, bằng kết quả thực nghiệm, chúng tôi
nhận thấy khi bậc đồ thị lớn hơn 3 thì kết quả mô hình không được cải thiện nữa mà
đi xuống. Điều này có thể lý giải bởi nút trong đồ thị đang xét của mô hình là chủ
đề ẩn chứ không phải từ như đồ thị khoảng cách nguyên thủy, nên mẫu về thứ tự
xuất hiện và khoảng cách giữa các nút trong đồ thị sẽ giảm đi đáng kể so với đồ thị
với nút là các từ. Kết quả này cũng có thể bị ảnh hưởng từ miền dữ liệu và đặc điểm
văn bản ngắn trong ứng dụng của chúng tôi.
99
hloss ↓
oneError ↓
Coverage ↓
rloss ↓
AP ↑
0.6626±0.0186
0.9473±0.1438
0.0733±0.0123
0.7487±0.0201
0.0547±0.0050
0.1401±0.0148
0.2459±0.0405
0.9693±0.1355
0.1586±0.0301
0.8250±0.0296
0.1369±0.0136
0.2184±0.0193
0.8204±0.1006
0.1255±0.0172
0.8542±0.0136
0.1359±0.0211
0.2136±0.0341
0.8217±0.0962
0.1263±0.0171
0.8559±0.0197
0
0.2056±0.0359
0.1283±0.0167
0.7695±0.0955
0.1150±0.0208
0.8645±0.0222
c ậ B
0.1398±0.0157
0.8566±0.1094
0.1338±0.0212
0.8507±0.0188
0.2157±0.0263
0.1473±0.0104
0.2464±0.0227
0.9215±0.1063
0.1513±0.0184
0.8318±0.0172
0.1518±0.0178
0.2384±0.0283
0.8567±0.1227
0.1351±0.0215
0.8405±0.0203
0.1479±0.0140
0.2384±0.0274
0.8707±0.0865
0.1390±0.0160
0.8397±0.0168
1
0.1310±0.0167
0.2056±0.0305
0.8384±0.1010
0.1300±0.0206
0.8565±0.0195
n ẩ ề đ ủ h c à v
c ậ B
0.1401±0.0111
0.2317±0.0311
0.9082±0.1076
0.1458±0.0234
0.8364±0.0209
h c á c
0.1642±0.0146
0.2913±0.0361
0.9966±0.1133
0.1677±0.0223
0.8041±0.0213
0.1412±0.0113
0.2103±0.0194
0.7910±0.1050
0.8592±0.0117
0.1163±0.0151
g n ả o h k ị h t
0.1360±0.0133
0.2203±0.0280
0.8090±0.1152
0.1238±0.0210
0.8541±0.0207
ồ đ p ợ h
2
0.1175±0.0178
0.1271±0.0161
0.1995±0.0286
0.7835±0.0935
0.8646±0.0194
c ậ B
t ế k h n ì h
0.1546±0.0098
0.2719±0.0315
0.9236±0.0897
0.1508±0.0171
0.8197±0.0183
ô M
0.1546±0.0098
0.2719±0.0315
0.9236±0.0897
0.1508±0.0171
0.8197±0.0183
0.0659±0.0114
0.8364±0.0250
0.4182±0.0471
0.0997±0.0047
0.6380±0.0270
0.4455±0.0472
0.0731±0.0110
0.8302±0.0227
0.0983±0.0066
0.6356±0.0254
3
0.4196±0.0497
0.0642±0.0098
0.8487±0.0204
0.0918±0.0062
0.6200±0.0273
c ậ B
0.4810±0.0400
0.0809±0.0111
0.8113±0.0246
0.0985±0.0070
0.6476±0.0303
0.4664±0.0368
0.0779±0.0093
0.8170±0.0194
0.0991±0.0066
0.6449±0.0280
Thực nghiệm Đặc trưng tần suất theo mô hình không gian vectỏ Mô hình đồ thị khoảng cách nguyên thủy 10 chủ đề 15 chủ đề 25 chủ đề 50 chủ đề 100 chủ đề 10 chủ đề 15 chủ đề 25 chủ đề 50 chủ đề 100 chủ đề 10 chủ đề 15 chủ đề 25 chủ đề 50 chủ đề 100 chủ đề 10 chủ đề 15 chủ đề 25 chủ đề 50 chủ đề 100 chủ đề
Bảng 3.8 Kết quả thực nghiệm của mô hình phân lớp đa nhãn dựa trên mô hình chủ đề ẩn và đồ thị khoảng cách
3.3. Kết luận chương 3
Chương 3 đã trình bày hai phương pháp biểu diễn dữ liệu cho phân lớp đa
100
nhãn bao gồm mô hình biểu diễn dựa trên mô hình chủ đề ẩn LDA và mô hình biểu
diễn dựa trên đồ thị khoảng cách kết hợp chủ đề ẩn LDA. LDA là một mô hình học
máy không giám sát trong đó giả thiết rằng mỗi văn bản được tạo ra là một sự kết
hợp của nhiều chủ đề và mỗi chủ đề là một phân phối trên các từ. Luận án khai thác
mô hình LDA theo hai mức thông tin. Đặc trưng phân phối xác suất của các chủ đề
ẩn đối với một văn bản được bổ sung kết hợp với các đặc trưng phổ biến (TFIDF)
để làm giàu thêm đặc trưng cho mô hình. Tiếp cận này đã thể hiện ưu thế do
phương pháp biểu diễn dữ liệu dựa trên mô hình chủ đề ẩn mang lại và được tiếp
tục vận dụng trong các tiếp cận tiếp theo của luận án. Kỹ thuật khai thác đặc trưng
về phân phối chủ đề ẩn mức văn bản được công bố trong công trình [PTNgan1]
(năm 2013) và kỹ thuật này cũng đã được minh chứng sử dụng có hiệu quả trong
công trình của A.H.Razavi và D.Inkpen [2] (năm 2014), J.V. Carrera-Trejo và cộng
sự [71] (năm 2015) trên ngôn ngữ tiếng Anh cho thấy tính tổng quát của mô hình đề
xuất không chỉ trên miền ngôn ngữ tiếng Việt trong thực nghiệm.
Ở tiếp cận mô hình LDA theo mức từ, luận án cũng đề xuất mô hình kết hợp
phương pháp biểu diễn dữ liệu theo mô hình đồ thị khoảng cách và phân phối của
tập từ trên mỗi chủ đề ẩn nhằm khai thác được đặc trưng về mối quan hệ về thứ bậc
của các chủ đề ngữ nghĩa ẩn trong văn bản. Sự kết hợp này đã khai thác được các
đặc trưng thông tin ngữ nghĩa ẩn ở mức cao hơn, tổng quát hơn mang lại tính hiệu
quả của mô hình.
Các mô hình đề xuất được ứng dụng trong bài toán đánh giá danh tiếng
khách sạn Việt Nam dựa trên nhận xét của người dùng đã thể hiện hiệu quả so với
các mô hình cơ sở.
101
Chương 4. KỸ THUẬT BÁN GIÁM SÁT PHÂN LỚP
ĐA NHÃN VĂN BẢN TIẾNG VIỆT
Học máy bán giám sát là một tiếp cận nhận được nhiều sự quan tâm trong
cộng đồng nhiên cứu nhờ sự kết hợp hiệu quả giữa dữ liệu có nhãn làm định hướng
và dữ liệu không có nhãn phong phú sẵn có trong miền ứng dụng. Trong chương
này, tác giả đề xuất một thuật toán phân lớp đa nhãn bán giám sát về bản chất là sử
dụng kỹ thuật phân cụm bán giám sát trên miền dữ liệu đa nhãn. Từ đó đề xuất một
mô hình phân lớp bán giám sát tổng quát và một mô hình ứng dụng phân lớp đa
nhãn bán giám sát trên miền dữ liệu văn bản kết hợp các kỹ thuật biểu diễn dữ liệu
dữ liệu sử dụng mô hình chủ đề ẩn và kỹ thuật rút gọn đặc trưng nhằm nâng cao
hiệu quả mô hình. Mô hình đề xuất được công bố trong [PTNgan5, PTNgan6].
4.1. Tiếp cận phân cụm bán giám sát
4.1.1. Tiếp cận dựa trên ràng buộc
Trong tiếp cận dựa trên ràng buộc, thuật toán phân cụm sẽ tự thay đổi để các
nhãn hoặc ràng buộc có sẵn được sử dụng để tìm kiếm một phân cụm phù hợp với dữ
liệu. Dữ liệu có nhãn xác định nhóm mà thực thể thuộc về, trong khi các ràng buộc cặp
đôi xác định hai thực thể sẽ thuộc về cùng một cụm hay hai cụm khác nhau. Tiếp cận
phân cụm bán giám sát dựa vào ràng buộc sử dụng một số kỹ thuật: thay đổi hàm mục
tiêu cụm để thỏa mãn ràng buộc, phân cụm sử dụng thông tin theo khía cạnh từ phân
bố có điều kiện trong không gian phụ, các ràng buộc phải được thỏa mãn trong suốt
quá trình phân cụm; khởi tạo cụm và các ràng buộc phân cụm dựa trên kỹ thuật k láng
giềng gần nhất; Thuật toán COP-Kmeans và SS-SOM thay đổi pha cập nhật mối quan
hệ cụm của thuật toán K-means và thuật toán ánh xạ Self Organizing để đảm bảo các
phân hoạch đồng nhất với các ràng buộc cặp đôi cho trước. Trong thuật toán COP-
Kmeans, các tâm cụm đầu tiên được khởi tạo ngẫu nhiên, mỗi điểm dữ liệu sau đó
được gán với tâm cụm gần nhất để đảm bảo không có ràng buộc nào bị vi phạm. Các
tâm cụm được cập nhật theo trung bình các điểm dữ liệu được gán trong cùng một cụm
giống như thuật toán K-means. Thuật toán cực đại hóa kỳ vọng tổng quát được thay đổi
sao cho chỉ các mô hình hỗn hợp thỏa mãn các ràng buộc mới được xem xét. Tiếp cận
102
này coi các thông tin bổ sung là các ràng buộc cứng và đảm bảo rằng tất cả các ràng
buộc đều được thỏa mãn một cách nghiêm ngặt. Cách tiếp cận này có thể giải quyết
vấn đề phân cụm theo trực giác và các vấn đề khác của phân cụm.
Một số tiếp cận sử dụng thông tin bổ sung để tạo ra các ràng buộc mềm.
Thay vì thỏa mãn tất cả các ràng buộc, các tiếp cận này chỉ yêu cầu thỏa mãn nhiều
nhất càng ràng buộc có thể và đưa ra điểm trừ đối với những ràng buộc không thỏa
mãn. Các nhà nghiên cứu đã thay đổi mô hình trộn cho phân cụm dữ liệu bằng cách
định nghĩa lại quá trình sinh dữ liệu thông qua các biến ẩn.
4.1.2. Tiếp cận dựa trên khoảng cách
Trong tiếp cận này, một số thuật toán phân cụm sử dụng độ đo khoảng cách. Tuy
nhiên, độ đo khoảng cách trước tiên được huấn luyện để thỏa mãn các nhãn hoặc ràng
buộc trong dữ liệu huấn luyện. Các tiếp cận phân cụm bán giám sát được chia thành 2
nhóm: các điểm dữ liệu trong ràng buộc must-link được phân cách bằng khoảng cách
nhỏ và điểm dữ liệu trong ràng buộc cannot-link được phân cách bằng khoảng cách lớn.
( ) ( )
Khoảng cách giữa hai điểm dữ liệu bất kỳ và được biểu diễn như sau:
( ) ‖ ‖
(4.1) Trong đó, là độ đo khoảng cách bao gồm khoảng cách chuỗi chỉnh sửa sử
dụng kỹ thuật Maximum Entropy, độ phân kỳ Jensen-Shannon giảm độ nghiêng,
khoảng cách Euclide biến đổi theo thuật toán đường đi ngắn nhất, khoảng cách
Mahalanobis tối ưu.
Một số kỹ thuật học độ đo khoảng cách được nghiên cứu rộng rãi trong học
bán giám sát và không giám sát như: Độ đo khoảng cách địa phương chỉ tập trung
vào các ràng buộc trong miền cục bộ và được sử dụng điển hình trong phân lớp bán
giám sát. Mặt khác, độ đo khoảng cách toàn cục xem xét đồng thời tất cả các ràng
buộc cặp đôi. Ví dụ, vấn đề tối ưu lồi - cực tiểu khoảng cách giữa các điểm dữ liệu
có quan hệ ràng buộc must-link và cực đại khoảng cách giữa các điểm dữ liệu có
quan hệ ràng buộc cannot-link – được giải quyết để tìm độ đo tối ưu. Kỹ thuật học
độ đo khoảng cách phi tuyến.
Ý tưởng về phân cụm bán giám sát dựa trên độ đo khoảng cách được mở
103
rộng thành học nhãn biểu diễn độ tương đồng dữ liệu cặp đôi. Tương tự như học
dựa trên độ đo khoảng cách, hàm tính độ tương đồng dựa trên nhân (kernel
similarity function) được thay đổi để phù hợp với các ràng buộc cặp đôi cho trước,
ví dụ: các điểm dữ liệu trong quan hệ must-link có độ tương tự lớn và các điểm dữ
liệu trong quan hệ cannot-link có độ tương tự nhỏ. Độ tương đồng dựa trên nhân
(kernel similarity) được thay đổi bằng cách kết hợp các ràng buộc trong hàm mục
tiêu. Một số tiếp cận không tham số cho học dựa trên nhân (kernel learning) cũng
được đề xuất để học độ đo tương tự cặp đôi.
Một số tiếp cận kết hợp hai phương pháp học bán giám sát cũng được đề
xuất. S. Basu [108] đã đề xuất một tiếp cận MCP-Kmeans kết hợp hai giải pháp trên
bằng việc thích nghi hàm mục tiêu trong K-means. Đồng thời, thuật toán cực đại
hóa entropy được sử dụng để cập nhật khoảng cách tương tự của các điểm dữ liệu.
Theo Basu, sự kết hợp này có thể mang lại hiệu quả thực thi vượt bậc. Tuy nhiên,
vấn đề lớn nhất là xác định trọng số của hàm mục tiêu, bên cạnh đó, hàm mục tiêu
có thể hội tụ ở cực tiểu địa phương.
Trong tiếp cận của chúng tôi, một thuật toán phân cụm bán giám sát dựa trên
tiếp cận dựa vào tìm kiếm được sử dụng nhằm cải tiến chất lượng phân cụm và phân
lớp dữ liệu. Mặc dù, phân lớp và phân cụm là hai tác vụ có liên quan gần gũi với
nhau, nhưng có nhiều điểm hoàn toàn khác nhau. Trong khi, phân cụm là kỹ thuật
học không giám sát để nhóm các dữ liệu có nội dung tương tự với nhau, phân lớp là
tác vụ học giám sát để phân lớp dữ liệu vào các lớp theo chủ đề, theo loại.
Các kỹ thuật học bán giám sát như thuật toán Bayes ngây thơ và thuật toán
cực đại hóa entropy EM và phương pháp DKS thường sử dụng kỹ thuật lặp để sử
dụng dữ liệu không nhãn để làm mịn bộ phân lớp. Đầu tiên, mỗi mẫu dữ liệu không
nhãn sẽ được bộ phân lớp gán một nhãn. Tiếp đó, các mẫu dữ liệu không nhãn sau
khi được gán nhãn sẽ tham gia vào việc huấn luyện lại bộ phân lớp. Cuối cùng, Quy
trình gán nhãn và huấn luyện lại sẽ lặp cho đến khi đạt điểm hội tụ của bộ phân lớp.
Điểm khác biệt là trong thuật toán phân cụm bán giám sát TESC được sử dụng
trong tiếp cận của chúng tôi, việc sử dụng dữ liệu có nhãn và không nhãn không
104
thực hiện tuần tự mà cả dữ liệu có hãn và không nhãn đồng thời tham gia vào quá
trình phân cụm. Với giả thiết, các mẫu dữ liệu được lấy ra từ đa thành phần dữ liệu.
Các dữ liệu có nhãn được sử dụng để xác định cụm và dữ liệu không nhãn được sử
dụng để điều chỉnh tâm cụm.
4.2. Mô hình phân lớp đa nhãn bán giám sát
4.2.1. Phát biểu bài toán phân lớp đa nhãn bán giám sát
Phát biểu bài toán phân lớp đa nhãn bán giám sát theo tiếp cận phân cụm bán
giám sát được thể hiện như sau:
Gọi ̅ * ̅ ̅ + là tập văn bản, trong đó ̅ ̅ tương ứng là tập dữ
liệu đã gán nhãn và tập dữ liệu chưa gán nhãn, trong đó L là tập bao gồm nhãn
được định nghĩa trước { };
( ) } ( ), trong đó,
Trong bước huấn luyện, mục tiêu là xây dựng một phân hoạch trên tập dữ
( )
liệu ̅ * ̅ ̅ + * + và {
̅ và ( ). Các văn bản trong mỗi hoạch
⋃
được gán cùng nhãn cụm .
Trong tiếp cận phân cụm không giám sát truyền thống, số cụm thường được
xác định trước một cách thủ công. Tuy nhiên, trong mô hình của chúng tôi, số cụm
trong phân hoạch không được xác định trước mà được tính toán dựa trên tập
nhãn, bản thân tập dữ liệu bao gồm dữ liệu có nhãn và dữ liệu không nhãn. Điều
này thể hiện sự linh động cũng như phụ thuộc miền dữ liệu của bài toán.
Sau khi thu được phân hoạch , chúng tôi xây dựng mô hình phân lớp sử
dụng phương pháp tìm kiếm láng giềng gần nhất để dự đoán tập nhãn cho các dữ
liệu không nhãn theo công thức.
( )
(4.2) Trong đó, ( ), là tâm cụm và ( ) là độ đo
khoảng cách được sử dụng để xác định độ tương tự của dữ liệu. Theo đó, văn bản chưa gán nhãn sẽ được gán nhãn của cụm là cụm gần nhất với . Mô hình đã tận dụng được dữ liệu chưa gán nhãn đưa vào quá trình phân hoạch và xây dựng
105
mô hình phân lớp để dự đoán nhãn cho các dữ liệu không nhãn .
Tư tưởng lớn nhất của mô hình là xây dựng tập đặc trưng riêng cho nhãn/ tập
nhãn dựa trên kỹ thuật phân cụm bán giám sát nhằm tận dụng được nguồn dữ liệu
chưa gán nhãn dồi dào. Ý tưởng này xuất phát từ hai công trình LIFT và TESC sẽ
được trình bày tổng quát sau đây.
4.2.2. Thuật toán phân lớp đa nhãn dựa trên kỹ thuật phân cụm bán giám sát
Tiếp cận phổ biến cho phân lớp đa nhãn là chuyển đổi bài toán như trình bày
ở phần 1.2.1.1. Trong đó, bài toán phân lớp đa nhãn chuyển về các bài toán phân
lớp truyền thống, điển hình là xây dựng mỗi một bộ phân lớp cho một nhãn sau đó
tập nhãn của mỗi phần tử dữ liệu được tập hợp lại từ các bộ phân lớp nhị phân
(phương pháp chuyển đổi nhị phân). Phương pháp này có ưu điểm là đơn giản
nhưng lại bỏ qua mối quan hệ giữa các nhãn nên trong một số trường hợp làm giảm
thực thi phân lớp. Mặt khác, thuật toán sử dụng chung một tập đặc trưng cho tất cả
các bộ phân lớp trên từng nhãn. Thực tế là mỗi nhãn chỉ phụ thuộc vào một số đặc
trưng nhất định nên tiếp cận sử dụng chung một tập đặc trưng cho tất cả các bộ phân
lớp trên từng nhãn có thể không tối ưu.
Dựa trên giả thiết rằng, các đặc trưng riêng nhãn là những đặc trưng mang
tính chất phân biệt của một nhãn, khi sử dụng tập đặc trưng này vào quá trình phân
lớp sẽ mang lại hiệu quả tốt hơn, một số tiếp cận đã được đề xuất nhằm xây dựng
tập đặc trưng riêng nhãn như [54], [59], [83], trong đó xem xét tập dữ liệu theo từng
nhãn chia thành hai tập con âm và dương với tập dương là tập chứa các phần tử dữ
liệu có nhãn đang xét, ngược lại tập âm là tập chứa các phần tử dữ liệu không chứa
nhãn đang xét; sau đó xây dựng tập đặc trưng trên từng tập dữ liệu âm/dương bằng
các kỹ thuật khác nhau. H. Qu và cộng sự [54] xây dựng tập đặc trưng riêng nhãn
bằng kỹ thuật tính toán và lựa chọn các đặc trưng có mật độ cao trong tập âm, tập
dương theo từng nhãn. M.L. Zhang và L.Wu [83] xây dựng tập đặc trưng riêng biệt
sử dụng kỹ thuật phân cụm truyền thống (k-means). J.J. Zhang và cộng sự [59] đề
xuất một thuật toán phân cụm quang phổ để tìm quan hệ cấu trúc giữa hai tập âm,
dương.
106
Tiếp thu ý tưởng về việc xây dựng tập đặc trưng riêng nhãn, tiếp cận của chúng
tôi có sự khác biệt trong phân chia tập dữ liệu kết hợp chiến thuật tham lam, tập đặc
trưng riêng biệt được tạo ra không chỉ cho một nhãn mà có thể là cho cả một tập nhãn.
Thêm nữa, chúng tôi sử dụng một kỹ thuật phân cụm bán giám sát nhằm tận dụng được
nguồn tài nguyên không nhãn phong phú để nâng cao thực thi của mô hình.
Trước tiên, luận án tóm tắt các ý tưởng chính trong hai thuật toán phân lớp
đa nhãn theo tiếp cận giám sát khai thác các đặc trưng riêng nhãn LIFT cho dữ liệu
đa nhãn và thuật toán phân cụm bán giám sát TESC cho dữ liệu đa lớp.
4.2.2.1. Thuật toán TESC và LIFT
a. Thuật toán phân lớp đa nhãn sử dụng tập đặc trưng riêng biệt LIFT
M.L. Zhang và L.Wu [83] đề xuất thuật toán LIFT theo tiếp cận chuyển đổi
bài toán, trong đó bài toán phân lớp đa nhãn thường được đưa về q bộ phân lớp đơn
nhãn tương ứng với tập q nhãn. Điểm nổi bật của LIFT là bước xây dựng tập đặc
trưng riêng biệt cho mỗi một bộ phân lớp tương ứng với nhãn đang xét thông qua
việc ánh xạ tập dữ liệu sang đặc trưng khoảng cách đến các tâm cụm thu được từ
phân hoạch trên tập dữ liệu. Thuật toán gồm 2 phần:
Phần 1. Xây dựng tập đặc trưng nhãn riêng biệt
1. Với mỗi nhãn: (nhãn lk) Xác định tập âm và tập dương
Tập âm : Tập các thể hiện không có nhãn lk
Tập dương : Tập các thể hiện có nhãn lk
2. Phân cụm k-means trên tập âm, dương với số lượng cụm bằng nhau và được
(4.3)
tính theo công thức.
⌈ ( )⌉
Trong đó, , - là tham số tỷ lệ để điều chỉnh số lượng cụm
(4.4)
)]
( ) [ (
) (
) (
) (
3. Tính khoảng cách của thể hiện với các tâm cụm được ánh xạ
Phần 2. Xây dựng mô hình
(4.5)
*( ( ) ( )) ( ) +
1. Với mỗi nhãn lk Xây dựng tập huấn luyện nhị phân
107
Trong đó:
( ) ( )
2. Áp dụng bộ phân lớp nhị phân vào tập trên để thu được bộ phân lớp
cho nhãn lk
3. Bộ phân lớp đa nhãn bao gồm q bộ phân lớp gk (k=1,..,q)
Cho 1 thể hiện u chưa có nhãn, xác định nhãn cho u theo công thức
{ ( ( )) } (4.6) Thuật toán LIFT có thể cải tiến với một số tùy biến như xác định số lượng
cụm trên các tập dữ liệu âm, dương; kỹ thuật phân cụm k-means có thể được thay
thế bằng các kỹ thuật phân cụm khác.
Thừa kế sự linh hoạt và cải tiến trong tiếp cận này, chúng tôi đã đề xuất một
kỹ thuật xác định tập nhãn đặc trưng cho mỗi nhãn hoặc tập nhãn, trong đó kết hợp
kỹ thuật phân cụm bán giám sát thay thế cho kỹ thuật phân cụm k-means truyền
b. Thuật toán phân cụm bán giám sát TESC
thống, và phân chia dữ liệu dựa trên kỹ thuật tham lam để xác định nhãn ưu tiên…
TESC [120] là thuật toán phân cụm bán giám sát được đề xuất cho dữ liệu đa
lớp, trong đó tập nhãn lớp được định nghĩa trước nhưng mỗi điểm dữ liệu chỉ thuộc
về một lớp. Tiếp cận TESC gồm hai phần: phần 1 là bước phân cụm để xác định các
phân hoạch trên dữ liệu có nhãn và dữ liệu không nhãn; phần 2 là dự đoán nhãn lớp
cho dữ liệu mới dựa trên các phân hoạch dữ liệu xây dựng ở bước trên.
Phần 1 – Phân hoạch dữ liệu
Trong bước phân hoạch dữ liệu, tác giả sử dụng dữ liệu có nhãn để giám sát
quá trình học các phân hoạch và dữ liệu không nhãn được sử dụng để điều chỉnh
tâm cụm. Ý tưởng của bước phân cụm được thể hiện như sau:
Bước 1. Khởi tạo
Mỗi điểm dữ liệu coi là 1 cụm, kể cả đối tượng chưa có nhãn thì phân cụm
một mình cụm này và tâm cụm chính là điểm dữ liệu đó, nhãn của cụm là nhãn của
điểm dữ liệu. Lưu ý, nhãn cụm của điểm dữ liệu không có nhãn được đặt là
unlabeled. Cụm này đánh dấu là chưa xác định.
108
Bước 2. Gom cụm - Lặp lại quy trình sau:
Tính khoảng cách giữa các tâm cụm, 2 cụm nào có khoảng cách nhỏ nhất thì
có thể gộp lại hoặc xác định lại theo tiêu chuẩn sau:
- Nếu hai cụm đều được gán nhãn khác nhau: không gộp mà xác định hai cụm
phân biệt. Đánh dấu lại là cụm đã được xác định,
- Nếu hai cụm đều chưa được gán nhãn: gộp hai cụm lại và đặt tên nhãn là
unlabeled,
- Nếu hai cụm có một cụm đã được gán nhãn và cụm kia chưa được gán nhãn:
gộp lại thành một cụm chung với nhãn cụm là nhãn của cụm đã có nhãn,
- Nếu hai cụm đều đã được gán cùng một nhãn: gộp hai cụm này thành một
cụm.
Điều kiện dừng vòng lặp: số cụm có nhãn chưa xác định còn lại nhỏ hơn hai.
Bước 3. Đầu ra:
- Loại bỏ các cụm có kích thước nhỏ hơn ba
- Phân hoạch các cụm đã gán nhãn.
Phần 2: Phân lớp - gán nhãn cho dữ liệu không nhãn dựa trên tập các cụm ở phần 1.
- Tính khoảng cách của dữ liệu cần gán nhãn đến các tâm cụm; từ đó tìm cụm
gần nhất với dữ liệu cần gán nhãn
- Gán nhãn của cụm gần nhất cho dữ liệu cần gán nhãn
Thuật toán TESC được thiết kế để thực thi trên tập dữ liệu đa lớp, trong đó
có nhiều nhãn lớp được định nghĩa trước, nhưng mỗi điểm dữ liệu chỉ thuộc về một
lớp. Do đó để sử dụng TESC vào tập dữ liệu đa nhãn, chúng tôi đã biến đổi dữ liệu
đa nhãn về dữ liệu đơn nhãn theo hướng sử dụng kỹ thuật tập con.
4.2.2.2. Thuật toán phân lớp đa nhãn bán giám sát
Tiếp cận xây dựng tập đặc trưng riêng biệt cho nhãn/tập nhãn trong mô hình
- Một là, LIFT tiến hành xây dựng tập đặc trưng cho tất cả các nhãn theo tuần
đề xuất có những điểm khác biệt so với LIFT ở các khâu quyết định sau:
tự. Chúng tôi tiến hành xác định nhãn chiếm ưu thế rồi xây dựng tập đặc
109
trưng riêng biệt cho nhãn đó. Trong đó, nhãn chiếm ưu thế là nhãn được
chọn theo chiến thuật tham lam có tần suất xuất hiện lớn nhất. Theo đó, các
- Hai là, LIFT tiến hành phân chia tập dữ liệu theo khái niệm tập âm và tập
nhãn xuất hiện với tần suất lớn được coi là nhãn nổi bật và có ảnh hưởng.
dương. Trong đó, tập âm là tập các dữ liệu không chứa nhãn đang xét và tập
dương là tập các dữ liệu chứa nhãn đang xét. Trong tiếp cận của chúng tôi,
phân chia dữ liệu một cách sâu sắc hơn bao gồm tập dữ liệu chỉ chứa nhãn
chiếm ưu thế đang xét, tập dữ liệu chứa nhãn đang xét và các nhãn khác và
- Ba là, LIFT xây dựng tập đặc trưng dựa trên kỹ thuật phân cụm, tác giả đã
tập dữ liệu không chưa nhãn đang xét.
khuyến khích sử dụng các thuật toán phân cụm khác nhau và lựa chọn k-
means là thuật toán phân cụm dữ liệu. Trong tiếp cận của chúng tôi, một
thuật toán phân cụm bán giám sát được sử dụng nhằm tận dụng được các dữ
liệu chưa gán nhãn phong phú bên ngoài. TESC là thuật toán phân cụm bán
giám sát được áp dụng cho dữ liệu đa lớp, nên một bước biến đổi trung gian
được sử dụng để thích nghi dữ liệu đa nhãn cho TESC.
Sau khi các đặc trưng nhãn riêng biệt được tạo ra dựa trên kết quả phân cụm
bán giám sát, mô hình phân lớp được xây dựng dựa trên kỹ thuật láng giềng gần
nhất để gán nhãn của cụm gần nhất cho dữ liệu cần dự đoán nhãn.
Cụ thể, mô hình gồm hai bước: Bước 1 – phân cụm dữ liệu. Bản chất là xây
dựng tập đặc trưng riêng biệt cho các nhãn theo trình tự nhãn chiếm ưu thế. Bước 2
– phân lớp nhằm xác định tập nhãn cho dữ liệu dựa trên kỹ thuật láng giềng gần
a. Phân cụm dữ liệu
nhất khai thác tập nhãn của cụm láng giềng gần nhất.
Trong bước phân cụm, dựa trên chiến thuật tham lam lựa chọn nhãn chiếm
ưu thế theo tần suất xuất hiện, tập dữ liệu huấn luyện bao gồm dữ liệu có nhãn và
dữ liệu không nhãn được phân chia thành ba tập con, qua bước biến đổi dữ liệu để
thích nghi vận dụng kỹ thuật phân cụm bán giám sát TESC trên các tập con dữ liệu.
110
Thuật toán phân cụm được đặt tên là MULTICSLearn(.) được trình bày theo dạng
( ̅ )
giả mã (pseudo-code) như sau:
Đầu vào:
̅: Tập dữ liệu có nhãn và không nhãn. ̅ * ̅ ̅ +, Trong đó
̅ và ̅ lần lượt là tập dữ liệu có nhãn và không nhãn.
Khởi tạo ban đầu ̅ là toàn bộ tập dữ liệu huấn luyện.
: tập nhãn mặc định cho tất cả dữ liệu trong ̅ . Khởi tạo
ban đầu là tập rỗng. : tập nhãn (ngoài ) có thể thêm vào dữ liệu trong ̅
( ). Khởi tạo ban đầu là tập tất cả các nhãn Đầu ra:
: tập các cụm được gán nhãn.
Thuật toán:
1. Gọi là một nhãn trong tập có tần xuất xuất hiện
lớn nhất trong tập dữ liệu ̅
2. Xây dựng tập nhãn giả * +, trong đó
* +, * + * * ++, * +
/* gán cho dữ liệu hiện tại có nhãn * +, gán
cho dữ liệu hiện tại có nhãn * + các nhãn khác
và gán cho dữ liệu hiện tại không chứa nhãn */
̅ ( ̅ * +); /* Xây dựng tập dữ liệu đơn nhãn ̅ từ tập ̅ bằng cách
chuyển đổi theo bộ ba nhãn giả * + để thích nghi cho thuật toán phân cụm bán giám sát TESC và thu được
phân hoạch trên tập dữ liệu theo 3 loại nhãn giả.*/
( ̅ )
3. Chia tập dữ liệu ̅ thành 3 tập con dựa trên phân hoạch :
a. ̅ : tập chứa dữ liệu có nhãn và không nhãn trong
đó dữ liệu có nhãn được gãn nhãn
111
b. ̅ : tập chứa dữ liệu có nhãn và không nhãn trong
đó dữ liệu có nhãn được gãn nhãn
c. ̅ : tập chứa dữ liệu có nhãn và không nhãn trong
đó dữ liệu có nhãn được gãn nhãn
4. Đối với tập ̅ :
( ̅ * +)
5. Đối với tập ̅
a. Nếu mọi dữ liệu trong ̅ có cùng tập nhãn, gọi
tập nhãn này là
( ̅ )
b. Ngược lại
// Trường hợp các dữ liệu trong ̅ không đồng nhất nhãn.
// Chuyển nhãn từ tập nhãn sang tập nhãn
( ̅ , * + * + )
6. Đối với tập ̅
a. Nếu mọi dữ liệu trong ̅ có cùng tập nhãn, gọi
tập nhãn này là
( ̅ )
b. Ngược lại
//Trường hợp các dữ liệu trong ̅ không đồng nhất nhãn
// Xóa từ tập nhãn
( ̅ * + )
7. Return
Thủ tục 4.1 Thủ tục phân cụm MULTICSLearn
Để tìm phân hoạch trên tập dữ liệu, đầu tiên khởi tạo tập C rỗng {},
sau đó gọi thủ tục phân cụm với các tham số như sau: ( ̅ * + ).
Phân hoạch C kết quả của MULTICSLearn chính là bộ phân lớp đa nhãn cần tìm.
Sau đây là ví dụ minh họa tư tưởng thuật toán trên tập dữ liệu nhỏ:
112
Giả sử tập dữ liệu đầu vào gồm 350 văn bản D=(d1, d2, …, d350} gồm cả tài
liệu đã được gán nhãn và chưa được gán nhãn trong tập 5 nhãn L = {l1, l2, l3,l4, l5}
với 10 tài liệu có 5 nhãn, 12 tài liệu có bốn nhãn {l1, l2, l3,l4 }, …
Khởi tạo: *+, * +, ( xuất hiện với tần suất
lớn nhất 100 lần)
Xây dựng tập nhãn giả: * + trong đó: Tài liệu chỉ có nhãn được gán nhãn giả ; tài liệu có nhãn và ít nhất một nhãn khác được gán nhãn
giả , tài liệu không có nhãn được gán nhãn giả . Ví dụ tập dữ liệu được gán
nhãn giả như sau: 20 tài liệu gán nhãn , 80 tài liệu gán nhãn , 70 tài liệu gán
nhãn và 180 tài liệu chưa gán nhãn.
Phân hoạch trên tập dữ liệu với nhãn giả sử dụng thuật toán TESC, trong đó
sẽ gom được dữ liệu có nhãn va không nhãn vào các cụm. Sau phân hoạch chia tập
D thành 3 tập con: D1 bao gồm các tài liệu có nhãn và tài liệu không nhãn, D2
bao gồm các tài liệu có nhãn và tài liệu không nhãn, D3 bao gồm các tài liệu có
nhãn và tài liệu không nhãn.
Lần lượt xét các tập con:
- Xét D1 là tập có các tài liệu có nhãn đồng nhất và các tài liệu không nhãn:
Thực hiện phân hoạch trên tập D1 sử dụng thuật toán TESC thu được một
tập các cụm.
- Xét D2:
o Nếu các tài liệu có nhãn trong D2 đồng nhất nhãn (theo tập nhãn ban
đầu ) thì tiến hành phân hoạch trên D2 sử dụng thuật
toán TESC (coi như các tài liệu đồng nhất nhãn tương đương với tài
liệu được gán một nhãn đơn) thu được một tập các cụm.
o Nếu các tài liệu có nhãn trong D2 không đồng nhất nhãn nhãn (theo
tập nhãn ban đầu ) thì chuyển nhãn l1 sang tập L1 sau đó
tiến hành đệ quy MULTICS trên D2 với đầu vào * +, * +.
- Xét D3:
113
o Nếu các tài liệu có nhãn trong D3 đồng nhất nhãn (theo tập nhãn ban
đầu ) thì tiến hành phân hoạch trên D3 sử dụng thuật
toán TESC (coi như các tài liệu đồng nhất nhãn tương đương với tài
liệu được gán một nhãn đơn) thu được một tập các cụm.
o Nếu các tài liệu có nhãn trong D3 không đồng nhất nhãn nhãn (theo
tập nhãn ban đầu ) thì loại bỏ nhãn l1 trong tập L2 sau đó
tiến hành đệ quy MULTICS trên D3 với đầu vào * +, * +.
Thuật toán sẽ dừng lại khi các tập con đồng nhất nhãn hoặc số lượng văn bản
nhỏ hơn 3 (theo cấu hình của thuật toán TESC). Cuối cùng thu được tập các cụm là
b. Phân lớp dữ liệu
phân hoạch trên tập dữ liệu.
Trong bước phân lớp dữ liệu, đầu vào là phân hoạch trên tập dữ liệu được
xây dựng ở bước huấn luyện và dữ liệu cần gán nhãn. Đầu ra của bước này sẽ là tập
nhãn tương ứng với văn bản cần gán nhãn. Phương pháp 1NN được áp dụng ở bước
này theo hướng tính khoảng cách của văn bản cần gán nhãn với tâm các cụm để tìm
ra cụm gần nhất, khi đó tập nhãn của cụm gần nhất sẽ được gán cho văn bản cần
gán nhãn. Giả mã của bước xác định nhãn được thể hiện như sau:
Thủ tục MULTICSClassifier
Đầu vào:
: tập các cụm dữ liệu đã được gán nhãn * + : dữ liệu cần gán nhãn
Đẩu ra:
: Tập các nhãn tương ứng với văn bản Thuật toán:
1. // là cụm đầu tiên xét đến trong
2. // là nhãn của cụm
3. Với mỗi cụm
4. ( ) ‖ ‖ //tính khoảng cách của và
114
5. If ( ) ( )
6.
7.
8. End for
9.
Thủ tục 4.2 Thủ tục phân lớp MULTICSClassifier
Bằng việc chia nhỏ tập dữ liệu thành ba tập con, mô hình đề xuất MULTICS đã
hạn chế được các vấn đề về độ phức tạp tính toán. Tuy nhiên, do sự phức tạp của dữ liệu
nên việc xác định tính chất và lực lượng các tập con để tính toán số vòng lặp của thuật
toán trong trường hợp tổng quát là rất khó. Xét một số trường hợp đơn giản như sau:
- Trường hợp vùng |D2| |D3| | ̅|/2. Theo công thức truy hồi, công thức
tính thời gian thực thi như sau:
T(n) = thời gian phân hoạch dữ liệu thành 3 tập (D1, D2, D3) và 2 lần đệ quy
MULTICS trên D2 và D3
Trong đó thời gian phân hoạch dữ liệu thành 3 tập (D1, D2, D3) sử dụng TESC có độ phức tạp là O(n2), thời gian đệ quy MULTICS trên D2 và D3 là T(n/2).
Do đó:
( ) ( )
/ ( . /) .
/ ( ) ( . /) ( ) .
( . ) . / ( ) /
Công thức dừng khi đạt được T(1). Khi đó
Ta có: ( ) . / ( ) ( )
115
Khi đó, độ phức tạp tính toán trong trường hợp này là ( )
- Trường hợp vùng |D1| |D2| |D3| | ̅|/3.
T(n) = thời gian phân hoạch dữ liệu thành 3 tập (D1, D2, D3), thời gian phân
hoạch trên D1 và 2 lần đệ quy MULTICS trên D2 và D3
Trong đó thời gian phân hoạch dữ liệu thành 3 tập (D1, D2, D3) sử dụng TESC có độ phức tạp là O(n2), thời gian phân hoạch thời gian đệ quy MULTICS
trên D2 và D3 là T(n/3). Do đó:
Theo công thức truy hồi, ta có công thức tính thời gian thực thi như sau:
( ) . /
Tương tự như trên thì ( ) ( )
Như vậy, có thể thấy mô hình thực thi tương đối tốt trong các trường hợp
đơn giản xét trên đây.
4.2.3. Mô hình phân lớp đa nhãn bán giám sát đề xuất
Luận án đề xuất một mô hình phân lớp đa nhãn bán giám sát, trong đó kết hợp
các bước bổ sung, làm giàu các đặc trưng nhằm tăng cường biểu diễn cho dữ liệu, bước
lựa chọn đặc trưng nhằm loại bỏ các đặc trưng dư thừa, không liên quan và giữ lại các
đặc trưng quan trọng, bước vận dụng thuật toán phân lớp bán giám sát MULTICS đề
xuất ở trên nhằm khai thác các nguồn dữ liệu đa nhãn phong phú và sẵn có trong miền
ứng dụng. Quy trình các bước giải quyết bài toán được thực hiện như sau:
Pha 1: Xây dựng mô hình phân lớp đa nhãn dựa trên kỹ thuật phân cụm bán
giám sát
- Bước 1: Tiền xử lý và xây dựng tập đặc trưng cho dữ liệu huấn luyện bao
gồm dữ liệu có nhãn và dữ liệu không nhãn
- Bước 2: Làm giàu đặc trưng
- Bước 3: Rút gọn đặc trưng
- Bước 4: Xây dựng bộ phân lớp theo thuật toán MULTICSLearn.
Pha 2: Phân lớp dữ liệu và đánh giá
116
- Bước 1: Tiền xử lý và xây dựng tập đặc trưng cho dữ liệu kiểm thử
- Bước 2: Làm giàu đặc trưng
- Bước 3: Biểu diễn dữ liệu kiểm thử theo tập đặc trưng rút gọn
- Bước 4: Sử dụng bộ phân lớp trên tập dữ liệu kiểm thử và đánh giá.
Quy trình 4.1 Các bước giải quyết bài toán theo mô hình đề xuất
Mô hình biểu diễn cho quy trình này được thể hiện ở Hình 4.1
Hình 4.1 Mô hình phân lớp bán giám sát đề xuất
4.3. Một mô hình ứng dụng phân lớp đa nhãn văn bản bán giám sát
4.3.1. Mô hình đề xuất
Thừa hưởng các kết quả thu được từ các mô hình biểu diễn dữ liệu theo chủ
đề ẩn (đã trình bày ở Chương 3) nhằm khai thác các ngữ nghĩa ẩn làm giàu cho tập
đặc trưng và tiếp cận bán giám sát phân lớp đa nhãn theo thuật toán MULTICS trình
bày ở trên, luận án đề xuất một mô hình phân lớp đa nhãn bán giám sát cho miền
ứng dụng văn bản tiếng Việt như trình bày ở Hình 4.2bvà các bước giải quyết bài
toán được thực hiện theo Quy trình 4.2.
117
- Bước 1: Tiền xử lý dữ liệu: tách câu, tách từ, loại bỏ từ dừng, chuẩn hóa
Pha 1: Huấn luyện mô hình
- Bước 2: Xây dựng mô hình chủ đề ẩn LDA và tập đặc trưng chủ đề ẩn.
- Bước 3: Lựa chọn đặc trưng dựa trên phương pháp thông tin tương hỗ MI
dữ liệu và biểu diễn dữ liệu theo đặc trưng TFIDF / Nhị phân
do G. Doquire và M. Verleysen [34] đề xuất để rút gọn và tìm ra tập đặc
- Bước 4: Xây dựng bộ phân lớp đa nhãn sử dụng thuật toán MULTICS
trưng tiêu biểu nhất cho quá trình phân lớp.
- Bước 1: Tiền xử lý dữ liệu kiểm thử và xây dựng tập đặc trưng
- Bước 2: Bổ sung tập đặc trưng phân phối chủ đề ẩn cho dữ liệu huấn luyện
- Bước 3: Biểu diễn dữ liệu kiểm thử theo tập đặc trưng lựa chọn
- Bước 4: Phân lớp sử dụng bộ phân lớp đa nhãn ở Pha 1
Pha 2: Phân lớp đa nhãn sử dụng mô hình huấn luyện
Quy trình 4.2 Quy trình giải quyết bài toán.
4.3.1.1. Pha 1. Huấn luyện mô hình
Bước 1: Xuất phát từ đặc điểm kiểu dữ liệu về phân phối xác suất chủ đề ẩn
là kiểu dữ liệu thực, trong khi thuật toán MULTICS ở trên sử dụng đặc trưng nhị
phân, nên để khảo sát đặc trưng về kiểu dữ liệu, luận án đề xuất xây dựng các tập
đặc trưng khác nhau bao gồm biểu diễn theo đặc trưng TFIDF (dữ liệu kiểu thực –
liên tục) và đặc trưng nhị phân (dữ liệu kiểu nguyên – rời rạc). Sau bước này, thu
được vector biểu diễn đặc trưng.
Bước 2: Xây dựng mô hình chủ đề ẩn LDA và tập vector đặc trưng phân
phối xác suất các chủ đề ẩn. Sau bước này, thu được tập đặc trưng dữ liệu bao gồm
đặc trưng TFIDF/nhị phân và đặc trưng phân phối xác suất chủ đề ẩn.
( ) ( ( ) ( ) ( ) ) ( ) ( ( ) ( ) ( ) ) Trong đó, ( ) là giá trị TFIDF của từ thứ i trong văn bản d
( ) là giá trị nhị phân của từ thứ i trong văn bản d
118
là giá trị phân phối xác xuất của văn bản d trên chủ đề ẩn thứ i
Hình 4.2 Mô hình ứng dụng phân lớp đa nhãn bán giám sát cho văn bản tiếng Việt
Bước 3: Lựa chọn đặc trưng là một bước cơ bản trong mô hình xử lý dữ liệu
nhằm loại bỏ các đặc trưng dư thừa, không liên quan và giữ lại các đặc trưng quan
trọng. Luận án khảo sát ý nghĩa của bước lựa chọn đặc trưng sử dụng kỹ thuật thông
tin tương hỗ.
Bước 4: Xây dựng mô hình phân lớp sử dụng thuật toán bán giám sát
MULTICS. Sau khi thu được phân hoạch trên tập dữ liệu, mô hình được xây dựng
theo phương pháp tìm kiếm láng giềng gần nhất để dự đoán tập nhãn cho dữ liệu
mới dựa trên tập nhãn của cụm gần nhất.
119
4.3.1.2. Pha 2. Phân lớp sử dụng mô hình huấn luyện
Dữ liệu mới được tiền xử lý và xây dựng tập đặc trưng tương tự như ở Bước
1, 2, 3 trong pha huấn luyện mô hình. Sau đó được đưa vào bộ phân lớp để xác định
nhãn theo phương pháp 1NN.
4.3.2. Ứng dụng phân lớp đa nhãn sử dụng mô hình đề xuất
Để đánh giá hiệu quả của mô hình đề xuất, mô hình cũng được áp dụng vào
bài toán đánh giá khách sạn như đã trình bày ở Chương 3. Ba tập dữ liệu được xây
dựng bao gồm: dữ liệu có nhãn, dữ liệu không nhãn và dữ liệu kiểm tra. Để đánh giá
sự đóng góp của dữ liệu có nhãn với mô hình, chúng tôi sinh ra các tập con tập dữ
liệu có nhãn với kích thước 500, 750, 1000 đánh giá. Đồng thời để đánh giá sự đóng
góp của dữ liệu không nhãn với mô hình, chúng tôi cũng sử dụng tập dữ liệu không
nhãn với các kích thước 0, 50, 100, 200 và 300 đánh giá. Các thực nghiệm sử dụng
cùng một tập dữ liệu kiểm thử bao gồm 250 đánh giá.
Ngoài ra, thực nghiệm sử dụng một tập dữ liệu trong miền ứng dụng để xây
dựng mô hình chủ đề ẩn LDA gồm hơn 22000 đánh giá. Các mô hình chủ đề ẩn
được xây dựng với số lượng chủ đề ẩn khác nhau để đánh giá mức độ ảnh hưởng
của đăc trưng phân phối xác suất chủ đề ẩn này.
Chúng tôi cũng xây dựng một mô hình phân lớp đa nhãn theo tiếp cận giám
sát dựa trên phương pháp chuyển đổi bài toán đa nhãn về bài toán đơn nhãn truyền
thống với nhân là kỹ thuật SVM. Mô hình này cũng được thực thi trên cùng tập dữ
liệu và kết quả tốt nhất ở nhóm dữ liệu huấn luyện gồm 750 đánh giá được sử dụng
để so sánh với mô hình đề xuất.
- Thực nghiệm 1 (ký hiệu là BN): Chỉ sử dụng tập đặc trưng nhị phân cho mô
Kịch bản thực nghiệm được thiết kế như sau:
- Thực nghiệm 2 (ký hiệu là BN+MI): Sử dụng tập đặc trưng nhị phân kết hợp
hình. Đây chính là thực nghiệm ở Mục 4.3
- Thực nghiệm 3 (ký hiệu là BN+LDA): Sử dụng tập đặc trưng nhị phân và
bước lựa chọn đặc trưng sử dụng thông tin tương hỗ.
đặc trưng phân phối xác suất chủ đề ẩn LDA.
120
- Thực nghiệm 4 (ký hiệu là TFIDF+LDA): Sử dụng tập đặc trưng TFIDF và
- Thực nghiệm 5 (ký hiệu là TFIDF+LDA+MI): Sử dụng tập đặc trưng TFIDF
đặc trưng phân phối xác suất chủ đề ẩn LDA.
và đặc trưng phân phối xác suất chủ đề ẩn LDA kết hợp với kỹ thuật lựa
chọn đặc trưng sử dụng thông tin tương hỗ.
Chúng tôi sử dụng độ đo dựa trên nhãn
( * +) như đã trình bày ở mục 1.2.3.2.
Kết quả thực nghiệm cơ sở theo hướng sử dụng tiếp cận chuyển đổi bài toán
về các bộ phân lớp nhị phân với nhân là kỹ thuật SVM cho kết quả tốt nhất ở bộ dữ
liệu huấn luyện gồm 750 nhận xét có gán nhãn với độ đo F1 là 63.9%. Các kết quả
thực nghiệm ứng dụng mô hình đề xuất đều cho thực thi tốt hơn phương pháp cơ sở
với kết quả tốt nhất có độ đo F1 là 85.3%. Sau đây sẽ đi sâu phân tích các kết quả
của kịch bản thực nghiệm theo mô hình đề xuất để phân tích ảnh hưởng của các
BN
BN + MI
Precisionmicro (%)
Recallmicro (%)
F1micro (%)
Precisionmicro (%)
Recallmicro (%)
F1micro (%)
Kích thước tập dữ liệu không nhãn
Kích thước tập dữ liệu huấn luyện
bước trong mô hình.
500
750
1000
0 50 100 200 300 0 50 100 200 300 0 50 100 200 300 74.3 76.3 73.1 74.8 81 75.7 77 74.8 74.1 79.9 80.3 78.4 83.1 75.9 78.2 75.8 78.7 78.5 76.4 76.1 76.8 78.2 78.2 81.2 80.4 78.1 81.2 82.7 84.6 80.9 75 77.5 75.7 75.6 78.5 76.2 77.6 76.4 77.5 80.2 79.1 79.8 82.8 80 79.5 77.4 81.4 80.6 83 79.6 77.7 82.4 82.1 80.7 79 80.1 80.7 81.3 81 82.4 81.1 77.7 78.7 82.5 80.4 81.5 81.3 82.3 82.5 82.3 79.6 81 83.3 84.4 83.9 79.2 79.5 79.7 82.7 80 79.6 81.8 82.2 81.6 80.6 79.8 80.9 82.3 82.6 83.2
Bảng 4.1 Kết quả thực nghiệm 1 và thực nghiệm 2
121
Kết quả thực nghiệm 1 và 2 được thể hiện ở Bảng 4.1 cho thấy việc sử dụng
dữ liệu không nhãn đều làm tăng hiệu quả thực thi của mô hình so với các thực
nghiệm không sử dụng dữ liệu không nhãn. Tuy nhiên, kết quả thực nghiệm 2 đều
thấp hơn các kết quả thực nghiệm 1 cho thấy kỹ thuật lựa chọn đặc trưng không làm
tăng hiệu quả thực thi của mô hình. Theo quan điểm của nghiên cứu sinh, bản thân
thuật toán MULTICS có quá trình xây dựng tập đặc trưng riêng nhãn/tập con nhãn
chứ không sử dụng toàn bộ tập đặc trưng, như vậy có thể coi đây là bước lựa chọn
các đặc trưng hữu ích riêng biệt cho nhãn/tập con nhãn. Do đó, việc sử dụng thêm
bước lựa chọn đặc trưng sử dụng thông tin tương hỗ ở thực nghiệm 2 làm giảm đi
hiệu quả thực thi của thuật toán MULTICS.
BN+LDA F1micro (%)
TFIDF+LDA F1micro (%)
TFIDF+LDA+MI F1 micro (%)
u ệ i l
Số lượng chủ đề
Số lượng chủ đề
Số lượng chủ đề
ữ d p ậ t
c ớ ư h t h c í K
n ã h n g n ô h k
10
15
25
50
100
10
15
25
100
10
15
25
50
100
50
0
79.4 79.1 79.2 80.5 80.6 79.2 81.5 82.4
80.9 79.5 82.4 80.5 80.7 80.6
80
50
79.5 80.1
80
82
80.9 80.9 78.4 82.5 85.3 81.5 82.2
83.9 81.8 83.7 82.8
100
81.1 81.1 79.6 80.3 80.2 81.3 84.9 84.4 82.3 83.5 83.4 83.5 82.8 83.6 82.7
200
79.8 80.6 79.8
80
79.8
81.9 81.2 81.4 82.3 82.3 81.4 83.5 83.8 83.6
79.4 3
300
80.2 79.8 80.6 79.7 80.3 80.8 81.9 82.6 81.7 83.8 80.5 83.4
84
83.6 83.9
Bảng 4.2 Kết quả thực nghiệm 3, thực nghiệm 4 và thực nghiệm 5
Số lượng thực nghiệm trong các nhóm thực nghiệm 3, 4, 5 tương đối lớn nên
luận án chọn các thực nghiệm có kết quả tốt nhất ở mỗi nhóm thực nghiệm để trình
bày ở Bảng 4.2. Kết quả thực nghiệm 3 cho thấy việc kết hợp đặc trưng nhị phân với
đặc trưng phân phối xác suất chủ đề ẩn làm giảm hiệu quả thực thi của mô hình. Điều
này có thể được lý giải bởi sự khác biệt về kiểu dữ liệu đặc trưng nhị phân (dữ liệu
nguyên) và kiểu dữ liệu của phân phối xác suất chủ đề ẩn (dữ liệu thực). Do đó, luận
án đề xuất tiến hành thực nghiệm 4 với sự đồng nhất kiểu dữ liệu thực trong đặc trưng
TFIDF và đặc trưng phân phối xác xuất chủ đề ẩn LDA. Kết quả thực nghiệm 4 cho
kết quả tốt hơn tất cả các thực nghiệm khác với kết quả tốt nhất là 85.3%. Thực
nghiệm 5 đề xuất kết hợp kỹ thuật lựa chọn đặc trưng sử dụng thông tin tương hỗ
không làm tăng hiệu quả thực thi mô hình so với thực nghiệm 4. Kết quả này một lần
122
nữa khẳng định thuật toán phân lớp đa nhãn bán giám sát MULTICS vẫn cho kết quả
tốt hơn mà không cần kết hợp với kỹ thuật lựa chọn đặc trưng.
4.4. Kết luận chương 4
Chương 4 đã trình bày một mô hình đề xuất cho phân lớp đa nhãn bán giám
sát. Trong đó, kỹ thuật phân cụm bán giám sát được xây dựng để tạo ra các đặc
trưng cho đối tượng. Bên cạnh đó, tiếp thu đề xuất liên quan về việc xây dựng tập
đặc trưng riêng biệt cho từng nhãn nhằm tăng hiệu quả phân lớp, luận án đã xây
dựng một thuật toán phân lớp đa nhãn hướng tới việc cá thể các nhãn và nhóm nhãn
có quan hệ với nhau và xây dựng tập đặc trưng cho riêng các cá thể, từ đó làm tăng
hiệu quả phân lớp cho từng đối tượng. Việc sử dụng nguồn dữ liệu không nhãn
phong phú tham gia vào học mô hình sẽ tận dụng được nguồn tài nguyên sẵn có và
kết hợp với dữ liệu có nhãn để tăng hiệu quả mô hình. Đây là một xu hướng đang
được nhiều nhà nghiên cứu quan tâm.
123
KẾT LUẬN
I. Những kết quả chính của luận án
Luận án tham gia vào dòng nghiên cứu về phân lớp đa nhãn trên thế giới và
đạt được một số đóng góp sau đây về phân lớp đơn nhãn và phân lớp đa nhãn văn
bản tiếng Việt.
Thứ nhất, luận án đề xuất hai mô hình phân lớp đơn nhãn là mô hình gán nhãn
thực thể có tên và mô hình hệ tư vấn xã hội. Trong đó, nhận dạng thực thể có tên là
bài toán khá cơ bản trong nhóm các bài toán trích chọn thông tin nhằm tìm kiếm và
rút ra các thông tin liên quan thực thể trong văn bản. Bài toán này có thể được coi là
bài toán phân lớp đơn nhãn trong đó mỗi thực thể sẽ được gán cho một nhãn (tên gọi)
trong tập các nhãn cho trước. Luận án đề xuất một mô hình học bán giám sát trường
ngẫu nhiên có điều kiện CRFs dựa trên tiêu chuẩn kỳ vọng tổng quát được xây dựng
từ tập các ràng buộc về đặc trưng và phân phối xác suất các thực thể có tên được khai
thác từ các thông tin hữu ích trên tập dữ liệu không nhãn. Tiếp theo, đề án cũng đề
xuất mô hình hệ tư vấn xã hội dựa trên các kỹ thuật phân tích quan điểm người dùng,
sử dụng mô hình lọc cộng tác với phương pháp hướng người dùng dựa trên mối quan
hệ và sự tương đồng giữa người dùng trong hệ thống mạng xã hội. Mô hình đã khai
thác và xây dựng các tập đặc trưng phong phú về xã hội và tiểu sử để tăng cường
quan hệ người dùng.
Thứ hai, luận án khảo sát hai giải pháp biểu diễn dữ liệu phân lớp đa nhãn
văn bản tiếng Việt bao gồm phương pháp biểu diễn dữ liệu theo mô hình chủ đề ẩn
và phương pháp biểu diễn dữ liệu theo đồ thị khoảng cách. Với giả thiết là mỗi văn
bản được tạo ra bằng việc kết hợp của nhiều chủ đề và mỗi chủ đề là một phân phối
trên các từ, mô hình chủ đề ẩn LDA đã cung cấp một phương pháp khai thác các
ngữ nghĩa ẩn trong văn bản để làm giàu thêm đặc trưng cho mô hình. Luận án đã đề
xuất mô hình phân lớp dữ liệu dựa trên một số bước quan trọng như sau: Xây dựng
tập đặc trưng cho mô hình bao gồm đặc trưng TFIDF truyền thống kết hợp với tập
đặc trưng xác suất chủ đề ẩn mà văn bản đang xét thuộc về; đặc trưng xác suất chủ
đề ẩn này được khai thác từ mô hình chủ đề ẩn LDA trên tập dữ liệu của miền ứng
124
dụng. Bước tiếp theo là sử dụng phương pháp lựa chọn đặc trưng dựa trên thông tin
tương hỗ nhằm loại bỏ các đặc trưng dư thừa và giữ lại được các đặc trưng có tính
chất quan trọng, quyết định của mô hình, từ đó tăng hiệu quả mô hình và giảm độ
phức tạp tính toán. Mô hình thứ hai được đề xuất nhằm khai thác các đặc trưng về
khoảng cách và trật tự từ trong biểu diễn mô hình đồ thị khoảng cách. Mô hình này
đã khắc phục được các nhược điểm của mô hình biểu diễn theo không gian vectơ
truyền thống – chỉ quan tâm đến đặc trưng đơn lẻ mà không quan tâm đến quan hệ,
trật từ và khoảng cách giữa các đặc trưng. Mô hình do luận án đề xuất kết hợp khai
thác cả đặc trưng ngữ nghĩa ẩn do mô hình chủ đề ẩn LDA cung cấp đồng thời áp
dụng mô hình đồ thị khoảng cách trên đối tượng chủ đề ẩn từ đó khai thác thông tin
về quan hệ thứ bậc và khoảng cách giữa các chủ đề ẩn trong văn bản. Cả hai mô
hình đã cung cấp phương pháp biểu diễn dữ liệu mới nhằm tăng cường hiệu quả cho
mô hình phân lớp dữ liệu đa nhãn.
Thứ ba, luận án đề xuất một thuật toán MULTICS phân lớp dữ liệu đa nhãn
bán giám sát dựa trên kỹ thuật phân cụm nhằm khai thác thông tin đặc trưng riêng
biệt cho nhãn / tập nhãn. Học máy bán giám sát là một tiếp cận được cho là phương
pháp tiên tiến hiệu quả nhờ sự kết hợp của dữ liệu có nhãn làm định hướng và dữ
liệu không có nhãn để mở rộng và củng cố mô hình. Trong khi dữ liệu có nhãn cần
tốn nhiều thời gian và công sức để gán nhãn thủ công thì dữ liệu không nhãn rất
phong phú và dễ dàng thu được. Dựa trên giả thiết rằng, các đặc trưng riêng biệt của
nhãn / tập nhãn là những đặc trưng mang tính chất phân biệt và tối ưu cho nhãn/tập
nhãn đó, khi sử dụng tập đặc trưng này vào quá trình phân lớp sẽ mang lại hiệu quả
tốt hơn. Luận án đề xuất một mô hình phân lớp bán giám sát dựa trên kỹ thuật phân
cụm bán giám sát để xây dựng phân hoạch trên tập dữ liệu có nhãn và không nhãn
trong miền ứng dụng. Dựa vào các phân hoạch trên tập dữ liệu này, xây dựng bộ
phân lớp để đoán nhận nhãn cho các dữ liệu mới dựa trên khoảng cách với các tâm
cụm trong phân hoạch. Thuật toán MULTICS [PTNgan6] được B. Trawiński và
cộng sự [9] tham chiếu cho thấy sự tham gia của thuật toán vào dòng nghiên cứu
phân lớp đa nhãn trên thế giới.
125
Đồng thời, luận án cũng cung cấp một khảo sát khái quát về phân lớp đa
nhãn. Phân lớp đa nhãn là một tiến hóa tiên tiến hơn phân lớp đơn nhãn truyền
thống, nó phù hợp với nhiều ứng dụng thực tế như phân lớp văn bản, gán nhãn ảnh,
dự đoán chức năng gen,… khi mà một đối tượng có thể đồng thời thuộc về nhiều
phân lớp khác nhau. Sự khác biệt này đã đề ra nhiều thách thức về tiếp cận giải
quyết bài toán, mối quan hệ giữa các nhãn, các độ đo và đánh giá bài toán phân lớp
đa nhãn. Luận án đã khảo sát các tiếp cận cho bài toán đa nhãn, các kỹ thuật giảm
chiều dữ liệu cho bài toán phân lớp đa nhãn nhằm loại bỏ các đặc trưng không liên
quan và giữ lại các đặc trưng quan trọng từ đó tăng cường hiệu quả mô hình; các độ
đo và phương pháp đánh giá cho bài toán phân lớp đa nhãn làm cơ sở để đánh giá
hiệu quả mô hình đề xuất.
II. Hạn chế của luận án
Trong quá trình triển khai các mô hình, luận án vẫn còn tồn tại một số hạn
chế như sau:
Một là, thuật toán phân lớp đa nhãn dựa trên phân cụm bán giám sát cần
được nghiên cứu công phu hơn bao gồm các phân tích chi tiết về độ phức tạp thuật
toán, các cải tiến phù hợp trong từng thành phần thuật toán để phát huy lợi thế
“tham lam” của thuật toán.
Hai là, tuy đã đề cập tới vấn đề giảm chiều dữ liệu trong phân lớp đơn nhãn
và phân lớp đa nhãn song nghiên cứu trong luận án mới chỉ đề cập ở mức độ rất cơ
bản mà chưa khảo sát các giải pháp tiên tiến trong giảm chiều dữ liệu, đặc biệt là
giảm chiều dữ liệu trong phân lớp đa nhãn.
Ba là, miền ứng dụng văn bản có lợi thế cho các nghiên cứu về phân lớp đa
nhãn song lại không tạo điều kiện tốt cho phân lớp đa nhãn – đa thể hiện như các
miền ứng dụng khác, chẳng hạn miền ứng dụng dữ liệu ảnh.
III. Định hướng nghiên cứu tiếp theo
Trong thời gian tiếp theo, nghiên cứu sinh sẽ tiếp tục nghiên cứu các hướng
giải quyết cho các hạn chế còn tồn tại của luận án và tiếp tục triển khai các đề xuất
126
để hoàn thiện hơn các giải pháp cho phân lớp đa nhãn.
Một là, thuật toán MULTICSLearn cần được phân tích sâu sắc hơn đặc biệt ở
khía cạnh độ phức tạp thời gian tính toán trong một vùng hoặc toàn bộ miền ứng
dụng. Cải tiến kỹ thuật tìm nhãn để phân hoạch tập dữ liệu theo bộ nhãn giả theo
hướng tìm nhãn có ảnh hưởng lớn nhất trong mạng xã hội tập nhãn hiện thời [99].
Hai là, các kỹ thuật giảm chiều dữ liệu tiên tiến cho phân lớp đa nhãn như
[62], [75], [78] cần được nghiên cứu để áp dụng sáng tạo vào các bài toán ứng dụng
trong luận án.
Ba là, khảo sát miền ứng dụng dữ liệu ảnh, nghiên cứu các mô hình và giải
pháp phân lớp đa nhãn – đa thể hiện đối với dữ liệu ảnh nhằm làm phù hợp với quá
trình tiến hóa của phân lớp dữ liệu như được đề cập ở Chương 1.
127
DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN TỚI LUẬN ÁN
1.
2.
3.
4.
5.
6.
[PTNgan1] Thi-Ngan Pham, Le-Minh Nguyen, Quang-Thuy Ha (2012). Named Entity Recognition for Vietnamese documents using semi- supervised learning method of CRFs with Generalized Expectation Criteria. IALP 2012: 85-89 (Scopus7, DBLP8). [PTNgan2] Thi-Ngan Pham, Thi-Hong Vuong, Thi-Hoai Thai, Mai-Vu Tran, Quang-Thuy Ha (2016). Sentiment Analysis and User Similarity for Social Recommender System: An Experimental Study. Lecture Notes in Electrical Engineering (376): 1147-1156 (Scopus) [PTNgan3] Thi-Ngan Pham, Thi-Thom Phan, Phuoc-Thao Nguyen, Quang-Thuy Ha (2013). Hidden Topic Models for Multi-label Review Classification: An Experimental Study. Computational Collective Intelligence. Technologies and Applications, Lecture Notes in Computer Science Volume 8083:603-611 (Scopus, DBLP). [PTNgan4] Thi-Ngan Pham, Van-Hien Tran, Tri-Thanh Nguyen, Quang- Thuy Ha (2017). Exploiting Distance graph and Hidden Topic Models for Multi-label Text Classification. ACIIDS 2017. Studies in Computational Intelligence, Volume 710 (Advanced Topics in Intelligent Information and Database Systems): 321-331. (Scopus). [PTNgan5] Thi-Ngan Pham, Van-Quang Nguyen, Duc-Trong Dinh, Tri- Thanh Nguyen, Quang-Thuy Ha (2017). MASS: a Semi-supervised Multi- specific Features. ACIIDS label Classification Algorithm With 2017. Studies in Computational Intelligence, Volume 710 (Advanced Topics in Intelligent Information and Database Systems): 37-47. (Scopus). [PTNgan6] Thi-Ngan Pham, Van-Quang Nguyen, Van-Hien Tran, Tri-Thanh Nguyen, and Quang-Thuy Ha (2017). A semi-supervised multi-label classification framework with feature reduction and enrichment. Journal of Information and Telecommunication, 1(2), 141-154 (DBLP).
7 https://www.scopus.com/authid/detail.uri?authorId=56013971500 8 http://dblp.uni-trier.de/pers/hd/p/Pham:Thi=Ngan
128
TÀI LIỆU THAM KHẢO
[1]
A. Elisseeff and J. Weston. A Kernel method for Multi-Labelled Classification. Neural Information Proceesing Systems 2001 (NIPS 2001): 681–687.
[2]
A. H. Razavi, D. Inkpen. Text Representation Using Multi-level Latent
[3]
A. K. Menon, C. Elkan. Link prediction via matrix factorization. In Joint
Dirichlet Allocation. Canadian Conference on AI 2014: 215-226.
[4]
A. Mansouri, L.S. Affendey, A. Mamat. Named entity recognition
european conference on machine learning and knowledge discovery in databases. Springer, Berlin, Heidelberg, 2011: 437-452.
approaches. International Journal of Computer Science and Network
[5]
A. McCallum, G. Mann, G. Druck. Generalized Expectation Criteria.
Security 8.2 (2008): 339-344
Technical Report UM-CS-2007-60, University of Massachusetts Amherst,
[6]
A. McCallum. Multi-label text classification with a mixture model trained
2007.
[7]
B. Hariharan, S. V. N. Vishwanathan, M. Varma. Efficient max-margin
by EM. AAAI Workshop on text learning, 1999: 1-7.
multi-label classification with applications to zero-shot learning. Machine
[8]
B. Qian, I. Davidson. Semi-Supervised Dimension Reduction for Multi-
Learning, 88 (1-2) 2012: 127-155.
[9]
B. Trawiński, T. Lasota, O. Kempa, Z. Telec, M. Kutrzyński. Comparison
Label Classification. AAAI, Volumn10, 2010: 569-574.
of Ensemble Learning Models with Expert Algorithms Designed for a
Property Valuation System. In: Conference on Computational Collective Intelligence Technologies and Applications. Springer, Cham, 2017: 317-
[10] C. C. Aggarwal and P. Zhao. Towards Graphical Models for Text
327.
[11] C. C. Aggarwal. Data classification: algorithms and applications. CRC
Processing. Knowledge and Information Systems Vol 36:1, 2013: 1-21.
[12] C. Vens, J. Struyf, L. Schietgat, S. Džeroski, H. Blockeel. Decision trees
Press, 2014.
for hierarchical multilabel classification. Machine Learning, 73(2) 2008:
129
[13] D. B. Nguyen, S.H. Hoang, S.B. Pham, T.P. Nguyen. Named entity recognition for Vietnamese. In Asian Conference on Intelligent Information
185–214.
and Database Systems, Springer, Berlin, Heidelberg, 2010: 205-214 [14] D. Jurafsky, J.H. Martin. Speech and language processing. Pearson, 2014. [15] D. M. Blei, A. Y. Ng, M. I. Jordan. Latent Dirichlet Allocation. Journal of
[16] D. M. Blei. Probabilistic topic models. Communications of the ACM 55.4,
Machine Learning Research 3, 2003: 993-1022.
[17] D. M. Dunlavy, T. G. Kolda, E. Acar. Temporal link prediction using matrix and tensor factorizations. ACM Transactions on Knowledge Discovery from Data (TKDD), 5(2), 10, 2011.
[18] D. Nadeau, S. Sekine. A survey of named entity recognition and
2012: 77-84.
[19] D. Ramage, D. Hall, R. Nallapati, C. D. Manning. Labeled LDA: A supervised topic model for credit attribution in multi-labeled corpora.
classification. Lingvisticae Investigationes 30(1), 2007: 3-26.
[20] D. Yang, D. Zhang, Z. Yu, Z. Wang. A sentiment-enhanced personalized location recommendation system. In Proceedings of the 24th ACM
EMNLP 2009: 248-256.
Conference on Hypertext and Social Media, ACM 2013: 119-128.] [21] E. Gibaja, S. Ventura. A tutorial on multilabel learning. ACM Computing
[22] E. Gibaja, S. Ventura. Multi-label learning: a review of the state of the art and ongoing research. Wiley Interdisc. Rew.: Data Mining and Knowledge
Surveys (CSUR) 47(3), 2015: 52.
[23] E. Hüllermeier, J. Fürnkranz, W. Cheng, K. Brinker. Label ranking by
Discovery, 4(6), 2014: 411-444.
[24] E. L. Mencía, F. Janssen. Stacking Label Features for Learning Multilabel
learning pairwise preferences. Artif. Intell. 172(16-17), 2008: 1897-1916.
[25] E. L. Mencia, J. Furnkranz. Pairwise learning of multilabel classifications with perceptrons. Neural Networks, 2008. IJCNN 2008.(IEEE World
Rules. Discovery Science 2014: 192-203.
Congress on Computational Intelligence). IEEE International Joint
Conference on. IEEE, 2008: 2899-2906.
130
[26] E. Spyromitros, G. Tsoumakas, I. Vlahavas. An empirical study of lazy multilabel classification algorithms. In: Hellenic conference on artificial
[27] F. Briggst, X.Z. Fern, R. Raich. Rank-loss support instance machines for MIML instance annotation. In: Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM,
intelligence. Springer, Berlin, Heidelberg, 2008: 401-406.
[28] F. Charte, A.J. Rivera, M.J. Del Jesus, F. Herrera. LI-MLC: A label inference methodology for addressing high dimensionality in the label
2012: 534-542.
[29] F. Herrera, F. Charte, A. J. Rivera, M.J. Del Jesus. Multilabel Classification: Problem Analysis, Metrics and Techniques. Springer
space for multilabel classification. IEEE transactions on neural networks and learning systems, 25(10), 2014:1842-1854.
[30] F. Ricci, L. Rokach, B. Shapira, P. B. Kantor. Recommender systems
International, 2016
[31] F. Sebastiani. Machine Learning in Automated Text Categorization. ACM
handbook. Springer US, 2011.
[32] G. Chen, Y. Song, F. Wang, C. Zhang. Semi-supervised multi-label learning by solving a sylvester equation. In: Proceedings of the 2008 SIAM
Computing Survey 34, 2002: 1-47.
International Conference on Data Mining. Society for Industrial and
[33] G. Doquire, M. Verleysen. Mutual information-based feature selection for
Applied Mathematics, 2008: 410-419.
[34] G. Doquire, M. Verleysen. Feature Selection for Multi-label Classification
multilabel classification. Neurocomputing 122 (2013): 148-155.
[35] G. Druck, G. Mann, A. McCallum. Learning from Labeled Features using Generalized Expectation Criteria. In: Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2008: 595-602.
[36] G. Ruffo. Learning single and multiple instance decision trees for computer
Problems. Advances in Computational Intelligence, 2011: 9-16.
[37] G. S. Mann, A. McCallum. Generalized Expectation Criteria for Semi-
security applications. PhD Thesis, University of Turin, 2000.
131
[38] G. S. Mann, A. McCallum. Generalized Expectation Criteria for Semi- Supervised Learning with Weakly Labeled Data. Journal of Machine
Supervised Learning of Conditional Random Fields. In ACL Volumn 8, 2008: 870–878.
[39] G. Salton, A. Wong, C. S. Yang. A vector space model for automatic
Learning Research 11, 2010: 955-984.
[40] G. Tsoumakas, I. Katakis, I. Vlahavas. Mining Multi-label Data. Data
indexing. Communications of the ACM, 18(11), 1975: 613-620.
[41] G. Tsoumakas, I. Katakis, I. Vlahavas. Random k-labelsets for multi-label classification. IEEE Transactions on Knowledge and Data Engineering, 2011, 23.7: 1079-1089.
[42] G. Tsoumakas, I. Katakis. Multi-label Classification: An Overview. International Journal of Data Warehousing and Mining (IJDWM), 2007,
Mining and Knowledge Discovery Handbook, Springer, 2010: 667–686.
[43] G. Tsoumakas, I. Vlahavas. Random k-labelsets: An ensemble method for
3.3: 1-13.
multilabel classification. European Conference on Machine Learning 2007:
[44] G. Tsoumakas, M. Zhang, Z.H. Zhou. Introduction to the special issue on learning from multi-label data. Machine Learning 88 (1-2), 2012: 1-4. [45] H. Hotelling. Relations between two sets of variates. In: Breakthroughs in
406-417.
[46] H. Le Trung, V. Le Anh, K. Le Trung. Bootstrapping and rule-based model for recognizing Vietnamese named entity. In Asian Conference on
Statistics, Springer, 1992: 162–190.
[47] H. Liu, L. Yu. Toward integrating feature selection algorithms for classification and clustering. IEEE Transactions on Knowledge and Data Engineering 17, 2005: 491–502.
[48] H. Ma, D. Zhou, C. Liu, M.R. Lyu, I. King. Recommender systems with social regularization. In: Proceedings of the fourth ACM international conference on Web search and data mining, 2011: 287–296.
[49] H. Ma, H. Yang, M.R. Lyu, I. King. Sorec: social recommendation using
Intelligent Information and Database Systems (ACIIDS) 2014: 167–176.
probabilistic matrix factorization. In: Proceeding of the 17th ACM
132
[50] H. Ma, I. King, M.R. Lyu. Learning to recommend with social trust international ACM SIGIR
conference on Information and knowledge management, 2008: 931–940.
ensemble. In: Proceedings of the 32nd
conference on Research and development in information retrieval, 2009:
[51] H. Q. Le. Making use of category structure for multi-class classification.
203–210.
[52] H. Q. Le, M. V. Tran, N. N. Bui, N. C. Phan, Q. T. Phan. An integrated approach using conditional random fields for named entity recognition
PhD Thesis, Heinrich Heine University Düsseldorf, 2010.
[53] H. Q. Pham, M.L. Nguyen, B. Nguyen, V.C. Nguyen. Semi-supervised for Vietnamese Named Entity Recognition using Online
and person property extraction in vietnamese text. In: Asian Language Processing (IALP), 2011: 115-118.
Learning
Conditional Random Fields. In: Proceedings of NEWS 2015 the fifth
[54] H. Qu, S. Zhang, H. Liu, J. Zhao: A multi-label classification algorithm
named entities workshop, 2015: 53-8.
based on label-specific features. Wuhan University Journal of Natural
[55]
Sciences 16, (6), 2011: 520-524.
[56]
I. T. Jolliffe. Principal Component Analysis. Springer, 2002.
J. D. Lafferty, A. McCallum, F.C.N. Pereira. Conditional Random Fields:
Probabilistic Models for Segmenting and Labeling Sequence Data.
In: Proceedings of the 18th International Conference on Machine Learning.
[57]
2001: 282-289.
J. Fürnkranz, E. Hüllermeier, E.L. Mencía, K. Brinker. Multilabel
[58]
[59]
[60]
classification via calibrated label ranking. Machine Learning, 73 (2), 2008:
[61]
133–153. J. Golbeck. Generating predictive movie recommendations from trust in social networks. Trust Management, 2006: 93-104. J. J. Zhang, M. Fang, X. Li. Multi-label learning with discriminative features for each label. Neurocomputing 154, 2015: 305-316. J. Jiang. Information extraction from text. Mining text data, 2012: 11-41.
J. Lee, H. Lim, D.W. Kim. Approximating Mutual Information for Multi-
Label Feature Selection. Electronics Letters, vol. 48(15), 2012: 129-130.
133
[62]
[63]
J. Li, H. Liu. Challenges of Feature Selection for Big Data Analytics. IEEE Inteligent Systems 32(2), 2017: 9-15.
J. Read, A. Bifet, G. Holmes, B. Pfahringer. Scalable and efficient multi-
[64]
label classification for evolving data streams. Machine Learning, 88 (1-2),
2012: 243-272. J. Read, B. Pfahringer, G. Holmes, E. Frank. Classifier chains for multi-
[65]
label classification. Machine Learning 85(3), 2011: 333-359.
J. Read, L. Martino, J. Hollmén. Multi-label methods for prediction with
[66]
sequential data. Pattern Recognition 63, 2017: 45-55.
[67]
J. Read. A Pruned Problem Transformation Method for Multi-label Classification. In: Proceedings of 2008 New Zealand Computer Science Research Student Conference (NZCSRS), 2008: 143–150.
J. Read. Scalable Multi-label Classification. PhD Thesis, The University of
[68]
Waikat, 2010.
J. Tang, H. Gao, H. Liu. mTrust: Discerning multi-faceted trust in a
connected world. In: Proceedings of the fifth ACM international conference
[69]
on Web search and data mining. ACM, 2012: 93-102.
J. Tang, H. Gao, X. Hu, H. Liu. Exploiting homophily effect for trust
prediction. In: Proceedings of the sixth ACM international conference on
[70]
Web search and data mining. ACM, 2013: 53-62.
J. Tang, X. Hu, H. Liu. Social Recommendation: A Review. Social Network
[71]
Analysis and Mining, 2013, 3.4: 1113-1133.
J. V. Carrera-Trejo, G. Sidorov, S. Miranda-Jiménez, M. M. Ibarra, R. C.
Martínez. Latent Dirichlet Allocation complement in the vector space model
[72]
for Multi-Label Text Classification. International Journal of Combinatorial
[73] K. Brinker, J. Furnkranz, E. Hullermeier. A unified model for multilabel classification and ranking. In: Proceedings of the 2006 conference on ECAI
Optimization Problems and Informatics, 6(1), 2015: 7-19. J. Wang, J. D. Zucker. Solving the multi-instance problem: A lazy learning approach. In Proceedings of 17th International Conf. on Machine Learning, 2000: 1119–1126.
2006: 17th European Conference on Artificial Intelligence August 29--
September 1, 2006, Riva del Garda, Italy. IOS Press, 2006: 489-493.
134
[74] K.
Brinker,. Hullermeier. Case-based E.
multilabel ranking. In: Proceedings of the 20th international joint conference on
Artifical intelligence. Morgan Kaufmann Publishers Inc., 2007. p. 702-707. [75] K. Cheng, J. Li, H. Liu. FeatureMiner: A Tool for Interactive Feature Selection. In: Proceedings of the 25th ACM International on Conference on Information and Knowledge Management. ACM, 2016: 2445-2448. [76] K. Dembczynski, W. Waegeman, W. Cheng, E. Hüllermeier. On label
dependence and loss minimization in multi-label classification. Machine
[77] L. Breiman. Random forests. Machine Learning. 45(1), 2001:5–32. [78] L. Jian, J. Li, K. Shu, H. Liu. Multi-Label Informed Feature Selection. In: IJCAI International Joint Conference on Artificial Intelligence. 2016:
Learning, 88 (1-2), 2012: 5-45.
[79] L. Sun, S. Ji, J. Ye. Multi-label dimensionality reduction. CRC Press, 2013. [80] M. Jamali, M. Ester. A matrix factorization technique with trust propagation for recommendation in social networks. In: Proceedings of the
1627-1633.
[81] M. Jamali, M. Ester. Trustwalker: a random walk model for combining trust-based and item-based recommendation. In: Proceedings of the 15th
fourth ACM conference on Recommender systems, ACM 2010: 135–142.
ACM SIGKDD international conference on Knowledge discovery and data
[82] M. L. Zhang, J. M. Peña, V. Robles. Feature selection for multi-label naive Bayes classification. Information Sciences, 2009, 179.19: 3218-3229. [83] M. L. Zhang, L. Wu. LIFT: Multi-label learning with label-specific
mining, ACM 2009: 397–406.
features. IEEE transactions on pattern analysis and machine intelligence,
[84] M. L. Zhang, Z. H. Zhou. A Review on Multi-Label Learning Algorithms. IEEE transactions on knowledge and data engineering, 2014, 26.8: 1819- 1837
[85] M. L. Zhang, Z. H. Zhou. Improve multi-instance neural networks through
37(1), 2015: 107-120.
[86] M. L. Zhang, Z. H. Zhou. ML-KNN: A Lazy Learning Approach to Multi-
feature selection. Neural Processing Letters. 2004: 1–10.
Label Learning. Pattern Recogn, 40, 2007: 2038–2048.
135
[87] M. L. Zhang. LIFT: Multi-Label Learning with Label-Specific joint
In: Proceedings of the Twenty-Second international Features.
conference on Artificial Intelligence-Volume Volume Two. AAAI Press,
[88] M. Poyraz, Z.H. Kilimci, M.C. Ganiz. Higher-order smoothing: a novel semantic smoothing method for text classification. Journal of Computer
2011: 1609-1614.
[89] M. R. Boutell, J. Luo, X. Shen, C.M. Brown. Learning multi-label scene
Science and Technology 29(3), 2014: 376-391.
[90] M. V. Tran, X. T. Tran, and H. L. Uong. User Interest Analysis with in News Recommendation System. Asian Language
classification. Pattern Recognition, 37 (9), 2004: 1757–1771.
Hidden Topic Processing (IALP), 2010: 211-214. [91] MALLET. n.d. http://mallet.cs.umass.edu/. [92] N. Nguyen. Semi-Supervised Learning With Partially Labeled Examples.
[93] O. G. R. Pupo, C. Morell, S. Ventura. Evolutionary feature weighting to
PhD Thesis, Cornell University, 2010.
improve the performance of multi-label lazy algorithms. Integrated
[94] O. G. R. Pupo, C. Morell, S. Ventura. Scalable extensions of the ReliefF algorithm for weighting and selecting features on the multi-label learning
Computer-Aided Engineering 21(4), 2014: 339-354.
[95] O. Maron, T. Lozano-Pérez. A Framework
context. Neurocomputing 161, 2015: 168-182.
for Multiple-Instance
Learning. In: Advances in neural information processing systems. 1998:
[96] P. Massa, P. Avesani. Controversial users demand local trust metrics: An
570-576..
[97] P. Massa, P. Avesani. Trust-aware collaborative filtering for recommender systems. In: OTM Confederated International Conferences" On the Move to Meaningful Internet Systems". Springer, Berlin, Heidelberg, 2004: 492-508. [98] P. Massa, P. Avesani. Trust-aware recommender systems. In: Proceedings of the 2007 ACM conference on Recommender systems. ACM, 2007: 17-24. [99] P. Szymanski, T. Kajdanowicz, K. Kersting. How Is a Data-Driven
experimental study on Epinions.com community. AAAI 2005: 121-126.
Approach Better than Random Choice in Label Space Division for Multi-
136
[100] P. V. Krishna, S. Misra, D. Joshi, M.S. Obaidat. Learning automata based sentiment analysis for recommender system on cloud. In Computer,
Label Classification? Entropy 18(8) 282, 2016.
Information and Telecommunication Systems (CITS), 2013 International
[101] P. Victor, C. Cornelis, M. De Cock, A. Teredesai. A comparative analysis of trustenhanced recommenders for controversial items. The International
Conference on IEEE 2013: 1-5.
[102] P. Victor, M. De Cock, C. Cornelis. Trust and recommendations.
AAI Conference on Weblogs and Social Media, 2009: 342–345.
[103] Q. T. Ha, H. N Bui, T. T. Nguyen. A Trace Clustering Solution Based on International Conference on
Recommender Systems Handbook, Springer, 2011: 645–675.
the Distance Graph Model. Using
Computational Collective Intelligence. Springer International Publishing,
[104] Q. T. Tran, T. T. Pham, Q. H. Ngo, D. Dinh, N. Collier. Named entity recognition in Vietnamese documents. Progress in Informatics Journal 5,
2016: 313-322.
[105] Q. Zhang, S.A. Goldman. EM-DD: An improved multi-instance learning technique. In: Advances in neural information processing systems. 2002:
2007: 14-17.
[106] R. E. Schapire, Y. Singer. BoosTexter: A Boosting-based System for Text
1073-1080.
[107] S. Andrews, I. Tsochantaridis, T. Hofmann. Support vector machines for multiple-instance learning. In: Advances in neural information processing
Categorization. Machine Learning 39(2-3), 2000: 135-168.
[108] S. Basu. Semi-supervised clustering: probabilistic models, algorithms and experiments. PhD Thesis, The University of Texas at Austin, 2005. [109] S. Godbole, S. Sarawagi. Discriminative methods for multi-labeled classification. Advances in knowledge discovery and data mining (PAKDD) 2004: 22–30.
[110] S. H. Yang, H. Zha, B. G. Hu. Dirichlet-bernoulli alignment: A generative model for multi-class multi-label multi-instance corpora. In: Advances in
systems, 2002: 561-568.
neural information processing systems, 2009: 2143-2150.
137
[111] S. Jungjit. New Multi-Label Correlation-Based Feature Selection Methods for Multi-Label Classification and Application in Bioinformatics. PhD
[112] S. Li, Z. Zhang, J. Duan. An ensemble multi-label feature selection algorithm based on information entropy. International Arab Journal of Information Technology (IAJIT), 2014, 11.4: 379-386.
[113] S. S. Bucak. Multiple Kernel and Multi-Label Learning for Image
Thesis, University of Kent at Canterbury, March 2016.
[114] S. Vembu, T. Gartner. Label ranking algorithms: A survey. Preference
Categorization. PhD Thesis, Michigan State University, 2014.
[115] T. G. Dietterich, R. H. Lathrop, T. Lozano-Pérez. Solving the Multiple Instance Problem with Axis-Parallel Rectangles. Artificial intelligence,
Learning 2010: 45-64
[116] T. Gartner, P. A. Flach, A. Kowalczyk, A. J. Smola. Multi-instance kernels. The 19th International Conference on Machine Learning (ICML 2002):
89(1-2), 1997: 31-71.
[117] T. N. Rubin, A. Chambers, P. Smyth, M. Steyvers. Statistical topic models for multi-label document classification. Machine Learning, 88(1-2), 2012:
179–186.
[118] T. Zhou, D. Tao, X. Wu. Compressed labeling on distilled labelsets for
157-208.
[119] W. He, Y. Wang. Text representation and classification based on multi- instance learning. In: Management Science and Engineering, ICMSE 2009.
multi-label learning. Machine Learning, 88 (1-2), 2012: 69-126.
[120] W. Zhang, X. Tang, T. Yoshida. TESC: An approach to text classification using semi-supervised clustering. Knowledge-Based Systems 75, 2015: 152-160.
[121] X. Wu, V. Kumar. Top 10 algorithms in data mining. CRC Press, 2009 [122] X. Zhu, A. B. Goldberg. Introduction to Semi-Supervised Learning. Morgan
International Conference on. IEEE, 2009: 34-39.
[123] Y. Chen and J. Z. Wang. Image categorization by learning and reasoning
and Claypool, 2009.
[124] Y. Chevaleyre, J. D. Zucker. Solving Multiple-Instance and Multiple-Part
with regions. Machine Learning Research 5, 2004: 913–939.
138
Learning Problems with Decision Trees and Rule Sets. Application to the Mutagenesis Problem. Canadian Conference on AI 2001: 204-214. [125] Y. Guo, D. Schuurmans. Semi-supervised multi-label classification: A Simultaneous Large-Margin, Subspace Learning Approach. Machine
[127] Y. Yang, S. Gopal. Multi-label classification with meta-level features in a
Learning and Knowledge Discovery in Databases, (2) 2012: 355-370. [126] Y. Liu, R.Jin, L. Yang. Semi-supervised multi-label learning by constrained nonnegative matrix factorization. AAAI Volumn 1, 2006: 421-426.
[128] Z. H Zhou, M. L. Zhang, S.J. Huang, Y.F. Li. Multi-instance multi-label
learning-to-rank framework. Machine Learning, 88 (1-2), 2012: 47-68.
[129] Z. H Zhou, M. L. Zhang. Multi-Instance Multi-Label Learning with Application to Scene Classification. In: Advances in neural information
learning. Artificial intelligence. 176(1), 2012: 2291-2320.
[130] Z. H. Zhou, J. M. Xu. On the relation between multi-instance learning and international learning. In: Proceedings of
processing systems. 2007: 1609-1616.
semisupervised the 24th
conference on Machine learning. ACM, 2007: 1167-1174.
139