ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM THỊ NGÂN
NGHIÊN CỨU CẢI TIẾN PHÂN LỚP ĐA NHÃN VĂN BẢN
VÀ ỨNG DỤNG
Chuyên ngành: Hệ thống thông tin
Mã số: 62.48.01.04
TÓM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội – 2017
Công trình được hoàn thành tại: Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội
Người hướng dẫn khoa học: PGS. TS. Hà Quang Thụy
PGS.TS. Phan Xuân Hiếu
Phản biện: PGS. TS Lương Chi Mai ...........................
Viện CNTT, Viện Hàn lâm KH&CNVN ........................
Phản biện: PGS.TS Đỗ Văn Thành .............................
Bộ Kế hoạch và Đầu tư ...................................................
Phản biện: TS. Nguyễn Thị Minh Huyền ...................
Trường Đại học Khoa học Tự nhiên, ĐHQGHN ............
Luận án được bảo vệ trước Hội đồng cấp Đại học Quốc gia
chấm luận án tiến sĩ họp tại Đại học Công nghệ, ĐHQGHN
vào hồi 09 giờ ngày 12 tháng 12 năm 2017
Có thể tìm hiểu luận án tại:
Thư viện Quốc gia Việt Nam -
- Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà
MỞ ĐẦU
Tính cấp thiết của luận án
Phân lớp là một trong những bài toán điển hình trong khai phá
dữ liệu; ứng dụng của phân lớp xuất hiện trong rất nhiều lĩnh vực của
đời sống. Tính ứng dụng cao của phân lớp làm cho bài toán phân lớp
được tiến hóa từ đơn giản tới phức tạp hơn theo hướng từ phân lớp
đơn nhãn tới phân lớp đa nhãn hoặc phân lớp đa thể hiện, và cho tới
phân lớp đa nhãn đa thể hiện. Phân lớp đơn nhãn (phân lớp truyền
thống) quy ước mỗi đối tượng dữ liệu có duy nhất một nhãn. Phân
lớp đa nhãn quy ước mỗi đối tượng dữ liệu có thể có hơn một nhãn.
Phân lớp đa thể hiện quy ước một đối tượng dữ liệu có thể tương ứng
với nhiều thể hiện và tương ứng với một nhãn. Phân lớp đa nhãn đa
thể hiện quy ước một đối tượng dữ liệu tương ứng với nhiều thể hiện
và các thể hiện này tương ứng với nhiều nhãn.
Phân lớp đa nhãn đòi hỏi những tiến hóa mới đối với các phương
pháp học máy cho các giải pháp thích hợp với các phần tử dữ liệu đa
nhãn như vấn đề mối quan hệ giữa các nhãn, chi phí tính toán của thuật
toán, vấn đề mất cân bằng nhãn, vấn đề đa chiều của dữ liệu... Phân
lớp đa nhãn là một chủ đề nghiên cứu, triển khai cuốn hút một cộng
đồng nghiên cứu rộng rãi với một số nhóm nghiên cứu nổi bật như các
nhóm nghiên cứu của Zhi-Hua Zhou, Min-Ling Zhang và cộng
sự, Ioannis P. Vlahavas, Grigorios Tsoumakas và cộng sự, Sebastián
Ventura Soto và cộng sự, v.v.
Luận án này tập trung vào chủ đề nghiên cứu phân lớp đa nhãn,
tiếp nối những nghiên cứu trước đó về bài toán phân lớp đa nhãn, các
phương pháp biểu diễn dữ liệu, lựa chọn đặc trưng và tiếp tục giải quyết
những vấn đề còn tồn tại liên quan đến bài toán phân lớp đa nhãn.
1
Luận án tập trung nghiên cứu về phân lớp đa nhãn và ứng dụng
vào phân lớp văn bản tiếng Việt.
Thứ nhất, luận án đề nghị một thuật toán phân lớp đa nhãn khai
thác đặc trưng riêng biệt dựa trên phân cụm bán giám sát (Thuật toán
MULTICS [PTNgan5], [PTNgan6]) trên cơ sở áp dụng một chiến
lược tham lam khi tích hợp hai thuật toán LIFT và TESC .
Thứ hai, luận án đề nghị hai mô hình biểu diễn dữ liệu cho phân lớp đa
nhãn là mô hình biểu diễn dữ liệu đồ thị khoảng cách [PTNgan4] khai thác
các thông tin bậc cao về trật tự và khoảng cách đặc trưng trong văn bản và
mô hình biểu diễn dữ liệu chủ đề ẩn [PTNgan3] khai thác các thông tin ngữ
nghĩa ẩn trong văn bản làm giàu thêm các đặc trưng cho mô hình.
Đồng thời, luận án cũng đề xuất hai mô hình phân lớp đơn nhãn
văn bản tiếng Việt tương ứng với hai bài toán ứng dụng thực tiễn bao
gồm mô hình gán nhãn thực thể có tên đề xuất trong [PTNgan1] và
mô hình hệ tư vấn xã hội đề xuất trong [PTNgan2].
Luận án cũng thực thi các thực nghiệm kiểm chứng các thuật toán
và mô hình đề xuất. Dữ liệu thực nghiệm được thu thập từ các trang web
tiếng Việt liên quan tới miền ứng dụng. Luận án cũng cung cấp một
nghiên cứu tổng quan về học máy đa nhãn.
Bố cục của luận án gồm phần mở đầu và bốn chương nội dung,
phần kết luận và danh mục tài liệu tham khảo. Hình 0.1 cung cấp một
khung nhìn sơ bộ về phân bố các chủ đề trong bốn chương của luận án.
Chương 1 cung cấp một khái quát từ phân lớp đơn nhãn tới phân lớp
đa nhãn; tập trung vào các vấn đề cơ bản của học đa nhãn bao gồm
phương pháp tiếp cận, rút gọn đặc trưng; độ đo và phương pháp đánh giá.
Chương 2 đề xuất hai mô hình phân lớp đơn nhãn thông qua hai
bài toán là gán nhãn thực thể có tên và hệ tư vấn xã hội tiếng Việt.
2
Hình 0.1 Phân bố các chủ đề trong các chương của luận án
Chương 3 đề xuất hai mô hình biểu diễn dữ liệu cho phân lớp đa
nhãn: sử dụng mô hình chủ đề ẩn LDA và mô hình đồ thị khoảng
cách kết hợp với mô hình LDA.
Chương 4 phân tích và đề xuất một tiếp cận phân lớp đa nhãn bán
giám sát với đặc trưng riêng biệt dựa trên kỹ thuật phân cụm.
Chương 1
TỪ PHÂN LỚP ĐƠN NHÃN TỚI PHÂN LỚP ĐA NHÃN
1.1. Từ phân lớp đơn nhãn đơn thể hiện tới phân lớp đa nhãn đa
thể hiện
Mục này cung cấp một khung tổng quát về sự tiến hóa trong bài
toán phân lớp từ phân lớp truyền thống đơn nhãn tới phân lớp đa
nhãn đơn thể hiện, phân lớp đơn nhãn đa thể hiện và phân lớp đa
nhãn đa thể hiện.
1.2. Giới thiệu chung về phân lớp đa nhãn
1.2.1. Kỹ thuật phân lớp đa nhãn
Kỹ thuật phân lớp đa nhãn được định hướng theo hai tiếp cận là
3
các kỹ thuật theo tiếp cận chuyển đổi bài toán và các kỹ thuật theo
tiếp cận thích nghi thuật toán.
Kỹ thuật chuyển đổi bài toán là đưa bài toán phân lớp đa nhãn
trở về bài toán phân lớp truyền thống và sử dụng các kỹ thuật vốn có.
Kỹ thuật thích nghi thuật toán là cải biên các thuât toán vốn có cho
bài toán phân lớp truyền thống thích nghi được với bài toán phân lớp.
1.2.2. Biểu diễn dữ liệu cho phân lớp đa nhãn
Ngoài đặc thù mỗi dữ liệu có thể tương ứng với nhiều nhãn lớp,
dữ liệu đầu vào của bài toán phân lớp đa nhãn có thêm một số đặc
điểm bổ sung so với dữ liệu đầu vào của bài toán phân lớp đơn nhãn.
Một số đặc điểm cần quan tâm là độ đo dữ liệu đa nhãn, phân bố
nhãn trong tập dữ liệu miền ứng dụng, mỗi quan hệ giữa các nhãn,…
1.2.3. Đánh giá phân lớp đa nhãn
Trong bài toán học máy truyền thống, hiệu quả của hệ thống học
được đánh giá thông qua các độ đo thông thường như độ chính xác
(accuracy), độ hồi tưởng (recall), độ đo hài hoà F-measure,… Tuy
nhiên, việc đánh giá hiệu quả thực thi trong học đa nhãn phức tạp
hơn nhiều so với học đơn nhãn truyền thống vì mỗi một mẫu có thể
đồng thời thuộc về nhiều lớp. Do đó, một số độ đo đánh giá hiệu quả
của hệ thống học đa nhãn được đề xuất. M.L. Zhang và Z.H. Zhou
[Zhang14] chia các độ đo thành hai nhóm là độ do dựa trên mẫu và
độ đo dựa trên nhãn.
1.3. Giảm chiều dữ liệu trong phân lớp đa nhãn
Xu thế của dữ liệu lớn làm nảy sinh hiện tượng “bủng nổ chiều
dữ liệu” làm ảnh hưởng trực tiếp đến việc áp dụng các thuật toán vốn
có. Mặt khác, tập đặc trưng có thể tồn tại các đặc trưng không liên
quan hoặc dư thừa tác động không tốt tới hiệu quả học mô hình và
4
phân lớp. Hai vấn đề về giảm chiều dữ liệu được đề xuất bao gồm
giảm chiều đặc trưng đầu vào và giảm chiều không gian nhãn đầu ra.
1.4. Học bán giám sát cho phân lớp đa nhãn
Việc gán nhãn cho dữ liệu đòi hỏi nhiều công sức và thời gian
trong khi dữ liệu không có nhãn thì rất sẵn có và dễ dàng thu được.
Tiếp cận học bán giám sát nhận được sự quan tâm của cộng đồng.
1.5. Kết luận chương 1
Chương 1 trình bày về các dạng bài toán phân lớp với bước phát
triển từ phân lớp đơn nhãn, phân lớp đa nhãn đến phân lớp đa nhãn đa
thể hiện. Chương này tập trung vào trình bày tổng quan về phân lớp đa
nhãn bao gồm dữ liệu đa nhãn và biểu diễn dữ liệu đa nhãn; kỹ thuật
phân lớp đa nhãn và phương pháp đánh giá phân lớp đa nhãn.
Chương 2 HAI MÔ HÌNH PHÂN LỚP ĐƠN NHÃN VĂN BẢN
TIẾNG VIỆT
2.1. Mô hình nhận diện thực thể có tên dựa trên trường ngẫu nhiên
có điều kiện và tiêu chuẩn kỳ vọng tổng quát
2.1.1. Nhận diện thực thể có tên
Nhận diện thực thể có tên (NER) là bài toán khá cơ bản trong
nhóm các bài toán trích chọn thông tin. Bài toán có nhiệm vụ tìm
kiếm và rút ra những thông tin liên quan đến thực thể trong văn bản,
thông thường là loại thực thể.
2.1.2. Mô hình đề xuất
Tiêu chuẩn kỳ vọng tổng quát [Druck08] là những điều kiện trong
hàm mục tiêu huấn luyện cho phép gán giá trị cho kỳ vọng mô hình
[Gideon08, Gideon10]. Luận án đề xuất một mô hình gán nhãn bán giám
sát [PTNgan1] sử dụng các tiêu chuẩn kỳ vọng tổng quát [Gideon08]
nhằm kết hợp những tri thức tiền nghiệm vào mô hình huấn luyện, khai
5
thác mô hình xác suất theo chủ đề ẩn Latent Dirichlet Allocation (LDA)
để xây dựng tập ràng buộc về phân phối xác suất của các đặc trưng và tập
thực thể cho trước, từ đó tính toán kỳ vọng có điều kiện của mô hình. Tiêu
chuẩn kỳ vọng tổng quát được sử dụng để xác định tham số ước lượng
cho hàm mục tiêu của mô hình trường ngẫu nhiên có điều kiện CRFs trên
tập đặc trưng mức từ như đặc trưng từ loại (POS), đặc trưng theo ký tự và
đặc trưng theo cửa sổ trượt để bổ sung thêm quan hệ trước sau nhằm nâng
cao hiệu quả cho mô hình. Bài toán nhận diện thực thể có tên: Đầu vào:
- D: tập mọi dữ liệu văn bản liên quan đến miền ứng dụng - DL ⊂ D: tập ví dụ mẫu chứa thực thể đã được gán nhãn. - DU ⊂ D: tập ví dụ mẫu chứa dữ liệu văn bản chưa gán nhãn. - L: tập các thực thể có tên Đầu ra:
- Bộ gán nhãn thực thể có tên M: DL. Mô hình giải quyết bài toán trình bày ở Quy trình 2.1 và hình 2.1.
Pha 1: Các bước tiền xử lý dữ liệu
Bước 1: Module tách câu, tách từ Bước 2: Gán nhãn từ loại cho mỗi từ POS Bước 3: Gán nhãn thực thể NER
- - -
Pha 2: Xây dựng bộ phân lớp bán giám sát dựa trên mô hình trường điều kiện ngẫu nhiên CRF kết hợp tiêu chuẩn tổng quát
Bước 1: Xây dựng tập ràng buộc trên tập DU Bước 2: Lựa chọn tập thuộc tính trên DL Bước 3: Xây dựng bộ gán nhãn Bước 4: Đánh giá mô hình
- - - -
Quy trình 2.1. Thủ tục giải quyết bài toán
2.1.3 Ứng dụng mô hình
Mô hình áp dụng trong miền ứng dụng nhận diện thực thể có tên
tiếng Việt trên văn bản pháp luật. Thực nghiệm được tiến hành trên
một số tập ràng buộc khác nhau kết hợp với các tập dữ liệu huấn
luyện khác nhau để đánh giá mức độ ảnh hưởng của các ràng buộc và
dữ liệu có nhãn đến mô hình. Đồng thời, chúng tôi tiến hành thực
6
nghiệm gán nhãn thực thể sử dụng mô hình CRF làm cơ sở để so
sánh với phương pháp đề xuất.
Hình 2.1. Mô hình đề xuất
Kết quả thực nghiệm ở Bảng 2.3 cho thấy, mô hình đề xuất cho
ER
kết quả tốt nhất là 90.14% và luôn cao hơn mô hình cơ sở. CRF-GE RE%
CRF RE%
PR%
F1 %
ORG PER LOC ALL
90.00 100.00 12.50 58.33
75.00 66.67 100.00 72.41
100.00 66.67 100.00 82.14
94.74 80.00 40.00 71.88
ORG PER LOC ALL
90.00 100.00 56.25 77.78
100.00 83.33 81.82 87.50
100.00 90.91 75.00 87.50
94.74 95.24 64.29 82.35
ORG PER LOC ALL
100.00 100.00 75.00 88.89
PR% F1 % 500 tokens of training data 90.00 81.82 100.00 80.00 25.00 22.22 64.62 63.89 1000 tokens of training data 90.00 94.74 100.00 90.91 56.25 66.67 82.35 77.78 1500 tokens of training data 100.00 83.33 100.00 100.00 75.00 85.71 88.89 88.89
71.43 100.00 100.00 88.89
83.33 90.91 100.00 91.43
90.91 95.24 85.71 90.14
Bảng 2.1. Kêt quả thực nghiệm mô hình gán nhãn thực thể có tên
7
2.2. Một mô hình phân lớp đơn nhãn trong hệ tư vấn xã hội
2.2.1. Sơ bộ về tư vấn xã hội
Hệ tư vấn xã hội được định nghĩa trên hai khía cạnh: theo nghĩa
hẹp và theo nghĩa rộng. Trong đó, theo nghĩa hẹp, hệ tư vấn xã hội là
hệ tư vấn truyền thống có sử dụng các quan hệ xã hội trực tuyến như
quan hệ niềm tin, quan hệ bạn bè, quan hệ thành viên, quan hệ theo
dõi,… là một đầu vào bổ sung cho hệ thống. Theo nghĩa rộng, hệ tư
vấn xã hội là hệ tư vấn bất kỳ hướng tới lĩnh vực phương diện xã hội.
2.2.2. Mô hình đề xuất
Luận án đề xuất một hệ thống tư vấn xã hội sử dụng mô hình lọc
cộng tác với phương pháp hướng người dùng xây dựng tập đặc trưng
từ mối quan hệ xã hội và độ tương đồng giữa người dùng [PTNgan2].
Mô hình đề xuất xây dựng tập người dùng tin cậy dựa trên sự kết hợp
kỹ thuật phân tích quan điểm người dùng, tính toán độ tương đồng
người dùng và xây dựng tập đặc trưng khác nhau nhằm đánh giá sự
ảnh hưởng đặc trưng đền quyết định tư vấn, bằng phân tích thống kê
sản phầm yêu thích của người dụng tin cậy, lựa chọn sản phẩm có khả
năng cao nhất tư vấn cho người dùng. Trong mô hình, tập sản phẩm
xem xét được coi là tập nhãn được xác định trước, việc tư vấn sản
phẩm chính là gán cho người dùng một sản phẩm trong tập các sản
phẩm xem xét. Bài toán tư vấn xã hội: Đầu vào:
- D: Tập dữ liệu là tập các bình luận của người dùng về sản
phẩm. Chia tập D thành tập Dtrain làm dữ liệu huấn luyện và Dtest làm dữ liệu kiểm thử.
- L: Danh sách các sản phẩm quan tâm Đầu ra:
- Hệ tư vấn các sản phẩm cho người dùng mới M:DtrainL
8
Phương pháp giải quyết bài toán được trình bày ở Quy trình 2.2.
Pha 1: Xây dựng tập dữ liệu về người dùng
-
-
Bước 1: Lựa chọn các danh mục sản phẩm để tư vấn – tập nhãn L Bước 2: Phân tích quan điểm người dùng trên tập dữ liệu D để tìm ra tập sản phẩm người dùng quan tâm
Pha 2: Xây dựng hệ thống tư vấn cho người dùng mới về sản phẩm
-
-
-
Bước 1: Tập dữ liệu về người dùng được chia ngẫu nhiên thành 2 tập dữ liệu huấn luyện (Dtrain) và tập kiểm thử (Dtest) Bước 2: Xác định độ tương đồng trên tập người dùng Dtrain và mỗi người dùng trên tập Dtest để tìm ra tập người dùng tin cậy trên Dtrain. Bước 3: Xác định tập sản phẩm ưa thích của tập người dùng tin cậy để tư vấn cho người dùng mới. Bước 4: Đánh giá hiệu quả của hệ tư vấn.
-
Quy trình 2.2. Thủ tục giải quyết bài toán
Hình 2.2. Mô hình đề xuất
2.2.3. Ứng dụng mô hình
Mô hình được áp dụng trong xây dựng hệ tư vấn xã hội cho người
dùng về sản phẩm điện thoại di động (ĐTDĐ) trên mạng xã hội
Facebook bao gồm 7 thương hiệu sản phẩm ĐTDĐ nổi tiếng. Dữ liệu
9
về người dùng được thu thập và phân tích quan điểm để xây dựng
danh sách sản phẩm yêu thích. Mô hình cũng đề xuất xây dựng 2 loại
tập tập đặc trưng bao gồm đặc trưng tiểu sử và đặc trưng xã hội được
đánh giá riêng biệt và kết hợp để xác định độ tương đồng giữa người
dùng và tập người dùng tin cậy làm cơ sở tư vấn sản phẩm.
Kết quả thực nghiệm ở Bảng 2.2. cho thấy, việc sử dụng tập đặc
trưng khác nhau ảnh hưởng đến quyết định tư vấn, trong đó đặc
trưng xã hội có ảnh hưởng tốt hơn đặc trưng tiểu sử, đồng thời việc
kết hợp cả hai loại đặc trưng cho kết quả tốt nhất. Mặt khác, tại mỗi
thực nghiệm, độ chính xác bậc thấp luôn cao hơn độ chính xác bậc
cao cho thấy kết quả tư vấn với số lượng ít sản phẩm cho kết quả tốt
hơn nhiều sản phẩm.
Features Đặc trưng tiểu sử Đặc trưng xã hội Kết hợp 2 loại đặc trưng
P@1 0.416 0.456 0.512
P@2 0.385 0.429 0.487
P@3 MAP@3 0.377 0.353 0.424 0.407 0.481 0.446
Bảng 2.2. Kết quả thực nghiệm
2.3. Kết luận chương 2
Chương này trình bày về hai mô hình phân lớp đơn nhãn do
luận án đề xuất bao gồm mô hình gán nhãn thực thể có tên và mô
hình hệ tư vấn xã hội. Các kết quả nghiên cứu trong Chương 2 được
công bố trong [PTNgan1], [PTNgan2].
Chương 3
PHÂN LỚP ĐA NHÃN VĂN BẢN DỰA TRÊN BIỂU DIỄN DỮ
LIỆU THEO CHỦ ĐỀ ẨN
3.1. Phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo
chủ đề ẩn
3.1.1. Biểu diễn dữ liệu theo chủ đề ẩn
Mục này trình bày về biểu diễn dữ liệu theo mô hình chủ đề ẩn
10
LDA [Blei03, Blei12].
3.1.2. Mô hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo
chủ đề ẩn
Phát biểu bài toán phân lớp sử dụng phương pháp biểu diễn dữ
liệu theo chủ đề ẩn như sau:
Đầu vào: - : tập dữ liệu văn bản đa nhãn chia thành 2 tập Dtrain làm tập dữ
liệu huấn luyện và tập Dtest làm tập dữ liệu kiểm thử.
- DU: tập dữ liệu không nhãn liên quan đến chủ đề thuộc miền
ứng dụng để xây dựng mô hình chủ đề ẩn.
- L: tập nhãn cho trước gồm q nhãn
Đầu ra:
- Mô hình phân lớp đa nhãn M sao cho M được đánh giá kiểm thử
đạt hiệu quả cao.
Mô hình đề xuất được thể hiện trong Quy trình 3.1 và mô hình
đề xuất tại hình 3.1.
Pha 1: Huấn luyện mô hình
-
-
-
-
Bước 1: Tiền xử lý dữ liệu: tách câu, tách từ, loại bỏ từ dừng, chuẩn hóa dữ liệu và biểu diễn dữ liệu theo đặc trưng TF.IDF cho tập Dtrain Bước 2: Xây dựng mô hình chủ đề ẩn LDA trên tập DU và tập đặc trưng về phân phối chủ đề ẩn trên mỗi câu của tập Dtrain. Bước 3: Lựa chọn đặc trưng dựa trên phương pháp thông tin tương hỗ MI [Doquire11] để rút gọn và tìm ra tập đặc trưng tiêu biểu nhất cho quá trình phân lớp. Bước 4: Xây dựng bộ phân lớp đa nhãn Pha 2: Phân lớp đa nhãn sử dụng mô hình huấn luyện
- -
Bước 1: Tiền xử lý dữ liệu kiểm thử Dtest Bước 2: Xây dựng tập đặc trưng cho dữ liệu kiểm thử D- test Bước 3: Phân lớp sử dụng bộ phân lớp đa nhãn ở Pha 1
-
Quy trình 3.1. Thủ tục giải quyết bài toán
11
Hình 3.1. Mô hình đề xuất
Trọng tâm của mô hình xây dựng tập đặc trưng bao gồm đặc
trưng TF.IDF và đặc trưng về phân phối xác suất chủ đề ẩn LDA
trong văn bản được thực hiện ở bước 1, 2 ở pha huấn luyện mô hình.
Mô hình chủ đề ẩn LDA cung cấp các đặc trưng ngữ nghĩa ẩn trong
văn bản nhằm biểu diễn văn bản được đầy đủ hơn. Ngoài ra, mô hình
còn áp dụng một kỹ thuật lựa chọn đặc trưng nhằm làm loại bỏ đặc
trưng dư thừa, chọn lọc các đặc trưng hữu ích nhất. Đây là một trong
các bước cơ bản trong các mô hình học máy nhằm tăng cường thực
thi của mô hình.
3.1.3. Ứng dụng phân lớp đa nhãn đánh giá khách sạn
Mô hình đề xuất được áp dụng trong bài toán đánh giá danh tiếng
khách sạn, trong đó tập trung vào 5 lĩnh vực: sự phục vụ nhân viên, chất
lượng phòng, khách sạn, chất lượng đồ ăn, vị trí và giá cả, trang thiết bị.
Dữ liệu thực nghiệm được thu thập từ các website du lịch, xây dựng 2 tập
dữ liệu bao gồm tập dữ liệu có gán nhãn làm tập huấn luyện và kiểm thử, và tập
dữ liệu không nhãn để xây dựng mô hình chủ đề ẩn LDA. Để đánh giá hiệu quả
12
mô hình chúng tôi thiết kế thực nghiệm với các tập đặc trưng khác nhau bao
gồm: đặc trưng TF.IDF; TF.IDF và đặc trưng xác suất chủ đề ẩn LDA với số
lượng chủ đề ẩn khác nhau; TF.IDF+đặc trưng LDA+kỹ thuật rút gọn đặc trưng
MI. Kết quả thực nghiệm được thể hiện ở Bảng 3.2 cho thấy kết quả tốt nhất
nhận được khi kết hợp đặc trưng theo cách thứ 3 là TF.IDF + LDA + MI.
Average of 5-folds valuation TF.IDF TF.IDF + LDA_15 topics TF.IDF + LDA_20 topics TF.IDF + LDA_25 topics TF.IDF + LDA_20 topics + Feature Selection
Precision 0.6764 0.6798 0.6827 0.6793 0.6835
Recall 0.7025 0.7056 0.7125 0.7075 0.7108
F1 0.6804 0.6842 0.6883 0.6844 0.6890
Bảng 3.1. Kết quả mô hình đề xuất
3.2. Phân lớp đa nhãn văn bản dựa trên đồ thị khoảng cách và mô hình chủ đề ẩn
3.2.1. Mô hình biểu diễn văn bản theo đồ thị khoảng cách
Mục này trình bày về biểu diễn dữ liệu theo đồ thị khoảng cách [Aggarwal13]. Luận án giới thiêu một số phát hiện so sánh biểu diễn dữ liệu văn bản theo n-gram và theo đồ thị khoảng cách.
3.2.2. Mô hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo
đồ thị khoảng cách chủ đề ẩn
Mô hình chủ đề ẩn [Blei03, Blei12] được sử dụng hiệu quả trong
nhiều bài toán, khai thác được các đặc trưng ngữ nghĩa ẩn, đặc trưng
tổng quát trong tài liệu. Bên cạnh đó, mô hình đồ thị khoảng cách
[Aggarwal13] biểu diễn được thông tin ở bậc cao bao gồm các đặc
trưng tần suất, các đặc trưng trật tự và khoảng cách giữa các từ trong
văn bản.
Luận án đề xuất tiếp cận làm giàu đặc trưng kết hợp hai mô hình
theo hướng khai thác đặc trưng về chủ đề ẩn trong các tài liệu, sau đó
sử dụng đồ thị khoảng cách biểu diễn cấu trúc kết nối giữa các chủ đề
(thay vì cấu trúc từ như trong [Aggarwal13]) thể hiện ở Bước 1, 2
13
trong pha huấn luyện mô hình nhằm khai thác các thông tin về tần suất
chủ đề, khoảng cách giữa các chủ đề, thứ tự giữa các chủ đề… làm
giàu thêm đặc trưng cho mô hình.
Phát biểu bài toán như đã trình bày tại mục 3.1.2. Mô hình giải
-
-
Bước 1: Xây dựng mô hình chủ đề ẩn LDA trên tập DU và biểu diễn câu chủ đề trên tập dữ liệu Dtrain Bước 2: Biểu diễn đồ thị khoảng cách trên câu chủ đề trên tập Dtrain Bước 3: Xây dựng bộ phân lớp đa nhãn
-
quyết bài toán thể hiện ở Quy trình 3.2.và Hình 3.2. Pha 1: Huấn luyện mô hình
Pha 2: Phân lớp đa nhãn sử dụng mô hình huấn luyện
-
-
Bước 1: Xây dựng tập đặc trưng dựa trên mô hình chủ đề ẩn và biểu diễn đồ thị khoảng cách cho tập Dtest Bước 2: Phân lớp và đánh giá hiệu quả của mô hình Quy trình 3.2. Thủ tục giải quyết bài toán
Hình 3.2. Mô hình phân lớp đa nhãn dựa trên đồ thị khoảng cách và mô hình chủ đề ẩn.
3.2.3. Ứng dụng phân lớp đa nhãn đánh giá khách sạn
Mô hình được ứng dụng giải quyết bài toán đánh giá danh tiếng
khách sạn như trình bày ở mục 3.1.3. Đầu tiên, xây dựng các mô hình chủ
14
đề ẩn LDA với số lượng chủ đề ẩn khác nhau là 10, 15, 25 50 và 100.
Bảng 3.2. Kết quả mô hình đề xuất Dựa trên mô hình chủ đề ẩn, chuyển đổi dữ liệu biểu diễn theo từ sang biểu diễn câu chủ đề. Xây dựng mô hình đồ thị khoảng cách trên câu chủ đề với số bậc khác nhau lần lượt là: 0,1,2,3
Kết quả phân lớp thể hiện ở Bảng 3.2 cho thấy mô hình đề xuất cho kết quả tốt hơn phương pháp cơ sở sử dụng đặc trưng tần suất xuất hiện theo mô hình không gian vectơ và tốt hơn phương pháp biểu diễn sử dụng mô hình đồ thị khoảng cách trên tập từ. 3.3. Kết luận chương 3
Chương 3 đã trình bày hai phương pháp biểu diễn dữ liệu cho phân lớp đa nhãn bao gồm mô hình biểu diễn dựa trên mô hình chủ
15
đề ẩn LDA và mô hình biểu diễn dựa trên đồ thị khoảng cách kết hợp chủ đề ẩn LDA. Các kết quả nghiên cứu trong Chương 3 được công [PTNgan3, PTNgan4]. Chương 4 KỸ THUẬT BÁN GIÁM SÁT PHÂN LỚP ĐA NHÃN VĂN BẢN TIẾNG VIỆT
4.1. Tiếp cận phân cụm bán giám sát
Mục này giới thiệu về kỹ thuật phân cụm bán giám sát nói chung
gồm tiếp cận dựa trên ràng buộc và tiếp cận dựa trên khoảng cách. 4.2. Mô hình phân lớp đa nhãn bán giám sát 4.2.1. Phát biểu bài toán phân lớp đa nhãn bán giám sát
Phát biểu bài toán phân lớp đa nhãn bán giám sát theo tiếp cận
phân cụm bán giám sát được thể hiện như sau:
Gọi D = {D , D } là tập văn bản, trong đó D và D tương ứng là tập dữ liệu đã gán nhãn và tập dữ liệu chưa gán nhãn, trong đó L là tập bao gồm q nhãn được định nghĩa trước L = l , l , … , l ;
Trong bước huấn luyện, mục tiêu là xây dựng một phân hoạch C
liệu D = {D , D }, C = {C , … , C }
C dữ tập ( ) (1 ≤ i ≤ m), trong đó, ⋃ ( ), … , d| |
và trên = D và C ∩ C = d C = ∅ (1 ≤ i ≠ j ≤ m). Các văn bản trong mỗi hoạch C được gán cùng nhãn cụm l . Sau khi thu được phân hoạch C, chúng tôi xây dựng mô hình phân
lớp sử dụng phương pháp tìm kiếm láng giềng gần nhất để dự đoán tập
nhãn cho các dữ liệu không nhãn theo công thức.
(4.1) l(d ) = l
Trong đó, C = arg min dis d , c , c là tâm cụm C và dis(. ) là độ đo khoảng cách được sử dụng để xác định độ tương tự của dữ liệu. Theo đó, văn bản chưa gán nhãn d sẽ được gán nhãn của cụm C là cụm gần nhất với d . Mô hình đã tận dụng được dữ liệu chưa gán nhãn đưa vào quá trình phân hoạch và xây dựng mô hình phân lớp f
16
để dự đoán nhãn cho các dữ liệu không nhãn d . 4.2.2. Thuật toán phân lớp đa nhãn dựa trên kỹ thuật phân cụm bán giám sát
Ý tưởng của thuật toán được phát triển từ tiếp cận khai thác đặc
trưng riêng nhãn là đặc trưng mang tính chất phân biệt của một nhãn
trong LIFT do M. L. Zhang và L. Wu đề xuất [Zhang15] và tiếp cận về
phân cụm bán giám sát TESC do W. Zhang và cộng sự đề xuất
[Zhang15]. Trong khi việc xây dựng tập đặc trưng riêng nhãn trong
LIFT dựa trên tập âm, dương (tập chứa nhãn và không chứa nhãn),
tiếp cận của luận có sự khác biệt trong phân chia tập dữ liệu kết hợp
chiến thuật tham lam, tập đặc trưng riêng biệt được tạo ra không chỉ
cho một nhãn mà có thể là cho cả một tập nhãn. Trong khi LIFT sử
dụng kỹ thuật phân cụm giám sát (Kmeans), luận án sử dụng một kỹ
thuật phân cụm bán giám sát TESC nhằm tận dụng được nguồn tài
nguyên không nhãn phong phú để nâng cao thực thi của mô hình.
TESC nguyên thủy được sử dụng cho dữ liệu đơn nhãn, do đó thuật
toán đề xuất đã có những bước chuyển đồi thích hợp mà không làm
mất tính chất dữ liệu đa nhãn. Sau khi phân cụm dữ liệu, bước phân
lớp dựa trên kỹ thuật láng giềng gần nhất để gán nhãn của cụm gần
nhất cho dữ liệu không nhãn.
Mô hình gồm hai bước: Bước 1 – phân cụm dữ liệu. Bản chất là xây
dựng tập đặc trưng riêng biệt cho các nhãn theo trình tự nhãn chiếm ưu
thế. Bước 2 – phân lớp nhằm xác định tập nhãn cho dữ liệu dựa trên kỹ
thuật láng giềng gần nhất khai thác tập nhãn của cụm láng giềng gần nhất.
Thuật toán phân cụm được đặt tên là MULTICSLearn(.) được
trình bày theo dạng giả mã (pseudo-code) như sau: ( , 1, 2, ) Đầu vào: : Tập dữ liệu có nhãn và không nhãn. = { , }, Trong đó
17
và lần lượt là tập dữ liệu có nhãn và không nhãn. Khởi tạo ban đầu là toàn bộ tập dữ liệu huấn luyện. : tập nhãn mặc định cho tất cả dữ liệu trong . Khởi tạo ban đầu là tập rỗng. : tập nhãn (ngoài ) có thể thêm vào dữ liệu trong ( = \ ). Khởi tạo ban đầu là tập tất cả các nhãn Đầu ra: : tập các cụm được gán nhãn.
1. Gọi là một nhãn trong tập có tần xuất xuất hiện
lớn nhất trong tập dữ liệu
2. Xây dựng tập nhãn giả ∗ = { , , }, trong đó ← ∪ { },