ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lương Thái Lê
Phân tích ý định từ văn bản ngắn, trực tuyến tiếng Việt
LUẬN ÁN TIẾN SỸ HỆ THỐNG THÔNG TIN
Hà Nội - 2021
LỜI CAM ĐOAN
Nghiên cứu sinh (NCS) xin cam đoan luận án Phân tích ý định
từ văn bản ngắn, trực tuyến tiếng Việt là công trình nghiên cứu của
riêng NCS. Các số liệu, kết quả được trình bày trong luận án là hoàn toàn
(cid:4) NCS đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu
trung thực và chưa từng được công bố trong bất kỳ một công trình nào khác.
liên quan trong và ngoài nước. Ngoại trừ các tài liệu tham khảo này,
(cid:4) Trong các công trình khoa học được công bố liên quan đến luận án, NCS
luận án hoàn toàn là công việc của riêng NCS.
đã thể hiện rõ và chính xác đóng góp của các đồng tác giả và những gì
do NCS đã thực hiện.
Tác giả:
Hà Nội:
i
LỜI CẢM ƠN
Lời đầu tiên, tôi xin được bày tỏ sự biết ơn sâu sắc đến PGS.TS. Phan Xuân Hiếu, cán bộ hướng dẫn khoa học, người đã trực tiếp định hướng và giúp đỡ tôi trong suốt quá trình nghiên cứu và thực hiện luận án. Thầy không chỉ truyền đạt cho tôi những kiến thức quan trọng về học thuật mà còn chia sẻ cho tôi nhiều kinh nghiệm quý giá trong con đường nghiên cứu khoa học. Một vinh dự lớn cho tôi được học tập, nghiên cứu dưới sự hướng dẫn của Thầy.
Tôi xin bày tỏ sự biết ơn chân thành đến các Thầy, Cô trong Bộ môn Hệ thống thông tin, đặc biệt là PGS.TS. Hà Quang Thụy cùng các thành viên của Phòng thí nghiệm Khoa học Dữ liệu và Công nghệ Tri thức vì sự giúp đỡ cũng như những đóng góp chuyên môn hữu ích của các Thầy Cô cho luận án.
Tôi xin trân trọng cảm ơn Khoa Công nghệ Thông tin, Phòng Đào tạo và Ban Giám hiệu Trường Đại học Công nghệ đã tạo điều kiện thuận lợi cho tôi trong suốt quá trình học tập và thực hiện luận án.
Tôi cũng bày tỏ sự biết ơn đến Ban Giám hiệu, Ban Chủ nhiệm Khoa, và các đồng nghiệp của tôi tại Khoa Công nghệ Thông tin - Trường Đại học Giao thông Vận tải vì đã tạo điều kiện về thời gian, tài chính và đã luôn cổ vũ, hỗ trợ tôi trong suốt quá trình nghiên cứu. Bên cạnh đó, tôi cũng xin gửi lời cảm ơn đến PGS.TS. Trần Văn Long, cán bộ đồng hướng dẫn luận án của tôi, về những giúp đỡ hữu ích cho luận án.
Tôi không thể quên cảm ơn những cộng sự của tôi trong nhóm nghiên cứu MDN–Team, những người đã đồng hành, sát cánh cùng tôi trong suốt quá trình nghiên cứu, hoàn thành luận án, và tôi sẽ luôn ghi nhớ điều đó. Ngoài ra, tôi muốn cảm ơn tất cả những người bạn của tôi vì sự động viên chia sẻ bất cứ khi nào tôi cần.
Cuối cùng, tôi xin bày tỏ lòng biết ơn vô hạn đối với bố mẹ, chồng, con và gia đình, những người đã luôn ủng hộ và yêu thương tôi một cách vô điều kiện. Nếu không có sự ủng hộ của gia đình và chồng con, tôi không thể hoàn thành được luận án này.
ii
Mục lục
Lời cam đoan i
Lời cảm ơn ii
Mục lục ii
Danh mục các từ viết tắt vi
Danh mục các bảng viii
Danh mục các hình vẽ x
Mở đầu 1
Chương 1. Tổng quan về ý định và phân tích ý định
1.1 Ý định và thể hiện ý định trong ngôn ngữ . . . . . . . . . . . . 1.2 Ý định trong văn bản trực tuyến . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Phân tích ý định: bối cảnh khoa học 1.3.1 Phân tích và xác định ý định từ truy vấn tìm kiếm . . . 1.3.2 Phân tích ý định trong các bài đăng . . . . . . . . . . . . 1.4 Một số kỹ thuật khai phá dữ liệu và mô hình học máy . . . . . 1.4.1 Cơ bản về kỹ thuật phân lớp . . . . . . . . . . . . . . . . 1.4.2 Cơ bản về kỹ thuật trích xuất thông tin . . . . . . . . . 1.4.3 Cơ bản về mạng nơ ron . . . . . . . . . . . . . . . . . . . 1.5 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 10 12 14 16 20 21 21 23 25 30
Chương 2. Phân tích ý định từ văn bản trực tuyến 2.1 Phân tích ý định từ văn bản trực tuyến tiếng Việt
. . . . . . . 2.1.1 Xây dựng dữ liệu thực nghiệm . . . . . . . . . . . . . . . 2.1.2 Khó khăn - Thách thức . . . . . . . . . . . . . . . . . . . 2.2 Định nghĩa ý định người dùng: bối cảnh khoa học . . . . . . . . 2.2.1 Định nghĩa ý định người dùng theo tiếp cận từ điển . . . 2.2.2 Định nghĩa ý định người dùng theo hướng cấu trúc . . . 31 31 33 36 38 38 39
iii
2.3 Định nghĩa ý định hướng miền quan tâm . . . . . . . . . . . . . 2.3.1 Định nghĩa quan điểm của Bing Liu . . . . . . . . . . . . 2.3.2 Định nghĩa ý định của Bing Liu . . . . . . . . . . . . . . 2.3.3 Định nghĩa ý định hướng miền quan tâm của luận án . . 2.4 Tiến trình ba pha phân tích và xác định ý định . . . . . . . . . 2.5 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 40 41 42 46 50
Chương 3. Phát hiện ý định và xác định miền quan tâm của
ý định 51
3.1 Nghiên cứu trên thế giới về phát hiện ý định và xác định miền quan tâm của ý định . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 Phát hiện bài đăng trực tuyến mang ý định . . . . . . . 3.1.2 Xác định miền quan tâm của ý định . . . . . . . . . . . . 3.2 Phát hiện ý định . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . 3.2.2 Mô hình giải quyết bài toán . . . . . . . . . . . . . . . . 3.2.3 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 3.2.4 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 3.2.5 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 3.3 Xác định miền quan tâm của ý định . . . . . . . . . . . . . . . . 3.3.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . 3.3.2 Mô hình giải quyết bài toán . . . . . . . . . . . . . . . . 3.3.3 Xây dựng tập các miền quan tâm . . . . . . . . . . . . . 3.3.4 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 3.3.5 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 3.3.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 3.4 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 52 53 55 55 56 60 61 62 65 65 67 70 71 73 73 77
Chương 4. Phân tích và trích chọn nội dung ý định
79 79 81 83 84 84 84
4.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Nghiên cứu trên thế giới về trích chọn nội dung ý định . . . . . 4.3 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Trích chọn ý định theo tiếp cận học máy thống kê và học sâu . 4.4.1 Xây dựng bộ nhãn thực nghiệm . . . . . . . . . . . . . . 4.4.2 Trích chọn ý định với phương pháp CRFs . . . . . . . . . 4.4.3 Trích chọn ý định với phương pháp học sâu Bi–LSTM– CRFs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.4 Độ đo đánh giá mô hình thực nghiệm . . . . . . . . . . . 4.4.5 Thời gian thực nghiệm với mỗi mô hình . . . . . . . . . . 88 92 93
iv
4.4.6 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 4.4.7 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 4.4.8 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 4.5 Trích chọn ý định dựa trên kết hợp các mô hình học sâu . . . .
93 95 96 99 4.5.1 Kỹ thuật học kết hợp (ensemble learning) . . . . . . . . 100 4.5.2 Xây dựng bộ nhãn thực nghiệm . . . . . . . . . . . . . . 101 4.5.3 Mô hình giải quyết bài toán . . . . . . . . . . . . . . . . 101 4.5.4 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 109 4.5.5 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 110 4.5.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 113 4.6 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 121 5.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 5.2 Nghiên cứu trên thế giới về thích nghi miền trong xác định ý
định . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 5.3 Trích chọn nội dung ý định theo tiếp cận đa miền quan tâm . . 125 5.3.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . 125 5.3.2 Xây dựng bộ nhãn không phụ thuộc miền . . . . . . . . 126 5.3.3 Mô hình trích xuất ý định đa miền quan tâm . . . . . . 131 5.3.4 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 135 5.3.5 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 136 5.3.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 138 5.3.7 Mô phỏng mô hình trích xuất ý định đa miền quan tâm 144 5.4 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
Kết luận 148
Danh mục các công trình khoa học 150
Tài liệu tham khảo 151
Phụ lục 159
v
DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết tắt Dạng đầy đủ Diễn giải/Tạm dịch
Bi-LSTM
Bidirectional Long Short Term Memory Mạng bộ nhớ dài ngắn hai chiều
Bi-LSTM-CRFs Bidirectional Long Short
Mạng bộ nhớ dài ngắn hai chiều trường ngẫu nhiên có điều kiện Term Memory - Conditional Random Field
CNN Convolutional Neural Network Mạng nơ ron tích chập
CRFs Conditional Random Fields
Trường ngẫu nhiên có điều kiện
EI Explicit Intent Ý định rõ
EMD
Entity Mentioned Detection Xác định thực thể được nhắc đến
IE Information Extraction Trích xuất thông tin
IH Intent Head Đầu của ý định
II Implicit Intent Ý định ẩn
IM Intent Modifiers Bổ nghĩa của ý định
L-BFGS
Giới hạn bộ nhớ BFGS
Limited-memory Broyden-Fletcher Goldfarb Shanno
LSTM Long Short Term Memory
Mạng bộ nhớ ngắn dài
vi
ME Maximum Entropy Cực đại entropy
NI Non Intent Không có ý định
NER Named Entity Ricognition Nhận diện thực thể có tên
POS Part Of Speech Thành phần của câu
RNN Recurrent Neural Network Mạng nơ ron hồi quy
SVMs Support Vector Machines Máy véc tơ hỗ trợ
vii
DANH MỤC CÁC BẢNG
1.1 Ví dụ về văn bản trực tuyến chứa và không chứa ý định . . . . 13
61 66
69 72
74
3.1 Đặc trưng dùng để huấn luyện mô hình lọc bài đăng mang ý định người dùng . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Ý định của người dùng thuộc các miền quan tâm khác nhau . . 3.3 Ví dụ về một vài đặc trưng từ điển có trọng số cao cho mỗi miền quan tâm . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Mười ba lớp miền quan tâm của ý định và ví dụ . . . . . . . . . 3.5 Precision, recall và F1-score của fold tốt nhất khi dùng SVMs và ME . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6 Độ chính xác của từng lớp miền quan tâm khi sử dụng phương pháp CNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
85 85 87 88 93
98
4.1 Bộ 13 nhãn cho miền quan tâm Bất động sản . . . . . . . . . . 4.2 Bộ 9 nhãn cho miền quan tâm Mỹ phẩm & Làm đẹp . . . . . . 4.3 Ví dụ minh họa cho đặc trưng dạng biểu thức chính quy . . . . 4.4 Đặc trưng từ điển . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5 Gán nhãn dữ liệu với bộ nhãn tương ứng . . . . . . . . . . . . . 4.6 Trung bình F1-score với mỗi mô hình thực nghiệm thuộc miền quan tâm Mỹ phẩm & Làm đẹp . . . . . . . . . . . . . . . . . . 4.7 Trung bình F1-score với mỗi mô hình thực nghiệm thuộc miền 98 quan tâm Bất động sản . . . . . . . . . . . . . . . . . . . . . . . 4.8 Bộ 18 nhãn của miền Bất động sản (BĐS) . . . . . . . . . . . . 110 . . . . . . . . . . . . . . . . . . . 111 4.9 Bộ 15 nhãn của miền Du lịch . . . . . . . . . . . . . . . . . 112 4.10 Bộ gồm 17 nhãn của miền Xe cộ 4.11 Độ chính xác đối với từng nhãn thu được trên miền Du lịch khi
sử dụng phương pháp học kết hợp mà luận án đề xuất . . . . . 116
4.12 Độ chính xác đối với từng nhãn thu được trên miền Xe cộ khi
sử dụng phương pháp kết hợp mà luận án đề xuất . . . . . . . 118
viii
4.13 Độ chính xác đối với từng nhãn thu được trên miền Bất động
sản khi sử dụng phương pháp kết hợp mà luận án đề xuất . . . 119 4.14 Một số ví dụ về nhãn mô tả . . . . . . . . . . . . . . . . . . . . 120
5.1 Bộ 18 nhãn của miền Bất động sản (BĐS) . . . . . . . . . . . . 127 . . . . . . . . . . . . . . . . . . . 128 5.2 Bộ 15 nhãn của miền Du lịch 5.3 Bộ gồm 17 nhãn của miền Xe cộ . . . . . . . . . . . . . . . . . 129 5.4 Bộ 10 nhãn không phụ thuộc miền . . . . . . . . . . . . . . . . . 130 5.5 Sử dụng bộ nhãn không phụ thuộc miền trên một số miền quan
tâm khác . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
5.6 Gán nhãn dữ liệu lần lượt với bộ nhãn riêng và bộ nhãn không
phụ thuộc miền . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
5.7 Kết quả F1 trung bình đối với mỗi miền quan tâm cụ thể khi sử dụng bộ nhãn riêng và bộ nhãn không phụ thuộc miền tương ứng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
5.8 Kết quả tốt nhất khi trích xuất từng nhãn trên miền Du lịch
với bộ nhãn không phụ thuộc miền . . . . . . . . . . . . . . . . 139
5.9 Kết quả tốt nhất khi trích xuất từng nhãn trên miền Du lịch
với bộ nhãn riêng . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
5.10 Kết quả tốt nhất khi trích xuất từng nhãn trên miền Xe cộ và
Bất động sản với bộ nhãn riêng . . . . . . . . . . . . . . . . . . 141
5.11 Kết quả tốt nhất khi trích xuất tập 32 nhãn riêng đối với tổ
hợp 3 miền quan tâm. . . . . . . . . . . . . . . . . . . . . . . . . 145
5.12 Kết quả tốt nhất khi trích xuất tập 10 nhãn không phụ thuộc
miền đối với tổ hợp 3 miền quan tâm. . . . . . . . . . . . . . . . 146 5.13 Ví dụ gán nhãn cho miền Bất động sản (BĐS) . . . . . . . . . . 159 5.14 Ví dụ gán nhãn cho miền Du lịch . . . . . . . . . . . . . . . . . 160 . . . . . . . . . . . . . . . . . 161 5.15 Ví dụ gán nhãn cho miền Xe cộ
ix
DANH MỤC CÁC HÌNH VẼ
1.1 Quy tắc gán nhãn BIO . . . . . . . . . . . . . . . . . . . . . . . 1.2 Chuỗi trạng thái tương ứng với chuỗi quan sát . . . . . . . . . . 1.3 Mô hình mạng nơ ron feed − forward nhiều tầng . . . . . . . . . 1.4 Đồ thị tính toán trong kiến trúc RNNs . . . . . . . . . . . . . . 1.5 Kiến trúc một tế bào trong mô hình LSTM [46] . . . . . . . . . 24 25 27 28 29
32 34 47
2.1 Một bài đăng mang ý định rõ trên phương tiện truyền thông xã hội Việt Nam . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Ví dụ minh họa cho việc tiền xử lý dữ liệu . . . . . . . . . . . . 2.3 Quy trình ba pha Phân tích và xác định ý định người dùng . . 2.4 Ví dụ cụ thể một quá trình phân tích và xác định ý định người dùng trực tuyến . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
57 3.1 Mô phỏng mô hình phân lớp nhị phân với CNN . . . . . . . . 3.2 Độ chính xác F1 khi đánh giá chéo 4-fold với phương pháp ME 63 3.3 Độ chính xác F1 khi đánh giá chéo 4-fold với phương pháp SVMs 63 3.4 Độ chính xác của từng lớp con khi sử dụng phương pháp SVMs 64 3.5 Độ chính xác F1 khi đánh giá chéo 4-fold với phương pháp CNN 65 3.6 Sơ đồ khối thể hiện mô hình Xác định miền quan tâm của ý định 68 3.7 Độ chính xác F1 khi đánh giá chéo 5-fold với ME và SVMs 75 . . 3.8 Độ chính xác trung bình F1 đối với mỗi miền quan tâm của ý định . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.9 Độ chính xác trung bình F1 khi đánh giá chéo 5-fold với CNN 76 76
4.1 Một số mẫu intention phrase [16] . . . . . . . . . . . . . . . . . 4.2 Bản thể mẫu ngữ nghĩa của ý định mua sắm - CI pattern [36] . 4.3 Cửa sổ trượt kích thước 5 để xây dựng đặc trưng từ vựng . . . 4.4 Kiến trúc mô hình Bi-LSTM-CRFs . . . . . . . . . . . . . . . . 4.5 Véc tơ mã hóa được huấn luyện trước của từ “có” . . . . . . . . 4.6 Mô hình mã hóa dựa vào ký tự . . . . . . . . . . . . . . . . . . . 4.7 Mô phỏng mô hình mạng nơ ron sử dụng kỹ thuật cắt tỉa . . . 4.8 Chuyển đổi sang chuẩn B-I-O . . . . . . . . . . . . . . . . . . . 82 83 86 89 90 91 92 94
x
phẩm & Làm đẹp 97
97
4.9 Trung bình F1-score của mỗi fold đối với miền quan tâm Mỹ . . . . . . . . . . . . . . . . . . . . . . . . . . 4.10 Trung bình F1-score của mỗi fold đối với miền quan tâm Bất động sản . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.11 Độ chính xác trung bình F1 đối với mỗi nhãn trong miền quan
tâm Mỹ phẩm & Làm đẹp . . . . . . . . . . . . . . . . . . . . . . 100
4.12 Độ chính xác trung bình F1 đối với mỗi nhãn trong miền quan
tâm Bất động sản . . . . . . . . . . . . . . . . . . . . . . . . . . 100 4.13 Mô hình trích chọn ý định dựa trên kết hợp các mô hình học sâu 102 4.14 Sơ đồ khối thể hiện pha huấn luyện của mô hình học kết hợp
không chia sẻ tài nguyên . . . . . . . . . . . . . . . . . . . . . . 103
4.15 Sơ đồ khối thể hiện pha đoán nhận của mô hình học kết hợp
không chia sẻ tài nguyên . . . . . . . . . . . . . . . . . . . . . . 104
4.16 Mô hình trích chọn ý định dựa trên ý tưởng học kết hợp trong ngữ cảnh học sâu với tầng biểu diễn từ dựa trên ký tự được chia sẻ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
4.17 Trung bình F1 qua 5 lần chạy khác nhau của mỗi mô hình đối
với miền Bất động sản . . . . . . . . . . . . . . . . . . . . . . . . 114
4.18 Trung bình F1 qua 5 lần chạy khác nhau của mỗi mô hình đối
với miền Du lịch . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
4.19 Trung bình F1 qua 5 lần chạy khác nhau của mỗi mô hình đối
với miền Xe cộ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
5.1 Mô hình trích xuất ý định đa miền quan tâm . . . . . . . . . . 132 5.2 Mô hình Bi-LSTM trích xuất ý định đa miền quan tâm . . . . 134 5.3 Kết quả F1 trung bình khi áp dụng các mô hình CRFs, Bi- LSTM, Bi-LSTM-CRFs lần lượt trên 1, 2 và 3 miền quan tâm với bộ nhãn chung (General) và bộ nhãn riêng (Specific) tương ứng. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
5.4 Kết quả trung bình F1 trên tổ hợp 3 miền quan tâm khi áp
dụng lần lượt 3 mô hình Bi-LSTM-CRFs, Bi-LSTM, CRFs . . . 143 5.5 Giao diện mô hình trích xuất ý định người dùng . . . . . . . . . 146
xi
Mở đầu
Trong hơn một thập kỷ qua, với sự phát triển bùng nổ của blog, diễn đàn, và mạng xã hội, người dùng Internet nói chung và người dùng Việt nói riêng đã hình thành thói quen chia sẻ thông tin thường xuyên trên các kênh truyền thông trực tuyến này. Theo đó, người dùng thường đăng các dòng trạng thái, bài viết, bình luận thể hiện suy nghĩ, quan điểm, sở thích, tình cảm, và đặc biệt là chia sẻ những ý định mà họ muốn thực hiện trong tương lai với mong muốn nhận được phản hồi, tư vấn của những người dùng khác. Ý định của người dùng có thể về bất cứ điều gì như dự tính mua điện thoại, thuê nhà, vay ngân hàng, đi du lịch, học ngoại ngữ, khám chữa bệnh, hay đơn giản chỉ là nghe nhạc, xem phim. Ngày nay, chúng ta dễ dàng bắt gặp những chia sẻ như “nhà em đang tìm chiếc suv rộng rãi, bền bỉ, ăn ít xăng để đi làm và cả nhà đi chơi cuối tuần, bác nào có crv hoặc santafe lướt thì inbox em” hay “mình đang tính tổ chức chuyến du lịch cho cả phòng vào hè này. Bọn mình đi ĐN, tầm tháng 7, khoảng 20 người cả trẻ em. Mẹ nào có kinh nghiệm đặt tour thì tư vấn mình nhé, cảm ơn các mẹ nhiều”. Những bài đăng hàm chứa ý định như trên thể hiện một cách rõ ràng mong muốn, nhu cầu và dự tính của người viết. Từ đó nếu các công ty du lịch và hãng hàng không nắm bắt được nhu cầu, dự định nghỉ hè của các khách hàng tiềm năng, họ có thể điều chỉnh kế hoạch kinh doanh phù hợp hơn với thị trường. Không chỉ du lịch, các lĩnh vực khác như bán lẻ, bất động sản, tài chính - ngân hàng, bảo hiểm, y tế, giáo dục . . . đều được hưởng lợi. Rõ ràng, việc tự động thu thập, phân tích và hiểu được ý định của người dùng thông qua những gì họ chia sẻ là chìa khoá quan trọng giúp chúng ta nắm bắt nhu cầu khách hàng nhanh hơn cũng như định vị các khách hàng tiềm năng hiệu quả hơn. Vì thế, phân tích và hiểu ý định từ các văn bản trực tuyến là vấn đề có nhiều ý nghĩa thực tiễn và có tính ứng dụng cao, đặc biệt đối với các hệ thống thương mại điện tử, các hệ thống khuyến nghị, quảng cáo trực tuyến...
1
Mở đầu 2
Tuy vậy, phân tích và xác định một cách đầy đủ, chính xác ý định từ văn bản là vấn đề khó trong lĩnh vực xử lý và hiểu ngôn ngữ tự nhiên. Thứ nhất, ý định vốn rất đa dạng vì một người có thể thể hiện ý định về bất cứ điều gì tuỳ thuộc vào nhu cầu, mong muốn của họ. Thứ hai, ngôn ngữ thể hiện ý định có thể gây ra nhập nhằng. Ví dụ, câu “mình đang có hoa quả ngon, mẹ nào muốn mua thì inbox nhé ” có ý định là bán hoa quả, nhưng sự hiện diện của cụm từ muốn mua có thể đánh lừa máy tính. Thứ ba, ý định trong văn bản có thể ở dạng ẩn (implicit) hoặc gián tiếp. Ví dụ “dòng 7 chỗ xe nào chạy êm nhỉ ? ” không thể hiện rõ người viết muốn mua xe hay chỉ đơn thuần tìm hiểu thông tin. Thứ tư, có thể tồn tại nhiều ý định ngay trong một câu văn. Ngoài ra, việc các văn bản trên diễn đàn, mạng xã hội thường dùng từ địa phương, tiếng lóng, từ viết tắt, ngôn ngữ “teen” cũng gây ra không ít khó khăn cho việc phân tích ý định. Vì những thử thách trên, cộng đồng nghiên cứu đang từng bước tìm cách giải quyết vấn đề này ở những phạm vi, mức độ, hay miền lĩnh vực (miền dữ liệu) khác nhau. Chính vì vậy, bài toán phân tích và hiểu ý định từ văn bản nói chung và văn bản truyền thông xã hội trực tuyến nói riêng còn thiếu một cách tiếp cận xuyên suốt và đặc biệt là chưa có giải pháp phù hợp cho ba vấn đề trọng tâm sau đây:
1) Đề xuất định nghĩa hình thức về ý định có khả năng khái quát được cấu trúc ý định vốn được thể hiện rất đa dạng trong văn bản.
Để phân tích và xác định ý định một cách hiệu quả và chính xác, trước tiên chúng ta cần hiểu rõ ý định là gì. Ý định, theo cách hiểu chung nhất, là những gì con người dự định sẽ thực hiện trong tương lai. Theo Bratman (1987), “Ý định là trạng thái của trí não biểu thị một sự cam kết sẽ thực hiện một hoặc một chuỗi các hành động trong tương lai. Ý định liên quan đến các hoạt động đầu óc như lên kế hoạch hay sắp đặt chủ ý.” [13]. Tuy vậy định nghĩa này mới chỉ ở dạng mô tả. Để máy tính có thể tự động phân tích và hiểu được ý định, chúng ta cần những định nghĩa ở dạng hình thức hơn. Theo hướng này, Liu mô tả ý định là một cấu trúc gồm năm thành phần bao gồm hành động ý định (intended–action), đích của ý định (intention–target), độ mạnh của ý định (intention–intensity), chủ thể của ý định (holder), và thời điểm phát biểu ý định (time) [10]. Dù vậy, định nghĩa này chỉ mới phù hợp với các câu văn mang ý định ở dạng đơn giản như “tôi muốn mua một chiếc
Mở đầu 3
iphone 11 pro” với muốn mua là intended–action, iphone 11 pro là intention– target và tôi là holder. Trong thực tế, các câu mang ý định vốn đa dạng và phức tạp hơn. Ngoài hành động và đích của ý định, miền quan tâm, ngữ cảnh xuất hiện, cùng các thuộc tính hay ràng buộc của ý định là những khía cạnh cần thiết được xem xét. Chẳng hạn, với văn bản được đăng trên trang www.webtretho.com như sau:“Em cũng đang cần thuê phòng trọ khép kín cho 2 chị em gái đều đã đi làm(1 nvvp & 1 giáo viên ĐH). Em cần phòng giá khoảng 1tr7, ở lâu dài khu vực CẦU GIẤY - LÁNG - TRẦN DUY HƯNG - THANH XUÂN. Cả nhà có thông tin gì thì cho em biết với nhé. Em muốn chuyển luôn cuối tuần này ạ. Liên hệ em Linh - 0988 428 197. Em đi làm nên chỉ cần chỗ ở yên tĩnh, thoáng, có internet, có nấu ăn, có chỗ để xe và an ninh tốt là được ạ. Cảm ơn cả nhà.”, ta có thể thấy rất nhiều thông tin cần trích xuất như: giá thuê, địa điểm phòng trọ, số điện thoại liên hệ... Vì thế, chúng ta cần có một định nghĩa, một cấu trúc đặc tả các thành phần của ý định cụ thể và bao quát hơn.
2) Mô hình hoá vấn đề phân tích và hiểu ý định theo một quy trình xuyên suốt với đầy đủ các bước phát hiện ý định, xác định miền quan tâm, và trích chọn nội dung cụ thể của ý định.
Như đã đề cập, ý định thể hiện trong văn bản rất đa dạng. Vì thế, các nghiên cứu trước đây thường tiếp cận vấn đề trong một phạm vi hoặc một lĩnh vực ứng dụng cụ thể. Theo đó, Li (2010) [67] phân tích ý định trong truy vấn tìm kiếm bằng việc xác định hai thành phần là trọng tâm của ý định (intent heads – IH) và bổ nghĩa của ý định (intent modifiers – IM). Ví dụ truy vấn “alice in wonderland 2010 cast” có IH là “cast” (diễn viên) và hai IM là “alice in wonderland ” (tên bộ phim) và “2010 ” (sản xuất năm 2010). IH là thành phần máy tìm kiếm cần tìm câu trả lời còn mỗi IM là một ràng buộc hay đặc điểm nào đó của truy vấn. Khi xác định được các thành phần IH và IM trong một câu truy vấn, hệ thống sẽ hiểu được ý định tìm kiếm của người dùng là gì. Heyrani–Nobari và cộng sự (2014) [76] phân tích ý định của các bài đăng trên diễn đàn thảo luận bằng cách xác định khía cạnh (aspect) và hành động (action) liên quan. Ví dụ khía cạnh có thể là “iphone” và hành động có thể là “nâng cấp”. Tác giả áp dụng một mô hình chủ đề để đồng thời xác định được cả hai loại thông tin này. Castellanos và cộng sự (2012) [16] phân tích ý định từ các văn bản trực tuyến bằng cách xác định cụm từ chứa ý định (intention phrase) và các thành phần khác của ý định (intention
Mở đầu 4
components). Theo tác giả, cụm chứa ý định được trích chọn bằng kỹ thuật bootstrapping, còn các thành phần khác của ý định được trích chọn bằng luật hoặc bằng kỹ thuật học máy như CRFs. Các công trình trên đã phân tích được ý định trong từng phạm vi và lĩnh vực cụ thể. Tuy vậy, chưa có công trình nào tiếp cận vấn đề phân tích ý định theo một quy trình tổng quát, xuyên suốt với đầy đủ các bước từ phát hiện (hay lọc) ý định, xác định miền quan tâm của ý định, và trích chọn nội dung cụ thể của ý định. Trong đó, mỗi bước cần được mô hình hoá thành bài toán phân loại, phân tích ngôn ngữ hoặc trích chọn thông tin phù hợp.
3) Phân tích và hiểu ý định trên đa miền quan tâm. Đặc biệt là khả năng mở rộng phân tích ý định cho các miền dữ liệu mới.
Theo đó, các nghiên cứu của Li (2010) [67], Castellanos và cộng sự (2012) [16], Chen và cộng sự (2013) [21], Heyrani–Nobari và cộng sự (2014) [76], Gupta và cộng sự (2014) [35], Wang và cộng sự (2015) [97], Kim và cộng sự (2016) [55], Shang (2017) [92] Labidi và cộng sự (2018) [65] đã đề xuất các phương pháp phù hợp cho từng điều kiện bài toán cụ thể. Tuy vậy, mỗi miền quan tâm (miền ứng dụng) sẽ có một tập thuộc tính hay ràng buộc ý định riêng. Ví dụ, các thuộc tính về ý định du lịch có thể bao gồm nơi đến, phương tiện, khách sạn, số lượng người . . . trong khi ý định mua nhà sẽ xem xét các khía cạnh loại hình bất động sản (nhà đất hay chung cư), địa điểm, diện tích, hướng nhà . . . . Việc mở rộng miền, học chuyển đổi từ miền này sang miền khác hay thiết kế cơ chế trích chọn thông tin ý định từ đa miền quan tâm là những vấn đề hầu như chưa được cộng đồng nghiên cứu xét đến. Một số ít nghiên cứu về vấn đề học chuyển đổi trong bài toán phân tích ý định hầu hết mới được khai thác trong những năm gần đây, cụ thể là của các tác giả Ngo và cộng sự (2017) [71], Song và cộng sự (2018) [93].
Ngoài ra, dù vấn đề phân tích và hiểu ý định từ văn bản gây được nhiều chú ý trong thời gian gần đây, cộng đồng nghiên cứu vẫn còn thiếu các tập dữ liệu gán nhãn làm chuẩn mực chung để thử nghiệm, so sánh, đánh giá các phương pháp. Đặc biệt, chưa có bất cứ tập dữ liệu tiếng Việt được gán nhãn chuẩn cho hướng nghiên cứu này. Theo hiểu biết của tác giả, luận án này là công trình đầu tiên đặt vấn đề phân tích và hiểu ý định trong văn bản tiếng Việt, cụ thể là cho các văn bản ngắn trên các kênh truyền thông xã hội trực tuyến. Vì thế, luận án xem thử thách về đặc thù ngôn ngữ, về việc thiếu dữ liệu đánh giá là một trong những nhiệm vụ cần giải quyết và vượt qua.
Mở đầu 5
Mục tiêu và nội dung nghiên cứu của luận án
Từ việc phân tích những vấn đề trọng tâm đề cập ở trên, luận án đặt ra
mục tiêu nghiên cứu chính như sau:
Mục tiêu nghiên cứu: Đề xuất và xây dựng các mô hình tự động phân tích ý định từ các văn bản (bài đăng/bình luận) tiếng Việt ngắn trên các phương tiện truyền thông xã hội trực tuyến.
Để đạt được mục tiêu nghiên cứu đề ra, luận án cần giải quyết và thực
hiện những nội dung nghiên cứu quan trọng sau đây:
1) Đề xuất định nghĩa và biểu diễn cấu trúc ý định: Trước tiên, luận án thực hiện tìm hiểu, khảo sát các định nghĩa về ý định của các nghiên cứu liên quan. Từ đó, luận án đề xuất một định nghĩa về ý định cũng như cách biểu diễn ý định phù hợp cho các văn bản trực tuyến tiếng Việt có độ dài ngắn.
2) Đề xuất tiến trình phân tích ý định cũng như cách thức mô hình hoá và giải quyết các bước cụ thể trong tiến trình đó : Tiến trình này bao hàm đầy đủ các bước từ phát hiện sự hiện diện của ý định (xác định văn bản chứa ý định), xác định miền quan tâm của ý định, và đặc biệt là trích chọn các thông tin cụ thể trong cấu trúc ý định.
3) Đề xuất phân tích và xác định ý định đa miền quan tâm: Luận án cần làm sáng tỏ những giả thuyết quan trọng về trích chọn thông tin ý định từ đa miền quan tâm cũng như mối tương quan giữa các mô hình, kết quả phân tích cho từng miền riêng lẻ và trên nhiều miền ? Liệu chúng ta có thể sử dụng dữ liệu và tri thức từ một miền đã có để phân tích trên các miền mới ? Một phần quan trọng của luận án sẽ tìm kiếm câu trả lời cho những câu hỏi này.
Bên cạnh các mục tiêu và nội dung nghiên cứu chính vừa nêu, một trong những động lực nghiên cứu của luận án là phân tích ý định cho văn bản truyền thông xã hội tiếng Việt. Theo hiểu biết của nghiên cứu sinh, luận án này cùng các công trình khoa học đã công bố là những nỗ lực đầu tiên để phân tích ý định người viết từ văn bản tiếng Việt một cách có hệ thống. Luận án xem xét các yếu tố như tính đa dạng về ngôn từ, về cách hành văn tiếng Việt. Và một khó khăn nữa luận án phải khắc phục là việc thiếu hoàn toàn dữ liệu gán nhãn ý định. Do đó, bên cạnh các phương pháp, kỹ thuật đề xuất, luận án sẽ xây dựng các tập ngữ liệu gán nhãn ý định để phục vụ cho thực nghiệm, đánh giá, so sánh cũng như chia sẻ với cộng đồng tạo tiền
Mở đầu 6
đề cho các nghiên cứu về sau.
Phạm vi và phương pháp nghiên cứu
Ý định thể hiện trong văn bản rất đa dạng. Việc phân tích đầy đủ, chính xác ý định của người viết cần thêm nhiều nghiên cứu từ cộng đồng. Luận án này hạn chế phạm vi và nội dung nghiên cứu như sau:
Dạng ý định: Luận án chỉ quan tâm các ý định tường minh hay còn gọi là ý định rõ (explicit intents). Luận án chưa xem xét phân tích các ý định ẩn (implicit intents). Luận án có thể xử lý trường hợp đa ý định trong văn bản, nhưng không xử lý trường hợp đa ý định trong cùng một câu hoặc các ý định có tính lồng nhau. Luận án cũng không xem xét khía cạnh về tính hiệu lực của ý định, nghĩa là một ý định có thể đề cập trong quá khứ và có thể đã hết hiệu lực nhưng vẫn được xem là hợp lệ.
Dạng dữ liệu: Dữ liệu văn bản mà luận án đề cập đều là các bài đăng, bình luận của người dùng trên các phương tiện truyền thông xã hội trực tuyến. Để ngắn gọn, luận án sử dụng thuật ngữ văn bản trực tuyến hoặc bài đăng. Độ dài mỗi văn bản trực tuyến cần phải từ 2 đến 500 từ. Trong phạm vi luận án này, khái niệm “một từ” (“one word” trong tiếng Anh) được hiểu tương đương với khái niệm “một âm tiết” trong tiếng Việt.
Về phương pháp nghiên cứu, luận án khảo sát những cách tiếp cận và phương pháp liên quan đến bài toán phân tích ý định đã được công bố trên thế giới. Tiếp đó, luận án đề xuất các mô hình, phương pháp để giải quyết các bài toán trong vấn đề phân tích và hiểu ý định từ văn bản, đồng thời nghiên cứu thực nghiệm để kiểm chứng đánh giá các đề xuất của luận án.
Các kết quả và đóng góp chính của luận án
Với các vấn đề đặt ra cùng các nội dung nghiên cứu đã nêu, luận án đạt
được một số kết quả và đóng góp chính như sau:
Thư nhất, luận án đã đề xuất định nghĩa về ý định rõ hướng miền quan tâm (explicit intent) phù hợp cho các văn bản truyền thông xã hội trực tuyến. Theo đó, ý định là một bộ năm (5–tuple) bao gồm (1) người đưa ra ý định (tức người viết), (2) thông tin ngữ cảnh của ý định, (3) miền lĩnh vực của ý định, (4) cụm từ khoá chỉ ý định, và (5) tập các thuộc tính hay ràng buộc
Mở đầu 7
của ý định. Luận án cũng đề xuất tiến trình phân tích và xác định ý định ba pha gồm ba bài toán: lọc ý định, xác định miền quan tâm của ý định, và trích chọn thông tin chi tiết của ý định. Các nội dung và kết quả này được trình bày trong công trình của Lương và cộng sự (2016a) [LTLe1].
Thứ hai, luận án đã mô hình hoá hai bài toán lọc văn bản chứa ý định và xác định miền quan tâm của ý định dưới dạng bài toán phân lớp nhị phân và bài toán phân lớp đa lớp. Luận án đã đề xuất các mô hình học máy và mô hình học sâu hiệu quả, phù hợp để giải quyết hai bài toán này. Các nội dung và kết quả này được trình bày trong ba công trình của Lương và cộng sự (2016a) [LTLe1], Lương và cộng sự (2016b) [LTLe2] và Lương (2020) [LTLe6].
Thứ ba, luận án đã mô hình hoá bài toán xác định các nội dung của ý định dưới dạng bài toán trích chọn thông tin trên dữ liệu chuỗi. Luận án đã đề xuất tập nhãn đặc trưng cho các nội dung ý định trong từng miền lĩnh vực. Các mô hình học máy thống kê cho dữ liệu chuỗi như CRFs, mô hình học sâu Bi– LSTM–CRFs được đề xuất để giải quyết bài toán này. Luận án đặc biệt chú trọng đến việc tích hợp các dạng thông tin, thuộc tính khác nhau, đặc trưng mang đặc thù ngôn ngữ tiếng Việt để nâng cao hiệu quả trích chọn thông tin ý định. Các kết quả này được trình bày trong công trình của Lương và cộng sự (2017) [LTLe3]. Luận án cũng đề xuất nâng cao hiệu quả trích chọn thông tin ý định dựa trên các mô hình học kết hợp (ensemble learning). Kết quả này được trình bày ở công trình của Lương và cộng sự (2019) [LTLe4].
Thứ tư, luận án đề xuất tiếp cận phân tích và xác định ý định đa miền quan tâm bằng cách đề xuất tập nhãn chung cho các miền dữ liệu. Luận án đã tiến hành thực nghiệm, so sánh đánh giá hiệu quả của hai cách tiếp cận phụ thuộc miền và độc lập miền cũng như thảo luận về ưu và nhược điểm của mỗi cách tiếp cận. Nội dung và kết quả này được trình bày trong công trình của Lương và cộng sự (2020) [LTLe5].
Ngoài các kết quả trên, luận án cũng đã xây dựng các bộ dữ liệu cho các bài toán như lọc ý định, xác định miền quan tâm của ý định, trích chọn thông tin ý định, trích chọn ý định độc lập miền . . . Dữ liệu được thu thập từ hàng ngàn bài đăng trên các phương tiện truyền thông trực tuyến tiếng Việt như diễn đàn, sàn thương mại điện tử, mạng xã hội. Các bộ dữ liệu được thiết kế và xây dựng cẩn thận để có thể dùng cho việc so sánh, đánh giá trong các
Mở đầu 8
nghiên về sau của nghiên cứu sinh và chia sẻ với cộng đồng nghiên cứu.
Các công trình khoa học của luận án được đánh chỉ mục bởi DBLP 1 và Google Scholar 2. Các công trình cũng đã bắt đầu được quan tâm và trích dẫn từ cộng đồng nghiên cứu.
Cấu trúc của luận án
Nội dung của luận án được chia thành năm chương chính như sau:
Chương 1, Tổng quan về ý định và phân tích ý định, giới thiệu tổng quan về ý định và thể hiện ý định trong ngôn ngữ cũng sơ lược về vấn đề phân tích và hiểu ý định trong văn bản. Theo đó, chương này đề cập các hướng nghiên cứu chính liên quan như xác định ý định trong câu truy vấn tìm kiếm, phân tích ý định trong ngôn ngữ nói và trong các văn bản ngắn. Phần cuối của chương trình bày một số cách tiếp cận và kỹ thuật học máy được áp dụng để phân tích và hiểu ý định.
Chương 2, Phân tích ý định từ văn bản trực tuyến, trình bày bài toán phân tích và hiểu ý định từ văn bản trực tuyến tiếng Việt. Theo đó, luận án sẽ trình bày các định nghĩa và cấu trúc của ý định người dùng, định nghĩa về miền quan tâm. Chương này cũng mô tả tiến trình ba pha được đề xuất để phân tích và xác định ý định từ văn bản trực tuyến tiếng Việt.
Chương 3, Phát hiện ý định và xác định miền quan tâm của ý định, trình bày hai phương pháp luận án đề xuất để giải quyết lần lượt các vấn đề ở pha thứ nhất và pha thứ hai trong tiến trình phân tích ý định ba pha được đề xuất ở Chương 2. Trong đó, vấn đề thứ nhất nhằm lọc các văn bản có chứa ý định. Vấn đề thứ hai nhằm xác định miền lĩnh vực của ý định. Ở mỗi vấn đề, luận án sẽ trình bày cách tiếp cận, phương pháp đề xuất cũng như thực nghiệm, phân tích và đánh giá kết quả đạt được.
1. DBLP: https://dblp.org/pers/hd/l/Luong:Thai=Le 2. Google Scholar: https://scholar.google.com/citations ?user=I1FbHw4AAAAJ
Chương 4, Phân tích và trích chọn nội dung ý định, tập trung giải quyết pha thứ ba trong tiến trình ba pha giới thiệu ở Chương 2. Theo đó, pha này là phân tích nội dung bài đăng và trích chọn cụm từ chỉ ý định cũng như xác định các thông tin, thuộc tính của ý định đó. Luận án trình bày cách thức mô hình hoá vấn đề dưới dạng bài toán trích chọn thông tin trên dữ liệu chuỗi và giải quyết bằng hai phương pháp học máy thống kê hiện đại là
Mở đầu 9
CRFs và LSTMs. Tiếp đó luận án đề xuất việc áp dụng kỹ thuật học kết hợp (ensemble learning) với nhiều tập thuộc tính và các cấu hình mạng học sâu LSTM–CRF khác nhau. Phần cuối của chương trình bày thực nghiệm và kết quả cùng việc phân tích, thảo luận về hiệu quả của những phương pháp đề xuất.
Chương 5, Phân tích và trích chọn ý định đa miền quan tâm, mở rộng cách tiếp cận đối với bài toán phân tích và trích chọn ý định người dùng. Cụ thể, chương này đề xuất phương pháp trích chọn ý định đa miền quan tâm dựa vào một bộ nhãn tổng quát không phụ thuộc vào miền lĩnh vực nào của ý định. Phần cuối của chương đánh giá sự hiệu quả của cách tiếp cận này bằng nhiều thực nghiệm dựa trên các giả thuyết khác nhau về mối quan hệ giữa tập nhãn chung và tập nhãn riêng.
Phần kết luận tóm lược lại những nội dung nghiên cứu quan trọng đã thực hiện, các cách tiếp cận và phương pháp đề xuất của nghiên cứu sinh cùng những kết quả và đóng góp chính của luận án. Bên cạnh đó, luận án cũng nêu những điểm tồn tại, hạn chế cần khắc phục và thảo luận về các vấn đề có thể nghiên cứu mở rộng trong tương lai.
Chương 1
Tổng quan về ý định và phân tích ý định
Phân tích và xác định ý định người viết trong văn bản trực tuyến là một bài toán nhận được nhiều sự quan tâm của cộng đồng nghiên cứu trên thế giới. Trong chương 1, luận án trình bày một khảo sát về những cách tiếp cận, những hướng nghiên cứu chính của bài toán này. Những khảo sát đó là cơ sở để luận án đề xuất định nghĩa về ý định và quy trình ba pha giải quyết bài toán xác định ý định trong các văn bản trực tuyến. Luận án cũng giới thiệu một số quan điểm và định nghĩa về khái niệm ý định của một số nhà nghiên cứu trên thế giới. Bên cạnh đó, chương 1 sẽ nhắc lại một số kiến thức cơ bản về kỹ thuật khai phá dữ liệu và kỹ thuật học máy được sử dụng xuyên suốt luận án.
1.1 Ý định và thể hiện ý định trong ngôn ngữ
Có rất nhiều quan điểm và cách định nghĩa khác nhau về khái niệm ý định. Năm 1987, trong nghiên cứu của mình Bratman [13] đã đưa ra khái niệm: “Ý định là một trạng thái tinh thần thể hiện sự cam kết thực hiện một hay nhiều hành động trong tương lai. Ý định liên quan đến những hành động có suy nghĩ như lên kế hoạch hay có dự tính trước”. Bratman cũng mô tả thêm ý nghĩa của từ cam kết (commitment) ở đây không có nghĩa là hứa hay thỏa thuận sẽ làm một việc gì đó giống như kí kết hợp đồng, mà theo ông cam kết có thể hiểu là chừng nào người có ý định còn có khả năng thực hiện ý định
10
Chương 1. Giới thiệu tổng quan 11
đó trong thời gian cho phép hoặc đơn giản chỉ là có khuynh hướng thực hiện ý định đó. Tuy nhiên, ngoài cách định nghĩa của Bratman còn có rất nhiều cách mô tả khác về ý định như: (i) “một trạng thái hướng tới hành động có mục tiêu” 1; (ii) “trạng thái thực thi chứa một thành phần kế hoạch” 2; (iii) “thái độ với một năng lực làm việc cụ thể ” 3.
Trước những quan điểm và cách hiểu khác nhau về ý định, Richard Scheer (2004) [85], đã phân tích và chỉ ra rằng “ý định được xem như một hướng hành động mà đã được ai đó “lựa chọn””. Theo cách này, Richard muốn nhấn mạnh ý định hoàn toàn độc lập với việc đã cam kết hay đã quyết tâm. Tức là, sau khi hình thành một hướng hành động thì một người có thể xác định theo đuổi thực hiện các hành động đó hoặc không. Ví dụ một người có ý định đưa vợ anh ta đi ăn tối, anh ấy có thể thực hiện hoặc có thể không. Vậy có thể thấy có rất nhiều cách định nghĩa hay nhìn nhận về ý định.
Bên cạnh đó khi một người có ý định, họ có rất nhiều cách để thể hiện nó:
— Qua suy nghĩ: khi đó chỉ mình người đó biết về ý định này;
— Qua hình ảnh: đây là cách thể hiện không cần từ ngữ nhưng thực sự nó đáng giá bằng hàng ngàn từ ngữ. Một bức tranh, thậm chí là bức tranh trong đầu của một người về ý định của họ, chứa đựng cả con đường thực hiện ý định cũng như kết quả hoàn thiện của ý định quả thật rất giá trị;
— Qua văn bản: ý định có thể được viết ra không cần theo chuẩn văn viết - như dưới dạng một danh sách những việc cần làm - hoặc theo đúng dạng văn viết như một sự xác nhận;
— Qua lời nói: khi đó ý định có thể được thể hiện trực tiếp qua lời nói hoặc được trao đổi gián tiếp qua các công cụ “chat” dưới dạng ngôn ngữ nói;
— Qua ngôn ngữ hình thể: như qua cách chuyển động, tư thế, cử chỉ; . . .
1. T. L. M. Pink, ‘Purposive Intending’, Mind, July 1991, p. 344. 2. Frederick Adams and Alfred Mele, ‘The Intention/Volition Debate’, Canadian Journal of
Philosophy, Sept. 1992, p. 336.
3. J. David Velleman, ‘Review of Faces of Intention, by Michael Bratman’, Philosophical
Quarterly, Jan. 2001, p. 121.
Luận án này quan tâm cách thể hiện ý định qua ngôn ngữ và văn bản. Mỗi loại ngôn ngữ khác nhau có những cụm từ đặc trưng riêng được dùng để
Chương 1. Giới thiệu tổng quan 12
thể hiện ý định hay kế hoạch của con người. Chẳng hạn, trong tiếng Anh, để thể hiện kế hoạch, mục đích hoặc ý định, người ta thường dùng các cụm từ như: I’m going to..., I’m planning to..., I have intention of..., I fully intend to..., It is my intention to.... Tương tự trong tiếng Việt, ta có những cụm từ thể hiện ý định như: Tôi đang định..., Tôi dự tính..., Tôi đang tìm..., Tôi đang cần tìm..., Tôi có ý định...
Nếu xét về tiêu chí “có mang ý định hay không ?” thì một văn bản mà con
người tạo ra có thể được phân vào một trong ba trường hợp sau:
— Văn bản mang ý định rõ (Explicit Intent): là văn bản chứa ý định được thể hiện một cách cụ thể, rõ ràng, tức là người đọc có thể hiểu ngay được rằng người viết đang có ý định hay kế hoạch làm việc gì đó trong tương lai mà không cần phải mất nhiều thời gian suy luận, theo Z.Chen và cộng sự (2013)[21];
— Văn bản mang ý định ẩn (Implicit Intent): là các văn bản mà ở đó người viết không thể hiện rõ ý định hay kế hoạch của họ về một vấn đề cụ thể nào, mà đơn giản chỉ là đưa ra những câu hỏi hay đề xuất chung chung, tức là cần phải mất thời gian suy luận mới có thể đoán được ý định của người viết;
— Văn bản không mang ý định (Non-Intent): là những văn bản còn lại, tức
là những văn bản không hề mang một ý định nào.
1.2 Ý định trong văn bản trực tuyến
Để tiếp cận mục tiêu hiểu ý định từ văn bản trực tuyến tiếng Việt, trước tiên tác giả đưa ra khái niệm về văn bản trực tuyến được dùng trong phạm vi luận án.
Định nghĩa 1: Văn bản trực tuyến - trong phạm vi của luận án - là những văn bản được đăng tải trên các phương tiện truyền thông hoặc dịch vụ trực tuyến bao gồm mạng xã hội, diễn đàn, blog, và các trang thương mại điện tử.
Như đã đề cập trong phần Mở đầu, luận án chỉ tập trung xác định ý định trong các văn bản trực tuyến dưới dạng các bài đăng/bình luận được người dùng của các phương tiện truyền thông xã hội đăng lên. Hay nói cách khác
Chương 1. Giới thiệu tổng quan 13
người viết các bài đăng chính là người dùng các phương tiện truyền thông xã hội. Hơn nữa, trong tất cả các nghiên cứu đã công bố trên thế giới về phân tích và hiểu ý định mà tác giả đã tham khảo, khái niệm user intent hay user intention, tức là ý định người dùng đều được dùng để chỉ ý định của người viết. Do đó trong phạm vi luận án này, khái niệm ý định người viết và ý định người dùng được sử dụng với ý nghĩa và mục đích tương đương nhau. Bên cạnh đó để cho ngắn gọn, đôi khi khái niệm văn bản trực tuyến trong luận án còn được viết là bài đăng.
Bảng 1.1: Ví dụ về văn bản trực tuyến chứa và không chứa ý định
Loại ý định
Văn bản trực tuyến trên các phương tiện truyền thông xã hội Việt Nam
Ý định rõ (EI)
“Tình hình là mình đang cần thuê nhà quanh khu vực Phương Mai, Bách Khoa hoặc Tôn Thất Tùng cho 3 người lớn và 1 cháu nhỏ. Tầm tiền khoảng 3 triệu. Bạn nào có thông tin gì xin liên lạc với mình theo số 0905231880. Cảm ơn nhiều !”
Ý định ẩn (II)
“Xe ô tô 7 chỗ thì loại nào tốt nhỉ ?”
“Với số tiền đó thì bạn khó mà mua được nhà ở khu vực Cầu Giấy”
Không mang ý định (NI)
Cũng giống như văn bản, văn bản trực tuyến cũng có thể mang ý định rõ của người dùng, hoặc mang ý định ẩn của người dùng, hoặc không mang ý định nào. Bảng 1.1 dưới đây đưa ra ví dụ về một văn bản trực tuyến mang ý định rõ, một văn bản trực tuyến mang ý định ẩn và một văn bản trực tuyến không mang ý định của người dùng. Trong đó, với văn bản trực tuyến mang ý định rõ, người đọc có thể xác định ngay ý định của người dùng là thuê - nhà, với một số tiêu chí như ở khu vực Phương Mai, Bách Khoa, giá khoảng 3 triệu... Còn với văn bản trực tuyến mang ý định ẩn, người đọc có thể suy diễn ra ý định của người dùng là mua - ô tô, hoặc cũng có thể là thuê - ô tô. Cuối cùng, với văn bản trực tuyến không mang ý định thì có thể thấy ngay là người dùng không thể hiện một ý định cụ thể nào mà đơn giản chỉ là tư vấn cho một ai đó.
Việc khảo sát trên các phương tiện truyền thông xã hội ở Việt Nam cho thấy số lượng các bài đăng không mang ý định và mang ý định ẩn nhiều hơn rất nhiều lần so với số lượng bài đăng mang ý định rõ. Tương tự, trong một nghiên cứu của B. Hollerit và cộng sự (2013) [40], nhóm tác giả cũng đưa ra một thống kê về các bài đăng mang ý định “mua bán” trên mạng xã
Chương 1. Giới thiệu tổng quan 14
hội Twitter, ở đó trong số 120 bài đăng thu thập được thì có 81 bài mang ý định ẩn và chỉ có 39 bài mang ý định rõ. Trong khuôn khổ của luận án này tác giả chỉ tập trung xác định ý định của người dùng trong những văn bản mang ý định rõ. Việc xác định ý định người dùng trong những văn bản trực tuyến mang ý định ẩn tuy cũng có những giá trị nhất định của nó nhưng do tính chất phức tạp của loại văn bản này, tác giả sẽ tiếp tục nghiên cứu chúng trong tương lai. Bởi vậy từ đây cho đến cuối luận án tác giả sẽ gọi các đoạn văn bản trực tuyến mang ý định rõ là những văn bản có chứa ý định của người dùng, còn những văn bản mang ý định ẩn được tạm xếp vào cùng lớp với các văn bản không mang ý định.
1.3 Phân tích ý định: bối cảnh khoa học
Bài toán Phân tích và xác định ý định là một nhánh của hướng nghiên cứu Nhận biết kế hoạch, hành động, ý định [95] (Plan, activity, intent recognition), một hướng nghiên cứu đã bắt đầu từ khoảng 35 năm về trước. Công bố khoa học đầu tiên về nhận biết kế hoạch là của nhóm Schmidt, Sridharan, and Goodson vào năm 1978 [90]. Sau đó, trong mười năm gần đây, hướng nghiên cứu này đã đạt được nhiều tiến bộ, đặc biệt là trong lĩnh vực trí tuệ nhân tạo và những lĩnh vực liên quan. Trong đó, phải kể đến ba yếu tố chính làm nên sự tiến bộ này là: (1) nhu cầu bức thiết về một hệ thống nhận biết kế hoạch tinh vi và hiệu quả cho rất nhiều các ứng dụng khác nhau; (2) sự phát triển về kỹ thuật của các thuật toán trong các mô hình xác suất, mô hình học máy, mô hình tối ưu; (3) dữ liệu về các hoạt động của con người ngày càng nhiều và có thể thu thập dễ dàng.
Theo nhận định của Chen và cộng sự (2002) [20], có hai cách tiếp cận chính để giải quyết bài toán xác định ý định người dùng trên các phương tiện truyền thông xã hội trực tuyến: (1) Dựa vào các hành vi, hồ sơ của người dùng tham gia trên các phương tiện truyền thông trực tuyến như nhấn chọn liên kết (click the hyperlinks), lịch sử đăng nhập (login), lưu trang, đóng trình duyệt, tải dữ liệu (download); (2) Dựa vào các đặc trưng ngữ nghĩa, cú pháp, từ vựng của những bài đăng dưới dạng văn bản của người dùng. Những nghiên cứu đầu tiên về hiểu ý định hay xác định mục tiêu của người dùng hầu hết đi theo hướng tiếp cận (1), điển hình như Ashkan và cộng sự (2008) [2], Broder và cộng sự (2002)[12], Chen và cộng sự (2002) [20], Kiseleva và cộng
Chương 1. Giới thiệu tổng quan 15
sự [58], Lee và cộng sự (2005) [63], Li và cộng sự (2008) [66], Radlinski và cộng sự (2010) [82], Speretta và cộng sự (2004) [94], Shen và cộng sự (2011) [91].
Khi có sự xuất hiện của mạng xã hội như facebook (2004), twitter (2006), dữ liệu dưới dạng văn bản như các bài đăng của người dùng (post, comment, tweet) tăng đáng kể, vì vậy hướng tiếp cận (2) cũng phát triển mạnh hơn và đã đạt được những kết quả đáng ghi nhận. Trong đó phải kể đến một số nghiên cứu điển hình như Ashkan và cộng sự (2009) [3], Castellanos và cộng sự (2012) [16], Chang và cộng sự (2006) [18], Chen và cộng sự (2013) [21], Ding và cộng sự (2015)[26], Gupta và cộng sự (2014) [35], Hollerit và cộng sự (2013) [40], Kozareva và cộng sự (2016) [59], Kroll và cộng sự (2009) [60], Labidi và cộng sự (2018) [65], Li (2010) [67], Nobari và cộng sự (2014) [76], Wang và cộng sự (2015) [97], Zhang và cộng sự (2016) [103], Zhang và cộng sự (2017) [104] .
Bên cạnh đó, một số bài báo kết hợp cả 2 hướng tiếp cận (1),(2) để có thể đạt được kết quả tốt hơn, điển hình là một số nghiên cứu của Baeza-Yates và cộng sự (2006) [4], Jansen và cộng sự (2007) [48], Hu và cộng sự (2008) [41], Li và cộng sự (2008) [66], Kathuria và cộng sự (2010) [53], Purohit và cộng sự (2015) [81].
Luận án “Phân tích ý định từ văn bản ngắn, trực tuyến tiếng Việt” hướng tới cách tiếp cận thứ (2), tức là xác định ý định thông qua các văn bản trực tuyến (post, comment, tweet) được đăng trên các phương tiện truyền thông xã hội. Qua khảo sát những nghiên cứu khoa học tiếp cận theo hướng (2), luận án nhận thấy rằng hầu hết các tác giả tập trung mô hình hóa bài toán xác định ý định người dùng về bài toán phân lớp nhị phân hoặc phân lớp đa lớp, điển hình như Chen và cộng sự (2013) [21], Dai và cộng sự (2006) [24], Ding và cộng sự (2015) [26], Gupta và cộng sự (2014) [35], Hashemi và cộng sự (2016) [37], Hollerit và cộng sự (2013) [40],Jethava và cộng sự (2011) [50], Wang và cộng sự (2015) [97]. Với phương pháp này, các tác giả hướng tới mục tiêu xác định xem ý định của người dùng thuộc vào lĩnh vực nào, ví dụ như mua sắm, du lịch, tìm hiểu tri thức, xe cộ....
Tuy vậy, theo nhận định của Li (2010) [67] : “việc xác định ý định của người dùng không chỉ đơn giản là xác định lớp ngữ nghĩa hay lĩnh vực mà ý định đó thuộc vào mà còn phải hiểu được cấu trúc ngữ nghĩa trong bài đăng
Chương 1. Giới thiệu tổng quan 16
của người dùng”. Phương pháp tiếp cận của Li sẽ được trình bày cụ thể ngay trong phần 1.3.1 bên dưới. Có thể thấy cách tiếp cận này giúp hệ thống hiểu sâu hơn, nắm được nhiều thông tin hơn về ý định của người dùng. Tuy nhiên cho đến nay số lượng những nghiên cứu hướng đến việc phân tích, hiểu cấu trúc ngữ nghĩa hay trích xuất thông tin từ các bài đăng trực tuyến đang còn rất khiêm tốn, một số nghiên cứu điển hình là: Castellanos và cộng sự (2012) [16], Chang và cộng sự (2006) [18], Labidi và cộng sự (2018)[65], Li (2010) [67], Nobari và cộng sự (2014) [76], Zhang và cộng sự (2017) [104].
Các nghiên cứu theo hướng tiếp cận phân tích và xác định ý định từ các văn bản truyền thông xã hội trực tuyến bao gồm ba nhánh nghiên cứu chính: (i) Phân tích và xác định ý định trong truy vấn tìm kiếm (search query); (ii) Phân tích và xác định ý định trong ngôn ngữ nói (spoken language); (iii) Phân tích và xác định ý định trong bài đăng/bình luận (post/comment/tweet).
1.3.1 Phân tích và xác định ý định từ truy vấn tìm kiếm
Theo khảo sát, việc xác định ý định người dùng được quan tâm từ đầu những năm 2000 và mới đầu chỉ tập trung xác định mục tiêu (goal) của người dùng từ các truy vấn trên các máy tìm kiếm (search engine) hay các hệ thống hỏi đáp cộng đồng (community question answering).
Theo D.H. Hu (2009) [42] truy vấn có một số đặc điểm sau:
1. Các truy vấn thường rất ngắn, khoảng 93% số truy vấn có độ dài nhỏ
hơn 4 từ (term);
2. Các truy vấn trên các trang Web thường đa nghĩa, nên rất nhập nhằng;
3. Ý định của các truy vấn thường rất đa dạng, phụ thuộc nhiều vào ngữ
cảnh.
Chính vì vậy, các nghiên cứu đầu tiên về xác định ý định người dùng từ các truy vấn thường đi theo hướng tiếp cận dựa vào các hành vi, hồ sơ của người dùng tham gia trên các phương tiện truyền thông trực tuyến như nhấn chọn liên kết (click the hyperlinks), lịch sử đăng nhập (login), lưu trang, đóng trình duyệt, tải dữ liệu (download). Một trong những công bố đầu tiên và trở thành cơ sở tham chiếu cho nhiều nghiên cứu về xác định ý định người dùng từ các truy vấn là của tác giả Broder (2002) [12]. Ông đã đề xuất phân
Chương 1. Giới thiệu tổng quan 17
loại các truy vấn của người dùng thành ba thể loại chính để có thể hiểu và đáp ứng được nhu cầu tìm kiếm của người dùng một cách chính xác hơn. Đó là (1) Truy vấn mang tính định hướng (Navigational queries): là những truy vấn nhằm mục đích muốn tìm đến địa chỉ của một trang web cụ thể nào đó mà người dùng đang nghĩ trong đầu hoặc đã từng đến thăm trước đó; (2) Truy vấn thuộc kiểu thông tin (Informational queries): là những truy vấn mà người dùng đơn giản chỉ muốn tìm đọc những thông tin hay tri thức cụ thể về môt chủ đề nào đó. Loại truy vấn này có vẻ gần nhất với truy hồi thông tin cổ điển; (3) Truy vấn mang tính giao dịch (Transactional queries): là những truy vấn mà người dùng hướng tới một mục đích giao dịch nào đó, chẳng hạn như mua bán hàng hóa, tải các bài hát, ảnh, tải phần mềm... Sau đó tác giả cũng nhấn mạnh rằng các máy tìm kiếm hiện nay trả về kết quả khá tốt đối với các truy vấn mang tính định hướng và truy vấn mang tính thông tin, còn riêng truy vấn mang tính giao dịch thì cần phải khai thác sâu thêm về mặt ngữ nghĩa của truy vấn vì nó liên quan đến nhiều thông tin bổ trợ như giá cả hàng hóa, chất lượng ... Cũng theo phương pháp xây dựng một framework để thực hiện phân lớp một cách thủ công các truy vấn của người dùng như Border, nhưng nhóm tác giả Rose và Levinson (2004) [86] lại đề xuất thay lớp Giao dịch (Transaction) bởi lớp Tài nguyên (Resource), mà theo họ là có ý nghĩa cụ thể hơn vì lớp này chỉ quan tâm đến những truy vấn muốn “lấy được” (obtain) một sản phẩm nào đó từ mạng Internet. Từ định hướng của Broder và Rose, rất nhiều các nghiên cứu về vấn đề hiểu ý nghĩa, mục đích của các truy vấn tìm kiếm đã được công bố vào các năm tiếp theo. Hầu hết các tác giả sau đó đều tập trung nghiên cứu việc tự động phân lớp hoặc phân cụm các truy vấn vào các lớp ngữ nghĩa: Navigational, Informationnal, Transactional như Benavides và cộng sự (2010)[7], Caro và cộng sự [14], Gonzalez-Caro và cộng sự (2011) [29], Jackie và cộng sự (2012) [45], Jansen và cộng sự (2007) [48], Kang và cộng sự (2003) [52], Lee và cộng sự (2005) [63], Ren và cộng sự (2014) [83].
Đến năm 2006, Y.S. Chang và cộng sự khẳng định rằng họ là một trong những nhóm đầu tiên phát triển hệ thống tự động phân lớp truy vấn của người dùng dựa vào đặc trưng cú pháp của câu truy vấn, trong khi các nghiên cứu trước đó phần lớn dựa vào đặc trưng về hành vi tương tác của người dùng [18]. Trong nghiên cứu của mình, nhóm tác giả sử dụng cú pháp có dạng “cặp VO” (verb-object) để xác định rất nhiều loại mục đích khác nhau của người
Chương 1. Giới thiệu tổng quan 18
dùng như: tìm-việc, tải-nhạc, nghe-nhạc...Với cách tiếp cận khác, tác giả R. Baeza-Yates và cộng sự (2006)[84] đã sử dụng lần lượt phương pháp học có giám sát và phương pháp học không giám sát để xác định xem truy vấn của người dùng là Informational, Not Informational hay Ambiguous. Tiếp theo đó nhóm tác giả này cũng đề xuất phương pháp trích xuất các thực thể trong các truy vấn để hiểu sâu hơn ngữ nghĩa của chúng [5].
Tiếp theo đó, một số nghiên cứu khác lại quan tâm nhiều đến việc xác định ý định “thương mại” của các truy vấn như Dai và cộng sự (2006) [24], Guo và cộng sự (2008) [34], Hu và cộng sự (2009)[42], Wu và cộng sự (2017) [98], Zhai và cộng sự (2016) [102]. Hầu hết trong những nghiên cứu này, các tác giả đều hướng tới mục tiêu phân lớp các truy vấn vào hai lớp Commercial và Non- Commercial, trong đó những truy vấn thể hiện cam kết mang tính thương mại như mua, bán, đấu giá, thuê dịch vụ được xếp vào lớp Commercial, còn các truy vấn khác được xếp vào lớp còn lại.
Ngoài cách tiếp cận phân lớp các truy vấn vào các hai hoặc ba lớp cơ bản như trên, các nhà nghiên cứu còn đề xuất nhiều cách tiếp cận khác để có thể hiểu được ý định của người dùng một cách cụ thể hơn. J.Hu và cộng sự [43] đã tận dụng các khái niệm, các tri thức có sẵn trên trang Wikipedia để xác định truy vấn của người dùng có mang ý định hay không, ở đây nhóm tác giả chỉ tập trung xác định ý định trên ba miền ứng dùng, đó là Ý định du lịch (Travel Intent), Ý định tìm tên người (Personal Name Intent), Ý định về việc làm (Job Intent). Tác giả tải dữ liệu gồm khoảng hơn bốn triệu khái niệm thực thể thuộc hàng chục triệu bài báo từ Wikipedia về. Các truy vấn được lấy từ máy tìm kiếm Live Search, sau khi được làm sạch còn lại 2.614.382 truy vấn. Các truy vấn được gán nhãn bằng tay một cách cẩn thận để chuẩn bị cho quá trình huấn luyện. Ý tưởng chính của phương pháp này là với một truy vấn đầu vào, nếu nó được phủ bởi khái niệm nào đó trên Wikipedia thì họ dễ dàng đánh giá xem truy vấn đó có mang ý định hay không dựa vào sắc xuất đo độ phù hợp giữa truy vấn với khái niệm tương ứng trên Wikipedia. Còn nếu truy vấn đó không được phủ bởi khái niệm trên Wikipedia thì họ sử dụng thuật toán Explicit Sematic Analysis để ánh xạ truy vấn đó tới một khái niệm liên quan nhất trên Wikipedia rồi xác định xem truy vấn đó có mang ý định hay không giống như cách làm trong trường hợp một. Với phương pháp này, nhóm tác giả thu được độ chính xác F1 của mô hình khá cao, khoảng trên 91% cho mỗi miền ứng dụng.
Chương 1. Giới thiệu tổng quan 19
Tác giả X.Li [67] là một trong số ít người chỉ ra việc hiểu ý định của truy vấn không chỉ đơn giản là xếp truy vấn đó vào một lớp ngữ nghĩa thích hợp như các nghiên cứu trước đó đề xuất mà còn phải hiểu cả cấu trúc ngữ nghĩa của bản thân truy vấn đó. Nghiên cứu đưa ra định nghĩa khái quát về cấu trúc ngữ nghĩa của một truy vấn bao gồm hai phần là: IH và IM. Trong đó, IH là một đoạn của truy vấn tương ứng với tên một thuộc tính của một lớp ý định nào đó. Ví dụ, với lớp ý định Phim ảnh thì IH có thể là diễn viên (character), tiêu đề (title) , năm (year)... Vì vậy, một truy vấn có thể có rất nhiều IH. Còn một IM là một đoạn của truy vấn tương ứng với giá trị của một thuộc tính IH nào đó. Ví dụ với truy vấn “dàn diễn viên Tây du ký 1990”, các thành phần IH và IM của truy vấn đó được xác định như sau:
[IH dàn diễn viên][IM :title Tây du ký][IM :year 1990]
Tác giả sử dụng hai mô hình thống kê để tiến hành thực nghiệm trích xuất IH và IM từ các truy vấn, đó là CRFs và Semi-Markov CRFs. Dữ liệu gồm các câu truy vấn được lấy từ ba miền lĩnh vực Điện ảnh (Movie), Nghề nghiệp Job, Công viên Quốc gia (National Park). Trong đó có 1000/496 truy vấn dùng để train/test cho lĩnh vực Điện ảnh, 600/366 truy vấn cho lĩnh vực Nghề nghiệp, và 491/185 truy vấn cho lĩnh vực Công viên Quốc gia. Sau đó, mỗi câu truy vấn được gán các nhãn IH, IM và Other.
Các thực nghiệm đã chứng minh được hiệu quả của việc sử dụng đặc trưng ngữ nghĩa và đặc trưng cú pháp đối với cả mô hình Markov và Semi-Markov CRFs. Trong đó, mô hình Semi-Markov CRFs đạt được độ chính xác trung bình F1 cao hơn, khoảng 86,7%.
Đến năm 2016, tác giả B.Hashemi và cộng sự đề xuất sử dụng phương pháp học sâu Convolution Neural Networks (CNN) để xác định ý định của truy vấn [37]. Mục tiêu của nghiên cứu là đánh giá hiệu quả của mô hình CNN trong việc phân lớp các truy vấn theo hai cấp cao và thấp. Ví dụ, với lớp cấp cao là Phim ảnh thì ta có các lớp cấp thấp tương ứng là Đánh giá, Diễn viên, Độ dài, Ngày ra mắt. Để tiến hành thực nghiệm, nhóm tác giả thu thập 10,000 câu truy vấn, sau đó gán nhãn các truy vấn bằng tay vào 125 lớp cấp thấp và 14 lớp cấp cao. Nhóm tác giả cẩn thận tiến hành thực nghiệm thêm với phương pháp Rule-based và một số phương pháp học máy khác như SVMs, Random Forest nhằm đánh giá hiệu quả của phương pháp
Chương 1. Giới thiệu tổng quan 20
CNN mà nhóm tác giả đề xuất. Kết quả thực nghiệm cho thấy với phương pháp CNN, chỉ cần dùng véc tơ biểu diễn truy vấn như một đặc trưng, mô hình đạt độ chính xác không kém, thậm chí còn cao hơn những phương pháp phải mất nhiều công sức xây dựng bộ đặc trưng.
Ngoài ra trong luận án của mình, L.Chen (2014) [19] đã trình bày công trình nghiên cứu về việc xác định và khai thác ý đinh người dùng trên hệ thống hỏi đáp cộng đồng (CQA), như Quora, WikiAnswers...Tác giả phân ý định của người dùng thành 5 loại chính: subjectivity, locality, navigationality, procedurality và causality. Câu hỏi mang ý định subjectivity là câu hỏi muốn tìm hiểu về một tri thức nào đó, một quan điểm, hoặc đơn giản chỉ muốn tìm sự tương tác xã hội. Câu hỏi locality muốn tìm thông tin về một địa điểm nhất định nào đó, còn câu hỏi navigationality muốn tìm địa chỉ một trang web. Câu hỏi thuộc loại ý định procedurality là câu hỏi mong muốn được biết cách thực hiện một việc nào đó (thường bất đầu bởi từ để hỏi “How”). Tương tự, câu hỏi causality có ý định muốn biết nguyên nhân xẩy ra một việc nào đó (thường bắt đầu bẳng từ để hỏi “Why”). Với mỗi loại ý định, tác giả xây dựng mô hình phân lớp tương ứng. Bằng cách sử dụng các kỹ thuật học máy tiên tiến như Co-Training và PU-learning, tác giả và cộng sự đã phát triển được những mô hình phân lớp ổn định và ý nghĩa hơn những mô hình tốt nhất đã công bố. Hơn nữa, ngoài những đặc trưng về từ vựng, tác giả còn dùng thêm những đặc trưng siêu dữ liệu (metadata), chẳng hạn như thể loại mà câu hỏi thuộc vào, từ đó giúp hệ thống CQA có thể gợi ý câu trả lời chính xác hơn.
1.3.2 Phân tích ý định trong các bài đăng
Khác với câu truy vấn, một bài đăng của người dùng (post, comment, tweet) trên các phương tiện truyền thông trực tuyến thường dài hơn. Vì vậy, các bài đăng thường mang nhiều thông tin hơn các truy vấn. Đây là một thuận lợi giúp việc xác định ý định người dùng được đầy đủ và chính xác hơn. Tuy nhiên các bài đăng lại chứa nhiều nhiễu hơn, tức là có thể có rất nhiều câu trong một bài đăng đơn giản chỉ là những câu chào hỏi hoặc chuyện phiếm trong khi số câu mang ý đinh của người dùng lại rất ít. Điều này gây ra rất nhiều khó khăn khi xác định ý định của người dùng.
Chương 1. Giới thiệu tổng quan 21
Đó cũng là lý do mà những nghiên cứu về xác định ý định người dùng từ các bài đăng trực tuyến còn khá ít, điển hình có thể kể đến là nghiên cứu của Castellanos và cộng sự (2012) [16], Castellanos và cộng sự (2016) [17], Chen và cộng sự (2013)[21], Cui và cộng sự (2017) [23], Nobari và cộng sự (2014) [76], Wang và cộng sự (2015) [97], Pearl và cộng sự [77], Purohit và cộng sự (2015) [81], Ding và cộng sự (2015) [26], Labidi và cộng sự (2016) [64], Ngo và cộng sự (2017) [71], Yang và cộng sự (2013) [101]. Trong số đó, hầu hết các nghiên cứu mới chỉ mô hình hóa bài toán thành bài toán phân lớp để tìm lớp ngữ nghĩa thích hợp cho các bài đăng của người dùng, đó là các nghiên cứu [21], [40], [97], [81], [26], [71]. Luận án sẽ trình bày cụ thể hơn về những nghiên cứu này trong chương 3. Ngoài ra, có một số ít nghiên cứu tiếp cận theo hướng phấn tích và trích xuất thông tin về ngữ nghĩa của ý định người dùng, đó là [16], [76], [64]. Luận án sẽ trình bày cụ thể về các nghiên cứu này ở chương 4. Đặc biệt trong số các nghiên cứu tiếp cận theo hướng phân lớp nói trên, có một số ít nghiên cứu đề xuất giải pháp học chuyển đổi, thích nghi miền như [21], [26], [71], [93]. Đây cũng là cơ sở để luận án hướng đến bài toán độc lập miền trong việc xác định ý định người dùng sẽ được giới thiệu ở chương 5.
1.4 Một số kỹ thuật khai phá dữ liệu và mô hình
học máy
Phần này sẽ giới thiệu về một số kỹ thuật khai phá dữ liệu như kỹ thuật phân lớp, kỹ thuật trích xuất thông tin. Bên cạnh đó, luận án cũng trình bày sơ lược về những mô hình học máy được dùng trong toàn bộ luận án.
1.4.1 Cơ bản về kỹ thuật phân lớp
Kỹ thuật phân lớp là một hướng tiếp cận khá phổ biến trong lĩnh vực khai phá dữ liệu. Quá trình phân lớp thực hiện nhiệm vụ xây dựng mô hình giúp cho việc gán nhãn phân loại dữ liệu hay xếp một đối tượng vào một trong những lớp đã biết trước. Hướng tiếp cận này thường sử dụng một số kỹ thuật của học máy như cây quyết định (decision tree), cực đại hóa entropy (maximum entropy), máy véc tơ hỗ trợ (support vector machines)...Phân lớp
Chương 1. Giới thiệu tổng quan 22
còn được gọi là học có giám sát (học có thầy – supervised learning). Một số kiến thức ở phần này được tham khảo từ [74]
1.4.1.1 Phương pháp cực đại entropy (ME)
Trong lý thuyết thông tin, chúng ta quan tâm tới việc phát triển một thước đo lượng thông tin thu được từ việc quan sát một sự kiện xảy ra với một xác suất p. Để đơn giản hóa vấn đề, chúng ta tạm bỏ qua các đặc trưng của sự kiện mà chỉ quan tâm tới sự kiện xảy ra hay không. Ta có định nghĩa về entropy do Shannon đưa ra vào năm 1948 như sau: “Entropy của một phân phối xác suất là giá trị kỳ vọng của thông tin của phân phối đó”.
Từ những tính chất của entropy ta có thể thấy entropy của một phân phối xác suất còn thể hiện sự đồng đều trong phân phối xác suất. Cụ thể, entropy càng cao thì phân phối càng đều. Nguyên lý entropy cực đại cho rằng: Với một tập các dữ liệu đã biết trước, phân phối xác suất tốt nhất trong tập các phân phối xác suất có thể để biểu diễn trạng thái hiện tại của tri thức, là phân phối xác suất có entropy cực đại và phân phối này là duy nhất. Mô hình phân lớp ME là mô hình phân lớp sử dụng nguyên lý cực đại entropy. Điều đó có nghĩa là mô hình ME là mô hình có entropy cao nhất khi thỏa mãn các ràng buộc nhận được từ tập dữ liệu thực nghiệm, theo Berger và cộng sự (1996) [8]. ME có tốc độ huấn luyện và tham chiếu nhanh, và nó cũng không hề thua kém các phương pháp học máy thống kê nâng cao như SVMs và Random Forest [75].
1.4.1.2 Phương pháp máy véc tơ hỗ trợ (SVMs)
Thuật toán phân lớp SVMs là một thuật toán thuộc lớp giải thuật phân lớp thống kê. Nó có khả năng xử lý cả dữ liệu tuyến tính và dữ liệu không tuyến tính [6]. Bản chất của phương pháp này là xây dựng một siêu phẳng để phân chia dữ liệu thành 2 nửa, tương ứng với việc phân chia dữ liệu thành 2 lớp. Trong trường hợp dữ liệu không tuyến tính, nó sẽ sử dụng một hàm nhân (kernel function) để chuyển đổi tập dữ liệu ban đầu sang một không gian mới có số chiều lớn hơn để xử lý.
SVMs với phân lớp đa lớp
Chương 1. Giới thiệu tổng quan 23
Một trong những giải pháp cải tiến SVMs để giải quyết bài toán phân lớp đa lớp là sử dụng kỹ thuật 1-against-all. Ý tưởng cơ bản của thuật toán này là chuyển bài toán phân lớp nhiều lớp thành nhiều bài toán phân lớp nhị phân như sau:
— Giả sử ta cần phân lớp dữ liệu vào m lớp y1, y2. . . , ym , với yi ∈ Y .
— Biến đổi tập Y ban đầu thành m tập có 2 lớp con Zi = {yi , {Y − yi }}.
— Áp dụng SVMs phân lớp nhị phân cơ bản với m tập Zi để xây dựng siêu phẳng cho lớp này. Như vậy ta sẽ có m bộ phân lớp nhị phân.
— Bộ phân lớp với sự kết hợp của m bộ phân lớp trên được gọi là bộ phân
lớp đa lớp mở rộng với SVMs
1.4.2 Cơ bản về kỹ thuật trích xuất thông tin
Trích xuất thông tin (IE) là một lĩnh vực nghiên cứu có liên quan đến Truy hồi thông tin, Khai phá dữ liệu, cũng như Xử lý ngôn ngữ tự nhiên. Mục tiêu chính của trích xuất thông tin là tìm ra những thông tin có cấu trúc từ văn bản không có cấu trúc hay bán cấu trúc [51].
1.4.2.1 Các nhiệm vụ chính của Trích xuất thông tin
Named Entity Recognition (NER) – Nhận dạng thực thể có tên NER là nhiệm vụ xác định, phát hiện và phân lớp các thực thể được đặt tên (hay thực thể có tên) đã được định nghĩa trước, chẳng hạn như thực thể tổ chức (World Health Organisation), thực thể người (Obama), thực thể thời gian (01/08/2017) . . .
Relation Extraction (RE)- Trích xuất quan hệ
RE xác định và phân lớp các mối quan hệ đã được định nghĩa trước giữa các thực thể trong văn bản. Ví dụ từ đoạn van bản từ “Steve Jobs works for Apple”, ta có thể trích xuất được quan hệ EmployeeOf(Steve Jobs, Apple)
Event Extraction (EE)- Trích xuất sự kiện
EE là nhiệm vụ xác định các sự kiện trong văn bản tự do, và thu lại các thông tin cụ thể, có cấu trúc về các sự kiện đó. EE thường liên quan đến việc trích xuất vài thực thể và các mối liên hệ giữa chúng.
Chương 1. Giới thiệu tổng quan 24
1.4.2.2 Nhiệm vụ NER và cách tiếp cận học máy thống kê
Trước tiên ta có khái niệm thực thể có tên (Named Entity): là một chuỗi các từ chỉ một thực thể nào đó ở thế giới thực được gọi bằng một tên riêng, vd: California, Steave Job . . .
NER : là nhiệm vụ xác định tên của các thực thể từ văn bản ở dạng phi cấu trúc và phân lớp chúng vào các lớp đã được định nghĩa trước, như: người, tổ chức, và địa điểm...Các kiểu thực thể có tên thường gặp nhất: PER (người), ORG (tổ chức), LOC (địa điểm). Ngoài ra việc trích xuất các biểu thức chỉ: DATE (ngày tháng), TIME (thời gian), Tiền tệ...cũng được định nghĩa là nhiệm vụ NER.
Với phương pháp học máy thống kê NER được chuyển về bài toán gán nhãn chuỗi (sequence labeling). Bài toán được định nghĩa như sau: cho trước tập các chuỗi quan sát ký hiệu x = (x1, x2, ..., xn ). Thông thường xi được biểu diễn dưới dạng vector. Ta mong muốn gán nhãn yi , với yi ∈ Y = {y1, y2, ..., ym } là tập các nhãn định nghĩa trước, cho từ xi tương ứng dựa vào dữ kiện từ các từ trước hoặc sau nó. Để gán nhãn cho dữ liệu huấn luyện, ta thường dùng quy tắc B-I-O, ở đó với mỗi thực thể kiểu T, ta có hai nhãn B-T và I-T. Trong đó B-T là “begin type T” tức là chỉ từ bắt đầu của thực thể kiểu T, I-T là “inside type T”, tức là chỉ những từ thuộc thực thể T kể từ từ thứ hai trở đi. Ngoài ra, ta còn có nhãn O cho biết “outside named entity”, tức là những từ không là thực thể có tên. Ví dụ trong hình 1.1 thể hiện cách gán nhãn cho một chuỗi văn bản sử dụng quy tắc B-I-O.
Hình 1.1: Quy tắc gán nhãn BIO
Một số mô hình học máy hiệu quả đối với bài toán nhận dạng thực thể có tên phải kể đến là: mô hình trường ngẫu nhiên có điều kiện (CRFs), mô hình Markov ẩn (HMMs)...
Chương 1. Giới thiệu tổng quan 25
1.4.2.3 Mô hình trường ngẫu nhiên có điều kiện (CRFs)
CRFs được đề xuất đầu tiên bởi Lafferty và cộng sự vào năm 2001 [61]. Đây là mô hình xác suất được xây dựng để phân đoạn và gán nhãn cho dữ liệu dạng chuỗi, vì vậy nó rất thích hợp với bài toán NER. Gọi S là tập hữu hạn các trạng thái, mỗi trạng thái tương ứng với một nhãn yi trong tập nhãn Y . Khi đó, ứng với một chuỗi quan sát đầu vào x = (x1, x2, ..., xn ), CRFs sẽ xác định chuỗi trạng thái s = (s1, s2, ..., sn ) tương ứng. CRFs cải tiến hơn các phương pháp trước đó như Maximum Entropy Markov Models (MEMMs) ở chỗ trạng thái st được xác định không chỉ dựa vào trạng thái trước đó (st−1), mà còn dựa vào trạng thái phía sau (st+1), hình 1.2.
Hình 1.2: Chuỗi trạng thái tương ứng với chuỗi quan sát
Hiệu quả của mô hình CRFs phụ thuộc rất nhiều vào việc thiết kế tập đặc trưng tương ứng với dữ liệu. Có hai dạng đặc trưng trong mô hình CRFs đó là đặc trưng cạnh e (edge feature) và đặc trưng trạng thái s (state feature). Các đặc trưng cạnh được sinh tự động từ dữ liệu huấn luyện, còn các đặc trưng trạng thái được tạo bởi việc áp dụng các mẫu vị từ ngữ cảnh (context predcate template) pi (x , t ) trên dữ liệu. Việc này được thực hiện bằng cách sử dụng một cửa sổ trượt (sliding window) có kích thước xác định để duyệt qua các ví dụ trong tập dữ liệu huấn luyện. Phần này sẽ được trình bày kỹ hơn trong chương 4.
1.4.3 Cơ bản về mạng nơ ron
Những năm gần đây, mạng nơ ron là công cụ được lựa chọn để giải quyết vấn đề về xử lý ngôn ngữ tự nhiên. Phần này sẽ trình bày tổng quan về mạng nơ ron, phần lớn các công thức được tham chiếu từ [88] và [30]. Một cách tổng quan, mạng nơ ron có thể được xem như là hợp của các hàm, trong đó các hàm ràng buộc (affine function) f (.) và các hàm kích hoạt (activation
26 Chương 1. Giới thiệu tổng quan
function) phi tuyến g(.) được sắp xếp xen kẽ nhau, một ví dụ về hai loại hàm này được trình bày trong công thức 1.1
(1.1) f (x) = Wx + b
g(y) = softmax (y)
ở đó, W ∈ RC ×T , x ∈ RT , b ∈ RC , y ∈ RC . C là số lượng các lớp đầu ra hay kích thước của véc tơ đầu ra y, T là kích thước của véc tơ đầu vào x, W được gọi là ma trận trọng số, b được gọi là véc tơ bias. W, b ∈ θ là tập các tham số của mô hình.
Hàm softmax là một hàm kích hoạt thường được dùng ở tầng cuối cùng hay ở tầng output của một mạng nơ ron để thu được phân bố có khả năng phân loại tốt. Những tầng không phải tầng input và output được gọi là tầng ẩn. Mạng nơ ron thường được đặt tên theo số tầng ẩn của nó. Chẳng hạn, mạng nơ ron có 1 tầng ẩn được gọi là mạng nơ ron feed − forward một tầng:
(1.2) h = σ(W1x + b1)
y = softmax (W2x + b2))
Mạng feed − forward với m tầng ẩn được biểu diễn trong hình 1.3. Ở đó, h0 là véc tơ đầu vào x; l0 = d là số chiều của véc tơ đầu vào x còn lm+1 là số chiều cần có của véc tơ tầng ẩn cuối cùng h(m+1) (lm+1 nên được chọn trước). Mỗi phần tử thứ t của véc tơ h(i ) được gọi là một đơn vị ẩn (hidden unit).
Có thể thấy, trong mạng feed − forward các đơn vị ẩn ở tầng thứ i được kết nối với tất cả các đơn vị ẩn ở tầng thứ i + 1. Nếu mạng nơ ron có nhiều tầng ẩn, thì mỗi tầng thường có ma trận trọng số W và véc tơ bias b riêng. Tuy nhiên các tầng khác nhau cũng có thể chia sẻ cùng tham số như nhau. Kết quả đầu ra của một tầng sẽ là đầu vào cho tầng tiếp theo, và quá trình đó được lặp lại cho đến tầng cuối cùng để thu được đầu ra của toàn bộ mạng nơ ron là y, quá trình này được gọi là lan truyền xuôi (forward propagation).
Chương 1. Giới thiệu tổng quan 27
Hình 1.3: Mô hình mạng nơ ron feed − forward nhiều tầng [72]
1.4.3.1 Véc tơ hóa từ (word embedding)
Khi dùng mạng nơ ron để giải quyết bài toán về ngôn ngữ tự nhiên, mỗi từ wi xuất hiện trong tập từ vựng V của tập văn bản đầu vào thường được gán với một véc tơ tương ứng xi , còn được gọi là mã hóa từ của từ wi . Do đó, một chuỗi các từ w1, ..., wT thường được biểu diễn bởi một chuỗi các véc tơ mã hóa từ tương ứng x1, ..., xT để làm đầu vào cho mạng nơ ron.
1.4.3.2 Huấn luyện mô hình mạng nơ ron
Tương tự các mô hình học máy, mạng nơ ron cũng thường được huấn luyện nhờ phương pháp giảm độ dốc ngẫu nhiên (stochastic gradient descent). Tuy nhiên mỗi mô hình mạng nơ ron gồm nhiều tầng nên việc tính toán gradient của hàm mất mát loss − function không hề đơn giản. Trong trường hợp này, phương pháp lan truyền ngược (back propagation) [89] thường được sử dụng.
1.4.3.3 Mạng nơ ron hồi quy (Recurrent Neural Networks - RNNs)
RNNs thuộc lớp các phương pháp dùng mạng nơ ron để xử lý dữ liệu dạng chuỗi và thường được dùng để xử lý ngôn ngữ tự nhiên. Ý tưởng của RNNs là chia sẻ các tham số giữa các thành phần khác nhau của mô hình. RNNs có rất nhiều dạng kiến trúc khác nhau, tuy nhiên trong luận án, tác giả sử dụng kiến trúc như trong hình 1.4.
Chương 1. Giới thiệu tổng quan 28
Hình 1.4: Đồ thị tính toán trong kiến trúc RNNs [30]
Ở kiến trúc này, tại mỗi thời điểm t có một đầu ra tương ứng y(t) và các véc tơ đơn vị ẩn h(t) có kết nối đệ quy với nhau. Quá trình tính toán theo kiến trúc này được tiến hành như sau. Với mỗi từ x(t), t = 1, ..., T cho trước tại thời điểm t, và trạng thái khởi tạo h (0), bộ những hàm sau được thực hiện đệ quy để xác định nhãn y (t) tương ứng:
(1.3)
(1.4)
(1.5)
a(t) = b + Wh(t−1) + Ux(t) h(t) = tanh(a(t)) o(t) = c + V h(t) ^y(t) = softmax (o(t)) (1.6)
L = − (cid:80)
t logpmodel (y(t) | {x(1), x(2), ..., x(T )}) [30]
trong đó, b, c là các véc tơ bổ trợ, W, U, V lần lượt là các ma trận trọng số tương ứng 1.4. Mục đích của việc huấn luyện mô hình RNNs là để tìm ra b, c, W, U, V tối ưu sao cho tối thiểu hóa hàm mất mát:
ở đó, pmodel (y(t) | {x(1), x(2), ..., x(T )}) được tính qua y(t) nhận được từ giá trị đầu ra của mô hình ^y(t) Mô hình RNNs được huấn luyện bằng phương pháp lan truyền ngược.
Vấn đề “Long-term dependency”
Với cấu trúc quá nhiều tầng với đồ thị tính toán sâu, RNNs gặp phải một
Chương 1. Giới thiệu tổng quan 29
số vấn đề khó khăn. Đặc biệt khi gradient được tính lan truyền qua quá nhiều giai đoạn sẽ dẫn đến hiện tượng biến mất (vanish) do quá nhỏ hoặc bùng nổ (explode) do quá lớn. Lý do chính cho hiện tượng vanish là do tính toán hàm mũ đối với các trọng số nhỏ [30]. Phương pháp Long Short-term Memory do Hochereiter và cộng sự đề xuất năm 1997 [39] đã chứng minh được khả năng vượt trội hơn RNNs khi phải giải quyết vấn đề về phụ thuộc dài hạn trong dữ liệu dạng chuỗi, một yếu tố đặc biệt cần thiết khi xử lý ngôn ngữ tự nhiên. Tính chất này rất phù hợp và hiệu quả với nhiệm vụ của bài toán gán nhãn chuỗi [32], [33], khi mà việc xác định nhãn của mỗi từ xi trong chuỗi đầu vào x phụ thuộc vào các nhãn của các từ đứng trước hoặc sau nó trong dãy.
1.4.3.4 Mô hình Long Short-Term Memory (LSTM)
Như đề cập ở chương 1, kiến trúc tính toán đệ quy trên nhiều tầng với cùng một phép toán tại mỗi thời điểm t sẽ làm cho RNNs dễ bị bùng nổ tính toán và không kế thừa được những đặc trưng cần thiết ở phía trước thời điểm t đó. Để khắc phục nhược điểm đó, mỗi tế bào (cell) của mô hình LSTM được bổ sung thêm các cổng input gate, forget gate, output gate. Trong đó, cổng forget được dùng để quyết định xem một trạng thái phía trước thời điểm t nên được nhớ hay nên bị quên đi. Hình 1.5 biểu diễn một tế bào của mô hình LSTM.
Hình 1.5: Kiến trúc một tế bào trong mô hình LSTM [46]
Tóm lại, với mỗi đầu vào xt, tế bào của LSTM sẽ xác định trạng thái ht
x xt + W (i )
c ct−1 + b(i ))
h ht−1 + W (i )
tương ứng nhờ tính toán lần lượt theo các hàm ở mỗi cổng tương ứng:
x xt + W (c)
h ht−1 + b(c))
(cid:74) tanh(W (c) it = σ(W (i ) ct = (1 − it ) (cid:74) ct−1 + it
x xt + W (o)
c ct + b(o))
h ht−1 + W (o)
Chương 1. Giới thiệu tổng quan 30
ot = σ(W (o) ht = ot (cid:74) tanh(ct )
trong đó it là giá trị nhận được ở input gate, ct là giá trị nhận được ở forget gate và ot nhận được ở output gate. Ở đây, σ là hàm sigmoid và (cid:74) là tích vô hướng. Các b(i) và các Wi là các véc tơ bổ trợ và các ma trận trọng số tương ứng sẽ được xác định trong quá trình huấn luyện mô hình LSTM.
1.4.3.5 Mô hình Bidirectional Long Short-term Memory (Bi-LSTM)
Trong nhiệm vụ gán nhãn chuỗi, tại một thời điểm t ta không những cần ghi nhớ được nhiều đặc trưng cần thiết phía trước mà ta còn cần phải quan tâm đến cả các đặc trưng phía sau thời điểm t đó, (tức là những đặc trưng ở tương lai) [44]. Mô hình Bi-LSTM được đề xuất để giải quyết vấn đề này [31]. Mô hình này là sự kết hợp của 2 mô hình LSTM: (1) mô hình foward LSTM để tính toán và biểu diễn ngữ cảnh phía bên trái của từ t; (2) mô hình backward LSTM để tính toán và biểu diễn ngữ cảnh phía bên phải của từ t.
1.5 Kết luận chương
Chương 1 trình bày tổng quan về bài toán Phân tích và xác định ý định trong văn bản trực tuyến. Đầu tiên, luận án đưa ra những tìm hiểu và khảo sát về khái niệm ý định, và thể hiện ý định trong văn bản. Một khảo sát về các hướng nghiên cứu liên quan và các cách tiếp cận giải quyết bài toán xác định ý định người dùng trên thế giới cũng được trình bày trong chương này. Khảo sát này giúp tác giả nhìn nhận được những vấn đề cần phải khai thác tiếp trong bài toán hiểu ý định người dùng. Cuối cùng, chương 1 nhắc lại một số kiến thức cơ sở về khai phá dữ liệu và các mô hình học máy được sử d luận án.
Chương 2
Phân tích ý định từ văn bản trực tuyến
Để tiếp cận mục tiêu phân tích ý định từ văn bản trực tuyến, việc xây dựng định nghĩa để mô hình hóa khái niệm ý định là rất quan trọng. Chương này trình bày và phân tích về định nghĩa ý định hướng miền quan tâm mà luận án đề xuất, đồng thời giới thiệu tiến trình ba pha để giải quyết xuyên suốt bài toán phân tích ý định từ văn bản trực tuyến tiếng Việt. Những kết quả này đã được công bố trong công trình [LTLe1] (2016). Bên cạnh đó, luận án giới thiệu một khảo sát về định nghĩa ý định theo hướng tiếp cận từ điển (ngữ nghĩa) và hướng tiếp cận cấu trúc hóa. Ở đó, định nghĩa ý định hướng miền quan tâm của luận án là định nghĩa theo hướng cấu trúc hóa. Trước tiên phần đầu của chương sẽ giới thiệu về dữ liệu thực nghiệm của luận án gồm tiền xử lý và quy tắc gán nhãn dữ liệu. Những khó khăn gặp phải của bài toán phân tích ý định từ văn bản trực tuyến nói chung và văn bản trực tuyến tiếng Việt nói riêng cũng được trình bày trong chương này.
2.1 Phân tích ý định từ văn bản trực tuyến tiếng
Việt
Như đã giới thiệu trong phần Mở đầu, việc hiểu được ý định thông qua các văn bản trực tuyến mà người dùng đăng trên các phương tiện truyền thông xã hội mang lại rất nhiều ý nghĩa thực tiễn. Tuy nhiên qua việc khảo sát về những nghiên cứu liên quan đã trình bày ở chương 1, phần 1.3, hầu
31
Chương 2. Định nghĩa và phân tích ý định văn bản trực tuyến 32
hết các nghiên cứu trước đây chỉ tập trung phân lớp ý định người dùng vào một lớp ngữ nghĩa tương ứng. Trong khi đó số lượng những nghiên cứu quan tâm phân tích cụ thể về công việc, đối tượng mà ý định người dùng hướng tới cũng như việc trích xuất các thông tin liên quan đến ý định đó còn rất khiêm tốn. Một số nghiên cứu điển hình theo hướng này như: X.Li (2010)[67], Castellanos và cộng sự (2012)[16], Xu và cộng sự (2013)[99], Nobari và cộng sự (2014)[76], Labidi và cộng sự (2018)[65]. Hơn nữa, theo tìm hiểu của tác giả, chưa có một nghiên cứu chính thức nào ngoài những công trình đã công bố của tác giả tiếp cận việc phân tích và hiểu ý định người dùng từ văn bản truyền thông xã hội Tiếng Việt.
Luận án Phân tích ý định từ văn bản ngắn, trực tuyến tiếng Việt hướng tới mục tiêu xây dựng một quá trình xuyên suốt để phân tích và hiểu ý định người dùng từ các văn bản trực tuyến tiếng Việt.
Xét ví dụ một bài đăng của người dùng trên trang www.webtretho.com,
một diễn đàn nổi tiếng của Việt Nam, hình 2.1
Hình 2.1: Một bài đăng mang ý định rõ trên phương tiện truyền thông xã hội Việt Nam
Từ bài đăng trong hình 2.1 ta thấy người dùng với nick-name “Vi Lynk ” đang có ý định thuê phòng trọ với một số tiêu chí như: khép kín, cho 2 người, giá khoảng 1tr7,..., và số điện thoại liên hệ 0988428107.
Theo tác giả tìm hiểu, dữ liệu gồm các văn bản trực tuyến tiếng Việt chưa có sẵn nên trước tiên luận án phải thực hiện thu thập dữ liệu để chuẩn bị cho các thực nghiệm.
Chương 2. Định nghĩa và phân tích ý định văn bản trực tuyến 33
2.1.1 Xây dựng dữ liệu thực nghiệm
• Thu thập và tiền xử lý văn bản trực tuyến Tiếng Việt
Trong các thực nghiệm của luận án, dữ liệu được lấy tự động (crawl) từ một số phương tiện truyền thông xã hội nổi tiếng ở Việt Nam như: các diễn đàn của các trang www.webtretho.com, www.lamchame.com, www.batdongsan.com, www. sotaychame.com ..., các trang facebook mở, ... Như đã trình bày ở phần Mở đầu, đối tượng dữ liệu của luận án là các văn bản trực tuyến có độ dài từ 2 đến 500 từ (trong phạm vi của luận án, mỗi từ được phân cách với nhau bởi ít nhất một dấu cách). Sau đó, luận án thực hiện tiền xử lý dữ liệu với các thao tác:
1. Loại bỏ các ký hiệu lạ, các biểu tượng cảm xúc...;
2. Tách mỗi dấu câu thành mỗi từ riêng (tức là hai bên của 1 dấu câu là
hai dấu trống);
3. Những bài đăng thể hiện nhiều ý định thuộc những miền quan tâm khác nhau mà các ý định được trình bày ở mỗi đoạn/câu riêng sẽ được tách ra thành nhiều bài đăng sao cho mỗi bài đăng thể hiện ý định chỉ thuộc 1 miền quan tâm;
4. Đối với các thực nghiệm sử dụng phương pháp học sâu LSTM, luận án thực hiện chuyển tất cả các chữ cái viết hoa về chữ cái viết thường.Bước tiền xử lý này nhằm đưa những từ có ngữ nghĩa giống nhau nhưng hình thái khác nhau về cùng một dạng hình thái để việc mã hóa véc tơ từ được hiệu quả.
Ví dụ về việc thực hiện các bước tiền xử lý dữ liệu trên được trình bày trong hình 2.2. Ở đó bốn ví dụ tương ứng với minh họa cho bốn bước tiền xử lý tương ứng.
• Quy tắc gán nhãn cho dữ liệu
Về ý nghĩa khoa học, việc tiền xử lý dữ liệu giúp ta khắc phục khó khăn về sự phong phú của ngôn ngữ văn bản truyền thông trực tuyến. Ngoài ra, bước tiền xử lý thứ ba cũng phần nào khắc phục được vấn đề đa ý định. Đó là hai trong số rất nhiều khó khăn, thách thức được trình bày trong phần 2.1.2.
Trong tất cả các thực nghiệm của luận án, dữ liệu đều được gán nhãn bởi một nhóm gồm 3 hoặc 5 sinh viên đã được huấn luyện cẩn thận về phương pháp và tiêu chí gán nhãn. Tùy vào từng bài toán thực nghiệm, việc gán nhãn
Chương 2. Định nghĩa và phân tích ý định văn bản trực tuyến 34
Hình 2.2: Ví dụ minh họa cho việc tiền xử lý dữ liệu
cho dữ liệu sẽ có bản hướng dẫn riêng, một số bảng hướng dẫn gán nhãn sẽ được trình bày trong phần phụ lục của luận án:
1. Bài toán phân lớp nhị phân: Dữ liệu gồm các văn bản trực tuyến ngắn tiếng Việt được lấy tự động từ các phương tiện truyền thông xã hội. Dữ liệu được gán một trong hai nhãn: NI hoặc EI. Nếu văn bản trực tuyến không mang ý định hoặc mang ý định ẩn thì sẽ được gán nhãn NI, còn nếu văn bản trực tuyến mang ý định rõ của người dùng thì sẽ được gán nhãn EI.
2. Bài toán phân lớp đa lớp: Dữ liệu gồm các văn bản trực tuyến ngắn tiếng Việt mang ý định rõ của người dùng. Dữ liệu được gán một trong 13 nhãn: ThietBiDienTu (Thiết bị điện tử), ThoiTrangPhuKien
Chương 2. Định nghĩa và phân tích ý định văn bản trực tuyến 35
(Thời trang & phụ kiện), Tài chính (TaiChinh), PhucVuAnUong (Phục vụ ăn uống), DoDungTapHoa (Đồ dùng & tạp hóa), SucKhoeSacDep (Sức khỏe & sắc đẹp), NgheNghiepGiaoDuc (Nghề nghiệp & giáo dục), ThuCungCayCoi (Thú cưng & cây cối), BatDongSan (Bất động sản), TheThaoGiaiTri (Thể thao & giải trí), XeCoVanTai (Xe cộ vận tải), DuLichKhachSan (Du lịch & Khách sạn), Khac (Khác). Việc một văn bản trực tuyến được gán nhãn nào phụ thuộc vào nội dung của văn bản đó. Ví dụ, với văn bản ”Mình đang cần tìm một lớp ôn Ielt cấp tốc uy tín. Mình đang ở trọ ở khu Quan Hoa, Cầu Giấy, nếu có lớp ở khu vực đó thì tốt quá. Cảm ơn cả nhà ! ", nhãn được thống nhất lựa chọn là “NgheNghiepGiaoDuc”. Còn với những văn bản mang ý định rõ mà nội dung ý định đó không thuộc vào một trong 12 lớp ngữ nghĩa đầu tiên thì sẽ được gán nhãn “Khac”.
3. Bài toán trích xuất thông tin : Dữ liệu gồm các văn bản trực tuyến mang ý định rõ thuộc một miền quan tâm đã biết trước. Luận án xây dựng bộ nhãn tương ứng với các thực thể cần trích xuất, những bộ nhãn này sẽ được trình bày cẩn thận trong phần thực nghiệm ở chương 4. Sau đó, các sinh viên sẽ dựa vào hướng dẫn gán nhãn của từng miền quan tâm để gán nhãn cho từng thực thể của dữ liệu.
Để việc gán nhãn được hiệu quả nhưng không mất quá nhiều thời gian, trước tiên lượng dữ liệu sẽ được chia đều cho mỗi sinh viên trong nhóm. Sau khi các sinh viên tự gán nhãn phần dữ liệu được phân công, phần dữ liệu đã được gán nhãn đó sẽ được chuyển cho sinh viên khác để thực hiện kiểm tra chéo. Những nhãn gặp phải sự bất đồng trong quá trình kiểm tra chéo sẽ được ghi lại và được thực hiện tổng đánh giá chéo giữa cả nhóm. Khi đó, việc lựa chọn nhãn cuối cùng cho mỗi ví dụ dữ liệu dựa vào sự đồng thuận của cả nhóm sinh viên. Tiêu chí đồng thuận dựa trên sự bình chọn đa số, khi đó để gán nhãn cho một ví dụ dữ liệu, có những trường hợp sau xẩy ra :
- Nếu cả nhóm sinh viên đều chọn nhãn giống nhau để gán cho dữ liệu thì
nhãn đó được chọn.
- Nếu có sự bất đồng về việc gán nhãn giữa các sinh viên thì nhãn được
chọn là nhãn mà số đông sinh viên cùng lựa chọn.
- Nếu mỗi sinh viên chọn một nhãn khác nhau thì sẽ tiến hành bình chọn cho từng nhãn. Với mỗi nhãn được chọn để gán cho dữ liệu cả nhóm sinh viên
Chương 2. Định nghĩa và phân tích ý định văn bản trực tuyến 36
sẽ lựa chọn phiếu “Đồng ý” hoặc “Không đồng ý” cho nhãn đó. Nhãn được chọn sẽ là nhãn có nhiều phiếu “Đồng ý” nhất. Nếu vẫn xẩy ra trường hợp số nhãn “Đồng ý” bằng nhau cho các nhãn, 2 cố vấn khác sẽ được thêm vào nhóm bình chọn để chọn ra nhãn hợp lý nhất. Tổng số người bình chọn vẫn là một số lẻ để đảm bảo tiêu chí lấy kết quả theo bình chọn đa số.
2.1.2 Khó khăn - Thách thức
Việc phân tích và xác định một cách chính xác, đầy đủ, trọn vẹn ý định của người dùng từ văn bản trực tuyến là một vấn đề khó và nhiều thách thức trong lĩnh vực xử lý ngôn ngữ tự nhiên. Thực chất, nó được xếp vào lớp các bài toán hiểu ngôn ngữ tự nhiên (natural language understanding - NLU) vốn đòi hỏi các kỹ thuật phân tích sâu về ngôn ngữ như phân tích cú pháp, phân tích ngữ nghĩa. Qua việc khảo sát những nghiên cứu đi trước cũng như qua quá trình tiếp cận và giải quyết vấn đề trong khuôn khổ luận án, việc giải quyết bài toán phân tích và xác định ý định từ văn bản truyền thông xã hội trực tuyến nói chung và văn bản trực tuyến tiếng Việt nói riêng đối mặt với một số khó khăn, thử thách sau.
1) Sự đa dạng của ý định: Người dùng trên các kênh truyền thông xã hội có thể chia sẻ ý định về bất cứ điều gì tuỳ thuộc vào nhu cầu, mục tiêu của họ. Sự đa dạng về lĩnh vực, về đặc điểm của ý định tạo nên sự phân bố rộng khắp về mặt từ vựng lẫn nội dung thông tin. Phân tích và hiểu ý định cho mọi lĩnh vực (tức trên miền mở - open–domain) là bài toán rất khó đạt độ chính xác mong muốn.
2) Đa ý định: Một bài đăng của người dùng có thể chứa nhiều hơn một ý định và các ý định này lại thuộc những lĩnh vực khác nhau. Thậm chí nhiều ý định có thể nằm trong cùng một câu. Ví dụ, “Mình đang cần mua một chiếc địu trẻ em cỡ khoảng 5-10kg để địu bé nhà mình vì sắp tới gia đình mình tính đi Đà Nẵng mấy ngày. Bé nhà mình mới được 8 tháng . . . ” Việc chia tách nội dung các ý định này là một nhiệm vụ không dễ dàng trong tiến trình phân tích và hiểu ý định.
3) Tính nhập nhằng: Có rất nhiều cách để người dùng diễn đạt ý định thực sự của mình. Rất nhiều khi, sự phong phú về mặt diễn đạt và sự linh hoạt về mặt ngôn ngữ vô tình gây ra sự nhập nhằng và làm cho các hệ thống máy tính đoán nhận sai. Ví dụ, “Mình đang có hoa quả sạch, mẹ nào muốn
Chương 2. Định nghĩa và phân tích ý định văn bản trực tuyến 37
mua thì inbox mình nhé.” Đối với câu này, người dùng có ý định “bán hoa quả” nhưng mô hình có thể xác định nhầm thành ý định “mua” vì có cụm từ “muốn mua” trong nội dung. Những ý định mang tính nhập nhằng như thế này có thể xuất hiện trong dữ liệu ở nhiều dạng khác nhau.
4) Ý định ẩn (implicit intent): Khác với các ý định rõ (explicit intent), ở ý định ẩn, người dùng không đề cập một cách tường minh nhu cầu hay mục tiêu hành động cụ thể mà để người đọc suy diễn. Ví dụ, khi một người viết “Dòng 7 chỗ con nào chạy êm, ít ồn nhỉ ? ” thì có thể đơn giản chỉ là hỏi thông tin hoặc có ý định tìm mua một chiếc xe 7 chỗ có đặc điểm như thế. Việc suy diễn ý định ẩn có thể cần những thông tin ngữ cảnh bên ngoài tại thời điểm viết thay vì chỉ dựa vào thông tin nội tại của văn bản.
5) Sự phong phú của ngôn ngữ văn bản truyền thông trực tuyến: Khác với văn bản chính thống, các bài đăng trên các kênh truyền thông trực tuyến rất đa dạng, có thể chứa từ địa phương, tiếng lóng, từ viết tắt, ngôn ngữ “teen”, và đặc biệt có nhiều lỗi chính tả lẫn ngữ pháp. Vấn đề này là khó khăn chung cho các bài toán xử lý ngôn ngữ mạng xã hội và vì thế cũng ảnh hưởng đến bài toán phân tích và hiểu ý định người dùng.
6) Dữ liệu thưa và không cân bằng: Các bài đăng mang ý định có thể ngắn hoặc dài, tuy nhiên ý định của người dùng nếu có thường chỉ thể hiện trong một vài câu nằm rải rác trong văn bản. Hầu hết các câu còn lại không mang ý định. Vì vậy khi lọc hay phân tích ý định ở mức câu, chúng ta sẽ đối mặt với vấn đề dữ liệu thưa và không cân bằng. Điều này thường gây nhiễu và làm giảm độ chính xác của các bước phân tích.
7) Tính hiệu lực của ý định: Có những bài đăng chứa ý định nhưng rất khó xác định được ý định đó còn hiệu lực hay đã là quá khứ. Ví dụ, đối với câu “Mình đã tính đi du lịch Phú Quốc vào tháng 6 vừa rồi mà bận quá không thể bố trí được thời gian.” chúng ta rất khó xác định được ý định có còn hiệu lực hay không ? Liệu người dùng có còn muốn tiếp tục đi du lịch ở Phú Quốc nữa hay không. Đây là vấn đề rất khó giải quyết nếu chỉ dựa trên nội dung nội tại của câu.
8) Sự hạn chế về dữ liệu thực nghiệm: Mặc dù vấn đề phân tích và xác định ý định từ văn bản gây được nhiều chú ý trong thời gian gần đây, tuy nhiên cộng đồng nghiên cứu vẫn còn thiếu các tập dữ liệu gắn nhãn làm chuẩn mực chung để so sánh, đánh giá các phương pháp. Đặc biệt, chúng ta chưa có bất
Chương 2. Định nghĩa và phân tích ý định văn bản trực tuyến 38
cứ một tập dữ liệu chuẩn nào cho văn bản tiếng Việt đối với bài toán phân tích và xác định ý định. Đây là trở ngại không nhỏ trong quá trình nghiên cứu và thực hiện luận án.
Theo hiểu biết của tác giả, phân tích và hiểu ý định từ văn bản vẫn mới ở giai đoạn nghiên cứu ban đầu. Cộng đồng sẽ còn cần thêm nhiều khảo sát, nhiều nghiên cứu thấu đáo về bản chất và đặc điểm của ý định trong văn bản cũng như cần tìm ra các cách tiếp cận và chiến lược phân tích phù hợp, hiệu quả. Trong phạm vi luận án này, tác giả cũng đề xuất những giải pháp để khắc phục phần nào những khó khăn nêu trên, vấn đề này sẽ được trình bày kỹ hơn ở các chương tiếp theo.
Sau khi khảo sát dữ liệu thu thập được, luận án đề xuất định nghĩa ý định hướng miền quan tâm và tiếp theo đề xuất giải pháp ba pha để giải quyết xuyên suốt quá trình hiểu ý định người dùng, hai nội dung này sẽ lần lượt được trình bày ngay bên dưới, trong các phần 2.3 và 2.4.
2.2 Định nghĩa ý định người dùng: bối cảnh khoa
học
2.2.1 Định nghĩa ý định người dùng theo tiếp cận từ điển
Trong các nghiên cứu trước đây, có rất nhiều cách định nghĩa về ý định người dùng, ở đó “người dùng” (user) chỉ những người sử dụng máy tính hoặc dịch vụ mạng. Jansen (2011) [49] đã từng định nghĩa “Ý định người dùng là sự thể hiện một cách cụ thể của mục tiêu về tình cảm, nhận thức hay tình huống thông qua tương tác của con người với công cụ tìm kiếm trên Web”. Hay gần đây nhất, Yue Shang (2017) [92] đề xuất định nghĩa: “Ý định người dùng là một công việc cụ thể, hay một vấn đề, khái niệm ẩn hoặc đã rõ ràng mà người dùng thể hiện để hướng tới mục tiêu của họ về thông tin hay dịch vụ mà họ đang cần”. Vậy có thể thấy, trong khi mục tiêu của người dùng - user goal chỉ quan tâm đến cái đích hướng tới của người dùng, thì ý định của người dùng - user intent có ý nghĩa rộng hơn, nó hướng tới những thể hiện sâu hơn, cụ thể hơn của mục tiêu.
Chương 2. Định nghĩa và phân tích ý định văn bản trực tuyến 39
2.2.2 Định nghĩa ý định người dùng theo hướng cấu trúc
Định nghĩa ý định theo hướng cấu trúc, hay còn gọi là biểu diễn ý định, là một bước quan trọng để tiếp cận giải quyết bài toán phân tích và hiểu ý định người dùng.
Trong nghiên cứu của mình vào năm 2010, để hiểu được ý định của người dùng trong các câu truy vấn có dạng cụm danh từ, tác giả X.Li [67] đã biểu diễn một truy vấn dưới dạng một chuỗi gồm các thành phần Intent Head (IH), Intent Modifier (IM) và Other (O). Trong đó, mỗi IH chỉ một đoạn trong truy vấn tương ứng với một thuộc tính nào đó của một thể loại ý định; mỗi IM là một đoạn truy vấn thể hiện một giá trị của một thuộc tính nào đó của thể loại ý định tương ứng; còn O là đoạn trong truy vấn mà không có vai trò ngữ nghĩa.
Một cách tiếp cận khác được đề xuất bởi J.K. Kim và cộng sự (2016) [55], ở đó, ý định của người dùng được nhóm tác giả biểu diễn và xác định thông qua một hàm tối ưu dựa vào chính các từ cấu tạo nên câu truy vấn y (cid:48) = argmaxy [p(y | w1, w2, ..., wn )], với wi là từ thứ i của truy vấn, y là một trong những ý định đã được định nghĩa trước của truy vấn.
Ngoài ra, Labidi và cộng sự (2016) [64] cho rằng ý định người dùng bao gồm một hành động, một đối tượng, các mục tiêu và các ràng buộc. Trong đó mỗi hành động liên quan đến một đối tượng, một đối tượng có thể có nhiều ràng buộc, hành động được thực hiện có thể đạt không hoặc nhiều mục tiêu.
Một trong số các cách biểu diễn ý định gần với mục tiêu của luận án nhất là của Hamroun và cộng sự (2015) [36]. Ở đó, nhóm tác giả biểu diễn ý định của người dùng bởi bộ ba gồm (Chủ thể - Subject, Động từ chỉ ý định - Intent verb, Đối tượng - Object) và tập trung xác định 3 thành phần đó.
2.3 Định nghĩa ý định hướng miền quan tâm
Trong phần này luận án trình bày những khảo sát về các khái niệm quan điểm, ý định của Bing Liu [10]. Từ đó sẽ phân tích và đề xuất định nghĩa về ý định hướng miền quan tâm của luận án.
Chương 2. Định nghĩa và phân tích ý định văn bản trực tuyến 40
2.3.1 Định nghĩa quan điểm của Bing Liu
Ý định và quan điểm nhìn chung là hai khái niệm khác nhau, tuy nhiên chúng khá gần nhau và liên quan đến nhau theo một cách nhìn nhận nào đó. Chúng như hai khía cạnh của bài toán phân tích để hiểu “ý” của người dùng, đó là ý định và ý kiến về một đối tượng thực thể nào đó. Chẳng hạn với bài đăng “Mình muốn mua điện thoại Iphone 6 ”, mặc dù nó không thể hiện rõ tình cảm hay quan điểm của người dùng về điện thoại Iphone 6 nhưng hoàn toàn có thể suy luận khá chính xác rằng họ có suy nghĩ và quan điểm tốt về dòng điện thoại này nên họ mới có ý định mua nó.
Xét ví dụ là một quan điểm của một người A nhận xét về sản phẩm máy quay phim: “Tôi đã mua một máy quay phim Canon G12 sáu tháng trước. Tôi khá thích nó. Chất lượng ảnh thật tuyệt vời. Tuổi thọ pin cũng rất dài. Tuy nhiên vợ tôi thấy nó quá nặng đối với cô ấy.”. Sau khi phân tích ví dụ này, Bing Liu đã đưa ra định nghĩa về quan điểm (Định nghĩa 2) và mục tiêu đánh giá (Định nghĩa 3) như sau:
Định nghĩa 2: Quan điểm là một bộ bốn (g, s, h, t ). Ở đó g là mục tiêu/đối tượng cần được đánh giá (ví dụ như máy quay phim Canon12 ở ví dụ trên); s là nhận xét mà người đánh giá dành cho đối tượng g (ví dụ như: tuyệt vời, khá thích). h chỉ người đưa ra nhận xét và t là thời gian mà nhận xét đó được đề xuất.
Bốn thành phần trong định nghĩa về quan điểm đều rất quan trọng, không thể thiếu. Tuy nhiên nó mới chỉ thích hợp với loại “quan điểm thông thường”, còn với “quan điểm kiểu so sánh” (ví dụ như “Coke ngon hơn Pepsi”) thì cần có định nghĩa khác. Trong định nghĩa trên, việc xác định thành phần g chỉ mục tiêu cần được đánh giá (hay mục tiêu đánh giá ) đôi khi khá phức tạp. Một quan điểm có thể chứa nhiều mục tiêu đánh giá, khi đó ta cần xác định mục tiêu nào được đánh giá tốt và mục tiêu nào bị đánh giá kém. Ví dụ trong bài đăng “Hãng Apple đang phát triển rất tốt trong thời kỳ kinh tế khó khăn này”, mục tiêu Hãng Apple được đánh giá tốt trong khi nền kinh tế được đánh giá kém. Từ đó, Binh Liu đưa ra định nghĩa về “mục tiêu đánh giá” như sau:
Định nghĩa 3: Một mục tiêu đánh giá (sentiment target/opinion target) của một quan điểm là một thực thể (entity) hoặc một phần hoặc thuộc tính
Chương 2. Định nghĩa và phân tích ý định văn bản trực tuyến 41
của thực thể mà được đánh giá bởi một mức độ tình cảm nào đó.
Trong quan điểm của người A ở trên, câu 3 tuy chỉ đề cập đến chất lượng ảnh nhưng đối tượng được đánh giá ở đây phải được xác định là chất lượng ảnh của máy Canon G12 thì mới có nhiều ý nghĩa. Bing Liu cũng đưa ra định nghĩa về thực thể (Định nghĩa 4) để làm rõ hơn khái niệm mục tiêu đánh giá.
Định nghĩa 4: Một thực thể e là một sản phẩm, một dịch vụ, một chủ đề, con người, tổ chức, vấn đề hoặc một sự kiện. Nó được mô tả bởi một cặp, e:(T , W ), ở đó T là hệ thống phân cấp của các thành phần, các thành phần con, và cấp nhỏ hơn nữa; còn W là tập các thuộc tính của e. Mỗi thành phần hoặc thành phần con cũng có các thuộc tính của riêng nó.
Chẳng hạn như với một thực thể máy ảnh cụ thể nào đó, ví dụ như Canon G12, sẽ có một tập các thuộc tính (ví dụ như chất lượng ảnh, kích thước và trọng lượng) và một tập các thành phần (ví dụ như ống kính, pin). Thành phần pin lại có thuộc tính riêng của nó (ví dụ như tuổi thọ pin, trọng lượng pin). Một chủ đề cũng là một thực thể, ví dụ chủ đề tăng thuế, khi đó các chủ đề con của nó là tăng thuế với người nghèo, tăng thuế với tầng lớp trung lưu, tăng thuế với người giàu.
2.3.2 Định nghĩa ý định của Bing Liu
Bing Liu đưa ra hai định nghĩa về ý định, thứ nhất là định nghĩa ý định theo hướng ngữ nghĩa (Định ghĩa 5); thứ hai là định nghĩa ý định theo hướng cấu trúc (Định nghĩa 6), hay có thể gọi là dạng biểu diễn của ý định.
Định nghĩa 5: ý định có hai ý nghĩa hay hai cách nhìn nhận:
1. Định hướng của hành động mà một người hoặc một nhóm người dự định
làm theo. Ví dụ: “Tôi thực sự muốn mua điện thoại IphoneX ”
2. Mục tiêu hoặc mục đích đằng sau một hành động hoặc một số hành
động cụ thể. Ví dụ: “Anh ấy mua cái ô tô này chỉ để làm hài lòng bạn gái của anh ấy”
Cũng giống như phạm vi của luận án này, Bing Liu chỉ quan tâm đến ý định theo cách nhìn nhận thứ nhất. Theo Bing Liu, đó là loại ý định rõ và có
Chương 2. Định nghĩa và phân tích ý định văn bản trực tuyến 42
nhiều ý nghĩa thương mại. Loại thứ 2 thường mang ý định ẩn và việc phân tích nó thường mang tính chủ quan. Với mục đích phân tích ý định rõ, Bing Liu đề xuất định nghĩa mang tính cấu trúc của ý định, hay biểu diễn của ý định, như sau.
Định nghĩa 6: Ý định là một bộ năm: (hành động của ý định (intented- action), mục tiêu của ý định (intention-target), mức độ của ý định (intention- intensity), người có ý định (holder), thời gian (time)). Trong đó, hành động của ý định chỉ hành động được dự tính, mục tiêu của ý định chỉ đối tượng của ý định, mức độ của ý định chỉ mức độ cảm xúc của ý định (ví dụ như: mức vừa phải hoặc mức cảm xúc), người có ý định là một hoặc một nhóm người đang có ý định, thời gian chỉ thời gian ý định được đề xuất.
Ví dụ, với bài đăng “Mình đang có kế hoạch mua một máy quay phim mới”, hành động của ý định là mua, mục tiêu của ý định là máy quay phim, mức độ của ý định là vừa phải, người có ý định là mình.
Một vài nhận xét về cách biểu diễn ý định của Bing Liu:
1. Cả năm thành phần đều quan trọng, trong đó thành phần thứ nhất và thứ hai có vẻ quan trọng hơn các thành phần còn lại và tạo nên phần cốt lõi của ý định. Tuy nhiên thành phần người có ý định cũng rất cần thiết. Ví dụ với bài đăng “Bạn mình đang có kế hoạch mua một chiếc ô tô mới”, người có ý định ở đây không phải là tác giả của bài đăng mà là bạn của người đó, vì vậy nếu những quảng cáo về ô tô được đề xuất với tác giả bài đăng thì cũng không hiệu quả lắm. Tương tự, mức độ của ý định và thời gian cũng có vai trò riêng của nó.
2. Mục tiêu của ý định có thể rất cụ thể (ví dụ như Iphone 6 ) hoặc không cụ thể (ví dụ như điện thoại thông minh). Khi đó với mỗi đối tượng khác nhau cần có những chiến lược quảng cáo khác nhau.
3. Mức độ của ý định là thành phần có thể được thiết kế tùy thuộc vào mỗi ứng dụng khác nhau. Ví dụ, có thể dùng mức vừa phải và mức cảm xúc, hay mức vừa phải và mức gấp gáp.
2.3.3 Định nghĩa ý định hướng miền quan tâm của luận án
Như đã đề cập ở trên, một trong những khó khăn của bài toán xác định ý định người dùng là sự đa dạng của ý định. Ý định của người dùng có thể
Chương 2. Định nghĩa và phân tích ý định văn bản trực tuyến 43
thuộc nhiều lĩnh vực khác nhau, ví dụ như: Bất động sản, Du lịch, Tài chính, Giáo dục...Vậy nếu có thể định vị được miền lĩnh vực mà ý định người dùng hướng tới thì việc phân tích sâu ý định sẽ đạt được độ chính xác cao hơn, từ đó vấn đề đa dạng của ý định cũng được khắc phục. Để tiếp cận mục tiêu này, trước tiên luận án đề xuất định nghĩa về miền quan tâm của ý định (Định nghĩa 7).
2.3.3.1 Định nghĩa về miền quan tâm
Định nghĩa 7: Miền quan tâm của ý định là một lĩnh vực hoặc một chủ
đề mà nội dung ý định của người dùng thuộc vào.
Ví dụ, khi người dùng viết “Mình đang cần tìm người giúp việc theo giờ...” thì miền quan tâm của ý định này là Việc làm. Hay với bài đăng “Vợ chồng mình đang cần vay thế chấp khoảng 1 tỷ ...” thì miền quan tâm của ý định ở đây là Tài chính...
2.3.3.2 Định nghĩa ý định hướng miền quan tâm
Định nghĩa ý định do Bing Liu đề xuất chưa đề cập đến miền quan tâm của ý định. Nhưng theo phân tích ở trên thì việc xác định miền quan tâm của ý định cũng khá quan trọng khi muốn hiểu sâu về nội dung ý định. Vì vậy luận án đề xuất một định nghĩa về ý định hướng miền quan tâm (Định nghĩa 8), ở đó miền quan tâm được xem như một thành phần của ý định.
Định nghĩa 8: Ý định hướng miền quan tâm là một bộ năm, ký hiệu Ie u,
và được định nghĩa như sau:
(2.1) Ie u = (cid:104)u, c, d , w , p(cid:105)
ở đó:
— u thành phần xác định người dùng, ví dụ như nickname hoặc ID của
người đăng bài trên phương tiện truyền thông.
— c là thành phần chỉ ngữ cảnh, tức là hoàn cảnh hay tình huống liên quan đến người dùng, ví dụ: người dùng đang có thai, người dùng vừa mới kết hôn, người dùng đang có con nhỏ...Một người dùng tại một thời
Chương 2. Định nghĩa và phân tích ý định văn bản trực tuyến 44
điểm có thể liên quan đến nhiều hoàn cảnh khác nhau nên c có thể là một danh sách các tình huống.
— d là thành phần chỉ miền quan tâm của ý định, ví dụ Bất động sản, Du
lịch, Tài chính, Giáo dục, Làm đẹp...
— w là từ/cụm từ thể hiện hành động của ý định, hay còn gọi là từ khóa
chỉ ý định, ví dụ như thuê (nhà), mua (xe), vay (tiền)...
— p là danh sách/tập các thuộc tính, thông tin liên quan đến ý định. Nó có thể được biểu diễn bởi một danh sách các bộ đôi Thuộc Tính – giá trị để thể hiện các thông tin liên quan đến ý định. Ví dụ với một bài đăng thuộc miền Bất động sản thì p có thể là { đối tượng = “nhà”, địa điểm = “373 đường Trần Xuân Soạn”, diện tích = “80m2”, số phòng ngủ = “2”, liên hệ = “01227778483”...}.
ngoài ra, ký hiệu e tức là “explicit” và u là “user” thể hiện định nghĩa trên là một biểu diễn ý định rõ của người dùng u Một số nhận xét và phân tích về định nghĩa ý định hướng miền quan tâm của luận án:
1. Việc xác định miền quan tâm d là rất quan trọng. Nếu hai miền quan tâm khác nhau thì thường tập các thông tin liên quan p tương ứng cũng khác nhau. Chẳng hạn khi miền quan tâm là miền Bất động sản, tập các thông tin về ý định, p, là {diện tích, số phòng ngủ, số phòng tắm,...}; nhưng khi miền quan tâm là miền Du lịch thì p là {điểm đến, ngày đi, ngày về, khoảng thời gian,...}. Vậy nếu xác định được d thì các thông tin liên quan đến ý định sẽ được định hướng và trích xuất chính xác hơn.
2. Thành phần u nhằm xác định người đăng bài, khi đó, u có thể là người có ý định hoặc không (tức là u chỉ đăng bài giúp người có ý định). Khác với định nghĩa về ý định của Bing Liu (Định nghĩa 5), luận án không xác định người có ý định một cách hình thức mà quan tâm đến cách liên hệ với người có ý định. Do đó, luận án trích xuất nick-name hoặc ID của u, bên cạnh đó, luận án sẽ trích xuất thông tin liên lạc với người có ý định như số điện thoại, địa chỉ email,...Những thông tin này giúp hệ thống có thể liên hệ, tương tác với người có ý định.
3. Thành phần Đối tượng của ý định chỉ mục tiêu mà ý định hướng tới. Ví dụ với bài đăng “Tôi đang cần mua gấp một con xe 7 chỗ...”, người dùng có ý định w là mua, và đối tượng của ý định mua là xe. Tuy nhiên,
Chương 2. Định nghĩa và phân tích ý định văn bản trực tuyến 45
trong định nghĩa này, luận án không để riêng một thành phần để biểu diễn đối tượng của ý định như trong định nghĩa của Bing Liu. Ở đây, đối tượng của ý định được xác định như một thành phần trong tập các thông tin của ý định p. Cách biểu diễn này là hợp lý khi mà có một số loại ý định không có thành phần chỉ đối tượng của ý định. Xét 2 ví dụ sau: (1) “Gia đình mình 5 người đang có kế hoạch đi Đà Nẵng 5 ngày...”; (2) “Mình tính du học ở Anh khi tốt nghiệp...”. Ví dụ 1 thể hiện ý định đi (du lịch), còn ví dụ 2 thể hiện ý định du học, nhưng ở cả 2 ví dụ này đều không có đối tượng cụ thể của ý định.
4. Thành phần c, chỉ ngữ cảnh của người dùng, cũng rất cần thiết vì việc tư vấn một kế hoạch đi du lịch cho một bà bầu, hay một gia đình có con nhỏ sẽ khác hẳn một chương trình du lịch cho một đôi vợ chồng đi nghỉ tuần trăng mật. Hơn nữa, thành phần này cũng có thể biểu diễn được cho thành phần “mức độ ý định” trong định nghĩa của Bing Liu, ví dụ như c có thể là “...các mẹ cho thông tin gấp nhé, tối mai mình bay rồi...”
5. Định nghĩa này biểu diễn ý định hướng miền quan tâm nên trong trường hợp một bài đăng mang nhiều ý định thuộc các miền quan tâm khác nhau thì luận án chia ra hai trường hợp nhỏ sau:
— Mỗi ý định được thể hiện trong các câu/đoạn văn độc lập thì luận án tách bài đăng đó thành nhiều bài đăng sao cho mỗi bài đăng chỉ mang ý định thuộc một miền quan tâm duy nhất.
— Các ý định thuộc nhiều miền quan tâm khác nhau nằm xen kẽ trong một câu/đoạn văn (đa ý định), ví dụ như bài đăng: “Mình đang cần mua một chiếc địu trẻ em cỡ khoảng 5-10kg để địu bé nhà mình vì sắp tới gia đình mình tính đi Đà Nẵng mấy ngày. Bé nhà mình mới được 8 tháng . . . ”, cần một cách biểu diễn khác phù hợp hơn.
6. Yếu tố thời gian đăng bài viết có chứa ý định chưa được xét đến trong định nghĩa này. Tức là trong phạm vi luận án này, tác giả không xét đến tính hiệu lực của ý định. Ở đây, tác giả chỉ xét đến yếu tố bài đăng có mang ý định rõ của người dùng hay không, và phân tích để trích xuất ý định đó nếu có.
Định nghĩa mà luận án đề xuất vẫn còn những điểm hạn chế cần được phát triển thêm. Tuy nhiên với phạm vi và mục tiêu nghiên cứu mà luận án
Chương 2. Định nghĩa và phân tích ý định văn bản trực tuyến 46
đề ra thì định nghĩa đã đáp ứng được phần nào những yêu cầu cần thiết. Sau khi cấu trúc hóa ý định rõ của người dùng, luận án đề xuất tiến trình ba pha nhằm giải quyết xuyên suốt bài toán phân tích và hiểu ý định người dùng từ các bài đăng tiếng Việt trên các phương tiện truyền thông xã hội.
2.4 Tiến trình ba pha phân tích và xác định ý
định
Bên cạnh các ý nghĩa thực tiễn và khoa học, xác định ý định người dùng trên các phương tiện truyền thông xã hội trực tuyến là một bài toán khó. Theo tìm hiểu của tác giả, hầu hết các nghiên cứu về vấn đề xác định ý định người dùng mới chỉ đề xuất những phương pháp tiếp cận đơn lẻ, chưa mang tính quy trình, đó là: hoặc phân lớp ý định vào một miền lĩnh vực tương ứng, điển hình như Chen và cộng sự (2013) [21]; hoặc xác định những cụm từ thể hiện hành động của ý định và đối tượng mà ý định hướng đến, điển hình như Li (2010) [67]. Một trong số rất ít nghiên cứu đề xuất việc xác định ý định người dùng dưới dạng một quy trình gồm nhiều bước là nghiên cứu của Castellanos và cộng sự (2012) [16]. Ở đó, nhóm tác giả đưa ra một quá trình xác định ý định người dùng gồm 2 bước:
(1). Xác định các cụm từ chỉ ý định (intention phrases), ví dụ như “would like to see a film” (muốn xem phim), “are planning a trip” (định đi du lịch),...
(2). Trích xuất các thành phần của ý định, tức là các thuộc tính của ý định,
ví dụ như tên phim, thời gian muốn xem phim...
Nghiên cứu của nhóm tác giả này sẽ được trình bày cụ thể hơn ở phần 4.2 chương 4. Tuy nhiên, quá trình hai bước của nhóm Castellanos mới chỉ giải quyết được một phần vấn đề của bài toán xác định ý định người dùng. Nói một cách khác, theo hiểu biết của tác giả, chưa có một công bố nào đưa ra một quy trình xuyên suốt để xác định ý định từ các văn bản trực tuyến. Đây là một động lực để luận án nghiên cứu và đề xuất một quy trình giải quyết bài toán này.
Từ việc mô hình hóa ý định của người dùng thành bộ năm như ở trên, luận án đề xuất chiến lược giải quyết bài toán xác định ý định người dùng là
Chương 2. Định nghĩa và phân tích ý định văn bản trực tuyến 47
một quy trình gồm ba pha chính được mô tả như trong hình 2.3. Ba pha đó lần lượt là:
Hình 2.3: Quy trình ba pha Phân tích và xác định ý định người dùng [LTLe1].
1. Lọc ra bài đăng mang ý định của người dùng (User Intent Filtering): pha này sẽ lọc ra những bài đăng có chứa ý định của người dùng từ các đoạn văn bản trực tuyến được người dùng đăng trên các phương tiện truyền thông xã hội. Pha này giúp hệ thống xác định được thành phần u trong định nghĩa bộ năm 2.1 Những đoạn văn bản được xác định là mang ý định của người dùng trong pha này sẽ được chuyển đến pha tiếp theo.
2. Xác định miền quan tâm của ý định (User Intent Domain and Category Identification): với một đoạn văn bản trực tuyến có mang ý định của người dùng, pha này sẽ giúp xác định xem ý định đó thuộc vào miền quan tâm nào. Một số miền quan tâm mà ý định có thể thuộc
Chương 2. Định nghĩa và phân tích ý định văn bản trực tuyến 48
u , công thức 2.1
vào là: Giáo dục, Bất động sản, Du lịch...Pha này sẽ xác định được thành phần d trong biểu diễn bộ năm của I e
3. Phân tích và trích xuất ý định (User Intent Parsing and Ex- traction): với đầu vào là một đoạn văn bản trực tuyến mang ý định rõ của người dùng thuộc một miền quan tâm đã được xác định trước, pha này sẽ phân tích và trích xuất ra tất cả những thông tin cần thiết liên quan đến ý định của người dùng. Ở bước này, ta sẽ thu được hành động chính trong ý định của người dùng như muốn mua - nhà, định vay – tiền, muốn đặt – tour,... và các thông tin liên quan, bổ trợ cho ý định như giá cả, địa điểm, liên hệ... Pha này sẽ giúp xác định ba thành phần c, w và p trong công thức 2.1
Quy trình ba pha phần nào giải quyết được các vấn đề nghiên cứu đã đề ra ở trên. Đặc biệt, nó lần lượt xác định tất cả các thành phần trong định nghĩa bộ năm của ý định hướng miền quan tâm.
Hình 2.4 thể hiện một ví dụ cụ thể về một quá trình phân tích và xác định
ý định người dùng.
Đầu vào của quá trình này là một bài đăng trên diễn đàn của trang www.webtretho.com, bài đăng nói về ý định của một người muốn đặt một tour du lịch cho tuần trăng mật của họ. Pha đầu tiên (Lọc ra bài đăng mang ý định của người dùng) sẽ xác định được rằng bài đăng này có mang ý định rõ của người dùng, và nick-name của người đăng bài sẽ được trích xuất để làm giá trị cho thành phần u. Sau đó bài đăng sẽ được chuyển sang pha tiếp theo. Ở pha thứ hai (Xác định miền quan tâm của ý định), nội dung của văn bản sẽ được phân tích bởi một mô hình phân lớp đa lớp để xác định xem nó thuộc vào lớp miền quan tâm nào. Trong trường hợp này, pha thứ hai sẽ phân lớp bài đăng mang ý định rõ trên vào miền quan tâm Du lịch, vậy thành phần d là Du lịch. Tiếp theo đó, bài đăng sẽ được chuyển tiếp đến pha thứ ba (Phân tích và trích xuất ý định). Ở đây, hành động chính của ý định w mà người dùng hướng đến là đặt – tour và các thông tin cần thiết liên quan đến ý định, tức là thành phần p cũng sẽ được trích xuất trong bước này như giá rẻ, 3 đến 4 ngày, tháng 10, Hạ Long – Cát Bà. Tương tự, thành phần c sẽ được trích xuất với giá trị là sắp cưới.
Về mặt kỹ thuật, trong quá trình ba pha phân tích và xác định ý định người dùng đề xuất ở trên, pha thứ nhất và pha thứ hai có thể được nhìn
Chương 2. Định nghĩa và phân tích ý định văn bản trực tuyến 49
Hình 2.4: Ví dụ cụ thể một quá trình phân tích và xác định ý định người dùng trực tuyến [LTLe1].
nhận như các bài toán phân lớp, trong đó pha 1 thực chất là phân lớp nhị phân, còn pha 2 là phân lớp đa lớp. Pha cuối cùng có thể được xem là một nhiệm vụ trích xuất thông tin, ở đó từ khóa chỉ ý định chính của người dùng cùng các thông tin liên quan sẽ được trích chọn.
Chương 2. Định nghĩa và phân tích ý định văn bản trực tuyến 50
2.5 Kết luận chương
Chương 2 trình bày đóng góp của luận án trong việc đề xuất định nghĩa về ý định hướng miền quan tâm và tiến trình ba pha giải quyết bài toán hiểu ý định từ văn bản trực tuyến tiếng Việt. Luận án phân tích ưu, nhược điểm của phương pháp định nghĩa ý định hướng miền quan tâm của luận án, bên cạnh đó có những so sánh, liên hệ với định nghĩa ý định của Bing Liu [10]. Tiến trình ba pha được thiết kế với hai pha phân lớp và một pha trích xuất thông tin nhằm xác định năm thành phần của định nghĩa. Bên cạnh đó, chương 2 cũng trình bày về những quy tắc xây dựng dữ liệu thực nghiệm và những khó khăn thách thức khi giải quyết bài toán phân tích ý định từ văn bản trực tuyến nói chung cũng như văn bản trực tuyến tiếng Việt nói riêng.
Chương 3
Phát hiện ý định và xác định miền quan tâm của ý định
Từ giải pháp 3 pha được đề xuất trong chương 2, chương này sẽ lần lượt đề xuất phương pháp giải quyết pha 1 và pha 2. Cụ thể, với một bài đăng trực tuyến trên các phương tiện truyền thông xã hội, trước tiên luận án sẽ xác định xem bài đăng đó có mang ý định hay không. Nếu bài đăng được nhận định là mang ý định của người dùng thì luận án sẽ xác định xem ý định của người dùng đó thuộc vào miền quan tâm nào, ví dụ như miền Bất động sản, Du lịch, Xe cộ, Giáo dục,.... Để giải quyết pha 1 luận án mô hình hóa bài toán về bài toán phân lớp nhị phân, còn với pha 2 luận án sử dụng phương pháp phân lớp đa lớp. Với việc giải quyết pha 1 và pha 2 trong quy trình ba pha, luận án đã xác định được hai thành phần trong biểu diễn bộ 5 của ý định người dùng I e u đã được luận án đề xuất ở chương 2, công thức 2.1, đó là thành phần xác định người đăng bài u và thành phần xác định miền quan tâm d . Về bố cục của chương này, trước tiên, luận án trình bày về một số nghiên cứu liên quan đến hai bài toán này. Tiếp theo, luận án sẽ tập trung giới thiệu và phân tích lần lượt từng bài toán trong hệ thống: từ phát biểu bài toán, thiết kế thực nghiệm đến kết quả thực nghiệm. Các kết quả nghiên cứu về hai bài toán này đã được công bố trong các công trình [LTLe1] (2016), [LTLe2] (2016) và [LTLe6] (2020).
51
Chương 3. Phát hiện ý định và xác định miền quan tâm của ý định 52
3.1 Nghiên cứu trên thế giới về phát hiện ý định
và xác định miền quan tâm của ý định
Trong phần này, luận án sẽ trình bày một số nghiên cứu liên quan đến việc lọc bài đăng mang ý định người dùng ở mục 3.1.1, và tiếp theo là một số nghiên cứu hướng tới việc xác định miền quan tâm của ý định người dùng ở mục 3.1.2
3.1.1 Phát hiện bài đăng trực tuyến mang ý định
Việc xác định một bài đăng mang ý định của người dùng hay không được các nhà nghiên cứu quan tâm nhiều hơn kể từ năm 2006. Tuy nhiên hầu hết các nghiên cứu mới chỉ tập trung vào “ý định thương mại” (commercial intention) và chủ yếu là ý định người dùng được thể hiện dưới dạng các truy vấn ở các máy tìm kiếm. Trong đó, điển hình là các nghiên cứu của Dai và cộng sự (2006) [24], Hu và cộng sự (2009)[42], Shen và cộng sự (2011)[91].
1. Cellphone: http://www.howardforums.com/forums.php; Electronics: http://www.avsforum.com/avs-vb/; Camera: http://forum.digitalcamerareview.com/; TV: http://www.avforums.com/forums/tvs/
Năm 2013, Z.Chen và cộng sự là một trong số ít nhóm tác giả bắt đầu hướng đến việc xác định bài đăng trực tuyến mang ý định người dùng dưới dạng các posts, comments, tweets [21]. Khác với truy vấn, các bài đăng này thường dài hơn, chứa nhiều thông tin hơn và do đó cũng chứa nhiều nhiễu hơn. Nhóm tác giả mô hình hóa việc xác định ý định người dùng bởi bài toán phân lớp nhị phân, trong đó mục tiêu chính là phân lớp các bài đăng của người dùng thành hai lớp là bài đăng có ý định (intention posts) và bài đăng không có ý định (non-intention posts). Ở đó, intention post là những bài đăng thể hiện rõ ràng một ý định cụ thể của người dùng, ví dụ như “I am looking for a brand new car to replace my old Ford Focus”, những bài đăng không mang ý định còn lại sẽ thuộc lớp non-intention post. Nhóm tác giả đề xuất thuật toán học chuyển đổi Co-Class sử dụng phương pháp Naive Bayes để xây dựng mô hình phân lớp. Phương pháp đề xuất của nhóm tác giả đã cho kết quả thậm chí còn tốt hơn phương pháp học có giám sát hoàn toàn đối với 4 bộ dữ liệu được lấy từ các diễn đàn tương ứng 1.
Chương 3. Phát hiện ý định và xác định miền quan tâm của ý định 53
Cùng ý tưởng xác định ý định “mua” của người dùng từ những bài đăng trên các phương tiện truyền thông xã hội V.Gupta và cộng sự (2014) [35] xây dựng mô hình phân lớp nhị phân để phân loại các bài đăng của người dùng thành hai lớp là PI (Purchase Intention - ý định mua) và non-PI. Để định nghĩa các bài đăng thuộc vào lớp PI, nhóm tác giả lần lượt đưa ra các định nghĩa liên quan như CI words (Consumption Indicative words), AI words (Action Indicative words). Trong đó, CI words chỉ những từ khóa chỉ một hoặc nhiều sản phẩm hay dịch vụ mà người dùng có thể mua, ví dụ: điện thoại (cellphone), bữa trưa (lunch)...; AI words là những từ khóa mô tả hành động liên quan đến mỗi CI words cụ thể, chẳng hạn như: mua (buy), ăn (eat)...Từ đó PI text được định nghĩa là những bài đăng có chứa một hoặc vài CI words, đó là đối tượng của ý định, đi kèm với một hoặc vài AI words, đó là ý định thương mại. Nhóm tác giả đã cố gắng giải quyết các vấn đề khó khăn khi xử lý các bài đăng như thiếu thông tin, sai ngữ pháp, tính nhập nhằng của ngôn ngữ,...bằng cách trích xuất các đặc trưng hiệu quả cao như đặc trưng về từ vựng và cụm từ, đặc trưng về phụ thuộc ngữ pháp. Về dữ liệu thực nghiệm, nhóm tác giả sử dụng 15.000 bài đăng đã được gán nhãn trên trang Quora, trong đó 2.597 bài đăng được gán nhãn PI, 12.403 bài đăng được gán nhãn non-PI; và 7.000 bài đăng đã được gán nhãn thuộc trang Yahoo ! Answers với 1.139 bài thuôc lớp PI, 5861 bài thuộc lớp non-PI. Nhóm tác giả sử dụng phương pháp phân lớp SVMs và tiến hành thực nghiệm lần lượt với các loại đặc trưng được xây dựng: TFIDF, PA (Purchase Action), PO (Purchase Objective), ... Kết quả thực nghiệm cho thấy việc sử dụng kết hợp tất cả các đặc trưng được đề xuất cho kết quả tốt nhất đối với cả hai bộ dữ liệu với độ đo ROC đạt 0,93 trên bộ dữ liệu Quora và 0,89 trên bộ dữ liệu Yahoo ! Answer.
3.1.2 Xác định miền quan tâm của ý định
Kế thừa ý tưởng của Broder [12], rất nhiều nhà nghiên cứu đã đề xuất những phương pháp khác nhau để phân lớp các truy vấn thành 3 miền ý định tương ứng Navigational, Informationnal, Transactional, tuy nhiên các nghiên cứu ban đầu chỉ tập trung vào đối tượng là các truy vấn từ các máy tìm kiếm, các dịch vụ hỏi đáp cộng đồng.
Chương 3. Phát hiện ý định và xác định miền quan tâm của ý định 54
Đến năm 2015, J.Wang và cộng sự [97] là một trong số ít nhóm công bố nghiên cứu về ý định người dùng trong các “tweet” trên mạng xã hội Twitter. Đây cũng là nghiên cứu có ý tưởng gần nhất với hướng nghiên cứu của luận án. Trước đó nhóm tác giả B. Hollerit và cộng sự (2013) [40] đã cũng đã tìm cách xác định ý định người dùng trong các “tweet” , nhưng họ mới chỉ xác định ý định thương mại (comercial intention) của người dùng, trong khi nhóm của Wang xác định các ý định đa dạng hơn.
2. http://www.groupon.com
J. Wang và cộng sự nhận thấy lượng tweet là rất lớn và nội dung của chúng rất phong phú, khác với các bài đăng trong cùng một diễn đàn thường hướng về cùng một chủ để nào đó, do đó họchỉ tập trung nghiên cứu các intent tweet, đó là các tweet thỏa mãn: (1) phải chứa ít nhất một động từ; (2) thể hiện rõ người dùng đang định thực hiện một hành vi nào đó; (3) người đọc tweet đó phải nhận ra được ý định của người dùng trong khoảng thời gian nhất định. Sau đó dựa vào sự phân loại của Groupon 2, nhóm tác giả đề xuất phân ý định của người dùng vào 6 lớp, đó là Food & Drink, Travel, Career & Education, Goods & Services, Events & Activities và Triffle. Bên cạnh đó, nhóm tác giả đưa ra hai khái niệm là Intent-Indicator (ID) và Intent-Keyword (IK), trong đó ID thường là động từ hay cụm từ đứng ngay sau chủ ngữ thể hiện người dùng đang có ý định hoặc mong muốn; còn IK là một danh từ, động từ, danh từ ghép hoặc động từ ghép đứng ngay sau ID. Ví dụ, trong tweet “I want to buy an xbox” thì ID là “want to”, còn IK là “buy” và “xbox”. Để xây dựng mô hình phân lớp tự động các tweet vào 6 lớp trên, nhóm tác giả sử dụng phương pháp học bán giám sát, dựa vào đồ thị ý định với các đỉnh là các tweet hoặc các IK. Một cạnh được nối giữa một tweet với một IK nếu tweet chứa IK đó; hai IK được nối với nhau nếu chúng cùng xuất hiện trong một tweet; và hai tweet được nối với nhau nếu chúng có chung IK. Dựa vào đặc tính lan truyền nhanh trên đồ thị và thuật toán tính trọng số trên các cạnh, nhóm tác giả phát triển mô hình phân lớp theo phương pháp bán giám sát đạt độ chính xác macro-F1 cao hơn đáng kể so với các phương pháp thời điểm đó.
Chương 3. Phát hiện ý định và xác định miền quan tâm của ý định 55
3.2 Phát hiện ý định
3.2.1 Phát biểu bài toán
• Phát biểu bài toán “Phát hiện ý định”: Xây dựng mô hình để xác định một văn bản trực tuyến tiếng Việt (bài đăng/bình luận trên các phương tiện truyền thông xã hội) có chứa ý định rõ của người dùng hay không
Mục đích của việc phát hiện (hay lọc) các bài đăng mang ý định của người dùng là xác định xem bài đăng có mang ý định rõ hay không, đây chính là pha 1 của giải pháp 3 pha, hình 2.3.
• Định nghĩa bài toán “Phát hiện ý định”: Đầu vào (Input):
Để giải quyết bài toán này, luận án xây dựng mô hình phân lớp nhị phân để phân loại các bài đăng trực tuyến thành 2 lớp: Explicit Intent (EI) và Non-Intent (NI). Trong đó, EI là lớp chứa các bài đăng mang ý định rõ (đã được định nghĩa trong phần1.1 của chương 1), NI là lớp chứa các bài đăng còn lại.
— D = {x1, x2, ..., xn }: tập các bài đăng/bình luận tiếng Việt trên các
phương tiện truyền thông trực tuyến.
— C = {EI , NI }: tập gồm 2 lớp ngữ nghĩa.
Đầu ra (Output):
— Mô hình phân lớp nhị phân f (x ) : D → C .
• Ý nghĩa khoa học:
— Lớp ngữ nghĩa của xi .
- Việc lọc ra bài đăng mang ý định rõ giúp hệ thống khắc phục được khó khăn về dữ liệu không cân bằng như đã nêu trong chương 2. Một số lượng lớn các bài đăng không mang ý định hoặc mang ý định ẩn đã được loại ra khỏi hệ thống, do đó các pha phân tích sâu tiếp theo không bị ảnh hưởng nhiều bởi những dữ liệu nhiễu từ các bài đăng không mang ý định rõ.
- Bài toán này giúp hệ thống xác định được thành phần người viết bài đăng u trong định nghĩa ý định hướng miền quan tâm ở chương 2 (công thức 2.1).
Chương 3. Phát hiện ý định và xác định miền quan tâm của ý định 56
3.2.2 Mô hình giải quyết bài toán
3.2.2.1 Sử dụng phương pháp học máy thống kê
2, ..., λ∗
1, λ∗
• Tham số của mô hình: Tập trọng số θ = (λ1, λ2, ..., λn ), trong đó mỗi trọng số λi tương ứng với mỗi đặc trưng dữ liệu fi , được khởi tạo ngẫu nhiên. Để tìm ra bộ trọng số tối ưu θ∗ = (λ∗ n ) luận án sử dụng phương pháp quasi-Newton L-BFGS [69].
Về cơ bản, có thể dùng một phương pháp phân lớp bất kỳ để xây dựng mô hình giải quyết bài toán phân lớp nhị phân được đặt ra. Tuy nhiên luận án lựa chọn hai phương pháp phân lớp đơn giản và hiệu quả để tiến hành thực nghiệm, đó là phương pháp cực đại entropy (ME) và phương pháp máy véc tơ hỗ trợ (SVMs). Trước tiên, luận án lựa chọn phương pháp ME vì một số ưu điểm của nó [8]. Thứ nhất, ME phù hợp với dữ liệu thưa như ngôn ngữ tự nhiên. Thứ hai, ME có thể mã hóa các loại đặc trưng phong phú ở những cấp độ chi tiết khác nhau giúp cho việc phân lớp được tốt hơn. Phương pháp này đã được trình bày trong phần kiến thức cơ sở ở chương 1. Bên cạnh đó, luận án lựa chọn phương pháp phân lớp SVMs để so sánh với phương pháp ME vì SVMs có thêm một số ưu điểm nổi bật như sau: (1) SVMs làm việc hiệu quả với không gian có số chiều cao và dữ liệu thực nghiệm đủ lớn; (2) Bài toán phân lớp văn bản thường là phân lớp phi tuyến mà việc sử dụng phương pháp Kernel trong SVMs giúp ta giải quyết hiệu quả vấn đề này. Kỹ thuật phân lớp SVMs đã được trình bày trong phần kiến thức cơ sở ở chương 1.
Với phương pháp SVMs, luận án sử dụng hàm nhân RBF và lựa chọn các
• Xây dựng tập đặc trưng: Bên cạnh đó, để có được một mô hình phân lớp tốt thì việc lựa chọn và xây dựng tập đặc trưng hiệu quả là cần thiết. Với bài toán lọc các bài đăng mang ý định người dùng, luận án sử dụng hai loại đặc trưng, bảng 3.1.
tham số tương ứng: C = 2.0 , γ = 2.0.
— Đặc trưng từ vựng: luận án sử dụng 1-grams (mỗi một từ riêng), 2-grams (mỗi cặp 2 từ liên tiếp nhau), 3-grams (mỗi bộ 3 từ liên tiếp nhau). Luận án sẽ không kết nối 2 từ liên tiếp nhau để tạo các 2-grams và 3-grams nếu giữa chúng có dấu câu như dấu phẩy hoặc dấu chấm.
Chương 3. Phát hiện ý định và xác định miền quan tâm của ý định 57
— Đặc trưng từ điển (look-up dictionary): Như đã trình bày trong phần 1.1, mỗi loại ngôn ngữ có những cụm từ đặc trưng riêng dùng để thể hiện ý định hay kế hoạch của con người. Vì vậy để mô hình phát hiện bài đăng mang ý định đạt được độ chính xác cao, luận án đề xuất một từ điển chứa các cụm từ thường dùng để thể hiện ý định trong tiếng Việt. Từ điển này được xây dựng thủ công theo 2 phương pháp sau: (1) duyệt và lọc ra các cụm từ dùng để thể hiện ý định trong dữ liệu thực nghiệm; (2) dựa trên kinh nghiệm sử dụng tiếng Việt của nhóm nghiên cứu đề xuất các cụm từ thường dùng để thể hiện ý định trong tiếng Việt mà trong dữ liệu chưa có. Cuối cùng, luận án xây dựng được một từ điển gồm 22 cụm 2-gram và 51 cụm 3-gram. Một số ví dụ về các cụm 2-gram và các cụm 3-gram trong từ điển lần lượt là:
+ muốn mua, cần tìm, đang cần, định vay, cần bán, muốn thuê...
+ muốn thanh lý, muốn cho thuê, đang cần người, cần thanh lý, đang có ý ...
3.2.2.2 Sử dụng phương pháp học sâu CNN
Trong thực nghiệm này, luận án tham khảo mô hình CNN ứng dụng cho bài toán phân lớp văn bản của Y.Kim (2014) [56] để xây dựng mô hình phát hiện ý định của người dùng, hình 3.1. Mô hình mà luận án xây dựng gồm 4 tầng với các tham số được trình bày cụ thể như sau:
Hình 3.1: Mô phỏng mô hình phân lớp nhị phân với CNN
• Tầng mã hóa véc tơ từ (embedding layer): Mỗi từ xi trong dữ liệu huấn luyện được mã hóa bởi một véc tơ kích thước 300 thành phần và được khởi tạo theo phân bố chuẩn ngẫu nhiên. Từ đó, một bài đăng gồm n từ sẽ được mã hóa thành n véc tơ kết nối với nhau. Véc tơ này sẽ được điều chỉnh trong suốt quá trình huấn luyện mô hình
• Tầng tích chập (convolution layer): Mô hình sử dụng 300 cửa sổ lọc w (filter) với 3 loại kích thước lần lượt là 3, 4, 5 từ, trong đó mỗi loại kích thước gồm 100 cửa sổ. Cửa sổ lọc w là ma trận 0-1 có kích h × 300 ( với h là kích thước của cửa sổ lọc) được khởi tạo ngẫu nhiên. Khi đó mỗi đặc trưng ci sẽ được tạo ra khi áp dụng một cửa sổ lọc lên một dãy gồm h từ liên tiếp, theo quy tắc sau:
Chương 3. Phát hiện ý định và xác định miền quan tâm của ý định 58
(3.1) ci = f (w • xi :i +h−1 + b)
Ở đó, hàm kích hoạt f được sử dụng để huấn luyện mô hình là ReLU, còn b ∈ R là hệ số bias.
Khi đó, tương ứng với một bài đăng n từ sẽ thu được một véc tơ đặc trưng
kích thước n − h + 1:
• Tầng lấy giá trị lớn nhất (max-pooling): Từ mỗi véc tơ đặc trưng được tạo ra từ tầng tích chập ở trên, tầng này sẽ trích chọn ra một thành phần đặc trưng có giá trị lớn nhất ˆc = max c để làm đại diện cho đặc trưng thu được từ cửa sổ lọc tương ứng. Các thành phần đặc trưng được chọn này sẽ được kết nối với nhau để tạo một véc tơ đặc trưng duy nhất cuối cùng. Véc tơ này sẽ được chuyển đến tầng chuẩn hóa tiếp theo.
• Tầng kết nối đầy đủ (fully connected) và tầng chuẩn hóa (softmax layer): Tầng fully connected chuyển véc tơ đặc trưng kích thước 300 thu được ở tầng max-poolingtrên về véc tơ kích thước 2 chiều z = (z1, z2). Tầng chuẩn hóa cuối cùng sử dụng hàm softmax để đảm bảo giá trị đầu ra là véc tơ có mỗi thành phần là xác suất thuộc một trong hai lớp NI hoặc EI của bài đăng đầu vào. Giá trị xác suất của lớp nào lớn hơn thì bài đăng sẽ được xếp vào lớp tương ứng.
(3.2) c = (c1, c2, ..., cn−h+1)
(3.3) softmax (zi ) = e zi e z1 + e z2
Chương 3. Phát hiện ý định và xác định miền quan tâm của ý định 59
Trong mô hình CNN, luận án sử dụng phương pháp tối ưu Adam với chuẩn
L2 = 1.
3.2.2.3 Độ đo đánh giá mô hình
Để đánh giá hiệu quả của mô hình phân lớp, luận án sử dụng các độ đo:
(1) Precision, (2) Recall, (3) F1 score, cụ thể được tính như sau.
100%
— Độ chính xác (Precision):
(3.4) P = TP TP + FP
100%
— Độ hồi tưởng (Recall):
R = (3.5) TP TP + FN
— Độ đo tổng hợp (F1 score):
2.P .R P + R
F1 = (3.6)
Trong đó: TP (true positive) là số lượng các phần tử được mô hình dự đoán đúng lớp +1; FN (false negative) là số lượng các phần tử bị mô hình đoán nhầm từ +1 sang -1; FP (false posotive) là số lượng các phần tử bị mô hình đoán nhầm từ -1 sang +1; TN (true negative ) là số lượng các phần tử được dự đoán đúng thuộc lớp -1.
Ngoài ra, luận án sử dụng thêm độ đo trung bình thô (Averagemacro) và
trung bình mịn (Averagemicro) để đánh giá các mô hình phân lớp.
K (cid:88)
— Độ chính xác trung bình thô:
1 K
c=1
PM = (3.7) Pc
K (cid:88)
— Độ hồi tưởng trung bình thô:
1 K
c=1
RM = (3.8) Rc
Chương 3. Phát hiện ý định và xác định miền quan tâm của ý định 60
K (cid:88)
— Độ chính xác trung bình mịn:
c=1
TPc
K (cid:88)
(TPc + FPc)
c=1
Pm = (3.9)
K (cid:88)
— Độ hồi tưởng trung bình mịn:
c=1
TPc
K (cid:88)
(TPc + FNc)
c=1
Rm = (3.10)
Trong đó,
— K là số lớp ngữ nghĩa của mô hình phân lớp;
— Pc là độ đo Precision đạt được ở lớp ngữ nghĩa thứ c
— Rc là độ đo Recall đạt được ở lớp ngữ nghĩa thứ c
— TPc, FPc, FNc lần lượt là các giá trị TP , FP , FN tương ứng ở mỗi lớp
thứ c
3.2.2.4 Thời gian thực nghiệm
Luận án tiến hành thực nghiệm với hệ máy có thông số: (1) CPU là IntelCore i7 2.1 GHz; (2) Ram có dung lượng 8GB. Khi đó, thời gian thực nghiệm với các phương pháp ME, SVMs, CNN như sau:
— Thời gian thực nghiệm với mô hình ME: khoảng 18,34 giây.
— Thời gian thực nghiệm với mô hình SVMs: khoảng 34,59 giây.
— Thời gian thực nghiệm với mô hình CNN: khoảng 2280,56 giây.
3.2.3 Dữ liệu thực nghiệm
Để huấn luyện và đánh giá mô hình, tác giả thu thập một tập dữ liệu gồm các bài đăng/bình luận tiếng Việt của người dùng trên mạng xã hội Facebook và các diễn đàn của các trang web nổi tiếng như www.webtretho.com,
Chương 3. Phát hiện ý định và xác định miền quan tâm của ý định 61
Bảng 3.1: Đặc trưng dùng để huấn luyện mô hình lọc bài đăng mang ý định người dùng
N–grams Mẫu vị từ ngữ cảnh
1–grams
2–grams
[w−2], [w−1], [w0], [w1], [w2] [w−2w−1], [w−1w0], [w0w1], [w1w2] [w−2w−1w0], [w−1w0w1], [w0w1w2]
3–grams
Từ điển Mẫu vị từ khớp với từ điển
[w−2w−1], [w−1w0], [w0w1], [w1w2] in dictionary [w−2w−1w0], [w−1w0w1], [w0w1w2] in dictionary
2–từ 3–từ
www.lamchame.com...Dữ liệu được gán nhãn là EI hoặc NI dựa vào sự đồng thuận giữa cả nhóm gồm 5 sinh viên. Cuối cùng, luận án thu được 1.315 bài đăng, trong đó có 588 bài được gán nhãn EI và 727 bài được gán nhãn NI. Sau đó dữ liệu được chia ra làm 4 phần rồi cứ lần lượt lấy 3 phần để huấn luyện và 1 phần còn lại để kiểm chứng. Quá trình này giúp luận án thực hiện kiểm tra và đánh giá chéo 4-fold cho mô hình phân lớp. Ở thực nghiệm này, luận án lựa chọn k=4 cho phương pháp đánh giá chéo k-fold vì lượng dữ liệu luận án thu được chưa nhiều. Do đó tác giả lựa chọn số fold là 4 để đảm bảo lượng dữ liệu dùng để kiểm chứng mô hình (test data) không bị quá ít. Đây là một trong số những tiêu chí chia fold khi thực hiện kỹ thuật kiểm chứng chéo k-fold.
3.2.4 Thiết kế thực nghiệm
• Phương pháp học máy thống kê: Sử dụng lần lượt hai phương pháp phân lớp là ME và SVMs với kỹ thuật đánh giá chéo 4-fold với các lựa chọn sau:
Sau khi tiến hành tiền xử lý dữ liệu, tác giả tiến hành thực nghệm với phương pháp học máy thống kê và phương pháp học sâu CNN theo thiết kế sau.
1. Thực hiện việc phân lớp chỉ sử dụng đặc trưng từ vựng;
2. Thực hiện việc phân lớp sử dụng kết hợp cả 2 loại đặc trưng từ vựng
và từ điển.
Chương 3. Phát hiện ý định và xác định miền quan tâm của ý định 62
• Phương pháp học sâu: Sử dụng phương pháp CNN với kỹ thuật đánh giá chéo 4-fold
Mục tiêu của các thực nghiệm này nhằm đánh giá hiệu quả của hai phương pháp học máy ME và SVMs, đặc biệt là khi sử dụng thêm đặc trưng từ điển.
Mục tiêu của thực nghiệm này nhằm thử nghiệm hiệu quả của phương pháp học sâu CNN với bài toán phát hiện ý định, với dữ liệu thật được thu thập từ các phương tiện truyền thông xã hội trực tuyến.
3.2.5 Kết quả thực nghiệm
• Kết quả khi dùng và không dùng đặc trưng từ điển: Luận án trình bày kết quả F1-score của từng fold và kết quả trung bình F1 cho cả 4-fold trong hình 3.2 và hình 3.3. Ở đó hình 3.2 thể hiện kết quả khi thực nghiệm với phương pháp ME, và hình 3.3 thể hiện kết quả khi sử dụng phương pháp SVMs. Với mỗi fold, luận án đưa ra 2 kết quả thực nghiệm, thứ nhất là kết quả khi chỉ dùng đặc trưng n-gram (cột màu xanh), thứ hai là kết quả khi kết hợp thêm cả đặc trưng dictionary (cột màu đỏ). Có thể nhận thấy rằng, đặc trưng dictionary đã giúp nâng độ chính xác lên hơn 1,5% với phương pháp ME và gần 1% với phương pháp SVMs.
3.2.5.1 Kết quả khi sử dụng phương pháp học máy thống kê
• Kết quả cụ thể từng lớp khi thực nghiệm với phương pháp SVMs: Như đã đề cập ở trên, phương pháp SVMs đạt kết quả tốt hơn so với phương pháp ME trong bài toán này, vì vậy luận án sẽ trình bày kết quả chính xác cụ thể của từng lớp khi thực hiện việc phân lớp với phương pháp SVMs. Hình 3.4 thể hiện lần lượt các độ chính xác Precision, Recall và F1 của các lớp NI (chứa các bài đăng không mang ý định) và EI (chứa các bài đăng mang ý định). Có thể thấy mô hình mà luận án xây dựng cho độ chính xác trung
Có thể thấy, phương pháp SVMs luôn cho kết quả tốt hơn so với phương pháp ME trong tất cả các thực nghiệm. Đặc biệt, khi sử dụng đặc trưng từ điển, phương pháp SVMs cho độ chính xác trung bình là 92,25%, cao hơn so với phương pháp ME gần 2%. Ngoài ra, kết quả thực nghiệm thu được ở lần lượt 4-fold khá ổn định và đều cao hơn 88%, điều đó chứng tỏ hai mô hình phân lớp mà luận án xây dựng đều có thể làm việc tốt với bộ dữ liệu này.
Chương 3. Phát hiện ý định và xác định miền quan tâm của ý định 63
Hình 3.2: Độ chính xác F1 khi đánh giá chéo 4-fold với phương pháp ME
Hình 3.3: Độ chính xác F1 khi đánh giá chéo 4-fold với phương pháp SVMs
bình F1 của cả hai lớp đều cao hơn 90%. Trong đó, độ chính xác của lớp NI cao hơn độ chính xác của lơp EI khoảng 2%. Điều này có thể được lý giải vì số bài đăng thuộc lớp NI (727 bài đăng) trong dữ liệu thực nghiệm nhiều hơn số bài đăng thuộc lớp EI tương ứng (588 bài đăng).
Chương 3. Phát hiện ý định và xác định miền quan tâm của ý định 64
Hình 3.4: Độ chính xác của từng lớp con khi sử dụng phương pháp SVMs
3.2.5.2 Kết quả khi sử dụng phương pháp học sâu
Với phương pháp học sâu CNN, luận án không sử dụng đặc trưng hỗ trợ (đặc trưng từ vựng và đặc trưng từ điển) như hai phương pháp ME và SVMs mà thuật toán hoàn toàn tự học đặc trưng cho mô hình từ dữ liệu huấn luyện. Kết quả đánh giá chéo 4-fold của phương pháp này được trình bày trong hình 3.5. Ở đó, tác giả thể hiện độ đo trung bình F1 của mỗi fold và giá trị trung bình F1 của cả 4 fold. Có thể thấy phương pháp CNN cho kết quả chính xác trung bình F1 trên 4 fold là 86,2%, thấp hơn so với hai phương pháp ME và SVMs, có kết quả lần lượt là 90,8% và 92,25%. Lý do chính cho kết quả này là vì lượng dữ liệu huấn luyện quá ít (hơn 1.300 bài đăng) để một phương pháp học sâu có thể phát huy hết khả năng tự học đặc trưng của nó.
Tuy nhiên, CNN vẫn cho thấy độ ổn định của nó trên tất cả các fold khi được đánh giá chéo. Hơn nữa, độ chính xác thấp nhất là của fold 4, 83,5%, cũng không phải là thấp. Với kết quả này, có thể hi vọng CNN sẽ cho kết quả rất tốt với bài toán này khi lượng dữ liệu huấn luyện đủ lớn.
Chương 3. Phát hiện ý định và xác định miền quan tâm của ý định 65
Hình 3.5: Độ chính xác F1 khi đánh giá chéo 4-fold với phương pháp CNN
3.3 Xác định miền quan tâm của ý định
3.3.1 Phát biểu bài toán
• Phát biểu bài toán “Xác định miền quan tâm của ý định”: Cho văn bản trực tuyến tiếng Việt (bài đăng/bình luận tiếng Việt trên các phương tiện truyền thông xã hội) chứa ý định rõ của người dùng. Hãy xây dựng mô hình xác định miền quan tâm của ý định đó.
Sau khi thu thập và khảo sát dữ liệu (gồm các bài đăng/bình luận tiếng Việt mang ý định rõ trên các phương tiện truyền thông xã hội), tác giả nhận thấy ý định của người dùng rất đa dạng. Ở mỗi lĩnh vực khác nhau, ý định của người dùng lại có những đặc trưng riêng khác nhau. Chẳng hạn như đối với lĩnh vực Bất Động Sản, khi người dùng có ý định bán một căn hộ thì người dùng thường chú trọng đến các thông tin như vị trí, diện tích, hướng của căn hộ, số phòng ngủ, số phòng vệ sinh.... Trong khi đó ở lĩnh vực Du Lịch, nếu người dùng muốn đi du lịch ở một nơi nào đó thì họ sẽ cân nhắc đến địa điểm, thời gian, phương tiện di chuyển, số lượng người tham gia chuyến đi.... Vì vậy, bài toán xác định miền quan tâm của ý định người dùng cũng là một bài toán quan trọng cần được giải quyết. Bảng 3.2 giới thiệu 5 bài đăng của người dùng trên các phương tiện truyền thông xã hội tương ứng với 5 miền quan tâm khác nhau.
Chương 3. Phát hiện ý định và xác định miền quan tâm của ý định 66
Miền quan tâm Ý định của người dùng
Bất Động Sản
“Cần bán gấp căn nhà mặt tiền hẻm xe hơi vào tận cửa 373 đường Trần Xuân Soạn. Diện tích sử dụng 80m2 với 1 trệt, 1 lầu, 2 phòng ngủ, 2wc. Gần đường Bế Văn Cấm, chợ Tân Kiểng 1. Nhà hướng Bắc. Giá 3,5 tỷ. Xem nhà liên hệ trước với anh Quân (01227778483)”
Du Lịch
“Nhà tớ đi Đà Nẵng ngày 14/6 đến 18/6, nhà có 5 người lớn và 1 trẻ em (1 tuổi), các bác thông thái tư vấn cho tớ chọn khách sạn và đi tham quan những đâu là hợp lý nhất mà trọn gói chỉ tầm 20 triệu thôi ạ. Tks. SĐT: 0913 456 233 ”
Tài Chính
“Mình đang định vay ngân hàng một khoản bằng bảng lương của mình, không biết có mẹ nào ở đây có kinh nghiệm về việc này có thể tư vấn cho mình được không ạ. Mặc dù mình biết không thể vay được nhiều tiền theo cách này nhưng mình thấy nó đơn giản và hơn nữa có quan mình lại trả lương qua tài khoản ATM.”
Giáo Dục
“Mình đang tìm một lớp luyện IELTS 6.5 học 2 ngày một tuần (trong đó một ngày là thứ 7 hoặc Chủ nhật) từ 16h30 đến18h30. Nhà mình ở Long Biên, mình đang đi làm ở Lò Đúc. Mẹ nào biết lớp học nào gần khu vực này thì cho mình xin thông tin với nhé. Mình cám ơn nhiều.”
Làm Đẹp
“mắt em 1 bên thì 1 mí, 1 bên thì bị sụp mí, e định đi bấm mí hàn quốc nhưng đang băn khoăn ko biết bấm mí hàn quốc có để lại sẹo không, chị em nào từng đi bấm mí rồi thì chia sẻ kết quả sau bấm mí giúp em với ah.”
Bảng 3.2: Ý định của người dùng thuộc các miền quan tâm khác nhau
• Định nghĩa bài toán “Xác định miền quan tâm của ý định”: Đầu vào (Input):
Để giải quyết bài toán này luận án xây dựng mô hình phân lớp đa lớp, với mỗi lớp là một miền quan tâm mà ý định người dùng hướng tới. Mục tiêu của bài toán này chính là giải quyết pha 2 trong giải pháp 3 pha, hình 2.3.
— T = {t1, t2, ..., tn }: tập các bài đăng/bình luận tiếng Việt mang ý định
rõ trên các phương tiện truyền thông trực tuyến.
— M = {Bất động sản, Tài chính, Du lịch... }: tập gồm k nhãn tương ứng
với k miền quan tâm của ý định.
Đầu ra (Output):
— Mô hình phân lớp đa lớp f (t ) : T → M .
• Ý nghĩa khoa học:
— Lớp ngữ nghĩa của ti : miền quan tâm của ti .
Chương 3. Phát hiện ý định và xác định miền quan tâm của ý định 67
- Việc xác định miền quan tâm của ý định giúp hệ thống khoanh vùng được các thông tin về ý định, từ đó khắc phục được khó khăn về sự đa dạng của ý định như đã trình bày trong chương 2. Khi đó phạm vi về từ vựng và nội dung thông tin được giới hạn lại tương ứng với mỗi miền quan tâm.
- Bài toán này giúp hệ thống xác định thành phần miền quan tâm d trong
định nghĩa về ý định hướng miền quan tâm ở chương 2 (công thức 2.1).
3.3.2 Mô hình giải quyết bài toán
3.3.2.1 Sử dụng phương pháp học máy thống kê
Để xây dựng mô hình phân lớp đa lớp, luận án lựa chọn 2 phương pháp phân lớp là ME và SVMs. Lý do để lựa chọn hai phương pháp này đã được trình bày ở trên.
Sơ đồ khối thể hiện mô hình xác định miền quan tâm của ý định được
• Xây dựng tập đặc trưng:
trình bày trong hình 3.6.
Luận án cũng sử dụng 2 loại đặc trưng là từ vựng và từ điển để xây dựng mô hình phân lớp xác định miền quan tâm của ý định người dùng. Nhưng khác với mô hình Phát hiện ý định, đặc trưng từ điển trong mô hình Xác định miền quan tâm của ý định được xây dựng bán tự động theo phương pháp được trình bày ngay dưới đây.
— Đặc trưng từ vựng: với bài toán này luận án cũng dùng 1-grams, 2-grams
và 3-grams như đã trình bày trong phần 3.2.4.
— Đặc trưng từ điển: trước tiên luận án xây dựng mô hình chỉ với đặc trưng n-grams, sau đó luận án chọn tự động ra 30 đặc trưng có trọng số cao nhất cho mỗi miền quan tâm của ý định. Từ tập các đặc trưng được chọn tác giả lọc bớt những đặc trưng vô nghĩa, kết quả giữ lại được khoảng từ 10 đến 30 từ hoặc cụm từ làm đặc trưng cho mỗi miền quan tâm. Tập các 1-gram, 2-gram, 3-gram được chọn sẽ được dùng để xây dựng đặc trưng từ điển. Cuối cùng chúng tôi xây dựng được từ điển gồm 329 từ hoặc cụm từ. Bảng 3.3 giới thiệu một vài từ hoặc cụm từ được chọn tự động để tạo từ điển cho bài toán này.
Chương 3. Phát hiện ý định và xác định miền quan tâm của ý định 68
• Tham số mô hình:
Hình 3.6: Sơ đồ khối thể hiện mô hình Xác định miền quan tâm của ý định
— Mô hình ME : Luận án sử dụng bộ tham số giống như trong bài toán
“Phát hiện ý định”.
— Mô hình SVMs: Để xây dựng mô hình phân lớp đa lớp với phương pháp SVMs, luận án sử dụng mô hình 1-against-all. Các tham số trong mô
Chương 3. Phát hiện ý định và xác định miền quan tâm của ý định 69
Bảng 3.3: Ví dụ về một vài đặc trưng từ điển có trọng số cao cho mỗi miền quan tâm
Miền quan tâm Từ, cụm từ trong đặc trưng từ điển
Thiết bị điện tử/ Electronic Device ti:vi, mua:đt, máy, tủ:lạnh, điều:hòa, nokia, sam:sung, iphone ...
size, mặc, đồng:hồ, da, shop, nữ, giày, thời:trang ...
Thời trang & Phụ kiện/ Fashion & Accessory
Tài chính/Finance
vay, muốn:vay, cho:vay, mượn, cần:vay, ngân:hàng, vay:tiền
ngon, kg, ăn, bánh, sữa, ship, đặt, g, nhà:hàng
Dịch vụ ăn uống/ Food Service
ghế, bỉm, sách, sắt, tủ, ghế:ăn:dặm, cũi, giường...
Đồ dùng & Tạp hóa/ Furnishing & Grocery
Sức khỏe & Sắc đẹp/ Health & Beauty nước:hoa, thuốc, cream, nước, khám, đo, giảm:cân, thẩm:mỹ
Nghề nghiệp & Giáo dục/ Job & Education trường, tuyển, nhận, học, lớp, việc, giúp:việc, cho:con, anh...
Khác/ Other tài:liệu, băng, đĩa, video, nick ...
chó, chim, đực, nuôi, trồng, con, cây ...
Thú cưng & Cây trồng/ Pet & Tree
thuê, căn, nhà, tầng, đất, mua:nhà, chung:cư, m2 ...
Bất động sản/ Property
vợt, chơi, câu, tập, lắc, yoga, tạ, show, patin, bàn:bida ...
Thể thao & Giải trí/ Sport & Entertainment
Xe cộ Vận tải/ Transportation xe, bay, vé:máy:bay, đi, chạy, bán:xe, mua:xe, máy:bay ...
Du lịch & Khách sạn/ Travel & Hotel voucher, tour, đêm, du, lịch, du:lịch, khách:sạn, nghỉ ...
Chương 3. Phát hiện ý định và xác định miền quan tâm của ý định 70
hình SVMs cũng được khởi tạo ngẫu nhiên và được huấn luyện nhờ phương pháp tối ưu hồi quy logistic.
3.3.2.2 Sử dụng phương pháp học sâu CNN
Luận án xây dựng mô hình học sâu CNN với các tham số giống như mô hình giải quyết bài toán “Phát hiện ý định” được trình bày trong phần 3.3.2.2. Tuy nhiên, “Xác định miền quan tâm của ý định” là bài toán phân lớp đa lớp nên ở tầng chuẩn hóa cuối cùng, véc tơ đầu ra sẽ có 13 thành phần. Ở đó, mỗi thành phần tương ứng với xác suất để một bài đăng được xếp vào một trong 13 lớp ngữ nghĩa, những lớp này sẽ được trình bày trong phần 3.3.3 dưới đây.
3.3.2.3 Độ đo đánh giá mô hình
Để đánh giá kết quả thực nghiệm luận án dùng các độ đo precision, recall,
F1score, Averagemacro và Averagemicro như đã trình bày trong phần 3.2.4.
3.3.2.4 Thời gian thực nghiệm
Luận án tiến hành thực nghiệm với hệ máy có thông số: (1) CPU là IntelCore i7 2.1 GHz; (2) Ram có dung lượng 8GB. Khi đó, thời gian thực nghiệm với các phương pháp ME, SVMs, CNN như sau:
— Thời gian thực nghiệm với mô hình ME: khoảng 23,34 giây.
— Thời gian thực nghiệm với mô hình SVMs: khoảng 38,61 giây.
— Thời gian thực nghiệm với mô hình CNN: khoảng 2880,43 giây.
3.3.3 Xây dựng tập các miền quan tâm
Sau khi khảo sát dữ liệu, luận án xây dựng một phân hoạch trên tập dữ
liệu sao cho thỏa mãn 2 điều kiện:
(1) Nếu một bài đăng đã thuộc vào tập con này thì không thể thuộc vào
tập con khác;
(2) Mọi bài đăng đều có thể được phân vào một tập con tương ứng.
Chương 3. Phát hiện ý định và xác định miền quan tâm của ý định 71
Khi đó mỗi tập con trong phân hoạch sẽ tương ứng với một lớp miền quan tâm của ý định. Luận án phải tìm một phân hoạch để đảm bảo số lớp không quá lớn (để đảm bảo bài toán phân lớp đa lớp hoạt động ổn định) mà vẫn thỏa mãn 2 điều kiện trên. Để đảm bảo được điều kiện (1), tác giả phải rà soát cẩn thận tập dữ liệu huấn luyện và tham khảo ý kiến của một số cố vấn để xây dựng các tập con không giao nhau. Việc định nghĩa các tập con này được điều chỉnh cho hợp lý trong suốt quá trình gán nhãn dữ liệu. Từ đó chúng tôi đề xuất 12 tập con tương ứng với 12 lớp miền quan tâm. Để đảm bảo được điều kiện (2), ngoài 12 lớp miền quan tâm đã định nghĩa, luận án định nghĩa thêm một tập con Khác (Other). Ở đó tập con Khác là tập con chứa những bài đăng mang ý định rõ của người dùng nhưng ý định đó không thực sự thuộc vào 1 trong 12 miền quan tâm đã định nghĩa trước đó. Một số ví dụ về bài đăng thuộc vào lớp Khác và 12 lớp còn lại sẽ được trình bày ngay bên dưới. Cuối cùng, luận án xây dựng được một phân hoạch gồm 13 tập con tương đương với 13 lớp miền quan tâm, được trình bày cụ thể trong bảng 3.4.
3.3.4 Dữ liệu thực nghiệm
Ngoài 588 bài đăng mang ý định rõ đã thu thập được trong thực nghiệm cho bài toán pha 1 (Phát hiện bài đăng mang ý định), tác giả thu thập thêm các bài đăng tiếng Việt mang ý định rõ trên các phương tiện truyền thông xã hội trực tuyến để tiến hành thực nghiệm cho bài toán pha 2 (Xác định miền quan tâm của ý định). Kết quả là luận án thu thập được một tập gồm 7.009 bài đăng trực tuyến mang ý định rõ từ các diễn đàn nổi tiếng ở Việt Nam như www.webtretho.com, www.lamchame.com, www.chotot.com, www.sotaychame.com và facebook. Trong phạm vi nghiên cứu của mình, luận án chỉ xác định miền quan tâm cho những bài đăng trực tuyến thỏa mãn: (1) bài đăng thể hiện ý định rõ ràng; (2) bài đăng mang ý định chỉ thuộc vào một miền quan tâm, tức là những bài đăng đa ý định như: “Mình đang muốn mua một chiếc ghế ăn cũ cho em bé nhà mình, tiện thể đây, mình cũng muốn tìm một công việc làm thêm để tăng thu nhập khi đang ở nhà chăm con nhỏ...” sẽ không được xét đến ở đây.
Dữ liệu sau khi được gán nhãn sẽ được chia thành 5 phần, trong đó 4 phần
dùng để huấn luyện và 1 phần còn lại dùng để kiểm chứng.
Chương 3. Phát hiện ý định và xác định miền quan tâm của ý định 72
Bảng 3.4: Mười ba lớp miền quan tâm của ý định và ví dụ
Miền quan tâm Ví dụ #
Mình muốn thanh lý cái tủ lạnh cũ ... 546
Thiết bị điện tử/ Electronic Device
586
Mình được tặng một đôi giầy da thật nhưng mình không đi vừa, vì vậy mình muốn bán lại...
Thời trang & Phụ kiện/ Fashion & Accessory
Tài chính/ Finance Mình cần vay gấp một khoản tiền lớn ... 314
424
Dịch vụ ăn uống/ Food Service Tuần này tớ có thịt lợn ngon, ai có nhu cầu lấy thì oder tớ nhé...
699
Đồ dùng & Tạp hóa/ Furnishing & Grocery Có mẹ nào ở đây muốn thanh lý ghế ăn cho trẻ con không, mình cần một chiếc...
Mình thực sự rất muốn nâng mũi ... 322
Sức khỏe & Làm đẹp/ Health & Beauty
Tớ đang cần gấp một người giúp việc ... 1296
Nghề nghiệp & Giáo dục/ Job & Education
228 Khác/ Other các bài đăng mà không thuộc 12 lớp còn lại như: Mình đang cần một phần mềm kế toán ... Mình đang tìm mua một món quà tặng bạn gái ...
385
Thú cưng & Cây trồng/ Pet & Tree Mình cần bán chú chó nhỏ của mình vì không có thời gian nuôi nó ...
750
Bất động sản/ Property Mình đang muốn mua một căn hộ giá tầm 1.5 triệu ...
456
Mình đang muốn đi xem đêm liveshow của Bằng Kiều...
Thể thao & Giải trí/ Sport & Entertainment
649
Xe cộ Vận tải/ Transportation Tôi muốn mua một chiếc 7 chỗ mới để thay cho cái cũ ...
Mình muốn đặt vé cho 3 người đi Nha Trang ... 354
Du lịch & Khách sạn/ Travel & Hotel
Chương 3. Phát hiện ý định và xác định miền quan tâm của ý định 73
3.3.5 Thiết kế thực nghiệm
Sau khi thực hiện tiền xử lý dữ liệu, luận án lần lượt tiến hành các thực
nghiệm theo thiết kế sau:
— Thực nghiệm mô hình sử dụng thuật toán ME với phương pháp 5-fold
dùng 2 loại đặc trưng từ vựng và từ điển.
— Thực nghiệm mô hình sử dụng thuật toán SVMs với phương pháp 5-fold
dùng 2 loại đặc trưng từ vựng và từ điển.
— Thực nghiệm mô hình sử dụng phương pháp học sâu CNN
Mục tiêu của các thực nghiệm này nhằm đánh giá hiệu quả của hai phương pháp học máy ME và SVMs khi giải quyết bài toán xác định miền quan tâm của ý định chỉ với hai loại đặc trưng là từ vựng và từ điển. Tiếp theo là đánh giá hiệu quả của mô hình học sâu CNN với bài toán và bộ dữ liệu này để đánh giá khả năng tự học đặc trưng của mô hình CNN.
3.3.6 Kết quả thực nghiệm
• Kết quả của fold tốt nhất
3.3.6.1 Kết quả khi sử dụng phương pháp học máy thống kê
Bảng 3.5 trình bày kết quả thực nghiệm của fold tốt nhất sau khi tiến hành đánh giá chéo 5-fold (đó là fold thứ 5). Trong bảng này luận án đưa ra precision, recall và F1-score trên mỗi lớp miền quan tâm với cả mô hình ME và SVMs. Trong fold này, SVMs cho kết quả tốt hơn với trung bình thô F1 là 87,38%, và trung bình mịn F1 là 90,14%. Kết quả này là khả quan khi mà luận án mới chỉ dùng 2 loại đặc trưng nêu ở trên.
• Độ chính xác của mỗi miền quan tâm
Tiếp theo, để đánh giá sự ổn định của mô hình, luận án trình bày kết quả trung bình micro F1 của mỗi fold và trung bình của cả 5 folds trong hình 3.7. Có thể thấy rằng mô hình SVMs luôn đạt kết quả tốt hơn mô hình ME đối với mọi fold.
Để chi tiết hơn, luận án đưa ra kết quả F1-score tương ứng với mỗi lớp miền quan tâm của ý định trong hình 3.8. Dễ dàng nhận thấy kết quả độ đo trung bình F1-score đối với mỗi lớp miền quan tâm của mô hình SVMs
Chương 3. Phát hiện ý định và xác định miền quan tâm của ý định 74
Bảng 3.5: Precision, recall và F1-score của fold tốt nhất khi dùng SVMs và ME
Dịch/Mô tả
SVM Prec SVM Rec ME Prec ME Rec SVM F1 ME F1 Tên miền quan tâm
Electronic Device Thiết bị điển tử 81,20 82,80 82,00 77,00 77,80 77,40
82,80 91,40 86,90 80,30 89,50 84,70
Fashion & Accessory Thời trang & Phụ kiện
Finance Tài chính 95,00 87,70 91,20 80,30 89,50 84,70
Food Service 96,10 90,20 93,10 96,80 93,80 95,30
Phục vụ ăn uống
77,70 89,00 83,00 81,90 84,10 83,00
Furnishing & Grocery Đồ dùng & Tạp hóa
Health & Beauty 93,80 84,50 88,90 84,50 84,50 84,50
Sức khỏe & Sắc đẹp
95,80 96,90 96,40 95,10 96,60 95,80
Job & Education Nghề nghiệp & Giáo dục
Other Khác 70,00 42,40 52,80 56,30 54,50 55,40
Pet & Tree 89,60 92,00 90,80 90,40 88,00 89,20
Thú cưng & Cây cối
Property Bất động sản 94,70 96,00 95,30 96,60 96,00 96,30
92,50 77,90 84,60 88,00 76,80 82,00
Sport & Entertainment Thể thao & Giải trí
Transportation Xe cộ vận tải 94,40 97,50 95,90 90,60 96,70 93,50
Travel & Hotel 95,00 95,00 95,00 97,30 91,30 94,20
Du lịch & Khách sạn
89,12 86,41 87,38 87,09 86,14 86,54
90,14 90,14 90,14 89,06 89,06 89,06 Averagemacro Averagemicro
Chương 3. Phát hiện ý định và xác định miền quan tâm của ý định 75
luôn cao hơn mô hình ME và đều cao hơn 80%, trừ lớp Khác. Lớp Khác có kết quả thấp vì 2 lý do sau: (1) số lượng bài đăng thuộc vào lớp Khác ít nhất (228 bài, chiếm khoảng 3,25% dữ liệu); (2) lớp Khác chứa tất cả các bài đăng mà không thuộc 12 lớp còn lại nên rất khó để tìm được đặc trưng tốt cho lớp này. Tuy nhiên ngoài lớp Khác, các lớp còn lại có độ chính xác trung bình F1-score khá ổn định. Ví dụ lớp Nghề nghiệp & Giáo dục có số bài đăng nhiều gấp 3 lần lớp Du lịch & Khách sạn, nhưng có thể thấy độ chính xác F1-score của 2 lớp này xấp xỉ nhau, bảng 3.5. Vì vậy, có thể thấy mô hình SVMs và mô hình ME phù hợp với bài toán này, trong đó mô hình SVMs cho kết quả tốt hơn một chút.
Hình 3.7: Độ chính xác F1 khi đánh giá chéo 5-fold với ME và SVMs
3.3.6.2 Kết quả khi sử dụng phương pháp học sâu CNN
Hình 3.9 thể hiện độ chính xác trung bình F1 trên mỗi fold và trung bình của cả 5 fold khi thực hiện đánh giá chéo 5-fold với phương pháp học sâu CNN. Có thể thấy phương pháp CNN đạt độ chính xác thấp hơn cả hai phương pháp ME và SVMs khi giải quyết bài toán “ Xác định miền quan tâm của ý định”. Lý do chính là vì lượng dữ liệu huấn luyện cho bài toán này còn ít so với lượng dữ liệu cần thiết để huấn luyện hiệu quả một mô hình học sâu.
Độ chính xác cao nhất mà mô hình CNN đạt được trong thực nghiệm này là 82,2%, đạt được ở fold 3. Để có cái nhìn chi tiết hơn, luận án trình bày
Chương 3. Phát hiện ý định và xác định miền quan tâm của ý định 76
Hình 3.8: Độ chính xác trung bình F1 đối với mỗi miền quan tâm của ý định
Hình 3.9: Độ chính xác trung bình F1 khi đánh giá chéo 5-fold với CNN
độ chính xác đạt được của mỗi lớp miền quan tâm tại thực nghiệm fold 3 trong bảng 3.6. Trong số 13 lớp miền quan, chỉ có lớp Khác có độ chính xác F1 rất thấp 0.16%, lý do vì lớp này có số ví dụ dữ liệu huấn luyện thấp (228 bài đăng), hơn nữa đặc trưng của lớp này không rõ ràng như các lớp còn lại. Ngoài ra, 12 lớp miền quan tâm còn lại đều có độ chính xác F1 cao hơn 64%, trong đó một số lớp có độ chính xác F1 cao hơn 90% như Tài chính, Nghề nghiệp & Giáo dục, và Bất động sản. Phân tích bảng 3.4 có thể thấy, những miền quan tâm đạt độ chính xác cao là những miền hoặc có lượng dữ liệu
Chương 3. Phát hiện ý định và xác định miền quan tâm của ý định 77
Bảng 3.6: Độ chính xác của từng lớp miền quan tâm khi sử dụng phương pháp CNN
Miền quan tâm Precision Recall F1
Thiết bị điện tử 0.86 0.58 0.70
Thời trang & Phụ kiện 0.76 0.81 0.87
Tài chính 0.96 0.87 0.92
Dịch vụ ăn uống 0.85 0.88 0.87
Đồ dùng & Tạp hóa 0.68 0.91 0.78
Sức khỏe & Làm đẹp 0.82 0.61 0.70
Nghề nghiệp & Giáo dục 0.89 0.97 0.93
Khác 0.80 0.09 0.16
Thú cưng & Cây trồng 0.88 0.91 0.89
Bất động sản 0.86 0.93 0.90
Thể thao & Giải trí 0.69 0.59 0.64
Xe cộ Vận tải 0.78 0.92 0.85
Du lịch & Khách sạn 0.89 0.80 0.84
huấn luyện lớn hoặc dữ liệu không quá đa dạng. Vậy nếu lượng dữ liệu huấn luyện đủ lớn thì phương pháp CNN thực sự phù hợp với bài toán “Xác định miền quan tâm của ý định”.
3.4 Kết luận chương
Chương 3 trình bày các mô hình giải quyết lần lượt pha 1 và pha 2 trong giải pháp 3 pha xác định ý định người dùng. Trong đó pha 1 (bài toán 1) thực hiện nhiệm vụ phát hiện và lọc những bài đăng mang ý định rõ của người dùng đã được công bố trong [LTLe1]; pha 2 (bài toán 2) xác định miền quan tâm của ý định người dùng, đã được công bố trong [LTLe2]. Để giải quyết hai bài toán trong 2 pha này luận án đề xuất mô hình hóa bài toán 1 thành bài toán phân lớp nhị phân và bài toán 2 thành bài toán phân lớp đa lớp. Luận án sử dụng hai phương pháp ME và SVMs để xây dựng các mô hình phân lớp bởi hai phương pháp này hiệu quả trong vấn đề xử lý ngôn ngữ tự nhiên. Trong chương này luận án cũng đưa ra những kết quả thực nghiệm và phân tích các kết quả đó. Tuy mới sử dụng hai loại đặc trưng là từ vựng và
Chương 3. Phát hiện ý định và xác định miền quan tâm của ý định 78
từ điển chỉ mục nhưng kết quả phân lớp trung bình của cả hai phương pháp đều trên 87% và ổn định trong mỗi fold. Điều đó chứng tỏ phương pháp mà luận án lựa chọn là thích hợp với bài toán lọc và xác định miền quan tâm của ý định người dùng. Ngoài ra luận án tiến hành thực nghiệm cả hai bài toán ở pha 1 và pha 2 với phương pháp học sâu CNN, một phần kết quả nghiên cứu này đã được công bố trong [LTLe6] . Tuy nhiên kết quả thực nghiệm với phương pháp học sâu chưa được thuyết phục vì độ chính xác đạt được trong cả hai bài toán đều thấp hơn hai phương pháp ME và SVMs, trong khi đó, thời gian huấn luyện mô hình phân lớp lại nhiều hơn. Một lý do cho vấn đề này là lượng dữ liệu thực nghiệm mà luận án thu thập được cho hai bài toán trên còn quá ít để có thể thực nghiệm hiệu quả với một phương pháp học sâu. Bên cạnh đó, luận án đã xây dựng được bộ dữ liệu đã gán nhãn gồm các bài đăng mang ý định rõ của người dùng thuộc nhiều miền quan tâm khác nhau để làm tài nguyên cho những nghiên cứu tiếp theo. Để phát triển kết quả nghiên cứu, tác giả sẽ cân nhắc môt số phương án như làm giàu tập đặc trưng, thu thập thêm dữ liệu để có thể thực nghiệm hiệu quả hơn với những phương pháp học sâu.
Chương 4
Phân tích và trích chọn nội dung ý định
Ở chương 3, luận án đã tập trung giải quyết pha 1 và pha 2 của tiến trình 3 pha, tiến trình đã được luận án đề xuất và trình bày ở chương 2. Tiếp theo, trong chương này, luận án sẽ tập trung trình bày về hệ thống phân tích và trích chọn ý định của người dùng từ văn bản trực tuyến, đây là pha 3 trong giải pháp ba pha. Trước tiên luận án sẽ giới thiệu những nghiên cứu liên quan. Tiếp theo, luận án sẽ trình bày những đề xuất và giải pháp giải quyết bài toán trích chọn thông tin ý định theo tiếp cận học máy thống kê và tiếp cận học sâu. Sau đó, một đề xuất nhằm nâng cao hiệu quả của hệ thống phân tích ý định sẽ được trình bày ở phần cuối của chương. Kết quả nghiên cứu chính của chương này được công bố trong công trình [LTLe3] (2017)và [LTLe4] (2019).
4.1 Giới thiệu
Chương 3 của luận án đã trình bày phương pháp giải quyết pha 1 và pha 2 trong tiến trình phân tích và xác định ý định ba pha, ở đó thành phần xác định người dùng “u” và miền quan tâm “d ” trong công thức bộ 5 của ý định rõ I e u (2.1) được lần lượt xác định. Trong chương này, luận án sẽ tập trung trình bày cách tiếp cận để giải quyết pha 3 với mục tiêu phân tích và trích chọn thành phần chỉ hành động của ý định “w ”, và danh sách các thuộc tính, thông tin cần thiết thể hiện ý định của người dùng “p”. Để tiếp cận mục
79
Chương 4. Phân tích và trích chọn nội dung ý định 80
tiêu đó, luận án mô hình hóa bài toán về bài toán trích xuất thông tin, hay cụ thể hơn là bài toán “Xác định thực thể được nhắc đến” (Entity Mention Detection – EMD). Tức là ngoài những thực thể có tên thường thấy trong bài toán NER như Tên người, Địa điểm, Thời gian, Giá trị tiền tệ, tác giả mở rộng thêm để trích xuất các thực thể khác như: Địa điểm khởi hành, Địa điểm đến, Thời gian bắt đầu, Thời gian kết thúc, Mô tả chung, Màu sắc, Số lượng phòng ngủ, Số lượng phòng vệ sinh...Mô tả của các thực thể mở rộng này sẽ được trình bày cụ thể trong phần 4.4.1 của chương này.
Ví dụ, khi trích xuất ý định người dùng ở bài đăng trên trang www.webtretho.
com: “Chào các bạn, Vợ chồng mình sắp cưới và định đặt 1 tour du lịch trăng mật giá rẻ ngắn ngày ở khu vực miền Bắc (Hạ Long, Cát Bà,...). Các bạn tư vấn giúp mình chương trình, giá cả, dịch vụ nhé. Vợ chồng mình định đi từ ngày 15/10 đến ngày 19/10.”, mục tiêu của luận án là thu được w = “đặt” (1 tour du lịch) và p = {đối tượng = “tour du lich”; mô tả chung = “giá rẻ, ngắn ngày”; địa điểm đến = “miền Bắc (Hạ Long, Cát Bà...)”; thời gian bắt đầu = “15/10”; thời gian kết thúc = “19/10”}.
Để giải quyết bài toán EMD này, luận án lựa chọn cách tiếp cận học máy và sử dùng phương pháp gán nhãn chuỗi. Một cách phổ biến từ trước đến nay để giải quyết bài toán gán nhãn chuỗi là sử dụng các mô hình học máy như HMMs, MEMMs, CRFs. Mặc dù những phương pháp này đã thể hiện những kết quả tốt nổi trội với bài toán EMD nhưng luận án muốn khai thác thêm một số khía cạnh sau của bài toán EMD:
— Khả năng phát hiện thực thể khi học chuyển đổi từ miền lĩnh vực này
sang miền lĩnh vực khác;
— Không phụ thuộc nhiều vào việc xây dựng sẵn những bộ đặc trưng tương
ứng với tính chất của từng bộ dữ liệu và từng bài toán;
— Khả năng tận dụng những phụ thuộc xa (long-range dependency) trong
dữ liệu dạng văn bản trên các phương tiện truyền thông xã hội
— Khả năng thích nghi nhanh với các kỹ thuật mới khi giải quyết bài toán
EMD để có thể làm việc với nhiều thứ ngôn ngữ khác nhau
Vì vậy, bên cạnh việc chọn phương pháp CRFs, luận án đề xuất sử dụng mạng nơ ron hồi quy (Recurrent Neural Networks - RNNs), mà cụ thể là phương pháp Long-short Term Memory (LSTM) để xây dựng mô hình trích
Chương 4. Phân tích và trích chọn nội dung ý định 81
chọn ý định. Mô hình được xây dựng bằng phương pháp CRFs cũng được luận án dùng để làm phương pháp cơ sở khi đánh giá hiệu quả của phương pháp Bi-LSTM. Những kết quả nghiên cứu này được công bố trong công trình [LTLe3] (2017).
Sau đó, để cải tiến mô hình trích chọn ý định sử dụng LSTM, luận án đề xuất một giải pháp dựa trên ý tưởng học kết hợp (ensemble learning). Ý tưởng này xuất phát từ việc học kết hợp đã chứng tỏ được hiệu quả của nó trong bài toán phân lớp [15] và bài toán gán nhãn chuỗi [73]. Vì vậy luận án cũng hi vọng rằng kỹ thuật học kết hợp sẽ giúp nâng cấp hệ thống trích chọn ý định dựa trên phương pháp học sâu mà luận án đã đề xuất. Ngoài “w ” và “p”, mô hình nâng cấp này sẽ trích xuất thêm thành phần ngữ cảnh của ý định “c” trong công thức 2.1. Kết quả của nghiên cứu này được được công bố trong công trình [LTLe4] (2019).
4.2 Nghiên cứu trên thế giới về trích chọn nội
dung ý định
Như đã trình bày ở chương 1, các nghiên cứu về xác định ý định hay mục tiêu của người dùng ban đầu hầu hết tiếp cận theo hướng phân lớp ý định người dùng vào một lớp ngữ nghĩa nào đó. Một số ít nghiên cứu sau này đã tập trung hơn vào việc hiểu sâu ngữ nghĩa và nội dung ý định của người viết trong các bài đăng.
Điển hình như nghiên cứu của Castellanos và cộng sự (2012) [16], nhóm tác giả đã xây dựng một công cụ nhằm trích xuất các thông tin cần thiết về ý định của người dùng thông qua các bài đăng của họ trên các diễn đàn trực tuyến. Tác giả đề xuất quá trình trích xuất ý định gồm 2 bước: (1) Xác định các cụm từ chỉ ý định (intention phrases); (2) Trích xuất các thành phần của ý định. Trong đó intention phrase là cụm từ chỉ ra rằng người dùng có vẻ như có ý định xem một cái gì đó, hay làm một việc gì đó, ví dụ như: “would like to see a film”, “are planning a trip”, “thinking about doing”. Tóm lại một intention phrase thường có dạng: [intention verb] + [action verb] + [intention object]. Để xác định intention phrase nhóm tác giả sử dụng phương pháp bootstrapping bằng cách tạo ra một danh sách các mẫu intention phrase để làm cơ sở, rồi từ đó sinh ra các mẫu mới tương tự. Một số mẫu cơ bản của
Chương 4. Phân tích và trích chọn nội dung ý định 82
intention phrase được thể hiện trong hình 4.1. Sau khi xác định được intention
Hình 4.1: Một số mẫu intention phrase [16]
phrase, nhóm tác giả đề xuất sử dụng phương pháp trích xuất thông tin để thực hiện bước (2), tức là trích chọn ra các thành phần của ý định, đó là các thông tin thuộc tính để làm rõ ý định hơn. Hai kỹ thuật được lựa chọn để giải quyết bước (2), đó là dùng luật và dùng phương pháp CRFs. Nghiên cứu của Castellanos và cộng sự có cách tiếp cận gần nhất với luận án khi giải quyết bài toán trích chọn ý định người dùng.
Tiếp theo đó, Hamroun và cộng sự (2015) [36] giới thiệu phương pháp tự động phân tích ý định mua sắm từ các tweets của người dùng bằng cách trích xuất các mẫu ý định mua sắm - CI pattern (Consumer Intention). Ở đó, nhóm tác giả định nghĩa một mẫu ngữ nghĩa thể hiện ý định mua sắm của người dùng là một bộ ba (Subject, Intention Verb, Object). Subject có thể là người hoặc tổ chức nào đó, Intention Verb là một động từ vị ngữ chỉ ý định nào đó như mua, tìm, muốn, còn Object là sản phẩm hoặc dịch vụ mà động từ chỉ ý định hướng đến, hình 4.2 biểu diễn mối quan hệ ontology của 3 thành phần này. Nhóm tác giả đánh giá độ chính xác của các mẫu ý định mua sắm trích xuất được từ các tweets bằng cách sử dụng chúng để phân lớp các đối tượng vào các lớp tương ứng như Person, Product...Nhóm tác giả thực nghiệm trên 5 tập dữ liệu khác nhau và so sánh với các phương pháp baseline như Goldbery, Ramanand, Wu. Phương pháp CI-pattern được kết luận là ổn định và chính xác hơn các phương pháp baseline, đặc biệt là trên tập dữ liệu TREC.
Nhìn chung việc trích xuất thông tin ngữ nghĩa của ý định người dùng còn ít được quan tâm. Trong phần tiếp theo của chương này, luận án sẽ giới thiệu hệ thống trích chọn ý định dựa trên việc trích xuất các thông tin, thuộc tính ngữ nghĩa liên quan đến ý định của người dùng.
Chương 4. Phân tích và trích chọn nội dung ý định 83
Hình 4.2: Bản thể mẫu ngữ nghĩa của ý định mua sắm - CI pattern [36]
4.3 Phát biểu bài toán
• Phát biểu bài toán “Phân tích và trích chọn nội dung ý định”: Cho văn bản trực tuyến tiếng Việt mang ý định rõ thuộc miền quan tâm “d” đã được xác định trước. Hãy xây dựng mô hình trích chọn những thông tin quan trọng về ý định đó.
Như đã đề cập trong phần Giới thiệu, luận án mô hình hóa bài toán này
• Định nghĩa bài toán bài toán “Phân tích và trích chọn nội dung ý định”: Đầu vào (Input):
thành bài toán EMD và sử dụng phương pháp gán nhãn chuỗi.
— T = {t1, t2, ..., tn }: tập các bài đăng/bình luận tiếng Việt chứa ý định rõ của người dùng, ở đó ti = (w1, w2, ..., wm ) ∈ d , i = 1...n với d là một miền quan tâm của ý định, mỗi wj , j = 1...m là một từ thuộc ti .
— Ld = {l1, l2, ..., lk }: tập các nhãn li tương ứng với các thông tin cần trích
xuất của ý định thuộc miền “d ”.
Đầu ra (Output):
— Mô hình trích xuất thông tin f (t ) : T → Ld
— s = {s1, s2, ..., sm }, si ∈ Ld : tập nhãn thể hiện thông tin quan trọng về ý
• Ý nghĩa khoa học: Việc phân tích và trích chọn nội dung ý định giúp hệ thống xác định được ba thành phần quan trọng trong định nghĩa hướng miền quan tâm của luận án (công thức 2.1), đó là (1) hành động chính của
định trong ti
Chương 4. Phân tích và trích chọn nội dung ý định 84
ý định “w ”; (2) danh sách thông tin liên quan đến ý định “p”; (3) ngữ cảnh của người có ý định c.
4.4 Trích chọn ý định theo tiếp cận học máy thống
kê và học sâu
Trong phần này luận án sẽ lần lượt giới thiệu hai mô hình trích chọn ý định, mô hình thứ nhất sử dụng phương pháp CRFs, còn mô hình thứ hai sử dụng phương pháp học sâu Bi-LSTM. Để tiến hành thực nghiệm đánh giá mô hình, luận án chọn 2 miền quan tâm để tiến hành trích chọn ý định đó là Bất động sản và Mỹ phẩm & Làm đẹp.
4.4.1 Xây dựng bộ nhãn thực nghiệm
Để tiếp cận mục tiêu của bài toán, trước tiên tác giả cần xây dựng tập nhãn nhằm xác định các loại thực thể cần trích chọn. Công việc này đòi hỏi phải khảo sát dữ liệu một cách cẩn thận. Các bài đăng trên phương tiện truyền thông xã hội thường khá dài và mỗi người dùng lại có một cách diễn đạt khác nhau về ý định của mình, do đó thông tin liên quan đến ý định cũng rất đa dạng. Vì vậy việc quyết định những thông tin nào thực sự cần thiết phải trích chọn, thông tin nào không, cũng đòi hỏi tác giả phải bỏ nhiều công sức để khảo sát dữ liệu. Sau khi khảo sát dữ liệu thu được cũng như tham khảo ý kiến của một số chuyên gia, tác giả đề xuất xây dựng 2 bộ nhãn:
— Bộ gồm 13 nhãn cho miền quan tâm Bất động sản, bảng 4.1
— Bộ gồm 9 nhãn cho miền quan tâm Mỹ phẩm & Làm đẹp, bảng 4.2
Ở đó, trong mỗi bảng, luận án thống kê số lượng (#) các thực thể tương ứng với mỗi loại nhãn trong tập dữ liệu thực nghiệm.
4.4.2 Trích chọn ý định với phương pháp CRFs
Như đã trình bày ở chương 1, hiệu quả của mô hình CRFs phụ thuộc rất
nhiều vào việc thiết kế tập đặc trưng tương ứng với dữ liệu.
Chương 4. Phân tích và trích chọn nội dung ý định 85
Bảng 4.1: Bộ 13 nhãn cho miền quan tâm Bất động sản
Tên nhãn Mô tả Viết tắt #
intent Ý định của người dùng int 835
object obj 1.157
Đối tượng mà ý định chính của người dùng hướng đến
acreage Diện tích của đối tượng acr 865
bathroom number Số lượng phòng tắm mà đối tượng có bathnum 111
balcony direction Hướng ban công của đối tượng bdir 21
bedroom number Số phòng ngủ mà đối tượng có bednum 146
contact ctt 1.257
Thông tin liên lạc với người/đại lý là chủ sở hữu đối tượng
door direction Hướng mặt tiền của đối tượng ddir 1.157
facade size Kích thước mặt tiền đối tượng face 329
floor number Số tầng của đối tượng fnum 442
floor position Số thứ tự tầng chứa đối tượng fpos 84
location Vị trí của đối tượng loc 1.101
price Giá của đối tượng prc 645
Bảng 4.2: Bộ 9 nhãn cho miền quan tâm Mỹ phẩm & Làm đẹp
Tên nhãn Mô tả Viết tắt #
intent Ý định của người dùng int 1.944
object obj 1.799
Đối tượng mà ý định của người dùng hướng đến
age Tuổi của khách hàng/người dùng age 131
brand bra 70
Nhãn hiệu của dịch vụ/ đối tượng mà ý định hướng đến
doi 29 duration of illness Khoảng thời gian khách hàng/người
dùng gặp vấn đề về sắc đẹp/sức khỏe
gender Giới tính của khách hàng/người dùng gen 150
location loc 477
Địa chỉ nơi cung cấp dịch vụ mỹ phẩm, làm đẹp
price Giá của đối tượng pri 32
type Kiểu/Mẫu thực hiện làm đẹp typ 474
Chương 4. Phân tích và trích chọn nội dung ý định 86
4.4.2.1 Thiết lập tham số cho mô hình CRFs
Để tạo các đặc trưng trạng thái, thuật toán CRFs áp dụng các mẫu vị từ ngữ cảnh (context predcate template) pi (x , t ) trên dữ liệu. Việc này được thực hiện bằng cách sử dụng một cửa sổ trượt (sliding window) có kích thước xác định để duyệt qua các ví dụ trong tập dữ liệu huấn luyện. Với dữ liệu thu được, tác giả lựa chọn cửa sổ trượt kích thước bằng 5 với cách đánh chỉ số tương ứng (-2,-1,0,1,2). Hình 4.3 thể hiện một cửa sổ trượt kích thước 5 với một ví dụ đã được chuẩn hóa nhãn theo B-I-O, ở đó mỗi từ được ký hiệu là một wi, w0 chỉ trạng thái hiện tại.
Hình 4.3: Cửa sổ trượt kích thước 5 để xây dựng đặc trưng từ vựng
Chẳng hạn, khi mẫu vị từ w−2 được áp dụng vào cửa sổ ở hình 4.3 sẽ sinh ra vị từ biểu diễn bởi một xâu: “w:-2:thuê”. Vị từ này có nghĩa là “Từ ở vị trí thứ -2 (trong cửa sổ hiện tại) là “thuê””. Tương tự, mẫu vị từ w−2w−1 sẽ sinh ra vị từ “w:w:-2:-1:thuê:nhà”; mẫu vị từ w0w1w2 sẽ sinh ra vị từ “w:w:w:0:1:2:đường:Đông:Quan”.
Khi đó, đặc trưng trạng thái tại từ hiện tại được tạo ra như sau, ví dụ với
vị từ “w:0:đường” ta có đặc trưng:
1
0
(cid:40) nếu từ hiện tại là “đường” và nhãn st của nó là b-loc gj (x , st ) = nếu ngược lại
Luận án sử dụng phương pháp Quasi-Newton, L-BFGS, để huấn luyện mô hình CRFs, với bộ tham số θ được khởi tạo ngẫu nhiên.
Chương 4. Phân tích và trích chọn nội dung ý định 87
Bảng 4.3: Ví dụ minh họa cho đặc trưng dạng biểu thức chính quy
Các dạng thực thể Biểu thức chính quy
\d {4}[.]?\d {3}[.]?\d {3}\b
Số điện thoại
(? : \d ∗ [., ])?\d +?m2
Diện tích
(? : \d ∗ [., ])?\d +?tr [/]m2
Giá (dạng 1)
(? : \d ∗ [., ])?\d +?triệu[/]tháng
Giá (dạng 2)
4.4.2.2 Xây dựng đặc trưng cho mô hình CRFs
• Đặc trưng từ vựng: Đặc trưng từ vựng là loại đặc trưng quen thuộc nhưng rất hiệu quả trong xử lý ngôn ngữ tự nhiên. Luận án sử dụng 1-grams, 2-grams và 3-grams (tương tự như trong thực nghiệm ở chương 3). Tuy nhiên trong thực nghiệm của bài toán này “dấu chấm câu” hoặc “dấu phẩy” được coi như một từ để tạo các n-gram. Nhờ đó, các thực thể như 1.5tr, 0,5kg, nghuongly@gmail.com, 0903.553.055... được trích chọn chính xác hơn.
• Đặc trưng dạng biểu thức chính quy: Biểu thức chính quy là loại đặc trưng rất cần để xác định các thực thể có dạng cấu trúc nhất định như giá cả (price), liên hệ (contact),... Một vài ví dụ về biểu thức chính quy được giới thiệu trong bảng 4.3
• Đặc trưng từ điển: Từ điển trong thực nghiệm này được xây dựng thủ công dựa trên dữ liệu thực nghiệm và kinh nghiệm sử dụng tiếng Việt của nhóm nghiên cứu. Mục đích của từ điển trong bài toán này là giúp cho mô hình nhận đoán các thực thể một cách hiệu quả hơn. Do vậy luận án xây dựng từ điển cho một số thực thể cần thiết. Trong quá trình thực nghiệm bằng phương pháp học máy thống kê CRFs, tác giả nhận thấy một số thực thể được trích xuất với độ chính xác thấp. Một trong số những lý do dẫn đến điều này có thể là nhãn đó có lượng dữ liệu huấn luyện ít nhưng lại đa dạng (ví dụ nhãn thương hiệu (brand) trong miền quan tâm Mỹ phầm & Làm đẹp) hoặc do giá trị dữ liệu
Luận án xây dựng 3 loại đặc trưng cho mô hình CRFs đó là: đặc trưng từ vựng, đặc trưng dạng biểu thức chính quy (regular expression), đặc trưng dạng từ điển (look-up dictionary).
Chương 4. Phân tích và trích chọn nội dung ý định 88
Bảng 4.4: Đặc trưng từ điển
Từ điển Mẫu vị từ khớp với từ điển
1–từ
2–từ
[w−2], [w−1], [w0], [w1], [w2] in dictionary [w−2w−1], [w−1w0], [w0w1], [w1w2] in dictionary [w−2w−1w0], [w−1w0w1], [w0w1w2] in dictionary
3–từ
của nhãn đó quá phức tạp (như nhãn vị trí (location) trong miền quan tâm Bất động sản). Từ phân tích đó, luận án xây dựng hai từ điển cho hai thực thể, đó là: thực thể thương hiệu và thực thể vị trí. Trong đó từ điển của thực thể thương hiệu gồm 22 từ hoặc cụm từ thể hiện thương hiệu của một số hãng mỹ phẩm hoặc cơ sở làm đẹp nổi tiếng, ví dụ như: “Wonjin”, “Loreal”, “Shiseido”.... Tương tự, từ điển của thực thể vị trí gồm 154 từ hoặc cụm từ thể hiện địa chỉ, vị trí của các bất động sản, ví dụ như: “Lê Văn Lương”, “Mỹ Đình”, “Ô Chợ Dừa”... Bảng 4.4 thể hiện dạng đặc trưng từ điển mà luận án sử dụng.
4.4.3 Trích chọn ý định với phương pháp học sâu Bi–LSTM–
CRFs
Trong nghiên cứu của luận án, tác giả kế thừa mô hình của Lample và cộng sự (2016) [62] để xây dựng mô hình trích chọn ý định người dùng, hình 4.4.
4.4.3.1 Thiết lập tham số cho mô hình Bi-LSTM-CRFs
Với véc tơ biểu diễn từ đầu vào wi , ta có véc tơ li kích thước 100 sẽ biểu diễn đặc trưng ngữ cảnh và thông tin cần thiết phía bên trái, và véc tơ ri kích thước 100 tương ứng biểu diễn đặc trưng ngữ cảnh và thông tin cần thiết phía bên phải. Kết hợp hai véc tơ li và ri thu được véc tơ ci kích thước 200 tổng hợp đặc trưng cần thiết ở cả hai phía của wi . Tầng CRFs cuối cùng trong mô hình sẽ xác định nhãn cần tìm tương ứng với véc tơ đầu vào ci .
Với mô hình Bi-LSTM-CRFs luận án sử dụng công cụ FastText để sinh véc tơ mã hóa từ làm đầu vào cho mô hình. Mô hình sử dụng phương pháp tối ưu hóa Adam với các tham số được khởi tạo lần lượt là 0,001; 0,9; 0,1.
Chương 4. Phân tích và trích chọn nội dung ý định 89
Hình 4.4: Kiến trúc mô hình Bi-LSTM-CRFs
Sau đó, luận án tiến hành thực nghiệm với ba kỹ thuật lần lượt được trình bày sau đây. Tham số sử dụng cho mỗi kỹ thuật được trình bày trong khi trình bày các kỹ thuật tương ứng.
4.4.3.2 Véc tơ biểu diễn từ được huấn luyện trước (pretrained
embeddings)
Công việc này thực chất là để tạo bảng “lookup” nhằm huấn luyện trước các véc tơ mã hóa cho các từ tương ứng để hỗ trợ việc tạo đầu vào cho mô hình Bi-LSTM-CRFs. Mô hình skip-gram được sử dụng để huấn luyện bảng này bằng cách coi mỗi từ chứa một tập các n-grams ký tự. Phương pháp này được đề xuất bởi Bojanowski và cộng sự (2016) [11]. Bằng cách này thì một từ và một n-gram có chung chuỗi ký tự sẽ được mã hóa bởi các véc tơ khác nhau, chẳng hạn như từ “im” và 2-gram “im” trong từ “tìm” sẽ được mã hóa khác nhau. Trong nghiên cứu của luận án, tập dữ liệu dùng để tiến hành huấn luyện trước véc tơ mã hóa từ là tập dữ liệu thô chưa gán nhãn gồm 1041 từ thuộc miền quan tâm Bất động sản và 1500 từ thuộc miền quan tâm Mỹ phẩm & Làm đẹp. Tập các từ này là những từ thuộc tập dữ liệu huấn luyện của luận án. Sau khi thực hiện huấn luyện trước bằng phương pháp skip-gram, luận án thu được file text chứa mỗi véc tơ biểu diễn từ trên một dòng. Mỗi dòng bắt đầu bởi một từ và tiếp theo sau là véc tơ với số chiều 100 biểu diễn từ đó. Ví dụ hình 4.5 là véc tơ biểu diễn từ “có”.
Chương 4. Phân tích và trích chọn nội dung ý định 90
Hình 4.5: Véc tơ mã hóa được huấn luyện trước của từ “có”
4.4.3.3 Véc tơ biểu diễn từ được mã hóa dựa vào ký tự (Character-
based model)
Trong mô hình này, thay vì chỉ sử dụng đầu vào là các véc tơ mã hóa cho mỗi từ, luận án sử dụng thêm véc tơ mã hóa cho mỗi ký tự, hình 4.6. Đầu tiên, luận án sẽ huấn luyện để tạo một “character lookup table”, tức là bảng chứa các vec tơ mã hóa mỗi ký tự trong bảng chữ cái. Với mỗi từ đầu vào, lần lượt các véc tơ biểu diễn các ký tự tương ứng của từ đó sẽ được đưa vào một mô hình Bi-LSTM theo 2 chiều. Đầu ra của mô hình Bi-LSTM này là 2 véc tơ biểu diễn từ đó lần lượt theo hướng từ bên phải sang (rw ) và từ bên trái sang (lw ), mỗi véc tơ có kích thước 25. Hai véc tơ này sau đó được nối với nhau để tạo véc tơ biểu diễn từ theo hướng dựa vào ký tự (ew ), kích thước 50. Cuối cùng, ew được nối với e (cid:48) w , tạo thành véc tơ biểu diễn từ w trong bảng tra từ đã mã hóa trước (word lookup table), để tạo véc tơ đầu vào cho mô hình Bi-LSTM-CRFs nhằm trích chọn ý định người dùng. Mô hình này rất ưu điểm với loại ngôn ngữ hình thái, và đặc biệt hiệu quả trong việc biểu diễn tiền tố và hậu tố của các từ [68]. Hơn nữa số ký tự là hữu hạn, không nhiều như số từ, nên việc mã hóa bộ ký tự để có thể dùng lại là việc khả thi.
Chương 4. Phân tích và trích chọn nội dung ý định 91
Hình 4.6: Mô hình mã hóa dựa vào ký tự [62]
4.4.3.4 Dùng kỹ thuật cắt tỉa khi huấn luyện mô hình (dropout
training)
Khi sử dụng một mạng nơ ron nhiều tầng để huấn luyện mô hình với một lượng dữ liệu huấn luyện nhỏ sẽ rất dễ gặp tình trạng quá khớp (overfit) với dữ liệu huấn luyện. Điều đó dẫn đến mô hình sẽ cho kết quả không tốt trên tập dữ liệu kiểm thử. Để tránh tình trạng này, luận án sử dụng mô hình huấn luyện có cắt tỉa (dropout training), được đề xuất bởi Hinton và cộng sự (2012) [38]. Thuật ngữ cắt tỉa hàm ý là chúng ta sẽ bỏ bớt một số đơn vị (unit) ở tầng ẩn hoặc tầng rõ ra ngoài mô hình, bao gồm cả việc loại các kết nối vào và kết nối đi ra từ unit đó. Việc chọn xem unit nào sẽ bị loại ra khỏi mô hình khi huấn luyện được thực hiện một cách ngẫu nhiên theo một xác suất p cho trước. Trong thực nghiệm dưới đây, luận án sử dụng p = 0,3. Hình 4.7 mô phỏng việc thực hiện cắt tỉa trong một mô hình mạng nơ ron.
Chương 4. Phân tích và trích chọn nội dung ý định 92
Hình 4.7: Mô phỏng mô hình mạng nơ ron sử dụng kỹ thuật cắt tỉa
4.4.4 Độ đo đánh giá mô hình thực nghiệm
2, ..., s (cid:48)
Trong tất cả các thực nghiệm ở chương này cũng như chương 5, độ chính xác (precision), độ hồi tưởng (recall), và độ đo F1 được tính theo mức chunk- based (cụm từ được phân đoạn). Cụ thể như sau, giả sử với một chuỗi các phân đoạn đúng của một dữ liệu ví dụ là s = (s1, s2, ..., sN ), ta có chuỗi các phân đoạn được mô hình đoán nhận tương ứng là s’ = (s (cid:48) 1, s (cid:48) K ). Khi đó, s (cid:48) k được gọi là true positive nếu như s (cid:48) k ∈ s. Độ chính xác và độ hồi tưởng được tính lần lượt bằng tỉ lệ của tổng số các phân đoạn true positive đối với tổng số các phân đoạn được đoán nhận bởi mô hình và tổng số các phân đoạn đúng của dữ liệu. Độ đo F1 vẫn được tính theo công thức:
2.precision.recall precision + recall
(4.2) F1 =
Bên cạnh đó luận án sử dụng đại lượng Support thể hiện số lượng các phân đoạn đúng tương ứng với mỗi loại nhãn trong tập dữ liệu test. Giá trị avg/total của độ chính xác, độ hồi tưởng, và F1 được tính dựa vào trọng số là giá trị Support tương ứng.
Chương 4. Phân tích và trích chọn nội dung ý định 93
Bảng 4.5: Gán nhãn dữ liệu với bộ nhãn tương ứng
Miền quan tâm Bài đăng được gán nhãn
Bất động sản
Mỹ phẩm &
Làm đẹp Em muốn
4.4.5 Thời gian thực nghiệm với mỗi mô hình
Luận án tiến hành thực nghiệm với hệ máy có thông số: (1) CPU là IntelCore i7 2.1 GHz; (2) Ram có dung lượng 8GB. Khi đó, thời gian thực nghiệm với các phương pháp lần lượt như sau:
— Thời gian thực nghiệm với mô hình CRFs: khoảng 15-20 phút.
— Thời gian thực nghiệm với mô hình Bi-LSTM-CRFs: 40-50 phút.
4.4.6 Dữ liệu thực nghiệm
Sau khi khảo sát và phân tích dữ liệu thực nghiệm ở 3, chúng tôi chọn miền quan tâm Bất động sản và Mỹ phẩm & Làm đẹp để tiến hành thực nghiệm trích xuất ý định. Trong số 750 bài đăng thuộc lớp Bất động sản có sẵn trong thực nghiệm ở chương 3, luận án chọn và lọc bớt những bài đăng quá dài (mang tính quảng cáo của các công ty Bất động sản) hoặc những bài đăng quá ngắn không chứa nhiều thông tin cần trích xuất. Điều này là cần thiết vì mục tiêu bài toán này là trích xuất ý định và các thông tin liên quan đến ý định nên luận án cần thu thập được dữ liêu huấn luyện đảm bảo hai yêu cầu chính sau:
- Dữ liệu không nên chứa quá nhiều thông tin nhiễu (như thông tin quảng
cáo)
Chương 4. Phân tích và trích chọn nội dung ý định 94
- Dữ liệu huấn luyện cho các nhãn (tức là các thông tin cần trích xuất) không được quá ít (tối thiểu phải từ 10 ví dụ huấn luyện) để đảm bảo mô hình có thể hoạt động ổn định.
Với mục tiêu như vậy, sau khi lọc bớt dữ liệu cũ, luận án phải thu thập thêm dữ liệu từ các diễn đàn nổi tiếng của Việt Nam như www.muaban.net, www.vatgia.com, www.webtretho.com... Kết quả là sau khi tiền xử lý dữ liệu, luận án thu được 712 bài đăng thuộc miền quan tâm Bất động sản. Tương tự đối với miền quan tâm Mỹ phẩm & Làm đẹp, chúng tôi cũng thừa kế một phần dữ liệu từ miền cha của nó, miền Sức khỏe & Làm đẹp, để xây dựng dữ liệu thực nghiệm cho bài toán này. Ngoài ra chúng tôi thu thập thêm dữ liệu từ một số diễn đàn như www.webtretho.com, www.diendanthammy.net... Kết quả là sau khi tiền xử lý dữ liệu, luận án thu được 1.500 bài đăng thuộc miền quan tâm Mỹ phẩm & Làm đẹp. Sau đó dữ liệu được gán nhãn theo 2 bộ nhãn trong bảng 4.1 và 4.2 dựa trên sự đồng thuận của cả nhóm như đã trình bày ở chương 2. Bảng 4.5 trình bày một vài ví dụ về dữ liệu đã được gán nhãn để chuẩn bị cho việc thực nghiệm.
Cuối cùng, tác giả chuyển dữ liệu đã gán nhãn sang chuẩn B-I-O (đã trình bày trong phần 1.4.2) để làm đầu vào cho mô hình thực nghiệm, ví dụ trong hình 4.8
Hình 4.8: Chuyển đổi sang chuẩn B-I-O
Với mô hình Bi-LSTM-CRF luận án chia dữ liệu thành 3 phần theo tỉ lệ 3:1:1, trong đó 3 phần dùng để huấn luyện mô hình, 1 phần để đánh giá nâng cấp mô hình và 1 phần để kiểm thử. Còn với mô hình CRFs, luận án lấy hợp 3 phần huấn luyện và 1 phần đánh giá nâng cấp ở trên để huấn luyện, phần còn lại để kiểm thử.
Chương 4. Phân tích và trích chọn nội dung ý định 95
4.4.7 Thiết kế thực nghiệm
Với cả 2 mô hình CRFs và Bi-LSTM-CRFs, luận án đều thực hiện phương pháp đánh giá chéo 5-fold tương ứng với 5 phần dữ liệu được chia theo tỉ lệ 3:1:1 như đã trình bày ở trên. Luận án tiến hành thực nghiệm để xây dựng các mô hình trích chọn ý định tương ứng với mỗi miền quan tâm, Bất động sản và Mỹ phẩm & Làm đẹp, theo thiết kế sau:
— Sử dụng mô hình Bi-LSTM-CRFs kết hợp mô hình mã hóa từ dựa vào ký tự (Bi-LSTM-CRF(Char)). Mục tiêu của thực nghiệm này nhằm đánh giá hiệu quả của việc bổ sung thêm đặc trưng của các ký tự vào véc tơ biểu diễn từ có làm cho mô hình trích chọn ý định đạt kết quả tốt hơn không ?;
— Sử dụng mô hình Bi-LSTM-CRFs kết hợp mô hình mã hóa từ dựa vào ký tự và kỹ thuật cắt tỉa (Bi-LSTM-CRF(Char + Drop)). Mục tiêu của thực nghiệm này nhằm đánh giá hiệu quả của việc kết hợp thêm kỹ thuật cắt tỉa với kỹ thuật mã hóa từ dựa vào ký tự;
— Sử dụng mô hình Bi-LSTM-CRFs kết hợp mô hình mã hóa từ dựa vào ký tự và kỹ thuật huấn luyện trước các véc tơ biểu diễn từ (Bi-LSTM- CRF(Char + Pre)). Mục tiêu của thực nghiệm này nhằm đánh giá hiệu quả của việc khởi tạo trước véc tơ đầu vào với phương pháp huấn luyện từ FastText kết hợp thêm kỹ thuật mã hóa từ dựa vào ký tự;
— Sử dụng mô hình Bi-LSTM-CRFs kết hợp mô hình mã hóa từ dựa vào ký tự, kỹ thuật huấn luyện trước các véc tơ biểu diễn từ và kỹ thuật cắt tỉa (Bi-LSTM-CRF(Char + Pre + Drop)). Mục tiêu của thực nghiệm này nhằm đánh giá hiệu quả của việc kết hợp cả 3 kỹ thuật đối với mô hình trích chọn ý định;
— Sử dụng mô hình CRFs với 3 loại đặc trưng trình bày ở trên. Mục tiêu của thực nghiệm này nhằm so sánh hiệu quả của mô hình học sâu Bi-LSTM-CRFs với mô hình học máy truyền thống.
Chương 4. Phân tích và trích chọn nội dung ý định 96
4.4.8 Kết quả thực nghiệm
4.4.8.1 Kết quả đánh giá chéo 5-fold đối với mỗi mô hình
Hình 4.9 trình bày kết quả độ đo F1 trung bình của mỗi fold thu được từ 5 mô hình theo thiết kế thực nghiệm đối với miền quan tâm Mỹ phẩm & Làm đẹp. Tương tự, hình 4.10 là kết quả đánh giá chéo 5-fold đối với miền quan tâm Bất động sản. Có thể thấy đối với cả 2 miền quan tâm, kết quả thực nghiệm khá ổn định trên cả 5-fold của 5 mô hình và trung bình độ đo F1 đều đạt trên 80 %. Ngoài ra, mặc dù không cần thêm bất kỳ đặc trưng hỗ trợ nào, mô hình Bi-LSTM-CRFs luôn đạt kết quả cao hơn so với mô hình CRFs. Vậy ta có thể thấy mô hình Bi-LSTM-CRFs thực sự rất hiệu quả với bài toán trích chọn ý định được đề ra.
Hơn nữa, để có đánh giá cụ thể hơn về mỗi mô hình, luận án tính toán và đưa ra kết quả trung bình F1 của mỗi mô hình đối với cả 5-fold, kết quả lần lượt được trình bày trong bảng 4.6 và 4.7. Từ 2 bảng này ta thấy, với miền quan tâm Mỹ phẩm & Làm đẹp, mô hình Bi-LSTM-CRFs (Char+Pre+Drop) đạt độ chính xác F1 trung bình tốt nhất, 91,17% , trong khi đó, mô hình Bi-LSTM-CRFs (Char) lại thể hiện tốt nhất trong miền quan tâm Bất động sản.
Sự khác nhau này có thể là do đặc điểm dữ liệu ở 2 miền này khác nhau, và số lượng dữ liệu huấn luyện mô hình đối với mỗi miền cũng khác nhau. Cụ thể, mô hình Bi-LSTM-CRFs (Char) sử dụng kỹ thuật mã hóa từ dựa vào ký tự nên sẽ phát huy được đặc trưng về các ký tự. Trong khi đó, miền quan tâm Bất động sản chứa rất nhiều ký tự lạ như: m 2, 4tr/th,..., nên mô hình Bi-LSTM-CRFs (Char) phát huy hiệu quả tốt với miền quan tâm này. Còn với kỹ thuật huấn luyện trước véc tơ biểu diễn từ thì do lượng từ để huấn luyện cho miền quan tâm Bất động sản là 1041, mà các từ và ký tự thuộc miền này lại rất đa dạng nên kỹ thuật này chưa đạt được kết quả tốt với miền Bất động sản. Tương tự với kỹ thuật cắt tỉa, khi lượng dữ liệu thực nghiệm còn khiêm tốn thì phương pháp cắt tỉa đôi khi lại làm mất đi những đặc trưng quan trọng, dẫn tới ảnh hưởng đến kết quả đoán nhận của mô hình. Mà lượng dữ liệu thu được cho miền Bất động sản chỉ chứa hơn 700 bài đăng, bằng một nửa lượng dữ liệu miền Mỹ phẩm & Làm đẹp, điều này dẫn đến kỹ thuật cắt tỉa cũng không tốt với miền Bất động sản trong trường
Chương 4. Phân tích và trích chọn nội dung ý định 97
hợp này. Những luận giải này dẫn đến kết quả của mô hình Bi-LSTM-CRFs (Char+Pre+Drop) đạt kết quả thấp nhất trong số các mô hình học sâu khi áp dụng trên dữ liệu miền Bất động sản, tuy nhiên nó lại đạt kết quả cao nhất trên miền Mỹ phẩm & Làm đẹp.
Hình 4.9: Trung bình F1-score của mỗi fold đối với miền quan tâm Mỹ phẩm & Làm đẹp
Hình 4.10: Trung bình F1-score của mỗi fold đối với miền quan tâm Bất động sản
Chương 4. Phân tích và trích chọn nội dung ý định 98
Bảng 4.6: Trung bình F1-score với mỗi mô hình thực nghiệm thuộc miền quan tâm Mỹ phẩm & Làm đẹp
Precision Recall F1
Bi-LSTM-CRF (Char) 90,99% 87,19% 89,01%
Bi-LSTM-CRF (Char+Drop) 92,08% 89,37% 90,71%
Bi-LSTM-CRF (Char+Pre) 90,14% 89,25% 89,69%
Bi-LSTM-CRF (Char+Pre+Drop) 92,79% 89,60% 91,17%
CRFs 92,15% 73,49% 81,76%
Bảng 4.7: Trung bình F1-score với mỗi mô hình thực nghiệm thuộc miền quan tâm Bất động sản
Precision Recall F1
Bi-LSTM-CRF (Char) 91,94% 90,83% 91,37%
Bi-LSTM-CRF (Char+Drop) 90,39% 89,37% 89,87%
Bi-LSTM-CRF (Char+Pre) 89,98% 89,90% 89,94%
Bi-LSTM-CRF (Char+Pre+Drop) 90,23% 89,00% 89,53%
CRFs 87,21% 85,68% 86,43%
4.4.8.2 Độ chính xác cho từng nhãn trên mỗi miền quan tâm
Cuối cùng, để có cái nhìn cụ thể và chi tiết hơn về các mô hình thực nghiệm, luận án đưa ra kết quả độ chính xác trung bình F1 trên 5-fold đối với mỗi nhãn trong miền quan tâm Mỹ phẩm & Làm đẹp ở hình 4.11; và mỗi nhãn trong miền quan tâm Bất động sản ở hình 4.12. Ở đó, mỗi nhãn ghi nhận năm kết quả độ chính xác F1 tương ứng với 5 mô hình theo thiết kế thực nghiệm đã trình bày ở trên.
Trước tiên, qua kết quả ở hai hình 4.11 và 4.12, có thể nhận thấy 4 mô hình học sâu đều cho kết quả trích xuất các nhãn tốt hơn mô hình CRFs. Hơn nữa có thể thấy hầu hết các nhãn đều đạt độ chính xác khá cao và khá ổn định.
Riêng nhãn quá trình bị bệnh (duration of illness - doi) trong miền quan tâm Mỹ phẩm & Làm đẹp, và nhãn hướng của ban công (balcony direction - bdir ) trong miền quan tâm Bất động sản có độ chính xác thấp hơn các nhãn khác. Cụ thể, nhãn doi đạt độ chính xác cao nhất là 74.3% với mô hình
Chương 4. Phân tích và trích chọn nội dung ý định 99
LSTM-CRFs (Char+Pre+Drop) và đạt độ chính xác thấp nhất là 53.6% với mô hình LSTM-CRFs (Char). Còn nhãn bdir đạt độ chính xác cao nhất là 66.41% với mô hình LSTM-CRFs (Char) và đạt độ chính xác thấp nhất là 25.61% với mô hình CRFs. Điều này có thể do một số lý do chính sau: (1)số lượng dữ liệu của hai nhãn này trong dữ liệu huấn luyện ít hơn so với các nhãn khác (như có thể thấy trong các bảng 4.2, 4.1); (2) các giá trị dữ liệu của nhãn doi rất đa dạng và phức tạp, ví dụ như: “1 năm”, “khoảng 4 tháng”, “3-5 năm”...; (3) các giá trị dữ liệu của nhãn bdir dễ bị gán nhãn nhầm sang nhãn hướng mặt tiền của đối tượng (door direction - ddir ).
Ngoài ra nhãn địa điểm (location - loc) trong miền quan tâm Bất động sản tuy có số lượng nhãn khá lớn (1101 nhãn) và có sự hỗ trợ của đặc trưng từ điển nhưng độ chính xác trung bình F1 cũng không được cao, lý do của kết quả này là do giá trị của nhãn địa điểm (loc) trong miền quan tâm bất động sản thường dài và phức tạp hơn các nhãn khác. Một số ví dụ về giá trị dữ liệu cho nhãn loc trong miền Bất động sản như: “gần ngã 3 Trần Đăng Ninh, Nguyễn Khánh Toàn, Chùa Hà ”, “số 7, ngách 93/23 đường Hoàng Mai, quận Hoàng Mai”...
Tuy nhiên một số nhãn quan trọng, cần thiết trong việc xác định ý định người dùng đều đạt độ chính xác cao. Cụ thể đối với miền Mỹ phẩm và Làm đẹp nhãn ý định (intent - int) đạt độ chính xác F1 cao nhất là 94,2% và thấp nhất là 85,03%, còn nhãn đối tượng (object - obj ) đạt độ chính xác cao nhất là 92,28% và thấp nhất là 80,28%. Tương tự đối với miền Bất động sản, nhãn int đạt độ chính xác F1 cao nhất là 97,42% và thấp nhất là 96,68%, còn nhãn obj đạt độ chính xác cao nhất là 90,09% và thấp nhất là 87,47%.
Tuy mô hình học sâu Bi-LSTM-CRFs đạt độ chính xác tốt hơn so với mô hình CRFs nhưng về mặt thời gian huấn luyện thì lại mất nhiều hơn. Trong khi CRFs chỉ mất khoảng 15 phút huấn luyện mô hình thì Bi-LSTM-CRFs mất khoảng 1 tiếng.
4.5 Trích chọn ý định dựa trên kết hợp các mô
hình học sâu
Như đã đề cập ở phần 4.1, luận án đề xuất phương án nâng cấp hệ thống trích chọn ý định người dùng trong ngữ cảnh học sâu nhờ vào ý tưởng học
Chương 4. Phân tích và trích chọn nội dung ý định 100
Hình 4.11: Độ chính xác trung bình F1 đối với mỗi nhãn trong miền quan tâm Mỹ phẩm & Làm đẹp
Hình 4.12: Độ chính xác trung bình F1 đối với mỗi nhãn trong miền quan tâm Bất động sản
kết hợp. Như đã đề cập ở trên, ngoài w và p, mô hình nâng cấp này còn trích chọn cả thành phần c. Để tiến hành thực nghiệm và đánh giá mô hình, luận án chọn 3 miền quan tâm của ý định để tiến hành thực nghiệm, đó là Bất động sản (Real Estate), Du lịch (Tourism) và Xe cộ (Transportation).
4.5.1 Kỹ thuật học kết hợp (ensemble learning)
Một hệ học kết hợp là một tập hợp các mô hình mà kết quả đoán nhận của hệ dựa trên sự kết hợp của các mô hình thành phần thông qua một trọng số trung bình hoặc một phương pháp bình chọn (voting). Năm 2004, Caruana và cộng sự đã giới thiệu một phương pháp xây dựng các hệ ensemble từ các thư viện của hàng ngàn mô hình và đã nhận được những kết quả khả quan đối với bài toán phân lớp [15]. Nhóm tác giả sử dụng phương pháp lựa chọn từng bước một từ thư viện các mô hình để tìm ra một tập con các mô hình
Chương 4. Phân tích và trích chọn nội dung ý định 101
sao cho khi kết hợp chúng với nhau sẽ thu được kết quả thực nghiệm tốt. Thực nghiệm trên bảy bài toán và 10 loại độ đo cho thấy phương pháp của nhóm tác giả luôn lựa chọn được hệ ensemble tốt hơn các mô hình khác.
4.5.2 Xây dựng bộ nhãn thực nghiệm
Sau khi khảo sát dữ liệu thực nghiệm cũng như tham khảo ý kiến của các cố vấn, tác giả xây dựng bộ nhãn gồm 18 nhãn cho miền quan tâm Bất động sản, 15 nhãn cho miền quan tâm Du lịch và 17 nhãn cho miền quan tâm Xe cộ. Ở thực nghiệm này, luận án sử dụng cùng bộ dữ liệu với chương 5, nên để tránh việc trùng lặp trong trình bày, ba bộ nhãn này sẽ được trình bày chi tiết trong các bảng 5.1, 5.2 và 5.3 ở chương 5.
4.5.3 Mô hình giải quyết bài toán
Luận án đề xuất và tiến hành thực nghiệm để đánh giá hai loại mô hình: (1) Mô hình không chia sẻ tài nguyên, trong phần 4.5.3.1; (2) Mô hình chia sẻ tài nguyên, trong phần 4.5.3.2.
4.5.3.1 Mô hình học kết hợp không chia sẻ tài nguyên
Trong phần này, luận án sẽ mô tả mô hình được đề xuất theo thứ tự từ tầng đáy đến tầng trên cùng. Mô hình do luận án đề xuất bao gồm 3 thành phần Bi-LSTM-CRFs như mô tả ở hình 4.13, ở đó mỗi thành phần con đều có 3 tầng. Tầng thấp nhất là tầng mã hóa từ (word embedding) đầu vào, tiếp theo sau là tầng Bi-LSTM. Tầng Bi-LSTM có nhiệm vụ tạo ra đầu vào cho tầng thứ ba đó là tầng CRFs - tầng giải mã ra nhãn riêng cho mỗi thành phần mô hình con.
• Tầng mã hóa từ (word embeddings)
Hình 4.14 và 4.15 lần lượt thể hiện sơ đồ khối của pha huấn luyện và pha đoán nhận trong mô hình kết hợp các mô hình học sâu không chia sẻ tài nguyên.
Đầu vào của cả 3 thành phần Bi-LSTM là biểu diễn véc tơ của mỗi từ riêng biệt. Mỗi véc tơ biểu diễn từ được tạo bởi sự kết nối của hai yếu tố, yếu tố thứ nhất là thành phần biểu diễn từ dựa vào ký tự (character-based) và
Chương 4. Phân tích và trích chọn nội dung ý định 102
Hình 4.13: Mô hình trích chọn ý định dựa trên kết hợp các mô hình học sâu
thứ hai là thành phần biểu diễn theo kỹ thuật huấn luyện trước (pretrained) của từ:
— Ở đây luận án lựa chọn tích hợp biểu diễn từ dựa vào ký tự để làm một thành phần của véc tơ đầu vào vì dữ liệu từ các phương tiện truyền thông xã hội thường rất đa dạng và phụ thuộc nhiều vào từng ký tự cấu thành nên từ. Điều đó dẫn đến hai từ có thể có hình thái khác hẳn nhau nhưng ngữ nghĩa lại giống nhau. Một ví dụ có thể kể đến như từ “m” và “mét” đều có nghĩa chỉ đơn vị đo kích thước.
— Bên cạnh đó, việc khởi tạo các véc tơ mã hóa từ một cách cẩn thận dựa vào ý nghĩa của từ sẽ khiến cho mô hình thu được kết quả tốt hơn so với việc khởi tạo ngẫu nhiên [22]. Vì vậy luận án sử dụng thêm véc tơ mã hóa từ đã được huấn luyện trước.
Để có các véc tơ biểu diễn từ được huấn luyện trước tác giả sử dụng ba kỹ thuật khác nhau cho lần lượt mỗi thành phần con của mô hình, đó là FastText [11], Word2Vec [70] và Glove [78]. Việc sử dụng 3 kỹ thuật huấn luyện từ khác nhau cho 3 thành phần con của mô hình không chỉ để tăng độ chính xác của mô hình đề xuất mà còn để đảm bảo sự đa dạng của 3 thành phần con. Những véc tơ biểu diễn từ đầu vào này sẽ tiếp tục được điều chỉnh
Chương 4. Phân tích và trích chọn nội dung ý định 103
Hình 4.14: Sơ đồ khối thể hiện pha huấn luyện của mô hình học kết hợp không chia sẻ tài nguyên
trong suốt quá trình huấn luyện mô hình. Về mặt toán học, một từ đầu vào thứ i của mỗi ví dụ sẽ có biểu diễn như sau:
Chương 4. Phân tích và trích chọn nội dung ý định 104
Hình 4.15: Sơ đồ khối thể hiện pha đoán nhận của mô hình học kết hợp không chia sẻ tài nguyên
(4.3) wi = h f i h b i epre−trained
Chương 4. Phân tích và trích chọn nội dung ý định 105
i và h b
i và h b
i tương ứng là biểu diễn thuận (forward) và ngược (backward) của từ wi (lần lượt là đầu ra của mô hình char-LSTM thuận và mô hình char- LSTM ngược). Vì ba thành phần con của mô hình độc lập với nhau nên các giá trị h f i cũng được huấn luyện độc lập. Còn epre−trained là thành phần véc tơ thu được từ quá trình huấn luyện trước. Nếu wi được huấn luyện trước nhờ phương pháp Glove thì epre−trained sẽ được tra từ bảng lookup của Glove theo như mô tả trong [62], tương tự đối với FastText và Word2Vec.
• Tầng Bi-LSTM
Ở đó, h f
tầng LSTM thuận sẽ sinh ra biểu diễn h l tương tự tầng LSTM ngược sẽ sinh biểu diễn h r Với mỗi từ wi của chuỗi đầu vào (w1, w2, ..., wn ) được biểu diễn như trên, i cho ngữ cảnh phía bên trái của nó, i cho ngữ cảnh phía bên phải.
• Tầng CRFs
(4.4) hi = h l i h r i
• Hàm mất mát trong quá trình huấn luyện
Thay vì gán nhãn mỗi từ một cách độc lập, tương tự mô hình ở thực nghiệm Bi-LSTM-CRFs trình bày ở phía trên, tầng CRFs được thêm vào cuối cùng để sinh mã cho chuỗi đầu vào. Tức là ở mỗi thành phần con của mô hình, tầng CRFs sẽ dùng đầu ra của tầng Bi-LSTM để làm đầu vào của nó và giải mã để sinh nhãn cho chuỗi đầu vào tương ứng. Ý tưởng này đã chứng tỏ được sự hiệu quả với nhiệm vụ NER theo nghiên cứu của Lample và cộng sự (2016) [62]. Lý do đơn giản vì trong thực tế dữ liệu không hoàn toàn độc lập, đặc biệt là dữ liệu dạng chuỗi, mỗi từ luôn có sự phụ thuộc vào các từ hàng xóm xung quanh. Chẳng hạn trong nhiệm vụ trích xuất ý định, ba nhãn B-INT, B-OBJ, I-OBJ thường đi cùng nhau hay I-LOC không thể đứng sau I-INT.
Mỗi mô hình Bi-LSTM-CRF thành phần sẽ tính giá trị hàm mất mát theo công thức (1) trong bài báo của Lample [62]. Khi đó, tổng giá trị hàm mất mát thu được của toàn bộ mô hình đề xuất sẽ là:
3 (cid:88)
Chương 4. Phân tích và trích chọn nội dung ý định 106
i
(4.5) overall loss = lossi
• Kết quả đầu ra theo chiến lược bình chọn đa số
lossi là giá trị hàm mất mát của thành phần mô hình thứ i.
Với mỗi chuỗi đầu vào tương ứng x = (x1, x2, ..., xN ), đầu ra của ba mô hình thành phần là ba chuỗi nhãn được ký hiệu lần lượt là {y(1), y(2), y(3)}. Khi đó giá trị đầu ra cuối cùng sẽ được tính theo công thức:
), ...,
(4.6)
, y(2) N , y(2)
, y(3) N , y(3)
N )}
y = {majority(y(1) majority(y(1)
i, y(3)
i, y(2)
i lần lượt là nhãn đầu ra của mỗi từ xi nhận được từ mỗi mô hình thành phần. majority là hàm lựa chọn theo đa số, được thể hiện trong sơ đồ khối, hình 4.15.
ở đó, y(1)
i, y(2)
i, y(3) i giống nhau thì chúng sẽ đều là giá trị đầu ra cuối cùng của mô hình, còn nếu hai trong số chúng giống nhau và khác giá trị còn lại thì giá trị của mô hình sẽ lấy theo giá trị của hai thành phần con giống nhau. Trường hợp còn lại, nếu cả ba giá trị khác nhau từng đôi một thì giá trị cuối của mô hình sẽ được lấy theo nhãn của thành phần mô hình con có kết quả Viterbi cao nhất khi huấn luyện CRFs. Luận án cũng đã thử một số chiến lược khác để chọn giá trị cuối cho mô hình khi ba thành phần con cho kết quả nhãn khác nhau từng đôi một chẳng hạn như chọn cố định kết quả nhãn của một thành phần mô hình con làm nhãn cuối cùng. Tuy nhiên các cách này đều cho kết quả thấp hơn cách tác giả đề xuất ở trên.
Tức là nếu ba giá trị y(1)
4.5.3.2 Mô hình học kết hợp theo tiếp cận chia sẻ tài nguyên
Mặc dù mô hình hợp ba thành phần dựa trên kỹ thuật ensemble learning để xuất ở trên trích chọn được ý định người dùng với độ chính xác tốt hơn so với mô hình đơn (điều này sẽ được trình bày trong phần Kết quả thực nghiệm 4.5.6) nhưng nó lại chiếm thời gian huấn luyện khá lớn [87]. Do đó, luận án khai thác mô hình đề xuất theo hướng tiếp cận chia sẻ một số tầng
Chương 4. Phân tích và trích chọn nội dung ý định 107
của mô hình. Luận án lần lượt tiến hành thực nghiệm với những lựa chọn sau:
— Chia sẻ tầng biểu diễn từ dựa trên ký tự (character-based);
— Chia sẻ tầng Bi-LSTM;
— Chia sẻ tầng CRFs
Luận án nhận thấy mô hình chia sẻ tầng biểu diễn từ dựa trên ký tự, được biểu diễn trong hình 4.16, giúp làm giảm thời gian tính toán của mô hình học kết hợp đề xuất trong khi vẫn giúp làm tăng độ chính xác so với mô hình đơn (kết quả sẽ được trình bày cụ thể ở phần 4.5.6). Trong khi đó hai phương án chia sẻ tầng Bi-LSTM và CRFs lại cho kết quả thấp hơn đối với dữ liệu của luận án.
Hình 4.16: Mô hình trích chọn ý định dựa trên ý tưởng học kết hợp trong ngữ cảnh học sâu với tầng biểu diễn từ dựa trên ký tự được chia sẻ
Chương 4. Phân tích và trích chọn nội dung ý định 108
4.5.3.3 Tham số của các mô hình
• Véc tơ mã hóa từ được huấn luyện trước (Pre-trained word em- beddings)
Các thực nghiệm được tiến hành với các tham số được lựa chọn như sau:
• Mã hóa từ dựa vào ký tự
Theo như tác giả tìm hiểu thì chưa có sẵn bộ mã hóa từ cho dữ liệu dạng văn bản trực tuyến bằng tiếng Việt nào được huấn luyện trước. Vì vậy trong thực nghiệm của mình, luận án dùng tập dữ liệu huấn luyện cho mỗi miền quan tâm làm nguồn để xây dựng mô hình sinh tập véc tơ mã hóa từ được huấn luyện trước. Cụ thể luận án dùng các thư viện tương ứng với 3 phương pháp mã hóa từ để huấn luyện trước đó là: Glove 1, FastText 2 và Word2Vec 3. Tác giả sử dụng cửa sổ kích thước 7 đối với cả 3 phương pháp, mỗi vec tơ mã hóa từ đều có kích thước 100.
• Tham số cho tầng Bi-LSTM
Theo cách này, mỗi từ được mã hóa thông qua các ký tự của chúng nhờ quá trình huấn luyện theo chiều thuận và theo chiều nghịch của một mô hình Bi-LSTM. Biểu diễn của một từ là một véc tơ nhận được bằng cách kết nối véc tơ nhận được theo chiều thuận (forward LSTM) và véc tơ nhận được theo chiều nghịch (backward LSTM) [62]. Trong mô hình mà luận án đề xuất, mỗi véc tơ nhận được từ forward LSTM và backward LSTM có kích thước 25, dẫn đến véc tơ biểu diễn từ dựa vào ký tự có kích thước 50.
• Tham số cho vấn đề tối ưu hóa và tinh chỉnh
Mô hình luận án đề xuất sử dụng 1 tầng LSTM thuận và 1 tầng LSTM nghịch với kích thước véc tơ đầu vào là 100. Tác giả dùng phương pháp cắt tỉa để làm giảm hiện tượng quá khớp [38]. Mặt nạ cắt tỉa sẽ được sử dụng ở tầng mã hóa từ cuối cùng, trước khi tạo đầu vào cho tầng Bi-LSTM. Sau khi thực nghiệm thử với một số giá trị xác suất cắt tỉa, tác giả cố định chọn xác suất cắt tỉa là 0,5 cho mọi thực nghiệm.
1. https://pypi.org/project/glove/ 2. https://pypi.org/project/fasttext/ 3. https://pypi.org/project/gensim/
Luận án sử dụng phương pháp tối ưu hóa Adam [25] với tỉ lệ học (learning rate) 0,001, β1 = 0, 9, β2 = 0, 999 và độ hạ dốc (gradient clipping) là 10. Trong
Chương 4. Phân tích và trích chọn nội dung ý định 109
mô hình do luận án đề xuất, mỗi véc tơ mã hóa từ khởi đầu sẽ được điều chỉnh trong suốt quá trình cập nhật gradient của mạng nơ ron nhờ phương pháp lan truyền ngược gradient [79].
4.5.3.4 Thời gian thực nghiệm với mỗi mô hình
Luận án tiến hành thực nghiệm với hệ máy có thông số: (1) CPU là IntelCore i7 2.1 GHz; (2) Ram có dung lượng 8GB. Khi đó, thời gian thực nghiệm với các mô hình lần lượt như sau:
— Thời gian thực nghiệm với mô hình Bi-LSTM-CRFs đơn: khoảng 100-
120 phút.
— Thời gian thực nghiệm với mô hình kết hợp không chia sẻ tài nguyên:
khoảng 360 phút.
— Thời gian thực nghiệm với mô hình kết hợp chia sẻ tài nguyên: khoảng
300 phút.
4.5.4 Dữ liệu thực nghiệm
Trong các thực nghiệm, luận án sử dụng dữ liệu được lấy tự động từ các diễn đàn trực tuyến, các trang web và các mạng xã hội. Ngoài lượng dữ liệu được kế thừa từ các thực nghiệm trước (750 bài đăng thuộc miền Bất động sản), dữ liệu thực nghiệm cho các miền quan tâm Bất động sản, Du lịch, và Xe cộ trong chương này được lấy chủ yếu từ các nguồn sau:
1. Miền Bất động sản: https://batdongsan.com.vn/
2. Miền Du lịch: https://www.webtretho.com/forum/f110/
và https://dulich.vnexpress.net/
3. Miền Xe cộ : https://www.facebook.com/groups/xemay -cuhanoi
Một nhóm sinh viên được giao nhiệm vụ gán nhãn cho dữ liệu dựa vào các bộ dữ liệu mà luận án định nghĩa trong các bảng 4.8, 4.9 và 4.10. Sau khi thực hiện kiểm tra chéo giữa các sinh viên, luận án thu được một bộ dữ liệu gồm khoảng 9.000 bài đăng trong đó, mỗi miền quan tâm có khoảng 3.000 bài. Sau khi tiến hành tiền xử lý, bộ dữ liệu này được chia thành 3 tập gồm: tập dữ liệu huấn luyện, tập dữ liệu hiệu chỉnh và tập dữ liệu kiểm thử với tỷ lệ lần lượt là 60%, 20% and 20%.
Chương 4. Phân tích và trích chọn nội dung ý định 110
Bảng 4.8: Bộ 18 nhãn của miền Bất động sản (BĐS)
Nhãn BĐS Viết tắt Mô tả
intent int
acreage acr Ý định của người dùng (mua, bán, cho thuê..) Diện tích của nhà, khu đất, căn hộ...
brand brd
Tập đoàn (hãng) sở hữu đối tượng BĐS (VinGroup, Ciputra, Nam Cường...)
contact ctt
Cách liên hệ với người dùng hoặc bên sở hữu BĐS (số điện thoại, địa chỉ hộp thư điện tử...)
context ctx
Ngữ cảnh, hoàn cảnh liên quan đến ý định của người dùng (người dùng đang bị ngân hàng siết nợ, người dùng cần bán gấp để ra định cư nước ngoài, người dùng đang có con nhỏ...)
description of object obj-des
Mô tả thêm về đối tượng BĐS (đất thổ cư, đất nông nghiệp, chung cư cao cấp...)
equipment eqm
Đồ dùng thiết bị được trang bị sẵn cùng với đối tượng BĐS
facade direction face-dir Hướng của nhà, của mặt tiền
facade size face-size Kích thước mặt tiền
location loc Vị trí của đối tượng BĐS
number of bedrooms bed-num Số lượng phòng ngủ
number of bathrooms bath-num Số lượng phòng tắm
number of facades face-num Số lượng mặt tiền
number of floors fnum Số tầng
number of objects obj-num Số lượng đối tượng BĐS
object obj
Đối tượng BĐS mà ý định người dùng hướng tới
owner own
Chủ sở hữu theo pháp lý của đối tượng BĐS
price prc Giá của đối tượng BĐS
4.5.5 Thiết kế thực nghiệm
Để đánh giá hiệu quả của mô hình đề xuất với bài toán trích chọn ý định người dùng, luận án lần lượt xây dựng 6 mô hình đối với mỗi miền quan tâm
Chương 4. Phân tích và trích chọn nội dung ý định 111
Bảng 4.9: Bộ 15 nhãn của miền Du lịch
Nhãn Du lịch Viết tắt Mô tả
intent int
Ý định của người dùng (du lịch, tìm (khách sạn) , đặt (tour, khách sạn)...)
brand brd
Thương hiệu của đối tượng mà ý định hướng đến (Vietnam Airlines, VietTran, FLC...)
contact ctt
Cách liên hệ với người dùng hoặc bên sở hữu đối tượng mà ý định hướng đến (số điện thoại, địa chỉ hộp thư điện tử...)
context ctx
Ngữ cảnh, hoàn cảnh liên quan đến ý định của người dùng (nghỉ tuần trăng mật, đang có bầu, có em nhỏ đi cùng...)
obj-des
description of object Mô tả thêm về đối tượng của ý định (có bể bơi, tầm nhìn hướng ra biển...)
destination Đích đến của chuyến du lịch
dest accom-name Tên của khách sạn, resort (Sealink,
name of accommodation Sunwah, Ana Mandara)
number of Objects obj-num
Số lượng đối tượng mà ý định người dùng hướng tới
number of People ppl-num
Số lượng người tham gia vào chuyến du lịch
object obj
Đối tượng du lịch mà người dùng hướng tới (phòng khách sạn, vé máy bay, tour...)
point of departure dpt Địa điểm xuất phát của chuyến du lịch
point of time time-pnt
Thời điểm bắt đầu hoặc xuất phát của chuyến du lịch
Giá của đối tượng du lịch price prc
time period time-prd Khoảng thời gian diễn ra chuyến du lịch
transport trp
Phương tiện vận chuyển cho chuyến du lịch
của ý định Bất động sản, Du lịch và Xe cộ :
Chương 4. Phân tích và trích chọn nội dung ý định 112
Bảng 4.10: Bộ gồm 17 nhãn của miền Xe cộ
Nhãn Xe cộ Viết tắt Mô tả
Ý định của người dùng (mua, bán, thuê...) intent int
brand brd
Tập đoàn, thương hiệu của đối tượng xe cộ (Honda, Yamaha, Toyota...)
Màu của đối tượng xe cộ color clr
contact ctt
Cách liên hệ với người dùng hoặc bên sở hữu đối tượng mà ý định hướng đến (số điện thoại, địa chỉ hộp thư điện tử...)
context ctx
Ngữ cảnh, hoàn cảnh liên quan đến ý định của người dùng (Cần bán gấp, cần thanh lý gấp)
obj-des Mô tả thêm về đối tượng xe cộ (Xe còn
description of object zin, mới sơn lại...)
location loc Địa chỉ của đối tượng xe cộ
license plate lpe Biển số xe
model mdl Đời xe, dòng xe (corola 1.6, wave rsx)
number of objects obj-num Số lượng đối tượng xe cộ
object obj
Đối tượng xe cộ mà ý định người dùng hướng đến
origin orig
Nơi sản xuất đối tượng xe cộ (Nhật, Thái, Việt Nam...)
owner own
Chủ sở hữu theo pháp luật của đối tượng xe cộ
price prc Giá của đối tượng xe cộ
registration Có giấy tờ đăng ký hay không ?
registration Year reg reg-year Năm thực hiện việc đăng ký theo pháp
luật cho đối tượng xe cộ
state stt
Trạng thái mới, cũ của đối tượng xe cộ (mới hoàn toàn, mới 90%...)
— (1),(2),(3) Ba mô hình Bi-LSTM-CRFs được đề xuất bởi Lample và cộng sự [62]. Ở đó mỗi mô hình có véc tơ đầu vào lần lượt được mã hóa bởi 3 phương pháp là Glove, FastText và Word2Vec (luận án ký hiệu
Chương 4. Phân tích và trích chọn nội dung ý định 113
3 mô hình này tương ứng là GLOVE, FASTEXT, WORD2VEC). Để phân biệt với mô hình đề xuất dựa trên ý tưởng học kết hợp, luận án gọi loại mô hình này là mô hình đơn. Mục tiêu của thực nghiệm này nhằm đánh giá hiệu quả của các mô hình học sâu đơn lẻ, sau đó làm cơ sở để so sánh với các mô hình học kết hợp mà luận án đề xuất.
— (4) Một mô hình Bi-LSTM-CRFs đơn có véc tơ đầu vào được tạo bởi sự kết nối giữa các véc tơ mã hóa từ được sinh bởi 3 phương pháp Glove, FastText và Word2Vec. Mô hình này được ký hiệu là 3-EMBEDDINGS. Mục tiêu của thực nghiệm này nhằm đánh giá hiệu quả của việc khởi tạo đầu vào cho mô hình đơn với véc tơ từ được kết hợp bởi 3 véc tơ từ huấn luyện bởi 3 phương pháp khác nhau. Từ đó làm cơ sở để đánh giá hiệu quả của mô hình kết hợp mà luận án đề xuất.
— (5) Mô hình đề xuất của luận án dựa trên kỹ thuật học kết hợp, hình 4.13. Mục tiêu của thực nghiệm này nhằm đánh giá hiệu quả của mô hình học kết hợp mà luận án đề xuất.
— (6) Mô hình như được biểu diễn ở hình 4.16, ở đó tầng Char-BiLSTM được chia sẻ. Mô hình này được ký hiệu là SHARING CHAR-LAYER MODEL. Mục tiêu của thực nghiệm này nhằm đánh giá xem liệu mô hình học kết hợp chia sẻ tài nguyên có giúp làm giảm thời gian thực nghiệm so với mô hình kết hợp không chia sẻ tài nguyên mà vẫn giúp làm tăng độ chính xác so với mô hình đơn không.
4.5.6 Kết quả thực nghiệm
4.5.6.1 Hiệu quả của mô hình học kết hợp
Với mỗi thí nghiệm luận án thực hiện 5 lần chạy khác nhau rồi tính giá trị F1 trung bình. Kết quả thực nghiệm trên 3 miền quan tâm được thể hiện lần lượt ở các hình 4.17, 4.18, 4.19.
Có thể thấy đối với cả 3 miền quan tâm hai mô hình dựa trên kỹ thuật học kết hợp mà luận án đề xuất (5),(6) luôn đạt kết quả tốt hơn 4 mô hình đơn còn lại (1),(2),(3),(4). Sự khác biệt rõ nhất được thể hiện trong miền Xe cộ. Ở đó mô hình đề xuất (5) của luận án có độ chính xác F1 cao hơn 1,15% so với mô hình đơn đạt độ chính xác cao nhất, GLOVE; và cao hơn
Chương 4. Phân tích và trích chọn nội dung ý định 114
Hình 4.17: Trung bình F1 qua 5 lần chạy khác nhau của mỗi mô hình đối với miền Bất động sản
Hình 4.18: Trung bình F1 qua 5 lần chạy khác nhau của mỗi mô hình đối với miền Du lịch
Chương 4. Phân tích và trích chọn nội dung ý định 115
Hình 4.19: Trung bình F1 qua 5 lần chạy khác nhau của mỗi mô hình đối với miền Xe cộ
gần 3% so với độ chính xác F1 của mô hình đơn có độ chính xác thấp nhất, WORD2VEC.
Bên cạnh đó, mô hình SHARING CHAR-LAYER MODEL tuy giúp làm giảm thời gian huấn luyện mô hình nhưng cho kết quả thấp hơn một chút so với mô hình không chia sẻ (5). Điều này là do việc chia sẻ tầng mã hóa từ dựa vào ký tự có thể làm mất đi đặc trưng riêng của các véc tơ biểu diễn từ, một lợi thế nhận được khi huấn luyện riêng trên từng mô hình đơn. Từ đó dẫn đến hiệu quả đoán nhận của mô hình chia sẻ tài nguyên không tốt bằng mô hình kết hợp không chia sẻ tài nguyên. Tuy nhiên mô hình SHARING CHAR-LAYER MODEL cũng vẫn cho kết quả tốt hơn so với các mô hình đơn. Cụ thể, kết quả tốt nhất mà mô hình này đạt được có độ chính xác F1 cao hơn mô hình đơn GLOVE 0,88% đối với miền Bất động sản, và cao hơn mô hình đơn WORD2VEC 2,62% đối với miền Xe cộ. Khi mà lượng dữ liệu trên các phương tiện truyền thông xã hội trực tuyến tăng trưởng theo từng ngày thì mô hình chia sẻ này sẽ thể hiện được ưu thế của nó nhờ làm giảm thời gian huấn luyện.
Nói về các mô hình đơn, mô hình sử dụng mã hóa từ theo phương pháp Glove đạt độ chính xác cao nhất trong mọi thực nghiệm. Nhưng cũng thật thú vị khi nhận thấy rằng, việc kết hợp 3 thành phần đơn để tạo mô hình học kết hợp như đề xuất đã cho thấy sự đóng góp tích cực từ phía các mô
Chương 4. Phân tích và trích chọn nội dung ý định 116
Bảng 4.11: Độ chính xác đối với từng nhãn thu được trên miền Du lịch khi sử dụng phương pháp học kết hợp mà luận án đề xuất
Tên nhãn Dịch Precision Recall F1-score Support
intent object brand contact context ý định đối tượng thương hiệu liên hệ ngữ cảnh
88,87 71,93 80,00 92,45 67,07 42,06 89,41 86,01 28,57 92,45 64,71 48,18 89,14 78,34 42,11 92,45 65,87 44,92 661 143 14 106 85 110
description of object mô tả đối tượng
điểm đến destination name of accom tên nơi ở
88,59 56,73 93,83 86,24 68,60 93,83 87,40 62,11 93,83 756 86 81
number of objects số lượng đối tượng
số lượng người 88,29 87,78 88,03 352
number of people
điểm xuất phát 75,31 75,31 75,31 81
point of departure
mốc thời gian giá cả
point of time price time Period 88,26 70,41 87,14 91,81 72,56 90,15 90,00 71,47 88,62 794 164 203
khoảng thời gian
transport 73,47 65,45 69,23 55
phương tiện đi lại
avg/total 84,06 85,29 84,57 3.691
hình đơn có độ chính xác F1 thấp như FASTTEXT và WORD2VEC. Điều đó có nghĩa là cả 3 thành phần mô hình đơn đều đóng góp vai trò của nó để cùng nâng độ chính xác tổng thể của mô hình đề xuất lên cao hơn.
Qua thực nghiệm tác giả cũng nhận ra rằng việc kết nối 3 thành phần véc tơ biểu diễn từ theo 3 phương pháp Glove, FastText, Word2Vec để tạo mô hình 3-EMBEDDINGS không phải lúc nào cũng hiệu quả đối với dữ liệu của luận án. Cụ thể đối với cả 3 miền quan tâm, mô hình này luôn cho kết quả tốt hơn 2 mô hình đơn FASTTEXT và WORD2VEC, tuy nhiên lại luôn cho kết quả thấp hơn mô hình đơn GLOVE.
Chương 4. Phân tích và trích chọn nội dung ý định 117
4.5.6.2 Kết quả trích chọn từng nhãn trên mỗi miền quan tâm
Xét về mỗi miền quan tâm, tác giả nhận thấy rằng các thực nghiệm trên miền Bất động sản đạt độ chính xác thấp nhất. Một lý do giải thích cho kết quả này là vì dữ liệu trong miền Bất động sản thường dài và phức tạp, nên chứa nhiều thông tin cần trích xuất hơn hai miền còn lại đồng thời cũng chứa nhiều nhiễu hơn. Theo thực nghiệm của luận án, mô hình đề xuất đạt độ chính xác cao nhất đối với dữ liệu miền Du lịch.
Cuối cùng, luận án trình bày kết quả độ chính xác đối với từng nhãn trích xuất được trên lần lượt cả 3 miền quan tâm Du lịch, Xe cộ và Bất động sản khi sử dụng mô hình kết hợp để trích chọn ý định. Các kết quả này được trình bày lần lượt trong 3 bảng 4.11, 4.12, 4.13. Như đã đề cập trong phần 4.4.4, trong các bảng này ngoài độ chính xác (precision), độ hồi tưởng (recall) và độ đo F1 có trình bày thêm giá trị support, đó là số lượng các giá trị dữ liệu tương ứng với từng nhãn trong tập dữ liệu kiểm thử. Tập dữ liệu kiểm thử được lấy ngẫu nhiên, và chiếm 20% tập dữ liệu thực nghiệm, nên từ giá trị support này cũng có thể ước lượng được tương đối số lượng giá trị các nhãn tương ứng trong toàn bộ tập dữ liệu thực nghiệm. Theo kết quả này, nhãn thương hiệu ở miền Du lịch và miền Bất động sản đạt kết quả đoán nhận với độ chính xác thấp vì lý do chính là số lượng nhãn này trong dữ liệu huấn luyện quá ít (dưới 45 nhãn), hơn nữa giá trị của nhãn cũng rất đa dạng đặc biệt là trong miền Du lịch, ví dụ như: FLC, VinPearl, Vietjet... Tương tự, nhãn mô tả đối tượng trong hai miền quan tâm này cũng đạt độ chính xác không được cao tuy số lượng nhãn nhiều hơn nhãn thương hiệu, lý do chính là vì giá trị nhãn mô tả khá phức tạp và đa dạng trong hai miền này. Một số ví dụ về giá trị của nhãn mô tả đối tượng của hai miền quan tâm này được giới thiệu trong bảng 4.14
Tuy tăng được độ chính xác cho bài toán trích chọn ý định nhưng thời gian để huấn luyện mô hình học kết hợp ba mô hình học sâu Bi-LSTM-CRFs lại lâu hơn các mô hình còn lại rất nhiều, khoảng 4 giờ đồng hồ.
Chương 4. Phân tích và trích chọn nội dung ý định 118
Bảng 4.12: Độ chính xác đối với từng nhãn thu được trên miền Xe cộ khi sử dụng phương pháp kết hợp mà luận án đề xuất
Tên nhãn Dịch/Mô tả Precision Recall F1-score Support
ý định đối tượng thương hiệu màu sắc liên hệ ngữ cảnh intent object brand color contact context
92,61 83,69 88,95 86,60 96,76 52,38 77,91 89,11 83,10 83,85 77,06 97,82 38,60 56,07 90,82 83,39 86,33 81,55 97,29 44,44 65,21 661 426 192 109 458 57 239
description of object mô tả đối tượng
biển số địa điểm đời (xe) license plate location model
80,80 77,55 79,08 65,38 81,45 75,43 78,13 62,96 81,12 76,48 78,60 64,15 124 403 633 54
number of objects số lượng đối tượng
origin price status registration 83,48 91,95 75,00 83,52 86,49 91,22 54,73 71,70 84,96 91,58 63,28 77,16 111 501 148 106
nơi sản xuất giá cả tình trạng giấy tờ đăng ký
90 năm đăng ký 92,21 87,89 85,03
registration year
avg/total 85,15 81,53 83,14 4.477
4.6 Kết luận chương
Chương 4 giúp giải quyết pha 3 trong tiến trình ba pha. Tức là luận án tập trung trích chọn từ khóa chỉ ý định của người dùng và những thông tin cần thiết bổ trợ cho ý định đó. Theo tìm hiểu của tác giả, đây là nghiên cứu đầu tiên đề xuất mô hình xác định ý định người dùng từ các bài đăng tiếng Việt trên các phương tiện truyền thông xã hội trực tuyến một cách cụ thể, chi tiết. Để hướng đến mục tiêu này, luận án giới thiệu mô hình học sâu Bi-LSTM-CRFs dựa trên mô hình được phát triển bởi Lample và cộng sự [62]. Đồng thời luận án cũng thực nghiệm với mô hình CRFs để làm phương
Chương 4. Phân tích và trích chọn nội dung ý định 119
Bảng 4.13: Độ chính xác đối với từng nhãn thu được trên miền Bất động sản khi sử dụng phương pháp kết hợp mà luận án đề xuất
Tên nhãn Dịnh/Mô tả Precision Recall F1-score Support
intent object brand contact context ý định đối tượng thương hiệu liên hệ ngữ cảnh
94,21 82,50 62,50 94,31 42,86 59,84 94,38 81,01 50,00 94,78 35,29 55,73 94,29 81,75 55,56 94,54 38,71 57,71 569 553 10 402 51 131
description of object mô tả đối tượng
location owner
59,42 61,42 50,00 58,46 66,48 56,25 58,94 63,85 52,94 1.052 182 32
number of facades địa điểm chính chủ số lượng mặt tiền
64,52 51,28 57,14 39
number of object số lượng đối tượng
số tầng 71,13 72,66 71,89 139
number of floor
acreage
diện tích hướng mặt tiền 84,08 62,39 85,39 70,83 84,73 66,34 575 96
facade direction
facade size 64,34 60,58 62,41 137
kích thước mặt tiền
equipment
67,21 91,26 48,24 90,38 56,16 90,82 85 104
number of bedrooms thiết bị số lượng phòng ngủ
95,52 91,43 93,43 70
number of bathrooms số lượng phòng tắm
avg/total 77,38 76,90 77,08 4.679
Chương 4. Phân tích và trích chọn nội dung ý định 120
Bảng 4.14: Một số ví dụ về nhãn mô tả
Giá trị nhãn mô tả
Miền quan tâm của ý định
Bất động sản
lô đất ven sông; đất thổ cư; đất trồng cây lâu năm; đất công nghiệp; đất vườn 50 năm; đất dịch vụ; đất không có quy hoạch;...
Du lịch
4-5 sao; có bãi biển, bể bơi; trẻ con có chỗ chơi; (tour) ghép; 3 sao có phòng tập thể; có ăn sáng; gần biển; sát biển; (phòng) hướng biển; có cháo cho bé
pháp cơ bản (baseline) đối với bài toán trích chọn nội dung ý định này. Kết quả thực nghiệm trên hai miền quan tâm Bất động sản và Mỹ phẩm & Làm đẹp cho thấy mô hình học sâu Bi-LSTM-CRFs đã thu được kết quả khả quan đối với bài toán trích chọn ý định người dùng từ văn bản trực tuyến trên các phương tiện truyền thông xã hội. Tiếp theo đó, để nâng cao độ chính xác của mô hình học sâu, luận án đề xuất một mô hình học kết hợp ba mô hình học sâu. Để đánh giá hiệu quả của mô hình đề xuất, luận án tiến hành thực nghiệm trên 3 miền quan tâm: Bất động sản, Du lịch, Xe cộ và sử dụng mô hình đơn Bi-LSTM-CRFs làm phương pháp cơ bản. Kết quả thực nghiệm cho thấy mô hình đề xuất của luận án đạt độ chính xác cao hơn so với mô hình đơn. Ngoài ra, một đóng góp trong chương này là xây dựng 4 bộ dữ liệu cho 4 miền quan tâm là Bất động sản, Du lịch, Mỹ phẩm & Làm đẹp và Xe cộ để thực nghiệm với các mô hình trích xuất ý định được đề xuất. Bộ dữ liệu gồm khoảng 10.000 bài đăng tiếng Việt đã được gán nhãn, bộ dữ liệu này có thể sử dụng cho các công trình nghiên cứu sau này về xác định ý định người dùng Việt Nam.
Chương 5
Phân tích và trích chọn ý định đa miền quan tâm
Ý định người dùng vô cùng đa dạng, được thể hiện ở nhiều miền quan tâm khác nhau. Vì vậy việc mở rộng mô hình phân tích ý định trên những miền quan tâm mới là rất cần thiết và mang lại rất nhiều ý nghĩa thực tiễn. Chương 5 của luận án đề xuất phương pháp phân tích ý định đa miền quan tâm nhằm tiếp cận mục tiêu mở rộng miền trong phân tích ý định. Kết quả nghiên cứu này được trình bày trong công trình [LTLe5] (2020).
5.1 Giới thiệu
Tiến trình ba pha giải quyết bài toán xác định ý định người dùng đề xuất ở chương 1 gặp phải một số hạn chế. Thứ nhất phải kể đến là ý định người dùng và các thuộc tính liên quan phụ thuộc rất nhiều vào miền quan tâm của ý định. Ví dụ trong miền Xe cộ, khi một người dùng muốn mua ô tô họ sẽ quan tâm nhiều đến các thông tin như thương hiệu, giá cả, màu sắc, đời xe; trong khi đó ở miền quan tâm Bất động sản nếu người dùng muốn mua một ngôi nhà thì họ sẽ thường tìm hiểu về những thông tin như số tầng, số phòng ngủ, số phòng tắm, hướng nhà hay vị trí nhà. Có thể thấy rằng số lượng các thông tin sẽ tăng đáng kể khi mà số lượng các miền quan tâm của ý định tăng, dẫn đến độ phức tạp của bài toán xác định ý định người dùng cũng lớn hơn. Thêm vào đó, việc mở rộng mô hình để trích xuất ý định người dùng trên một miền quan tâm mới sẽ rất khó khăn. Bởi vì khi cần trích xuất
121
Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 122
ý định người dùng đối với một miền quan tâm mới ta phải mất công sức để xây dựng bộ nhãn mới tương ứng với ý định và các thông tin thuộc tính cần được trích xuất.
Trong chương này, luận án giới thiệu một phương pháp có thể xử lý được nhiều loại thuộc tính ý định khác nhau và có thể mở rộng để trích xuất ý định ở một miền mới hoàn toàn. Ý tưởng chính của phương pháp này là tác giả định nghĩa một tập gồm mười nhãn tổng quát, tức là các nhãn này không phụ thuộc vào một miền quan tâm cụ thể nào cả. Ý tưởng này xuất phát từ kết quả của việc khảo sát và phân tích dữ liệu thuộc một số miền ý định mà người dùng có nhiều tương tác như Bất động sản, Du lịch, Xe cộ...Tác giả nhận thấy rằng một số thuộc tính (hay còn được gọi là nhãn) như ý định (intent), nhãn hiệu (brand), liên hệ (contact), giá cả (price)... xuất hiện ở hầu hết các miền quan tâm khác nhau của ý định. Do đó tác giả xem chúng như những nhãn không phụ thuộc miền. Trong khi đó một số thuộc tính chỉ xuất hiện ở những bài đăng thuộc những miền đặc thù, ví dụ như màu sắc (color) trong miền Xe cộ, số tầng (number of floors) trong miền Bất động sản, khoảng thời gian (time period) trong miền Du lịch. Những loại thuộc tính đặc thù như vậy sẽ được nhóm lại thành nhãn mô tả chung (description).
Để đánh giá hiệu quả của bộ nhãn tổng quát trong việc trích xuất ý định người dùng khi số lượng các miền quan tâm tăng tác giả tiến hành thực nghiệm với một số phương pháp học máy đang được đánh giá cao như CRFs [61], Bi-LSTM và Bi-LSTM-CRFs [62]. Kết quả nghiên cứu với mô hình trích xuất ý định đa miền quan tâm được công bố trong [LTLe5].
5.2 Nghiên cứu trên thế giới về thích nghi miền
trong xác định ý định
Đa số các nghiên cứu về xác định ý định người dùng đều thực hiện trên một miền quan tâm cụ thể [16], [18], [24], [35], [48], trong phần này, luận án giới thiệu một số nghiên cứu quan tâm đến việc chuyển đổi và thích nghi miền trong bài toán xác định ý định người dùng.
Năm 2013, Z. Chen và cộng sự là một trong số rất ít nhóm nghiên cứu đề xuất phương pháp xác định ý định người dùng từ các bài đăng trên các diễn đàn thảo luận trực tuyến [21]. Trong phạm vi nghiên cứu của mình, nhóm
Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 123
tác giả chỉ quan tâm xác định ý định “mua bán” và ý định đó phải được thể hiện rõ ràng trong các bài đăng của người dùng, tức là không cần mất thời gian suy luận để tìm ra ý định đó. Ví dụ một bài đăng mang ý định rõ: “I am looking for a brand new car to replace my old Ford Focus” (Tôi đang tìm một chiếc xe mới để thay thế chiếc Ford Focus cũ của tôi). Để tiếp cận mục tiêu, trước tiên nhóm tác giả mô hình hóa bài toán hiểu ý định người dùng về bài toán phân lớp nhị phân, ở đó những bài đăng mang ý định rõ (ví dụ như ý định mua một sản phẩm nào đó) được phân vào lớp intention posts, những bài đăng còn lại được phân vào lớp non-intention posts.
Nhóm tác giả nhận thấy có thể áp dụng phương pháp học chuyển đổi đối với bài toán này. Lý do đơn giản vì, với một loại ý định cụ thể là ý định “mua” thì cách diễn đạt ý định của người dùng trong các miền quan tâm khác nhau cũng vẫn tương tự nhau. Đặc tính này có thể được khai thác để thực hiện học chuyển đổi giữa các miền quan tâm khác nhau của ý định, tức là chỉ cần xây dựng một mô hình phân lớp dựa trên dữ liệu đã gán nhãn của một số miền quan tâm nhất định (gọi là miền nguồn) rồi sau đó sử dụng nó để đoán nhận ý định cho những miền quan tâm mới (gọi là miền đích) mà không cần phải gán nhãn cho dữ liệu huấn luyện của miền mới đó nữa. Từ đó nhóm tác giả đã đề xuất một phương pháp học chuyển đổi mới, được đặt tên là Co-Class. Ý tưởng hoạt động của Co-Class như sau: Đầu tiên xây dựng một mô hình phân lớp h sử dụng dữ liệu huấn luyện đã được gán nhãn từ những miền nguồn, sau đó sử dụng mô hình h để tiến hành phân lớp đối với dữ liệu chưa gán nhãn ở miền đích. Dựa trên dữ liệu được gán nhãn bởi mô hình h trên miền đích, ta lựa chọn đặc trưng trên miền đích. Tập đặc trưng được lựa chọn sẽ được dùng để xây dựng hai mô hình phân lớp, thứ nhất là mô hình hS được xây dựng dựa trên dữ liệu được gán nhãn của tập nguồn, thứ hai là hT được xây dựng dựa trên dữ liệu của miền đích được gán nhãn nhờ mô hình h. Sau đó hai mô hình hS và hT cùng kết hợp để phân lớp trên miền đích. Quá trình được lặp lại cho đến khi nhãn của miền đích được gán ổn định.
Thực nghiệm cho thấy phương pháp học chuyển đổi được đề xuất bởi nhóm tác giả còn cho kết quả tốt hơn cả việc học có giám sát hoàn toàn trên miền đích. Dữ liệu thực nghiệm được thu thập từ 4 diễn đàn khác nhau tương ứng với 4 lĩnh vực: Cellphone, Electronics, Camera, TV, trong đó mỗi lĩnh vực gồm 1000 bài đăng và được gán nhãn bằng tay. Khi một lĩnh vực được
Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 124
chọn làm miền đích thì ba miền còn lại là miền nguồn. Dữ liệu được dùng để huấn luyện mô hình là dữ liệu được gán nhãn ở 3 miền nguồn, còn dữ liệu để đánh giá mô hình là dữ liệu không được gán nhãn ở miền đích. Để đánh giá hiệu quả của phương pháp học chuyển đổi đối với bài toán xác định ý định người dùng này, nhóm tác giả tiến hành thực nghiệm bằng phương pháp phân lớp có giám sát truyền thống (Naive Bayes, SVMs) trên mỗi miền độc lập, và thực nghiệm một số phương pháp học chuyển đổi khác (3TR-1TE, EM, ANB, FS-EM1, FS-EM2). Kết quả thực nghiệm cho thấy, phương pháp Co-Class đề xuất của nhóm tác giả đạt kết quả tốt hơn cả, thậm chí tốt hơn việc sử dụng phương pháp học có giám sát đối với mỗi miền dữ liệu.
Nghiên cứu của Z.Chen và cộng sự đã được nhóm tác giả X.B. Ngo và cộng sự tiếp tục phát triển vào năm 2017 [71]. Nhóm tác giả sử dụng phương pháp phân lớp Naive Bayes và phương pháp Stochastic gradient descent để tối ưu hóa các tham số chính sử dụng trong mô hình phân lớp. Với 4 miền dữ liệu Cellphone, Electronics, Camera, TV, nhóm tác giả sử dụng 1 miền làm miền đích, 3 miền còn lại làm miền nguồn. Trong đó, miền đích được chia làm 10 phần để thực hiện đánh giá chéo 10-fold theo nguyên lý sau: mỗi lần huấn luyện mô hình, dữ liệu huấn luyện gồm 9/10 dữ liệu thuộc miền đích cùng dữ liệu thuộc 3 miền nguồn, còn dữ liệu kiểm thử là phần dữ liệu còn lại của miền đích. Kết quả thực nghiệm cho thấy phương pháp đề xuất của nhóm tác giả đạt kết quả tốt hơn phương pháp của Z.Chen [21] và một số phương pháp cơ bản khác.
Cũng với ý tưởng nghiên cứu phương pháp học chuyển đổi cho bài toán xác định ý định mua bán của người dùng, nhưng X.Ding và cộng sự (2015) [26] lại lựa chọn phương pháp học sâu sử dụng mạng CNN. Khác với hầu hết các nghiên cứu trước đây, nhóm tác giả lại tập trung xác định ý định ẩn (implicit intent) của người dùng trong các bài đăng trên các phương tiện truyền thông xã hội với hai lý do chính là: (i) Số lượng các bài đăng mang ý định ẩn trên các phương tiện truyền thông xã hội nhiều hơn rõ rệt so với số lượng bài đăng mang ý định rõ; (ii) việc xác định ý định ẩn của người dùng cũng mang lại rất nhiều ý nghĩa trong kinh doanh và khoa học tuy nhiên nó gặp nhiều khó hơn và chưa được khai thác. Nhiệm vụ chính của bài báo là đầu tiên xác định xem bài đăng có mang ý định ẩn của người dùng hay không, sau đó nếu câu trả lời là “có” thì sẽ tiếp tục xác định “từ mang ý định”. Ví dụ sau khi bài đăng “My wife is pregnant” (Vợ tôi có bầu) được xác
Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 125
định có mang ý định ẩn của người dùng thì sẽ tiếp tục được chỉ ra từ mang ý định là “pregnant”. Với phương pháp thích nghi miền CIMM (Consumption Intention Mining Model), nhóm tác giả trước tiên thực hiện huấn luyện bộ tham số cho mô hình trên tập nguồn, sau đó xây dựng mô hình phân lớp trên tập đích bằng cách sử dụng thêm một tầng thích nghi miền thay thế cho tầng sigmoid cuối cùng trong mô hình đã huấn luyện ở tập nguồn. Phương pháp đề xuất của nhóm tác giả đã cho thấy kết quả khả quan khi so sánh với những phương pháp cơ bản trong bài báo.
5.3 Trích chọn nội dung ý định theo tiếp cận đa
miền quan tâm
Như đã giới thiệu ở phần 5.1, luận án hướng tới cách tiếp cận mới trong việc trích xuất ý định người dùng, đó là cách tiếp cận không phụ thuộc vào miền quan tâm của ý định. Tức là bỏ qua bước xác định miền d của ý định thì luận án vẫn có thể trích xuất được từ khóa chỉ ý định w của người dùng và danh sách p các thông tin liên quan đến ý định cũng như ngữ cảnh c trong công thức 2.1.
5.3.1 Phát biểu bài toán
• Phát biểu bài toán “Phân tích và trích chọn nội dung ý định đa miền quan tâm”: Cho văn bản trực tuyến tiếng Việt mang ý định rõ thuộc một miền quan tâm bất kỳ chưa được xác định trước. Hãy xây dựng mô hình trích chọn những thông tin quan trọng về ý định đó.
• Định nghĩa bài toán “Phân tích và trích chọn nội dung ý định đa miền quan tâm”: Đầu vào (Input):
— T = {t1, t2, ..., tn }: tập các bài đăng/bình luận tiếng Việt chứa ý định rõ của người dùng, ở đó bài đăng ti = (w1, w2, ..., wm ), i = 1...n chứa ý định thuộc miền quan tâm bất kỳ, mỗi wj , j = 1...m là một từ thuộc ti .
— L = {l1, l2, ..., lk }: bộ nhãn không phụ thuộc miền.
Đầu ra (Output):
— Mô hình trích xuất thông tin f (t ) : T → L
Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 126
— s = {s1, s2, ..., sm }, si ∈ L : tập nhãn thể hiện thông tin quan trọng về ý
• Ý nghĩa khoa học:
định trong ti
- Giúp dễ dàng mở rộng mô hình khi cần trích xuất nội dung ý định ở các
miền quan tâm mới.
- Giúp hệ thống xác định được ba thành phần quan trọng trong định nghĩa hướng miền quan tâm của luận án (công thức 2.1), đó là (1) hành động chính của ý định “w ”; (2) danh sách thông tin liên quan đến ý định “p”; (3) ngữ cảnh của người có ý định c.
Để làm được điều đó, trước tiên luận án phải xây dựng bộ nhãn tổng quát,
không phụ thuộc vào miền quan tâm của ý định.
5.3.2 Xây dựng bộ nhãn không phụ thuộc miền
Để xây dựng bộ nhãn không phụ thuộc miền (hay còn gọi là bộ nhãn chung), cách tiếp cận của luận án là khảo sát và phân tích một số miền quan tâm có nhiều tương tác của người dùng trên các phương tiện truyền thông xã hội, cụ thể là miền Bất động sản, Du lịch và Xe cộ.
Trước tiên, tác giả xây dựng bộ nhãn riêng cho lần lượt 3 miền quan tâm trên với 2 mục đích chính: (1) So sánh sự hiệu quả của bộ nhãn riêng với bộ nhãn chung trong việc trích xuất ý định người dùng; (2) Dựa vào các bộ nhãn riêng để xây dựng bộ nhãn tổng quát sao cho đảm bảo được tính tổng quan và hiệu quả nhất. Tác giả lần lượt xây dựng được bộ nhãn gồm 18 nhãn cho miền Bất động sản , bộ nhãn gồm 15 nhãn cho miền Du lịch và bộ nhãn gồm 17 nhãn đối với miền Xe cộ. Các bộ nhãn này được trình bày chi tiết trong các bảng tương ứng 5.1, 5.2 và 5.3.
Sau khi khảo sát 3 bộ nhãn ở bảng 5.1, 5.2 và 5.3, cũng như một số miền ý định trực tuyến khác nữa, luận án đề xuất bộ nhãn gồm 10 nhãn chung hay còn gọi là bộ nhãn không phụ thuộc miền. Bộ 10 nhãn chung được xây dựng theo quy tắc sau:
1. Những thông tin/thuộc tính xuất hiện trong hầu hết các loại miền ý định sẽ được dùng để xây dựng các nhãn tương ứng trong bộ nhãn tổng quát, ví dụ intent, object, contact,...
Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 127
Bảng 5.1: Bộ 18 nhãn của miền Bất động sản (BĐS)
Nhãn BĐS Viết tắt Mô tả
intent int
acreage acr Ý định của người dùng (mua, bán, cho thuê..) Diện tích của nhà, khu đất, căn hộ...
brand brd
Tập đoàn (hãng) sở hữu đối tượng BĐS (VinGroup, Ciputra, Nam Cường...)
contact ctt
Cách liên hệ với người dùng hoặc bên sở hữu BĐS (số điện thoại, địa chỉ hộp thư điện tử...)
context ctx
Ngữ cảnh, hoàn cảnh liên quan đến ý định của người dùng (người dùng đang bị ngân hàng siết nợ, người dùng cần bán gấp để ra định cư nước ngoài, người dùng đang có con nhỏ...)
description of object obj-des
Mô tả thêm về đối tượng BĐS (đất thổ cư, đất nông nghiệp, chung cư cao cấp...)
equipment eqm
Đồ dùng thiết bị được trang bị sẵn cùng với đối tượng BĐS
facade direction face-dir Hướng của nhà, của mặt tiền
facade size face-size Kích thước mặt tiền
location loc Vị trí của đối tượng BĐS
number of bedrooms bed-num Số lượng phòng ngủ
number of bathrooms bath-num Số lượng phòng tắm
number of facades face-num Số lượng mặt tiền
number of floors fnum Số tầng
number of objects obj-num Số lượng đối tượng BĐS
object obj
Đối tượng BĐS mà ý định người dùng hướng tới
owner own
Chủ sở hữu theo pháp lý của đối tượng BĐS
price prc Giá của đối tượng BĐS
2. Một vài thuộc tính chỉ tồn tại trong những miền ý đinh nhất định mang tính đặc thù, ví dụ như khoảng thời gian (time period) chỉ có trong miền
Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 128
Bảng 5.2: Bộ 15 nhãn của miền Du lịch
Nhãn Du lịch Viết tắt Mô tả
intent int
Ý định của người dùng (du lịch, tìm (khách sạn) , đặt (tour, khách sạn)...)
brand brd
Thương hiệu của đối tượng mà ý định hướng đến (Vietnam Airlines, VietTran, FLC...)
contact ctt
Cách liên hệ với người dùng hoặc bên sở hữu đối tượng mà ý định hướng đến (số điện thoại, địa chỉ hộp thư điện tử...)
context ctx
Ngữ cảnh, hoàn cảnh liên quan đến ý định của người dùng (nghỉ tuần trăng mật, đang có bầu, có em nhỏ đi cùng...)
obj-des
description of object Mô tả thêm về đối tượng của ý định (có bể bơi, tầm nhìn hướng ra biển...)
destination Đích đến của chuyến du lịch
dest accom-name Tên của khách sạn, resort (Sealink,
name of accommodation Sunwah, Ana Mandara)
number of Objects obj-num
Số lượng đối tượng mà ý định người dùng hướng tới
number of People ppl-num
Số lượng người tham gia vào chuyến du lịch
object obj
Đối tượng du lịch mà người dùng hướng tới (phòng khách sạn, vé máy bay, tour...)
point of departure dpt Địa điểm xuất phát của chuyến du lịch
point of time time-pnt
Thời điểm bắt đầu hoặc xuất phát của chuyến du lịch
Giá của đối tượng du lịch price prc
time period time-prd Khoảng thời gian diễn ra chuyến du lịch
transport trp
Phương tiện vận chuyển cho chuyến du lịch
Du lịch, diện tích (acreage) chỉ có trong miền Bất động sản hoặc biển số xe (license plate) chỉ có trong miền Xe cộ. Những thuộc tính này sẽ
Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 129
Bảng 5.3: Bộ gồm 17 nhãn của miền Xe cộ
Nhãn Xe cộ Viết tắt Mô tả
Ý định của người dùng (mua, bán, thuê...) intent int
brand brd
Tập đoàn, thương hiệu của đối tượng xe cộ (Honda, Yamaha, Toyota...)
Màu của đối tượng xe cộ color clr
contact ctt
Cách liên hệ với người dùng hoặc bên sở hữu đối tượng mà ý định hướng đến (số điện thoại, địa chỉ hộp thư điện tử...)
context ctx
Ngữ cảnh, hoàn cảnh liên quan đến ý định của người dùng (Cần bán gấp, cần thanh lý gấp)
obj-des Mô tả thêm về đối tượng xe cộ (Xe còn
description of object zin, mới sơn lại...)
location loc Địa chỉ của đối tượng xe cộ
license plate lpe Biển số xe
model mdl Đời xe, dòng xe (corola 1.6, wave rsx)
number of objects obj-num Số lượng đối tượng xe cộ
object obj
Đối tượng xe cộ mà ý định người dùng hướng đến
origin orig
Nơi sản xuất đối tượng xe cộ (Nhật, Thái, Việt Nam...)
owner own
Chủ sở hữu theo pháp luật của đối tượng xe cộ
price prc Giá của đối tượng xe cộ
registration Có giấy tờ đăng ký hay không ?
registration Year reg reg-year Năm thực hiện việc đăng ký theo pháp
luật cho đối tượng xe cộ
state stt
Trạng thái mới, cũ của đối tượng xe cộ (mới hoàn toàn, mới 90%...)
được mô tả chung bởi nhãn mô tả chung (description) trong tập nhãn không phụ thuộc miền.
Bảng 5.4 giới thiệu bộ 10 nhãn không phụ thuộc miền mà luận án đề xuất.
Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 130
Đồng thời bảng cũng thể hiện sự tương ứng giữa mỗi nhãn tổng quát với các nhãn riêng trong lần lượt các miền Du lịch, Bất động sản và Xe cộ.
Bảng 5.4: Bộ 10 nhãn không phụ thuộc miền
Nhãn chung Nhãn Du lịch Viết tắt Nhãn Bất động sản Nhãn Xe cộ
intent int intent intent intent
brand brd brand brand brand
contact ctt contact contact contact
context ctx context context
des descrip- tion
- description of object - point of time - time period
- color -description of object - license plate - model - origin - registration year - state
context - acreage - description of object - equipment - facade direction - facade size - number of bathrooms - number of bedrooms - number of facades - number of floors
location loc location location -destination - point of departure
obj- num number of objects number of objects number of objects number of objects
object obj object object
other oth - owner - owner - registration
object - name of accommodation - number of people - transport
price prc price price price
Cuối cùng, tác giả thử nghiệm gán nhãn một số bài đăng thuộc những miền quan tâm khác bởi bộ 10 nhãn không phụ thuộc miền vừa xây dựng, ví
Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 131
dụ như miền Thiết bị điện tử, Nghề nghiệp & Giáo dục, Tài chính ... Tác giả nhận thấy bộ nhãn không phụ thuộc miền mà luận án đề xuất cũng phù hợp để gán nhãn cho những miền quan tâm khác (ngoài 3 miền Bất động sản, Du lịch, Xe cộ ) của ý định. Cụ thể, tác giả cùng cộng sự đã thực hiện gán nhãn không phụ thuộc miền cho 3 bộ dữ liệu gồm: 546 bài đăng mang ý định rõ thuộc miền Thiết bị điện tử, 1296 bài đăng mang ý định rõ thuộc miền Nghề nghiệp & Giáo dục, 314 bài đăng mang ý định rõ thuộc miền Tài chính. Kết quả là bộ nhãn không phụ thuộc miền phù hợp để gán nhãn cho toàn bộ 3 bộ dữ liệu trên. Điều này được minh chứng bởi một số ví dụ điển hình được luận án trình bày trong bảng 5.5.
Bảng 5.5: Sử dụng bộ nhãn không phụ thuộc miền trên một số miền quan tâm khác
Miền ý định Ví dụ gán nhãn
Nghề nghiệp & Giáo dục
Mình muốn
Tài chính
Vợ chồng mình đang cần
Thiết bị điện tử
Mình đang tìm
5.3.3 Mô hình trích xuất ý định đa miền quan tâm
Luận án lựa chọn 2 mô hình học máy có nhiều ưu điểm trong xử lý ngôn ngữ tự nhiên để tiến hành thực nghiệm, đó là CRFs và Bi-LSTM. Mục tiêu của luận án là với một bài đăng mang ý định rõ của người dùng thuộc vào một miền quan tâm bất kỳ, mô hình đa miền có thể trích chọn được ý định của người dùng, cũng như những thuộc tính quan trọng liên quan đến ý định đó. Hình 5.1 thể hiện mô hình đa miền quan tâm mà luận án đề xuất.
Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 132
Hình 5.1: Mô hình trích xuất ý định đa miền quan tâm
Luận án đã trình bày khá cụ thể về mặt học thuật của phương pháp CRFs cũng như Bi-LSTM và Bi-LSTM-CRFs ở các chương trước. Vì vậy ở chương này luận án chỉ lần lượt trình bày phần thiết lập cài đặt cho từng mô hình trích xuất ý định theo phương pháp đa miền quan tâm.
5.3.3.1 Thiết lập tham số mô hình CRFs
Với mô hình CRFs, luận án sử dụng thư viện pycrfsuite (https://python- crfsuite.readthedocs.io/en/) để hỗ trợ việc thực nghiệm. Tác giả sử dụng
Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 133
những loại đặc trưng sau cho mô hình:
— Đặc trưng từ vựng : luận án dùng 1-grams, 2-grams và 3-grams để có thể thể hiện được đặc trưng ngữ cảnh của các từ trong mỗi bài đăng.
— Đặc trưng từ loại của từ (POS tag): đặc trưng này sẽ gán nhãn từ loại cho mỗi từ trong bài đăng, ví dụ như “động từ”, “danh từ”..., từ đó giúp làm giàu đặc tính về ngôn ngữ học của từ. Ở đây mỗi từ được hiểu là mỗi chuỗi ký tự được phân cách bởi các dấu cách. Đặc trưng này hiệu quả với bài toán trích xuất ý định người dùng vì có thể thấy các từ chỉ ý định (intent) thường có dạng động từ như bán, mua, thuê..., còn những từ chỉ thông tin về địa điểm (location) thường là danh từ như Hà Tây, Cầu Giấy...Luận án dùng công cụ pyvi, được viết bằng ngôn ngữ python nhằm gán nhãn từ loại cho tiếng Việt. Sau khi thử thực nghiệm công cụ này đối với dữ liệu là các bài đăng trên các phương tiện truyền thông xã hội Việt nam tác giả thấy công cụ này phù hợp.
— Đặc trưng về dạng thức đặc biệt của thực thể : Một vài loại thực thể trong dữ liệu của luận án có dạng đặc biệt nên tác giả đã dùng một số đặc trưng về cấu tạo từ để tăng độ chính xác khi đoán nhận chúng. Ví dụ, một từ có chứa chữ số thường là thực thể chỉ thời gian (point of time) hoặc giá cả (price), từ được bắt đầu bởi chữ cái viết hoa thường là tên một địa điểm (location).
— Đặc trưng từ điển: Luận án xây dựng một từ điển look-up để nâng cao hiệu quả của việc huấn luyện mô hình. Trong từ điển này, luận án tạo những danh sách các 1-grams, 2-grams và 3-grams thuộc về một số nhãn. Ví dụ như với nhãn thương hiệu (brand), luận án tạo một danh sách các từ và cụm từ như Hon da, Vietnam Airline, VinGroup... Khi đó nếu các unigram, bigram hay trigram xuất hiện trong những danh sách từ điển này thì các đặc trưng tương ứng của từ hiện tại đang được mô hình xử lý sẽ được cập nhật. Ví dụ if w0w1 in list brand return predicate w0 : w1: in dictionary=brand
5.3.3.2 Thiết lập tham số mô hình Bi-LSTM
Dựa theo kiến trúc mô hình Bi-LSTM trong nghiên cứu của Lample và cộng sự (2016) [62], luận án huấn luyện mô hình Bi-LSTM để trích xuất ý định người dùng theo các thiết lập sau:
Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 134
Hình 5.2: Mô hình Bi-LSTM trích xuất ý định đa miền quan tâm
— Mã hóa từ cho đầu vào của mô hình: Để tạo đầu vào cho mô hình Bi-LSTM, luận án kết nối véc tơ biểu diễn dựa vào đặc trưng từ với véc tơ biểu diễn dựa vào đặc trưng ký tự, điều này giúp làm giảm sự ảnh hưởng không tốt của những từ không có trong tập từ vựng của bộ dữ liệu huấn luyện. Kích thước của véc tơ biểu diễn từ dựa trên ký tự và số unit của mô hình biểu diễn dựa theo ký tự là 25. Tương tự kích thước véc tơ biểu diễn từ và số unit của mô hình huấn luyện từ là 100.
— Tham số cho vấn đề tối ưu hóa: Sử dụng phương pháp tối ưu hóa Adam với các tham số lần lượt được khởi tạo là 0,001, 0,9, 0,1. Những tham số này được hiệu chỉnh trong suốt quá trình huấn luyện.
— Hệ số cắt tỉa: Luận án sử dụng kỹ thuật cắt tỉa để giảm hiện tượng
quá khớp (overfit), với xác suất cắt tỉa là 0,5.
Mô hình Bi-LSTM được thiết kế theo như hình 5.2
5.3.3.3 Thiết lập tham số mô hình Bi-LSTM-CRFs
Thay vì tự gán nhãn, mô hình Bi-LSTM được thêm một tầng CRFs vào trên cùng để quyết định nhãn cuỗi cùng cho mô hình, vì vậy mô hình này được gọi là mô hình Bi-LSTM-CRFs. Khởi tạo của mô hình này cũng giống với mô hình Bi-LSTM ở trên, còn kiến trúc của nó đã được trình bày ở phần 4.4.3 của chương 4.
Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 135
5.3.3.4 Thời gian thực nghiệm với mỗi mô hình
Luận án tiến hành thực nghiệm với hệ máy có thông số: (1) CPU là IntelCore i7 2.1 GHz; (2) Ram có dung lượng 8GB. Khi đó, thời gian thực nghiệm với các phương pháp lần lượt như sau:
— Thời gian thực nghiệm với mô hình CRFs: khoảng 40-45 phút.
— Thời gian thực nghiệm với mô hình Bi-LSTM và Bi-LSTM-CRFs: khoảng
100-120 phút.
5.3.4 Dữ liệu thực nghiệm
Luận án sử dụng bộ dữ liệu thu được từ thực nghiệm cho phần 4.5 Trích chọn ý định dựa trên kết hợp các mô hình học sâu để làm dữ liệu thực nghiệm cho thí nghiệm này. Tức là luận án có khoảng 3.000 bài đăng cho mỗi một trong 3 miền quan tâm Bất động sản, Du lịch và Xe cộ. Một nhóm gồm 5 sinh viên được giao nhiệm vụ gán nhãn cho dữ liệu theo hướng dẫn với tập nhãn mà luận án đã xây dựng, được trình bày ở các bảng 5.1, 5.2, 5.3. Việc gán nhãn được kiểm tra chéo giữa các sinh viên để tìm được nhãn thích hợp nhất khi gán cho dữ liệu.
Sau đó, nhóm sinh viên được yêu cầu gán nhãn lại toàn bộ bản sao của bộ dữ liệu ban đầu dựa theo bộ nhãn không phụ thuộc miền được trình bày trong bảng 5.4. Điều đó có nghĩa là, với mỗi bài đăng luận án thực hiện gán nhãn hai lần: (1) sử dụng bộ nhãn riêng của miền quan tâm mà bài đăng đó thuộc vào; (2) sử dụng bộ nhãn tổng quát gồm 10 nhãn không phụ thuộc miền. Bảng 5.6 giới thiệu một ví dụ về bài đăng thuộc miền Du lịch sau khi được gán lần lượt 2 bộ nhãn.
Cuối cùng, luận án tiến hành thực nghiệm với tất cả các bộ nhãn dựa theo thiết kế được trình bày ở bên dưới. Luận án dùng 60% dữ liệu để huấn luyện mô hình, 20% dữ liệu để hiệu chỉnh các siêu tham số (hyper-paramters) và 20% phần dữ liệu còn lại để đánh giá độ chính xác của mô hình.
Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 136
Bảng 5.6: Gán nhãn dữ liệu lần lượt với bộ nhãn riêng và bộ nhãn không phụ thuộc miền
Bài đăng thuộc miền Du lịch
Nhà tớ đi Đà Nẵng ngày 14/6 đến 18/6, nhà có 5 người lớn và 1 trẻ em (1 tuổi), các bác thông thái tư vấn cho tớ chọn khách sạn và đi thăm quan những đâu là hợp lý nhất mà trọn gói chỉ tầm 20 triệu thôi ạ, thanks. sđt 0913 456 233
Gán nhãn theo bộ nhãn riêng của miền Du lịch
Nhà tớ đi
Gán nhãn theo bộ nhãn không phụ thuộc miền
Nhà tớ đi
5.3.5 Thiết kế thực nghiệm
Với mỗi thiết kế thực nghiệm dưới đây, Luận án lần lượt tiến hành thực nghiệm với cả ba mô hình đã được trình bày ở phía trên, đó là CRFs, Bi- LSTM, và Bi-LSTM-CRFs:
— Đối với mỗi miền quan tâm (Bất động sản, Du lịch, Xe cộ ), luận án thực hiện trích xuất ý định với cả bộ nhãn riêng và bộ nhãn không phụ thuộc miền. Cụ thể, đối với miền Bất động sản, luận án sẽ thực hiện lần lượt 2 thực nghiệm: (1) xây dựng mô hình trích chọn ý định với bộ nhãn riêng; (2) xây dựng mô hình trích chọn ý định với bộ nhãn không phụ thuộc miền. Với cả 2 thực nghiệm này, luận án đều sử dụng 60% dữ liệu đã gán nhãn của miền Bất động sản (khoảng 1.800 bài đăng) để huấn luyện mô hình, 20% dữ liệu (khoảng 600 bài đăng) để hiệu chỉnh tham số và 20% còn lại (khoảng 600 bài đăng) để kiểm chứng mô hình.
Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 137
Các thực nghiệm tương tự cũng lần lượt được thực hiện với hai miền Du lịch và Xe cộ.
— Đối với mỗi tổ hợp 2 trong số 3 miền quan tâm (Du lịch vs. Bất động sản, Du lịch vs. Xe cộ, Bất động sản vs. Xe cộ ), luận án thực hiện trích xuất ý định với cả bộ nhãn riêng và bộ nhãn không phụ thuộc miền. Cụ thể, với tổ hợp 2 miền quan tâm Du lịch vs. Bất động sản, luận án sẽ thực hiện lần lượt 2 thực nghiệm: (1) xây dựng mô hình trích chọn ý định với bộ nhãn riêng; (2) xây dựng mô hình trích chọn ý định với bộ nhãn không phụ thuộc miền. Với cả 2 thực nghiệm này, luận án đều sử dụng 60% dữ liệu đã gán nhãn của tổ hợp dữ liệu thuộc 2 miền quan tâm Du lịch vs. Bất động sản (khoảng 3.600 bài đăng) để huấn luyện mô hình, 20% dữ liệu (khoảng 1.200 bài đăng) để hiệu chỉnh tham số và 20% còn lại (khoảng 1.200 bài đăng) để kiểm chứng mô hình. Các thực nghiệm tương tự cũng lần lượt được thực hiện với hai tổ hợp miền quan tâm còn lại
• Mục tiêu của các thực nghiệm: Việc thực nghiệm với cả bộ nhãn riêng và bộ nhãn không phụ thuộc miền trên từng miền quan tâm giúp luận án phân tích, so sánh và đưa ra kết luận xem nên sử dụng bộ nhãn nào khi cần trích xuất ý định trên mỗi miền quan tâm riêng biệt, điều này sẽ được trình bày cụ thể trong phần 5.3.6.1. Còn việc thực nghiệm cả hai bộ nhãn này trên lần lượt các tổ hợp 2 miền quan tâm, tổ hợp 3 miền quan tâm để giúp kiểm chứng giả thuyết mà luận án đưa ra, đó là: “khi số lượng miền quan tâm của ý định tăng thì việc sử dụng bộ nhãn không phụ thuộc miền sẽ hiệu quả hơn bộ nhãn riêng”, điều này sẽ được trình bày rõ hơn trong phần 5.3.6.2.
— Đối với tổ hợp cả 3 miền quan tâm của ý định Bất động sản, Du lịch và Xe cộ, luận án cũng thực hiện lần lượt 2 thực nghiệm: (1) xây dựng mô hình trích chọn ý định với bộ nhãn riêng; (2) xây dựng mô hình trích chọn ý định với bộ nhãn không phụ thuộc miền. Trong đó, luận án dùng 60% dữ liệu đã gán nhãn thuộc tổ hợp cả 3 miền quan tâm trên (khoảng 5.400 bài đăng) để huấn luyện mô hình, 20% dữ liệu (khoảng 1.800 bài đăng) để hiệu chỉnh tham số và 20% còn lại (khoảng 1.800 bài đăng) để kiểm chứng mô hình.
Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 138
Bảng 5.7: Kết quả F1 trung bình đối với mỗi miền quan tâm cụ thể khi sử dụng bộ nhãn riêng và bộ nhãn không phụ thuộc miền tương ứng
Bộ nhãn chung Du lịch Xe cộ Bất động sản
CRFs 80,08 79,69 71,24
Bi-LSTM 81,71 77,43 72,51
Bi-LSTM-CRFs 83,33 79,75 74,21
Bộ nhãn riêng Du lịch Xe cộ Bất động sản
CRFs 79,34 79,78 71,29
Bi-LSTM 80,89 78,00 71,70
Bi-LSTM-CRFs 82,01 79,76 74,85
5.3.6 Kết quả thực nghiệm
Trong phần này, luận án sẽ trình bày một số kết quả thực nghiệm thú vị
nhất cùng với những thảo luận về các kết quả đó.
5.3.6.1 Kết quả thực nghiệm trên mỗi miền quan tâm cụ thể
Như trình bày trong phần thiết kế thực nghiệm ở trên, luận án tiến hành thực nghiệm trên mỗi miền quan tâm cụ thể: Bất động sản, Du lịch và Xe cộ đối với cả bộ nhãn riêng và bộ nhãn không phụ thuộc miền. Bảng 5.7 giới thiệu các kết quả tổng quan thể hiện qua độ đo F1 thu được khi sử dụng lần lượt các phương pháp CRFs, Bi-LSTM, and Bi-LSTM-CRFs.
Kết quả F1 cao nhất mà luận án nhận được khi thực nghiệm trên mỗi miền quan tâm thuộc về miền Du lịch, đó là 83,33% đối với bộ nhãn không phụ thuộc miền và 82,01% đối với bộ nhãn riêng. Một lý do cho kết quả này là vì số nhãn (thuộc tính) cần trích xuất ở miền Du lịch ít nhất trong số 3 miền, gồm 15 nhãn, trong khi đó số nhãn của miền Bất động sản và Xe cộ lần lượt là 18 và 17. Hơn nữa, sau khi xem xét và phân tích dữ liệu từ cả 3 miền ý định, luận án nhận thấy miền Du lịch chứa ít dữ liệu mang nhiễu hơn 2 miền còn lại, cụ thể là ít từ viết tắt hơn, ít tiếng lóng hơn, và ít biểu tượng cảm xúc hơn.
Bảng 5.8: Kết quả tốt nhất khi trích xuất từng nhãn trên miền Du lịch với bộ nhãn không phụ thuộc miền
Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 139
Bộ nhãn chung Precision Recall F1-score Support
intent brand contact context description location number of Objects object other price avg/total 91,43 50,00 95,16 72,06 83,72 91,98 95,77 85,04 82,03 69,94 86,38 83,96 14,29 92,45 57,65 85,00 79,45 83,95 75,52 76,88 69,51 80,71 87,54 22,22 93,78 64,05 84,36 85,26 89,47 80,00 79,37 69,72 83,33 661 14 106 85 1.107 837 81 143 493 164 3.691
Bảng 5.7 cũng cho thấy rằng mặc dù luận án không dùng thêm bất kỳ đặc trưng bổ trợ nào nhưng trong mọi thực nghiệm mô hình Bi-LSTM-CRFs luôn đạt kết quả tốt hơn hai mô hình còn lại, CRFs và Bi-LSTM. Điều đó chứng tỏ rằng mô hình Bi-LSTM-CRFs là mô hình thích hợp nhất để giải quyết bài toán của luận án. Để chi tiết hơn, luận án sẽ trình bày kết quả tốt nhất khi áp dụng mô hình Bi-LSTM-CRFs trích xuất ý định người dùng đối với dữ liệu thuộc miền Du lịch sử dụng tập nhãn không phụ thuộc miền trong bảng 5.8. Tương tự, bảng 5.9 thể hiện kết quả tốt nhất khi áp dụng mô hình Bi-LSTM-CRFs đối với dữ liệu thuộc miền Du lịch sử dụng tập nhãn riêng.
Từ kết quả thực nghiệm có thể thấy, khi thực nghiệm trên từng miền quan tâm riêng biệt thì kết quả trích xuất ý định của bộ nhãn riêng và bộ nhãn không phụ thuộc miền không có sự khác biệt nhiều về độ chính xác, như đã trình bày trong bảng 5.7. Hơn nữa, bộ nhãn riêng lại giúp trích xuất được nhiều thông tin chi tiết hơn về ý định của người dùng. Vì vậy, luận án đi đến kết luận thứ nhất là: “khi trích xuất ý định người dùng trên mỗi một miền quan tâm cụ thể thì sử dụng bộ nhãn riêng sẽ tốt hơn”.
Vì vậy, trong phần này, luận án cũng giới thiệu thêm kết quả thực nghiệm tốt nhất khi sử dụng bộ nhãn riêng để trích xuất ý định người dùng trên hai miền quan tâm còn lại, đó là Bất động sản và Xe cộ, trong bảng 5.10.
Có thể thấy rằng hầu hết các nhãn có số lượng lớn và giá trị của chúng
Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 140
Bảng 5.9: Kết quả tốt nhất khi trích xuất từng nhãn trên miền Du lịch với bộ nhãn riêng
Precision Recall F1-score Support
Bộ nhãn riêng của miền Du lịch
intent 86,65 86,38 86,52 661
brand 0,00 0,00 0,00 14
contact 89,91 92,45 91,16 106
context 64,71 51,76 57,52 85
description of Object 39,47 40,91 40,18 110
destination 86,46 85,32 85,89 756
name of accommodation 51,09 54,65 52,81 86
number of objects 93,33 86,42 89,74 81
number of people 89,23 82,39 85,67 352
object 81,48 76,92 79,14 143
point of departure 72,84 72,84 72,84 81
point of time 86,04 89,29 87,64 794
price 74,12 76,83 75,45 164
time period 84,88 85,71 85,29 203
transport 56,14 58,18 57,12 55
avg/total 82,29 81,82 82,01 3.691
có dạng dễ nhận diện, ví dụ như ý định (intent), giá cả (price), liên hệ (contact),..., thường được trích xuất với độ chính xác cao hơn các nhãn còn lại. Tuy nhiên, một số nhãn tuy có số lượng lớn, chẳng hạn như địa điểm (location), mô tả chung (description), trang thiết bị (equipment) nhưng vẫn có kết quả trích xuất không thực sự tốt. Điều này có thể giải thích vì giá trị của những loại nhãn này thường có dạng phức tạp và rất đa dạng.
5.3.6.2 Lựa chọn bộ nhãn khi thêm miền quan tâm mới
Trong phần này luận án giới thiệu kết quả thực nghiệm cũng như các thảo luận để so sánh việc sử dụng bộ nhãn không phụ thuộc miền với bộ nhãn riêng khi việc trích xuất ý định người dùng được mở rộng ở nhiều miền quan tâm khác nhau. Biểu đồ hình 5.3 thể hiện kết quả F1 trung bình khi áp dụng lần lượt các mô hình CRFs, Bi-LSTM, Bi-LSTM-CRFs trích xuất ý định trên
Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 141
Bảng 5.10: Kết quả tốt nhất khi trích xuất từng nhãn trên miền Xe cộ và Bất động sản với bộ nhãn riêng
F1-score Support
Bộ nhãn riêng của miền Xe cộ F1-score Support Bộ nhãn riêng của miền Bất động sản
intent 90,03 661 intent 93,37 569
brand 87,26 192 brand 25,00 10
contact 94,63 458 contact 93,23 402
context 52,75 57 context 40,32 51
color 63,27 109 60,91 96 facade direction
60,78 239 acreage 83,56 575
description of object
license plate 71,90 124 50,00 131
description of object
location 78,76 403 location 56,83 1.052
model 74,23 663 93,33 70
number of bathroom
53,61 54 51,28 39 number of objects number of objects
object 76,13 426 object 76,80 553
origin 81,55 111 number of floor 72,22 139
owner 84,09 135 facade size 57,68 137
price 88,16 501 price 92,44 452
registration 71,58 106 equipment 58,17 85
86,90 90 88,21 104
registration year number of bedroom
state 53,88 148 41,18 32 number of facade
owner 60,10 182
74,85 4.679 avg/total 79,78 4.477 avg/total
Hình 5.3: Kết quả F1 trung bình khi áp dụng các mô hình CRFs, Bi-LSTM, Bi-LSTM-CRFs lần lượt trên 1, 2 và 3 miền quan tâm với bộ nhãn chung (General) và bộ nhãn riêng (Specific) tương ứng.
Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 142
1 miền quan tâm sử dụng bộ nhãn không phụ thuộc miền và bộ nhãn riêng, đồng thời cũng trình bày kết quả tương ứng khi tác giả tăng số miền quan tâm lên 2 miền và 3 miền. Có thể nhận thấy rằng việc sử dụng bộ nhãn không phụ thuộc miền hầu hết đạt độ chính xác cao hơn việc sử dụng bộ nhãn riêng trong mọi thực nghiệm. Đặc biệt khi số miền quan tâm tăng lên thì việc sử dụng bộ nhãn không phụ thuộc miền đạt kết quả tốt hơn rõ rệt. Vì vậy luận án có thể đi đến kết luận rằng việc sử dụng bộ nhãn không phụ thuộc miền tốt hơn bộ nhãn riêng khi cần xác định ý định người dùng trên tập dữ liệu được kết hợp từ nhiều miền quan tâm khác nhau. Và theo như tác giả đã đề cập ở trên, một lý do nữa để sử dụng bộ nhãn không phụ thuộc miền đó là tránh được việc phải xây dựng lại một bộ nhãn mới khi có một miền quan tâm mới xuất hiện.
5.3.6.3 Kết quả thực nghiệm trên cả ba miền quan tâm
Cuối cùng luận án trình bày kết quả thực nghiệm trên tổ hợp dữ liệu của cả 3 miền quan tâm. Hình 5.4 trình bày kết quả khi áp dụng lần lượt 3 mô hình CRFs, Bi-LSTM và Bi-LSTM-CRFs để xác định ý định người dùng trên cả 3 miền Bất động sản, Du lịch và Xe cộ. Với mỗi mô hình luận án tiến hành thực nghiệm trên cả bộ nhãn không phụ thuộc miền và bộ nhãn riêng.
Hình 5.4: Kết quả trung bình F1 trên tổ hợp 3 miền quan tâm khi áp dụng lần lượt 3 mô hình Bi-LSTM-CRFs, Bi-LSTM, CRFs
Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 143
Ở trường hợp này, mô hình Bi-LSTM-CRFs vẫn đạt kết quả trung bình F1 cao hơn hai mô hình còn lại. Đặc biệt, các thực nghiệm sử dụng bộ nhãn không phụ thuộc miền luôn đạt độ chính xác trung bình cao hơn khi sử dụng bộ nhãn riêng.
Bảng 5.11 và bảng 5.12 lần lượt thể hiện kết quả tốt nhất khi trích xuất các thuộc tính sử dụng bộ nhãn gồm tổ hợp 32 nhãn riêng và bộ nhãn không phụ thuộc miền gồm 10 nhãn đối với cả 3 miền ý định. Những kết quả này nhận được khi luận án sử dụng phương pháp Bi-LSTM-CRFs cho mô hình trích xuất ý định. Có thể thấy độ chính xác đối với hầu hết các nhãn đều khá ổn định khi sử dụng bộ nhãn không phụ thuộc miền. Hầu hết các nhãn không phụ thuộc miền đều có độ chính xác trên 70%, trừ nhãn ngữ cảnh (context). Điều này có thể được giải thích vì số lượng nhãn ngữ cảnh ít hơn so với các nhãn khác, hơn nữa giá trị của nhãn này cũng khá đa dạng và phức tạp, như có thể thấy trong mô tả ở các bảng 5.2, 5.1 và 5.3. Đặc biệt, khi sử dụng bộ nhãn không phụ thuộc miền, các thông tin cần thiết nhất để xác định ý định người dùng như ý định (intent) và đối tượng của ý định (object) luôn được trích xuất với độ chính xác F1 cao hơn so với khi sử dụng bộ nhãn riêng. Cụ thể, nhãn ý định trong bộ nhãn không phụ thuộc miền có độ chính xác F1 cao hơn nhãn ý định trong bộ nhãn riêng là 0,5%, tương tự nhãn đối tượng cao hơn 1,2% mặc dù số lượng ví dụ huấn luyện và kiểm thử là như nhau. Ngoài
Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 144
ra một số nhãn chung khác giữa 2 bộ nhãn cũng có kết quả cao hơn như: nhãn liên hệ (contact) cao hơn 0,4%, nhãn giá cả (price) cao hơn gần 2%, nhãn thương hiệu (brand) cao hơn 1,1%. Tuy nhiên chỉ có nhãn số lượng của đối tượng (number of object) trong bộ nhãn không phụ thuộc miền lại có độ chính xác F1 thấp hơn so với chính nhãn đó trong bộ nhãn riêng 3,2%. Điều này có thể lý giải vì một số nhãn có ví dụ dữ liệu khá giống với nhãn số lượng của đối tượng, chẳng hạn như số lượng phòng tắm (number of bathrooms), số lượng phòng ngủ (number of bedrooms), số lượng tầng (number of floors),... đã được gán chung thành nhãn mô tả (description) trong tập nhãn không phụ thuộc miền. Vì vậy khả năng ví dụ dữ liệu của nhãn số lượng của đối tượng bị đoán nhận nhầm sang nhãn mô tả là rất cao. Mặc dù vậy, nhìn vào phân tích trên, bộ nhãn không phụ thuộc miền vẫn cho thấy kết quả tốt hơn bộ nhãn riêng trong trường hợp dữ liệu thuộc nhiều miền quan tâm của ý định.
Vậy cuối cùng luận án có thể khẳng định lại rằng mô hình Bi-LSTM-CRFs và bộ nhãn không phụ thuộc miền hoàn toàn thích hợp giải quyết bài toán xác định ý định người dùng khi xét trên ngữ cảnh dữ liệu là tổ hợp của nhiều miền quan tâm khác nhau.
5.3.7 Mô phỏng mô hình trích xuất ý định đa miền quan
tâm
Để mô phỏng mô hình trích xuất ý định đa miền quan tâm, luận án xây dựng một website ở địa chỉ www.ydinhviet.tk. Giao diện của mô hình được giới thiệu trong hình 5.5. Ở đó, cửa sổ “Sentence” là nơi để người dùng viết bài đăng cần trích xuất ý định, còn cửa sổ “Sample Sentence” thể hiện một số ví dụ về bài đăng mang ý định người dùng. Sau khi nhập bài đăng và nhấn nút “Submit”, kết quả của quá trình trích chọn ý định được thể hiện ở cửa sổ “Named Entities”. Trong đó, mỗi thẻ màu thể hiện một thông tin khác nhau về ý định của người dùng tương ứng với bộ nhãn không phụ thuộc miền mà luận án đề xuất. Có thể thấy, với bài đăng thuộc miền Bất động sản: “Tôi đang cần thuê nhà tầm 70 m2 tại khu Văn Phú, giá khoảng 5 triệu/tháng lh nganhn2004@gmail.com”, mô hình xác định chính xác hoàn toàn các thông tin ý định, còn bài đăng thuộc miền Đồ điện tử : “mình cần mua iphone4 giá 5tr ở HN” chỉ bị trích xuất nhầm một thông tin, đó là “iphone4”. Điều này là
Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 145
Bộ nhãn riêng (32)
Precision Recall F1-score Support
intent
90,94
89,69
90,31
1.891
object
75,80
79,86
77,78
1.122
acreage
83,64
80,00
81,78
575
brand
74,66
76,39
75,51
216
color
81,00
74,31
77,51
109
contact
94,14
94,72
94,43
966
context
58,22
44,04
50,15
193
description
67,13
40,00
50,13
480
destination
83,70
84,92
84,31
756
equipment
77,97
54,12
63,89
85
facade direction
58,82
62,50
60,61
96
facade size
61,11
56,20
58,56
137
license plate
75,00
75,00
75,00
124
location
61,82
62,54
62,18
1.455
model
71,30
74,21
72,73
663
name of accommodation
45,95
59,30
51,78
68
number of bathrooms
95,45
90,00
92,65
70
number of bedrooms
92,08
89,42
90,73
104
number of facades
50,00
50,00
50,00
32
number of floors
69,23
64,75
66,91
139
number of objects
75,30
71,84
73,53
174
number of people
82,04
86,93
84,41
352
time period
91,01
84,73
87,76
203
price
86,10
83,71
84,88
1.117
origin
76,32
78,38
77,33
111
owner
72,58
68,45
70,45
317
point of departure
72,00
66,67
69,23
81
point of time
86,08
88,04
87,05
794
registration
83,15
69,81
75,90
106
registration year
94,67
78,89
86,06
90
state
60,87
47,30
53,23
148
transport
58,93
60,00
59,46
55
avg/total
79,26
77,57
78,21
12.847
Bảng 5.11: Kết quả tốt nhất khi trích xuất tập 32 nhãn riêng đối với tổ hợp 3 miền quan tâm.
Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 146
Bảng 5.12: Kết quả tốt nhất khi trích xuất tập 10 nhãn không phụ thuộc miền đối với tổ hợp 3 miền quan tâm.
Bộ nhãn chung (10) Precision Recall F1-score Support
intent 90,35 91,06 90,70 1.819
object 80,78 77,18 78,94 1.122
brand 85,96 70,83 77,66 216
contact 94,17 95,34 94,75 966
context 56,05 45,60 50,29 193
description 76,58 70,10 73,20 3.960
location 69,69 71,12 70,40 2.292
number of objects 72,84 67,82 70,24 174
other 75,45 72,82 74,11 916
price 87,38 86,12 86,74 1.117
Hình 5.5: Giao diện mô hình trích xuất ý định người dùng
avg/total 79,72 77,08 78,33 12.847
do dữ liệu dùng để huấn luyện mô hình có chứa dữ liệu miền Bất động sản, còn không chứa dữ liệu miền Đồ điện tử.
5.4 Kết luận chương
Trong chương này, luận án đã đề xuất một phương pháp trích chọn ý định người dùng không phụ thuộc vào miền quan tâm. Để thực hiện mục tiêu này, luận án khảo sát dữ liệu ở một số miền quan tâm có nhiều tương tác trên
Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 147
các phương tiện truyền thông xã hội Việt Nam, từ đó đề xuất bộ nhãn chung (không phụ thuộc miền) để trích xuất nội dung thông tin ý định, bộ nhãn này sau đó cũng được kiểm nghiệm trên những miền quan tâm khác của ý định người dùng và cũng cho kết quả phù hợp. Các thực nghiệm cho thấy phương pháp đa miền quan tâm thực sự hiệu quả khi cần xác định ý định người dùng trong trường hợp xuất hiện thêm những miền quan tâm mới. Trong chương này, luận án cũng giới thiệu phần mềm được xây dựng để mô phỏng cho mô hình xác định ý định đa miền quan tâm mà luận án đề xuất.
Kết luận
Như đã đề cập xuyên suốt trong luận án, phân tích và xác định ý định từ văn bản là bài toán khó trong lĩnh vực khai phá văn bản và xử lý ngôn ngữ tự nhiên. Đã có những nghiên cứu tiếp cận bài toán này ở các góc độ khác nhau và phạm vi khác nhau. Luận án này đã trình bày những đề xuất về việc mô hình hoá và giải quyết các vấn đề xoay quanh bài toán phát hiện và phân tích, xác định nội dung ý định từ văn bản truyền thông xã hội trực tuyến tiếng Việt. Tựu trung lại, luận án đạt được những kết quả và đóng góp chính như sau:
Thứ nhất, luận án đề xuất một định nghĩa về ý định rõ hướng miền quan tâm phù hợp cho văn bản truyền thông xã hội trực tuyến, đồng thời đề xuất tiến trình ba pha gồm ba bài toán nhằm phân tích và xác định thông tin ý định [LTLe1].
Thứ hai, luận án đề xuất mô hình hóa bài toán một (phát hiện ý định) và bài toán hai (xác định miền quan tâm của ý định) lần lượt thành bài toán phân lớp nhị phân và phân lớp đa lớp. Kết quả thực nghiệm cho thấy, hai phương pháp phân lớp đơn giản nhưng hiệu quả, ME và SVMs, phù hợp với hai bài toán trên. Đặc biệt, việc sử dụng đặc trưng từ điển rất hiệu quả với hai bài toán này. Các nội dung và kết quả nghiên cứu này được trình bày trong các công trình [LTLe1], [LTLe2]. Ngoài ra luận án cũng thử nghiệm phương pháp học sâu CNN với 2 bài toán này, các kết quả nghiên cứu đã được trình bày trong công trình [LTLe6].
Thứ ba, luận án đề xuất mô hình hóa bài toán ba (trích chọn thông tin của ý định) dưới dạng trích chọn thông tin trên dữ liệu chuỗi. Các mô hình học máy thống kê cho dữ liệu chuỗi như CRFs, mô hình học sâu Bi-LSTM-CRFs được đề xuất để giải quyết bài toán này. Luận án cũng đề xuất tập nhãn đặc trưng tương ứng những nội dung ý định cần trích xuất trên từng miền dữ
148
Kết luận 149
liệu. Các nội dung và kết quả này được trình bày trong công trình [LTLe3]. Hơn nữa, luận án đề xuất một phương pháp hiệu quả để nâng cao độ chính xác của bài toán trích chọn thông tin ý định dựa trên mô hình học kết hợp (ensemble learning) các mô hình học sâu. Nội dung và kết quả nghiên cứu này được trình bày trong công trình [LTLe4].
Thứ tư, luận án đề xuất tiếp cận việc phân tích và xác định ý định đa miền quan tâm dựa trên ý tưởng xây dựng tập nhãn chung cho các miền dữ liệu. Luận án đã tiến hành phân tích thực nghiệm, so sánh, đánh giá hiệu quả của hai cách tiếp cận phụ thuộc miền và không phụ thuộc miền cũng như thảo luận về ưu nhược điểm của mỗi cách tiếp cận. Nội dung và kết quả này được trình bày trong công trình [LTLe5].
Bên cạnh đó, luận án cũng cung cấp một khảo sát tổng quan về hướng nghiên cứu phân tích và xác định ý định từ văn bản. Có thể nói các đóng góp của luận án có ý nghĩa trong việc bổ sung và hoàn thiện các kết quả nghiên cứu về phân tích ý định trên thế giới và đặc biệt là cho tiếng Việt. Các kết quả của luận án đã công bố trong các công trình khoa học được đăng tải trên các tạp chí, hội nghị chuyên ngành trong nước và quốc tế có phản biện.
Mặc dù luận án đã đạt được một số kết quả nghiên cứu tích cực, nhưng vẫn còn tồn tại những hạn chế chưa giải quyết được như: (i) luận án mới chỉ sử dụng hai loại đặc trưng với bài toán phân lớp ở pha thứ nhất và pha thứ hai trong khi có rất nhiều loại đặc trưng hiệu quả khác chưa được khai thác; (ii) luận án chưa xử lý được trường hợp bài đăng mang ý định nhập nhằng; (iii) chưa giải quyết được vấn đề một bài đăng mang nhiều ý định rõ cùng một lúc; (iv) luận án cần giải quyết triệt để hơn vấn đề thích nghi miền trong phân tích ý định , cụ thể như nghiên cứu về vấn đề học chuyển đổi giữa các miền quan tâm; (v) bộ dữ liệu còn khiêm tốn đối với thực nghiệm theo phương pháp học sâu. Trong tương lai gần, NCS sẽ tiếp tục tập trung giải quyết các vấn đề vừa nêu.
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC
1. [LTLe1] Thai-Le Luong, Thi-Hanh Tran, Quoc-Tuan Truong, Thi- Minh-Ngoc Truong, Thi-Thu Phi and Xuan-Hieu Phan; Learning to Filter User Explicit Intents in Online Vietnamese Social Media Texts. The Eighth Asian Conference on Intelligent Information and Database Systems (ACIIDS), pp.13-24, Springer, 2016. [SCOPUS, DBLP]
2. [LTLe2] Thai-Le Luong, Quoc-Tuan Truong, Hai-Trieu Dang and Xuan- Hieu Phan; Domain Identification for Intention Posts on Online Social Media. In Proceedings of the Seventh Symposium on Information and Communication Technology (SoICT), pp. 52-57, ACM, 2016. [SCO- PUS, DBLP]
3. [LTLe3] Thai-Le Luong, Minh-Son Cao, Duc-Thang Le and Xuan- Hieu Phan; Intent Extraction from Social Media Texts Using Sequential Segmentation and Deep Learning Models. In Proceedings of the 9th In- ternational Conference on Knowledge and Systems Engineering (KSE), pp. 215-220, Springer LNCS, IEEE, 2017. [SCOPUS, DBLP]
4. [LTLe4] Thai-Le Luong, Nhu-Thuat Tran and Xuan-Hieu Phan; Im- proving Intent Extraction Using Ensemble Neural Network. In Procee- dings of the 19th International Symposium on Communications and Information Technologies (ISCIT), pp. 58-63, IEEE, 2019. [SCOPUS, DBLP]
5. [LTLe5] Thai-Le Luong, Nhu-Thuat Tran, Tien-Son Dang, Quoc-Long Tran and Xuan-Hieu Phan; Domain-independent Intent Extraction from Online Texts. Computacion y Systemas, Vol. 24, No. 1, pp.331-347, 2020. [SCOPUS,DBLP]
6. [LTLe6] Luong Thai Le; Intent domain identification using deep lear- ning model. The 2020 International Conference on Applications of Ar- tificial Intelligence in Transportation, pp. 246-254, 2020.
150
TÀI LIỆU THAM KHẢO
[1] M. Araki, Y. Kimura, T. Nishimoto and Y. Niimi, Development of a ma- chine learnable discourse tagging tool. In Proceedings of the Second SIG- dial Workshop on Discourse and Dialogue-Volume 16, pp.1–6. Association for Computational Linguistics, 2001.
[2] A. Ashkan, C.L. Clarke, E. Agichtein and Q. Guo, Classifying and cha- racterizing query intent. In: The 31th ECIR, pp.578–586, 2008.
[3] A. Ashkan and C. L. Clarke, Term-based commercial intent analysis. In Proceedings of the 32nd international ACM SIGIR conference on Research and development in information retrieval, pp.800–801. ACM, 2009.
[4] R. Baeza-Yates, L. Calderón-Benavides and C. González-Caro, The inten- tion behind web queries. In International Symposium on String Processing and Information Retrieval, pp. 98–109, Springer, Berlin, Heidelberg, 2006.
[5] R. Baeza-Yates, Semantic query understanding. In Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 1357–1357). ACM, 2017.
[6] A. Basu, C. Watters and M. Shepherd, Support vector machines for text catego-rization. In International Conference on System Sciences, Washing- ton, DC, USA, IEEE Computer Society, 2003.
[7] L.C. Benavides, C.G. Caro and R.B. Yates, Towards a Deeper Understan- ding of the User’s Query Intent. In The SIGIR Proceeding, 2010.
[8] A. Berger, S.A.D Pietra, V.J.D. Pietra, A maximum entropy approach to natural language processing. Computational Linguistics, 22(1):39–71, 1996.
[9] A. Bhargava, A. Celikyilmaz, D. Hakkani-Tur and R. Sarikaya, Easy contextual intent prediction and slot detection. In Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on, pp. 8337–8341. IEEE,2013.
[10] B. Liu, Sentiment Analysis: mining sentiments, opinions, and emotions. Textbook, 2015.
[11] P. Bojanowski, E. Grave, A. Joulin, and T. Mikolov, Enriching word vectors with subword information, arXiv:1607.04606, 2016.
151
Tài liệu tham khảo 152
[12] A. Broder, A taxonomy of web search. ACM Sigir forum. Vol. 36. No. 2. ACM, 2002.
[13] M. Bratman, Intention, plans, and practical reason. Harvard University Press, 1987.
[14] C.G. Caro, Supervised Identification of the User Intent of Web Search Queries. The PhD Dissertation, Pompeu Farbra University, Spain, 2011.
[15] R. Caruana, A. Niculescu-Mizil, G. Crew and A. Ksikes, Ensemble se- lection from libraries of models, In Proc. of the 21st ICML, pp.18, 2004.
[16] M. Castellanos, et al. Intention insider: discovering people’s intentions in the social channel, Proceedings of the 15th International Conference on Extending Database Technology. ACM, 2012.
[17] M.G. Castellanos, R. Ghosh, M.E Dekhil, U. Dayal, and M.Hsu, Cap- turing intentions within online text. U.S. Patent No. 9,411,860. 9 Aug. 2016.
[18] Y.S. Chang, K.Y. He, S. Yu and W.H. Lu, Identifying user goals from Web search results. In Web Intelligence, IEEE/WIC/ACM International Conference on, pp.1038–1041. IEEE, 2006.
[19] L. Chen, Understanding and exploiting user intent in community ques- tion answering. PhD Dissertation, Birkbeck University of London, 2014.
[20] Z. Chen, F. Lin, H. Liu, Y. Liu, W.Y. Ma, L. Wenyin, User intention modeling in web applications using data mining. Journal of WWW, 5(3), pp. 181–191, 2002.
[21] Z. Chen, B. Liu, M. Hsu, M. Castellanos, and R. Ghosh, Identifying intention posts in discussion forums, HLT-NAACL, 2013.
[22] R. Collobert, J. Weston, L. Bottou, M. Karlen, K. Kavukcuoglu and P. Kuksa, Natural language processing (almost) from scratch, JMLR, Vol12, pp.2493–2537, 2011.
[23] C. Cui, W. Mao, X. Zheng, and D. Zeng, (2017, June). Mining User In- tents in Online Interactions: Applying to Discussions About Medical Event on SinaWeibo Platform. In International Conference on Smart Health, pp. 177–183, Springer, 2017.
[24] H. Dai, Z. Nie, L. Wang, J.R Wen, L. Zhao, Y. Li, Detecting online commercial intention. In: The WWW, 2006.
[25] K. Diederik and B. Jimmy, Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014.
[26] X. Ding, T. Liu, J. Duan, and J.Y. Nie, Mining user consumption inten- tion from social media using domain adaptive convolutional neural net- work. In Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence, pp.2389–2395, 2015.
Tài liệu tham khảo 153
[27] R. Glater, R. L. Santos and N. Ziviani, Intent-aware semantic query annotation. In Proceedings of the 40th International ACM SIGIR Confe- rence on Research and Development in Information Retrieval, pp.485-494, ACM, 2017.
[28] C. Gonzalez-Caro. Supervised identification of the user intent of web search queries. Ph.D thesis in Computer Science, Univ. Pompeu Fabra, Barcelona, Spain, 2011.
[29] C. Gonzalez-Caro and R. Baeza-Yates, A multi-faceted approach to query intent classification. In International Symposium on String Processing and Information Retrieval, pp.368–379. Springer, Berlin, Heidelberg, 2011.
[30] I. Goodfellow, Y. Bengio and A. Courville, Deep Learning. MIT Press, 2016.
[31] A. Graves and S. J¨urgen. Framewise phoneme classification with bidirec- tional LSTM networks. In Proc. of IJCNN’05, Vol. 4. IEEE, 2005.
[32] A. Graves, Supervised Sequence Labelling with Recurrent Neural Net- works. Studies in Computational Intelligence. Springer, 2012.
[33] A. Graves and N. Jaitly, Towards end-to-end speech recognition with re- current neural networks. In ICML, 2014.
[34] Q. Guo, E. Agichtein, C.L. Clarke, and A. Ashkan, Understanding “aban- doned” ads: towards personalized commercial intent inference via mouse movement analysis. Information Retrieval in Advertising, 2008.
[35] V. Gupta, D. Varshney, H. Jhamtani, D. Kedia and S. Karw, Identifying purchase intent from social posts. In Proc. of ICWSM, 2014.
[36] M. Hamroun, M.S. Gouider, and L.B. Said, Customer intentions analysis of twitter based on semantic patterns. The 11th International Conference on Semantics, Knowledge and Grids, 2015.
[37] H.B. Hashemi, A. A.siaee and R. Kraft, Query intent detection using convolutional neural networks, In Proc. of WSDM QRUMS Workshop, 2016.
[38] G.E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever and R.R. Sa- lakhutdinov, Improving neural networks by preventing co–adaptation of feature detectors, arXiv:1207.0580, 2012.
[39] S. Hochreiter, and S. Jrgen, Long short-term memory, Neural computa- tion pp.1735–1780, 1997.
[40] B. Hollerit, M. Kroll and M. Strohmaier, Towards linking buyers and sellers: detecting commercial intent on twitter, In Proc. of WWW, 2013.
Tài liệu tham khảo 154
[41] D.H. Hu, Q. Yang and Y. Li,An algorithm for analyzing personalized on- line commercial intention. In Proceedings of the 2nd International Work- shop on Data Mining and Audience Intelligence for Advertising, pp.27–36, ACM, 2008.
[42] D.H. Hu, D. Shen, J.T. Sun, Q. Yang and Z. Chen, Context–aware online commercial intention detection. In: The ACML Proceeding, 2009.
[43] J. Hu, G. Wang, F. Lochovsky, J.T. Sun and Z. Chen, Undertanding user’s query intent with wikipedia. In: The WWW Proceeding, 2009.
[44] Z. Huang, X. Wei, and Y. Kai, Bidirectional LSTM-CRF models for sequence tagging, arXiv:1508.01991, 2015.
[45] C.K.C. Jackie and X. Li, Sequence clustering and labeling for unsupervi- sed query intent discovery, In Proc. of WSDM, 2012.
[46] D. Janardhanan and E. Barrett. CPU workload forecasting of machines in data centers using LSTM recurrent neural networks and ARIMA mo- dels. In 2017 12th International Conference for Internet Technology and Secured Transactions (ICITST), pp. 55-60. IEEE, 2017.
[47] B.J. Jansen, A. Spink, and T. Saracevic, Real life, real users, and real needs: A study and analysis of user queries on the Web. Information Pro- cessing and Management, 36(2), pp.207-227, 2000.
[48] B. J. Jansen, D. L. Booth, and A. Spink. Determining the User Intent of Web Search Engine Queries. In:The WWW Proceeding, 2007.
[49] J. Jansen. Understanding sponsored search: Core elements of keyword advertising. Cambridge University Press, 2011.
[50] V. Jethava, C.B Liliana and B.Y. Ricardo, Scalable multi–dimensional user intent identification using tree structured distributions. In: The ACM SIGIR, 2011.
[51] J. Jiang, Information extraction from text. Mining text data. Springer, Boston, MA, pp. 11–41, 2012.
[52] I. Kang and G. Kim, Query type classiflcation for web document retrieval. In Proceedings of ACM SIGIR’03, 2003.
[53] A. Kathuria, B. J. Jansen, C. Hafernik, and A. Spink. Classifying the user intent of web queries using k-means clustering. The Emeral Group Journal. 20(5):563–581, 2010.
[54] G. Khodabandelou. Mining Intentional Process Models. Ph.D Thesis, 2014.
[55] J.K. Kim, G. Tur, A. Celikyilmaz, B. Cao and Y.Y. Wang, Intent detec- tion using semantically enriched word embeddings, In Proc. of SLT Work- shop, IEEE, 2016.
Tài liệu tham khảo 155
[56] Y. Kim, Convolutional neural networks for sentence classification. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 1746–1751, 2014.
[57] H. Kimura, M. Tokuhisa, K. Mera, K. Kai and N. Okada, Comprehension of Intentions and Planning for Response in Dialogue. Technical Report of IEICE, TL98-15, pp.25–32, 1998.
[58] J. Kiseleva, H.T. Lam, M. Pechenizkiy and T. Calders, Predicting current user intent with contextual markov models. In 2013 IEEE 13th Internatio- nal Conference on Data Mining Workshops, pp.391–398. IEEE, 2013.
[59] Z. Kozareva, Q. Li, K. Zhai and W. Guo, Recognizing Salient Entities in Shopping Queries. In Proceedings of the 54th Annual Meeting of the As- sociation for Computational Linguistics, Volume 2: Short Papers, pp.107– 111, 2016.
[60] M. Kroll and M. Strohmaier. Analyzing human intentions in natural language text. In: The K–CAP, 2009.
[61] J. Lafferty, M. Andrew, and P. Fernando. Conditional random fields: probabilistic models for segmenting and labeling sequence data. In Proc. of ICML, 2001.
[62] G. Lample, M. Ballesteros, S. Subramanian, K. Kawakami and C. Dyer, Neural architectures for named entity recognition. arXiv:1603.01360, 2016.
[63] U. Lee, Z. Liu and J. Cho, Automatic identification of user goals in web search. In: The WWW, 2005.
[64] N. Labidi, T. Chaari and R. Bouaziz, An NLP-Based Ontology Popula- tion for Intentional Structure. In International Conference on Intelligent Systems Design and Applications, pp. 900–910. Springer, Cham, 2016.
[65] N. Labidi, T. Chaari and R. Bouaziz, Linguistic Rules for Ontology Po- pulation from Customer Request. In Transactions on Computational Col- lective Intelligence XXX, pp. 72–92. Springer, Cham, 2018.
[66] X. Li, W. Ye-Yi, and A. Alex, Learning query intent from regularized click graphs, in Proc. of SIGIR, 2008.
[67] X. Li, Understanding the semantic structure of noun phrase queries. In: ACL 2010.
[68] W. Ling, T. Luis, L. Marujo, R.F. Astudillo, S. Amir, C. Dyer, A.W. Black, and I. Trancoso, Finding function in form: compositional character models for open vocabulary word representation, arXiv:1508.02096, 2015.
[69] D. Liu and J. Nocedal. On the limited memory BFGS method for large- scale optimization. Mathematical Programming, 45:503–528, 1989.
Tài liệu tham khảo 156
[70] T. Mikolov, K. Chen, G. Corrado, and J. Dean, Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781, 2013.
[71] X.B. Ngo, C.L. Le and M.Ph. Tu, Cross-Domain Intention Detection in Discussion Forums. In Proceedings of the Eighth International Sympo- sium on Information and Communication Technology (SoICT), pp. 173– 180, 2017.
[72] T.H. Nguyen, Deep learning for Information Extraction. Phd Thesis, New York University, 2017.
[73] N. Nguyen and Y. Guo, Comparisons of sequence labeling algorithms and extensions, In Proceedings of the 24th ICML, pp. 681–688, 2007.
[74] H.N Nguyen, Tr.Th Nguyen and Qu.Th Ha, Giáo trình Khai phá dữ liệu.
NXB Đại học Quốc gia Hà nội, 2013.
[75] K. Nigam, J. Lafferty and A. McCallum, Using maximum entropy for text classification. In: IJCAI Workshop on Machine Learn. for Info. Filtering, pp.61–69, 1999.
[76] G.H. Nobari and T.S. Chua, User intent identification from online dis- cussions using a joint aspect-action topic model, In Proc.of AAAI, 2014.
[77] L. Pearl and M. Steyvers, Identifying emotions, intentions, and attitudes in text using a game with a purpose. In Proceedings of the naacl hlt 2010 workshop on computational approaches to analysis and generation of emo- tion in text, pp. 71–79. Association for Computational Linguistics, 2010.
[78] J. Pennington, R. Socher and C. Manning, Glove: Global vectors for word representation. In Proceedings of the EMNLP, pp. 1532–1543, 2014.
[79] N. Peng and M. Dredze, Named entity recognition for chinese social me- dia with jointly trained embeddings. In Proceedings of EMNLP, pp.548– 554, 2015.
[80] X.H. Phan, L.M. Nguyen and C.T. Nguyen, Flexible conditional random fields, http://flexcrfs.sourceforge.net, 2004.
[81] H. Purohit, G. Dong, V. Shalin, K. Thirunarayan and A. Shethet, Intent classification of short-text on social media. IEEE International Conference on. IEEE, 2015.
[82] F. Radlinski, M. Szummer and N. Craswell, Inferring query intent from reformulations and clicks. In Proceedings of the 19th international confe- rence on World wide web, pp. 1171–1172. ACM, 2010.
[83] X. Ren, Y. Wang, X. Yu, J. Yan, Z. Chen and J. Han, Heterogeneous graph-based intent learning with queries, web pages and wikipedia concepts, In Proc. of ICWSDM, 2014.
Tài liệu tham khảo 157
[84] B.Y. Ricardo, C.B. Liliana and G.C. Cristina, The intention behind web queries. In: The 13th Conference on String Processing and Information Retrieval (SPIRE), 2006.
[85] R. Scheer, The ‘Mental State’ Theory of Intentions. Philosophy, null, pp. 121–131, 2004.
[86] D. E. Rose, and D. Levinson, Understanding user goals in web search. In: The WWW Proceeding, 2004.
[87] S. Ruder and B. Plank, Strong baselines for neural semi-supervised lear- ning under domain shift. arXiv preprint arXiv:1804.09530, 2018.
[88] S. Ruder, Neural Transfer Learning for Natural Language Processing. Phd Thesis, National University of Ireland, 2019.
[89] D.E. Rumelhart, G.E. Hinton and R.J. Williams, Learning representa- tions by back-propagating errors. Nature, 323(6088):533, 1986.
[90] C.F. Schmidt, N.S. Sridharan and J.L. Goodson, The plan recognition problem: an intersection of psychology and artificial intelligence. Artif In- tell; 11:45–83, 1978.
[91] Y. Shen, J. Yan, S. Yan, L. Ji, N. Liu and Z. Chen, Sparse hidden– dynamic conditional random fields for user intent understanding. In: The WWW, 2011.
[92] Y. Shang, Studies on User Intent Analysis and Mining, Phd thesis, 2017.
[93] H. J. Song and S. B. Park, Identifying intention posts in discussion fo- rums using multi-instance learning and multiple sources transfer learning. Soft Computing, 22(24), pp. 8107–8118, 2018.
[94] M. Speretta and S. Gauch, Personalizing search based on user search history, 2004.
[95] G. Sukthankar, R.P. Goldman, C. Geib, D.V. Pynadath and H.H. Bui, Plan, Activity, and Intent Recognition Theory and Practice. Elsevier Inc, 2014.
[96] G. Vinodhini and R.M. Chandrasekaran, Sentiment analysis and opinion mining: a survey. International Journal, 2(6):282–292, 2012.
[97] J. Wang, G. Cong, W.X. Zhao and X. Li, Mining user intents in Twitter: a semi-supervised approach to inferring intent categories for tweets. In Proc. of AAAI, 2015.
[98] C.Y. Wu, A. Ahmed, G.R Kumar, and R. Datta, Predicting Latent Struc- tured Intents from Shopping Queries. In Proceedings of the 26th Interna- tional Conference on World Wide Web, pp.1133–1141. International World Wide Web Conferences Steering Committee, 2017.
Tài liệu tham khảo 158
[99] J. Xu, Q. Zhang and X. Huang, Understanding the semantic intent of domain-specific natural language query. In Proc. of IJCNLP, 2013.
[100] K. Yao, G. Zweig and B. Peng, Attention with intention for a neural network conversation model. arXiv preprint arXiv:1510.08565, 2015.
[101] H. Yang and Y. Li, Identifying user needs from social media. IBM Re- search Division, San Jose, 11, 2013.
[102] K. Zhai, Z. Kozareva, Y. Hu, Q. Li and W. Guo, Query to Knowledge: Unsupervised Entity Extraction from Shopping Queries using Adaptor Grammars. In Proceedings of the 39th International ACM SIGIR confe- rence on Research and Development in Information Retrieval, pp.255–264, 2016.
[103] C. Zhang, W. Fan, N. Du and P.S. Yu, Mining user intentions from medical queries: A neural network based heterogeneous jointly modeling approach. In Proceedings of the 25th International Conference on World Wide Web, pp. 1373–1384, 2016.
[104] C. Zhang, N. Du, W. Fan, Y. Li, C.T. Lu, and S.Y. Philip, Bringing semantic structures to user intent detection in online medical queries. In 2017 IEEE International Conference on Big Data (Big Data), pp.1019– 1026. IEEE, 2017.
[105] Z.H. Zhou and M. Li, Tri-training: Exploiting unlabeled data using three classifiers, IEEE Transactions on Knowledge & Data Engineering vol.11, pp.1529–1541, 2005.
PHỤ LỤC
Bảng 5.13: Ví dụ gán nhãn cho miền Bất động sản (BĐS)
Nhãn BĐS Viết tắt Mô tả ví dụ dữ liệu
intent int mua, bán, cho thuê..
acreage acr 100 m2, 30 × 12 m, 100 mét vuông...
brand brd VinGroup, Ciputra, Novaland...
contact ctt
0911856500, 0902.792.752, nguyenvana 79@yahoo.com.vn
context ctx
ra nước ngoài định cư, kẹt tiền, (bán) gấp, ...
description of object obj-des
(đất) thổ cư, (đất) nông nghiệp, (nhà) tái định cư,...)
equipment eqm tủ lạnh, điều hòa, máy giặt,...
facade direction face-dir Đông Nam, Bắc, Đông,...
facade size face-size
(mặt tiền rộng) 4.2m, (mặt tiền đường nhựa) 8m
location loc
(ở) Hà Nội, (tại) Đà Nẵng, ngõ 106 Hoàng Quốc Việt,...
number of bedrooms bed-num 4 (phỏng ngủ), 3 (PN), 1 (p.ngủ),...
number of bathrooms bath-num 3 (wc), 2 (phòng tắm), 2 (toilet)...
number of facades face-num 1 (mặt tiền), 2 (mặt tiền), 3 (mặt tiền)...
number of floors fnum 1 (tầng), 2 (tầng), 3 (tầng),...
number of objects obj-num ba (mảnh đất), 2 (căn hộ),...
object obj nhà, mảnh đất, căn hộ,...
owner own Chính chủ
price prc 8 triệu, 22 triệu, 10 triệu/tháng,
159
Phụ lục 160
Bảng 5.14: Ví dụ gán nhãn cho miền Du lịch
Nhãn Du lịch Viết tắt Mô tả ví dụ dữ liệu
đi du lịch, đặt (phòng),... intent int
Vietnam Airlines, VietTran, FLC... brand brd
contact ctt
0911856500, 0902.792.752, nguyenvana 79@yahoo.com.vn
context ctx
nghỉ tuần trăng mật, đang có bầu, có em nhỏ đi cùng...
obj-des có bể bơi, tầm nhìn hướng ra biển,...
description of object
destination dest (về) Mũi Né, (đi) Nha Trang,...
accom-name Sealink, Sunwah, Ana Mandara,...
name of accommodation
number of Objects obj-num 2 (phòng), 3 (vé),...
number of People ppl-num
2 vợ chồng, 8 người lớn 3 trẻ em, nhóm mình, công ty,...
object obj phòng (khách sạn), vé (máy bay), tour...
dpt point of departure (từ) Hà Nội, (từ) SG,...
point of time time-pnt
ngày 14-3, tháng sau, thứ tư tuần sau, từ 10/5, đến 13/5,...
price prc 50tr/ng, 2 triệu một đêm,...
time period time-prd 3 ngày, 1 tuần, 2 ngày 1 đêm,...
transport trp đường bộ, xe máy, máy bay, tàu hỏa,...
Phụ lục 161
Bảng 5.15: Ví dụ gán nhãn cho miền Xe cộ
Nhãn Xe cộ Viết tắt Mô tả ví dụ dữ liệu
intent int mua, thuê, bán, thanh lý,...
brand brd Yamaha, Honda, Suzuki,...
color clr đỏ đen, trắng, xanh ngọc,...
contact ctt 0167 bốn 361 hai chín chín, 0976.543.167,...
context ctx
cần tiền, không có nhu cầu sử dụng, muốn thay xe...
obj-des bô 2543, số khung,...)
description of object
location loc (tại) Hà Nội, Quảng Ninh, (ở) Sài Gòn
license plate lpe
(biển) tứ quý, (biển) 29E1-40671, 30F1 40646,...
model mdl corola 1.6, wave rsx,...
number of objects obj-num 1 (xe máy), hai (ô tô), một,
object obj xe, xe máy, xe đạp, ô tô, xe ô tô,...
origin orig
Nhật, Thái, Việt Nam, liên doanh, nhập khẩu...
owner own chính chủ, một chủ, cc (chính chủ), 9 chủ
price prc
đ10, 000, 000; 15tr; 20 triệu; 3 (đến) 5 triệu,...
registration reg Giấy tờ đầy đủ, không giấy tờ, kgt, k giấy
registration Year reg-year
(đk) 2016, (đăng kí) 2014, (dk) đầu 2013, (đăng kí) 95,...
state stt mới hoàn toàn, mới 90%...