
LỜI CAM ĐOAN
Nghiên cứu sinh (NCS) xin cam đoan luận án Phân tích ý định
từ văn bản ngắn, trực tuyến tiếng Việt là công trình nghiên cứu của
riêng NCS. Các số liệu, kết quả được trình bày trong luận án là hoàn toàn
trung thực và chưa từng được công bố trong bất kỳ một công trình nào khác.
NCS đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu
liên quan trong và ngoài nước. Ngoại trừ các tài liệu tham khảo này,
luận án hoàn toàn là công việc của riêng NCS.
Trong các công trình khoa học được công bố liên quan đến luận án, NCS
đã thể hiện rõ và chính xác đóng góp của các đồng tác giả và những gì
do NCS đã thực hiện.
Tác giả:
Hà Nội:
i

LỜI CẢM ƠN
Lời đầu tiên, tôi xin được bày tỏ sự biết ơn sâu sắc đến PGS.TS. Phan
Xuân Hiếu, cán bộ hướng dẫn khoa học, người đã trực tiếp định hướng và
giúp đỡ tôi trong suốt quá trình nghiên cứu và thực hiện luận án. Thầy không
chỉ truyền đạt cho tôi những kiến thức quan trọng về học thuật mà còn chia
sẻ cho tôi nhiều kinh nghiệm quý giá trong con đường nghiên cứu khoa học.
Một vinh dự lớn cho tôi được học tập, nghiên cứu dưới sự hướng dẫn của
Thầy.
Tôi xin bày tỏ sự biết ơn chân thành đến các Thầy, Cô trong Bộ môn
Hệ thống thông tin, đặc biệt là PGS.TS. Hà Quang Thụy cùng các thành
viên của Phòng thí nghiệm Khoa học Dữ liệu và Công nghệ Tri thức vì sự
giúp đỡ cũng như những đóng góp chuyên môn hữu ích của các Thầy Cô cho
luận án.
Tôi xin trân trọng cảm ơn Khoa Công nghệ Thông tin, Phòng Đào tạo
và Ban Giám hiệu Trường Đại học Công nghệ đã tạo điều kiện thuận lợi cho
tôi trong suốt quá trình học tập và thực hiện luận án.
Tôi cũng bày tỏ sự biết ơn đến Ban Giám hiệu, Ban Chủ nhiệm Khoa,
và các đồng nghiệp của tôi tại Khoa Công nghệ Thông tin - Trường Đại học
Giao thông Vận tải vì đã tạo điều kiện về thời gian, tài chính và đã luôn cổ
vũ, hỗ trợ tôi trong suốt quá trình nghiên cứu. Bên cạnh đó, tôi cũng xin gửi
lời cảm ơn đến PGS.TS. Trần Văn Long, cán bộ đồng hướng dẫn luận án của
tôi, về những giúp đỡ hữu ích cho luận án.
Tôi không thể quên cảm ơn những cộng sự của tôi trong nhóm nghiên
cứu MDN–Team, những người đã đồng hành, sát cánh cùng tôi trong suốt
quá trình nghiên cứu, hoàn thành luận án, và tôi sẽ luôn ghi nhớ điều đó.
Ngoài ra, tôi muốn cảm ơn tất cả những người bạn của tôi vì sự động viên
chia sẻ bất cứ khi nào tôi cần.
Cuối cùng, tôi xin bày tỏ lòng biết ơn vô hạn đối với bố mẹ, chồng, con
và gia đình, những người đã luôn ủng hộ và yêu thương tôi một cách vô điều
kiện. Nếu không có sự ủng hộ của gia đình và chồng con, tôi không thể hoàn
thành được luận án này.
ii

Mục lục
Lời cam đoan i
Lời cảm ơn ii
Mục lục ii
Danh mục các từ viết tắt vi
Danh mục các bảng viii
Danh mục các hình vẽ x
Mở đầu 1
Chương 1. Tổng quan về ý định và phân tích ý định 10
1.1 Ý định và thể hiện ý định trong ngôn ngữ . . . . . . . . . . . . 10
1.2 Ý định trong văn bản trực tuyến . . . . . . . . . . . . . . . . . . 12
1.3 Phân tích ý định: bối cảnh khoa học . . . . . . . . . . . . . . . 14
1.3.1 Phân tích và xác định ý định từ truy vấn tìm kiếm . . . 16
1.3.2 Phân tích ý định trong các bài đăng . . . . . . . . . . . . 20
1.4 Một số kỹ thuật khai phá dữ liệu và mô hình học máy . . . . . 21
1.4.1 Cơ bản về kỹ thuật phân lớp . . . . . . . . . . . . . . . . 21
1.4.2 Cơ bản về kỹ thuật trích xuất thông tin . . . . . . . . . 23
1.4.3 Cơ bản về mạng nơ ron . . . . . . . . . . . . . . . . . . . 25
1.5 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
Chương 2. Phân tích ý định từ văn bản trực tuyến 31
2.1 Phân tích ý định từ văn bản trực tuyến tiếng Việt . . . . . . . 31
2.1.1 Xây dựng dữ liệu thực nghiệm . . . . . . . . . . . . . . . 33
2.1.2 Khó khăn - Thách thức . . . . . . . . . . . . . . . . . . . 36
2.2 Định nghĩa ý định người dùng: bối cảnh khoa học . . . . . . . . 38
2.2.1 Định nghĩa ý định người dùng theo tiếp cận từ điển . . . 38
2.2.2 Định nghĩa ý định người dùng theo hướng cấu trúc . . . 39
iii

2.3 Định nghĩa ý định hướng miền quan tâm . . . . . . . . . . . . . 39
2.3.1 Định nghĩa quan điểm của Bing Liu . . . . . . . . . . . . 40
2.3.2 Định nghĩa ý định của Bing Liu . . . . . . . . . . . . . . 41
2.3.3 Định nghĩa ý định hướng miền quan tâm của luận án . . 42
2.4 Tiến trình ba pha phân tích và xác định ý định . . . . . . . . . 46
2.5 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
Chương 3. Phát hiện ý định và xác định miền quan tâm của
ý định 51
3.1 Nghiên cứu trên thế giới về phát hiện ý định và xác định miền
quan tâm của ý định . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.1.1 Phát hiện bài đăng trực tuyến mang ý định . . . . . . . 52
3.1.2 Xác định miền quan tâm của ý định . . . . . . . . . . . . 53
3.2 Phát hiện ý định . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.2.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . 55
3.2.2 Mô hình giải quyết bài toán . . . . . . . . . . . . . . . . 56
3.2.3 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 60
3.2.4 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 61
3.2.5 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 62
3.3 Xác định miền quan tâm của ý định . . . . . . . . . . . . . . . . 65
3.3.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . 65
3.3.2 Mô hình giải quyết bài toán . . . . . . . . . . . . . . . . 67
3.3.3 Xây dựng tập các miền quan tâm . . . . . . . . . . . . . 70
3.3.4 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 71
3.3.5 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 73
3.3.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 73
3.4 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
Chương 4. Phân tích và trích chọn nội dung ý định 79
4.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.2 Nghiên cứu trên thế giới về trích chọn nội dung ý định . . . . . 81
4.3 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.4 Trích chọn ý định theo tiếp cận học máy thống kê và học sâu . 84
4.4.1 Xây dựng bộ nhãn thực nghiệm . . . . . . . . . . . . . . 84
4.4.2 Trích chọn ý định với phương pháp CRFs . . . . . . . . . 84
4.4.3 Trích chọn ý định với phương pháp học sâu Bi–LSTM–
CRFs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.4.4 Độ đo đánh giá mô hình thực nghiệm . . . . . . . . . . . 92
4.4.5 Thời gian thực nghiệm với mỗi mô hình . . . . . . . . . . 93
iv