ĐẠI HỌC QUỐC GIA NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
ơng Thái
Phân tích ý định từ văn bản ngắn,
trực tuyến tiếng Việt
LUẬN ÁN TIẾN SỸ HỆ THỐNG THÔNG TIN
Nội - 2021
LỜI CAM ĐOAN
Nghiên cứu sinh (NCS) xin cam đoan luận án Phân tích ý định
từ văn bản ngắn, trực tuyến tiếng Việt công trình nghiên cứu của
riêng NCS. Các số liệu, kết quả được trình bày trong luận án hoàn toàn
trung thực và chưa từng được công b trong bất kỳ một công trình nào khác.
NCS đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu
liên quan trong và ngoài nước. Ngoại trừ các tài liệu tham khảo y,
luận án hoàn toàn công việc của riêng NCS.
Trong các công trình khoa học được công b liên quan đến luận án, NCS
đã thể hiện và chính xác đóng góp của các đồng tác giả và những
do NCS đã thực hiện.
Tác giả:
Nội:
i
LỜI CẢM ƠN
Lời đầu tiên, tôi xin được y tỏ sự biết ơn sâu sắc đến PGS.TS. Phan
Xuân Hiếu, cán b hướng dẫn khoa học, người đã trực tiếp định hướng và
giúp đỡ tôi trong suốt quá trình nghiên cứu và thực hiện luận án. Thầy không
chỉ truyền đạt cho tôi những kiến thức quan trọng v học thuật còn chia
sẻ cho tôi nhiều kinh nghiệm quý giá trong con đường nghiên cứu khoa học.
Một vinh dự lớn cho tôi được học tập, nghiên cứu dưới sự hướng dẫn của
Thầy.
Tôi xin y tỏ sự biết ơn chân thành đến các Thầy, trong Bộ môn
Hệ thống thông tin, đặc biệt PGS.TS. Quang Thụy cùng các thành
viên của Phòng thí nghiệm Khoa học Dữ liệu và Công nghệ Tri thức sự
giúp đỡ cũng như những đóng góp chuyên môn hữu ích của các Thầy cho
luận án.
Tôi xin trân trọng cảm ơn Khoa Công nghệ Thông tin, Phòng Đào tạo
và Ban Giám hiệu Trường Đại học Công nghệ đã tạo điều kiện thuận lợi cho
tôi trong suốt quá trình học tập và thực hiện luận án.
Tôi cũng y tỏ sự biết ơn đến Ban Giám hiệu, Ban Ch nhiệm Khoa,
và các đồng nghiệp của tôi tại Khoa Công nghệ Thông tin - Trường Đại học
Giao thông Vận tải đã tạo điều kiện v thời gian, tài chính và đã luôn cổ
vũ, hỗ trợ tôi trong suốt quá trình nghiên cứu. Bên cạnh đó, tôi cũng xin gửi
lời cảm ơn đến PGS.TS. Trần Văn Long, cán b đồng hướng dẫn luận án của
tôi, v những giúp đỡ hữu ích cho luận án.
Tôi không thể quên cảm ơn những cộng sự của tôi trong nhóm nghiên
cứu MDN–Team, những người đã đồng hành, sát cánh cùng tôi trong suốt
quá trình nghiên cứu, hoàn thành luận án, và tôi sẽ luôn ghi nhớ điều đó.
Ngoài ra, tôi muốn cảm ơn tất cả những người bạn của tôi sự động viên
chia sẻ bất cứ khi nào tôi cần.
Cuối cùng, tôi xin y tỏ lòng biết ơn vô hạn đối với bố mẹ, chồng, con
và gia đình, những người đã luôn ủng hộ và u thương tôi một cách vô điều
kiện. Nếu không sự ủng hộ của gia đình và chồng con, tôi không thể hoàn
thành được luận án y.
ii
Mục lục
Lời cam đoan i
Lời cảm ơn ii
Mục lục ii
Danh mục các từ viết tắt vi
Danh mục các bảng viii
Danh mục các hình v x
Mở đầu 1
Chương 1. Tổng quan v ý định và phân tích ý định 10
1.1 Ý định và thể hiện ý định trong ngôn ngữ . . . . . . . . . . . . 10
1.2 Ý định trong văn bản trực tuyến . . . . . . . . . . . . . . . . . . 12
1.3 Phân tích ý định: bối cảnh khoa học . . . . . . . . . . . . . . . 14
1.3.1 Phân tích và xác định ý định từ truy vấn tìm kiếm . . . 16
1.3.2 Phân tích ý định trong các bài đăng . . . . . . . . . . . . 20
1.4 Một số kỹ thuật khai phá dữ liệu và hình học máy . . . . . 21
1.4.1 bản v kỹ thuật phân lớp . . . . . . . . . . . . . . . . 21
1.4.2 bản v kỹ thuật trích xuất thông tin . . . . . . . . . 23
1.4.3 bản v mạng ron . . . . . . . . . . . . . . . . . . . 25
1.5 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
Chương 2. Phân tích ý định từ văn bản trực tuyến 31
2.1 Phân tích ý định từ văn bản trực tuyến tiếng Việt . . . . . . . 31
2.1.1 y dựng dữ liệu thực nghiệm . . . . . . . . . . . . . . . 33
2.1.2 Khó khăn - Thách thức . . . . . . . . . . . . . . . . . . . 36
2.2 Định nghĩa ý định người dùng: bối cảnh khoa học . . . . . . . . 38
2.2.1 Định nghĩa ý định người dùng theo tiếp cận từ điển . . . 38
2.2.2 Định nghĩa ý định người dùng theo hướng cấu trúc . . . 39
iii
2.3 Định nghĩa ý định hướng miền quan tâm . . . . . . . . . . . . . 39
2.3.1 Định nghĩa quan điểm của Bing Liu . . . . . . . . . . . . 40
2.3.2 Định nghĩa ý định của Bing Liu . . . . . . . . . . . . . . 41
2.3.3 Định nghĩa ý định hướng miền quan tâm của luận án . . 42
2.4 Tiến trình ba pha phân tích và xác định ý định . . . . . . . . . 46
2.5 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
Chương 3. Phát hiện ý định và xác định miền quan tâm của
ý định 51
3.1 Nghiên cứu trên thế giới v phát hiện ý định và xác định miền
quan tâm của ý định . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.1.1 Phát hiện bài đăng trực tuyến mang ý định . . . . . . . 52
3.1.2 Xác định miền quan tâm của ý định . . . . . . . . . . . . 53
3.2 Phát hiện ý định . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.2.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . 55
3.2.2 hình giải quyết bài toán . . . . . . . . . . . . . . . . 56
3.2.3 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 60
3.2.4 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 61
3.2.5 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 62
3.3 Xác định miền quan tâm của ý định . . . . . . . . . . . . . . . . 65
3.3.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . 65
3.3.2 hình giải quyết bài toán . . . . . . . . . . . . . . . . 67
3.3.3 y dựng tập các miền quan tâm . . . . . . . . . . . . . 70
3.3.4 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 71
3.3.5 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 73
3.3.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 73
3.4 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
Chương 4. Phân tích và trích chọn nội dung ý định 79
4.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.2 Nghiên cứu trên thế giới v trích chọn nội dung ý định . . . . . 81
4.3 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.4 Trích chọn ý định theo tiếp cận học y thống kê và học sâu . 84
4.4.1 y dựng b nhãn thực nghiệm . . . . . . . . . . . . . . 84
4.4.2 Trích chọn ý định với phương pháp CRFs . . . . . . . . . 84
4.4.3 Trích chọn ý định với phương pháp học sâu Bi–LSTM–
CRFs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.4.4 Độ đo đánh giá hình thực nghiệm . . . . . . . . . . . 92
4.4.5 Thời gian thực nghiệm với mỗi hình . . . . . . . . . . 93
iv