Phân tích ý định từ văn bản ngắn, trực tuyến tiếng Việt: Luận án Tiến sĩ Hệ thống thông tin

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Lương Thái Lê

Phân tích ý định từ văn bản ngắn,

trực tuyến tiếng Việt

LUẬN ÁN TIẾN SỸ HỆ THỐNG THÔNG TIN

Hà Nội - 2021

LỜI CAM ĐOAN

Nghiên cứu sinh (NCS) xin cam đoan luận án Phân tích ý định

từ văn bản ngắn, trực tuyến tiếng Việt là công trình nghiên cứu của

riêng NCS. Các số liệu, kết quả được trình bày trong luận án là hoàn toàn

trung thực và chưa từng được công bố trong bất kỳ một công trình nào khác.

NCS đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu

liên quan trong và ngoài nước. Ngoại trừ các tài liệu tham khảo này,

luận án hoàn toàn là công việc của riêng NCS.

Trong các công trình khoa học được công bố liên quan đến luận án, NCS

đã thể hiện rõ và chính xác đóng góp của các đồng tác giả và những gì

do NCS đã thực hiện.

Tác giả:

Hà Nội:

LỜI CẢM ƠN

Lời đầu tiên, tôi xin được bày tỏ sự biết ơn sâu sắc đến PGS.TS. Phan

Xuân Hiếu, cán bộ hướng dẫn khoa học, người đã trực tiếp định hướng và

giúp đỡ tôi trong suốt quá trình nghiên cứu và thực hiện luận án. Thầy không

chỉ truyền đạt cho tôi những kiến thức quan trọng về học thuật mà còn chia

sẻ cho tôi nhiều kinh nghiệm quý giá trong con đường nghiên cứu khoa học.

Một vinh dự lớn cho tôi được học tập, nghiên cứu dưới sự hướng dẫn của

Thầy.

Tôi xin bày tỏ sự biết ơn chân thành đến các Thầy, Cô trong Bộ môn

Hệ thống thông tin, đặc biệt là PGS.TS. Hà Quang Thụy cùng các thành

viên của Phòng thí nghiệm Khoa học Dữ liệu và Công nghệ Tri thức vì sự

giúp đỡ cũng như những đóng góp chuyên môn hữu ích của các Thầy Cô cho

luận án.

Tôi xin trân trọng cảm ơn Khoa Công nghệ Thông tin, Phòng Đào tạo

và Ban Giám hiệu Trường Đại học Công nghệ đã tạo điều kiện thuận lợi cho

tôi trong suốt quá trình học tập và thực hiện luận án.

Tôi cũng bày tỏ sự biết ơn đến Ban Giám hiệu, Ban Chủ nhiệm Khoa,

và các đồng nghiệp của tôi tại Khoa Công nghệ Thông tin - Trường Đại học

Giao thông Vận tải vì đã tạo điều kiện về thời gian, tài chính và đã luôn cổ

vũ, hỗ trợ tôi trong suốt quá trình nghiên cứu. Bên cạnh đó, tôi cũng xin gửi

lời cảm ơn đến PGS.TS. Trần Văn Long, cán bộ đồng hướng dẫn luận án của

tôi, về những giúp đỡ hữu ích cho luận án.

Tôi không thể quên cảm ơn những cộng sự của tôi trong nhóm nghiên

cứu MDN–Team, những người đã đồng hành, sát cánh cùng tôi trong suốt

quá trình nghiên cứu, hoàn thành luận án, và tôi sẽ luôn ghi nhớ điều đó.

Ngoài ra, tôi muốn cảm ơn tất cả những người bạn của tôi vì sự động viên

chia sẻ bất cứ khi nào tôi cần.

Cuối cùng, tôi xin bày tỏ lòng biết ơn vô hạn đối với bố mẹ, chồng, con

và gia đình, những người đã luôn ủng hộ và yêu thương tôi một cách vô điều

kiện. Nếu không có sự ủng hộ của gia đình và chồng con, tôi không thể hoàn

thành được luận án này.

Mục lục

Lời cam đoan i

Lời cảm ơn ii

Mục lục ii

Danh mục các từ viết tắt vi

Danh mục các bảng viii

Danh mục các hình vẽ x

Mở đầu 1

Chương 1. Tổng quan về ý định và phân tích ý định 10

1.1 Ý định và thể hiện ý định trong ngôn ngữ . . . . . . . . . . . . 10

1.2 Ý định trong văn bản trực tuyến . . . . . . . . . . . . . . . . . . 12

1.3 Phân tích ý định: bối cảnh khoa học . . . . . . . . . . . . . . . 14

1.3.1 Phân tích và xác định ý định từ truy vấn tìm kiếm . . . 16

1.3.2 Phân tích ý định trong các bài đăng . . . . . . . . . . . . 20

1.4 Một số kỹ thuật khai phá dữ liệu và mô hình học máy . . . . . 21

1.4.1 Cơ bản về kỹ thuật phân lớp . . . . . . . . . . . . . . . . 21

1.4.2 Cơ bản về kỹ thuật trích xuất thông tin . . . . . . . . . 23

1.4.3 Cơ bản về mạng nơ ron . . . . . . . . . . . . . . . . . . . 25

1.5 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

Chương 2. Phân tích ý định từ văn bản trực tuyến 31

2.1 Phân tích ý định từ văn bản trực tuyến tiếng Việt . . . . . . . 31

2.1.1 Xây dựng dữ liệu thực nghiệm . . . . . . . . . . . . . . . 33

2.1.2 Khó khăn - Thách thức . . . . . . . . . . . . . . . . . . . 36

2.2 Định nghĩa ý định người dùng: bối cảnh khoa học . . . . . . . . 38

2.2.1 Định nghĩa ý định người dùng theo tiếp cận từ điển . . . 38

2.2.2 Định nghĩa ý định người dùng theo hướng cấu trúc . . . 39

iii

2.3 Định nghĩa ý định hướng miền quan tâm . . . . . . . . . . . . . 39

2.3.1 Định nghĩa quan điểm của Bing Liu . . . . . . . . . . . . 40

2.3.2 Định nghĩa ý định của Bing Liu . . . . . . . . . . . . . . 41

2.3.3 Định nghĩa ý định hướng miền quan tâm của luận án . . 42

2.4 Tiến trình ba pha phân tích và xác định ý định . . . . . . . . . 46

2.5 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

Chương 3. Phát hiện ý định và xác định miền quan tâm của

ý định 51

3.1 Nghiên cứu trên thế giới về phát hiện ý định và xác định miền

quan tâm của ý định . . . . . . . . . . . . . . . . . . . . . . . . . 52

3.1.1 Phát hiện bài đăng trực tuyến mang ý định . . . . . . . 52

3.1.2 Xác định miền quan tâm của ý định . . . . . . . . . . . . 53

3.2 Phát hiện ý định . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

3.2.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . 55

3.2.2 Mô hình giải quyết bài toán . . . . . . . . . . . . . . . . 56

3.2.3 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 60

3.2.4 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 61

3.2.5 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 62

3.3 Xác định miền quan tâm của ý định . . . . . . . . . . . . . . . . 65

3.3.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . 65

3.3.2 Mô hình giải quyết bài toán . . . . . . . . . . . . . . . . 67

3.3.3 Xây dựng tập các miền quan tâm . . . . . . . . . . . . . 70

3.3.4 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 71

3.3.5 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 73

3.3.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 73

3.4 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

Chương 4. Phân tích và trích chọn nội dung ý định 79

4.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

4.2 Nghiên cứu trên thế giới về trích chọn nội dung ý định . . . . . 81

4.3 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . 83

4.4 Trích chọn ý định theo tiếp cận học máy thống kê và học sâu . 84

4.4.1 Xây dựng bộ nhãn thực nghiệm . . . . . . . . . . . . . . 84

4.4.2 Trích chọn ý định với phương pháp CRFs . . . . . . . . . 84

4.4.3 Trích chọn ý định với phương pháp học sâu Bi–LSTM–

CRFs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

4.4.4 Độ đo đánh giá mô hình thực nghiệm . . . . . . . . . . . 92

4.4.5 Thời gian thực nghiệm với mỗi mô hình . . . . . . . . . . 93

Luận án Tiến sĩ Hệ thống thông tin: Phân tích ý định từ văn bản ngắn, trực tuyến tiếng Việt

Mục tiêu nghiên cứu của luận án là phân tích và hiểu ý định từ văn bản nói chung và văn bản truyền thông xã hội trực tuyến nói riêng còn thiếu một cách tiếp cận xuyên suốt. Mời các bạn tham khảo!

Chủ đề:

Tài liệu liên quan

Tài liêu mới

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi