
BỘ THÔNG TIN VÀ TRUYỀN THÔNG
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------
Nguyễn Đình Quý
XÂY DỰNG MÔ HÌNH HỎI ĐÁP
HỖ TRỢ SINH VIÊN TRƯỜNG ĐẠI HỌC XÂY DỰNG
LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)
HÀ NỘI - NĂM 2021

BỘ THÔNG TIN VÀ TRUYỀN THÔNG
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------
Nguyễn Đình Quý
XÂY DỰNG MÔ HÌNH HỎI ĐÁP
HỖ TRỢ SINH VIÊN TRƯỜNG ĐẠI HỌC XÂY DỰNG
Chuyên ngành: Khoa học máy tính
Mã số: 8.48.01.01
LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)
Người hướng dẫn: GS.TS Từ Minh Phương
HÀ NỘI - NĂM 2021

i
MỤC LỤC
ỜI C Đ N ......................................................................................... iii
ỜI CẢ N ............................................................................................... iv
DANH MỤC HÌNH VẼ .................................................................................v
DANH MỤC BẢNG BIỂU .......................................................................... vi
DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ ..................................... vii
Ở Đ U .........................................................................................................1
CHƯ NG 1. TỔNG QUAN VỀ BÀI TOÁN HỎI ĐÁP TỰ ĐỘNG .. 4
1.1. Bài toán trả lời tự động cho sinh viên trường Đại học Xây dựng .4
1.2. Khái quát hệ thống hỏi đáp tự động ..............................................5
1.3. Truy xuất và tìm kiếm thông tin (IR) ............................................7
1.3.1. Mô hình dựa trên lý thuyết tập hợp: .........................................9
1.3.2. Mô hình đại số ..........................................................................9
1.3.3. Mô hình xác suất ....................................................................11
1.3.4. Mô hình ngôn ngữ ..................................................................13
1.4. Kết luận chương ..........................................................................14
CHƯ NG 2. PHƯ NG PHÁP TRẢ LỜI TỰ ĐỘNG ....................... 15
2.1. Kiến trúc mô hình ........................................................................15
2.2. Phân loại ý định ...........................................................................17
2.2.1. Luồng xử lý phương pháp xác định ý định của câu hỏi .........18
2.2.2. Tiền xử lý dữ liệu ...................................................................20
2.2.3. Trích xuất đặc trưng ...............................................................22
2.2.4. Mô hình phân lớp ...................................................................31
2.2.5. Tăng cường dữ liệu để huấn luyện mô hình phân lớp ý định 34
2.3. Tìm kiếm và truy xuất thông tin. .................................................43
2.3.1. Một số khái niệm ....................................................................44

ii
2.3.2. Công thức tính BM25 .............................................................45
2.3.3. Đánh giá mô hình IR ..............................................................46
2.4. Kết hợp xác định ý định và truy xuất thông tin ...........................50
2.4.1. Tổ chức dữ liệu để tìm kiếm thông tin theo ý định ................51
2.4.2. Tìm kiếm theo ý định và câu hỏi ............................................52
CHƯ NG 3. THỰC NGHIỆM VÀ KẾT QUẢ .................................. 55
3.1. Các bước cài đặt ..........................................................................55
3.1.1. Dữ liệu huấn luyện .................................................................55
3.2. Cài đặt module truy xuất thông tin ..............................................55
3.2.1. Tiền xử lý văn bản ..................................................................56
3.2.2. Đánh chỉ mục tài liệu .............................................................57
3.2.3. Xếp hạng văn bản ...................................................................58
3.2.4. Kết quả thực nghiệm ..............................................................58
3.3. Cài đặt mô hình phân lớp ý định .................................................62
3.3.1. Xây dựng mô hình phân lớp ý định ........................................62
3.3.2. Tăng cường dữ liệu cho bài toán phân lớp ý định ..................64
3.3.3. Kết quả huấn luyện sau khi tăng cường dữ liệu .....................65
3.4. Kết quả thực hiện sau khi kết hợp IR và phân lớp ý định ...........65
3.5. So sánh với các hệ thống hỏi đáp tương tự .................................66
KẾT LUẬN VÀ KIẾN NGHỊ .....................................................................67
TÀI LIỆU THAM KHẢO ...........................................................................69

iii
ỜI C Đ N
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi được GS.TS. Từ
Minh Phương - giảng viên khoa Công nghệ thông tin trường Học viện Công nghệ
Bưu ch nh Vi n thông hướng dẫn khoa học Nguồn tài liệu của các tác giả cơ quan
tổ chức nếu sử dụng thì tôi đều ghi r trong ph n tài liệu tham khảo
Tôi xin hoàn toàn chịu trách nhiệm về nội dung luận văn của mình
Hà nội ngày tháng năm 1.
Họ v n C o họ .
N u ễn Đình Qúy.

