
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------
TỐNG NGUYÊN SƠN
PHÁT HIỆN CÂU CHỨA GỢI Ý TRÊN DIỄN ĐÀN
TRỰC TUYẾN SỬ DỤNG MẠNG NƠ - RON
LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)
HÀ NỘI - 2020

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------
TỐNG NGUYÊN SƠN
PHÁT HIỆN CÂU CHỨA GỢI Ý TRÊN DIỄN ĐÀN
TRỰC TUYẾN SỬ DỤNG MẠNG NƠ-RON
Chuyên ngành: Hệ thống thông tin
Mã số: 8.48.01.04
LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. NGÔ XUÂN BÁCH
HÀ NỘI – 2020

i
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi dưới sự hướng
dẫn của Tiến sĩ Ngô Xuân Bách. Các kết quả đạt được trong luận văn là sản phẩm
của riêng cá nhân, không sao chép của người khác. Nội dung của luận văn có tham
khảo và sử dụng một số thông tin, tài liệu từ các nguồn sách, tạp chí được liệt kê trong
danh mục các tài liệu tham khảo.
Tác giả luận văn ký và ghi rõ họ tên
Tống Nguyên Sơn

ii
LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn chân thành nhất đến Thầy TS. Ngô Xuân Bách, người
đã tận tình hướng dẫn, hỗ trợ và giúp đỡ tôi rất nhiều trong nghiên cứu luận văn. Thầy
đã đưa ra những định hướng, nhận xét và góp ý quý giá để luận văn này được hoàn
thành tốt nhất.
Kính gửi lời cảm ơn đến quý Thầy, Cô giảng viên đã tận tình giảng dạy và
truyền đạt những kiến thức chuyên môn cần thiết trong quá trình tôi được học tập tại
Học viện Công nghệ Bưu chính Viễn thông.
Xin gửi lời biết ơn đến gia đình đã không ngừng quan tâm, động viên, ủng hộ
về mặt tinh thần lẫn vật chất trong suốt thời gian tôi tham gia khóa học và thực hiện
luận văn này.
Cảm ơn các bạn lớp Cao học M18CQIS02B đã giúp đỡ và đồng hành cùng tôi
trong những năm tháng học tập tại nhà trường.
Thời gian thực hiện luận văn còn khá ngắn, kinh nghiệm về lĩnh vực xử lý
ngôn ngữ tự nhiên của bản thân còn hạn chế, luận văn cũng còn nhiều thiếu sót rất
mong nhận được những ý kiến đóng góp của quý Thầy Cô và các bạn để tôi có thể
hoàn thiện luận văn một cách tốt nhất.
Xin trân trọng cảm ơn!

iii
MỤC LỤC
LỜI CAM ĐOAN ...................................................................................................... 1
LỜI CẢM ƠN ........................................................................................................... ii
MỤC LỤC ................................................................................................................ iii
BẢNG DANH MỤC THUẬT NGỮ TIẾNG ANH ................................................. v
DANH MỤC BẢNG BIỂU ..................................................................................... vi
DANH MỤC HÌNH ................................................................................................ vii
LỜI NÓI ĐẦU ........................................................................................................... 1
CHƯƠNG 1: GIỚI THIỆU BÀI TOÁN PHÂN LOẠI CÂU CHỨA GỢI Ý ...... 3
1.1. Giới thiệu về xử lý ngôn ngữ tự nhiên .............................................................. 3
1.2. Bài toán phát hiện câu chứa gợi ý trên diễn đàn trực tuyến ............................. 4
1.2.1. Phân loại dữ liệu văn bản ........................................................................... 4
1.2.2. Phát biểu bài toán phân loại phát hiện câu chứa gợi ý ............................... 5
1.2.3. Ý nghĩa bài toán: ........................................................................................ 6
1.3. Các nghiên cứu liên quan .................................................................................. 6
1.4. Kết luận chương ................................................................................................ 7
CHƯƠNG 2: PHƯƠNG PHÁP PHÁT HIỆN CÂU CHỨA GỢI Ý SỬ DỤNG HỌC
MÁY ........................................................................................................................... 8
2.1. Phương pháp giải quyết bài toán: ..................................................................... 8
2.1.1. Tiền xử lý dữ liệu ..................................................................................... 10
2.1.2. Lọc nhiễu (loại bỏ từ không mang nghĩa) ................................................ 10
2.1.3. Loại bỏ các từ phổ biến (stop word): ....................................................... 10
2.2. Giới thiệu chung mô hình mạng Nơ-ron: ....................................................... 11
2.2.1. Mạng Nơ-ron nhân tạo (ANN) ................................................................. 11
2.2.2. Mạng nơ-ron sinh học .............................................................................. 12
2.2.3. Kiến trúc tổng quát của mạng neural nhân tạo: ........................................ 13
2.3. Mạng nơron tích chập CNN: .......................................................................... 16
2.4. Mạng nơron hồi quy RNN: ............................................................................. 20
2.5. Mạng nơ-ron có bộ nhớ ngắn dài LSTM: ....................................................... 23

