ĐẠI HỌC QUỐC GIA HÀ NỘI<br />
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ<br />
<br />
NGUYỄN VIẾT HẠNH<br />
<br />
NGHIÊN CỨU TÓM TẮT VĂN BẢN TỰ ĐỘNG VÀ<br />
ỨNG DỤNG<br />
<br />
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN<br />
<br />
HÀ NỘI – 2018<br />
<br />
ĐẠI HỌC QUỐC GIA HÀ NỘI<br />
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ<br />
<br />
NGUYỄN VIẾT HẠNH<br />
<br />
NGHIÊN CỨU TÓM TẮT VĂN BẢN TỰ ĐỘNG VÀ<br />
ỨNG DỤNG<br />
<br />
Ngành: Công nghệ thông tin<br />
Chuyên ngành: Kỹ thuật phần mềm<br />
Mã số: 60480103<br />
<br />
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN<br />
<br />
NGƢỜI HƢỚNG DẪN KHOA HỌC: TS. NGUYỄN VĂN VINH<br />
<br />
HÀ NỘI - 2018<br />
<br />
3<br />
<br />
LỜI CAM ĐOAN<br />
Tôi là Nguyễn Viết Hạnh, học viên lớp Kỹ Thuật Phần Mềm K22 xin cam<br />
đoan báo cáo luận văn này đƣợc viết bởi tôi dƣới sự hƣớng dẫn của thầy giáo, tiến<br />
sỹ Nguyễn Văn Vinh. Tất cả các kết quả đạt đƣợc trong luận văn này là quá trình<br />
tìm hiểu, nghiên cứu của riêng tôi. Trong toàn bộ nội dung của luận văn, những<br />
điều đƣợc trình bày là kết quả của cá nhân tôi hoặc là đƣợc tổng hợp từ nhiều<br />
nguồn tài liệu khác. Các tài liệu tham khảo đều có xuất xứ rõ ràng và đƣợc trích<br />
dẫn hợp pháp.<br />
Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy<br />
định cho lời cam đoan của mình.<br />
Hà Nội, ngày ….. tháng …… năm 2018<br />
Ngƣời cam đoan<br />
<br />
Nguyễn Viết Hạnh<br />
<br />
4<br />
<br />
LỜI CẢM ƠN<br />
Lời đầu tiên, tôi xin bày tỏ sự cảm ơn chân thành đối với Thầy giáo TS. Nguyễn<br />
Văn Vinh – giáo viên hƣớng dẫn trực tiếp của tôi. Thầy Vinh đã cho tôi những gợi<br />
ý và chỉ dẫn quý báu trong quá trình nghiên cứu và hoàn thiện luận văn thạc sĩ.<br />
Tôi cũng xin gửi lời cảm ơn tới các thầy cô trong khoa Công nghệ thông tin, trƣờng<br />
Đại học Công Nghệ, Đại học Quốc gia Hà Nội đã hƣớng dẫn, chỉ bảo và tạo điều<br />
kiện cho chúng tôi học tập và nghiên cứu tại trƣờng trong suốt thời gian qua.<br />
Tôi cũng xin đƣợc cảm ơn gia đình, những ngƣời thân, các đồng nghiệp và bạn bè<br />
tôi đã quan tâm, động viên, giới thiệu các tài liệu hữu ích trong thời gian học tập và<br />
nghiên cứu luận văn tốt nghiệp.<br />
Mặc dù đã cố gắng hoàn thành luận văn nhƣng chắc chắn sẽ không tránh khỏi<br />
những sai sót, tôi kính mong nhận đƣợc sự thông cảm và chỉ bảo của các thầy cô và<br />
các bạn.<br />
Tôi xin chân thành cảm ơn!<br />
<br />
5<br />
<br />
MỤC LỤC<br />
LỜI CAM ĐOAN ................................................................................................................. 3<br />
LỜI CẢM ƠN ....................................................................................................................... 4<br />
MỤC LỤC ............................................................................................................................ 5<br />
BẢNG CÁC TỪ VIẾT TẮT ................................................................................................ 7<br />
DANH MỤC HÌNH VẼ ....................................................................................................... 8<br />
MỞ ĐẦU ............................................................................................................................ 10<br />
CHƢƠNG 1: KHÁI QUÁT BÀI TOÁN TÓM TẮT VĂN BẢN...................................... 12<br />
1.1. Bài toán tóm tắt văn bản tự động............................................................................. 12<br />
1.2. Các hƣớng tiếp cận tóm tắt văn bản. ....................................................................... 12<br />
CHƢƠNG 2: MỘT SỐ NGHIÊN CỨU VỀ TÓM TẮT VĂN BẢN ................................ 14<br />
2.1. Tóm tắt văn bản theo hƣớng trích chọn. .................................................................. 14<br />
2.1.1. Phƣơng pháp chủ đề đại diện dựa trên tần xuất ................................................... 15<br />
2.1.1.1. Word probability ........................................................................................... 15<br />
2.1.1.2. Phƣơng pháp TF-IDF .................................................................................... 16<br />
2.1.2. Phƣơng pháp đặc trƣng đại diện ........................................................................... 16<br />
2.1.2.1. Phƣơng pháp đồ thị cho tóm tắt văn bản ........................................................... 16<br />
2.1.2.2. Kỹ thuật học máy cho tóm tắt văn bản .............................................................. 17<br />
2.2. Tóm tắt văn bản theo hƣớng tóm lƣợc .................................................................... 17<br />
CHƢƠNG 3: MẠNG NƠ RON NHÂN TẠO ................................................................... 19<br />
3.1. Mạng nơ ron nhân tạo ANN .................................................................................... 19<br />
3.1.1. Cấu trúc mạng nơ ron nhân tạo ............................................................................ 19<br />
3.1.2. Hoạt động của mạng ANN ................................................................................... 20<br />
3.2. Mạng nơ ron hồi quy RNN ...................................................................................... 21<br />
3.3. Mạng nơ ron có nhớ LSTM ..................................................................................... 23<br />
CHƢƠNG 4: XÂY DỰNG HỆ THỐNG TÓM TẮT VĂN BẢN THEO HƢỚNG TÓM<br />
LƢỢC ................................................................................................................................. 29<br />
4.1. Quy trình tóm tắt theo hƣớng tóm lƣợc sử dụng mạng LSTM ............................... 29<br />
4.2. Xây dựng bộ dữ liệu cho tóm tắt văn bản tiếng Việt............................................... 30<br />
4.3. Word Embedding ..................................................................................................... 32<br />
4.3.1. Embedding dựa trên tần xuất xuất hiện của từ. .................................................... 33<br />
<br />