ĐẠI HỌC KINH TẾ QUỐC DÂN
TRƯỜNG CÔNG NGHỆ
----------------
KHÓA LUẬN TỐT NGHIỆP
Xây dựng hệ thống tóm tắt văn bản
sử dụng mô hình học sâu
Tên sinh viên : Đặng Phương Nam
Giảng viên hướng dẫn : Nguyễn Trung Kiên
Hà Nội, 5/2025
2024-2 CÔNG NGHỆ THÔNG TIN ĐẶNG PHƯƠNG NAM 11218471
ĐẠI HỌC KINH TẾ QUỐC DÂN
TRƯỜNG CÔNG NGHỆ
----------------
KHÓA LUẬN TỐT NGHIỆP
Xây dựng hệ thống tóm tắt văn bản
sử dụng mô hình học sâu
Tên sinh viên : Đặng Phương Nam
Mã sinh viên : 11218471
Lớp : Công nghệ thông tin K63
Ngành : Công nghệ thông tin
Khoa : Công nghệ thông tin
Giảng viên hướng dẫn : Nguyễn Trung Kiên
(Chữ ký GVHD)
Hà Nội, 5/2025
Khóa lun tt nghip GVHD: Nguyn Trung Kiên
1
MỤC LỤC
LỜI CAM ĐOAN ...................................................................................................... 3
LỜI CẢM ƠN ............................................................................................................ 4
DANH MỤC CÁC KÍ HIỆU, TỪ VIẾT TẮT ........................................................ 5
DANH MỤC HÌNH ................................................................................................... 7
MỞ ĐẦU .................................................................................................................... 8
1. Bối cảnh và lý do chọn đề tài ......................................................................... 8
2. Mục tiêu của đề tài ......................................................................................... 9
2.1. Mục tiêu tổng quát .................................................................................. 9
2.2. Mục tiêu cụ thể ........................................................................................ 9
3. Phạm vi và giới hạn của nghiên cứu ........................................................... 10
4. Phương pháp nghiên cứu............................................................................. 10
5. Bố cục của khóa luận ................................................................................... 10
CHƯƠNG 2. CƠ SỞ LÝ THUYẾT ....................................................................... 12
2.1. Tổng quan về tóm tắt văn bản .................................................................... 12
2.1.1. Khái niệm ........................................................................................... 12
2.1.2. Phân loại............................................................................................. 12
2.1.3. Ứng dụng thực tế ............................................................................... 12
2.2. Vấn đề trong quá trình tìm hiểu đề tài nghiên cứu ............................... 13
2.2.1. Đặc thù của tiếng Việt ....................................................................... 13
2.2.2. Hạn chế của các phương pháp và tài nguyên hiện có .................... 15
2.3. Các phương pháp tóm tắt văn bản ......................................................... 15
2.3.1. Tóm tắt trích xuất (extractive summarization) .............................. 16
2.4. Các kỹ thuật và mô hình phổ biến trong tóm tắt trừu tượng .............. 20
2.4.1. Sequence-to-Sequence (Seq2Seq) với Attention ............................. 20
2.4.2. Transformer ...................................................................................... 20
2.4.3. BART.................................................................................................. 20
2.4.4. T5 (Text-to-Text Transfer Transformer) ....................................... 21
CHƯƠNG 3. PHƯƠNG PHÁP NGHIÊN CỨU .................................................. 25
3.1. Kiến trúc hệ thống .................................................................................... 25
Khóa lun tt nghip GVHD: Nguyn Trung Kiên
2
3.1.1. Biểu đồ luồng dữ liệu ........................................................................ 25
3.1.2. Biểu đồ tuần tự .................................................................................. 27
3.2. Phương pháp tóm tắt văn bản ................................................................. 29
3.3. Mô hình tiền huấn luyện .......................................................................... 30
3.4. Thu thập và tiền xử lý dữ liệu ................................................................. 31
3.4.1. Thu thập dữ liệu ................................................................................ 31
3.4.2. Tiền xử lý dữ liệu .............................................................................. 32
3.5. Chiến thuật huấn luyện ............................................................................ 32
3.6. Đánh giá chất lượng tóm tắt .................................................................... 33
3.6.1. Đánh giá tự động bằng các chỉ số ROUGE và BLEU .................... 33
3.6.2. Đánh giá thủ công dựa trên tiêu chí ngữ nghĩa .............................. 33
CHƯƠNG 4. CÀI ĐẶT VÀ CHẠY THỬ CHƯƠNG TRÌNH ............................ 35
4.1. Cài đặt chương trình ................................................................................ 35
4.1.1. Môi trường thực nghiệm .................................................................. 35
4.1.2. Huấn luyện mô hình .......................................................................... 35
4.1.3. Xây dựng module tóm tắt ................................................................. 43
4.1.4. Xây dựng trang web hiển thị bằng Flask ........................................ 51
4.2. Kết quả cài đặt và thực nghiệm .............................................................. 53
KẾT LUẬN VÀ PHƯƠNG HƯỚNG PHÁT TRIỂN .......................................... 58
TÀI LIỆU THAM KHẢO ...................................................................................... 59
Khóa lun tt nghip GVHD: Nguyn Trung Kiên
3
LỜI CAM ĐOAN
Em Đặng Phương Nam, MSV 11218471. Em xin cam đoan rằng đề tài: Xây dựng
hệ thống tóm tắt văn bản tiếng Việt sử dụng hình học sâu thành quả nghiên
cứu độc lập của riêng em, được thực hiện dưới sự ớng dẫn của thầy Nguyễn Trung
Kiên. Không có bất kỳ sự sao chép nào từ nguồn khác.
Nội dung khóa luận kết quả của quá trình nỗ lực m việc của em. Các số liệu
kết quả trình bày trong khóa luận đã được thu thập sử dụng một cách trung
thực. Em xin chịu hoàn toàn trách nhiệm và tuân thủ mọi kỷ luật của bộ môn và nhà
trường nếu có bất kỳ vấn đề nào xảy ra.