
ĐẠI HỌC KINH TẾ QUỐC DÂN
TRƯỜNG CÔNG NGHỆ
----------------
KHÓA LUẬN TỐT NGHIỆP
Xây dựng hệ thống tóm tắt văn bản
sử dụng mô hình học sâu
Tên sinh viên : Đặng Phương Nam
Giảng viên hướng dẫn : Nguyễn Trung Kiên
Hà Nội, 5/2025
2024-2 CÔNG NGHỆ THÔNG TIN ĐẶNG PHƯƠNG NAM 11218471

ĐẠI HỌC KINH TẾ QUỐC DÂN
TRƯỜNG CÔNG NGHỆ
----------------
KHÓA LUẬN TỐT NGHIỆP
Xây dựng hệ thống tóm tắt văn bản
sử dụng mô hình học sâu
Tên sinh viên : Đặng Phương Nam
Mã sinh viên : 11218471
Lớp : Công nghệ thông tin K63
Ngành : Công nghệ thông tin
Khoa : Công nghệ thông tin
Giảng viên hướng dẫn : Nguyễn Trung Kiên
(Chữ ký GVHD)
Hà Nội, 5/2025

Khóa luận tốt nghiệp GVHD: Nguyễn Trung Kiên
1
MỤC LỤC
LỜI CAM ĐOAN ...................................................................................................... 3
LỜI CẢM ƠN ............................................................................................................ 4
DANH MỤC CÁC KÍ HIỆU, TỪ VIẾT TẮT ........................................................ 5
DANH MỤC HÌNH ................................................................................................... 7
MỞ ĐẦU .................................................................................................................... 8
1. Bối cảnh và lý do chọn đề tài ......................................................................... 8
2. Mục tiêu của đề tài ......................................................................................... 9
2.1. Mục tiêu tổng quát .................................................................................. 9
2.2. Mục tiêu cụ thể ........................................................................................ 9
3. Phạm vi và giới hạn của nghiên cứu ........................................................... 10
4. Phương pháp nghiên cứu............................................................................. 10
5. Bố cục của khóa luận ................................................................................... 10
CHƯƠNG 2. CƠ SỞ LÝ THUYẾT ....................................................................... 12
2.1. Tổng quan về tóm tắt văn bản .................................................................... 12
2.1.1. Khái niệm ........................................................................................... 12
2.1.2. Phân loại............................................................................................. 12
2.1.3. Ứng dụng thực tế ............................................................................... 12
2.2. Vấn đề trong quá trình tìm hiểu đề tài nghiên cứu ............................... 13
2.2.1. Đặc thù của tiếng Việt ....................................................................... 13
2.2.2. Hạn chế của các phương pháp và tài nguyên hiện có .................... 15
2.3. Các phương pháp tóm tắt văn bản ......................................................... 15
2.3.1. Tóm tắt trích xuất (extractive summarization) .............................. 16
2.4. Các kỹ thuật và mô hình phổ biến trong tóm tắt trừu tượng .............. 20
2.4.1. Sequence-to-Sequence (Seq2Seq) với Attention ............................. 20
2.4.2. Transformer ...................................................................................... 20
2.4.3. BART.................................................................................................. 20
2.4.4. T5 (Text-to-Text Transfer Transformer) ....................................... 21
CHƯƠNG 3. PHƯƠNG PHÁP NGHIÊN CỨU .................................................. 25
3.1. Kiến trúc hệ thống .................................................................................... 25

Khóa luận tốt nghiệp GVHD: Nguyễn Trung Kiên
2
3.1.1. Biểu đồ luồng dữ liệu ........................................................................ 25
3.1.2. Biểu đồ tuần tự .................................................................................. 27
3.2. Phương pháp tóm tắt văn bản ................................................................. 29
3.3. Mô hình tiền huấn luyện .......................................................................... 30
3.4. Thu thập và tiền xử lý dữ liệu ................................................................. 31
3.4.1. Thu thập dữ liệu ................................................................................ 31
3.4.2. Tiền xử lý dữ liệu .............................................................................. 32
3.5. Chiến thuật huấn luyện ............................................................................ 32
3.6. Đánh giá chất lượng tóm tắt .................................................................... 33
3.6.1. Đánh giá tự động bằng các chỉ số ROUGE và BLEU .................... 33
3.6.2. Đánh giá thủ công dựa trên tiêu chí ngữ nghĩa .............................. 33
CHƯƠNG 4. CÀI ĐẶT VÀ CHẠY THỬ CHƯƠNG TRÌNH ............................ 35
4.1. Cài đặt chương trình ................................................................................ 35
4.1.1. Môi trường thực nghiệm .................................................................. 35
4.1.2. Huấn luyện mô hình .......................................................................... 35
4.1.3. Xây dựng module tóm tắt ................................................................. 43
4.1.4. Xây dựng trang web hiển thị bằng Flask ........................................ 51
4.2. Kết quả cài đặt và thực nghiệm .............................................................. 53
KẾT LUẬN VÀ PHƯƠNG HƯỚNG PHÁT TRIỂN .......................................... 58
TÀI LIỆU THAM KHẢO ...................................................................................... 59

Khóa luận tốt nghiệp GVHD: Nguyễn Trung Kiên
3
LỜI CAM ĐOAN
Em là Đặng Phương Nam, MSV 11218471. Em xin cam đoan rằng đề tài: “Xây dựng
hệ thống tóm tắt văn bản tiếng Việt sử dụng mô hình học sâu” là thành quả nghiên
cứu độc lập của riêng em, được thực hiện dưới sự hướng dẫn của thầy Nguyễn Trung
Kiên. Không có bất kỳ sự sao chép nào từ nguồn khác.
Nội dung khóa luận là kết quả của quá trình nỗ lực và làm việc của em. Các số liệu
và kết quả trình bày trong khóa luận đã được thu thập và sử dụng một cách trung
thực. Em xin chịu hoàn toàn trách nhiệm và tuân thủ mọi kỷ luật của bộ môn và nhà
trường nếu có bất kỳ vấn đề nào xảy ra.

