
TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN
TRƯỜNG CÔNG NGHỆ
----------------
KHÓA LUẬN TỐT NGHIỆP
Nghiên cứu và phát triển mô hình học
máy để phát hiện tin nhắn spam
Tên sinh viên : Nguyễn Việt Quân
Giảng viên hướng dẫn : ThS. Cao Thị Thu Hương
Hà Nội, 5/2025
2024.2 KHOA HỌC MÁY TÍNH NGUYÊN VIỆT QUÂN 11218419

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN
TRƯỜNG CÔNG NGHỆ
----------------
KHÓA LUẬN TỐT NGHIỆP
Nghiên cứu và phát triển mô hình học
máy để phát hiện tin nhắn spam
Tên sinh viên : Nguyễn Việt Quân
Mã sinh viên : 11218419
Lớp : Khoa học máy tính K63
Ngành : Khoa học máy tính
Khoa : Công nghệ thông tin
Giảng viên hướng dẫn : ThS. Cao Thị Thu Hương
(Chữ ký GVHD)
Hà Nội, 5/2025

i
MỤC LỤC
MỤC LỤC .............................................................................................................. i
LỜI CAM ĐOAN ................................................................................................ iii
DANH MỤC CÁC TỪ VIẾT TẮT .................................................................... iv
DANH MỤC HÌNH ẢNH .................................................................................... v
MỞ ĐẦU ............................................................................................................... 1
CHƯƠNG 1. TỔNG QUAN VỀ ĐỀ TÀI ........................................................... 2
1.1. Đặt vấn đề .................................................................................................... 2
1.2. Mục đích và phạm vi nghiên cứu ................................................................. 2
1.2.1. Mục đích nghiên cứu ............................................................................. 2
1.2.2. Phạm vi nghiên cứu ............................................................................... 3
1.3. Hiện trạng và nhu cầu ứng dụng .................................................................. 4
1.4. Nghiên cứu liên quan ................................................................................... 5
CHƯƠNG 2. NỘI DUNG CHƯƠNG ................................................................. 8
2.1. Tổng quan lý thuyết và khái niệm liên quan ................................................ 8
2.1.1. Machine Learning (Học máy) ............................................................... 8
2.1.2. Natural Language Processing (NLP) - Xử lý Ngôn ngữ Tự nhiên ..... 10
2.1.3. Các chỉ số đánh giá: Accuracy, Precision, Recall, F1-score ............... 13
2.1.4. Embedding (Nhúng) ............................................................................ 16
2.2. Công nghệ áp dụng .................................................................................... 19
2.2.1. Các mô hình, kỹ thuật cốt lõi .............................................................. 19
2.2.2. Các thư viện và công cụ hỗ trợ ............................................................ 21
CHƯƠNG 3. Phát triển mô hình học máy phát hiện tin nhắn spam ............ 24
3.1. Phương pháp nghiên cứu ........................................................................... 24
3.1.1. Quy trình thu thập và xử lý dữ liệu ..................................................... 24
3.1.1.1. Thu thập dữ liệu: ......................................................................... 24
3.1.1.2. Tiền xử lý dữ liệu: ....................................................................... 25
3.1.2. Mô hình thử nghiệm và đánh giá ........................................................ 27
3.1.2.1. Trích xuất đặc trưng bằng BERT Embedding: ........................... 27
3.1.2.2. Các mô hình học máy thử nghiệm: ............................................. 29
3.1.2.3. Bộ tiêu chí đánh giá: ................................................................... 29
3.2. Quy trình thực hiện chi tiết ........................................................................ 30

ii
3.3. Giao diện mô phỏng ................................................................................... 35
CHƯƠNG 4. Kết quả và thảo luận ................................................................... 39
4.1. Kết quả ....................................................................................................... 39
4.1.1. Kết quả mô hình cơ bản ...................................................................... 39
4.1.2. Kết quả mô hình nâng cao ................................................................... 40
4.2. Phân tích và đánh giá kết quả .................................................................... 43
4.3. Thảo luận ................................................................................................... 45
4.3.1. Ý nghĩa của kết quả đạt được .............................................................. 45
4.3.2. Hạn chế và các cải tiến có thể thực hiện ............................................. 46
KẾT LUẬN ......................................................................................................... 49
TÀI LIỆU THAM KHẢO ................................................................................. 51

iii
LỜI CAM ĐOAN
Tôi, Nguyễn Việt Quân, sinh viên lớp Khoa Học Máy Tính 63, xin cam
đoan rằng toàn bộ nội dung của báo cáo là do chính tôi thực hiện dưới sự hướng
dẫn của Cô Cao Thị Thu Hương và không sao chép từ nguồn nào khác.
Tất cả các tài liệu tham khảo được sử dụng trong khóa luận này đã được
trích dẫn đầy đủ và có nguồn gốc rõ ràng.
Nếu có bất kì sai phạm nào theo quy định, tôi sẽ hoàn toàn chịu trách
nhiệm trước Hội đồng chấm khóa luận và nhà trường.
Hà nội, ngày tháng năm 20
Sinh viên
(ký, ghi rõ họ tên)

