TRƯỜNG ĐẠI HC KINH T QUC DÂN
TRƯỜNG CÔNG NGH
----------------
KHÓA LUN TT NGHIP
Nghiên cu và phát trin mô hình hc
máy để phát hin tin nhn spam
Tên sinh viên : Nguyn Vit Quân
Giảng viên hướng dn : ThS. Cao Th Thu Hương
Hà Ni, 5/2025
2024.2 KHOA HC MÁY TÍNH NGUYÊN VIT QUÂN 11218419
TRƯỜNG ĐẠI HC KINH T QUC DÂN
TRƯỜNG CÔNG NGH
----------------
KHÓA LUN TT NGHIP
Nghiên cu và phát trin mô hình hc
máy để phát hin tin nhn spam
Tên sinh viên : Nguyn Vit Quân
Mã sinh viên : 11218419
Lp : Khoa hc máy tính K63
Ngành : Khoa hc máy tính
Khoa : Công ngh thông tin
Giảng viên hướng dn : ThS. Cao Th Thu Hương
(Ch ký GVHD)
Hà Ni, 5/2025
i
MỤC LỤC
MC LC .............................................................................................................. i
LỜI CAM ĐOAN ................................................................................................ iii
DANH MC CÁC T VIT TT .................................................................... iv
DANH MC HÌNH NH .................................................................................... v
M ĐẦU ............................................................................................................... 1
CHƯƠNG 1. TỔNG QUAN V ĐỀ TÀI ........................................................... 2
1.1. Đặt vấn đề .................................................................................................... 2
1.2. Mục đích và phm vi nghiên cu ................................................................. 2
1.2.1. Mục đích nghiên cứu ............................................................................. 2
1.2.2. Phm vi nghiên cu ............................................................................... 3
1.3. Hin trng và nhu cu ng dng .................................................................. 4
1.4. Nghiên cu liên quan ................................................................................... 5
CHƯƠNG 2. NỘI DUNG CHƯƠNG ................................................................. 8
2.1. Tng quan lý thuyết và khái nim liên quan ................................................ 8
2.1.1. Machine Learning (Hc máy) ............................................................... 8
2.1.2. Natural Language Processing (NLP) - X lý Ngôn ng T nhiên ..... 10
2.1.3. Các ch s đánh giá: Accuracy, Precision, Recall, F1-score ............... 13
2.1.4. Embedding (Nhúng) ............................................................................ 16
2.2. Công ngh áp dng .................................................................................... 19
2.2.1. Các mô hình, k thut ct lõi .............................................................. 19
2.2.2. Các thư viện và công c h tr ............................................................ 21
CHƯƠNG 3. Phát trin mô hình hc máy phát hin tin nhn spam ............ 24
3.1. Phương pháp nghiên cứu ........................................................................... 24
3.1.1. Quy trình thu thp và x lý d liu ..................................................... 24
3.1.1.1. Thu thp d liu: ......................................................................... 24
3.1.1.2. Tin x lý d liu: ....................................................................... 25
3.1.2. Mô hình th nghim và đánh giá ........................................................ 27
3.1.2.1. Trích xuất đặc trưng bằng BERT Embedding: ........................... 27
3.1.2.2. Các mô hình hc máy th nghim: ............................................. 29
3.1.2.3. B tiêu chí đánh giá: ................................................................... 29
3.2. Quy trình thc hin chi tiết ........................................................................ 30
ii
3.3. Giao din mô phng ................................................................................... 35
CHƯƠNG 4. Kết qu và tho lun ................................................................... 39
4.1. Kết qu ....................................................................................................... 39
4.1.1. Kết qu mô hình cơ bn ...................................................................... 39
4.1.2. Kết qu mô hình nâng cao ................................................................... 40
4.2. Phân tích và đánh giá kết qu .................................................................... 43
4.3. Tho lun ................................................................................................... 45
4.3.1. Ý nghĩa của kết qu đạt đưc .............................................................. 45
4.3.2. Hn chế và các ci tiến có th thc hin ............................................. 46
KT LUN ......................................................................................................... 49
TÀI LIU THAM KHO ................................................................................. 51
iii
LỜI CAM ĐOAN
Tôi, Nguyn Vit Quân, sinh viên lp Khoa Hc Máy Tính 63, xin cam
đoan rằng toàn b ni dung ca báo cáo là do chính tôi thc hin dưới s ng
dn ca Cô Cao Th Thu Hương và không sao chép t ngun nào khác.
Tt c các tài liu tham khảo được s dng trong khóa luận này đã được
trích dẫn đầy đủ và có ngun gc rõ ràng.
Nếu có bt kì sai phạm nào theo quy định, tôi s hoàn toàn chu trách
nhiệm trước Hi đng chm khóa luận và nhà trưng.
Hà ni, ngày tháng năm 20
Sinh viên
(ký, ghi rõ hn)