
TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN
VIỆN CÔNG NGHỆ THÔNG TIN VÀ KINH TẾ SỐ
-------***-------
KHÓA LUẬN TỐT NGHIỆP
ĐỀ TÀI:
NGHIÊN CỨU VỀ THUẬT TOÁN PHÂN LỚP NAÏVE BAYES, SVM
VÀ ỨNG DỤNG VÀO VIỆC PHÂN LOẠI EMAILS RÁC
HÀ NỘI - 2024
Tên sinh viên:
Trần Minh Quân
Giảng viên hướng dẫn:
THS.Ngô Thái Hòa

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN
VIỆN CÔNG NGHỆ THÔNG TIN VÀ KINH TẾ SỐ
-------***-------
KHÓA LUẬN TỐT NGHIỆP
ĐỀ TÀI:
NGHIÊN CỨU VỀ THUẬT TOÁN PHÂN LỚP NAÏVE BAYES, SVM
VÀ ỨNG DỤNG VÀO VIỆC PHÂN LOẠI EMAILS RÁC
--------------------------------------------
HÀ NỘI – 2024
Tên sinh viên:
Trần Minh Quân
Mã sinh viên:
11218421
Lớp:
Khoa học máy tính 63
Ngành:
Khoa học máy tính
Khoa
Công nghệ thông tin
Giảng viên hướng dẫn
THS.Ngô Thái Hòa

Mục lục
LỜI MỞ ĐẦU ......................................................................................................... 1
CHƯƠNG 1 : TỔNG QUAN VỀ ĐỀ TÀI .............................................................. 2
1.1 Giới thiệu đề tài ......................................................................................... 2
1.1.1. Tổng quan và lý do chọn đề tài ............................................................... 2
1.1.2. Mục tiêu ................................................................................................. 4
1.1.3. Đối tượng và phạm vi nghiên cứu ........................................................... 5
CHƯƠNG 2 : CƠ SỞ LÝ THUYẾT ....................................................................... 6
2.1. Giới thiệu chung về Trí tuệ nhân tạo và Học máy ...................................... 6
2.2. Lịch sử phát triển của hai thuật toán.......................................................... 7
2.2.1. Thuật toán Naïve Bayes .......................................................................... 7
2.2.2. Thuật toán SVM ..................................................................................... 8
2.3. Định lý Bayes ............................................................................................. 8
2.3.1. Xác suất có điều kiện ............................................................................... 8
2.3.2. Định lý Bayes ......................................................................................... 9
2.4. Bộ phân loại Naïve Bayes ........................................................................ 10
2.4.1.Cơ sở toán học ........................................................................................ 10
2.4.2. Thuật toán Naïve Bayes ........................................................................ 11
2.5. Phân lớp SVM tuyến tính ............................................................................. 12
2.5.1. Giới thiệu về SVM .............................................................................. 12
2.5.2. Siêu phẳng phân tách ............................................................................ 13
2.5.3. Phân lớp SVM tuyến tính ...................................................................... 13
2.6. Kỹ thuật Laplace smoothing ........................................................................ 17
2.7. Kỹ thuật xử lý ngôn ngữ tự nhiên ................................................................. 18
2.7.1.TF-IDF ................................................................................................... 18
2.7.2. CountVectorizer ................................................................................... 19
2.7.3. So sánh giữa TF-IDF và CountVectorizer ............................................. 19
2.8. Một số chỉ số đánh giá mô hình phân loại ................................................ 20
2.8.1. Độ đo chính xác accuracy ...................................................................... 20

2.8.2. Precision ............................................................................................... 20
2.8.3. Recall ................................................................................................... 21
2.8.4. F1-Score ................................................................................................ 21
2.8.5. Kết luận chỉ số phù hợp ......................................................................... 22
2.9.Phương pháp nghiên cứu.............................................................................. 23
2.9.1. Tổng quan về lý thuyết ......................................................................... 23
2.9.2. Thu thập và tiền xử lý dữ liệu ................................................................ 23
2.9.3. Xây dựng mô hình ................................................................................ 23
CHƯƠNG 3 : CÀI ĐẶT VÀ THỬ NGHIỆM ....................................................... 25
3.1. Mô hình đề xuất .......................................................................................... 25
3.1.1. Bộ dữ liệu .............................................................................................. 25
3.1.2. Sơ đồ mô hình train và test .................................................................... 25
3.2. Cài đặt thử nghiệm ..................................................................................... 27
3.2.1. Mô hình Naïve Bayes ............................................................................ 27
3.2.2 Mô hình SVM ....................................................................................... 34
3.2.3 Xây dựng giao diện cho mô hình ........................................................... 37
CHƯƠNG 4: KẾT QUẢ VÀ ĐÁNH GIÁ ............................................................ 41
4.1. Kết quả thực nghiệm .................................................................................... 41
4.1.1. Bộ dữ liệu .............................................................................................. 41
4.1.2. Các bước tiền xử lý dữ liệu .................................................................... 41
4.1.3. Kết quả của bộ phân loại Naïve Bayes ................................................... 44
4.1.4. Kết quả của bộ phân loại SVM .............................................................. 45
4.1.5. So sánh hai thuật toán ............................................................................ 45
4.1.6. Phân tích hiệu suất của TF-IDF và CountVectorizer .............................. 46
4.2. Hạn chế ....................................................................................................... 46
KẾT LUẬN ........................................................................................................... 48
TÀI LIỆU THAM KHẢO ..................................................................................... 49

Danh mục từ viết tắt
Cụm từ viết tắt
Diễn giải
AI (Artificial Intelligence)
Trí tuệ nhân tạo
ML (Machine Learning)
Học máy
SVM (Support Vector Machine)
Máy vec-tơ hỗ trợ
Margin
Mức lề
Email
Thư điện tử
Spam Emails
Các thư rác

