TRƯỜNG ĐẠI HC KINH T QUC DÂN
VIN CÔNG NGH THÔNG TIN VÀ KINH T S
-------***-------
KHÓA LUN TT NGHIP
ĐỀ TÀI:
NGHIÊN CU V THUT TOÁN PHÂN LP NAÏVE BAYES, SVM
NG DNG VÀO VIC PHÂN LOI EMAILS RÁC
HÀ NI - 2024
Tên sinh viên:
Trn Minh Quân
Giảng viên hướng dn:
THS.Ngô Thái Hòa
TRƯỜNG ĐẠI HC KINH T QUC DÂN
VIN CÔNG NGH THÔNG TIN VÀ KINH T S
-------***-------
KHÓA LUN TT NGHIP
ĐỀ TÀI:
NGHIÊN CU V THUT TOÁN PHÂN LP NAÏVE BAYES, SVM
NG DNG VÀO VIC PHÂN LOI EMAILS RÁC
--------------------------------------------
HÀ NI 2024
Tên sinh viên:
Trn Minh Quân
Mã sinh viên:
11218421
Lp:
Khoa hc máy tính 63
Ngành:
Khoa hc máy tính
Khoa
Công ngh thông tin
Giảng viên hướng dn
THS.Ngô Thái Hòa
Mc lc
LI M ĐU ......................................................................................................... 1
CHƯƠNG 1 : TỔNG QUAN V ĐỀ TÀI .............................................................. 2
1.1 Gii thiệu đề tài ......................................................................................... 2
1.1.1. Tng quan và lý do chn đề tài ............................................................... 2
1.1.2. Mc tiêu ................................................................................................. 4
1.1.3. Đối ng và phm vi nghiên cu ........................................................... 5
CHƯƠNG 2 : CƠ SỞ LÝ THUYT ....................................................................... 6
2.1. Gii thiu chung v Trí tu nhân to và Hc máy ...................................... 6
2.2. Lch s phát trin ca hai thut toán.......................................................... 7
2.2.1. Thut toán Naïve Bayes .......................................................................... 7
2.2.2. Thut toán SVM ..................................................................................... 8
2.3. Định lý Bayes ............................................................................................. 8
2.3.1. Xác suất có điều kin ............................................................................... 8
2.3.2. Định lý Bayes ......................................................................................... 9
2.4. B phân loi Naïve Bayes ........................................................................ 10
2.4.1.Cơ sở toán hc ........................................................................................ 10
2.4.2. Thut toán Naïve Bayes ........................................................................ 11
2.5. Phân lp SVM tuyến tính ............................................................................. 12
2.5.1. Gii thiu v SVM .............................................................................. 12
2.5.2. Siêu phng phân tách ............................................................................ 13
2.5.3. Phân lp SVM tuyến tính ...................................................................... 13
2.6. K thut Laplace smoothing ........................................................................ 17
2.7. K thut x lý ngôn ng t nhiên ................................................................. 18
2.7.1.TF-IDF ................................................................................................... 18
2.7.2. CountVectorizer ................................................................................... 19
2.7.3. So sánh gia TF-IDF và CountVectorizer ............................................. 19
2.8. Mt s ch s đánh giá mô hình phân loại ................................................ 20
2.8.1. Độ đo chính xác accuracy ...................................................................... 20
2.8.2. Precision ............................................................................................... 20
2.8.3. Recall ................................................................................................... 21
2.8.4. F1-Score ................................................................................................ 21
2.8.5. Kết lun ch s phù hp ......................................................................... 22
2.9.Phương pháp nghiên cu.............................................................................. 23
2.9.1. Tng quan v thuyết ......................................................................... 23
2.9.2. Thu thp và tin x lý d liu ................................................................ 23
2.9.3. Xây dng mô hình ................................................................................ 23
CHƯƠNG 3 : CÀI ĐT VÀ TH NGHIM ....................................................... 25
3.1. Mô hình đ xut .......................................................................................... 25
3.1.1. B d liu .............................................................................................. 25
3.1.2.đồ mô hình train và test .................................................................... 25
3.2. Cài đặt th nghim ..................................................................................... 27
3.2.1. Mô hình Naïve Bayes ............................................................................ 27
3.2.2 Mô hình SVM ....................................................................................... 34
3.2.3 Xây dng giao din cho mô hình ........................................................... 37
CHƯƠNG 4: KẾT QU VÀ ĐÁNH GIÁ ............................................................ 41
4.1. Kết qu thc nghim .................................................................................... 41
4.1.1. B d liu .............................................................................................. 41
4.1.2. Các bước tin x lý d liu .................................................................... 41
4.1.3. Kết qu ca b phân loi Naïve Bayes ................................................... 44
4.1.4. Kết qu ca b phân loi SVM .............................................................. 45
4.1.5. So sánh hai thut toán ............................................................................ 45
4.1.6. Phân tích hiu sut ca TF-IDF và CountVectorizer .............................. 46
4.2. Hn chế ....................................................................................................... 46
KT LUN ........................................................................................................... 48
TÀI LIU THAM KHO ..................................................................................... 49
Danh mc t viết tt
Cm t viết tt
Din gii
AI (Artificial Intelligence)
Trí tu nhân to
ML (Machine Learning)
Hc máy
SVM (Support Vector Machine)
Máy vec-tơ h tr
Margin
Mc l
Email
Thư điện t
Spam Emails
Các thư rác