ĐẠI HC THÁI NGUYÊN
TRƯỜNG ĐẠI HC CÔNG NGH THÔNG TIN VÀ TRUYN THÔNG
-------o0o-------
PHM TH KIM DUNG
PHÂN LOẠI THƯ RÁC
BẰNG PHƯƠNG PHÁP HỌC MÁY
LUẬN VĂN THẠC SĨ KHOA HC MÁY TÍNH
Thái nguyên, 2015
ĐẠI HC THÁI NGUYÊN
TRƯỜNG ĐẠI HC CÔNG NGH THÔNG TIN VÀ TRUYN THÔNG
-------o0o-------
PHM TH KIM DUNG
PHÂN LOẠI THƯ RÁC
BẰNG PHƯƠNG PHÁP HỌC MÁY
Chuyên ngành: Khoa hc máy tính
Mã s: 60 48 01
LUẬN VĂN THẠC SĨ KHOA HC MÁY TÍNH
NGƯỜI HƯỚNG DN KHOA HC
PGS. TS ĐỖ TRUNG TUN
Thái nguyên, 2015
ii
MỤC LỤC
MC LC ....................................................................................................................... ii
LI CAM KT .............................................................................................................. iv
LI CẢM ƠN ................................................................................................................. v
DANH MC CÁC T VIT TT ............................................................................... vi
DANH MC HÌNH V VÀ BNG BIU .................................................................. vii
M ĐẦU ....................................................................................................................... vii
CHƯƠNG 1.TNG QUAN V HỌC MÁY VÀ THƯ RÁC ........................................ 3
1.1. Tng quan vê ho
c may ......................................................................................... 3
1.1.1 Tri tuê
nhân to .............................................................................................. 3
1.1.2. Hc máy ........................................................................................................ 4
1.1.3. Các kĩ thuật hc máy ..................................................................................... 5
1.1.4. Mt s ng dng ca hc máy ...................................................................... 7
1.1.5. Hc có giám sát ............................................................................................. 7
1.2. Tng quan v thư rác .......................................................................................... 12
1.2.1. Định nghĩa v thư rác và các đặc trưng của thư rác .................................... 12
1.2.2. Phân loại thư rác .......................................................................................... 15
1.2.3. Đặc điểm thư rác ......................................................................................... 15
1.2.4. Tác hi của thư rác ...................................................................................... 16
1.2.5. Quy trình và th đoạn gửi thư rác ............................................................ 17
1.3. Biu din phân loại thư rác dựa trên hc máy có giám sát ................................ 20
1.3.1. Nhu cu phân loại thư rác ........................................................................... 20
1.3.2. Cách biu din ni dung thư rác ................................................................. 23
1.4. Kết luận chương ................................................................................................. 27
CHƯƠNG 2. PHÂN LOẠI THƯ RÁC BẰNG MT S THUT TOÁN HC
MÁY CÓ GIÁM SÁT ................................................................................................... 28
2.1. Thut toán Naïve Bayes ..................................................................................... 28
2.1.1.Gii thiu Thut toán Naïve Bayes .............................................................. 28
2.1.2. Mô t thut toán .......................................................................................... 28
2.1.3. Áp dng trong phân loại thư rác ................................................................. 33
iii
2.2. Học máy theo phương pháp máy vec tơ ta SVM ............................................. 36
2.2.1. Gii thiu SVM ........................................................................................... 36
2.2.2. Mô t thut toán .......................................................................................... 37
2.2.2. Hun luyn SVM......................................................................................... 40
2.2.3. ng dng trong phân loại thư rác ............................................................... 40
2.3. Xây dng mô hình lọc thư rác dựa trên hc máy có giám sát ........................... 41
2.3.1. La chn mô hình và thut toán .................................................................. 41
2.3.2. Xây dng h thng ...................................................................................... 41
2.4. Kết luận chương ................................................................................................. 46
CHƯƠNG 3.CÀI ĐẶT TH NGHM VIC PHÂN LOẠI THƯ RÁC ..................... 47
3.1. Bài toán phân loại thư rác .................................................................................. 47
3.2. Cài đặt th nghim và kết qu ............................................................................ 50
3.2.1. B d liu th nghim ................................................................................. 50
3.2.2. Môi trường cài đặt ....................................................................................... 52
3.2.3. Giao din ca chương trình thử nghim...................................................... 52
3.2.4. Kết qu th nghim ..................................................................................... 54
3.3. Đánh giá thử nghim .......................................................................................... 55
3.4. Kết luận chương ................................................................................................. 56
KT LUN ................................................................................................................... 57
Các kết qu đạt đưc ............................................................................................. 57
ng phát trin luận văn ..................................................................................... 57
DANH MC TÀI LIU THAM KHO ...................................................................... 58
iv
LỜI CAM KẾT
i s giúp đỡ nhit tình và ch bo chi tiết của giáo viên hưng dẫn, tôi đã
hoàn thành luận n ca mình. Tôi xin cam kết luận văn này là của bn thân tôi làm
và nghiên cu, không h trùng hay sao chép ca bt k ai.
Tài liu đưc s dng trong lun văn đưc thu thp t các ngun kiến
thc hp pháp.
Tác gi luận văn
Phm Th Kim Dung