(cid:264)(cid:1188)I H(cid:1232)C QU(cid:1236)C GIA TP. H(cid:1238) CHÍ MINH TR(cid:1132)(cid:1248)NG (cid:264)(cid:1188)I H(cid:1232)C KHOA H(cid:1232)C T(cid:1268) NHIÊN KHOA CÔNG NGH(cid:1226) THÔNG TIN (cid:37)(cid:1244) MÔN H(cid:1226) TH(cid:1236)NG THÔNG TIN
LÊ NGUY(cid:1224)N BÁ DUY –TR(cid:1194)N MINH TRÍ
TÌM HI(cid:1222)U CÁC H(cid:1132)(cid:1246)NG TI(cid:1218)P C(cid:1200)N PHÂN LO(cid:1188)I EMAIL VÀ XÂY D(cid:1268)NG PH(cid:1194)N M(cid:1220)M MAIL CLIENT (cid:43)(cid:1242) TR(cid:1254) TI(cid:1218)NG VI(cid:1226)T
KHOÁ LU(cid:1200)N C(cid:1264) NHÂN TIN H(cid:1232)C
1
TP. HCM, N(cid:258)M 2005
(cid:264)(cid:1188)I H(cid:1232)C QU(cid:1236)C GIA TP. H(cid:1238) CHÍ MINH TR(cid:1132)(cid:1248)NG (cid:264)(cid:1188)I H(cid:1232)C KHOA H(cid:1232)C T(cid:1268) NHIÊN KHOA CÔNG NGH(cid:1226) THÔNG TIN (cid:37)(cid:1244) MÔN H(cid:1226) TH(cid:1236)NG THÔNG TIN
LÊ NGUY(cid:1224)N BÁ DUY -0112050 TR(cid:1194)N MINH TRÍ -0112330
TÌM HI(cid:1222)U CÁC H(cid:1132)(cid:1246)NG TI(cid:1218)P C(cid:1200)N PHÂN LO(cid:1188)I EMAIL VÀ XÂY D(cid:1268)NG PH(cid:1194)N M(cid:1220)M MAIL CLIENT (cid:43)(cid:1242) TR(cid:1254) TI(cid:1218)NG VI(cid:1226)T
KHOÁ LU(cid:1200)N C(cid:1264) NHÂN TIN H(cid:1232)C
GIÁO VIÊN H(cid:1132)(cid:1246)NG D(cid:1198)N
TH(cid:1194)Y LÊ (cid:264)(cid:1260)C DUY NHÂN
2
NIÊN KHÓA 2001-2005
(cid:47)(cid:1248)I C(cid:1190)M (cid:1130)N
Tr(cid:1133)(cid:1247)c tiên, chúng tôi xin chân thành c(cid:1191)m (cid:1131)n th(cid:1195)y Lê (cid:264)(cid:1261)c Duy Nhân, ng(cid:1133)(cid:1249)i
(cid:255)ã h(cid:1133)(cid:1247)ng d(cid:1199)n chúng tôi th(cid:1269)c hi(cid:1227)n (cid:255)(cid:1221) tài này. Nh(cid:1249) có s(cid:1269) h(cid:1133)(cid:1247)ng d(cid:1199)n, ch(cid:1229) b(cid:1191)o t(cid:1201)n tình
c(cid:1259)a th(cid:1195)y, chúng tôi (cid:255)ã hoàn thành khoá lu(cid:1201)n này.
Chúng con xin kính g(cid:1251)i lòng bi(cid:1219)t (cid:1131)n, kính tr(cid:1233)ng c(cid:1259)a chúng con (cid:255)(cid:1219)n ông bà,
cha m(cid:1213) và các ng(cid:1133)(cid:1249)i thân trong gia (cid:255)ình (cid:255)ã h(cid:1219)t lòng nuôi chúng con (cid:259)n h(cid:1233)c, luôn
luôn (cid:1251) bên chúng con,(cid:3)(cid:255)(cid:1245)ng viên giúp (cid:255)(cid:1253) chúng con v(cid:1133)(cid:1255)t qua khó kh(cid:259)n
Chúng em xin c(cid:1191)m (cid:1131)n t(cid:1193)t c(cid:1191) các th(cid:1195)y cô tr(cid:1133)(cid:1249)ng (cid:264)(cid:1189)i h(cid:1233)c Khoa H(cid:1233)c T(cid:1269) Nhiên,
(cid:255)(cid:1211)c bi(cid:1227)t là các th(cid:1195)y cô trong khoa Công Ngh(cid:1227) Thông Tin (cid:255)ã h(cid:1219)t lòng gi(cid:1191)ng d(cid:1189)y,
truy(cid:1221)n (cid:255)(cid:1189)t nhi(cid:1221)u ki(cid:1219)n th(cid:1261)c và kinh nghi(cid:1227)m quý báu cho chúng em. Chúng em c(cid:458)ng
xin chân thành c(cid:1191)m (cid:1131)n khoa Công Ngh(cid:1227) Thông Tin, b(cid:1245) môn H(cid:1227) Th(cid:1237)ng Thông Tin
(cid:255)ã t(cid:1189)o m(cid:1233)i (cid:255)(cid:76)(cid:1221)u ki(cid:1227)n thu(cid:1201)n l(cid:1255)i trong quá trình th(cid:1269)c hi(cid:1227)n khoá lu(cid:1201)n c(cid:1259)a chúng em.
Chúng tôi xin chân thành c(cid:1191)m (cid:1131)n b(cid:1189)n bè trong l(cid:1247)p c(cid:458)ng nh(cid:1133) các anh ch(cid:1231)(cid:3)(cid:255)i
tr(cid:1133)(cid:1247)c (cid:255)ã giúp (cid:255)(cid:1253), (cid:255)óng góp ý ki(cid:1219)n cho chúng tôi.
V(cid:1247)i th(cid:1249)i gian nghiên c(cid:1261)u ng(cid:1203)n, trong vòng 6 tháng và n(cid:259)ng l(cid:1269)c c(cid:1259)a nh(cid:1267)ng
ng(cid:1133)(cid:1249)i làm (cid:255)(cid:1221) tài, ch(cid:1203)c ch(cid:1203)n (cid:255)(cid:1221) tài còn có nhi(cid:1221)u thi(cid:1219)u sót. Chúng tôi r(cid:1193)t mong nh(cid:1201)n
(cid:255)(cid:1133)(cid:1255)c nh(cid:1267)ng góp ý, nh(cid:1201)n xét (cid:255)(cid:1223)(cid:3)(cid:255)(cid:1221) tài (cid:255)(cid:1133)(cid:1255)c hoàn thi(cid:1227)n h(cid:1131)n.
Thành ph(cid:1237) H(cid:1239) Chí Minh
Tháng 7 n(cid:259)m 2005
Nh(cid:1267)ng ng(cid:1133)(cid:1249)i th(cid:1269)c hi(cid:1227)n:
3
Lê Nguy(cid:1225)n Bá Duy – Tr(cid:1195)n Minh Trí.
v M(cid:1257)c l(cid:1257)c:
Ch(cid:1133)(cid:1131)ng 1 : M(cid:1250)(cid:3)(cid:264)(cid:1194)U................................................................................... 9 1.1 Gi(cid:1247)i thi(cid:1227)u: ........................................................................................................... 10 1.2 Yêu c(cid:1195)u bài toán: ................................................................................................. 12 1.3 B(cid:1237) c(cid:1257)c khoá lu(cid:1201)n : ............................................................................................... 12 Ch(cid:1133)(cid:1131)ng 2 : T(cid:1240)NG QUAN ......................................................................... 14 2.1 Các cách th(cid:1261)c con ng(cid:1133)(cid:1249)i x(cid:1265) lý v(cid:1247)i spam :............................................................ 15 2.2 Các ph(cid:1133)(cid:1131)ng pháp ti(cid:1219)p c(cid:1201)n:................................................................................... 16 2.2.1 Complaining to Spammers' ISPs : ................................................................ 16 2.2.2 Mail Blacklists /Whitelists: ........................................................................... 16 2.2.3 Mail volume :............................................................................................... 18 2.2.4 Signature/ Checksum schemes: ..................................................................... 19 2.2.5 Genetic Algorithms:...................................................................................... 20 2.2.6 Rule-Based (hay là Heuristic): ...................................................................... 21 2.2.7 Challenge-Response:..................................................................................... 22 2.2.8 Machine Learning ( Máy h(cid:1233)c ):..................................................................... 23 2.3 Ph(cid:1133)(cid:1131)ng pháp l(cid:1269)a ch(cid:1233)n : ....................................................................................... 24 2.4 Các ch(cid:1229) s(cid:1237)(cid:3)(cid:255)ánh giá hi(cid:1227)u qu(cid:1191) phân lo(cid:1189)i email : ..................................................... 24 2.4.1 Spam Recall và Spam Precision: ................................................................... 24 2.4.2 T(cid:1229) l(cid:1227) l(cid:1243)i Err (Error) và t(cid:1229) l(cid:1227) chính xác Acc(Accuracy) : .................................. 25 2.4.3 T(cid:1229) l(cid:1227) l(cid:1243)i gia tr(cid:1233)ng WErr (Weighted Error ) và t(cid:1229) l(cid:1227) chính xác gia tr(cid:1233)ng (Weighted Accuracy): ............................................................................................................. 25 2.4.4 T(cid:1229) s(cid:1237) chi phí t(cid:1241)ng h(cid:1255)p TCR (Total Cost Ratio ): ............................................ 26
Ch(cid:1133)(cid:1131)ng 3 : GI(cid:1246)I THI(cid:1226)U CÁC KHO NG(cid:1266) LI(cid:1226)U DÙNG KI(cid:1222)M TH(cid:1264) PHÂN LO(cid:1188)I EMAIL................................................................................. 28 3.1 Kho ng(cid:1267) li(cid:1227)u PU (corpus PU ): ............................................................................ 29 3.1.1 Vài nét v(cid:1221) kho ng(cid:1267) li(cid:1227)u PU: .......................................................................... 29 3.1.2 Mô t(cid:1191) c(cid:1193)u trúc kho ng(cid:1267) li(cid:1227)u PU:.................................................................... 30 3.2 Kho ng(cid:1267) li(cid:1227)u email ch(cid:1267):....................................................................................... 31
Ch(cid:1133)(cid:1131)ng 4 : PH(cid:1132)(cid:1130)NG PHÁP PHÂN LO(cid:1188)I NAÏVE BAYESIAN VÀ (cid:1260)NG D(cid:1256)NG PHÂN LO(cid:1188)I EMAIL..................................................................... 33 4.1 M(cid:1245)t vài khái ni(cid:1227)m xác su(cid:1193)t có liên quan............................................................... 34 4.1.1 (cid:264)(cid:1231)nh ngh(cid:429)a bi(cid:1219)n c(cid:1237), xác su(cid:1193)t :........................................................................ 34 4.1.2 Xác su(cid:1193)t có (cid:255)(cid:76)(cid:1221)u ki(cid:1227)n, công th(cid:1261)c xác su(cid:1193)t (cid:255)(cid:1195)y (cid:255)(cid:1259) – công th(cid:1261)c xác su(cid:1193)t Bayes 35 4.2 Ph(cid:1133)(cid:1131)ng pháp phân lo(cid:1189)i Naïve Bayesian : ............................................................. 36 4.3 Phân lo(cid:1189)i email b(cid:1205)ng ph(cid:1133)(cid:1131)ng pháp Naïve Bayesian : ........................................... 37 4.3.1 Phân lo(cid:1189)i email d(cid:1269)a trên thu(cid:1201)t toán Naïve Bayesian ...................................... 38 4.3.2 Ch(cid:1233)n ng(cid:1133)(cid:1253)ng phân lo(cid:1189)i email :...................................................................... 39
5.1 Cài (cid:255)(cid:1211)t ch(cid:1133)(cid:1131)ng trình phân lo(cid:1189)i email d(cid:1269)a trên ph(cid:1133)(cid:1131)ng pháp phân lo(cid:1189)i Naïve Bayesian:................................................................................................................... 42 5.1.1 Khái ni(cid:1227)m “Token” : ..................................................................................... 42 5.1.2 Vector thu(cid:1245)c tính : ........................................................................................ 42 5.1.3 Ch(cid:1233)n ng(cid:1133)(cid:1253)ng phân lo(cid:1189)i : ............................................................................... 43 5.1.4 Cách th(cid:1269)c hi(cid:1227)n : ............................................................................................ 43
4
Ch(cid:1133)(cid:1131)ng 5 : TH(cid:1268)C HI(cid:1226)N VÀ KI(cid:1222)M TH(cid:1264) PHÂN LO(cid:1188)I EMAIL D(cid:1268)A TRÊN PH(cid:1132)(cid:1130)NG PHÁP PHÂN LO(cid:1188)I NAÏVE BAYESIAN...................... 41
5.2 Th(cid:1265) nghi(cid:1227)m hi(cid:1227)u qu(cid:1191) phân lo(cid:1189)i ............................................................................ 51 5.2.1 Th(cid:1265) nghi(cid:1227)m v(cid:1247)i kho ng(cid:1267) li(cid:1227)u pu: .................................................................. 51 5.2.2 Th(cid:1265) nghi(cid:1227)m v(cid:1247)i kho ng(cid:1267) li(cid:1227)u email ch(cid:1267) : ..................................................... 60 5.3 (cid:1132)u – nh(cid:1133)(cid:1255)c (cid:255)(cid:76)(cid:1223)m c(cid:1259)a ph(cid:1133)(cid:1131)ng pháp phân lo(cid:1189)i Naïve Bayesian: ............................ 61 5.3.1 (cid:1132)u (cid:255)(cid:76)(cid:1223)m :...................................................................................................... 61 5.3.2 Khuy(cid:1219)t (cid:255)(cid:76)(cid:1223)m : .............................................................................................. 62
Ch(cid:1133)(cid:1131)ng 6 : PH(cid:1132)(cid:1130)NG PHÁP ADABOOST VÀ (cid:1260)NG D(cid:1256)NG PHÂN LO(cid:1188)I EMAIL ...................................................................................................... 63 6.1 Thu(cid:1201)t toán AdaBoost : ......................................................................................... 64 6.2 AdaBoost trong phân lo(cid:1189)i v(cid:259)n b(cid:1191)n nhi(cid:1221)u l(cid:1247)p :..................................................... 65 Thu(cid:1201)t toán AdaBoost MH phân lo(cid:1189)i v(cid:259)n b(cid:1191)n nhi(cid:1221)u l(cid:1247)p : ........................................ 66 6.3 (cid:1260)ng d(cid:1257)ng AdaBoost trong phân lo(cid:1189)i email: ......................................................... 66 6.3.1 Thu(cid:1201)t toán AdaBoost.MH trong tru(cid:1249)ng h(cid:1255)p phân lo(cid:1189)i nh(cid:1231) phân..................... 67 Gi(cid:1247)i h(cid:1189)n l(cid:1243)i hu(cid:1193)n luy(cid:1227)n sai : ................................................................................. 68 6.3.2 Ph(cid:1133)(cid:1131)ng pháp l(cid:1269)a ch(cid:1233)n lu(cid:1201)t y(cid:1219)u : ................................................................... 70
Ch(cid:1133)(cid:1131)ng 7 : TH(cid:1268)C HI(cid:1226)N VÀ KI(cid:1222)M TH(cid:1264) PHÂN LO(cid:1188)I EMAIL D(cid:1268)A TRÊN PH(cid:1132)(cid:1130)NG PHÁP ADABOOST....................................................... 73 7.1 Cài (cid:255)(cid:1211)t b(cid:1245) phân lo(cid:1189)i email d(cid:1269)a trên ph(cid:1133)(cid:1131)ng pháp AdaBoost: .............................. 74 7.1.1 T(cid:1201)p hu(cid:1193)n luy(cid:1227)n m(cid:1199)u và t(cid:1201)p nhãn : ................................................................. 74 7.1.2 Xây d(cid:1269)ng t(cid:1201)p lu(cid:1201)t y(cid:1219)u ban (cid:255)(cid:1195)u : .................................................................... 75 7.1.3 Th(cid:1259) t(cid:1257)c WeakLearner ch(cid:1233)n lu(cid:1201)t y(cid:1219)u:............................................................. 76 7.1.4 Phân lo(cid:1189)i email : ........................................................................................... 76 7.2 Th(cid:1265) nghi(cid:1227)m hi(cid:1227)u qu(cid:1191) phân lo(cid:1189)i : .......................................................................... 76 7.2.1 Th(cid:1265) nghi(cid:1227)m v(cid:1247)i kho ng(cid:1267) li(cid:1227)u pu: .................................................................. 76 7.2.2 Th(cid:1265) nghi(cid:1227)m v(cid:1247)i kho ng(cid:1267) li(cid:1227)u email ch(cid:1267):....................................................... 79 7.3 (cid:1132)u – nh(cid:1133)(cid:1255)c (cid:255)(cid:76)(cid:1223)m c(cid:1259)a ph(cid:1133)(cid:1131)ng pháp phân lo(cid:1189)i AdaBoost:..................................... 80 7.3.1 (cid:1132)u (cid:255)(cid:76)(cid:1223)m :...................................................................................................... 80 7.3.2 Khuy(cid:1219)t (cid:255)(cid:76)(cid:1223)m : .............................................................................................. 80 Ch(cid:1133)(cid:1131)ng 8 : XÂY D(cid:1268)NG CH(cid:1132)(cid:1130)NG TRÌNH MAIL CLIENT TI(cid:1218)NG VI(cid:1226)T H(cid:1242) TR(cid:1254) PHÂN LO(cid:1188)I EMAIL ................................................................. 82 8.1 Ch(cid:1261)c n(cid:259)ng: .......................................................................................................... 83 8.2 Xây d(cid:1269)ng b(cid:1245) l(cid:1233)c email spam :.............................................................................. 83 8.3 T(cid:1241) ch(cid:1261)c d(cid:1267) li(cid:1227)u cho ch(cid:1133)(cid:1131)ng trình : ...................................................................... 84 8.4 Giao di(cid:1227)n ng(cid:1133)(cid:1249)i dùng : ........................................................................................ 85 8.4.1 S(cid:1131)(cid:3)(cid:255)(cid:1239) màn hình : ........................................................................................... 85 8.4.2 M(cid:1245)t s(cid:1237) màn hình chính :................................................................................ 85 Ch(cid:1133)(cid:1131)ng 9 : T(cid:1240)NG K(cid:1218)T VÀ H(cid:1132)(cid:1246)NG PHÁT TRI(cid:1222)N ............................... 94 9.1 Các vi(cid:1227)c (cid:255)ã th(cid:1269)c hi(cid:1227)n (cid:255)(cid:1133)(cid:1255)c : ................................................................................ 95 9.2 H(cid:1133)(cid:1247)ng c(cid:1191)i ti(cid:1219)n, m(cid:1251) r(cid:1245)ng : .................................................................................... 95 9.2.1 V(cid:1221) phân lo(cid:1189)i và l(cid:1233)c email spam:.................................................................... 95 9.2.2 V(cid:1221) ch(cid:1133)(cid:1131)ng trình Mail Client: ........................................................................ 96 TÀI LI(cid:1226)U THAM KH(cid:1190)O.......................................................................... 97 Ti(cid:1219)ng Vi(cid:1227)t : ............................................................................................................... 97 Ti(cid:1219)ng Anh : ............................................................................................................... 97
5
Ph(cid:1257) l(cid:1257)c....................................................................................................... 99
6
Ph(cid:1257) l(cid:1257)c 1 : K(cid:1219)t qu(cid:1191) th(cid:1265) nghi(cid:1227)m phân lo(cid:1189)i email b(cid:1205)ng ph(cid:1133)(cid:1131)ng pháp Bayesian v(cid:1247)i kho ng(cid:1267) li(cid:1227)u h(cid:1233)c và ki(cid:1223)m th(cid:1265) pu.......................................................... 99 Ph(cid:1257) l(cid:1257)c 2 : K(cid:1219)t qu(cid:1191) th(cid:1265) nghi(cid:1227)m phân lo(cid:1189)i email b(cid:1205)ng ph(cid:1133)(cid:1131)ng pháp AdaBoost v(cid:1247)i kho ng(cid:1267) li(cid:1227)u h(cid:1233)c và ki(cid:1223)m th(cid:1265) pu ........................................103 1. K(cid:1219)t qu(cid:1191) th(cid:1269)c hi(cid:1227)n v(cid:1247)i thu(cid:1201)t toán AdaBoost with real value predictions ..................................................................................................................103 2. K(cid:1219)t qu(cid:1191) th(cid:1269)c hi(cid:1227)n v(cid:1247)i thu(cid:1201)t toán AdaBoost with discrete predictions 105
Danh m(cid:1257)c các hình v(cid:1217):
Hình 3-1Email sau khi tách token và mã hoá (trong kho ng(cid:1267) li(cid:1227)u pu) ..................29
Hình 5-1Mô t(cid:1191) c(cid:1193)u trúc b(cid:1191)ng b(cid:259)m.........................................................................48
l =
9
Hình 5-2 L(cid:1133)(cid:1255)c (cid:255)(cid:1239) so sánh các ch(cid:1229) s(cid:1237) spam recall (SR) và spam precision (SP) theo
s(cid:1237) token th(cid:1265) nghi(cid:1227)m trên kho ng(cid:1267) li(cid:1227)u PU1 v(cid:1247)i công th(cid:1261)c 5-7 ( ) .........53
l =
Hình 5-3 L(cid:1133)(cid:1255)c (cid:255)(cid:1239) ch(cid:1229) s(cid:1237) TCR theo s(cid:1237) token th(cid:1265) nghi(cid:1227)m trên kho ng(cid:1267) li(cid:1227)u PU1 v(cid:1247)i
9
) .....................................................................................53 công th(cid:1261)c 5-7 (
l =
9
Hình 5-4 L(cid:1133)(cid:1255)c (cid:255)(cid:1239) so sánh các ch(cid:1229) s(cid:1237) spam recall (SR) và spam precision (SP) theo
s(cid:1237) token th(cid:1265) nghi(cid:1227)m trên kho ng(cid:1267) li(cid:1227)u PU2 v(cid:1247)i công th(cid:1261)c 5-5 ( ) ..........55
l =
9
Hình 5-5 L(cid:1133)(cid:1255)c (cid:255)(cid:1239) ch(cid:1229) s(cid:1237) TCR theo s(cid:1237) token th(cid:1265) nghi(cid:1227)m trên kho ng(cid:1267) li(cid:1227)u PU2
v(cid:1247)i công th(cid:1261)c 5-5 ( ) ...............................................................................55
l =
9
Hình 5-6 L(cid:1133)(cid:1255)c (cid:255)(cid:1239) so sánh các ch(cid:1229) s(cid:1237) spam recall (SR) và spam precision (SP) theo
s(cid:1237) token th(cid:1265) nghi(cid:1227)m trên kho ng(cid:1267) li(cid:1227)u PU3 v(cid:1247)i công th(cid:1261)c 5-6 ( ) ..........57
l =
9
Hình 5-7 L(cid:1133)(cid:1255)c (cid:255)(cid:1239) ch(cid:1229) s(cid:1237) TCR theo s(cid:1237) token th(cid:1265) nghi(cid:1227)m trên kho ng(cid:1267) li(cid:1227)u PU3 v(cid:1247)i
công th(cid:1261)c 5-6 ( ) .....................................................................................57
l =
9
Hình 5-8 L(cid:1133)(cid:1255)c (cid:255)(cid:1239) so sánh các ch(cid:1229) s(cid:1237) spam recall (SR) và spam precision (SP) theo
) .........59 s(cid:1237) token th(cid:1265) nghi(cid:1227)m trên kho ng(cid:1267) li(cid:1227)u PUA v(cid:1247)i công th(cid:1261)c 5-5 (
l =
9
Hình 5-9 L(cid:1133)(cid:1255)c (cid:255)(cid:1239) ch(cid:1229) s(cid:1237) TCR theo s(cid:1237) token th(cid:1265) nghi(cid:1227)m trên kho ng(cid:1267) li(cid:1227)u PUA
7
) ...............................................................................59 v(cid:1247)i công th(cid:1261)c 5-5 (
Danh m(cid:1257)c các b(cid:1191)ng:
B(cid:1191)ng 3-1Mô t(cid:1191) c(cid:1193)u trúc kho ng(cid:1267) li(cid:1227)u PU...............................................................31
B(cid:1191)ng 5-1 K(cid:1219)t qu(cid:1191) ki(cid:1223)m th(cid:1265) phân l(cid:1233)ai email b(cid:1205)ng ph(cid:1133)(cid:1131)ng pháp phân l(cid:1233)ai Naïve
Bayesian trên kho ng(cid:1267) li(cid:1227)u PU1 .....................................................................52
B(cid:1191)ng 5-2 K(cid:1219)t qu(cid:1191) ki(cid:1223)m th(cid:1265) phân l(cid:1233)ai email b(cid:1205)ng ph(cid:1133)(cid:1131)ng pháp phân l(cid:1233)ai Naïve
Bayesian trên kho ng(cid:1267) li(cid:1227)u PU2 .....................................................................54
B(cid:1191)ng 5-3 K(cid:1219)t qu(cid:1191) ki(cid:1223)m th(cid:1265) phân l(cid:1233)ai email b(cid:1205)ng ph(cid:1133)(cid:1131)ng pháp phân l(cid:1233)ai Naïve
Bayesian trên kho ng(cid:1267) li(cid:1227)u PU3 .....................................................................56
B(cid:1191)ng 5-4 K(cid:1219)t qu(cid:1191) ki(cid:1223)m th(cid:1265) phân l(cid:1233)ai email b(cid:1205)ng ph(cid:1133)(cid:1131)ng pháp phân l(cid:1233)ai Naïve
Bayesian trên kho ng(cid:1267) li(cid:1227)u PUA ....................................................................58
B(cid:1191)ng 5-5 K(cid:1219)t qu(cid:1191) ki(cid:1223)m th(cid:1265) phân l(cid:1233)ai email b(cid:1205)ng ph(cid:1133)(cid:1131)ng pháp phân l(cid:1233)ai Bayesian
trên kho ng(cid:1267) li(cid:1227)u email ch(cid:1267) ............................................................................61
B(cid:1191)ng 7-1 K(cid:1219)t qu(cid:1191) th(cid:1265) nghi(cid:1227)m phân lo(cid:1189)i email v(cid:1247)i ng(cid:1267) li(cid:1227)u s(cid:1237) PU b(cid:1205)ng thu(cid:1201)t toán
AdaBoost with real -value predictions............................................................77
B(cid:1191)ng 7-2 K(cid:1219)t qu(cid:1191) th(cid:1265) nghi(cid:1227)m phân lo(cid:1189)i email v(cid:1247)i ng(cid:1267) li(cid:1227)u s(cid:1237) PU b(cid:1205)ng thu(cid:1201)t toán
AdaBoost with discrete predictions ................................................................77
B(cid:1191)ng 7-3 k(cid:1219)t qu(cid:1191) th(cid:1265) nghi(cid:1227)m phân lo(cid:1189)i email v(cid:1247)i ng(cid:1267) li(cid:1227)u email ch(cid:1267) b(cid:1205)ng thu(cid:1201)t
toán AdaBoost with real-value predictions .....................................................79
B(cid:1191)ng 7-4 K(cid:1219)t qu(cid:1191) th(cid:1265) nghi(cid:1227)m phân lo(cid:1189)i email v(cid:1247)i ng(cid:1267) li(cid:1227)u email ch(cid:1267) b(cid:1205)ng thu(cid:1201)t
8
toán AdaBoost with discrete predictions.........................................................80
Ch(cid:1133)(cid:1131)ng 1 : M(cid:1250)(cid:3)(cid:264)(cid:1194)U
9
1.1 Gi(cid:1247)i thi(cid:1227)u:
Th(cid:1249)i (cid:255)(cid:1189)i ngày nay là th(cid:1249)i (cid:255)(cid:1189)i bùng n(cid:1241) thông tin, Internet (cid:255)ã tr(cid:1251) nên quen
thu(cid:1245)c và không th(cid:1223) thi(cid:1219)u (cid:255)(cid:1237)i v(cid:1247)i m(cid:1243)i qu(cid:1237)c gia và xã h(cid:1245)i. Liên l(cid:1189)c qua Internet (cid:255)ã tr(cid:1251)
nên ph(cid:1241) bi(cid:1219)n, và email là m(cid:1245)t ph(cid:1133)(cid:1131)ng ti(cid:1227)n liên l(cid:1189)c có chi phí th(cid:1193)p, nhanh chóng và
hi(cid:1227)u qu(cid:1191) nh(cid:1193)t trên Internet. H(cid:1205)ng ngày m(cid:1243)i ng(cid:1133)(cid:1249)i s(cid:1265) d(cid:1257)ng email (cid:255)(cid:1221)u nh(cid:1201)n (cid:255)(cid:1133)(cid:1255)c m(cid:1245)t
(cid:79)(cid:1133)(cid:1255)ng l(cid:1247)n email, tuy nhiên không ph(cid:1191)i t(cid:1193)t c(cid:1191) các email mà ta nh(cid:1201)n (cid:255)(cid:1133)(cid:1255)c (cid:255)(cid:1221)u ch(cid:1261)a
thông tin mà ta quan tâm. Nh(cid:1267)ng email mà ta không mu(cid:1237)n nh(cid:1201)n (cid:1193)y là email Spam.
Ng(cid:1133)(cid:1255)c l(cid:1189)i, nh(cid:1267)ng email không ph(cid:1191)i là spam g(cid:1233)i là non-spam – email h(cid:1255)p l(cid:1227)(cid:3)(cid:255)(cid:1133)(cid:1255)c
ng(cid:1133)(cid:1249)idùng ch(cid:1193)p nh(cid:1201)n.
Spam chính là nh(cid:1267)ng email (cid:255)(cid:1133)(cid:1255)c phát tán m(cid:1245)t cách r(cid:1245)ng rãi không theo b(cid:1193)t
c(cid:1261) m(cid:1245)t yêu c(cid:1195)u nào c(cid:1259)a ng(cid:1133)(cid:1249)i nh(cid:1201)n v(cid:1247)i s(cid:1237) l(cid:1133)(cid:1255)ng l(cid:1247)n (unsolicited bulk email
(UBE)), hay nh(cid:1267)ng email qu(cid:1191)ng cáo (cid:255)(cid:1133)(cid:1255)c g(cid:1251)i mà không có yêu c(cid:1195)u c(cid:1259)a ng(cid:1133)(cid:1249)i nh(cid:1201)n
(unsolicited commercial email (UCE)) [1].
Nhi(cid:1221)u ng(cid:1133)(cid:1249)i trong chúng ta ngh(cid:429) r(cid:1205)ng spam là m(cid:1245)t v(cid:1193)n (cid:255)(cid:1221) m(cid:1247)i, nh(cid:1133)ng th(cid:1269)c
ra nó (cid:255)ã xu(cid:1193)t hi(cid:1227)n khá lâu – ít nh(cid:1193)t là t(cid:1263) n(cid:259)m 1975. Vào lúc kh(cid:1251)i th(cid:1259)y, ng(cid:1133)(cid:1249)i dùng
h(cid:1195)u h(cid:1219)t là các chuyên gia v(cid:1221) máy tính, h(cid:1233) có th(cid:1223) g(cid:1251)i hàng tá th(cid:1201)m chí hàng tr(cid:259)m
email (cid:255)(cid:1219)n các nhóm tin (newsgroup) và spam h(cid:1195)u nh(cid:1133) ch(cid:1229) liên quan (cid:255)(cid:1219)n các email
g(cid:1251)i (cid:255)(cid:1219)n các nhóm tin Usenet, gây ra tình tr(cid:1189)ng không th(cid:1223) ki(cid:1223)m soát (cid:255)(cid:1133)(cid:1255)c các email
nh(cid:1201)n. Sau (cid:255)ó các bi(cid:1227)n pháp tr(cid:1263)ng tr(cid:1231) v(cid:1221) m(cid:1211)t xã h(cid:1245)i và hành chính (cid:255)ã có tác d(cid:1257)ng,
th(cid:1259) ph(cid:1189)m (cid:255)ã b(cid:1231) tr(cid:1263)ng ph(cid:1189)t , công khai hay bí m(cid:1201)t, nh(cid:1267)ng ng(cid:1133)(cid:1249)i này nhanh chóng
(cid:255)(cid:1133)(cid:1255)c (cid:255)(cid:1133)a vào m(cid:1245)t danh sách, và m(cid:1245)t k(cid:429) thu(cid:1201)t l(cid:1233)c spam s(cid:1247)m nh(cid:1193)t xu(cid:1193)t hi(cid:1227)n (cid:255)ó là
”bad sender” – l(cid:1233)c email c(cid:1259)a nh(cid:1267)ng ng(cid:1133)(cid:1249)i g(cid:1251)i (cid:255)(cid:1133)(cid:1255)c xem là x(cid:1193)u.
WWW(World-Wide Web) (cid:255)ã mang th(cid:1219) gi(cid:1247)i Internet (cid:255)(cid:1219)n nhi(cid:1221)u ng(cid:1133)(cid:1249)i, và h(cid:1227)
qu(cid:1191) c(cid:1259)a nó là nhi(cid:1221)u ng(cid:1133)(cid:1249)i không ph(cid:1191)i là chuyên gia trong th(cid:1219) gi(cid:1247)i máy tính c(cid:458)ng
(cid:255)(cid:1133)(cid:1255)c ti(cid:1219)p xúc nhi(cid:1221)u v(cid:1247)i Internet, nó cho phép truy c(cid:1201)p (cid:255)(cid:1219)n nh(cid:1267)ng thông tin và d(cid:1231)ch
v(cid:1257) mà tr(cid:1133)(cid:1247)c (cid:255)ây là không (cid:255)(cid:1133)(cid:1255)c phép. Ch(cid:1229) trong vòng 2-3 n(cid:259)m chúng ta (cid:255)ã ch(cid:1261)ng
ki(cid:1219)n s(cid:1269) bùng n(cid:1241) s(cid:1237) ng(cid:1133)(cid:1249)i s(cid:1265) d(cid:1257)ng Internet và t(cid:1193)t nhiên là nh(cid:1267)ng c(cid:1131) h(cid:1245)i qu(cid:1191)ng cáo
10
trên (cid:255)(cid:1193)y. Và spam (cid:255)ã phát tri(cid:1223)n m(cid:1245)t cách nhanh chóng t(cid:1263)(cid:3)(cid:255)ây, nh(cid:1267)ng k(cid:429) thu(cid:1201)t ng(cid:259)n
ch(cid:1211)n spam tr(cid:1133)(cid:1247)c (cid:255)ây (cid:255)ã không còn thích h(cid:1255)p. Spam th(cid:1133)(cid:1249)ng theo sau nh(cid:1267)ng qu(cid:1191)ng
cáo th(cid:1133)(cid:1131)ng m(cid:1189)i chèo kéo khách hàng ( nh(cid:1267)ng email qu(cid:1191)ng cáo th(cid:1133)(cid:1131)ng m(cid:1189)i (cid:255)(cid:1133)(cid:1255)c g(cid:1251)i
mà không có yêu c(cid:1195)u ) [2]. Spam (cid:255)ã và (cid:255)ang gây tác h(cid:1189)i (cid:255)(cid:1219)n ng(cid:1133)(cid:1249)i s(cid:1265) d(cid:1257)ng Internet
và t(cid:1237)c (cid:255)(cid:1245)(cid:3)(cid:255)(cid:1133)(cid:1249)ng truy(cid:1221)n Internet. V(cid:1247)i ng(cid:1133)(cid:1249)i s(cid:1265) d(cid:1257)ng email, spam gây cho h(cid:1233) c(cid:1191)m
giác b(cid:1269)c b(cid:1245)i và ph(cid:1191)i m(cid:1193)t th(cid:1249)i gian và ti(cid:1221)n b(cid:1189)c (cid:255)(cid:1223) xóa chúng,(cid:3)(cid:255)ôi khi h(cid:1233) có th(cid:1223) b(cid:1231)
m(cid:1193)t nh(cid:1267)ng email quan tr(cid:1233)ng ch(cid:1229) vì xóa nh(cid:1195)m, t(cid:1237)c (cid:255)(cid:1245) trên m(cid:1189)ng x(cid:1133)(cid:1131)ng s(cid:1237)ng c(cid:1259)a
Internet (Internet Backbone) c(cid:458)ng b(cid:1231) spam là cho ch(cid:1201)m l(cid:1189)i vì s(cid:1237) l(cid:1133)(cid:1255)ng spam (cid:255)(cid:1133)(cid:1255)c
chuy(cid:1223)n (cid:255)i trên m(cid:1189)ng là c(cid:1269)c l(cid:1247)n [3]. Theo th(cid:1237)ng kê c(cid:1259)a ZDNet (cid:1251) th(cid:1249)i (cid:255)(cid:76)(cid:1223)m n(cid:259)m
2004, m(cid:1243)i ngày có kho(cid:1191)ng 4 t(cid:1273) email spam (cid:255)(cid:1133)(cid:1255)c phát tán qua Internet, trên 40% (cid:79)(cid:1133)(cid:1255)ng email trên m(cid:1189)ng là spam1, g(cid:1195)n (cid:255)ây (cid:255)ã (cid:255)(cid:1189)t con s(cid:1237) 50%2. Cho dù (cid:255)(cid:1133)(cid:1255)c nh(cid:1201)n
di(cid:1227)n là “k(cid:1215) thù c(cid:1259)a c(cid:1245)ng (cid:255)(cid:1239)ng“(“public enemy”) Internet, nh(cid:1133)ng spam (cid:255)ã và (cid:255)ang
mang l(cid:1189)i l(cid:1255)i nhu(cid:1201)n. Trong s(cid:1237) 100.000 email spam phát tán, ch(cid:1229) c(cid:1195)n m(cid:1245)t email có
ph(cid:1191)n h(cid:1239)i là (cid:255)ã có th(cid:1223) bù (cid:255)(cid:1203)p chi phí (cid:255)(cid:1195)u t(cid:1133) [4].
(cid:264)(cid:1223) ng(cid:259)n ch(cid:1211)n spam, nhi(cid:1221)u nhà khoa h(cid:1233)c, các t(cid:1241) ch(cid:1261)c, các cá nhân (cid:255)ã nghiên
c(cid:1261)u và phát tri(cid:1223)n nh(cid:1267)ng k(cid:429) thu(cid:1201)t phân lo(cid:1189)i và l(cid:1233)c email, tuy nhiên các spammer -
nh(cid:1267)ng ng(cid:1133)(cid:1249)i t(cid:1189)o nên spam và phát tán chúng c(cid:458)ng tìm m(cid:1233)i cách v(cid:1133)(cid:1255)t qua các b(cid:1245) l(cid:1233)c
này. Cu(cid:1245)c chi(cid:1219)n gi(cid:1267)a các spammer và nh(cid:1267)ng ng(cid:1133)(cid:1249)i ch(cid:1237)ng spam v(cid:1199)n còn (cid:255)ang ti(cid:1219)p
di(cid:1225)n và d(cid:1133)(cid:1249)ng nh(cid:1133) không có h(cid:1239)i k(cid:1219)t. Th(cid:1269)c t(cid:1219) cho th(cid:1193)y, nhu c(cid:1195)u có m(cid:1245)t ph(cid:1133)(cid:1131)ng
pháp và công c(cid:1257) ch(cid:1237)ng spam h(cid:1267)u hi(cid:1227)u là r(cid:1193)t c(cid:1195)n thi(cid:1219)t.
Xu(cid:1193)t phát t(cid:1263) th(cid:1269)c tr(cid:1189)ng (cid:255)ó, nhóm chúng tôi ch(cid:1233)n h(cid:1133)(cid:1247)ng nghiên c(cid:1261)u ”Tìm
hi(cid:1223)u các h(cid:1133)(cid:1247)ng ti(cid:1219)p c(cid:1201)n cho bài toán phân lo(cid:1189)i email và xây d(cid:1269)ng ph(cid:1195)n m(cid:1221)m
Mail Client h(cid:1243) tr(cid:1255) ti(cid:1219)ng Vi(cid:1227)t “ v(cid:1247)i m(cid:1257)c (cid:255)ích tìm hi(cid:1223)u, th(cid:1265) nghi(cid:1227)m các ph(cid:1133)(cid:1131)ng
pháp ti(cid:1219)p c(cid:1201)n cho bài toán phân lo(cid:1189)i email , t(cid:1263) (cid:255)ó th(cid:1269)c hi(cid:1227)n phân lo(cid:1189)i email giúp
1 http://zdnet.com.com/2100-1106-955842.html 2 http://zdnet.com.com/2100-1105_2-1019528.html
11
ng(cid:259)n ch(cid:1211)n email spam hi(cid:1227)u qu(cid:1191).
1.2 Yêu c(cid:1195)u bài toán:
Yêu c(cid:1195)u (cid:255)(cid:1237)i v(cid:1247)i m(cid:1245)t h(cid:1227) th(cid:1237)ng phân lo(cid:1189)i email và ng(cid:259)n ch(cid:1211)n email spam
(cid:255)(cid:1133)(cid:1131)ng nhiên là phân lo(cid:1189)i (cid:255)(cid:1133)(cid:1255)c email là spam hay non-spam, t(cid:1263)(cid:3)(cid:255)ó s(cid:1217) có bi(cid:1227)n pháp
ng(cid:259)n ch(cid:1211)n email spam, hi(cid:1227)u qu(cid:1191) phân lo(cid:1189)i email ph(cid:1191)i kh(cid:1191) quan, tuy nhiên không th(cid:1223)
(cid:255)ánh (cid:255)(cid:1241)i hi(cid:1227)u qu(cid:1191) phân lo(cid:1189)i email spam cao mà b(cid:1235) qua l(cid:1243)i sai cho r(cid:1205)ng email non-
spam là spam, b(cid:1251)i vì cùng v(cid:1247)i vi(cid:1227)c t(cid:259)ng kh(cid:1191) n(cid:259)ng phân lo(cid:1189)i email spam thì kh(cid:1191) n(cid:259)ng
x(cid:1191)y ra l(cid:1243)i nh(cid:1201)n nh(cid:1195)m email non-spam thành email spam c(cid:458)ng t(cid:259)ng theo. Do (cid:255)ó yêu
c(cid:1195)u (cid:255)(cid:1237)i v(cid:1247)i m(cid:1245)t h(cid:1227) th(cid:1237)ng phân lo(cid:1189)i email spam là ph(cid:1191)i nh(cid:1201)n ra (cid:255)(cid:1133)(cid:1255)c email spam
càng nhi(cid:1221)u càng t(cid:1237)t và gi(cid:1191)m thi(cid:1223)u l(cid:1243)i nh(cid:1201)n sai email non-spam là email spam.
1.3 B(cid:1237) c(cid:1257)c khoá lu(cid:1201)n :
Chúng tôi chia khoá lu(cid:1201)n làm 9 ch(cid:1133)(cid:1131)ng
§ Ch(cid:1133)(cid:1131)ng 1 Gi(cid:1247)i thi(cid:1227)u v(cid:1221)(cid:3)(cid:255)(cid:1221) tài, bài toán phân lo(cid:1189)i email.
§ Ch(cid:1133)(cid:1131)ng 2 T(cid:1241)ng quan : trình bày m(cid:1245)t s(cid:1237) h(cid:1133)(cid:1247)ng ti(cid:1219)p c(cid:1201)n phân lo(cid:1189)i email
và ch(cid:1237)ng email spam,(cid:3)(cid:255)(cid:1239)ng th(cid:1249)i có s(cid:1269) nh(cid:1201)n xét (cid:255)ánh giá các ph(cid:1133)(cid:1131)ng
pháp, t(cid:1263)(cid:3)(cid:255)ó có c(cid:1131) s(cid:1251)(cid:3)(cid:255)(cid:1223) ch(cid:1233)n l(cid:1269)a h(cid:1133)(cid:1247)ng ti(cid:1219)p c(cid:1201)n gi(cid:1191)i quy(cid:1219)t v(cid:1193)n (cid:255)(cid:1221).
§ Ch(cid:1133)(cid:1131)ng 3 : Gi(cid:1247)i thi(cid:1227)u và mô t(cid:1191) v(cid:1221) c(cid:1131) s(cid:1251) d(cid:1267) li(cid:1227)u dùng (cid:255)(cid:1223) h(cid:1233)c và ki(cid:1223)m th(cid:1265)
Hai ch(cid:1133)(cid:1131)ng ti(cid:1219)p theo, chúng tôi trình bày c(cid:1131) s(cid:1251) lý thuy(cid:1219)t và th(cid:1269)c hi(cid:1227)n
phân lo(cid:1189)i email theo ph(cid:1133)(cid:1131)ng pháp Bayesian.
§ Ch(cid:1133)(cid:1131)ng 4: Trình bày c(cid:1131) s(cid:1251) lý thuy(cid:1219)t cho h(cid:1133)(cid:1247)ng ti(cid:1219)p c(cid:1201)n d(cid:1269)a trên ph(cid:1133)(cid:1131)ng
pháp Bayesian.
§ Ch(cid:1133)(cid:1131)ng 5: Th(cid:1269)c hi(cid:1227)n phân lo(cid:1189)i email d(cid:1133)(cid:1189) trên ph(cid:1133)(cid:1131)ng pháp Bayesian và
ki(cid:1223)m th(cid:1265).
Hai ch(cid:1133)(cid:1131)ng ti(cid:1219)p theo, chúng tôi trình bày c(cid:1131) s(cid:1251) lý thuy(cid:1219)t và th(cid:1269)c hi(cid:1227)n
phân lo(cid:1189)i email theo ph(cid:1133)(cid:1131)ng pháp AdaBoost
§ Ch(cid:1133)(cid:1131)ng 6: Trình bày c(cid:1131) s(cid:1251) lý thuy(cid:1219)t cho h(cid:1133)(cid:1247)ng ti(cid:1219)p c(cid:1201)n d(cid:1269)a trên thu(cid:1201)t
toán AdaBoost.
§ Ch(cid:1133)(cid:1131)ng 7: Th(cid:1269)c hi(cid:1227)n phân lo(cid:1189)i d(cid:1133)(cid:1189) trên ph(cid:1133)(cid:1131)ng pháp AdaBoost và ki(cid:1223)m
12
th(cid:1265).
§ Ch(cid:1133)(cid:1131)ng 8: Xây d(cid:1269)ng ph(cid:1195)n m(cid:1221)m email Client ti(cid:1219)ng Vi(cid:1227)t h(cid:1243) tr(cid:1255) phân lo(cid:1189)i
§ Ch(cid:1133)(cid:1131)ng 9: T(cid:1241)ng k(cid:1219)t, trình bày v(cid:1221) nh(cid:1267)ng v(cid:1193)n (cid:255)(cid:1221)(cid:3)(cid:255)ã th(cid:1269)c hi(cid:1227)n, nh(cid:1267)ng k(cid:1219)t
13
qu(cid:1191)(cid:3)(cid:255)(cid:1189)t (cid:255)(cid:1133)(cid:1255)c,(cid:3)(cid:255)(cid:1221) xu(cid:1193)t h(cid:1133)(cid:1247)ng m(cid:1251) r(cid:1245)ng, phát tri(cid:1223)n trong t(cid:1133)(cid:1131)ng lai.
Ch(cid:1133)(cid:1131)ng 2 : T(cid:1240)NG QUAN
14
2.1 Các cách th(cid:1261)c con ng(cid:1133)(cid:1249)i x(cid:1265) lý v(cid:1247)i spam :
Trên th(cid:1219) gi(cid:1247)i (cid:255)ã có nhi(cid:1221)u t(cid:1241) ch(cid:1261)c, công ty phát tri(cid:1223)n nhi(cid:1221)u cách th(cid:1261)c khác
nhau (cid:255)(cid:1223) gi(cid:1191)i quy(cid:1219)t v(cid:1193)n (cid:255)(cid:1221) spam. Có nhi(cid:1221)u h(cid:1227) th(cid:1237)ng (cid:255)(cid:1133)(cid:1255)c xây d(cid:1269)ng s(cid:1209)n m(cid:1245)t “danh
sách (cid:255)en” (Blacklist ) ch(cid:1261)a các tên mi(cid:1221)n mà t(cid:1263)(cid:3)(cid:255)ó spam (cid:255)(cid:1133)(cid:1255)c t(cid:1189)o ra và phát tán, và
d(cid:429) nhiên là các email (cid:255)(cid:1219)n t(cid:1263) các tên mi(cid:1221)n này hoàn toàn b(cid:1231) khóa (block out). M(cid:1245)t s(cid:1237)
h(cid:1227) th(cid:1237)ng c(cid:259)n c(cid:1261) vào header c(cid:1259)a email (nh(cid:1267)ng tr(cid:1133)(cid:1249)ng nh(cid:1133) n(cid:1131)i g(cid:1251)i (from ), tiêu (cid:255)(cid:1221)
(subject)..) và lo(cid:1189)i b(cid:1235) nh(cid:1267)ng email có (cid:255)(cid:1231)a ch(cid:1229) xu(cid:1193)t phát t(cid:1263) nh(cid:1267)ng spammer (ng(cid:1133)(cid:1249)i
phát tán spam). Vài h(cid:1227) th(cid:1237)ng khác l(cid:1189)i tìm ki(cid:1219)m trong n(cid:1245)i dung c(cid:1259)a email, nh(cid:1267)ng d(cid:1193)u
v(cid:1219)t cho th(cid:1193)y có s(cid:1269) t(cid:1239)n t(cid:1189)i c(cid:1259)a spam ch(cid:1207)ng h(cid:1189)n email có quá nhi(cid:1221)u d(cid:1193)u than, s(cid:1237) ch(cid:1267)
cái (cid:255)(cid:1133)(cid:1255)c vi(cid:1219)t hoa nhi(cid:1221)u m(cid:1245)t cách b(cid:1193)t bình th(cid:1133)(cid:1249)ng …
Tuy nhiên các spammer ngày càng tinh vi, vì th(cid:1219) các k(cid:1275) thu(cid:1201)t dùng (cid:255)(cid:1223) ch(cid:1237)ng
spam c(cid:458)ng ph(cid:1191)i (cid:255)(cid:1133)(cid:1255)c c(cid:1191)i ti(cid:1219)n, và chính nh(cid:1267)ng c(cid:1191)i ti(cid:1219)n này càng thôi thúc các
spammer tr(cid:1251) nên ranh ma và tinh vi h(cid:1131)n… K(cid:1219)t qu(cid:1191) là nh(cid:1133) hi(cid:1227)n nay, các email spam
g(cid:1195)n nh(cid:1133) gi(cid:1237)ng v(cid:1247)i m(cid:1245)t email thông th(cid:1133)(cid:1249)ng. Tuy nhiên email spam có m(cid:1245)t (cid:255)(cid:76)(cid:1221)u
không bao gi(cid:1249) thay (cid:255)(cid:1241)i (cid:255)ó là b(cid:1191)n ch(cid:1193)t c(cid:1259)a nó. B(cid:1191)n ch(cid:1193)t (cid:255)ó chính là m(cid:1257)c tiêu qu(cid:1191)ng
cáo s(cid:1191)n ph(cid:1197)m hay d(cid:1231)ch v(cid:1257). Nó là c(cid:1131) s(cid:1251) cho ph(cid:1133)(cid:1131)ng pháp l(cid:1233)c email d(cid:1269)a trên n(cid:1245)i dung
(content based filtering).Theo (cid:255)ó, chúng ta c(cid:1237) g(cid:1203)ng phát hi(cid:1227)n ra các ngôn ng(cid:1267) qu(cid:1191)ng
cáo (sales-pitch language) thay vì chú ý (cid:255)(cid:1219)n các ch(cid:1229) s(cid:1237) th(cid:1237)ng kê c(cid:1259)a email ch(cid:1207)ng
h(cid:1189)n nh(cid:1133) có bao nhiêu l(cid:1195)n xu(cid:1193)t hi(cid:1227)n ch(cid:1267) “h0t chixxx!” …
M(cid:1245)t (cid:255)(cid:76)(cid:1221)u quan tr(cid:1233)ng c(cid:1195)n ph(cid:1191)i cân nh(cid:1203)c (cid:255)(cid:1219)n khi l(cid:1233)c spam là cái giá ph(cid:1191)i tr(cid:1191) khi
l(cid:1233)c sai. N(cid:1219)u m(cid:1245)t b(cid:1245) l(cid:1233)c t(cid:1263) ch(cid:1237)i nh(cid:1201)n h(cid:1195)u h(cid:1219)t các email g(cid:1265)i (cid:255)(cid:1219)n ho(cid:1211)c (cid:255)ánh d(cid:1193)u m(cid:1245)t
email th(cid:1201)t s(cid:1269) quan tr(cid:1233)ng nào (cid:255)ó là spam thì (cid:255)i(cid:1221)u (cid:255)ó còn t(cid:1227) h(cid:1131)n c(cid:1191) vi(cid:1227)c nh(cid:1201)n t(cid:1193)t c(cid:1191)
email spam (cid:255)(cid:1133)(cid:1255)c g(cid:1265)i (cid:255)(cid:1219)n. Ng(cid:1133)(cid:1255)c l(cid:1189)i, n(cid:1219)u có quá nhi(cid:1221)u email spam v(cid:1133)(cid:1255)t (cid:255)(cid:1133)(cid:1255)c b(cid:1245) l(cid:1233)c
thì rõ ràng b(cid:1245) l(cid:1233)c ho(cid:1189)t (cid:255)(cid:1245)ng không hi(cid:1227)u qu(cid:1191), không (cid:255)áp (cid:1261)ng (cid:255)(cid:1133)(cid:1255)c yêu c(cid:1195)u c(cid:1259)a ng(cid:1133)(cid:1249)i
15
s(cid:1265) d(cid:1257)ng.
2.2 Các ph(cid:1133)(cid:1131)ng pháp ti(cid:1219)p c(cid:1201)n:
2.2.1 Complaining to Spammers' ISPs :
• Ý t(cid:1133)(cid:1251)ng :
Tìm cách làm t(cid:259)ng chi phí g(cid:1265)i spam c(cid:1259)a các spammer b(cid:1205)ng
nh(cid:1267)ng l(cid:1249)i than phi(cid:1221)n, ph(cid:1191)n ánh (cid:255)(cid:1219)n các n(cid:1131)i cung c(cid:1193)p d(cid:1231)ch v(cid:1257) m(cid:1189)ng
(Internet Service Provider - ISP). Khi chúng ta bi(cid:1219)t chính xác nh(cid:1267)ng
email spam th(cid:1269)c s(cid:1269)(cid:3)(cid:255)(cid:1133)(cid:1255)c g(cid:1265)i (cid:255)(cid:1219)n t(cid:1263) d(cid:1231)ch v(cid:1257) ISP nào, ta s(cid:1217) ph(cid:1191)n ánh
l(cid:1189)i v(cid:1247)i d(cid:1231)ch v(cid:1257)(cid:3)(cid:255)ó và d(cid:1231)ch v(cid:1257) này s(cid:1217) t(cid:1263) ch(cid:1237)i cung c(cid:1193)p d(cid:1231)ch v(cid:1257) cho các
spammer dùng g(cid:1265)i spam.
• (cid:264)(cid:1211)c (cid:255)(cid:76)(cid:1223)m :
(cid:264)ây c(cid:458)ng là gi(cid:1191)i pháp ch(cid:1237)ng spam (cid:255)(cid:1195)u tiên. Nh(cid:1267)ng l(cid:1249)i than
phi(cid:1221)n c(cid:458)ng có tác d(cid:1257)ng c(cid:1259)a nó. Nh(cid:1267)ng n(cid:1131)i g(cid:1265)i spam s(cid:1217) b(cid:1231) vô hi(cid:1227)u hóa,
khi (cid:255)ó các spammer ph(cid:1191)i (cid:255)(cid:259)ng ký m(cid:1245)t tài kho(cid:1191)n m(cid:1247)i v(cid:1247)i nhà cung c(cid:1193)p
d(cid:1231)ch v(cid:1257) ISP (cid:255)(cid:1223) có th(cid:1223) ti(cid:1219)p t(cid:1257)c phát tán các email spam c(cid:1259)a mình. D(cid:1195)n
d(cid:1195)n vi(cid:1227)c chuy(cid:1223)n n(cid:1131)i cung c(cid:1193)p d(cid:1231)ch v(cid:1257) s(cid:1217) làm các spammer t(cid:1237)n nhi(cid:1221)u
chi phí và khi chúng ta phát hi(cid:1227)n càng s(cid:1247)m thì chi phí trên c(cid:1259)a các
spammer càng t(cid:259)ng nhi(cid:1221)u.
Cách này c(cid:458)ng g(cid:1211)p ph(cid:1191)i nh(cid:1267)ng khó kh(cid:259)n (cid:255)ó là không th(cid:1223) bi(cid:1219)t
chính xác nh(cid:1267)ng email spam này th(cid:1269)c s(cid:1269)(cid:3)(cid:255)(cid:1219)n t(cid:1263)(cid:3)(cid:255)âu do các spammer
(cid:255)ã khéo léo che gi(cid:1193)u (cid:255)i ph(cid:1195)n header c(cid:1259)a email (cid:255)(cid:1223)(cid:3)(cid:1197)n (cid:255)i ngu(cid:1239)n g(cid:1237)c. Do
(cid:255)ó c(cid:1195)n ph(cid:1191)i hi(cid:1223)u bi(cid:1219)t v(cid:1221) header c(cid:1259)a email (cid:255)(cid:1223) hi(cid:1223)u rõ email spam này
th(cid:1201)t s(cid:1269) (cid:255)(cid:1219)n t(cid:1263) (cid:255)âu.
2.2.2 Mail Blacklists /Whitelists:
• Ý t(cid:1133)(cid:1251)ng:
M(cid:1245)t danh sách (cid:255)en (Blacklist) các (cid:255)(cid:1231)a ch(cid:1229) email hay các máy
16
ch(cid:1259) email (mail server) chuyên dùng c(cid:1259)a các spammer s(cid:1217)(cid:3)(cid:255)(cid:1133)(cid:1255)c thi(cid:1219)t
l(cid:1201)p và d(cid:1269)a vào (cid:255)ó ta có th(cid:1223) ng(cid:259)n ch(cid:1211)n nh(cid:1201)n email spam (cid:255)(cid:1133)(cid:1255)c phát tán
t(cid:1263) nh(cid:1267)ng n(cid:1131)i này.
Vi(cid:1227)c thi(cid:1219)t l(cid:1201)p danh sách các (cid:255)(cid:1231)a ch(cid:1229) email (cid:255)en hay máy ch(cid:1259) g(cid:1265)i
email này s(cid:1217) do m(cid:1245)t nhóm tình nguy(cid:1227)n xác nh(cid:1201)n. M(cid:1245)t s(cid:1237) nhà cung c(cid:1193)p
d(cid:1231)ch v(cid:1257) m(cid:1189)ng ISP s(cid:1217) dùng danh sách (cid:255)en ki(cid:1223)u này và t(cid:1269)(cid:3)(cid:255)(cid:1245)ng t(cid:1263) ch(cid:1237)i
nh(cid:1201)n email t(cid:1263) nh(cid:1267)ng máy ch(cid:1259) hay email trong dánh sách (cid:255)ó. Nh(cid:1133)
v(cid:1201)y, nh(cid:1267)ng email spam s(cid:1217)(cid:3)(cid:255)(cid:1133)(cid:1255)c phân lo(cid:1189)i và ch(cid:1211)n ngay t(cid:1189)i máy ch(cid:1259)
nh(cid:1201)n email.
• (cid:264)(cid:1211)c (cid:255)(cid:76)(cid:1223)m:
Ph(cid:1133)(cid:1131)ng pháp này b(cid:1133)(cid:1247)c (cid:255)(cid:1195)u lo(cid:1189)i (cid:255)(cid:1133)(cid:1255)c kho(cid:1191)ng 50% [5] email
spam.
Khuy(cid:1219)t (cid:255)(cid:76)(cid:1223)m c(cid:1259)a ph(cid:1133)(cid:1131)ng pháp này là chúng không th(cid:1223)(cid:3)(cid:255)(cid:1133)(cid:1131)ng
(cid:255)(cid:1195)u v(cid:1247)i h(cid:1131)n m(cid:1245)t n(cid:1265)a s(cid:1237) server mà spam (cid:255)ang s(cid:1265) d(cid:1257)ng hi(cid:1227)n nay. Và
n(cid:1219)u xác nh(cid:1201)n sai danh sách (cid:255)en này thì vi(cid:1227)c dùng nó (cid:255)(cid:1239)ng ngh(cid:429)a v(cid:1247)i
vi(cid:1227)c b(cid:1235) qua m(cid:1245)t l(cid:1133)(cid:1255)ng l(cid:1247)n email h(cid:1255)p l(cid:1227).
Ph(cid:1133)(cid:1131)ng pháp này có th(cid:1223) b(cid:1231) qua m(cid:1211)t n(cid:1219)u nh(cid:1133) các spammer g(cid:1265)i
l(cid:1189)i email thông qua m(cid:1245)t máy ch(cid:1259) SMTP (Simple email Transfer
Protocol) có ngu(cid:1239)n g(cid:1237)c h(cid:1255)p pháp không k(cid:1223) tên trong danh sách
“Blacklist”.
Ngoài ra, danh sách này không ch(cid:1229) t(cid:1263) ch(cid:1237)i nh(cid:1201)n email t(cid:1263) các
(cid:255)(cid:1231)a ch(cid:1229) IP (Internet Protocol) t(cid:1263) nh(cid:1267)ng n(cid:1131)i chuyên dùng g(cid:1265)i spam mà
nó còn t(cid:1263) ch(cid:1237)i luôn c(cid:1191) nh(cid:1267)ng email mà có tên mi(cid:1221)n n(cid:1205)m trong danh
sách “Blacklist” này.
Cách này (cid:255)(cid:1133)(cid:1255)c áp d(cid:1257)ng t(cid:1189)i m(cid:1261)c nhà cung c(cid:1193)p d(cid:1231)ch v(cid:1257) m(cid:1189)ng
(ISP), và th(cid:1201)t s(cid:1269) h(cid:1267)u d(cid:1257)ng v(cid:1247)i ng(cid:1133)(cid:1249)i dùng n(cid:1219)u h(cid:1233) s(cid:1265) d(cid:1257)ng m(cid:1245)t ISP
17
(cid:255)áng tin c(cid:1201)y.
Ng(cid:1133)(cid:1255)c l(cid:1189)i v(cid:1247)i vi(cid:1227)c thi(cid:1219)t l(cid:1201)p m(cid:1245)t danh sách (cid:255)en “Blacklist” ta
còn có th(cid:1223) thi(cid:1219)t l(cid:1201)p m(cid:1245)t danh sách “Whitelist”. V(cid:1247)i nh(cid:1267)ng (cid:255)(cid:1231)a ch(cid:1229) g(cid:1265)i
email (ho(cid:1211)c tên mi(cid:1221)n domains) n(cid:1205)m trong danh sách này s(cid:1217)(cid:3)(cid:255)(cid:1133)(cid:1255)c các
ISP t(cid:1269)(cid:3)(cid:255)(cid:1245)ng ch(cid:1193)p nh(cid:1201)n email g(cid:1265)i t(cid:1263) nó. M(cid:1211)c (cid:255)(cid:1231)nh t(cid:1193)t c(cid:1191) nh(cid:1267)ng email
khác s(cid:1217) b(cid:1231) t(cid:1263) ch(cid:1237)i..
N(cid:1219)u các spammer g(cid:1265)i email spam v(cid:1247)i ph(cid:1195)n “sender” c(cid:1259)a email
có cùng tên mi(cid:1221)n (cid:255)(cid:1133)(cid:1255)c ch(cid:1193)p nh(cid:1201)n trong “Whitelist” thì email spam
v(cid:1199)n có th(cid:1223)(cid:3)(cid:255)(cid:1219)n (cid:255)(cid:1133)(cid:1255)c tay ng(cid:1133)(cid:1249)i nh(cid:1201)n.
2.2.3 Mail volume :
• Ý t(cid:1133)(cid:1251)ng:
B(cid:1245) l(cid:1233)c s(cid:1217) s(cid:1265) d(cid:1257)ng thu(cid:1201)t toán (cid:255)(cid:1223) ki(cid:1223)m tra s(cid:1237) l(cid:1133)(cid:1255)ng email nh(cid:1201)n
(cid:255)(cid:1133)(cid:1255)c t(cid:1263) m(cid:1245)t máy ch(cid:1259) (host) c(cid:1257) th(cid:1223) trong các l(cid:1195)n k(cid:1219)t n(cid:1237)i sau cùng (cách này (cid:255)ã (cid:255)(cid:1133)(cid:1255)c b(cid:1245) l(cid:1233)c Spamshield 3 c(cid:1259)a Kai s(cid:1265) d(cid:1257)ng. N(cid:1219)u s(cid:1237)
(cid:79)(cid:1133)(cid:1255)ng email nh(cid:1201)n (cid:255)(cid:1133)(cid:1255)c l(cid:1247)n h(cid:1131)n m(cid:1245)t ng(cid:1133)(cid:1253)ng nào (cid:255)ó thì các email (cid:255)ó
s(cid:1217)(cid:3)(cid:255)(cid:1133)(cid:1255)c phân lo(cid:1189)i là spam.
• (cid:264)(cid:1211)c (cid:255)(cid:76)(cid:1223)m:
B(cid:1245) l(cid:1233)c t(cid:1235) ra hi(cid:1227)u qu(cid:1191) trong vi(cid:1227)c phân lo(cid:1189)i (cid:255)úng t(cid:1193)t c(cid:1191) các email
h(cid:1255)p l(cid:1227) trong (cid:255)i(cid:1221)u ki(cid:1227)n v(cid:1247)i m(cid:1245)t ng(cid:1133)(cid:1253)ng phân lo(cid:1189)i (cid:255)(cid:1259) cao.N(cid:1219)u b(cid:1245) l(cid:1233)c
(cid:255)(cid:1133)(cid:1255)c s(cid:1265) d(cid:1257)ng cho cá nhân, thì nó ho(cid:1189)t (cid:255)(cid:1245)ng r(cid:1193)t hi(cid:1227)u qu(cid:1191). Có th(cid:1223) xem
(cid:255)ây là m(cid:1245)t (cid:1133)u (cid:255)i(cid:1223)m c(cid:1259)a b(cid:1245) l(cid:1233)c b(cid:1251)i vì v(cid:1247)i email cá nhân thì nh(cid:1267)ng k(cid:1215)
g(cid:1265)i email qu(cid:1191)ng cáo ph(cid:1191)i thi(cid:1219)t l(cid:1201)p nhi(cid:1221)u k(cid:1219)t n(cid:1237)i h(cid:1131)n (cid:255)(cid:1223) g(cid:1265)i m(cid:1245)t s(cid:1237)
(cid:79)(cid:1133)(cid:1255)ng email gi(cid:1237)ng nhau. (cid:264)(cid:76)(cid:1221)u này làm cho các email qu(cid:1191)ng cáo (cid:255)ó d(cid:1225)
dàng b(cid:1231) phát hi(cid:1227)n d(cid:1269)a trên vi(cid:1227)c phân tích s(cid:1237) l(cid:1133)(cid:1255)ng email.
M(cid:1211)t h(cid:1189)n ch(cid:1219) c(cid:1259)a b(cid:1245) l(cid:1233)c này là t(cid:1229) l(cid:1227) ch(cid:1193)p nh(cid:1201)n phân lo(cid:1189)i sai
3 http://spamshield.conti.nu
18
FAR (false acceptance rate) c(cid:1259)a nó còn khá cao. V(cid:1247)i:
n
N
=
F A R
S n
S
fi
:
(cid:54)(cid:1237) email spam mà b(cid:1245) l(cid:1233)c nh(cid:1201)n là non-spam.
S Nn fi
:
(cid:54)(cid:1237) email spam th(cid:1269)c s(cid:1269)(cid:3)(cid:255)(cid:1219)n b(cid:1245) l(cid:1233)c..
Sn
2.2.4 Signature/ Checksum schemes:
• Ý t(cid:1133)(cid:1251)ng:
(cid:264)ây là m(cid:1245)t trong nh(cid:1267)ng ph(cid:1133)(cid:1131)ng pháp phân lo(cid:1189)i email d(cid:1269)a trên
n(cid:1245)i dung. Khi m(cid:1245)t email t(cid:1247)i thì giá tr(cid:1231) “Signature/ Checksum” s(cid:1217)(cid:3)(cid:255)(cid:1133)(cid:1255)c
tính toán cho m(cid:1243)i email này và so sánh nó v(cid:1247)i giá tr(cid:1231) tính (cid:255)(cid:1133)(cid:1255)c t(cid:1263)
nh(cid:1267)ng email spam (cid:255)(cid:1211)c tr(cid:1133)ng trong t(cid:1263) nh(cid:1267)ng email spam có s(cid:1209)n trên
Internet. N(cid:1219)u giá tr(cid:1231) “signature/ checksum” c(cid:1259)a nh(cid:1267)ng email t(cid:1247)i gi(cid:1237)ng
v(cid:1247)i b(cid:1193)t k(cid:484) giá tr(cid:1231) nào trong c(cid:1131) s(cid:1251) d(cid:1267) li(cid:1227)u thì email (cid:255)ó (cid:255)(cid:1133)(cid:1255)c (cid:255)ánh giá là
spam.
M(cid:1245)t cách (cid:255)(cid:1131)n gi(cid:1191)n (cid:255)(cid:1223) tính giá tr(cid:1231) này là gán m(cid:1245)t giá tr(cid:1231) cho m(cid:1243)i
kí t(cid:1269), sau (cid:255)ó c(cid:1245)ng t(cid:1193)t c(cid:1191) chúng l(cid:1189)i. S(cid:1217) là không bình th(cid:1133)(cid:1249)ng n(cid:1219)u 2
email khác nhau l(cid:1189)i có chung m(cid:1245)t giá tr(cid:1231) “signature/ checksum”.
• (cid:264)(cid:1211)c (cid:255)(cid:76)(cid:1223)m:
Cách t(cid:1193)n công m(cid:1245)t b(cid:1245) l(cid:1233)c ki(cid:1223)u này là thêm vào ng(cid:1199)u nhiên m(cid:1245)t
vài ký t(cid:1269) hay m(cid:1245)t câu vô ngh(cid:429)a trong m(cid:1243)i email spam (cid:255)(cid:1223) t(cid:1189)o ra s(cid:1269)
khác bi(cid:1227)t c(cid:1259)a giá tr(cid:1231) “signature”. Khi b(cid:1189)n th(cid:1193)y nh(cid:1267)ng th(cid:1261) h(cid:1243)n t(cid:1189)p chèn
ng(cid:1199)u nhiên trong ph(cid:1195)n tiêu (cid:255)(cid:1221) (subject) c(cid:1259)a email, (cid:255)ó chính là cách (cid:255)(cid:1223)
t(cid:1193)n công b(cid:1245) l(cid:1233)c d(cid:1269)a vào “signature/ checksum”.
Các spammer d(cid:1225) dàng (cid:255)(cid:1237)i phó (cid:3) (cid:255)(cid:1237)i v(cid:1247)i các b(cid:1245) l(cid:1233)c d(cid:1269)a trên
“signature/ checksum” b(cid:1205)ng ph(cid:1133)(cid:1131)ng pháp trên. Khi mà nh(cid:1267)ng ng(cid:1133)(cid:1249)i
19
vi(cid:1219)t các ch(cid:1133)(cid:1131)ng trình l(cid:1233)c email tìm (cid:255)(cid:1133)(cid:1255)c cách ch(cid:1237)ng l(cid:1189)i cách chèn
ng(cid:1199)u nhiên này thì các spammer l(cid:1189)i chuy(cid:1223)n sang cách khác. Vì th(cid:1219),
cách ch(cid:1237)ng spam dùng các b(cid:1245) l(cid:1233)c “signature/checksum” ch(cid:1133)a bao gi(cid:1249)
là m(cid:1245)t cách t(cid:1237)t.
B(cid:1245) l(cid:1233)c này (cid:255)(cid:1133)(cid:1255)c (cid:1261)ng d(cid:1257)ng t(cid:1189)i m(cid:1261)c server,(cid:3)(cid:255)(cid:1133)(cid:1255)c các nhà cung
c(cid:1193)p d(cid:1231)ch v(cid:1257) m(cid:1189)ng (ISP) s(cid:1265) d(cid:1257)ng.
Theo P.Graham [5], b(cid:1245) l(cid:1233)c ki(cid:1223)u này ch(cid:1229) l(cid:1233)c kho(cid:1191)ng 50-70%
spam
(cid:1132)u (cid:255)i(cid:1223)m c(cid:1259)a b(cid:1245) l(cid:1233)c này là ít khi phân lo(cid:1189)i sai email non-spam.
Brightmail4 là ph(cid:1195)n m(cid:1221)m ch(cid:1237)ng spam d(cid:1269)a trên h(cid:1133)(cid:1247)ng ti(cid:1219)p c(cid:1201)n
này. Cách ho(cid:1189)t (cid:255)(cid:1245)ng c(cid:1259)a nó là t(cid:1189)o ra m(cid:1245)t m(cid:1189)ng l(cid:1133)(cid:1247)i các (cid:255)(cid:1231)a ch(cid:1229) email
gi(cid:1191). B(cid:1193)t kì email nào (cid:255)(cid:1133)(cid:1255)c g(cid:1265)i (cid:255)(cid:1219)n nh(cid:1267)ng (cid:255)(cid:1231)a ch(cid:1229) này thì (cid:255)(cid:1221)u là spam
vì v(cid:1247)i nh(cid:1267)ng email h(cid:1255)p l(cid:1227) thì hi(cid:1219)m khi l(cid:1189)i (cid:255)(cid:1133)(cid:1255)c g(cid:1265)i (cid:255)(cid:1219)n nh(cid:1267)ng (cid:255)(cid:1231)a ch(cid:1229)
gi(cid:1191) này. Vì v(cid:1201)y, khi b(cid:1245) l(cid:1233)c nh(cid:1201)n th(cid:1193)y nh(cid:1267)ng email gi(cid:1237)ng nhau g(cid:1265)i (cid:255)(cid:1219)n
m(cid:1245)t (cid:255)(cid:1231)a ch(cid:1229) gi(cid:1191)(cid:3)(cid:255)ã (cid:255)(cid:1133)(cid:1255)c t(cid:1189)o ra này thì nó s(cid:1217) l(cid:1233)c ra.. B(cid:1245) l(cid:1233)c phân bi(cid:1227)t
nh(cid:1267)ng email gi(cid:1237)ng nhau d(cid:1269)a vào “signatures” c(cid:1259)a chúng.
2.2.5 Genetic Algorithms:
• Ý t(cid:1133)(cid:1251)ng:
B(cid:1245) l(cid:1233)c d(cid:1269)a trên thu(cid:1201)t toán di truy(cid:1221)n (Genetic Algorithms) s(cid:1265)
d(cid:1257)ng các b(cid:1245) nh(cid:1201)n d(cid:1189)ng (cid:255)(cid:1211)c tr(cid:1133)ng (“fearture detectors”) (cid:255)(cid:1223) ghi (cid:255)(cid:76)(cid:1223)m
(score) cho m(cid:1243)i email. Th(cid:1269)c t(cid:1219), nh(cid:1267)ng “fearture detectors” này là m(cid:1245)t
t(cid:1201)p các lu(cid:1201)t (cid:255)(cid:1133)(cid:1255)c xây d(cid:1269)ng d(cid:1269)a trên các kinh nghi(cid:1227)m (cid:255)ã có (empirical
rules) và áp d(cid:1257)ng vào m(cid:1243)i email (cid:255)(cid:1223) thu v(cid:1221) m(cid:1245)t giá tr(cid:1231) s(cid:1237).
Thu(cid:1201)t toán di truy(cid:1221)n này (cid:255)(cid:1133)(cid:1255)c bi(cid:1223)u di(cid:1225)n là nh(cid:1267)ng cây (trees)
và (cid:255)(cid:1133)(cid:1255)c k(cid:1219)t h(cid:1255)p v(cid:1247)i m(cid:1245)t t(cid:1201)p hu(cid:1193)n luy(cid:1227)n cùng v(cid:1247)i m(cid:1245)t hàm thích h(cid:1255)p
4http://brightmail.com
20
“fitness function”.
(cid:38)(cid:1131) ch(cid:1219) ti(cid:1219)n hóa (Evolutionary mechanism) c(cid:1259)a thu(cid:1201)t toán
:thu(cid:1201)t tóan th(cid:1269)c hi(cid:1227)n hai thao tác c(cid:1131) b(cid:1191)n là phép lai “crossover” và (cid:255)(cid:1245)t
bi(cid:1219)n “mutation”. M(cid:1257)c (cid:255)ích ti(cid:1219)n trình này là tìm ra (cid:255)(cid:1133)(cid:1255)c m(cid:1245)t giá tr(cid:1231)
“score” nh(cid:1235) nh(cid:1193)t d(cid:1269)a vào hàm “fitness function”. Giá tr(cid:1231) “score” sau
(cid:255)ó s(cid:1217)(cid:3)(cid:255)(cid:1133)(cid:1255)c s(cid:1265) d(cid:1257)ng (cid:255)(cid:1223) phân lo(cid:1189)i email là spam hay non-spam.[6]
• (cid:264)(cid:1211)c (cid:255)(cid:76)(cid:1223)m:
(cid:264)ây là h(cid:1133)(cid:1247)ng ti(cid:1219)p c(cid:1201)n phân lo(cid:1189)i email d(cid:1269)a trên n(cid:1245)i dung.
(cid:43)(cid:1133)(cid:1247)ng ti(cid:1219)p c(cid:1201)n hi(cid:1227)u qu(cid:1191) nh(cid:1193)t cho b(cid:1245) l(cid:1233)c t(cid:1189)i m(cid:1261)c ISP (cid:255)(cid:1133)(cid:1255)c
(cid:255)ánh giá là d(cid:1269)a trên thu(cid:1201)t toán di truy(cid:1221)n “Genetic Algorithms” [6]
(cid:264)i(cid:1223)m không thu(cid:1201)n l(cid:1255)i c(cid:1259)a thu(cid:1201)t toán di truy(cid:1221)n là (cid:255)òi h(cid:1235)i kh(cid:1191)
(cid:81)(cid:259)ng x(cid:1265) lý ph(cid:1191)i l(cid:1247)n.
(cid:43)(cid:1133)(cid:1247)ng ti(cid:1219)p c(cid:1201)n này (cid:255)(cid:1133)(cid:1255)c (cid:1261)ng d(cid:1257)ng trong trình l(cid:1233)c spam Spamassassin5. Nó ho(cid:1189)t (cid:255)(cid:1245)ng r(cid:1193)t hi(cid:1227)u qu(cid:1191) t(cid:1189)i m(cid:1261)c ISP và (cid:255)(cid:1133)(cid:1255)c nhi(cid:1221)u
ng(cid:1133)(cid:1249)i (cid:255)ánh giá là m(cid:1245)t trong nh(cid:1267)ng b(cid:1245) l(cid:1233)c ho(cid:1189)t (cid:255)(cid:1245)ng hi(cid:1227)u qu(cid:1191) nh(cid:1193)t t(cid:1189)i
m(cid:1261)c ISP.
(cid:264)i(cid:1223)m y(cid:1219)u c(cid:1259)a trình l(cid:1233)c “Spamassassin” là ho(cid:1189)t (cid:255)(cid:1245)ng v(cid:1247)i hi(cid:1227)u
qu(cid:1191) ch(cid:1133)a cao t(cid:1189)i m(cid:1261)c ng(cid:1133)(cid:1249)i dùng cá nhân.
2.2.6 Rule-Based (hay là Heuristic):
• Ý t(cid:1133)(cid:1251)ng:
D(cid:1269)a vào lu(cid:1201)t tìm ki(cid:1219)m các m(cid:1199)u có d(cid:1193)u hi(cid:1227)u là spam nh(cid:1133) các t(cid:1263)
và ng(cid:1267) xác (cid:255)(cid:1231)nh, hàng lo(cid:1189)t các ch(cid:1267) hoa và d(cid:1193)u ch(cid:1193)m than, ph(cid:1195)n header
c(cid:1259)a email sai (cid:255)(cid:1231)nh d(cid:1189)ng, ngày trong email là (cid:1251) t(cid:1133)(cid:1131)ng lai ho(cid:1211)c quá
kh(cid:1261).(cid:264)ó là cách h(cid:1195)u h(cid:1219)t ph(cid:1195)n l(cid:1247)n các trình l(cid:1233)c spam ho(cid:1189)t (cid:255)(cid:1245)ng t(cid:1263) n(cid:259)m
2002.
5 http://spamassassin.org
21
• (cid:264)(cid:1211)c (cid:255)(cid:76)(cid:1223)m:
Hi(cid:1227)u su(cid:1193)t c(cid:1259)a trình l(cid:1233)c d(cid:1269)a trên lu(cid:1201)t (rule-based filters) khác
nhau r(cid:1193)t nhi(cid:1221)u. Cách (cid:255)(cid:1131)n gi(cid:1191)n nh(cid:1193)t là lo(cid:1189)i b(cid:1235) các email mà có ch(cid:1261)a
nh(cid:1267)ng t(cid:1263) x(cid:1193)u nào (cid:255)ó (ví d(cid:1257) nh(cid:1267)ng t(cid:1263) mà th(cid:1133)(cid:1249)ng xu(cid:1193)t hi(cid:1227)n nhi(cid:1221)u hay
ch(cid:1229) xu(cid:1193)t hi(cid:1227)n trong spam). Nh(cid:1133)ng (cid:255)ây c(cid:458)ng là (cid:255)i(cid:1223)m y(cid:1219)u (cid:255)(cid:1223) các
spammer có th(cid:1223) l(cid:1255)i d(cid:1257)ng (cid:255)(cid:1223) qua m(cid:1211)t các b(cid:1245) l(cid:1233)c ki(cid:1223)u này b(cid:1205)ng cách c(cid:1237)
g(cid:1203)ng tránh s(cid:1265) d(cid:1257)ng nh(cid:1267)ng t(cid:1263) x(cid:1193)u và thay b(cid:1205)ng nh(cid:1267)ng t(cid:1263) “t(cid:1237)t” -(cid:3)(cid:255)(cid:1133)(cid:1255)c
s(cid:1265) d(cid:1257)ng nhi(cid:1221)u trong email non-spam. Trong khi (cid:255)ó các email non-
spam thì b(cid:1231) lo(cid:1189)i b(cid:1235) n(cid:1219)u vô tình ch(cid:1261)a m(cid:1245)t vài t(cid:1263) “x(cid:1193)u” d(cid:1189)ng này. (cid:264)i(cid:1221)u
này, d(cid:1199)n (cid:255)(cid:1219)n kh(cid:1191) n(cid:259)ng l(cid:1233)c sai còn cao.
M(cid:1245)t (cid:255)(cid:76)(cid:1221)u b(cid:1193)t l(cid:1255)i khác là các lu(cid:1201)t d(cid:1189)ng này (cid:255)(cid:1221)u là t(cid:429)nh. Khi các
spammer tìm ra (cid:255)(cid:1133)(cid:1255)c m(cid:1245)t ph(cid:1133)(cid:1131)ng pháp m(cid:1247)i (cid:255)(cid:1223) (cid:89)(cid:1133)(cid:1255)t qua thì nh(cid:1267)ng
ng(cid:1133)(cid:1249)i vi(cid:1219)t trình l(cid:1233)c l(cid:1189)i ph(cid:1191)i vi(cid:1219)t nh(cid:1267)ng lu(cid:1201)t m(cid:1247)i (cid:255)(cid:1223) l(cid:1233)c các spam.
Nh(cid:1267)ng spammer chuyên nghi(cid:1227)p thì có th(cid:1223) ki(cid:1223)m tra (cid:255)(cid:1133)(cid:1255)c nh(cid:1267)ng email
trên các h(cid:1227) th(cid:1237)ng l(cid:1233)c d(cid:1269)a trên lu(cid:1201)t tr(cid:1133)(cid:1247)c khi g(cid:1265)i chúng (cid:255)i.
N(cid:1219)u b(cid:1245) l(cid:1233)c (cid:255)(cid:1133)(cid:1255)c xây d(cid:1269)ng d(cid:1269)a trên lu(cid:1201)t ph(cid:1261)c t(cid:1189)p thì v(cid:1199)n phát
huy tác d(cid:1257)ng l(cid:1233)c spam hi(cid:1227)u qu(cid:1191). Ví d(cid:1257) nh(cid:1133) trình l(cid:1233)c Spamassassin
l(cid:1233)c lên (cid:255)(cid:1219)n 90-95% spam.
M(cid:1245)t (cid:255)(cid:76)(cid:1221)u thu(cid:1201)n l(cid:1255)i là b(cid:1245) l(cid:1233)c d(cid:1269)a trên lu(cid:1201)t t(cid:429)nh thì d(cid:1225) cài (cid:255)(cid:1211)t.
2.2.7 Challenge-Response:
• Ý t(cid:1133)(cid:1251)ng:
Khi b(cid:1189)n nh(cid:1201)n (cid:255)(cid:1133)(cid:1255)c email t(cid:1263) ai (cid:255)ó mà ch(cid:1133)a h(cid:1221) g(cid:1265)i cho b(cid:1189)n tr(cid:1133)(cid:1247)c
(cid:255)ó thì h(cid:1227) th(cid:1237)ng l(cid:1233)c challenge-response 6 g(cid:1265)i ng(cid:1133)(cid:1255)c l(cid:1189)i 1 email yêu c(cid:1195)u h(cid:1233)
ph(cid:1191)i (cid:255)(cid:1219)n 1 trang web và (cid:255)i(cid:1221)n (cid:255)(cid:1195)y (cid:255)(cid:1259) thông tin vào form tr(cid:1133)(cid:1247)c khi email
chuy(cid:1223)n cho ng(cid:1133)(cid:1249)i dùng.
6 http://spamarrest.com/products
22
• (cid:264)(cid:1211)c (cid:255)(cid:76)(cid:1223)m:
L(cid:1255)i th(cid:1219) c(cid:1259)a h(cid:1227) th(cid:1237)ng này là (cid:255)(cid:1223) l(cid:1233)t l(cid:1133)(cid:1247)i r(cid:1193)t ít spam. (cid:264)(cid:76)(cid:1221)u b(cid:1193)t l(cid:1255)i c(cid:1259)a
nó can thi(cid:1227)p thô b(cid:1189)o (cid:255)(cid:1219)n ng(cid:1133)(cid:1249)i g(cid:1265)i. B(cid:1205)ng cách s(cid:1265) d(cid:1257)ng h(cid:1227) th(cid:1237)ng này, ta
c(cid:1195)n xác (cid:255)(cid:1231)nh rõ ai là ng(cid:1133)(cid:1249)i g(cid:1265)i email.
M(cid:1245)t (cid:255)(cid:76)(cid:1223)m b(cid:1193)t l(cid:1255)i khác c(cid:1259)a h(cid:1227) th(cid:1237)ng này là có nhi(cid:1221)u email non-
spam b(cid:1231) lo(cid:1189)i b(cid:1235) và th(cid:1249)i gian trì hoãn quá lâu. Ví d(cid:1257) nh(cid:1133) m(cid:1245)t ng(cid:1133)(cid:1249)i mu(cid:1237)n
m(cid:1249)i b(cid:1189)n (cid:255)i d(cid:1269) ti(cid:1227)c nh(cid:1133)ng ng(cid:1133)(cid:1249)i b(cid:1189)n (cid:1193)y s(cid:1217) ch(cid:1229) th(cid:1193)y email tr(cid:1191) l(cid:1249)i c(cid:1259)a b(cid:1189)n
vào ngày hôm sau và (cid:255)(cid:1219)n lúc (cid:255)ó thì (cid:255)ã quá tr(cid:1225).
Nhi(cid:1221)u tr(cid:1133)(cid:1249)ng h(cid:1255)p ng(cid:1133)(cid:1249)i g(cid:1265)i s(cid:1217) không tr(cid:1191) l(cid:1249)i cho các thông (cid:255)(cid:76)(cid:1227)p
ki(cid:1223)u này và email h(cid:1233) g(cid:1251)i s(cid:1217) b(cid:1231) th(cid:1193)t l(cid:1189)c.
S(cid:1265) d(cid:1257)ng ph(cid:1133)(cid:1131)ng pháp d(cid:1189)ng này ch(cid:1207)ng khác nào ta (cid:255)ang t(cid:1269) cô l(cid:1201)p
chính mình v(cid:1247)i m(cid:1233)i ng(cid:1133)(cid:1249)i xung quanh. H(cid:1227) th(cid:1237)ng này s(cid:1217) gi(cid:1237)ng nh(cid:1133) b(cid:1261)c
(cid:87)(cid:1133)(cid:1249)ng bao quanh th(cid:1219) gi(cid:1247)i luôn mu(cid:1237)n g(cid:1265)i thông (cid:255)(cid:76)(cid:1227)p cho ta.
2.2.8 Machine Learning ( Máy h(cid:1233)c ):
• Ý t(cid:1133)(cid:1251)ng:
Áp d(cid:1257)ng các p(cid:75)(cid:1133)(cid:1131)ng pháp máy h(cid:1233)c trong các bài toán phân lo(cid:1189)i,
(cid:255)(cid:1211)c bi(cid:1227)t là phân lo(cid:1189)i v(cid:259)n b(cid:1191)n vào bài toán phân lo(cid:1189)i email, các thu(cid:1201)t toán
máy h(cid:1233)c nh(cid:1133) Naïve Bayesian [9],[17],[18] AdaBoost [13], Suppor
Vector Machine[18],.., (cid:255)ã (cid:255)(cid:1133)(cid:1255)c s(cid:1265) d(cid:1257)ng trong l(cid:429)nh v(cid:1269)c phân lo(cid:1189)i v(cid:259)n b(cid:1191)n,
nh(cid:1201)n d(cid:1189)ng, …v(cid:1247)i hi(cid:1227)u qu(cid:1191) cao. Ý t(cid:1133)(cid:1251)ng là tìm cách xây d(cid:1269)ng m(cid:1245)t b(cid:1245)
phân lo(cid:1189)i nh(cid:1205)m phân l(cid:1233)ai cho m(cid:1245)t m(cid:1199)u m(cid:1247)i b(cid:1205)ng cách hu(cid:1193)n luy(cid:1227)n nh(cid:1267)ng
m(cid:1199)u (cid:255)ã có s(cid:1209)n.
• (cid:264)(cid:1211)c (cid:255)(cid:76)(cid:1223)m
Ph(cid:1133)(cid:1131)ng pháp này có th(cid:1223) áp d(cid:1257)ng (cid:1251) m(cid:1261)c Server hay Client.
H(cid:1189)n ch(cid:1219) là c(cid:1195)n ph(cid:1191)i có m(cid:1245)t kho ng(cid:1267) li(cid:1227)u (corpus) hu(cid:1193)n luy(cid:1227)n ban
(cid:255)(cid:1195)u (cid:255)(cid:1223) cho máy h(cid:1233)c, vi(cid:1227)c hu(cid:1193)n luy(cid:1227)n m(cid:1193)t nhi(cid:1221)u th(cid:1249)i gian. M(cid:1245)t h(cid:1189)n ch(cid:1219)
n(cid:1267)a là hi(cid:1227)u qu(cid:1191) phân lo(cid:1189)i ph(cid:1257) thu(cid:1245)c vào kho ng(cid:1267) li(cid:1227)u dùng (cid:255)(cid:1223) hu(cid:1193)n
23
luy(cid:1227)n.
2.3 Ph(cid:1133)(cid:1131)ng pháp l(cid:1269)a ch(cid:1233)n :
Trong nh(cid:1267)ng h(cid:1133)(cid:1247)ng ti(cid:1219)p c(cid:1201)n (cid:255)ã tìm hi(cid:1223)u, chúng tôi ch(cid:1233)n h(cid:1133)(cid:1247)ng ti(cid:1219)p c(cid:1201)n
phân lo(cid:1189)i email b(cid:1205)ng ph(cid:1133)(cid:1131)ng pháp máy h(cid:1233)c, ph(cid:1133)(cid:1131)ng pháp này có hi(cid:1227)u qu(cid:1191) cao,
(cid:255)(cid:1239)ng th(cid:1249)i c(cid:458)ng r(cid:1193)t khó b(cid:1231) các spammer v(cid:1133)(cid:1255)t qua. Ngoài ra, h(cid:1133)(cid:1247)ng ti(cid:1219)p c(cid:1201)n này
có th(cid:1223) áp d(cid:1257)ng (cid:255)(cid:1133)(cid:1255)c (cid:1251) m(cid:1261)c Client
C(cid:1257) th(cid:1223) h(cid:1133)(cid:1247)ng ti(cid:1219)p c(cid:1201)n mà nhóm chúng tôi tìm hi(cid:1223)u và th(cid:1265) nghi(cid:1227)m là
phân lo(cid:1189)i email d(cid:1269)a trên thu(cid:1201)t toán hu(cid:1193)n luy(cid:1227)n Naïve Bayes và Adaboost, hai
ph(cid:1133)(cid:1131)ng pháp này có m(cid:1245)t s(cid:1237) (cid:1133)u (cid:255)i(cid:1223)m sau:
§ Hi(cid:1227)u qu(cid:1191) phân lo(cid:1189)i trong các l(cid:429)nh phân lo(cid:1189)i v(cid:259)n b(cid:1191)n, nh(cid:1201)n d(cid:1189)ng
(cid:255)ã (cid:255)(cid:1133)(cid:1255)c ki(cid:1223)m ch(cid:1261)ng và khá cao
§ Thích h(cid:1255)p cho t(cid:1263)ng ng(cid:1133)(cid:1249)i dùng c(cid:1257) th(cid:1223) và (cid:1251) m(cid:1261)c Client
§ Có kh(cid:1191) n(cid:259)ng t(cid:1269) h(cid:1233)c (cid:255)(cid:1223) phân lo(cid:1189)i (cid:255)úng.
§ (cid:43)(cid:1133)(cid:1247)ng ti(cid:1219)p c(cid:1201)n còn khá m(cid:1247)i.
2.4 Các ch(cid:1229) s(cid:1237)(cid:3)(cid:255)ánh giá hi(cid:1227)u qu(cid:1191) phân lo(cid:1189)i email :
2.4.1 Spam Recall và Spam Precision:
(cid:264)(cid:1223) ti(cid:1227)n l(cid:1255)i cho vi(cid:1227)c so sánh, ng(cid:1133)(cid:1249)i ta (cid:255)(cid:1133)a ra hai ch(cid:1229) s(cid:1237)(cid:3)(cid:255)ánh giá là spam
recall và spam precision.
Spam recall là t(cid:1229) l(cid:1227) ph(cid:1195)n tr(cid:259)m gi(cid:1267)a s(cid:1237) email –(cid:3)(cid:255)(cid:1133)(cid:1255)c b(cid:1245) l(cid:1233)c coi là spam - b(cid:1231)
ch(cid:1211)n l(cid:1189)i và t(cid:1241)ng s(cid:1237) email spam (th(cid:1269)c s(cid:1269) ) (cid:255)(cid:1219)n b(cid:1245) l(cid:1233)c
Spam Precision là t(cid:1229) l(cid:1227) ph(cid:1195)n tr(cid:259)m gi(cid:1267)a s(cid:1237) email b(cid:1231) ch(cid:1211)n th(cid:1269)c s(cid:1269) là spam
v(cid:1247)i s(cid:1237) email b(cid:1231) ch(cid:1211)n -(cid:3)(cid:255)(cid:1133)(cid:1255)c b(cid:1245) l(cid:1233)c coi là spam, spam precision (cid:255)ánh giá m(cid:1261)c (cid:255)(cid:1245)
an toàn c(cid:1259)a b(cid:1245) l(cid:1233)c.
=
SR
n -> S +
->
S
S n -> S
n S
N
Công th(cid:1261)c tính Spam Recall (SR) và Spam Precision(SP) nh(cid:1133) sau:
Công th(cid:1261)c 2-1 :Công th(cid:1261)c tính Spam Recall
24
=
SP
n -> S +
S n
->
S
n S
-> N
S
Công th(cid:1261)c 2-2 : Công th(cid:1261)c tính Spam Precesion
V(cid:1247)i :
S >-
S
(cid:252) n là s(cid:1237) email là spam mà b(cid:1245) l(cid:1233)c nh(cid:1201)n ra là spam
S >-
N
(cid:252) n là s(cid:1237) email là spam mà b(cid:1245) l(cid:1233)c nh(cid:1201)n ra là email non-spam
N >-
S
(cid:252) n là s(cid:1237) email non-spam mà b(cid:1245) l(cid:1233)c nh(cid:1201)n ra là spam
2.4.2 T(cid:1229) l(cid:1227) l(cid:1243)i Err (Error) và t(cid:1229) l(cid:1227) chính xác Acc(Accuracy) :
Trong vi(cid:1227)c phân lo(cid:1189)i email, hi(cid:1227)u qu(cid:1191) phân lo(cid:1189)i d(cid:1269)a vào t(cid:1229) l(cid:1227) chính xác (Acc)
n
N
N
S
=
Acc
->+ n S + N
-> N
S
N
ho(cid:1211)c t(cid:1229) l(cid:1227) l(cid:1243)i (Err). Công th(cid:1261)c tính t(cid:1229) l(cid:1227) chính xác và t(cid:1229) l(cid:1227) l(cid:1243)i nh(cid:1133) sau :
Công th(cid:1261)c 2-3 :công th(cid:1261)c tính t(cid:1229) l(cid:1227) chính xác
n
N
S
N
=
Err
->+ n S + N
-> N
S
N
Công th(cid:1261)c 2-4 : công th(cid:1261)c tính t(cid:1229) l(cid:1227) l(cid:1243)i
V(cid:1247)i
NN và
SN là s(cid:1237) email non-spam và s(cid:1237) email spam c(cid:1195)n phân lo(cid:1189)i
•
Nn >-
N
• là s(cid:1237) email là non-spam và (cid:255)(cid:1133)(cid:1255)c b(cid:1245) l(cid:1233)c nh(cid:1201)n ra là non- spam
Nn >-
S
• là s(cid:1237) email là non-spam mà b(cid:1245) l(cid:1233)c nh(cid:1201)n ra là spam
Sn >-
S
• là s(cid:1237) email là spam mà (cid:255)(cid:1133)(cid:1255)c b(cid:1245) l(cid:1233)c nh(cid:1201)n ra là spam
Sn >-
N
• là s(cid:1237) email là spam mà (cid:255)(cid:1133)(cid:1255)c b(cid:1245) l(cid:1233)c nh(cid:1201)n ra là non-spam
2.4.3 T(cid:1229) l(cid:1227) l(cid:1243)i gia tr(cid:1233)ng WErr (Weighted Error ) và t(cid:1229) l(cid:1227) chính xác
gia tr(cid:1233)ng (Weighted Accuracy):
Trong phân lo(cid:1189)i email có hai lo(cid:1189)i l(cid:1243)i : l(cid:1243)i nh(cid:1201)n spam ra non-spam (false
25
negative) và l(cid:1243)i nh(cid:1201)n non-spam ra spam(false positive) [3]. L(cid:1243)i th(cid:1261) hai là l(cid:1243)i
nghiêm tr(cid:1233)ng h(cid:1131)n, b(cid:1251)i ng(cid:1133)(cid:1249)i dùng có th(cid:1223) ch(cid:1193)p nh(cid:1201)n m(cid:1245)t email spam v(cid:1133)(cid:1255)t qua
b(cid:1245) l(cid:1233)c nh(cid:1133)ng khó mà ch(cid:1193)p nh(cid:1201)n m(cid:1245)t email h(cid:1255)p l(cid:1227) l(cid:1189)i b(cid:1231) b(cid:1245) l(cid:1233)c ch(cid:1211)n l(cid:1189)i.(cid:3)(cid:264)(cid:1223) bi(cid:1223)u
th(cid:1231) tác (cid:255)(cid:1245)ng c(cid:1259)a hai lo(cid:1189)i l(cid:1243)i này (cid:255)(cid:1237)i v(cid:1247)i t(cid:1229) l(cid:1227) chính xác và t(cid:1229) l(cid:1227) l(cid:1243)i, ta s(cid:1217) xem m(cid:1243)i
m(cid:1245)t email h(cid:1255)p l(cid:1227) nh(cid:1133) là l email h(cid:1255)p l(cid:1227). Do (cid:255)ó khi m(cid:1245)t email h(cid:1255)p l(cid:1227) b(cid:1231) phân
lo(cid:1189)i sai, thay vì xem nh(cid:1133) có m(cid:1245)t l(cid:1243)i, ta xem nh(cid:1133) là l l(cid:1243)i, và khi phân lo(cid:1189)i
l(cid:1195)n thành công. Ta có hai t(cid:1229) l(cid:1227) : t(cid:1229) l(cid:1227) chính xác gia (cid:255)úng ta xem nh(cid:1133) là l
tr(cid:1233)ng WAcc (Weighted Accuracy Rate ) và t(cid:1229) l(cid:1227) l(cid:1243)i gia tr(cid:1233)ng WErr
(Weighted Error Rate) (WErr=1 -WAcc).
n N
N
S
=
WAcc
l
->+ n S + N
-> N
S
N
l
Công th(cid:1261)c 2-5 T(cid:1229) l(cid:1227) chính xác gia tr(cid:1233)ng
n
N
S
N
=
WErr
l
->+ n S + N
-> N
S
N
l
Công th(cid:1261)c 2-6 T(cid:1229) l(cid:1227) l(cid:1243)i gia tr(cid:1233)ng
V(cid:1247)i :
SN là s(cid:1237) email non-spam và s(cid:1237) email spam c(cid:1195)n phân lo(cid:1189)i
(cid:252) NN và
Nn >-
N
(cid:252) là s(cid:1237) email là non-spam và (cid:255)(cid:1133)(cid:1255)c b(cid:1245) l(cid:1233)c nh(cid:1201)n ra là non- spam
Nn >-
S
(cid:252) là s(cid:1237) email là non-spam mà b(cid:1245) l(cid:1233)c nh(cid:1201)n ra là spam
Sn >-
S
(cid:252)
(cid:252) là s(cid:1237) email là spam mà (cid:255)(cid:1133)(cid:1255)c b(cid:1245) l(cid:1233)c nh(cid:1201)n ra là spam
Sn >-
N
là s(cid:1237) email là spam mà (cid:255)(cid:1133)(cid:1255)c b(cid:1245) l(cid:1233)c nh(cid:1201)n ra là non-spam
2.4.4 T(cid:1229) s(cid:1237) chi phí t(cid:1241)ng h(cid:1255)p TCR (Total Cost Ratio ):
Giá tr(cid:1231) c(cid:1259)a t(cid:1229) l(cid:1227) chính xác và t(cid:1229) l(cid:1227) l(cid:1243)i th(cid:1133)(cid:1249)ng có s(cid:1269) sai l(cid:1227)ch cao.(cid:3)(cid:264)(cid:1223) th(cid:1193)y
rõ (cid:255)(cid:1133)(cid:1255)c hi(cid:1227)u qu(cid:1191) c(cid:1259)a cách phân lo(cid:1189)i, ng(cid:1133)(cid:1249)i ta th(cid:1133)(cid:1249)ng so sánh t(cid:1229) l(cid:1227) chính xác
ho(cid:1211)c t(cid:1229) l(cid:1227) l(cid:1243)i gi(cid:1267)a b(cid:1245) phân lo(cid:1189)i v(cid:1247)i tr(cid:1133)(cid:1249)ng h(cid:1255)p (cid:255)(cid:1131)n gi(cid:1191)n nh(cid:1193)t và (cid:255)(cid:1133)(cid:1255)c xem là
tr(cid:1133)(cid:1249)ng h(cid:1255)p “ranh gi(cid:1247)i “(baseline).”Ranh gi(cid:1247)i” (cid:255)(cid:1133)(cid:1255)c ch(cid:1233)n là tr(cid:1133)(cid:1249)ng h(cid:1255)p không
26
s(cid:1265) d(cid:1257)ng m(cid:1245)t b(cid:1245) l(cid:1233)c nào, các email h(cid:1255)p l(cid:1227) không bao gi(cid:1249) b(cid:1231) ch(cid:1211)n l(cid:1189)i và các email
là spam thì luôn luôn (cid:255)i qua. Nh(cid:1133) v(cid:1201)y t(cid:1229) l(cid:1227) chính xác gia tr(cid:1233)ng và t(cid:1229) l(cid:1227) l(cid:1243)i gia
tr(cid:1233)ng c(cid:1259)a tr(cid:1133)(cid:1249)ng h(cid:1255)p “ranh gi(cid:1247)i “ là :
b
=
WAcc
N N +
l
N
N
N
S
l
Công th(cid:1261)c 2-7: T(cid:1229) l(cid:1227) chính xác gia tr(cid:1233)ng c(cid:1259)a tr(cid:1133)(cid:1249)ng h(cid:1255)p "Ranh gi(cid:1247)i "
N
b
=
WErr
S +
N
N
N
S
l
Công th(cid:1261)c 2-8: T(cid:1229) l(cid:1227) l(cid:1243)i gia tr(cid:1233)ng c(cid:1259)a tr(cid:1133)(cid:1249)ng h(cid:1255)p "Ranh gi(cid:1247)i "
NN ,
Nn >-
N
Nn >-
S
Sn >-
S
Sn >-
N
, , , có cùng ý ngh(cid:429)a nh(cid:1133) (cid:1251) m(cid:1257)c 2.4.1 và V(cid:1247)i : SN ,
2.4.2
T(cid:1229) s(cid:1237) chi phí toàn b(cid:1245) TCR ( total cost ratio) cho phép ta so sánh (cid:255)(cid:1133)(cid:1255)c
b
=
=
TCR
N S +
hi(cid:1227)u qu(cid:1191) c(cid:1259)a tr(cid:1133)(cid:1249)ng h(cid:1255)p s(cid:1265) d(cid:1257)ng b(cid:1245) l(cid:1233)c so v(cid:1247)i tr(cid:1133)(cid:1249)ng h(cid:1255)p “ranh gi(cid:1247)i”:
WErr WErr
n
->
N
S
n -> S
N
l
Công th(cid:1261)c 2-9 Công th(cid:1261)c tính t(cid:1229) s(cid:1237) chi phí t(cid:1241)ng h(cid:1255)p
Giá tr(cid:1231) TCR càng l(cid:1247)n thì hi(cid:1227)u qu(cid:1191) phân lo(cid:1189)i càng cao, v(cid:1247)i TCR nh(cid:1235) h(cid:1131)n 1
.
27
thì rõ ràng không s(cid:1265) d(cid:1257)ng b(cid:1245) l(cid:1233)c còn t(cid:1237)t h(cid:1131)n.
Ch(cid:1133)(cid:1131)ng 3 : GI(cid:1246)I THI(cid:1226)U CÁC KHO NG(cid:1266)
LI(cid:1226)U DÙNG KI(cid:1222)M TH(cid:1264) PHÂN LO(cid:1188)I EMAIL
28
3.1 Kho ng(cid:1267) li(cid:1227)u PU (corpus PU ):
3.1.1 Vài nét v(cid:1221) kho ng(cid:1267) li(cid:1227)u PU:
Các nghiên c(cid:1261)u v(cid:1221) phân lo(cid:1189)i (cid:89)(cid:259)n b(cid:1191)n có nhi(cid:1221)u thu(cid:1201)n l(cid:1255)i vì có s(cid:1209)n các kho
ng(cid:1267) li(cid:1227)u công c(cid:1245)ng (cid:255)(cid:1223) dùng chung, tuy nhiên s(cid:1265) d(cid:1257)ng nh(cid:1267)ng kho ng(cid:1267) li(cid:1227)u này
vào vi(cid:1227)c l(cid:1233)c spam l(cid:1189)i g(cid:1211)p ph(cid:1191)i r(cid:1203)c r(cid:1237)i b(cid:1251)i v(cid:1193)n (cid:255)(cid:1221) tính riêng t(cid:1133), cá nhân. Nh(cid:1267)ng
email spam thì không có v(cid:1193)n (cid:255)(cid:1221) gì, tuy nhiên không th(cid:1223) s(cid:1265) d(cid:1257)ng nh(cid:1267)ng email
h(cid:1255)p l(cid:1227) mà không th(cid:1223) không vi ph(cid:1189)m (cid:255)(cid:1219)n s(cid:1269) riêng t(cid:1133) c(cid:1259)a ng(cid:1133)(cid:1249)i g(cid:1251)i và ng(cid:1133)(cid:1249)i
nh(cid:1201)n c(cid:1259)a nh(cid:1267)ng email này.
Chúng tôi s(cid:1265) d(cid:1257)ng kho ng(cid:1267) li(cid:1227)u PU (cid:255)(cid:1223) h(cid:1233)c và ki(cid:1223)m th(cid:1265)7 PU là m(cid:1245)t kho
ng(cid:1267) li(cid:1227)u email chu(cid:1197)n, g(cid:1239)m có b(cid:1237)n kho ng(cid:1267) li(cid:1227)u nh(cid:1235) h(cid:1131)n bao g(cid:1239)m PU1, PU2,
PU3 và PUA. M(cid:1243)i m(cid:1245)t token s(cid:1217)(cid:3)(cid:255)(cid:1133)(cid:1255)c thay th(cid:1219) t(cid:1133)(cid:1131)ng (cid:1261)ng b(cid:1205)ng m(cid:1245)t con s(cid:1237) duy
nh(cid:1193)t nh(cid:1133) minh h(cid:1233)a trong hình 3-1.
Hình 3-1Email sau khi tách token và mã hoá (trong kho ng(cid:1267) li(cid:1227)u pu)
Hàm ánh x(cid:1189) t(cid:1263) v(cid:259)n b(cid:1191)n sang các con s(cid:1237) không (cid:255)(cid:1133)(cid:1255)c công b(cid:1237), do (cid:255)ó vi(cid:1227)c
khôi ph(cid:1257)c l(cid:1189)i v(cid:259)n b(cid:1191)n ban (cid:255)(cid:1195)u là c(cid:1269)c k(cid:484) khó,(cid:3)(cid:255)i(cid:1221)u này (cid:255)(cid:1191)m b(cid:1191)o (cid:255)(cid:1133)(cid:1255)c tính bí m(cid:1201)t,
riêng t(cid:1133) c(cid:1259)a ng(cid:1133)(cid:1249)i g(cid:1251)i và ng(cid:1133)(cid:1249)i nh(cid:1201)n. Nh(cid:1267)ng email gi(cid:1237)ng nhau c(cid:458)ng (cid:255)(cid:1133)(cid:1255)c xem
xét. Trong kho ng(cid:1267) li(cid:1227)u PU1 và PU2, nh(cid:1267)ng email gi(cid:1237)ng nhau và nh(cid:1201)n trong
cùng m(cid:1245)t ngày (cid:255)(cid:1133)(cid:1255)c xóa th(cid:1259) công.Trong kho ng(cid:1267) li(cid:1227)u PU3 và PUA quá trình
này (cid:255)(cid:1133)(cid:1255)c th(cid:1269)c hi(cid:1227)n t(cid:1269)(cid:3)(cid:255)(cid:1245)ng, (cid:1251) hai kho ng(cid:1267) li(cid:1227)u này, khái ni(cid:1227)m khác nhau c(cid:1259)a
hai email (cid:255)(cid:1133)(cid:1255)c xem xét nh(cid:1133) sau :hai email (cid:255)(cid:1133)(cid:1255)c xem là khác nhau n(cid:1219)u chúng có
7(cid:3)(cid:264)(cid:1223) l(cid:1193)y c(cid:1131) s(cid:1251) d(cid:1267) li(cid:1227)u PU, vào trang web Internet CONtent Filtering Group, http://www.iit.demokritos.gr/skel/i- config/
29
ít nh(cid:1193)t 5 dòng khác nhau.T(cid:1193)t c(cid:1191) nh(cid:1267)ng email gi(cid:1237)ng nhau, b(cid:1193)t k(cid:1223) ngày nh(cid:1201)n,(cid:3)(cid:255)(cid:1221)u
b(cid:1231) xóa (cid:255)i, ch(cid:1229) gi(cid:1267) l(cid:1189)i m(cid:1245)t email mà thôi.(cid:38)(cid:1131) ch(cid:1219) này (cid:255)(cid:1133)(cid:1255)c áp d(cid:1257)ng cho c(cid:1191) email
spam và email non-spam. Theo [18], trong quá trình t(cid:1189)o kho ng(cid:1267) li(cid:1227)u PU, m(cid:1245)t
v(cid:1193)n (cid:255)(cid:1221) phát sinh (cid:255)ó là có m(cid:1245)t l(cid:1133)(cid:1255)ng l(cid:1247)n email là c(cid:1259)a nh(cid:1267)ng ng(cid:1133)(cid:1249)i g(cid:1251)i th(cid:1133)(cid:1249)ng
xuyên liên l(cid:1189)c v(cid:1247)i ng(cid:1133)(cid:1249)i t(cid:1189)o kho ng(cid:1267) li(cid:1227)u - nh(cid:1267)ng email RC (Relative
Correspondence), nh(cid:1267)ng email này c(cid:458)ng (cid:255)(cid:1133)(cid:1255)c lo(cid:1189)i b(cid:1235).
3.1.2 Mô t(cid:1191) c(cid:1193)u trúc kho ng(cid:1267) li(cid:1227)u PU:
Nh(cid:1267)ng email h(cid:1255)p l(cid:1227) trong PU1 là nh(cid:1267)ng email h(cid:1255)p l(cid:1227) ng(cid:1133)(cid:1249)i t(cid:1189)o (cid:255)ã nh(cid:1201)n
(cid:255)(cid:1133)(cid:1255)c trong vòng 36 tháng cho (cid:255)(cid:1219)n tháng 12 n(cid:259)m 2003, g(cid:1239)m có 1182 email.
Nh(cid:1267)ng email h(cid:1255)p l(cid:1227) không có n(cid:1245)i dung và nh(cid:1267)ng email RC s(cid:1217) b(cid:1231) lo(cid:1189)i b(cid:1235), k(cid:1219)t qu(cid:1191)
là có 618 email h(cid:1255)p l(cid:1227). Nh(cid:1267)ng email spam trong PU1 là email spam ng(cid:1133)(cid:1249)i t(cid:1189)o
(cid:255)ã nh(cid:1201)n (cid:255)(cid:1133)(cid:1255)c trong kho(cid:1191)ng th(cid:1249)i gian 22 tháng cho (cid:255)(cid:1219)n th(cid:1249)i (cid:255)(cid:76)(cid:1223)m 12-2003, bao
g(cid:1239)m nh(cid:1267)ng email không ph(cid:1191)i là email ti(cid:1219)ng Anh và nh(cid:1267)ng email gi(cid:1237)ng nhau
nh(cid:1201)n trong m(cid:1245)t ngày.
PU2 c(cid:458)ng t(cid:1133)(cid:1131)ng t(cid:1269) nh(cid:1133) PU1,(cid:3)(cid:255)i(cid:1223)m khác nhau (cid:1251)(cid:3)(cid:255)ây là nh(cid:1267)ng email RC
(cid:1250) PU3 và PUA,nh(cid:1267)ng email h(cid:1255)p l(cid:1227) không ph(cid:1191)i là ti(cid:1219)ng Anh v(cid:1199)n (cid:255)(cid:1133)(cid:1255)c
gi(cid:1267) l(cid:1189)i
T(cid:1229) l(cid:1227) non-spam :spam c(cid:1259)a PU3 x(cid:1193)p x(cid:1229) PU1, tuy nhiên s(cid:1237) l(cid:1133)(cid:1255)ng c(cid:1259)a PU3
nhi(cid:1221)u g(cid:1193)p 4 l(cid:1195)n PU1, trong PU2 t(cid:1229) l(cid:1227)(cid:3)(cid:255)ó x(cid:1193)p x(cid:1229) 4:1, (cid:1251) PUA t(cid:1229) l(cid:1227)(cid:3)(cid:255)ó là 1:1
Trong t(cid:1193)t c(cid:1191) các kho ng(cid:1267) li(cid:1227)u PU, các t(cid:1201)p tin (cid:255)ính kèm, các th(cid:1215) HTML,
các tr(cid:1133)(cid:1249)ng khác trong header c(cid:1259)a email (cid:255)(cid:1221)u b(cid:1231) lo(cid:1189)i b(cid:1235) (ngo(cid:1189)i tr(cid:1263) tr(cid:1133)(cid:1249)ng tiêu (cid:255)(cid:1221)
30
(subject). Các d(cid:1193)u ch(cid:1193)m câu, các kí t(cid:1269)(cid:3)(cid:255)(cid:1211)c bi(cid:1227)t khác (!,$) c(cid:458)ng (cid:255)(cid:1269)(cid:1255)c xem xét .
T(cid:1229) l(cid:1227) non- Email T(cid:1241)ng Email Email Email Tên Email
spam:spam spam s(cid:1237) h(cid:1255)p l(cid:1227) RC h(cid:1255)p l(cid:1227) h(cid:1255)p l(cid:1227)
email còn l(cid:1189)i khác b(cid:1231) ban (cid:255)(cid:1195)u
Pu1
1182
564
618
481
1099
1.28
Pu2
6207
5628
579
142
721
4.01
1.27
Pu3
8824
6253
258
2313
1826
4139
Pua
980
369
40
571
571
1142
1
gi(cid:1267) l(cid:1189)i xóa
(cid:37)(cid:1191)ng 3-1Mô t(cid:1191) c(cid:1193)u trúc kho ng(cid:1267) li(cid:1227)u PU
M(cid:1243)i kho ng(cid:1267) li(cid:1227)u pu l(cid:1189)i (cid:255)(cid:1133)(cid:1255)c chia ra làm 11 th(cid:1133) m(cid:1257)c t(cid:1263) part 1 (cid:255)(cid:1219)n part 10, và
m(cid:1245)t th(cid:1133) m(cid:1257)c unused, m(cid:1243)i th(cid:1133) m(cid:1257)c t(cid:1263) part 1 (cid:255)(cid:1219)n part 10 ch(cid:1261)a s(cid:1237) l(cid:1133)(cid:1255)ng email nh(cid:1133)
nhau và s(cid:1237) l(cid:1133)(cid:1255)ng email spam và email h(cid:1255)p l(cid:1227) trong m(cid:1243)i th(cid:1133) m(cid:1257)c part i
(i=1,…,10) trên là nh(cid:1133) nhau, th(cid:1133) m(cid:1257)c unused ch(cid:1261)a nh(cid:1267)ng email không s(cid:1265) d(cid:1257)ng.
Chúng tôi s(cid:1265) d(cid:1257)ng t(cid:1263) part 1 (cid:255)(cid:1219)n part 9 (cid:255)(cid:1223) ph(cid:1257)c v(cid:1257) cho vi(cid:1227)c h(cid:1233)c.(cid:3)(cid:264)(cid:1237)i v(cid:1247)i vi(cid:1227)c
ki(cid:1223)m th(cid:1265) k(cid:1219)t qu(cid:1191) , chúng tôi s(cid:1265) d(cid:1257)ng kho ng(cid:1267) li(cid:1227)u (cid:255)ã (cid:255)(cid:1133)(cid:1255)c h(cid:1233)c (t(cid:1263) part 1 (cid:255)(cid:1219)n
part 9 ) và kho ng(cid:1267) li(cid:1227)u ch(cid:1133)a (cid:255)(cid:1133)(cid:1255)c h(cid:1233)c (cid:255)(cid:1223) ki(cid:1223)m th(cid:1265).(cid:3)(cid:264)(cid:1223) th(cid:1269)c hi(cid:1227)n vi(cid:1227)c ki(cid:1223)m th(cid:1265)
các thu(cid:1201)t toán (cid:255)(cid:1133)(cid:1255)c ti(cid:1227)n l(cid:1255)i, chúng tôi ti(cid:1219)n hành chia nhóm kho ng(cid:1267) li(cid:1227)u h(cid:1233)c.V(cid:1247)i
m(cid:1243)i kho ng(cid:1267) li(cid:1227)u PU, chúng tôi phân lo(cid:1189)i email thành hai th(cid:1133) m(cid:1257)c, m(cid:1245)t th(cid:1133) m(cid:1257)c
ch(cid:1261)a các email spam t(cid:1263) part 1 (cid:255)(cid:1219)n part 9, th(cid:1133) m(cid:1257)c còn l(cid:1189)i ch(cid:1261)a email h(cid:1255)p l(cid:1227) t(cid:1263)
part 1 (cid:255)(cid:1219)n part 9, v(cid:1247)i part 10 chúng tôi c(cid:458)ng ti(cid:1219)n hành phân lo(cid:1189)i t(cid:1133)(cid:1131)ng t(cid:1269) nh(cid:1133)
trên
3.2 Kho ng(cid:1267) li(cid:1227)u email ch(cid:1267):
(cid:264)(cid:1223) t(cid:1189)o kho ng(cid:1267) li(cid:1227)u email là ch(cid:1267), chúng tôi l(cid:1193)y d(cid:1267) li(cid:1227)u t(cid:1189)i trang : Index of
/publiccorpus http://spamassassin.apache.org/publiccorpus/. Ng(cid:1267) li(cid:1227)u g(cid:1239)m nh(cid:1267)ng
email (cid:255)(cid:1133)(cid:1255)c thu th(cid:1201)p trong các n(cid:259)m 2002 và 2003, s(cid:1237) l(cid:1133)(cid:1255)ng email spam 2398 là, s(cid:1237)
31
(cid:79)(cid:1133)(cid:1255)ng email 6951
Chúng tôi ti(cid:1219)n hành x(cid:1265) lý và phân l(cid:1233)ai email : l(cid:1233)ai b(cid:1235) nh(cid:1267)ng email có t(cid:1201)p tin
(cid:255)ính kèm, phân lo(cid:1189)i email html và email v(cid:259)n b(cid:1191)n tr(cid:1131)n (text/plain).
S(cid:1237) email spam là v(cid:259)n b(cid:1191)n tr(cid:1131)n sau khi (cid:255)ã x(cid:1265) lý kh(cid:1235)ang 600 email, email non-
spam là v(cid:259)n b(cid:1191)n tr(cid:1131)n sau khi (cid:255)ã x(cid:1265) lý là kho(cid:1191)ng 2500 mail
S(cid:1237) email non-spam là email html sau khi (cid:255)ã x(cid:1265) lý là g(cid:1195)n 200 mail, s(cid:1237) email
spam là email html sau khi (cid:255)ã x(cid:1265) lý kho(cid:1191)ng 1000 mail. Sau (cid:255)ó chúng tôi t(cid:1189)o thành
hai kho ng(cid:1267) li(cid:1227)u email v(cid:259)n b(cid:1191)n tr(cid:1131)n (text/plain) và email html.
Vi(cid:1227)c t(cid:1189)o kho ng(cid:1267) li(cid:1227)u email v(cid:259)n b(cid:1191)n tr(cid:1131)n (text/plain) th(cid:1269)c hi(cid:1227)n b(cid:1205)ng cách
ch(cid:1233)n ng(cid:1199)u nhiên các email t(cid:1263) kho ng(cid:1267) li(cid:1227)u sau khi (cid:255)ã qua x(cid:1265) lý, s(cid:1237) email spam
dùng hu(cid:1193)n luy(cid:1227)n là 517, s(cid:1237) l(cid:1133)(cid:1255)ng email spam (cid:255)(cid:1223) ki(cid:1223)m th(cid:1265) là 98. V(cid:1247)i ng(cid:1267) li(cid:1227)u email
non-spam là v(cid:259)n b(cid:1191)n tr(cid:1131)n (text/plain) s(cid:1237) l(cid:1133)(cid:1255)ng dùng hu(cid:1193)n luy(cid:1227)n là 528, s(cid:1237) l(cid:1133)(cid:1255)ng
dùng (cid:255)(cid:1223) ki(cid:1223)m th(cid:1265) là 100
(cid:264)(cid:1223) t(cid:1189)o kho ng(cid:1267) li(cid:1227)u email html, chúng tôi c(cid:458)ng xây d(cid:1269)ng t(cid:1133)(cid:1131)ng t(cid:1269) nh(cid:1133) trên.
V(cid:1247)i ng(cid:1267) li(cid:1227)u email non-spam là html, chúng tôi dùng 141 email (cid:255)(cid:1223) hu(cid:1193)n luy(cid:1227)n, 50
email dùng (cid:255)(cid:1223) ki(cid:1223)m th(cid:1265). Còn ng(cid:1267) li(cid:1227)u emal spam là html, chúng tôi dùng 205 email
32
(cid:255)(cid:1223) hu(cid:1193)n luy(cid:1227)n và 50 email (cid:255)(cid:1223) ki(cid:1223)m th(cid:1265).
Ch(cid:1133)(cid:1131)ng 4 : PH(cid:1132)(cid:1130)NG PHÁP PHÂN LO(cid:1188)I
NAÏVE BAYESIAN VÀ (cid:1260)NG D(cid:1256)NG PHÂN
LO(cid:1188)I EMAIL
33
4.1 M(cid:1245)t vài khái ni(cid:1227)m xác su(cid:1193)t có liên quan
4.1.1 (cid:264)(cid:1231)nh ngh(cid:429)a bi(cid:1219)n c(cid:1237), xác su(cid:1193)t :
4.1.1.1 Khái ni(cid:1227)m phép th(cid:1265) và bi(cid:1219)n c(cid:1237):
Gieo m(cid:1245)t (cid:255)(cid:1239)ng ti(cid:1221)n trên m(cid:1245)t m(cid:1211)t ph(cid:1207)ng :(cid:255)ó là m(cid:1245)t phép th(cid:1265)
K(cid:1219)t qu(cid:1191) có th(cid:1223) x(cid:1191)y ra khi gieo (cid:255)(cid:1239)ng ti(cid:1221)n : “Xu(cid:1193)t hi(cid:1227)n m(cid:1211)t s(cid:1193)p” ho(cid:1211)c
“Xu(cid:1193)t hi(cid:1227)n m(cid:1211)t ng(cid:1267)a”
“Xu(cid:1193)t hiên m(cid:1211)t s(cid:1193)p” -(cid:264)ó là m(cid:1245)t bi(cid:1219)n c(cid:1237)
“Xu(cid:1193)t hi(cid:1227)n m(cid:1211)t ng(cid:1267)a” -(cid:264)ó là m(cid:1245)t bi(cid:1219)n c(cid:1237)
4.1.1.2 (cid:264)(cid:1231)nh ngh(cid:429)a xác su(cid:1193)t:
Theo [8] có nh(cid:1267)ng (cid:255)(cid:1231)nh ngh(cid:429)a xác su(cid:1193)t sau:
D(cid:1189)ng c(cid:1241)(cid:3)(cid:255)(cid:76)(cid:1223)n :
Xác su(cid:813)t c(cid:879)a bi(cid:839)n c(cid:857) A là m(cid:865)t s(cid:857) không âm,ký hi(cid:847)u P(A), bi(cid:843)u th(cid:851) kh(cid:811)
=
P A ( )
= S(cid:1237) tr(cid:1133)(cid:1249)ng h(cid:1255)p thu(cid:1201)n l(cid:1255)i cho A / S(cid:1237) tr(cid:1133)(cid:1249)ng h(cid:1255)p có th(cid:1223) có
m n
(cid:81)(cid:259)ng x(cid:811)y ra bi(cid:839)n c(cid:857) A và (cid:255)(cid:753)(cid:875)c xác (cid:255)(cid:851)nh nh(cid:753) sau :
khi phép th(cid:1265) th(cid:1269)c hi(cid:1227)n
(Nh(cid:1267)ng kh(cid:1191) n(cid:259)ng ho(cid:1211)c các bi(cid:1219)n c(cid:1237) s(cid:1131) c(cid:1193)p – n(cid:1219)u chúng x(cid:1191)y ra thì suy
ra A x(cid:1191)y ra – g(cid:1233)i là nh(cid:1267)ng tr(cid:1133)(cid:1249)ng h(cid:1255)p thu(cid:1201)n l(cid:1255)i cho A ).
(cid:264)(cid:851)nh ngh(cid:429)a xác su(cid:813)t theo ph(cid:753)(cid:751)ng pháp th(cid:857)ng kê :
Làm (cid:255)i làm l(cid:1189)i m(cid:1245)t phép th(cid:1265) nào (cid:255)ó n l(cid:1195)n mà có m l(cid:1195)n bi(cid:1219)n c(cid:1237) A xu(cid:1193)t
hi(cid:1227)n thì t(cid:1273) s(cid:1237) m/n g(cid:1233)i là t(cid:1195)n su(cid:1193)t c(cid:1259)a bi(cid:1219)n c(cid:1237) A
Khi n thay (cid:255)(cid:1241)i,t(cid:1195)n su(cid:1193)t m/n c(cid:458)ng thay (cid:255)(cid:1241)i nh(cid:1133)ng nó luôn dao (cid:255)(cid:1245)ng
quanh m(cid:1245)t s(cid:1237) c(cid:1237)(cid:3)(cid:255)(cid:1231)nh (cid:255)ó. S(cid:1237) c(cid:1237)(cid:3)(cid:255)(cid:1231)nh (cid:1193)y (cid:255)(cid:1133)(cid:1255)c g(cid:1233)i là xác su(cid:1193)t c(cid:1259)a bi(cid:1219)n c(cid:1237) A
34
theo ngh(cid:429)a th(cid:1237)ng kê. Trên th(cid:1269)c t(cid:1219) khi n (cid:255)(cid:1259) l(cid:1247)n ta x(cid:1193)p x(cid:1229) P(A) b(cid:1251)i m/n
4.1.2 Xác su(cid:1193)t có (cid:255)(cid:76)(cid:1221)u ki(cid:1227)n, công th(cid:1261)c xác su(cid:1193)t (cid:255)(cid:1195)y (cid:255)(cid:1259)(cid:3)(cid:177) công
th(cid:1261)c xác su(cid:1193)t Bayes
4.1.2.1 Xác su(cid:1193)t có (cid:255)(cid:76)(cid:1221)u ki(cid:1227)n Theo (cid:264)(cid:1211)ng H(cid:1193)n [8]:
Xác su(cid:813)t có (cid:255)(cid:76)(cid:841)u ki(cid:847)n c(cid:879)a bi(cid:839)n c(cid:857) A v(cid:867)i (cid:255)(cid:76)(cid:841)u ki(cid:847)n bi(cid:839)n c(cid:857) B (cid:255)ã x(cid:811)y ra là
m(cid:865)t con s(cid:857) không âm,(cid:3)(cid:255)(cid:753)(cid:875)c ký hi(cid:847)u P(A/B) nó bi(cid:841)u th(cid:851) kh(cid:811) n(cid:259)ng x(cid:811)y ra
)
=
P A B
(
|
)
( P AB P B ) (
bi(cid:839)n c(cid:857) A trong tình hu(cid:857)ng bi(cid:839)n c(cid:857) B (cid:255)ã x(cid:811)y ra
Công th(cid:1261)c 4-1: công th(cid:1261)c tính xác su(cid:1193)t có (cid:255)(cid:76)(cid:1221)u ki(cid:1227)n
Suy ra:
P A B P B )
(
(
|
= )
= ) P B A P A )
(
(
|
P AB (
)
· ·
Công th(cid:1261)c 4-2
,...,
,
B là m(cid:1245)t nhóm (cid:255)(cid:1195)y(cid:3)(cid:255)(cid:1259) các bi(cid:1219)n c(cid:1237). Xét bi(cid:1219)n c(cid:1237)
B B B 2 3
1
n
,
,
,...,
4.1.2.2 Công th(cid:1261)c xác su(cid:1193)t (cid:255)(cid:1195)y (cid:255)(cid:1259): , Gi(cid:1191) s(cid:1265)
B x(cid:1191)y ra.
B B B 2 3
1
n
A sao cho A x(cid:1191)y ra ch(cid:1229) khi m(cid:1245)t trong các bi(cid:1219)n c(cid:1237)
n
P A ( )
(
/
)
= (cid:229)
P B P A B ). ( i
i
= 1
i
Khi (cid:255)ó :
Công th(cid:1261)c 4-3 :công th(cid:1261)c xác su(cid:1193)t (cid:255)(cid:1195)y (cid:255)(cid:1259)
Công th(cid:1261)c trên (cid:255)(cid:1133)(cid:1255)c g(cid:1233)i là công th(cid:1261)c xác su(cid:1193)t (cid:255)(cid:1195)y (cid:255)(cid:1259)
4.1.2.3 Công th(cid:1261)c xác su(cid:1193)t Bayes:
)
(
/
)
k
=
=
(
|
) P B A k
). ( P B P A B k n
( P AB k ( ) P A
(
/
)
T(cid:1263) các công th(cid:1261)c:Công th(cid:1261)c 4-1, Công th(cid:1261)c 4-2 và Công th(cid:1261)c 4-3, ta có:
P B P A B ). ( i
i
= 1
i
(cid:229)
Công th(cid:1261)c 4-4 : công th(cid:1261)c xác su(cid:1193)t Bayes
35
4.2 Ph(cid:1133)(cid:1131)ng pháp phân lo(cid:1189)i Naïve Bayesian :
Phân lo(cid:1189)i Bayesian là ph(cid:1133)(cid:1131)ng pháp phân lo(cid:1189)i s(cid:1265) d(cid:1257)ng tri th(cid:1261)c các xác su(cid:1193)t
(cid:255)ã qua hu(cid:1193)n luy(cid:1227)n. Ph(cid:1133)(cid:1131)ng pháp này thích h(cid:1255)p v(cid:1247)i nh(cid:1267)ng l(cid:1247)p bài toán (cid:255)òi h(cid:1235)i ph(cid:1191)i
d(cid:1269)(cid:3)(cid:255)oán chính xác l(cid:1247)p c(cid:1259)a m(cid:1199)u c(cid:1195)n ki(cid:1223)m tra d(cid:1269)a trên nh(cid:1267)ng thông tin t(cid:1263) t(cid:1201)p hu(cid:1193)n
X
luy(cid:1227)n ban (cid:255)(cid:1195)u [16].
X là các thu(cid:1245)c tính v(cid:1247)i các giá tr(cid:1231) r(cid:1249)i r(cid:1189)c
1,...,
n
}
Theo Charles Elkan [16] cho
c c 2, 1
c ,..., m
x
x , d(cid:1269)(cid:3)(cid:255)oán m(cid:1199)u thu(cid:1245)c v(cid:1221) l(cid:1247)p c ˛
. Cho m(cid:1245)t m(cid:1199)u hu(cid:1193)n luy(cid:1227)n v(cid:1247)i giá tr(cid:1231) các thu(cid:1245)c tính (cid:255)(cid:1133)(cid:1255)c dùng (cid:255)(cid:1223) d(cid:1269)(cid:3)(cid:255)oán m(cid:1245)t l(cid:1247)p riêng bi(cid:1227)t C cho m(cid:1245)t m(cid:1199)u, t(cid:1201)p các l(cid:1247)p mà m(cid:1199)u có th(cid:1223) thu(cid:1245)c v(cid:1221) là C { =
n
=
C khi xác su(cid:1193)t (cid:87)(cid:1133)(cid:1131)ng (cid:1261)ng là 1,...,
(
)
= P C c X
X
= X
|
...
x 1
1
= 2
x 2
n
x n
(cid:217) (cid:217) (cid:217) có giá tr(cid:1231) l(cid:1247)n nh(cid:1193)t. S(cid:1265) d(cid:1257)ng công th(cid:1261)c xác
=
=
su(cid:1193)t Bayes ta có :
)
...
( P X
X
X
= 2
=
=
=
=
=
(
)
(
)
= P C c X
X
X
P C c
|
...
x 1
1
2
x 2
n
x n
x 1 =
= | x C c n )
1 ( P X
X
n = X
...
1
x 1
x 2 = 2
x 2
x n
n
(
)
P C c=
(cid:217) (cid:217) (cid:217) (cid:217) (cid:217) (cid:217) (cid:217) (cid:217) (cid:217)
=
Xác su(cid:1193)t (cid:3)(cid:255)(cid:1133)(cid:1255)c tính d(cid:1225) dàng t(cid:1263) t(cid:1201)p d(cid:1267) li(cid:1227)u hu(cid:1193)n luy(cid:1227)n. Xác
)
( P X
X
x
= X
x
...
1
x 1
= 2
2
n
n
(cid:217) (cid:217) (cid:217) không thích h(cid:1255)p (cid:255)(cid:1223) dùng cho vi(cid:1227)c quy(cid:1219)t (cid:255)(cid:1231)nh su(cid:1193)t
=
l(cid:1247)p c(cid:1259)a C b(cid:1251)i vì giá tr(cid:1231) này nh(cid:1133) nhau (cid:255)(cid:1237)i v(cid:1247)i m(cid:1243)i l(cid:1247)p c. Nh(cid:1133) v(cid:1201)y c(cid:259)n c(cid:1261)(cid:3)(cid:255)(cid:1223) d(cid:1269)(cid:3)(cid:255)óan
)
( P X
X
= X
...
1
x 1
= 2
x 2
n
= x C c | n
(cid:217) (cid:217) (cid:217) l(cid:1247)p c(cid:1259)a C là d(cid:1269)a vào xác su(cid:1193)t .Tuy nhiên
vi(cid:1227)c tính toán xác su(cid:1193)t này r(cid:1193)t ph(cid:1261)c t(cid:1189)p [9] . M(cid:1245)t p(cid:75)(cid:1133)(cid:1131)ng pháp (cid:255)(cid:1131)n gi(cid:1191)n và (cid:255)(cid:1133)(cid:1255)c
(cid:255)(cid:1133)a ra s(cid:1247)m nh(cid:1193)t là ph(cid:1133)(cid:1131)ng pháp phân lo(cid:1189)i Naïve Bayesian, theo (cid:255)ó gi(cid:1191) thi(cid:1219)t r(cid:1205)ng
j
iX (cid:255)(cid:1245)c l(cid:1201)p v(cid:1247)i các
jX ( i
n
=
=
„ ), nh(cid:1133) v(cid:1201)y ta s(cid:1217) có: m(cid:1243)i
)
)
...
( P X
X
= X
( = P X
1
x 1
= 2
x 2
n
= | x C c n
i
= | x C c i
= 1
i
(cid:217) (cid:217) (cid:217) (cid:213)
=
Th(cid:1201)t v(cid:1201)y, s(cid:1265) d(cid:1257)ng công th(cid:1261)c xác su(cid:1193)t Bayes ta có :
...
X
= X
1
= 2
x 2
= | x C c n
=
x 1 =
=
(cid:217) (cid:217) (cid:217)
(
)
) )
( P X ( P X
x
x
X
n = X
...
= ,
= ...
|
1
x X | 1
2
2
2
2
= x C c P X n
n
= x C c n
n
36
(cid:217) (cid:217) (cid:217) (cid:217)
=
B(cid:1205)ng cách (cid:255)(cid:1227) qui, vi(cid:1219)t th(cid:1263)a s(cid:1237) th(cid:1261) hai trong tích trên nh(cid:1133) sau :
( P X
= X
...
2
x 2 =
=
(cid:217) (cid:217)
(
) )
)
n = X
( P X
X
...
= = x C c | n = ,
= ...
|
x 3
n
= x C c P X n
3
2
x X | 2
3
x 3
n
= x C c n
(cid:217) (cid:217) (cid:217) (cid:217) và c(cid:1261) ti(cid:1219)p t(cid:1257)c
iX k(cid:1219)t qu(cid:1191)
nh(cid:1133) v(cid:1201)y. Ph(cid:1133)(cid:1131)ng pháp phân lo(cid:1189)i Naïve Bayesian gi(cid:1191) thi(cid:1219)t r(cid:1205)ng v(cid:1247)i m(cid:1243)i
jX khác, nh(cid:1133) v(cid:1201)y chúng ta th(cid:1263)a nh(cid:1201)n r(cid:1205)ng:
=
=
tác (cid:255)(cid:1245)ng c(cid:1259)a nó là (cid:255)(cid:1245)c l(cid:1201)p v(cid:1247)i các
)
)
( P X
x
= X
( = P X
...
1
x X | 1
2
2
n
= = x C c , n
1
= x C c | 1
(cid:217) (cid:217) và t(cid:1133)(cid:1131)ng t(cid:1269) nh(cid:1133) v(cid:1201)y (cid:255)(cid:1237)i
2X ,..,
nX .
=
v(cid:1247)i
)
( P X
X
= X
...
1
x 1
= 2
x 2
n
= x C c | n
n
=
=
=
=
=
=
=
=
)
(
(
)
)
( P X
( P X
|
...
|
|
|
(cid:217) (cid:217) (cid:217) Nh(cid:1133) v(cid:1201)y xác su(cid:1193)t =
= x C c P X 1
2
1
) x C c P X 2
n
x C c n
x C c i
i
i
(cid:213)
M(cid:1243)i m(cid:1245)t th(cid:1263)a s(cid:1237) trong tích trên có th(cid:1223)(cid:3)(cid:255)(cid:1133)(cid:1255)c tính d(cid:1225) dàng t(cid:1263) t(cid:1201)p hu(cid:1193)n luy(cid:1227)n
=
ban (cid:255)(cid:1195)u, nh(cid:1133) v(cid:1201)y ph(cid:1133)(cid:1131)ng pháp Naïve Bayesian gi(cid:1191)m s(cid:1269) ph(cid:1261)c t(cid:1189)p c(cid:1259)a vi(cid:1227)c tính toán
)
( P X
X
= X
...
1
x 1
= 2
x 2
n
= x C c | n
(cid:217) (cid:217) (cid:217) giá tr(cid:1231) xác su(cid:1193)t
4.3 Phân lo(cid:1189)i email b(cid:1205)ng ph(cid:1133)(cid:1131)ng pháp Naïve Bayesian :
(cid:1250)(cid:3)(cid:255)ây m(cid:1243)i m(cid:1199)u mà ta xét chính là m(cid:1243)i m(cid:1245)t email, t(cid:1201)p các l(cid:1247)p mà m(cid:1243)i
email có th(cid:1223) thu(cid:1245)c v(cid:1221) là C ={spam, non-spam}
Khi ta nh(cid:1201)n (cid:255)(cid:1133)(cid:1255)c m(cid:1245)t email, n(cid:1219)u ta không bi(cid:1219)t m(cid:1245)t thông tin gì v(cid:1221) nó,
do (cid:255)ó khó có th(cid:1223) quy(cid:1219)t (cid:255)(cid:1231)nh chính xác email này là spam hay không .
N(cid:1219)u nh(cid:1133) ta có thêm (cid:255)(cid:1211)c (cid:255)(cid:76)(cid:1223)m hay thu(cid:1245)c tính nào (cid:255)ó c(cid:1259)a email thì ta
có th(cid:1223) nâng cao hi(cid:1227)u qu(cid:1191) nh(cid:1201)n (cid:255)(cid:1133)(cid:1255)c email là spam M(cid:1245)t email có nhi(cid:1221)u (cid:255)(cid:1211)c
(cid:255)i(cid:1223)m nh(cid:1133) : tiêu (cid:255)(cid:1221), n(cid:1245)i dung, có (cid:255)ính kèm t(cid:1201)p tin hay không,…Ta có th(cid:1223) d(cid:1269)a
vào các thông tin này (cid:255)(cid:1223) nâng cao hi(cid:1227)u qu(cid:1191) phân l(cid:1233)ai email spam. M(cid:1245)t ví d(cid:1257)
(cid:255)(cid:1131)n gi(cid:1191)n : n(cid:1219)u ta bi(cid:1219)t (cid:255)(cid:1133)(cid:1255)c r(cid:1205)ng 95 % email html là email spam, và ta l(cid:1189)i
nh(cid:1201)n (cid:255)(cid:1133)(cid:1255)c m(cid:1245)t email html, nh(cid:1133) v(cid:1201)y có th(cid:1223) d(cid:1269)a vào xác su(cid:1193)t bi(cid:1219)t tr(cid:1133)(cid:1247)c 95%
email html là email spam (cid:255)(cid:1223) tính (cid:255)(cid:1133)(cid:1255)c xác su(cid:1193)t email mà ta nh(cid:1201)n (cid:255)(cid:1133)(cid:1255)c là
37
spam, n(cid:1219)u xác su(cid:1193)t này l(cid:1247)n h(cid:1131)n xác su(cid:1193)t email (cid:255)ó là non-spam, có th(cid:1223) k(cid:1219)t
lu(cid:1201)n r(cid:1205)ng email (cid:255)ó là spam, tuy nhiên k(cid:1219)t lu(cid:1201)n này không chính xác l(cid:1203)m
Nh(cid:1133)ng n(cid:1219)u ta có(cid:3)(cid:255)(cid:1133)(cid:1255)c nhi(cid:1221)u xác su(cid:1193)t bi(cid:1219)t tr(cid:1133)(cid:1247)c nh(cid:1133) v(cid:1201)y, thì k(cid:1219)t lu(cid:1201)n s(cid:1217) tr(cid:1251)
nên (cid:255)áng tin c(cid:1201)y h(cid:1131)n. (cid:264)(cid:1223) có (cid:255)(cid:1133)(cid:1255)c các xác su(cid:1193)t bi(cid:1219)t tr(cid:1133)(cid:1247)c này, s(cid:1265) d(cid:1257)ng
ph(cid:1133)(cid:1131)ng pháp Naïve Bayesian hu(cid:1193)n luy(cid:1227)n t(cid:1201)p m(cid:1199)u (email) ban (cid:255)(cid:1195)u, sau (cid:255)ó s(cid:1217)
s(cid:1265) d(cid:1257)ng các xác su(cid:1193)t này (cid:1261)ng d(cid:1257)ng vào phân l(cid:1233)ai m(cid:1245)t m(cid:1199)u (email) m(cid:1247)i.
4.3.1 Phân lo(cid:1189)i email d(cid:1269)a trên thu(cid:1201)t toán Naïve Bayesian
=r x
(
,...,
Gi(cid:1191) thi(cid:1219)t m(cid:1243)i m(cid:1245)t email (cid:255)(cid:1133)(cid:1255)c (cid:255)(cid:1189)i di(cid:1227)n b(cid:1251)i m(cid:1245)t vector thu(cid:1245)c tính
x , là giá tr(cid:1231) c(cid:1259)a các thu(cid:1245)c tính
x x , 1 2
x x , 1 2
x )n
,..., n
(cid:255)(cid:1211)c tr(cid:1133)ng v(cid:1247)i
1X ,
2X ,..,
r nX t(cid:1133)(cid:1131)ng (cid:1261)ng trong không gian vector (cid:255)(cid:1211)c tr(cid:1133)ng X
. Theo M
iX =1 n(cid:1219)u các (cid:255)(cid:1211)c (cid:255)(cid:76)(cid:1223)m
Sahami et al [9] ta s(cid:1265) d(cid:1257)ng các giá tr(cid:1231) nh(cid:1231) phân,
iX có trong email, ng(cid:1133)(cid:1255)c l(cid:1189)i
iX =0.
c(cid:1259)a
Ta tính giá tr(cid:1231) t(cid:1133)(cid:1131)ng h(cid:1243) MI (X,C) (Mutual Information) mà m(cid:1243)i
m(cid:1245)t (cid:255)(cid:1189)i di(cid:1227)n c(cid:1259)a X thu(cid:1245)c v(cid:1221) lo(cid:1189)i C nh(cid:1133) sau:
}0,1 {
x
( = = = MI X C ( , ) P X x C c ( , ).log (cid:229) = = ˛ = P X x C c ) = P X x P C c ( , ) ( )
{
} spam non spam
,
c
˛ -
Công th(cid:1261)c 4-5 :công th(cid:1261)c tính (cid:255)(cid:1245) t(cid:1133)(cid:1131)ng h(cid:1243) MI
Sau (cid:255)ó ta ch(cid:1233)n các thu(cid:1245)c tính có giá tr(cid:1231) MI cao nh(cid:1193)t.Các xác su(cid:1193)t
P(X), P(C), P(X,C)(cid:3)(cid:255)(cid:1133)(cid:1255)c tính d(cid:1269)a trên d(cid:1267) li(cid:1227)u h(cid:1233)c
x
r thu(cid:1245)c v(cid:1221) lo(cid:1189)i c là: r
uur
=
=
(
=
=
=
r P C c X x |
)
(
r có (cid:255)(cid:1133)(cid:1255)c xác su(cid:1193)t m(cid:1245)t email v(cid:1247)i vector (cid:255)(cid:1211)c tr(cid:1133)ng x uur P C c P X x C c ) r =
= =
=
| ). ( uur P C k P X x C k ). ( (
)
|
D(cid:1269)a vào công th(cid:1261)c xác su(cid:1193)t Bayes và công th(cid:1261)c xác su(cid:1193)t (cid:255)(cid:1195)y (cid:255)(cid:1259) ta
{
} spam non spam
,
k
(cid:229) ˛ -
{
c
} spam nonspam
,
˛ V(cid:1247)i C là e email (cid:255)(cid:1133)(cid:1255)c xét,
Công th(cid:1261)c 4-6
38
)
uur P X C
(
|
Th(cid:1269)c t(cid:1219) thì r(cid:1193)t khó tính (cid:255)(cid:1133)(cid:1255)c xác su(cid:1193)t b(cid:1251)i vì giá tr(cid:1231) s(cid:1237)
(cid:79)(cid:1133)(cid:1255)ng c(cid:1259)a các vector r(cid:1193)t nhi(cid:1221)u và nhi(cid:1221)u vector hi(cid:1219)m khi hay th(cid:1201)m chí
không xu(cid:1193)t hi(cid:1227)n trong t(cid:1201)p d(cid:1267) li(cid:1227)u hu(cid:1193)n luy(cid:1227)n.Nh(cid:1133)(cid:3)(cid:255)ã nói, ph(cid:1133)(cid:1131)ng pháp
nX là nh(cid:1267)ng bi(cid:1219)n c(cid:1237)(cid:3)(cid:255)(cid:1245)c l(cid:1201)p, do
1X ,
2X ,..,
Naïve Bayesian gi(cid:1191) thi(cid:1219)t r(cid:1205)ng
n
=
=
=
P C c
(
).
P X (
|
)
(cid:255)ó chúng ta có th(cid:1223) tính (cid:255)(cid:1133)(cid:1255)c xác su(cid:1193)t (cid:1251) trên nh(cid:1133) sau:
i
x C c i
= i 1
=
=
=
P C c X x |
(
)
n
=
=
=
P C k
(
).
P X (
|
)
(cid:213)
i
x C k i
{
} spam non spam
k
,
i
= 1
(cid:229) (cid:213) ˛ -
Công th(cid:1261)c 4-7
(
(
)
)P C (cid:255)(cid:1133)(cid:1255)c tính d(cid:1269)a trên d(cid:1267) li(cid:1227)u h(cid:1233)c, vi(cid:1227)c tính này
iP X C và | d(cid:1269)a vào t(cid:1201)p hu(cid:1193)n luy(cid:1227)n ban (cid:255)(cid:1195)u.
V(cid:1247)i
T(cid:1263) xác su(cid:1193)t này, ta so sánh v(cid:1247)i m(cid:1245)t giá tr(cid:1231) ng(cid:1133)(cid:1253)ng t (trình bày (cid:1251)
m(cid:1257)c ) mà ta cho là ng(cid:1133)(cid:1253)ng (cid:255)(cid:1223) phân lo(cid:1189)i email spam hay không, n(cid:1219)u xác
suât này l(cid:1247)n h(cid:1131)n t, ta cho là email (cid:255)ó là spam, ng(cid:1133)(cid:1255)c l(cid:1189)i ta xem email (cid:255)ó
là non-spam.
4.3.2 Ch(cid:1233)n ng(cid:1133)(cid:1253)ng phân lo(cid:1189)i email :
Trong phân lo(cid:1189)i email, có hai lo(cid:1189)i sai l(cid:1195)m : sai l(cid:1195)m nh(cid:1201)n m(cid:1245)t email
là spam m(cid:1211)c dù th(cid:1269)c t(cid:1219) nó là non-spam (false positive) và sai l(cid:1195)m th(cid:1261) hai
là nh(cid:1201)n m(cid:1245)t email là non-spam m(cid:1211)c dù nó là spam (false negative). Rõ
ràng là sai l(cid:1195)m th(cid:1261) nh(cid:1193)t là nghiêm tr(cid:1233)ng h(cid:1131)n b(cid:1251)i vì ng(cid:1133)(cid:1249)i s(cid:1265) d(cid:1257)ng có th(cid:1223)
ch(cid:1193)p nh(cid:1201)n m(cid:1245)t email spam v(cid:1133)(cid:1255)t qua b(cid:1245) l(cid:1233)c nh(cid:1133)ng không ch(cid:1193)p nh(cid:1201)n m(cid:1245)t
email h(cid:1255)p l(cid:1227) quan tr(cid:1233)ng l(cid:1189)i b(cid:1231) b(cid:1245) l(cid:1233)c ch(cid:1211)n l(cid:1189)i.
Gi(cid:1191) s(cid:1265) N fi S và S fi N t(cid:1133)(cid:1131)ng (cid:1261)ng v(cid:1247)i hai l(cid:1243)i sai trên (cid:255)ây S(cid:1265) d(cid:1257)ng
lu(cid:1201)t quy(cid:1219)t (cid:255)(cid:1231)nh Bayes d(cid:1269)a trên chi phí [9], ta gi(cid:1191) s(cid:1265) r(cid:1205)ng l(cid:1243)i N fi S có chi
phí g(cid:1193)p l l(cid:1195)n l(cid:1243)i S fi N, chúng ta phân lo(cid:1189)i m(cid:1245)t email là spam d(cid:1269)a vào
39
tiêu chu(cid:1197)n sau:
=
(
) |
>
=
r uur = x P C spam X ) uur = P C non spam X (
|
r x
)
l -
Công th(cid:1261)c 4-8
=
=
uur =
=
Mà
uur P C spam X
|
r x
= - ) 1
r P C non spam X x
(
|
)
( Nên ta có:
-
t
=
=
>
=
l =
uur P C spam X
(
|
r x
)
t
t
v(cid:1247)i
và
+
l
1
1
t
Nh(cid:1133) v(cid:1201)y ng(cid:1133)(cid:1253)ng phân lo(cid:1189)i (cid:255)(cid:1133)(cid:1255)c ch(cid:1233)n là t tùy thu(cid:1245)c vào giá tr(cid:1231) l
40
l -
Ch(cid:1133)(cid:1131)ng 5 : TH(cid:1268)C HI(cid:1226)N VÀ KI(cid:1222)M TH(cid:1264)
PHÂN LO(cid:1188)I EMAIL D(cid:1268)A TRÊN PH(cid:1132)(cid:1130)NG
PHÁP PHÂN LO(cid:1188)I NAÏVE BAYESIAN
41
5.1 Cài (cid:255)(cid:1211)t ch(cid:1133)(cid:1131)ng trình phân lo(cid:1189)i email d(cid:1269)a trên ph(cid:1133)(cid:1131)ng
pháp phân lo(cid:1189)i Naïve Bayesian:
5.1.1 Khái ni(cid:1227)m (cid:179)Token(cid:180) :
(cid:264)(cid:1223) xem xét n(cid:1245)i dung email chúng tôi dùng khái ni(cid:1227)m “token”
Các “token” có th(cid:1223) xem nh(cid:1133) là các t(cid:1263) c(cid:1195)n xem xét mà ta tách ra t(cid:1263) n(cid:1245)i
dung c(cid:1259)a email. V(cid:1247)i các kí t(cid:1269) ch(cid:1267), kí t(cid:1269) s(cid:1237), kí t(cid:1269) ‘$', kí t(cid:1269) g(cid:1189)ch ngang ‘-’, kí
t(cid:1269) g(cid:1189)ch d(cid:1133)(cid:1247)i ‘_’, kí t(cid:1269) nháy (cid:255)(cid:1131)n ‘’’ là nh(cid:1267)ng kí t(cid:1269) c(cid:1193)u t(cid:1189)o thành token. Còn
nh(cid:1267)ng kí t(cid:1269) còn l(cid:1189)i nh(cid:1133) kho(cid:1191)ng tr(cid:1203)ng, kí t(cid:1269) ‘*’, kí t(cid:1269) ‘:’, … (cid:255)(cid:1133)(cid:1255)c xem là kí t(cid:1269)
(cid:255)(cid:1223) tách t(cid:1263) hay phân cách các t(cid:1263). V(cid:1247)i nh(cid:1267)ng t(cid:1263) tách (cid:255)(cid:1133)(cid:1255)c mà g(cid:1239)m toàn kí s(cid:1237)
thì không (cid:255)(cid:1133)(cid:1255)c xem là token (ví d(cid:1257): “12345”).
Ví d(cid:1257) ta có các token sau:
“qvp0045”, “ indira”, “mx-05”, “$7500”, “3d0725”, “ platinum”.
N(cid:1219)u ta có m(cid:1245)t chu(cid:1243)i sau: “http://www.27meg.com/foo” thì ta s(cid:1217) có
các token t(cid:1133)(cid:1131)ng (cid:1261)ng là: “http”, “www”, “27meg”, “com”, “foo”.
5.1.2 Vector thu(cid:1245)c tính :
r vector x
Nh(cid:1133)(cid:3)(cid:255)ã nói (cid:1251) m(cid:1257)c 4.3.1, ta chuy(cid:1223)n m(cid:1243)i m(cid:1245)t email sang m(cid:1245)t
2x ,..,
1x ,
2x ,..,
nx ) v(cid:1247)i
nx là giá tr(cid:1231) các thu(cid:1245)c tính
=( 1x ,
1X ,
2X ,..,
r nX trong không gian vector (cid:255)(cid:1211)c tr(cid:1133)ng X
. Các thu(cid:1245)c tính có th(cid:1223)
là m(cid:1245)t token , nhóm các token …Trong tr(cid:1133)(cid:1249)ng h(cid:1255)p (cid:255)(cid:1131)n gi(cid:1191)n nh(cid:1193)t, m(cid:1243)i
m(cid:1245)t thu(cid:1245)c tính (cid:255)(cid:1133)(cid:1255)c th(cid:1223) hi(cid:1227)n b(cid:1251)i m(cid:1245)t token (cid:255)(cid:1131)n và t(cid:1193)t c(cid:1191) các thu(cid:1245)c tính
iX =1 n(cid:1219)u email ch(cid:1133)á token, tr(cid:1133)(cid:1249)ng
có giá tr(cid:1231) lu(cid:1201)n lý (Boolean), nh(cid:1133) v(cid:1201)y
iX =0.
h(cid:1255)p ng(cid:1133)(cid:1255)c l(cid:1189)i
Chúng tôi ch(cid:1233)n thu(cid:1245)c tính là token (cid:255)(cid:1131)n, nh(cid:1133)ng thay vì giá tr(cid:1231)
c(cid:1259)a các thu(cid:1245)c tính là giá tr(cid:1231) lu(cid:1201)n lý (boolean), chúng tôi ch(cid:1233)n là xác su(cid:1193)t
spam c(cid:1259)a m(cid:1243)i token. Xác su(cid:1193)t spam c(cid:1259)a m(cid:1243)i token s(cid:1217) có giá tr(cid:1231) trong (cid:255)(cid:1233)an
42
[0, 1].Xác su(cid:1193)t cho ta nhi(cid:1221)u thông tin h(cid:1131)n so v(cid:1247)i giá tr(cid:1231) lu(cid:1201)n lý.Ví d(cid:1257) : xét
token “$” xu(cid:1193)t hi(cid:1227)n trong email, n(cid:1219)u ta s(cid:1265) d(cid:1257)ng giá tr(cid:1231) lu(cid:1201)n lý, ta không
(cid:255)(cid:1259) c(cid:1131) s(cid:1251)(cid:3)(cid:255)(cid:1223) nghi ng(cid:1249) email này là email spam, và n(cid:1219)u email này khá dài
thì càng khó k(cid:1219)t lu(cid:1201)n r(cid:1205)ng nó là spam. Tuy nhiên s(cid:1265) d(cid:1257)ng xác su(cid:1193)t, ta có
r (cid:75)(cid:1131)n là ch(cid:1229) s(cid:1265) d(cid:1257)ng hai giá tr(cid:1231) 0 và 1.V(cid:1247)i không gian vector (cid:255)(cid:1211)c tr(cid:1133)ng X
th(cid:1223) bi(cid:1219)t (cid:255)(cid:1133)(cid:1255)c kh(cid:1191) n(cid:259)ng email (cid:255)ó là spam là bao nhiêu,(cid:3)(cid:255)i(cid:1221)u này h(cid:1255)p lý
,
r chúng tôi ch(cid:1233)n n là s(cid:1237) các thu(cid:1245)c tính c(cid:1259)a X
(cid:255)(cid:1223) th(cid:1265) nghi(cid:1227)m l(cid:1195)n l(cid:1133)(cid:1255)t là 10,
15 và 20. Ch(cid:1233)n n sao cho không l(cid:1247)n quá, n(cid:1219)u n l(cid:1247)n có kh(cid:1191) n(cid:259)ng nh(cid:1267)ng
thu(cid:1245)c tính không ph(cid:1191)i là (cid:255)(cid:1211)c tr(cid:1133)ng, nh(cid:1133) v(cid:1201)y s(cid:1217) làm “nhi(cid:1225)u “ kh(cid:1191) n(cid:259)ng
phân lo(cid:1189)i (cid:255)úng.Ng(cid:1133)(cid:1255)c l(cid:1189)i n(cid:1219)u ch(cid:1233)n n quá nh(cid:1235), ta s(cid:1217) không có (cid:255)(cid:1133)(cid:1255)c s(cid:1237)
c(cid:1195)n thi(cid:1219)t các thu(cid:1245)c tính.
5.1.3 Ch(cid:1233)n ng(cid:1133)(cid:1253)ng phân lo(cid:1189)i :
Chúng tôi ti(cid:1219)n hành th(cid:1265) nghi(cid:1227)m v(cid:1247)i giá tr(cid:1231) l l(cid:1195)n l(cid:1133)(cid:1255)t là 1, 9 và 999,
nh(cid:1133) v(cid:1201)y ng(cid:1133)(cid:1253)ng phân lo(cid:1189)i t xác (cid:255)(cid:1231)nh m(cid:1245)t email là spam l(cid:1195)n l(cid:1133)(cid:1255)t là 0.5, 0.9,
0.999.
5.1.4 Cách th(cid:1269)c hi(cid:1227)n :
Chúng ta s(cid:1217) b(cid:1203)t (cid:255)(cid:1195)u v(cid:1247)i hai kho ng(cid:1267) li(cid:1227)u email : kho ng(cid:1267) li(cid:1227)u email
spam và kho ng(cid:1267) li(cid:1227)u email non-spam. S(cid:1237) l(cid:1133)(cid:1255)ng email trong m(cid:1243)i kho ng(cid:1267)
li(cid:1227)u ban (cid:255)(cid:1195)u không h(cid:1189)n ch(cid:1219). N(cid:1219)u kho ng(cid:1267) li(cid:1227)u càng l(cid:1247)n thì hi(cid:1227)u qu(cid:1191) l(cid:1233)c
email s(cid:1217) càng cao. T(cid:1263) hai kho ng(cid:1267) li(cid:1227)u này, chúng tôi phân tích và duy(cid:1227)t
qua t(cid:1193)t c(cid:1191) các token bao g(cid:1239)m c(cid:1191) ph(cid:1195)n tiêu (cid:255)(cid:1221) c(cid:1259)a email.(cid:3)(cid:264)(cid:1237)i v(cid:1247)i nh(cid:1267)ng
email html, chúng tôi th(cid:1269)c hi(cid:1227)n bóc tách các th(cid:1215) html (cid:255)(cid:1223) l(cid:1193)y n(cid:1245)i dung gi(cid:1267)a
các th(cid:1215).
Sau (cid:255)ó ta tính xác su(cid:1193)t spam c(cid:1259)a m(cid:1243)i token (cid:255)ã (cid:255)(cid:1133)(cid:1255)c phân tích, xác
su(cid:1193)t này chính là xác su(cid:1193)t m(cid:1245)t email ch(cid:1229) ch(cid:1261)a token (cid:255)ó và là email spam.
Nh(cid:1133) v(cid:1201)y m(cid:1193)u ch(cid:1237)t (cid:1251)(cid:3)(cid:255)ây là ta ph(cid:1191)i tính ra (cid:255)(cid:1133)(cid:1255)c xác su(cid:1193)t spam c(cid:1259)a
m(cid:1243)i token. Theo Paulgraham [7], xác su(cid:1193)t spam c(cid:1259)a m(cid:1243)i token (cid:255)(cid:1133)(cid:1255)c tính
d(cid:1269)a trên s(cid:1237) l(cid:1195)n xu(cid:1193)t hi(cid:1227)n c(cid:1259)a m(cid:1243)i token trong m(cid:1243)i kho ng(cid:1267) li(cid:1227)u h(cid:1233)c ban
43
(cid:255)(cid:1195)u. Ví d(cid:1257) m(cid:1245)t token w có s(cid:1237) l(cid:1195)n xu(cid:1193)t hi(cid:1227)n trong kho ng(cid:1267) li(cid:1227)u spam là s,
trong kho ng(cid:1267) li(cid:1227)u non-spam là n, s(cid:1237) email t(cid:1241)ng c(cid:1245)ng c(cid:1259)a hai kho ng(cid:1267) li(cid:1227)u
SN và
NN , th(cid:1219) thì xác su(cid:1193)t spam c(cid:1259)a token
spam và non-spam l(cid:1195)n l(cid:1133)(cid:1255)t là
s N
S
=
=
=
P X w C spam ,
(
)
+
s N
n N
S
N
w (cid:255)(cid:1133)(cid:1255)c tính nh(cid:1133) sau:
Công th(cid:1261)c 5-1
Tuy nhiên, vì s(cid:1237) l(cid:1195)n xu(cid:1193)t hi(cid:1227)n c(cid:1259)a m(cid:1245)t token trong m(cid:1243)i kho ng(cid:1267)
li(cid:1227)u h(cid:1233)c có kh(cid:1191) n(cid:259)ng v(cid:1133)(cid:1255)t quá kích th(cid:1133)(cid:1247)c c(cid:1259)a kho ng(cid:1267) li(cid:1227)u h(cid:1233)c (cid:255)ó (t(cid:1241)ng
s SN
s SN
n NN
s(cid:1237) email) do (cid:255)ó, trong công th(cid:1261)c trên, thay b(cid:1205)ng Min(1, ) và
n NN
b(cid:1205)ng Min(1, )
Min
(1,
)
S N
S
=
=
=
P X w C spam ,
(
)
+
Min
(1,
)
Min
(1,
)
S N
n N
S
N
Do (cid:255)ó Công th(cid:1261)c 5-1vi(cid:1219)t l(cid:1189)i nh(cid:1133) sau:
công th(cid:1261)c 5-2
Theo cách trên thì chúng ta (cid:255)ánh giá kh(cid:1191) n(cid:259)ng spam c(cid:1259)a m(cid:1245)t token
xu(cid:1193)t hi(cid:1227)n trong m(cid:1245)t kho ng(cid:1267) li(cid:1227)u h(cid:1233)c 100 l(cid:1195)n (cid:1251) 100 email khác nhau là b(cid:1205)ng
v(cid:1247)i kh(cid:1191) n(cid:259)ng spam c(cid:1259)a m(cid:1245)t token xu(cid:1193)t hi(cid:1227)n trong m(cid:1245)t kho ng(cid:1267) li(cid:1227)u h(cid:1233)c 100
l(cid:1195)n nh(cid:1133)ng ch(cid:1229)(cid:3)(cid:1251) trong m(cid:1245)t email
Chúng tôi (cid:255)(cid:1221) xu(cid:1193)t m(cid:1245)t cách tính xác su(cid:1193)t spam c(cid:1259)a token khác nh(cid:1133)
sau: thay vì d(cid:1269)a vào s(cid:1237) l(cid:1195)n xu(cid:1193)t hi(cid:1227)n c(cid:1259)a token trong t(cid:1263)ng kho ng(cid:1267) li(cid:1227)u h(cid:1233)c,
chúng tôi d(cid:1269)a vào s(cid:1237) email ch(cid:1261)a token trong t(cid:1263)ng kho ng(cid:1267) li(cid:1227)u h(cid:1233)c. Công
44
th(cid:1261)c tính nh(cid:1133) sau :
n S N
S
=
=
=
P X w C spam ,
(
)
+
n S N
n N N
S
N
công th(cid:1261)c 5-3
V(cid:1247)i :
(cid:252) Sn là s(cid:1237) email có ch(cid:1261)a token trong kho ng(cid:1267) li(cid:1227)u email spam
(cid:252) Nn là s(cid:1237) email có ch(cid:1261)a token trong kho ng(cid:1267) li(cid:1227)u email non-
spam
(cid:252) SN là t(cid:1241)ng s(cid:1237) email c(cid:1259)a kho ng(cid:1267) li(cid:1227)u h(cid:1233)c spam
(cid:252) NN là t(cid:1241)ng s(cid:1237) email c(cid:1259)a kho ng(cid:1267) li(cid:1227)u h(cid:1233)c non-spam
Tuy nhiên, ta nh(cid:1201)n th(cid:1193)y r(cid:1205)ng công th(cid:1261)c trên (cid:255)ã (cid:255)ánh giá kh(cid:1191) n(cid:259)ng
spam c(cid:1259)a m(cid:1243)i token là nh(cid:1133) nhau v(cid:1247)i token xu(cid:1193)t hi(cid:1227)n 1 l(cid:1195)n trong 1 email và
token xu(cid:1193)t hi(cid:1227)n 100 l(cid:1195)n trong 1 email, b(cid:1251)i vì (cid:1251) c(cid:1191) hai tr(cid:1133)(cid:1249)ng h(cid:1255)p, ta (cid:255)(cid:1221)u ch(cid:1229)
tính thêm vào s(cid:1237) email ch(cid:1261)a token là 1 mà thôi
Chúng ta có th(cid:1223) k(cid:1219)t h(cid:1255)p hai cách tính (cid:1251) trên,(cid:3)(cid:255)(cid:1223) có th(cid:1223) s(cid:1265) d(cid:1257)ng (cid:255)(cid:1133)(cid:1255)c
nhi(cid:1221)u thông tin v(cid:1221) token h(cid:1131)n. Chúng tôi (cid:255)(cid:1221) xu(cid:1193)t thêm m(cid:1245)t công th(cid:1261)c n(cid:1267)a -
b
*
n S N
S
=
=
=
P X w C spam ,
(
)
+
*
b
*
g
n N N
n S N
N
S
(cid:255)(cid:1133)(cid:1255)c xem là s(cid:1269) k(cid:1219)t h(cid:1255)p gi(cid:1267)a hai công th(cid:1261)c trên
công th(cid:1261)c 5-4
V(cid:1247)i
(cid:252) Sn là s(cid:1237) email có ch(cid:1261)a token trong kho ng(cid:1267) li(cid:1227)u email spam
(cid:252) Nn là s(cid:1237) email có ch(cid:1261)a token trong kho ng(cid:1267) li(cid:1227)u email non-
spam
(cid:252) SN là t(cid:1241)ng s(cid:1237) email c(cid:1259)a kho ng(cid:1267) li(cid:1227)u h(cid:1233)c spam
45
(cid:252) NN là t(cid:1241)ng s(cid:1237) email c(cid:1259)a kho ng(cid:1267) li(cid:1227)u h(cid:1233)c non-spam
(cid:252) b là s(cid:1237) l(cid:1195)n xu(cid:1193)t hi(cid:1227)n c(cid:1259)a token trong kho ng(cid:1267) li(cid:1227)u email
spam
(cid:252) g là s(cid:1237) l(cid:1195)n xu(cid:1193)t hi(cid:1227)n c(cid:1259)a token trong kho ng(cid:1267) li(cid:1227)u email non-
spam
Còn (cid:255)(cid:1237)i v(cid:1247)i các token ch(cid:1229) xu(cid:1193)t hi(cid:1227)n kho ng(cid:1267) li(cid:1227)u này mà không
xu(cid:1193)t hi(cid:1227)n (cid:1251) kho ng(cid:1267) li(cid:1227)u kia thì ta không th(cid:1223) k(cid:1219)t lu(cid:1201)n r(cid:1205)ng m(cid:1245)t token ch(cid:1229)
xu(cid:1193)t hi(cid:1227)n (cid:1251) kho ng(cid:1267) li(cid:1227)u spam thì không bao gi(cid:1249) xu(cid:1193)t hi(cid:1227)n trong m(cid:1245)t
email non-spam, và ng(cid:1133)(cid:1255)c l(cid:1189)i. Cách thích h(cid:1255)p (cid:1251)(cid:3) (cid:255)ây là ta s(cid:1217) gán cho
chúng m(cid:1245)t giá tr(cid:1231) phù h(cid:1255)p [7] Nh(cid:1133) v(cid:1201)y, v(cid:1247)i nh(cid:1267)ng token ch(cid:1229) xu(cid:1193)t hi(cid:1227)n
trong kho ng(cid:1267) li(cid:1227)u email spam thì ta s(cid:1217) gán kh(cid:1191) n(cid:259)ng xác su(cid:1193)t spam cho
nó là giá tr(cid:1231) N g(cid:1195)n v(cid:1247)i 1 (ch(cid:1207)ng h(cid:1189)n 0.9999 )và ng(cid:1133)(cid:1255)c l(cid:1189)i thì gán xác su(cid:1193)t
spam là giá tr(cid:1231) M g(cid:1195)n v(cid:1247)i 0 (ch(cid:1207)ng h(cid:1189)n 0.0001).
Nh(cid:1133) v(cid:1201)y ta (cid:255)ã xác (cid:255)(cid:1231)nh (cid:255)(cid:1133)(cid:1255)c xác su(cid:1193)t spam c(cid:1259)a m(cid:1245)t email có ch(cid:1133)á
m(cid:1245)t token nào (cid:255)ó hay xác su(cid:1193)t spam c(cid:1259)a m(cid:1245)t token nh(cid:1133) sau:
Tính theo công th(cid:1261)c 5-2, ta có :
Min
(1,
)
S N
S
=
P Max M Min N
,
,
+
Min
Min
(1,
)
(1,
)
S N
n N
S
N
(cid:230) (cid:246) (cid:230) (cid:246) (cid:231) (cid:247) (cid:231) (cid:247) (cid:231) (cid:247) (cid:231) (cid:247) (cid:231) (cid:247) (cid:231) (cid:247) (cid:231) (cid:247) (cid:231) (cid:247) Ł ł Ł ł
Công th(cid:1261)c 5-5 :công th(cid:1261)c tính xác su(cid:1193)t spam c(cid:1259)a token d(cid:1269)a trên s(cid:1237) l(cid:1195)n xu(cid:1193)t hi(cid:1227)n
Tính theo công th(cid:1261)c 5-3, ta có :
n S N
S
=
P Max M Min N
,
,
+
n S N
n N N
S
N
(cid:230) (cid:246) (cid:230) (cid:246) (cid:231) (cid:247) (cid:231) (cid:247) (cid:231) (cid:247) (cid:231) (cid:247) (cid:231) (cid:247) (cid:231) (cid:247) (cid:231) (cid:247) (cid:231) (cid:247) Ł ł Ł ł
Công th(cid:1261)c 5-6 :công th(cid:1261)c tính xác su(cid:1193)t spam c(cid:1259)a token d(cid:1269)a trên s(cid:1237) email ch(cid:1261)a token
46
Tính theo công th(cid:1261)c 5-4
s
*
n S N
S
=
P Max M Min N
,
,
+
*
*
s
n
n S N
n N N
S
N
(cid:230) (cid:246) (cid:230) (cid:246) (cid:231) (cid:247) (cid:231) (cid:247) (cid:231) (cid:247) (cid:231) (cid:247) (cid:231) (cid:247) (cid:231) (cid:247) (cid:231) (cid:247) (cid:231) (cid:247) Ł ł Ł ł
Công th(cid:1261)c 5-7 :ctính xác su(cid:1193)t spam c(cid:1259)a token d(cid:1269)a trên s(cid:1237) l(cid:1195)n xu(cid:1193)t hi(cid:1227)n và s(cid:1237) email ch(cid:1261)a nó
V(cid:1247)i : (cid:252) s là s(cid:1237) l(cid:1195)n xu(cid:1193)t hi(cid:1227)n c(cid:1259)a token trong kho ng(cid:1267) li(cid:1227)u h(cid:1233)c spam
(cid:252) n là s(cid:1237) l(cid:1195)n xu(cid:1193)t hi(cid:1227)n c(cid:1259)a token trong kho ng(cid:1267) li(cid:1227)u h(cid:1233)c non-
spam
(cid:252) Sn là s(cid:1237) email ch(cid:1261)a token trong kho ng(cid:1267) li(cid:1227)u h(cid:1233)c spam
(cid:252) Nn là s(cid:1237) email ch(cid:1261)a token trong kho ng(cid:1267) li(cid:1227)u h(cid:1233)c non-spam
(cid:252)
NN là t(cid:1241)ng s(cid:1237) email ch(cid:1261)a trong kho ng(cid:1267) li(cid:1227)u h(cid:1233)c non-spam
(cid:252) SN là t(cid:1241)ng s(cid:1237) email ch(cid:1261)a trong kho ng(cid:1267) li(cid:1227)u h(cid:1233)c spam
M(cid:1245)t v(cid:1193)n (cid:255)(cid:1221) ph(cid:1261)c t(cid:1189)p mà chúng tôi g(cid:1211)p ph(cid:1191)i trong quá trình th(cid:1269)c
hi(cid:1227)n phân lo(cid:1189)i email d(cid:1269)a trên thu(cid:1201)t toán Naïve Bayesian là vi(cid:1227)c tách
token và tính xác su(cid:1193)t spam c(cid:1259)a token, b(cid:1251)i vì s(cid:1237) token là khá l(cid:1247)n, (cid:1251)(cid:3)(cid:255)ây
chúng tôi s(cid:1265) d(cid:1257)ng c(cid:1193)u trúc d(cid:1267) li(cid:1227)u là b(cid:1191)ng b(cid:259)m.(cid:1260)ng v(cid:1247)i m(cid:1243)i kho ng(cid:1267) li(cid:1227)u
email spam và non-spam chúng tôi xây d(cid:1269)ng m(cid:1245)t b(cid:1191)ng b(cid:259)m t(cid:1133)(cid:1131)ng
(cid:1261)ng.B(cid:1191)ng b(cid:259)m này s(cid:1217) bao g(cid:1239)m token và s(cid:1237) email ch(cid:1261)a token ho(cid:1211)c s(cid:1237) l(cid:1195)n
xu(cid:1193)t hi(cid:1227)n c(cid:1259)a token trong t(cid:1263)ng kho ng(cid:1267) li(cid:1227)u t(cid:1133)(cid:1131)ng (cid:1261)ng, ho(cid:1211)c có th(cid:1223)(cid:3)(cid:255)(cid:1239)ng
th(cid:1249)i ch(cid:1261)a ba thông tin này – tùy theo chúng ta áp d(cid:1257)ng cách tính xác su(cid:1193)t
spam nào cho m(cid:1243)i token. Nh(cid:1133) v(cid:1201)y m(cid:1243)i token s(cid:1217) có m(cid:1245)t giá tr(cid:1231) b(cid:259)m (xác
(cid:255)(cid:1231)nh b(cid:1205)ng hàm b(cid:259)m t(cid:1269)(cid:3)(cid:255)(cid:1231)nh ngh(cid:429)a ) t(cid:1133)(cid:1131)ng (cid:1261)ng v(cid:1247)i v(cid:1231) trí trên b(cid:1191)ng b(cid:259)m (cid:255)(cid:1223)
ta có th(cid:1223) truy xu(cid:1193)t nhanh (cid:255)(cid:1219)n ph(cid:1195)n t(cid:1265) token trên b(cid:1191)ng. M(cid:1257)c (cid:255)ích xây d(cid:1269)ng
b(cid:1191)ng b(cid:259)m là (cid:255)(cid:1223) t(cid:1237)i (cid:1133)u hóa t(cid:1237)c (cid:255)(cid:1245) truy xu(cid:1193)t các token trích t(cid:1263) email c(cid:458)ng nh(cid:1133)
t(cid:1237)i (cid:1133)u th(cid:1249)i gian xác (cid:255)(cid:1231)nh m(cid:1245)t email là spam hay không. M(cid:1243)i ph(cid:1195)n t(cid:1265) c(cid:1259)a
b(cid:1191)ng b(cid:259)m l(cid:1133)u tr(cid:1267) token, s(cid:1237) l(cid:1195)n xu(cid:1193)t hi(cid:1227)n (ho(cid:1211)c s(cid:1237) email có ch(cid:1261)a token (cid:255)ó ),
47
ho(cid:1211)c xác su(cid:1193)t spam c(cid:1259)a nó, tùy theo m(cid:1257)c (cid:255)ích x(cid:1265) lý c(cid:1257) th(cid:1223) mà m(cid:1243)i ph(cid:1195)n t(cid:1265)
c(cid:1259)a b(cid:1191)ng b(cid:259)m s(cid:1217) mang nh(cid:1267)ng thông tin khác nhau. B(cid:1191)ng b(cid:259)m (cid:255)(cid:1133)(cid:1255)c mô t(cid:1191)
nh(cid:1133) sau:
Hình 5-1Mô t(cid:1191) c(cid:1193)u trúc b(cid:1191)ng b(cid:259)m
Sau khi có 2 b(cid:1191)ng b(cid:259)m t(cid:1133)(cid:1131)ng (cid:1261)ng v(cid:1247)i hai kho ng(cid:1267) li(cid:1227)u email, ta s(cid:1217)
xây d(cid:1269)ng b(cid:1191)ng b(cid:259)m th(cid:1261) ba. M(cid:1243)i ph(cid:1195)n t(cid:1265) trong b(cid:1191)ng b(cid:259)m này s(cid:1217) l(cid:1133)u nh(cid:1267)ng
thông tin g(cid:1239)m: token và kh(cid:1191) n(cid:259)ng (xác su(cid:1193)t) spam c(cid:1259)a token.Tuy nhiên (cid:255)(cid:1223)
vi(cid:1227)c th(cid:1269)c hi(cid:1227)n ti(cid:1227)n l(cid:1255)i và không ph(cid:1191)i xét quá nhi(cid:1221)u token, chúng tôi ch(cid:1229)
xem xét nh(cid:1267)ng token mà s(cid:1237) l(cid:1195)n xu(cid:1193)t hi(cid:1227)n c(cid:1259)a nó ho(cid:1211)c s(cid:1237) email ch(cid:1261)a nó
trong c(cid:1131) s(cid:1251) d(cid:1267) h(cid:1233)c ban (cid:255)(cid:1195)u l(cid:1247)n h(cid:1131)n m(cid:1245)t ng(cid:1133)(cid:1253)ng nào (cid:255)ó, v(cid:1247)i nh(cid:1267)ng token
mà t(cid:1241)ng s(cid:1237) l(cid:1195)n xu(cid:1193)t hi(cid:1227)n ho(cid:1211)c t(cid:1241)ng s(cid:1237) email ch(cid:1261)a nó nh(cid:1235) h(cid:1131)n ng(cid:1133)(cid:1253)ng này,
chúng tôi không tính xác su(cid:1193)t cho token (cid:255)ó. (cid:264)(cid:76)(cid:1221)u này là h(cid:1255)p lý b(cid:1251)i vì
nh(cid:1267)ng token có t(cid:1241)ng s(cid:1237) l(cid:1195)n xu(cid:1193)t hi(cid:1227)n ( ho(cid:1211)c t(cid:1241)ng s(cid:1237) email ch(cid:1261)a nó quá ít
thì c(cid:458)ng không (cid:255)áng (cid:255)(cid:1223) xem xét (cid:255)(cid:1219)n, do (cid:255)ó s(cid:1217) giúp gi(cid:1191)m b(cid:1247)t s(cid:1237) token c(cid:1195)n
tính xác su(cid:1193)t c(cid:458)ng nh(cid:1133) dung l(cid:1133)(cid:1255)ng l(cid:1133)u tr(cid:1267) cho d(cid:1267) li(cid:1227)u (cid:1251) b(cid:1191)ng b(cid:259)m th(cid:1261) ba
này.(cid:1250)(cid:3)(cid:255)ây chúng tôi th(cid:1265) nghi(cid:1227)m l(cid:1195)n l(cid:1133)(cid:1255)t hai ng(cid:1133)(cid:1253)ng 3 và 5, k(cid:1219)t qu(cid:1191) th(cid:1269)c
hi(cid:1227)n (cid:1251) hai ng(cid:1133)(cid:1253)ng này g(cid:1195)n nh(cid:1133) là t(cid:1133)(cid:1131)ng (cid:255)(cid:1133)(cid:1131)ng nhau, cu(cid:1237)i cùng chúng tôi
ch(cid:1233)n giá tr(cid:1231) 3.
Theo Paulgraham [7] thì chúng ta c(cid:1195)n h(cid:1189)n ch(cid:1219) lo(cid:1189)i l(cid:1243)i false positive
(nh(cid:1201)n email non-spam thành email spam ), do (cid:255)ó s(cid:1237) l(cid:1195)n xu(cid:1193)t hi(cid:1227)n c(cid:1259)a
48
các token ho(cid:1211)c s(cid:1237) email ch(cid:1261)a token trong kho ng(cid:1267) li(cid:1227)u non-spam s(cid:1217)(cid:3)(cid:255)(cid:1133)(cid:1255)c
nhân v(cid:1247)i m(cid:1245)t tr(cid:1233)ng s(cid:1237) W,(cid:3)(cid:255)i(cid:1221)u này giúp phân bi(cid:1227)t (cid:255)(cid:1133)(cid:1255)c gi(cid:1267)a nh(cid:1267)ng token
th(cid:1229)nh tho(cid:1191)ng xu(cid:1193)t hi(cid:1227)n trong các email h(cid:1255)p l(cid:1227) v(cid:1247)i nh(cid:1267)ng token h(cid:1195)u nh(cid:1133)
không xu(cid:1193)t hi(cid:1227)n, chúng tôi th(cid:1265) nghi(cid:1227)m l(cid:1195)n l(cid:1133)(cid:1255)t v(cid:1247)i hai giá tr(cid:1231) 1 và 2.
Ví d(cid:1257) thông tin b(cid:1191)ng b(cid:259)m th(cid:1261) 3:
Token: Kh(cid:1191) n(cid:259)ng spam :
madam 0.99
promotion 0.99
republic 0.99
shortest 0.047225013
mandatory 0.047225013
standardization 0.07347802
Cách tính xác su(cid:1193)t spam cho m(cid:1243)i token (cid:255)(cid:1133)(cid:1255)c th(cid:1269)c hi(cid:1227)n theo các
công th(cid:1261)c nh(cid:1133)(cid:3)(cid:255)ã nói (cid:1251) trên.
Cu(cid:1237)i cùng (cid:255)(cid:1223) xác (cid:255)(cid:1231)nh m(cid:1245)t email m(cid:1247)i (cid:255)(cid:1219)n có ph(cid:1191)i là spam không
thì chúng tôi trích ra n token (cid:1251) trong email (cid:255)ó.Cách ch(cid:1233)n m(cid:1199)u t(cid:1201)p thu(cid:1245)c
tính (cid:255)(cid:1223) xét thông th(cid:1133)(cid:1249)ng là ch(cid:1233)n ra n token m(cid:1245)t cách ng(cid:1199)u nhiên, tuy
nhiên nh(cid:1201)n th(cid:1193)y r(cid:1205)ng nh(cid:1267)ng token trung tính ( kh(cid:1191) n(cid:259)ng spam là 0.4-0.6
thì không có tác d(cid:1257)ng l(cid:1203)m trong vi(cid:1227)c nh(cid:1201)n d(cid:1189)ng email spam ) nên ta ch(cid:1233)n
n token này v(cid:1247)i (cid:255)(cid:1231)nh h(cid:1133)(cid:1247)ng là ch(cid:1233)n nh(cid:1267)ng token (cid:255)(cid:1211)c tr(cid:1133)ng cho m(cid:1245)t email
spam và email non-spam, chúng tôi ch(cid:1233)n nh(cid:1267)ng token có kh(cid:1191) n(cid:259)ng spam
cao nh(cid:1193)t và th(cid:1193)p nh(cid:1193)t. Nh(cid:1133) v(cid:1201)y chúng tôi ch(cid:1233)n n token có kho(cid:1191)ng cách
gi(cid:1267)a xác su(cid:1193)t spam c(cid:1259)a chúng v(cid:1247)i giá tr(cid:1231) trung tính 0.5 là cao nh(cid:1193)t Chúng
ta g(cid:1233)i giá tr(cid:1231) này là giá tr(cid:1231) “(cid:255)(cid:1211)c tr(cid:1133)ng”. Nh(cid:1133) v(cid:1201)y ta s(cid:1217) ch(cid:1233)n (cid:255)(cid:1133)(cid:1255)c nh(cid:1267)ng
token ho(cid:1211)c là có kh(cid:1191) n(cid:259)ng spam cao nh(cid:1193)t (xác su(cid:1193)t spam cao nh(cid:1193)t ) ho(cid:1211)c là
nh(cid:1267)ng token có kh(cid:1191) n(cid:259)ng non-spam cao nh(cid:1193)t ( xác su(cid:1193)t spam th(cid:1193)p nh(cid:1193)t ).
N(cid:1219)u có k (k ‡ 2) token có cùng giá tr(cid:1231) “(cid:255)(cid:1211)c tr(cid:1133)ng “, b(cid:1251)i vì kh(cid:1191) n(cid:259)ng xu(cid:1193)t
hi(cid:1227)n c(cid:1259)a k token này ngang nhau, do (cid:255)ó hoàn toàn không m(cid:1193)t tính t(cid:1241)ng
quát, chúng tôi ch(cid:1233)n token (cid:255)(cid:1195)u tiên trong k token có cùng giá tr(cid:1231) “ (cid:255)(cid:1211)c
49
tr(cid:1133)ng “này. Sau khi ch(cid:1233)n (cid:255)(cid:1133)(cid:1255)c n token này chúng tôi s(cid:1217) tra trong b(cid:1191)ng
(cid:69)(cid:259)m th(cid:1261) 3 ( l(cid:1133)u token và kh(cid:1191) n(cid:259)ng spam c(cid:1259)a nó) (cid:255)(cid:1223) l(cid:1193)y ra kh(cid:1191) n(cid:259)ng spam
riêng c(cid:1259)a m(cid:1243)i token. N(cid:1219)u không tìm th(cid:1193)y kh(cid:1191) n(cid:259)ng spam riêng cho token
trong b(cid:1191)ng b(cid:259)m,có ngh(cid:429)a là token này là m(cid:1247)i – ch(cid:1133)a có trong c(cid:1131) s(cid:1247) d(cid:1267) li(cid:1227)u
token c(cid:1259)a ta.M(cid:1245)t token ch(cid:1133)a t(cid:1263)ng xu(cid:1193)t hi(cid:1227)n trong kho ng(cid:1267) li(cid:1227)u h(cid:1233)c thì kh(cid:1191)
(cid:81)(cid:259)ng spam c(cid:1259)a nó t(cid:1133)(cid:1131)ng (cid:255)(cid:1237)i th(cid:1193)p [7], chúng tôi l(cid:1193)y giá tr(cid:1231) trung tính 0.4.
T(cid:1263)(cid:3)(cid:255)ó chúng tôi tính kh(cid:1191) n(cid:259)ng t(cid:1241)ng h(cid:1255)p m(cid:1245)t email ch(cid:1261)a n token này là
spam.
n
=
=
=
P C c
(
).
P X (
|
)
Cách tính kh(cid:1191) n(cid:259)ng t(cid:1241)ng h(cid:1255)p :chúng tôi d(cid:1269)a vào Công th(cid:1261)c 4-7
i
x C c i
uur
= i 1
=
=
=
r P C c X x |
(
)
n
=
=
=
P C k
(
).
P X (
|
)
(cid:213)
i
x C k i
{
} spam non spam
k
,
i
= 1
(cid:229) (cid:213) ˛ -
n
=
=
= P C spam
(
)
P X (
|
)
Th(cid:1219) thì xác su(cid:1193)t spam t(cid:1241)ng h(cid:1255)p c(cid:1259)a m(cid:1245)t email C(cid:3)(cid:255)(cid:1133)(cid:1255)c xét là :
x C c i
i
uur
i
= 1
=
=
=
r P C spam X x
(
|
)
n
=
=
=
P C k
(
P X (
|
)
(cid:213)
i
x C k i
). =
}
{
k
spam non spam
i
,
1
(cid:229) (cid:213) ˛ -
Ví d(cid:1257)
Xác su(cid:813)t (Probability): Token:
madam 0.99
promotion 0.99
shorstest 0.047225013
Xác su(cid:1193)t m(cid:1245)t email là Spam là :0.6
0.99*0.99*0.047225013*0.6
=
0.6*0.99*0.99*0.047225013
+ (1-0.6)*(1-0.99)(1-0.99)(1-0.047225013)
(cid:224) Kh(cid:1191) n(cid:259)ng k(cid:1219)t h(cid:1255)p
Sau khi có kh(cid:1191) n(cid:259)ng t(cid:1241)ng h(cid:1255)p, chúng tôi so sánh v(cid:1247)i các giá tr(cid:1231)
ng(cid:1133)(cid:1253)ng ( (cid:255)ã nói (cid:1251) m(cid:1257)c 4.3.1) (cid:255)(cid:1223) phân lo(cid:1189)i email spam hay non-spam, n(cid:1219)u
xác su(cid:1193)t spam t(cid:1241)ng h(cid:1255)p c(cid:1259)a email l(cid:1247)n h(cid:1131)n ng(cid:1133)(cid:1253)ng t chúng tôi k(cid:1219)t luân
50
email (cid:255)ó là spam, ng(cid:1133)(cid:1255)c l(cid:1189)i email (cid:255)ó là non-spam.
5.2 Th(cid:1265) nghi(cid:1227)m hi(cid:1227)u qu(cid:1191) phân lo(cid:1189)i
5.2.1 Th(cid:1265) nghi(cid:1227)m v(cid:1247)i kho ng(cid:1267) li(cid:1227)u pu:
B(cid:1251)i vì kho ng(cid:1267) li(cid:1227)u h(cid:1233)c và ki(cid:1223)m th(cid:1265) là s(cid:1237), do (cid:255)ó chúng tôi thay (cid:255)(cid:1241)i v(cid:1221)
cách l(cid:1193)y token, (cid:1251)(cid:3) (cid:255)ây chúng tôi xem token là các con s(cid:1237), và d(cid:1193)u hi(cid:1227)u tách
token là các kho(cid:1191)ng tr(cid:1203)ng.
5.2.1.1 K(cid:1231)ch b(cid:1191)n ki(cid:1223)m th(cid:1265) :
Chúng tôi th(cid:1265) nghi(cid:1227)m nhân tr(cid:1233)ng s(cid:1237) non-spam W v(cid:1247)i 1 và 2
V(cid:1247)i m(cid:1243)i W, chúng tôi th(cid:1265) nghi(cid:1227)m v(cid:1247)i l l(cid:1195)n l(cid:1133)(cid:1255)t v(cid:1247)i các giá tr(cid:1231) 1, 9,
và 999
(cid:55)(cid:1133)(cid:1131)ng (cid:1261)ng v(cid:1247)i m(cid:1243)i giá tr(cid:1231) l và W chúng tôi th(cid:1269)c hi(cid:1227)n tính xác su(cid:1193)t
spam theo các công th(cid:1261)c :Công th(cid:1261)c 5-5, Công th(cid:1261)c 5-6 và Công th(cid:1261)c 5-7
S(cid:1237) token (cid:255)(cid:1133)(cid:1255)c l(cid:1193)y l(cid:1195)n l(cid:1133)(cid:1255)t là 10, 15, 20
Chúng tôi ki(cid:1223)m tra v(cid:1247)i các kho ng(cid:1267) li(cid:1227)u pu1, pu2, pu3 và puA
(cid:55)(cid:1133)(cid:1131)ng (cid:1261)ng v(cid:1247)i m(cid:1243)i kho ng(cid:1267) li(cid:1227)u trên chúng tôi cho h(cid:1233)c t(cid:1263) part1
(cid:255)(cid:1219)n part 9, sau (cid:255)ó chúng tôi th(cid:1265) nghi(cid:1227)m phân lo(cid:1189)i trên part10, ch(cid:1261)a
nh(cid:1267)ng email ch(cid:1133)a (cid:255)(cid:1133)(cid:1255)c h(cid:1233)c.
5.2.1.2 K(cid:1219)t qu(cid:1191) th(cid:1265) nghi(cid:1227)m v(cid:1247)i kho ng(cid:1267) li(cid:1227)u pu :
K(cid:1219)t qu(cid:1191) th(cid:1269)c hi(cid:1227)n: chúng tôi trình bày k(cid:1219)t qu(cid:1191) th(cid:1269)c hi(cid:1227)n v(cid:1247)i tr(cid:1133)(cid:1249)ng
h(cid:1255)p nhân tr(cid:1233)ng s(cid:1237) non-spam W=2, k(cid:1219)t qu(cid:1191) chi ti(cid:1219)t v(cid:1247)i W=1 xin xem
51
ph(cid:1195)n ph(cid:1257) l(cid:1257)c.
Công th(cid:1261)c 5-5
Công th(cid:1261)c 5-6
Công th(cid:1261)c 5-7
v K(cid:1219)t qu(cid:1191) ki(cid:1223)m th(cid:1265) trên PU1:
10 44
15 45
20 45
10 45
15 45
20 44
10 46
15 46
20 47
1 (cid:54)(cid:314)S
4
3
3
3
3
4
2
2
1
(cid:54)(cid:314)N
61
61
61
61
61
61
61
61
61
(cid:49)(cid:314)N
0
0
0
0
0
0
0
0
0
(cid:49)(cid:314)S
91.67% 93.75% 93.75% 93.75% 93.75% 91.67% 95.83% 95.83% 97.92%
SR
100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 100.00%
SP
12
16
16
16
16
12
24
24
48
TCR
44
45
45
44
44
44
45
46
47
9 (cid:54)(cid:314)S
4
3
3
4
4
4
3
2
1
(cid:54)(cid:314)N
61
61
61
61
61
61
61
61
61
(cid:49)(cid:314)N
0
0
0
0
0
0
0
0
0
(cid:49)(cid:314)S
91.67% 93.75% 93.75% 91.67% 91.67% 91.67% 93.75% 95.83% 97.92%
SR
100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 100.00%
SP
12
16
16
12
12
12
16
24
48
TCR
43
43
43
43
43
43
45
45
47
999 (cid:54)(cid:314)S
5
5
5
5
5
5
3
3
1
(cid:54)(cid:314)N
61
61
61
61
61
61
61
61
61
(cid:49)(cid:314)N
0
0
0
0
0
0
0
0
0
(cid:49)(cid:314)S
89.58% 89.58% 89.58% 89.58% 89.58% 89.58% 93.75% 93.75% 97.92%
SR
100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 100.00%
SP
9.6
9.6
9.6
9.6
9.6
9.6
16
16
48
TCR
l
(cid:37)(cid:1191)ng 5-1 K(cid:1219)t qu(cid:1191) ki(cid:1223)m th(cid:1265) phân l(cid:1233)ai email b(cid:1205)ng ph(cid:1133)(cid:1131)ng pháp phân l(cid:1233)ai Naïve Bayesian trên
kho ng(cid:1267) li(cid:1227)u PU1
52
Hình 5-2 L(cid:1133)(cid:1255)c (cid:255)(cid:1239) so sánh các ch(cid:1229) s(cid:1237) spam recall (SR) và spam precision (SP) theo s(cid:1237) token th(cid:1265)
l =
)
nghi(cid:1227)m trên kho ng(cid:1267) li(cid:1227)u PU1 v(cid:1247)i công th(cid:1261)c 5-7 (
9
Hình 5-3 L(cid:1133)(cid:1255)c (cid:255)(cid:1239) ch(cid:1229) s(cid:1237) TCR theo s(cid:1237) token th(cid:1265) nghi(cid:1227)m trên kho ng(cid:1267) li(cid:1227)u PU1 v(cid:1247)i công th(cid:1261)c 5-7
l =
)
(
9
53
Công th(cid:1261)c 5-5
Công th(cid:1261)c 5-6
Công th(cid:1261)c 5-7
v K(cid:1219)t qu(cid:1191) ki(cid:1223)m th(cid:1265) trên PU2:
10 8 6 57 0
15 8 6 57 0
10 7 7 57 0
20 8 6 57 0
20 9 5 57 0
15 9 5 57 0
15 8 6 57 0
10 7 7 57 0
22.333333 8 7 6 7 57 57 0 0
22.3333332.3333332.333333 8 7 6 7 57 57 0 0
2.8 8 6 57 0
8 6 57 0
8 6 57 0
8 5 57 0
22.3333332.333333 8 8 7 6 6 7 57 57 57 0 0 0
2 7 7 57 0
5 9 57 0
7 7 57 0
6 8 57 0
20 5 1S(cid:314)S 9 (cid:54)(cid:314)N 57 (cid:49)(cid:314)N 0 (cid:49)(cid:314)S SR 50.00% 57.14% 64.29% 50.00% 57.14% 57.14% 57.14% 64.29% 35.71% SP 100.00% 100.00% 100.00%100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 2.81.555556 TCR 5 9S(cid:314)S 9 (cid:54)(cid:314)N 57 (cid:49)(cid:314)N 0 (cid:49)(cid:314)S SR 50.00% 57.14% 57.14% 50.00% 61.54% 57.14% 57.14% 57.14% 35.71% SP 100.00% 100.00% 100.00%100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 2.62.3333332.3333332.3333331.555556 TCR 5 8 999S(cid:314)S 9 6 (cid:54)(cid:314)N 57 57 (cid:49)(cid:314)N (cid:49)(cid:314)S 0 0 SR 50.00% 57.14% 57.14% 50.00% 42.86% 50.00% 57.14% 35.71% 35.71% SP 100.00% 100.00% 100.00%100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 22.3333331.5555561.555556 TCR
22.3333332.333333
1.75
2
l
(cid:37)(cid:1191)ng 5-2 K(cid:1219)t qu(cid:1191) ki(cid:1223)m th(cid:1265) phân l(cid:1233)ai email b(cid:1205)ng ph(cid:1133)(cid:1131)ng pháp phân l(cid:1233)ai Naïve Bayesian trên kho
ng(cid:1267) li(cid:1227)u PU2
54
Hình 5-4 L(cid:1133)(cid:1255)c (cid:255)(cid:1239) so sánh các ch(cid:1229) s(cid:1237) spam recall (SR) và spam precision (SP) theo s(cid:1237) token th(cid:1265)
l =
)
nghi(cid:1227)m trên kho ng(cid:1267) li(cid:1227)u PU2 v(cid:1247)i công th(cid:1261)c 5-5 (
9
Hình 5-5 L(cid:1133)(cid:1255)c (cid:255)(cid:1239) ch(cid:1229) s(cid:1237) TCR theo s(cid:1237) token th(cid:1265) nghi(cid:1227)m trên kho ng(cid:1267) li(cid:1227)u PU2 v(cid:1247)i công th(cid:1261)c 5-5
l =
)
(
9
55
Công th(cid:1261)c 5-5
Công th(cid:1261)c 5-6
Công th(cid:1261)c 5-7
v K(cid:1219)t qu(cid:1191) ki(cid:1223)m th(cid:1265) trên PU3:
10 167 15 228 3
20 165 17 229 2
20 168 14 227 4
10 169 13 228 3
15 172 10 222 9
15 169 13 228 3
10 165 17 226 5
15 168 14 228 3
167 15 229 2
168 14 228 3
165 17 227 4
166 16 229 2
171 11 222 9
168 14 227 4
163 19 229 2
1S(cid:314)S (cid:54)(cid:314)N (cid:49)(cid:314)N (cid:49)(cid:314)S SR SP TCR 9S(cid:314)S (cid:54)(cid:314)N (cid:49)(cid:314)N (cid:49)(cid:314)S SR SP TCR 5.5151524.439024 163 163 19 19 229 229 2 2
163 19 227 4
156 26 229 2
168 14 225 6
160 22 229 2
20 170 12 224 7 92.86% 92.31% 92.31% 91.76% 92.86% 90.66% 90.66% 94.51% 93.41% 98.26% 98.25% 97.67% 98.24% 98.26% 98.80% 97.06% 95.03% 96.05% 11.3759.5789478.2727279.5789479.578947 11.37510.7058810.1111110.11111 170 164 12 18 225 228 6 3 91.76% 92.31% 92.31% 90.11% 91.21% 89.56% 90.66% 93.96% 93.41% 98.82% 98.25% 97.67% 98.20% 98.81% 98.79% 97.63% 95.00% 96.59% 3.644.0444445.3529414.9189193.4339621.9782612.757576 169 156 165 999S(cid:314)S 13 26 17 (cid:54)(cid:314)N 225 229 229 (cid:49)(cid:314)N 6 2 2 (cid:49)(cid:314)S 89.56% 89.56% 90.66% 87.91% 85.71% 85.71% 89.56% 92.31% 92.86% SR SP 98.79% 98.79% 98.80% 98.77% 98.73% 98.73% 97.60% 96.55% 96.57% TCR 0.0902330.0902330.0903230.0900990.0899210.089921 0.045330.0302930.030298
l
(cid:37)(cid:1191)ng 5-3 K(cid:1219)t qu(cid:1191) ki(cid:1223)m th(cid:1265) phân l(cid:1233)ai email b(cid:1205)ng ph(cid:1133)(cid:1131)ng pháp phân l(cid:1233)ai Naïve Bayesian trên
kho ng(cid:1267) li(cid:1227)u PU3
56
Hình 5-6 L(cid:1133)(cid:1255)c (cid:255)(cid:1239) so sánh các ch(cid:1229) s(cid:1237) spam recall (SR) và spam precision (SP) theo s(cid:1237) token th(cid:1265)
l =
)
nghi(cid:1227)m trên kho ng(cid:1267) li(cid:1227)u PU3 v(cid:1247)i công th(cid:1261)c 5-6 (
9
Hình 5-7 L(cid:1133)(cid:1255)c (cid:255)(cid:1239) ch(cid:1229) s(cid:1237) TCR theo s(cid:1237) token th(cid:1265) nghi(cid:1227)m trên kho ng(cid:1267) li(cid:1227)u PU3 v(cid:1247)i công th(cid:1261)c 5-6
l =
)
(
9
57
v (cid:46)(cid:1219)t qu(cid:1191) ki(cid:1223)m th(cid:1265) trên PUA:
Công th(cid:1261)c 5-5
Công th(cid:1261)c 5-6
Công th(cid:1261)c 5-7
15 46 11 56 1
10 46 11 57 0
20 41 16 57 0
10 50 7 56 1
15 48 9 56 1
10 43 14 57 0
20 46 11 57 0
15 42 15 57 0
20 46 11 57 0 80.70% 80.70% 80.70% 75.44% 73.68% 71.93% 87.72% 84.21% 80.70% 100.00% 97.87% 100.00% 100.00% 100.00% 100.00% 98.04% 97.96% 100.00% 5.7 5.181818
1 (cid:54)(cid:314)S (cid:54)(cid:314)N (cid:49)(cid:314)N (cid:49)(cid:314)S SR SP TCR 5.181818
4.75 5.181818 4.071429
3.5625
7.125
3.8
9 (cid:54)(cid:314)S (cid:54)(cid:314)N
46 11
46 11
45 12
42 15
41 16
38 19
49 8
46 11
45 12
57 0
57 0
57 0
55 2
56 1
56 1
57 0
57 0
(cid:49)(cid:314)N (cid:49)(cid:314)S SR SP TCR 5.181818 43 14 57 0
3 3.352941 1.965517 45 47 12 10 57 56 0 1
2.85 43 14 57 0
4.75 42 15 57 0
3.8 41 16 57 0
35 2 57 0
57 0 80.70% 80.70% 78.95% 73.68% 71.93% 66.67% 85.96% 80.70% 78.95% 100.00% 97.87% 100.00% 100.00% 100.00% 100.00% 98.00% 95.83% 100.00% 4.75 3.5625 44 37 13 20 57 57 0 0 75.44% 75.44% 73.68% 71.93% 64.91% 94.59% 82.46% 78.95% 77.19% 100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 97.92% 100.00% 100.00% 4.75 4.384615
999 (cid:54)(cid:314)S (cid:54)(cid:314)N (cid:49)(cid:314)N (cid:49)(cid:314)S SR SP TCR 4.071429 4.071429
18.5 0.056492
3.5625
2.85
3.8
l
(cid:37)(cid:1191)ng 5-4 K(cid:1219)t qu(cid:1191) ki(cid:1223)m th(cid:1265) phân l(cid:1233)ai email b(cid:1205)ng ph(cid:1133)(cid:1131)ng pháp phân l(cid:1233)ai Naïve Bayesian trên
kho ng(cid:1267) li(cid:1227)u PUA
58
Hình 5-8 L(cid:1133)(cid:1255)c (cid:255)(cid:1239) so sánh các ch(cid:1229) s(cid:1237) spam recall (SR) và spam precision (SP) theo s(cid:1237) token th(cid:1265)
l =
)
nghi(cid:1227)m trên kho ng(cid:1267) li(cid:1227)u PUA v(cid:1247)i công th(cid:1261)c 5-5 (
9
Hình 5-9 L(cid:1133)(cid:1255)c (cid:255)(cid:1239) ch(cid:1229) s(cid:1237) TCR theo s(cid:1237) token th(cid:1265) nghi(cid:1227)m trên kho ng(cid:1267) li(cid:1227)u PUA v(cid:1247)i công th(cid:1261)c 5-5
l =
)
(
9
59
Nh(cid:1201)n xét :k(cid:1219)t qu(cid:1191) ki(cid:1223)m th(cid:1265) trên các kho ng(cid:1267) li(cid:1227)u PU là khá t(cid:1237)t, hi(cid:1227)u
l =
l =
l =
9
1
999
qu(cid:1191) phân lo(cid:1189)i gi(cid:1267)a các công th(cid:1261)c là không quá khác bi(cid:1227)t, v(cid:1247)i cách ch(cid:1233)n
l =
999
và hi(cid:1227)u qu(cid:1191) h(cid:1131)n v(cid:1247)i , theo chúng tôi thì kho ng(cid:1267) li(cid:1227)u
thì không hi(cid:1227)u qu(cid:1191) b(cid:1205)ng. V(cid:1221) cách ch(cid:1233)n không l(cid:1247)n l(cid:1203)m nên s(cid:1265) d(cid:1257)ng
s(cid:1237) token, hi(cid:1227)u qu(cid:1191) phân lo(cid:1189)i khi ch(cid:1233)n s(cid:1237) token là 10, 15 hay 20 c(cid:458)ng không
khác bi(cid:1227)t l(cid:1203)m.
5.2.2 Th(cid:1265) nghi(cid:1227)m v(cid:1247)i kho ng(cid:1267) li(cid:1227)u email ch(cid:1267) :
5.2.2.1 K(cid:1231)ch b(cid:1191)n ki(cid:1223)m th(cid:1265) :
Sau khi (cid:255)ã th(cid:1265) nghi(cid:1227)m v(cid:1247)i kho ng(cid:1267) li(cid:1227)u s(cid:1237), chúng tôi ch(cid:1233)n m(cid:1245)t b(cid:1245)
( l
, n, W) (cid:255)(cid:1223) ki(cid:1223)m th(cid:1265) v(cid:1247)i kho ng(cid:1267) li(cid:1227)u email ch(cid:1267). Chúng tôi th(cid:1265) nghi(cid:1227)m v(cid:1247)i b(cid:1245) d(cid:1267) li(cid:1227)u l = 9, s(cid:1237) token là 15, tr(cid:1233)ng s(cid:1237)
non-spam là 2.
Ng(cid:1267) li(cid:1227)u h(cid:1233)c và ki(cid:1223)m th(cid:1265)(cid:3)(cid:1251)(cid:3)(cid:255)ây g(cid:1239)m ng(cid:1267) li(cid:1227)u email là email v(cid:259)n b(cid:1191)n
tr(cid:1131)n (text/plain), và ng(cid:1267) li(cid:1227)u email html. Ng(cid:1267) li(cid:1227)u email v(cid:259)n b(cid:1191)n tr(cid:1131)n có s(cid:1237)
email dùng (cid:255)(cid:1223) hu(cid:1193)n luy(cid:1227)n là :517 email non-spam, 528 email spam. Ng(cid:1267)
li(cid:1227)u dung (cid:255)(cid:1223) ki(cid:1223)m th(cid:1265) g(cid:1239)m 98 email spam, 100 email non-spam. Ng(cid:1267) li(cid:1227)u
email html có s(cid:1237) email dùng (cid:255)(cid:1223) hu(cid:1193)n luy(cid:1227)n là 141 email non-spam, 155
email spam, s(cid:1237) email dung (cid:255)(cid:1223) ki(cid:1223)m th(cid:1265) là 50 email spam, 50 email non-
spam.
5.2.2.2 K(cid:1219)t qu(cid:1191) ki(cid:1223)m th(cid:1265) :
Ng(cid:1267) li(cid:1227)u email v(cid:259)n b(cid:1191)n tr(cid:1131)n:
• Ng(cid:1267) li(cid:1227)u h(cid:1233)c :s(cid:1237) email spam :517, s(cid:1237) email non-
spam:528
• Ng(cid:1267) li(cid:1227)u ki(cid:1223)m th(cid:1265) :s(cid:1237) email spam :98, s(cid:1237) email non-
spam :100
60
Ng(cid:1267) li(cid:1227)u email html, s(cid:1237) email ki(cid:1223)m th(cid:1265) :Spam =50, non-spam=50
TEXT
(cid:54)(cid:314)S
Công th(cid:1261)c 5-5 Công th(cid:1261)c 5-6 Công th(cid:1261)c 5-7 96
96
94
(cid:54)(cid:314)N
2
4
2
(cid:49)(cid:314)N (cid:49)(cid:314)S
99 1
99 1
99 1
SR SP
97.96% 98.97%
95.92% 98.95%
97.96% 98.97%
TCR
32.66667
19.6
32.66667
HTML
S(cid:314)S (cid:54)(cid:314)N
32 18
24 26
23 27
(cid:49)(cid:314)N (cid:49)(cid:314)S
50 0
50 0
50 0
SR
64.00%
48.00%
46.00%
SP TCR
100.00% 2.777778
100.00% 1.923077
100.00% 1.851852
(cid:37)(cid:1191)ng 5-5 K(cid:1219)t qu(cid:1191) ki(cid:1223)m th(cid:1265) phân l(cid:1233)ai email b(cid:1205)ng ph(cid:1133)(cid:1131)ng pháp phân l(cid:1233)ai Bayesian trên kho
ng(cid:1267) li(cid:1227)u email ch(cid:1267)
K(cid:1219)t qu(cid:1191) th(cid:1269)c hi(cid:1227)n v(cid:1247)i ng(cid:1267) li(cid:1227)u email v(cid:259)n b(cid:1191)n (text/plain) khá t(cid:1237)t, các ch(cid:1229)
s(cid:1237) spam recall, spam precision khá cao, tuy nhiên th(cid:1269)c hi(cid:1227)n v(cid:1247)i kho ng(cid:1267)
li(cid:1227)u email html thì ch(cid:1229) s(cid:1237) spam recall không (cid:255)(cid:1133)(cid:1255)c cao trong khi ch(cid:1229) s(cid:1237)
spam precision v(cid:1199)n t(cid:1237)t. K(cid:1219)t qu(cid:1191) này m(cid:1245)t ph(cid:1195)n vì kho ng(cid:1267) li(cid:1227)u email html
c(cid:1259)a chúng tôi không (cid:255)(cid:1133)(cid:1255)c l(cid:1247)n l(cid:1203)m, s(cid:1237) l(cid:1133)(cid:1255)ng email html dùng(cid:3)(cid:255)(cid:1223) hu(cid:1193)n
luy(cid:1227)n (cid:87)(cid:1133)(cid:1131)ng (cid:255)(cid:1237)i ít. Email html có (cid:255)(cid:1211)c (cid:255)(cid:76)(cid:1223)m là n(cid:1245)i dung c(cid:1259)a nó h(cid:1195)u h(cid:1219)t là
các th(cid:1215) html, nh(cid:1267)ng th(cid:1215) html này không cung c(cid:1193)p (cid:255)(cid:1133)(cid:1255)c nhi(cid:1221)u thông tin
trong vi(cid:1227)c phân l(cid:1233)ai, n(cid:1245)i dung ch(cid:1267) th(cid:1201)t s(cid:1269) t(cid:1133)(cid:1131)ng (cid:255)(cid:1237)i ít, (cid:255)(cid:76)(cid:1221)u này c(cid:458)ng (cid:1191)nh
(cid:75)(cid:1133)(cid:1251)ng (cid:255)(cid:1219)n k(cid:1219)t qu(cid:1191) th(cid:1269)c hi(cid:1227)n c(cid:1259)a thu(cid:1201)t tóan Naïve Bayesian
5.3 (cid:1132)u (cid:177) nh(cid:1133)(cid:1255)c (cid:255)(cid:76)(cid:1223)m c(cid:1259)a ph(cid:1133)(cid:1131)ng pháp phân lo(cid:1189)i Naïve
Bayesian:
5.3.1 (cid:1132)u (cid:255)(cid:76)(cid:1223)m : • M(cid:1245)t (cid:1133)u (cid:255)i(cid:1223)m c(cid:1259)a b(cid:1245) l(cid:1233)c Bayes là nó cho phép h(cid:1233)c spam. Ngh(cid:429)a là, khi có
m(cid:1245)t email spam v(cid:1269)(cid:1131)t qua (cid:255)(cid:1133)(cid:1255)c b(cid:1245) l(cid:1233)c thì ng(cid:1133)(cid:1249)i dùng có th(cid:1223)(cid:3)(cid:255)ánh d(cid:1193)u
spam cho email (cid:255)ó và b(cid:1245) l(cid:1233)c s(cid:1217) t(cid:1269) phân tích email spam (cid:255)ó và c(cid:1201)p nh(cid:1201)t
61
thêm vào kho ng(cid:1267) li(cid:1227)u spam. • Hi(cid:1227)u qu(cid:1191) phân lo(cid:1189)i là khá cao
• Th(cid:1249)i gian hu(cid:1193)n luy(cid:1227)n nhanh, theo Charles Elkan [16] v(cid:1247)i e m(cid:1199)u hu(cid:1193)n
luy(cid:1227)n và s(cid:1237) thu(cid:1245)c tính là f th(cid:1249)i gian c(cid:1195)n thi(cid:1219)t (cid:255)(cid:1223) hu(cid:1193)n luy(cid:1227)n phân l(cid:1233)ai
Naïve Bayesian là hàm tuy(cid:1219)n tính O(ef), không có thu(cid:1201)t tóan máy h(cid:1233)c nào
có th(cid:1223) kh(cid:1191)o sát v(cid:1247)i cùng d(cid:1267) li(cid:1227)u hu(cid:1193)n luy(cid:1227)n (cid:255)ó nhanh h(cid:1131)n Naïve Bayesian
• Ngoài nh(cid:1267)ng b(cid:1245) l(cid:1233)c (cid:255)(cid:1133)(cid:1255)c xây d(cid:1269)ng s(cid:1209)n d(cid:1269)a trên kho ng(cid:1267) li(cid:1227)u email có
tr(cid:1133)(cid:1247)c, thì v(cid:1247)i m(cid:1243)i ng(cid:1133)(cid:1249)i dùng s(cid:1217) có b(cid:1245) l(cid:1233)c riêng (cid:255)(cid:1133)(cid:1255)c xây d(cid:1269)ng d(cid:1269)a trên
kho ng(cid:1267) li(cid:1227)u h(cid:1233)c email c(cid:1259)a chính h(cid:1233). Do (cid:255)ó, vi(cid:1227)c (cid:255)(cid:1133)a spam v(cid:1133)(cid:1255)t qua (cid:255)(cid:1133)(cid:1255)c
b(cid:1245) l(cid:1233)c xây d(cid:1269)ng s(cid:1209)n thì không ch(cid:1203)c là nó có th(cid:1223) v(cid:1133)(cid:1255)t qua (cid:255)(cid:1133)(cid:1255)c b(cid:1245) l(cid:1233)c c(cid:1259)a
t(cid:1263)ng ng(cid:1133)(cid:1249)i dùng c(cid:1257) th(cid:1223).
5.3.2 Khuy(cid:1219)t (cid:255)(cid:76)(cid:1223)m : • Khuy(cid:1219)t di(cid:1223)m c(cid:1259)a ph(cid:1133)(cid:1131)ng pháp phân lo(cid:1189)i Bayes chính là vi(cid:1227)c ph(cid:1191)i hu(cid:1193)n
luy(cid:1227)n cho nó
• Khuy(cid:1219)t (cid:255)(cid:76)(cid:1223)m th(cid:1261) hai là hi(cid:1227)u qu(cid:1191) phân l(cid:1233)ai ph(cid:1257) thu(cid:1245)c vào kho ng(cid:1267) li(cid:1227)u
hu(cid:1193)n luy(cid:1227)n ban (cid:255)(cid:1195)u, n(cid:1219)u ng(cid:1267) li(cid:1227)u không (cid:255)(cid:1259) l(cid:1247)n, k(cid:1219)t qu(cid:1191) phân l(cid:1233)ai s(cid:1217) b(cid:1231)
(cid:1191)nh h(cid:1133)(cid:1251)ng.
62
• D(cid:1267) li(cid:1227)u (cid:255)ã qua hu(cid:1193)n luy(cid:1227)n là khá nhi(cid:1221)u, làm t(cid:259)ng dung l(cid:1133)(cid:1255)ng l(cid:1133)u tr(cid:1267).
Ch(cid:1133)(cid:1131)ng 6 : PH(cid:1132)(cid:1130)NG PHÁP ADABOOST
VÀ (cid:1260)NG D(cid:1256)NG PHÂN LO(cid:1188)I EMAIL
63
Thu(cid:1201)t toán Adaboost (Adaptive Boost)[15],(cid:3)(cid:255)(cid:1133)(cid:1255)c gi(cid:1247)i thi(cid:1227)u l(cid:1195)n (cid:255)(cid:1195)u vào n(cid:259)m
1995 b(cid:1251)i Freund và Schapire [10],[11], là m(cid:1245)t trong các thu(cid:1201)t toán theo ph(cid:1133)(cid:1131)ng
pháp Boosting. Boosting là m(cid:1245)t trong các ph(cid:1133)(cid:1131)ng pháp m(cid:1247)i nh(cid:1193)t (cid:255)(cid:1133)(cid:1255)c (cid:255)(cid:1221) xu(cid:1193)t dùng
(cid:255)(cid:1223) nâng cao kh(cid:1191) n(cid:259)ng d(cid:1269)(cid:3)(cid:255)oán (cid:255)úng [12]. Boosting (cid:255)(cid:1133)(cid:1255)c áp d(cid:1257)ng trong các bài toán
phân lo(cid:1189)i và h(cid:1239)i qui. Boosting k(cid:1219)t h(cid:1255)p các lu(cid:1201)t “y(cid:1219)u “ (weak rule) có (cid:255)(cid:1245) chính xác
d(cid:1269)(cid:3)(cid:255)oán th(cid:1193)p (cid:255)(cid:1223) cho ra m(cid:1245)t lu(cid:1201)t có (cid:255)(cid:1245) chính xác d(cid:1269)(cid:3)(cid:255)oán cao [12]. Thông th(cid:1133)(cid:1249)ng
m(cid:1243)i m(cid:1245)t lu(cid:1201)t y(cid:1219)u là m(cid:1245)t lu(cid:1201)t (cid:255)(cid:1131)n gi(cid:1191)n, có th(cid:1223) d(cid:1269)a vào (cid:255)ó (cid:255)(cid:1223) d(cid:1269)(cid:3)(cid:255)oán (cid:255)(cid:1237)i t(cid:1133)(cid:1255)ng (cid:255)(cid:1133)(cid:1255)c
xét thu(cid:1245)c v(cid:1221) lo(cid:1189)i nào, tuy nhiên (cid:255)(cid:1245) chính xác c(cid:1259)a d(cid:1269)(cid:3)(cid:255)oán là không cao. Các lu(cid:1201)t
y(cid:1219)u s(cid:1217)(cid:3)(cid:255)(cid:1133)(cid:1255)c hu(cid:1193)n luy(cid:1227)n tu(cid:1195)n t(cid:1269) d(cid:1269)a trên các m(cid:1199)u hu(cid:1193)n luy(cid:1227)n r(cid:1193)t khó d(cid:1269)(cid:3)(cid:255)oán (cid:255)úng
n(cid:1219)u ch(cid:1229) c(cid:259)n c(cid:1261) vào các lu(cid:1201)t (cid:255)ã có tr(cid:1133)(cid:1247)c. Các thu(cid:1201)t toán boost g(cid:1239)m AdaBoost,
Uboost, LPBoost, LPUBoost ….(cid:1250)(cid:3)(cid:255)ây chúng tôi t(cid:1201)p trung vào AdaBoost, và
AdaBoost (cid:1261)ng d(cid:1257)ng trong l(cid:429)nh v(cid:1269)c phân lo(cid:1189)i v(cid:259)n b(cid:1191)n
6.1 Thu(cid:1201)t toán AdaBoost :
(
), (
),..., (
x
,
y
)
Mô t(cid:1191) phác th(cid:1191)o thu(cid:1201)t toán nh(cid:1133) sau:
m
m
x y , 1 1
x y , 2
2
• Cho m(cid:1245)t t(cid:1201)p hu(cid:1193)n luy(cid:1227)n
{ - +
} 1, 1
ix trong t(cid:1201)p X
iy ˛
• là nhãn (cid:255)úng c(cid:1259)a m(cid:1243)i
m= 1...
i
• V(cid:1247)i m(cid:1243)i t, t=1,…T
tD i ( ) { - +
} 1, 1
t(cid:1133)(cid:1131)ng (cid:1261)ng o Xây d(cid:1269)ng hàm phân ph(cid:1237)i
th X fi :
v(cid:1247)i l(cid:1243)i o Ch(cid:1233)n m(cid:1245)t lu(cid:1201)t y(cid:1219)u
[
)
]
e = t
h x ( t i
y i
Pr D t
„ là nh(cid:1235) nh(cid:1193)t b(cid:1205)ng th(cid:1259) t(cid:1257)c WeakLearner
• Ra : hàm dùng (cid:255)(cid:1223) d(cid:1269)(cid:3)(cid:255)oán H
Hình 6-1 Mô t(cid:1191) thu(cid:1201)t toán AdaBoost
Thu(cid:1201)t toán s(cid:1217) tìm ra m(cid:1245)t t(cid:1201)p các lu(cid:1201)t y(cid:1219)u b(cid:1205)ng cách g(cid:1233)i th(cid:1269)c hi(cid:1227)n l(cid:1211)p (cid:255)i l(cid:1211)p
T
H x ( )
= (cid:229)
l(cid:1189)i m(cid:1245)t th(cid:1259) t(cid:1257)c WeakLearner v(cid:1247)i s(cid:1237) l(cid:1195)n T. Nh(cid:1267)ng lu(cid:1201)t y(cid:1219)u này s(cid:1217)(cid:3)(cid:255)(cid:1133)(cid:1255)c k(cid:1219)t h(cid:1255)p
h x ( ) t
= 1
t
64
tuy(cid:1219)n tính l(cid:1189)i (cid:255)(cid:1223) cho ra m(cid:1245)t lu(cid:1201)t phân lo(cid:1189)i m(cid:1189)nh h(cid:1131)n : . Th(cid:1259) t(cid:1257)c
WeakLearner dùng (cid:255)(cid:1223) ch(cid:1233)n ra lu(cid:1201)t y(cid:1219)u có l(cid:1243)i phân lo(cid:1189)i sai nh(cid:1235) nh(cid:1193)t t(cid:1133)(cid:1131)ng (cid:1261)ng
trong m(cid:1243)i b(cid:1133)(cid:1247)c ch(cid:1189)y t=1, … T, k(cid:1219)t qu(cid:1191) là ta có (cid:255)(cid:1133)(cid:1255)c t(cid:1201)p lu(cid:1201)t (cid:255)ã hu(cid:1193)n luy(cid:1227)n g(cid:1239)m T
( H x
)i
y i
„ lu(cid:1201)t y(cid:1219)u. L(cid:1243)i x(cid:1191)y ra khi , thu(cid:1201)t toán AdaBoost xây d(cid:1269)ng th(cid:1259) t(cid:1257)c
WeakLearner ch(cid:1233)n l(cid:1269)a lu(cid:1201)t y(cid:1219)u sao cho t(cid:1133)(cid:1131)ng (cid:1261)ng v(cid:1247)i lu(cid:1201)t y(cid:1219)u (cid:255)(cid:1133)(cid:1255)c ch(cid:1233)n l(cid:1243)i sai
e (cid:3)(cid:255)(cid:1133)(cid:1255)c gi(cid:1191)m t(cid:1237)i (cid:255)a. Thu(cid:1201)t toán tìm cách duy trì m(cid:1245)t t(cid:1201)p các tr(cid:1233)ng s(cid:1237) t(cid:1133)(cid:1131)ng (cid:1261)ng v(cid:1247)i
tD i ( )
t(cid:1201)p m(cid:1199)u hu(cid:1193)n luy(cid:1227)n. M(cid:1261)c (cid:1191)nh h(cid:1133)(cid:1251)ng c(cid:1259)a tr(cid:1233)ng s(cid:1237) v(cid:1247)i m(cid:1199)u h(cid:1233)c i (cid:1251) l(cid:1195)n t là
Trong quá trình h(cid:1233)c, các tr(cid:1233)ng s(cid:1237) s(cid:1217)(cid:3)(cid:255)(cid:1133)(cid:1255)c c(cid:1201)p nh(cid:1201)t (cid:255)(cid:1245)ng. N(cid:1219)u phân lo(cid:1189)i sai tr(cid:1233)ng s(cid:1237)
s(cid:1217) t(cid:259)ng lên nh(cid:1193)n m(cid:1189)nh nh(cid:1267)ng m(cid:1199)u hu(cid:1193)n luy(cid:1227)n b(cid:1231) phân lo(cid:1189)i sai, ng(cid:1133)(cid:1255)c l(cid:1189)i, tr(cid:1233)ng s(cid:1237)
gi(cid:1191)m xu(cid:1237)ng [15].
6.2 AdaBoost trong phân lo(cid:1189)i v(cid:259)n b(cid:1191)n nhi(cid:1221)u l(cid:1247)p :
M(cid:1245)t trong các l(cid:429)nh v(cid:1269)c (cid:1261)ng d(cid:1257)ng quan tr(cid:1233)ng c(cid:1259)a thu(cid:1201)t toán AdaBoost là
phân lo(cid:1189)i v(cid:259)n b(cid:1191)n. Trong phân lo(cid:1189)i v(cid:259)n b(cid:1191)n v(cid:1247)i nhi(cid:1221)u l(cid:1247)p, có hai thu(cid:1201)t toán
AdaBoost m(cid:1247)i nh(cid:1193)t là AdaBoost.MH và AdaBoost.MR, trong ph(cid:1189)m vi lu(cid:1201)n v(cid:259)n
này chúng tôi t(cid:1201)p trung nghiên c(cid:1261)u thu(cid:1201)t toán AdaBoost.MH.
Xét bài toán phân lo(cid:1189)i v(cid:259)n b(cid:1191)n nhi(cid:1221)u l(cid:1247)p (nhãn ), X bi(cid:1223)u th(cid:1231) t(cid:1201)p các v(cid:259)n b(cid:1191)n
và Y là t(cid:1201)p có gi(cid:1247)i h(cid:1189)n các nhãn ho(cid:1211)c l(cid:1247)p.(cid:3)(cid:264)(cid:1231)nh ngh(cid:429)a kích thu(cid:1247)c c(cid:1259)a Y là k= | Y
|. Trong tr(cid:1133)(cid:1249)ng h(cid:1255)p phân lo(cid:1189)i nhi(cid:1221)u l(cid:1247)p, m(cid:1243)i m(cid:1245)t v(cid:259)n b(cid:1191)n x ˛ X (cid:255)(cid:1133)(cid:1255)c gán nhi(cid:1221)u
nhãn trong Y. M(cid:1245)t ví d(cid:1257) d(cid:1225) th(cid:1193)y là phân lo(cid:1189)i tin t(cid:1261)c là m(cid:1245)t d(cid:1189)ng phân lo(cid:1189)i v(cid:259)n b(cid:1191)n
nhi(cid:1221)u l(cid:1247)p, m(cid:1243)i m(cid:1245)t tin có th(cid:1223) phù h(cid:1255)p v(cid:1247)i nhi(cid:1221)u l(cid:1247)p, ch(cid:1207)ng h(cid:1189)n m(cid:1245)t tin có th(cid:1223) thu(cid:1245)c
v(cid:1221) nhi(cid:1221)u lo(cid:1189)i nh(cid:1133) tin xã h(cid:1245)i, kinh t(cid:1219), v(cid:259)n hoá... N(cid:75)(cid:1133) v(cid:1201)y m(cid:1243)i m(cid:1199)u s(cid:1217)(cid:3)(cid:255)(cid:1133)(cid:1255)c gán nhãn
là m(cid:1245)t c(cid:1211)p (x,Y) v(cid:1247)i Y ˝ Y là m(cid:1245)t t(cid:1201)p các nhãn (cid:255)(cid:1133)(cid:1255)c gán cho x.
V(cid:1247)i Y˛ Y,(cid:3)(cid:255)(cid:1231)nh ngh(cid:429)a Y[l] cho l˛ Y là
Y[l]= +1 n(cid:1219)u l ˛ Y
-1 n(cid:1219)u lˇ Y
Phân lo(cid:1189)i nhi(cid:1221)u l(cid:1247)p (cid:1251)(cid:3)(cid:255)ây là tìm cách x(cid:1219)p h(cid:1189)ng các nhãn mà x có th(cid:1223) có.M(cid:1257)c (cid:255)ích
( f x
),.
c(cid:1259)a vi(cid:1227)c hu(cid:1193)n luy(cid:1227)n là thu (cid:255)(cid:1133)(cid:1255)c m(cid:1245)t hàm f: X· Y fi R sao cho v(cid:1247)i m(cid:1243)i v(cid:259)n b(cid:1191)n x,
65
nh(cid:1267)ng nhãn trong Y s(cid:1217)(cid:3)(cid:255)(cid:1133)(cid:1255)c s(cid:1203)p x(cid:1219)p theo th(cid:1261) t(cid:1269) . Nh(cid:1133) v(cid:1201)y, n(cid:1219)u
>
)
)
( f x l ,
( f x l , 1
2
thì 1l (cid:3)(cid:255)(cid:1133)(cid:1255)c xem là có th(cid:1261) h(cid:1189)ng (cid:1133)u tiên x(cid:1219)p lo(cid:1189)i cao h(cid:1131)n 2l . Thu(cid:1201)t
toán hu(cid:1193)n luy(cid:1227)n (cid:255)(cid:1133)(cid:1255)c xem là thành công n(cid:1219)u v(cid:1247)i m(cid:1243)i x có t(cid:1201)p nhãn t(cid:1133)(cid:1131)ng (cid:1261)ng là Y
thì thu(cid:1201)t toán s(cid:1217) x(cid:1219)p h(cid:1189)ng các nhãn trong Y cao h(cid:1131)n các nhãn không có trong Y
Thu(cid:1201)t toán AdaBoost MH phân lo(cid:1189)i v(cid:259)n b(cid:1191)n nhi(cid:1221)u l(cid:1247)p :
)
(
)
) ( ,
,...,
ix ˛
, x Y 1 1
, x Y 2 2
,m x Y m
Cho S là t(cid:1201)p m(cid:1199)u hu(cid:1193)n luy(cid:1227)n ( v(cid:1247)i X và iY ˝
· Y fi R,d(cid:1193)u c(cid:1259)a h(x, l) cho bi(cid:1219)t nhãn l(cid:3)(cid:255)(cid:1133)(cid:1255)c gán hay không gán cho x, còn giá tr(cid:1231) |
Y. (cid:1250) m(cid:1243)i b(cid:1133)(cid:1247)c th(cid:1269)c hi(cid:1227)n t, th(cid:1259) t(cid:1257)c WeakLearner s(cid:1217) ch(cid:1233)n m(cid:1245)t lu(cid:1201)t y(cid:1219)u h: X
h(x, l)| (cid:255)(cid:1133)(cid:1255)c xem là (cid:255)(cid:1245) tin c(cid:1201)y c(cid:1259)a d(cid:1269)(cid:3)(cid:255)oán
)
(
Thu(cid:1201)t toán AdaBoost MH phân lo(cid:1189)i v(cid:259)n b(cid:1191)n v(cid:1247)i nhi(cid:1221)u l(cid:1247)p [14]
) ( ,
,...,
x Y , 1 1
x Y , 2 2
ix ˛
=
D i l ( , )
) x Y , ,m m 1 mk
Y. Cho ( X và iY ˝
tD
• Kh(cid:1251)i t(cid:1189)o 1 • V(cid:1247)i m(cid:1243)i t =1,…, T
a ˛
)
(
)
[ ]
)
( exp -
t
( D i l , t
Y l h x l , i t
i
=
)
( D i l , + 1
t
Z
t
tZ (cid:255)(cid:1133)(cid:1255)c ch(cid:1233)n sao cho
1tD + là hàm phân ph(cid:1237)i
T
=
o Hu(cid:1193)n luy(cid:1227)n t(cid:1201)p h(cid:1233)c y(cid:1219)u s(cid:1265) d(cid:1257)ng o Ch(cid:1233)n m(cid:1245)t lu(cid:1201)t y(cid:1219)u th : X · Y fi R b(cid:1205)ng th(cid:1259) t(cid:1257)c WeakLearner o Ch(cid:1233)n t R o C(cid:1201)p nh(cid:1201)t a
)
H x ( )
( ( ) sign f x
,
( ) f x
= (cid:229)
( ) h x t
t
= 1
t
a Ra :
Hình 6-2 Mô t(cid:1191) thu(cid:1201)t toán AdaBoost MH phân lo(cid:1189)i v(cid:259)n b(cid:1191)n nhi(cid:1221)u l(cid:1247)p
m
)
[ ]
(
)
)
Z
( , exp -
= (cid:229)
t
t
( D i l t
Y l h x l , i t
i
= 1
i
l
a (cid:229) Lu(cid:1201)t y(cid:1219)u th (cid:255)(cid:1133)(cid:1255)c ch(cid:1233)n sao cho giá tr(cid:1231)
nh(cid:1235) nh(cid:1193)t
6.3 (cid:1260)ng d(cid:1257)ng AdaBoost trong phân lo(cid:1189)i email:
Bài toán chúng ta (cid:255)ang xét là phân lo(cid:1189)i email, (cid:1251)(cid:3)(cid:255)ây chúng ta ch(cid:1229) phân lo(cid:1189)i
email ho(cid:1211)c là lo(cid:1189)i spam ho(cid:1211)c là lo(cid:1189)i non-spam. Nh(cid:1133) v(cid:1201)y bài toán phân lo(cid:1189)i email là
66
tr(cid:1133)(cid:1249)ng h(cid:1255)p (cid:255)(cid:1211)c bi(cid:1227)t c(cid:1259)a phân lo(cid:1189)i v(cid:259)n b(cid:1191)n nhi(cid:1221)u l(cid:1247)p, khi m(cid:1243)i m(cid:1199)u hu(cid:1193)n luy(cid:1227)n ch(cid:1229)
nh(cid:1201)n m(cid:1245)t nhãn (cid:255)(cid:1131)n – thay vì m(cid:1245)t t(cid:1201)p nhãn. Khi (cid:255)ó phân lo(cid:1189)i email v(cid:1247)i hai l(cid:1247)p spam
và non-spam tr(cid:1251) thành bài tóan phân lo(cid:1189)i v(cid:259)n b(cid:1191)n nh(cid:1231) phân.
6.3.1 Thu(cid:1201)t toán AdaBoost.MH trong tru(cid:1249)ng h(cid:1255)p phân lo(cid:1189)i nh(cid:1231) phân
=
(
)
{ (
) ( ,
,...,
x
y
S
)
,
ix là các
x y (cid:3)(cid:255)ã (cid:255)(cid:1133)(cid:1255)c gán nhãn, i
i
x y , 2 2
,m
x y , 1 1
m
Xét bài toán hai l(cid:1247)p, m(cid:1199)u hu(cid:1193)n luy(cid:1227)n là t(cid:1201)p } ) g(cid:1239)m m b(cid:1245) (
iy ˛
m(cid:1199)u hu(cid:1193)n luy(cid:1227)n thu(cid:1245)c v(cid:1221) không gian m(cid:1199)u hu(cid:1193)n luy(cid:1227)n X và {-1, +1} là l(cid:1247)p
ix . M(cid:1257)c (cid:255)ích c(cid:1259)a vi(cid:1227)c h(cid:1233)c là có (cid:255)(cid:1133)(cid:1255)c m(cid:1245)t hàm H:
hay nhãn t(cid:1133)(cid:1131)ng (cid:1261)ng g(cid:1203)n v(cid:1247)i
X fi R, sao cho v(cid:1247)i m(cid:1243)i m(cid:1199)u x, d(cid:1193)u c(cid:1259)a H(x) cho bi(cid:1219)t l(cid:1247)p mà x thu(cid:1245)c v(cid:1221) (-1 hay
+1 ), và (cid:255)(cid:1245) l(cid:1247)n |H(x)| cho bi(cid:1219)t (cid:255)(cid:1245) tin c(cid:1201)y (cid:255)(cid:1133)(cid:1255)c d(cid:1269)(cid:3)(cid:255)oán. M(cid:1245)t hàm nh(cid:1133) th(cid:1219) có th(cid:1223)
dùng cho vi(cid:1227)c phân lo(cid:1189)i hay x(cid:1219)p lo(cid:1189)i các m(cid:1199)u ch(cid:1133)a g(cid:1211)p.
67
Mã gi(cid:1191) c(cid:1259)a AdaBoost.MH trong tr(cid:1133)(cid:1249)ng h(cid:1255)p phân lo(cid:1189)i nh(cid:1231) phân nh(cid:1133) sau:
{(
Th(cid:1259) t(cid:1257)c Adaboost
, i yx
i
m )} = i 1
Vào :S=
# S là t(cid:1201)p m(cid:1199)u hu(cid:1193)n luy(cid:1227)n
1D (Cho t(cid:1193)t c(cid:1191) i, 1 (cid:148) i (cid:148) m )
1D (i)= 1/m
# kh(cid:1251)i t(cid:1189)o hàm phân ph(cid:1237)i
L(cid:1211)p :v(cid:1247)i m(cid:1233)i t : t:=1 …T
tD
Hu(cid:1193)n luy(cid:1227)n t(cid:1201)p h(cid:1233)c y(cid:1219)u s(cid:1265) d(cid:1257)ng phân b(cid:1237)
Ch(cid:1233)n m(cid:1245)t lu(cid:1201)t y(cid:1219)u th :X fi R dùng th(cid:1259) t(cid:1257)c WeakLearner
t
˛ Ch(cid:1233)n a R,
tD ( cho t(cid:1193)t c(cid:1191) i, 1 (cid:148) i (cid:148) m )
C(cid:1201)p nh(cid:1201)t
( ) exp(
))
D i t
y h x ( i t
i
t
=
D i ( ) + 1 t
Z
t
a -
tZ (cid:3)(cid:255)(cid:1133)(cid:1255)c ch(cid:1233)n sao cho
1+tD là hàm
# tZ là h(cid:1227) s(cid:1237) chu(cid:1197)n hoá (
#phân ph(cid:1237)i
T
H(cid:1219)t l(cid:1211)p
=
)( xH
sign
)( xh t
t
t
= 1
(cid:246) (cid:230) a (cid:247) (cid:231) Ra: lu(cid:1201)t k(cid:1219)t h(cid:1255)p (cid:229) ł Ł
Hình 6-3 Mô t(cid:1191) thu(cid:1201)t toán AdaBoost.MH phân lo(cid:1189)i nh(cid:1231) phân
1D là nh(cid:1133) nhau, nh(cid:1133)ng thu(cid:1201)t toán boost c(cid:1201)p nh(cid:1201)t tr(cid:1233)ng
Ban (cid:255)(cid:1195)u các tr(cid:1233)ng s(cid:1237)
th (cid:255)(cid:1133)(cid:1255)c ch(cid:1233)n sao cho giá tr(cid:1231)
m
s(cid:1237)(cid:3)(cid:1251) m(cid:1243)i l(cid:1195)n t theo hàm m(cid:458), lu(cid:1201)t y(cid:1219)u
)
(
)
Z
( exp -
)
= (cid:229)
t
t
( ) D i t
y h x ( i t i
= 1
i
a (cid:3)(cid:255)(cid:1189)t c(cid:1269)c ti(cid:1223)u.
[
] ø =
1
f x ( )
Ø a p
Gi(cid:1247)i h(cid:1189)n l(cid:1243)i hu(cid:1193)n luy(cid:1227)n sai : T = (cid:229)
, th(cid:1219) thì H(x)=sign(f(x)), (cid:255)(cid:1211)t
n(cid:1219)u p
(cid:3)(cid:255)úng,
(cid:264)(cid:1211)t
h x ( ) t
t
t
= 1
º ß
[
] ø =
0
ng(cid:1133)(cid:1255)c l(cid:1189)i
68
p Ø º ß
Theo (Schapire &Singer 1998)[12] , gi(cid:1247)i h(cid:1189)n l(cid:1243)i hu(cid:1193)n luy(cid:1227)n sai c(cid:1259)a hàm H là :
|{ :
(
)}|
i H x i
y i
t
1 m
T Z t=1
=
Th(cid:1201)t v(cid:1201)y, vì
, b(cid:1205)ng qui n(cid:1189)p theo t ta có :
D 1
1 m
„ £ (cid:213)
a -
(
)
exp
)
t
t
y h x ( i i t
=
D i ( ) + 1 t
m
Z
(cid:229)
t
t
))i
i
=
(1)
f x exp(-y ( Z
m
(cid:213)
t
t
(cid:213)
[
y„
H x (
)
1
(có l(cid:1243)i x(cid:1191)y ra ) thì
và
(cid:49)(cid:1219)u
)i
i
H x ( i
] = y i
Ø ø „ º ß
) 0
exp(-y (
)) 1
y f x £ (
nên
i
i
i
f x i
=
‡
[
]
)
0
H x (
y=
(cid:49)(cid:1219)u
thì
)i
i
( H x i
y i
Nh(cid:1133) v(cid:1201)y luôn có (cid:255)(cid:1133)(cid:1255)c :
„ Ø ø º ß
[
]
)
exp(-y (
))
(2)
H x ( i
y i
f x i
i
(cid:46)(cid:1219)t h(cid:1255)p (1) và (2), ta có gi(cid:1247)i h(cid:1189)n trên c(cid:1259)a l(cid:1243)i sai :
Ø ø „ £ º ß
[
]
(
)
y
exp(-y (
))
i H x : i
i
f x i
i
1 m
1 m = 1 i
Ø ø „ £ (cid:229) º ß
=
Z D i 1( ) + T
t
i
t
Z
= (cid:213)
t
t
(cid:43)(cid:1227) qu(cid:1191) quan tr(cid:1233)ng c(cid:1259)a công th(cid:1261)c trên là : thay vì ph(cid:1191)i c(cid:1269)c ti(cid:1223)u l(cid:1243)i hu(cid:1193)n luy(cid:1227)n,
ta ch(cid:1229) c(cid:1195)n c(cid:1269)c ti(cid:1223)u gi(cid:1247)i h(cid:1189)n trên tZ trong m(cid:1243)i l(cid:1195)n th(cid:1269)c hi(cid:1227)n boost, ta có th(cid:1223) áp d(cid:1257)ng
(cid:230) (cid:246) (cid:229) (cid:213) (cid:231) (cid:247) Ł ł
gi(cid:1247)i h(cid:1189)n này ph(cid:1257)c v(cid:1257) cho vi(cid:1227)c ch(cid:1233)n giá tr(cid:1231)
và ch(cid:1233)n lu(cid:1201)t y(cid:1219)u th (cid:3)(cid:1251) m(cid:1243)i b(cid:1133)(cid:1247)c ch(cid:1189)y t
t
69
a
6.3.2 Ph(cid:1133)(cid:1131)ng pháp l(cid:1269)a ch(cid:1233)n lu(cid:1201)t y(cid:1219)u :
(cid:1250) m(cid:1243)i b(cid:1133)(cid:1247)c ch(cid:1189)y t, lu(cid:1201)t y(cid:1219)u (cid:255)(cid:1133)(cid:1255)c l(cid:1269)a ch(cid:1233)n sao cho l(cid:1243)i sai (cid:255)(cid:1133)(cid:1255)c c(cid:1269)c
ti(cid:1223)u, d(cid:1269)a vào gi(cid:1247)i h(cid:1189)n trên c(cid:1259)a l(cid:1243)i sai, thay vì ch(cid:1233)n th sao cho l(cid:1243)i hu(cid:1193)nluy(cid:1227)n
là nh(cid:1235) nh(cid:1193)t, ta ch(cid:1233)n th sao cho tZ là nh(cid:1235) nh(cid:1193)t
V(cid:1247)i m(cid:1243)i t(cid:1263) w,(cid:3)(cid:255)(cid:1231)nh ngh(cid:429)a w ˛ x t(cid:1133)(cid:1131)ng (cid:255)(cid:1133)(cid:1131)ng v(cid:1247)i w có trong v(cid:259)n b(cid:1191)n
h x = )
(
(
x
x
0c n(cid:1219)u w
1c n(cid:1219)u w
ˇ ˛ x.(cid:3)(cid:264)(cid:1231)nh ngh(cid:429)a lu(cid:1201)t y(cid:1219)u h nh(cid:1133) sau: h x = ) và
Theo (Schapire &Singer )[14], có ba ph(cid:1133)(cid:1131)ng pháp l(cid:1269)a ch(cid:1233)n lu(cid:1201)t y(cid:1219)u
v(cid:1247)i thu(cid:1201)t toán AdaBoost MH nh(cid:1133) sau:
6.3.2.1 AdaBoost.MH with discrete predictions :
{ } 0,1
j ˛
=
V(cid:1247)i cách th(cid:1269)c hi(cid:1227)n này , s(cid:1217) có giá tr(cid:1231) +1 ho(cid:1211)c -1, v(cid:1247)i m(cid:1245)t
{
} x w x
X
X
) ( jc tZ b(cid:1205)ng cách sau : } = x w x
:
:
0
1
ˇ ˛ lu(cid:1201)t w ta có th(cid:1223) c(cid:1269)c ti(cid:1223)u giá tr(cid:1231) { (cid:264)(cid:1211)t và
tD , ta có nh(cid:1267)ng giá tr(cid:1231) t(cid:1133)(cid:1131)ng (cid:1261)ng v(cid:1247)i
{ - +
j ˛
}0,1 {
b ˛
} 1, 1
V(cid:1247)i giá tr(cid:1231) phân ph(cid:1237)i hi(cid:1227)n t(cid:1189)i là
m
j
m(cid:1243)i và v(cid:1247)i m(cid:1243)i nh(cid:1133) sau:
=
X
b
W b
( ) D i t
x i
j
= y i
i
= 1
j
Ø ø Ø ø ˛ (cid:217) (cid:229) º ß º ß
tD c(cid:1259)a m(cid:1199)u hu(cid:1193)n luy(cid:1227)n
{ - +
(
)
bW là tr(cid:1233)ng s(cid:1237), (cid:1261)ng v(cid:1247)i phân ph(cid:1237)i ) { } 0,1
} 1, 1
( b b ˛
j ˛
Nh(cid:1133) v(cid:1201)y
jX
j
j
=
trong t(cid:1201)p .
- thu(cid:1245)c v(cid:1221) lo(cid:1189)i ) Thi(cid:1219)t l(cid:1201)p
( sign W W+
jc
j
=
-
|
|
j W W+
r t
}0,1 {
j
- (cid:264)(cid:1211)t (cid:229) - ˛
tZ , ta
(Schapire &Singer, 1998 )[12] ch(cid:1229) ra r(cid:1205)ng (cid:255)(cid:1223) c(cid:1269)c ti(cid:1223)u giá tr(cid:1231)
ch(cid:1233)n
=
ln
t
1 2
1 1
(cid:246)+ r t r t
70
(cid:230) a (cid:231) (cid:247) - Ł ł
2
=
1
r
tZ
- D(cid:1199)n (cid:255)(cid:1219)n
6.3.2.2 AdaBoost.MH with real -value predictions:
(
)
{ } 0,1
j ˛
jc
(
)
j ˛
{ } 0,1
Khác v(cid:1247)i thu(cid:1201)t toán AdaBoost v(cid:1263)a trình bày, (cid:1251)(cid:3)(cid:255)ây có
jc )
(
{ } 0,1
j ˛
có giá tri là giá tr(cid:1231) th(cid:1269)c ch(cid:1261) không nh(cid:1133) ph(cid:1133)(cid:1131)ng pháp v(cid:1263)a nói là
jc
tZ , giá tr(cid:1231)
+1 ho(cid:1211)c -1. (cid:264)(cid:1223) c(cid:1269)c ti(cid:1223)u giá tr(cid:1231) v(cid:1247)i m(cid:1243)i lu(cid:1201)t (cid:255)(cid:1133)(cid:1255)c
tính nh(cid:1133) sau:
tZ (cid:255)(cid:1189)t giá tr(cid:1231) c(cid:1269)c ti(cid:1223)u n(cid:1219)u ch(cid:1233)n
j
Theo (Schapire &Singer,1998) [12],
=
c
ln
j
j
1 2
W + W
j
(cid:230) (cid:246) (cid:231) (cid:247) - Ł ł
1
= , suy ra
2
j W W+
Z = t
t
{
j
}0,1
j
a Thi(cid:1219)t l(cid:1201)p (cid:229) - ˛
2
j W W+
tZ =
{
}0,1
j
là (cid:229) - Nh(cid:1133) v(cid:1201)y, lu(cid:1201)t y(cid:1219)u th (cid:3)(cid:255)(cid:1133)(cid:1255)c ch(cid:1233)n sao cho giá tr(cid:1231) ˛
a trong tr(cid:1133)(cid:1249)ng h(cid:1255)p này là 1 nh(cid:1235) nh(cid:1193)t, còn t
jW-
jW+ , )
(
{ } 0,1
j ˛
có th(cid:1223) r(cid:1193)t nh(cid:1235) hay b(cid:1205)ng 0,(cid:3)(cid:255)i(cid:1221)u này s(cid:1217) Tuy nhiên, các giá tr(cid:1231)
jc
d(cid:1199)n (cid:255)(cid:1219)n các giá tr(cid:1231) có giá tr(cid:1231) r(cid:1193)t l(cid:1247)n hay vô h(cid:1189)n.Trong th(cid:1269)c t(cid:1219)
(
)
j ˛
{ } 0,1
nh(cid:1267)ng giá tr(cid:1231) này có th(cid:1223) gây ra các v(cid:1193)n (cid:255)(cid:1221) ph(cid:1261)c t(cid:1189)p trong tính toán, gây tràn
jc
(
)
j ˛
{ } 0,1
s(cid:1237). Theo (Schapire &Singer)[14](cid:255)(cid:1223) gi(cid:1247)i h(cid:1189)n các giá tr(cid:1231) không
jc
j
quá l(cid:1247)n, s(cid:1217)(cid:3)(cid:255)(cid:1133)(cid:1255)c tính nh(cid:1133) sau :
=
c
ln
j
j
(cid:246)+ +
1 2
W + W
e =
(cid:230) e (cid:231) (cid:247) e - Ł ł
1 m
71
V(cid:1247)i
6.3.2.3 AdaBoost.MH with real -value predictions and abstainings
Thu(cid:1201)t toán AdaBoost v(cid:1247)i giá tr(cid:1231) d(cid:1269)(cid:3)(cid:255)oán th(cid:1269)c (AdaBoost.MH with
real -value predictions) gán m(cid:1245)t giá tr(cid:1231) bi(cid:1223)u th(cid:1231)(cid:3)(cid:255)(cid:1245) tin c(cid:1201)y trong c(cid:1191) hai
tr(cid:1133)(cid:1249)ng h(cid:1255)p lu(cid:1201)t xu(cid:1193)t hi(cid:1227)n hay không. Nh(cid:1133) v(cid:1201)y nó ng(cid:1195)m cho r(cid:1205)ng m(cid:1245)t lu(cid:1201)t
không tho(cid:1191) trong v(cid:259)n b(cid:1191)n c(cid:458)ng ch(cid:1261)a (cid:255)(cid:1269)ng thông tin v(cid:1221) lo(cid:1189)i c(cid:1259)a v(cid:259)n b(cid:1191)n
(cid:255)ó.Ta có th(cid:1223) lo(cid:1189)i b(cid:1235) gi(cid:1191) thi(cid:1219)t này và ép lu(cid:1201)t y(cid:1219)u không nh(cid:1201)n giá tr(cid:1231) gì khi
lu(cid:1201)t không tho(cid:1191) v(cid:259)n b(cid:1191)n.(cid:3)(cid:264)i(cid:1221)u này (cid:255)(cid:1133)(cid:1255)c th(cid:1269)c hi(cid:1227)n m(cid:1245)t cách (cid:255)(cid:1131)n gi(cid:1191)n ch(cid:1229)
b(cid:1205)ng cách gán cho m(cid:1243)i lu(cid:1201)t y(cid:1219)u giá tr(cid:1231)(cid:3)(cid:255)(cid:1245) tin c(cid:1201)y là 0 n(cid:1219)u không tho(cid:1191) v(cid:259)n
b(cid:1191)n.
V(cid:1247)i m(cid:1245)t lu(cid:1201)t h, thu(cid:1201)t toán s(cid:1217) cho giá tr(cid:1231) d(cid:1269)(cid:3)(cid:255)oán 1c v(cid:1247)i nh(cid:1267)ng v(cid:259)n
0c s(cid:1217) có giá tr(cid:1231) là 0.Do (cid:255)ó, lu(cid:1201)t h s(cid:1217) không có tác d(cid:1257)ng gì (cid:255)(cid:1219)n vi(cid:1227)c phân lo(cid:1189)i
b(cid:1191)n ((cid:1251)(cid:3)(cid:255)ây là email ) tho(cid:1191) lu(cid:1201)t h, v(cid:1247)i các v(cid:259)n b(cid:1191)n còn l(cid:1189)i, giá tr(cid:1231) d(cid:1269)(cid:3)(cid:255)oán
=
n(cid:1219)u v(cid:259)n b(cid:1191)n không th(cid:1235)a.
1
t
a Thi(cid:1219)t l(cid:1201)p
= (cid:229)
D i ( ) t
W 0
i x X , i
0
Xem là tr(cid:1233)ng s(cid:1237) c(cid:1259)a t(cid:1193)t c(cid:1191) các v(cid:259)n b(cid:1191)n không tho(cid:1191) h ˛
j
+ (cid:229) 2
j W W+
Theo (Schapire &Singer, 1998 )[12].thì
= Z W 0
t
{ } 0,1
j
j
- ˛
j W W+
t
= Z W 0
j
{ } 0,1
nh(cid:1235) nh(cid:1193)t M(cid:1245)t (cid:1133)u (cid:255)i(cid:1223)m c(cid:1259)a ph(cid:1133)(cid:1131)ng pháp này so v(cid:1247)i Nh(cid:1133) v(cid:1201)y (cid:1251) m(cid:1243)i b(cid:1133)(cid:1247)c ch(cid:1189)y t, lu(cid:1201)t y(cid:1219)u (cid:255)(cid:1133)(cid:1255)c ch(cid:1233)n sao cho + (cid:229) 2 - ˛
cách th(cid:1269)c hi(cid:1227)n tr(cid:1133)(cid:1247)c là c(cid:1191)i thi(cid:1227)n t(cid:1237)c (cid:255)(cid:1245) th(cid:1269)c hi(cid:1227)n, th(cid:1269)c t(cid:1219) t(cid:1237)c (cid:255)(cid:1245) th(cid:1269)c hi(cid:1227)n
c(cid:1259)a ph(cid:1133)(cid:1131)ng pháp này nhanh h(cid:1131)n 15% so v(cid:1247)i ph(cid:1133)(cid:1131)ng pháp th(cid:1269)c hi(cid:1227)n theo
72
thu(cid:1201)t toán. AdaBoost.MH with real -value predictions.
Ch(cid:1133)(cid:1131)ng 7 : TH(cid:1268)C HI(cid:1226)N VÀ KI(cid:1222)M TH(cid:1264)
PHÂN LO(cid:1188)I EMAIL D(cid:1268)A TRÊN PH(cid:1132)(cid:1130)NG
PHÁP ADABOOST
73
7.1 Cài (cid:255)(cid:1211)t b(cid:1245) phân lo(cid:1189)i email d(cid:1269)a trên ph(cid:1133)(cid:1131)ng pháp
AdaBoost:
Chúng tôi ti(cid:1219)n hành cài (cid:255)(cid:1211)t b(cid:1245) phân lo(cid:1189)i email d(cid:1269)a trên thu(cid:1201)t toán AdaBoost
v(cid:1247)i ba cách
(cid:216) Cách 1 : cài (cid:255)(cid:1211)t theo thu(cid:1201)t toán AdaBoost MH With Discrete Value
Prediction
(cid:216) Cách 2: cài (cid:255)(cid:1211)t theo thu(cid:1201)t toán AdaBoost MH With Real Value
Prediction
Sau khi th(cid:1269)c hi(cid:1227)n, chúng tôi l(cid:1133)u l(cid:1189)i T lu(cid:1201)t (cid:255)ã (cid:255)(cid:1133)(cid:1255)c ch(cid:1233)n (cid:255)(cid:1223) phân lo(cid:1189)i cho các
m(cid:1199)u m(cid:1247)i
Chúng tôi xây d(cid:1269)ng m(cid:1245)t c(cid:1193)u trúc d(cid:1267) li(cid:1227)u lu(cid:1201)t nh(cid:1133) sau :
Struct rule
{
Token :chu(cid:1243)i //l(cid:1133)u token
0c :s(cid:1237) th(cid:1269)c
//giá tr(cid:1231) c(cid:1259)a lu(cid:1201)t khi token không có trong
//email (cid:255)(cid:1133)(cid:1233)c xét
1c :s(cid:1237) th(cid:1269)c
// giá tr(cid:1231) c(cid:1259)a lu(cid:1201)t khi token có trong email
//(cid:255)(cid:1133)(cid:1233)c xét
}
7.1.1 T(cid:1201)p hu(cid:1193)n luy(cid:1227)n m(cid:1199)u và t(cid:1201)p nhãn :
T(cid:1201)p hu(cid:1193)n luy(cid:1227)n m(cid:1199)u chính là các email spam và email non-spam (cid:255)(cid:1133)(cid:1255)c
dung (cid:255)(cid:1223) hu(cid:1193)n luy(cid:1227)n, t(cid:1201)p nhãn là Y={-1,+1}, (cid:1251)(cid:3)(cid:255)ây chúng tôi qui (cid:255)(cid:1231)nh -1 là spam
74
và +1 là non-spam
7.1.2 Xây d(cid:1269)ng t(cid:1201)p lu(cid:1201)t y(cid:1219)u ban (cid:255)(cid:1195)u :
V(cid:1247)i m(cid:1243)i token8 w , (cid:255)(cid:1231)nh ngh(cid:429)a w ˛ x t(cid:1133)(cid:1131)ng (cid:255)(cid:1133)(cid:1131)ng v(cid:1247)i w có trong email
(
h x (
)
c=
x
1
0c n(cid:1219)u w
ˇ ˛ x.(cid:264)(cid:1231)nh ngh(cid:429)a lu(cid:1201)t y(cid:1219)u h nh(cid:1133) sau: h x = ) và n(cid:1219)u w x
Chúng tôi ti(cid:1219)n hành cài (cid:255)(cid:1211)t th(cid:1265) nghi(cid:1227)m thu(cid:1201)t toán AdaBoost v(cid:1247)i hai cách
0c và 1c khác nhau,
khác nhau, do (cid:255)ó t(cid:1133)(cid:1131)ng (cid:1261)ng v(cid:1247)i m(cid:1243)i cách, cách l(cid:1193)y giá tr(cid:1231)
0c ,
1c mà h(x) có th(cid:1223) nh(cid:1201)n (cid:255)(cid:1133)(cid:1255)c tính nh(cid:1133)(cid:3)(cid:255)ã nói (cid:1251) các m(cid:1257)c 6.3.2.1 và
các giá tr(cid:1231)
m(cid:1257)c 6.3.2.2.
S(cid:1237) l(cid:1133)(cid:1255)ng c(cid:1259)a t(cid:1201)p lu(cid:1201)t y(cid:1219)u (cid:255)(cid:1133)(cid:1255)c dùng (cid:255)(cid:1223) hu(cid:1193)n luy(cid:1227)n theo nguyên t(cid:1203)c là
không h(cid:1189)n ch(cid:1219), nh(cid:1133) v(cid:1201)y chúng ta có th(cid:1223) l(cid:1193)y t(cid:1193)t c(cid:1191) các token trong t(cid:1201)p h(cid:1233)c. Tuy
nhiên, chúng tôi nh(cid:1201)n th(cid:1193)y (cid:255)(cid:1223) l(cid:1193)y h(cid:1219)t t(cid:1193)t c(cid:1191) các token thì r(cid:1193)t m(cid:1193)t th(cid:1249)i gian và t(cid:1237)c
(cid:255)(cid:1245) hu(cid:1193)n luy(cid:1227)n c(cid:458)ng ch(cid:1201)m (cid:255)i, vì th(cid:1219) chúng tôi ch(cid:1229) ch(cid:1233)n ra m(cid:1245)t s(cid:1237) các token tho(cid:1191)
mãn m(cid:1245)t tiêu chí nào (cid:255)ó (cid:255)(cid:1223) xây d(cid:1269)ng lu(cid:1201)t y(cid:1219)u. M(cid:1243)i lu(cid:1201)t y(cid:1219)u (cid:255)(cid:1133)(cid:1255)c ch(cid:1233)n nh(cid:1133) sau
:chúng tôi duy(cid:1227)t qua t(cid:1193)t c(cid:1191) các m(cid:1199)u h(cid:1233)c, tính s(cid:1237) l(cid:1195)n xu(cid:1193)t hi(cid:1227)n c(cid:1259)a m(cid:1243)i token,
nh(cid:1267)ng token có s(cid:1237) l(cid:1195)n xu(cid:1193)t hi(cid:1227)n l(cid:1247)n h(cid:1131)n m(cid:1245)t giá tr(cid:1231) ng(cid:1133)(cid:1253)ng nào (cid:255)ó ((cid:255)(cid:1133)(cid:1255)c qui
(cid:255)(cid:1231)nh ) s(cid:1217)(cid:3)(cid:255)(cid:1133)(cid:1255)c l(cid:1269)a ch(cid:1233)n, vi(cid:1227)c l(cid:1269)a ch(cid:1233)n ng(cid:1133)(cid:1253)ng (cid:255)(cid:1223) quy(cid:1219)t (cid:255)(cid:1231)nh lu(cid:1201)t có (cid:255)(cid:1133)(cid:1255)c ch(cid:1233)n
hay không tu(cid:484) thu(cid:1245)c vào kho ng(cid:1267) li(cid:1227)u h(cid:1233)c. Chúng tôi chia thành hai t(cid:1201)p riêng,
m(cid:1245)t t(cid:1201)p g(cid:1239)m các token xu(cid:1193)t hi(cid:1227)n trong các email spam, t(cid:1201)p kia g(cid:1239)m các token
xu(cid:1193)t hi(cid:1227)n trong email non-spam.Cách xây d(cid:1269)ng t(cid:1201)p lu(cid:1201)t y(cid:1219)u nh(cid:1133) v(cid:1201)y làm gi(cid:1191)m
(cid:255)áng k(cid:1223) s(cid:1237) lu(cid:1201)t c(cid:1195)n xét Khi hu(cid:1193)n luy(cid:1227)n, chúng tôi s(cid:1217) quy(cid:1219)t (cid:255)(cid:1231)nh s(cid:1237) l(cid:1133)(cid:1255)ng các
lu(cid:1201)t y(cid:1219)u c(cid:1195)n ch(cid:1233)n, khi (cid:255)ó chúng tôi s(cid:1217) ch(cid:1233)n t(cid:1201)p lu(cid:1201)t y(cid:1219)u b(cid:1205)ng cách l(cid:1195)n l(cid:1133)(cid:1255)t ch(cid:1233)n
m(cid:1245)t token ch(cid:1133)a có trong t(cid:1201)p (cid:255)(cid:1133)(cid:1255)c ch(cid:1233)n t(cid:1263) t(cid:1201)p các token spam, r(cid:1239)i l(cid:1189)i ch(cid:1233)n m(cid:1245)t
token ch(cid:1133)a có trong t(cid:1201)p (cid:255)(cid:1133)(cid:1255)c ch(cid:1233)n t(cid:1263) t(cid:1201)p các token non-spam cho (cid:255)(cid:1219)n khi (cid:255)(cid:1259) s(cid:1237)
(cid:79)(cid:1133)(cid:1255)ng yêu c(cid:1195)u
(cid:264)(cid:1223) th(cid:1269)c hi(cid:1227)n vi(cid:1227)c duy(cid:1227)t các token và tìm ki(cid:1219)m m(cid:1245)t token v(cid:1247)i t(cid:1237)c (cid:255)(cid:1245)
8 Xem (cid:255)(cid:1231)nh ngh(cid:429)a token (cid:1251) m(cid:1257)c 5.1.1
75
nhanh, t(cid:1133)(cid:1131)ng t(cid:1269) nh(cid:1133) th(cid:1269)c hi(cid:1227)n thu(cid:1201)t toán hu(cid:1193)n luy(cid:1227)n Naïve Bayesian chúng tôi
c(cid:458)ng xây d(cid:1269)ng b(cid:1191)ng b(cid:259)m t(cid:1133)(cid:1131)ng t(cid:1269) nh(cid:1133) b(cid:1191)ng b(cid:259)m (cid:255)ã (cid:255)(cid:1133)(cid:1255)c s(cid:1265) d(cid:1257)ng (cid:1251) cách th(cid:1269)c
hi(cid:1227)n theo ph(cid:1133)(cid:1131)ng pháp Naïve Bayesian.
7.1.3 Th(cid:1259) t(cid:1257)c WeakLearner ch(cid:1233)n lu(cid:1201)t y(cid:1219)u:
Th(cid:1259) t(cid:1257)c WeakLearner (cid:255)(cid:1133)(cid:1255)c xây d(cid:1269)ng nh(cid:1205)m tìm lu(cid:1201)t y(cid:1219)u th nh(cid:1133) sau :
t
a (cid:3)(cid:255)ã ch(cid:1233)n lu(cid:1201)t y(cid:1219)u th (cid:1251) b(cid:1133)(cid:1247)c ch(cid:1189)y t sao cho tZ nh(cid:1235) nh(cid:1193)t, cách ch(cid:1233)n tZ và
(cid:255)(cid:1133)(cid:1255)c (cid:255)(cid:1221) c(cid:1201)p (cid:1251) các m(cid:1257)c 6.3.2.1 và 6.3.2.2
7.1.4 Phân lo(cid:1189)i email :
Khi nh(cid:1201)n (cid:255)(cid:1133)(cid:1255)c m(cid:1245)t email x, chúng tôi s(cid:1217) ti(cid:1219)n hành so kh(cid:1247)p các lu(cid:1201)t t(cid:1263)
kho ng(cid:1267) li(cid:1227)u các lu(cid:1201)t (cid:255)(cid:1133)(cid:1255)c ch(cid:1233)n sau quá trình hu(cid:1193)n luy(cid:1227)n , t(cid:1263)(cid:3)(cid:255)ó tính giá tr(cid:1231) f(x),
n(cid:1219)u f(x) >0 (cùng d(cid:1193)u v(cid:1247)i +1 ) chúng tôi cho email (cid:255)ó là non-spam, ng(cid:1133)(cid:1255)c l(cid:1189)i
(cùng d(cid:1193)u v(cid:1247)i -1 ) chúng tôi cho email (cid:255)ó là spam.
7.2 Th(cid:1265) nghi(cid:1227)m hi(cid:1227)u qu(cid:1191) phân lo(cid:1189)i :
7.2.1 Th(cid:1265) nghi(cid:1227)m v(cid:1247)i kho ng(cid:1267) li(cid:1227)u pu:
7.2.1.1 K(cid:1231)ch b(cid:1191)n ki(cid:1223)m th(cid:1265):
Vói m(cid:1243)i phiên b(cid:1191)n AdaBoost (cid:255)ã cài (cid:255)(cid:1211)t, chúng tôi ch(cid:1233)n t(cid:1201)p lu(cid:1201)t y(cid:1219)u
v(cid:1247)i s(cid:1237) l(cid:1133)(cid:1255)ng là 2500 lu(cid:1201)t, nh(cid:1267)ng lu(cid:1201)t (cid:255)(cid:1133)(cid:1255)c xem là (cid:1261)ng c(cid:1265) viên n(cid:1219)u s(cid:1237) l(cid:1195)n
xu(cid:1193)t hi(cid:1227)n c(cid:1259)a token l(cid:1247)n h(cid:1131)n hay b(cid:1205)ng 10 l(cid:1195)n. N(cid:1219)u s(cid:1237) lu(cid:1201)t y(cid:1219)u ban (cid:255)(cid:1195)u
không (cid:255)(cid:1259) 2500, chúng tôi s(cid:1217) l(cid:1193)y t(cid:1193)t c(cid:1191) s(cid:1237) s(cid:1209)n có.Chúng tôi th(cid:1265) nghi(cid:1227)m v(cid:1247)i
T l(cid:1195)n l(cid:1133)(cid:1255)t là 5, 10, 50, 100, 200 và 500.
Chúng tôi l(cid:1195)n l(cid:1133)(cid:1255)t ki(cid:1223)m th(cid:1265) v(cid:1247)i các pu, v(cid:1247)i m(cid:1243)i pu, chúng tôi cho h(cid:1233)c
t(cid:1263) part 1-(cid:3)(cid:255)(cid:1219)n part 9.(cid:3)(cid:264)(cid:1237)i v(cid:1247)i vi(cid:1227)c ki(cid:1223)m th(cid:1265) chúng tôi ki(cid:1223)m th(cid:1265) trên kho
ng(cid:1267) li(cid:1227)u ch(cid:1133)a (cid:255)(cid:1133)(cid:1255)c hu(cid:1193)n luy(cid:1227)n là part 10 c(cid:1259)a m(cid:1243)i pu
7.2.1.2 K(cid:1219)t qu(cid:1191) ki(cid:1223)m th(cid:1265):
Chúng tôi trình bày k(cid:1219)t qu(cid:1191) ki(cid:1223)m th(cid:1265) v(cid:1247)i T=500, v(cid:1221) chi ti(cid:1219)t k(cid:1219)t qu(cid:1191)
76
ki(cid:1223)m th(cid:1265), xem ph(cid:1195)n ph(cid:1257) l(cid:1257)c
v K(cid:1219)t qu(cid:1191) th(cid:1269)c hi(cid:1227)n ki(cid:1223)m th(cid:1265) v(cid:1247)i thu(cid:1201)t toán ADaBoost with real value
Ng(cid:1267) li(cid:1227)u(cid:54)(cid:1237) email h(cid:1233)c S(cid:1237) email ki(cid:1223)m th(cid:1265)S->SS->NN->NN->SSR
SP
SpamNon-spamSpam Non-spam 61
549
432
PU1
PU2
126
513
57
PU3
1638
2079
PUA
513
513
57
48 432 14 126 182 1638 57 513
48 549 432 12 513 126 231 176 20791638 56 513 513
0 58 0 549 2 56 0 513 6 216 0 2079 1 38 0 513
3100.00% 94.12% 0100.00%100.00% 1 85.71% 92.31% 0100.00%100.00% 15 96.70% 92.15% 0100.00%100.00% 19 98.25% 74.67% 0100.00%100.00%
predictions
(cid:37)(cid:1191)ng 7-1 K(cid:1219)t qu(cid:1191) th(cid:1265) nghi(cid:1227)m phân lo(cid:1189)i email v(cid:1247)i ng(cid:1267) li(cid:1227)u s(cid:1237) PU b(cid:1205)ng thu(cid:1201)t toán AdaBoost with real -value predictions
v K(cid:1219)t qu(cid:1191) th(cid:1269)c hi(cid:1227)n ki(cid:1223)m th(cid:1265) v(cid:1247)i thu(cid:1201)t toán ADaBoost with discrete
Ng(cid:1267) li(cid:1227)u(cid:54)(cid:1237) email h(cid:1233)c S(cid:1237) email ki(cid:1223)m th(cid:1265)S->SS->NN->NN->SSR
SP
SpamNon-spamSpam Non-spam
PU1
432
549
48
61
46
2
57
4 95.83% 92.00%
432
549 432
0 549
0100.00%100.00%
14
PU2
126
513
57
13
1
57
0 92.86%100.00%
126
513 126
0 513
0100.00%100.00%
PUA
513
57
57
53
4
45
12 92.98% 81.54%
513
513
513
513 513
0 513
0100.00%100.00%
513
PU3
1638
2079
182
231 173
9 216
15 95.05% 92.02%
1638
20791624 14 2074
5 99.15% 99.69%
predictions
(cid:37)(cid:1191)ng 7-2 K(cid:1219)t qu(cid:1191) th(cid:1265) nghi(cid:1227)m phân lo(cid:1189)i email v(cid:1247)i ng(cid:1267) li(cid:1227)u s(cid:1237) PU b(cid:1205)ng thu(cid:1201)t toán AdaBoost with discrete predictions
Nh(cid:1201)n xét : theo Schapire & Singer [14], hi(cid:1227)u qu(cid:1191) phân lo(cid:1189)i c(cid:1259)a thu(cid:1201)t
toán AdaBoost with real value predictions cao h(cid:1131)n c(cid:1259)a thu(cid:1201)t toán AdaBoost
with discrete predictions, tuy nhiên (cid:1251)(cid:3)(cid:255)ây ta th(cid:1193)y (cid:255)(cid:76)(cid:1221)u (cid:255)ó không rõ r(cid:1227)t.
Hi(cid:1227)u qu(cid:1191) phân lo(cid:1189)i c(cid:1259)a c(cid:1191) hai thu(cid:1201)t toán trên các kho ng(cid:1267) li(cid:1227)u là khá cao.
V(cid:1247)i thu(cid:1201)t toán AdaBoost, l(cid:1243)i phân lo(cid:1189)i sai trên các kho ng(cid:1267) li(cid:1227)u (cid:255)ã hu(cid:1193)n
77
luy(cid:1227)n s(cid:1217) ngày càng gi(cid:1191)m khi T ngày càng t(cid:259)ng, t(cid:1133)(cid:1131)ng (cid:1261)ng vói các ch(cid:1229) s(cid:1237)
spam recall và spam precision ngày càng t(cid:259)ng, d(cid:1133)(cid:1247)i (cid:255)ây là bi(cid:1223)u (cid:255)(cid:1239) th(cid:1223) hi(cid:1227)n
(cid:255)i(cid:1221)u (cid:255)ó
%
120.00%
100.00%
80.00%
60.00%
40.00%
20.00%
SR SP
T
0.00%
1
33
65
97 129 161 193 225 257 289 321 353 385 417 449 481
Hình 7-1 (cid:264)(cid:1239) th(cid:1231) bi(cid:1223)u di(cid:1225)n s(cid:1269) bi(cid:1219)n thiên c(cid:1259)a spam recall (SR) và spam precision (SP) theo T
(thu(cid:1201)t tóan AdaBoost.MH with discrete predictions)
% 120.00%
100.00%
80.00%
60.00%
40.00%
SR
20.00%
SP
T
0.00%
1
31 61 91 121 151 181 211 241 271 301 331 361 391 421 451 481
Hình 7-2 (cid:264)(cid:1239) th(cid:1231) bi(cid:1223)u di(cid:1225)n s(cid:1269) bi(cid:1219)n thiên c(cid:1259)a spam recall (SR) và spam precision (SP) theo T
(thu(cid:1201)t tóan AdaBoost MH with real value predictions )
78
7.2.2 Th(cid:1265) nghi(cid:1227)m v(cid:1247)i kho ng(cid:1267) li(cid:1227)u email ch(cid:1267):
7.2.2.1 K(cid:1231)ch b(cid:1191)n ki(cid:1223)m th(cid:1265):
Chúng tôi th(cid:1265) nghi(cid:1227)m hai thu(cid:1201)t toán AdaBoost (cid:255)ã cài (cid:255)(cid:1211)t v(cid:1247)i T (cid:255)(cid:1133)(cid:1255)c ch(cid:1233)n
l(cid:1195)n l(cid:1133)(cid:1255)t là 5, 10, 50, 100, 200, và 500.
7.2.2.2 K(cid:1219)t qu(cid:1191) ki(cid:1223)m th(cid:1265):
Ng(cid:1267) li(cid:1227)u email v(cid:259)n b(cid:1191)n tr(cid:1131)n, s(cid:1237) email ki(cid:1223)m th(cid:1265) : Spam =98, non-
spam=100
Ng(cid:1267) li(cid:1227)u email html, s(cid:1237) email ki(cid:1223)m th(cid:1265) :Spam =50, non-spam=50
v K(cid:1219)t qu(cid:1191) th(cid:1269)c hi(cid:1227)n ki(cid:1223)m th(cid:1265) v(cid:1247)i thu(cid:1201)t toán ADaBoost with real value
Ng(cid:1267) li(cid:1227)u HTML
T=5 48 2 49 1
T=50 49 1 49 1
T=10 48 2 49 1
T=200 49 1 49 1
T=100 49 1 49 1
TEXT
84 14 98 2
93 5 97 3
98 0 99 1
98 0 98 2
98 0 99 1
T=500 49 1 49 1 96.00% 96.00% 98.00% 98.00% 98.00% 98.00% 97.96% 97.96% 98.00% 98.00% 98.00% 98.00% 98 0 99 1 85.71% 94.90% 100.00% 100.00% 100.00% 100.00% 97.67% 96.88% 98.00% 98.99% 98.99% 98.99%
S(cid:224)S S(cid:224)N N(cid:224)N N(cid:224)S SR SP S(cid:224)S S(cid:224)N N(cid:224)N N(cid:224)S SR SP
predictions
(cid:37)(cid:1191)ng 7-3 k(cid:1219)t qu(cid:1191) th(cid:1265) nghi(cid:1227)m phân lo(cid:1189)i email v(cid:1247)i ng(cid:1267) li(cid:1227)u email ch(cid:1267) b(cid:1205)ng thu(cid:1201)t toán AdaBoost with real-value predictions
v K(cid:1219)t qu(cid:1191) th(cid:1269)c hi(cid:1227)n ki(cid:1223)m th(cid:1265) v(cid:1247)i thu(cid:1201)t toán ADaBoost with discrete
Ng(cid:1267) li(cid:1227)u HTML
T=5 48 2 49 1
T=10 49 1 49 1
T=100 50 0 49 1
T=200 50 0 49 1
T=50 50 0 49 1
S(cid:224)S S(cid:224)N N(cid:224)N N(cid:224)S SR SP
T=500 50 0 49 1 96.00% 98.00% 100.00% 100.00% 100.00% 100.00% 97.96% 98.00% 98.04% 98.04% 98.04% 98.04%
79
predictions
TEXT
91 7 98 2
91 7 98 2
97 1 98 2
95 3 98 2
96 2 99 1
S(cid:224)S S(cid:224)N N(cid:224)N N(cid:224)S SR SP
97 1 99 1 92.86% 92.86% 96.94% 98.98% 97.96% 98.98% 97.85% 97.85% 97.94% 97.98% 98.97% 98.98%
(cid:37)(cid:1191)ng 7-4 K(cid:1219)t qu(cid:1191) th(cid:1265) nghi(cid:1227)m phân lo(cid:1189)i email v(cid:1247)i ng(cid:1267) li(cid:1227)u email ch(cid:1267) b(cid:1205)ng thu(cid:1201)t toán AdaBoost with discrete predictions
Nh(cid:1201)n xét : hi(cid:1227)u qu(cid:1191) phân lo(cid:1189)i trên ng(cid:1267) li(cid:1227)u email là ch(cid:1267) c(cid:1259)a thu(cid:1201)t
toán AdaBoost khá t(cid:1237)t, so v(cid:1247)i ph(cid:1133)(cid:1131)ng pháp phân lo(cid:1189)i Naïve Bayesian thì
ADaBoost phân lo(cid:1189)i email html t(cid:1237)t h(cid:1131)n, hi(cid:1227)u qu(cid:1191) phân lo(cid:1189)i trên email là
(cid:89)(cid:259)n b(cid:1191)n tr(cid:1131)n c(cid:458)ng t(cid:1133)(cid:1131)ng (cid:255)(cid:1133)(cid:1131)ng v(cid:1247)i Naïve Bayesian.
7.3 (cid:1132)u (cid:177) nh(cid:1133)(cid:1255)c (cid:255)(cid:76)(cid:1223)m c(cid:1259)a ph(cid:1133)(cid:1131)ng pháp phân lo(cid:1189)i AdaBoost:
7.3.1 (cid:1132)u (cid:255)(cid:76)(cid:1223)m : • M(cid:1245)t (cid:1133)u (cid:255)i(cid:1223)m c(cid:1259)a AdaBoost gi(cid:1237)ng v(cid:1247)i ph(cid:1133)(cid:1131)ng pháp phân lo(cid:1189)i Naïve
Bayes là nó cho phép h(cid:1233)c c(cid:1201)p nh(cid:1201)t, ngh(cid:429)a là khi m(cid:1245)t email spam v(cid:1133)(cid:1255)t qua
(cid:255)(cid:1133)(cid:1255)c b(cid:1245) l(cid:1233)c thì ng(cid:1133)òi dung có th(cid:1223)(cid:3)(cid:255)ánh d(cid:1193)u email (cid:255)ó là spam và hu(cid:1193)n
luy(cid:1227)n l(cid:1189)i b(cid:1245) l(cid:1233)c
• Hi(cid:1227)u qu(cid:1191) phân lo(cid:1189)i là khá cao • Vi(cid:1227)c l(cid:1133)u tr(cid:1267) t(cid:1201)p lu(cid:1201)t (cid:255)ã qua hu(cid:1193)n luy(cid:1227)n khá g(cid:1233)n nh(cid:1213), trong khi (cid:255)ó v(cid:1247)i
ph(cid:1133)(cid:1131)ng pháp phân lo(cid:1189)i Naïve Bayes thì d(cid:1267) li(cid:1227)u sau khi h(cid:1233)c là khá l(cid:1247)n n.
V(cid:1247)i ph(cid:1133)(cid:1131)ng pháp phân lo(cid:1189)i Naïve Bayesian, d(cid:1267) li(cid:1227)u hu(cid:1193)n luy(cid:1227)n s(cid:1217) phình
to sau m(cid:1243)i l(cid:1195)n hu(cid:1193)n luy(cid:1227)n c(cid:1201)p nh(cid:1201)t thêm, (cid:255)i(cid:1221)u này v(cid:1247)i cách th(cid:1269)c hi(cid:1227)n theo
ph(cid:1133)(cid:1131)ng pháp AdaBoost là không (cid:255)áng k(cid:1223).
7.3.2 Khuy(cid:1219)t (cid:255)(cid:76)(cid:1223)m : • C(cid:458)ng gi(cid:1237)ng nh(cid:1133) các ph(cid:1133)(cid:1131)ng pháp máy h(cid:1233)c c(cid:1259)a ph(cid:1133)(cid:1131)ng pháp phân lo(cid:1189)i
d(cid:1269)a trên thu(cid:1201)t toán AdaBoost chính là vi(cid:1227)c ph(cid:1191)i hu(cid:1193)n luy(cid:1227)n cho nó, vi(cid:1227)c
hu(cid:1193)n luy(cid:1227)n hi(cid:1227)u qu(cid:1191) hay không còn ph(cid:1191)i ph(cid:1257) thu(cid:1245)c vào kho ng(cid:1267) li(cid:1227)u
80
hu(cid:1193)n luy(cid:1227)n ban (cid:255)(cid:1195)u
• Khuy(cid:1219)t (cid:255)(cid:76)(cid:1223)m th(cid:1261) hai là th(cid:1249)i gian hu(cid:1193)n luy(cid:1227)n, so v(cid:1247)i Naïve Bayesian,(cid:3)(cid:255)(cid:1223)
hu(cid:1193)n luy(cid:1227)n cùng m(cid:1245)t kho ng(cid:1267) li(cid:1227)u thì ph(cid:1133)(cid:1131)ng pháp AdaBoost c(cid:1195)n th(cid:1249)i
gian lâu h(cid:1131)n r(cid:1193)t nhi(cid:1221)u, theo chúng tôi nh(cid:1201)n th(cid:1193)y thì s(cid:1269) chênh l(cid:1227)ch (cid:1193)y khá
81
l(cid:1247)n.
Ch(cid:1133)(cid:1131)ng 8 : XÂY D(cid:1268)NG CH(cid:1132)(cid:1130)NG TRÌNH
MAIL CLIENT TI(cid:1218)NG VI(cid:1226)T H(cid:1242) TR(cid:1254) PHÂN
LO(cid:1188)I EMAIL
82
8.1 Ch(cid:1261)c n(cid:259)ng:
Chúng tôi xây d(cid:1269)ng ph(cid:1195)n m(cid:1221)m Mail Client v(cid:1247)i các ch(cid:1261)c n(cid:259)ng chính nh(cid:1133) sau:
(cid:216) Ch(cid:1261)c n(cid:259)ng g(cid:1251)i nh(cid:1201)n email
(cid:216) Lu(cid:1133) tr(cid:1267) email t(cid:1133)(cid:1131)ng (cid:1261)ng v(cid:1247)i t(cid:1263)ng m(cid:1257)c
(cid:216) So(cid:1189)n email
(cid:216) Xây d(cid:1269)ng s(cid:1241)(cid:3)(cid:255)(cid:1231)a ch(cid:1229)
(cid:216) L(cid:1233)c email spam
(cid:216) Qu(cid:1191)n lý email nh(cid:1133) sao chép, chuy(cid:1219)n, xóa … email
(cid:216) Và m(cid:1245)t s(cid:1237) công c(cid:1257) h(cid:1243) tr(cid:1255) khác khác : …
(cid:264)(cid:1223) h(cid:1243) tr(cid:1255) cho vi(cid:1227)c ki(cid:1223)m th(cid:1265) Mail Client chúng tôi xây d(cid:1269)ng ch(cid:1133)(cid:1131)ng trình Flood
Mail g(cid:1251)i mail hàng lo(cid:1189)t (cid:255)(cid:1219)n m(cid:1245)t (cid:255)(cid:1231)a ch(cid:1229) nh(cid:1201)n nào (cid:255)ó.
8.2 Xây d(cid:1269)ng b(cid:1245) l(cid:1233)c email spam :
Chúng tôi s(cid:1265) d(cid:1257)ng b(cid:1245) l(cid:1233)c d(cid:1269)a trên thu(cid:1201)t toán h(cid:1233)c Naïve Bayes và AdaBoost,
v(cid:1247)i Naivê Bayes chúng tôi s(cid:1265) d(cid:1257)ng cách cài (cid:255)(cid:1211)t theo cách tính xác su(cid:1193)t spam cho
l =
9
m(cid:1243)i token d(cid:1269)a trên s(cid:1237) l(cid:1195)n xu(cid:1193)t hi(cid:1227)n trong t(cid:1201)p hu(cid:1193)n luy(cid:1227)n ban (cid:255)(cid:1195)u, ch(cid:1233)n s(cid:1237) token (cid:255)(cid:1223)
duy(cid:1227)t m(cid:1245)t email là 15, ch(cid:1233)n do (cid:255)ó ng(cid:1133)õng phân lo(cid:1189)i email spam là t=0.9. V(cid:1247)i
b(cid:1245) l(cid:1233)c d(cid:1269)a trên AdaBoost chúng tôi ch(cid:1233)n cách cài (cid:255)(cid:1211)t theo AdaBoost.MH with real
value predictions. Chúng tôi xây d(cid:1269)ng thành các component tích h(cid:1255)p vào ch(cid:1133)(cid:1131)ng
trình d(cid:1133)(cid:1247)i d(cid:1189)ng các dll.
Chúng tôi c(cid:458)ng xây d(cid:1269)ng ch(cid:1261)c n(cid:259)ng l(cid:1233)c email theo ph(cid:1133)(cid:1131)ng pháp BlackList
và lu(cid:1201) do ng(cid:1133)(cid:1249)i dùng t(cid:1269)(cid:3)(cid:255)(cid:1231)nh ngh(cid:429)a, ph(cid:1133)(cid:1131)ng pháp này s(cid:1217) h(cid:1243) tr(cid:1255) cho b(cid:1245) l(cid:1233)c email
83
ng(cid:259)n ch(cid:1211)n email spam.
8.3 T(cid:1241) ch(cid:1261)c d(cid:1267) li(cid:1227)u cho ch(cid:1133)(cid:1131)ng trình :
D(cid:1267) li(cid:1227)u ch(cid:1133)(cid:1131)ng trình :g(cid:1239)m n(cid:1245)i dung các email, các lu(cid:1201)t do ng(cid:1133)(cid:1249)i dùng thi(cid:1219)t
l(cid:1201)p.
(cid:47)(cid:1133)u tr(cid:1267) n(cid:1245)i dung các email g(cid:1251)i và nh(cid:1201)n : (cid:255)(cid:1133)(cid:1255)c l(cid:1133)u d(cid:1133)(cid:1247)i d(cid:1189)ng các t(cid:1201)p tin v(cid:259)n
b(cid:1191)n, v(cid:1247)i m(cid:1243)i th(cid:1133) m(cid:1257)c t(cid:1133)(cid:1131)ng (cid:1261)ng nh(cid:1133) h(cid:1245)p th(cid:1133)(cid:3)(cid:255)(cid:1219)n, h(cid:1245)p th(cid:1133)(cid:3)(cid:255)i,.. s(cid:1217) có m(cid:1245)t t(cid:1201)p tin l(cid:1133)u
n(cid:1245)i dung các email trong các thu m(cid:1257)c này, l(cid:1133)u tr(cid:1267) d(cid:1133)(cid:1247)i d(cid:1189)ng xml, c(cid:1193)u trúc t(cid:1201)p tin
nh(cid:1133) sau :
……
Các thông tin liên quan (cid:255)(cid:1219)n m(cid:1245)t email mà chúng tôi l(cid:1133)u tr(cid:1267) g(cid:1239)m có : thu(cid:1245)c
tính (cid:255)(cid:1231)nh danh email (tr(cid:1133)(cid:1249)ng MessageID ), tiêu (cid:255)(cid:1221) email (Subject ), (cid:255)(cid:1231)a ch(cid:1229) ng(cid:1133)(cid:1249)i
g(cid:1251)i ( tr(cid:1133)(cid:1249)ng from ),(cid:3)(cid:255)(cid:1231)a ch(cid:1229)(cid:3)(cid:255)(cid:1239)ng g(cid:1251)i ( tr(cid:1133)(cid:1249)ng Cc), (cid:255)(cid:1231)a ch(cid:1229)(cid:3)(cid:255)(cid:1239)ng g(cid:1251)i (cid:1197)n ( tr(cid:1133)(cid:1249)ng Bcc
), n(cid:1245)i dung email ( tr(cid:1133)(cid:1249)ng body),có (cid:255)ính kèm t(cid:1201)p tin ( tr(cid:1133)(cid:1249)ng Attach ), m(cid:1261)c (cid:255)(cid:1245) quan
tr(cid:1233)ng ( Prority), ngày tháng ( Date)
84
Các lu(cid:1201)t do ng(cid:1133)(cid:1249)i dùng thi(cid:1219)t l(cid:1201)p c(cid:458)ng (cid:255)(cid:1133)(cid:1255)c l(cid:1133)u tr(cid:1267) du(cid:1247)i d(cid:1189)ng xml
• (cid:1132)(cid:1133)(cid:3)(cid:255)i(cid:1223)m c(cid:1259)a cách t(cid:1241) ch(cid:1261)c d(cid:1267) li(cid:1227)u xml:
Xml là cách l(cid:1133)u tr(cid:1267) d(cid:1267) li(cid:1227)u (cid:255)(cid:1133)(cid:1255)c t(cid:1241) ch(cid:1261)c v(cid:1247)i c(cid:1193)u trúc cây, xml (cid:255)(cid:1133)(cid:1255)c các
ngôn ng(cid:1267) l(cid:1201)p trình hi(cid:1227)n (cid:255)(cid:1189)i h(cid:1243) tr(cid:1255) khá t(cid:1237)t, nh(cid:1133) v(cid:1201)y vi(cid:1227)c thao tác v(cid:1247)i d(cid:1267) li(cid:1227)u ch(cid:1133)(cid:1131)ng
trình r(cid:1193)t thu(cid:1201)n l(cid:1255)i.
Xml là chu(cid:1197)n giao ti(cid:1219)p gi(cid:1267)a các h(cid:1227) th(cid:1237)ng v(cid:1247)i các cách l(cid:1133)u tr(cid:1267) d(cid:1267) li(cid:1227)u khác
nhau, s(cid:1265) d(cid:1257)ng xml ti(cid:1227)n l(cid:1255)i cho vi(cid:1227)c giao ti(cid:1219)p v(cid:1247)i h(cid:1227) th(cid:1237)ng bên ngoài nh(cid:1133) chuy(cid:1223)n
(cid:255)(cid:1241)i hay thu nh(cid:1201)n thông tin.
• Khuy(cid:1219)t (cid:255)(cid:76)(cid:1223)m :D(cid:1267) li(cid:1227)u (cid:255)(cid:1133)(cid:1255)c l(cid:1133)u d(cid:1133)(cid:1247)i d(cid:1189)ng v(cid:259)n b(cid:1191)n, không b(cid:1191)o m(cid:1201)t
8.4 Giao di(cid:1227)n ng(cid:1133)(cid:1249)i dùng :
8.4.1 S(cid:1131)(cid:3)(cid:255)(cid:1239) màn hình :
Hình 8-1:S(cid:1131)(cid:3)(cid:255)(cid:1239) màn hình c(cid:1259)a ch(cid:1133)(cid:1131)ng trình
8.4.2 M(cid:1245)t s(cid:1237) màn hình chính :
85
5
4
1
2
3
Hình 8-2 Màn hình chính c(cid:1259)a ch(cid:1133)(cid:1131)ng trình Mail Client
B(cid:1191)ng chú thích cho màn hình chính:
Di(cid:1225)n gi(cid:1191)i
(cid:47)(cid:1133)(cid:1247)i hi(cid:1223)n th(cid:1231) danh sách các email g(cid:1265)i cho ng(cid:1133)(cid:1249)i dùng. Các s(cid:1269) ki(cid:1227)n 1
(cid:255)i kèm:
§ Nh(cid:813)p (cid:255)(cid:751)n chu(cid:865)t trên dòng: (cid:264)(cid:1233)c email nhanh.
§ Nh(cid:813)p (cid:255)ôi chuôt trên dòng: (cid:264)(cid:1233)c email chi ti(cid:1219)t.
§ (cid:264)ánh d(cid:813)u ch(cid:853)n trên dòng: (cid:264)ánh d(cid:1193)u email c(cid:1195)n xóa.
§ : Thông báo th(cid:1133) có (cid:255)ính kèm.
§ : Thông báo email ch(cid:1133)a (cid:255)(cid:1233)c.
86
Khung hi(cid:1223)n th(cid:1231) cây th(cid:1133) m(cid:1257)c l(cid:1133)u tr(cid:1267) các h(cid:1245)p th(cid:1133) c(cid:1259)a ng(cid:1133)(cid:1249)i dùng: 2
§ H(cid:865)p th(cid:753) nh(cid:821)n: L(cid:1133)u th(cid:1133) g(cid:1265)i (cid:255)(cid:1219)n cho ng(cid:1133)(cid:1249)i dùng.
§ H(cid:865)p th(cid:753) ch(cid:753)a g(cid:885)i: L(cid:1133)u th(cid:1133)(cid:3)(cid:255)ã so(cid:1189)n nh(cid:1133)ng ch(cid:1133)a g(cid:1265)i
§ H(cid:865)p th(cid:753)(cid:3)(cid:255)ã g(cid:885)i: L(cid:1133)u th(cid:1133)(cid:3)(cid:255)ã (cid:255)(cid:1133)(cid:1255)c g(cid:1265)i (cid:255)i.
§ H(cid:865)p th(cid:753) spam: L(cid:1133)u th(cid:1133) spam (t(cid:1269)(cid:3)(cid:255)(cid:1245)ng)
§ H(cid:865)p th(cid:753) xóa: L(cid:1133)u th(cid:1133) b(cid:1231) xóa b(cid:1251)i ng(cid:1133)(cid:1249)i dùng.
Khung hi(cid:1223)n th(cid:1231) nhanh n(cid:1245)i dung email khi ng(cid:1133)(cid:1249)i dùng click ch(cid:1233)n 3
m(cid:1245)t email trên l(cid:1133)(cid:1247)i hi(cid:1223)n th(cid:1231) danh sách email.
Thanh công c(cid:1257). 4
§ Nh(cid:1201)n th(cid:1133): Nh(cid:1201)n th(cid:1133) t(cid:1263) email server.
§ So(cid:1189)n th(cid:1133): So(cid:1189)n th(cid:1133) m(cid:1247)i.
§ S(cid:1241)(cid:3)(cid:255)(cid:1231)a ch(cid:1229): Tra c(cid:1261)u s(cid:1241)(cid:3)(cid:255)(cid:1231)a ch(cid:1229) liên l(cid:1189)c.
§ Tr(cid:1191) l(cid:1249)i th(cid:1133): So(cid:1189)n th(cid:1133) tr(cid:1191) l(cid:1249)i.
§ Xóa th(cid:1133): Xóa các th(cid:1133)(cid:3)(cid:255)(cid:1133)(cid:1255)c (cid:255)ánh d(cid:1193)u ch(cid:1233)n.
§ Xem: Hi(cid:1223)n th(cid:1231) danh sách email trên l(cid:1133)(cid:1247)i theo tiêu chí xem.
§ Tìm ki(cid:1219)m: Tìm ki(cid:1219)m email theo tiêu (cid:255)(cid:1221) /n(cid:1245)i dung /ng(cid:1133)(cid:1249)i
g(cid:1251)i.
Th(cid:1269)c(cid:3)(cid:255)(cid:1131)n chính. 5
T(cid:1201)p tin:
§ T(cid:1189)o m(cid:1247)i th(cid:1133): So(cid:1189)n th(cid:1133) m(cid:1247)i.
§ T(cid:1189)o m(cid:1247)i th(cid:1133) m(cid:1257)c: T(cid:1189)o th(cid:1133) m(cid:1257)c m(cid:1247)i (h(cid:1245)p th(cid:1133) m(cid:1247)i) trên cây
th(cid:1133) m(cid:1257)c.
§ (cid:264)(cid:1241)i tên th(cid:1133) m(cid:1257)c: (cid:264)(cid:1241)i tên th(cid:1133) m(cid:1257)c (h(cid:1245)p th(cid:1133)) trên cây th(cid:1133)
m(cid:1257)c.
§ Xóa th(cid:1133) m(cid:1257)c: Xóa th(cid:1133) m(cid:1257)c (h(cid:1245)p th(cid:1133)) trên cây th(cid:1133) m(cid:1257)c (Xóa
luôn n(cid:1245)i dung bên trong t(cid:75)(cid:1133) m(cid:1257)c).
§ M(cid:1251) th(cid:1133)(cid:3)(cid:255)ã l(cid:1133)u: M(cid:1251) th(cid:1133)(cid:3)(cid:255)ã l(cid:1133)u d(cid:1189)ng t(cid:1201)p tin (.eml)
Hi(cid:1227)u ch(cid:1229)nh:
87
§ Ch(cid:1233)n t(cid:1193)t c(cid:1191): Ch(cid:1233)n t(cid:1193)t c(cid:1191) th(cid:1133) trên l(cid:1133)(cid:1247)i hi(cid:1223)n th(cid:1231) th(cid:1133) g(cid:1265)i cho
ng(cid:1133)(cid:1249)i dùng.
§ Tìm ki(cid:1219)m: Tìm ki(cid:1219)m email theo tiêu (cid:255)(cid:1221) /n(cid:1245)i dung /ng(cid:1133)(cid:1249)i
g(cid:1251)i.
§ Chuy(cid:1223)n (cid:255)(cid:1219)n th(cid:1133) m(cid:1257)c: Chuy(cid:1223)n th(cid:1133)(cid:3)(cid:255)(cid:1219)n th(cid:1133) m(cid:1257)c (cid:255)(cid:1133)(cid:1255)c ch(cid:1233)n
§ Sao chép (cid:255)(cid:1219)n th(cid:1133) m(cid:1257)c: T(cid:1189)o b(cid:1191)n sao th(cid:1133)(cid:3) (cid:255)(cid:1219)n th(cid:1133) m(cid:1257)c (cid:255)(cid:1133)(cid:1255)c
ch(cid:1233)n.
§ Xóa th(cid:1133): Xoá th(cid:1133)(cid:3)(cid:255)(cid:1133)(cid:1255)c ch(cid:1233)n.
§ Xóa th(cid:1133) trong th(cid:1133) m(cid:1257)c xóa: Xóa t(cid:1193)t c(cid:1191) th(cid:1133) có trong h(cid:1245)p th(cid:1133)
xoá.
Công c(cid:1257):
§ S(cid:1241)(cid:3)(cid:255)(cid:1231)a ch(cid:1229): Tra c(cid:1261)u danh sách (cid:255)(cid:1231)a ch(cid:1229) liên l(cid:1189)c.
§ Thêm liên l(cid:1189)c: Thêm liên l(cid:1189)c m(cid:1247)i(tên liên l(cid:1189)c, (cid:255)(cid:1231)a ch(cid:1229)
email…)
§ Qui (cid:255)(cid:1231)nh (Rules): Qui (cid:255)(cid:1231)nh l(cid:1233)c th(cid:1133) t(cid:1247)i vào th(cid:1133) m(cid:1257)c (cid:255)(cid:1231)nh
tr(cid:1133)(cid:1247)c (ho(cid:1211)c xóa).
Th(cid:1133):
§ So(cid:1189)n th(cid:1133) m(cid:1247)i: So(cid:1189)n th(cid:1133)(cid:3)(cid:255)(cid:1223) g(cid:1265)i (cid:255)i.
§ Tr(cid:1191) l(cid:1249)i th(cid:1133): Tr(cid:1191) l(cid:1249)i th(cid:1133)(cid:3)(cid:255)(cid:1219)n ng(cid:1133)(cid:1249)i g(cid:1265)i th(cid:1133) t(cid:1247)i.
§ Thêm qui (cid:255)(cid:1231)nh: Thêm qui (cid:255)(cid:1231)nh nh(cid:1201)n th(cid:1133) g(cid:1265)i t(cid:1247)i.
§ Ch(cid:1211)n ng(cid:1133)(cid:1249)i g(cid:1265)i: Không nh(cid:1201)n th(cid:1133) c(cid:1259)a ng(cid:1133)(cid:1249)i g(cid:1265)i có trong
danh sách.
Tr(cid:1255) giúp:
§ Gi(cid:1247)i thi(cid:1227)u: Ng(cid:1133)(cid:1249)i th(cid:1269)c hi(cid:1227)n.
88
§ (cid:43)(cid:1133)(cid:1131)ng d(cid:1199)n: H(cid:1133)(cid:1247)ng d(cid:1199)n s(cid:1265) d(cid:1257)ng ch(cid:1133)(cid:1131)ng trình.
4
3
1
2
Hình 8-3 Màn hình "(cid:264)(cid:1233)c email"
v B(cid:1191)ng chú thích cho màn hình “(cid:264)(cid:1233)c email”:
Mã Di(cid:1225)n gi(cid:1191)i
Hi(cid:1223)n th(cid:1231) thông tin v(cid:1221) email. 1
2 Khung hi(cid:1223)n th(cid:1231) n(cid:1245)i dung email.
Thanh công c(cid:1257). 3
§ Nh(cid:1201)n th(cid:1133): Nh(cid:1201)n th(cid:1133) t(cid:1263) email server.
§ So(cid:1189)n th(cid:1133): So(cid:1189)n th(cid:1133) m(cid:1247)i.
§ S(cid:1241)(cid:3)(cid:255)(cid:1231)a ch(cid:1229): Tra c(cid:1261)u s(cid:1241)(cid:3)(cid:255)(cid:1231)a ch(cid:1229) liên l(cid:1189)c.
§ Tr(cid:1191) l(cid:1249)i th(cid:1133): So(cid:1189)n th(cid:1133) tr(cid:1191) l(cid:1249)i.
§ Xóa th(cid:1133): Xóa các th(cid:1133)(cid:3)(cid:255)(cid:1133)(cid:1255)c (cid:255)ánh d(cid:1193)u ch(cid:1233)n.
89
§ (cid:47)(cid:1133)u th(cid:1133): L(cid:1133)u th(cid:1133) xu(cid:1237)ng (cid:1241) c(cid:1261)ng d(cid:1189)ng t(cid:1201)p tin(.eml).
§ Th(cid:1133) tr(cid:1133)(cid:1247)c: (cid:264)(cid:1233)c th(cid:1133) li(cid:1221)n tr(cid:1133)(cid:1247)c.
§ Th(cid:1133) k(cid:1219)(cid:29)(cid:264)(cid:1233)c th(cid:1133) li(cid:1221)n sau.
§ Spam: (cid:264)ánh d(cid:1193)u spam v(cid:1133)(cid:1255)t qua b(cid:1245) l(cid:1233)c (Yêu c(cid:1195)u h(cid:1233)c
spam).
Th(cid:1269)c (cid:255)(cid:1131)n chính. 4
T(cid:1201)p tin:
§ T(cid:1189)o m(cid:1247)i th(cid:1133):
§ T(cid:1189)o m(cid:1247)i liên l(cid:1189)c:
§ M(cid:1251) th(cid:1133)(cid:3)(cid:255)ã l(cid:1133)u:
§ (cid:47)(cid:1133)u th(cid:1133):
Hi(cid:1227)u ch(cid:1229)nh:
§ Tìm ki(cid:1219)m th(cid:1133):
§ Chuy(cid:1223)n (cid:255)(cid:1219)n th(cid:1133) m(cid:1257)c:
§ Sao chép (cid:255)(cid:1219)n th(cid:1133) m(cid:1257)c:
§ Xóa th(cid:1133): Xóa th(cid:1133)(cid:3)(cid:255)(cid:1133)(cid:1255)c ch(cid:1233)n.
Công c(cid:1257):
§ S(cid:1241)(cid:3)(cid:255)(cid:1231)a ch(cid:1229):
§ Thêm liên l(cid:1189)c:
§ Qui (cid:255)(cid:1231)nh (Rules):
Th(cid:1133):
§ So(cid:1189)n th(cid:1133) m(cid:1247)i
§ Tr(cid:1191) l(cid:1249)i th(cid:1133):
§ Th(cid:1133) tr(cid:1133)(cid:1247)c:
§ Th(cid:1133) k(cid:1219):
§ (cid:47)(cid:1133)u t(cid:1201)p tin (cid:255)ính kèm: L(cid:1133)u t(cid:1201)p tin (cid:255)ính kèm trong th(cid:1133)
xu(cid:1237)ng (cid:255)(cid:429)a c(cid:1261)ng.
§ Xóa t(cid:1201)p tin (cid:255)ính kèm: Xóa t(cid:1201)p tin (cid:255)ính kèm (cid:255)(cid:1133)(cid:1255)c ch(cid:1233)n
90
trong danh sách (cid:255)ính kèm.
4
3
1
5
2
Hình 8-4 Màn hình g(cid:1251)i email
v B(cid:1191)ng chú gi(cid:1191)i cho màn hình “G(cid:1251)i email”:
Mã Di(cid:1225)n gi(cid:1191)i
Khung nh(cid:1201)p thông tin v(cid:1221) email: g(cid:1265)i t(cid:1263)(cid:3)(cid:255)âu, g(cid:1265)i (cid:255)(cid:1219)n (cid:255)âu, g(cid:1265)i cho 1
nhi(cid:1221)u ng(cid:1133)(cid:1249)i (CC), g(cid:1265)i nhi(cid:1221)u ng(cid:1133)(cid:1249)i nh(cid:1133)ng (cid:1197)n (cid:255)(cid:1231)a ch(cid:1229) g(cid:1265)i (BCC).
Ch(cid:1261)c n(cid:259)ng (cid:255)i kèm:
§ Ch(cid:1233)n (cid:255)(cid:1231)a ch(cid:1229) g(cid:1265)i (cid:255)(cid:1219)n t(cid:1263) danh sách.
§ Ch(cid:1233)n danh sách (cid:255)(cid:1231)a ch(cid:1229) g(cid:1265)i cùng lúc.
§ Ch(cid:1233)n danh sách (cid:255)(cid:1231)a ch(cid:1229) g(cid:1265)i cùng lúc ((cid:1197)n (cid:255)(cid:1231)a ch(cid:1229) ng(cid:1133)(cid:1249)i
g(cid:1265)i).
91
Khung so(cid:1189)n th(cid:1191)o email. 2
Thanh công c(cid:1257). 3
§ G(cid:1265)i th(cid:1133): Th(cid:1269)c hi(cid:1227)n g(cid:1265)i th(cid:1133)(cid:3)(cid:255)(cid:1219)n ng(cid:1133)(cid:1249)i nh(cid:1201)n.
§ S(cid:1241)(cid:3)(cid:255)(cid:1231)a ch(cid:1229): Tra c(cid:1261)u s(cid:1241)(cid:3)(cid:255)(cid:1231)a ch(cid:1229) liên l(cid:1189)c.
§ (cid:47)(cid:1133)u th(cid:1133): L(cid:1133)u th(cid:1133) xu(cid:1237)ng (cid:1241) c(cid:1261)ng d(cid:1189)ng t(cid:1201)p tin(.eml).
§ (cid:264)ính kèm: M(cid:1251) và thêm t(cid:1201)p tin (cid:255)ính kèm.
Th(cid:1269)c (cid:255)(cid:1131)n chính. 4
T(cid:1201)p tin:
§ T(cid:1189)o th(cid:1133) m(cid:1247)i:
§ M(cid:1251) th(cid:1133)(cid:3)(cid:255)ã l(cid:1133)u:
§ (cid:47)(cid:1133)u th(cid:1133):
§ (cid:47)(cid:1133)u m(cid:1247)i th(cid:1133): L(cid:1133)u l(cid:1189)i th(cid:1133) xu(cid:1237)ng (cid:255)(cid:429)a c(cid:1261)ng v(cid:1247)i tên m(cid:1247)i.
Hi(cid:1227)u ch(cid:1229)nh:
§ Ch(cid:1233)n t(cid:1193)t c(cid:1191): Ch(cid:1233)n t(cid:1193)t c(cid:1191) n(cid:1245)i dung v(cid:259)n b(cid:1191)n (text).
§ Tìm ki(cid:1219)m th(cid:1133):
§ Chuy(cid:1223)n (cid:255)(cid:1219)n th(cid:1133) m(cid:1257)c:
§ Sao chép (cid:255)(cid:1219)n th(cid:1133) m(cid:1257)c:
§ Ki(cid:1223)u ch(cid:1267): Ch(cid:1233)n ki(cid:1223)u ch(cid:1267) cho v(cid:259)n b(cid:1191)n so(cid:1189)n.
Xem:
§ Hi(cid:1223)n th(cid:1231) thanh công c(cid:1257): Ch(cid:1233)n hi(cid:1223)n th(cid:1231) hay (cid:1197)n thanh công
c(cid:1257).
Công c(cid:1257):
§ S(cid:1241)(cid:3)(cid:255)(cid:1231)a ch(cid:1229):
§ Thêm liên l(cid:1189)c:
Th(cid:1133):
§ So(cid:1189)n th(cid:1133) m(cid:1247)i:
§ (cid:47)(cid:1133)u th(cid:1133):
§ G(cid:1251)i th(cid:1133): G(cid:1265)i th(cid:1133)(cid:3)(cid:255)(cid:1219)n ng(cid:1133)(cid:1249)i nh(cid:1201)n.
§ Thêm t(cid:1201)p tin (cid:255)ính kèm: Thêm t(cid:1201)p tin (cid:255)inh kèm vào trong
92
th(cid:1133) g(cid:1265)i (cid:255)i.
§ Xóa t(cid:1201)p tin (cid:255)ính kèm:
Tr(cid:1255) giúp:
§ Gi(cid:1247)i thi(cid:1227)u:
§ (cid:43)(cid:1133)(cid:1131)ng d(cid:1199)n:
93
Danh sách t(cid:1201)p tin (cid:255)ính kèm s(cid:1217) g(cid:1265)i. 5
Ch(cid:1133)(cid:1131)ng 9 : T(cid:1240)NG K(cid:1218)T VÀ H(cid:1132)(cid:1246)NG PHÁT
TRI(cid:1222)N
94
9.1 Các vi(cid:1227)c (cid:255)ã th(cid:1269)c hi(cid:1227)n (cid:255)(cid:1133)(cid:1255)c :
Trong khoá lu(cid:1201)n này chúng tôi (cid:255)ã trình bày các h(cid:1133)(cid:1247)ng nghiên c(cid:1261)u, ti(cid:1219)p c(cid:1201)n
trong phân lo(cid:1189)i email và ch(cid:1237)ng spam. Chúng tôi c(cid:458)ng (cid:255)ã t(cid:1201)p trung (cid:255)i sâu vào
(cid:75)(cid:1133)(cid:1133)óng ti(cid:1219)p c(cid:1201)n phân lo(cid:1189)i email d(cid:1133)(cid:1189) trên n(cid:1245)i dung.(cid:1250)(cid:3) (cid:255)ây chúng tôi trình bày hai
ph(cid:1133)(cid:1131)ng pháp phân lo(cid:1189)i email khá m(cid:1247)i và hi(cid:1227)u qu(cid:1191) là phân lo(cid:1189)i email d(cid:1269)a trên thu(cid:1201)t
toán hu(cid:1193)n luy(cid:1227)n Naïve Bayes và d(cid:1269)a trên thu(cid:1201)t toán AdaBoost.K(cid:1219)t qu(cid:1191) th(cid:1265) nghi(cid:1227)m
v(cid:1247)i d(cid:1267) li(cid:1227)u s(cid:1237) và d(cid:1267) li(cid:1227)u v(cid:259)n b(cid:1191)n tr(cid:1131)n là khá hi(cid:1227)u qu(cid:1191), tuy nhiên (cid:255)(cid:1237)i v(cid:1247)i email html
thì v(cid:1199)n ch(cid:1133)a (cid:255)(cid:1133)(cid:1255)c nh(cid:1133) mong mu(cid:1237)n, (cid:255)(cid:76)(cid:1221)u này là do kho ng(cid:1267) li(cid:1227)u email html ch(cid:1133)a (cid:255)(cid:1259)
l(cid:1247)n, m(cid:1211)t khác email html có nh(cid:1267)ng (cid:255)(cid:1211)c (cid:255)(cid:76)(cid:1223)m c(cid:1259)a riêng nó mà chúng tôi ch(cid:1133)a kh(cid:1203)c
ph(cid:1257)c (cid:255)(cid:1133)(cid:1255)c nh(cid:1133) n(cid:1245)i dung ch(cid:1259) y(cid:1219)u là các hình (cid:1191)nh.
Chúng tôi c(cid:458)ng (cid:255)ã xây d(cid:1269)ng th(cid:1265) nghi(cid:1227)m ph(cid:1195)n m(cid:1221)m Mail Client h(cid:1243) tr(cid:1255) l(cid:1233)c
email. B(cid:1245) l(cid:1233)c email (cid:255)(cid:1133)(cid:1255)c tính h(cid:1255)p vào ch(cid:1133)(cid:1131)ng trình (cid:255)(cid:1133)(cid:1255)c xây d(cid:1269)ng theo nh(cid:1267)ng
(cid:75)(cid:1133)(cid:1247)ng (cid:255)ã ti(cid:1219)p c(cid:1201)n.Ch(cid:1133)(cid:1131)ng trình h(cid:1243) tr(cid:1255) m(cid:1245)t s(cid:1237) ch(cid:1261)c n(cid:259)ng chính c(cid:1259)a m(cid:1245)t ph(cid:1195)n m(cid:1221)m
Mail Client thông th(cid:1133)(cid:1249)ng nh(cid:1133) g(cid:1247)i, nh(cid:1201)n email, tìm ki(cid:1219)m, qu(cid:1191)n lý email.....
9.2 H(cid:1133)(cid:1247)ng c(cid:1191)i ti(cid:1219)n, m(cid:1251) r(cid:1245)ng :
Vì th(cid:1249)i gian có h(cid:1189)n, do (cid:255)ó v(cid:1199)n còn nh(cid:1267)ng (cid:255)(cid:76)(cid:1221)u chúng tôi mu(cid:1237)n th(cid:1269)c hi(cid:1227)n
nh(cid:1133)ng ch(cid:1133)a th(cid:1223) th(cid:1269)c hi(cid:1227)n (cid:255)(cid:1133)(cid:1255)c.D(cid:1269)a trên nh(cid:1267)ng k(cid:1219)t qu(cid:1191)(cid:3)(cid:255)ã (cid:255)(cid:1189)t(cid:3)(cid:255)(cid:1133)(cid:1255)c, chúng tôi (cid:255)(cid:1221)
xu(cid:1193)t nh(cid:1267)ng h(cid:1133)(cid:1247)ng c(cid:1191)i ti(cid:1219)n, m(cid:1251) r(cid:1245)ng cho ch(cid:1133)(cid:1131)ng trình
9.2.1 V(cid:1221) phân lo(cid:1189)i và l(cid:1233)c email spam:
a) V(cid:1221) cách rút trích các token :
Có th(cid:1223) c(cid:1191)i ti(cid:1219)n cách l(cid:1193)y token, thay vì cách ch(cid:1233)n token (cid:255)(cid:1131)n, có th(cid:1223)
ch(cid:1233)n token nh(cid:1133) là m(cid:1245)t ng(cid:1267) ( g(cid:1239)m nhi(cid:1221)u t(cid:1263)) – token g(cid:1239)m hai hay nhi(cid:1221)u token
95
(cid:255)(cid:1131)n t(cid:1189)o thành,(cid:3)(cid:255)i(cid:1221)u này giúp vi(cid:1227)c nh(cid:1201)n bi(cid:1219)t chính xác h(cid:1131)n.
b) M(cid:1251) r(cid:1245)ng v(cid:1247)i email là ti(cid:1219)ng Vi(cid:1227)t thay vì ch(cid:1229) th(cid:1269)c hi(cid:1227)n v(cid:1247)i email ti(cid:1219)ng
Anh , tuy nhiên v(cid:1193)n (cid:255)(cid:1221) phân lo(cid:1189)i email ti(cid:1219)ng Vi(cid:1227)t có m(cid:1245)t s(cid:1237) (cid:255)(cid:76)(cid:1223)m khó kh(cid:259)n
là không có s(cid:1209)n m(cid:1245)t kho ng(cid:1267) li(cid:1227)u email ti(cid:1219)ng Vi(cid:1227)t ph(cid:1257)c v(cid:1257) cho vi(cid:1227)c h(cid:1233)c
Thêm n(cid:1267)a ti(cid:1219)ng Vi(cid:1227)t là m(cid:1245)t t(cid:1133)(cid:1131)ng (cid:255)(cid:1237)i ngôn ng(cid:1267) ph(cid:1261)c t(cid:1189)p và (cid:255)a d(cid:1189)ng, do (cid:255)ó
vi(cid:1227)c phân lo(cid:1189)i email ti(cid:1219)ng Vi(cid:1227)t l(cid:1189)i liên quan (cid:255)(cid:1219)n v(cid:1193)n (cid:255)(cid:1221) tách t(cid:1263) (tách token ),
(cid:255)ây là bài toán ph(cid:1261)c t(cid:1189)p.
c) Có th(cid:1223) xây d(cid:1269)ng b(cid:1245) l(cid:1233)c thành các ph(cid:1195)n m(cid:1221)m riêng r(cid:1217) và tích h(cid:1255)p
(plug in ) vào các ph(cid:1195)n m(cid:1221)m email Client hi(cid:1227)n có nh(cid:1133) Outlook Express,
Mozzila ThunderBird.
d) Áp d(cid:1257)ng b(cid:1245) l(cid:1233)c email t(cid:1189)i m(cid:1261)c Server, ng(cid:259)n ch(cid:1211)n email spam ngay t(cid:1189)i
các Server email.
e) Có th(cid:1223) s(cid:1265) d(cid:1257)ng k(cid:1219)t h(cid:1255)p hai b(cid:1245) l(cid:1233)c theo hai ph(cid:1133)(cid:1131)ng pháp Naïve
Bayesian và AdaBoost, khi (cid:255)ó vi(cid:1227)c xây d(cid:1269)ng t(cid:1201)p lu(cid:1201)t y(cid:1219)u dùng (cid:255)(cid:1223) ch(cid:1233)n l(cid:1233)c
ban (cid:255)(cid:1195)u có th(cid:1223) d(cid:1269)a vào nh(cid:1267)ng token có xác su(cid:1193)t spam cao và xác su(cid:1193)t non-
spam th(cid:1193)p t(cid:1263) d(cid:1267) li(cid:1227)u hu(cid:1193)n luy(cid:1227)n c(cid:1259)a Naïve Bayesian.
9.2.2 V(cid:1221) ch(cid:1133)(cid:1131)ng trình Mail Client:
Ch(cid:1133)(cid:1131)ng trình hi(cid:1227)n ch(cid:1229) m(cid:1247)i (cid:255)(cid:1133)(cid:1255)c xây d(cid:1269)ng v(cid:1247)i m(cid:1245)t vài ch(cid:1261)c n(cid:259)ng
chính, v(cid:1199)n còn nhi(cid:1221)u h(cid:1189)n ch(cid:1219). V(cid:1247)i mong mu(cid:1237)n xây d(cid:1269)ng hoàn thi(cid:1227)n m(cid:1245)t
ph(cid:1195)n m(cid:1221)m Mail Client h(cid:1243) tr(cid:1255) ti(cid:1219)ng Vi(cid:1227)t thì bên c(cid:1189)nh vi(cid:1227)c hoàn thi(cid:1227)n nh(cid:1267)ng
cái (cid:255)ã có , chúng tôi d(cid:1269)(cid:3)(cid:255)(cid:1231)nh xây d(cid:1269)ng thêm m(cid:1245)t s(cid:1237) ch(cid:1261)c n(cid:259)ng:
(cid:216) H(cid:1243) tr(cid:1255) b(cid:1191)o m(cid:1201)t : d(cid:1267) li(cid:1227)u c(cid:1259)a ch(cid:1133)(cid:1131)ng trình (cid:255)(cid:1133)(cid:1255)c l(cid:1133)u d(cid:1189)ng t(cid:1201)p tin
(cid:89)(cid:259)n b(cid:1191)n,(cid:3)(cid:255)i(cid:1221)u (cid:255)ó không b(cid:1191)o m(cid:1201)t. Có th(cid:1223) cài ti(cid:1219)n (cid:255)(cid:76)(cid:1221)u này b(cid:1205)ng
cách mã hoá t(cid:1201)p tin, l(cid:1133)u d(cid:1133)(cid:1247)i d(cid:1189)ng nh(cid:1231) phân
(cid:216) H(cid:1243) tr(cid:1255) nhi(cid:1221)u tài kho(cid:1191)n (Account) trên MailClient, hi(cid:1227)n t(cid:1189)i
96
ch(cid:1133)(cid:1131)ng trình ch(cid:1229) h(cid:1243) tr(cid:1255) m(cid:1245)t tài kho(cid:1191)n .
TÀI LI(cid:1226)U THAM KH(cid:1190)O
Ti(cid:1219)ng Vi(cid:1227)t :
[4] Hoàng Hoài S(cid:1131)n, Th(cid:1133) rác n(cid:1243)i kh(cid:1241) chung, báo TH(cid:1223) thao V(cid:259)n hoá, s(cid:1237) 28 6-4-
2004, Tr 34.
[8] (cid:264)(cid:1211)ng H(cid:1193)n (1992), “Xác su(cid:1193)t th(cid:1237)ng kê ”, Nhà xu(cid:1193)t b(cid:1191)n Giáo D(cid:1257)c
Ti(cid:1219)ng Anh :
[1] Monty Python’s Flying Circus. Just the words, volume 2, chapter 25, pages 27–
28.Methuen, London, 1989.
[2] B. Leiba and N. Borenstein. A Multi-Faceted Approach to Spam Prevention,
Proceedings of the First Conference on E-mail and Anti-Spam, 2004.
[3] Ion Androutsopoulos, John Koutsias, Konstantinos V. Chandrinos, George
Paliouras
and Constantine D. Spyropoulos, An Evaluation Bayes Antispam Filtering,
Proceedings of the workshop on Machine Learning in the New Information Age
[5] P.Graham, Stopping Spam, http://paulgraham.com/stoppingspam.html, August
2003
[6] Flavio D. Garcia.Spam Filter Analysis Arxiv. preprint cs.CR/0402046, 2004 -
arxiv.org
[7] P. Graham, A Plan for Spam, http://paulgraham.com/spam.html, August 2002
[9] M. Sahami, S. Dumais, D. Heckerman and E. Horvitz. A Bayesian Approach to
Filtering Junk E-Mail Proceedings of AAAI-98 Workshop on Learning for Text
Categorization, 1998.
[10]A short Introduction to Boosting Journal of Japanese Society for Artificial
97
Intelligence, 14(5):771-780, September, 1999
[11] Meir, R., and Ratsch, G. 2003. An introduction to boosting and leveraging.
Advanced lectures on machine learning, Springer-Verlag New York, Inc., New
York, NY
[12] Schapire, R. E. and Y. Singer (1998). Improved boosting algorithms using
confidence-rated predictions. In Proceedings of the Eleventh Annual Conference on
Computational Learning Theory.
[13] Carreras, X., and Marquez, L. (2001) Boosting trees for anti-spam email
filtering. In Proceedings of RANLP-01, 4th International Conference on Recent
Advances in Natural Language Processing.
[14] Robert E. Schapire and Yoram Singer. BoosTexter : A boosting-based system
for text categorization. MachineLearning.135-168, 2000
[15] Schapire, R. (2001) The boosting approach to machine learning: an overview.
In MSRI Workshop on Nonlinear Estimation and Classification
[16] Charles Elkan, Boosting and Naive Bayesian learning. Technical Report
CS97-557, University of California, San Diego, 1997
[17]Androutsopoulos.I., et al.(2000) Learning to filter spam e-mail : acomparison of a NaiveBayesian and A memory-based approach. In 4th PKDD(cid:182)sWorkshop on
MachineLearning and Textual Information
Access.
[18] I.Androutsopoulos,G.Paliouras,and E.Michelakis.Learning to filter unsolicited
commercial e-mail.Technical report,National Centre for Scientific
98
Research“Demokritos”,2004.
Ph(cid:1257) l(cid:1257)c
Ph(cid:1257) l(cid:1257)c 1 : K(cid:1219)t qu(cid:1191) th(cid:1265) nghi(cid:1227)m phân lo(cid:1189)i email b(cid:1205)ng
ph(cid:1133)(cid:1131)ng pháp Bayesian v(cid:1247)i kho ng(cid:1267) li(cid:1227)u h(cid:1233)c và ki(cid:1223)m
th(cid:1265) pu
K(cid:1219)t qu(cid:1191) th(cid:1265) nghi(cid:1227)m nhân tr(cid:1233)ng s(cid:1237) non-spam W=1:
Công th(cid:1261)c 5-5
Công th(cid:1261)c 5-6
Công th(cid:1261)c 5-7
K(cid:1219)t qu(cid:1191) th(cid:1265) nghi(cid:1227)m v(cid:1247)i PU1:
10 47 1 60 1
15 48 0 59 2
15 48 0 60 1
10 48 0 59 2
10 47 1 60 1
15 47 1 60 1
20 48 0 59 2
20 48 0 60 1
24 47 1 61 0
24 47 1 61 0
48 48 0 60 1
48 48 0 60 1
48 48 0 61 0
24 48 0 59 2
24 48 0 59 2
24 47 1 60 1
48 5.333333 48 47 0 1 60 61 1 0
48 47 1 61 0
48 0 60 1
48 0 59 2
47 1 61 0
48 0 59 2
20 48 1 (cid:54)(cid:314)S 0 (cid:54)(cid:314)N 59 (cid:49)(cid:314)N 2 (cid:49)(cid:314)S 97.92% 97.92% 100.00% 97.92% 100.00% 100.00% 100.00% 100.00% 100.00% SR 97.92% 97.92% 97.96% 97.92% 97.96% 96.00% 96.00% 96.00% 96.00% SP 24 TCR 48 9 (cid:54)(cid:314)S 0 (cid:54)(cid:314)N 59 (cid:49)(cid:314)N 2 (cid:49)(cid:314)S SR 97.92% 97.92% 100.00% 97.92% 100.00% 100.00% 100.00% 100.00% 100.00% SP 100.00% 100.00% 97.96% 97.92% 100.00% 97.96% 96.00% 96.00% 96.00% 4.8 #DIV/0! 5.333333 2.666667 2.666667 2.666667 TCR 48 46 999 (cid:54)(cid:314)S 0 2 (cid:54)(cid:314)N 60 61 (cid:49)(cid:314)N (cid:49)(cid:314)S 1 0 SR 97.92% 97.92% 100.00% 95.83% 97.92% 100.00% 100.00% 100.00% 100.00% SP 100.00% 100.00% 97.96% 100.00% 100.00% 97.96% 96.00% 96.00% 97.96% 48 0.048048 0.024024 0.024024 0.048048 TCR
48 0.048048
48
24
99
l
Công th(cid:1261)c 5-5
Công th(cid:1261)c 5-6
Công th(cid:1261)c 5-7
K(cid:1219)t qu(cid:1191) th(cid:1265) nghi(cid:1227)m v(cid:1247)i PU2:
20 11 3 57 0
15 10 4 57 0
10 10 4 57 0
15 11 3 56 1
15 10 4 57 0
10 9 5 56 1
10 11 3 56 1
20 13 1 57 0
1 (cid:54)(cid:314)S (cid:54)(cid:314)N (cid:49)(cid:314)N (cid:49)(cid:314)S SR SP TCR 2.333333 9 5 56 1
3.5 4.666667 11 3 57 0
3.5 10 4 57 0
3.5 11 3 56 1
3.5 11 3 56 1
3.5 10 4 57 0
14 12 2 57 0
9 5 57 0
2.8 4.666667 10 4 57 0
3.5 10 4 57 0
3.5 8 6 57 0
1 9 5 56 1
11 3 56 1
10 4 57 0
11 3 56 1
9 5 57 0
9 (cid:54)(cid:314)S (cid:54)(cid:314)N (cid:49)(cid:314)N (cid:49)(cid:314)S SR SP TCR 999 (cid:54)(cid:314)S (cid:54)(cid:314)N (cid:49)(cid:314)N (cid:49)(cid:314)S SR SP TCR 0.013944
20 11 3 56 1 64.29% 71.43% 78.57% 71.43% 71.43% 92.86% 78.57% 78.57% 78.57% 90.00% 100.00% 100.00% 100.00% 100.00% 100.00% 91.67% 91.67% 91.67% 3.5 11 3 56 1 64.29% 64.29% 78.57% 71.43% 71.43% 85.71% 78.57% 78.57% 78.57% 90.00% 100.00% 100.00% 100.00% 100.00% 100.00% 91.67% 91.67% 91.67% 7 1.166667 1.166667 1.166667 11 3 56 1 64.29% 64.29% 71.43% 57.14% 71.43% 71.43% 78.57% 78.57% 78.57% 90.00% 100.00% 100.00% 100.00% 100.00% 100.00% 91.67% 91.67% 91.67% 3.5 0.013972 0.013972 0.013972
3.5 2.333333
2.8
3.5
100
l
Công th(cid:1261)c 5-5
Công th(cid:1261)c 5-6
Công th(cid:1261)c 5-7
K(cid:1219)t qu(cid:1191) th(cid:1265) nghi(cid:1227)m v(cid:1247)i PU3:
10 174 8 215 16
20 178 4 207 24
15 179 3 206 25
15 178 4 211 20
10 177 5 215 16
20 178 4 206 25
10 178 4 214 17
15 178 4 210 21
7.28 6.275862 8.666667 178 178 178 4 4 4 218 211 213 13 20 18
1 (cid:54)(cid:314)S (cid:54)(cid:314)N (cid:49)(cid:314)N (cid:49)(cid:314)S SR SP TCR 8.666667 175 7 218 13
6.5 178 4 212 19
178 4 211 20
173 9 216 15
9 (cid:54)(cid:314)S (cid:54)(cid:314)N (cid:49)(cid:314)N (cid:49)(cid:314)S SR SP TCR 1.467742 1.096386 0.98913 1.504132 175 176 7 6 222 219 9 12
177 5 216 15
173 9 222 9
177 5 214 17
177 5 215 16
20 178 4 208 23 97.25% 97.80% 97.80% 97.80% 98.35% 97.80% 95.60% 97.80% 97.80% 91.71% 89.45% 87.68% 91.28% 87.75% 88.12% 91.58% 89.90% 88.56% 6.5 7.583333 7.583333 6.740741 178 178 4 4 208 209 23 22 96.15% 97.80% 97.80% 97.80% 97.80% 97.80% 95.05% 97.80% 97.80% 93.09% 90.82% 89.90% 93.19% 90.36% 89.00% 92.02% 89.90% 88.56% 1.04 0.90099 1.263889 0.98913 0.862559 177 172 175 999 (cid:54)(cid:314)S 5 10 7 (cid:54)(cid:314)N 215 219 218 (cid:49)(cid:314)N 16 12 13 (cid:49)(cid:314)S 95.05% 96.70% 97.25% 96.15% 96.15% 97.25% 94.51% 97.25% 97.25% SR SP 95.05% 93.62% 92.19% 95.11% 93.09% 91.71% 93.48% 91.24% 91.71% TCR 0.020222 0.015174 0.012141 0.020227 0.014006 0.011383 0.015169 0.010713 0.011383
101
l
Công th(cid:1261)c 5-5
Công th(cid:1261)c 5-6
Công th(cid:1261)c 5-7
K(cid:1219)t qu(cid:1191) th(cid:1265) nghi(cid:1227)m v(cid:1247)i PUA:
15 56 1 53 4
15 56 1 55 2
10 56 1 56 1
15 56 2 54 3
20 56 1 54 3
10 56 1 54 3
20 55 2 55 2
10 57 0 55 2
11.4 56 1 53 4
28.5 56 1 56 1
14.25 55 2 55 2
14.25 56 1 54 3
14.25 55 2 54 3
11.6 55 2 54 3
28.5 54 3 56 1
19 55 2 55 2
2.85 1.965517 1.965517 55 55 2 2 54 55 3 2
5.7 1.540541 2.035714 54 54 52 3 3 5 54 54 56 3 3 1
4.75 52 5 56 1
2.85 51 6 55 2
54 3 56 1
20 56 1 (cid:54)(cid:314)S 1 (cid:54)(cid:314)N 53 (cid:49)(cid:314)N (cid:49)(cid:314)S 4 SR 100.00% 98.25% 98.25% 98.25% 98.25% 96.49% 98.25% 96.55% 98.25% 96.61% 93.33% 94.92% 98.25% 96.55% 96.49% 94.92% 94.92% 93.33% SP 11.4 TCR 55 9 (cid:54)(cid:314)S 2 (cid:54)(cid:314)N 53 (cid:49)(cid:314)N (cid:49)(cid:314)S 4 98.25% 98.25% 98.25% 94.74% 96.49% 96.49% 96.49% 96.49% 96.49% SR 98.25% 93.33% 94.92% 98.18% 96.49% 96.49% 94.83% 94.83% 93.22% SP 1.5 TCR 55 999 (cid:54)(cid:314)S 2 (cid:54)(cid:314)N 53 (cid:49)(cid:314)N 4 (cid:49)(cid:314)S 91.23% 94.74% 94.74% 91.23% 89.47% 94.74% 96.49% 96.49% 96.49% SR 98.11% 94.74% 94.74% 98.11% 96.23% 98.18% 96.49% 94.83% 93.22% SP 0.0285 0.019006 0.014257 TCR 0.056773
0.019 0.056773 0.028443 0.056886
0.019
102
l
Ph(cid:1257) l(cid:1257)c 2 : K(cid:1219)t qu(cid:1191) th(cid:1265) nghi(cid:1227)m phân lo(cid:1189)i email b(cid:1205)ng
ph(cid:1133)(cid:1131)ng pháp AdaBoost v(cid:1247)i kho ng(cid:1267) li(cid:1227)u h(cid:1233)c và ki(cid:1223)m
th(cid:1265) pu
1. K(cid:1219)t qu(cid:1191) th(cid:1269)c hi(cid:1227)n v(cid:1247)i thu(cid:1201)t toán AdaBoost with
real value predictions:
Ng(cid:1267) li(cid:1227)u(cid:54)(cid:1237) email h(cid:1233)c S(cid:1237) email ki(cid:1223)m th(cid:1265)S->SS->NN->NN->SSR
SP
SpamNon-spamSpam Non-spam 61
549
432
PU1
PU2
126
513
57
PU3
1638
2079
PUA
513
513
57
48 432 14 126 182 1638 57 513
48 549 432 12 513 126 231 176 20791638 56 513 513
0 58 0 549 2 56 0 513 6 216 0 2079 1 38 0 513
3100.00% 94.12% 0100.00%100.00% 1 85.71% 92.31% 0100.00%100.00% 15 96.70% 92.15% 0100.00%100.00% 19 98.25% 74.67% 0100.00%100.00%
a) T=500
Ng(cid:1267) li(cid:1227)u (cid:54)(cid:1237) email h(cid:1233)c
S(cid:1237) email ki(cid:1223)m th(cid:1265) S->S S->N N->N N->S SR
SP
Spam Non-spam Spam Non-spam
PU1
432
549
48
61
48
0
58
3 100.00% 94.12%
432
549 432
0 549
0 100.00% 100.00%
PU2
126
513
14
57
12
2
57
0 85.71% 100.00%
126
513 126
0 513
0 100.00% 100.00%
PU3
1638
2079
182
231 178
4 217
14 97.80% 92.71%
1638
2079 1634
4 2079
0 99.76% 100.00%
PUA
513
513
57
57
56
1
40
17 98.25% 76.71%
513
513 513
0 513
0 100.00% 100.00%
103
b) T=200
c) T=100
SP
Ng(cid:1267) li(cid:1227)u(cid:54)(cid:1237) email h(cid:1233)c S(cid:1237) email ki(cid:1223)m th(cid:1265)S->SS->NN->NN->SSR
SpamNon-spamSpam Non-spam
PU1
432
549
48
61
48
0
59
2 97.96% 96.00%
549 432
0 549
0100.00%100.00%
432
PU2
126
513
57
12
2
56
1 85.71% 92.31%
14
513 126
0 513
0100.00%100.00%
126
PU3
1638
2079
182
231 174
8 215
16 95.60% 91.58%
1638
20791618 20 2067
12 98.78% 99.26%
PUA
513
513
57
57
56
1
38
19 98.25% 74.67%
513
513 513
0 513
0100.00%100.00%
d) T=50
Ng(cid:1267) li(cid:1227)u(cid:54)(cid:1237) email h(cid:1233)c S(cid:1237) email ki(cid:1223)m th(cid:1265)S->SS->NN->NN->SSR
SP
SpamNon-spamSpam Non-spam 61
549
432
PU1
57
PU2
126
513
47 549 431 11 513 126 231 174
PU3
1638
2079
57
PUA
513
513
57 1 1 547 3 57 0 513 8 214 20791592 46 2046 0 37 1 510
57 513 512
4 97.92% 92.16% 2 99.77% 99.54% 0 78.57%100.00% 0100.00%100.00% 17 95.60% 91.10% 33 97.19% 97.97% 20100.00% 74.03% 3 99.81% 99.42%
48 432 14 126 182 1638 57 513
e) T=10
Ng(cid:1267) li(cid:1227)u(cid:54)(cid:1237) email h(cid:1233)c S(cid:1237) email ki(cid:1223)m th(cid:1265)S->S S->NN->NN->SSR
SP
3
SpamNon-spamSpam Non-spam 61
549
432
PU1
4
57
PU2
126
513
56 37 515 57 24 502 25 218
45 549 395 10 513 102 231 157
PU3
1638
2079
57
PUA
513
513
593.75% 90.00% 3491.44% 92.07% 071.43% 100.00% 1180.95% 90.27% 1386.26% 92.35% 20791419 219 2018 6186.63% 95.88% 2898.25% 66.67% 7699.42% 87.03%
56 513 510
29 1 3 437
48 432 14 126 182 1638 57 513
f) T=5
SP
Ng(cid:1267) li(cid:1227)u(cid:54)(cid:1237) email h(cid:1233)c S(cid:1237) email ki(cid:1223)m th(cid:1265)S->S S->NN->NN->SSR
SpamNon-spamSpam Non-spam 61
549
432
PU1
4
48 432
44 549 388
53 44 493
891.67% 84.62% 5689.81% 87.39%
104
PU2
126
513
5
PU3
1638
2079
57 52 497 39 214
9 57 513 74 231 143
PUA
513
513
57
38
2
14 126 182 1638 57 513
064.29% 100.00% 1658.73% 82.22% 1778.57% 89.38% 20791352 286 1994 8582.54% 94.08% 1996.49% 74.32% 18 412 10196.49% 83.05%
55 513 495
2. K(cid:1219)t qu(cid:1191) th(cid:1269)c hi(cid:1227)n v(cid:1247)i thu(cid:1201)t toán AdaBoost with
discrete predictions
Ng(cid:1267) li(cid:1227)u(cid:54)(cid:1237) email h(cid:1233)c S(cid:1237) email ki(cid:1223)m th(cid:1265)S->SS->NN->NN->SSR
SP
SpamNon-spamSpam Non-spam
PU1
432
549
61
46
2
57
4 95.83% 92.00%
48
549 432
0 549
0100.00%100.00%
432
PU2
126
513
14
57
13
1
57
0 92.86%100.00%
513 126
0 513
0100.00%100.00%
126
PUA
513
513
57
53
4
45
12 92.98% 81.54%
57
513
513
513 513
0 513
0100.00%100.00%
513
PU3
1638
2079
182
231 173
9 216
15 95.05% 92.02%
1638
20791624 14 2074
5 99.15% 99.69%
a) T=500
Ng(cid:1267) li(cid:1227)u(cid:54)(cid:1237) email h(cid:1233)c S(cid:1237) email ki(cid:1223)m th(cid:1265)S->SS->NN->NN->SSR
SP
SpamNon-spamSpam Non-spam 61
549
432
48
45
PU1
3
58
3 93.75% 93.75%
549 432
0 549
0100.00%100.00%
432
PU2
126
513
57
13 513 126
1 57 0 513
0 92.86%100.00% 0100.00%100.00%
14 126
PUA
513
513
57
53
4
45
12 92.98% 81.54%
57
PU3
513 1638
513 2079
513 513 0 512 231 172 10 217
1100.00% 99.81% 14 94.51% 92.47%
513 182
1638
20791596 42 2062
17 97.44% 98.95%
b) T=200
Ng(cid:1267) li(cid:1227)u(cid:54)(cid:1237) email h(cid:1233)c S(cid:1237) email ki(cid:1223)m th(cid:1265)S->SS->NN->NN->SSR
SP
SpamNon-spamSpam Non-spam
PU1
432
549
61
46
2
57
4 95.83% 92.00%
48
549 430
2 546
3 99.54% 99.31%
432
105
c) T=100
14
PU2
126
513
57
12
57
0 85.71%100.00%
2
126
513 126
0 513
0100.00%100.00%
57
3
57
54
45
12 94.74% 81.82%
PUA
513
513
513
513 507
6 505
8 98.83% 98.45%
513
513
182
PU3
1638
2079
231 173
9 214
17 95.05% 91.05%
1638
20791580 58 2035
44 96.46% 97.29%
SP
Ng(cid:1267) li(cid:1227)u(cid:54)(cid:1237) email h(cid:1233)c S(cid:1237) email ki(cid:1223)m th(cid:1265)S->SS->NN->NN->SSR
SpamNon-spamSpam Non-spam 61
549
432
48
PU1
46
2
54
7 95.83% 86.79%
432 14
549 422 10 542 57
57
12
2
7 97.69% 98.37% 0 85.71%100.00%
PU2
126
513
126 57
513 126 56
57
0 513 44 1
0100.00%100.00% 13 98.25% 81.16%
PUA
513
513
513
513 495 18 488
25 96.49% 95.19%
513
513
231 173
PU3
1638
2079
182 1638
9 218 20791557 81 2018
13 95.05% 93.01% 61 95.05% 96.23%
e) T=10
SP
Ng(cid:1267) li(cid:1227)u(cid:54)(cid:1237) email h(cid:1233)c S(cid:1237) email ki(cid:1223)m th(cid:1265)S->SS->NN->NN->SSR
SpamNon-spamSpam Non-spam 61
432
549
PU1
PU2
126
513
1 404 0 504 56 3
PUA
57 513 57
4
PU3
513 513 1638
513 513 2079
48 432 14 126 57 513 182 1638
28 97.92%62.67% 47 45100.00%90.57% 549 432 11 1 78.57%91.67% 97 29 304 209 76.98%31.70% 12 92.98%81.54% 53 64 91.62%88.01% 13 95.05%93.01% 61 95.05%96.23%
45 513 470 43 449 9 218 231 173 20791557 81 2018
d) T=50
SP Spam
Ng(cid:1267) li(cid:1227)uS(cid:1237) email h(cid:1233)c S(cid:1237) email ki(cid:1223)m th(cid:1265)S->SS->NN->NN->SSR PU1
SpamNon-spamSpam Non-spam 61
432
549
9
PU2
126
513
57
5
56 72 517 56
PUA
57
38
3
PU3
513 513 1638
513 513 2079
48 432 14 126 57 513 182 1638
39 549 360 9 513 106 54 513 484 231 171 20791387
581.25%88.64% 3283.33%91.84% 164.29%90.00% 20 305 16384.13%39.41% 1994.74%73.97% 29 396 11794.35%80.53% 3193.96%84.65% 11 200 6194.48%95.79% 81 2018
106
f) T=5