
SEMINAR: C S D LI U NÂNG CAOƠ Ở Ữ Ệ
NGHIÊN C U B L C TH SPAM Ứ Ộ Ọ Ư
TRÊN C S M NG BAYESƠ Ở Ạ
H c viên: Nguy n Vi t Linhọ ễ ế
MS: CH0601038

GI I THI UỚ Ệ
Các b l c th spam trên c s lu t và d u hi u ộ ọ ư ơ ở ậ ấ ệ
không có kh năng t t o ra quy t đ nh và l c ả ự ạ ế ị ọ
các spam m i.ớ
Các b l c th trên c s m ng Bayes cho phép ộ ọ ư ơ ở ạ
b l c có th ‘h c’ và có kh năng t ra quy t ộ ọ ể ọ ả ự ế
đ nh v i các spam m i.ị ớ ớ
Các b phân l p trên c s máy h c cho ta hi u ộ ớ ơ ở ọ ệ
qu l c và phán đoán các th spam hi u qu ả ọ ư ệ ả
cao. V i các b l c trên c s m ng Bayes đ c ớ ộ ọ ơ ở ạ ượ
hu n luy n t t, đ chính xác có th đ t t i 99 %.ấ ệ ố ộ ể ạ ớ

GI I THI UỚ Ệ
Trong seminar này chúng ta s đ c p đ n các ẽ ề ậ ế
v n các đ sau đ xây d ng b l c spam k ấ ề ể ự ộ ọ ỹ
thu t Bayes:ậ
•B l c spam trên c s m ng Bayes đ n gi nộ ọ ơ ở ạ ơ ả
•B l c spam trên c s m ng Bayes đ y độ ọ ơ ở ạ ầ ủ
•Các ph ng th c hu n luy n cho các b l c spam kươ ứ ấ ệ ộ ọ ỹ
•Phân l p Email và s phân l p saiớ ự ớ
•Hi n th c b phân l p spam Bayesệ ự ộ ớ

I. B L C SPAM TRÊN C S M NG BAYES Đ N GI NỘ Ọ Ơ Ở Ạ Ơ Ả
(T ng quan v m ng Bayes)ổ ề ạ
M ng Bayes là m t d ng mô hình đ th ạ ộ ạ ồ ị
theo xác su t không có cung tr c ti p. ấ ự ế
Các nút bi u di n các bi n ng u nhiên, ể ễ ế ẫ
các cung bi u di n m i quan h ph ể ễ ố ệ ụ
thu c gi a các bi n.ộ ữ ế
N u các bi n là X1, ... , Xn và “parents(A)” ế ế
là các cha c a nút A, thì phân b k t n i ủ ố ế ố
cho X1 t i Xn đ c bi u di n d i d ng ớ ượ ể ễ ướ ạ
k t qu c a phân b theo xác su t: ế ả ủ ố ấ
P(X1,..., Xn) = ∏P(Xi | parents(Xi)) for i = 1 to n.

I. B L C SPAM TRÊN C S M NG BAYES Đ N GI NỘ Ọ Ơ Ở Ạ Ơ Ả
(Mô hình m ng Bayes đ n gi n)ạ ơ ả
M t m ng Bayes đ n gi n nh t gộ ạ ơ ả ấ m mồt nút cha ộ
và t t c các bi n khác là con c a nút cha. N u ấ ả ế ủ ế
bi n cha là “Xp”, thì công th c phân b k t n i ế ứ ố ế ố
nh sau: P(Xp, X1, ..., Xn) = P(Xp) ∏ưP(Xi|Xp) for
i = 1 to n.
B phân l p Naive Bayes là m t b phân l p ộ ớ ộ ộ ớ
theo xác su t đ n gi n. L i ích chính c a b ấ ơ ả ợ ủ ộ
phân l p Naive Bayes là có th hu n luy n r t ớ ể ấ ệ ấ
hi u qu b ng vi c h c có giám sát. ệ ả ằ ệ ọ