- 1 -
ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Bùi Ngc Lan
NGHIÊN CU MNG THƯ ĐIN T
NG DNG TRONG LC THƯ RÁC
KHÓA LUN TT NGHIP ĐẠI HC H CHÍNH QUI
Ngành: Công ngh thông tin
Hà Ni - 2006
- 2 -
ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Bùi Ngc Lan
NGHIÊN CU MNG THƯ ĐIN T
NG DNG TRONG LC THƯ RÁC
KHÓA LUN TT NGHIP ĐẠI HC H CHÍNH QUI
Ngành: Công ngh thông tin
Cán b hướng dn: Tiến sĩ Trn Quang Anh
Cán b đồng hướng dn: Tiến sĩ Hà Quang Thy
Hà Ni - 2006
- 3 -
L
L
I
I
C
C
M
M
Ơ
ƠN
N
Đầu tiên, em mun gi li cm ơn chân thành và biết ơn sâu sc ti Tiến sĩ
Trn Quang Anh (Trường Đại hc Thanh Hoa Trung Quc) và Tiến sĩ Hà Quang Thy
(Trường Đại hc Công ngh - Đại hc Quc Gia Hà Ni) đã tn tình ch bo và hướng
dn em trong sut quá trình thc hin khoá lun này.
Em xin chân thành cám ơn các thy lãnh đạo Vin CNTT - ĐHQGHN, anh
Nguyn Vit Cường (Trường Đại hc Công ngh - ĐHQGHN) và anh Phan Bá Hùng
(Vin Công ngh Thông tin - ĐHQGHN) đã giúp đỡ, to điu kin thun li để em
tiến hành có kết qu các th nghim trên mail-server thc.
Em xin bày t li cm ơn sâu sc ti các thy, cô trong trường Đại hc Công
ngh đã dy d và tn tình ch bo cho em trong sut quá trình hc tp ti trường.
Em cũng mun gi li cm ơn ti các thy cô, anh ch và các bn trong nhóm
xê-mi-na “Khai phá d liu và khám phá tri thc” thuc b môn Các h thng thông
tin, Trường Đại hc Công ngh đã ng h và khuyến khích em trong quá trình nghiên
cu và thc hin khoá lun này.
Và li cui cùng, em xin gi li cm ơn chân thành và biết ơn vô hn ti b, m,
anh ch nhng người đã có công sinh thành, nui nng, dy d và luôn động viên,
khuyến khích em trong cuc sng, trong hc tp và làm vic.
Sinh viên
Bùi Ngc Lan
- 4 -
Tóm tt
Vn đề thư rác t lâu đã gây không ít phin nhiu cho người s dng thư đin t
và là vn đề đau đầu ca nhng người qun lý mng. Có rt nhiu gii pháp chng thư
rác đã được đưa ra và áp dng trong thc tế. Tuy nhiên, các phương pháp này đều t ra
chưa thc s hiu qu và mang nhng nhược đim c hu ca nó. Trong lun văn này,
trên cơ s nghiên cu cu trúc và các tính cht đặc trương ca mng thư đin t (Email
Networks) t đó đề xut mt phương pháp lc thư rác mi da trên mng thư đin t.
Khác vi phương pháp lc thư rác da trên mng thư đin t trước đây [1], phương
pháp đưa ra đã khai thác được tính cht có hướng ca đồ th mng thư đin t và xem
xét đồ th mng thư đin tđồ th có trng s để xây dng mt công thc tính độ
phân cm (clustering coefficient) mi. Để kim chng phương pháp đưa ra, khóa lun
thc hin thí nghim trên log files ca máy ch e-mail thc ca Đại hc Quc gia Hà
Ni. Kết qu thc nghim cho thy được tính đúng đắn ca phương pháp và phương
pháp này có th khc phc được nhiu nhược đim c hu ca các gii pháp trước đây.
- 5 -
Mc lc
L
L
I
I
C
C
M
M
Ơ
ƠN
N ............................................................................................3
M ĐẦU.....................................................................................................8
CHƯƠNG 1: TNG QUAN V THƯ RÁC .........................................10
1.1 Khái nim thư rác ............................................................................10
1.1.1 Thư rác là gì ?..............................................................................................10
1.1.2 Các đặc đim ca thư rác. ...........................................................................11
1.1.3 Phân loi thư rác .........................................................................................12
1.1.4 Nhng thit hi do thư rác gây ra................................................................13
1.2 Các gii pháp cho vn đề lc thư rác...............................................16
1.2.1 Ban hành các b lut chng thư rác ............................................................16
1.2.2 Các phương pháp lc thư rác trước đây......................................................16
CHƯƠNG 2: KIN THC CƠ S.......................................................26
2.1 Mng phc hp (Complex Networks)..............................................26
2.1.1 Độ dài đường dn trung bình.......................................................................30
2.1.2 Độ phân cm ................................................................................................31
2.1.3 Độ phân b bc ............................................................................................31
2.2 Các mô hình ca mng phc hp ....................................................33
2.2.1 Mng cp thông thường (Regular coupled networks) .................................33
2.2.2 Đồ th ngu nhiên (Random Graphs)...........................................................34
2.2.3 Các mô hình Small-world ............................................................................36
2.2.4 Các mô hình Scale-free ................................................................................39
2.3 Mng xã hi (Social Networks).......................................................41
2.4 Mng thư đin t (Email Networks)................................................43
2.4.1 Mng thư đin t scale-free. .........................................................................43
2.4.2 Tính cht Small-world ca mng thư đin t. .............................................44
2.4.3 Mng thư đin t là mng có hướng............................................................46
2.4.4 S lan rng ca virus trong mng thư đin t.............................................48
2.4.5 Mng thư đin t khi b spam tn công .......................................................49