
- 1 -
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Bùi Ngọc Lan
NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬ
VÀ ỨNG DỤNG TRONG LỌC THƯ RÁC
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI
Ngành: Công nghệ thông tin
Hà Nội - 2006

- 2 -
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Bùi Ngọc Lan
NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬ
VÀ ỨNG DỤNG TRONG LỌC THƯ RÁC
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: Tiến sĩ Trần Quang Anh
Cán bộ đồng hướng dẫn: Tiến sĩ Hà Quang Thụy
Hà Nội - 2006

- 3 -
L
LỜ
ỜI
I
C
CẢ
ẢM
M
Ơ
ƠN
N
Đầu tiên, em muốn gửi lời cảm ơn chân thành và biết ơn sâu sắc tới Tiến sĩ
Trần Quang Anh (Trường Đại học Thanh Hoa Trung Quốc) và Tiến sĩ Hà Quang Thụy
(Trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội) đã tận tình chỉ bảo và hướng
dẫn em trong suốt quá trình thực hiện khoá luận này.
Em xin chân thành cám ơn các thầy lãnh đạo Viện CNTT - ĐHQGHN, anh
Nguyễn Việt Cường (Trường Đại học Công nghệ - ĐHQGHN) và anh Phan Bá Hùng
(Viện Công nghệ Thông tin - ĐHQGHN) đã giúp đỡ, tạo điều kiện thuận lợi để em
tiến hành có kết quả các thử nghiệm trên mail-server thực.
Em xin bày tỏ lời cảm ơn sâu sắc tới các thầy, cô trong trường Đại học Công
nghệ đã dạy dỗ và tận tình chỉ bảo cho em trong suốt quá trình học tập tại trường.
Em cũng muốn gửi lời cảm ơn tới các thầy cô, anh chị và các bạn trong nhóm
xê-mi-na “Khai phá dữ liệu và khám phá tri thức” thuộc bộ môn Các hệ thống thông
tin, Trường Đại học Công nghệ đã ủng hộ và khuyến khích em trong quá trình nghiên
cứu và thực hiện khoá luận này.
Và lời cuối cùng, em xin gửi lời cảm ơn chân thành và biết ơn vô hạn tới bố, mẹ,
anh chị những người đã có công sinh thành, nuối nấng, dạy dỗ và luôn động viên,
khuyến khích em trong cuộc sống, trong học tập và làm việc.
Sinh viên
Bùi Ngọc Lan

- 4 -
Tóm tắt
Vấn đề thư rác từ lâu đã gây không ít phiền nhiễu cho người sử dụng thư điện tử
và là vấn đề đau đầu của những người quản lý mạng. Có rất nhiều giải pháp chống thư
rác đã được đưa ra và áp dụng trong thực tế. Tuy nhiên, các phương pháp này đều tỏ ra
chưa thực sự hiệu quả và mang những nhược điểm cố hữu của nó. Trong luận văn này,
trên cơ sở nghiên cứu cấu trúc và các tính chất đặc trương của mạng thư điện tử (Email
Networks) từ đó đề xuất một phương pháp lọc thư rác mới dựa trên mạng thư điện tử.
Khác với phương pháp lọc thư rác dựa trên mạng thư điện tử trước đây [1], phương
pháp đưa ra đã khai thác được tính chất có hướng của đồ thị mạng thư điện tử và xem
xét đồ thị mạng thư điện tử là đồ thị có trọng số để xây dựng một công thức tính độ
phân cụm (clustering coefficient) mới. Để kiểm chứng phương pháp đưa ra, khóa luận
thực hiện thí nghiệm trên log files của máy chủ e-mail thực của Đại học Quốc gia Hà
Nội. Kết quả thực nghiệm cho thấy được tính đúng đắn của phương pháp và phương
pháp này có thể khắc phục được nhiều nhược điểm cố hữu của các giải pháp trước đây.

- 5 -
Mục lục
L
LỜ
ỜI
I
C
CẢ
ẢM
M
Ơ
ƠN
N ............................................................................................3
MỞ ĐẦU.....................................................................................................8
CHƯƠNG 1: TỔNG QUAN VỀ THƯ RÁC .........................................10
1.1 Khái niệm thư rác ............................................................................10
1.1.1 Thư rác là gì ?..............................................................................................10
1.1.2 Các đặc điểm của thư rác. ...........................................................................11
1.1.3 Phân loại thư rác .........................................................................................12
1.1.4 Những thiệt hại do thư rác gây ra................................................................13
1.2 Các giải pháp cho vấn đề lọc thư rác...............................................16
1.2.1 Ban hành các bộ luật chống thư rác ............................................................16
1.2.2 Các phương pháp lọc thư rác trước đây......................................................16
CHƯƠNG 2: KIẾN THỨC CƠ SỞ.......................................................26
2.1 Mạng phức hợp (Complex Networks)..............................................26
2.1.1 Độ dài đường dẫn trung bình.......................................................................30
2.1.2 Độ phân cụm ................................................................................................31
2.1.3 Độ phân bố bậc ............................................................................................31
2.2 Các mô hình của mạng phức hợp ....................................................33
2.2.1 Mạng cặp thông thường (Regular coupled networks) .................................33
2.2.2 Đồ thị ngẫu nhiên (Random Graphs)...........................................................34
2.2.3 Các mô hình Small-world ............................................................................36
2.2.4 Các mô hình Scale-free ................................................................................39
2.3 Mạng xã hội (Social Networks).......................................................41
2.4 Mạng thư điện tử (Email Networks)................................................43
2.4.1 Mạng thư điện tử scale-free. .........................................................................43
2.4.2 Tính chất Small-world của mạng thư điện tử. .............................................44
2.4.3 Mạng thư điện tử là mạng có hướng............................................................46
2.4.4 Sự lan rộng của virus trong mạng thư điện tử.............................................48
2.4.5 Mạng thư điện tử khi bị spam tấn công .......................................................49

