ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
---------<>---------
Nguynn Huy
THUT TOÁN BAYES VÀ ỨNG DỤNG
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành : Công Ngh Thông Tin
HÀ NỘI 2009
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
---------<>---------
Nguynn Huy
THUT TOÁN BAYES VÀ ỨNG DỤNG
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành : Công Ngh Thông Tin
n b hướng dẫn: ThS. Nguyễn Nam Hải
Cán b đồng hướng dẫn: ThS. Đỗ Hoàng Kiên
HÀ NỘI 2009
Thuật toán Bayes và ứng dụng
ii
Lời cảm ơn
Viết khóa luận khoa học là một trong những việc khó khăn nhất mà em phải
hoàn thành ttrước đến nay. Trong quá trình thực hiện đề tài em đã gặp rất nhiều khó
khăn b ngỡ. Nếu không những sự giúp đỡ và li động viên chân thành của
nhiều thầy cô bạn bè và gia gia đình có lem khó có thể hoàn thành luận văn này.
Đầu tiên em xin gửi lời cm ơn chân thành đến thày Nguyễn Nam Hải và thày
Đỗ Hoàng Kiên đã trực tiếp hướng dẫn em hoàn thành luận văn này. Nh thày
em được tiếp cận với nguồn tài liệu giá trị cũng như những góp ý qgiá sau này. Bên
cạnh sgiúp đỡ đó, em còn được các thày n Trung m máy tính to mọi điều kiện
tốt nhất về cơ sở vật chất cũng như hướng dẫn chỉ bảo ân cần để em được tiếp cận với
hệ thống. Em biết ơn những ngày tháng được làm việc bên các thày, em không thể nào
quên những ngày tháng tuyệt vời đó.
Trong quá trình góp nhặt những kiến thức quý báu, các thày, cô, bạn bè
những người đã cùng em sát cánh trong suốt thời gian em học tập và nghiên cứu dưới
mái trường Đại học Công nghệ.
Trong những nỗ lực đó, không thể không kể đến công lao to lớn không gì có th
đền đáp của cha mẹ những người đã sinh thành, dưỡng dục con nên người, luôn nhắc
nh, động viên con hoàn thành tốt nhiệm vụ.
Hà Nội
Tháng 5, 2009
Nguyn Văn Huy
Thuật toán Bayes và ứng dụng
iii
Tóm tt nội dung
Thống kê (toán học) là b môn toán học rất quan trọng vànhiều ứng dụng to
lớn trong thực tế, giúp con người rút ra thông tin tdữ liệu quan sát, nhằm giải quyết
các bài toán thực tế trong cuộc sống.
Trong khóa luận này trình bày vmột tiếp cận thống kê trong việc dự đoán sự
kiện dựa vào thuyết Bayes. thuyết này nói vviệc tính xác suất của sự kiện da
vào các kết quả thống kê các skiện trong qkhứ. Sau việc tính toán mỗi sự kiện
được gán xác xuất hay điểm (tùy vào mỗi phương pháp đánh giá) ứng với khả năng có
thể xảy ra với sự kiện đó. Và cuối cùng dựa vào ngưỡng để phân loại cho các sự kiện.
Sau phần thuyết chúng ta sẽ tìm hiểu vbài toán thực tế trong ngành công
nghthông tin. Bài toán vviệc lọc thư rác tự động. Giải quyết bài này skết hợp
trất nhiều phương án như DNS Blacklist, kiểm tra người nhận, người gửi, dùng b
lọc Bayes, chặn địa chỉ IP, Blacklist/Whitelist,.... Dùng b lọc Bayes phương án
thông minh gn gũi với người dùng bởi chính người dùng đã huấn luyện nhận
biết thư rác. Khóa luận này tập chung vào việc tìm hiểu bộ lọc thư rác Bayesspam
nguồn mở, cài đặt cho hệ thống email tên SquirrelMail nguồn mở đang
được dùng cho hthống email của trường đại học Công nghệ - Coltech Mail. Kết quả
cho thấy bộ lọc mức độ hoạt động hiệu quả khác nhau tùy thuộc việc người dùng
huấn luyện cho bộ lọc thông qua các thư điện tmà họ cho là thư rác nhưng nói chung
bộ lọc đã đem lại hiệu quả khá tốt.
Thuật toán Bayes và ứng dụng
iv
Mục lục
Chương 1 Giới thiệu.................................................................................. 1
1.1 Tổng quan.......................................................................................................1
1.2 Cấu trúc..........................................................................................................3
Chương 2 Cơ s thuyết.......................................................................... 4
2.1 Phát biểu định lý Bayes ..................................................................................4
2.2 Cực tiểu hóa rủi ro trong bài toán phân lớp Bayes...........................................5
2.3 Phân lp Bayes chuẩn tắc .............................................................................13
2.4 Miền quyết định............................................................................................20
Chương 3 Phân lớp Naive Bayes............................................................. 22
3.1 Định nghĩa....................................................................................................22
3.2 Các mô hình xác suất Naive Bayes ...............................................................23
3.3 Ước lượng tham số .......................................................................................24
3.4 Xây dựng một classifier từ mô hình xác suất.................................................25
3.5 Thuật toán phân loại văn bản Naive Bayes....................................................25
Ví dụ: Phân loại thư điện tử bằng Naive Bayes classifier...................................27
Chương 4 Giải quyết bài toán lc t rác .............................................. 30
4.1 Đặt vấn đề ....................................................................................................30
4.2 Bài toán ........................................................................................................31
4.3 Tiền xử lý mỗi lá thư điện tử.........................................................................31
4.4 Dùng luật Bayes tính xác suất.......................................................................32
4.5 Huấn luyện cho bộ lọc Bayes........................................................................33
4.6 Lọc thư đến, có là thư rác không? .................................................................34
4.7 Bộ lọc BayesSpam........................................................................................35
4.8 Một số cải tiến cho bộ lọc BayesSpam..........................................................38
Chương 5 Kết luận .................................................................................. 40