BỘ GIÁO DỤC VÀ ĐÀO TẠO<br />
TRƢỜNG ĐẠI HỌC LẠC HỒNG<br />
--------<br />
<br />
NGUYỄN THANH PHONG<br />
<br />
XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG<br />
KHIÊU DÂM DỰA TRÊN URL VÀ TEXT CONTENT<br />
<br />
Luận văn Thạc sĩ Công nghệ Thông tin<br />
<br />
ĐỒNG NAI, 2014<br />
<br />
BỘ GIÁO DỤC VÀ ĐÀO TẠO<br />
TRƢỜNG ĐẠI HỌC LẠC HỒNG<br />
--------<br />
<br />
NGUYỄN THANH PHONG<br />
XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG<br />
KHIÊU DÂM DỰA TRÊN URL VÀ TEXT CONTENT<br />
Chuyên ngành: Công nghệ Thông tin<br />
Mã số: 60480201<br />
<br />
Luận văn Thạc sĩ Công nghệ Thông tin<br />
<br />
NGƢỜI HƢỚNG DẪN KHOA HỌC<br />
TS. VŨ ĐỨC LUNG<br />
<br />
ĐỒNG NAI, 2014<br />
<br />
LỜI CẢM ƠN<br />
Với những lời đầu tiên, em xin dành sự cảm ơn chân thành và sâu sắc tới<br />
thầy tiến sỹ Vũ Đức Lung đã hƣớng dẫn và giúp đỡ em tận tình trong quá trình hoàn<br />
thành luận văn.<br />
Em cũng xin cảm ơn quý Thầy Cô Trƣờng Đại học Lạc Hồng đã tận tình<br />
truyền dạy kiến thức trong quá trình em học tập tại trƣờng, những kiến thức đó đã<br />
giúp em rất nhiều trong việc học tập và nghiên cứu sau này.<br />
Cuối cùng, xin gửi lời cảm ơn tới những ngƣời thân trong gia đình và bạn bè,<br />
đồng nghiệp đã giúp đỡ và tạo điều kiện tốt trong quá trình làm luận văn.<br />
<br />
Đồng Nai, tháng 08 năm 2014<br />
Trân trọng<br />
<br />
Nguyễn Thanh Phong<br />
<br />
LỜI CAM ĐOAN<br />
Tôi xin cam đoan kết quả đạt đƣợc trong luận văn là sản phẩm của riêng cá<br />
nhân, là kết quả của quá trình học tập và nghiên cứu khoa học độc lập. Trong toàn<br />
bộ nội dung của luận văn, những điều đƣợc trình bày hoặc là của cá nhân hoặc là<br />
đƣợc tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có xuất xứ<br />
rõ ràng và đƣợc trích dẫn hợp pháp.<br />
Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy<br />
định cho lời cam đoan của mình.<br />
<br />
Đồng Nai, tháng 08 năm 2014<br />
Tác giả<br />
<br />
Nguyễn Thanh Phong<br />
<br />
MỤC LỤC<br />
LỜI CẢM ƠN<br />
LỜI CAM ĐOAN<br />
MỤC LỤC<br />
KÝ HIỆU CÁC CỤM TỪ VIẾT TẮT<br />
DANH SÁCH CÁC BẢNG BIỂU, HÌNH VẼ<br />
MỞ ĐẦU ..................................................................................................................... 1<br />
Lý do chọn đề tài ......................................................................................................... 1<br />
Mục tiêu đề tài ............................................................................................................. 2<br />
Nội dung thực hiện ...................................................................................................... 2<br />
Phƣơng pháp thực hiện................................................................................................ 3<br />
CHƢƠNG 1. TỔNG QUAN VỀ TRÍCH LỌC DỮ LIỆU TRÊN WEBSITE ..... 4<br />
1.1 Giới thiệu ............................................................................................................. 4<br />
1.2 Các loại bộ lọc WEB có nội dung khiêu dâm ..................................................... 4<br />
1.2.1 Bộ lọc WEB dựa vào địa chị mạng .................................................................. 4<br />
1.2.2 Bộ lọc WEB dựa vào URL .............................................................................. 6<br />
1.2.3 Bộ lọc WEB dựa vào DNS .............................................................................. 9<br />
1.2.4 Bộ lọc WEB dựa vào từ khóa ........................................................................ 10<br />
1.2.5 Bộ lọc WEB dựa vào nội dung text và hình ảnh............................................ 10<br />
1.3 Các công trình liên quan .................................................................................. 11<br />
CHƢƠNG 2. CÁC LÝ THUYẾT ỨNG DỤNG TRONG LUẬN VĂN ............. 15<br />
2.1 Rút trích nội dung của website .......................................................................... 15<br />
2.1.1 Phân tích mã HTML ...................................................................................... 15<br />
2.1.2 So sánh khung mẫu ........................................................................................ 16<br />
2.1.3 Xử lý ngôn ngữ tự nhiên ................................................................................ 17<br />
2.2 Phân tích nội dung thành các token .................................................................. 18<br />
2.2.1 Tiền xử lý dữ liệu ........................................................................................... 19<br />
2.2.2 Tách câu dựa trên Maximum Entropy ........................................................... 19<br />
2.2.3 Tách từ ........................................................................................................... 21<br />
2.2.3.1 Phƣơng pháp Maximum Matching .............................................................. 25<br />
2.2.3.2 Phƣơng pháp Transformation – based learning – TBL................................ 25<br />
<br />