intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn Thạc sĩ Công nghệ Thông tin: Xây dựng bộ lọc phát hiện các Website có nội dung khiêu dâm dựa trên URL và TEXT CONTENT

Chia sẻ: Thao Uyen | Ngày: | Loại File: PDF | Số trang:73

199
lượt xem
41
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận văn Thạc sĩ Công nghệ Thông tin: Xây dựng bộ lọc phát hiện các Website có nội dung khiêu dâm dựa trên URL và TEXT CONTENT với mục tiêu chính là Xây dựng bộ lọc WEB có thể tự động phát hiện các Website cần truy cập có nội dung khiêu dậm dựa trên URL và TEXT CONTENT của Website.

Chủ đề:
Lưu

Nội dung Text: Luận văn Thạc sĩ Công nghệ Thông tin: Xây dựng bộ lọc phát hiện các Website có nội dung khiêu dâm dựa trên URL và TEXT CONTENT

BỘ GIÁO DỤC VÀ ĐÀO TẠO<br /> TRƢỜNG ĐẠI HỌC LẠC HỒNG<br /> --------<br /> <br /> NGUYỄN THANH PHONG<br /> <br /> XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG<br /> KHIÊU DÂM DỰA TRÊN URL VÀ TEXT CONTENT<br /> <br /> Luận văn Thạc sĩ Công nghệ Thông tin<br /> <br /> ĐỒNG NAI, 2014<br /> <br /> BỘ GIÁO DỤC VÀ ĐÀO TẠO<br /> TRƢỜNG ĐẠI HỌC LẠC HỒNG<br /> --------<br /> <br /> NGUYỄN THANH PHONG<br /> XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG<br /> KHIÊU DÂM DỰA TRÊN URL VÀ TEXT CONTENT<br /> Chuyên ngành: Công nghệ Thông tin<br /> Mã số: 60480201<br /> <br /> Luận văn Thạc sĩ Công nghệ Thông tin<br /> <br /> NGƢỜI HƢỚNG DẪN KHOA HỌC<br /> TS. VŨ ĐỨC LUNG<br /> <br /> ĐỒNG NAI, 2014<br /> <br /> LỜI CẢM ƠN<br /> Với những lời đầu tiên, em xin dành sự cảm ơn chân thành và sâu sắc tới<br /> thầy tiến sỹ Vũ Đức Lung đã hƣớng dẫn và giúp đỡ em tận tình trong quá trình hoàn<br /> thành luận văn.<br /> Em cũng xin cảm ơn quý Thầy Cô Trƣờng Đại học Lạc Hồng đã tận tình<br /> truyền dạy kiến thức trong quá trình em học tập tại trƣờng, những kiến thức đó đã<br /> giúp em rất nhiều trong việc học tập và nghiên cứu sau này.<br /> Cuối cùng, xin gửi lời cảm ơn tới những ngƣời thân trong gia đình và bạn bè,<br /> đồng nghiệp đã giúp đỡ và tạo điều kiện tốt trong quá trình làm luận văn.<br /> <br /> Đồng Nai, tháng 08 năm 2014<br /> Trân trọng<br /> <br /> Nguyễn Thanh Phong<br /> <br /> LỜI CAM ĐOAN<br /> Tôi xin cam đoan kết quả đạt đƣợc trong luận văn là sản phẩm của riêng cá<br /> nhân, là kết quả của quá trình học tập và nghiên cứu khoa học độc lập. Trong toàn<br /> bộ nội dung của luận văn, những điều đƣợc trình bày hoặc là của cá nhân hoặc là<br /> đƣợc tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có xuất xứ<br /> rõ ràng và đƣợc trích dẫn hợp pháp.<br /> Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy<br /> định cho lời cam đoan của mình.<br /> <br /> Đồng Nai, tháng 08 năm 2014<br /> Tác giả<br /> <br /> Nguyễn Thanh Phong<br /> <br /> MỤC LỤC<br /> LỜI CẢM ƠN<br /> LỜI CAM ĐOAN<br /> MỤC LỤC<br /> KÝ HIỆU CÁC CỤM TỪ VIẾT TẮT<br /> DANH SÁCH CÁC BẢNG BIỂU, HÌNH VẼ<br /> MỞ ĐẦU ..................................................................................................................... 1<br /> Lý do chọn đề tài ......................................................................................................... 1<br /> Mục tiêu đề tài ............................................................................................................. 2<br /> Nội dung thực hiện ...................................................................................................... 2<br /> Phƣơng pháp thực hiện................................................................................................ 3<br /> CHƢƠNG 1. TỔNG QUAN VỀ TRÍCH LỌC DỮ LIỆU TRÊN WEBSITE ..... 4<br /> 1.1 Giới thiệu ............................................................................................................. 4<br /> 1.2 Các loại bộ lọc WEB có nội dung khiêu dâm ..................................................... 4<br /> 1.2.1 Bộ lọc WEB dựa vào địa chị mạng .................................................................. 4<br /> 1.2.2 Bộ lọc WEB dựa vào URL .............................................................................. 6<br /> 1.2.3 Bộ lọc WEB dựa vào DNS .............................................................................. 9<br /> 1.2.4 Bộ lọc WEB dựa vào từ khóa ........................................................................ 10<br /> 1.2.5 Bộ lọc WEB dựa vào nội dung text và hình ảnh............................................ 10<br /> 1.3 Các công trình liên quan .................................................................................. 11<br /> CHƢƠNG 2. CÁC LÝ THUYẾT ỨNG DỤNG TRONG LUẬN VĂN ............. 15<br /> 2.1 Rút trích nội dung của website .......................................................................... 15<br /> 2.1.1 Phân tích mã HTML ...................................................................................... 15<br /> 2.1.2 So sánh khung mẫu ........................................................................................ 16<br /> 2.1.3 Xử lý ngôn ngữ tự nhiên ................................................................................ 17<br /> 2.2 Phân tích nội dung thành các token .................................................................. 18<br /> 2.2.1 Tiền xử lý dữ liệu ........................................................................................... 19<br /> 2.2.2 Tách câu dựa trên Maximum Entropy ........................................................... 19<br /> 2.2.3 Tách từ ........................................................................................................... 21<br /> 2.2.3.1 Phƣơng pháp Maximum Matching .............................................................. 25<br /> 2.2.3.2 Phƣơng pháp Transformation – based learning – TBL................................ 25<br /> <br />
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2