i<br />
<br />
LỜI CẢM ƠN<br />
Trước tiên, tôi xin được gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Thầy giáo,<br />
PGS. TS. Nguyễn Trí Thành đã tận tình chỉ bảo, hướng dẫn, động viên và giúp đỡ tôi<br />
trong suốt quá trình thực hiện luận văn tốt nghiệp.<br />
Tôi xin gửi lời cảm ơn tới các thầy cô trường Đại Học Công Nghệ - Đại Học Quốc<br />
Gia Hà Nội – những người đã tận tình giúp đỡ, cổ vũ, và góp ý cho tôi trong suốt thời<br />
gian tôi học tập và nghiên cứu tại trường.<br />
Tôi xin gửi lời cảm ơn tới các anh chị, các bạn học viên cùng học tập nghiên cứu<br />
tại Trường Đại học Công nghệ đã hỗ trợ tôi rất nhiều trong quá trình học tập cũng như<br />
thực hiện luận văn.<br />
Cuối cùng, tôi muốn gửi lời cảm ơn tới gia đình và bạn bè, những người thân yêu<br />
luôn bên cạnh, quan tâm, động viên tôi trong suốt quá trình học tập và thực hiện luận<br />
văn tốt nghiệp này.<br />
Tôi xin chân thành cảm ơn!<br />
Hà Nội, tháng 05 năm 2016<br />
Học viên<br />
<br />
Cấn Mạnh Cường<br />
<br />
ii<br />
<br />
LỜI CAM ĐOAN<br />
<br />
Tôi xin cam đoan giải pháp Xử lý trùng lặp, phân loại, xác định từ khóa quan<br />
trọng và sinh tóm tắt cho văn bản trong một hệ thống thu thập tin tức tự động được<br />
trình bày trong luận văn này do tôi thực hiện dưới sự hướng dẫn của PGS. TS. Nguyễn<br />
Trí Thành.<br />
Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên quan ở<br />
trong nước và quốc tế. Tất cả những tham khảo từ các nghiên cứu liên quan đều được<br />
nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong luận văn.<br />
Hà Nội, tháng 5 năm 2016<br />
Tác giả luận văn<br />
<br />
Cấn Mạnh Cường<br />
<br />
1<br />
<br />
MỤC LỤC<br />
<br />
LỜI CẢM ƠN .................................................................................................................. i<br />
LỜI CAM ĐOAN ........................................................................................................... ii<br />
MỤC LỤC .......................................................................................................................1<br />
MỞ ĐẦU .........................................................................................................................1<br />
Chương 1. GIỚI THIỆU ĐỀ TÀI ....................................................................................2<br />
1.1. Tổng quan về hệ thống thu thập tin tức tự động ..................................................2<br />
1.1.1. Tổng quan về Crawler ...................................................................................2<br />
1.1.2. Hệ thống thu thập tin tức tự động ..................................................................3<br />
1.2. Các bài toán trong khuôn khổ đề tài .....................................................................4<br />
1.2.1. Bài toán xử lý trùng lặp tin tức ......................................................................4<br />
1.2.2. Bài toán phân loại tin tức...............................................................................4<br />
1.2.3. Bài toán xác định từ khóa quan trọng và chọn tóm tắt ..................................4<br />
1.3. Ý nghĩa của các bài toán được giải quyết trong đề tài .........................................5<br />
1.3.1. Ý nghĩa khoa học ...........................................................................................5<br />
1.3.2. Ý nghĩa thực tiễn ...........................................................................................5<br />
1.4. Kết luận ................................................................................................................5<br />
Chương 2. MỘT SỐ PHƯƠNG PHÁP TIẾP CẬN BÀI TOÁN ....................................7<br />
2.1. Các phương pháp tiếp cận bài toán trùng lặp tin tức ............................................7<br />
2.1.1. Bag of Words .................................................................................................7<br />
2.1.2. Shingling ........................................................................................................8<br />
2.1.3. Hashing ..........................................................................................................8<br />
2.1.4. MinHash ........................................................................................................8<br />
2.1.5. SimHash ........................................................................................................9<br />
2.2. Các phương pháp tiếp cận bài toán phân loại tin tức ...........................................9<br />
2.2.1. Tiếp cận dựa trên phương pháp cây quyết định ..........................................10<br />
<br />
2<br />
2.2.2. Phân loại dữ liệu Naïve Bayes.....................................................................10<br />
2.2.3. Tiếp cận theo phương pháp SVM................................................................11<br />
2.3. Tiếp cận bài toán xác định từ khóa quan trọng và chọn câu tóm tắt ..................12<br />
2.3.1. Phương pháp TF-IDF ..................................................................................12<br />
2.3.2. Phương pháp Edmundson ............................................................................12<br />
2.4. Tổng kết ..............................................................................................................12<br />
Chương 3. ĐỀ XUẤT GIẢI PHÁP VÀ CẢI TIẾN ÁP DỤNG GIẢI QUYẾT CÁC BÀI<br />
TOÁN TRONG THỰC TẾ ...........................................................................................13<br />
3.1. Hệ thu thập tin tức tự động mở rộng ..................................................................13<br />
3.2. Giải quyết bài toán trùng lặp tin tức ...................................................................14<br />
3.2.1. Yêu cầu thực tế bài toán xử lý trùng lặp tin tức ..........................................14<br />
3.2.2. Mô hình giải pháp thực tế ............................................................................14<br />
3.3. Giải quyết bài toán phân loại tin tức ..................................................................15<br />
3.3.1. Yêu cầu bài toán thực tế ..............................................................................15<br />
3.3.2. Mô hình giải pháp thực tế ............................................................................15<br />
3.4. Giải quyết bài toán xác định từ khóa quan trọng và chọn câu tóm tắt ...............15<br />
3.4.1. Yêu cầu bài toán thực tế ..............................................................................15<br />
3.4.2. Mô hình giải pháp thực tế ............................................................................16<br />
3.5. Tổng kết ..............................................................................................................17<br />
Chương 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ ...........................................18<br />
4.1. Môi trường thực nghiệm và các công cụ sử dụng trong thực nghiệm................18<br />
4.2. Quá trình thu thập dữ liệu tin tức và tiền xử lý ..................................................18<br />
4.2.1. Thu thập dữ liệu tin tức ...............................................................................18<br />
4.2.2. Tiền xử lý dữ liệu ........................................................................................18<br />
4.3. Đánh giá phát hiện trùng lặp tin tức ...................................................................19<br />
4.3.1. Phương pháp đánh giá. ................................................................................19<br />
4.3.2. Kết quả đánh giá. .........................................................................................19<br />
4.4. Đánh giá bộ phân loại tin tức .............................................................................19<br />
4.4.1. Phương pháp đánh giá. ................................................................................19<br />
<br />
3<br />
4.4.2. Kết quả đánh giá. .........................................................................................20<br />
4.5. Đánh giá kết quả xác định từ khóa quan trọng và chọn câu tóm tắt ..................21<br />
4.5.1. Phương pháp đánh giá. ................................................................................21<br />
4.5.2. Kết quả đánh giá. .........................................................................................21<br />
4.6. Tổng kết ..............................................................................................................21<br />
TỔNG KẾT ...................................................................................................................23<br />
Kết quả đạt được ........................................................................................................23<br />
Hạn chế.......................................................................................................................23<br />
Hướng phát triển ........................................................................................................24<br />
TÀI LIỆU THAM KHẢO .............................................................................................25<br />
PHỤ LỤC ......................................................................................................................26<br />
<br />