
2
2.2. Các phương pháp tiếp cận bài toán phân loại tin tức .........................................24
2.2.1. Tiếp cận dựa trên phương pháp cây quyết định ..........................................25
2.2.2. Phân loại dữ liệu Naïve Bayes.....................................................................26
2.2.3. Tiếp cận theo phương pháp SVM................................................................29
2.3. Tiếp cận bài toán xác định từ khóa quan trọng và chọn câu tóm tắt ..................33
2.3.1. Phương pháp TF-IDF ..................................................................................33
2.3.2. Phương pháp Edmundson ............................................................................34
2.4. Tổng kết ..............................................................................................................36
Chương 3. ĐỀ XUẤT GIẢI PHÁP VÀ CẢI TIẾN ÁP DỤNG GIẢI QUYẾT CÁC BÀI
TOÁN TRONG THỰC TẾ ...........................................................................................37
3.1. Hệ thu thập tin tức tự động mở rộng ..................................................................37
3.2. Giải quyết bài toán trùng lặp tin tức ...................................................................39
3.2.1. Yêu cầu thực tế bài toán xử lý trùng lặp tin tức ..........................................39
3.2.2. Mô hình giải pháp thực tế ............................................................................39
3.3. Giải quyết bài toán phân loại tin tức ..................................................................40
3.3.1. Yêu cầu bài toán thực tế ..............................................................................40
3.3.2. Mô hình giải pháp thực tế ............................................................................41
3.4. Giải quyết bài toán xác định từ khóa quan trọng và chọn câu tóm tắt ...............42
3.4.1. Yêu cầu bài toán thực tế ..............................................................................42
3.4.2. Mô hình giải pháp thực tế ............................................................................43
3.5. Tổng kết ..............................................................................................................44
Chương 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ ...........................................46
4.1. Môi trường thực nghiệm và các công cụ sử dụng trong thực nghiệm................46
4.2. Quá trình thu thập dữ liệu tin tức và tiền xử lý ..................................................47
4.2.1. Thu thập dữ liệu tin tức ...............................................................................47
4.2.2. Tiền xử lý dữ liệu ........................................................................................47
4.3. Đánh giá phát hiện trùng lặp tin tức ...................................................................48
4.3.1. Phương pháp đánh giá. ................................................................................48
4.3.2. Kết quả đánh giá. .........................................................................................48