Giới thiệu tài liệu
Đồ án "Hệ thống gợi ý Anime" là một dự án máy học (ML) được thiết kế để cung cấp các gợi ý anime cá nhân hóa. Hệ thống này sử dụng kết hợp các kỹ thuật lọc cộng tác (Collaborative Filtering) và lọc dựa trên nội dung (Content-based Filtering) để đề xuất anime cho người dùng dựa trên sở thích của họ và sở thích của những người dùng tương tự.
Đối tượng sử dụng
Đề tài này hướng đến việc xây dựng một hệ thống gợi ý anime cá nhân hóa, sử dụng các thuật toán máy học và khai thác dữ liệu để phân tích sở thích của người dùng và đề xuất các anime phù hợp.
Nội dung tóm tắt
Đồ án này trình bày chi tiết về việc xây dựng một hệ thống gợi ý anime, bao gồm các giai đoạn: thu thập và tiền xử lý dữ liệu, xây dựng mô hình, đánh giá và triển khai. Các phương pháp chính được sử dụng bao gồm lọc cộng tác (Collaborative Filtering), lọc dựa trên nội dung (Content-based Filtering) và kết hợp các phương pháp clustering (K-means, DBSCAN) với CBF và CF để tăng cường hiệu quả gợi ý.
1. **Lọc cộng tác (Collaborative Filtering):**
* Đề xuất anime dựa trên sở thích của những người dùng khác. Có hai loại chính: user-based (dựa trên người dùng tương tự) và item-based (dựa trên các anime tương tự).
* Ví dụ: Nếu người dùng A và người dùng B thích các anime tương tự, hệ thống sẽ đề xuất cho người dùng A những anime mà người dùng B đã xem.
2. **Lọc dựa trên nội dung (Content-based Filtering):**
* Đề xuất anime dựa trên các đặc điểm của anime mà người dùng đã thích, chẳng hạn như thể loại và chủ đề.
* Ví dụ: Nếu người dùng thích Attack on Titan (hành động, đen tối), hệ thống sẽ đề xuất Death Note với các chủ đề tương tự.
3. **Kết hợp Clustering với CBF và CF:**
* Sử dụng các thuật toán clustering (K-means, DBSCAN) để nhóm các anime tương tự lại với nhau, từ đó giảm không gian tìm kiếm và tăng tốc độ gợi ý.
* Kết hợp với CBF và CF để cung cấp các gợi ý chính xác và cá nhân hóa hơn.
Đánh giá mô hình sử dụng các chỉ số như MAE (Mean Absolute Error), MSE (Mean Squared Error), Silhouette Score và Davies-Bouldin Index để đo lường hiệu quả của các phương pháp khác nhau.
Kết luận, đồ án đã áp dụng thành công các kỹ thuật khai thác dữ liệu để giải quyết bài toán gợi ý nội dung, đồng thời đề xuất các hướng nghiên cứu tiếp theo để cải thiện hiệu quả của hệ thống.