Giới thiệu tài liệu
Tài liệu này giới thiệu về phân cụm phân cấp (Hierarchical Clustering), một phương pháp quan trọng trong lĩnh vực khai phá dữ liệu và học máy. Phân cụm phân cấp cho phép chúng ta xây dựng một cấu trúc phân cấp các cụm, từ đó khám phá các mối quan hệ và cấu trúc ẩn trong dữ liệu.
Đối tượng sử dụng
Sinh viên, nhà nghiên cứu
Nội dung tóm tắt
Tài liệu này trình bày chi tiết về phân cụm phân cấp, bao gồm hai phương pháp chính: phân cụm tích tụ (Agglomerative) và phân cụm phân tách (Divisive). Phân cụm tích tụ bắt đầu với mỗi điểm dữ liệu là một cụm riêng biệt, sau đó hợp nhất các cụm gần nhau nhất cho đến khi tất cả các điểm dữ liệu thuộc về một cụm duy nhất. Ngược lại, phân cụm phân tách bắt đầu với tất cả các điểm dữ liệu trong một cụm, sau đó chia cụm này thành các cụm nhỏ hơn cho đến khi mỗi điểm dữ liệu thuộc về một cụm riêng biệt. Tài liệu cũng giới thiệu về dendrogram, một biểu đồ cây thể hiện cấu trúc phân cấp của các cụm. Ngoài ra, tài liệu còn đề cập đến thuật toán BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) và phân cụm phân cấp xác suất (Probabilistic Hierarchical Clustering), hai phương pháp nâng cao của phân cụm phân cấp. Cuối cùng, tài liệu thảo luận về ưu điểm và nhược điểm của phân cụm phân cấp, cũng như các ứng dụng của nó trong thực tế.