Gom cụm (Clustering)Gom cụm (Clustering)
Chương 5
Bài tập lý thuyết
4
Giới thiệu
1
c độ đo khoảng cách
2
Phương pháp K-means
3
Nội dung
7/12/2014 www.lhu.edu.vn
Chương 5 Gom cụm
Sự bùng n thông tin hiện nay do tác động ca các siêu
phương tiện và WWW
c h thống truy vấn thông tin dựa trên việc phân
nhóm, gom cm (clustering) ra đời để làm tăng tốc độ
tìm kiếm thông tin.
Do sự biến động thường xuyên ca thông tin nên các
thuật toán clustering đang tồn tại không th duy trì tốt
các nhóm, cụm (cluster) trong một môi trường như thế
Vấn đề đặt ra là làm thế nào để cập nhật các cluster
trong h thống mỗi khi thông tin được cập nhật thay vì
phải thường xuyên clustering lại toàn b d liệu?
Giới thiệu
7/12/2014 www.lhu.edu.vn
Chương 5 Gom cụm
Gom cụm (clustering) là q trình nhóm tập đi
tượng thành các cụm (cluster) các đốiợng
giống nhau.
Cho CSDL D={t1,t2,…,tn} và số nguyên k, gom
cụm i toán xác định ánh x f : Dg{1,…,k}
sao cho mi ti được n vào mt cụm (lớp) Kj,
1 <= j <= k .
Không giống i toán phân lớp,c cụm không
được biết trước.
Giới thiệu
4
Dựa trên kích thướcDựa trên khoảng cách điạ lý
Ví dụ gom cụm các ngôi nhà
Chương 5 Gom cụm
5
ch biểu diễn các cụm
Phân chia bằng c
đường ranh giới
c khối cầu
Theo c suất
Hình y
1 2 3
I1
I2
In
0.5 0.2 0.3
Giới thiệu
Chương 5 Gom cụm