
CHƯƠNG 4: PHÂN CỤM DỮ LIỆU
08/2021
Bài giảng môn học:
Khai phá Dữ liệu(7080508)

Nội dung chương 4
4.1 Tổng quan về học không có giám sát
4.2 Phân cụm dữ liệu
4.3 Thuật toán phân cụm dữ liệu
4.4 Ứng dụng bài toán phân cụm dữ liệu
2

4.1. Tổng quan về học không có giám sát
Học máy có giám sát (Supervised learning): D đon đu ra (label)
ca mt d liu mi (new sample) da trn cc cp (sample, label)
đ! bi"t t# tr$c.
Học máy không giám sát (Unsupervised learning): ch' c( d liu
đu v*o (sample) m* kh,ng c( nh!n (label).
3

4.1. Tổng quan về học không có giám sát
+ Tập d liu (dataset) bao gồm cc ví dụ m* mỗi ví dụ kh,ng c(
th,ng tin về nh!n lp/gi trị đu ra mong muốn
+ Mục đích l* tìm ra (học) cc nh(m/cc cấu trúc/cc quan h tồn
tại trong tập d liu hin c(.
4

4.2. Phân cụm/nhóm dữ liệu (Clustering)
Phân cụm/ nhóm là phương pháp học không có giám sát
đ$ợc sử dụng phổ bi"n nhất
Bài toán phân cụm
•Đầu vào: Mt tập d liu kh,ng c( nh!n (cc ví dụ
kh,ng c( nh!n lp/ gi trị mong muốn)
•Đầu ra: cc nh(m ca cc ví dụ
Mt nh(m (cluster) l* mt tập cc ví dụ
•T$ơng t nhau (theo mt ý nghĩa, đnh gi n*o đ()
•Khc bit vi cc ví dụ thuc cc nh(m khc
5

