BÀI GI NG NH P MÔN KHAI PHÁ D LI U
CH NG 6. PHÂN C M D Li UƯƠ
PGS. TS. HÀ QUANG TH Y
HÀ N I 9-2011
TR NG Đ I H C CÔNG NGHƯỜ
Đ I H C QU C GIA HÀ N I
1
N i dung
Gi i thi u phân c m
Thu t toán phân c m k-min
Thu t toán phân c m phân c p
Gán nhãn c m
Đánh giá phân c m
2
1. Bài toán phân c m Web
3
Bài toán
T p d li u D = {d i}
Phân các d li u thu c D thành các c m
Các d li u trong m t c m: “t ng t ” nhau (g n nhau) ươ
D li u hai c m: “không t ng t ” nhau (xa nhau) ươ
Đo “t ng t ” (g n) nhau ?ươ
Tiên đ phân c m: N u ng i dùng l a ch n m t đ i t ng ế ườ ượ d thì h
cũng l a ch n các đ i t ng cùng c m v i ượ d
Khai thác “cách ch n l a” c a ng i dùng ườ
Đ a ra m t s đ đo “t ng t ” theo bi u di n d li uư ươ
M t s n i dung ln quan
Xây d ng đ đo t ng t ươ
Khai thác thông tin b sung
S l ng c m cho tr c, s l ng c m không cho tr c ượ ướ ượ ướ
S b ti p c n pn c mơ ế
4
Phân c m mô hình pn c m pn ng
Mô hình: K t qu là mô hình bi u di n các c m tài li uế
Vùng: Danh sách c m và vùng tài li u thu c c m
Phân c m đ n đ nh và pn c m xác su t ơ
Đ n đ nh: M i tài li u thu c duy nh t m t c mơ
Xác su t: Danh sách c m và xác su t m t tài li u thu c vào các
c m
Phân c m ph ng và phân c m pn c p
Ph ng: Các c m tài li u không giao nhau
Phân c p: Các c m tài li u có quan h phân c p cha- con
Phân c m theo lô và pn c m tăng
Lô: T i th i đi m phân c m, toàn b tài li u đã có
Tăng: Tài li u ti p t c đ c b sung trong quá trình phân c m ế ượ
Các ph ng pháp phân c mươ
5
Các ph ng pháp ph bi nươ ế
Phân vùng, phân c p, d a theo m t đ , d a theo l i, d a theo mô ướ
hình, và m
Phân c m phân vùng
Xây d ng t ng b c phân ho ch các c m và đánh giá chúng theo các ướ
tiêu chí t ng ngươ
Đ đo t ng t / kho ng cách ươ
K-mean, k-mediod
CLARANS, …
Phân c m phân c p
Xây d ng h p (tách) d n các c m t o c u trúc phân c p và đánh giá
theo các tiêu chí t ng ngươ
Đ đo t ng t / kho ng cách ươ
HAC: Hierarchical agglomerative clustering
CHAMELEON, BIRRCH và CURE, …