BÀI GI NG NH P MÔN KHAI PHÁ D LI U

Ữ Ệ

CH

NG 6. PHÂN C M D Li U

ƯƠ

Ữ Ệ

TR

Ạ Ọ

ƯỜ

PGS. TS. HÀ QUANG TH YỤ HÀ N I 9-2011 NG Đ I H C CÔNG NGH Ệ Đ I H C QU C GIA HÀ N I Ộ Ố Ạ Ọ

1

N i dung

Gi

i thi u phân c m Thu t toán phân c m k-min ụ Thu t toán phân c m phân c p ậ Gán nhãn c mụ Đánh giá phân c mụ

2

1. Bài toán phân c m Web  Bài toán ậ

 T p d li u D = {d ữ ệ

i}  Phân các d li u thu c D thành các c m

ữ ệ

ng t ” nhau (xa nhau)

ng t ” nhau (g n nhau) ươ ự

 Đo “t

ữ ệ ươ

ng

ộ ố ượ

d thì h ọ

i dùng l a ch n m t đ i t ườ ọ ớ d ng cùng c m v i ườ

ươ

ự ụ i dùng ng t ” theo bi u di n d li u ể

ữ ệ

ữ ệ ộ  Các d li u trong m t c m: “t ộ ụ  D li u hai c m: “không t ụ ự

ươ ự

ươ ng t ” (g n) nhau ? ầ ụ N u ng  Tiên đ phân c m: ề ế cũng l a ch n các đ i t ố ượ ọ ự  Khai thác “cách ch n l a” c a ng ọ ự  Đ a ra m t s đ đo “t ộ ố ộ ư  M t s n i dung liên quan ộ ố ộ  Xây d ng đ đo t ộ ự  Khai thác thông tin b sung  S l ụ

3

ng c m cho tr c, s l ng c m không cho tr ng t ổ ướ ố ượ ố ượ ụ c ướ

S b ti p c n phân c m ậ

ơ ộ ế

ả ế ụ ể ệ

ụ ễ ệ

 Phân c m mô hình và phân c m phân vùng  Mô hình: K t qu là mô hình bi u di n các c m tài li u  Vùng: Danh sách c m và vùng tài li u thu c c m  Phân c m đ n đ nh và phân c m xác su t ấ ộ

ụ ộ

ơ ỗ

ụ ị

ơ

ụ ị  Đ n đ nh: M i tài li u thu c duy nh t m t c m ệ  Xác su t: Danh sách c m và xác su t m t tài li u thu c vào các

ụ ộ ụ ộ

ấ ấ ụ ệ ấ ộ

c mụ

 Phân c m ph ng và phân c m phân c p ệ

 Ph ng: Các c m tài li u không giao nhau  Phân c p: Các c m tài li u có quan h phân c p cha- con

ẳ ụ

ụ ệ ệ

ấ  Phân c m theo lô và phân c m tăng

ấ ụ ạ ể ệ

ụ ộ

 Lô: T i th i đi m phân c m, toàn b tài li u đã có ờ  Tăng: Tài li u ti p t c đ

4

c b sung trong quá trình phân c m ụ ượ ế ụ ụ ệ ổ

Các ph

ng pháp phân c m

ươ

 Các ph

ng pháp ph bi n

ươ

i, d a theo mô

ổ ế  Phân vùng, phân c pấ , d a theo m t đ , d a theo l ự

ậ ộ ự

ướ

 Phân c m phân vùng

c phân ho ch các c m và đánh giá chúng theo các

ướ

tiêu chí t

ng t

hình, và mờ ụ  Xây d ng t ng b ự ừ ng ng ứ ươ / kho ng cách ự

ươ

 Đ đo t ộ  K-mean, k-mediod  CLARANS, …

 Xây d ng h p (tách) d n các c m t o c u trúc phân c p và đánh giá

ụ ự

ươ

ng t

/ kho ng cách

 Phân c m phân c p ầ ng ng ứ ả

theo các tiêu chí t ươ

 Đ đo t ộ  HAC: Hierarchical agglomerative clustering  CHAMELEON, BIRRCH và CURE, …

5

ng pháp phân c m

ậ ộ

i n i có m t đ cao

ạ ơ

ậ ộ

chính

chính t ậ

ầ ử

Các ph ươ  Phân c m d a theo m t đ ự ụ  Hàm m t đ : Tìm các ph n t ầ ử ậ ộ  Hàm liên k t: Xác đ nh c m là lân c n ph n t ụ ị ế  DBSCAN, OPTICS…  Phân c m d a theo l

ự i các ô cùng c

i ướ ỡ

i theo m t s tiêu chí: s l

ng đ i t

ng trong ô

ướ

ướ ấ

ố ượ

ố ượ

thi

c phân c m

 S d ng l ử ụ  T o phân c p ô l ộ ố ạ  STING, CLIQUE, WaweCluster…  Phân c m d a theo mô hình ự t đ ế ượ ộ ố t nh t phù h p v i d li u ợ

ử ụ ị

ớ ữ ệ

 Gi

ế

ữ ệ

ố ượ

ng có th ể

t: không có phân c m “c ng” cho d li u và đ i t ứ ộ ố ụ

các đ i t

ng t

i các c m

 S d ng m t s mô hình gi  Xác đ nh mô hình t  MCLUST…  Phân c m mụ thi ả ộ ử ụ

ờ ừ

ố ượ

thu c m t s c m  S d ng hàm m t  FCM (Fuzzy CMEANS),…

6

Ch đ và đ c đi m phân c m web ể

ế ộ

 Hai ch đế ộ ự

ế ả ế

 Tr c tuy n: phân c m k t qu tìm ki m ng ụ  Ngo i tuy n: phân c m t p văn b n cho tr ụ

ả ạ ế ậ i dùng ườ c ướ

ớ ộ

i câu h i tìm ki m ụ ớ ỏ ế

ế

Carpineto C., Osinski S., Romano G., Weiss D. (2009). A survey of web clustering engines, ACM Comput. Surv. , 41(3), Article 17, 38 pages.

7

ế  Đ c đi m ể  Ch đ tr c tuy n: t c đ phân c m ố ế ộ ự ụ ế ng l n, tăng nhanh và bi n đ ng l n  Web s l ớ ố ượ ế ng pháp gia tăng i ph  Quan tâm t ươ ớ  M t l p quan tr ng: phân c m liên quan t ọ ộ ớ  Tr c tuy n ự  Ngo i tuy n ế ạ

Thuât toán K-mean gán c ngứ

ổ ụ

 M t s l u ý ộ ố ư  Đi u ki n d ng ừ ề  Sau b ướ  Đi u ki n d ng c ệ ố

c 2 không có s thay đ i c m ự ng b c ứ ề

ưỡ ế ố ầ ặ

8

b ầ ở ướ ạ ấ

ng t ừ  Kh ng ch s l n l p  Giá tr m c tiêu đ nh ủ ị ụ  V n đ ch n t p đ i di n ban đ u ệ ề ọ ậ  Có th dùng đ đo kho ng cách thay cho đ đo t ả ộ ể c Kh i đ ng ở ộ ươ ộ ự

Thuât toán K-mean gán c ngứ

 M t s l u ý (ti p) và ví d

ế

c 2: các tr ng tâm có th không thu c S

ụ ể

ọ ộ

ộ ố ư ướ ự ế ố ầ ặ £ : s l n l p

 Trong b  Th c t  Thi hành k-mean v i d li u trên đĩa

ể ở ộ

ầ ỗ

ự ủ

i.

c 2.2

ướ

50 ớ ữ ệ  Toàn b d li u quá l n: không th b nh trong ớ ớ  V i m i vòng l p: duy t CSDL trên đĩa 1 l n ệ ng t

ướ ộ ế

c a d v i các c ớ c 2.1 kh i đ ng (t ng, b đ m); b ổ ở ộ ộ ế c 2.3 ch th c hi n k phép chia. ệ ỉ ự

ướ

9

Bing Liu (2007), Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data, Spinger,

2007.

ộ ữ ệ ặ ớ c đ t  Tính đ ộ ươ ượ i cạ i m i: b  Tính l ớ c ng và tăng b đ m; b ộ

t tr c ế ướ

c)

Thuât toán K-mean d ng m m  Input ố ậ

 S nguyên k > 0: s c m bi  T p tài li u D (cho tr ệ

 Output

ố ụ ướ

 T p k “đ i di n c m” ạ

C làm t

m i u l i “l ng t ” ụ ệ ậ ố ư ỗ ượ ử

ng

 Đ nh h ị

m (learning rate)

ướ  Tinh ch nh ỉ

C d n v i t

10

ầ ớ ỷ ệ ọ h l h c

Thuât toán K-mean

 u đi m Ư ể  Đ n gi n, d s d ng ả ơ  Hi u qu v th i gian: tuy n tính O(tkn), t s l n l p, k s c m, n ệ

ễ ử ụ

ế ố ụ ố ầ ặ

là s ph n t ố

 Nh

i u c c b . T i u toàn c c r t khó tìm ụ ố ư ổ ế ộ ố ư ụ ấ

c”: d li u phân l p thì d a theo t n s ữ ệ ự ầ ớ ố

ượ c k : s c m ầ

i): ớ ạ ạ

ố ữ ệ ạ ạ ệ

ả ề ờ ầ ử  M t thu t toán phân c m ph bi n nh t ấ ộ ậ  Th ng cho t ườ c đi m ượ ể  Ph i “tính trung bình đ ả  C n cho tr  Nh y c m v i ngo i l ạ ngo i l ạ ệ ự ế ạ ướ ớ ả th c t ớ ả ươ t ố

ố ụ ạ ệ , ngo i l ng pháp ch n m u thô t  Nh y c m v i m u ban đ u: c n ph ọ ẫ  Không thích h p v i các t p d li u không siêu-ellip ho c siêu (cách xa so v i đ i đa s d li u còn l do quan sát sai (làm s ch d li u) ầ ậ ữ ệ ẫ ặ ầ ữ ệ ợ

Bing Liu (2007), Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data, Spinger, 2007.

11

c u (các thành ph n con không ellip/c u hóa) ầ ầ ớ ầ

Thuât toán K-mean

ạ ả ầ ẫ ọ ớ

Bing Liu (2007), Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data, Spinger, 2007.

12

Trái: Nh y c m v i ch n m u ban đ u Ph iả : Không thích h p v i b d li u không siêu ellip/c u hóa ớ ộ ữ ệ ầ ợ

3. Phân c m phân c p t

d

i lên

ấ ừ ướ

t c m

ệ ụ

 Đ t  Đ t

single-link complete-link

ộ ộ

ạ ể

 HAC: Hierarchical agglomerative clustering  M t s đ đo phân bi ộ ố ộ ng t hai tài li u ự ộ ươ ng t gi a hai c m ụ ư ữ ộ ươ  Đ t ạ ự ữ ộ ươ  Đ t ữ ự ự ộ ươ  Đ t ự ự ữ ộ ươ  Đ t ự ộ ươ ơ ộ ề

gi a hai đ i di n c c đ i gi a hai tài li u thu c hai c m: c c ti u gi a hai tài liêu thu c hai cum: trung bình gi a hai tài liêu thu c hai cum ậ

c s l ng c m k, cho phép đ a ra ướ ụ ư

ố ượ ng án phân c m theo các giá tr k khác nhau ặ các ph ể ươ

ng t ng t ng t ng t  S b v thu t toán  Đ c đi m: Không cho tr ụ ố  “tìm k t  L u ý: k là m t tham s ố ộ i khái quát  Tinh ch nh: T c th t ừ ụ ể ớ

ị t nh t” ấ ư

13

Phân c m phân c p t

d

i lên

ấ ừ ướ

 Gi

i thích ậ

 G là t p các c m trong phân c m ụ  Đi u ki n |G| < k có th thay th b ng |G|=1

14

ụ ế ằ ệ ể ề

Phân c m phân c p t

d

i lên

ấ ừ ướ

ạ ộ

 Ho t đ ng HAC  Cho phép v i m i k  Ch n phân c m theo “ng

ớ ọ

15

ng” v đ t ng t ụ ọ ưỡ ề ộ ươ ự

HAC v i các đ đo khác nhau ộ

ưở

đ t

ng c a các đ đo ậ ạ ộ ự ự

16

ớ ự ộ ơ

 nh h Ả  Trên: Ho t đ ng thu t toán khác nhau theo các đ đo khác nhau: c c ti u (complete-link) có tính c u h n so v i c c đ i ể ạ c c đ i (Single-link) t o c m chu i dòng ự ự

ng t ng t ộ ươ  D iướ : Đ t ộ ươ ầ ụ ạ ạ ỗ

ễ ụ

4. Bi u di n c m và gán nhãn ể  Các ph

ng pháp bi u di n đi n dình

ươ  Theo đ i di n c m ạ ệ

ể t ố

ệ  Đ i di n c m làm tâm ụ  Tính bán kính và đ l ch chu n đ xác đ nh ph m vi c a c m ẩ ộ ệ  C m không ellip/c u hóa: không t ầ

 Theo mô hình phân l pớ ỉ ố ụ ậ ạ

 Ch s c m nh nhãn l p ớ  Ch y thu t toán phân l p đ tìm ra bi u di n c m ớ

ư

ụ ễ ể ể

 Dùng cho d li u phân lo i ạ  T n s xu t hi n các giá tr đ c tr ng cho t ng c m

 Theo mô hình t n sầ ữ ệ ệ

 L u ýư

ấ ị ặ ư ừ ụ ầ ố

 D li u phân c m ellip/c u hóa: đ i di n c m cho bi u di n t  C m hình d ng b t th ấ

ụ ể t ễ ố

17

ụ ầ ạ ng r t khó bi u di n ễ ườ ữ ệ ụ ệ ể ạ ấ

Gán nhãn c m tài li u ụ t các c m (MU)  Phân bi ụ

ng quan c m

ư

ọ ừ

khóa đ c tr ng t ặ

khóa t, y tài li u thu c C)

ươ ệ

ụ ụ

ộ ộ

ệ ệ ệ ệ

ứ ứ

 Ch n t  Nxy (x có t ừ  N11 : s tài li u ch a t thu c c m C ố ứ  N10 : s tài li u ch a t không thu c c m C ố ứ  N01 : s tài li u không ch a t thu c c m C ố  N00 : s tài li u không ch a t không thu c c m C ố  N: T ng s tài li u ướ

ố  H ng “tr ng tâm” c m ọ khóa t n s cao t  Dùng các t ừ

 Tiêu đề

18

 Chon tiêu đ c a tài li u trong c m g n tr ng tâm nh t ấ

i tr ng tâm c m ạ ọ ụ ầ ố

ề ủ ụ ệ ầ ọ

Gán nhãn c m tài li u ụ

ươ

ố ớ

 Ví dụ  Ba ph ụ ầ

ng pháp ch n nhãn c m đ i v i 3 c m là c m 4 (622 tài li u), c m 9 (1017 tài li u), c m 10 (1259 tài li u) khi phân c m 10000 tài li u ệ đ u tiên c a b Reuters-RCV1 ộ  centroid: các t ầ ừ

khóa có t n s cao nh t trong tr ng tâm; mutual ấ information (MU): thông tin liên quan phân bi t các c m; title: tiêu đ tài ệ li u g n tr ng tâm nh t. ấ ệ

Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information 19

Retrieval, Cambridge University Press. 2008.

ng phân c m là khó khăn ự

 Ng

 Ch a bi ư ế  M t s ph ộ ố ườ

5. Đánh giá phân c mụ  Đánh giá ch t l ấ ượ ụ t các c m th c s ụ ự ng pháp đi n hình ươ i dùng ki m tra ể ứ

ủ ề

 Nghiên c u tr ng tâm và mi n ph ọ  Lu t t cây quy t đ nh ậ ừ  Đ c các d li u trong c m ữ ệ ọ

 Đánh giá theo các đ đo t

ế ị

/kho ng cách ự ả

 Đ phân bi  Phân ly theo tr ng tâm

ụ ng t ươ t gi a các c m ụ ộ ệ

ộ ữ ọ

ọ ớ

 Dùng thu t toán phân l p ớ  Coi m i c m là m t l p ộ ớ  H c b phân l p đa l p (c m) ớ  Xây d ng ma tr n nh m l n khi phân l p ầ  Tính các đ đo: entropy, tinh khi

ậ ỗ ụ ộ ự ụ ẫ ậ ớ

20

t, chính xác, h i t ế ộ ồ ưở ng, đ ộ

đo F và đánh giá theo các đ đo này ộ

ng t

Đánh giá theo đ đo t

ươ

c c ti u (complete link), c c đ i (single link)

ộ t các c m  Đ phân bi ụ ệ ng t  C c đ i hóa t ng đ t ộ ươ ổ ạ ự ng t  C c ti u hóa t ng đ t ộ ươ ổ ể ự  L y đ t ng t ể ự ự ộ ươ ấ

 M t s ph ộ ố

i c a các c m n i t ự ộ ạ ủ các c p c m khác nhau ặ ự ự ạ

 Phân lý theo tr ng tâm

ng pháp đi n hình ươ ọ

21

Ví dụ

22