Bài t p chuyên đ Datamining_nhóm 2

GVHD: Nguy n H ng Giang ễ

ươ

Gom c m (clustering)

Phân tích b ng gom c m ằ ụ

ng t ự ố ượ ự

ụ ấ

 Phân tích b ng gom c m là gì ? ằ ụ  Đ i t ng t và không t ng t ươ ươ  Các lo i d li u trong phân tích b ng gom c m ằ ạ ữ ệ  Các ph ng pháp gom c m chính ươ  Các ph ng pháp phân c p ươ  Các ph ng pháp phân ho ch ạ ươ  Tóm t tắ

 Gom c mụ : Gom các đ i t

ằ ụ góc đ t ộ ự ừ ộ ệ ườ ỏ ẫ ng mà chúng ta v n ạ i trong l p, phân lo i ớ I)Phân tích b ng gom c m là gì ? nhiên là m t vi c h t s c bình th Gom c m nhìn t ệ ế ứ ụ làm và th c hi n hàng ngày ví d nh phân lo i h c sinh khá, gi ạ ọ ự đ t đai, phân lo i tài s n, phân lo i sách trong th vi n… ấ ụ ư ạ ư ệ ạ ả

ự ớ ươ ụ ụ o T ng t ươ o Không t

ố ượ ng trong các c m khác ng có cùng tính ch t hay có các tính ấ

ng d li u ữ ệ ố ượ ng khác trong cùng c m v i m t đ i t ộ ố ượ ng t v i các đ i t ố ượ ự ớ (T c là th c hi n gom các đ i t ự ệ ch t g n gi ng nhau thành nhóm) ố ạ ọ ứ ấ ầ ụ ộ ớ ể ố

ỏ i, 8-10 phân o Ví d : Phân lo i h c sinh trong m t l p theo đi m s thành 5 nhóm gi ế ữ ừ ể i, t ỏ ừ khá, trung bình khá, trung bình, y u. Nh ng h c sinh có đi m t vào nhóm gi khá, 5-6 nhóm TB, 5 tr xu ng vào nhóm y u. ở ọ 7-8 phân vào nhóm khá, 6-7 phân vào nhóm trung bình ế ố

ụ ụ ươ ủ ụ ng t ự ng đ ng còn các đ i t ng thu c các c m khác nhau s ụ ồ ộ ộ ng thu c ẽ  M c tiêu c a gom c m: ủ ng pháp phân c m d li u là nhóm các đ i M c tiêu chính c a ph ố ữ ệ ụ nhau trong t p d li u vào các c m sao cho các đ i t ng t t ố ượ ụ ậ ữ ệ ươ ượ cùng m t l p là t ươ ố ượ ộ ớ ng đ ng. không t ồ ươ

Ứ ụ ủ ụ

 ng d ng c a gom c m: o Kinh doanh: phát hi n ra nhóm khách hàng. ệ

ư Ví d Trong ti p th m ph m ị ỹ ẩ ế ụ có th phân nhóm khách hang a chu ng m ph m Hàn Qu c, nhóm khách ố ỹ ẩ ộ hang a chu ng M ph m pháp… ỹ ẩ ể ư ộ

ự ậ ạ ộ ạ ọ o Sinh h c: phân lo i đ ng, th c v t, phân lo i gen.

o Đ a lí: nh n ra các vùng đ t gi ng nhau d a vào CSDL quan sát trên trái

ự ấ ậ ố ị

đ t, phân nhóm nhà,… ấ

Bài t p chuyên đ Datamining_nhóm 2

GVHD: Nguy n H ng Giang ễ

ươ

ể ả ạ ả ể ớ o B o hi m: nh n d ng các nhóm công ty có chính sách b o hi m mô tô v i ậ chi phí đ n bù trung bình cao

ử ậ ạ ạ ố ị ề ị o Ho ch đ nh thành ph : nh n d ng các nhóm nhà c a theo lo i nhà, giá tr và v trí đ a lý. ạ ị ị ộ ụ ộ ậ ố ữ ệ

c ti n x lý cho các thu t toán khác ướ ề ử ậ o M t công c đ c l p đ xem xét phân b d li u ể o Làm b

ế ụ ố

 Th nào là gom c m t ng pháp t ng cao v i: t t s t o ra các c m có ch t l ố ẽ ạ ụ ấ ượ ớ

ươ ng t ng t

cao cho trong l p (intra-class) ự ớ th p gi a các l p (inter-class) ớ ự ấ ữ

gi ng nhau càng nhi u thì ch t l - M t ph ộ o T ươ o T ữ ươ o T c là nh ng đ i t ố ượ ứ ề ố ặ ầ ng cùng m t nhóm có s gi ng nhau ho c g n ự ố ng gom c m s càng cao ẽ ụ ộ ấ ượ

- ng c a k t qu gom c m ph thu c vào: ụ ụ ộ

ươ ặ ộ ả s d ng ự ử ụ ng t ự ươ Ch t l ủ ế ấ ượ o Đ đo t ng t ộ o Cài đ t đ đo t

 Các yêu c u c a gom c m trong khai phá d li u. ụ ầ ủ ữ ệ

 Scalability: Có th thay đ i kích c . ỡ ể ổ

 Kh năng làm vi c v i các lo i thu c tính khác nhau. ệ ớ ạ ả ộ

 Kh năng làm vi c v i d li u có ch a nhi u ( outliers)

 Khám phá ra các c m có hình d ng b t kì. ụ ạ ấ

ệ ớ ữ ệ ứ ễ ả

 T ng t và b t t ng t ự ữ ố ượ ự

gi a hai đ i t ươ - Không có đ nh nghĩa duy nh t v s t ng t và b t t ng t ấ ề ự ươ ng (1) ự ấ ươ ự ữ ố gi a các đ i

và b t t ng t gi a các đ i t ng tùy thu c vào ấ ươ ị ng d li u ữ ệ - Đ nh nghĩa v t ấ ượ ự ữ ố ượ ộ t ượ ị

- ng th ng đ c bi u di n qua đ đo t ế gi a đ i t ự ữ ố ượ ườ ượ ể ễ ộ

- ệ ng, m i đ đo kho ng cách ph i là m t và ph i th a các đi u ki n ề ả ả ả ộ ỏ ng t ề ươ ự o Lo i d li u kh o sát ả ạ ữ ệ ng t c n thi o Lo i t ự ầ ạ ươ ng t T /B t t ng t ự ấ ượ ươ kho ng cách d(x,y) ả Lý t ọ ộ ưở sau:

1.

yxd ,(

0) =

=

2.

yxd ,(

iff 0)

x

y

=

3.

yxd ,(

)

xyd ),(

+

4.

zxd ),(

yxd ,(

)

zyd ),(

£

Bài t p chuyên đ Datamining_nhóm 2

GVHD: Nguy n H ng Giang ễ

ươ

II)Lo i d li u trong phân tích c m ụ

ạ ữ ệ ế ỉ ệ

ế

, t l ứ ự ỉ ệ

 Các bi n kho ng t l ả  Bi n nh phân ị  Các bi n đ nh danh, th t ế ị  Các bi n có ki u h n h p ể ổ ợ ế  Các ki u d li u ph c t p ứ ạ ể ữ ệ

Các bi n tr kho ng (1) ị ế ả

ế ả

: Bi n tr kho ng là các phép đo liên t c c a các thang đo tuy n tính, thô. Ví ng, chi u cao, chi u ngang, chi u d c, tu i, nhi Đ nh nghĩa ị d : tr ng l ụ ọ ượ ế t. t đ th i ti ệ ộ ờ ế ụ ủ ổ ề ọ ị ề ề

q

q

q

=

+

 M t nhóm các đ đo kho ng cách ph bi n cho bi n t l ả ế ỉ ệ ổ ế ả theo kho ng là kho ng ả ộ ộ cách Minkowski.

id

j ),(

(|

x

x

|

|

x

x

|

++ ...

|

x

x

q )|

i

j

1

1

jp

ip

2

i

- - -

2 j + V i i = (xi1, xi2, …, xip) và j = (xj1, xj2, …, xjp) là các đ i t q là s nguên d

ng d li u p-chi u và ớ ố ượ ữ ệ ề ng ươ ố

 N u q = 1, đ đo kho ng cách là Manhattan ế ả ộ

jid

|),(

+ |

|

x

++ | ...

|

x

x

|

2

2

p

p

-= x i 1

j 1

x i

j

x i

j

- -

2

2

=

+

 N u q = 2, đ đo kho ng cách là kho ng cách Euclidean ế ả ả ộ

jid ),(

(|

x

|

|

x

|

++ ...

|

2 )|

x

2

2

p

p

x i 1

j 1

x i

j

x i

j

- - -

Các bi n nh phân (1) ế ị

ạ ị ỉ

 Bi n nh phân ch có hai tr ng thái là 0 hay 1  B ng contingency table cho d li u nh phân: ữ ệ ế ả ị Subject j

Bài t p chuyên đ Datamining_nhóm 2

GVHD: Nguy n H ng Giang ễ

ươ

1

0

1

a

b

0

sum + ba + dc

c +

d +

sum

dbca

p

 H s Jaccard coefficient

Subject i

(t ng t ươ ự ấ không b t bi n, n u bi n nh phân là b t ế ế ế ấ ị ệ ố đ i x ng): ố ứ

- Bi n nh phân đ i x ng và b t đ i x ng ấ ố ứ ố ứ ế ị

n u đ ng th i các tr ng thái c a nó có t m quan ố ứ ế ộ ủ ế ạ ầ ồ ờ

o M t bi n nh phân là đ i x ng ị

ố c mã hoá là 0 ho c 1. Ví d thu c tính gi ả ượ ọ ả ư

ng t ụ ế ươ

ặ ấ ả ế ổ

c mã hoá khác nhau. V i các tính gi ng nhau b t bi n, m t h ộ ọ ộ ặ gi a các bi n nh phân đ i x ng đ ị ự ữ b t bi n, trong đó k t qu không thay đ i khi 1 ho c t ả ế ớ ự ấ ượ ố

=),( j

id

+ cb +++ dcba

ế tr ng nh nhau và mang cùng m t tr ng s . Do đó, không có s u tiên khi k t ự ư ư i tính có 2 tr ng qu đ a ra ph i đ ạ ớ ượ ọ c g i thái là male và female. Tính t ố ứ t c các là tính t ng t ươ ộ ệ bi n nh phân đ ế ị ế ấ ng i và j là t đ n nhi u nh t đ xác đ nh s khác nhau gi a đ i t c bi s đ ữ ố ượ ị ế ế ố ượ h s đ i sánh đ n gi n, đ c đ nh nghĩa nh sau: ơ ệ ố ố ấ ể ượ ị ự ư ề ả

-

ị ộ ế

ế ả ủ ọ

ả ạ ươ

ườ ế ả ấ ả ọ

ng t không b t bi n. V i s t ế ẩ ươ ự ớ ự ươ ế ự ươ

ấ ệ ố ấ ố

=),( j

id

+ cb ++ cba

c b qua khi tính toán. M t bi n nh phân là ư ố ứ n u các k t qu c a các tr ng thái không có t m quan tr ng nh không đ i x ng ạ ầ ế ng tính khi khám b nh. Theo thói quen, nhau. Ch ng h n k t qu âm tính và d ẳ ệ ế ng là k t qu ít x y ra b ng 1 chúng ta s mã hoá k t qu quan tr ng nh t, th ế ằ ẽ gi a ng t ng tính) và b ng 0 cho k t qu khác (HIV âm tính). Tính t ự ữ (HIV d ằ ả ươ ấ c g i là t không b t ng t các bi n này đ ọ ượ ế bi n, h s đ t đ n nhi u nh t là h s Jaccard trong đó s phép so sánh c bi ệ ố ượ ế ế ph đ nh coi nh không quan tr ng và do đó đ ư ế ủ ị ượ ỏ ề ọ

Ví d : B ng h s b nh nhân ồ ơ ệ ụ ả

Bài t p chuyên đ Datamining_nhóm 2

GVHD: Nguy n H ng Giang ễ

ươ

Name(tên) Gender(gi Test-1 Test-2 Test-3 Test-4 iớ

Fever(ho) Cough(s tố ) tính)

M Jack Y P N N N N

F Mary Y P N P N N

M Jim Y N N N N P

Có 8 thu c tính Name, Gender, Fever, Cough, Test-1, Test-2, Test-3, Test-4 trong đó: ộ

 Gender là thu c tính nh phân đ i x ng ố ứ ộ ị

i là nh phân b t đ i x ng  Các thu c tính còn l ộ ạ ấ ố ứ ị

c gán b ng 0. Tính kho ng cách gi a các ữ ằ ả ị

Ta gán các tr Y và P b ng 1 và tr N đ ượ b nh nhân d a vào các b t đ i x ng dùng h s Jacard ta có b ng giá tr nh sau: ệ ằ ấ ố ứ ị ư ệ ố ị ự ả

Fever Cough Test-1 Test-2 Test-3 Test-4 name

0 0 0 Jack 1 0 1

0 1 0 Marry 1 0 1

0 0 0 Jim 1 1 0

+ Tính d(Jack,Marry):

• B ng d li u d ng nh phân: ữ ệ ạ ả ị

Bài t p chuyên đ Datamining_nhóm 2

GVHD: Nguy n H ng Giang ễ

ươ

Marry

sum 1 0 Jack

2 1 0 2

1 0 3 4

3 sum 3 6

+ 10 ++ 102

T b ng ta có:a=2, b=0, c=1, d=3 ừ ả

D(Jack,Marry): =0.33

+ Tính:d(Jack,Jim): B ng d li u nh phân: ữ ệ ả ị

Jim

0 1 sum

Jack 1 1 2 1

3 1 4 0

4 2 6 sum

Bài t p chuyên đ Datamining_nhóm 2

GVHD: Nguy n H ng Giang ễ

ươ

ừ ả

T b ng ta có : a=2, b=1, c=2, c=3 + 11 ++ 111 D(jack,jim)= =0.67

+ Tính d(jim,marry):

B ng d li u nh phân: ữ ệ ả ị

mary

0 1 sum

Jim 1 1 2 1

2 2 4 0

3 3 6 sum

b ng: a=1, b=1, c=2 t ừ ả

+ 21 ++ 211

d(jim,marry)= =0,75

ề Nh v y, theo tính toán trên Jim và Marry có kh năng m c b nh gi ng nhau nhi u ư ậ ệ ả ắ ố

nh t vì ấ

d(jim, marry)=0.75 là l n nh t. ấ ớ

Các bi n đ nh danh ( nominal variables) ế ị

ị ạ Bi n đ nh danh là m r ng c a bi n nh phân v i nhi u h n hai tr ng ế ở ộ ủ ề ế ơ ớ ị ị

Đ nh nghĩa: thái. Ví d : thu c tính màu s c: đ , vàng, xanh, l c. ụ ụ ắ ỏ ộ

Có hai ph ng pháp đ tính toán s t ng t gi a hai đ i t ng: ươ ự ươ ể ự ữ ố ượ

ng pháp 1: Đ i sánh đ n gi n v i m là s l n đ i sáng, p là t ng s các • Ph ố ầ ả ố ơ ớ ố ổ ố

ươ bi nế

=),( j

id

mp p

-

Bài t p chuyên đ Datamining_nhóm 2

GVHD: Nguy n H ng Giang ễ

ươ

• Ph ng pháp 2: Dùng m t s l ươ ộ ố ượ ng l n các bi n nh phân. ế ớ ị

 T o bi n nh phân m i cho t ng tr ng thái đ nh danh. ừ ế ạ ạ ớ ị ị

: Các bi n th t ế ứ ự có th là liên t c hay r i r c ờ ạ ụ ể

 Th t c a các tr là quan tr ng, ví d h ng. ứ ự ủ ụ ạ ọ ị

kho ng nh sau:  Có th x lý nh t l ể ử ư ỉ ệ ư ả

- Thay th xế if b i h ng c a chúng ở ạ ủ

r ˛

,...,1{

M

}

if

f

- ánh x ph m vi c a t ng bi n vào đo n [0,1] b ng cách thay ế ủ ừ ạ ằ ạ ạ

th đ i t ế ố ượ ng i trong bi n th f b i ế ứ ở

ng pháp cho bi n t l theo ự ươ ế ỉ ệ

- Tính s khác nhau dùng các ph kho ngả

1

z

-

r = if if M

1

f

-

Các bi n thang đo t l ỉ ệ ế

Bt hay Ae-Bt.

Là các bi n có đ đo d ị ế ộ ươ ng trên thang phi tuy n, x p x thang đo mũ. ế ấ ỉ

Đ nh nghĩa: Ví d : Aeụ

Các ph ng pháp tính đ t ng t ươ ộ ươ : ự

 X lý chúng nh các bi n thang đo kho ng ư ử ế ả

 áp d ng các bi n đ i logarithmic ụ ế ổ

 X lý chúng nh d li u th t ư ữ ệ ứ ự ử liên t c ụ

 X lý chúng theo h ng nh thang đo kho ng. ư ử ả ạ

Các bi n có ki u h n h p ể ỗ ợ ế

ộ ơ ở ữ ệ ể ứ ồ ế ể ạ

M t c s d li u có th ch a đ ng th i c sáu lo i bi n. Khi đó có th dùng công th c đ ờ ả c gán tr ng đ k t h p các hi u qu : ả ể ế ợ ứ ượ ệ ọ

Bài t p chuyên đ Datamining_nhóm 2

GVHD: Nguy n H ng Giang ễ

ươ

p

f

)

d

( ij

= 1

f

=

d

id

),( j

0=f

ij

p

)

f

( ) f ij d d

( ij

= 1

f

(cid:229) v i ớ n u xế if ho c xặ jf missing (cid:229)

d

1=f

ho c xặ if =xjf =0

ij

 Đóng góp c a bi n f vào kho ng cách d(i,j):

tr ng h p khác ườ ợ

ủ ế ả

( =f )

0

ijd

if =xjf

- N u f là bi n nh phân hay đ nh danh: ị ế ế ị

( =f )

1

n u xế

ijd

các tr ng h p khác ườ ợ

- N u f là d a trên kho ng cách: dùng kho ng cách đ ự ế ả ả ượ c chu n hoá. ẩ

- N u f là th t

if và x lý z ử

thang đo t s tính các h ng r ứ ự ế ỉ ố ạ ả if nh thang đo kho ng ư

1

z

-

r = if if M

1

f

-

Các bi n t l

ng trên thang phi tuy n, x p x thang đo mũ ế ấ ỉ

ế ỉ ệ o Đ đo d ươ ộ Bt hay Ae-Bt ng pháp:

o Ví d Aeụ o Các ph ươ ử

ọ ố ! t ự ế ả ả ư ế ổ ụ liên t c và x lý chúng theo h ng nh thang đo ứ ự ụ ử ư ạ x lý chúng nh các bi n thang đo kho ng không ph i là l a ch n t áp d ng bi n đ i logarithmic yif = log(xif) x lý chúng nh d li u th t ư ữ ệ ử kho ng ả

ế ể ỗ ợ ạ

f

)

f

)

ứ ượ ể c gán tr ng đ k t h p các hi u qu : ả ể ế ợ ệ Các bi n có ki u h n h p o CSDL Có th ch a c sáu lo i bi n ế ể ứ ả o Có th dùng công th c đ ọ

p f

S

=

f

(

)

S

d = 1 p x f if

( ( d ij ij d ( f ) = x or 1 ij jf

if 0

is

missing,

=

jid ),( d = ij or x if

x jf

=

1

ij

= ;0 δ(f) otherwise

Bài t p chuyên đ Datamining_nhóm 2

GVHD: Nguy n H ng Giang ễ

ươ

Đóng góp c a bi n d(i,j): ế f vào kho ng cách ủ ả

( =f )

0

if =xjf

ijd

- N u f là bi n nh phân hay đ nh danh: ị ế ế ị

( =f )

1

n u xế

ijd

các tr ng h p khác ườ ợ

- N u f là d a trên kho ng cách: dùng kho ng cách đ ự ế ả ả ượ c chu n hoá. ẩ

- N u f là th t

if và x lý z ử

thang đo t s tính các h ng r ứ ự ế ỉ ố ạ ả if nh thang đo kho ng ư

1

z

-

r = if if M

1

f

-

ng đ ạ ữ ệ c xem xét a trong KPDL là không quan h => Lo i d li u ứ ạ ượ ệ

ữ ệ ư ậ ươ ữ ệ c thu ữ ệ ỗ ữ ệ ữ ệ ả ả ờ ng ti n, d li u di ệ ữ ệ ượ

World-Wide Web ng t và b t t ng t ng hoàn toàn khác nhau ng v i các lo i d th ự ườ ấ ươ ươ ự ớ ạ ữ ứ Các ki u d li u ph c t p ể ữ ệ T t c các đ i t ấ ả ố ượ ph c t p ứ ạ Ví d v lo i d li u nh v y là d li u không gian, d li u đa ph ụ ề ạ ữ ệ truy n, d li u văn b n, d li u chu i th i gian, d li u văn b n và d li u đ ữ ệ ề gom t ừ Các đ đo t ộ li u trên ệ

III. Các ph

ng pháp gom c m (clustering) chính y u

ươ

ế

 Các ph  Các ph

ng pháp phân c p ấ ng pháp d a trên phân ho ch

ươ ươ

III.1 Ph ng pháp phân c p ( Hierachical methods): ươ ấ

ạ ấ ụ ả ạ

ố ượ ả ậ ở ầ ấ

ớ ng. Khác v i đ u vào và dùng ma tr n kho ng cách làm ụ ng pháp phân c p có th dùng đi u ki n d ng. Ví d : ứ ầ ố ụ ươ ụ ừ ể ề ệ ấ

Phân c p:ấ T o phân c p c m ch không ph i phân ho ch các đ i t phân ho ch, phân c p không c n s c m k ạ tiêu chu n gom c m. Trong ph ẩ s c m. ố ụ

Bài t p chuyên đ Datamining_nhóm 2

GVHD: Nguy n H ng Giang ễ

ươ

Cây các c mụ

ng đ c bi u di n d i d ng cây c a các c m. Trong đó: Phân c p c m th ấ ụ ườ ượ ễ ướ ạ ủ ụ ể

- Các lá c a cây bi u di n t ng đ i t ng ễ ừ ố ượ ủ ể

- Các nút trong bi u di n các c m ụ ễ ể

Có hai ph ng pháp t o cây phân c p: t i lên: ươ ấ ạ ừ trên xu ng và tù d ố ướ

Ph

ng pháp phân c p t

trên xu ng:

ươ

ấ ừ

c m l n nh t ch a t t nh t thành ắ ầ ừ ụ ng. Chia c m phân bi ụ ấ ớ

B t đ u t t c các đ i t ấ các c m nh h n và ti p di n cho đ n khi có n c m tho mãn đi u ki n d ng. ứ ấ ả ế ố ượ ụ ệ ệ ừ ỏ ơ ụ ề ế ễ ả

a

a b

b

a b c d e

c

c d e

d

d e

e

ân chia- divisive divisive

PhPhân chia-

Step 3

Step 2 Step 1 Step 0

Step 4

Ph

ng pháp t

i lên:

ươ

d ừ ướ

Các b c th c hi n: ướ ự ệ

ng và l p ma tr n kho ng cách c p n. B1: T o n nhóm, m i nhóm g m m t đ i t ỗ ộ ố ượ ạ ồ ậ ậ ả ấ

B2:Tìm 2 nhóm u,v có kho ng cách nh nh t (duv) ỏ ấ ả

ệ ả ậ ậ ớ ớ

B3: G p nhóm u v i nhóm v. Ký hi u nhóm m i là (uv). L p ma tr n kho ng cách ộ m i b ng cách: ớ ằ

+ Lo i các hàng và c t t ng ng v i các nhóm u,v ộ ươ ứ ạ ớ

Bài t p chuyên đ Datamining_nhóm 2

GVHD: Nguy n H ng Giang ễ

ươ

ộ ộ ể ư ủ ả ộ ớ

+Thêm m t hàng và m t c t đ l u kho ng cách c a nhóm uv v i các nhóm còn l iạ

c 2 và b i các b c 3 cho đ n khi ch n đ c k nhóm thích h p nh t cho ướ ướ ọ ượ ấ ợ

B4: L p l ế bài toán ho c ch có m t nhóm duy nh t. ặ ạ ặ ấ ộ ỉ

Ph ng pháp này đ a t i bài toán nh h n : Tìm kho ng cách gi a hai nhóm ươ ư ớ ỏ ơ ữ ả

 Các ph ng pháp tính kho ng cách gi a hai nhóm là: ươ ữ ả

ng pháp k t n i đ n

ươ

ế ố ơ đi u ki n ấ ừ ộ

ệ ở ề ủ m t thành viên c a

đây là kho ng cách gi a hai c m là kho ng cách ng n nh t t ụ nhóm t

ữ i thành viên c a nhóm khác. ủ

d(C1,C2) = min(drs), v i r thu c C1; s thu c C2 (*)

ng.V i kho ng cách gi a các đ i t

ng đ

c cho nh sau:

ố ượ

ố ượ

ượ

ư

Ví d :ụ Cho 5 đ i t ả d(1,2) =2, d(1,3)=6, d(1,4)=10, d(1,5)=9, d(2,3)=5, d(2,4)=9, d(2,5)=8,

d(3,4)=4, d(3,5)=5, d(4,5)=3.

ma tr n kho ng cách c a 5 đ i t

ng là D nh sau:

ố ưọ

ư

0 2 6 10 9

D = 2 0 5 9 8

6 5 0 4 5

1. Ph ng pháp k t n i đ n: ươ ế ố ơ Trong ph

10 9 4 0 3

9 8 5 3 0

ự ữ ả ậ ậ

B1: Ta xây d ng 5 nhóm và l p ma tr n kho ng cách gi a 5 nhóm này là D=D1

B2: Kho ng cách gi a 2 nhóm 1 và 2 nh nh t là 2. ỏ ấ ữ ả

ẽ ậ ộ ậ ạ ậ i ma tr n

B3: Ta s g p nhóm 1 và 2 thành m t nhóm.. Khi đó ta s c p nh t l kho ng cách m i là D1 ẽ ộ ớ ả

+ xoá c t 1 và dòng 1 c a nhóm 1. Xoá c t 2 và dòng 2 c a nhóm 2. ủ ủ ộ ộ

kho ng cách c a nhom (12) đ n các ộ ộ ẻ ưư ủ ế ả

+ Đ thêm m t c t và m t dòng đ l nhóm còn l ể i ta tính theo công th c (*) . ạ ộ ứ

Bài t p chuyên đ Datamining_nhóm 2

GVHD: Nguy n H ng Giang ễ

ươ

D(12,3)= min(drs) v i r thu c nhóm (12), và s thu c nhóm 3. ộ ớ ộ

D(1,3)=6, d(2,3)=5. v y nên d(12,3)=5. ậ

Hoàn toàn t ng t ta tính đ c d(12,5)=8, d(12,4)=9. ươ ự ượ

Khi đó ta thu đ c ma tr n kho ng cách m i D1 là ượ ả ậ ớ

0 5 9 8

D1= 5 0 4 5

9 4 0 3

8 5 3 0

B4:

- L p l

i b c 2, kho ng cách c a nhóm 5 và nhóm 4 là nh nh t d(5,4)=3 ặ ạ ướ ủ ấ ả ỏ

c 3, Ta s g p nhóm 4 và 5 thành m t nhóm.. Khi đó ta s c p nh t l ẽ ậ ậ ạ i ộ

- L p l ẽ ộ ma tr n kho ng cách m i là D2 i b ặ ạ ướ ả ậ ớ

+ xoá c t 4 và dòng 4 c a nhóm 4. Xoá c t 5 và dòng 5 c a nhóm 5 ủ ủ ộ ộ

các kho ng cách c a nhóm (45) t ủ ả ớ ộ ộ ể ưư

+ Thêm m t dòng và m t c t đ l ộ nhóm khác. Ta tính theo công th c (*) ứ

D(45, 12)=min(drs) v i r thu c (45), s thu c (12) ộ ớ ộ

D(4,1)=10, d(4,2)=9, d(5,1)=9, d(5,2)=8.

v y d(45,12)=8. ậ

Hoàn toàn t ng t ta tính đ oc d(45,3)=4. ươ ự ự

Khi đó ta thu đ c ma tr n kho ng cách m i D2 là: ượ ả ậ ớ

0 5 8

D2 = 5 0 4

8 4 0

- L p l i b c 2: d (45,3)= 4 là nh nh t ặ ạ ướ ấ ỏ

Bài t p chuyên đ Datamining_nhóm 2

GVHD: Nguy n H ng Giang ễ

ươ

i b ậ c 3: ta g p nhóm (45) và nhóm 3 thành m t nhóm. C p nh t ma tr n ậ ậ ộ ộ

- L p l kho ng cách m i là D3. ặ ạ ướ ả ớ

+ Xoá dòng và c t c a nhóm (45), xoá dòng và c t c a nhóm 3 ộ ủ ộ ủ

kho ng cách c a nhóm m id này đ n các nhóm ộ ủ ế ơ

+ Thêm m t dong f và m t c t đ l ả khác ta s tính kho ng cách theo công th c (*) ộ ộ ẻ ưư ứ ẽ ả

D(345,12)= min( drs) v i r thu c (345) và s thu c(12). ộ ớ ộ

D(3,1)=6, d(3,2)=5, d(4,1)=10, d(4,2)=9, d(5,1)=9, d(5,2)=8.

v y d(345,12)=5. ậ

Ta thu đ c kho ng cách m i là D3 là: ượ ả ớ

0 5

D3= 5 0

Cu i cùng nhóm thu đ oc s là nhóm (12543) ự ẽ ố

S đ mô t các b c: ơ ồ ả ướ

1

12345

1 2

2

3

345

4

4 5

5

B0 B1 B2 B3 B4

Bài t p chuyên đ Datamining_nhóm 2

GVHD: Nguy n H ng Giang ễ

ươ

2.Ph

ươ

ng pháp k t n i đ y đ : ế ố ầ ủ

d(C1,C2) = max(drs), v i r thu c C1; s thu c C2. ớ ộ ộ

3.Ph

ng pháp k t n i trung bình:

ươ

ế ố

ng đ

ươ

ả ng kho ng m t vài thành viên c a m t nhóm này đ n m t vài thành viên

ươ ế

Kho ng cách gi a m t cluster này và m t cluster khác là t ữ ộ cách trung bình t ừ ộ c a nhóm khác. ủ

n

1

n

2

=

CCD

)2,1(

(

drs

)

V i r thu c C1, s thu c C2.

1 nn 21

r

= 1

s

= 1

Đánh giá:

(cid:229) (cid:229)

- Các ph ng pháp phân c p có u đi m l n là: khái ni m đ n gi n, lý thuy t t ể ả ấ

ớ c tr n tách, quy t đ nh là vĩnh c u, vì v y s các ph ế ố t. ng án khác ơ ệ ậ ố ư ế ị ươ ử ộ

ươ Khi c m đ ượ ụ c n xem xét b rút gi m. ị ầ ả

III.2 Các ph

ươ

ự ng pháp

ể ế ủ ươ ụ ng pháp phân c p: Do vi c tr n tách các c m là vĩnh c u nên ộ ng pháp phân chia c n th i gian ệ c. Các ph ươ ể ắ ử ờ ế ị ầ - Đi m y u c a ph ấ quy t đ nh sai là không th kh c ph c đ ụ ượ tính toán và không th scalable cho t p d li u l n ậ ữ ệ ớ ể

ng pháp d a trên phân ho ch ph a. Mô t ả ươ Cho m t c s d li u D ch a n đ i t ộ ơ ở ữ ệ

ng, t o phân ho ch thành t p có k c m sao cho: ố ượ ứ ạ ụ ạ ậ

- M i c m ch a ít nh t m t đ i t ng ộ ố ượ ỗ ụ ứ ấ

- M i đ i t ỗ ố ượ ng thu c v m t c m duy nh t ấ ộ ề ộ ụ

Bài t p chuyên đ Datamining_nhóm 2

GVHD: Nguy n H ng Giang ễ

ươ

ị ụ ạ ố ư i u hoá tiêu chu n phân ho ch đ ẩ ạ ượ c

ng pháp ươ ng pháp gom c m k-mean - Cho tr k, tìm phân ho ch có k c m sao cho t ch n.ọ b. Các ph b.1.Ph ươ ụ

Input: S các c m k c n gom và c s d li u ch a n đ i t ng. ơ ở ữ ệ ố ượ ứ ụ ầ ố

Output: k c m đã đ c gom. ụ ượ

Thu t gi c ậ ả g m 4 b i: ồ ướ

- B c1: Phân ho ch đ i t ng thành k t p con ( c m) ng u nhiên. ố ượ ướ ạ ụ ẫ ậ

ướ ủ ố ượ ụ ng trong c m) cho t ng c m ừ ụ

- B c 2: Tính các tâm ( trung bình c a các đ i t trong phân ho ch hi n hành. ạ ệ

- B c 3: Gán m i đ i t ỗ ố ượ ướ ng cho c m tâm g n nh t ấ ụ ầ

- B c 4: N u c m không có s thay đ i thì d ng, ng i quay l c 2.. ế ụ ướ ừ ự ổ c l ượ ạ i b ạ ướ

Bài t p chuyên đ Datamining_nhóm 2

GVHD: Nguy n H ng Giang ễ

ươ

10

10

9

9

8

8

7

7

6

6

5

5

4

4

3

3

2

2

1

1

0

0

0

1

2

3

4

5

6

7

8

9

10

0

1

2

3

4

5

6

7

8

9

10

10

9

10

8

9

7

8

6

7

5

6

4

5

3

4

3

2

2

1

1

0

0

1

2

3

4

5

6

7

8

9

10

0

0

1

2

3

4

5

6

7

8

9

10

ướ

ạ ộ ủ

B c 2: Đ xác đ nh các đi m h t gi ng ta đi tìm to đ c a nó b ng cách tính hoành đ và ộ ị tung đ trung bình. G i (ọ

ạ ộ ủ

ộ 1x , 1y ), ( 2x , 2y ) là to đ c a 2 đi m h t gi ng. Ta có:

= 3.67

1x =

=5.17

1y =

= 6.75

2x =

= 4.25

2y =

+++++ 544333 6 +++++ 876541 6 +++ 8775 4 +++ 5543 4

Ví d v thu t toán k-mean, n=10, k=2 ụ ề ậ

Bài t p chuyên đ Datamining_nhóm 2

GVHD: Nguy n H ng Giang ễ

ươ

B c 3: Tính kho ng cách t

các centroid đ n các đi m

ướ

ế

STT To đ các

Thu cộ c m 1ụ

Thu cộ c m 2ụ x x

x

x

x x

x

1 2 3 4 5 6 7 8 9

ạ ộ đi mể (5,1) (7,3) (3,4) (7,4) (4,5) (5,5) (8,5) (3,6) (4,7) (3,8)

ế Kho ng cách đ n centroid 1 (3.67, 5.17) 4.2 3.86 1.22 3.45 0.30 1.30 4.30 1.22 2.02 3,08

ế Kho ng cách đ n centroid 2 (6.75, 4.25) 3.62 1.24 3.71 0.36 2.82 1.88 1.52 4.12 3.89 5.3

x x x

c 2.

ướ

ố ượ

i b ạ ướ

B c 4: Các đ i t ng trong các c m có s thay đ i nên quay l ự B c 2: Tính to đ các đi m centroid m i ớ

ạ ộ

ướ

= 3.67

1x =

+++++ 544333 6

=5.83

1y =

+++++ 876554 6

= 6.75

2x =

= 3.25

2y =

+++ 8775 4 +++ 5431 4

B c 3: Tính kho ng cách t

các centroid đ n các đi m

ướ

ế

STT

Thu cộ c m 1ụ

Thu cộ c m 2ụ x x

x

x

x x

x

1 2 3 4 5 6 7 8 9 10

To đạ ộ các đi mể (5,1) (7,3) (3,4) (7,4) (4,5) (5,5) (8,5) (3,6) (4,7) (3,8)

Kho ng cách đ n ế centroid 1 (3.67, 5.17) 5.00 4.37 1.95 3.80 0.44 1.57 4.4 0.69 1.21 2.17

Kho ng cách đ n ế centroid 2 (6.75, 4.25) 2.85 0.35 3.82 0.79 2.82 2.47 2.15 4.65 4.65 6.05

x x x

Bài t p chuyên đ Datamining_nhóm 2

GVHD: Nguy n H ng Giang ễ

ươ

Nh n xét: Sau khi th c hi n b

c 3 các c m không có s thay đ i nên d ng t

i đây.

ệ ướ

ng pháp gom c m k- means  Đi m m nh c a ph ạ ủ ể ươ ụ

ng đ i: O(nkt) v i n là s đ i t ố ố ượ ố ớ ố ầ ặ ng, k là s c m, t là s l n l p. ố ụ

- Hi u su t t ệ Thông th ng k, t << n. ấ ươ ườ

- Thu t toán này có u đi m là rõ ràng, d dàng cài đ t. ể

ư

 Đi m y u c a ph ng pháp k- means ế ủ ể ươ

- Có th áp d ng ch khi xác đ nh đ c tr trung bình ụ ể ỉ ị ượ ị

- C n ch đ nh tr c s các c m- k. ầ ị ỉ ướ ố ụ

- Không th x lý nhi u và outliers ể ử ễ

b.1.2. Thu t toán k-medoid ậ

Input: S các c m k c n gom và c s d li u ch a n đ i t ng. ơ ở ữ ệ ố ượ ụ ứ ầ ố

Output: k c m đã đ c gom. ụ ượ

 B c 1: Ch n k đ i t

Thu t toán: ậ

 B c 2: Gán t ng đ i t

ng ng u nhiên làm tâm c a nhóm. ố ượ ướ ọ ủ ẫ

 B c 3: Ch n ng u nhiên 1 đ i t

ng còn l i vào c m có tâm g n nh t. ố ượ ướ ừ ạ ụ ầ ấ

ng không là đ i t ố ượ ướ ẫ

ng tâm, và thay m t trong ng cho ổ ố ượ ố ượ ng trong c m(gán đ i t ụ ộ ố ượ

 B c 4: N u gán tâm m i thì quay l

các tâm đó b ng nó n u nó làm thay đ i đ i t ế c m có tâm g n nh t). ụ ấ ọ ằ ầ

c 2, ng i thì d ng. ướ ế ớ i b ạ ướ c l ượ ạ ừ

Bài t p chuyên đ Datamining_nhóm 2

GVHD: Nguy n H ng Giang ễ

ươ

Bài t p chuyên đ Datamining_nhóm 2

GVHD: Nguy n H ng Giang ễ

ươ

Gán mỗi đối tượng còn lại                                      vào cụm có tâm mới

Ví d thu t toán k-medoid, n=10, k=2. ụ ậ

Bài t p chuyên đ Datamining_nhóm 2

GVHD: Nguy n H ng Giang ễ

ươ

i vào c m có tâm g n đ i t

ạ ộ ng còn l

• B c 1: Ch n 2 đi m có to đ K1 (3,8) và K2(6,4) làm tâm c a 2 c m. ụ • B c 2: Gán t ng đ i t ng nh t. ấ ạ

ủ ố ượ

ướ ướ

ố ượ

STT

Kho ng cách đ n ế ả K1 (3,8)

Thu c c m ộ ụ k1

Thu c c m ộ ụ k2

T a đ các ọ ộ đi mể

x

x

x x

1 2 3 4 5 6 7 8 9 10

(2,6) (3,4) (3,8) (4,7) (6,2) (6,4) (7,3) (7,4) (7,6) (8,5)

2.24 4.00 0 1.41 6.71 5.00 6.40 5.66 4.47 5.83

Kho ngả cách đ nế K2(6,4) 4.47 3.00 5.00 3.61 2.00 0 1.41 1.00 2.24 2.24

x x x x x x

• B c 3: Ch n đi m (7,6) làm tâm.

ướ

STT

Kho ng cách đ n ế ả K1 (3,8)

Thu c c m ộ ụ k1

Thu c c m ộ ụ k2

T a đ các ọ ộ đi mể

x x x x

1 2 3 4 5 6 7 8 9

(2,6) (3,4) (3,8) (4,7) (6,2) (6,4) (7,3) (7,4) (7,6)

2.24 4.00 0 1.41 6.71 5.00 6.40 5.66 4.47

Kho ngả cách đ n K2 ế (7,6) 5.00 4.47 4.47 3.16 4.12 2.24 3.00 2.00 0

x x x x x

Bài t p chuyên đ Datamining_nhóm 2

GVHD: Nguy n H ng Giang ễ

ươ

10

(8,5)

5.83

1.41

x

ộ ng trong c m k1, k2 thay đ i. Đ i tâm (6,4) thành (7,6) t o ra m t ổ

ng v i tâm m i là (7,6). Quay l

c 2.

ướ t p đ i t ậ

• B c 4: Các đ i t ố ượ ớ ố ượ ướ

ổ i b ạ ướ ớ o B c 3: Ch n đi m (8,5) làm tâm m i ớ ể

STT

Kho ng cách đ n ế ả K1 (3,8)

Thu c c m ộ ụ k1

Thu c c m ộ ụ k2

T a đ các ọ ộ đi mể

x x x x

1 2 3 4 5 6 7 8 9 10

(2,6) (3,4) (3,8) (4,7) (6,2) (6,4) (7,3) (7,4) (7,6) (8,5)

Kho ngả cách đ n K2 ế (8,5) 6.08 5.1 5.83 4.47 3.61 2.24 2.24 1.41 1.41 0

2.24 4.00 0 1.41 6.71 5.00 6.40 5.66 4.47 5.83

x x x x x x

Nh n xét: Đ i t

ng trong c m k1, k2 không thay đ i nên d ng.

ố ượ

Bài t p chuyên đ Datamining_nhóm 2

GVHD: Nguy n H ng Giang ễ

ươ

T NG K T

ng t ng t ự ự ự ự ượ ượ

ụ ụ ụ ụ

ề ề tùy thu c vào d li u đ tùy thu c vào d li u đ c dùng và lo i t c dùng và lo i t ng t ng t ộ ộ ọ ọ ữ ệ ượ ữ ệ ượ ự ự ộ ộ ạ ươ ạ ươ ự ự

ụ ụ

 Phân tích gom c m các đôi t Phân tích gom c m các đôi t ng d a trên s t ự ươ ng d a trên s t ự ươ  Phân tích gom c m có ph m vi ng d ng to l n Phân tích gom c m có ph m vi ng d ng to l n ớ ụ ứ ạ ạ ớ ụ ứ  Có th tính đ đo t cho nhi u lo i d li u khác nhau. ng t Có th tính đ đo t ạ ữ ệ ự ươ ể ng t cho nhi u lo i d li u khác nhau. ự ươ ạ ữ ệ ể ng t Vi c l a ch n đ đo t ươ ộ ệ ự  Vi c l a ch n đ đo t ng t ươ ộ ệ ự c n tìmầc n tìmầ , ,   Các ph Các ph ươ ươ - Các ph - Các ph ng pháp gom c m ng pháp gom c m ng pháp phân c p ấ ng pháp d a trên phân ho ch ươ ươ ự ạ