Bài giảng Khai phá dữ liệu (Data Mining) Chương 4: Lê Tiến

ươ ươ

ạ ữ ệ ạ ữ ệ

Ch Ch

ng 4: Phân lo i d li u ng 4: Phân lo i d li u

ữ ệ

Khai phá d li u

(Data mining)

ộ

N i dung

ạ ữ ệ

ổ

 4.1. T ng quan v phân lo i d li u ề

ạ ữ ệ

ế ị

ớ

 4.2. Phân lo i d li u v i cây quy t đ nh

ạ ữ ệ

ạ

ớ

 4.3. Phân lo i d li u v i m ng Bayesian

ạ ữ ệ

ạ

ớ

 4.4. Phân lo i d li u v i m ng Neural

ươ

ạ ữ ệ

 4.5. Các ph

ng pháp phân lo i d li u khác

 4.6. Tóm t

tắ

ố

4.0. Tình hu ng 1

Evade

Tid Refund

Marital Status

Taxable Income

No

Yes

Single

125K

No

Married

100K

No

Single

70K

No

Yes

Married

120K

ố

Yes

Divorced 95K

No

Married

60K

Ông A (Tid = 100) có ả kh năng tr n thu ???ế

No

Yes

Divorced 220K

Yes

Single

85K

No

Married

75K

Yes

10 No

Single

90K

ố

4.0. Tình hu ng 2

ớ

ủ

ệ

ộ

ị

V i thông tin c a m t applicant A, xác đ nh li u ngân hàng có cho A vay không?

ố

4.0. Tình hu ng 3

ố

ệ

Khóa

MãSV

MônH c1ọ

MônH c2ọ

T tNghi p

…

2004

9.0

8.5

…

Có

2004

6.5

8.0

…

Có

2004

4.0

2.5

…

Không

2004

5.5

3.5

…

Không

2004

5.0

5.5

…

Có

…

2005

7.0

6.0

…

Có

2006

9.5

7.5

…

Có

2007

5.5

4.5

…

Không

2008

2.0

3.0

…

Không

…

ị

ẽ ố

ệ

Làm sao xác đ nh li u sinh viên A s t

ệ t nghi p?

4.0. Tình hu ng …ố

ướ ậ

ệ

ấ

ẫ

ả ề

Cho tr

c t p hu n luy n (training set), d n ra mô t

v class A và class B?

ướ

ố ượ

ẫ

ố ượ

ẫ

ớ

Cho tr

c m u/đ i t

ị ng m i, làm sao xác đ nh class cho m u/đ i t

ng đó?

ố ượ

ự

ệ

ẫ

ợ

Li u class đó có th c s phù h p/đúng cho m u/đ i t

ng đó?

ạ ữ ệ

ổ

ề 4.1. T ng quan v phân lo i d li u

ạ ữ ệ

 Phân lo i d li u (classification)

 D ng phân tích d li u nh m rút trích các mô hình mô ằ ự

ữ ệ ữ ệ ướ ớ ữ ệ ạ ặ ả các l p d li u ho c d đoán xu h ng d li u t

ướ

ự

ệ

ấ

ộ

ạ  B c h c (giai đo n hu n luy n): xây d ng b phân lo i

 Quá trình g m hai b ạ ọ ệ

ằ

ọ ậ

ệ

ấ

(classifier) b ng vi c phân tích/h c t p hu n luy n

ạ

ố ượ

ớ

 B c phân lo i (classification): phân lo i d li u/đ i t

ng m i

ướ ế

ủ

ộ

ạ ượ

ạ ữ ệ ể c đánh giá là có th

ượ

ấ

ậ

ộ n u đ chính xác c a b phân lo i đ ch p nh n đ

c (acceptable)

ả ủ

ộ ớ

ầ

ớ

ữ ệ

ố ượ

ồ ướ c:

y = f (X) v i y là nhãn (ph n mô t ) c a m t l p (class) và X là d li u/đ i t

ộ ị

ướ

ệ

ậ

ấ

ọ

ượ

ướ

ị

B c h c: X trong t p hu n luy n, m t tr y đ

c cho tr

c v i X

ng ớ  xác đ nh f ế

ệ

ấ

ậ

ọ

ướ

ớ

’, y’) và X’ <> m i X trong t p hu n luy n; n u acceptable thì

ể

ạ ị

B c phân lo i: đánh giá f v i (X ’’ cho X’’ (m i)ớ dùng f đ xác đ nh y

ạ ữ ệ

ổ

ề 4.1. T ng quan v phân lo i d li u

ệ

ấ

ọ

B c h c/hu n luy n

ướ

ụ

ạ

ướ B c phân lo i (đánh giá và áp d ng)

ạ ữ ệ

ổ

ề 4.1. T ng quan v phân lo i d li u

ạ ữ ệ

 Phân lo i d li u

 D ng h c có giám sát (supervised learning)

ạ ọ

desired response Y state X

Environment Teacher

actual response (cid:0)

Learning System

error signal

ạ ữ ệ

ổ

ề 4.1. T ng quan v phân lo i d li u

ả

 Các gi

ạ ữ ệ ế ị

ạ ạ

ậ i thu t phân lo i d li u  Phân lo i v i cây quy t đ nh (decision tree) ạ ớ  Phân lo i v i m ng Bayesian ạ ớ  Phân lo i v i m ng neural ạ ớ  Phân lo i v i k ph n t ầ ử ậ ạ ớ

ầ ấ c n g n nh t (knearest

neighbor)

 Phân lo i v i suy di n d a trên tình hu ng (casebased

ạ ớ ự ễ ố

reasoning)

 Phân lo i d a trên ti n hoá gen (genetic algorithms) ế  Phân lo i v i lý thuy t t p thô (rough sets) ế ậ  Phân lo i v i lý thuy t t p m (fuzzy sets) … ế ậ

ạ ự ạ ớ ạ ớ ờ

ạ ữ ệ

ế ị

ớ

4.2. Phân lo i d li u v i cây quy t đ nh

ơ ở ữ ệ

ướ

C s d li u khách hàng

AllElectronics dùng cho b

ọ c h c

ạ ữ ệ

ế ị

ớ

4.2. Phân lo i d li u v i cây quy t đ nh

ể

ộ

ả ủ

ộ ớ

c a m t l p (class label)

ừ ộ

ả ủ

ử

ế

ộ

m t node n i: k t qu c a m t phép th trên thu c tính

 Cây quy t đ nh (decision tree) – mô hình phân lo i ạ  Node n i: phép ki m th (test) trên m t thu c tính ử  Node lá: nhãn/mô t  Nhánh t ứ ươ ng ng t

ượ ừ c t

CSDL

ấ

ế ị ọ Cây quy t đ nh h c đ ệ AllElectronics hu n luy n

ế ị ộ

ạ ữ ệ

ế ị

ớ

4.2. Phân lo i d li u v i cây quy t đ nh

ả

ế ị

ự

ậ

 Gi

i thu t xây d ng cây quy t đ nh

 ID3, C4.5, CART (Classification and Regression Trees

– binary decision trees)

ạ ữ ệ

ế ị

ớ

4.2. Phân lo i d li u v i cây quy t đ nh

ạ ữ ệ

ế ị

ớ

4.2. Phân lo i d li u v i cây quy t đ nh

ủ

ặ

ả

 Đ c đi m c a gi ể

ậ i thu t

 Gi

ậ ể ị ệ i thu t tham lam (không có quay lui), chia đ tr , đ

ừ ố ả qui, t trên xu ng

ứ ạ ấ ầ ử ệ D g m |ồ D| ph n t

 Đ ph c t p v i t p hu n luy n ớ ậ ỗ ng), m i ph n t

 O(n*|D|*log|D|)

ứ

ủ

ỗ

ớ

ộ

 M i thu c tính ng v i m i m c (level) c a cây.

ứ

ỗ

ử

ệ

ấ

ượ

 Cho m i m c c a cây, |D| phân t ủ

hu n luy n đ

ệ c duy t qua.

 Inmemory  ???

ộ ộ ố ượ (đ i t g m ầ ử ồ n thu c tính

ạ ữ ệ

ế ị

ớ

4.2. Phân lo i d li u v i cây quy t đ nh

 Attribute_selection_method

ứ ẽ ọ

ấ ạ ể ươ ng th c dùng heuristic đ ch n tiêu chí r nhánh ệ D thành ậ ộ i m t node, i.e. phân ho ch t p hu n luy n

 Ph ạ t các phân ho ch con v i các nhãn phù h p

ế

ạ

ỗ

ộ

 X p h ng m i thu c tính

ị ố ể

ể ẽ

ộ

ọ

ộ  Thu c tính đ

c ch n đ r nhánh là thu c có tr s đi m

ượ ấ ớ (score) l n nh t

ộ

ọ

 Đ đo ch n thu c tính phân tách (splitting attribute):

information gain, gain ratio, gini index

ạ ợ ớ

ạ ữ ệ

ế ị

ớ

4.2. Phân lo i d li u v i cây quy t đ nh

ộ

A là thu c tính phân tách (splitting attribute).

ạ ữ ệ

ế ị

ớ

4.2. Phân lo i d li u v i cây quy t đ nh

 Đ đo Information Gain

ộ  D a trên lý thuy t thông tin (information theory) c a

ế ự

ươ ề ứ ủ ủ ị ộ Claude Shannon v giá tr (n i dung thông tin) c a tin ấ ẽ ng ng v i information gain l n nh t s

 Thu c tính t ộ ớ ớ c ch n làm splitting attribute cho node N.

ệ ạ ầ ả ấ

ượ

ạ

ọ đ

ể

ố

ạ ử i thi u s phép th (test) đ phân

ạ

ạ i c n phân ho ch các ph n t ắ ả ữ (randomness) ít nh t gi a các phân ho ch t o đ ố ậ  Cách ti p c n này giúp t ầ ử .

ế ộ lo i m t ph n t

ượ ầ ử  Node N là node hi n t trong D. ẫ ự  Splitting attribute đ m b o s trùng l p (impurity)/ng u nhiên c. ể

ạ ữ ệ

ế ị

ớ

4.2. Phân lo i d li u v i cây quy t đ nh

ộ

 Đ đo Information Gain

 L

ượ ầ ử ể ạ ầ ộ ng thông tin c n đ phân lo i m t ph n t trong

ấ ể ộ

ầ ử ấ ỳ

ề ớ

ộ

b t k trong D thu c v l p C

 pi: xác su t đ m t ph n t

ớ

v i i = 1..m

ầ ử ủ ớ

ậ

c a l p C

 Ci,D: t p các ph n t

i trong D

ủ D (= Entropy c a D): Info(D)

Info

(

)

log

(

)

p i

(cid:0) (cid:0) (cid:0)

(cid:0)

1 D

|/|

p i

Di ,

(cid:0)

ạ ữ ệ

ế ị

ớ

4.2. Phân lo i d li u v i cây quy t đ nh

 Đ đo Information Gain

ầ ử

ể

ạ

ộ

ự

 L

trong D d a trên

ượ ng thông tin c n đ phân lo i m t ph n t ộ

thu c tính A: Info

ầ A(D)

ạ

 Thu c tính A dùng phân tách D thành v phân ho ch {D

1, D2, …, Dj,

ộ …, Dv}.

ạ

ỗ

ầ ử

 M i phân ho ch D

trong D.

j g m |Dồ

j| ph n t

ứ

ẽ

ộ

 L

ế ng thông tin này s cho bi ạ

ữ ầ ử ừ ộ ớ

ứ

ộ

m t l p hay

ượ ạ ề ớ

ắ t m c đ trùng l p gi a các phân ho ch, nghĩa là m t phân ho ch ch a các ph n t nhi u l p khác nhau.

ợ

ỏ

ố

 Mong đ i: Info

A(D) càng nh càng t |

ộ

Info

(

)

(

)

(cid:0) (cid:0)

j D

(cid:0)

ạ ữ ệ

ế ị

ớ

4.2. Phân lo i d li u v i cây quy t đ nh

ộ

 Đ đo Information Gain

ệ ộ ữ ị t gi a tr thông tin

 Information gain chính là đ sai bi ạ ớ

ướ ầ ị c phân ho ch) và tr thông tin

A(D) (sau phân ho ch v i A).

ạ ớ Info(D) ban đ u (tr m i Info

(cid:0) (cid:0)

Gain

Info

D

Info

D

(

A )

(

)

(

)

ạ ữ ệ

ế ị

ớ

4.2. Phân lo i d li u v i cây quy t đ nh

Gain(age)=0.246 bits

Gain(income)?

Gain(student)?

Gain(credit_rating)?

 Splitting attribute?

ạ ữ ệ

ế ị

ớ

4.2. Phân lo i d li u v i cây quy t đ nh

 Đ đo Gain Ratio: GainRatio(A)

ớ

 Dùng v i C4.5

ả

ạ

ộ

 Gi

ề ộ i quy t v n đ m t thu c tính đ

c dùng t o ra r t nhi u

ấ ầ ử

ế ấ ạ

ượ ạ

ỉ ồ

ậ

ỗ

ề phân ho ch (th m chí m i phân ho ch ch g m 1 ph n t ).

ớ ị

ẩ

 Chu n hoá information gain v i tr thông tin phân tách (split

information): SplitInfoA(D)

ươ

ớ ị

ị ớ

ứ

ấ

 Splitting attribute A t

ng ng v i tr GainRatio(A) là tr l n nh t.

ộ

SplitInfo

(

)

log*

j D

(cid:0) (cid:0) (cid:0) (cid:0) (cid:0) (cid:0) (cid:0) (cid:0) (cid:0) (cid:0) (cid:0) (cid:0)

GainRatio

(

A )

Gain ( SplitInfo

A ) D (

)

(cid:0)

ạ ữ ệ

ế ị

ớ

4.2. Phân lo i d li u v i cây quy t đ nh

SplitInfoincome(D)

Gain(income) = 0.029

GainRatio(income) = 0.029/0.926 = 0.031

GainRatio(age)?

GainRatio(student)?

GainRatio(credit_rating)?

 Splitting attribute?

ạ ữ ệ

ế ị

ớ

4.2. Phân lo i d li u v i cây quy t đ nh

ớ

 Đ đo Gini Index  Dùng v i CART

ộ

ỗ

ị

 S phân tách nh phân (binary split) cho m i thu c tính A

ự  A (cid:0)

SA?

ộ ậ

ồ

ộ

ị

 SA là m t t p con g m m t hay v1 tr thu c tính A.

ấ ươ

ủ

ỏ

ị

ộ ậ

ứ

 Gini index c a m t thu c tính là tr nh nh t t

ớ ng ng v i m t t p

ộ ậ

ộ 2ừ v – 2 t p con.

con SA t

ấ ể ố

ươ

ớ

ỏ

ng ng v i gini index nh nh t đ t

ự i đa hóa s

 Splitting attribute t ả

ề ộ

ữ

ạ

ứ ắ suy gi m v đ trùng l p gi a các phân ho ch.

ộ

ạ ữ ệ

ế ị

ớ

4.2. Phân lo i d li u v i cây quy t đ nh

{low,high} = Giniincome(cid:0) {medium,high} = Giniincome(cid:0)

{medium} = 0.315 {low} = 0.300

{medium,high}/{low}=0.300 {youth,senior}/{middle_aged} = 0.375

Giniincome(cid:0) Giniincome(cid:0)  Giniincome (cid:0) Giniage (cid:0) Ginistudent=0.367 Ginicredit_rating=0.429  Splitting attribute?

ạ ữ ệ

ế ị

ớ

4.2. Phân lo i d li u v i cây quy t đ nh

ế ị

ự

ừ ơ ở ữ ệ

ấ

 Xây d ng cây quy t đ nh t

c s d li u hu n

ệ

luy n AllElectronics

 Dùng đ đo Information Gain

ộ

 Dùng đ đo Gain Ratio

ộ

 Dùng đ đo Gini Index

ộ

 Các cây quy t đ nh h c đ

ế ị ọ ượ ố c gi ng nhau???

 Ti n hành đánh giá và phân lo i v i các cây quy t đ nh

ạ ớ ế ị

ượ ế ọ h c đ c

ạ ữ ệ

ạ

ớ

4.3. Phân lo i d li u v i m ng Bayesian

ự

ủ

ị

 D a trên đ nh lý c a Bayes

 Phân lo i Naïve Bayesian

ả ị

ệ ớ

ộ ậ

ề

 Gi

đ nh: đ c l p có đi u ki n l p (class conditional

independence)

ạ

 Phân lo i Bayesian belief networks

ươ

 Ph

ấ ạ ự ng pháp phân lo i d a trên xác su t

ạ

ạ ữ ệ

ạ

ớ

4.3. Phân lo i d li u v i m ng Bayesian

Reverend Thomas Bayes (1702-1761)

ạ ữ ệ

ạ

ớ

4.3. Phân lo i d li u v i m ng Bayesian

ộ

ề ớ

ộ

 Đ nh lý Bayes

Cho m t RID, RID thu c v l p “yes” (buys_computer = yes)

ố ượ

ộ

 X: m t tuple/đ i t

ng (evidence)

ả

ế

 H: gi

thuy t (hypothesis)

ề ớ

ộ

 X thu c v l p C.

ượ

ị

ở ị c xác đ nh b i tr

ộ

X đ ủ c a các thu c tính.

ị

ạ ữ ệ

ạ

ớ

4.3. Phân lo i d li u v i m ng Bayesian

 Đ nh lý Bayes

 P(H|X): posterior probability

ố ớ

ủ

ề

ệ

ấ

 Xác su t có đi u ki n c a H đ i v i X.

ụ

ấ

 Ví d : P(buys_computer=yes|age=young, income=high) là xác su t

ủ

mua máy tính c a khách hàng có tu i

ổ “young” và thu nh p ậ “high”.

 P(X|H): posterior probability

ố ớ

ủ

ề

ệ

ấ

 Xác su t có đi u ki n c a X đ i v i H.

ụ

ấ

 Ví d : P(age=young, income=high|buys_computer=yes) là xác su t

khách hàng mua máy tính có tu i ổ “young” và thu nh p ậ “high”.

 P(age=young, income=high|buys_computer=yes) = 0

 P(age=young, income=high|buys_computer=no) = 2/5 = 0.4

ị

ạ ữ ệ

ạ

ớ

4.3. Phân lo i d li u v i m ng Bayesian

ị

 Đ nh lý Bayes

 P(H): prior probability

ấ ủ

 Xác su t c a H

ụ

ủ

ấ

 Ví d : P(buys_computer=yes) là xác su t mua máy tính c a

khách hàng nói chung.

 P(buys_computer=yes) = 9/14 = 0.643  P(buys_computer=no) = 5/14 = 0.357

 P(X): prior probability

ấ ủ

 Xác su t c a X

ụ

ấ

 Ví d : P(age=young, income=high) là xác su t khách hàng có

tu i ổ “young” và thu nh p ậ “high”.

 P(age=young, income=high) = 2/14 = 0.143

ạ ữ ệ

ạ

ớ

4.3. Phân lo i d li u v i m ng Bayesian

ị

 Đ nh lý Bayes

 P(H), P(X|H), P(X) có th đ

ể ượ ừ ậ c tính t ữ ệ t p d li u cho

tr c.ướ

 P(H|X) đ

(

)

ượ ừ ị c tính t đ nh lý Bayes.

XHP

(

)

HPHXP | ) XP (

)

P(buys_computer=yes|age=young, income=high) = P(age=young, income=high| buys_computer=yes)P(buys_computer=yes)/P(age=young, income=high) = 0

P(buys_computer=no|age=young, income=high) = P(age=young, income=high| buys_computer=no)P(buys_computer=no)/P(age=young, income=high) = 0.4*0.357/0.143 = 0.9986

(cid:0)

ạ ữ ệ

ạ

ớ

4.3. Phân lo i d li u v i m ng Bayesian

 Cho tr

ữ ệ ướ ậ ấ ả ớ

ạ ủ (nhãn) c a ố ượ ng ệ c t p d li u hu n luy n D v i mô t i, i=1..m, quá trình phân lo i m t tuple/đ i t

ượ

ế

 X đ

ạ c phân lo i vào C

ỉ ế i n u và ch n u

ớ

P(Ci|X) > P(Cj|X) v i 1<=j<=m, j<>i

(

)

ộ ư ớ các l p Cớ ạ X = (x1, x2, …, xn) v i m ng Bayesian nh sau:

(

)

XCP i

CPCXP | ) i XP (

)

ế

ấ

ố

 T i đa hóa P(C

i|X) (i.e. ch n Cọ

i n u P(C

ị ớ i|X) là tr l n nh t)

ố

 T i đa hóa P(X|C

i)P(Ci)

ặ

 P(C1) = P(C2) = .. = P(Cm) ho c P(C

i) = |Ci,D|/|D| …

(cid:0)

ạ ữ ệ

ạ

ớ

4.3. Phân lo i d li u v i m ng Bayesian

(

)

(

)

(

(*)

(*..*)

)

CXP i

CxP k

CxP n

CxP 1

CxP 2

(cid:0) (cid:0) (cid:0)

(cid:0)

 P(X|Ci) đ

ượ ớ ả ị c tính v i gi đ nh class conditional

independence.

 xk, k = 1..n: tr thu c tính A

k c a Xủ

ộ ị

 P(xk|Ci) đ

ờ ạ

ộ  Ak là thu c tính r i r c.  P(xk|Ci) = |{X’|x’k = xk (cid:0) X’ (cid:0)

Ci}|/|Ci,D|

ụ

ộ

 Ak là thu c tính liên t c.

ụ

ấ

ố

ộ

ố

 P(xk|Ci) tuân theo m t phân b xác su t nào đó (ví d : phân b Gauss).

ượ ư c tính nh sau:

ạ ữ ệ

ạ

ớ

4.3. Phân lo i d li u v i m ng Bayesian

ế  N u P(x

k|Ci) = 0 thì P(X|Ci) = 0!!!

 Ban đ uầ

 P(xk|Ci) = |{X’|x’k = xk (cid:0) X’ (cid:0)

Ci}|/|Ci,D|

 Laplace (Pierre Laplace, nhà toán h c Pháp, 1749

ọ

 P(xk|Ci) = (|{X’|x’k = xk (cid:0) X’ (cid:0)

Ci}|+1)/(|Ci,D| + m)

 zestimate

 P(xk|Ci) = (|{X’|x’k = xk (cid:0) X’ (cid:0)

Ci}| + z*P(xk))/(|Ci,D| + z)

1827)

ạ ữ ệ

ạ

ớ

4.3. Phân lo i d li u v i m ng Bayesian

C1 = {X’|X’.buys_computer = yes}

C2 = {X’’|X’’.buys_computer = no}

 X (cid:0) C1

ạ ữ ệ

ạ

ớ

4.4. Phân lo i d li u v i m ng Neural

 M ng Neural sinh h c ọ

ạ

ạ ữ ệ

ạ

ớ

4.4. Phân lo i d li u v i m ng Neural

 Quá trình x lý thông tin t ử

ạ ạ ộ ủ i m t neuron c a m ng Neural

nhân t oạ

ạ ữ ệ

ạ

ớ

4.4. Phân lo i d li u v i m ng Neural

 M ng neural feedforward đa t ng

ạ ầ

ạ ữ ệ

ạ

ớ

4.4. Phân lo i d li u v i m ng Neural

 Gi

ả ậ ọ ề ượ i thu t h c lan truy n ng c (Backpropagation) có

giám sát

ạ ữ ệ

ạ

ớ

4.4. Phân lo i d li u v i m ng Neural

ạ ữ ệ

ạ

ớ

4.4. Phân lo i d li u v i m ng Neural

Output vector

Output nodes

(cid:0) (cid:0) (cid:0) Err O O 1( ) wErr k

k Err

(cid:0) (cid:0) (cid:0) (cid:0) l)(

(cid:0) (cid:0) l )( w ij w ij OErr j i

Hidden nodes

(cid:0) (cid:0) (cid:0) Err O 1( )( ) OTO j

Input nodes

1 wij (cid:0) O (cid:0) (cid:0)

Input vector: xi

(cid:0) (cid:0) (cid:0) (cid:0) I e 1 Ow ij i

ạ ữ ệ

ạ

ớ

4.4. Phân lo i d li u v i m ng Neural

ạ ữ ệ

ạ

ớ

4.4. Phân lo i d li u v i m ng Neural

ạ ữ ệ

ạ

ớ

4.4. Phân lo i d li u v i m ng Neural

ươ

ạ ữ ệ

4.5. Các ph

ng pháp phân lo i d li u khác

Unknown record

 Phân lo i knn (knearest

ạ neighbor)

 Cho tr ấ

ướ ậ ữ ệ

i các l p

c t p d li u ệ ớ

ự ớ

ng t ậ ố

 Ph thu c ộ ụ

ể

ộ ị

ả  Đ đo kho ng cách đ xác ự ươ ng t

đ nh s t

ự .

ị

ầ ử

ề

láng gi ng

ố  Tr k, s ph n t  k <= |D|1/2

hu n luy n D v ớ , ạ phân lo i record/object X ớ ự vào các l p d a vào k ầ ử ươ v i X t ph n t ấ nh t (dùng lu t s đông: majority vote)

ươ

ạ ữ ệ

4.5. Các ph

ng pháp phân lo i d li u khác

 Ch n đ đo ọ

ộ

qpd ( ),

(

 Đ đo Euclidean

(cid:0) (cid:0) (cid:0)

 Ch n tr k ọ

ả ễ ị ả

ế

ỏ

ưở

ễ

ở

 N u k quá nh thì k t qu d b nh h

ng b i nhi u.

ầ ử

ề

ọ

ượ

láng gi ng ch n đ

ể c có th

 N u k quá l n thì nhi u ph n t ớ ớ các l p khác.

ế ế ừ đ n t

k quá l n!ớ

ị

X

ươ

ạ ữ ệ

4.5. Các ph

ng pháp phân lo i d li u khác

(a) 1-nearest neighbor

(b) 2-nearest neighbor

X (cid:0)

PLUS

MINUS

X (cid:0)

MINUS

X (cid:0) hay X (cid:0)

PLUS ?

4.6. Tóm t

tắ

 ID3, C4.5, CART

 Classification v i Decision trees ớ

ự

ấ

ố

 D a trên lý thuy t xác su t th ng kê ế

 Classification với mạng Bayesian

 Classification với mạng Neural

 D aự trên khoảng cách

 Knn classification

Bài giảng Khai phá dữ liệu (Data mining): Chương 4 - Lê Tiến

Chủ đề:

ươ ươ

ạ ữ ệ ạ ữ ệ

Ch Ch

ng 4: Phân lo i d li u ng 4: Phân lo i d li u

ộ

N i dung

ố

4.0. Tình hu ng 1

Evade

Marital Status

Taxable Income

No

No

No

No

Yes

No

No

Yes

No

Yes

ố

4.0. Tình hu ng 2

ố

4.0. Tình hu ng 3

ố

ệ

Khóa

MãSV

MônH c1ọ

MônH c2ọ

T tNghi p

…

4.0. Tình hu ng …ố

ạ ữ ệ

ổ

ề 4.1. T ng quan v phân lo i d li u

y = f (X) v i y là nhãn (ph n mô t ) c a m t l p (class) và X là d li u/đ i t

ạ ữ ệ

ổ

ề 4.1. T ng quan v phân lo i d li u

ạ ữ ệ

ổ

ề 4.1. T ng quan v phân lo i d li u

ạ ữ ệ

ổ

ề 4.1. T ng quan v phân lo i d li u

Gain

Info

D

Info

D

(

A )

(

)

(

)

Unknown record

X

4.6. Tóm t

tắ

ỏ

ỏH i & Đáp … H i & Đáp …

Tài liệu liên quan

Tài liêu mới

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi