intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

DATA MINING AND APPLICATION: PHÂN LỚP DỮ LIỆU

Chia sẻ: Abcdef_14 Abcdef_14 | Ngày: | Loại File: PDF | Số trang:38

222
lượt xem
68
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Các phân xây mô hình cho : Gán các vào các chính xác cao có . Cho CSDL D={t1,t2, ,tn} và các C={C1, ,Cm}, phân là bài toán xác ánh f : D C sao cho ti gán vào. Phân lớp khách hàng (trong ngân hàng) để cho vay hay không. Dự đoán tế bào khối u lành tính hay ác tính.

Chủ đề:
Lưu

Nội dung Text: DATA MINING AND APPLICATION: PHÂN LỚP DỮ LIỆU

  1. KHAI THÁC (DATA MINING) 1 BÀI 4 PHÂN L P D LI U 2 1
  2. N I DUNG 1. pháp trên cây 2. pháp trên 3. 3 1. Phân : Cho các phân xây mô hình cho : Gán các vào các chính xác cao có . Cho CSDL D={t1,t2, ,tn} và các C={C1, ,Cm}, phân là bài toán xác ánh f : D C sao cho ti gán vào . 4 2
  3. Ví Phân : Phân khách hàng (trong ngân hàng) cho vay hay không bào u là lành tính hay ác tính Phân giao tín là pháp hay gian Phân tin tài chính, trí, thao, khi nào sông có 5 y khoa 2. Qui trình phân : 1 : Xây mô hình Mô các xác : các / dành cho xây mô hình Tìm phân cây công toán mô 6 3
  4. 2. Qui trình phân (tt) : 2: mô hình Phân các Xác chính xác mô hình, DL tra chính xác -> áp mô hình phân các xác nhãn 7 Classification Algorithms Training Data Classifier NAME RANK YEARS TENURED (Model) Mike Assistant Prof 3 no Mary Assistant Prof 7 yes Bill Professor 2 yes Jim Associate Prof 7 yes OR years > 6 Dave Assistant Prof 6 no Anne Associate Prof 3 no 8 4
  5. Classifier Testing Unseen Data Data (Jeff, Professor, 4) NAME RANK YEARS TENURED Tenured? Tom Assistant Prof 2 no Merlisa Associate Prof 7 no George Professor 5 yes Joseph Assistant Prof 7 yes 9 3. Các phân : pháp trên cây pháp trên pháp Naïve Bayes pháp trên SVM (support vector machine) thô 10 5
  6. N I DUNG 1. 2. 3. 11 1. 2. Xây cây 3. toán xây cây 4. Cách phân chia tính 5. quá phù DL 6. 12 6
  7. 1. các nút và các nhánh Ci Nút lá 13 2. Xây cây 2 : 1: cây tra các giá tính và phân chia các qui 2: cây Xác và các nhánh không cá 14 7
  8. age income student credit_rating buys_computer 40 low yes fair yes >40 low yes excellent no low yes excellent yes
  9. 3. toán xây cây CART ID3, C4.5 SLIQ, SPRINT 17 3. toán xây cây Ý chính : pháp (greedy) Phân chia trên tính cho hóa tiêu : Xác cách phân chia các trên 18 9
  10. 3. toán xây cây (tt) : các vào nút cùng Không còn tính nào có dùng phân chia Không còn nào nút 19 4. Cách phân chia các Tiêu phân chia : ra các nhóm sao cho trong nhóm tính là tính cho có cho quá trình phân giá phân chia là Entropy (Information Gain) Information Gain Ratio Gini Index 20 10
  11. ID3 / C4.5 Ci,D i |Ci, D i,D pi i Thông tin m Ci , D Info ( D) pi log 2 ( pi ) pi D 21 i1 age income student credit_rating buys_computer 40 low yes fair yes >40 low yes excellent no low yes excellent yes
  12. tính |D| = 14; m = 2; C1 2 |C1, D|= 9, |C2, D|=5 Thông tin là : 9 95 5 Info(D) I(9,5) log 2 log 2 0.940 14 14 14 14 23 tính A có các giá :{a1, a2 , ,av} Dùng tính A phân chia D thành v con {D1, D2, , Dv} Thông tin phân chia D theo tính A : Dj v InfoA ( D) I (D j ) D j1 thông tin (information gain) trên phân chia theo tính A : Gain(A) Info( D) InfoA ( D) 24 12
  13. Info(D) = I(9, 5) =0.940 age pj nj I(pj, nj) 2 2 3 3 I (2,3) log 2 log 2 0.971 40 3 2 0.971 I (4,0) log 2 log 2 0 4 4 4 4 3 3 2 2 I (3,2) log 2 log 2 0.971 25 5 5 5 5 5 4 5 Infoage( D) I (2,3) I (4,0) I (3,2) 0.694 14 14 14 Suy ra : Gain(age) Info( D) Infoage ( D) 0.246 26 13
  14. gian : 10 Cho DL trong ví 1 Ký : P: buys_computer = N: buys_computer = Tính thông tin trên phân chia theo tính : dãy : dãy trái : dãy 27 age? 31..40 40 student? credit rating? yes no yes fair excellent no yes no yes 28 14
  15. Information Gain Ratio: C4.5 Gain có xu thiên cho các tính có giá -> hóa Gain tính có Gain Ratio GainRatio(A) = Gain(A)/SplitInfoA(D) | Dj | | Dj | v SplitInfo ( D) o og 2 ( ) A | D| | D| 29 j Gini (Gini index) : CART, SLIQ, SPRINT các . D m D gini(D) là : Gini m2 gini(D) i i i trong D i gini(D) là : 2 2 9 5 gini( D) 0.459 30 14 14 15
  16. Gini (Gini index) : tính A có các giá :{a1, a2 , ,av} Dùng tính A phân chia D thành v con {D1, D2, , Dv} phân chia D theo tính Gini A: Dj v giniA ( D) i gini( Dj ) D j chúng ta tính có phân chia Gini 31 age pj nj gini(pj, nj) 40 3 2 0.48 gini(D) = 0.459 Suy ra : 5 4 5 giniage( D) gini(2,3) gini(4,0) gini(3,2) 14 14 14 0.343 32 16
  17. Sau khi tính Gini trên phân chia theo tính : Giniage(D) = 0.343 Giniincome(D) = 0.44 Ginistudent(D) = 0.367 Ginicredit_rating(D) =0.429 Gini trên phân chia tính theo là nên ta chia DL theo tính 33 age? >40
  18. 5. (overfitting) hình tròn and 500 giác. sqrt(x12+x22) 0.5 1 giác: sqrt(x12+x22) > 0.5 or sqrt(x12+x22) < 1 35 5. (overfitting) Overfitting 36 18
  19. Cây ra có quá phù DL : Quá nhánh do cá 37 Cây ra có quá phù DL do các DL gây khó cho chính xác vùng này. 38 19
  20. : : : -validation) 39 6. : chính xác so các phân khác trên DL Dù http://www.cse.unsw.edu.au/~quinlan/c4.5r8.tar.gz 40 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2