YOMEDIA
ADSENSE
DATA MINING AND APPLICATION: PHÂN LỚP DỮ LIỆU
222
lượt xem 68
download
lượt xem 68
download
Download
Vui lòng tải xuống để xem tài liệu đầy đủ
Các phân xây mô hình cho : Gán các vào các chính xác cao có . Cho CSDL D={t1,t2, ,tn} và các C={C1, ,Cm}, phân là bài toán xác ánh f : D C sao cho ti gán vào. Phân lớp khách hàng (trong ngân hàng) để cho vay hay không. Dự đoán tế bào khối u lành tính hay ác tính.
AMBIENT/
Chủ đề:
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: DATA MINING AND APPLICATION: PHÂN LỚP DỮ LIỆU
- KHAI THÁC (DATA MINING) 1 BÀI 4 PHÂN L P D LI U 2 1
- N I DUNG 1. pháp trên cây 2. pháp trên 3. 3 1. Phân : Cho các phân xây mô hình cho : Gán các vào các chính xác cao có . Cho CSDL D={t1,t2, ,tn} và các C={C1, ,Cm}, phân là bài toán xác ánh f : D C sao cho ti gán vào . 4 2
- Ví Phân : Phân khách hàng (trong ngân hàng) cho vay hay không bào u là lành tính hay ác tính Phân giao tín là pháp hay gian Phân tin tài chính, trí, thao, khi nào sông có 5 y khoa 2. Qui trình phân : 1 : Xây mô hình Mô các xác : các / dành cho xây mô hình Tìm phân cây công toán mô 6 3
- 2. Qui trình phân (tt) : 2: mô hình Phân các Xác chính xác mô hình, DL tra chính xác -> áp mô hình phân các xác nhãn 7 Classification Algorithms Training Data Classifier NAME RANK YEARS TENURED (Model) Mike Assistant Prof 3 no Mary Assistant Prof 7 yes Bill Professor 2 yes Jim Associate Prof 7 yes OR years > 6 Dave Assistant Prof 6 no Anne Associate Prof 3 no 8 4
- Classifier Testing Unseen Data Data (Jeff, Professor, 4) NAME RANK YEARS TENURED Tenured? Tom Assistant Prof 2 no Merlisa Associate Prof 7 no George Professor 5 yes Joseph Assistant Prof 7 yes 9 3. Các phân : pháp trên cây pháp trên pháp Naïve Bayes pháp trên SVM (support vector machine) thô 10 5
- N I DUNG 1. 2. 3. 11 1. 2. Xây cây 3. toán xây cây 4. Cách phân chia tính 5. quá phù DL 6. 12 6
- 1. các nút và các nhánh Ci Nút lá 13 2. Xây cây 2 : 1: cây tra các giá tính và phân chia các qui 2: cây Xác và các nhánh không cá 14 7
- age income student credit_rating buys_computer 40 low yes fair yes >40 low yes excellent no low yes excellent yes
- 3. toán xây cây CART ID3, C4.5 SLIQ, SPRINT 17 3. toán xây cây Ý chính : pháp (greedy) Phân chia trên tính cho hóa tiêu : Xác cách phân chia các trên 18 9
- 3. toán xây cây (tt) : các vào nút cùng Không còn tính nào có dùng phân chia Không còn nào nút 19 4. Cách phân chia các Tiêu phân chia : ra các nhóm sao cho trong nhóm tính là tính cho có cho quá trình phân giá phân chia là Entropy (Information Gain) Information Gain Ratio Gini Index 20 10
- ID3 / C4.5 Ci,D i |Ci, D i,D pi i Thông tin m Ci , D Info ( D) pi log 2 ( pi ) pi D 21 i1 age income student credit_rating buys_computer 40 low yes fair yes >40 low yes excellent no low yes excellent yes
- tính |D| = 14; m = 2; C1 2 |C1, D|= 9, |C2, D|=5 Thông tin là : 9 95 5 Info(D) I(9,5) log 2 log 2 0.940 14 14 14 14 23 tính A có các giá :{a1, a2 , ,av} Dùng tính A phân chia D thành v con {D1, D2, , Dv} Thông tin phân chia D theo tính A : Dj v InfoA ( D) I (D j ) D j1 thông tin (information gain) trên phân chia theo tính A : Gain(A) Info( D) InfoA ( D) 24 12
- Info(D) = I(9, 5) =0.940 age pj nj I(pj, nj) 2 2 3 3 I (2,3) log 2 log 2 0.971 40 3 2 0.971 I (4,0) log 2 log 2 0 4 4 4 4 3 3 2 2 I (3,2) log 2 log 2 0.971 25 5 5 5 5 5 4 5 Infoage( D) I (2,3) I (4,0) I (3,2) 0.694 14 14 14 Suy ra : Gain(age) Info( D) Infoage ( D) 0.246 26 13
- gian : 10 Cho DL trong ví 1 Ký : P: buys_computer = N: buys_computer = Tính thông tin trên phân chia theo tính : dãy : dãy trái : dãy 27 age? 31..40 40 student? credit rating? yes no yes fair excellent no yes no yes 28 14
- Information Gain Ratio: C4.5 Gain có xu thiên cho các tính có giá -> hóa Gain tính có Gain Ratio GainRatio(A) = Gain(A)/SplitInfoA(D) | Dj | | Dj | v SplitInfo ( D) o og 2 ( ) A | D| | D| 29 j Gini (Gini index) : CART, SLIQ, SPRINT các . D m D gini(D) là : Gini m2 gini(D) i i i trong D i gini(D) là : 2 2 9 5 gini( D) 0.459 30 14 14 15
- Gini (Gini index) : tính A có các giá :{a1, a2 , ,av} Dùng tính A phân chia D thành v con {D1, D2, , Dv} phân chia D theo tính Gini A: Dj v giniA ( D) i gini( Dj ) D j chúng ta tính có phân chia Gini 31 age pj nj gini(pj, nj) 40 3 2 0.48 gini(D) = 0.459 Suy ra : 5 4 5 giniage( D) gini(2,3) gini(4,0) gini(3,2) 14 14 14 0.343 32 16
- Sau khi tính Gini trên phân chia theo tính : Giniage(D) = 0.343 Giniincome(D) = 0.44 Ginistudent(D) = 0.367 Ginicredit_rating(D) =0.429 Gini trên phân chia tính theo là nên ta chia DL theo tính 33 age? >40
- 5. (overfitting) hình tròn and 500 giác. sqrt(x12+x22) 0.5 1 giác: sqrt(x12+x22) > 0.5 or sqrt(x12+x22) < 1 35 5. (overfitting) Overfitting 36 18
- Cây ra có quá phù DL : Quá nhánh do cá 37 Cây ra có quá phù DL do các DL gây khó cho chính xác vùng này. 38 19
- : : : -validation) 39 6. : chính xác so các phân khác trên DL Dù http://www.cse.unsw.edu.au/~quinlan/c4.5r8.tar.gz 40 20
ADSENSE
CÓ THỂ BẠN MUỐN DOWNLOAD
Thêm tài liệu vào bộ sưu tập có sẵn:
Báo xấu
LAVA
AANETWORK
TRỢ GIÚP
HỖ TRỢ KHÁCH HÀNG
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn