
luyldaquach@gmail.com NGHIÊN CU KHAI M D LIU
VÀ KHÁM PHÁ TRI THC
SVTH: Quách Luyl ða Trang 4
MC LC
LI CÁM ƠN
BNG KÝ HIU VÀ VIT TT
Chương I : TNG QUAN ............................................................................................ 7
I.1. ðT VN ð.................................................................................................... 7
I.2. LCH S GII QUYT VN ð......................................................................7
I.3. PHM VI CA ð TÀI .................................................................................. 10
I.4. PHƯƠNG PHÁP NGHIÊN CU ..................................................................... 10
Chương II : CƠ S LÝ THUYT .............................................................................. 11
II.1. KHÁI NIM V KHAI PHÁ D LIU.......................................................... 11
II.1.1. Khái nim: ................................................................................................ 11
II.1.2. Nhim v ca khai thác d liu: ................................................................ 12
II.1.3. ng dng ca khai phá d liu:................................................................. 14
II.2. CÁC KHÁI NIM CƠ BN ........................................................................... 15
II.2.1. D liu và kiu d liu:............................................................................. 15
II.2.2. Cht lưng ca d liu: ............................................................................. 19
II.3. Thu thp và tin x lý d liu: ......................................................................... 23
II.3.1. T!ng hp d liu:...................................................................................... 23
II.3.2. Ly m"u:................................................................................................... 24
II.3.3. Gi#m b$t thu%c tính: ................................................................................. 25
II.3.4. L&a ch'n tp thu%c tính con: ..................................................................... 26
II.3.5. T(o ra thu%c tính m$i:............................................................................... 27
II.3.6. R)i r(c hóa và nh* phân hóa: ..................................................................... 29
II.3.7. Chuyn ñ!i thu%c tính:.............................................................................. 30
II.4. M%t s, k- thut khai phá d liu:..................................................................... 30
II.4.1. Phân cm d liu (Cluster analysis): ......................................................... 30
II.4.2. H.i quy (Regression): ............................................................................... 33
II.4.3. Cây quy/t ñ*nh (Decision tree):................................................................. 37
II.4.4. K – lân cn g0n nht: (K Nearest neighbour-KNN) ................................... 44
II.4.5. Gi#i thut di truyn: .................................................................................. 46
II.4.6. M(ng neuron nhân t(o (Neural networks):................................................. 50
II.4.7. Lut k/t hp (Association rule): ................................................................ 57
Chương III : N1I DUNG NGHIÊN CU................................................................... 67
III.1. NGHIÊN CU V PH2N MM KHAI PHÁ D LIU ............................... 67
III.1.1. Gi$i thiu Tanagra:.................................................................................. 67
III.1.2. Tìm hiu v Tanagra:............................................................................... 68
III.1.3. ng dng Tanagra:.................................................................................. 81
III.2. CHƯƠNG TRÌNH NG D3NG:................................................................... 83
III.2.1. Khai phá d liu b4ng lut k/t hp:.......................................................... 83
III.2.2. Khai phá d liu b4ng cây quy/t ñ*nh: ..................................................... 93
KT LU5N VÀ KIN NGH
PH3 L3C
Ph lc I: ðo kho#ng cách gia 2 ñ,i tưng
Ph lc II: Thut gi#i Heuristic
Ph lc III: Hư$ng d"n s dng chương trình khai phá lut k/t hp
Ph lc IV: Hư$ng d"n s dng chương trình khai phá cây quy/t ñ*nh
TÀI LIU THAM KHO