
LUN VĂN TT NGHIP ðI HC
KHAI M D LIU
VÀ KHÁM PHÁ TRI THC
Sinh viên thc hin: Cán b hưng dn:
H và tên: Quách Luyl ða Ths. Dương Văn Hiu
MSSV: 0751010009
Lp: ði hc Tin hc 2
Cn Thơ, 2011
TRƯNG ðI HC TÂY ðÔ
KHOA K THUT CÔNG NGH

LUN VĂN TT NGHIP ðI HC
KHAI M D LIU
VÀ KHÁM PHÁ TRI THC
Sinh viên thc hin Cán b hưng dn
H và tên: Quách Luyl ða Ths. Dương Văn Hiu
MSSV: 0751010009
Lp: ði hc Tin hc 2
Cán b phn bin
Hc hàm, hc v, h và tên cán b phn bin
Lun văn ñưc bo v ti: Hi ñng chm lun văn tt nghip B môn ……..
…………………….. ..…..Khoa K Thut Công Ngh, Trưng ði hc Tây ðô vào
ngày .... tháng ..... năm ….
Mã s ñ tài:
Có th tìm hiu lun văn ti:
• Thư vin: Trưng ði hc Tây ðô.
• Website:
TRƯ
NG ðI HC TÂY ðÔ
KHOA K THUT CÔNG NGH

LI CÁM ƠN
“ði khp th gian không ai tt bng M
Gánh nng cuc ñi không ai kh bng Cha
Nưc bin mênh mông không ñong ñy tình M
Mây tri lng lng không ph kín công Cha”
Khuyt danh Vit Nam
ði khp th gian không ai tt như m, chăm lo cuc sng cho con không ai bng cha,
gánh nng y cha m không nói ra, nhưng tôi có th cm nhn và bit ñưc qua mái tóc
bc ca m, nhng git m hôi và làn da rám nng ca cha. Tt c nhng vic làm ca cha
m ch ñ cho gia ñình ñưc sng vui v và hnh phúc, cho anh em tôi ñưc ăn hc nên
ngưi. Gánh nng y càng gia tăng và nng n hơn trên vai cha và trong mt m khi con
bưc vào ngưng ca ñi hc. Vi bao lo lng t cái ăn, cái mc, vic hc hành càng làm
tăng gánh nng cho cha m. Gánh nng y không th thy ñưc trong ting cưi ca cha,
trong ánh mt và ting nói ca m. Tôi xin gi li cám ơn và kt qu hc tp trong nhng
năm tháng hc xa nhà ñ làm món quà dâng tng lên cha m ca tôi!
Tôi xin chân thành cám ơn quý th y cô trong ban giám hiu, các th y cô trong khoa
và các th y cô tr!c tip ging dy chúng tôi, và ñã cung cp cho chúng tôi ñưc nhng
kin th"c, nhng k# năng c n thit trong cuc sng và chuyên môn. T ñó có th vn d$ng
vào trong hc tp và quá trình nghiên c"u. ðc bit, tôi xin chân thành cám ơn th y Dương
Văn Hiu, mc dù có nhiu khó khăn v mt ñ%a lý và công vic, nhưng th y ñã to mi
ñiu kin ñ hưng d&n chúng tôi hoàn thành khóa lun này. Tôi xin chân thành cám ơn!
Khong thi gian theo hc ti trưng, vi nhng l l&m khi va bưc vào môi
trưng mi, vi nhiu bn mi. Chính nhng ngưi bn cùng ñng hành vi tôi trên bưc
ñưng ñi hc, vi nhng lý tư'ng và tính cách khác nhau. Chính nhng câu chuyn bun
– vui – gin – ghét và chính nhng s! giúp ñ trong hc tp và công tác, các bn ñã giúp
tôi thêm trư'ng thành hơn, trao di ñưc nhiu kin th"c hơn t các bn. Tôi xin chân
thành cám ơn!
Và li cm ơn sau cùng, xin chân thành cám ơn các anh ch%, và cũng là nhng ngưi
bn, các cô chú nhân viên trưng ñã giúp ñ và quan tâm tôi trong sut thi gian theo hc
ti trưng. Tôi xin chân thành cám ơn!
Xin chân thành cám ơn!

luyldaquach@gmail.com NGHIÊN CU KHAI M D LIU
VÀ KHÁM PHÁ TRI THC
SVTH: Quách Luyl ða Trang 4
MC LC
LI CÁM ƠN
BNG KÝ HIU VÀ VIT TT
Chương I : TNG QUAN ............................................................................................ 7
I.1. ðT VN ð.................................................................................................... 7
I.2. LCH S GII QUYT VN ð......................................................................7
I.3. PHM VI CA ð TÀI .................................................................................. 10
I.4. PHƯƠNG PHÁP NGHIÊN CU ..................................................................... 10
Chương II : CƠ S LÝ THUYT .............................................................................. 11
II.1. KHÁI NIM V KHAI PHÁ D LIU.......................................................... 11
II.1.1. Khái nim: ................................................................................................ 11
II.1.2. Nhim v ca khai thác d liu: ................................................................ 12
II.1.3. ng dng ca khai phá d liu:................................................................. 14
II.2. CÁC KHÁI NIM CƠ BN ........................................................................... 15
II.2.1. D liu và kiu d liu:............................................................................. 15
II.2.2. Cht lưng ca d liu: ............................................................................. 19
II.3. Thu thp và tin x lý d liu: ......................................................................... 23
II.3.1. T!ng hp d liu:...................................................................................... 23
II.3.2. Ly m"u:................................................................................................... 24
II.3.3. Gi#m b$t thu%c tính: ................................................................................. 25
II.3.4. L&a ch'n tp thu%c tính con: ..................................................................... 26
II.3.5. T(o ra thu%c tính m$i:............................................................................... 27
II.3.6. R)i r(c hóa và nh* phân hóa: ..................................................................... 29
II.3.7. Chuyn ñ!i thu%c tính:.............................................................................. 30
II.4. M%t s, k- thut khai phá d liu:..................................................................... 30
II.4.1. Phân cm d liu (Cluster analysis): ......................................................... 30
II.4.2. H.i quy (Regression): ............................................................................... 33
II.4.3. Cây quy/t ñ*nh (Decision tree):................................................................. 37
II.4.4. K – lân cn g0n nht: (K Nearest neighbour-KNN) ................................... 44
II.4.5. Gi#i thut di truyn: .................................................................................. 46
II.4.6. M(ng neuron nhân t(o (Neural networks):................................................. 50
II.4.7. Lut k/t hp (Association rule): ................................................................ 57
Chương III : N1I DUNG NGHIÊN CU................................................................... 67
III.1. NGHIÊN CU V PH2N MM KHAI PHÁ D LIU ............................... 67
III.1.1. Gi$i thiu Tanagra:.................................................................................. 67
III.1.2. Tìm hiu v Tanagra:............................................................................... 68
III.1.3. ng dng Tanagra:.................................................................................. 81
III.2. CHƯƠNG TRÌNH NG D3NG:................................................................... 83
III.2.1. Khai phá d liu b4ng lut k/t hp:.......................................................... 83
III.2.2. Khai phá d liu b4ng cây quy/t ñ*nh: ..................................................... 93
KT LU5N VÀ KIN NGH
PH3 L3C
Ph lc I: ðo kho#ng cách gia 2 ñ,i tưng
Ph lc II: Thut gi#i Heuristic
Ph lc III: Hư$ng d"n s dng chương trình khai phá lut k/t hp
Ph lc IV: Hư$ng d"n s dng chương trình khai phá cây quy/t ñ*nh
TÀI LIU THAM KHO

luyldaquach@gmail.com NGHIÊN CU KHAI M D LIU
VÀ KHÁM PHÁ TRI THC
SVTH: Quách Luyl ða Trang 5
BNG KÝ HIU VÀ VIT TT
STT
T6 VIT
TT TING ANH NGHĨA TING VIT
01 ANN Artifical neural network M(ng th0n kinh nhân t(o
02 AND, DNA Acid DeoxyriboNucleic Ph0n t nucleotic a xít
03 GA Genetic Algorithm Gi#i thut di truyn
04 GUI Graphical user interface Giao din ñ. h'a ngư)i
dùng
05 Item Item Món hàng, mc,..
06 Itemset Itemset Tp các mc, các hàng,…
07 KNN K Nearest neighbour K-lân cn g0n nht
08 KDD Knowledge Discovery in
Databases Khám phá tri th8c t9 d liu
09 RAM Ram memory B% nh$ ram
10 XML Extensible Markup
Language Ngôn ng ñánh du m: r%ng
11 web website, web page Trang web