LUN VĂN TT NGHIP ðI HC
KHAI M D LIU
VÀ KHÁM PHÁ TRI THC
Sinh viên thc hin: n b hưng dn:
H và tên: Quách Luyl ða Ths. Dương Văn Hiu
MSSV: 0751010009
Lp: ði hc Tin hc 2
Cn Thơ, 2011
TRƯNG ðI HC TÂY ðÔ
KHOA K THUT CÔNG NGH
LUN VĂN TT NGHIP ðI HC
KHAI M D LIU
VÀ KHÁM PHÁ TRI THC
Sinh viên thc hin Cán b hưng dn
H và tên: Quách Luyl ða Ths. Dương Văn Hiu
MSSV: 0751010009
Lp: ði hc Tin hc 2
Cán b phn bin
Hc m, hc v, h tên cán b phn bin
Lun văn ñưc bo v ti: Hi ñng chm lun văn tt nghip B môn ……..
…………………….. ..…..Khoa K Thut Công Ngh, Trưng ði hc Tây ðô vào
ngày .... tháng ..... năm ….
s ñ tài:
th tìm hiu lun văn ti:
Thư vin: Trưng ði hc Tây ðô.
Website:
TRƯ
NG ðI HC TÂY ðÔ
KHOA K THUT CÔNG NGH
LI CÁM ƠN
ði khp th gian không ai tt bng M
Gánh nng cuc ñi không ai kh bng Cha
Nưc bin nh mông không ñong ñy tình M
Mây tri lng lng không phn công Cha”
Khuyt danh Vit Nam
ði khp th gian không ai tt như m, chăm lo cuc sng cho con không ai bng cha,
gánh nng y cha m không nói ra, nhưng i th cm nhn bit ñưc qua mái c
bc ca m, nhng git m hôi và làn da rám nng ca cha. Tt c nhng vic làm ca cha
m ch ñ cho gia ñình ñưc sng vui v hnh phúc, cho anh em tôi ñưc ăn hc n
ngưi. Gánh nng y càng gia tăng và nng n hơn trên vai cha và trong mt m khi con
bưc vào ngưng ca ñi hc. Vi bao lo lng t cái ăn, i mc, vic hc hành ng làm
tăng gánh nng cho cha m. nh nng y không th thy ñưc trong ting cưi ca cha,
trong ánh mt ting nói ca m. i xin gi li cám ơn và kt qu hc tp trong nhng
năm tng hc xa nhà ñ làm món qdâng tng lên cha m ca tôi!
Tôi xin chân thành cám ơn q th y cô trong ban giám hiu, các th y trong khoa
các th y tr!c tip ging dy chúng tôi, ñã cung cp cho chúng tôi ñưc nhng
kin th"c, nhng k# năng c n thit trong cuc sng và chuyên n. T ñó có th vn d$ng
vào trong hc tp và quá trình nghiên c"u. ðc bit, tôi xin chân thành cám ơn th y Dương
Văn Hiu, mc nhiu khó khăn v mt ñ%a và công vic, nhưng th y ñã to mi
ñiu kin ñ hưng d&n chúng tôi hoàn thành khóa lun này. Tôi xin chân thành cám ơn!
Khong thi gian theo hc ti trưng, vi nhng l l&m khi va bưc vào i
trưng mi, vi nhiu bn mi. Chính nhng ngưi bn cùng ñng hành vi i trên bưc
ñưng ñi hc, vi nhng tư'ng và tính cách khác nhau. Chính nhng câu chuyn bun
vui gin ghét chính nhng s! giúp ñ trong hc tp ng c, các bn ñã giúp
i thêm trư'ng thành hơn, trao di ñưc nhiu kin th"c hơn t các bn. Tôi xin cn
thành cám ơn!
Và li cm ơn sau cùng, xin chân thành cám ơn các anh ch%, cũng là nhng ngưi
bn, các chú nhân viên trưng ñã giúp ñ quan tâm i trong sut thi gian theo hc
ti trưng. Tôi xin chân thành cám ơn!
Xin chân thành cám ơn!
luyldaquach@gmail.com NGHIÊN CU KHAI M D LIU
VÀ KHÁM PHÁ TRI THC
SVTH: Quách Luyl ða Trang 4
MC LC
LI CÁM ƠN
BNG KÝ HIU VÀ VIT TT
Chương I : TNG QUAN ............................................................................................ 7
I.1. ðT VN ð.................................................................................................... 7
I.2. LCH S GII QUYT VN ð......................................................................7
I.3. PHM VI CA ð TÀI .................................................................................. 10
I.4. PHƯƠNG PHÁP NGHIÊN CU ..................................................................... 10
Chương II : CƠ S LÝ THUYT .............................................................................. 11
II.1. KHÁI NIM V KHAI PHÁ D LIU.......................................................... 11
II.1.1. Khái nim: ................................................................................................ 11
II.1.2. Nhim v ca khai thác d liu: ................................................................ 12
II.1.3. ng dng ca khai phá d liu:................................................................. 14
II.2. CÁC KHÁI NIM CƠ BN ........................................................................... 15
II.2.1. D liu và kiu d liu:............................................................................. 15
II.2.2. Cht lưng ca d liu: ............................................................................. 19
II.3. Thu thp và tin x lý d liu: ......................................................................... 23
II.3.1. T!ng hp d liu:...................................................................................... 23
II.3.2. Ly m"u:................................................................................................... 24
II.3.3. Gi#m b$t thu%c tính: ................................................................................. 25
II.3.4. L&a ch'n tp thu%c tính con: ..................................................................... 26
II.3.5. T(o ra thu%c tính m$i:............................................................................... 27
II.3.6. R)i r(c hóa và nh* phân hóa: ..................................................................... 29
II.3.7. Chuyn ñ!i thu%c tính:.............................................................................. 30
II.4. M%t s, k- thut khai phá d liu:..................................................................... 30
II.4.1. Phân cm d liu (Cluster analysis): ......................................................... 30
II.4.2. H.i quy (Regression): ............................................................................... 33
II.4.3. Cây quy/t ñ*nh (Decision tree):................................................................. 37
II.4.4. K lân cn g0n nht: (K Nearest neighbour-KNN) ................................... 44
II.4.5. Gi#i thut di truyn: .................................................................................. 46
II.4.6. M(ng neuron nhân t(o (Neural networks):................................................. 50
II.4.7. Lut k/t hp (Association rule): ................................................................ 57
Chương III : N1I DUNG NGHIÊN CU................................................................... 67
III.1. NGHIÊN CU V PH2N MM KHAI PHÁ D LIU ............................... 67
III.1.1. Gi$i thiu Tanagra:.................................................................................. 67
III.1.2. Tìm hiu v Tanagra:............................................................................... 68
III.1.3. ng dng Tanagra:.................................................................................. 81
III.2. CHƯƠNG TRÌNH NG D3NG:................................................................... 83
III.2.1. Khai phá d liu b4ng lut k/t hp:.......................................................... 83
III.2.2. Khai phá d liu b4ngy quy/t ñ*nh: ..................................................... 93
KT LU5N VÀ KIN NGH
PH3 L3C
Ph lc I: ðo kho#ng cách gia 2 ñ,i tưng
Ph lc II: Thut gi#i Heuristic
Ph lc III: Hư$ng d"n s dng chương trình khai phá lut k/t hp
Ph lc IV: Hư$ng d"n s dng chương trình khai pháy quy/t ñ*nh
TÀI LIU THAM KHO
luyldaquach@gmail.com NGHIÊN CU KHAI M D LIU
VÀ KHÁM PHÁ TRI THC
SVTH: Quách Luyl ða Trang 5
BNG KÝ HIU VÀ VIT TT
STT
T6 VIT
TT TING ANH NGHĨA TING VIT
01 ANN Artifical neural network M(ng th0n kinh nhân t(o
02 AND, DNA Acid DeoxyriboNucleic Ph0n t nucleotic a xít
03 GA Genetic Algorithm Gi#i thut di truyn
04 GUI Graphical user interface Giao din ñ. h'a ngư)i
dùng
05 Item Item Món hàng, mc,..
06 Itemset Itemset Tp các mc, c hàng,…
07 KNN K Nearest neighbour K-lân cn g0n nht
08 KDD Knowledge Discovery in
Databases Khám phá tri th8c t9 d liu
09 RAM Ram memory B% nh$ ram
10 XML Extensible Markup
Language Ngôn ng ñánh du m: r%ng
11 web website, web page Trang web