Khai Phá D Liu
Nguyn Nht Quang
quangnn-fit@mail.hut.edu.vn
Vin Công ngh Thông tin và Truyn thông
Trường Đại hc Bách Khoa Hà Ni
Năm hc 2010-2011
Ni dung môn hc:
Gii thiu v Khai phá d liu
Gii thiu v
công c WEK
A
Tin x lý d liu
Phát hin các lut kết hp
Các kthut phân lpvàd đoán
Các
k
thut
phân
lp
d
đoán
Hc da trên các láng ging gn nht
Hc bng mng nơ-ron nhân to
Các k thut phân nhóm
2
Khai Phá D Liu
Hc da trên các láng ging gn nht
Mt s tên gi khác ca phương pháp hc da trên các láng
ging gn nht (Nearest neighbor learning)
Instance-based learning
Lazy learning
Memory
-
based learning
Memory
based
learning
Ý tưởng ca phương pháp hc da trên các láng ging gn nht
Vi m
t t
p
các ví d
h
c
p
(Đơn gin là) lưu li các ví d hc
Không cn xây dng mt mô hình (mô t) rõ ràng và tng quát
ca hàm mctiêucnhc
ca
hàm
mc
tiêu
cn
hc
Đối vi mt ví d cn phân loi/d đoán
Xét quan h gia ví d đó vi các ví d hc để gán giá tr ca
hàm mc tiêu (mt nhãn lp, hoc mt giá tr thc)
3
Khai Phá D Liu
Hc da trên các láng ging gn nht
Biu din đầu vào ca bài toán
Mi ví d xđược biu din là mt vectơ
n
chiu tron
khôn
ian
các vectơ XRn
x= (x1,x2,…,xn), trong đó xi(R) là mt s thc
C
C
ó th
áp dng được vi c
2 ki
u bài toán hc
Bài toán phân lp (classification)
Hàm m
c tiêu có
g
iá tr
ri r
c
(
a discrete-valued tar
g
et function
)
g (
g)
Đầu ra ca h thng là mt trong s các giá tr ri rc đã xác định
trước (mt trong các nhãn lp)
Bài toán
d đoán/hi quy (prediction/regression)
Bài
toán
d
đoán/hi
quy
(prediction/regression)
Hàm mc tiêu có giá tr liên tc (a continuous-valued target function)
Đầu ra ca h thng là mt giá tr s thc
4
Khai Phá D Liu
Ví dbài toán phân lp
Xét 1 láng ging gnLp c1 Lp c2
nht
Gán zvào lpc2
Ví d cn
phân lp z
Xét 3 láng ging gn
nht
Gán
z
vào
lp
c1
Gán
z
vào
lp
c1
Xét 5 láng ging gn
nht
nht
Gán zvào lpc1
5
Khai Phá D Liu