Khai Phá D Liu
Nguyn Nht Quang
quangnn-fit@mail.hut.edu.vn
Vin Công ngh Thông tin và Truyn thông
Trường Đại hc Bách Khoa Hà Ni
Năm hc 2010-2011
Ni dung môn hc:
Gii thiu v Khai phá d liu
Gii thiu v
công c WEK
A
Tin x lý d liu
Phát hin các lut kết hp
Các kthut phân lpvàd đoán
Các
k
thut
phân
lp
d
đoán
Phân lp bng phương pháp hc Bayes
Hc cây quyết định
Các k thut phân nhóm
2
Khai Phá D Liu
Bài toán phân lp
Bài toán phân lp (Classification)
Đ
i vi m
t t
p
các ví d
/bn
g
hi
(
instances/records
)
g
i là t
p
pg( )
g
p
hun luyn/hc (training/learning set)
Mi bn ghi được biu din bng mt tp các thuc tính, trong
đó có m
t thu
c tính
p
hân l
p
(
class attribute
)
pp( )
Tìm/hc mt hàm cho thuc tính phân lp (hàm phân lp) đối
vi các giá tr ca các thuc tính khác
S dng mt tp các ví d khác vi các ví d hc để
kim tra độ chính xác ca hàm phân lp hc được – gi
tpkimth(test set)
tp
kim
th
(test
set)
Thông thường, tp d liu ban đầu được chia thành 2 tp (không
giao nhau): training set (để hc hàm phân lp) và test set (để
kimthhàm phân lphcđược)
kim
th
hàm
phân
lp
hc
được)
3
Khai Phá D Liu
Phân lp vs. Dđoán
Bài toán phân lp (Classification problem)
Hthà tiê ó t i(di t
ldt t
H
c m
t
m mc
tiê
u c
ó
g
t
r
r
i
rc
(
a
di
scre
t
e-va
l
ue
d
t
arge
t
function)
Min giá tr: mt tp các nhãn lp (class labels) xác địn trước
Vi mi ví d cn phân loi, h thng xác định nhãn lp ca nó
Bài toán d
đoán/hi
q
u
y
(
Prediction/re
g
ression
p
roblem
)
qy( g p )
Hc mt hàm mc tiêu có giá tr liên tc (a continuous-valued
target function)
Mi t táiát th (l b)
Mi
n g
t
r
:
t
p c
á
c g
t
r
s
th
c
(
rea
l
num
b
ers
)
Vi mi ví d cn d đoán, h thng xác định giá tr d đoán ca
4
Khai Phá D Liu
Hc có vs. không có giám sát
Hc giám sát (supervised learning)
Mi
d
hc
gm
2
phn
:
t
(
biu
din
)
ca
d
hc
Mi
d
hc
gm
2
phn
:
t
(
biu
din
)
ca
d
hc
,
nhãn lp(hocgiátrịđu ra mong mun) cavídhcđó
Bài toán hcphân lp (classification problem)
Dtrain
={(<
Biudincax
><
Nhãn lpcax
>)}
D
_
train
=
{(<
Biu
_
din
_
ca
_
x
>
,
<
Nhãn
_
lp
_
ca
_
x
>)}
Bài toán hcdựđoán/hi quy (prediction/regression problem)
D_train = {(<Biu_din_ca_x>, <Giá_tr_đầu_ra_ca_x>)}
Hc không giám sát (unsupervised learning)
Mivídhcchchamôt(biudin) cavídhcđó- mà
không
bt
k
thông
tin
nào
v
nhãn
lp
hay
giá
tr
đầu
ra
mong
không
bt
k
thông
tin
nào
v
nhãn
lp
hay
giá
tr
đầu
ra
mong
muncavídhcđó
Bài toán hcphân cm (Clustering problem)
Tp
hc
Dtrain
={(<
Biudincax
>)}
Tp
hc
D
_
train
=
{(<
Biu
_
din
_
ca
_
x
>)}
5
Khai Phá D Liu