Khai Phá D Liu
Nguyn Nht Quang
quangnn-fit@mail.hut.edu.vn
Vin Công ngh Thông tin và Truyn thông
Trường Đại hc Bách Khoa Hà Ni
Năm hc 2010-2011
Ni dung môn hc:
Gii thiu v Khai phá d liu
Gii thiu v
công c WEK
A
Tin x lý d liu
Phát hin các lut kết hp
Các kthut phân lpvàd đoán
Các
k
thut
phân
lp
d
đoán
Các k thut phân nhóm
Phân nhóm datrênchiact(k
-
Means)
Phân
nhóm
da
trên
chia
ct
(k
-
Means)
Phân nhóm da trên tích t phân cp (HAC)
2
Khai Phá D Liu
H
c có vs. khôn
g
g
iám sát
gg
Hc có giám sát (Supervised learning)
Tpdliu (dataset) bao gmcácvíd mivídđược
gn
Tp
d
liu
(dataset)
bao
gm
các
d
,
mi
d
được
gn
kèm vi mt nhãn lp/giá tr đầu ra mong mun
Mc đích là hc (xp x) mt gi thiết (vd: mt phân lp, mt hàm
mc tiêu ) phù hpvitpdliuhincó
mc
tiêu
,...
)
phù
hp
vi
tp
d
liu
hin
Gi thiết hc được (learned hypothesis) sau đó s được dùng để
phân lp/d đoán đối vi các ví d mi
Hc không có giám sát (Unsupervised learning)
Tp d liu (dataset) bao gm các ví d, mà mi ví d không có
thông tin vnhãn lp/giá trđầu ra mong mun
thông
tin
v
nhãn
lp/giá
tr
đầu
ra
mong
mun
Mc đích là tìm ra (hc) các nhóm/các cu trúc/các quan h tn ti
trong tp d liu hin có
3
Khai Phá D Liu
Phân nhóm
Phân nhóm/cm (Clustering) là phương pháp hc không
giám sát đượcsdng phbiếnnht
giám
sát
được
s
dng
ph
biến
nht
Tn ti các phương pháp hc không có giám sát khác, ví d: Lc
cng tác (Collaborative filtering), Khai phá lut kết hp
(Association rule mining)
(Association
rule
mining)
, ...
Hc phân nhóm
Đầu vào: mttpdliu không nhãn (các dkhông nhãn
Đầu
vào:
mt
tp
d
liu
không
nhãn
(các
d
không
nhãn
lp/giá tr đầu ra mong mun)
Đầu ra: các nhóm (cm) ca các ví d
Mt nhóm (cluster) là mt tp các ví d
Tương t vi nhau (theo mt ý nghĩa, đánh giá nào đó)
Khác bitvicácvídthuc các nhóm khác
Khác
bit
vi
các
d
thuc
các
nhóm
khác
4
Khai Phá D Liu
Phân nhóm – Ví d
Mtvídvphân nhóm trong đó, các d
đ
hi
thà h
3
đ
ượcp
nc
hi
a
thà
n
h
3
n
m
[Liu, 2006]
5
Khai Phá D Liu