Hc Máy
(IT 4862)
(IT
4862)
h
Nguy
n N
h
t Quang
quangnn-fit@mail.hut.edu.vn
Trường Đại hc Bách Khoa Hà Ni
Vin Công ngh thông tin và truyn thông
Năm hc 2011-2012
Nid ô h
Ni
d
ung m
ô
n
h
c:
Gii thiu chung
Hc máy
Công c WEKA
Đ
ánh giá hiu năng h th
ng hc máy
Các phương pháp hc da trên xác sut
Các phương pháp hc có giám sát
Các
p
hươn
g
p
p
h
c khôn
g
g
iám sát
pgp p gg
Lc cng tác
Hctăng cường
Hc
tăng
cường
2
Hc Máy – IT 4862
Gii thiu
v
Hc má
y
Hc máy (Machine Learning – ML) là mt lĩnh vc nghiên cu ca Trí
tu nhân to (Artificial Intelligence – AI)
Các định nghĩa v hc máy
Mt quá trình nh đó mt h thng ci thin hiu sut (hiu qu hot
động) ca nó [Simon, 1983]
Mt quá trình mà mt chương trình máy tính ci thin hiu sut ca nó
trong mt công vic thông qua kinh nghim [Mitchell, 1997]
Vi
c l
trình các má
tính để ti ưu hóa m
t tiêu chí hi
u sut d
a trên
các d liu ví d hoc kinh nghim trong quá kh [Alpaydin, 2004]
Biu din mt bài toán hc máy [Mitchell, 1997]
HáCithihi ithô ki h hi
H
c m
á
y =
Ci
thi
n
hi
u qu
m
t
c
ô
ng v
i
c
thô
ng qua
ki
n
h
ng
hi
m
Mt công vic (nhim v) T
Đối vi các tiêu chí đánh giá hiu năng P
Thông qua (s dng) kinh nghim E
3
Hc Máy – IT 4862
Ví dbài toán hc máy (1)
Lcthưrác Email spam
filtering
filtering
T: D đoán (để lc) nhng thưđin
tnào thưrác
(
s
p
am email
)
(p )
P: % of các thưđintgiđếnđược
phân loi chính xác
Thưrác?
E: Mt tpcácthưđint(emails)
mu, mithưđintửđưcbiudin
bng mttpthuc tính (vd: tpt
khó
)
à
l
(
th
th
/
th
Thư
rác?
Thư
thường Thư
rác
khó
a
)
v
à
n
n
l
p
(
th
ư
th
ư
ng
/
th
ư
rác) tương ng
4
Hc Máy – IT 4862
Ví dbài toán hc máy (2)
Phân loi các trang Web
T
: Phân loi các trang Web theo các chủđ
đãđịnh trước
P: Tl(%) các trang Web được phân loi chính xác
E
Mt
t
á
t
Wb
t
đó
i
t
Wb
i
t
E
:
Mt
t
pc
á
c
t
rang
W
e
b
,
t
rong
đó
m
i
t
rang
W
e
b
g
nv
i
m
t
chủđ
Ch
đề?
5
Hc Máy – IT 4862