Học Máy<br />
(IT 4862)<br />
<br />
Nguyễn<br />
ễ Nhật<br />
hậ Quang<br />
quangnn-fit@mail.hut.edu.vn<br />
<br />
Trường Đại học Bách Khoa Hà Nội<br />
Viện Công nghệ thông tin và truyền thông<br />
Năm học 2011-2012<br />
<br />
Nội d<br />
dung môn<br />
ô h<br />
học:<br />
<br />
<br />
Giới thiệu chung<br />
• Học máy<br />
• Công cụ WEKA<br />
<br />
<br />
<br />
Đánh giá hiệu năng hệ thống<br />
ố học máy<br />
<br />
<br />
<br />
Các phương pháp học dựa trên xác suất<br />
<br />
<br />
<br />
Các phương pháp học có giám sát<br />
<br />
<br />
<br />
Các p<br />
phương<br />
gp<br />
pháp<br />
p học<br />
ọ không<br />
gg<br />
giám sát<br />
<br />
<br />
<br />
Lọc cộng tác<br />
<br />
<br />
<br />
Học tăng cường<br />
Học Máy – IT 4862<br />
<br />
2<br />
<br />
Giới thiệu về Học máy<br />
<br />
<br />
<br />
<br />
Học máy (Machine Learning – ML) là một lĩnh vực nghiên cứu của Trí<br />
tuệ nhân tạo (Artificial Intelligence – AI)<br />
Các định nghĩa về học máy<br />
→ Một quá trình nhờ đó một hệ thống cải thiện hiệu suất (hiệu quả hoạt<br />
động) của nó [Simon, 1983]<br />
→ Một quá trình mà một chương trình máy tính cải thiện hiệu suất của nó<br />
trong một công việc thông qua kinh nghiệm [Mitchell, 1997]<br />
→ Việc<br />
ệ lập<br />
ập trình các máy<br />
y tính để tối ưu hóa một<br />
ộ tiêu chí hiệu<br />
ệ suất dựa<br />
ự trên<br />
các dữ liệu ví dụ hoặc kinh nghiệm trong quá khứ [Alpaydin, 2004]<br />
<br />
<br />
<br />
Biểu diễn một bài toán học máy [Mitchell, 1997]<br />
H máy<br />
Học<br />
á = Cải thiệ<br />
thiện hiệu<br />
hiệ quả<br />
ả một<br />
ột công<br />
ô việc<br />
iệ thông<br />
thô qua ki<br />
kinh<br />
h nghiệm<br />
hiệ<br />
• Một công việc (nhiệm vụ) T<br />
• Đối với các tiêu chí đánh giá hiệu năng P<br />
• Thông qua (sử dụng) kinh nghiệm E<br />
Học Máy – IT 4862<br />
<br />
3<br />
<br />
Ví dụ bài toán học máy (1)<br />
Lọc thư rác – Email spam<br />
filtering<br />
• T: Dự đoán (để lọc) những thư điện<br />
p<br />
email))<br />
tử nào là thư rác ((spam<br />
• P: % of các thư điện tử gửi đến được<br />
phân loại chính xác<br />
• E: Một tập các thư điện tử (emails)<br />
mẫu, mỗi thư điện tử được biểu diễn<br />
bằng một tập thuộc tính (vd: tập từ<br />
khó ) và<br />
khóa)<br />
à nhãn<br />
hã lớp<br />
lớ (thư<br />
(th thường/thư<br />
th ờ /th<br />
rác) tương ứng<br />
<br />
Học Máy – IT 4862<br />
<br />
Thư rác?<br />
<br />
Thư<br />
thường<br />
<br />
Thư<br />
rác<br />
<br />
4<br />
<br />
Ví dụ bài toán học máy (2)<br />
Phân loại các trang Web<br />
<br />
<br />
T: Phân loại các trang Web theo các chủ đề<br />
ề đã định trước<br />
<br />
<br />
<br />
P: Tỷ lệ (%) các trang Web được phân loại chính xác<br />
<br />
<br />
<br />
E: Một tập<br />
E<br />
tậ các<br />
á trang<br />
t<br />
W b trong<br />
Web,<br />
t<br />
đó mỗi<br />
ỗi trang<br />
t<br />
W b gắn<br />
Web<br />
ắ với<br />
ới một<br />
ột<br />
chủ đề<br />
<br />
Chủ<br />
đề?<br />
<br />
Học Máy – IT 4862<br />
<br />
5<br />
<br />