Nhp môn Hc máy và
Khai phá dliu
(
IT3190
)
Nguyễn Nhật Quang
quang.nguyennhat@hust.edu.vn
Trường Đại học Bách Khoa Hà Nội
Viện Công nghệ thông tin và truyền thông
Năm học 2020-2021
Nội dung môn học:
Giới thiệu về Học máy và Khai phá dữ liệu
Tiền xử lý dữ liệu
Đánh giá hiệu năng của hệ thống
Hồi quy
Phân lớp
Bài toán phân lớp
Học dựa trên các láng giềng gần nhất (Nearest
neighbors learning)
Phân cụm
Phát hiện luật kết hợp
Nhp môn Hc máy và Khai phá dliu
Introduction to Machine learning and Data mining 2
Bài toán phân lp
Phân lớp (classification) thuộc nhóm bài toán học có giám
sát (supervised learning)
Mục tiêu của bài toán phân lớp là dự đoán một giá trị rời
rạc (kiểu định danh)
f: X → Y
trong đó, Ylà tập hữu hạn các giá trị rời rạc (discrete
values)
Nhp môn Hc máy và Khai phá dliu
Introduction to Machine learning and Data mining 3
Bài toán phân lp: Đánh giá hiu năng
x: Một dụ trong tập thử nghiệm D_test
o(x): Phân lớp đưa ra bởi hệ thống đối với dụ x
c(x): Phân lớp thực sự (đúng) đối với dụ x
( )
;)(),(
_
1
_
=
testDx
xcxoIdentical
testD
Accuracy
=
=otherwise if ,0
if ,1
),( b)(a
baIdentical
Nhp môn Hc máy và Khai phá dliu
Introduction to Machine learning and Data mining 4
Ma trn nhm ln (Confusion matrix)
Còn được gọi là Contingency Table
Chỉ được sử dụng đối với bài toán phân lớp
Không thể áp dụng cho bài toán hồi quy (dự đoán)
Lớp ci
Được phân lớp
bởi hệ thống
Thuộc Ko thuộc
Phân lớp
thực sự
(đúng)
Thuộc TPiFNi
Ko thuộc FPiTNi
TPi: Số lượng các ví dụ
thuộc lớp ciđược phân loại
chính xác vào lớp ci
FPi: Số lượng các ví dụ
không thuộc lớp cibị phân
loại nhầm vào lớp ci
TNi: Số lượng các ví dụ
không thuộc lớp ciđược
phân loại chính xác
FNi: Số lượng các ví dụ
thuộc lớp ci-bị phân loại
nhầm (vào các lớp khác ci)
Nhp môn Hc máy và Khai phá dliu
Introduction to Machine learning and Data mining 5