Nhp môn Hc máy và
Khai phá dliu
(
IT3190
)
Nguyễn Nhật Quang
quang.nguyennhat@hust.edu.vn
Trường Đại học Bách Khoa Hà Nội
Viện Công nghệ thông tin và truyền thông
Năm học 2020-2021
Nội dung môn học:
Giới thiệu về Học máy Khai phá dữ liệu
Tiền xử dữ liệu
Đánh giá hiệu năng của hệ thống
Hồi quy
Phân lớp
Phân cụm
Bài toán phân cụm
Phân cụm dựa trên phân tách: k-Means
Phân cụm phân cấp: HAC
Phát hiện luật kết hợp
2
Nhp môn Hc máy và Khai phá dliu
Introduction to Machine learning and Data mining
Học có vs. không có giám sát
Học giám sát (Supervised learning)
Tập dữ liệu (dataset) bao gồm các dụ, mỗi dụ được gắn
kèm với một nhãn lớp/giá trị đầu ra mong muốn
Mục đích học (xấp xỉ) một giả thiết/hàm mục tiêu (vd: phân lớp,
hồi quy) phù hợp với tập dữ liệu hiện
Hàm mục tiêu học được (learned target function) sau đó sẽ được
dùng để phân lớp/dự đoán đối với các dụ mới
Học không giám sát (Unsupervised learning)
Tập dữ liệu (dataset) bao gồm các dụ, mỗi dụ không
thông tin về nhãn lớp/giá trị đầu ra mong muốn
Mục đích tìm ra (xác định) các cụm/các cấu trúc/các quan hệ tồn
tại trong tập dữ liệu hiện
3
Nhp môn Hc máy và Khai phá dliu
Introduction to Machine learning and Data mining
Phân cụm
Phân cụm/nhóm (Clustering) phương pháp học không
giám sát được sử dụng phổ biến nhất
Tồn tại các phương pháp học không giám sát khác, dụ: Lọc
cộng tác (Collaborative filtering), Khai phá luật kết hợp
(Association rule mining), ...
Bài toán Phân cụm:
Đầu vào: Một tập dữ liệu không nhãn (các dụ không nhãn
lớp/giá trị đầu ra mong muốn)
Đầu ra: Các cụm (nhóm) của các dụ
Một cụm (cluster) một tập các dụ:
Tương tự với nhau (theo một ýnghĩa, đánh giá nào đó)
Khác biệt với các dụ thuộc các cụm khác
4
Nhp môn Hc máy và Khai phá dliu
Introduction to Machine learning and Data mining
Phân cụm – dụ minh họa
Các dụ được phân chia thành 3 cụm
[Liu, 2006]
5
Nhp môn Hc máy và Khai phá dliu
Introduction to Machine learning and Data mining