
CHƯƠNG 3
PHÂN LỚP DỰA TRÊN HỌC MÁY
BỘ MÔN KINH TẾ SỐ

Tổng quan chương
3.1 Giới thiệu bài toán phân lớp
3.2 k-Nearest Neighbors
3.3 Cây quyết định
3.4 Naïve Bayes
3.5 Hồi quy Logistic

3.1 Giới thiệu bài toán phân lớp
•Phân lớp là một dạng bài toán trong học máy có giám sát
(supervised learning), trong đó mô hình được huấn luyện từ tập
dữ liệu đã gán nhãn để học cách phân biệt giữa các nhóm hoặc
danh mục (class) khác nhau.
•Mục tiêu của phân lớp là xây dựng một hàm ánh xạ từ đầu vào
(các đặc trưng mô tả đối tượng) đến đầu ra (nhãn phân loại),
sao cho khi gặp một đối tượng mới, mô hình có thể dự đoán
chính xác nhãn mà đối tượng đó thuộc về.

3.1 Giới thiệu bài toán phân lớp
· Đặc trưng đầu vào (feature vector): là tập hợp các thuộc tính định lượng
hoặc định tính biểu diễn đặc điểm của từng đối tượng (ví dụ: độ tuổi, thu nhập,
số lần mua hàng…).
· Nhãn đầu ra (label): là danh mục mà đối tượng thuộc về (ví dụ: mua
hàng/không mua; rủi ro cao/thấp; loại sản phẩm A/B/C…).
· Mô hình học máy sẽ học từ dữ liệu đầu vào và nhãn để phân loại các đối
tượng mới chưa biết nhãn.

3.1 Giới thiệu bài toán phân lớp
Một bài toán phân lớp gồm các thành phần chính:
•Đặc trưng đầu vào (X): thông tin mô tả đối tượng (ví dụ: độ tuổi, thu
nhập…)
•Nhãn (y): kết quả cần dự đoán (ví dụ: có mua hàng hay không)
•Mô hình học (thuật toán): Tìm ra ánh xạ X→y
•Đánh giá: Accuracy, Precision, Recall, F1-Score

