
CHƯƠNG 5: GOM CỤM
BỘ MÔN KINH TẾ SỐ

Tổng quan chương
5.1. Bài toán gom cụm dữ liệu
5.2. K - Means
5.3. DBSCAN

Chương 5: Gom cụm (Clustering)
•Gom cụm là kỹ thuật học không giám sát, phân chia dữ liệu thành các nhóm
tương tự dựa trên đặc điểm chung. Chương này trình bày hai thuật toán phổ
biến: K-Means và DBSCAN.
•K-Means phân cụm theo khoảng cách đến tâm cụm, còn DBSCAN dựa trên mật
độ điểm. Cả hai được ứng dụng trong kinh tế, như phân khúc khách hàng hoặc
phát hiện giao dịch bất thường.
•Nội dung bao gồm lý thuyết, công thức toán học, ví dụ kinh tế với tính toán
bằng tay, và code Python minh họa để triển khai thuật toán.

5.1 Bài toán gom cụm dữliệu
•Gom cụm (Clustering) phân chia dữ liệu thành các nhóm sao cho các điểm trong
cùng cụm có đặc điểm giống nhau hơn so với điểm ở cụm khác. Đây là phương
pháp học không giám sát, vì dữ liệu không có nhãn sẵn.
•Trong kinh tế, gom cụm phân tích dữ liệu không cấu trúc, như hành vi khách
hàng hoặc giao dịch tài chính. Ví dụ, dữ liệu khách hàng siêu thị được chia
thành nhóm chi tiêu cao hoặc thấp dựa trên thu nhập và chi tiêu.
•Các ứng dụng kinh tế bao gồm phân loại thị trường và phát hiện bất thường
trong giao dịch ngân hàng.

5.1 Bài toán gom cụm dữ liệu
•Gom cụm được sử dụng rộng rãi trong kinh tế để phân tích dữ liệu. Các ứng
dụng chính bao gồm:
–Phân khúc khách hàng theo hành vi tiêu dùng, như nhóm chi tiêu cao
hoặc thấp dựa trên thu nhập và chi tiêu.
–Nhận diện phân khúc thị trường để tối ưu chiến lược marketing.
–Phân tích rủi ro tín dụng, xác định nhóm khách hàng có nguy cơ vỡ nợ.
–Gợi ý sản phẩm dựa trên nhóm khách hàng tương tự.

