
1
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC KINH TẾ TP. HỒ CHÍ MINH
TIỂU LUẬN KHOA HỌC DỮ LIỆU
ĐỀ TÀI: ỨNG DỤNG KHOA HỌC DỮ LIỆU ĐỂ PHÂN TÍCH VÀ DỰ BÁO TỶ LỆ
KHÁCH HÀNG RỜI BỎ
Giảng viên hướng dẫn: Trương Việt Phương
Mã học phần: 24C1INF50905902
Sinh viên thực hiện: Huỳnh Thụy Bảo Châu
Trần Quốc Danh
Tống Khánh Đoan
Đặng Nguyễn Minh Thông
Thành phố Hồ Chí Minh, ngày 17 tháng 10 năm 2024.

2
ST
THọ và tên Mã số sinh viên Tỉ lệ tham gia
1 Huỳnh Thụy Bảo Châu 31231024305 100%
2 Trần Quốc Danh 31231025946 100%
3 Tống Khánh Đoan 31231020427 100%
4 Đặng Nguyễn Minh Thông 31231022383 100%
Ngày Nhiệm vụ Phân công thực hiện
25/9 – 30/9
Thu thập và kiểm tra bộ dữ
liệu Customer Churn.
Nghiên cứu về cơ sở lý
thuyết, các kỹ thuật phân
cụm và phân lớp phù hợp
cho dự án.
Khánh Đoan: Thu thập và
chuẩn bị dữ liệu.
Minh Thông: Nghiên cứu về
thuật toán phân cụm.
Bảo Châu: Nghiên cứu các
mô hình phân lớp và dự báo.
Quốc Danh: Tổng hợp thông
tin, cơ sở lý thuyết.
1/10 – 3/10
Tiền xử lý dữ liệu: kiểm tra
và xử lý giá trị thiếu, chuẩn
hóa dữ liệu.
Phân tích thống kê mô tả bộ
dữ liệu.
Minh Thông: Làm sạch dữ
liệu, loại bỏ giá trị lỗi.
Khánh Đoan: Kiểm tra và
điều chỉnh các biến.
Quốc Danh: Thống kê mô tả
và trực quan hóa dữ liệu.
Bảo Châu: Giám sát tiến độ,
đánh giá kết quả xử lý và
tổng hợp thông tin.
6/10 – 9/10
Tiến hành phân cụm dữ liệu
không có nhãn xác định số
cụm tốt nhất.
So sánh kết quả phân cụm
với nhãn churn hiện có và
đưa ra nhận xét.
Minh Thông: Triển khai
phân cụm (2 cụm) và đánh
giá số cụm tối ưu.
Bảo Châu: Triển khai phân
cụm (3 cụm) và đánh giá số
cụm tối ưu.
Khánh Đoan: So sánh kết
quả phân cụm với nhãn
churn và phân tích kết quả.
Quốc Danh: Ghi nhận và
tổng hợp kết quả phân tích.
10/10 – 14/10 Sử dụng bộ dữ liệu có nhãn
để thực hiện phân lớp.
Trích xuất khoảng 10 dòng
Bảo Châu: Chuẩn bị dữ liệu
có nhãn để phân lớp.
Khánh Đoan: Đánh giá, lựa

3
dữ liệu không có nhãn từ bộ
phân lớp và tiến hành dự báo
churn.
chọn mô hình phù hợp.
Quốc Danh: Thực hiện dự
báo cho các dòng dữ liệu
chưa có nhãn.
Minh Thông: Giám sát và
đánh giá dự báo.
15/10 - 17/10
Tổng hợp kết quả từ các file
Orange, Word, Excel
Hoàn thiện báo cáo và kiểm
tra đạo văn
Bảo Châu: Tổng hợp kết quả
và nộp bài.
Minh Thông: Hoàn thiện báo
cáo.
Khánh Đoan, Quốc Danh:
Kiểm tra đạo văn và điều
chỉnh cho thích hợp.

4
MỤC LỤC
1. Tổng quan về đề tài...............................................................................................................5
1.1 Lý do chọn đề tài.............................................................................................................5
1.2 Mục tiêu nghiên cứu....................................................................................................5
1.3 Đối tượng nghiên cứu..................................................................................................5
2. Cơ sở lý thuyết...................................................................................................................5
2.1 Tiền xử lý dữ liệu.........................................................................................................5
2.1.1 Khái niệm...............................................................................................................5
2.1.2 Các bước tiền xử lý dữ liệu..................................................................................6
2.2 Phân cụm dữ liệu.........................................................................................................9
2.2.1 Tổng quát về phân cụm dữ liệu...........................................................................9
2.2.2 Độ đo phân cụm....................................................................................................9
2.2.3 Phương pháp phân cụm.......................................................................................9
2.2.4 Phương pháp đánh giá phân cụm dữ liệu.........................................................11
2.3 Phân lớp dữ liệu.........................................................................................................11
2.3.1 Tổng quát về phân lớp dữ liệu...........................................................................11
2.3.2 Một số phương pháp phân lớp...........................................................................12
2.3.3 Các phương pháp đánh giá mô hình phân lớp.................................................13
3. Kết quả thực hiện............................................................................................................14
3.1 Tiền xử lý dữ liệu.......................................................................................................14
3.1.1 Dữ liệu gốc...........................................................................................................14
3.1.2 Mô tả bộ dữ liệu..................................................................................................16
3.1.3 Loại bỏ thuộc tính không phù hợp....................................................................17
3.1.4 Phân bổ của các thuộc tính................................................................................20
3.2. Phân cụm dữ liệu......................................................................................................25
3.2.1 Kết quả của Hierarchical Clustering................................................................25
Phần 1: Phân thành 3 cụm......................................................................................25
Phần 2: Phân thành 2 cụm......................................................................................30
Phần 3: Kết luận chung và đánh giá ngoại............................................................33
3.2.2 Phân cụm phân hoạch........................................................................................34
3.3. Phân lớp và dự báo...................................................................................................35
3.3.1 Phân lớp...............................................................................................................35
3.3.2 Dự báo..................................................................................................................38
4. Kết luận................................................................................................................................40

5
1. Tổng quan về đề tài
1.1 Lý do chọn đề tài
Trong bối cảnh thị trường cạnh tranh ngày càng khốc liệt, việc giữ chân khách hàng trở thành
một yếu tố sống còn đối với các doanh nghiệp. Churn (rời bỏ dịch vụ) là một vấn đề nổi cộm
mà hầu hết các doanh nghiệp phải đối mặt, đặc biệt là trong các ngành như viễn thông, tài
chính và dịch vụ tiêu dùng. Việc dự báo và phát hiện các khách hàng có khả năng rời bỏ giúp
doanh nghiệp triển khai những biện pháp giữ chân kịp thời, tiết kiệm chi phí và tăng hiệu quả
hoạt động kinh doanh.
Nhờ sự phát triển của các mô hình phân tích dữ liệu, các phương pháp phân cụm và phân lớp
đã trở thành những công cụ hữu hiệu để dự đoán Customer Churn. Những mô hình này có khả
năng phân tích hành vi khách hàng và giúp dự báo liệu họ có rời bỏ doanh nghiệp trong tương
lai hay không. Do đó, đề tài này được chọn để nghiên cứu khả năng ứng dụng các phương
pháp khoa học dữ liệu trong việc phân tích và dự báo Customer Churn, hỗ trợ doanh nghiệp
trong việc quản lý và duy trì mối quan hệ với khách hàng.
1.2 Mục tiêu nghiên cứu
Phân tích và xây dựng mô hình dự báo Customer Churn dựa trên phân cụm và phân lớp.
Đánh giá hiệu quả của các mô hình phân tích khác nhau trong việc dự báo Customer Churn.
Đưa ra các gợi ý, giải pháp giúp doanh nghiệp giảm tỷ lệ khách hàng rời bỏ, từ đó tăng cường
hiệu quả hoạt động kinh doanh.
1.3 Đối tượng nghiên cứu
Đối tượng nghiên cứu chính của đề tài này là dữ liệu khách hàng của một công ty viễn thông,
bao gồm các thông tin liên quan đến hành vi sử dụng dịch vụ, mức độ tương tác và các yếu tố
khác ảnh hưởng đến quyết định rời bỏ dịch vụ. Bộ dữ liệu được truy xuất tại:
https://archive.ics.uci.edu/dataset/563/iranian+churn+dataset
2. Cơ sở lý thuyết
2.1 Tiền xử lý dữ liệu
2.1.1 Khái niệm
Tiền xử lý dữ liệu là một quá trình không thể thiếu để loại bỏ nhiễu và đảm bảo tính nhất quán
của dữ liệu. Đây là giai đoạn xử lý dữ liệu thô / gốc giúp nâng cao chất lượng dữ liệu đầu vào
và đảm bảo độ tin cậy của kết quả.
Dữ liệu thô/gốc dữ liệu đã được định dạng hoặc không được định dạng và nằm ở nhiều
định dạng khác nhau (tập tin hoặc CSDL).
Chất lượng dữ liệu được thể hiện ở tính chính xác, tính hiện hành, tính toàn vẹn và
tính nhất quán.