
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ MINH
KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH
TIỂU LUẬN KẾT THÚC HỌC PHẦN
ĐỀ TÀI: Nghiên cứu và ứng dụng các phương pháp khai
thác dữ liệu trong việc dự đoán khả năng khách hàng rời
bỏ sử dụng dịch vụ ngân hàng
MÔN: KHOA HỌC DỮ LIỆU
Giảng viên: Trương Việt Phương
Mã lớp học phần: 23C1INF50905956
Phòng B2 – 101 – Sáng thứ 3
Họ và tên sinh viên thực hiện: Tăng Khải Hoa - 31221021881
Lê Anh Tuấn - 31221025205
Hồ Thị Tú Trinh - 31221022293
Hồ Ngọc Thảo Nguyên - 31221024473
Ngô Ngọc Mỹ Thuận – 31221021487

DANH SÁCH THÀNH VIÊN VÀ PHÂN CHIA CÔNG VIỆC
Họ và tên thành
viên
Công việc Đóng góp
Tăng Khải Hoa Nhóm trưởng, tham gia lựa chọn bộ dữ liệu.
Chương 3: Phân tích 100%
Lê Anh Tuấn Tham gia lựa chọn bộ dữ liệu
Chương 4: Kết luận, hạn chế và giải pháp 100%
Hồ Thị Tú Trinh Tham gia lựa chọn bộ dữ liệu
Chương 2: Cơ sở lý luận – khai phá dữ liệu 100%
Hồ Ngọc Thảo
Nguyên
Tham gia lựa chọn bộ dữ liệu
Chương 2: Cơ sở lý luận – phân lớp dữ liệu 100%
Ngô Ngọc Mỹ
Thuận
Tham gia lựa chọn bộ dữ liệu
Chương 1: Giới thiệu đề tài 100%

LỜI MỞ ĐẦU
Trong thời đại ngày nay, khi mà việc phát triển kinh tế- xã hội có sự đóng góp hết sức
quan trọng từ công nghệ thông tin. Sự kết hợp giữa công nghệ thông tin và toán học đã phát
triển khoa học dữ liệu- một công cụ quan trọng trong thời đại chuyển đổi số, là lĩnh vực nghiên
cứu dữ liệu kết hợp chuyên môn lập trình, các kiến thức liên quan để khai thác và phân tích
những thông tin cần thiết để dự đoán xu hướng trong tương lai nhằm đưa ra các chiến lược
hành động. Nhiều doanh nghiệp, bất kể quy mô, đều cần một chiến lược khoa học dữ liệu hiệu
quả để thúc đẩy tăng trưởng và duy trì lợi thế cạnh tranh. Ngân hàng cũng không ngoại lệ khi
cũng dần phải thay đổi cách thức quản lý và phân tích dữ lý dữ liệu. Trong đó, khách hàng rời
đi vẫn là một vấn đề nan giải trong ngân hàng bởi chưa có biện pháp để xác định khách hàng
nào sẽ tới ngân hàng để đóng tài khoản hay ngừng giao dịch với ngân hàng. Do ngân hàng có
sản phẩm dịch vụ liên quan đến tài chính của khách hàng vì thế nếu khách hàng rời đi sẽ gây
ảnh hưởng lớn đến khả năng thanh khoản của một ngân hàng. Bên cạnh đó, số lượng khách
hàng trung bình lên tới hàng triệu người nên ngân hàng khó có thể chăm sóc được từng người
để phát hiện khách hàng có khả năng rời đi trong thời gian ngắn. Nhận thấy những khó khăn
đó, nhóm chúng em quyết định thực hiện ứng dụng các phương pháp khai thác dữ liệu để dự
đoán được khả năng khách hàng rời bỏ dịch vụ ngân hàng thông qua những thông tin ngân
hàng thu thập và lưu trữ từ khách hàng từ đó ban quản lý ngân hàng có thể lập ra chiến lược tốt
hơn.

MỤC LỤC
NỘI DUNG..............................................................................................................................1
CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI..................................................................................1
1.1. Lý do lựa chọn đề tài......................................................................................1
1.2. Mục tiêu nghiên cứu.......................................................................................1
1.3. Đối tượng nghiên cứu.....................................................................................2
1.4. Phương pháp nghiên cứu................................................................................2
1.4.1. Phương pháp nghiên cứu lý luận.............................................................2
1.4.2. Phương pháp nghiên cứu thực tiễn..........................................................2
1.5. Cấu trúc của bài nghiên cứu...........................................................................2
CHƯƠNG 2: CƠ SỞ LÝ LUẬN........................................................................................3
2.1. Khai phá dữ liệu.............................................................................................3
2.1.1. Khai phá dữ liệu là gì ?...........................................................................3
2.1.2. Các chức năng chính của khai phá dữ liệu..............................................3
2.1.3. Quy trình khai phá dữ liệu......................................................................3
2.1.4. Phương pháp khai phá dữ liệu.................................................................6
2.1.5. Ứng dụng của khai phá dữ liệu..................................................................7
2.1.5. Công cụ khai phá dữ liệu trong bài nghiên cứu: Orange.........................8
2.2. Phân lớp dữ liệu.............................................................................................9
2.2.1. Khái niệm phân lớp dữ liệu.....................................................................9
2.2.2 . Phương pháp xử lý và phân tích thông tin số liệu:...................................9
2.2.3. Các phương pháp phân lớp dữ liệu..........................................................11
2.2.4. Ưu và nhược điểm của các phương pháp................................................13
2.2.5. Các phương pháp đánh giá mô hình phân lớp.........................................14
2.3. Phân cụm dữ liệu..........................................................................................18
2.3.1. Khái niệm phân cụm dữ liệu.................................................................18
2.3.2. Quy trình phân cụm dữ liệu..................................................................18
2.3.3. Các phương pháp phân cụm dữ liệu........................................................19
2.3.4. Ứng dụng của phân cụm dữ liệu..............................................................20
CHƯƠNG 3: PHÂN TÍCH..............................................................................................21
3.1. Sơ lược về thực trạng dịch vụ ngân hàng cho khách hàng cá nhân hiện nay....21
3.2. Mô hình nghiên cứu đề xuất.............................................................................22
3.3. Các nhóm chức năng Orange sử dụng trong mô hình.......................................22
3.3.1. Nhóm Data..............................................................................................22

3.3.2. Nhóm Transform.....................................................................................24
3.3.3. Nhóm Visualize.......................................................................................24
3.3.4. Nhóm Model...........................................................................................24
3.3.5. Nhóm Evaluate........................................................................................25
3.3.6. Nhóm Unsupervised................................................................................26
3.4. Phân tích và tiền xử lý dữ liệu..........................................................................27
3.4.1. Lấy dữ liệu và phân tích dữ liệu..............................................................27
3.4.2. Tiền xử lý dữ liệu....................................................................................29
3.5. Phân cụm dữ liệu..............................................................................................31
3.5.1. Các phương pháp sử dụng.......................................................................31
3.5.2. Thực hiện phân cụm dữ liệu....................................................................31
3.6. Phân lớp dữ liệu................................................................................................43
3.6.1. Tạo bộ dữ liệu huấn luyện và bộ dữ liệu kiểm tra từ bộ dữ liệu gốc........43
3.6.2. Quy trình phân lớp và dự báo..................................................................49
Chương 4: Kết luận, hạn chế và giải pháp........................................................................54
4.1. Kết luận............................................................................................................54
4.3. Hạn chế của bài nghiên cứu..............................................................................54
4.3. Giải pháp..........................................................................................................54
LỜI CẢM ƠN........................................................................................................................56
TÀI LIỆU THAM KHẢO......................................................................................................57

