
1
ĐẠI HỌC KINH TẾ TP.HỒ CHÍ MINH
KHOA NGÂN HÀNG
TIỂU LUẬN
MÔN: KHOA HỌC DỮ LIỆU
ĐỀ TÀI: PHÂN TÍCH NHÓM ĐỐI TƯỢNG CHẤP NHẬN KHOẢN
VAY CÁ NHÂN CỦA THERA BANK DỰA TRÊN CÁC CÔNG CỤ
KHOA HỌC DỮ LIỆU CỦA PHẦN MỀM ORANGE
Hồ Chí Minh, Tháng 09 năm 2025
Giảng viên:
Mã LHP
Sinh viên thực hiện:

MỤC LỤC
Chương 1: Tổng quan về Khoa học dữ liệu và đề tài nghiên cứu................................9
1.1. Giới thiệu về Khoa học dữ liệu..............................................................................9
1.2. Lý do chọn đề tài..................................................................................................10
1.3. Mục tiêu nghiên cứu............................................................................................10
1.4. Phương pháp nghiên cứu.....................................................................................10
Chương 2: Tổng quan về quá trình sử dụng và các phương pháp sử dụng.............11
2.1. Tổng quan về phần mềm Orange.......................................................................11
2.2. Tổng quan về các phương pháp sử dụng...........................................................11
2.2.1. Tiền xử lý dữ liệu (Data Preprocessing)........................................................11
2.2.2. Phân lớp dữ liệu.............................................................................................13
2.2.3. Phân cụm dữ liệu............................................................................................16
Chương 3: Mô hình nghiên cứu đề xuất......................................................................21
Chương 4: Kết quả thực hiện mô hình.........................................................................21
4.1. Tiền xử lý dữ liệu..................................................................................................21
4.1.1. Role của các thuộc tính..................................................................................21
4.1.2. Thống kê mô tả...............................................................................................22
4.1.3. Loại bỏ các thuộc tính không ảnh hưởng đến biến phụ thuộc....................24
4.1.4. Trích dữ liệu cho bộ dữ liệu Dự báo..............................................................26
4.2. Phân cụm dữ liệu..................................................................................................28
4.2.1. Phương pháp Hierarchical Clustering:.........................................................29
4.2.2. Phương pháp k-Means:..................................................................................32
4.3. So sánh với nhãn ban đầu....................................................................................35
4.3.1. Phương pháp Hierarchical Clustering:.........................................................37
4.3.2. Phương pháp k-Means:..................................................................................40
4.4. Phân lớp dữ liệu...................................................................................................43
4.4.1. Xây dựng mô hình phân lớp..........................................................................43
2

4.4.2. Các phương pháp đánh giá mô hình.............................................................45
4.5. Kết luận.................................................................................................................50
4.6. Dự báo...................................................................................................................50
Chương 5: Kết luận và Đề xuất.....................................................................................53
TÀI LIỆU THAM KHẢO.............................................................................................53
3

DANH MỤC HÌNH ẢNH
Hình 2.2.2.3. Ma trận nhầm lẫn (Confusion matrix)
Hình 2.2.3. Phân cụm dữ liệu
Hình 2.2.3.2.c. Phương pháp K- means
Hình 4.1.1.a. Dữ liệu đầu vào
Hình 4.1.1.b. Bảng dữ liệu đầu vào
Hình 4.1.2. Kết quả thống kê mô tả của các biến
Hình 4.1.3.a. Kết quả khi sử dụng công cụ Rank
Hình 4.1.3.b. Kết quả khi sử dụng công cụ Select Columns
Hình 4.1.3.c. Data Sampler của Bộ Tiền xử lý dữ liệu
Hình 4.1.3.d. Quy trình thực hiện Tiền xử lý dữ liệu
Hình 4.1.4.a. Dữ liệu đầu vào
Hình 4.1.4.b. Data Sampler của Forecast Data
Hình 4.1.4.c. Quy trình trích dữ liệu Forecast
Hình 4.2.a. Dữ liệu đầu vào
Hình 4.2.b. Quy trình thực hiện Tiền xử lý dữ liệu
Hình 4.2.1.a. Kết quả phân cấp
Hình 4.2.1.b. Bảng Silhouette Plot cho 2 phân cụm phân cấp
Hình 4.2.1.c. Bảng kết quả khi sử dụng phương pháp Hierarchical clustering
Hình 4.2.2.a. Bảng phân tích k-Means cho bộ dữ liệu
Hình 4.2.2.b. Bảng Silhouette Plot cho 2 phân cụm phân hoạch
Hình 4.2.2.c. Bảng kết quả khi sử dụng phương pháp k-Means
Hình 4.3.a. Dữ liệu đầu vào
4

Hình 4.3.b. Bảng dữ liệu sau khi gộp với bảng kết quả phân cụm bằng Hierarchical
Clustering
Hình 4.3.c. Bảng dữ liệu sau khi gộp với bảng kết quả phân cụm bằng k-Means
Hình 4.3.d. Quá trình thực hiện gộp dữ liệu
Hình 4.3.1.a. Bảng dữ liệu sau khi dán nhãn và copy nhãn hiện có
Hình 4.3.1.b. Thay giá trị cho kết quả đã phân cụm
Hình 4.3.1.c. So sánh giữa dữ liệu phân cụm và nhãn hiện có
Hình 4.3.1.d. Kết quả sau khi so sánh
Hình 4.3.1.e. Bảng hiển thị kết quả so sánh với nhãn hiện có
Hình 4.3.2.a. Bảng dữ liệu sau khi dán nhãn và copy nhãn hiện có
Hình 4.3.2.b. Thay giá trị cho kết quả đã phân cụm
Hình 4.3.2.c. So sánh giữa dữ liệu phân cụm và nhãn hiện có
Hình 4.3.2.d. Kết quả sau khi so sánh
Hình 4.3.2.e. Bảng hiển thị kết quả so sánh với nhãn hiện có
Hình 4.4.1.a. Dữ liệu đầu vào để thực hiện phân lớp dữ liệu
Hình 4.4.1.b. Quy trình thực hiện phân lớp dữ liệu
Hình 4.4.2.1.a. Kết quả chi mẫu dữ liệu thành 5 phần
Hình 4.4.2.1.b. Kết quả chi mẫu dữ liệu thành 10 phần
Hình 4.4.2.1.c. Kết quả chia mẫu dữ liệu với tỷ lệ 10 - 66%
Hình 4.4.2.1.d. Kết quả chia mẫu dữ liệu với tỷ lệ 20 - 70%
Hình 4.4.2.2.a. Kết quả Ma trận nhầm lẫn của phương pháp Decision Tree
Hình 4.4.2.2.b. Kết quả Ma trận nhầm lẫn của phương pháp SVM
Hình 4.4.2.2.c. Kết quả Ma trận nhầm lẫn của phương pháp Logistic Regression
5

