Trang chủ » Luận Văn - Báo Cáo » Công nghệ thông tin

52 trang

122 lượt xem

Bài tiểu luận: Phân tích nhóm đối tượng chấp nhận khoản vay cá nhân của Thera Bank dựa trên các công cụ khoa học dữ liệu của phần mềm Orange

Bài tiểu luận phân tích nhóm khách hàng vay cá nhân Thera Bank bằng công cụ khoa học dữ liệu Orange; nghiên cứu sử dụng thuật toán phân cụm và phân lớp.

Chủ đề:

bachduong_011

Tiểu luận môn mạng máy tính

ĐẠI HỌC KINH TẾ TP.HỒ CHÍ MINH

KHOA NGÂN HÀNG

TIỂU LUẬN

MÔN: KHOA HỌC DỮ LIỆU

ĐỀ TÀI: PHÂN TÍCH NHÓM ĐỐI TƯỢNG CHẤP NHẬN KHOẢN

VAY CÁ NHÂN CỦA THERA BANK DỰA TRÊN CÁC CÔNG CỤ

KHOA HỌC DỮ LIỆU CỦA PHẦN MỀM ORANGE

Hồ Chí Minh, Tháng 09 năm 2025

Giảng viên:

Mã LHP

Sinh viên thực hiện:

MỤC LỤC

Chương 1: Tổng quan về Khoa học dữ liệu và đề tài nghiên cứu................................9

1.1. Giới thiệu về Khoa học dữ liệu..............................................................................9

1.2. Lý do chọn đề tài..................................................................................................10

1.3. Mục tiêu nghiên cứu............................................................................................10

1.4. Phương pháp nghiên cứu.....................................................................................10

Chương 2: Tổng quan về quá trình sử dụng và các phương pháp sử dụng.............11

2.1. Tổng quan về phần mềm Orange.......................................................................11

2.2. Tổng quan về các phương pháp sử dụng...........................................................11

2.2.1. Tiền xử lý dữ liệu (Data Preprocessing)........................................................11

2.2.2. Phân lớp dữ liệu.............................................................................................13

2.2.3. Phân cụm dữ liệu............................................................................................16

Chương 3: Mô hình nghiên cứu đề xuất......................................................................21

Chương 4: Kết quả thực hiện mô hình.........................................................................21

4.1. Tiền xử lý dữ liệu..................................................................................................21

4.1.1. Role của các thuộc tính..................................................................................21

4.1.2. Thống kê mô tả...............................................................................................22

4.1.3. Loại bỏ các thuộc tính không ảnh hưởng đến biến phụ thuộc....................24

4.1.4. Trích dữ liệu cho bộ dữ liệu Dự báo..............................................................26

4.2. Phân cụm dữ liệu..................................................................................................28

4.2.1. Phương pháp Hierarchical Clustering:.........................................................29

4.2.2. Phương pháp k-Means:..................................................................................32

4.3. So sánh với nhãn ban đầu....................................................................................35

4.3.1. Phương pháp Hierarchical Clustering:.........................................................37

4.3.2. Phương pháp k-Means:..................................................................................40

4.4. Phân lớp dữ liệu...................................................................................................43

4.4.1. Xây dựng mô hình phân lớp..........................................................................43

4.4.2. Các phương pháp đánh giá mô hình.............................................................45

4.5. Kết luận.................................................................................................................50

4.6. Dự báo...................................................................................................................50

Chương 5: Kết luận và Đề xuất.....................................................................................53

TÀI LIỆU THAM KHẢO.............................................................................................53

DANH MỤC HÌNH ẢNH

Hình 2.2.2.3. Ma trận nhầm lẫn (Confusion matrix)

Hình 2.2.3. Phân cụm dữ liệu

Hình 2.2.3.2.c. Phương pháp K- means

Hình 4.1.1.a. Dữ liệu đầu vào

Hình 4.1.1.b. Bảng dữ liệu đầu vào

Hình 4.1.2. Kết quả thống kê mô tả của các biến

Hình 4.1.3.a. Kết quả khi sử dụng công cụ Rank

Hình 4.1.3.b. Kết quả khi sử dụng công cụ Select Columns

Hình 4.1.3.c. Data Sampler của Bộ Tiền xử lý dữ liệu

Hình 4.1.3.d. Quy trình thực hiện Tiền xử lý dữ liệu

Hình 4.1.4.a. Dữ liệu đầu vào

Hình 4.1.4.b. Data Sampler của Forecast Data

Hình 4.1.4.c. Quy trình trích dữ liệu Forecast

Hình 4.2.a. Dữ liệu đầu vào

Hình 4.2.b. Quy trình thực hiện Tiền xử lý dữ liệu

Hình 4.2.1.a. Kết quả phân cấp

Hình 4.2.1.b. Bảng Silhouette Plot cho 2 phân cụm phân cấp

Hình 4.2.1.c. Bảng kết quả khi sử dụng phương pháp Hierarchical clustering

Hình 4.2.2.a. Bảng phân tích k-Means cho bộ dữ liệu

Hình 4.2.2.b. Bảng Silhouette Plot cho 2 phân cụm phân hoạch

Hình 4.2.2.c. Bảng kết quả khi sử dụng phương pháp k-Means

Hình 4.3.a. Dữ liệu đầu vào

Hình 4.3.b. Bảng dữ liệu sau khi gộp với bảng kết quả phân cụm bằng Hierarchical

Clustering

Hình 4.3.c. Bảng dữ liệu sau khi gộp với bảng kết quả phân cụm bằng k-Means

Hình 4.3.d. Quá trình thực hiện gộp dữ liệu

Hình 4.3.1.a. Bảng dữ liệu sau khi dán nhãn và copy nhãn hiện có

Hình 4.3.1.b. Thay giá trị cho kết quả đã phân cụm

Hình 4.3.1.c. So sánh giữa dữ liệu phân cụm và nhãn hiện có

Hình 4.3.1.d. Kết quả sau khi so sánh

Hình 4.3.1.e. Bảng hiển thị kết quả so sánh với nhãn hiện có

Hình 4.3.2.a. Bảng dữ liệu sau khi dán nhãn và copy nhãn hiện có

Hình 4.3.2.b. Thay giá trị cho kết quả đã phân cụm

Hình 4.3.2.c. So sánh giữa dữ liệu phân cụm và nhãn hiện có

Hình 4.3.2.d. Kết quả sau khi so sánh

Hình 4.3.2.e. Bảng hiển thị kết quả so sánh với nhãn hiện có

Hình 4.4.1.a. Dữ liệu đầu vào để thực hiện phân lớp dữ liệu

Hình 4.4.1.b. Quy trình thực hiện phân lớp dữ liệu

Hình 4.4.2.1.a. Kết quả chi mẫu dữ liệu thành 5 phần

Hình 4.4.2.1.b. Kết quả chi mẫu dữ liệu thành 10 phần

Hình 4.4.2.1.c. Kết quả chia mẫu dữ liệu với tỷ lệ 10 - 66%

Hình 4.4.2.1.d. Kết quả chia mẫu dữ liệu với tỷ lệ 20 - 70%

Hình 4.4.2.2.a. Kết quả Ma trận nhầm lẫn của phương pháp Decision Tree

Hình 4.4.2.2.b. Kết quả Ma trận nhầm lẫn của phương pháp SVM

Hình 4.4.2.2.c. Kết quả Ma trận nhầm lẫn của phương pháp Logistic Regression

Bài tiểu luận: Phân tích nhóm đối tượng chấp nhận khoản vay cá nhân của Thera Bank dựa trên các công cụ khoa học dữ liệu của phần mềm Orange

Bài tiểu luận phân tích nhóm khách hàng vay cá nhân Thera Bank bằng công cụ khoa học dữ liệu Orange; nghiên cứu sử dụng thuật toán phân cụm và phân lớp.

Chủ đề:

Tài liệu liên quan

Tài liêu mới

Xác nhận đăng nhập

Đăng nhập từ tài khoản này?

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi