ĐẠI HỌC UEH
TRƯỜNG KINH DOANH
KHOA TÀI CHÍNH
TIỂU LUẬN
BỘ MÔN KHOA HỌC DỮ LIỆU
Đề tài: Nghiên cứu và ứng dụng các phương pháp khai
thác dữ liệu để dự đoán thói quen sử dụng thẻ Tín dụng
của người dân Ấn Độ
Giảng viên hướng dẫn: Trương Việt Phương
Mã học phần: 22C1INF50905934
Lớp: FNC05
Khoá: K47
Thành viên nhóm: Nguyễn Thanh An 31211021183
Phạm Nguyễn Nhã Hân 31211025069
Nguyễn Thanh Thảo Nguyên 31211026026
Tôn Nữ Quỳnh Vy 31211021552
Nguyễn Thuý Hà 31211024967
BẢNG PHÂN CÔNG VÀ TỈ LỆ ĐÓNG GÓP CỦA NHÓM SINH VIÊN
Họ và tên thành
viên MSSV Phân công nhiệm vụ Tỉ lệ tham gia
đóng góp
Nguyễn Thanh An 31211021183
- Phân chia công việc.
- Tạo nội dung sườn
bài, timeline.
- Chạy và phân tích
Orange.
100%
Phạm Nguyễn Nhã
Hân 31211025069
- Chạy và phân tích
Orange.
- Chỉnh sửa bài nộp
100%
Nguyễn Thanh Thảo
Nguyên 31211026026
- Tìm và tổng hợp nội
dung theo chủ đề được
giao.
100%
Tôn Nữ Quỳnh Vy 31211021552
- Tìm và tổng hợp nội
dung theo chủ đề được
giao.
- Chỉnh sửa nội dung.
100%
Nguyễn Thuý Hà 31211024967
-Tìm và tổng hợp nội
dung theo chủ đề được
giao.
- Chỉnh sửa nội dung.
100%
1
MỤC LỤC
BẢNG PHÂN CÔNG VÀ TỈ LỆ ĐÓNG GÓP CỦA NHÓM SINH VIÊN...........................................1
DANH MỤC HÌNH ẢNH.........................................................................................................................4
LỜI MỞ ĐẦU............................................................................................................................................6
Chương I: Tổng Quan Data Science........................................................................................................7
1.1. Data Science là gì?.....................................................................................................................7
1.2. Vai trò của Data Science............................................................................................................7
1.3. Ứng dụng của Data Science trong tài chính – ngân hàng...........................................................8
Chương II: Giới Thiệu Đề Tài..................................................................................................................9
2.1. Đặt vấn đề..................................................................................................................................9
2.2. Mục tiêu nghiên cứu.................................................................................................................10
2.3. Đối tượng nghiên cứu và phạm vi nghiên cứu..........................................................................10
2.1.1. Đối tượng nghiên cứu..........................................................................................................10
2.1.2. Phạm vi nghiên cứu..............................................................................................................10
2.4. Phương pháp nghiên cứu..........................................................................................................10
2.5. Mô tả Thuộc tính dữ liệu.....................................................................................................11
Chương III: Phân Tích Đề Tài Qua Các Thuật Toán Trên Orange....................................................12
3.1. Tiền xử lí dữ liệu......................................................................................................................12
3.1.1. Chọn “Role” cho các thuộc tính..........................................................................................12
3.1.2. Xử lí “Missing Values” trong bộ dữ liệu..............................................................................13
3.2.1. Xây dựng mô hình................................................................................................................14
3.2.2. Đánh giá các mô hình..........................................................................................................14
3.2.3. Kết quả sau khi phân cụm....................................................................................................22
3.3. Phân lớp dữ liệu.......................................................................................................................23
3.3.1. Xây dụng mô hình................................................................................................................23
3.3.2. Đánh giá các mô hình..........................................................................................................23
3.4. Dự báo về loại Credit Card mà người dân Ấn Độ sẽ sử dụng để giao dịch...............................27
3.4.1. Trích dữ liệu.........................................................................................................................27
3.4.2. Dự báo.................................................................................................................................29
Chương IV: Kết Luận Và Dự Báo Sự Phát Triển Của Ngành Tín Dụng Ở Ấn Độ............................31
4.1. Kết luận....................................................................................................................................31
4.2. Dự báo về sự phát triẻn của ngành tín dụng ở Ấn Độ...............................................................32
Tài Liệu Tham Khảo...............................................................................................................................33
2
3
Hình 3.1.1.a: Type và Role của các thuộc tính
Hình 3.1.1.b: Role của các thuộc tính sau khi xử lí
Hình 3.1.2.a: Mô hình quan sát dữ liệu
Hình 3.1.2.b: Bảng biểu dữ liệu
Hình 3.2.1: Mô hình so sánh các thuật toán phân cụm
Hình 3.2.2.a: Các bước phân cụm bằng phương pháp Hierarchical Clustering
Hình 3.2.2.b: Kết quả phân cụm bằng Average-linkage
Hình 3.2.2.c: Bảng Silhouette Plot cho 2 phân cụm phân cấp bằng Average-linkage
Hình 3.2.2.d: Bảng Silhouette Plot cho 2 phân cụm phân cấp bằng Average-linkage
Hình 3.2.2.e: Kết quả phân cụm bằng Complete-linkage
Hình 3.2.2.f: Bảng Silhouette Plot cho 2 phân cụm phân cấp bằng Complete-linkage
Hình 3.2.2.g: Bảng Silhouette Plot cho 2 phân cụm phân cấp bằng Complete-linkage
Hình 3.2.2.h: Các bước phân cụm bằng phương pháp k-Means
Hình 3.2.2.i: Phân tích k-Means cho bộ dữ liệu
Hình 3.2.2.j: Bảng Silhouette Plot cho 2 phân cụm k-Means
Hình 3.2.2.k: Bảng Silhouette Plot cho 2 phân cụm k-Means
Hình 3.2.3.a: Kết quả phân cụm theo phương pháp Hierarchical Clustering
Hình 3.2.3.b: Kết quả phân cụm theo phương pháp k-Means
Hình 3.3.1: Lựa chọn mô hình phân lớp phù hợp
Hình 3.3.2.a: Kết quả khi chia mẫu dữ liệu với K-fold với k=20
Hình 3.3.2.b: Kết quả khi lấy ngẫu nhiên mẫu dữ liệu với sự lặp lại là 20 và kích
thước 66%
4
DANH MỤC HÌNH ẢNH