
1
ĐẠI HỌC UEH
TRƯỜNG KINH DOANH
KHOA TÀI CHÍNH
TIỂU LUẬN
BỘ MÔN KHOA HỌC DỮ LIỆU
Đề tài: Nghiên cứu các dữ liệu từ khách hàng làm mục tiêu đánh giá
và dự báo các khách hàng đã hoặc chưa đăng ký tiền gửi có kỳ hạn
Lớp HP: 22C1INF50905942
GVHD: TS. Thái Kim Phụng
Lê Nguyễn Hồng Linh
- 31211021630
Hoàng Gia Huy
- 31211022615
Trần Thị Ngọc Mai
- 31211021632
Vũ Minh Chiến
- 31211021615
Võ Ngọc Như Quỳnh
- 31211026876
TP Hồ Chí Minh, ngày 15 tháng 10 năm 2022

2
Mục lục
Danh mục bảng biểu ...................................................................................................... 4
Chương 1: Tổng quan.................................................................................................... 5
1.1 Tổng quan về bài toán phân lớp dữ liệu ............................................................. 5
1.2 Giới thiệu về Python và phần mềm Orange ........................................................ 6
1.2.1 Python .......................................................................................................... 7
1.2.2 Phần mềm Orange ....................................................................................... 7
1.3 Lý do lựa chọn đề tài ............................................................................................ 7
Chương 2: Các mô hình phân tích dữ liệu ................................................................... 9
2.1 Khai phá dữ liệu .................................................................................................... 9
2.1.1 Khai phá dữ liệu là gì .................................................................................. 9
2.1.2 Các tính năng chính của khai phá dữ liệu ................................................... 9
2.1.3 Quy trình khai phá dữ liệu .......................................................................... 9
2.1.4 Phương pháp khai phá dữ liệu .................................................................. 11
2.1.5 Ứng dụng của khai phá dữ liệu trong đời sống ........................................ 12
2.1.6 Công cụ khai phá dữ liệu được sử dụng trong bài nghiên cứu................. 12
2.2 Các mô hình phân lớp dữ liệu ........................................................................... 12
2.2.1 Mô hình Logistic ....................................................................................... 13
2.2.2 Mô hình Decision Tree ............................................................................. 14
2.2.3 Mô hình Support Vector Machine .......................................................... 15
2.2.4 Mô Hình Neural Network ......................................................................... 16
2.3 Quy trình phân lớp dữ liệu ................................................................................ 16
2.3.1 Phân lớp dữ liệu ......................................................................................... 16
2.3.2 Đánh giá tính hiệu quả .............................................................................. 19
Chương 3: Các kết quả thực nghiệm .......................................................................... 22
3.1 Bộ dữ liệu ..................................................................................................... 22
3.2 Các kết quả thực nghiệm ............................................................................. 22
3.3 Phân tích và đánh giá .................................................................................. 25
Chương 4: Kết luận ..................................................................................................... 30

3
4.1 Các kết quả đạt được .................................................................................. 30
4.2 Những hạn chế và giải pháp ....................................................................... 31
Tài liệu tham khảo ....................................................................................................... 33

4
DANH MỤC BẢNG BIỂU - HÌNH VẼ VÀ BIỂU ĐỒ.
Hình 1 Quá trình phân lớp dữ liệu
Hình 2.1 Quy trình khai phá dữ liệu
Biểu thức 2.1 Công thức tính của Phương pháp hồi quy Logistic
Hình 2.2 Mô hình phân lớp nhị phân - sử dụng phương pháp hồi quy logistic
Hình 2.3 Mô hình Cây quyết định
Hình 2.4 Minh họa Margin và support vector
Hình 2.5 Mô hình phân lớp đã được huấn luyện
Hình 2.6.1 Mô hình sẽ được sử dụng để phân lớp những dữ liệu cần thiết trong tương
lai
Hình 2.6.2 Mô hình sẽ được sử dụng để phân lớp những dữ liệu cần thiết trong tương
lai
Bảng 3.1 Dữ liệu các biến nghiên cứu
Hình 3.1 Các thuộc tính của dữ liệu dự báo
Hình 3.2 Mô tả tổng quan quá trình huấn luyện vào dự báo
Hình 3.3 Kết quả đánh giá mô hình bằng phương pháp K - fold
Hình 3.4 Ma trận nhầm lẫn của thuật toán Neural Network
Hình 3.5 Ma trận nhầm lẫn của thuật toán Decision Tree
Hình 3.6 Ma trận nhầm lẫn của thuật toán SVM
Bảng 3.2 Kết quả dự đoán của 4 thuật toán ở bộ dữ liệu Test (41 đối tượng khảo sát
đầu tiên)

5
CHƯƠNG 1. TỔNG QUAN
1.1. Tổng Quan Về Bài Toán Phân Lớp Dữ Liệu
Phân lớp dữ liệu là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp (loại)
đã cho trước nhờ một mô hình phân lớp. Mô hình này được xây dựng dựa trên một tập dữ
liệu đã được gán nhãn trước đó (thuộc về lớp nào). Quá trình gán nhãn (thuộc lớp nào) cho
đối tượng dữ liệu chính là quá trình phân lớp dữ liệu.
Hình 1: Quá trình phân lớp dữ liệu
Quá trình phân lớp dữ liệu gồm 2 bước chính:
- Bước 1: Xây dựng mô hình (hay còn gọi là giai đoạn “học” hoặc “huấn luyện”)
- Bước 2: Sử dụng mô hình chia thành 2 bước nhỏ:
· Bước 2.1: Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)
· Bước 2.2: Phân lớp dữ liệu mới

