1
ĐẠI HỌC UEH
TRƯỜNG KINH DOANH
KHOA TÀI CHÍNH
TIỂU LUẬN
BỘ MÔN KHOA HỌC DỮ LIỆU
Đề tài: Nghiên cu c d liu t khách hàng làm mục tiêu đánh giá
và d báo các khách hàng đã hoặc chưa đăng ký tin gi có k hn
Lp HP: 22C1INF50905942
GVHD: TS. Thái Kim Phng
Lê Nguyễn Hồng Linh
- 31211021630
Hoàng Gia Huy
- 31211022615
Trần Thị Ngọc Mai
- 31211021632
Vũ Minh Chiến
- 31211021615
Võ Ngọc Như Quỳnh
- 31211026876
TP Hồ Chí Minh, ngày 15 tháng 10 năm 2022
2
Mc lc
Danh mc bng biu ...................................................................................................... 4
Chương 1: Tổng quan.................................................................................................... 5
1.1 Tng quan v bài toán phân lp d liu ............................................................. 5
1.2 Gii thiu v Python và phn mm Orange ........................................................ 6
1.2.1 Python .......................................................................................................... 7
1.2.2 Phn mm Orange ....................................................................................... 7
1.3 Lý do la chọn đề tài ............................................................................................ 7
Chương 2: Các hình phân tích d liu ................................................................... 9
2.1 Khai phá d liu .................................................................................................... 9
2.1.1 Khai phá d liu là gì .................................................................................. 9
2.1.2 Các tính năng chính ca khai phá d liu ................................................... 9
2.1.3 Quy trình khai phá d liu .......................................................................... 9
2.1.4 Phương pháp khai phá dữ liu .................................................................. 11
2.1.5 ng dng ca khai phá d liu trong đời sng ........................................ 12
2.1.6 Công c khai phá d liu đưc s dng trong bài nghiên cu................. 12
2.2 Các mô hình phân lp d liu ........................................................................... 12
2.2.1 Mô hình Logistic ....................................................................................... 13
2.2.2 Mô hình Decision Tree ............................................................................. 14
2.2.3 Mô hình Support Vector Machine .......................................................... 15
2.2.4 Mô Hình Neural Network ......................................................................... 16
2.3 Quy trình phân lp d liu ................................................................................ 16
2.3.1 Phân lp d liu ......................................................................................... 16
2.3.2 Đánh giá tính hiệu qu .............................................................................. 19
Chương 3: Các kết qu thc nghim .......................................................................... 22
3.1 B d liu ..................................................................................................... 22
3.2 Các kết qu thc nghim ............................................................................. 22
3.3 Phân tích và đánh giá .................................................................................. 25
Chương 4: Kết lun ..................................................................................................... 30
3
4.1 Các kết qu đạt được .................................................................................. 30
4.2 Nhng hn chế và gii pháp ....................................................................... 31
Tài liu tham kho ....................................................................................................... 33
4
DANH MC BNG BIU - HÌNH V VÀ BIU ĐỒ.
Hình 1 Quá trình phân lp d liu
Hình 2.1 Quy trình khai phá d liu
Biu thc 2.1 Công thc tính của Phương pháp hồi quy Logistic
Hình 2.2 Mô hình phân lp nh phân - s dụng phương pháp hồi quy logistic
Hình 2.3 Mô hình Cây quyết định
Hình 2.4 Minh ha Margin và support vector
Hình 2.5 Mô hình phân lp đã được hun luyn
Hình 2.6.1 Mô hình s đưc s dụng để phân lp nhng d liu cn thiết trong tương
lai
Hình 2.6.2 Mô hình s đưc s dụng để phân lp nhng d liu cn thiết trong tương
lai
Bng 3.1 D liu các biến nghiên cu
Hình 3.1 Các thuc tính ca d liu d báo
Hình 3.2 Mô t tng quan quá trình hun luyn vào d báo
Hình 3.3 Kết qu đánh giá mô hình bằng phương pháp K - fold
Hình 3.4 Ma trn nhm ln ca thut toán Neural Network
Hình 3.5 Ma trn nhm ln ca thut toán Decision Tree
Hình 3.6 Ma trn nhm ln ca thut toán SVM
Bng 3.2 Kết qu d đoán ca 4 thut toán b d liu Test (41 đối tượng kho sát
đầu tiên)
5
CHƯƠNG 1. TỔNG QUAN
1.1. Tổng Quan Về Bài Toán Phân Lớp Dữ Liệu
Phân lớp dữ liệu quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp (loại)
đã cho trước nhờ một mô hình phân lớp.hình này được xây dựng dựa trên một tập dữ
liệu đã được gán nhãn trước đó (thuộc về lớp nào). Quá trình gán nhãn (thuộc lớp nào) cho
đối tượng dữ liệu chính là quá trình phân lớp dữ liệu.
Hình 1: Quá trình phân lớp dữ liệu
Quá trình phân lớp dữ liệu gm 2 bước chính:
- Bước 1: Xây dựng mô hình (hay còn gọi là giai đoạn “học” hoặc “huấn luyện”)
- Bước 2: Sử dụng mô hình chia thành 2 bước nhỏ:
· Bước 2.1: Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)
· Bước 2.2: Phân lớp dữ liệu mới