Giới thiệu tài liệu
Bài thuyết trình này trình bày về dự án dự đoán khả năng phê duyệt khoản vay, một vấn đề quan trọng trong lĩnh vực tài chính và quản lý rủi ro tín dụng. Mục tiêu chính là xây dựng một mô hình có khả năng dự đoán chính xác liệu một khách hàng có khả năng trả nợ hay không, dựa trên các thông tin cá nhân và tài chính của họ.
Đối tượng sử dụng
Sinh viên và nhà nghiên cứu quan tâm đến lĩnh vực khai thác dữ liệu, học máy và ứng dụng trong tài chính, đặc biệt là dự đoán rủi ro tín dụng và phê duyệt khoản vay.
Nội dung tóm tắt
Dự án tập trung vào việc xây dựng và đánh giá các mô hình học máy để dự đoán khả năng phê duyệt khoản vay. Dữ liệu được sử dụng bao gồm thông tin cá nhân của khách hàng, lịch sử tín dụng, thu nhập và các khoản vay hiện tại. Các mô hình được áp dụng bao gồm XGBoost, CatBoost và LightGBM, là những thuật toán mạnh mẽ trong việc xử lý dữ liệu dạng bảng và có khả năng xử lý sự mất cân bằng lớp. Quá trình tiền xử lý dữ liệu bao gồm xử lý các giá trị thiếu và chuyển đổi các biến số. Kết quả cho thấy các mô hình Boosting và Voting Ensembles có tiềm năng lớn trong việc dự đoán kết quả phê duyệt khoản vay. Các thử nghiệm được thực hiện để đánh giá hiệu suất của các mô hình khác nhau, sử dụng các độ đo như AUC-ROC. Ma trận tương quan cũng được sử dụng để hiểu rõ hơn về mối quan hệ giữa các biến số trong dữ liệu. Các kết quả cho thấy sự phân phối của 'loan_status' cho thấy sự mất cân bằng, đó là lý do tại sao chúng tôi sử dụng các mô hình như CatBoost, XGBoost,... Bên cạnh đó, các thuật toán dựa trên Gradient Boosting có hiệu quả trong việc xử lý các tập dữ liệu không cân bằng.