Giới thiệu tài liệu
Đồ án này tập trung vào việc phân tích và dự đoán khả năng tái phạm của tội phạm sử dụng bộ dữ liệu COMPAS. Mục tiêu là xây dựng các mô hình học máy để đánh giá rủi ro tái phạm, từ đó hỗ trợ các quyết định trong hệ thống tư pháp.
Đối tượng sử dụng
Sinh viên, nhà nghiên cứu trong lĩnh vực khoa học dữ liệu và học máy, những người quan tâm đến ứng dụng của học máy trong lĩnh vực tư pháp và xã hội.
Nội dung tóm tắt
Đồ án nghiên cứu về dự đoán khả năng tái phạm của tội phạm sử dụng bộ dữ liệu COMPAS, một vấn đề quan trọng trong hệ thống tư pháp. Nghiên cứu này bao gồm các bước phân tích và tiền xử lý dữ liệu, xây dựng và đánh giá các mô hình học máy khác nhau như K-Nearest Neighbors, Decision Tree, Random Forest và Gradient Boosting. Các thách thức như thiên vị trong dữ liệu và sự phụ thuộc tuyến tính giữa các đặc trưng cũng được xem xét. Phạm vi thực hiện bao gồm phân tích đơn biến và đa biến để hiểu rõ hơn về các yếu tố ảnh hưởng đến khả năng tái phạm. Kết quả cho thấy mô hình Gradient Boosting đạt hiệu suất tốt nhất. Hướng phát triển trong tương lai bao gồm việc sử dụng các kỹ thuật phân tích dữ liệu đa dạng hơn, xử lý ngoại lệ và kiểm định hiệu suất của nhiều mô hình khác nhau, cũng như làm sạch và tăng cường thu thập dữ liệu để cải thiện độ chính xác của mô hình.