Giới thiệu tài liệu
Tài liệu này giới thiệu về quá trình làm sạch và tiền xử lý dữ liệu, một bước quan trọng trong quy trình phân tích và xây dựng mô hình máy học. Tài liệu tập trung vào việc xác định và xử lý các ngoại lệ trong dữ liệu, cũng như giới thiệu về các công cụ hỗ trợ quá trình này.
Đối tượng sử dụng
Sinh viên, nhà nghiên cứu, và các chuyên gia trong lĩnh vực khoa học dữ liệu và máy học.
Nội dung tóm tắt
Tài liệu này trình bày chi tiết về quá trình làm sạch và tiền xử lý dữ liệu, bao gồm các bước xác định và xử lý ngoại lệ, xử lý dữ liệu thiếu, và chuẩn hóa dữ liệu. Các phương pháp phát hiện ngoại lệ được thảo luận, bao gồm phương pháp thống kê (dựa trên độ lệch chuẩn và IQR) và các thuật toán tự động (Local Outlier Factor, Isolation Forest, Elliptic Envelope, One-class SVM). Tài liệu cũng giới thiệu về EDA (Exploratory Data Analysis) và các kỹ thuật phân tích đơn biến, hai biến, và đa biến. Cuối cùng, tài liệu giới thiệu một số công cụ Automatic EDA như Cleanlab, Pandas Profiling, và Pandas AI, giúp tự động hóa quá trình khám phá và làm sạch dữ liệu.