Giới thiệu tài liệu
Tài liệu này giới thiệu về các bài toán phân lớp trong học máy, bao gồm phân lớp nhị phân, đa lớp, đa nhãn và đa đầu vào. Nó cũng trình bày các phương pháp đánh giá hiệu quả của mô hình phân lớp như ma trận nhầm lẫn, độ chính xác, độ phủ, độ đo F1 và đường cong ROC.
Đối tượng sử dụng
Sinh viên, nhà nghiên cứu trong lĩnh vực học máy và khai phá dữ liệu.
Nội dung tóm tắt
Chương này tập trung vào các bài toán phân lớp khác nhau và cách đánh giá hiệu quả của chúng. Đầu tiên, tài liệu giới thiệu bài toán phân lớp nhị phân, trong đó mục tiêu là phân loại dữ liệu vào một trong hai lớp. Tiếp theo, nó trình bày các phương pháp đánh giá hiệu quả của mô hình phân lớp, bao gồm ma trận nhầm lẫn, độ chính xác, độ phủ, độ đo F1 và đường cong ROC. Ma trận nhầm lẫn giúp hiểu rõ hơn về các loại lỗi mà mô hình mắc phải, trong khi độ chính xác, độ phủ và độ đo F1 cung cấp các số liệu tổng quan về hiệu suất của mô hình. Đường cong ROC cho phép đánh giá mô hình ở các ngưỡng phân loại khác nhau. Sau đó, tài liệu mở rộng sang các bài toán phân lớp phức tạp hơn, bao gồm phân lớp đa lớp (phân loại dữ liệu vào nhiều hơn hai lớp), phân lớp đa nhãn (gán nhiều nhãn cho mỗi điểm dữ liệu) và phân lớp đa đầu vào (dự đoán nhiều đầu ra cho mỗi điểm dữ liệu). Các kỹ thuật và ví dụ cụ thể được cung cấp để minh họa cách giải quyết các bài toán này. Cuối cùng, chương này cung cấp các bài tập thực hành để người đọc có thể áp dụng các kiến thức đã học vào thực tế, bao gồm việc sử dụng bộ dữ liệu MNIST và các thuật toán như SGD và Random Forest.