Giới thiệu tài liệu
Tài liệu này giới thiệu hai nhánh chính của học máy: Học có giám sát và Học không giám sát, cùng các thuật toán cơ bản và ứng dụng của chúng trong mỗi lĩnh vực.
Đối tượng sử dụng
Sinh viên, nhà nghiên cứu và những người thực hành trong lĩnh vực học máy, trí tuệ nhân tạo và khoa học dữ liệu, muốn tìm hiểu các thuật toán cơ bản về học có giám sát và không giám sát, từ lý thuyết đến ứng dụng thực tế.
Nội dung tóm tắt
Tài liệu này bắt đầu với Học có giám sát, định nghĩa mục tiêu là dự đoán đầu ra từ dữ liệu đã gán nhãn, và giới thiệu hai loại bài toán chính: Phân loại (dành cho đầu ra rời rạc) và Hồi quy (dành cho đầu ra liên tục). Phần Hồi quy tuyến tính đi sâu vào mô hình, các giả định cơ bản, cách tìm nghiệm tối ưu thông qua Phương trình chuẩn (Normal Equation) và thuật toán Gradient Descent, đồng thời chỉ ra những hạn chế của phương pháp này. Tiếp theo, thuật toán Perceptron được trình bày như một trong những mô hình học máy đầu tiên, dựa trên cấu trúc nơ-ron McCulloch & Pitts, tập trung vào khái niệm phân tách tuyến tính của dữ liệu và giải thuật huấn luyện của nó. Kế đến, Hồi quy Logistic được giới thiệu như một phương pháp mạnh mẽ cho các bài toán phân loại nhị phân và đa lớp (đa thức, thứ tự), với ví dụ và ứng dụng thực tế trong nhiều lĩnh vực như tài chính, y tế, sản xuất và tiếp thị, cùng ưu điểm về tính đơn giản, tốc độ và khả năng hiển thị. Phần thứ hai của tài liệu chuyển sang Học không giám sát, nơi dữ liệu không có nhãn và mục tiêu là khám phá cấu trúc ẩn hoặc mối quan hệ nội tại trong dữ liệu. Trọng tâm là Phân cụm (Clustering), giải thích các phương pháp gom nhóm dữ liệu dựa trên độ tương đồng. Các phương pháp tính khoảng cách khác nhau (Euclidean, Jaccard, v.v.) được trình bày chi tiết. Cuối cùng, hai thuật toán phân cụm phổ biến là Phân cụm phân cấp (Hierarchical Clustering) với hai tiếp cận Agglomerative và Divisive (tạo ra cây phân cấp dendrogram) và thuật toán K-Means (một quy trình lặp dựa trên việc gán điểm dữ liệu vào các tâm cụm và cập nhật tâm cụm) được phân tích kỹ lưỡng về giải thuật, ưu nhược điểm và ứng dụng.