intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Học máy: Bài 2 - Nguyễn Hoàng Long

Chia sẻ: Minh Vũ | Ngày: | Loại File: PDF | Số trang:0

29
lượt xem
3
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng "Học máy - Bài 2: Học có giám sát" cung cấp cho người học các kiến thức: Giải thuật phân lớp đơn giản, lựa chọn K, giải thuật học máy tốt nhất, chuẩn bị dữ liệu, giới thiệu về học có giám sát, phân lớp và hồi quy,... Mời các bạn cùng tham khảo.

Chủ đề:
Lưu

Nội dung Text: Bài giảng Học máy: Bài 2 - Nguyễn Hoàng Long

  1. Học có giám sát Nguyễn Thanh Tùng Khoa Công nghệ thông tin – Đại học Thủy Lợi tungnt@tlu.edu.vn Website môn học: https://sites.google.com/a/wru.vn/cse445fall2016 Bài giảng có sử dụng hình vẽ trong cuốn sách “An Introduction to Statistical Learning with Applications in R” với sự cho phép của tác giả, có sử dụng slides các khóa học CME250 của ĐH Stanford và IOM530 của ĐH Southern California CSE 445: Học máy | Học kỳ 1, 2016-2017 1
  2. Giải thuật phân lớp đơn giản (nhắc lại Bài 1) CSE 445: Học máy | Học kỳ 1, 2016-2017 2
  3. K-Nearest Neighbor classifier (KNN) • Ý tưởng: phân lớp các mẫu dựa trên “hàng xóm” các mẫu đã biết nhãn CSE 445: Học máy | Học kỳ 1, 2016-2017 3
  4. K-Nearest Neighbor classifier (KNN) • Bộ phân lớp: Chia không gian thuộc tính thành nhiều vùng – Mỗi vùng được gắn với 1 nhãn lớp (class label) – Ranh giới quyết định chia tách các vùng quyết định • Các phương pháp phân lớp xây dựng mô hình có dạng: CSE 445: Học máy | Học kỳ 1, 2016-2017 4
  5. K-Nearest Neighbor classifier (KNN) • Bộ phân lớp KNN – Việc dự đoán lớp cho mẫu X là lớp phổ biến nhất giữa K láng giềng gần nhất (trong tập học) – Mô hình phân lớp: CSE 445: Học máy | Học kỳ 1, 2016-2017 5
  6. K-Nearest Neighbor classifier (KNN) Figure 2.14, ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 6
  7. Lựa chọn K (bộ phân lớp KNN) • K nhỏ – Ranh giới quyết định linh hoạt hơn, tuy nhiên dễ bị overfit • K lớn – Ranh giới quyết định ít linh hoạt nhưng ít bị overfit • Overfitting: Cho kết quả tốt trên tập học nhưng kém trên tập thử nghiệm CSE 445: Học máy | Học kỳ 1, 2016-2017 7
  8. Lựa chọn K (bộ phân lớp KNN) Figure 2.16, ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 8
  9. Lựa chọn K (bộ phân lớp KNN) Tại sao lỗi huấn luyện (trên dữ liệu học) tăng cùng K? Tại sao lỗi kiểm thử lại khác? Figure 2.17, ISL 2013 Tăng K, tăng sự linh hoạt CSE 445: Học máy | Học kỳ 1, 2016-2017 9
  10. Lựa chọn K (bộ phân lớp KNN) Figure 2.15, ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 10
  11. Câu đố: • Bộ phân lớp KNN là tham số hay phi tham số? – Nhắc lại: Kỹ thuật tham số phải đặt các giả định của mô hình về dữ liệu (chẳng hạn, dữ liệu theo xu hướng tuyến tính; dữ liệu tuân theo phân bố chuẩn) • Liệu ta có thể dùng kỹ thuật KNN dự đoán một giá trị số thay cho giá trị định danh (i.e. “KNN hồi quy”)? CSE 445: Học máy | Học kỳ 1, 2016-2017 11
  12. Các dạng giải thuật học máy Do you have labeled data? Yes No Supervised Unsupervised What do you want to predict? Do you want to group the data? Category Quantity Yes No Classification Regression Cluster Dimensionality Analysis Reduction SVM KNN CART LASSO Logistic Linear K-means Regression Regression ICA PCA CSE 445: Học máy | Học kỳ 1, 2016-2017 12
  13. Giải thuật Học máy “Tốt nhất” • Tin tồi: Không có giải thuật nào tốt nhất – Không có giải thuật học máy nào thực hiện tốt cho mọi bài toán • Tin tốt: Tất cả các giải thuật học máy đều tốt – Mỗi giải thuật học máy thực hiện tốt cho một số bài toán • Định lý “No free lunch” – Wolpert (1996): các giải thuật thực hiện như nhau khi ta lấy trung bình kết quả chúng thực hiện trên tất cả các bài toán CSE 445: Học máy | Học kỳ 1, 2016-2017 13
  14. Trade-offs (đánh đổi) trong Học máy • Độ lệch vs. Phương sai • Độ chính xác vs. Khả năng diễn giải (một tính chất của mô hình về khả năng thấy được mối quan hệ giữa các biến) • Độ chính xác vs. Khả năng mở rộng giải thuật • Phạm vi kiến thức vs. Hướng dữ liệu • Nhiều dữ liệu vs. Giải thuật tốt hơn CSE 445: Học máy | Học kỳ 1, 2016-2017 14
  15. Chuẩn bị dữ liệu • Các giải thuật học máy cần phải có dữ liệu! • Tiền xử lý dữ liệu để chuyển đổi dữ liệu trước khi áp dụng vào giải thuật học máy – Lấy mẫu: chọn tập con các quan sát/mẫu – Trích chọn thuộc tính: Chọn các biến đầu vào – Chuẩn hóa dữ liệu (Normalization) (standardization, scaling, binarization) – Xử lý dữ liệu thiếu và phần tử ngoại lai (missing data and outliers) • Ngoài ra, còn phụ thuộc vào giải thuật học máy – Cây quyết định có thể xử lý dữ liệu thiếu/phần tử ngoại lai – PCA yêu cầu dữ liệu đã được chuẩn hóa CSE 445: Học máy | Học kỳ 1, 2016-2017 15
  16. Các câu hỏi? CSE 445: Học máy | Học kỳ 1, 2016-2017 16
  17. Giới thiệu về Học có giám sát CSE 445: Học máy | Học kỳ 1, 2016-2017 17
  18. Học giám sát • Xét: • Các phương pháp học giám sát: – Học bởi các ví dụ (quan sát)-“Learn by example” – Xây dựng mô hình sử dụng tập các quan sát đã được gắn nhãn CSE 445: Học máy | Học kỳ 1, 2016-2017 18
  19. Dữ liệu học Class “A” Class “B” ? CSE 445: Học máy | Học kỳ 1, 2016-2017 19
  20. Dữ liệu học Figure 2.2 , ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2