intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Học máy: Bài 3 - Nguyễn Hoàng Long

Chia sẻ: Minh Vũ | Ngày: | Loại File: PDF | Số trang:0

20
lượt xem
2
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng "Học máy - Bài 3: Kỹ thuật kiểm tra chéo, hiệu chỉnh mô hình, mô hình thưa" cung cấp cho người học các kiến thức: Các giải thuật học máy, hàm tổn thất, kỹ thuật kiểm tra chéo, mô hình có điều chỉnh,... Mời các bạn cùng tham khảo.

Chủ đề:
Lưu

Nội dung Text: Bài giảng Học máy: Bài 3 - Nguyễn Hoàng Long

  1. Kỹ thuật kiểm tra chéo, hiệu chỉnh mô hình, mô hình thưa Nguyễn Thanh Tùng Khoa Công nghệ thông tin – Đại học Thủy Lợi tungnt@tlu.edu.vn Website môn học: https://sites.google.com/a/wru.vn/cse445spring2016/ Bài giảng có sử dụng hình vẽ trong cuốn sách “An Introduction to Statistical Learning with Applications in R” với sự cho phép của tác giả, có sử dụng slides các khóa học CME250 của ĐH Stanford và IOM530 của ĐH Southern California CSE 445: Học máy | Học kỳ 1, 2016-2017 1
  2. Các dạng giải thuật Học máy Do you have labeled data? Yes No Supervised Unsupervised What do you want to predict? Do you want to group the data? Category Quantity Yes No Classification Regression Cluster Dimensionality Analysis Reduction SVM KNN CART LASSO Logistic Linear K-means Regression Regression ICA PCA CSE 445: Học máy | Học kỳ 1, 2016-2017 2
  3. Nhắc lại Hồi quy tuyến tính đơn giản Figure 3.1 , ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 3
  4. Nhắc lại Bình phương nhỏ nhất • Sử dụng phương pháp bình phương nhỏ nhất để đo lường độ xấp xỉ của mô hình áp dụng trên dữ liệu • Phần dư (Residual): sai số giữa giá trị quan sát được và giá trị dự đoán. (i) = (i) ˆ (i) • Tổng phần dư bình phương-Residual sum of squares (RSS): 2 2 = (1) (2) (n) 2 + + ⋯+ • Lỗi bình phương trung bình-Mean squared error (MSE): CSE 445: Học máy | Học kỳ 1, 2016-2017 4
  5. Hàm tổn thất Loss Functions CSE 445: Học máy | Học kỳ 1, 2016-2017 5
  6. Loss Functions L(θi ,θˆi ) CSE 445: Học máy | Học kỳ 1, 2016-2017 6
  7. Loss Functions L(θi ,θˆi ) Lỗi bình phương (Squared error) θ − ∑ i i ( θˆ ) 2 i Lỗi tuyệt đối (Absolute error) ∑ θ − θˆ i i i Lỗi điều hướng (Indicator error) ∑ I(θ ≠ θˆ ) i i i CSE 445: Học máy | Học kỳ 1, 2016-2017 7
  8. Học máy chỉ để giải 1 vấn đề CSE 445: Học máy | Học kỳ 1, 2016-2017 8
  9. Kỹ thuật kiểm tra chéo Cross-validation CSE 445: Học máy | Học kỳ 1, 2016-2017 9
  10. Kỹ thuật kiểm tra chéo “Dùng lỗi trên tập dữ liệu kiểm thử để ước lượng lỗi dự đoán” err = E[L(Y, fˆ(X))] CSE 445: Học máy | Học kỳ 1, 2016-2017 10
  11. Kỹ thuật kiểm tra chéo Tập huấn luyện-Training Set Tập kiểm thử-Test Set Tập kiểm chứng-Validation Set Training Data Testing Data CSE 445: Học máy | Học kỳ 1, 2016-2017 11
  12. Kỹ thuật kiểm tra chéo K--fold Vídụ5--fold Hastie, Trevor, et al. The elements of statistical learning. Vol. 2. No. 1. New York: Springer, 2009. 10 CSE 445: Học máy | Học kỳ 1, 2016-2017 12
  13. Kỹ thuật kiểm tra chéo 5-fold và 10-fold thường được ưa dùng (lỗi bias cao, phương sai thấp) CSE 445: Học máy | Học kỳ 1, 2016-2017 13
  14. Kỹ thuật kiểm tra chéo N-fold gọi là kỹ thuật kiểm tra chéo “leave one out-LOOCV” (lỗi bias thấp, phương sai cao) CSE 445: Học máy | Học kỳ 1, 2016-2017 14
  15. Kỹ thuật kiểm tra chéo • Dùng để ước lượng lỗi dự đoán • Dùng để chọn các giá trị tham số phù hợp cho mô hình (vd: tham số k trong k--láng giềng gần nhất) CSE 445: Học máy | Học kỳ 1, 2016-2017 15
  16. Auto Data: LOOCV vs. K-fold CV Hình trái: Sai số LOOCV Hình phải: 10-fold CV được chạy nhiều lần, đồ thị biểu diễn sai khác nhỏ về lỗi CV LOOCV là trường hợp đặc biệt của k-fold, khi k = n Cả hai đều ổn định, tuy nhiên LOOCV mất nhiều thời gian tính toán hơn! CSE 445: Học máy | Học kỳ 1, 2016-2017 16
  17. Thách thức: Overfitting • Overfitting: Kết quả tốt trên tập huấn luyện nhưng cho kết quả kém trên tập kiểm thử Figures 2.4 and 2.6 ,ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 17
  18. Overfitting Sai số trên tập kiểm thử “With four parameters I can fit an elephant, and with five I can make him wiggle his trunk” Sai số trên tập huấn --John von Neumann according to Enrico Fermi luyện Figure2.9 , ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 18
  19. Kỹ thuật kiểm tra chéo (đường cong của hàm học) Ta cần thêm biến (mô hình mới) hoặc thêm dữ liệu? CSE 445: Học máy | Học kỳ 1, 2016-2017 19
  20. Mô hình có điều chỉnh CSE 445: Học máy | Học kỳ 1, 2016-2017 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2