Bài giảng Học máy: Bài 2 - Nguyễn Hoàng Long
lượt xem 3
download
Bài giảng "Học máy - Bài 2: Học có giám sát" cung cấp cho người học các kiến thức: Giải thuật phân lớp đơn giản, lựa chọn K, giải thuật học máy tốt nhất, chuẩn bị dữ liệu, giới thiệu về học có giám sát, phân lớp và hồi quy,... Mời các bạn cùng tham khảo.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Học máy: Bài 2 - Nguyễn Hoàng Long
- Học có giám sát Nguyễn Thanh Tùng Khoa Công nghệ thông tin – Đại học Thủy Lợi tungnt@tlu.edu.vn Website môn học: https://sites.google.com/a/wru.vn/cse445fall2016 Bài giảng có sử dụng hình vẽ trong cuốn sách “An Introduction to Statistical Learning with Applications in R” với sự cho phép của tác giả, có sử dụng slides các khóa học CME250 của ĐH Stanford và IOM530 của ĐH Southern California CSE 445: Học máy | Học kỳ 1, 2016-2017 1
- Giải thuật phân lớp đơn giản (nhắc lại Bài 1) CSE 445: Học máy | Học kỳ 1, 2016-2017 2
- K-Nearest Neighbor classifier (KNN) • Ý tưởng: phân lớp các mẫu dựa trên “hàng xóm” các mẫu đã biết nhãn CSE 445: Học máy | Học kỳ 1, 2016-2017 3
- K-Nearest Neighbor classifier (KNN) • Bộ phân lớp: Chia không gian thuộc tính thành nhiều vùng – Mỗi vùng được gắn với 1 nhãn lớp (class label) – Ranh giới quyết định chia tách các vùng quyết định • Các phương pháp phân lớp xây dựng mô hình có dạng: CSE 445: Học máy | Học kỳ 1, 2016-2017 4
- K-Nearest Neighbor classifier (KNN) • Bộ phân lớp KNN – Việc dự đoán lớp cho mẫu X là lớp phổ biến nhất giữa K láng giềng gần nhất (trong tập học) – Mô hình phân lớp: CSE 445: Học máy | Học kỳ 1, 2016-2017 5
- K-Nearest Neighbor classifier (KNN) Figure 2.14, ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 6
- Lựa chọn K (bộ phân lớp KNN) • K nhỏ – Ranh giới quyết định linh hoạt hơn, tuy nhiên dễ bị overfit • K lớn – Ranh giới quyết định ít linh hoạt nhưng ít bị overfit • Overfitting: Cho kết quả tốt trên tập học nhưng kém trên tập thử nghiệm CSE 445: Học máy | Học kỳ 1, 2016-2017 7
- Lựa chọn K (bộ phân lớp KNN) Figure 2.16, ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 8
- Lựa chọn K (bộ phân lớp KNN) Tại sao lỗi huấn luyện (trên dữ liệu học) tăng cùng K? Tại sao lỗi kiểm thử lại khác? Figure 2.17, ISL 2013 Tăng K, tăng sự linh hoạt CSE 445: Học máy | Học kỳ 1, 2016-2017 9
- Lựa chọn K (bộ phân lớp KNN) Figure 2.15, ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 10
- Câu đố: • Bộ phân lớp KNN là tham số hay phi tham số? – Nhắc lại: Kỹ thuật tham số phải đặt các giả định của mô hình về dữ liệu (chẳng hạn, dữ liệu theo xu hướng tuyến tính; dữ liệu tuân theo phân bố chuẩn) • Liệu ta có thể dùng kỹ thuật KNN dự đoán một giá trị số thay cho giá trị định danh (i.e. “KNN hồi quy”)? CSE 445: Học máy | Học kỳ 1, 2016-2017 11
- Các dạng giải thuật học máy Do you have labeled data? Yes No Supervised Unsupervised What do you want to predict? Do you want to group the data? Category Quantity Yes No Classification Regression Cluster Dimensionality Analysis Reduction SVM KNN CART LASSO Logistic Linear K-means Regression Regression ICA PCA CSE 445: Học máy | Học kỳ 1, 2016-2017 12
- Giải thuật Học máy “Tốt nhất” • Tin tồi: Không có giải thuật nào tốt nhất – Không có giải thuật học máy nào thực hiện tốt cho mọi bài toán • Tin tốt: Tất cả các giải thuật học máy đều tốt – Mỗi giải thuật học máy thực hiện tốt cho một số bài toán • Định lý “No free lunch” – Wolpert (1996): các giải thuật thực hiện như nhau khi ta lấy trung bình kết quả chúng thực hiện trên tất cả các bài toán CSE 445: Học máy | Học kỳ 1, 2016-2017 13
- Trade-offs (đánh đổi) trong Học máy • Độ lệch vs. Phương sai • Độ chính xác vs. Khả năng diễn giải (một tính chất của mô hình về khả năng thấy được mối quan hệ giữa các biến) • Độ chính xác vs. Khả năng mở rộng giải thuật • Phạm vi kiến thức vs. Hướng dữ liệu • Nhiều dữ liệu vs. Giải thuật tốt hơn CSE 445: Học máy | Học kỳ 1, 2016-2017 14
- Chuẩn bị dữ liệu • Các giải thuật học máy cần phải có dữ liệu! • Tiền xử lý dữ liệu để chuyển đổi dữ liệu trước khi áp dụng vào giải thuật học máy – Lấy mẫu: chọn tập con các quan sát/mẫu – Trích chọn thuộc tính: Chọn các biến đầu vào – Chuẩn hóa dữ liệu (Normalization) (standardization, scaling, binarization) – Xử lý dữ liệu thiếu và phần tử ngoại lai (missing data and outliers) • Ngoài ra, còn phụ thuộc vào giải thuật học máy – Cây quyết định có thể xử lý dữ liệu thiếu/phần tử ngoại lai – PCA yêu cầu dữ liệu đã được chuẩn hóa CSE 445: Học máy | Học kỳ 1, 2016-2017 15
- Các câu hỏi? CSE 445: Học máy | Học kỳ 1, 2016-2017 16
- Giới thiệu về Học có giám sát CSE 445: Học máy | Học kỳ 1, 2016-2017 17
- Học giám sát • Xét: • Các phương pháp học giám sát: – Học bởi các ví dụ (quan sát)-“Learn by example” – Xây dựng mô hình sử dụng tập các quan sát đã được gắn nhãn CSE 445: Học máy | Học kỳ 1, 2016-2017 18
- Dữ liệu học Class “A” Class “B” ? CSE 445: Học máy | Học kỳ 1, 2016-2017 19
- Dữ liệu học Figure 2.2 , ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 20
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng mạng máy tính (ĐH FPT) - Chương 2 Các thiết bị mạng và giao thức mạng
32 p | 509 | 130
-
Bài giảng Mạng máy tính căn bản: Chương 2 - Phan Vĩnh Thuần
133 p | 222 | 48
-
Bài giảng Mạng máy tính: Bài 2 - Trường TCN Tôn Đức Thắng
32 p | 148 | 16
-
Bài giảng học phần Mạng máy tính - Phần 2 : Các thành phần cơ bản của mạng
22 p | 140 | 12
-
Bài giảng Web search - Bài 2: Máy tìm kiếm Google
37 p | 42 | 10
-
Bài giảng Mạng máy tính và hệ thống thông tin công nghiệp: Chương 2.3 - Đào Đức Thịnh
44 p | 92 | 10
-
Bài giảng Mạng máy tính 2
32 p | 52 | 8
-
Bài giảng Mạng máy tính (Computer Networking) - Chương 2: Tầng ứng dụng
56 p | 41 | 7
-
Bài giảng học phần Tin học đại cương: Chương 2 - Học viện Nông nghiệp Việt Nam
18 p | 47 | 6
-
Bài giảng Mạng máy tính: Chương 0 - ThS. Nguyễn Trung Dũng
8 p | 11 | 6
-
Bài giảng Mạng máy tính: Chương 2 - PGS. TS. Nguyễn Hữu Thanh
46 p | 89 | 5
-
Bài giảng Tin văn phòng 2: Bài 1 - ThS. Thiều Quang Trung
45 p | 59 | 5
-
Bài giảng Học máy (IT 4862): Chương 2 - Nguyễn Nhật Quang
23 p | 51 | 4
-
Bài giảng Học máy (IT 4862): Chương 4.2 - Nguyễn Nhật Quang
37 p | 43 | 4
-
Bài giảng Mạng máy tính: Chương 2 - Hoàng Thanh Hòa (CĐ Kinh tế Đối ngoại)
33 p | 46 | 4
-
Bài giảng Mạng máy tính (Computer Network): Chương 2 - Lưu Đức Trung
11 p | 29 | 4
-
Bài giảng Mạng máy tính và hệ thống thông tin công nghiệp: Chương 2.0 - Đào Đức Thịnh
14 p | 85 | 4
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn