Bài giảng Học máy: Bài 6 - Nguyễn Hoàng Long
lượt xem 4
download
Bài giảng "Học máy - Bài 6: Các phương pháp học máy kết hợp" cung cấp cho người học các kiến thức: Bootstrap là gì, các phương pháp kết hợp enemble methods, phương páp kết hợp boosting, độ sâu của từng cây,... Mời các bạn cùng thâm khảo nội dung chi tiết.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Học máy: Bài 6 - Nguyễn Hoàng Long
- Các phương pháp học máy kết hợp Boosting, Bagging, và Random Forests Nguyễn Thanh Tùng Khoa Công nghệ thông tin – Đại học Thủy Lợi tungnt@tlu.edu.vn Website môn học: https://sites.google.com/a/wru.vn/cse445fall2016 Bài giảng có sử dụng hình vẽ trong cuốn sách “An Introduction to Statistical Learning with Applications in R” với sự cho phép của tác giả, có sử dụng slides các khóa học CME250 của ĐH Stanford và IOM530 của ĐH Southern California CSE 445: Học máy | Học kỳ 1, 2016-2017 1
- Bootstrap là gì? • Giả sử ta có 5 quả bóng gắn nhãn A,B,C,D, E và bỏ tất cả chúng vào trong 1 cái giỏ. • Lấy ra ngẫu nhiên 1 quả từ giỏ và ghi lại nhãn, sau đó bỏ lại quả bóng vừa bốc được vào giỏ. • Tiếp tục lấy ra ngẫu nhiên một quả bóng và lặp lại quá trình trên cho đến khi việc lấy mẫu kết thúc. Việc lấy mẫu này gọi là lấy mẫu có hoàn lại. • Kết quả của việc lấy mẫu như trên có thể như sau (giả sử kích thước mẫu là 10): C, D, E, E, A, B, C, B, A, E Nguồn: bis.net.vn/forums CSE 445: Học máy | Học kỳ 1, 2016-2017 2
- Bootstrap là gì? • Bootstrap là phương pháp lấy mẫu có hoàn lại (sampling with replacement)-> một mẫu có thể xuất hiện nhiều lần trong một lần lấy mẫu CSE 445: Học máy | Học kỳ 1, 2016-2017 3
- Bootstrap là gì? • Là kỹ thuật rất quan trọng trong thống kê • Lấy mẫu có hoàn lại từ tập dữ liệu ban đầu để tạo ra các tập dữ liệu mới CSE 445: Học máy | Học kỳ 1, 2016-2017 4
- Các phương pháp kết hợp Ensemble Methods CSE 445: Học máy | Học kỳ 1, 2016-2017 5
- Sức mạnh của các bộ phân lớp yếu Condorcet’s Jury Theorem – Nếu p lớn hơn 1/2 (mỗi cử tri bỏ phiếu đúng mong muốn của họ), càng thêm nhiều cử tri sẽ tăng xác suất theo quyết định số đông sẽ chính xác. Trong giới hạn, xác suất bầu chọn theo số đông tiến đến 1 khi số cử tri tăng lên. CSE 445: Học máy | Học kỳ 1, 2016-2017 6
- Sức mạnh của các bộ phân lớp yếu Condorcet’s Jury Theorem – Nếu p lớn hơn 1/2 (mỗi cử tri bỏ phiếu đúng mong muốn của họ), càng thêm nhiều cử tri sẽ tăng xác suất theo quyết định số đông sẽ chính xác. Trong giới hạn, xác suất bầu chọn theo số đông tiến đến 1 khi số cử tri tăng lên. CSE 445: Học máy | Học kỳ 1, 2016-2017 7
- Sức mạnh của các bộ phân lớp yếu • Việc lấy trung bình làm giảm phương sai và không làm tăng bias (bias vẫn được giữ nguyên) Var[Ȳ] = σ2/n CSE 445: Học máy | Học kỳ 1, 2016-2017 8
- Sức mạnh của các bộ phân lớp yếu • Việc lấy trung bình làm giảm phương sai và không làm tăng bias (bias vẫn được giữ nguyên) Var[Ȳ] = σ2/n • Các phiếu bầu của các bộ phân lớp tương quan không trợ giúp được nhiều CSE 445: Học máy | Học kỳ 1, 2016-2017 9
- Sức mạnh của các bộ phân lớp yếu • Việc lấy trung bình làm giảm phương sai và không làm tăng bias (bias vẫn được giữ nguyên) Var[Ȳ] = σ2/n • Các phiếu bầu của các bộ phân lớp tương quan không trợ giúp được nhiều Var[Ȳ] = σ2/n + (ρσ2)(n-1)/n CSE 445: Học máy | Học kỳ 1, 2016-2017 10
- Kết hợp các bộ phân lớp α×{CART}+ (1−α)×{LinearModel} CSE 445: Học máy | Học kỳ 1, 2016-2017 11
- Các phương pháp kết hợp: Bagging CSE 445: Học máy | Học kỳ 1, 2016-2017 12
- Bagging là gì? “Bootstrap Aggregation” + + CSE 445: Học máy | Học kỳ 1, 2016-2017 13
- Bagging là gì? “Bootstrap Aggregation” CSE 445: Học máy | Học kỳ 1, 2016-2017 14
- Bagging Giải quyết được tính thiếu ổn định của CART + + CSE 445: Học máy | Học kỳ 1, 2016-2017 15
- Bagging • Lấy mẫu tập dữ liệu huấn luyện theo Bootstrap để tạo ra tập hợp các dự đoán. CSE 445: Học máy | Học kỳ 1, 2016-2017 16
- Bagging • Lấy mẫu tập dữ liệu huấn luyện theo Bootstrap để tạo ra tập hợp các dự đoán. Hastie, Trevor, et al. The elements of statistical learning. Vol. 2. No. 1. New York: Springer, 2009. … • Lấy trung bình (hoặc bình chọn theo số đông- majority vote) các bộ dự đoán độc lập. • Bagging giảm phương sai (variance) và giữ bias. CSE 445: Học máy | Học kỳ 1, 2016-2017 17
- Bagging Hastie, Trevor, et al. The elements of statistical learning. Vol. 2. No. 1. New York: Springer, 2009. CSE 445: Học máy | Học kỳ 1, 2016-2017 18
- Bagging Original Data 1 2 3 4 5 6 7 8 9 10 Bagging (Round 1) 7 8 10 8 2 5 10 10 5 9 Bagging (Round 2) 1 4 9 1 2 3 2 7 3 2 Bagging (Round 3) 1 8 5 10 5 5 9 6 3 7 • Lấy mẫu có hoàn lại • Xây dựng bộ phân lớp trên mỗi mẫu bootstrap • Mỗi mẫu bootstrap chứa xấp xỉ 63.2% số lượng mẫu trong tập dữ liệu ban đầu • Số lượng mẫu còn lại (36.8%) được dùng để kiểm thử CSE 445: Học máy | Học kỳ 1, 2016-2017 19
- Bagging CSE 445: Học máy | Học kỳ 1, 2016-2017 20
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng mạng máy tính (ĐH FPT) - Chương 6 Bảo mật
31 p | 287 | 76
-
Bài giảng IC3 GS4 - Bài 6: Xử lý sự cố
46 p | 421 | 72
-
Bài giảng Phần cứng máy tính: Bài 6 - TC Việt Khoa
103 p | 175 | 48
-
Bài giảng Kiến trúc máy tính: Chương 6 - TS. Nguyễn Qúy Sỹ
66 p | 172 | 33
-
Bài giảng Mạng máy tính - Vũ Quốc Oai
238 p | 156 | 19
-
Bài giảng Mạng máy tính căn bản: Chương 6 - Phan Vĩnh Thuần
134 p | 136 | 18
-
Bài giảng Mạng máy tính: Bài 6 - Trường TCN Tôn Đức Thắng
27 p | 138 | 13
-
Bài giảng Mạng máy tính: Bài 6 - Nguyễn Hữu Thể
15 p | 70 | 9
-
Bài giảng Mạng máy tính và truyền thông - Chương 6: An toàn mạng máy tính
10 p | 33 | 8
-
Bài giảng Mạng máy tính: Chương 6 - Nguyễn Hồng Sơn
37 p | 34 | 7
-
Bài giảng Mạng máy tính - Chương 6: Tầng giao vận
56 p | 79 | 7
-
Bài giảng Mạng máy tính - Trường đại học Thương Mại
21 p | 48 | 6
-
Bài giảng học phần Tin học đại cương: Chương 6 - Học viện Nông nghiệp Việt Nam
14 p | 34 | 6
-
Bài giảng Mạng máy tính: Chương 6 - ThS. Trần Bá Nhiệm
49 p | 60 | 5
-
Bài giảng Học máy (IT 4862): Chương 4.6 - Nguyễn Nhật Quang
11 p | 42 | 5
-
Bài giảng Mạng máy tính (Computer Network): Chương 6 - Lưu Đức Trung
28 p | 29 | 4
-
Bài giảng CAD/CAM - Chương 6: Sản xuất nhờ máy tính - CAM
31 p | 2 | 1
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn