zunia.vn

Tuyển sinh 2024 dành cho Gen-Z

zunia.vn

» Công Nghệ Thông Tin

» Cơ sở dữ liệu

Bài giảng Học sâu và ứng dụng - Bài 5: Huấn luyện mạng nơ-ron (Phần 2)

Chia sẻ: Dương Hoàng Lạc Nhi | Ngày: | Loại File: PDF | Số trang:62

Báo xấu

25
lượt xem 6
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng Học sâu và ứng dụng - Bài 5: Huấn luyện mạng nơ-ron (Phần 2). Bài này cung cấp cho học viên những nội dung về: các giải thuật tối ưu cho mạng nơ-ron; chiến lược thay đổi tốc độ học; một số kỹ thuật chống overfitting; làm giàu dữ liệu (data augmentation); lựa chọn siêu tham số;... Mời các bạn cùng tham khảo chi tiết nội dung bài giảng!

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Bài giảng Học sâu và ứng dụng - Bài 5: Huấn luyện mạng nơ-ron (Phần 2)

Bài 5: Huấn luyện mạng nơ-ron (Phần 2) 1
Nội dung • Các giải thuật tối ưu cho mạng nơ-ron • Chiến lược thay đổi tốc độ học • Một số kỹ thuật chống overfitting • Làm giàu dữ liệu (data augmentation) • Lựa chọn siêu tham số • Kỹ thuật kết hợp nhiều mô hình (ensemble) • Kỹ thuật học tái sử dụng (transfer learning) 2
Các giải thuật tối ưu 3
Phương pháp SGD 4
Vấn đề với SGD • Điều gì sẽ xảy ra khi hàm mục tiêu thay đổi nhanh theo một chiều và thay đổi chậm theo chiều khác? • Khi đó SGD sẽ làm việc như thế nào? Hàm mục tiêu có số điều kiện lớn: tỉ lệ giữa giá trị riêng lớn nhất và giá trị riêng nhỏ nhất của ma trận Hessian là lớn. 5
Vấn đề với SGD • Điều gì sẽ xảy ra khi hàm mục tiêu thay đổi nhanh theo một chiều và thay đổi chậm theo chiều khác? • Khi đó SGD sẽ làm việc như thế nào? Thuật toán hội tụ rất chậm, nhảy từ bên này qua bên kia bề mặt hàm mục tiêu Hàm mục tiêu có số điều kiện lớn: tỉ lệ giữa giá trị riêng lớn nhất và giá trị riêng nhỏ nhất của ma trận Hessian là lớn. 6
Vấn đề với SGD • Chuyện gì xảy ra nếu hàm mục tiêu có cực tiểu địa phương hoặc điểm yên ngựa (saddle point)? 7
Vấn đề với SGD • Chuyện gì xảy ra nếu hàm mục tiêu có cực tiểu địa phương hoặc điểm yên ngựa (saddle point)? • Gradient bằng 0, thuật toán SGD bị tắc • Điểm yên ngựa thường xuất hiện với các hàm mục tiêu nhiều biến 8
Vấn đề với SGD • SGD xấp xỉ gradient theo từng lô dữ liệu nên thường rất nhiễu 9
SGD + momentum • Xây dựng đại lượng “vận tốc” bằng trung bình dịch chuyển của gradients • Lực ma sát rho thường bằng 0.9 hoặc 0.99. • Tại thời điểm ban đầu rho có thể thấp hơn do hướng di chuyển chưa rõ ràng, ví dụ rho = 0.5 10
SGD + momentum • SGD + momentum có thể phát biểu theo nhiều cách khác nhau nhưng chúng tương đương nhau và đều đưa ra cùng một dãy x 11
SGD + momentum 12
Nesterov Momentum 13
Nesterov Momentum • Thường người ta muốn tính theo • Đặt và chuyển về 14
AdaGrad • Mỗi trọng số có tốc độ học riêng: “Per-parameter learning rates” hoặc “adaptive learning rates” • Tốc độ học của mỗi trọng số tỉ lệ nghịch với tổng bình phương độ lớn đạo hàm riêng của hàm mục tiêu đối với trọng số đó ở các bước trước 15
AdaGrad • Q1: Điều gì xảy ra với AdaGrad? 16
AdaGrad • Q1: Điều gì xảy ra với AdaGrad? Tốc độ di chuyển theo hướng dốc được hãm dần Tốc độ di chuyển theo hướng thoải được tăng tốc 17
AdaGrad • Q2: Bước di chuyển thay đổi như thế nào khi số vòng lặp tăng dần? 18
AdaGrad • Q2: Bước di chuyển thay đổi như thế nào khi số vòng lặp tăng dần? Tiến tới 0 19
RMSProp 20

CÓ THỂ BẠN MUỐN DOWNLOAD

THÔNG TIN

TRỢ GIÚP

HỖ TRỢ KHÁCH HÀNG

Theo dõi chúng tôi

Chịu trách nhiệm nội dung:

Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA

LIÊN HỆ

Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM

Hotline: 093 303 0098

Email: support@tailieu.vn

Giấy phép Mạng Xã Hội số: 670/GP-BTTTT cấp ngày 30/11/2015 Copyright © 2022-2032 TaiLieu.VN. All rights reserved.