Bài giảng Các kỹ thuật học sâu và ứng dụng: Bài 4 - TS. Nguyễn Vinh Tiệp

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:39

Thêm vào BST

Báo xấu

1
lượt xem 0
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng Các kỹ thuật học sâu và ứng dụng - Bài 4: Các kiến trúc xử lý ảnh phổ biến tiếp tục khám phá các mô hình CNN tiên tiến và ứng dụng thực tế. Chuyên đề này ôn lại kiến trúc CNN, giới thiệu các mô hình xử lý ảnh phổ biến và kỹ thuật học chuyển tiếp (Transfer Learning) mạnh mẽ. Nắm vững các kiến trúc này giúp bạn giải quyết nhiều bài toán thị giác máy tính phức tạp. Mời các bạn cùng tham khảo bài giảng để biết thêm chi tiết!

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Bài giảng Các kỹ thuật học sâu và ứng dụng: Bài 4 - TS. Nguyễn Vinh Tiệp

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN CS431 - CÁC KỸ THUẬT HỌC SÂU VÀ ỨNG DỤNG CÁC KIẾN TRÚC XỬ LÝ ẢNH PHỔ BIẾN TS. Nguyễn Vinh Tiệp Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 1
NỘI DUNG 1. Ôn lại kiến trúc CNN 2. Các mô hình xử lý ảnh phổ biến 3. Học chuyển tiếp – Transfer learning Thực hiện bởi Trường Đại học Công nghệ Thông tin, ĐHQG-HCM 2
1 Ôn lại CNN 3 Trường ĐH CNTT – Các kỹ thuật học sâu và ứng dụng (CS431)
1 Ôn lại CNN Convolution Fully connected Learning Hierarchical Representations 4 Trường ĐH CNTT – Các kỹ thuật học sâu và ứng dụng (CS431)
2 Sự phát triển của CNN CNN milestones LeNet (1993) Deep CNN Cuộc thi hàng năm từ ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2010: + Phân loại - Classification > 14M images + Phát hiện - Detection > 20K classes 5 Trường ĐH CNTT – Các kỹ thuật học sâu và ứng dụng (CS431)
2 LeNet-5 Mạng nơ-ron tích chập đầu tiên và tiêu chuẩn: ● Lớp tích chập - Convolutions ● Lấy mẫu con - Subsampling (Tổng hợp trung binh - average pooling) ● Hàm phi tuyến sigmoid hoặc tanh ● Đầu ra kết nối đầy đủ - Fully-connected outputs LeCun, Yann, et al. "Gradient-based learning applied to document recognition." Proceedings of the IEEE, 1998. 6 Trường ĐH CNTT – Các kỹ thuật học sâu và ứng dụng (CS431)
2 AlexNet – ILSVRC 2012 Winner Mô hình tương tự như kiến trúc LeNet nhưng: ● Max pooling, hàm phi tuyến ReLU. ● Nhiều dữ liệu và mô hình lớn hơn ● Cài đặt trên GPU (tốc độ tăng x50 ) ● Dropout regularization Alex, Krizhevsky, Ilya Sutskever, and Geoffrey E. Hinton. "Imagenet classification with deep convolutional networks." NIPS 2012 7 Trường ĐH CNTT – Các kỹ thuật học sâu và ứng dụng (CS431)
2 VGGNet – ILSVRC 2014 1st Runner Up ● Chuỗi các mạng sâu hơn (deeper network) được huấn luyện tăng dần ● Các vùng nhận thức lớn được thay thế bằng các lớp liên tiếp của các lớp convolution 3x3 (với ReLU ở giữa). ● Giảm số lượng tham số (3 bộ lọc 3x3 so với 1 bộ lọc 7x7). ● Thiết kế theo hướng mô-đun – dễ dàng thêm mô-đun mới: VGG11 -> VGG13 -> VGG16 -> VGG19 ● Số lượng tham số lớn: VGG16 - 138M 8 Trường ĐH CNTT – Các kỹ thuật học sâu và ứng dụng (CS431)
2 GoogLeNet - ILSVRC 2014 Winner ● Lớp Bottleneck (1x1 conv) ○ Giảm chiều dữ liệu trước khi thực hiện tính toán tích chập. ● Mô-đun khởi động (Inception Module) - Nhiều nhánh ○ Các đường song song với các kích thước receptive field khác nhau và các phép tính khác nhau để nắm bắt mẫu tương quan rời rạc trong tập các bản đồ đặc trưng. Szegedy, Christian, et al. "Going deeper with convolutions." CVPR 2015. 9 Trường ĐH CNTT – Các kỹ thuật học sâu và ứng dụng (CS431)
2 GoogLeNet - ILSVRC 2014 Winner ● Bottleneck layer (1x1 conv) Nếu chúng ta không sử dụng bottleneck: [5x5 conv, 48] 14x14x480x5x5x48 = 112,896,000p Szegedy, Christian, et al. "Going deeper with convolutions." CVPR 2015. 10 Trường ĐH CNTT – Các kỹ thuật học sâu và ứng dụng (CS431)
2 GoogLeNet - ILSVRC 2014 Winner ● Bottleneck layer (1x1 conv) Nếu chúng ta sử dụng bottleneck [1x1 conv, 16] 14x14x480x1x1x16 = 1,505,280p [5x5 conv, 48] 14x15x16x5x5x48 = 4,032,000p Tổng cộng: 5,537,280p
2 GoogLeNet - ILSVRC 2014 Winner ● Mô-đun Inception - Nhiều nhánh. What is the best filter size? → Use multiple filter sizes at the same time Szegedy, Christian, et al. "Going deeper with convolutions." CVPR 2015. 12 Trường ĐH CNTT – Các kỹ thuật học sâu và ứng dụng (CS431)
2 GoogLeNet - ILSVRC 2014 Winner Tổng cộng: 854M Tổng cộng : 271M 13 13 Trường ĐH CNTT – Các kỹ thuật học sâu và ứng dụng (CS431)
2 InceptionNet V2 and V3 ● Sử dụng chuẩn hóa theo batch (batch-normalization). ● Các biến thể khác của các mô-đun Inception với sự phân rã của bộ lọc. ● Tăng số lượng bản đồ đặc trưng trong khi giảm độ phân giải không gian (bằng cách sử dụng pooling). Szegedy, Christian, et al. "Rethinking the inception architecture for computer vision." CVPR 2016. 14 Trường ĐH CNTT – Các kỹ thuật học sâu và ứng dụng (CS431)
2 Networks so far ... 15 Trường ĐH CNTT – Các kỹ thuật học sâu và ứng dụng (CS431)
2 Networks so far ... 16 Trường ĐH CNTT – Các kỹ thuật học sâu và ứng dụng (CS431)
2 Networks so far ... 17 Trường ĐH CNTT – Các kỹ thuật học sâu và ứng dụng (CS431)
2 ResNet - ILSVRC 2015 Winner Xếp chồng các lớp !!! He, Kaiming, et al. "Deep residual learning for image recognition." CVPR 2016. 18 Trường ĐH CNTT – Các kỹ thuật học sâu và ứng dụng (CS431)
2 ResNet - ILSVRC 2015 Winner Plain net Residual net He, Kaiming, et al. "Deep residual learning for image recognition." CVPR 2016. 19 Trường ĐH CNTT – Các kỹ thuật học sâu và ứng dụng (CS431)
2 ResNet - ILSVRC 2015 Winner He, Kaiming, et al. "Deep residual learning for image recognition." CVPR 2016. 20 Trường ĐH CNTT – Các kỹ thuật học sâu và ứng dụng (CS431)