Giới thiệu tài liệu
Bài giảng giới thiệu về ứng dụng của học sâu trong thị giác máy tính, tập trung vào bài toán phân đoạn ảnh. Nội dung bao gồm các lớp tăng độ phân giải (upsampling), hàm mục tiêu và một số mạng phân đoạn ảnh tiêu biểu.
Đối tượng sử dụng
Bài giảng này nhắm đến sinh viên và các nhà nghiên cứu trong lĩnh vực thị giác máy tính và học sâu, những người quan tâm đến việc tìm hiểu và áp dụng các kỹ thuật phân đoạn ảnh sử dụng mạng nơ-ron tích chập.
Nội dung tóm tắt
Bài giảng này trình bày chi tiết về bài toán phân đoạn ảnh, một nhiệm vụ quan trọng trong thị giác máy tính, trong đó mục tiêu là phân loại từng điểm ảnh trong ảnh. Các ứng dụng của phân đoạn ảnh rất đa dạng, từ phân đoạn ảnh vệ tinh, ứng dụng trong xe tự hành, y tế đến nhận dạng ký tự quang học (OCR). Bài giảng cũng đề cập đến phương pháp trượt cửa sổ và giới thiệu về tích chập hoàn toàn (Fully Convolutional Networks - FCN), một kỹ thuật sử dụng mạng CNN với các lớp tích chập để phân loại đồng thời tất cả các điểm ảnh. Để giải quyết vấn đề tính toán phức tạp khi làm việc với ảnh có độ phân giải cao, bài giảng giới thiệu việc sử dụng các lớp giảm độ phân giải (downsampling) và tăng độ phân giải (upsampling). Các lớp upsampling như Unpooling và Max Unpooling được trình bày, cùng với tích chập chuyển vị (transposed convolution), một phương pháp upsampling có chứa các tham số có thể huấn luyện được. Các hàm mục tiêu thường được sử dụng trong bài toán phân đoạn ảnh cũng được thảo luận, bao gồm Cross Entropy (CE), Weighted CE, Focal loss, Dice coefficient, IoU, Dice loss, Tversky loss và các hàm mục tiêu kết hợp. Cuối cùng, bài giảng giới thiệu một số kiến trúc mạng phân đoạn ảnh tiêu biểu như FCN, U-Net, U-Net++, Stacked UNets và CUNets.