Giới thiệu tài liệu
Bài giảng giới thiệu tổng quan về thị giác máy (computer vision), một lĩnh vực kết hợp nhiều ngành khoa học như toán học, khoa học máy tính, sinh học, kỹ thuật, vật lý và tâm lý học. Thị giác máy hướng đến mục tiêu giúp máy tính diễn giải hình ảnh và video một cách có ý nghĩa, tương tự như cách con người nhận thức thế giới xung quanh. Bài giảng cũng đề cập đến các ứng dụng thực tế của thị giác máy trong nhiều lĩnh vực như giao thông thông minh, phát hiện người, khuôn mặt, văn bản, và robot tự động.
Đối tượng sử dụng
Sinh viên, người nghiên cứu về thị giác máy tính và học sâu
Nội dung tóm tắt
Bài giảng trình bày tổng quan về thị giác máy và các ứng dụng của nó, tập trung vào bài toán phát hiện đối tượng (object detection).
1. **Tổng quan về thị giác máy:**
* Định nghĩa thị giác máy là cầu nối giữa dữ liệu ảnh số và ngữ nghĩa.
* Ứng dụng rộng rãi trong giám sát, y tế, viễn thám, xây dựng mô hình 3D, phát hiện khuôn mặt, nhận dạng vân tay, OCR, tương tác người-máy, thực tế tăng cường/ảo, và robotics.
2. **Bài toán phát hiện đối tượng:**
* Các ứng dụng cụ thể: giao thông thông minh, phát hiện người, khuôn mặt, văn bản, và robot hái dâu.
3. **Mạng đề xuất vùng (Two-stage object detectors):**
* Tiếp cận quét cửa sổ (sliding windows) sử dụng CNN để phân loại vùng ảnh.
* Tiếp cận dựa trên đề xuất vùng: đề xuất các vùng tiềm năng chứa đối tượng, sau đó phân loại và hiệu chỉnh tọa độ.
* Các mạng R-CNN, Fast R-CNN, Faster R-CNN.
4. **Mạng không đề xuất vùng (One-stage object detectors):**
* Đề xuất lưới box dày đặc trên ảnh, sau đó phân loại và hiệu chỉnh tọa độ từng box bằng CNN.
* Ưu điểm: nhanh và đơn giản hơn mạng hai giai đoạn, nhưng độ chính xác có thể thấp hơn.
* Các mạng YOLO (You Only Look Once) và SSD (Single Shot Detector).
5. **YOLO và SSD:**
* **YOLO:** chia ảnh thành lưới, mỗi ô dự đoán box và xác suất lớp. Sử dụng non-maximal suppression để lọc kết quả.
* **SSD:** sử dụng lưới box dày đặc hơn YOLO, phát hiện đối tượng ở nhiều mức khác nhau trong mạng.
Bài giảng cũng so sánh giữa các mạng một giai đoạn và hai giai đoạn, nhấn mạnh sự khác biệt về tốc độ và độ chính xác.