Giới thiệu tài liệu
Đề án này tập trung vào việc cải thiện hiệu quả của các mô hình phát hiện đối tượng trong ảnh bằng cách sử dụng các mô hình đã được huấn luyện trước, đặc biệt là mô hình CLIP (Contrastive Language-Image Pre-training). Nghiên cứu này khám phá cách tích hợp CLIP với các mô hình phát hiện đối tượng truyền thống để nâng cao độ chính xác và khả năng tổng quát hóa, đặc biệt trong các tình huống mà dữ liệu gán nhãn bị hạn chế.
Đối tượng sử dụng
Sinh viên và nhà nghiên cứu trong lĩnh vực thị giác máy tính, đặc biệt là những người quan tâm đến phát hiện đối tượng và ứng dụng của các mô hình huấn luyện trước.
Nội dung tóm tắt
Đề án này trình bày một phương pháp tiếp cận mới để cải thiện hiệu quả của các mô hình phát hiện đối tượng trong ảnh bằng cách tận dụng tri thức từ các mô hình thị giác-ngôn ngữ đã được huấn luyện trước, cụ thể là CLIP. Phương pháp này bao gồm việc sử dụng mô hình Faster R-CNN để tạo ra các vùng đối tượng dự đoán, sau đó trích xuất các đặc trưng visual-language (V-L) embedding từ cả các vùng đối tượng dự đoán và các vùng đối tượng đúng bằng bộ mã hóa thị giác-ngôn ngữ đã qua tiền huấn luyện. Điểm đặc biệt của phương pháp này là việc đề xuất một hàm mất mát mới áp dụng kỹ thuật chắt lọc tri thức (knowledge distillation loss) nhằm căn chỉnh các embedding dự đoán với các embedding đúng tương ứng. Thông tin từ hàm mất mát mới được kết hợp với các hàm mất mát truyền thống trong bài toán phát hiện đối tượng để huấn luyện mô hình. Kết quả thực nghiệm cho thấy phương pháp đề xuất tạo ra cải thiện đáng kể so với mô hình phát hiện đối tượng hiện tại trên bộ dữ liệu COCO, với độ chính xác tăng 2.7 điểm mAP và 6.9 điểm AR. Đề án cũng phân tích tầm quan trọng của từng thành phần trong knowledge distillation loss và các tham số liên quan, đồng thời so sánh hiệu quả của các CNN backbone khác nhau. Kết quả cho thấy ResNet50 mang lại hiệu quả cao hơn đáng kể so với ResNet101. Nghiên cứu này mở ra hướng phát triển trong tương lai là tận dụng thông tin từ các mô hình hình ảnh-ngôn ngữ lớn hơn để tiếp tục nâng cao độ chính xác của mô hình phát hiện đối tượng.