Khai phá hàm chi phí cho phát hiện phương tiện giao thông trong không ảnh

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:8

Thêm vào BST

Báo xấu

35
lượt xem 3
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Phát hiện phương tiện giao thông trên không ảnh là bài toán thiết thực, giải quyết được nhiều vấn đề về giao thông trong thành phố. Nghiên cứu tiến hành khảo sát hiệu quả của các hàm chi phí IoU và L1 trên cùng phương pháp DETR huấn luyện trên bộ dữ liệu XDUAV để quan sát sự cải thiện mô hình.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Khai phá hàm chi phí cho phát hiện phương tiện giao thông trong không ảnh

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), TP. HCM, ngày 23-24/12/2021 DOI: 10.15625/vap.2021.0051 KHAI PHÁ HÀM CHI PHÍ CHO PHÁT HIỆN PHƯƠNG TIỆN GIAO THÔNG TRONG KHÔNG ẢNH Nguyễn Hoàn Mỹ, Bùi Cao Doanh, Võ Duy Nguyên, Nguyễn Tấn Trần Minh Khang Trường Đại học Công nghệ thông tin, ĐHQG- TP.HCM mynh.12@grad.uit.edu.vn, 19521366@gm.uit.edu.vn, {nguyenvd, khangnttm}@uit.edu.vn TÓM TẮT: Phát hiện phương tiện giao thông trên không ảnh là bài toán thiết thực, giải quyết được nhiều vấn đề về giao thông trong thành phố. Tuy nhiên do các bộ dữ liệu hiện có được thu thập đa góc quay, đối tượng ở góc quay cao thường rất nhỏ trở thành một trong các thách thức của bài toán. Trong nghiên cứu này chúng tôi tiến hành khảo sát hiệu quả của các hàm chi phí IoU và L1 trên cùng phương pháp DETR huấn luyện trên bộ dữ liệu XDUAV để quan sát sự cải thiện mô hình. Qua thực nghiệm, chúng tôi thu được kết quả cao nhất là mAP50 = 94.9% khi sử dụng hàm mất mát GIoU và Balanced L1. Từ khóa: Object detection, drone, aerial, IoU loss, CIoU loss, GIoU loss, smooth L1 loss, balanced L1 loss. I. GIỚI THIỆU Phát hiện đối tượng là bài toán phổ biến của cộng đồng nghiên cứu trí tuệ nhân tạo nói chung và lĩnh vực thị giác máy tính nói riêng[1][2][15]. Nhờ vào sự phát triển của của phương pháp học sâu, bài toán phát hiện đối tượng ngày càng được cải tiến và áp dụng trong nhiều lĩnh vực cụ thể, đóng góp vai trò quan trọng trong lĩnh vực. Đầu vào của bài toán là hình ảnh, video hay hình ảnh truyền tải từ các camera real-time, đầu ra sẽ là vị trí của các đối tượng cần được xác định. Bên cạnh đó, với sự phát triển của máy bay không người lái thì việc ứng dụng thiết bị này để giải quyết các vấn đề liên quan đến giao thông trở nên vô cùng thu hút, do đó bài toán phát hiện phương tiện giao thông trong không ảnh nhận được rất nhiều sự quan tâm của cộng đồng khoa học thế giới. Hiện nay, đã có các bộ dữ liệu đặc trưng cho bài toán được giới thiệu như UAVDT[5], XDUAV[6], Visdrone19[7], AERIAU[8], cũng như đã có các nghiên cứu chỉ ra các hướng để tiếp cận bài toán, trong đó hướng tiếp cận phổ biến là sử dụng các phương pháp học sâu phát hiện đối tượng. Trong nghiên cứu hình 1, Khang và cộng sự đã khảo sát sự hiệu quả của các phương pháp phát hiện đối tượng: RetinaNet, YOLOv3, SSD, CenterNet, RFCN và SNIPER trên bộ dữ liệu VisDrone2019[7], nghiên cứu cho thấy phương pháp CenterNet cho kết quả cao nhất mAP50 = 32.28% với thời gian huấn luyện ghi nhận là 5.3 tiếng và FPS = 7.6. Qua các thử nghiệm, nghiên cứu cũng chỉ ra được những hạn chế của các phương pháp phát hiện đối tượng hiện có. Trong nghiên cứu [8], Chung và cộng sự đã thực hiện phân tích hiệu quả của kỹ thuật tăng cường dữ liệu trên bộ dữ liệu kết hợp AERIAU. Qua thực nghiệm các tác giả đã cho thấy kết quả có cải thiện trên phương pháp State-of-the-Art thời điểm đó là YOLOv3. Phát hiện đối tượng trên không gặp nhiều thách thức về dữ liệu: góc quay đa dạng dấn đến có nhiều kích thước đối tượng khác nhau trong ảnh, đôi khi đối tượng còn sẽ bị cắt một phần khi di chuyển giữa các khung hình, dẫn đến việc dự đoán trở nên khó khăn. Trong nghiên cứu này, chúng tôi tập trung nghiên cứu cách cải thiện bài toán phát hiện phương tiện giao thông không ảnh bằng việc sử dụng phương pháp phát hiện đối tượng DETR và khai phá các hàm mất mát L1 để khảo sát sự hiệu quả. Để so sánh các hàm mất mát chúng tôi thực hiện các thử nghiệm trên bộ dữ liệu XDUAV. Hình 1. Bài toán phát hiện phương tiện giao thông, các khung bao với các màu sắc đỏ - xe buýt, xanh dương - xe hơi, trắng - xe mô tô [1]
Nguyễn Hoàn Mỹ, Bùi Cao Doanh, Võ Duy Nguyên, Nguyễn Tấn Trần Minh Khang 129 Phần còn lại của bài báo sẽ được trình bày như sau: Chương II chúng tôi sẽ trình bày các nghiên cứu liên quan. Chương III sẽ tập trung trình bày về bộ dữ liệu và các hàm mất mát mà chúng tôi áp dụng vào phương pháp DETR. Chương IV sẽ đưa ra những phân tích và đánh giá. Chương V trình bày kết quả thực nghiệm. Chương VI tổng kết và đưa ra hướng phát triển của nghiên cứu trong tương lai. II. CÁC NGHIÊN CỨU LIÊN QUAN Các phương pháp phát hiện đối tượng hiện nay được chia làm hai loại: phát hiện hai giai đoạn và một gia đoạn. Các phương pháp phát hiện hai giai đoạn thường đạt được độ chính xác cao hơn, tuy nhiên các phương pháp phát hiện một giai đoạn lại đạt được hiệu quả tốt hơn khi sử dụng thời gian thực. Hình 2 cho thấy sự phát triển của các phương pháp phát hiện đối tượng. Hình 2. Sự phát triển của các phương pháp phát hiện đối tượng Phương pháp hai giai đoạn Đại diện của các phương pháp phát hiện hai giai đoạn có thể được kể đến như R-CNN, Faster R-CNN. R-CNN Giới thiệu lần đầu bởi Girshick và cộng sự vào năm 2014, phương pháp phát hiện đối tượng cổ điển này đã giới thiệu khái niệm Vùng đề xuất (Region proposal) để đề xuất các vị trí có thể chứa đối tượng trong ảnh bằng kỹ thuật chọn trực tiếp (selective search). Các vùng đề xuất này sẽ được cắt khỏi ảnh và điều chỉnh về cùng một kích thước, sau đó đi qua một mạng CNN (AlexNet). Tại bước này, tất cả các vùng đề xuất có 𝐼𝑜𝑈 ≥ 0.5 với hộp giới hạn ground- truth sẽ được tiếp tục dự đoán lớp đối tượng, các vùng còn lại sẽ bị loại. Sau đó các vùng này sẽ được xác định lớp bằng một bộ phân loại SVM, còn tọa độ của hộp giới hạn sẽ được xác định bởi một bộ hồi quy hộp giới hạn (Bounding box regressor). Phương pháp này còn tương đối chậm vì các bước phát hiện phải được huấn luyện riêng, bên cạnh đó kỹ thuật chọn trực tiếp vẫn mang tính chất ngẫu nhiên, chưa được tối ưu. Faster R-CNN Được giới thiệu bởi Ren và cộng sự, Faster R-CNN đề xuất một mạng đề xuất vùng (Region Proposal Network) để phát hiện các vùng đề xuất thay vì kỹ thuật chọn trực tiếp, điều này giúp cho Faster R-CNN nhanh hơn rất nhiều so với hai phương pháp tiền nhiệm (R-CNN và Fast R-CNN). Phương pháp một giai đoạn Các phương pháp phát hiện đối tượng 01 bước có kể đến là YOLO, YOLOv2, YOLOv3, YOLOv4, SSD và RetinaNet, trong đó đại diện tiêu biểu là các phương pháp họ YOLO. Điểm khác biệt của YOLO so với họ R-CNN chính là nó không sử dụng thành phần đề xuất các vùng (region proposal). Thay vào đó, việc học hồi quy tọa độ các hộp giới hạn và lớp của đối tượng được thực hiện trực tiếp trên ảnh, điều này giúp YOLO đáp ứng được yêu cầu thời gian thực (60 FPS – frames per second). Cụ thể, YOLO đã hợp nhất các thành phần riêng biệt vào một mạng nơron (24 lớp tích chập theo sau bởi 2 lớp fully connected). Việc dự đoán các đối tượng sẽ được dựa trên các ô lưới (𝑆 × 𝑆 ô/ ảnh). Mỗi ô sẽ dự đoán 𝐵 hộp giới hạn kèm theo độ tin cậy của 𝐶 lớp đối tượng. Các dự đoán sẽ được chứa trong một tensor kích thước 𝑆 × 𝑆 × (𝐵 ∗ 5 + 𝐶). Mỗi hộp giới hạn sẽ có 5 thông tin dự đoán: tọa độ tâm (𝑥, 𝑦), chiều dài, rộng (𝑤, ℎ) và độ tin cậy 𝐶. Do vẫn còn hạn chế khoảng cách và kích thước của các đối tượng, các phiên bản v2, v3, v4 của YOLO lần lượt ra đời.
130 KHAI PHÁ HÀM CHI PHÍ CHO PHÁT HIỆN PHƯƠNG TIỆN GIAO THÔNG TRONG KHÔNG ẢNH III. PHƯƠNG PHÁP THỬ NGHIỆM A. Phương pháp DEtection TRansformers (DETR) Vào năm 2020, Nicolas Carion cùng cộng sự đã giới thiệu phương pháp DEtection TRansformers (DETR) với cách tiếp cận hoàn toàn khác so với trước đây. Cụ thể, nghiên cứu này xem việc phát hiện đối tượng như là một tập dự đoán. Điều này giúp tinh gọn quy trình phát hiện đối tượng, loại bỏ các thành phần như Non-maximum suppression hoặc các hộp neo (Anchor box). Thay vào đó, DETR chỉ sử dụng một kiến trúc Transfomer mã hóa – giải mã và kỹ thuật Kết Hợp Hai Bên (Bipartite Matching) để thực hiện tất cả các nhiệm vụ trên. Hình 3. Kiến trúc phương pháp DETR [2] Hình 3 cho thấy tổng quan kiến trúc của phương pháp DETR bao gồm ba phần chính: một mạng CNN dùng để trích xuất đặc trưng của ảnh đầu vào, một kiến trúc Transfomer mã hóa – giải mã và một mạng truyền thẳng (Feed forward network) để đưa ra kết quả dự đoán cuối cùng. Các thành phần của kiến trúc sẽ được chúng tôi trình bày bên dưới. i. Kiến trúc CNN trích xuất đặc trưng ảnh Với ảnh đầu vào có kích thước 𝐻0 × 𝑊0 × 3 (3 kênh màu), mạng CNN sẽ tạo ra từ ảnh một bản đồ đặc trưng 𝐻 𝑊 (feature map) có kích thước nhỏ và sâu hơn ảnh ban đầu, 𝐻 × 𝑊 × 𝐶, ở đây 𝐶 = 2048 và 𝐻, 𝑊 = 0 , 0 . 32 32 ii. Kiến trúc Transfomer trong DETR Như đã trình bày, đây là điểm hoàn toàn khác của DETR so với các phương pháp phát hiện đối tượng trước đây, khi hầu như việc phát hiện đối tượng được huấn luyện bởi một kiến trúc Transfomer mã hóa – giải mã. Hình 4 cho chúng ta thấy tổng quan kiến trúc Transfomer trong phương pháp DETR. Hình 4. Kiến trúc Transfomer mã hóa - giải mã trong DETR [2] a) Bộ mã hóa Đầu tiên, một phép tích chập 1 × 1 sẽ giảm số chiều sâu của bản đồ đặc trưng ảnh từ 𝐶 thành 𝑑, do đó ta có bản đồ đặc trưng mới có kích thước 𝐻 × 𝑊 × 𝑑. Để đưa vào bộ mã hóa, ta cần chuyển bản đồ đặc trưng 𝑑 chiều này thành một ma trận 2𝐷. Ma trận này thực chất chính là một chuỗi bao gồm 𝐻𝑊 vector có 𝑑 phần tử, do đó ma trận này có kích thước 𝐻𝑊 × 𝑑, sau đó sẽ được đưa vào bộ mã hóa. Mỗi một lớp của bộ mã hóa sẽ có một kiến trúc tiêu chuẩn bao gồm một lớp Attention (Multi-Head Self-Attention) và một mạng truyền thẳng (Feed Forward Network). Đặc biệt, kỹ thuật Positional Encoding sẽ được áp dụng trước khi được đưa qua các lớp Attention. Cụ thể, chuỗi đầu vào sẽ được cộng với một vector vị trí mã hóa, vector này chứa thông tin vị trí của các thành phần của chuỗi đầu vào, được xác định bởi công thức (1) và (2) bên dưới:
Nguyễn Hoàn Mỹ, Bùi Cao Doanh, Võ Duy Nguyên, Nguyễn Tấn Trần Minh Khang 131 𝑝𝑜𝑠 𝑃𝐸(𝑝𝑜𝑠,2𝑖) = sin � 2𝑖 � (1) 10000𝑑𝑚𝑜𝑑𝑒𝑙 𝑝𝑜𝑠 𝑃𝐸(𝑝𝑜𝑠,2𝑖+1) = cos � 2𝑖 � (2) 10000𝑑𝑚𝑜𝑑𝑒𝑙 Trong đó: 𝑑𝑚𝑜𝑑𝑒𝑙 chính là số phần tử của vector, các vị trí 𝑝𝑜𝑠 chẵn (2𝑖) sẽ được mã hóa bằng hàm sin, các vị trí 𝑝𝑜𝑠 lẻ (2𝑖 + 1) sẽ được mã hóa bằng hàm cos. Kỹ thuật này được giới thiệu trong [3]. Kích thước vector đầu ra của bộ mã hóa có cùng kích thước với chuỗi đầu vào, vector này sẽ tiếp tục được truyền qua khối giải mã. b) Bộ giải mã Bộ giải mã sử dụng kiến trúc Transfomer tiêu chuẩn, biến đổi 𝑁 vector embedding có kích thước 𝑑 bằng cách sử dụng các lớp Multi-Head Self-Attention và cơ chế attention giải mã – mã hóa. Tuy nhiên nghiên cứu [2] chỉ ra điểm khác rằng họ xử lý 𝑁 vector Embedding cùng lúc thay vì sử dụng mô hình hồi quy tự động, mô hình này chỉ có thể dự đoán một thành phần tại một thời điểm ở chuỗi đầu ra. Những vector Embedding đầu vào này là các vector mã hóa vị trí đã học được gọi là các truy vấn đối tượng (Object Queries), tương tự như bộ mã hóa, chúng sẽ được cộng vào ở mỗi lớp attention. 𝑁 truy vấn đối tượng sẽ được biến đổi thành các vector đầu ra encoding bởi bộ giải mã. Các đầu ra này sẽ được giải mã một cách độc lập thành các tọa độ của hộp giới hạn đối tượng và các lớp bởi một mạng truyền thẳng, cuối cùng ta sẽ có đầu ra là 𝑁 dự đoán. c) Mạng truyền thẳng Ở Phần b, chúng tôi có đề cập về mạng truyền thẳng để trả về các dự đoán cuối cùng. Cụ thể, mạng này bao gồm 3 lớp perceptron sử dụng hàm kích hoạt RELU và một lớp biến đổi tuyến tính. Mạng truyền thẳng này dự đoán tọa độ điểm giữa, chiều rộng và chiều cao của hộp giới hạn đối tượng, lớp biến đổi tuyến tính sẽ dự đoán lớp của đối tượng bằng hàm Softmax. Do chúng ta thu được 𝑁 dự đoán, 𝑁 có thể lớn hơn 𝑘 hộp đối tượng thật sự (Ground-truth box) do đó ta cần thêm 𝑎 đối tượng thuộc lớp 𝑛𝑜 𝑜𝑏𝑗𝑒𝑐𝑡 nữa để chỉ các vùng không chứa đối tượng (𝑁 = 𝑘 + 𝑎). 𝑎 đối tượng thuộc lớp 𝑛𝑜 𝑜𝑏𝑗𝑒𝑐𝑡 này đóng vai trò như 𝑏𝑎𝑐𝑘𝑔𝑟𝑜𝑢𝑛𝑑 trong các phương pháp phát hiện đối tượng hiện có. Kết hợp hai bên - Bipartite Matching Phương pháp DETR chủ yếu sẽ so sánh giữa tập dự đoán và tập ground-truth, do đó kỹ thuật kết hợp 2 bên sẽ được áp dụng. Ký hiệu 𝑦 là tập ground-truth, 𝑦� là tập gồm 𝑁 dự đoán. Như đã trình bày ở Phần c), do có thể 𝑁 lớn hơn số object trong tập ground-truth nên chúng ta sẽ xem như tập ground-truth 𝑦 cũng có 𝑁 đối tượng, trong đó các đối tượng còn lại thuộc lớp 𝑛𝑜 𝑜𝑏𝑗𝑒𝑐𝑡. Để tìm kết hợp 2 bên giữa 𝑦 và 𝑦�, các tác giả đã định nghĩa công thức sau: 𝑁 𝜎� = arg min � ℒ𝑚𝑎𝑡𝑐ℎ �𝑦𝑖 , 𝑦�𝜎(𝑖) � # (3) 𝜎∈𝔖𝑁 𝑖 Trong đó: 𝔖𝑁 là tập 𝑁 các hoán vị các cặp dự đoán và object thật sự. ℒ𝑚𝑎𝑡𝑐ℎ �𝑦𝑖 , 𝑦�𝜎(𝑖) � là hàm đo sự tương đương giữa ground truth 𝑦𝑖 và dự đoán tại vị trí 𝜎(𝑖), hàm này được giới thiệu lần đầu ở nghiên cứu [4]. Cụ thể hơn, hàm đo sự tương đương này sẽ so sánh cả lớp dự đoán và sự tương đương tọa độ hộp dự đoán và ground-truth. Mỗi đối tượng 𝑖 của ground-truth có thể được xem là 𝑦𝑖 = (𝑐𝑖 , 𝑏𝑖 ) với 𝑐𝑖 chính là lớp thật sự và 𝑏𝑖 = (𝑥𝑐𝑒𝑛𝑡𝑒𝑟 , 𝑦𝑐𝑒𝑛𝑡𝑒𝑟 , ℎ𝑒𝑖𝑔ℎ𝑡, 𝑤𝑖𝑑𝑡ℎ) là tọa độ của hộp giới hạn của đối tượng đó. Với mỗi dự đoán ở vị trí 𝜎(𝑖), ta ký hiệu xác suất dự đoán của lớp 𝑐𝑖 là 𝑝̂𝜎(𝑖) (𝑐𝑖 ) và hộp giới hạn dự đoán là 𝑏�𝜎(𝑖) . Ta định nghĩa ℒ𝑚𝑎𝑡𝑐ℎ như sau: ℒ𝑚𝑎𝑡𝑐ℎ �𝑦𝑖 , 𝑦�𝜎(𝑖) � = −1{𝑐𝑖≠∅} 𝑝̂𝜎(𝑖) (𝑐𝑖 ) + 1{𝑐𝑖≠∅} ℒ𝑏𝑜𝑥 �𝑏𝑖 , 𝑏�𝜎(𝑖) �# (4) Công thức (4) giúp tìm ra được các cặp dự đoán ground-truth mà không bị lặp lại. Lưu ý rằng hàm tương đương (4) giữa một đối tượng và 𝑛𝑜 𝑜𝑏𝑗𝑒𝑐𝑡 không phụ thuộc vào tập dự đoán, tức lúc này (3) trả về một hằng số. Bước tiếp theo, ta định nghĩa chi phí cho tất cả các cặp này, gọi là hàm mất mát 𝐻𝑢𝑛𝑔𝑎𝑟𝑖𝑎𝑛: ℒ𝐻𝑢𝑛𝑔𝑎𝑟𝑖𝑎𝑛 (𝑦, 𝑦�) = − log 𝑝̂𝜎�(𝑖) (𝑐𝑖 ) + 1{𝑐𝑖 ≠∅} ℒ𝑏𝑜𝑥 �𝑏𝑖 , 𝑏�𝜎�(𝑖) �# (5) Trong đó: 𝜎� được tính ở (3). Trong thực nghiệm, khi 𝑐𝑖 ≠ ∅ thì xác suất logarit sẽ giảm đi 10 lần để giải quyết vấn đề phân bố lớp không đều. Có thể thấy ở (5), tác giả đã thay xác suất 𝑝̂𝜎(𝑖) (𝑐𝑖 ) thành log 𝑝̂𝜎�(𝑖) (𝑐𝑖 ), điều này được giải thích rằng sẽ giúp vế dự đoán lớp trong (5) tương xứng với hàm chi phí hộp giới hạn, giúp đạt được hiệu quả tốt hơn. Quan sát thấy trong (5) ta còn một vế ℒ𝑏𝑜𝑥 , tức là hàm mất mát hộp giới hạn. Khác với các phương pháp trước dự đoán dựa vào các đề xuất cho trước, DETR dự đoán các hộp giới hạn một cách trực tiếp. Cách tiếp cận này đã dẫn
132 KHAI PHÁ HÀM CHI PHÍ CHO PHÁT HIỆN PHƯƠNG TIỆN GIAO THÔNG TRONG KHÔNG ẢNH đến vấn đề về tỉ lệ tương đối của hàm chi phí, để giải quyết vấn đề trên, các tác giả đã sử dụng tổng tuyến tính của hàm mất mát 𝑙1 và hàm mất mát IoU ℒ𝑖𝑜𝑢 bất biến tỉ lệ. Sau cùng, hàm mất mát hộp giới hạn được xác định như sau: ℒ𝑏𝑜𝑥 �𝑏𝑖 , 𝑏�𝜎�(𝑖) � = 𝜆𝑖𝑜𝑢 ℒ𝑏𝑜𝑥 �𝑏𝑖 , 𝑏�𝜎�(𝑖) � + 𝜆𝐿1 �𝑏𝑖 − 𝑏�𝜎�(𝑖) �1 # (6) Trong đó: 𝜆𝑖𝑜𝑢 , 𝜆𝐿1 là các siêu tham số. Hai hàm mất mát này sẽ được chuẩn hóa bởi số lượng đối tượng trong một batch. B. Khảo sát các hàm chi phí IoU và L1 i. Các hàm chi phí IoU a) Chi phí ℒ𝐼𝑜𝑈 Như đã trình bày, các bài toán phát hiện đối tượng được chia làm 02 bước: dự đoán lớp và hộp giới hạn của đối tượng. Một kỹ thuật thường được dùng để tinh chỉnh vị trí của hộp giới hạn được dự đoán là hồi quy hộp giới hạn (Bounding-box Regression). Hồi quy hộp giới hạn sử dụng vùng diện tích chồng nhau giữa hộp giới hạn dự đoán và hộp giới hạn được gọi là chi phí IoU [9]. Gọi 𝐵 là hộp giới hạn dự đoán 𝐵 𝑔𝑡 là hộp giới hạn thật sự, ta có IoU được xác định: |𝐵 ∩ 𝐵 𝑔𝑡 | 𝐼𝑜𝑈 = # (7) |𝐵 ∪ 𝐵 𝑔𝑡 | Vậy, chi phí 𝐼𝑜𝑈 được tính bằng công thức: ℒ𝐼𝑜𝑈 = 1 − 𝐼𝑜𝑈(𝐵, 𝐵 𝑔𝑡 )# (8) Tuy nhiên công thức (8) chỉ phản ánh đúng khi hộp giới hạn có vùng trùng nhau, nếu không có thì công thức này sẽ gặp hạn chế. Hình 5 cho thấy các trường hợp có IoU bằng nhau nhưng độ chính xác của từng trường hợp là khác nhau. Hình 5. Ba trường hợp IoU đều có giá trị là 0.33 b) Chi phí ℒ𝐺𝐼𝑜𝑈 𝐺𝐼𝑜𝑈 được đề xuất cân nhắc cả diện tích nhỏ nhất bao quanh hai hộp giới hạn 𝐶 [12], hàm chi phí ℒ𝐺𝐼𝑜𝑈 được định nghĩa như sau: |𝐶 − (𝐵 ∪ 𝐵 𝑔𝑡 )| ℒ𝐺𝐼𝑜𝑈 = ℒ𝐼𝑜𝑈 + # (9) |𝐶| Khi sử dụng hàm chi phí này, hộp giới hạn dự đoán sẽ cố gắng mở rộng ra đến kích thước của hộp bao thật sự, giúp cho dự đoán có thể tiến gần đến những dự đoán chính xác. c) Chi phí ℒ𝐷𝐼𝑜𝑈 ℒ𝐷𝐼𝑜𝑈 vẫn là một hàm chi phí ℒ𝐼𝑜𝑈 , tuy nhiên nó sẽ thêm một hàm phạt để xử lý trường hợp không trùng lấp giữa hai hộp giới hạn [10], hàm phạt này sẽ dựa vào điểm giữa của mỗi hộp bao. Hàm chi phí 𝐷𝐼𝑜𝑈 được định nghĩa như sau: ‖𝑏 − 𝑏 𝑔𝑡 ‖22 ℒ𝐷𝐼𝑜𝑈 = ℒ𝐼𝑜𝑈 + # (10) 𝑐2 Hàm phạt sẽ cố gắng tối thiểu khoảng cách giữa tọa độ trung tâm của hộp bao dự đoán b và hộp bao thật sự b gt . Mẫu số c là độ dài đường chéo của diện tích nhỏ nhất bao quanh hai hợp giới hạn C. Việc tìm khoảng cách nhỏ nhất giữa hai tọa độ trung tâm thay vì diện tích bao quanh C nhỏ nhất giúp cho ℒ𝐷𝐼𝑜𝑈 hội tụ nhanh hơn. d) Chi phí ℒ𝐶𝐼𝑜𝑈 Chi phí 𝐶𝐼𝑜𝑈 tương tự như được đề xuất nhằm giải quyết vấn đề tỉ lệ hộp giới hạn giữa chiều rộng và chiều cao của hai hộp giới hạn [11]. Hàm phi phí 𝐶𝐼𝑜𝑈 được định nghĩa như sau: ℒ𝐶𝐼𝑜𝑈 = ℒ𝐺𝐼𝑜𝑈 + 𝛼𝜐# (11)
Nguyễn Hoàn Mỹ, Bùi Cao Doanh, Võ Duy Nguyên, Nguyễn Tấn Trần Minh Khang 133 Trong đó: 𝛼 là tham số đánh đổi (trade-off) còn 𝜐 ước tính tính nhất quán của tỷ lệ khung hình, được định nghĩa như sau: 2 4 𝑤 𝑔𝑡 𝑤 𝜐= 2 (arctan 𝑔𝑡 − arctan ) # (12) 𝜋 ℎ ℎ 𝜐 𝛼= # (13) �1 − 𝐼𝑜𝑈(𝐵, 𝐵 𝑔𝑡 )� + 𝜐 ′ ii. Các hàm chi phí 𝐿1 Bên cạnh các chi phí 𝐼𝑜𝑈, chúng tôi sẽ khảo sát kèm các chi phí 𝐿1, cũng là một hàm chi phí trong kỹ thuật hồi quy hộp giới hạn. a) Smooth 𝐿1 Thay thế hàm chi phí 𝐿2, Smooth 𝐿1 được thiết kế dành riêng cho các phương pháp học sâu phát hiện đối tượng [14]. Đây chính là một trường hợp đặc biệt của hàm chi phí Huber, được định nghĩa như sau: 0.5𝑥� 2 , 𝑘ℎ𝑖 |𝑥�| < 1 𝐿1𝑠𝑚𝑜𝑜𝑡ℎ (𝑥�) = � # (14) |𝑥�| − 0.5, 𝑘ℎ𝑖 |𝑥�| ≥ 1 Trong đó: 𝑥� là sai số của tọa độ hộp giới hạn dự đoán và hộp giới hạn thật sự. b) Balanced 𝐿1 Smooth 𝐿1 gặp một vấn đề đó là gradients của các giá trị ngoại lai (outliners) có tác động xấu đến việc học, Balanced 𝐿1 được đề xuất để tăng sự đóng góp của các quan sát hiện tại (inliers) [13], chi phí này được định nghĩa như sau: 𝛼 (𝑏|𝑥�| + 1) ln(𝑏|𝑥�| + 1) − 𝛼|𝑥�|, 𝑘ℎ𝑖 |𝑥�| < 1 𝐿1𝑏𝑎𝑙𝑎𝑛𝑐𝑒𝑑 (𝑥�) = �𝑏 # (15) 𝛾|𝑥�| + 𝑍, 𝑘ℎ𝑖 |𝑥�| ≥ 1 Trong đó: 𝑏 đảm bảo 𝐿1𝑏𝑎𝑙𝑎𝑛𝑐𝑒𝑑 (𝑥� = 1) là một hàm liên tục, 𝑍 là một hằng số và mối quan hệ giữa các hệ số 𝛼, 𝑏, 𝛾 được xác định như sau: 𝛼 ln(𝑏 + 1) = 𝛾 # (16) IV. ĐÁNH GIÁ VÀ PHÂN TÍCH A. Bộ dữ liệu Chúng tôi sẽ tiến hành thực nghiệm trên bộ dữ liệu XDUAV [6]. Bộ dữ liệu được thu thập bằng flycam DJI Phantom 2 ở độ cao trung bình 100 m của Tây An, khu vực nông thôn và thành thị của Trung Quốc. Dữ liệu bao gồm 11 video được quay ở độ phân giải 1920 × 1080, 30 khung hình / giây. Tổng cộng 4344 hình ảnh, 2606 dành cho huấn luyện, 869 là tập phát triển và 869 để thử nghiệm mô hình. Các lớp đối tượng được dán nhãn là ô tô, xe buýt, xe tải, xe bồn, mô tô và xe đạp. Bảng 1 cho thấy số lượng hộp giới hạn ở từng lớp dữ liệu, Hình 6 thể hiện vài ví dụ của bộ dữ liệu. Bảng 1. Số lượng hộp giới hạn ở từng lớp đối tượng Dữ liệu/Lớp Ô tô Xe tải Xe buýt Xe mô-tô Xe đạp Xe bồn Train 20108 1681 1608 4005 1193 110 Val 6777 594 532 1273 405 28 Test 6956 573 550 1378 426 35 Total 33841 2848 2690 6656 2024 173 Hình 6. Hình ảnh ví dụ bộ dữ liệu XDUAV
134 KHAI PHÁ HÀM CHI PHÍ CHO PHÁT HIỆN PHƯƠNG TIỆN GIAO THÔNG TRONG KHÔNG ẢNH B. Cấu hình thực nghiệm Các thử nghiệm được tiến hành trên máy hệ điều hành Ubuntu 20.04.1 LTS, 4 GPU GeForce GTX 2080 12GB. Các kết quả được ghi nhận sau 150 epoch, mỗi epoch chúng tôi đặt batch size = 2. Các siêu tham số trong mô hình DETR và các hàm chi phí sẽ được giữ nguyên. C. Tiêu chí đánh giá mAP Chúng tôi tính toán Mean Average Precision (mAP) làm độ đo bằng cách lấy trung bình AP của tất cả các lớp đối tượng trong bộ dữ liệu được mô tả bởi các biểu thức (17, 18, 19) bên dưới: 𝑇𝑃𝐶𝑖𝑗 𝑃𝐶𝑖𝑗 = # (17) 𝑇𝑃𝐶𝑖𝑗 + 𝐹𝑃𝐶𝑖𝑗 𝑚 1 𝐴𝑃𝐶𝑖 = � 𝑃𝐶𝑖𝑗 # (18) 𝑚 𝑗=1 𝑛 1 𝑚𝐴𝑃 = � 𝐴𝑃𝐶𝑖 # (19) 𝑛 𝑖=1 Trong đó: 𝐶 là tập hợp các lớp đối tượng; 𝑃𝐶𝑖𝑗 là độ chính xác trên lớp 𝐶𝑖 của ảnh thứ 𝑗; 𝐴𝑃𝐶𝑖 là Average Precision (AP) của lớp 𝐶𝑖 ; 𝑚𝐴𝑃 là mean Average Precision, trung bình cộng của AP tất cả các lớp. Tuy nhiên để đơn giản, chúng ta vẫn có thể ký hiệu 𝑚𝐴𝑃 là 𝐴𝑃 và chúng tôi dùng các ngưỡng IoU trong đoạn [0.5:0.95] với bước nhảy 0.05 để tính các 𝐴𝑃 khác nhau, sau đó chúng tôi lấy trung bình cộng tất cả lại, là độ đo 𝐴𝑃. Tuy nhiên chúng tôi cũng ghi nhận 𝐴𝑃@50 (AP có ngưỡng IoU = 0.5) và 𝐴𝑃@75 (AP có ngưỡng IoU = 0.75) để so sánh khách quan. V. KẾT QUẢ THỰC NGHIỆM Bảng 2. Bảng kết quả 𝑨𝑷 các lớp (%) IoU 𝑨𝑷 𝑨𝑷@𝟓𝟎 𝑨𝑷@𝟕𝟓 L1 Loss Xe Xe mô Xe Xe Loss Ô tô Xe tải (%) (%) (%) buýt tô đạp bồn CIoU L1 74.4 77.7 71.1 47.5 38 68.4 62.8 93.8 71.1 CIoU Balanced 71.9 75.8 70.6 47.2 38.9 69.9 62.4 94.5 71.7 GIoU L1 74.5 77.1 70.2 48 38.3 69.2 62.9 94.5 71.3 GIoU Smooth 71.3 74.8 70.6 44.9 35 68.6 60.9 93.6 69.5 GIoU Balanced 76 77.2 76.8 51.2 41.7 70.9 65.6 94.9 75.4 Sau khi thực nghiệm, chúng tôi ghi nhận được các kết quả ở bảng 2. Mô hình sử dụng chi phí GIoU và Balanced L1 thu được kết quả với 𝐴𝑃, 𝐴𝑃@50, 𝐴𝑃@75 cao nhất lần lượt là 65.6%, 94.9% và 75.4%. Phương pháp này cũng cho kết quả AP vượt trội hầu hết ở các lớp đối tượng (trừ lớp Xe tải). Sự kết hợp của CIoU và Balanced L1 cho kết quả 𝐴𝑃 ở lớp xe tải cao nhất (77.7%). Hình 7. Một kết quả trực quan hóa kết quả trên mô hình GIoU - Balanced L1 cho thấy 05 trường hợp sai. Trường hợp (1), (2), (4) là xe mô tô nhưng bị dự đoán thành xe ô tô. Trường hợp (3) là xe ô tô bị dự đoán thành xe đạp, trường hợp (5) không thấy đối tượng.
Nguyễn Hoàn Mỹ, Bùi Cao Doanh, Võ Duy Nguyên, Nguyễn Tấn Trần Minh Khang 135 Các kết quả cho thấy DETR cho kết quả cao trên các đối tượng to như Xe tải, Xe bồn, mặc dù các lớp đối tượng này chiếm phần nhỏ số lượng hộp giới hạn trong toàn tập dữ liệu (lần lượt là 2848 và 173 hộp giới hạn), tuy nhiên kết quả AP thu được của hai đối tượng này ở mô hình dùng chi phí GIoU - Balanced L1 lần lượt là 76.8% và 70.9%, cao hơn cả các đối tượng có số lượng hộp giới hạn lớn hơn như Xe mô tô và Xe đạp (51.2% và 41.7%). Kết quả trực quan hóa ở hình 7 cho thấy mô hình DETR vẫn còn gặp hạn chế ở các đối tượng có diện tích hộp bao nhỏ (≥ 962 px). Các kết quả thực nghiệm của chúng tôi cũng cho thấy rằng chi phí 𝐺𝐼𝑜𝑈 cho kết quả khả quan hơn 𝐶𝐼𝑜𝑈 mặc dù 𝐶𝐼𝑜𝑈 được cho là giải quyết vấn đề tỉ lệ hộp giới hạn tốt hơn. Bên cạnh đó thí nghiệm cũng chỉ ra chi phí 𝐵𝑎𝑙𝑎𝑛𝑐𝑒𝑑 𝐿1 cho kết quả tốt hơn các chi phí 𝐿1 còn lại. VI. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Trong bài báo này, chúng tôi tìm hiểu, thực nghiệm và đánh giá phương pháp phát hiện đối tượng sử dụng kiến trúc Transfomer DETR sử dụng các chi phí trong công đoạn dự đoán hợp giới hạn 𝐼𝑜𝑈 và 𝐿1 khác nhau để quan sát kết quả và nhận xét những ưu điểm cũng như các hạn chế còn tồn tại trong phương pháp này. Trong tương lai chúng tôi sẽ tiến hành phân tích các hàm chi phí trong công đoạn phân loại đối tượng (classification) như Cross-Entropy, Focal Loss trên các bộ dữ liệu XDUAV, UAVDT để đánh giá hiệu quả của các hàm chi phí lên các phương pháp phát hiện đối tượng huấn luyện trên các bộ dữ liệu không ảnh. VII. LỜI CẢM ƠN Nghiên cứu được tài trợ bởi Đại học Quốc gia Thành phố Hồ Chí Minh (ĐHQG-HCM) trong khuôn khổ Đề tài mã số DS2021-26-01. Chúng tôi xin chân thành cảm ơn phòng thí nghiệm Truyền thông Đa phương tiện (MMLab), Trường Đại học Công nghệ Thông tin, ĐHQG-TP.HCM đã hỗ trợ chúng tôi trong quá trình nghiên cứu và thực nghiệm. TÀI LIỆU THAM KHẢO [1] Nguyen, Khang et al. “Detecting objects from space: An evaluation of deep-learning modern approaches”, Electronics 9.4: 583, 2020. [2] Carion, Nicolas et al. “End-to-end object detection with transformers”, European Conference on Computer Vision. Springer, Cham, 2020. [3] Vaswani, Ashish et al. “Attention is all you need”, arXiv preprint arXiv:1706.03762, 2017. [4] Stewart, Russell, Mykhaylo Andriluka, and Andrew Y. Ng. “End-to-end people detection in crowded scenes”, Proceedings of the IEEE conference on computer vision and pattern recognition, 2016. [5] Mandal, Murari, Lav Kush Kumar, and Santosh Kumar Vipparthi. “MOR-UAV: A benchmark dataset and baselines for moving object recognition in UAV videos”, Proceedings of the 28th ACM International Conference on Multimedia, 2020. [6] Xie, X.; Yang, W.; Cao, G.; Yang, J.; Shi, G. The Collected XDUAV Dataset. Available online: https://share.weiyun.com/8rAu3kqr. [7] Zhu, Pengfei et al. “Visdrone-det2018: The vision meets drone object detection in image challenge results”, Proceedings of the European Conference on Computer Vision (ECCV) Workshops, 2018. [8] Chung, Quynh M. et al. “Data Augmentation Analysis in Vehicle Detection from Aerial Videos”, 2020 RIVF International Conference on Computing and Communication Technologies (RIVF). IEEE, 2020. [9] Zhou, Dingfu et al. “Iou loss for 2d/3d object detection”, 2019 International Conference on 3D Vision (3DV). IEEE, 2019. [10] Zheng, Zhaohui et al. “Distance-IoU loss: Faster and better learning for bounding box regression”, Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 34. No. 07, 2020. [11] Zheng, Zhaohui et al. “Enhancing geometric factors in model learning and inference for object detection and instance segmentation”, arXiv preprint arXiv:2005.03572, 2020. [12] Rezatofighi, Hamid et al. “Generalized intersection over union: A metric and a loss for bounding box regression”, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019. [13] Wu, Shengkai et al. “Iou-balanced loss functions for single-stage object detection”, arXiv preprint arXiv:1908.05641, 2019. [14] Fu, Cheng-Yang, Mykhailo Shvets, and Alexander C. Berg. “RetinaMask: Learning to predict masks improves state-of-the-art single-shot detection for free”, arXiv preprint arXiv:1901.03353, 2019. [15] Ho, Ngoc et al. “Vehicle Detection at NightTime”, 2020 7th NAFOSTED Conference on Information and Computer Science (NICS). IEEE, 2020. SURVEY ON THE EFFICIENCY OF IOU AND L1 LOSS ON VEHICLE DETECTION PROBLEM IN AERIAL IMAGES USING DETR My H. Nguyen, Doanh C. Bui, Nguyen D. Vo, Khang Nguyen ABSTRACT: Detecting aerial vehicles is a practical problem that solves many traffic problems in the city. However, the existing datasets are collected with multiple angles, the object at a high rotation angle is often very small, which becomes one of the challenges of the problem. In this study, we conduct a survey on the efficiency of L1 and IoU loss functions on the same method DETR on the XDUAV dataset to observe the model improvement. Experimentally, we obtained the highest result of mAP50 = 94.9% when using the Balanced L1 loss function.