intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Phát hiện đối tượng trong không ảnh sử dụng phương pháp DINO

Chia sẻ: Phó Cửu Vân | Ngày: | Loại File: PDF | Số trang:6

7
lượt xem
2
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Nghiên cứu "Phát hiện đối tượng trong không ảnh sử dụng phương pháp DINO" tiến hành các thực nghiệm trên bộ dữ liệu ảnh chụp từ trên không VisDrone với nhiều backbone khác nhau để đánh giá toàn diện hiệu suất của phương pháp DINO và thu được nhiều kết quả đáng chú ý. Đây là một kết quả cạnh tranh đầy hứa hẹn cho những phương pháp end-to-end khác. Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Phát hiện đối tượng trong không ảnh sử dụng phương pháp DINO

  1. Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) PHÁT HIỆN ĐỐI TƯỢNG TRONG KHÔNG ẢNH SỬ DỤNG PHƯƠNG PHÁP DINO Võ Duy Nguyên, Lê Hữu Độ, Ngô Hương Giang, Nguyễn Thành Hiệp, Trần Thị Hồng Yến Trường Đại học Công nghệ thông tin, ĐHQG-HCM Email: {nguyenvd, hiepnt, yentth}@uit.edu.vn, {22520254, 22520357}@gm.uit.edu.vn Tóm tắt—Trong thời gian gần đây, việc thu thập dữ liệu hiện đối tượng. Gần đây, sau khi ra đời và trải qua thời từ các thiết bị bay không người lái đã làm tăng sự phát gian phát triển không ngừng, các mô hình phát hiện đối triển đáng kể của các tác vụ liên quan đến xử lý ảnh chụp tượng end-to-end mới mẻ so với các thuật toán truyền từ trên không. Ba tác vụ cơ bản trong lĩnh vực này bao thống, đã đạt được thành tựu đáng kể và chiếm giữ nhiều gồm phân lớp, phát hiện đối tượng và phân đoạn. Tuy nhiên, nói riêng về nhiệm vụ phát hiện đối tượng, các nhà vị trí cao trên bảng xếp hạng COCO test leaderboard [1]. nghiên cứu thường tập trung vào việc cải tiến các mô hình Các phương pháp end-to-end được công bố như là DAB- truyền thống, tức các mô hình thuộc loại một giai đoạn Detr [3], DINO [4],... có kích thước nhỏ và cho độ xác hoặc hai giai đoạn. Song, chúng ta cũng chứng kiến sự cao. Tuy nhiên chưa có nhiều thực nghiệm, nghiên cứu xuất hiện và phát triển đáng chú ý của các mô hình phát các phương pháp end-to-end trên các đối tượng trong ảnh hiện đối tượng end-to-end. Trong số các phương pháp này, chụp từ trên không. Từ các hướng tiếp cận đó, trong bài nổi bật có DINO (DETR withImproved deNoising anchor boxes), một phương pháp end-to-end đầu tiên đạt kết quả báo này chúng tôi nghiên cứu và đánh giá một mô hình SOTA trên bảng xếp hạng. Chúng tôi đã tiến hành các thực end-to-end tiêu biểu là DINO trên một bộ dữ liệu ảnh nghiệm trên bộ dữ liệu ảnh chụp từ trên không VisDrone chụp từ trên không phổ biến hiện nay là VisDrone [2]. với nhiều backbone khác nhau để đánh giá toàn diện hiệu Để đánh giá một cách toàn diện hơn về DINO chúng tôi suất của phương pháp DINO và thu được nhiều kết quả thực nghiệm phương pháp trên 5 backbone khác nhau. đáng chú ý. Đây là một kết quả cạnh tranh đầy hứa hẹn Đóng góp chính trong bài báo này của chúng tôi là đưa cho những phương pháp end-to-end khác. Từ khóa—Phát hiện đối tượng trong không ảnh, DINO, ra một góc nhìn mới của một mô hình end-to-end trên VisDrone dataset. ảnh chụp từ trên không, từ đó là tiền đề cho các nghiên cứu trong tương lai. I. GIỚI THIỆU Phần còn lại của bài báo được tổ chức như sau, trong Chương 2 chúng tôi sẽ giới thiệu về bài toán phát hiện Phát hiện đối tượng là một bài toán kinh điển, được đối tượng từ các hình ảnh được chụp từ UAVs, tiếp theo nghiên cứu trong thời gian dài. Đầu vào của bài toán là sẽ tìm hiểu về phương pháp end-to-end DINO. Chương ảnh và đầu ra của bài toán là một ảnh có các đối tượng 3, chúng tôi trình bày việc thực nghiệm và thảo luận về được nhận diện bằng hộp giới hạn, minh họa trong Hình kết quả đạt được. Cuối cùng, Chương 4 sẽ kết luận bài 1. Bài toán phát hiện đối tượng đã không ngừng được báo và đưa ra các hướng nghiên cứu tiếp theo. cải tiến qua thời gian và đạt được thành tựu, tiến bộ đáng kể. Bên cạnh đó, độ chính xác trong việc phát II. NGHIÊN CỨU LIÊN QUAN hiện đối tượng là một yếu tố quan trọng và có rất nhiều Trong phần này, chúng tôi trình bày về bài toán phát ứng dụng như là hiểu ngữ nghĩa trong hình ảnh, trong hiện đối tượng trên UAVs và phương pháp phát hiện đối video. Tuy phát triển là vậy nhưng đối với các mô hình tượng end-to-end DINO. phát hiện đối tượng hiện nay, việc phát hiện đối tượng trong ảnh được thu từ trên cao thông qua các phương A. Phát hiện đối tượng trên các hình ảnh được chụp từ tiện bay không người lái lại chưa được tối ưu, không đạt UAVs. được độ chuẩn xác cao do nhiều thách thức như là điều Các thiết bị drone, hay Unmanned Aerial Vehicles kiện thời tiết, góc nhìn, kích thước. (UAVs), đã trải qua một sự bùng nổ đáng kể trong thời Các thuật toán phát hiện đối tượng được chia làm hai gian gần đây. Điều này đã tạo ra một làn sóng dữ liệu loại chính là một giai đoạn và hai giai đoạn. Hai loại và ứng dụng mới trong thực tế như trong lĩnh vực nông thuật toán này đi đôi với sự phát triển của bài toán phát nghiệp, cứu hộ, quân sự,. . . Sự bùng nổ dữ liệu thu thập ISBN 978-604-80-8932-0 323
  2. Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) Hình 1: a) và b) là hình ảnh các phương tiện trong góc nhìn bình thường. c) là đầu vào của bài toán phát hiện đối tượng trong ảnh được chụp từ trên không với d) là đầu ra có những đối tượng đã được xác định với GT [1][2]. được từ UAVs đã có tác động to lớn lên ngành trí tuệ như VisDrone, UAVDT [9],. . . nhân tạo, đặc biệt là trong lĩnh vực thị giác máy tính. Dữ liệu được thu thập từ UAVs có nhiều góc độ quan B. DINO: đại diện đưa phương pháp end-to-end lên tầm sát độc đáo từ trên cao khác biệt hoàn toàn so với dữ cao mới. liệu được thu thập từ máy ảnh thông thường. UAVs có Hiện nay các thuật toán phát hiện đối tượng chia thành khả năng thu thập dữ liệu thời gian thực giúp AI phân hai loại chính: một giai đoạn và hai giai đoạn. Sự khác tích sự thay đổi trong thời gian nhanh chóng. Điều này biệt lớn nhất giữa 2 thuật toán này là vùng đề xuất. có ứng dụng quan trọng trong việc theo dõi và đánh giá Thuật toán một giai đoạn không tạo ra vùng đề xuất tình hình như trong tình huống khẩn cấp hoặc giám sát và có thể nhận diện được đối tượng và định vị được thiên tai. Ảnh từ UAVs thường cung cấp cái nhìn toàn đối tượng. Các phương pháp áp dụng một giai đoạn bao cảnh, có thể bao gồm môi trường rộng lớn hoặc các khu gồm: YOLO, SSD [10], ... Trong khi đó, thuật toán hai vực khó tiếp cận, tạo ra dữ liệu đa dạng và cung cấp giai đoạn chia làm 2 giai đoạn, đầu tiên là tạo ra vùng thông tin quan trọng cho các ứng dụng trí tuệ nhân tạo. đề xuất trước và sau đó mới phân loại và định vị tọa độ Tuy nhiên dữ liệu được thu thập từ UAVs thường chứa của đối tượng. Các phương pháp áp dụng hai giai đoạn các đối tượng ở tỷ lệ nhỏ và xa. Các bộ dữ liệu ảnh chụp bao gồm: Faster R-CNN [11], Mask R-CNN [12],... Một từ trên không còn khá hạn chế làm cho các phương pháp giai đoạn có lợi thế về tốc độ và hai giai đoạn có ưu truyền thống gặp khó khăn trong việc nhận biết và phát điểm về độ chính xác. hiện các đối tượng nhỏ hoặc từ khoảng cách xa. Điều Tuy nhiên hiệu suất của các mô hình mạng tích chập kiện ánh sáng và môi trường thay đổi nhanh khi drone chủ yếu dựa vào cách mô hình tạo neo và cần những di chuyển qua các khu vực khác nhau gây khó khăn cho thành phần thủ công như NMS [13] để loại bỏ hiện việc phát hiện đối tượng, đặc biệt là trong điều kiện ánh tượng trùng hộp giới hạn dẫn đến không tối ưu hóa sáng yếu hoặc khi đối tượng nằm trong bóng râm. Dữ được. Do đó Carion và các cộng sự đã đề xuất một bộ liệu từ drone thường bị nhiễu bởi gió, rung lắc hoặc bóng phát hiện đối tượng end-to-end có tên là DETR [14] đổ từ các vật thể xung quanh, đối tượng có hình dạng đánh dấu bước khởi đầu cho các bộ phát hiện end-to- khác nhau khi được quan sát từ các góc nhìn khác nhau end. DETR đơn giản hóa kiến trúc của các phương pháp dẫn đến việc phát hiện trở nên khó khăn hơn. Ngoài ra, cổ điển, loại bỏ đi những thành phần thủ công. số lượng dữ liệu từ drone thường rất lớn và có độ phân DINO là phương pháp phát hiện đối tượng end-to-end giải cao, điều này đòi hỏi các phương pháp phân loại và đạt được state-of-the-art. DINO cải tiến từ DETR với 3 phát hiện đối tượng phải xử lý một lượng lớn thông tin, điểm chính là: Contrastive Denoising Training, Mixed có thể gây ra vấn đề về hiệu suất. Để vượt qua những Query Selection và Look Forward Twice. Contrastive khó khăn này, các phương pháp thị giác máy tính hiện DeNoising Training làm tăng độ ổn định trong quá trình đại thường kết hợp nhiều kỹ thuật, bao gồm học máy huấn luyện và tăng tốc quá trình hội tụi giúp giảm thời và học sâu, để tận dụng dữ liệu từ UAVs và cải thiện gian huấn luyện. Mixed Query Selection sử dụng vị trí khả năng phát hiện đối tượng. Các bộ phát hiện cải tiến thông tin tốt hơn để thu thập nội dung toàn diện từ từ họ YOLO [5] như TPH-YOLOv5++[6], ConvMixer bộ mã hóa. Look Forward Twice giúp mô hình tránh YOLOv5 [7], Modified YOLOv8 [8],. . . phục vụ cho sự lan truyền ngược và sử dụng lại tham số làm tăng phát hiện đối tượng từ UAVs đạt hiệu quả cao khi đánh sự ổn định huấn luyện. Những đặc điểm trên làm cho giá trên các bộ dữ liệu ảnh chụp từ trên không nổi tiếng DINO đạt được kết quả ấn tượng trên bảng xếp hạng ISBN 978-604-80-8932-0 324
  3. Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) COCOval2017. Framework của DINO được biễu diễn Trong đó, P là precision, R là recall. trong Hình 2. Ngoài ra, để đánh giá hiệu suất tổng quan mô hình III. THỰC NGHIỆM VÀ ĐÁNH GIÁ chúng tôi sử dụng độ đo mAP được tính theo công thức (2): A. Bộ dữ liệu Trong bài báo này chúng tôi sử dụng VisDrone-DET n 1 (object detection in images) là bộ dữ liệu bao gồm các APi (2) n ảnh được thu thập thông qua drone với nhiều tình huống i=1 thực tế khác nhau, thu thập qua nhiều loại drone, qua Trong đó, APi là điểm AP trên lớp thứ i. nhiều nơi (14 thành phố tại Trung Quốc trải dài hàng chục ngàn km), dưới nhiều điều kiện thời tiết, ánh sáng. D. Kết quả thực nghiệm VisDrone đem đến nhiều thách thức cho các mô hình Sau khi tiến hành thực nghiệm trên các backbone phát hiện đối tượng, Hình 3 gồm một số trường hợp R50, R101, Swin-Tiny, ConvNext-Tiny, InternImage- trong bộ dữ liệu. VisDrone-DET bao gồm bên trong Tiny chúng tôi thu được điểm số AP chi tiết trên bảng III. nó là 8629 ảnh với 6471 cho tập huấn luyện (train), DINO + InternImage-Tiny cho kết quả tốt nhất với điểm 1610 ảnh cho tập kiểm thử (test-dev) và 548 ảnh cho mAP là 23.263%. InternImage [18] là backbone được tập kiểm chứng (validation). Bộ dữ liệu có hơn 350k đề xuất vào năm 2023 với khả năng đáp ứng mạnh mẽ bounding boxes cho các đối tượng được gán nhãn với cho các nhiệm vụ phát hiện đối tượng hay phân đoạn 12 lớp: ignored regions, pedestrian, people, bicycle, car, đối tượng thông qua vệ tinh. Với những cải tiến ưu việt, van, truck, tricycle, awning-tricycle, bus, motor, others. InternImage cho hiệu xuất tốt khi kết hợp với DINO Số lượng nhãn các đối tượng trong lớp được phân bố và kích thước của mô hình Tiny không quá lớn chỉ với như Bảng I. khoảng 30M parameters. Trái ngược với InternImage- Tiny, backbone ConvNext-Tiny với điểm số 16.464% B. Cấu hình thực nghiệm tuy được đề xuất gần đây lại cho điểm số không đạt Các thử nghiệm được chúng tôi tiến hành trên tool- như kì vọng và thấp hơn đáng kể các mô hình cũ như box detrex [15], hệ điều hành Ubuntu 20.04.1 LTS R50 (21.817%) hay R101 (21.634%). Backbone có số (GNU/Linux 5.8.0-53-generic x86_64), Python phiên lượng parameters lớn nhất là R101 với 40M parameters bản 3.8.17, CUDA 11.3, Pytorch 2.0.1 và GPU NVIDIA nhưng lại cho điểm số mAP chưa thật sự ấn tượng GeForce RTX 2080 Ti. là 21.634% (Thấp hơn hầu hết các backbone và chỉ Để có đánh giá một cách toàn diện, thí nghiệm được cao hơn backbone ConvNext-Tiny). Swin-Tiny phiên bản chúng tôi tiến hành trên 05 backbone khác nhau của nhỏ gọn cho kết quả tương đối tốt là 22.252% xếp thứ mô hình DINO bao gồm: R50[16], R101 [16], SwinT 2 chỉ sau InternImage-Tiny. [17], InternImage-Tiny [18] và ConvNext-Tiny [19]. Cấu Trong tất cả các backbone, lớp car luôn đạt điểm số hình được chia làm 3 nhóm: nhóm 1 gồm các backbone cao nhất. Hai nguyên nhân chính dẫn đến điều này là R101, InternImage, Swin-Tiny với 2 GPU, batch size do số lượng đối tượng car trong bộ dữ liệu VisDrone 2, 12 epochs; nhóm 2 sử dụng backbone R50 với 2 chiếm nhiều nhất và lớp car không có lớp tương tự gây GPU, batch size 2, 24 epochs; nhóm 3 sử dụng backbone nhiễu. Mặc dù có số lượng đối tượng nhiều chỉ sau lớp ConvNext, với 1 GPU, batch size 1, 12 epochs. Tất cả car nhưng lớp pedestrian có điểm số trên các backbone các backbone đều sử dụng pretrained model tương ứng tương đối thấp (dưới 20%), nguyên nhân chính là do lớp trên bộ dữ liệu MS-COCO [1]. Số lượng tham số các people tương tự gây nhiễu làm điểm số của cả hai lớp backbone được thể hiện trong Bảng II. giảm đi đáng kể. Tương tự là các lớp tương đồng như C. Tiêu chí đánh giá tricycle và awning-tricycle cũng có điểm số thấp. Để đánh giá các thực nghiệm, chúng tôi sử dụng một Hình 4 được chụp trong điều kiện ánh sáng kém và độ đo phổ biến là Average Precision (AP) [20]. AP là các đối tượng che lấp lẫn nhau gây khó khăn cho mô một độ đo được sử dụng để đánh giá mô hình phát hiện hình. Với backbone a), DINO phát hiện tốt nhất được 7 đối tượng hoặc phân đoạn hình ảnh. AP được tính bằng đối tượng trong hình. Với backbone b), DINO cho kết diện tích miền giới hạn của trục tọa độ và đường cong quả kém nhất khi không phát hiện được đối tượng nào. Precision-recall với công thức (1): Hình 5 được chụp trong điều kiện ánh sáng kém và 1 các đối tượng có kích thước đem đến thách thức lớn P(R) dR (1) cho mô hình. Không giống như kết quả trực quan hóa ở 0 Hình 4 DINO phát hiện tốt nhất ở backbone c) và tương ISBN 978-604-80-8932-0 325
  4. Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) Hình 2: Hình ảnh minh họa Framework của DINO. Các cải tiến chính của chủ yếu nhắm vào bộ mã hóa Transformer và bộ giải mã Transformer. Các đặc trưng top-K mã hóa trong lớp cuối cùng được chọn để khởi tạo các truy vấn vị trí cho bộ giải mã Transformer, trong khi các truy vấn nội dung được giữ lại như các tham số có thể học. Bộ giải mã cũng bao gồm một phần DeNoising Contrastive với cả mẫu dương và mẫu âm [4]. Hình 3: Một vài hình ảnh trong bộ dữ liệu VisDrone [2]. Bảng I: Bảng thống kê bộ dữ liệu VisDrone. Class Ignore Awning Pedestrian People Bicycle Car Van Truck Tricycle Bus Motor Others Subset region -tricycle Train 8,813 79,337 27,059 10,480 144,867 24,956 12,875 4,812 3,246 5,926 29,647 1,532 Validation 1,378 8,844 5,125 1,287 14,064 1,975 750 1,045 532 251 4,886 32 Test-dev 2,180 21,006 6,376 1,302 28,074 5,771 2,659 530 599 2,940 5,845 265 Total 12,371 109,187 38,560 13,069 187,005 32,702 16,284 6,387 4,377 9,117 40,378 1,829 Bảng II: Backbone và tham số tương ứng. dữ liệu ảnh từ trên không đầy thách thức. DINO đạt kết Backbone Parameters quả chưa thực sự ấn tượng nếu so với các mô hình truyền R50 26,6M thống khác trên bộ dữ liệu VisDrone với thông số mặc R101 44,6M Swin-Tiny 28M định. Mặc dù bộ dữ liệu VisDrone có nhiều khác biệt ConvNext-Tiny 29M về đặc điểm so với bộ dữ liệu MS-COCO, phương pháp InternImage-Tiny 30M DINO vẫn có độ ổn định trong quá trình huấn luyện, mô hình cho kết quả cao trên hai bộ dữ liệu đều thu được trong khoảng từ 10-20 epochs. Trong Hình 6 chúng ta tự backbone b) cho kết quả kém nhất khi không phát thấy kết quả các mô hình đều có xu hướng gia tăng, đây hiện được đối tượng nào. là một động lực để chúng tôi tiếp tục thực hiện những IV. KẾT LUẬN nghiên cứu sâu rộng, cải tiến trong tương lai. Trong nghiên cứu này chúng tôi đánh giá và phân tích một phương pháp end-to-end cụ thể là DINO trên miền ISBN 978-604-80-8932-0 326
  5. Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) Hình 4: Kết quả trực quan hóa với từng backbone trong điều kiện ánh sáng kém và các đối tượng che lấp nhau. Hình 5: Kết quả trực quan hóa với từng backbone trong điều kiện ánh sáng kém và các đối tượng nhỏ, che lấp nhau. Bảng III: Kết quả các backbone trên bộ dữ liệu VisDrone. Backbone Ignore regions Pedestrian Person Bicycle Car Van Truck Tricycle Awning-tricycle Bus Motor Others mAP(%) R50 1,64 17,289 11,094 10,814 48,333 31,862 32,63 18,702 16,778 45,351 19,785 7,553 21,819 R101 1,682 17,002 9,79 10,424 48,485 32,195 33,245 16,034 14,39 46,533 18,356 11,469 21,634 Swin-Tiny 1,88 17,899 10,392 10,721 48,636 33,168 34,497 18,126 15,458 48,228 19,725 8,292 22,252 ConvNext-Tiny 0,41 13,089 6,979 5,11 46,228 27,92 22,753 10,938 10,136 38,75 12,94 2,321 16,464 InternImage-Tiny 2,287 18,269 11,262 12,386 48,607 33,896 37,283 19,107 16,659 48,499 21,01 9,896 23,263 LỜI CẢM ƠN TÀI LIỆU THAM KHẢO Nghiên cứu này được tài trợ bởi Trường Đại học Công [1] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, nghệ Thông tin - ĐHQG-HCM trong khuôn khổ Đề tài P. Dollár, and C. L. Zitnick, “Microsoft coco: Common objects in mã số D2-2023-05. ISBN 978-604-80-8932-0 327
  6. Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) Hình 6: Kết quả thực nghiệm các backbone của DINO trên tập test-dev của bộ dữ liệu VisDrone. context,” in Computer Vision–ECCV 2014: 13th European Con- [11] R. Girshick, “Fast r-cnn,” in Proceedings of the IEEE interna- ference, Zurich, Switzerland, September 6-12, 2014, Proceedings, tional conference on computer vision, 2015, pp. 1440–1448. Part V 13. Springer, 2014, pp. 740–755. [12] K. He, G. Gkioxari, P. Dollár, and R. Girshick, “Mask r-cnn,” in [2] P. Zhu, L. Wen, D. Du, X. Bian, H. Fan, Q. Hu, and H. Ling, Proceedings of the IEEE international conference on computer “Detection and tracking meet drones challenge,” IEEE Trans- vision, 2017, pp. 2961–2969. actions on Pattern Analysis and Machine Intelligence, vol. 44, [13] A. Neubeck and L. Van Gool, “Efficient non-maximum suppres- no. 11, pp. 7380–7399, 2021. sion,” in 18th International Conference on Pattern Recognition [3] S. Liu, F. Li, H. Zhang, X. Yang, X. Qi, H. Su, J. Zhu, and (ICPR’06), vol. 3, 2006, pp. 850–855. L. Zhang, “Dab-detr: Dynamic anchor boxes are better queries [14] N. Carion, F. Massa, G. Synnaeve, N. Usunier, A. Kirillov, and for detr,” arXiv preprint arXiv:2201.12329, 2022. S. Zagoruyko, “End-to-end object detection with transformers,” [4] H. Zhang, F. Li, S. Liu, L. Zhang, H. Su, J. Zhu, L. M. in European conference on computer vision. Springer, 2020, Ni, and H.-Y. Shum, “Dino: Detr with improved denoising pp. 213–229. anchor boxes for end-to-end object detection,” arXiv preprint [15] T. Ren, S. Liu, F. Li, H. Zhang, A. Zeng, J. Yang, X. Liao, arXiv:2203.03605, 2022. D. Jia, H. Li, H. Cao et al., “detrex: Benchmarking detection [5] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You only transformers,” arXiv preprint arXiv:2306.07265, 2023. look once: Unified, real-time object detection,” in Proceedings of [16] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning the IEEE conference on computer vision and pattern recognition, for image recognition,” in Proceedings of the IEEE conference 2016, pp. 779–788. on computer vision and pattern recognition, 2016, pp. 770–778. [6] Q. Zhao, B. Liu, S. Lyu, C. Wang, and H. Zhang, “Tph- [17] Z. Liu, Y. Lin, Y. Cao, H. Hu, Y. Wei, Z. Zhang, S. Lin, yolov5++: Boosting object detection on drone-captured scenar- and B. Guo, “Swin transformer: Hierarchical vision transformer ios with cross-layer asymmetric transformer,” Remote Sensing, using shifted windows,” in Proceedings of the IEEE/CVF in- vol. 15, no. 6, p. 1687, 2023. ternational conference on computer vision, 2021, pp. 10 012– [7] R. Baidya and H. Jeong, “Yolov5 with convmixer prediction 10 022. heads for precise object detection in drone imagery,” Sensors, [18] W. Wang, J. Dai, Z. Chen, Z. Huang, Z. Li, X. Zhu, X. Hu, vol. 22, no. 21, p. 8424, 2022. T. Lu, L. Lu, H. Li et al., “Internimage: Exploring large- [8] Y. Li, Q. Fan, H. Huang, Z. Han, and Q. Gu, “A modified yolov8 scale vision foundation models with deformable convolutions,” detection network for uav aerial image recognition,” Drones, in Proceedings of the IEEE/CVF Conference on Computer Vision vol. 7, no. 5, p. 304, 2023. and Pattern Recognition, 2023, pp. 14 408–14 419. [9] D. Du, Y. Qi, H. Yu, Y. Yang, K. Duan, G. Li, W. Zhang, [19] Z. Liu, H. Mao, C.-Y. Wu, C. Feichtenhofer, T. Darrell, and Q. Huang, and Q. Tian, “The unmanned aerial vehicle bench- S. Xie, “A convnet for the 2020s,” in Proceedings of the mark: Object detection and tracking,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recog- European conference on computer vision (ECCV), 2018, pp. nition, 2022, pp. 11 976–11 986. 370–386. [20] M. Everingham, L. Van Gool, C. K. Williams, J. Winn, and [10] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y. A. Zisserman, “The pascal visual object classes (voc) challenge,” Fu, and A. C. Berg, “Ssd: Single shot multibox detector,” in International journal of computer vision, vol. 88, pp. 303–338, Computer Vision–ECCV 2016: 14th European Conference, Am- 2010. sterdam, The Netherlands, October 11–14, 2016, Proceedings, Part I 14. Springer, 2016, pp. 21–37. ISBN 978-604-80-8932-0 328
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
18=>0