intTypePromotion=1
ADSENSE

Phát hiện phương tiện giao thông trong không ảnh với nhiều tình huống khác nhau

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:6

5
lượt xem
0
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết trình bày phân tích và đánh giá hiệu suất của phương pháp D2Det trên bộ dữ liệu không ảnh UAVDT-Benchmark-M cho các tình huống daylight, low-alt, bird-view. Các kết quả ban đầu được báo cáo đầy đủ và là cơ sở cho các nghiên cứu sau này trong việc phát triển thuật toán trên miền dữ liệu không ảnh.

Chủ đề:
Lưu

Nội dung Text: Phát hiện phương tiện giao thông trong không ảnh với nhiều tình huống khác nhau

  1. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) Phát hiện phương tiện giao thông trong không ảnh với nhiều tình huống khác nhau Phan Thị Hồng Cúc, Võ Duy Nguyên, Nguyễn Thành Hiệp, Nguyễn Tấn Trần Minh Khang Trường Đại Học Công Nghệ Thông Tin, ĐHQG-HCM 18520260@gm.uit.edu.vn, {nguyenvd, hiepnt, khangnttm}@uit.edu.vn Tóm tắt—Phát hiện phương tiện giao thông trong ảnh bài toán. Chẳng hạn như, khi thiết bị bay di chuyển với chụp từ trên không có nhiều ứng dụng cho các hệ thống tốc độ nhanh, hình ảnh thu được sẽ bị mờ, thiết bị bay thông minh trong những năm gần đây. Những thách thức càng cao thì đối tượng trong ảnh sẽ càng nhỏ hay khi mới từ độ cao, tầm nhìn toàn cảnh và góc chụp thẳng cần có sương mù, hoặc vào thời điểm ban đêm, đối tượng được khai thác nhiều hơn. Trong nghiên cứu này, chúng tôi phân tích và đánh giá hiệu suất của phương pháp D2Det trong ảnh sẽ khó nhận biết hơn. trên bộ dữ liệu không ảnh UAVDT-Benchmark-M cho các tình huống daylight, low-alt, bird-view. Các kết quả ban đầu được báo cáo đầy đủ và là cơ sở cho các nghiên cứu sau này trong việc phát triển thuật toán trên miền dữ liệu không ảnh. Từ khóa—Vehicle detection, Convolutional neural net- work, Drone, Aerial image. I. GIỚI THIỆU Với sự phát triển mạnh mẽ của công nghệ, nhiều dự án xây dựng thành phố thông minh đã và đang được nghiên cứu rộng rãi. Một trong những yếu tố góp phần hiện thực điều ấy là việc xây dựng nên hệ thống quản Hình 1: Bài toán hiện phương tiện giao thông trong lý hoạt động giao thông thông minh. Trong đó, việc không ảnh phát hiện phương tiện giao thông trong ảnh là một phần không thể thiếu bởi nó giúp ta giám sát, phân tích hành vi của người tham gia giao thông, tính toán lưu lượng Bài toán phát hiện phương tiện giao thông trong không giao thông phục vụ cho các lĩnh vực liên quan. Song ảnh đang ngày càng phổ biến trong giới nghiên cứu khoa cách thức thu thập dữ liệu bằng hệ thống camera giám học. Nhiều bộ dữ liệu đã được công bố như UAVDT [5], sát cố định bị hạn chế về địa điểm, tầm nhìn, góc quay VisDrone [6] và các cuộc thi như ODAI [7], VisDrone mà chỉ có thể giải quyết bằng cách lắp đặt camera tại Challenge [8] được tổ chức để khuyến khích các nhà nhiều địa điểm khác nhau. Dù vậy, việc lắp đặt lại bị nghiên cứu tìm ra các phương pháp xử lý nhằm nâng ảnh hưởng bởi các công trình xây dựng của khu vực cần cao sự chính xác, độ hiệu quả cho bài toán. Bài toán lắp. Do đó, việc sử dụng không ảnh – hình ảnh thu được nhận đầu vào là ảnh chụp giao thông được trích xuất từ các thiết bị bay không người lái (UAV) đang ngày từ camera của thiết bị bay không người lái và cho ra càng phổ biển. Bởi chỉ với một vài thiết bị bay, ta có các thông tin về vị trí, tên tương ứng với từng phương thể cho camera bay qua nhiều địa điểm, thu thập được tiện giao thông có trong ảnh đầu vào như Hình 1. Nhiều lượng lớn hình ảnh từ các độ cao, góc quay, điều kiện khảo sát về phương pháp phát hiện đối tượng như Faster thời tiết, ánh sáng khác nhau, từ đó giúp giảm chi phí RCNN [9], YOLO [10], SNIPER [11] trong không ảnh cũng như thời gian thực hiện. Không ảnh có nhiều ứng cũng được công bố gần đây [12], [13], [14], [15], [16]. dụng trong các hệ thống giám sát an ninh, nông nghiệp, Phần còn lại của bài báo được tổ chức như sau: vận chuyển hàng hóa [1], [2], [3], [4]. các nghiên cứu liên quan được trình bày ở Chương II, Tuy nhiên, trong thực tế, sự đa dạng về hình dạng Chương III trình bày thông tin thực nghiệm. Chương IV phương tiện cùng các yếu tố như góc quay, độ cao của đánh giá kết quả của mô hình, cuối cùng, chúng tôi đưa camera, thời tiết, ánh sáng cũng chính là thách thức của ra kết luận và hướng nghiên cứu ở Chương V. ISBN 978-604-80-5958-3 339
  2. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) II. CÁC NGHIÊN CỨU LIÊN QUAN A. Faster R-CNN Faster R-CNN [17] là phương pháp phát hiện đối tượng thuộc họ R-CNN được công bố bởi Ross Girshick cùng các cộng sự. Ý tưởng của Faster R-CNN cũng tương tự với các phương pháp họ R-CNN trước đó: lấy ra các vùng có khả năng chứa đối tượng tại giai đoạn 1 rồi Hình 3: Deformable RoI pooling [18] tiến hành phân loại và xác định vị trí của đối tượng dựa trên vùng đó tại giai đoạn 2. Tuy nhiên, thay vì sử dụng thuật toán Selective search như các phương pháp cùng C. D2Det họ trước đó, Faster R-CNN đề xuất Region proposal D2Det [19] được công bố tại hội nghị CVPR vào network (RPN) để lấy các vùng đề xuất có khả năng năm 2020 bởi Jiale Cao cùng các cộng sự. Đây là một chứa đối tượng. phương pháp phát hiện đối tượng 2 giai đoạn dựa trên Kiến trúc mạng RPN nhận đầu vào là feature map và Faster R-CNN. Giai đoạn 1 của D2Det dùng RPN để cho ra các vùng đề xuất có khả năng chứa đối tượng. thu được các vùng đề xuất có khả năng chứa đối tượng. Vì không sử dụng thuật toán Selective search nên Faster Tại giai đoạn 2, D2Det đề xuất dense local regression R-CNN đưa ra định nghĩa anchor để xác định các anchor và discriminative RoI pooling thay cho bounding box box ban đầu có thể là region proposal. regression và object classification của Faster R-CNN. Trong đó, dense local regression xác định vị trí của đối tượng và discriminative RoI pooling xác định nhãn của đối tượng. Hình 4: Kiến trúc của D2Det [19] Hình 2: RPN [17] Dense local regression xem đặc trưng RoI k x k chiều (ma trận thu được từ quá trình RoI pooling hoặc RoIAlign) như k 2 đặc trưng cục bộ (local feature) liền kề B. Deformable RoI pooling trong không gian. Mỗi đặc trưng cục bộ này được biểu diễn là pi . Mỗi thông số li , ri , ti , bi của ground-truth Deformable RoI pooling [18] được công bố trong bài box G tương ứng với pi được tính bằng các công thức báo "Deformable convolutional networks" tại hội nghị (1), (2), (3), (4) với xi , yi là tọa độ vị trí của pi , xl , yt ICCV vào năm 2017 và được dùng để thay thế cho RoI là tọa độ góc trái trên và xr , yb là tọa độ góc phải dưới pooling thường dùng. Deformable RoI pooling được thực của ground-truth box G, wP , hP là chiều rộng và chiều hiện như sau: Đầu tiên, ở nhánh trên, ta vẫn sử dụng RoI cao của proposal P như Hình 5 pooling (hoặc RoIAlign) để pool feature map thành ma trận có kích thước cố định cho trước. Sau đó, một lớp xi − xl li = (1) fully connected tạo ra các thông số được chuẩn hóa ∆ˆpij wP và được biến đổi thành ∆pij (phương trình trong hình 3) tại γ = 0.1. Cuối cùng, ở nhánh dưới, ta thực hiện xr − xi ri = (2) deformable RoI pooling. Feature map đầu ra sẽ được wP pool dựa trên các vùng với các thông số đã được tăng yi − yt cường (augmented offsets) xem Hình 3. ti = (3) hP ISBN 978-604-80-5958-3 340
  3. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) yb − yi bi = (4) hP Số lượng đặc trưng cục bộ của proposal P thuộc về ground-truth box G dựa vào phần giao nhau giữa proposal và ground-truth tương ứng của nó. Tuy nhiên, dù trong trường hợp đa số các đặc trưng cục bộ của P đều thuộc về G thì vẫn sẽ tồn tại các đặc trưng không cần thiết (đặc trưng thuộc về nền) khiến cho kết quả không chính xác. Để giải quyết vấn đề đó, dense local regression dùng binary overlap prediction m ˆ i để phân loại mỗi đặc trưng cục bộ thuộc về ground-truth bounding box hay thuộc về nền. Như vậy, trong quá trình tính toán, dense local regression dự đoán thêm giá trị m ˆ i bên cạnh 4 thông Hình 6: Discriminative RoI pooling [19] số của dense box ˆli , rˆi , tˆi , ˆbi tại mỗi đặc trưng cục bộ pi ∈ P . tăng cường. Sau khi thực hiện offset prediction, thay vì sử dụng RoIAlign, discriminative RoI pooling dùng Adaptive weighted pooling (AWP) để gán các trọng số cao hơn cho các điểm mẫu phân biệt như Hình 6. Hình 7: AWP [19] Ở Hình 7, các điểm mẫu ban đầu, F ∈ R2kx2k (tương Hình 5: Dense local regression [19] ứng với mỗi giá trị của ma trận đặc trưng k2 x k2 thu được từ RoIAlign ta có 4 điểm mẫu gốc) được dùng để Trong quá trình huấn luyện, m ˆ i được truyền qua hàm dự đoán các trọng số tương ứng W ∈ R2kx2k . Các trọng chuẩn hóa sigmoid σ để tính toán binary cross-entropy số này cho biết khả năng phân biệt của chúng trong toàn loss với nhãn mi với mi = 1 nếu đặc trưng cục bộ pi bộ không gian vùng con đó. Sau đó, ma trận đặc trưng thuộc phần giao nhau giữa proposal P và ground-truth G, Weighted RoI F˜ được tính bằng công thức (5), với F là mi = 0 nếu đặc trưng cục bộ thuộc về nền. Các thông ma trận các điểm mẫu ban đầu, W (F ) là ma trận các số của dense box tại các vị trí σ(m ˆ i ) > 0.5 được sử trọng số tương ứng với mỗi điểm mẫu của F được tính dụng để tính vị trí góc trái trên và góc phải dưới của thông qua lớp convolutional,
  4. là tích Hadamard. predicted box. Cuối cùng, các predicted box được tính bởi nhiều đặc trưng cục bộ sẽ được tính trung bình để thu được một bounding box cuối cùng. F˜ = W (F )
  5. F (5) Discriminative RoI pooling lấy cảm hứng từ de- formable RoI pooling [18] và cải thiện nó để dùng Tiếp theo, AWP thực hiện average pooling với stride cho bài toán phân lớp. Ở nhánh trên, discriminative bằng 2 trên F˜ và thu được ma trận đặc trưng discrimi- RoI pooling thực hiện RoIAlign với kích thước k2 x k2 native RoI với kích thước k x k. Cuối cùng, ma trận đặc (light-weight offset prediction) thay vì RoIAlign với kích trưng discriminative RoI được xem như một véc-tơ toàn thước k x k của deformable RoI pooling, rồi truyền cục, như trong Faster R-CNN, véc-tơ này được truyền qua qua 3 lớp fully connected để thu được các thông số 2 lớp fully connected để thu được classification score. ISBN 978-604-80-5958-3 341
  6. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) III. THỰC NGHIỆM Bảng I: Kết quả với backbone ResNet50 + FPN A. Bộ dữ liệu Bộ dữ liệu UAVDT [5] chứa nhiều yếu tố thách thức AP AP@0.5 AP@0.75 thực tế bao gồm ánh sáng, độ cao, góc quay. UAVDT Daylight 14.6 23.0 17.1 gồm khoảng 80 nghìn ảnh được lấy từ 100 video có tổng thời lượng 10 tiếng với khoảng 0.84 triệu bounding Lowalt 43.7 59.6 53.6 box, được chia làm 2 bộ dữ liệu, mỗi bộ gồm 50 video: Birdview 11.1 17.8 12.0 UAVDT-Benchmark-M gồm 40,735 ảnh dành cho bài Daylight toán phát hiện đối tượng và theo vết nhiều đối tượng, UAVDT-Benchmark-S gồm 37,085 ảnh dành cho bài toán Lowalt 57.4 76.9 75.0 theo vết một đối tượng. Birdview Trong phạm vi của bài báo, chúng tôi chỉ sử dụng bộ dữ liệu UAVDT-Benchmark-M. Chúng tôi chọn ra các tình huống cần khảo sát và tổ chức 7 thư mục gồm: train (20,536 ảnh), val (3,607 ảnh), test (16,592 ảnh), daylight (9,376 ảnh), low-alt (6,987 ảnh), bird-view (3,217 ảnh), daylight - lowalt - birdview (298 ảnh). B. Độ đo Thực nghiệm được đánh giá trên độ đo Average Precision (AP) theo tiêu chuẩn của COCO API1 . Cụ thể, chúng tôi tính giá trị AP trung bình của 10 IoU từ 0.5 đến 0.95 với bước nhảy là 0.05. Mặt khác, chúng tôi đánh giá độ chính xác trên một giá trị IoU xác định (AP tại IoU = 0.5 và AP tại IoU = 0.75). Ngoài ra, chúng tôi (a) Tập daylight còn đánh giá AP cho các đối tượng với kích thước khác nhau: APs (AP dành cho đối tượng nhỏ, có diện tích < 322 ), APm (AP dành cho đối tượng trung bình, có diện tích trong khoảng từ 322 đến 962 ), APl (AP dành cho đối tượng lớn, có diện tích > 962 ). C. Thông tin thực nghiệm Chúng tôi tiến hành huấn luyện lại mô hình D2Det trên bộ dữ liệu UAVDT-Benchmark-M cho phù hợp với phạm vi bài toán mà vẫn giữ cấu hình backbone ResNet [20] tác giả đã dùng (ResNet50 và ResNet101 kết hợp (b) Tập low-alt với FPN [21]). Chúng tôi chạy thực nghiệm trên máy tính có cấu hình Intel(R) Core(TM) i9-10900X CPU @ 3.70GHz, RAM 64GB, GPU 12GB RTX2080Ti, hệ điều hành Linux. IV. THẢO LUẬN A. Kết quả mô hình D2Det với ResNet50 kết hợp FPN Mô hình D2Det sử dụng backbone ResNet50 kết hợp FPN được huấn luyện trong khoảng 28 giờ. Theo bảng I, mô hình cho kết quả tốt nhất trên tập có cả 3 thuộc tính daylight, low-alt, bird-view (AP = 57.4%, AP@0.5 (c) Tập bird-view = 76.9%, AP@0.75 = 75.0%). Khi so sánh từng thuộc Hình 8: Hình minh họa với backbone ResNet50 + RPN 1 https://cocodataset.org/#home ISBN 978-604-80-5958-3 342
  7. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) tính, tập bird-view có kết quả thấp nhất (AP = 11.1% Bảng II: Kết quả với backbone ResNet101 + FPN so với 14.6% của daylight và 43.7% của low-alt). AP AP@0.5 AP@0.75 Hình 8a cho thấy mô hình bỏ sót và bị nhầm lẫn nhiều đối tượng với ảnh được quay rất cao. Hình 8b có kết quả Daylight 12.0 22.1 11.9 tốt nhưng vẫn có một đối tượng bị gán nhãn sai. Hình Lowalt 21.4 35.4 24.3 8c cho thấy khi được quay rất cao và trong điều kiện sương mù thì mô hình không hiệu quả. Birdview 12.6 24.3 12.0 Daylight B. Kết quả mô hình D2Det với ResNet101 kết hợp FPN Lowalt 45.5 71.1 55.3 Mô hình D2Det sử dụng backbone ResNet101 kết hợp FPN được huấn luyện trong khoảng 34 giờ. Theo bảng Birdview II, mô hình D2Det có kết quả tốt nhất trên tập có cả 3 thuộc tính daylight, low-alt, bird-view với AP = 45.5%, AP@0.5 = 71.1%, AP@0.75 = 55.3%. Còn với từng tập ảnh có thuộc tính mà chúng tôi lựa chọn thì kết quả trên tập daylight có kết quả thấp nhất (AP = 12% so với 21.4% của low-alt và 12.6% của bird-view). Hình 9a cho thấy mô hình này có các vấn đề tương tự như mô hình sử dụng ResNet50. Hình 9b có kết quả tốt nhưng vẫn có một đối tượng bị phát hiện nhiều lần. Trong hình 9c mô hình nhận biết được nhiều đối tượng hơn mô hình sử dụng ResNet50, song vẫn bỏ sót rất nhiều đối tượng. C. Đánh giá (a) Tập daylight Nhìn chung, mô hình D2Det sử dụng ResNet50 có thời gian huấn luyện ít hơn nhưng cho ra kết quả tốt hơn so với mô hình sử dụng ResNet101, riêng trường hợp bird-view thì mô hình ResNet101 có kết quả cao hơn mô hình với ResNet50. Dù vậy, cả 2 mô hình này đều chưa hiệu quả với với các ảnh có thuộc tính daylight, low-alt, bird-view, trừ trường hợp low-alt thì mô hình sử dụng ResNet50 cho kết quả AP = 43.7%, AP@0.5 = 59.6%, AP@0.75 = 53.6%. Tuy nhiên, với tập ảnh có cả 3 đặc điểm này thì cả hai mô hình đều cho kết quả tốt nhất bởi tập ảnh này sẽ tránh được các hạn chế mà (b) Tập low-alt từng trường hợp sẽ gặp phải Xét riêng từng thuộc tính mà chúng tôi chọn, tập low- alt có kết quả tốt hơn so với 2 tập còn lại. Nguyên nhân có thể do kích thước của đối tượng khi được quay ở độ cao thấp sẽ to hơn nên dễ nhận diện hơn. Trong tập daylight, các đối tượng được chụp vào ban ngày nên các yếu tố như màu sắc, hình dạng phương tiện sẽ dễ phân biệt hơn so với các ảnh có thời tiết sương mù hoặc vào thời điểm ban đêm song vẫn bị hạn chế nhiều bởi yếu tố kích thước đối tượng ảnh hưởng từ độ cao của camera. Còn với tập bird-view, sự tương quan giữa các đối tượng car, truck, bus cũng như với các đối tượng nền khi được (c) Tập bird-view chụp thẳng từ trên xuống trong các điều kiện thời tiết, Hình 9: Hình minh họa mô hình với ResNet101 + FPN độ cao khác nhau sẽ cao hơn nên dễ nhầm lẫn hơn. Việc mô hình cho kết quả tốt nhất với low-alt cũng cho thấy ISBN 978-604-80-5958-3 343
  8. Hội nghị Quốc gia lần thứ 24 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2021) yếu tố kích thước đối tượng ảnh hưởng từ độ cao camera [6] P. Zhu, L. Wen, D. Du, X. Bian, Q. Hu, and H. Ling, tác động nhiều đến hiệu quả của bài toán hơn so với các “Vision meets drones: Past, present and future,” arXiv preprint arXiv:2001.06303, 2020. yếu tố còn lại. [7] J. Ding, Z. Zhu, G.-S. Xia, X. Bai, S. Belongie, J. Luo, M. Datcu, M. Pelillo, and L. Zhang, “Icpr2018 contest on object detection in V. KẾT LUẬN aerial images (odai-18),” in 2018 24th International Conference on Pattern Recognition (ICPR). IEEE, 2018, pp. 1–6. Trong nghiên cứu này, chúng tôi tìm hiểu phương pháp [8] Y. Cao, Z. He, L. Wang, W. Wang, Y. Yuan, D. Zhang, J. Zhang, D2Det cho bài toán phát hiện phương tiện giao thông P. Zhu, L. Van Gool, J. Han et al., “Visdrone-det2021: The vision trong không ảnh. Chúng tôi huấn luyện lại mô hình trên meets drone object detection challenge results,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, bộ dữ liệu UAVDT-Benchmark-M và đánh giá trên các 2021, pp. 2847–2854. ảnh có thuộc tính daylight, low-alt, bird-view của bộ [9] S. Ren, K. He, R. Girshick, and J. Sun, “Faster r-cnn: Towards dữ liệu. Kết quả thực nghiệm của chúng tôi cho thấy real-time object detection with region proposal networks,” Ad- vances in neural information processing systems, vol. 28, pp. cả 2 mô hình đều chưa hiệu quả với riêng từng trường 91–99, 2015. hợp mà chúng tôi chọn, song mô hình D2Det sử dụng [10] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You only backbone ResNet50 kết hợp với FPN hiệu quả với tình look once: Unified, real-time object detection,” in Proceedings of the IEEE conference on computer vision and pattern recognition, huống độ cao camera thấp (AP = 43.7%, AP@0.5 = 2016, pp. 779–788. 59.6%, AP@0.75 = 53.6%) và với tình huống có cả 3 [11] B. Singh, M. Najibi, and L. S. Davis, “Sniper: Efficient multi- yếu tố ban ngày, độ cao camera thấp, góc chụp thẳng scale training,” arXiv preprint arXiv:1805.09300, 2018. [12] Q. M. Chung, T. D. Le, T. V. Dang, N. D. Vo, T. V. Nguyen, (AP = 57.4%, AP@0.5 = 76.9%, AP@0.75 = 75.0%). and K. Nguyen, “Data augmentation analysis in vehicle detection Ở những nghiên cứu kế tiếp, chúng tôi hy vọng sẽ cải from aerial videos,” in 2020 RIVF International Conference on thiện được kết quả đối với các trường hợp phức tạp hơn Computing and Communication Technologies (RIVF). IEEE, 2020, pp. 1–3. cũng như có thể tìm ra phương án giải quyết bài toán [13] K. Nguyen, N. T. Huynh, P. C. Nguyen, K.-D. Nguyen, N. D. Vo, tốt hơn, áp dụng được cho nhiều loại phương tiện giao and T. V. Nguyen, “Detecting objects from space: An evaluation thông hơn. of deep-learning modern approaches,” Electronics, vol. 9, no. 4, p. 583, 2020. LỜI CẢM ƠN [14] S. Srivastava, S. Narayan, and S. Mittal, “A survey of deep learning techniques for vehicle detection from uav images,” Nghiên cứu được tài trợ bởi Trường Đại học Công nghệ Journal of Systems Architecture, p. 102152, 2021. Thông tin – ĐHQG-HCM trong khuôn khổ Đề tài mã số [15] J. Wan, B. Zhang, Y. Zhao, Y. Du, and Z. Tong, “Vistrongerdet: Stronger visual information for object detection in visdrone im- D2-2021-01. Nghiên cứu được thực hiện tại Phòng thí ages,” in Proceedings of the IEEE/CVF International Conference nghiệm Truyền thông Đa phương tiện (MMLab), Trường on Computer Vision, 2021, pp. 2820–2829. đại học Công nghệ Thông tin - Đại học Quốc gia Thành [16] P. V. Long, V. D. Nguyên, and N. T. T. M. Khang, “Phát hiện đối tượng trong ảnh bị hạn chế tầm nhìn bởi sương mù,” Hội phố Hồ Chí Minh. nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin, pp. 44–49, 2020. TÀI LIỆU THAM KHẢO [17] S. Ren, K. He, R. Girshick, and J. Sun, “Faster r-cnn: towards [1] E. Semsch, M. Jakob, D. Pavlicek, and M. Pechoucek, “Au- real-time object detection with region proposal networks,” IEEE tonomous uav surveillance in complex urban environments,” in transactions on pattern analysis and machine intelligence, vol. 39, 2009 IEEE/WIC/ACM International Joint Conference on Web no. 6, pp. 1137–1149, 2016. Intelligence and Intelligent Agent Technology, vol. 2. IEEE, [18] J. Dai, H. Qi, Y. Xiong, Y. Li, G. Zhang, H. Hu, and Y. Wei, 2009, pp. 82–85. “Deformable convolutional networks,” in Proceedings of the IEEE [2] P. K. R. Maddikunta, S. Hakak, M. Alazab, S. Bhattacharya, international conference on computer vision, 2017, pp. 764–773. T. R. Gadekallu, W. Z. Khan, and Q.-V. Pham, “Unmanned aerial [19] J. Cao, H. Cholakkal, R. M. Anwer, F. S. Khan, Y. Pang, vehicles in smart agriculture: Applications, requirements, and and L. Shao, “D2det: Towards high quality object detection challenges,” IEEE Sensors Journal, 2021. and instance segmentation,” in Proceedings of the IEEE/CVF [3] M. Perreault and K. Behdinan, “Delivery drone driving cycle,” conference on computer vision and pattern recognition, 2020, IEEE Transactions on Vehicular Technology, 2021. pp. 11 485–11 494. [4] M. Erdelj, E. Natalizio, K. R. Chowdhury, and I. F. Akyildiz, [20] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning “Help from the sky: Leveraging uavs for disaster management,” for image recognition,” in Proceedings of the IEEE conference IEEE Pervasive Computing, vol. 16, no. 1, pp. 24–32, 2017. on computer vision and pattern recognition, 2016, pp. 770–778. [5] H. Yu, G. Li, W. Zhang, Q. Huang, D. Du, Q. Tian, and N. Sebe, [21] T.-Y. Lin, P. Dollár, R. Girshick, K. He, B. Hariharan, and “The unmanned aerial vehicle benchmark: Object detection, S. Belongie, “Feature pyramid networks for object detection,” tracking and baseline,” International Journal of Computer Vision, in Proceedings of the IEEE conference on computer vision and vol. 128, no. 5, pp. 1141–1159, 2020. pattern recognition, 2017, pp. 2117–2125. ISBN 978-604-80-5958-3 344
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2