Phát hiện tàu thuyền trong không ảnh bằng phương pháp RTMDet-Rotated

Chia sẻ: Phó Cửu Vân | Ngày: | Loại File: PDF | Số trang:6

Thêm vào BST

Báo xấu

3
lượt xem 1
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Nghiên cứu "Phát hiện tàu thuyền trong không ảnh bằng phương pháp RTMDet-Rotated" tiến hành đánh giá thực nghiệm mô hình phát hiện đối tượng theo thời gian thực, được gọi là RTMDet (Real-Time Models for object Detection), với hai backbone CSPNeXt và CSPDarkNet trên bộ dữ liệu DOTA-ship. Bộ dữ liệu này đã được tạo ra nhằm đáp ứng nhu cầu đặc biệt của các ứng dụng liên quan đến phát hiện tàu thuyền. Mời các bạn cùng tham khảo!

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Phát hiện tàu thuyền trong không ảnh bằng phương pháp RTMDet-Rotated

Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) PHÁT HIỆN TÀU THUYỀN TRONG KHÔNG ẢNH BẰNG PHƯƠNG PHÁP RTMDET-ROTATED Võ Duy Nguyên, Trần Nguyễn Chí Huy, Đinh Nguyễn Anh Dũng Trường Đại học Công nghệ thông tin, ĐHQG-HCM Email: {nguyenvd, dungdna}@uit.edu.vn, 22520577@gm.uit.edu.vn Tóm tắt—Hiện nay, nhờ vào sự phát triển của các thiết sát được một khu vực rộng lớn,... Nhưng bên cạnh đó, bị bay không người lái, phát hiện đối tượng trong ảnh ảnh từ trên không cũng gây ra nhiều khó khăn cho các được chụp từ trên cao đang trở thành một đề tài nổi bật bộ phát hiện đối tượng: nhiều vật thể gây nhiễu, mật trong lĩnh vực thị giác máy tính. Tuy nhiên, các phương độ đối tượng cao, đối tượng nhỏ, độ phân giải thấp,... pháp phát hiện đối tượng truyền thống vẫn chưa thể hiện được hướng của vật thể và các hộp giới hạn bị chồng lấp Từ những nhu cầu và vấn đề trên, phát hiện tàu trong nhau nếu ảnh có mật độ đối tượng dày đặc. Vì thế, bài không ảnh là chủ đề đang thu hút nhiều sự chú ý của toán phát hiện đối tượng xoay được hình thành. Trong đó, các nhà nghiên cứu trong lĩnh vực phát hiện đối tượng phát hiện tàu thuyền là một trong những vấn đề đang thu nhờ vào tính ứng dụng cao trong quân sự, thương mại hút được nhiều sự quan tâm bởi tính ứng dụng cao trong và dân dụng. Tuy nhiên, hướng, kích thước và mật độ thực tế, đặc biệt khi tình hình chủ quyền lãnh hải, an toàn của tàu thuyền thường biến đổi khiến cho việc sử dụng biển đảo Quốc gia đang có nhiều thách thức, biến động. Nhằm khắc phục những khó khăn và đáp ứng nhu cầu các hộp giới hạn ngang (Horizontal Bounding Boxes – trên, nhiều nghiên cứu đã tập trung vào phát triển các HBBs) không thể xác định chính xác vị trí của các đối phương pháp hiệu quả. Trong nghiên cứu này, chúng tôi tượng (các HBB chồng chéo lên nhau). Vì vậy, sử dụng tiến hành đánh giá thực nghiệm mô hình phát hiện đối các hộp giới hạn có hướng (Oriented Bounding Boxes tượng theo thời gian thực, được gọi là RTMDet (Real-Time – OBBs) trong phát hiện đối tượng xoay sẽ là lựa chọn Models for object Detection), với hai backbone CSPNeXt hiệu quả hơn. Hình 1 thể hiện rõ tính chất của hai loại và CSPDarkNet trên bộ dữ liệu DOTA-ship. Bộ dữ liệu này đã được tạo ra nhằm đáp ứng nhu cầu đặc biệt của hộp giới hạn. các ứng dụng liên quan đến phát hiện tàu thuyền. DOTA- ship cũng tái hiện hầu hết thách thức trong các tình huống ngoài đời thực. Cuối cùng, chúng tôi khảo sát kết quả và đưa ra những nhận xét, phân tích chi tiết về RTMDet khi huấn luyện trên bộ dữ liệu DOTA-ship, từ đó gợi ra những hướng phát triển nghiên cứu tiếp theo để cải tiến phương pháp trong tương lai. Từ khóa—Phát hiện đối tượng trong không ảnh, phát hiện đối tượng xoay, RTMDet, DOTA-ship dataset, CSP- NeXt backbone, CSPDarkNet backbone. Hình 1: HBB (ảnh trái) và OBB (ảnh phải)[1] I. GIỚI THIỆU Hiện nay, mạng lưới giao thông đường thủy ngày càng Một vài phương pháp như: GRS-Det[2], Mask- được quan tâm phát triển. Vì vậy, các nhiệm vụ quản lý RCNN[3], SCRDet[4], Retianet-OBB[5],... đã huấn tàu thuyền trên sông, đặc biệt trên vùng lãnh hải Quốc luyện trên bộ dữ liệu DOTA-ship và cho ra mô hình gia là điều vô cùng cần thiết: nhận dạng mục tiêu quân có điểm số rất tốt. Trong bài báo này, chúng tôi cũng sự phục vụ công tác đảm bảo an ninh quốc phòng, giám nghiên cứu chạy thực nghiệm và công bố kết quả bằng sát và quản lý sự cố, định vị và định tuyến tàu thuyền, phương pháp RTMDet[6] với nhiệm vụ phát hiện đối hỗ trợ tìm kiếm cứu nạn và cứu hộ,... Sử dụng máy tượng xoay - RTMDet-R (RTMDet-Rotated) trên cùng bay giám sát từ trên cao hoặc UAV đem lại những hình bộ dữ liệu. Đồng thời, nhóm nghiên cứu sẽ so sánh kết ảnh có góc nhìn tổng quát, thu được nhiều vật thể, quan quả này với kết quả của các phương pháp khác được ISBN 978-604-80-8932-0 329
Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) công bố gần đây. Việc khảo sát này sẽ là tiền đề giúp sự phức tạp trong quá trình huấn luyện và tính toán cao chúng tôi nghiên cứu cải tiến phương pháp RTMDet để hơn. có hiệu suất tốt hơn khi thực nghiệm trên bộ dữ liệu Kể từ khi bài toán ra đời cho đến nay, nhiều phương DOTA-ship[1]. pháp đã được công bố và cải tiến theo thời gian. GRS- Dữ liệu vào của bài toán là ảnh về tàu thuyền được Det[2] là một phương pháp được đề xuất mô-đun ghép chụp từ trên cao. Dữ liệu ra là hình ảnh gồm các tàu nối chọn lọc (SCM) nhằm giải quyết mất cân bằng kênh thuyền được đánh dấu bằng các hộp giới hạn có hướng. giữa các đặc trưng ở cấp độ khác nhau, mô hình xoay Minh họa bài toán được thể hiện ở Hình 2. Cụ thể, Gaussian-Mask tận dụng thông tin ngữ cảnh để tăng bài báo nghiên cứu đưa ra ba đóng góp chính: (1) cường nhận thức về tàu và mô-đun phát hiện dựa trên Nghiên cứu và đánh giá phương pháp RTMDet, (2) Thực mạng tích chập hoàn toàn. Mask-RCNN[3] mở rộng R- nghiệm và đánh giá mô hình RTMDet-R-tiny với bộ CNN nhanh hơn bằng cách thêm một nhánh để dự đoán dữ liệu DOTA-ship trên hai backbone CSPNeXt[6] và mặt nạ đối tượng song song với nhánh hiện có để nhận CSPDarkNet[7]; (3) So sánh kết quả mô hình RTMDet- dạng hộp giới hạn. Bên trên là một vài bộ phát hiện đối R-tiny với các mô hình khác đã huấn luyện trên bộ dữ tượng xoay đã được công bố gần đây và đạt được hiệu liệu DOTA-ship và đưa ra nhận xét. suất tuyệt vời. B. Phương pháp phát hiện đối tượng thời gian thực RTMDet (Real-Time Models for object Detection) RTMDet là phương pháp phát hiện đối tượng một giai đoạn được công bố vào năm 2022. Về kiến trúc tổng quát được thể hiện ở Hình 3, nhóm tác giả đã chia mô hình thành ba phần: backbone, neck và head. Backbone được xây dựng bằng một số khối CSP[8] xếp chồng lên Hình 2: Đầu vào (bên trái) và đầu ra (bên phải) của nhau với các lớp tích chập depth-wise kernel lớn. Các bài toán phát hiện tàu thuyền trong không ảnh[1] đặc trưng đa cấp được trích xuất từ backbone và sau đó kết hợp với nhau ở phần neck CSP-PAFPN. Neck sử dụng kĩ thuật kim tự tháp đặc trưng[9], nhận 3 tỉ lệ Phần còn lại của bài báo như sau: trong Chương II từ backbone gồm đường top-down và bottom-up. Tiếp chúng tôi sẽ giới thiệu bài toán phát hiện đối tượng theo, nhóm tác giả sử dụng các head có các trọng số tích xoay, phương pháp phát hiện đối tượng thời gian thực chập được chia sẻ và các lớp Batch Normalization[10] RTMDet. Chương III sẽ trình bày việc thực nghiệm (BN) riêng biệt để dự đoán kết quả cho các nhiệm vụ mô hình RTMDet-R-tiny với hai backbone CSPNeXt và phát hiện đối tượng ngang, phát hiện đối tượng xoay và CSPDarkNet trên bộ dữ liệu DOTA-ship, đồng thời so phân đoạn theo thể hiện (Instance Segmentation). Nhìn sánh với kết quả của các mô hình khác. Cuối cùng, chung, đây là một mô hình đa nhiệm được xây dựng để Chương IV sẽ kết luận bài báo và đưa ra các hướng thực hiện cho cả ba tác vụ cơ bản trong lĩnh vực phát nghiên cứu kế tiếp. hiện đối tượng và đã đạt kết quả tốt trên cả ba. II. CÁC NGHIÊN CỨU LIÊN QUAN Trong phần này, chúng tôi giới thiệu bài toán phát hiện đối tượng xoay và phương pháp RTMDet với nhiệm vụ phát hiện đối tượng xoay. A. Bài toán phát hiện đối tượng xoay Phát hiện đối tượng xoay là một bài toán gây thách Hình 3: Kiến trúc tổng quát của RTMDet[6] thức trong lĩnh vực thị giác máy tính. Nhận thấy rằng các hộp giới hạn ngang (HBBs) tồn tại nhiều nhược Nhóm tác giả nhận thấy các tích chập 3×3 được tái điểm: xác định không chính xác vị trí đối tượng, tính tham số hóa làm chậm đi tốc độ và tăng bộ nhớ khi thẩm mỹ thấp, chưa phù hợp với tình huống vật thể huấn luyện mô hình. Vì vậy, họ đã nghiên cứu và giới trong thực tế,... các nhà nghiên cứu đã phát triển bài thiệu các tích chập depth-wise 5×5 của CSPDarkNet để toán thành phát hiện đối tượng xoay với các hộp giới tăng vùng nhận biết hiệu quả. Điều này giúp mô hình hạn có hướng (OBBs) nhằm khắc phục các yếu điểm đã hóa ngữ cảnh toàn diện hơn và cải thiện đáng kể độ nêu. Tuy nhiên, phát hiện đối tượng xoay cũng đòi hỏi chính xác. ISBN 978-604-80-8932-0 330
Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) Kim tự tháp đặc trưng đa tỉ lệ là cần thiết cho phát hiện đối tượng ở nhiều tỉ lệ khác nhau. Nâng cao đặc trưng đa tỉ lệ sẽ giúp mô hình đạt được độ chính xác tốt hơn. Tuy nhiên, việc làm này buộc nhóm tác giả đặt nhiều tham số và phép tính hơn từ backbone đến neck. Sau khi cân nhắc, họ nhận thấy việc đánh đổi giữa các tính toán và hiệu suất mô hình là cần thiết, nghĩa là thời gian tính toán tăng lên không nhiều, nhưng đảm bảo cải thiện điểm số mô hình. Các bộ phát hiện đối tượng thời gian thực thường dùng các đầu phát hiện riêng biệt cho các tỉ lệ đặc trưng khác nhau để đạt hiệu suất cao hơn. Tuy nhiên, nhóm tác giả Hình 4: Hình ảnh minh họa trong bộ dữ liệu chọn chia sẻ các tham số của phần head trên các tỉ lệ kết DOTA-ship[1] hợp các lớp Batch Normalization (BN) để giảm lượng tham số của phần head mà vẫn đạt kết quả tốt. Những nghiên cứu phát triển về kiến trúc đã giúp B. Cấu hình thực nghiệm phương pháp vừa tối ưu về mặt tốc độ, vừa nhẹ hóa mô Chúng tôi tiến hành huấn luyện mô hình RTMDet- hình nhưng vẫn đảm bảo hiệu suất tuyệt vời. R-tiny cho nhiệm vụ phát hiện đối tượng xoay trong Toolbox mmlab MMRotate[11]. Các điểm số được lưu III. THỰC NGHIỆM VÀ ĐÁNH GIÁ lại sau 1 epoch, mỗi epoch chúng tôi đặt batch size là 4. A. Bộ dữ liệu DOTA-ship Các thử nghiệm được thực hiện trên máy hệ điều hành Ubuntu 9.3.0-17ubuntu1-20.04 LTS, GPU: 1 GeForce DOTA[1] là bộ dữ liệu quy mô lớn để phát hiện đối RTX 2080 Ti 11GB. Các phiên bản chúng tôi sử dụng tượng trong ảnh chụp từ trên không. Bộ dữ liệu bao gồm như Python: 3.8.18, CUDA_HOME: cuda-11.8, NVCC: hình ảnh được thu thập từ Google Earth, vệ tinh GF-2 V11.8.89, PyTorch: 2.0.1, TorchVision: 0.15.2, OpenCV: và JL-1 do Trung tâm Ứng dụng và Dữ liệu Vệ tinh 4.8.1, MMEngine: 0.9.0. Tài nguyên Trung Quốc (China Centre for Resources Satellite Data and Application) cung cấp và ảnh từ trên không bởi CycloMedia B.V. Mỗi hình ảnh có kích thước C. Độ đo đánh giá trong khoảng từ 800 × 800 đến 20,000 × 20,000 pixel Chúng tôi đánh giá kết quả dựa trên độ đo AP theo và chứa các đối tượng nhiều tỷ lệ, hướng và hình dạng chuẩn PASCAL Visual Object Classes (VOC) 2007[12] khác nhau. với ngưỡng IoU là 0.5 (kí hiệu: AP50 ). Ngoài ra, chúng Bộ dữ liệu DOTA-Ship được thu thập bằng cách trích tôi cũng cung cấp thêm một vài định nghĩa quan trọng xuất các ảnh có tàu trên tập DOTA với tổng số 434 được sử dụng trong quá trình thực nghiệm: hình ảnh gồm 39028 đối tượng tàu thuyền. Một hình 1) IoU (Intersection over Union): là thước đo đánh ảnh minh họa về bộ dữ liệu được thể hiện ở Hình 4. giá sự chồng chéo giữa hai hộp giới hạn. IoU được tính Chúng tôi sử dụng bộ dữ liệu được cung cấp từ Baidu bằng vùng giao nhau giữa hộp giới hạn dự đoán và gồm 326 ảnh cho tập huấn luyện và 108 ảnh cho tập hộp giới hạn thực tế chia cho vùng liên kết giữa chúng. kiểm tra. Vì kích thước ảnh gốc quá lớn, chúng tôi đã Ngưỡng IoU: là giá trị IoU cụ thể được thiết lập để chia mỗi ảnh thành nhóm ảnh nhỏ với các kích thước khác nhau. Thông tin chi tiết bộ dữ liệu DOTA-ship sau khi chia được biểu diễn đầy đủ ở Bảng I. Bảng I: Số lượng ảnh và đối tượng của bộ dữ liệu DOTA-ship DOTA-ship Số lượng ảnh Số đối tượng tàu Tập huấn luyện 2,815 63,376 Tập kiểm tra 1,402 18,537 Tổng cộng 4,217 81,913 Hình 5: Công thức tính IoU ISBN 978-604-80-8932-0 331
Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) đánh giá hiệu suất mô hình. Thông thường, ngưỡng IoU Bảng II: Kết quả thực nghiệm RTMDet-R-tiny trên tập được chọn ở các giá trị 0.5, 0.75 hoặc 0.95. kiểm thử của bộ dữ liệu DOTA-ship trên hai backbone 2) Recall: là khả năng mô hình dự đoán được chính Backbone Best epoch Ground truths Số nhãn dự đoán Recall (%) AP50 (%) CSPNeXt 56 18,537 36,437 94.9 89.3 xác các trường hợp. Đó là tỷ lệ phần trăm của số đối CSPDarkNet 91 18,537 49,143 95.8 89.3 tượng mô hình dự đoán đúng trong số tất cả các dự đoán mà mô hình đưa ra. True Positives Dựa vào bảng II, chúng tôi nhận thấy mô hình khi sử Recall = dụng hai backbone đều có hiệu suất rất tốt. Điều này True Positives + False Negatives TP TP có thể được giải thích vì bộ dữ liệu chỉ gồm một lớp = = (1) đối tượng duy nhất, khi đó việc huấn luyện tránh được TP + FN all ground truths lỗi nhầm lẫn giữa các lớp đối tượng. Mô hình cũng có trong đó, khả năng phát hiện được hầu hết các tàu trong tập kiểm True Positive: Số đối tượng dự đoán đúng khi IoU thử khi điểm Recall đạt lần lượt là 94.6% (CSPNeXt) lớn hơn hoặc bằng ngưỡng IoU. và 95.8% (CSPDarkNet). Mặt khác, mô hình dự đoán False Negatives: Số ground truths bị bỏ sót. lần lượt gồm 36,437 và 49,143 nhãn, trong khi chỉ có D. Tìm hiểu thay đổi kiến trúc backbone của mô hình 18,537 ground truths. Điều này có nghĩa là tuy phần lớn Trong bài báo gốc của phương pháp, nhóm tác các nhãn thực tế được dự đoán chính xác nhưng cũng giả nhắc đến việc kế thừa backbone CSPDarkNet của có rất nhiều đối tượng bị dự đoán nhầm. Sự chênh lệch YOLO[7], [13] nhưng sử dụng tích chập depth-wise 5×5 này có thể ảnh hưởng đến điểm số của mô hình cũng để tăng trường tiếp nhận hiệu quả (Effective Receptive như các kết quả được thể hiện bằng các hộp giới hạn Fields)[14]. Vậy tại sao họ không sử dụng trực tiếp trên ảnh. CSPDarkNet và chỉ bổ sung tích chập depth-wise 5×5 vào backbone này mà dùng một phiên bản backbone riêng - CSPNeXt, để áp dụng cho phương pháp của họ? Theo chúng tôi đã tìm hiểu, vì việc sử dụng tích chập depth-wise 5×5 làm tăng độ sâu mô hình và giảm đi tốc độ dự đoán nên nhóm tác giả đã tạo một CSPLayer từ N CSPBlock kèm theo cơ chế Channel Attention[15] ở cuối mỗi giai đoạn. Cụ thể, họ đã giảm số lượng khối trong giai đoạn 2 và giai đoạn 3. Việc làm này sẽ giúp giảm thời gian xử lý ảnh nhưng khiến hiệu suất mô hình giảm theo. Vì vậy, để đạt được sự đánh đổi tốt hơn về thời gian và độ chính xác, nhóm tác giả đã sử dụng Hình 6: Điểm AP50 của mô hình khi sử dụng Channel Attention. backbone CSPNeXt và CSPDarkNet trên từng epoch Ở mục tiếp theo, chúng tôi sẽ tiến hành thực nghiệm phương pháp RTMDet bằng cả hai backbone CSPNeXt và CSPDarkNet cùng sử dụng tích chập depth-wise 5×5, Từ hình 6, ta có thể thấy khi dùng backbone CSPNeXt, từ đó giải thích, rút ra những nhận xét cốt lõi và trả lời mô hình sẽ hội tụ sớm hơn và đạt hiệu suất tốt nhất câu hỏi được đặt ra ở trên. khi mới ở epoch thứ 56. Còn CSPDarkNet phải đến tận epoch thứ 91 mới cho điểm số cao nhất. Sự khác biệt E. Kết quả thực nghiệm này nhờ vào cơ chế Channel Attention được chúng tôi Sau khi huấn luyện mô hình RTMDet-R-tiny bằng nhắc đến ở phần III-D. Đây là cơ chế giúp việc trích hai backbone CSPNeXt và CSPDarkNet trên bộ dữ liệu xuất đặc trưng của mô hình nhanh và hiệu quả hơn khi DOTA-ship với 100 epochs, chúng tôi nhận thấy mô các kênh quan trọng sẽ được tập trung và loại bỏ các hình thu được điểm số cao nhất lần lượt ở epoch thứ kênh không quan trọng. Việc hội tụ sớm sẽ giúp giảm 56 và 91 với cùng điểm số AP50 là 89.3%. Điều này được rất nhiều thời gian huấn luyện, đồng thời tiết kiệm được giải thích bằng việc chúng tôi đã đặt các thông số được tài nguyên sử dụng. của hai backbone giống nhau và đều sử dụng tích chập Chúng tôi dùng mô hình RTMDet-R-tiny với back- depth-wise 5×5, từ đó nhận thấy được sự cải tiến của bone CSPNeXt đã được huấn luyện trên bộ dữ liệu CSPNeXt đối với CSPDarkNet. Kết quả chi tiết được DOTA-ship tiến hành trực quan hóa các hình ảnh và chúng tôi ghi nhận ở Bảng II và Hình 6. nhận xét trên tập dữ liệu kiểm thử cho các tình huống ISBN 978-604-80-8932-0 332
Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) khác nhau. Mặc dù mô hình đã đạt điểm số cao trên tập kiểm thử nhưng vẫn còn một số điểm yếu. Mô hình vẫn còn bỏ sót nhiều đối tượng, bao gồm cả các đối tượng lớn và nhỏ. RTMDet-R-tiny cũng phát hiện nhầm một số vật thể có kích thước và hình dạng tương đồng với tàu thuyền. Vài đối tượng lớn khiến cho mô hình không thể trích xuất đặc trưng hoàn toàn vật thể, khiến hộp giới hạn vẽ không bao phủ toàn bộ đối tượng hoặc mô hình có thể dự đoán nhiều hộp giới hạn cho cùng một đối tượng. Một số minh họa cụ thể được đưa ra ở Hình 7. (a) Mô hình phát hiện thiếu hai đối tượng tàu kích thước nhỏ (ground truth bên trái, nhãn dự đoán bên phải) Bên cạnh những hạn chế, RTMDet-R-tiny cũng cho thấy những kết quả đáng kinh ngạc. DOTA là một bộ dữ liệu phổ biến với số lượng hình ảnh lớn và nhiều đối tượng nhỏ. Vì vậy, thiếu sót trong việc gán nhãn là điều khó tránh khỏi. Mô hình có khả năng phát hiện cả những vật thể không có ground truth. Vì ảnh thiếu ground truth cho các vật thể này, độ đo IoU sẽ bằng 0. Điều này có thể làm ảnh hưởng đến điểm số của mô hình khi tiến hành đánh giá trên tập kiểm thử. Ngoài ra, RTMDet-R-tiny phát hiện rất tốt các trường hợp ảnh chất lượng kém hoặc ảnh có mật độ đối tượng dày đặc. (b) Đối tượng lớn bị bỏ sót và xuất hiện hộp giới hạn thừa trên Mô hình cũng cho ra kết quả khá tốt trên hình ảnh xám. cùng đối tượng (ground truth bên trái, nhãn dự đoán bên phải) Một số minh họa được thể hiện ở Hình 8. F. So sánh với các mô hình khác Trong phần này, chúng tôi sẽ tiến hành so sánh kết quả của phương pháp RTMDet-R-tiny với 4 phương pháp phát hiện đối tượng có hướng khác: GRS-Det, Mask- RCNN, SCRDet, Retianet-OBB cũng đã được huấn luyện trên bộ dữ liệu DOTA-ship trước đó theo chuẩn độ đo Pascal VOC với cùng ngưỡng IoU là 0.5. Việc làm này sẽ giúp người đọc có cái nhìn tổng quát hơn về điểm số thực nghiệm. Kết quả so sánh được thể hiện (c) Mô hình phát hiện nhầm các đối tượng không thuộc lớp trong Bảng III. "ship" (bên trái) và các hộp giới hạn không bao phủ đối tượng lớn (bên phải) Bảng III: Kết quả của RTMDet-R-tiny và các phương Hình 7: Trực quan những hạn chế của mô hình pháp khác trên bộ dữ liệu DOTA-ship RTMDet-R-tiny trên bộ dữ liệu DOTA-ship[1] Phương pháp Backbone AP50 (%) GRS-Det[2] ResNet-101 84.77 Mask-RCNN[3] ResNet-50 79.75 thấy rằng các cải tiến của phương pháp này đã cho ra SCRDet[4] ResNet-50 74.83 mô hình có hiệu suất được cải thiện rất tốt. Retianet-OBB[5] ResNet-50 65.29 IV. KẾT LUẬN RTMDet-R-tiny CSPNeXt 89.3 Trong bài báo này, chúng tôi đã nghiên cứu, phân tích về kiến trúc của phương pháp RTMDet và tiến hành thực Từ Bảng III, chúng tôi nhận thấy rằng các mô hình nghiệm mô hình RTMDet-R-tiny bằng hai backbone trong thử nghiệm trên bộ dữ liệu DOTA-ship đạt hiệu CSPNeXt và CSPDarkNet trên cùng bộ DOTA-ship suất khá tốt. Đáng chú ý, RTMDet-R-tiny có điểm số trong 100 epochs. Khi dùng độ đo chuẩn Pascal VOC đứng ở vị trí đầu tiên trong danh sách. Từ đó, ta có thể với ngưỡng IoU là 0.5, kết quả thấy mô hình RTMDet- ISBN 978-604-80-8932-0 333
Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) R-tiny đạt hiệu suất tuyệt vời cho nhiệm vụ nhận dạng LỜI CẢM ƠN tàu thuyền nói riêng và phát hiện đối tượng xoay nói Nghiên cứu này được tài trợ bởi Trường Đại học Công chung. Tuy nhiên, khi trực quan hóa hình ảnh kết quả nghệ Thông tin - ĐHQG-HCM trong khuôn khổ Đề tài dự đoán, chúng tôi cũng đã rút ra được những hạn chế mã số D2-2023-06. của phương pháp. Tổng hợp những đánh giá trên, nhóm nghiên cứu có đủ cơ sở và tiền đề để tiếp tục cải tiến mô TÀI LIỆU THAM KHẢO hình nhằm khắc phục các khó khăn được nêu ra trước [1] G.-S. Xia, X. Bai, J. Ding, Z. Zhu, S. Belongie, J. Luo, M. Datcu, đó, đồng thời tăng hiệu suất phương pháp RTMDet cho M. Pelillo, and L. Zhang, “Dota: A large-scale dataset for object detection in aerial images,” in Proceedings of the IEEE nhiệm vụ phát hiện đối tượng có hướng trong tương lai. conference on computer vision and pattern recognition, 2018, pp. 3974–3983. [2] X. Zhang, G. Wang, P. Zhu, T. Zhang, C. Li, and L. Jiao, “Grs- det: An anchor-free rotation ship detector based on gaussian- mask in remote sensing images,” IEEE Transactions on Geo- science and Remote Sensing, vol. 59, no. 4, pp. 3518–3531, 2020. [3] K. He, G. Gkioxari, P. Dollár, and R. Girshick, “Mask r-cnn,” pp. 2980–2988, 2017. [4] X. Yang, J. Yang, J. Yan, Y. Zhang, T. Zhang, Z. Guo, X. Sun, and K. Fu, “Scrdet: Towards more robust detection for small, cluttered and rotated objects,” in Proceedings of the IEEE/CVF international conference on computer vision, 2019, pp. 8232– 8241. [5] T.-Y. Lin, P. Goyal, R. Girshick, K. He, and P. Dollár, “Focal loss for dense object detection,” in Proceedings of the IEEE international conference on computer vision, 2017, pp. 2980– 2988. [6] C. Lyu, W. Zhang, H. Huang, Y. Zhou, Y. Wang, Y. Liu, (a) Mô hình phát hiện rất tốt ảnh chất lượng kém (bên trái) và S. Zhang, and K. Chen, “Rtmdet: An empirical study of design- ảnh có nhiều đối tượng nhỏ dày đặc (bên phải) ing real-time object detectors,” arXiv preprint arXiv:2212.07784, 2022. [7] A. Bochkovskiy, C.-Y. Wang, and H.-Y. M. Liao, “Yolov4: Optimal speed and accuracy of object detection,” arXiv preprint arXiv:2004.10934, 2020. [8] C.-Y. Wang, H.-Y. M. Liao, Y.-H. Wu, P.-Y. Chen, J.-W. Hsieh, and I.-H. Yeh, “Cspnet: A new backbone that can enhance learning capability of cnn,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition work- shops, 2020, pp. 390–391. [9] T.-Y. Lin, P. Dollár, R. Girshick, K. He, B. Hariharan, and S. Belongie, “Feature pyramid networks for object detection,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 2117–2125. (b) RTMDet-R-tiny phát hiện các đối tượng không được gán [10] S. Ioffe and C. Szegedy, “Batch normalization: Accelerating nhãn (ground truth bên trái, nhãn dự đoán bên phải) deep network training by reducing internal covariate shift,” in International conference on machine learning. pmlr, 2015, pp. 448–456. [11] Y. Zhou, X. Yang, G. Zhang, J. Wang, Y. Liu, L. Hou, X. Jiang, X. Liu, J. Yan, C. Lyu et al., “Mmrotate: A rotated object detection benchmark using pytorch,” in Proceedings of the 30th ACM International Conference on Multimedia, 2022, pp. 7331– 7334. [12] M. Everingham and J. Winn, “The pascal visual object classes challenge 2007 (voc2007) development kit,” Int. J. Comput. Vis, vol. 88, no. 2, pp. 303–338, 2010. [13] Z. Ge, S. Liu, F. Wang, Z. Li, and J. Sun, “Yolox: Exceeding yolo series in 2021,” arXiv preprint arXiv:2107.08430, 2021. [14] W. Luo, Y. Li, R. Urtasun, and R. Zemel, “Understanding the effective receptive field in deep convolutional neural networks,” (c) Mô hình phát hiện tốt trên ảnh xám Advances in neural information processing systems, vol. 29, 2016. Hình 8: Trực quan những ưu điểm của mô hình [15] A. A. Bastidas and H. Tang, “Channel attention networks,” in RTMDet-R-tiny trên bộ dữ liệu DOTA-ship[1] Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, 2019, pp. 0–0. ISBN 978-604-80-8932-0 334