Ứng dụng mô hình DETR vào bài toán phát hiện phương tiện giao thông
lượt xem 2
download
Bài viết "Ứng dụng mô hình DETR vào bài toán phát hiện phương tiện giao thông" đề xuất cải tiến mô hình DETR, một hướng tiếp cận phát hiện dựa trên “transformer” để phát hiện phương tiện giao thông. Một trong những hạn chế của DETR là khả năng tích hợp các đặc trưng ở các tỉ lệ khác nhau do độ phức tạp trong cơ chế tự chú ý của “transformer”. Điều này khiến cho hiệu suất phát hiện đối tượng nhỏ của DETR không được tốt như mong đợi. Mời các bạn cùng tham khảo!
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Ứng dụng mô hình DETR vào bài toán phát hiện phương tiện giao thông
- Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) Ứng Dụng Mô Hình DETR Vào Bài Toán Phát Hiện Phƣơng tiện Giao Thông. Vũ Lê Quỳnh Phƣơng1, Trần Nguyễn Minh Thƣ2, Phạm Nguyên Khang2 1. Trƣờng Cao đẳng Sƣ phạm Kiên Giang 2. Trƣờng Đại học Cần Thơ. Email: vlqphuong@cdspkg.du.vn, tnmthu@ctu.edu.vn, pnkhang@ctu.edu.vn thông trở nên khó khăn do phƣơng tiện giao thông Abstract— Trong bài báo này, chúng tôi đề xuất cải tiến mô hình DETR, một hướng tiếp cận phát hiện dựa chồng chéo và che khuất nhau. trên “transformer” để phát hiện phương tiện giao thông. Để giải quyết vấn đề này, các nhà nghiên cứu đang Một trong những hạn chế của DETR là khả năng tích tập trung vào việc phát triển các mô hình dựa trên CNN hợp các đặc trưng ở các tỉ lệ khác nhau do độ phức tạp để phát hiện xe máy. Nghiên cứu của Chí Kiên Huỳnh trong cơ chế tự chú ý của “transformer”. Điều này khiến cho hiệu suất phát hiện đối tượng nhỏ của DETR không và cộng sự [2] đã áp dụng CNN để nhận diện xe máy được tốt như mong đợi. Để khắc phục điểm yếu này, từ góc nhìn từ trên cao và đạt đƣợc kết quả F1-score trong nghiên cứu, chúng tôi đã xem xét nhiều cách tiếp 81% trên 200 hình ảnh thử nghiệm. Tuy nhiên, mô hình cận và nhận định rằng việc sử dụng “Reverse Feature này mất khoảng 2 phút để xử lý một ảnh, do đó chƣa Pyramid” và mạng “Cross-scale Shift” (RC-Net) sẽ tối thực sự hiệu quả cho các ứng dụng thời gian thực. ưu hóa hiệu suất của DETR. Dữ liệu thực nghiệm được lấy trước cổng bệnh viện Kiên Giang để huấn luyện và Trong nghiên cứu của Phuong và cộng sự , mô hình kiểm tra đánh giá mô hình. Dựa trên kết quả thử Faster-RCNN đƣợc áp dụng để nhận biết và đếm nghiệm, việc sử dụng RCNet cho phép mạng cải thiện độ phƣơng tiện giao thông [13]. Mô hình này phát hiện chính xác phân loại với tăng hơn 10%, so với các so với các loại phƣơng tiện, đếm xe hai bánh, bốn bánh và xe phương pháp tiêu chuẩn trước đây. ƣu tiên để xác định tình hình giao thông. Độ chính xác Keywords- Tranformer, phát hiện đối tượng, phát hiện lần lƣợt là 92% với Faster RCNN và 92,53% với phương tiện giao thông, RCNet, DETR (DEtection Yolov4, thời gian suy diễn là 1,5 - 2,8 giây mỗi ảnh TRansformer). nên không thể áp dụng mô hình trong thời gian thực. Đặc biệt, khi giao thông đông, mô hình gặp khó khăn I. GIỚI THIỆU trong việc nhận biết tất cả các loại phƣơng tiện giao Hiện nay, hầu hết các hệ thống phát hiện đối tƣợng thông. hiệu quả hiện nay đều sử dụng mạng nơ-ron tích chập Trong nghiên cứu khác, Zhou Xingyi và cộng sự đã (CNN) và giải quyết vấn đề dự đoán bằng cách so khớp giới thiệu mô hình CenterNet[24]. Thay vì sử dụng cấu giữa các đề xuất và thực thể thật dựa trên các tiêu chí trúc “anchor”, CenterNet giải quyết vấn đề phát hiện đã định trƣớc. Một số kiến trúc điển hình nhƣ: phát đối tƣợng bằng cách ƣớc lƣợng các điểm đặc trƣng, hiện đối tƣợng dựa vào “anchor”, phát hiện đối tƣợng giúp xác định kích thƣớc và vị trí của hộp giới hạn một dựa vào “key-point”. Bộ phát hiện đối tƣợng dựa trên cách hiệu quả. Từ thành công của mô hình CenterNet, kiến trúc mạng nơ-ron tích chập “anchor” [14, 15, 17, nhóm tác giả Phƣơng đã kết hợp CenterNet và hai mô 18, 19] và “key-point” [6, 24] đã đạt đƣợc sự chính xác hình học máy khác để đánh giá tình hình giao thông từ đáng kể. các camera giao thông [12]. Mô hình đầu tiên dựa trên Việc sử dụng thuật toán để phát hiện đối tƣợng đã trở mạng CNN để phân loại tình trạng giao thông. Khi tình nên phổ biến, đặc biệt trong lĩnh vực giao thông thông trạng giao thông đông đúc, mô hình trừ nền đƣợc áp minh. Mục tiêu chính là nhận biết và phân loại các loại dụng để ƣớc lƣợng tốc độ di chuyển. Ngƣợc lại, khi phƣơng tiện một cách nhanh chóng, chính xác, hoạt tình hình giao thông thông thoáng, mô hình CenterNet động tốt trong mọi điều kiện thời tiết và ánh sáng. Trên đƣợc áp dụng để đếm số lƣợng phƣơng tiện và ƣớc thế giới, có nhiều nghiên cứu về việc nhận diện phƣơng lƣợng mật độ giao thông. Hệ thống này cung cấp thông tiện giao thông dựa trên mô hình CNN, chủ yếu là xe tin chi tiết về tình hình giao thông và có độ chính xác hơi, bus, và xe tải [1, 5, 7,9,10,11]. mAP 93,13% với thời gian suy diễn chỉ 0,146 giây cho mỗi ảnh. Thực tế giao thông tại Việt Nam khác biệt với giao thông thế giới, xe máy là loại phƣơng tiện chủ đạo. Các bộ phát hiện hiện đại thƣờng thực hiện hồi quy Vào giờ cao điểm, khi tắc đƣờng xảy ra, đặc biệt là do và phân loại trên một loạt đề xuất lớn. Do đó, hiệu suất lƣợng lớn xe máy, việc phát hiện phƣơng tiện giao của các giải thuật bị ảnh hƣởng bởi các nhiệm vụ xử lý ISBN ............ 978-604-80-8932-0 369
- Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) phức tạp nhƣ thuật toán chặn không cực đại (NMS). Vì đối tƣợng (object queries) - và tiếp tục quan sát đầu ra vậy, ứng dụng thị giác máy tính dựa vào “transformer” từ bộ mã hóa. Mỗi vector nhúng đầu ra từ bộ giải mã sẽ đã đƣợc giới thiệu nhƣ là một mô hình kiến trúc nhằm đƣợc đƣa vào một mạng FFN để dự đoán, hoặc là một phát hiện đối tƣợng thay thế cho CNN [8]. sự phát hiện bao gồm lớp và hộp giới hạn, hoặc là không có đối tƣợng nào đƣợc phát hiện. Thiết kế của kiến trúc DETR đơn giản, tuy nhiên kết quả thử nghiệm ban đầu cho thấy mô hình DETR có mAP kém hơn, thời gian huấn luyện chậm hơn so với các mô hình tích chập hiện có. Có hai nguyên nhân chính gây ra vấn đề này: (1) Cơ chế tự chú ý trong mô hình tiêu thụ nhiều tài nguyên, đặc biệt khi xử lý hình ảnh có nhiều chi tiết, và (2) Thuật toán Hungarian mất thời gian. Vấn đề này làm cho việc cải thiện hiệu suất Hình 1. Kiến trúc mô hình DETR bằng cách thêm nhiều đặc trƣng trở nên phức tạp. 2. Kiến trúc RCNet Do đó, mục tiêu của chúng tôi là tìm ra cách tích hợp Trong lĩnh vực phát hiện đối tƣợng, việc sử dụng các đặc trƣng vào DETR mà không làm tăng độ phức mạng đặc trƣng FPN, hay các mạng BiFPN và Aug tạp. Chúng tôi đã nhận ra một số điểm quan trọng: (1) FPN để phát hiện các đặc trƣng mang lại hiệu suất việc thêm nhiều đặc trƣng là khó khăn vì giới hạn tài đáng chú ý, tuy nhiên, mạng đặc trƣng làm gia tăng nguyên, (2) Bộ mã hóa “transformer “đóng một vai trò đáng kể thời gian suy luận. Để tối ƣu hóa vấn đề này, quan trọng trong máy dò và không thể bị loại bỏ, (3) nhóm nghiên cứu đã tinh giản “pipeline” đặc trƣng và Cách sử dụng cửa sổ dịch chuyển (shifted window) cung cấp một quan sát quan trọng: việc thêm một kết không thực sự hiệu quả cho các hình ảnh phức tạp, (4) nối ngƣợc đến quy mô trƣớc có thể mô phỏng luồng việc thêm nhiều chi tiết vào DETR để phát hiện các đối đặc trƣng hai chiều mà không làm giảm tốc độ suy tƣợng khác nhau làm tăng độ phức tạp mà không mang luận. Dựa trên phân tích này, họ đƣa ra kiến trúc lại hiệu suất tốt hơn, (5) việc sử dụng kiến trúc mới tên RevFP (Reverse Feature Pyramid), bao gồm một luồng là RCNet giúp cải thiện hiệu suất mà không làm phức “bottom-up” kết hợp với một kết nối cục bộ “top- tạp hóa mô hình quá nhiều. down”. Đáng chú ý, việc thử nghiệm với hƣớng ngƣợc lại “top-down” kết hợp với kết nối cục bộ “bottom-up” Phần còn lại của bài báo đƣợc tổ chức nhƣ sau: trong không mang lại hiệu suất mong đợi. phần II, chúng tôi miêu tả mô hình đề xuất. Trong phần III, chúng tôi đề xuất phƣơng pháp đánh giá hiệu suất Bên cạnh đó, nhóm nghiên cứu đã áp dụng kỹ thuật của mô. Phần IV cung cấp các kết quả mô phỏng và kết hợp có trọng số (weighted fusion) theo chiến lƣợc phân tích lý thuyết. Cuối cùng, chúng tôi kết luận bài của BiFPN, thay vì sử dụng phép cộng truyền thống báo trong phần V. nhƣ trong FPN. Một điểm đáng lƣu ý khác là mối liên hệ giữa các bản đồ đặc trƣng ở các quy mô khác nhau. II. MÔ HÌNH ĐỂ XUẤT Thông thƣờng, các bản đồ đặc trƣng của hai quy mô 1. Mô hình DETR gần nhau sẽ có độ tƣơng quan cao. Tuy nhiên, khi chênh lệch quy mô tăng lên, độ tƣơng quan giữa chúng Trong kiến trúc của mô hình DETR gồm có ba thành giảm đi đáng kể. Điều này là do việc kết hợp đặc trƣng phần quan trọng đƣợc minh hoạ nhƣ Hình 1, bao gồm: thƣờng chỉ tập trung vào hai quy mô gần nhau, dẫn đến Bộ mã hóa “transformer”, bộ giải mã “transformer” và sự không đồng đều trong kết quả giữa các bản đồ đặc mạng lan truyền tiến (Feed-Forward Network - FFN). trƣng ở các quy mô xa xôi. Để khắc phục vấn đề này, Các phƣơng pháp phát hiện đối tƣợng truyền thống, ví nhóm nghiên cứu đã giới thiệu mạng con “Cross-scale dụ nhƣ phƣơng pháp dựa trên “anchor”, thƣờng dựa Shift Network” (CSN), giúp điều chỉnh thông tin giữa vào việc điều chỉnh phân loại danh mục và hồi quy hệ các quy mô và đảm bảo sự cân bằng trong các đặc số của “bounding box” trên các “anchor” đƣợc xác trƣng của mạng đa cấp, đa quy mô. Một điểm đáng chú định sẵn. Tuy nhiên, với cơ chế biến đổi chuỗi của ý là khối này có hiệu suất cao nhƣng lại rất nhẹ, vì “transformer”, DETR có thể đƣợc hiểu nhƣ một quá không tăng thêm số lƣợng tham số hay FLOPs cho trình biến đổi từ chuỗi hình ảnh (image sequence) sang mạng. truy vấn đối tƣợng (Object Query). 3. Mô hình DETR cải tiến Mô hình DETR áp dụng kiến trúc CNN (ResNet, ViT,..) để trích xuất đặc trƣng từ hình ảnh đầu vào. DETR (Detection Transformer) đại diện cho một Biểu diễn này sau đó đƣợc làm phẳng và đƣợc bổ sung cách tiếp cận “end-to-end” trong việc giải quyết bài thông tin mã hóa vị trí trƣớc khi đƣợc đƣa vào bộ mã toán phát hiện đối tƣợng. Mô hình DETR đƣợc đề xuất hóa dạng “transformer”. Bộ giải mã dạng “transformer” bao gồm các bƣớc sau: sau cùng sẽ nhận vào một tập hợp cố định gồm một số - Bƣớc 1: ảnh đầu vào đƣợc truyền qua một mạng lƣợng nhỏ các vị trí đã đƣợc học - đƣợc gọi là truy vấn CNN để trích xuất các đặc trƣng. Mạng Kim tự tháp ISBN ............ 978-604-80-8932-0 370
- Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) Đặc trƣng (Feature Pyramid Network) [22] đƣợc sử Các giá trị độ tin cậy (precision) và độ nhạy (recall) dụng để phát hiện nhiều mức độ đặc trƣng, mỗi cấp độ đƣợc tính toán bằng cách sử dụng các công thức đã đƣợc gắn với đầu phát hiện để phát hiện đối tƣợng. Tuy đƣợc đề xuất trong nghiên cứu của Rocchio và cộng sự. nhiên, phƣơng pháp này đơn giản không thể đƣợc sử Để tạo đƣờng cong (PR curve) độ tin cậy theo độ nhạy dụng do độ phức tạp bậc hai trong bộ mã hóa cho mỗi lớp riêng biệt, lần lƣợt vẽ các điểm dữ liệu trên “transformer”. Do đó, chúng tôi đề xuất tổng hợp nhiều biểu đồ với tọa độ ( ) sau đó nối lại với nhau. đặc trƣng bằng cách sử dụng RCNet [27]. Diện tích nằm dƣới đƣờng cong PR curve chính là giá trị AP. Một giá trị AP lớn đồng nghĩa với việc mô hình Sau nhiều thí nghiệm, chúng tôi đề xuất cải tiến kiến có chất lƣợng phát hiện tốt, khi độ tin cậy và độ nhạy trúc DETR bằng cách thêm kiến trúc RCNet vào mô đều cao. Độ chính xác trung bình (AP) đƣợc xác định hình DETR gốc. Cụ thể, mô hình đƣợc thiết nhằm kết theo công thức (1). nối mô-đun RCNet với đầu ra đặc trƣng của từ mạng xƣơng sống ResNet, và xếp chồng nó 8 lần, trƣớc khi cuối cùng đƣa đầu ra với đặc trƣng đƣợc tổng hợp đa tỉ lệ vào kiến trúc “transformer”. Hình 2 mô tả kiến trúc cuối cùng của mô hình DETR cải tiến. Các đặc trƣng này sau đó đƣợc làm phẳng và bổ sung thông tin về vị trí trong không gian ảnh thông qua “encoding” trƣớc khi đƣợc đƣa vào “transformer encoder”. - Bƣớc 2: “Transformer encoder” xử lý các đặc trƣng bằng cách sử dụng các lớp con “transformer block” và cơ chế tự chú ý. Các “token” đặc trƣng đầu ra từ quá IV. KẾT QUẢ trình này mang thông tin về ngữ cảnh toàn cầu của ảnh. Các “token” đầu ra sau đó đƣợc truyền vào Trong bài báo này, các mô hình đƣợc xử lý trên một “transformer decoder” để giải mã thông tin và tạo ra máy tính đơn sử dụng nền tảng Google Colab với CPU các token đầu ra tƣơng ứng với mỗi hộp giới hạn trong Intel Xeon Processor with two cores 2.30 GHz đi kèm dự đoán. Quá trình giải mã này đƣợc thực hiện song với 13GB ram cho phép huấn luyện với batch size lớn song để tăng tốc độ suy luận. hơn, GPU có hiệu suất cao nhƣ GPU Nvidia Tesla T4 15102MiB giúp rút ngắn đáng kể thời gian tính toán. - Bƣớc 3: Mạng “Feed Forward Network” (FFN) Các mô hình đƣợc huấn luyện với kích thƣớc lô (batch đƣợc áp dụng cho mỗi “token” đầu ra để chuyển đổi size) đƣợc thiết lập là 8, thuật toán tối ƣu ADAM với thành tọa độ của hộp giới hạn và phân phối xác suất động lƣợng (momentum) 0,9 và tốc độ học ban đầu là của nhãn. Cuối cùng, thuật toán “Bipartite Matching” 0,001. Quá trình đào tạo đƣợc thực hiện trong 25 vòng đƣợc sử dụng để ghép cặp các hộp dự đoán và hộp thực lặp (epochs). Tỷ lệ học tập sẽ giảm 10 lần nếu sau 10 tế để đảm bảo tính nhất quán và chính xác trong kết vòng lặp mà độ chính xác trên tập dữ liệu xác thực quả phát hiện đối tƣợng. không đƣợc cải thiện. Dữ liệu đƣợc cung cấp bởi Công an phƣờng Vĩnh Thanh Vân – TP Rạch Giá – tỉnh Kiên Giang. Gồm có 03 góc camera (CAM1, CAM3, CAM5). Vị trí đặt camera đƣờng Lê Lợi (đối diện bệnh viện tỉnh Kiên Giang). Các video clip dữ liệu đều có thời lƣợng gần 1 tiếng. Độ phân giải ở góc CAM1 và CAM5 là 1920x1080, FPS lần lƣợt là: 15 khung hình/giây và 12 khung hình/giây. Riêng độ phân giải ở góc CAM3 là 1280x720, FPS: 10 khung hình/giây. Cảnh quay ở video clip góc CAM1 là vào ban ngày, trời nắng, thời Hình 2. Kiến trúc mô hình DETR cải tiến gian từ 10 giờ 13 phút sáng ngày 01-11-2020 đến 11 giờ 13 phút sáng cùng ngày. Cảnh quay ở video clip III. CÁC PHƢƠNG PHÁP ĐÁNH GIÁ góc CAM3 cũng vào ban ngày, trời nắng, thời gian từ Phƣơng pháp phát hiện đối tƣợng phƣơng tiện giao 10 giờ tới 11 giờ sáng ngày 09-09-2019. Video clip góc thông sử dụng độ đo mAP (Mean Average Precision). CAM5 có thời gian từ 16 giờ 23 phút tới 17 giờ 23 Độ đo mAP để đánh giá độ chính xác của việc nhận phút chiều ngày 12-11-2020, cảnh quay ban đầu trời dạng đối tƣợng, là trung bình các giá trị AP (Average nắng nhƣng tới khoảng 16 giờ 50 phút thì trời bắt đầu Precision) theo từng phân lớp đối tƣợng mà mô hình có mƣa trong vòng khoảng 15 phút. khả năng nhận dạng đƣợc. Tập dữ liệu 1: bao gồm 2000 ảnh, đƣợc gán nhãn: “0” là xe ƣu tiên, “1” là xe máy, xe đạp, “2” ứng với các ISBN ............ 978-604-80-8932-0 371
- Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) loại xe ôtô 4 chỗ, 7 chỗ, xe bus…. Số lƣợng các mẫu Mô hình có khả năng phân tích mỗi khung hình trong đối tƣợng trên 3 nhãn (0, 1, 2) lần lƣợt là (275; 3910; một ảnh trong khoảng thời gian 11,7 ms. Điều này cho 23810). Xét trên từng video gốc, tập dữ liệu đã gán thấy mô hình đủ nhanh để sử dụng trong các ứng dụng nhãn đƣợc chia thành 3 tập con là “train”, “test”, thời gian thực nhƣ phát hiện đối tƣợng trong video trực “valid”, tất cả các ảnh sẽ đƣợc sắp xếp theo thứ tự dòng tiếp. Mô hình YOLOv7 có thể phát hiện tốt 3 loại nhãn thời gian nhƣ trong video gốc, 80% ảnh ở đầu video sẽ trong nhiều trƣờng hợp. đƣợc sử dụng cho tập “train” và 20% đoạn sau đƣợc Tiếp tục huấn luyện mô hình YOLOv7 với tập dữ chia đều làm 2 phần cho tập “test” và “valid”. Thực liệu 2, kết quả thu đƣợc là 98,3% sau 0,778 giờ huấn hiện nhƣ vậy trên từng video gốc sau đó tổng hợp lại ta luyện. Bảng 1 so sánh mAP giữa 2 tập dữ liệu đƣợc thu đƣợc 3 tập dữ liệu “train”, “valid”, “test” tổng hợp. huấn luyện. Kết quả thực nghiệm cho thấy rằng, khi Sau khi huấn luyện trên tập dữ liệu 1 bằng cả 3 mô tăng số lƣợng dữ liệu đối với mô hình YOLOv7, độ hình: YOLO và DETR, thì độ chính xác của mô hình chính xác không đạt đƣợc sự cải thiện đáng kể (98,3%), DETR cho kết quả không đạt mong đợi. Vì vậy, để nhƣng thời gian huấn luyện lại tăng gấp đôi. Điều quan kiểm tra giả định rằng việc tăng thêm dữ liệu có thể trọng là mô hình YOLOv7 vẫn đạt đƣợc độ chính xác nâng cao độ chính xác của mô hình hay không, nhóm cao trên cả 2 bộ dữ liệu, cho thấy rằng YOLOv7 vẫn là nghiên cứu đã bổ sung thêm hình ảnh có gán nhãn vào một giải pháp hiệu quả cho bộ dữ liệu nhỏ và có thể tập dữ liệu 1 và tiến hành huấn luyện lại. đƣợc triển khai trong các tình huống yêu cầu thời gian huấn luyện ngắn. Tập dữ liệu 2: bao gồm 2946 ảnh (gồm 2000 ảnh từ dữ liệu 1 và 946 ảnh đƣợc thêm vào từ các video thu 2. Thực nghiệm với mô hình DETR thập), đƣợc gán nhãn và chia thành tập dữ liệu train, Kết quả thực nghiệm từ Bảng 2 cho thấy, mô hình valid, test nhƣ nhƣ tập dữ liệu 1. Số lƣợng các mẫu đối DETR có thời gian huấn luyện mất 1,68 giờ. Bên cạnh tƣợng trên 3 nhãn (0, 1, 2) lần lƣợt là (335; 4295; đó, mô hình huấn luyện với 41,5 triệu tham số nên mô 23964). hình DETR đƣợc xem xét là một mô hình lớn và phức 1. Thực nghiệm với mô hình YOLOv7 tạp. Số lƣợng tham số lớn này có thể làm gia tăng khả năng mô hình trong việc học và hiểu dữ liệu, nhƣng Huấn luyện tập dữ liệu 1 với mô hình YOLOv7 để cũng đặt ra thách thức về cách triển khai trên các nền thực hiện việc phát hiện phƣơng tiện giao thông đƣợc tảng có tài nguyên hạn chế. Ngoài ra, mAP khá thấp đã đƣợc gán nhãn. Quá trình huấn luyện trong khoảng (50,9%) thể hiện hiệu suất phân loại đối tƣợng của mô thời gian ngắn, chỉ mất 0,474 giờ (khoảng 28,4 phút) hình còn chƣa cao, có thể do mô hình chƣa hoàn thiện để hoàn thành quá trình học với mAP 98, 2%. hoặc cần đƣợc điều chỉnh thêm để cải thiện khả năng Mô hình YOLOv7 có tổng cộng 168 tầng, là các tầng phát hiện chính xác. Tuy nhiên, một điểm mạnh của của mạng nơ-ron sâu (deep neural network) sử dụng mô hình DETR là thời gian nhận dạng nhanh, trung trong thuật toán phát hiện đối tƣợng phƣơng tiện giao bình chỉ là 2,3ms cho mỗi ảnh. Điều này cho thấy khả thông [23]. Số lƣợng tầng này có ảnh hƣởng đến độ năng của nó trong việc xử lý ảnh nhanh chóng và phù phức tạp của mô hình và khả năng phân tích đối tƣợng hợp cho các ứng dụng đòi hỏi đáp ứng thời gian thực. trong ảnh. Mô hình có tổng cộng 11.126.745 tham số. Một số ảnh minh hoạ về phát hiện phƣơng tiện giao Tham số là các trọng số và thông số trong mô hình mà thông với mô hình DETR đƣợc hiển thị trong Hình 3. mạng nơ-ron sâu sử dụng để học và dự đoán. Số lƣợng Bảng 2. Bảng kết quả đánh giá trên tâp dữ liệu với tham số càng lớn thì mô hình càng phức tạp và có khả năng học tốt hơn từ dữ liệu, cũng đồng nghĩa với việc mô hình DETR tốn thời gian và tài nguyên tính toán để huấn luyện và Lớp Tập dữ liệu 1 Tập dữ liệu 2 triển khai mô hình. mAP 50 mAP 50 Bảng 1. Bảng kết quả đánh giá trên tâp dữ liệu với Tất cả 50,9% 62,4% mô hình YOLOv7 Xe ƣu tiên 20,6% 22,7% Lớp Tập dữ liệu 1 Tập dữ liệu 2 Xe 2 bánh 77,2% 87,8% mAP 50 mAP 50 Xe 4 bánh 54,9% 76,7% Tất cả 98,2% 98,3% Xe ƣu tiên 99,4% 99,3% Xe 2 bánh 97,2% 97,2% Xe 4 bánh 98% 98,3% ISBN ............ 978-604-80-8932-0 372
- Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) chƣa tốt, và có thể cần thêm dữ liệu hoặc tinh chỉnh mô hình để cải thiện hiệu suất trên lớp này. Đối với xe 2 bánh, mô hình thể hiện hiệu suất tốt trong việc phát hiện xe 2 bánh trên cả hai tập dữ liệu, với mAP 50 là 85,2% cho Tập dữ liệu 1 và 90,1% cho Tập dữ liệu 2. Điều này cho thấy mô hình rất mạnh mẽ trong việc phát hiện lớp này. Xe 4 bánh, mô hình có hiệu suất trung bình trên Tập dữ liệu 2 với mAP 50 ở mức 89,6% nhƣng chỉ 65% trên Tập dữ liệu 1. Điều này cần đƣợc Hình 3. Kết quả phát hiện phƣơng tiện với mô hình DETR xem xét kỹ lƣỡng, có thể do sự khác biệt trong phân bố dữ liệu giữa hai tập dữ liệu hoặc một số yếu tố khác Khi huấn luyện trên tập dữ liệu 2, từ kết quả Bảng 2 liên quan đến đặc trƣng của xe 4 bánh. cho thấy, độ chính xác của mô hình đã đạt 62,4%, tăng thêm hơn 11% so với khi chỉ sử dụng tập dữ liệu 1. Nhìn chung, mô hình DETR cải tiến thể hiện hiệu Thời gian huấn luyện cũng tăng lên đến 2,69 giờ. Kết suất tốt trên phần lớn các lớp, nhƣng vẫn cần cải thiện quả này do đã bổ sung gần 1000 hình ảnh huấn luyện thêm trong việc phát hiện xe ƣu tiên. vào tập dữ liệu. Điều này chứng minh là mô hình Mặc dù mô hình DETR cải tiến có độ chính xác mAP DETR thích hợp cho các bài toán có dữ liệu lớn[3, 4]. thấp hơn so với mô hình phát hiện đối tƣợng YOLOv7, Về nguyên lý, kiến trúc mạng DETR không có tính nhƣng thời gian suy luận nhanh hơn gần 3 lần so với chất không biến dạng khi dịch chuyển nhƣ mạng CNN mô hình YOLOv7. Bảng 4 so sánh kết quả đánh giá nên mô hình cần đƣợc cung cấp nhiều dữ liệu để đáp trên tập dữ liệu với mô hình YOLOv7, DETR và ứng quá trình học các đặc trƣng của ảnh. Bên cạnh đó, DETR cải tiến. Trong ngữ cảnh của bài toán xử lý thời mô hình DETR sử dụng cơ chế tự chú ý để cải thiện gian thực, nếu yêu cầu về độ chính xác tƣơng đối hoặc khả năng hiểu và tƣơng tác với các đối tƣợng trong có sẵn một lƣợng lớn dữ liệu, mô hình DETR cải tiến hình ảnh. Khi bổ sung thêm dữ liệu, mô hình có thể học có thể là một lựa chọn hữu ích. hỏi từ nhiều ví dụ khác nhau, từ đó nâng cao khả năng tổng quát hóa và độ chính xác của nó. Thời gian huấn Bảng 4. Bảng so sánh kết quả đánh giá trên tâp dữ liệu với mô hình YOLOv7, DETR và DETR cải tiến luyện tăng do sự gia tăng trong số lƣợng dữ liệu và độ phức tạp của mô hình. Tuy nhiên, sự cải thiện độ chính DETR xác đáng kể khi thêm dữ liệu là một kết quả quan trọng YOLOv7 DETR cải tiến và cho thấy mô hình DETR phù hợp với dữ liệu lớn. mAP50 (%) 98,3 62,4 70,2 3. Thực nghiệm với mô hình DETR cải tiến Thời gian Bảng 3. Bảng kết quả đánh giá trên tâp dữ liệu với mô hình 11,8 2,3 4,3 suy luận (ms) DETR cải tiến IV. KẾT LUẬN Lớp Tập dữ liệu 1 Tập dữ liệu 2 mAP 50 mAP 50 Trong nghiên cứu này, chúng tôi khảo sát trong việc mở rộng mô hình DETR và đề xuất mô hình Tất cả 60,1% 70,2% DETR cải tiến. Cụ thể, mô hình DETR cải tiến tích hợp Xe ƣu tiên 30,1% 30,9% một RCNet để tổng hợp các đặc trƣng ảnh đa cấp, nhằm cải thiện khả năng phát hiện đối tƣợng nhỏ trong Xe 2 bánh 85,2% 90,1% mô hình DETR gốc. Trong thí nghiệm, chúng tôi nhận Xe 4 bánh 65% 89,6% thấy rằng DETR đƣợc cải tiến có kết quả phát hiện đối tƣợng lên đến hơn 10% trong cả hai tập dữ liệu, với Kết quả thực nghiệm đƣợc trình bày trên Bảng 3 cho thời gian thực thi mỗi ảnh là 4,3 ms (trong khi thấy, mô hình DETR cải tiến có thời gian huấn luyện YOLOv7 là 11,7ms) cho cả 2 tập dữ liệu lần lƣợt là 4,3 giờ và 5,2 giờ. Bên cạnh đó, thời gian thực thi cho mỗi ảnh là 4,3ms. Dựa Mặc dù đã thành công khi sử dụng RCNet để tổng vào kết quả thực nghiệm cho thấy, mô hình có hiệu hợp đặc trƣng nhƣng vẫn còn khoảng trống cần đƣợc suất tốt trên cả hai tập dữ liệu với mAP 50 ở mức cải thiện trong việc phát hiện đối tƣợng của DETR. Cụ 60,1% cho Tập dữ liệu 1 và 70,2% cho Tập dữ liệu 2. thể, mô hình DETR vẫn chƣa hiệu quả bằng YoLov7 Điều này cho thấy mô hình hoạt động hiệu quả và có và trong việc phát hiện đối tƣợng trên tập dữ liệu cụ thể phát hiện các đối tƣợng với mức độ chính xác cao. thể. Tốc độ hội tụ của mô hình DETR cũng chậm hơn so với các mô hình hiện tại, ảnh hƣởng đáng kể đến Mô hình có hiệu suất phát hiện xe ƣu tiên. tƣơng tự vòng lặp của mô hình. Trong tƣơng lai, chúng tôi kỳ trên cả hai tập dữ liệu với mAP 50 khoảng 30%. Điều vọng vào việc tối ƣu hóa mô hình để nó hoạt động hiệu này cho thấy mô hình có khả năng phát hiện xe ƣu tiên quả trên các bộ dữ liệu nhỏ. ISBN ............ 978-604-80-8932-0 373
- Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) TÀI LIỆU THAM KHẢO International Conference, FDSE 2021, Virtual Event, November 24– 26, 2021, Proceedings 8 (pp. 248-263). Springer Singapore. [1] Bautista, C. M., Dy, C. A., Mañalac, M. I., Orbe, R. A., & Cordel, M. (2016). Convolutional neural network for vehicle [14] Redmon, J., & Farhadi, A. (2017). YOLO9000: better, detection in low resolution traffic videos. In 2016 IEEE Region 10 faster, stronger. In Proceedings of the IEEE conference on computer Symposium (TENSYMP) ( pp. 277-281). IEEE. vision and pattern recognition (pp. 7263-7271). IEEE [2] C. -K. Huynh, T. -S. Le and K. Hamamoto (2016). [15] Redmon, J., & Farhadi, A. (2018). Yolov3: An Convolutional neural network for motorbike detection in dense incremental improvement. arXiv preprint: arXiv:1804.02767. traffic, 2016 IEEE Sixth International Conference on https://doi.org/10.48550/arXiv.1804.02767 Communications and Electronics (ICCE)(pp. 369-37). IEEE. [16] Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. [3] Carion, N., Massa, F., Synnaeve, G., Usunier, N., (2016). You only look once: Unified, real-time object detection. In Kirillov, A., & Zagoruyko, S. (2020, August). End-to-end object Proceedings of the IEEE conference on computer vision and pattern detection with transformers. In European conference on computer recognition (pp. 779-788). vision (pp. 213-229). Cham: Springer International Publishing. [17] Rocchio Jr, J. J. (1971). Relevance feedback in [4] E. Arkin, N. Yadikar, Y. Muhtar and K. Ubul (2021). A information retrieval. The SMART retrieval system: experiments in Survey of Object Detection Based on CNN and Transformer, 2021 automatic document processing IEEE 2nd International Conference on Pattern Recognition and [18] Ross Girshick, Jeff Donahue, Trevor Darrell, and Machine Learning (PRML), (pp. 99-108). IEEE. Jitendra Malik. Rich feature hierarchies for accurate object detection [5] Hsu, S. C., Huang, C. L., & Chuang, C. H. (2018). and semantic segmentation. In CVPR, 2014. 1 Vehicle detection using simplified fast R-CNN. In 2018 [19] S. Ren, K. He, R. Girshick and J. Sun. (2017). Faster R- International Workshop on Advanced Image Technology (IWAIT) CNN: Towards Real-Time Object Detection with Region Proposal (pp. 1-3). IEEE. Networks. IEEE Transactions on Pattern Analysis and Machine [6] Law, H., & Deng, J. (2018). Cornernet: Detecting objects Intelligence, 39(6), (pp. 1137-1149). IEEE. as paired keypoints. In Proceedings of the European conference on [20] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian computer vision (ECCV) (pp. 734-750). Sun.Faster r-cnn: Towards real-time object detection with region [7] Li, D., & Zhai, J. (2022, September). A real-time vehicle proposal networks. NeurIPS, 2015. window positioning system based on nanodet. In Chinese Intelligent [21] Tian, Z., Shen, C., Chen, H., & He, T. (2019). Fcos: Systems Conference, (pp. 697-705). Singapore: Springer Nature Fully convolutional one-stage object detection. In Proceedings of Singapore. the IEEE/CVF international conference on computer vision (pp. [8] Lin, M., Li, C., Bu, X., Sun, M., Lin, C., Yan, J., ... & 9627-9636) Deng, Z. (2020). Detr for crowd pedestrian detection. arXiv preprint [22] Tsung-Yi Lin, Piotr Dollár, Ross B. Girshick, Kaiming arXiv:2012.06785. https://doi.org/10.48550/arXiv.2012.06785 He, Bharath Hariharan, Serge J. Belongie: Feature Pyramid [9] Liu, Z., Zheng, T., Xu, G., Yang, Z., Liu, H., & Cai, D. Networks for Object Detection. CVPR 2017: 936-944 (2020, April). Training-time-friendly network for real-time object https://arxiv.org/pdf/1612.03144.pdf detection. In proceedings of the AAAI conference on artificial [23] Wang, C. Y., Bochkovskiy, A., & Liao, H. Y. M. (2023). intelligence. 34(7) (pp. 11685-11692). YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for [10] Loce, R. P., Bernal, E. A., Wu, W., & Bala, R. (2013). real-time object detectors. In Proceedings of the IEEE/CVF Computer vision in roadway transportation systems: a survey. Conference on Computer Vision and Pattern Recognition (pp. 7464- Journal of Electronic Imaging, 22(4), (pp. 041121-041121). 7475). [11] Nguyen, H. (2019). Improving faster R-CNN framework [24] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian for fast vehicle detection. Mathematical Problems in Engineering Szegedy, Scott Reed, Cheng-Yang Fu, and Alexander C Berg. Ssd: 2019 (pp. 1-11). Single shot multibox detector. In ECCV, 2016 [12] Phuong, V. L. Q., Dong, N. V., Thu, T. N. M., & Khang, [25] Xingyi Zhou, Dequan Wang, and Philipp Krahenb ¨ uhl. P. N. (2022, November). Combine Clasification Algorithm and Ob- ¨ jects as points. arXiv preprint arXiv:1904.07850, 2019. Centernet Model to Predict Trafic Density. In International [26] Zhi Tian, Chunhua Shen, Hao Chen, and Tong He. Conference on Future Data and Security Engineering ( pp. 588- Fcos:Fully convolutional one-stage object detection. In ICCV,2019 600). Singapore: Springer Nature Singapore. [27] Zhuofan Zong, Qianggang Cao, Biao Leng: RCNet: [13] Phuong, V. L. Q., Tai, B. N., Huy, N. K., Thu, T. N. M., Reverse Feature Pyramid and Cross-scale Shift Network for Object & Khang, P. N. (2021). Estimating the traffic density from traffic Detection. ACM Multimedia 2021: 5637-5645 cameras. In Future Data and Security Engineering. Big Data, https://arxiv.org/pdf/2110.12130.pdf Security and Privacy, Smart City and Industry 4.0 Applications: 8th ISBN 978-604-80-8932-0 374
CÓ THỂ BẠN MUỐN DOWNLOAD
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn