Dự đoán vị trí tiếp theo của vật thể dựa vào quỹ đạo quá khứ

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:3

Thêm vào BST

Báo xấu

5
lượt xem 2
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết Dự đoán vị trí tiếp theo của vật thể dựa vào quỹ đạo quá khứ đề xuất sử dụng mô hình Long Short-term Memory với cơ chế skip connection thay cho KF để thực hiện tác vụ này. Hơn thế, chúng tôi cũng bổ sung hàm mất mát CIOU hay vì hàm trung bình bình phương sai số (Mean Square Error -MSE).

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Dự đoán vị trí tiếp theo của vật thể dựa vào quỹ đạo quá khứ

Tuyển tập Hội nghị Khoa học thường niên năm 2022. ISBN: 978-604-82-7001-8 DỰ ĐOÁN VỊ TRÍ TIẾP THEO CỦA VẬT THỂ DỰA VÀO QUỸ ĐẠO QUÁ KHỨ Nguyễn Văn Nam Trường Đại học Thủy lợi, email: nvnam@tlu.edu.vn 1. GIỚI THIỆU quả đạt được. Và phần cuối cùng chúng tôi sẽ đưa ra các kết luận cũng như thảo luận về Dự đoán vị trí tiếp theo của vật thể dựa vào hướng đi tương lai của phương pháp này. quỹ đạo trong quá khứ là một trong những tác vụ quan trọng để thực hiện theo dõi nhiều vật 2. PHƯƠNG PHÁP NGHIÊN CỨU thể đồng thời (Multiple Object Tracking). Hiện tại, thuật toán Kalman Filter (KF) [1] A. Vấn đề được sử dụng để giải quyết bài toán. Tuy đạt Cho R chuỗi quỹ đạo (Ti)i=1…R với độ dài kết quả chính xác tương đối tốt, nhưng thời Ti  Cti1 ,Cti2 ,...Cti N trong đó mỗi C là tọa gian tính toán của thuật toán vẫn là khá cao khi phải sử dụng tính toán ma trận ngược và không độ góc trên trái và góc dưới phải các hộp bao tận dụng được cơ chế theo lô để tối ưu. đóng. Ta sẽ sử dụng Ti đưa ra dự đoán về Cti. Trong bài báo này, chúng tôi đề xuất sử Trong đây, chúng tôi sử dụng mô hình so dụng mô hình Long Short-term Memory [2] sánh kết quả với N  {3,5,7,9}. (LSTM) với cơ chế skip connection thay cho B. Kiến trúc mô hình KF để thực hiện tác vụ này. Hơn thế, chúng tôi cũng bổ sung hàm mất mát CIOU [3] thay Mô hình đề xuất bao gồm 3 phần chính: vì hàm trung bình bình phương sai số (Mean gồm 5 lớp LTSM [2] kết hợp skip-connection Square Error -MSE). để trích xuất các đặc điểm từ chuỗi đầu vào, CNN1D (Convolutional Neural Network 1D [5]) và Maxpooling để giảm chiều và trích xuất ra các đặc trưng lớn nhất. Hình 1. Kết quả với N khác nhau Phần còn lại của báo cáo này được trình bày Hình 2. Mô hình LSTM-Skipconnection theo trình tự sau: phần 2 chúng tối sẽ mô tả về vấn đề và phương pháp mà chúng tôi sử dụng Ý tưởng skip connection được lấy từ mạng để giải quyết bài toán. Phần 3 trình bày về kết DenseNet [4], giúp mô hình có thể học nhanh 271
Tuyển tập Hội nghị Khoa học thường niên năm 2022. ISBN: 978-604-82-7001-8 hơn, tránh mất mát thông tin. Sử dụng phép N- FDE Mô hình IoU nối đầu ra của tất cả các lớp LSTM, đưa vào seq (10−4) lớp fully connected cho ra 4 giá trị (x,y,h,w). LSTM-Skipconnection 0.395 0.916 Kết hợp 3 phần lại với nhau để tạo ra một mô KF 7 0.321 0.894 hình kiến trúc mạng tổng thể được thể hiện chi tiết trong Hình 2. LSTM-Attention 0.284 0.918 Transformer-encoder - - C. Hàm mất mát LSTM-Skipconnection 0.279 0.919 Chúng tôi cũng kết hợp với hàm mất mát complete IoU [3]. Ciou giúp mô hình vừa học KF 9 0.313 0.892 được về khoảng cách tâm, điều chỉnh vùng LSTM-Attention - - diện tích giao nhau qua IoU và tỷ lệ dài rộng, Transformer-encoder - - cho thời gian hội tự nhanh hơn và đặt độ LSTM-Skipconnection 0.271 0.920 chính xác cao hơn những hàm mất mát trong gia đình IoU như IoU-Loss, GIoU. 2) Transformer-Encoder: Sử dụng phần Encoder của Transformer kết hợp lớp Average D. Đánh giá Pool 1D và fully connected để dự đoán ra hộp 1) Final displacement Error: FDE dùng để bao đóng của vật ở vị trí tiếp theo. đo khoảng cách Euclide giữa điểm dự đoán 3) LSTM-Attention: Kết hợp 3 lớp LSTM và điểm thật cùng lớp Attention và một lớp FC cuối cùng 2) Intersection over Union: Intersection để cho ra hộp bao đóng ở vị trí tiếp theo. over Union là một phép đo dùng chủ yếu B. Độ chính xác trong object detection, với một hộp thật và hộp dự đoán, ta có IoU được định nghĩa bằng 1) Dữ liệu riêng: Mô hình được chạy với vùng giao thoa chia cho vùng hợp. các đầu vào khác nhau dựa trên số lượng hộp bao đóng ở thời gian trước. Kết quả so sánh 3. KẾT QUẢ THỰC NGHIỆM với các cơ chế mô hình khác nhau. Mô hình A. Baseline Model LSTM-skipconnection cho kết quả tốt nhất trong cả 4 trường hợp. Ngay sau là mô hình 1) Kalman Filter: Kalman Filter [1] là một Attetion có độ chính xác gần như tương phép toán được dùng để dự đoán tối ưu về đương LSTM-Skipconnection. Hai mô hình trạng thái tiếp của mô hình dựa trên biến đổi đều có kết quả tốt hơn Kalman Filter. Riêng tuyến tính và dự đoán về phân bố Gaussian. đối với Transformer, kết quả không tốt có thể Bảng 1. Kết quả đối với số frame dùng để được giải thích do mô hình không học tốt nếu dự đoán khác nhau trên tập dữ liệu Viettle chỉ có riêng encoder và xử lý kém hiệu quả đối với những chuỗi có độ dài quá ngắn. Kết N- FDE Mô hình IoU quả có thể được xem tại Bảng 1. seq (10−4) 2) Dữ liệu KITTI: Các mô hình được KF 3 0.475 0.884 pretrained ở dữ liệu do Viettel cung cấp, fine LSTM-Attention 0.366 0.911 tune trong 30 epochs với learning rate = Transformer-encoder - - 0.001 với LSTM- skipconnection và learning rate = 0.0001 với LSTM-Attention. Kết quả LSTM-Skipconnection 0.359 0.914 thu được khá cao trên hai mô hình sử dụng KF 5 0.462 0.893 LSTM-skipconnection và LSTM-Attention LSTM-Attention 0.407 0.915 vượt xa Kalman Filter với LSTM - Transformer-encoder 2.013 0.690 Skipconnection đạt kết quả còn cao hơn trên 272
Tuyển tập Hội nghị Khoa học thường niên năm 2022. ISBN: 978-604-82-7001-8 bộ dữ liệu Viettel cho thấy khả năng học và tổng quát của mô hình là rất tốt. Bảng 2. Kết quả trên Kitti đối số frame dự hình LSTM kết hợp Skip-connection cho kết đoán ở quá khứ N = 5 quả tương đối tốt so sánh với Kalman Filter FDE truyền thống nhằm mục địch giúp ứng dụng Mô hình N-seq IoU vào bài toán theo dõi vật thể. Chúng tôi cũng (10−5) KF 1.79 0.884 so sánh kết quả với một số mô hình sử dụng cơ chế khác như LSTM-attention, LSTM-Attention 5 0.921 0.917 Transformer-based để thấy được hiệu quả LSTM-Skipconnection 0.621 0.921 tương đối của mô hình. Mô hình vượt trội về thời gian chạy ở Inference 9.9µs với số lô lớn C. Thời gian inference nhất với kết quả về độ chính xác khá tốt về Tốc độ chạy của mô hình trên thời gian IoU 0.914. thực cũng được so sánh với thời gian chạy thực của Kalman Filter 5. REFERENCES [1] Rudolf E Kalman. 2007. New Approach to Linear Filtering and Prediction Problems. Research Institute for Advanced Study, Baltimore, MA. [2] S. Hochreiter and J. Schmidhuber. 1997. "Long Short-Term Memory," in Neural Computation, vol. 9, no. 8, pp. 1735-1780. [3] Zheng, Z., Wang, P., Liu, W., Li, J., Ye, R., & Ren, D. 2020. Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression. Proceedings of the AAAI Conference on Artificial Intelligence, 34 (07), 12993-13000. Hình 3. Thời gian chạy inference (µs) [4] G. Huang, Z. Liu, L. Van Der Maaten and đối với N khác nhau K. Q. Weinberger. 2017. " Densely Connected Convolutional Networks," IEEE So với Kalman Filter chỉ có thể chạy một Conference on Computer Vision and lần với một chuỗi, mô hình sẽ tận dụng tối ưu Pattern Recognition (CVPR), 2017, pp. khả năng gpu với số lô và chạy nhanh hơn, đối 2261-2269. với lô lớn hơn 4, thời gian chạy chỉ còn khoảng [5] Kiranyaz, S., Avcı, O., Abdeljaber, O., Ince, 10µs trong khi Kalman Filter chạy với tốc độ T., Gabbouj, M., & Inman, D.J. (2019). 1D trung bình 1500µs cao hơn gấp 100 lần. Convolutional Neural Networks and Applications: A Survey. ArXiv, 4. KẾT LUẬN abs/1905.03554. Trong bài báo cáo này, với khoảng thời gian có hạn, chúng tôi đã trình bày ra một mô 273