
Cải thiện tốc độ tính toán ma trận cơ sở cho
bài toán visual odometry
Nguyễn Hữu Hùng
∗
, Vũ Anh Đức
∗
∗
Viện tích hợp hệ thống
Học Viện Kỹ thuật Quân Sự
Hà Nội, Việt Nam
Email: hungnh.isi.edu.vn
Tóm tắt—Trong các hệ thống dẫn đường tự động ứng
dụng trong robot, xe tự hành, phương pháp dẫn đường sử
dụng hình ảnh thu từ camera đơn hay đôi được sử dụng
rộng rãi nhờ chi phí rẻ và độ chính xác cao. Trong bài báo
này, chúng tôi đề xuất một phương án cải thiện tốc độ tính
toán ma trận cơ sở (essential matrix) bằng cách lựa chọn số
lượng nghiệm thông qua so sánh với vector cơ sở của hai
frame ảnh liền trước. Phương pháp đề xuất được đánh giá
trên tập dữ liệu mở KITTI cho xe tự hành chỉ ra rằng
tốc độ tính toán giảm được 5,6 % so với phương pháp cũ .
Từ khóa—Xử lý ảnh, Dẫn đường bằng hình ảnh, Dẫn
đường robot, Xe tự hành.
I.
GIỚI THIỆU
Phương pháp định vị và xây dựng bản đồ đồng thời
(SLAM)[1] là một kỹ thuật nổi tiếng dành cho các hệ
thống điều hướng tự hành như robot tự hành trên các
hành tinh, robot di chuyển dưới nước và các phương tiện
tự hành bao gồm ô tô tự lái, máy bay không người lái tự
động, đặc biệt là trong các môi trường nguy hiểm cho
tính mạng của con người. VO [2] [3] là một phần thiết
yếu của vSLAM sử dụng hình ảnh, đóng vai trò như
một động cơ lái xe của các hệ thống định vị tự động.
Chuyển động của xe có thể được xác định từ các điểm
đặc trưng trích xuất trong một chuỗi hình ảnh do camera
chụp lại.
Sự chuyển động có thể được tính toán từ một camera
duy nhất. Tuy nhiên, các thuật toán VO sử dụng một
camera thuần túy gặp phải vấn đề về độ lệch tỷ lệ dịch
chuyển ngay cả khi áp dụng điều chỉnh tối ưu toàn cục,
do vấn đề mơ hồ về tỷ lệ dịch chuyển theo chiều sâu.
Thuật toán VO sử dụng hai camera, thường là stereo
camera (SVO) với tham số hiệu chỉnh giữa máy ảnh
trái-phải, quy về đường cơ sở là phương pháp đơn giản
và hiệu quả để giải quyết hiện tượng lệch tỷ lệ đó. Nó
đã được sử dụng từ những năm 1980 với một ứng dụng
thành công trên robot thám hiểm sao Hỏa vào năm 2004
[4]. Hai cách tiếp cận chính đối với VO hình học bao
gồm phương pháp gián tiếp (dựa trên đặc trưng) [1] -
[5] và phương pháp trực tiếp [6] - [7]. Các phương pháp
trực tiếp đặt ra ước tính từ các tương ứng rõ ràng. Các
phương pháp gián tiếp giải quyết việc giảm thiểu năng
lượng của màu sắc hình ảnh và tính năng lỗi cong vênh
để xác định cả tư thế máy ảnh và các thông số bản đồ.
Ví dụ, ORB-SLAM2 [1] là một trong những hệ thống
SLAM đầy đủ sử dụng phương pháp dựa trên tính năng
với phân phối điểm khóa ORB thưa thớt, trong khi DSO
[7] được biết đến như một phương pháp SLAM trực tiếp
đầy đủ. Bên cạnh đó, VISO2 [5] là khung VO phổ biến
mà phép quay và phép tịnh tiến đồng thời thu được bằng
cách thu nhỏ phép chiếu lại được gọi là phương pháp
PnP . Tương tự, Fanfani cũng dụng phương pháp PnP
với lựa chọn khung hình chính và các điểm đặc trưng
[8].
Gần đây, VO [7] dựa trên ma trận cơ sở cho thấy hiệu
suất vượt trội trên tập dữ liệu KITTI so với phương pháp
PnP . Ví dụ, phương pháp SOFT2 đề xuất lược đồ lựa
chọn đối tượng địa lý cẩn thận dựa trên các đặc điểm của
đối tượng địa lý sau khi ước lượng xoay vòng dựa trên
ma trận cơ bản, và sau đó dịch được ước tính bằng cách
giảm thiểu lỗi chiếu lại. Hay phương pháp MESVO_FP
[9] đề xuất tích hợp nhiều khung hình để định vị dựa
trên ma trận thiết yếu bằng cách điều tra sự chuyển đổi
và tích hợp tính năng giữa ba khung hình cuối cùng
trong giao diện người dùng. Ràng buộc vòng kín được
sử dụng để tinh chỉnh tư thế tương đối giữa khung hình
trước đó và khung hình hiện tại từ tư thế của hai khung
hình trước đó. Ngoài ra, vị trí đặc trưng của khung hiện
tại được tinh chỉnh bởi các ràng buộc về hình học từ các
Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)
ISBN 978-604-80-7468-5
124