TNU Journal of Science and Technology
229(07): 31 - 39
http://jst.tnu.edu.vn 31 Email: jst@tnu.edu.vn
ESTIMATING THE TRAFFIC FLOW SPEED ON TRAFFIC VIDEOS
USING YOLOV8 AND BYTETRACK
Vu Le Quynh Phuong1*, Pham Nguyen Khang2, Tran Nguyen Minh Thu2
1Kien Giang Teachers Training College, 2Can Tho University
ARTICLE INFO
ABSTRACT
Received:
17/01/2024
Traffic flow is a critical aspect of economic, social, and environmental
development. To assess traffic flow, estimating the speed of traffic is
crucial. In this research, we propose a model for estimating traffic
speed based on data collected from traffic surveillance cameras. The
main objective is to count and track vehicles to estimate traffic flow by
combining the Yolov8 and ByteTrack models, then calculating the
average speed of vehicles. To train and evaluate the model's
performance, data collected from the Vinh Thanh Van Police - Rach
Gia City, including 10,092 images and over 96,024 labeled objects in
various conditions, were used. The study experimented and compared
the performance of our model with models combining Yolov8 and
DeepSort. The results indicate that the proposed model has the lowest
execution time and the capability to estimate traffic flow close to
reality, with an accuracy of 91.39%. The dataset used in this research
can be explored and utilized as a benchmark for similar problems.
Revised:
28/3/2024
Published:
29/3/2024
KEYWORDS
Traffic flow speed
YOLOv8
ByteTrack
Object recognition
Object tracking
ƯỚC LƯỢNG TỐC ĐỘ LUỒNG GIAO THÔNG TRÊN VIDEO GIAO THÔNG
S DỤNG YOLOV8 VÀ BYTETRACK
Vũ Lê Quỳnh Phương1*, Phạm Nguyên Khang2, Trn Nguyễn Minh Thư2
THÔNG TIN BÀI BÁO
TÓM TẮT
Ngày nhận bài:
17/01/2024
Lưu lượng giao thông là một lĩnh vực quan trng trong s phát triển ca
kinh tế, hội môi trường. Để đánh giá lưu lượng giao thông, việc
ước lượng tốc đ luồng giao thông quan trọng. Trong bài nghiên cứu
này, chúng tôi đề xut một hình ước lượng tc độ luồng giao thông
dựa trên d liu thu thp t các camera giám sát giao thông. Mục tiêu
chính đếm theo i các phương tiện để ước lượng lưu lượng giao
thông bằng cách kết hợp nh Yolov8 ByteTrack, sau đó tính
toán tốc độ trung bình của các phương tiện. Để hun luyện đánh giá
hiu sut của hình, dữ liu thu thp t ng an phường Vĩnh Thanh
Vân Thành phố Rạch Giá, bao gồm 10 092 ảnh hơn 96 024 đi
ợng được gán nhãn trong nhiều điu kiện khác nhau đưc s dng.
Trong nghiên cứu đã thử nghiệm so sánh hiệu sut của hình ca
mình với các hình kết hợp Yolov8 DeepSort. Kết qu thc
nghim cho thy rằng mô hình đ xuất có thời gian thc thi thp nhất và
khả năng ước ợng lưu lượng giao thông gần vi thc tế, với độ
chính xác 91,39%. Bộ d liu s dng trong nghiên cu y thể
được nghiên cu s dng như mt tp kim th đối với c bài toán
tương tự.
Ngày hoàn thiện:
28/3/2024
Ngày đăng:
29/3/2024
T KHÓA
Tốc độ luồng giao thông
YOLOv8
ByteTrack
Nhn dạng đối tượng
Theo dõi đối tượng
DOI: https://doi.org/10.34238/tnu-jst.9604
* Corresponding author. Email: vlqphuong@cdspkg.edu.vn
TNU Journal of Science and Technology
229(07): 31 - 39
http://jst.tnu.edu.vn 32 Email: jst@tnu.edu.vn
1. Gii thiu
Tc nghẽn giao thông đã trở thành một trong những thách thức ln trong thi k hiện đại, do
nhu cu di chuyển nhanh chóng giữa các địa điểm khác nhau. Đồng thi, vi s gia tăng đô thị
hóa, tăng dân số và số ợng phương tiện trong mạng lưới đường đô thị, vấn đề này ngày càng trở
nên nghiêm trọng. Để gii quyết vấn đề này, việc ước lượng tốc độ luồng giao thông trở thành
quan trọng để đánh giá tình trạng giao thông đường b, h tr quy hoạch đô thị và đóng góp quan
trọng cho phát triển kinh tế hội. Việc này không chỉ giúp doanh nghiệp đưa ra quyết định
chính xác về quảng cáo ngoài trời và la chn v trí văn phòng mà còn giúp tiết kim thời gian và
nhiên liệu khi lên lịch trình di chuyển mà không bị gián đoạn.
Hiện nay, nhiều phương pháp để đánh giá tình trạng tc nghn, bao gm c các phương
pháp dựa vào cảm biến, dựa vào người tham gia giao thông s dng Internet phương pháp sử
dng th giác máy tính. D liệu giao thông thường được thu thp bằng cách sử dng cm biến và
máy chiếu hng ngoại, tuy nhiên những phương pháp này thường tn nhiều công sức, chi phí
không luôn đảm bảo độ chính xác [1]. Trong bối cảnh này, s phát triển ca Internet dịch v
bản đồ giao thông của Google mang li mt nguồn thông tin phong phú về tình trạng giao thông,
giúp phân loại lưu lượng giao thông dựa trên tốc độ di chuyn [2]. Dựa vào tốc độ lung giao
thông để phân loại lưu lượng giao thông, sự giúp đỡ ca dch v bản đồ giao thông Google
không thể ph nhận. Tuy nhiên, đây là một phương pháp phụ thuộc hoàn toàn vào người tham gia
giao thông s dụng điện thoại thông minh kết nối Internet, vậy kết qu thể b nhiu hoc
chu ảnh hưởng ln t s không nhất quán trong dữ liu.
Ngoài ra, nhiều đường trên c ớc đã được trang b h thống giám sát video (CCTV), to ra
một lượng ln d liu. D liệu này thể phc v tốt trong lĩnh vực th giác máy tính hiu
quả. Nghiên cứu trước đó đã chứng minh rng d liu t CCTV thể gii quyết nhiu vấn đề
trong h thống giao thông thông minh, như ước lượng mật độ giao thông [3] [5] nhận dng
hành vi không phù hợp. Điều này mở ra nhiu kh năng để ng dng th giác máy tính và học sâu
để gii quyết các thách thức trong lĩnh vực này, như được th hiện trong nghiên cu [6] v vic
s dụng Yolov3 thuật toán theo dõi đối tượng SORT để tính toán lưu lượng giao thông.
Nhng tiến b trong lĩnh vực này giúp nâng cao hiệu qu và chính xác của quá trình đánh giá tình
trạng giao thông.
Mục tiêu của nghiên cứu này xây dựng một hình để ước lượng tốc độ ca lung giao
thông. Dữ liệu được thu thp ch yếu tập trung vào các khu vực có mật độ giao thông cao nhất ti
tỉnh Kiên Giang, đặc biệt vào các giờ cao điểm. Để đạt được mục tiêu này, hình YOLOv8
[7] đã được hun luyện để trích xuất đặc trưng của các phương tiện giao thông. Tiếp theo,
hình ByteTrack [8] được s dụng để theo dõi đếm các đối tượng trong thi gian thc. Cui
cùng, thông qua quá trình này, tốc độ của các phương tiện tham gia giao thông trên đường được
ước lượng. H thống được xây dựng khả năng đếm ước lượng tốc độ luồng giao thông với
độ sai s tương đối trung bình và thời gian thc thi thấp, đáp ứng đầy đủ yêu cầu v x lý và tính
toán trong thi gian thực. Các phần tiếp theo của bài báo sẽ trình bày chi tiết các phương pháp
nghiên cứu trong Phần 2, sau đó là kết qu đạt được khi triển khai và đánh giá mô hình trên bộ d
liu kim th trong Phn 3. Cuối cùng, Phần 4 s đưa ra nội dung kết lun của nghiên cu.
2. Phương pháp nghiên cứu
2.1. Kiến trúc tổng quan
Nghiên cứu này sử dng thuật toán YOLOv8 đ xác định các phương tiện giao thông. Tiếp
theo, thuật toán theo dõi đối tượng ByteTrack được tích hợp để xác định các phương tiện gán
địa ch nhn dng (ID) cho mỗi xe. Sau đó, số ợng xe được đếm trong tng khong thi gian c
th và trong vùng quan tâm. Bưc cuối cùng của quy trình là ước lượng tốc độ của 5 phương tiện
gần trung tâm khung hình để tính toán tốc độ trung bình của lung giao thông. Lưu đồ thuật toán
ước lượng tốc độ luồng giao thông được minh họa trong Hình 1.
TNU Journal of Science and Technology
229(07): 31 - 39
http://jst.tnu.edu.vn 33 Email: jst@tnu.edu.vn
Hình 1. Sơ đồ tng quan ca h thng
2.2. Phát hiện phương tiện giao thông với gii thut YOLOv8
Phát hiện đối tượng là bài toán cơ bản nhưng đóng vai trò dùng để phân loại và xác định v trí
các đối tượng vt th trong nh hoc video. Nh s phát triển nhanh chóng về mt d liu
cũng như sự xut hiện thêm nhiều gii thut mới, bài toán phát hiện đối tượng đã đạt được nhiu
bước tiến đáng kể được ng dng rt nhiu trong thc tế. Đặc bit, s xut hin của các bộ
phát hiện đối tượng một giai đoạn đã thay đổi cách tiếp cn vấn đề phát hiện đối tượng. Các
hình trước đó chia thành từng giai đoạn riêng biệt để tạo ra các đ xuất đối tượng, thì trong các
hình một giai đoạn xem xét toàn bộ hình ảnh thc hin c phân loại hồi quy trc tiếp
trong mt mạng -ron tng th. Các giải thuật này không phi tạo ra các đề xut c định trước,
thay vào đó xem xét tt c các vị trí tiềm năng trên ảnh d đoán xem chúng chứa đối
ợng hay không.
Các bộ phát hiện dựa trên hộp “anchor” đã được xác định trước, với các tỷ l khung hình khác
nhau, nhm phc v cho việc phát hiện các đối tượng hình dạng kích thước đa dạng.
hình nổi bt v phương pháp này "You Only Look Once" (YOLO) [9] [11]. YOLO hot
động bằng cách biểu diễn hình ảnh đầu vào như một lưới các ô, trong đó mỗi ô có trách nhiệm d
đoán một hp gii hn nếu trung tâm của hp nằm trong ô đó. Mỗi ô lưới d đoán nhiều hp gii
hạn đầu ra v tnhãn lớp cùng với điểm tin cy (confidence score). YOLO được đánh giá
tt v tốc độ và đơn giản nhưng nhược điểm tỷ l thu hẹp tương đối thấp. Để khc phc
nhng hn chế này, YOLOv7 đã đưa ra nhiều ci tiến quan trng so với các phiên bản trước đó,
mang li kh năng phát hiện đối tượng trong nh một cách hiệu qu hơn [12]. Một trong nhng
ci tiến quan trọng đó là việc s dụng các hộp “anchor”. Tuy nhiên, YOLOv7 gặp khó khăn trong
việc phát hiện các đối tượng nh, các tỷ l khác nhau, dưới s thay đổi v ánh sáng hoặc các
điều kiện môi trường khác.
YOLOv8 đã giải quyết thách thức này bằng cách áp dụng phương pháp phát hiện đối ng
dưới dạng bài toán hồi quy thay phân loại. Điều này mang lại ưu điểm cho hình YOLOv8
khi có khả năng cung cp d đoán chính xác cho các lớp đã được hun luyện và dễ dàng học các
lp mới. Bên cạnh đó, hình YOLOv8 cải tiến so với các hình trước đó bao gồm vic loi
b vic s dng hộp "anchor" và thêm vào đó kỹ thuật tăng cường d liu "mosaic".
Hp "anchor" trước đây được s dụng để xác định hình chữ nhật bao quanh đối tượng, nhưng
trong mt s trường hp, nhất khi đối tượng trong ảnh không đồng đều, hộp "anchor" hình đa
giác không thể ánh xạ một cách ràng. YOLOv8 đã loi b hộp "anchor" để ci thin kh năng
phát hiện đối tượng trong các tình huống phc tp.
K thuật tăng cường d liệu "mosaic" một ci tiến đơn giản, kết hp bốn hình ảnh khác
nhau đưa chúng vào hình như đầu vào. Điều này giúp hình học được đối tượng t
nhiều góc độ trong các trạng thái bị che khuất. Tuy nhiên, để gim thiu ảnh hưởng tiêu cực
đối vi hiu sut, vic thc hiện tăng cường d liu "mosaic" ch được áp dụng trong 10 vòng lặp
TNU Journal of Science and Technology
229(07): 31 - 39
http://jst.tnu.edu.vn 34 Email: jst@tnu.edu.vn
cuối cùng của quá trình huấn luyn. Những thay đổi này đã cải thiện độ chính xác gim thi
gian suy lun của hình YOLOv8, đồng thời tăng cường kh năng học phát hiện đối tượng
trong các bối cảnh đa dạng và phức tp.
2.3. Theo dõi phương tiện giao thông với mô hình ByteTrack
Sau khi phương tiện được xác định, bước tiếp theo ca h thống sử dụng mô hình
ByteTrack để thc hiện theo dõi các đối tượng. ByteTrack la chn những đối tượng có điểm tin
cy (confidence score) cao đ bắt đầu quá trình theo dõi. Sau khi hình YOLOv8 đã dự đoán
các hộp gii hạn và điểm tin cy tương ứng cho mỗi đối tượng, mô hình ByteTrack tiếp tc x lý
thông tin này. Ý tưởng chính của ByteTrack lựa chn những đối tượng điểm tin cy cao x
trước. Lúc này, các hộp gii hạn được phân loại thành hai nhóm: một nhóm chứa các hộp
độ chc chn cao (0,6) một nhóm chứa các hộp độ chc chn thp (0,1 s 0,6). Thut
toán lọc Kalman được áp dụng để d đoán vị trí mi của các đối tượng theo dõi.
Đối với nhóm các hộp gii hạn điểm tin cy cao, ByteTrack s dng s tương đồng gia
các hộp và các đối tượng theo dõi để thc hiện quá trình liên kết. Quá trình này có thể s dụng độ
chồng chéo (IoU) hoặc khoảng cách đặc trưng Re-ID. Trong khi đó, đối với nhóm các hộp
điểm tin cy thp, ch s tương đồng IoU được s dụng trong quá trình liên kết.
Tiếp theo, ByteTrack loi b các đối tượng theo dõi không kết hp sau quá trình liên kết th
hai đưa chúng vào danh sách các đối tượng mt hoc che khuất. Đồng thi, nếu hộp phát
hiện điểm tin cy cao không kết hp, ByteTrack s khi tạo các đối tượng theo dõi mới t
chúng. Kết qu cuối cùng là mỗi khung hình đu ra chứa thông tin về v trí nhãn của các đối
ợng theo dõi.
2.4. Ước lượng tốc độ luồng giao thông
Trong mỗi khung hình, vùng thực hiện ước tính tốc độ được gii hn bằng vùng quan tâm như
Hình 2. Giả định 2 vùng này sẽ có độ rộng là 50px (có thể thay đổi cho trường hợp khác), chương
trình sẽ ch ghi li v trí gần nht so với đoạn thẳng, do đó cũng tránh được việc thông tin về
khung hình bị sai lch.
Hình 2. Mô tả vùng giới hn gi định trong khung hình
Ước lượng tốc độ được thc hiện đối vi mỗi đối tượng được theo dõi một cách đc lp, s
dụng công thức (1):
TNU Journal of Science and Technology
229(07): 31 - 39
http://jst.tnu.edu.vn 35 Email: jst@tnu.edu.vn
(1)
khoảng cách phương tiện giao thông di chuyển giữa đoạn thẳng 1 đoạn thẳng 2 như
trong mô tả Hình 2 (đơn vị tính là pixel hoặc mét); thời điểm xe bắt đầu vào đoạn thng 1,
thời điểm xe ra khỏi đoạn thng 2. là tốc đ khung hình trên giây của video. H hệ s
chuyển đổi được s dụng để chuyển đổi khoảng cách t đơn vị pixel sang đơn vị thc tế (ví dụ:
t pixel sang mét). Quá trình này giúp theo dõi cp nhật thông tin về tốc độ của các đối tượng
theo thời gian trong quá trình theo dõi. Trong Hình 2, 2 đoạn thng gii hạn độ rộng 50px.
Tốc độ khung hình là 10 Fps. Thời điểm xe vào khung hình thứ 78, thời điểm xe ra khung
hình thứ 103. Vy, tốc độ của phương tiện tính được là:
Trong thc tế, chiều dài giữa 2 đoạn thẳng là 18 m. Vy, vn tc của xe, có thể được tính là:
3. Kết qu thc nghim
Trong bài báo này, các hình đưc x trên một máy tính đơn sử dng nn tng Google
Colab vi CPU Intel Xeon Processor with two cores 2.30 GHz đi kèm với 13GB ram cho phép
hun luyn vi batch size lớn hơn, GPU hiệu suất cao như GPU Nvidia Tesla T4 15102MiB
giúp rút ngắn đáng kể thời gian tính toán. Các mô hình được hun luyn với kích thước (batch
size) được thiết lập là 8, thuật toán tối ưu ADAM với động lượng (momentum) 0,9 tốc độ hc
ban đầu 0,001. Quá trình đào tạo được thc hiện trong 25 vòng lặp. T l hc tp s gim 10
ln nếu sau 10 vòng lặp mà độ chính xác trên tập d liệu xác thực không được ci thin.
3.1. D liu thc nghim
D liệu được cung cp bi công an phường Vĩnh Thanh Vân TP. Rạch Giá tỉnh Kiên
Giang. Gồm 03 góc camera (CAM1, CAM3, CAM5). V trí đặt camera đường Lợi (đối
din bnh vin tỉnh Kiên Giang). Các video clip d liệu đều thời lượng gn 1 tiếng. Độ phân
gii góc CAM1 và CAM5 1920x1080, FPS lần lượt là: 15 khung hình/giây 12 khung
hình/giây. Riêng độ phân giải góc CAM3 1280x720, FPS: 10 khung hình/giây. Cảnh quay
video clip góc CAM1 vào ban ngày, tri nng, thi gian t 10 gi 13 phút sáng ngày 01-11-
2020 đến 11 gi 13 phút sáng cùng ngày. Cảnh quay video clip góc CAM3 cũng vào ban ngày,
tri nng, thi gian t 10 gi ti 11 gi sáng ngày 09-09-2019. Video clip góc CAM5 thi
gian t 16 gi 23 phút tới 17 gi 23 phút chiều ngày 12-11-2020, cảnh quay ban đầu tri nng
nhưng tới khong 16 gi 50 phút thì trời bắt đầu mưa trong vòng khoảng 15 phút.
Hình 3. S ợng các phương tiện giao thông trên tập d liu
1452
56674
37898
0
10000
20000
30000
40000
50000
60000
Xe cứu thương Xe 2 bánh Xe 4 bánh
Số lượng phương tiện giao
thông
Loại phương tiện giao thông