TNU Journal of Science and Technology
229(07): 156 - 167
http://jst.tnu.edu.vn 156 Email: jst@tnu.edu.vn
RESEARCH YOLOv8 AND YOLO-NAS VERSIONS
IN LICENSE PLATE DETECTION
Dang Thi Dung*, Ha Le Ngoc Dung, Truong Le Chuong, Thai Chi Hao, Tran Van Phuc
Can Tho University of Engineering - Technology
ARTICLE INFO
ABSTRACT
Received:
09/5/2024
Recently, license plate recognition systems have been an important part
of many traffic management and security systems such as automatic
speed control, stolen vehicle tracking, automatic toll management, and
control of vehicles entering and exiting bus station areas, schools,
hospitals, etc. During the research process, we compared versions of
YOLOv8 and YOLO-NAS based on the criteria of Accuracy, Precision,
Recall, and F1 score to evaluate the most suitable models for vehicle
license plate recognition in Vietnam under different environmental
conditions. This review provides perspective for developers or last users
to choose the most suitable technique for their application. The results
show that for applications with good infrastructure and high accuracy
requirements, YOLO-NAS-S is a suitable model with an Accuracy of
83.92%, Precision of 0.9125; Recall is 0.9125, and F1 score is 0.9125.
For less developed infrastructure and speed requirements, YOLOv8n can
be used with a smaller number of parameters but the accuracy is
acceptable, Accuracy is 81.4%; Precision is 0.9625; Recall is 0.8415,
and F1 score is 0.8979.
Revised:
10/6/2024
Published:
11/6/2024
KEYWORDS
YOLOv8
YOLO-NAS
Vehicle License Plate Detection
Machine Learning
Deep Learning
NGHIÊN CỨU CÁC PHIÊN BẢN YOLOv8 VÀ YOLO-NAS
TRONG PHÁT HIỆN BIN S XE
THÔNG TIN BÀI BÁO
TÓM TẮT
Ngày nhận bài:
09/5/2024
Trong thi gian gần đây, hệ thng nhn dng bin s xe là một phn quan
trng trong nhiu h thng quản giao thông an ninh như kiểm soát
tốc đ t động, theo dõi xe bị đánh cắp, quản lý phí t động kiểm soát
xe ra vào các khu vực bến xe, trường hc, bnh viện,… Trong quá trình
nghiên cứu, chúng tôi tiến hành so sánh các phiên bản của YOLOv8
YOLO-NAS theo các tiêu chí về độ Accuracy, Precision, Recall F1
score để đánh gcác hình phù hp nhất đối vi vic nhn din bin
s xe Vit Nam trong các điều kiện môi trường khác nhau. Đánh giá
này đưa ra quan điểm để các nhà phát triển hoặc người dùng cuối la
chn k thuật phù hợp nht cho ng dng ca h. Kết qu cho thấy đối
với các ng dụng s h tng tt yêu cầu đ chính xác cao thì
YOLO-NAS-S một hình phù hp vi Accuracy 83,92%, Precision
0,9125; Recall 0,9125 F1 score 0,9125. Đi với sở h tng kém
phát triển hơn yêu cu v tốc độ thì thể s dng YOLOv8n vi s
ng tham s ít hơn nhưng đ chính xác lại khá n Accuracy 81,4%;
Precision 0,9625; Recall 0,8415 và F1 score 0,8979.
Ngày hoàn thiện:
10/6/2024
Ngày đăng:
11/6/2024
T KHÓA
YOLOv8
YOLO-NAS
Phát hiện bin s xe
Học máy
Học sâu
DOI: https://doi.org/10.34238/tnu-jst.10336
* Corresponding author. Email: dtdung@ctuet.edu.vn
TNU Journal of Science and Technology
229(07): 156 - 167
http://jst.tnu.edu.vn 157 Email: jst@tnu.edu.vn
1. Gii thiu
Phát hiện đối tượng một trong những bài toán quan trng ca th giác máy tính với các ng
dng tri nghim rộng rãi trong nhiều lĩnh vực khác nhau như: Robot công nghệ, x nh y
khoa, h thng giám sát, hệ thống tương tác người máy, giao thông thông minh,… Phát hiện đối
ợng hai hướng tiếp cận: Hướng tiếp cn truyn thng s dụng đặc trưng tự thiết kế như
Haar-like [1], HOG [2], DPM [3] và hướng tiếp cn hiện đại dựa trên mạng học sâu. Khi đề cp
đến s dụng phương pháp Deep Learning được chia thành hai nhóm chính: Máy hai giai đon
R-CNN [4], Fast R-CNN [5], Faster R-CNN [6], Mask R-CNN [7] và máy một giai đoạn
YOLO [8], SSD [9], Retinanet [10].
Máy một giai đoạn s dng mng thần kinh riêng biệt để thc hin mt chuyn tiếp gia
vic tạo ra các khung (Bounding Box) xác định đối tượng trong thi gian thực. hình
YOLOv8 [11] đã được phát triển ci tiến liên tục để nâng cao khả năng nhn diện đc biệt
bin s xe. YOLO-NAS [12] s dng k thuật tìm kiếm -ron để tối ưu hóa hình, cải thin
hiu suất s dụng tài nguyên hiu quả. Đánh giá hai hình YOLOv8 YOLO-NAS da
trên việc so sánh hình ảnh trong các điều kiện khác nhau như vị trí, ánh sáng và khoảng cách.
1.1. Tổng quan tình hình nghiên cứu
Nghiên cứu s dụng các mô hình máy học trong đời sống được ng dng rộng rãi trong nhiều
lĩnh vực khác nhau, đặc biệt là các nghiên cứu v nhn din bin s xe: H thống giám sát tốc độ
xe, h thống bãi giữ xe thông minh… Phương pháp so khớp mẫu phương pháp dựa trên sự
tương quan giữa mẫu đưa vào mẫu sẵn trong cơ sở d liu. Mt trong những phương pháp
được s dụng trong bài nghiên cứu [13], sau 3 ln th nghim vi mi ln s dng 100 ảnh khác
nhau nhóm nghiên cứu thu được độ chính xác mc 80%. Đi vi nghiên cứu [14], s dng ba
góc nhìn khác nhau đ thu thp d liu bin s xe. Sau đó, d liệu đưc s dụng để hun
luyn một hình học sâu để nhn dng các tự trên bin s xe. Phương pháp đạt được độ
chính xác cao trong vic nhn dạng c tự trên bin s xe, vượt tri so vi c phương
pháp trước đây. S dng tp d liu hơn 12.500 hình ảnh được chia tp hun luyn 10.000
nh nh tp kim th 2.500 hình nh. Kết qu th nghim cho thy hình đạt độ cnh
xác cao 96,9% đưc th hin trong nghiên cứu [15]. Trong bài nghn cứu [16], hình đã
đạt đưc t l nhn dng 96,9% tn tt c c tp d liu, vượt tri so với c ng tnh
trước đó các h thống thương mi. Vi tp d liệu hơn 10.000 nh gm hai tp hun luyn
8.000 nh tập kim th 2.000 ảnh ng với việc đa dạng c bin s xe gm bin s xe
nhân, bin s xe thương mại, bin s xe ngoại giao. hình đem lại độ cnh c nhn dng
trung bình 99,8% th hoạt đng hiu qu trong c điu kin môi trưng phc tp
được nm tác gi thc hin trong nghn cứu [17]. Trong bài nghn cu [18], i báo s
dng tp d liệu địa pơng về bin s xe Saudi đưc thu thp cthích bởi tác gi. Kết
qu h thng đạt đưc Accurary là 0,97; Recall 0,985; F1-score 0,982. Đặc bit, trong bài
nghiên cứu [19], bài báo sử dng b d liệu Stanford Cars được ly t Kaggle gồm 16200 hình
ảnh để đào tạo và kiểm tra, gm mt tp hợp các nh ảnh ô tô đa dạng chp t nhiều góc độ
điều kin chiếu sáng khác nhau. hình YOLOv8 cho Accurary 93% trong cả tp d liệu đào
tạo xác thực, gim nh xung 90% trong tp d liu th nghiệm, đối vi Faster R-CNN ln
ợt là 71%, 71% và 74%.
1.2. Quá trình đào tạo và nhận din của mô hình YOLO
YOLO là một mô hình phát hiện đối tượng theo thi gian thực được thiết kế dựa trên kiến trúc
mạng CNN khả năng phát hiện phân loại đối tượng trong hình nh hoặc video. Quá trình đào
tạo đòi hỏi phi chun b mt tp d liu gồm các hình nh bin s xe, mỗi hình nh phải được
gắn nhãn với thông tin về v trí và loại đối tượng. La chọn phiên bản YOLO và xây dựng mng
-ron CNN phù hợp. Tiếp theo s dng d liệu đã được chun b sẵn (Dataset) hình
TNU Journal of Science and Technology
229(07): 156 - 167
http://jst.tnu.edu.vn 158 Email: jst@tnu.edu.vn
YOLO để thc hin quá trình hun luyện. Quá trình y sử dng nhiu thuật toán để điu chnh
trng s mô hình sao cho sai số d đoán giảm xung thp nht. Bước đầu ca giai đoạn nhn din,
YOLO s chia hình ảnh ban đầu thành mạng lưới các ô SxS, mỗi ô lưới cha B hp gii hn. Mi
hp gii hn được đặc trưng bởi năm giá trị: x, y, w, h và độ tin cy. Tọa độ (x, y) th hiện tâm của
hp so với lưới, chiu rộng (w) và chiều cao (h) tương ứng với toàn bộ hình nh. Cui cùng, độ
tin cy cho biết kh năng chứa đối tưng thc tế mức đ chínhc ca d đoán.
2. Phương pháp đề xut
2.1. Mô hình bài toán
Hình 1. Mô hình bài toán
Hình 1 th hiện hình bài toán thc hin vic nhn din bin s xe của các hình
YOLOv8 và YOLO-NAS. D liu cn kim tra s được thu thp t nhiu nguồn khác nhau
th nh hoc video. D liu s được đưa vào hình, đi vi video s thc hin việc đọc
khung hình để đưa ra ảnh pixel phù hợp được quy định. S dụng hình YOLOv8 hoặc
YOLO-NAS để nhn din ảnh có chứa bin s xe, nếu ảnh có chứa bin s xe mô hình sẽ khoanh
vùng bằng Bounding Box và đưa ra hình nh hoặc video tùy thuộc theo d liệu đầu vào; nếu nh
không chứa bin s xe mô hình sẽ kết thúc.
2.2. Cấu hình b d liu
Trong phm vi nghiên cứu y, chúng tôi tập trung vào một lp duy nht: Bin s xe Vit
Nam. Hình ảnh được thu thập thông qua việc tìm kiếm trên Web, từ các Camera giao thông
chp bằng máy ảnh, c thiết b di động. Tng cộng, chúng i thu thp hơn 1500 nh nh, bao
gm nh bin s xe máy và biển s xe ô tô mặt trước và mặt sau. Tp d liu này chúng tôi chỉ tp
trung ch yếu o biển s xe của các phương tiện trên đường, trên bãi đỗ xe, trên lề đưng,
Chúng i loại b nhng hình nh không liên quan hoc mờ, không ràng, hoặc bin s b biến
dạng quá nhiều. Tại Hình 2, một s hình ảnh mô phỏng được trích xuất nhm phc v nghiên cứu.
TNU Journal of Science and Technology
229(07): 156 - 167
http://jst.tnu.edu.vn 159 Email: jst@tnu.edu.vn
Chúng tôi sử dng nn tảng Make để tin x lý hình ảnh. Các hộp gii hạn được thc hin th
công trong các khu vực liên quan đến bin s xe trên mỗi hình ảnh được gán lớp tương ng.
Trong tng s 1567 nh ảnh, 1334 hình dành cho tập hun luyn (Train), 133 cho tập xác
nhận (Val) và 100 cho tập th nghim (Test).
(a)
(b)
(c)
(d)
(e)
(f)
Hình 2. Mt s hình ảnh được trích xuất t tp d liệu được s dụng cho nghiên cứu này: (a) Hìnhnh
xe ô tô chạy trên đường (mt trước), (b) Hình ảnh xe ô tô chạy trên đường (mặt sau), (c) Hình ảnh xe ô tô
và xe máy chạy trên đường, (d) Hình ảnh xe máy ở phía sau được chp t camera ca một bãi đỗ xe t mt
công viên, (e) Hình ảnh xe máy chạy trên đường, (f) Hình nh mt s xe máy đang đ
2.3. Nn tng th nghim
Nn tảng chúng tôi sử dụng cho các thử nghiệm trong bài viết này Google Colab với phn
cng ca h thng:
CPU: Intel Xeon E5-2676 v4
GPU: Nvidia Tesla V100-SXM2-16GB vi 16 GB b nh GDDR6X.
RAM: 51GB
cng: SSD 166 GB
2.4. Bản thông số chính của hai mô hình YOLO
Bng 1. Thông số đào tạo mô hình
YOLOv8n
YOLOv8s
YOLOv8m
YOLOv8l
YOLOv8x
YOLO-
NAS-s
YOLO-Nas-
m
Yolo-Nas-l
Epochs
100
100
100
100
100
150
150
150
Bng 1 hin th các thông s đào tạo mô hình YOLOv8 YOLO-NAS. Đối vi YOLOv8,
sau nhiu ln th nghim vi s Epochs ban đầu 50, các chỉ s vẫn chưa đạt đủ yêu cầu chúng
tôi đã tăng/giảm s ng Epochs để kết qu tt nhất và kết qu trung bình chúng tôi chọn để
Training với các Model V8 Epochs là 100, imgz= 640 (kích thước nh ca tp d liu).
Với nh YOLO-NAS thời gian trung bình để Training trên cùng một tp d liệu tương
đối lâu hơn so với hình YOLOv8. Ban đu s Epochs mặc định của chúng tôi vẫn 50 với
Batchsize = 16 sau nhiều lần điều chỉnh để kết qu tt nht, ch s Epochs cuối cùng
150, Batchsize = 16 cùng với các thông số mặc định khác.
TNU Journal of Science and Technology
229(07): 156 - 167
http://jst.tnu.edu.vn 160 Email: jst@tnu.edu.vn
3. Kết qu và thảo lun
3.1. Kết qu sau khi đào tạo mô hình
a, YOLOv8n
b, YOLOv8s
c, YOLOv8m
d, YOLOv8l
e, YOLOv8x
f, YOLO-NAS-S
g, YOLO-NAS-M
h, YOLO-NAS-L
Hình 3. Đánh giá huấn luyện các mô hình
Đối vi một bài toán, nhiều cách đ đánh giá một mô hình nhận diện như các chỉ s
Accuracy, Precision, Recall và F1 cores nhưng để xem xét ràng nhất quá trình đào to mt tp