TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 2024 68
NGHIÊN CỨU VÀ ỨNG DỤNG THUẬT TOÁN AI VÀO HỆ THỐNG NHẬN DIỆN
BIỂN BÁO GIAO THÔNG HỖ TRỢ NGƯỜI LÁI XE
AI ALGORITHM RESEARCH AND APPLICATION IN DRIVER-ASSISTANCE
TRAFFIC SIGN RECOGNITION SYSTEM
Phan Bá Khánh1,*, Đỗ Danh Khải1, Lâm Thanh Cao1,
Hoàng Ngọc Dũng1, Ngọ Đức Cảnh2, Chu Thị Quyên3
1Lớp CNTT 02 - K16, Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Hà Nội
2Lớp KTPM 04 - K17, Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Hà Nội
3Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Hà Nội
*Email: phankhanh16203@gmail.com
TÓM TẮT
Nhận dạng biển báo giao thông luôn một chủ đđược quan tâm, đặc biệt hệ thống xe tự hành. Trong thực tế,
cũng có rất nhiều vụ tai nạn xảy ra do phớt lờ luật lệ và biển báo giao thông. Bài báo này tập trung vào nghiên cứu, khám
phá việc ứng dụng các thuật toán trí tuệ nhân tạo (AI), cụ thể là Mạng Nơron Tích Chập (CNN) và YOLOv5, trong việc
phát triển hệ thống phát hiện biển báo giao thông hỗ trợ người lái xe. Nghiên cứu so sánh cả phương pháp truyền thống và
phương pháp học sâu, với trọng tâm hiệu suất độ chính xác của YOLOv5. Nghiên cứu được thực hiện trên bộ dữ liệu
biển báo giao thông GTSRB và DFG, cho thấy các kết quả về tốc độ và độ chính xác trong nhận diện biển báo giao thông
theo thời gian thực. Các hạn chế do phần cứng và các đề xuất cải tiến trong tương lai cũng đã được thảo luận. Những phát
hiện này đánh giá khả năng ứng dụng thuật toán vào sphát triển của công nghệ xe tự hành và hệ thống quản giao thông
đô thị.
Từ khóa: AI, CNN, YOLOv5, Nhận diện biển báo giao thông.
ABSTRACT
Traffic sign recognition is always a topic of interest, specially in autonormous vehicle system. In reality, there are a lot
of accidents related to ignorance of traffic signs and rules. This paper focus on researching, exploring how to apply artificial
intelligent (AI) algorithm, specially convolutional neural network (CNN) and YOLOv5, in the development traffic sign
detection system to support drivers. The research compares both traditional methods and deep learning methods, with the
performance and accuracy of YOLOv5 in mind. Research is conducted on GTSRB dataset and DFG traffic sign dataset,
showing results in terms of speed and accuracy in real-time traffic sign recognition. Limitations due to hardware and
suggestions for future improvements were also discussed. These discoveries evaluate the applicability of the algorithm
into the development of autonomous vehicle technology and urban traffic management system.
Keywords: AI, CNN, YOLOv5, Traffic sign recognition.
1. ĐẶT VẤN ĐỀ
1.1. Bối cảnh, ý nghĩa
Nhận diện biển báo giao thông một khía cạnh quan
trọng trong hệ thống phương tiện tự hành và cơ sở hạ tầng
giao thông thông minh hiện đại. Với sự gia tăng của việc
phát triển xe tự hành, việc đảm bảo rằng các phương tiện
này thnhận diện phản ứng chính xác với các biển
báo giao thông rất quan trọng cho sự an toàn hiệu quả.
Các phương pháp truyền thống để nhận diện biển báo giao
thông thường gặp khó khăn với sự biến đổi về hình dạng
của biển báo do các yếu tnhư ánh sáng, thời tiết che
khuất. Sự xuất hiện của học sâu, đặc biệt mạng nơron tích
chập (CNN), đã cách mạng hóa các nhiệm vụ nhận diện
hình ảnh, mở ra tiềm năng mới cho việc nhận diện biển báo
giao thông.
1.2. Mục tiêu
Bài báo này tập trung vào nghiên cứu phát triển hệ
thống nhận diện biển báo giao thông, khả năng ứng dụng
rộng rãi trong các lĩnh vực như quản giao thông, an ninh,
định danh xe cộ và giám sát đô thị, xe tự lái. Cụ thể, nghiên
cứu của chúng tôi hướng đến các mục tiêu chính:
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 2024 69 Tìm hiểu các thuật toán nhận dạng, phát hiện vật thể
Tìm hiểu các bộ dữ liệu biển báo giao thông
Xây dựng chương trình áp dụng các thuật toán lên bộ
dữ liệu
Phân tích, đánh giá kết quả thu được, từ đó rút ra
những điểm đạt chưa đạt của thuật toán tìm hiểu
nguyên nhân
Xác định các hạn chế đề xuất các cải tiến trong
tương lai.
2. VẬT LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU
2.1. Bộ dữ liệu
- Chuẩn bị dữ liệu
Nhận diện biển báo giao thông là một vấn đề thách thức
dành cho các hệ thống hỗ trợ giao thông. Đây là một vấn đề
về phân loại đa danh mục với tần số lớp không cân bằng.
Các biển báo giao thông có nhiều biến thể giữa các lớp, từ
màu sắc, hình dạng tới sự hiện diện của chữ tượng hình hoặc
là chữ. Cũng tồn tại những biển báo mà rất tương đồng với
nhau (dụ như biển báo tốc độ giới hạn). Hơn nữa, bộ phân
loại còn phải đối phó với những thay đổi lớn về hình dáng
do thay đổi ánh sáng, tắc một phần, phương hướng xoay,
các điều kiện về thời tiết,….
nghiên cứu này, chúng tôi đã tìm hiểu sử dụng 2
bộ dataset về biển báo giao thông: bộ kiểm chuẩn nhận dạng
biển báo giao thông của Đức (GTSRB) bộ dữ liệu biển
báo giao thông DFG.
- Bộ dữ liệu biến báo giao thông GTSRB
Được thu thập bởi nhóm tác giả J. Stallkamp, M.
Schlipsing, J. Salmen, và C. Igel, bộ dữ liệu là hình ảnh cận
cảnh của các biển báo giao thông.
Hình 1. Một số hình ảnh của bộ dữ liệu GTSRB
Tổng quan về bộ dữ liệu:
Vấn đề phân loại một ảnh, nhiều lớp.
Hơn 40 lớp khác nhau.
Hơn 50,000 hình ảnh tổng thể.
sở dữ liệu lớn, sống động.
Dữ liệu thực tế, đáng tin cậy nhờ chú thích bán tự
động.
Các trường hợp biển báo giao thông vật lý là duy nhất
trong tập dữ liệu (tức là mỗi biển báo giao thông trong thực
tế chỉ xuất hiện một lần).
Mức độ phân phối của từng danh mục trong bộ dliệu
được thể hiện trong hình 3.
Hình 2. Đồ thị phân phối về danh mục, chiều cao, chiều rộng của
từng biển báo GTSRB
2.2. Bộ dữ liệu biển báo giao thông DFG
Bộ dliệu bao gồm 200 danh mục biển báo giao thông
được xây dựng bởi 2 tác giả Danijel Skočaj Domen
Tabernik tại các con đường Slovenia trải dài n 7000
hình ảnh có độ phân giải cao. Các hình ảnh được cung cấp
chú thích bởi công ty Slovenia DFG Consulting d.o.o.
Các ảnh RGB được thu thập bằng một camera gắn vào
phương tiện giao thông được lái qua 6 đô thị khác nhau
Slovenia. Dữ liệu hình ảnh bao gồm cả khu vực nông thôn
cũng như khu vực thành thị. Chỉ những hình ảnh chứa ít
nhất một biển báo được chọn từ kho dữ liệu khổng lồ được
thu thập. Hơn nữa, việc lựa chọn được thực hiện theo cách
đảm bảo rằng có sự thay đổi khung cảnh lớn giữa bất kỳ
các cặp ảnh liên tiếp được chọn.
Hình 3. Đồ thị thể hiện tần suất của mỗi danh mục
2.3. Thuật toán YOLOv5
Được đề xuất bởi R. Joseph vào năm 2015, YOLO (viết
tắt của You Only Look Once) thuật toán phát hiện vật thể
một giai đoạn. Các thuật toán một giai đoạn không q
trình phân loại dựa trên vùng đề xuất trực tiếp hồi quy
đầu ra. YOLO được biết đến là thuật toán có độ chính xác
cao, cùng với tốc độ rất nhanh, và đang là một trong những
thuật toán được sdụng thông thường nhất trong các ngành
công nghiệp. Ý tưởng cốt lõi của YOLO biến đổi bài toán
phát hiện vật thể thành bài toán hồi quy. đưa các hình
ảnh vào mạng nơ-ron, và trực tiếp đưa ra các bounding box
danh mục của đối tượng. YOLOv5 thế hệ thứ 5 của
thuật toán YOLO, được phát triển bởi Ultralytics, nổi tiếng
bởi độ chính xác cao khi nhận diện và tốc độ dự đoán nhanh
của nó.
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 2024 70
Hình 4. Kiến trúc mạng của YOLOv5
Từ hình ảnh trên, ta thể thấy kiến trúc mạng của
YOLOv5 bao gồm 3 thành phần chính:
- Backbone: Đây là thành phần chủ yếu của mạng lưới.
Đối với YOLOv5, phần backbone được thiết kế sử dụng
kiến trúc New CSP-Darknet53, một phiên bản được sửa đổi
từ kiến trúc Darknet đã sử dụng từ những phiên bản YOLO
trước.
- Neck: Đây là phần nối giữa backbone và head. Trong
YOLOv5, cấu trúc SPPF và New CSP-PAN được sử dụng.
- Head: Phần này trách nhiệm tạo ra output sau cùng.
YOLOv5 tái sử dụng Head của YOLOv3 cho mục đích này.
YOLOv5 sử dụng các kỹ thuật tăng cường dữ liệu khác
nhau để cải tiến khả năng khái quát hóa and giảm overfitting
cho model. Những kỹ thuật này bao gồm:
Mosaic Augmentation: Một kỹ thuật xử hình ảnh
sử dụng bốn hình ảnh huấn luyện để kết hợp chúng thành
một để khuyến khích các hình phát hiện đối tượng xử lý
tốt hơn đối với các quy bản dịch đối tượng khác nhau.
Copy-Paste Augmentation: Một phương pháp ng
cường dữ liệu ng tạo sao chép các bản ngẫu nhiên từ
một nh ảnh dán chúng o một hình ảnh được chọn ngẫu
nhiên khác, tạo ra một mẫu đào tạo mới một cách hiệu quả.
Random Affine Transformations: Bao gồm xoay
ngẫu nhiên, chia tỷ lệ, dịch và cắt hình ảnh.
MixUp Augmentation: Một phương pháp tạo ra
những hình ảnh tổng hợp bằng cách lấy sự kết hợp tuyến
tính của hai hình ảnh và nhãn liên quan của chúng.
Albumentations: Một thư viện tăng cường hình ảnh
hỗ trợ một lượng lớn các kỹ thuật tăng cường dữ liệu.
HSV Augmentation: Thay đổi ngẫu Random
Horizontal Flip: Một phương pháp tăng cường ngẫu nhiên
lật hình ảnh theo chiều ngang.
3. THIẾT LẬP THÍ NGHIỆM
3.1. Thiết lập cho hệ thống
Phần cứng: Phần cứng của thiết bị bao gồm CPU 11th
Gen Intel(R) Core(TM) i7-11800H @ 2.30GHz, GPU
NVIDIA RTX 3050Ti 4GB, 16GB RAM. Do hạn chế về
phần cứng, phiên bản nhỏ nhất của hình YOLOv5,
YOLOv5s, đã được sử dụng. Mô hình này cung cấp sự cân
bằng tốt giữa hiệu suất và hiệu quả tính toán.
Với mỗi bộ dữ liệu, chúng i thực hiện huấn luyện
nh 50 lần. Nghiên cứu được thực hiện trên hệ điều hành
Windows 11, phiên bản Python 3.11, CUDA 12.1, pytorch
2.1.0
3.2. Cách đánh giá kết qu
Mô hình được đánh giá hiệu suất dựa trên các tiêu chí:
Độ Chính Xác P(Precision) Độ Thu Hồi
R(Recall): Được tính toán dựa trên số lượng phát hiện biển
báo chính xác (TP), số lượng phát hiện bị nhầm lẫn với
background(FP) số lượng biển báo bị nhầm lẫn
background (FN) của mô hình.
= 
+
= 
+
mAP (mean Average Precision): chỉ số đánh giá
chính xác trung bình của mô hình trên tất cả các danh mục.
Được tính bằng cách lấy trung bình cộng của AP (độ chính
xác trung bình) cho mỗi danh mục.
 = ()
 = 1
()

Trong đó, (C) là số lượng các lớp biển báo.
FPS (Frame Per Second): Đánh giá tốc độ xử lý của
hình, tức số lượng khung hình hình thể phân
tích mỗi giây. Giá trị FPS ng cao, hiệu suất thời gian thực
của mô hình càng tốt.
Ngưỡng IOU: Được đặt 0,2 để đánh giá mức độ
chính xác của việc phát hiện biển báo.
Giá trị mAP cao FPS cao cho thấy hình khả
năng phát hiện chính xác cao tốc độ xnhanh, phù
hợp với yêu cầu của bài toán nhận diện biển báo giao thông.
3. KẾT QUẢ VÀ THẢO LUẬN
3.1. Bộ dữ liệu GTSRB
Hình 5. Kết quả thu được trên bộ dữ liệu GTSRB
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 2024 71Đối với bộ dữ liệu GTSRB, kết quả đạt được được biểu
diễn như hình 5.
Từ hình ảnh trên, chúng tôi nhận thấy rằng khả năng
phân loại của YOLOv5 có độ chính xác cao, khi mức
mAP_0.5 và mAP_0.5:0.95 đạt tới giá trị cao nhất lần lượt
là 0,99269 và 0,93827 ở epoch thứ 50
Bộ kiểm thử bao gồm các hình ảnh biển báo giao thông
trong các điều kiện khác nhau từ phơi sáng, thiếu sáng, bị
mờ đi do tốc độ di chuyển của phương tiện,… mô hình
vẫn đưa ra dự đoán chính xác các trường hợp kể trên. Điều
này đến từ bộ huấn luyện cũng các hình ảnh của biển báo
trong các điều kiện tương tự. Từ đó, việc cung cấp cho mô
hình những dữ liệu ở điều kiện khác nhau quan trọng để
tăng khả năng dự đoán chính xác của mô hình
Mặc vậy, vẫn trường hợp hình cho ra những
kết quả khác so với bộ thẩm định khi thực hiện dự đoán.
Qua quá trình huấn luyện hình chúng tôi nhận thấy rằng
ma trận nhầm lẫn cho thấy rằng hình ít xu hướng
phân biệt nhầm lẫn giữa các biển báo giao thông với nhau,
mà vấn đề chủ yếu nằm ở việc phân biệt giữa các biển báo
background, đặc biệt khi bộ dữ liệu chỉ tập trung vào việc
phân loại biển báo.
Hình 6. Ma trận nhầm lẫn của mô hình với bộ dữ liệu GTSRB
3.2. Bộ dữ liệu biển báo giao thông DFG
bộ dữ liệu này, thử thách phát hiện biển báo giao
thông của hình được nâng cao lên đáng kể, khi các biển
báo được chụp lại chú thích một khoảng cách tương
đối, cùng với đó là phần background được giữ lại.
Hình 7. Kết quả thu được trên bộ dữ liệu DFG
Trong qtrình nghiên cứu, chúng tôi nhận thấy rằng
mô hình bắt đầu gặp khó khăn khi được huấn luyện trên b
dữ liệu thực tế hơn. Chỉ số mAP_0.5 cao nhất chỉ đạt
0,74957 trên 50 lần huấn luyện, một con số thấp khi so với
những thuật toán phát hiện 2 giai đoạn khi cùng huấn luyện
trên cùng một bộ dữ liệu.
Hình 8. Kết quả thu được của các thuật toán khác khi huấn luyện
trên bộ dữ liệu DFG
Dựa vào các kết quả thu được, hình xu hướng
nhận diện chính c hơn các biển báo phổ biến (biển rẽ trái,
biển rẽ phải, biển giới hạn tốc độ,…).
Hình 9. Một số dữ liệu kiểm định trên bộ dữ liệu DFG
Hình 10. Kết quả dự đoán của mô hình
Chúng tôi cho rằng sở dĩ có kết quả như vậy là bởi mặc
bộ dữ liệu đã được tăng cường để đảm bảo mỗi danh
mục có ít nhất là 200 trường hợp, song vẫn những biển
số trường hợp là vượt trội hơn so với những danh mục
còn lại:
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 2024 72
Ngoài ra, hình cũng cho thấy nhược điểm của nó khi
thực hiện nhận dạng những biển báo khoảng cách xa (dưới
30 pixel):
Hình 11. Mô hình gặp khó khăn khi phải nhận diện các biển báo
ở khoảng cách xa ( a- Bộ kiểm thử, b- Kết quả dự đoán của mô hình)
Mặc kết quả của hình còn nhiều hạn chế, tuy
nhiên các số liệu về hàm mất mát cho thấy hình vẫn
chưa gặp phải tình trạng overfitting, nên nếu được huấn
luyện nhiều hơn, có thể các chỉ số đánh giá của mô hình sẽ
tiếp tục được nâng cao.
Từ kết quả nghiên cứu, chúng tôi cho rằng mô hình vẫn
chưa đạt đủ vmặt thông số để thể áp dụng o thực tiễn,
song, chúng tôi cho rằng hình thể tiếp tục được cải
tiến bằng một số phương pháp sau:
Thay đổi các thông số huấn luyện
Thay đổi các lớp (layer) trong mô hình
Bổ sung vào bộ dữ liệu những hình ảnh biển báo các
điều kiện khác nhau
Thêm vào những hình ảnh môi trường để tăng khả
năng phân biệt giữa biển báo và môi trường
Kết hợp thuật toán YOLOv5 với những thuật toán
khác để cải thiện những nhược điểm của thuật toán
4. KẾT LUẬN VÀ KIẾN NGHỊ
Kết quả nghiên cứu trên thuật toán YOLOv5 đã cho thấy
khả năng nhận dạng của mô hình phụ thuộc vào các yếu t
như số lượng dữ liệu hình ảnh, số danh mục trong bộ dữ
liệu, chú thích của hình ảnh phải chính xác,… Do hạn chế
về phần cứng của thiết bị, chúng tôi chỉ có thể thực hiện
nghiên cứu trên hình yolov5s. Nếu thực hiện nghiên cứu
trên các hình cao hơn (yolov5m, yolov5l,…) độ chính
xác khi dự đoán cũng sẽ tăng lên, nhưng lại tốc độ dự
đoán sẽ giảm đi đáng kể, đặc biệt là bài toán yêu cầu về tốc
độ dự đoán của hình phải đủ nhanh trong tình huống
thực tế.
Để cải thiện hình dđoán biển báo giao thông, trong
tương lai, chúng tôi sẽ hướng tới việc sử dụng các phiên bản
mới hơn của YOLO, cũng như thu thập bộ dữ liệu tính
thực tế hơn. Bởi trong hiện thực, vấn đề lớn nhất khi thực
hiện nhiệm vụ phát hiện của hình những biển báo
chiếm kích thước rất nhỏ, thường ít hơn 1% của hình ảnh.
hình cũng sẽ phải loại bỏ được những trường hợp dự
đoán sai một cách gián tiếp (nhầm lẫn giữa môi trường và
biển báo) trong khi giữ nguyên được khả năng dự đoán
chính xác những biển báo giao thông. Đặc biệt, đối với
trường hợp thời tiết cực đoan (mưa, o, thiếu ánh sáng,…),
việc phát hiện dự đoán đúng biển báo cần thiết để giảm
thiểu rủi ro cho người tham gia giao thông. Những dữ liệu
về trường hợp này có thể được thực hiện bằng các kỹ thuật
tăng cường khác nhau.
TÀI LIỆU THAM KHẢO
[1]. Tiep Vu Huu. 2017. Machine Learning cơ bản. Retrieved from
https://machinelearningcoban.com/2017/04/09/smv/
[2]. Britannica, T. Editors of Encyclopaedia. 2024, April 4. Computer vision. Encyclopedia Britannica. Retrieved from
https://www.britannica.com/technology/computer-vision
[3]. Kunyi, Li., Lu, Cao. 2020. A Review of Object Detection Techniques. 2020 5th International Conference on
Electromechanical Control Technology and Transportation
[4]. Bi, Hanqing & Wen, Vincent & Xu, Zhenyu. 2023. Comparing one-stage and two-stage learning strategy in object
detection. Applied and Computational Engineering. 5. 171-177. 10.54254/2755-2721/5/20230556.
[5]. Glenn Jocher, Ayush Chaurasia, Alex Stoken, Jirka Borovec, NanoCode012, Yonghye Kwon, Kalen Michael,
TaoXie, Jiacong Fang, imyhxy, Lorna, 曾逸夫(Zeng Yifu), Colin Wong, Abhiram V, Diego Montes, Zhiqiang Wang,