Thuật toán AI: Nghiên cứu và ứng dụng vào hệ thống nhận diện biển báo giao thông hỗ trợ người lái xe

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 68

NGHIÊN CỨU VÀ ỨNG DỤNG THUẬT TOÁN AI VÀO HỆ THỐNG NHẬN DIỆN

BIỂN BÁO GIAO THÔNG HỖ TRỢ NGƯỜI LÁI XE

AI ALGORITHM RESEARCH AND APPLICATION IN DRIVER-ASSISTANCE

TRAFFIC SIGN RECOGNITION SYSTEM

Phan Bá Khánh1,*, Đỗ Danh Khải1, Lâm Thanh Cao1,

Hoàng Ngọc Dũng1, Ngọ Đức Cảnh2, Chu Thị Quyên3

1Lớp CNTT 02 - K16, Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Hà Nội

2Lớp KTPM 04 - K17, Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Hà Nội

3Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Hà Nội

*Email: phankhanh16203@gmail.com

TÓM TẮT

Nhận dạng biển báo giao thông luôn là một chủ đề được quan tâm, đặc biệt là ở hệ thống xe tự hành. Trong thực tế,

cũng có rất nhiều vụ tai nạn xảy ra do phớt lờ luật lệ và biển báo giao thông. Bài báo này tập trung vào nghiên cứu, khám

phá việc ứng dụng các thuật toán trí tuệ nhân tạo (AI), cụ thể là Mạng Nơron Tích Chập (CNN) và YOLOv5, trong việc

phát triển hệ thống phát hiện biển báo giao thông hỗ trợ người lái xe. Nghiên cứu so sánh cả phương pháp truyền thống và

phương pháp học sâu, với trọng tâm là hiệu suất và độ chính xác của YOLOv5. Nghiên cứu được thực hiện trên bộ dữ liệu

biển báo giao thông GTSRB và DFG, cho thấy các kết quả về tốc độ và độ chính xác trong nhận diện biển báo giao thông

theo thời gian thực. Các hạn chế do phần cứng và các đề xuất cải tiến trong tương lai cũng đã được thảo luận. Những phát

hiện này đánh giá khả năng ứng dụng thuật toán vào sự phát triển của công nghệ xe tự hành và hệ thống quản lý giao thông

đô thị.

Từ khóa: AI, CNN, YOLOv5, Nhận diện biển báo giao thông.

ABSTRACT

Traffic sign recognition is always a topic of interest, specially in autonormous vehicle system. In reality, there are a lot

of accidents related to ignorance of traffic signs and rules. This paper focus on researching, exploring how to apply artificial

intelligent (AI) algorithm, specially convolutional neural network (CNN) and YOLOv5, in the development traffic sign

detection system to support drivers. The research compares both traditional methods and deep learning methods, with the

performance and accuracy of YOLOv5 in mind. Research is conducted on GTSRB dataset and DFG traffic sign dataset,

showing results in terms of speed and accuracy in real-time traffic sign recognition. Limitations due to hardware and

suggestions for future improvements were also discussed. These discoveries evaluate the applicability of the algorithm

into the development of autonomous vehicle technology and urban traffic management system.

Keywords: AI, CNN, YOLOv5, Traffic sign recognition.

1. ĐẶT VẤN ĐỀ

1.1. Bối cảnh, ý nghĩa

Nhận diện biển báo giao thông là một khía cạnh quan

trọng trong hệ thống phương tiện tự hành và cơ sở hạ tầng

giao thông thông minh hiện đại. Với sự gia tăng của việc

phát triển xe tự hành, việc đảm bảo rằng các phương tiện

này có thể nhận diện và phản ứng chính xác với các biển

báo giao thông là rất quan trọng cho sự an toàn và hiệu quả.

Các phương pháp truyền thống để nhận diện biển báo giao

thông thường gặp khó khăn với sự biến đổi về hình dạng

của biển báo do các yếu tố như ánh sáng, thời tiết và che

khuất. Sự xuất hiện của học sâu, đặc biệt là mạng nơron tích

chập (CNN), đã cách mạng hóa các nhiệm vụ nhận diện

hình ảnh, mở ra tiềm năng mới cho việc nhận diện biển báo

giao thông.

1.2. Mục tiêu

Bài báo này tập trung vào nghiên cứu và phát triển hệ

thống nhận diện biển báo giao thông, có khả năng ứng dụng

rộng rãi trong các lĩnh vực như quản lý giao thông, an ninh,

định danh xe cộ và giám sát đô thị, xe tự lái. Cụ thể, nghiên

cứu của chúng tôi hướng đến các mục tiêu chính:

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 69 Tìm hiểu các thuật toán nhận dạng, phát hiện vật thể

 Tìm hiểu các bộ dữ liệu biển báo giao thông

 Xây dựng chương trình áp dụng các thuật toán lên bộ

dữ liệu

 Phân tích, đánh giá kết quả thu được, từ đó rút ra

những điểm đạt và chưa đạt của thuật toán và tìm hiểu

nguyên nhân

 Xác định các hạn chế và đề xuất các cải tiến trong

tương lai.

2. VẬT LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU

2.1. Bộ dữ liệu

- Chuẩn bị dữ liệu

Nhận diện biển báo giao thông là một vấn đề thách thức

dành cho các hệ thống hỗ trợ giao thông. Đây là một vấn đề

về phân loại đa danh mục với tần số lớp không cân bằng.

Các biển báo giao thông có nhiều biến thể giữa các lớp, từ

màu sắc, hình dạng tới sự hiện diện của chữ tượng hình hoặc

là chữ. Cũng tồn tại những biển báo mà rất tương đồng với

nhau (ví dụ như biển báo tốc độ giới hạn). Hơn nữa, bộ phân

loại còn phải đối phó với những thay đổi lớn về hình dáng

do thay đổi ánh sáng, tắc một phần, phương hướng xoay,

các điều kiện về thời tiết,….

Ở nghiên cứu này, chúng tôi đã tìm hiểu và sử dụng 2

bộ dataset về biển báo giao thông: bộ kiểm chuẩn nhận dạng

biển báo giao thông của Đức (GTSRB) và bộ dữ liệu biển

báo giao thông DFG.

- Bộ dữ liệu biến báo giao thông GTSRB

Được thu thập bởi nhóm tác giả J. Stallkamp, M.

Schlipsing, J. Salmen, và C. Igel, bộ dữ liệu là hình ảnh cận

cảnh của các biển báo giao thông.

Hình 1. Một số hình ảnh của bộ dữ liệu GTSRB

Tổng quan về bộ dữ liệu:

 Vấn đề phân loại một ảnh, nhiều lớp.

 Hơn 40 lớp khác nhau.

 Hơn 50,000 hình ảnh tổng thể.

 Cơ sở dữ liệu lớn, sống động.

 Dữ liệu thực tế, đáng tin cậy nhờ chú thích bán tự

động.

 Các trường hợp biển báo giao thông vật lý là duy nhất

trong tập dữ liệu (tức là mỗi biển báo giao thông trong thực

tế chỉ xuất hiện một lần).

Mức độ phân phối của từng danh mục trong bộ dữ liệu

được thể hiện trong hình 3.

Hình 2. Đồ thị phân phối về danh mục, chiều cao, chiều rộng của

từng biển báo GTSRB

2.2. Bộ dữ liệu biển báo giao thông DFG

Bộ dữ liệu bao gồm 200 danh mục biển báo giao thông

được xây dựng bởi 2 tác giả là Danijel Skočaj và Domen

Tabernik tại các con đường ở Slovenia trải dài hơn 7000

hình ảnh có độ phân giải cao. Các hình ảnh được cung cấp

và chú thích bởi công ty Slovenia DFG Consulting d.o.o.

Các ảnh RGB được thu thập bằng một camera gắn vào

phương tiện giao thông được lái qua 6 đô thị khác nhau ở

Slovenia. Dữ liệu hình ảnh bao gồm cả khu vực nông thôn

cũng như khu vực thành thị. Chỉ những hình ảnh chứa ít

nhất một biển báo được chọn từ kho dữ liệu khổng lồ được

thu thập. Hơn nữa, việc lựa chọn được thực hiện theo cách

mà đảm bảo rằng có sự thay đổi khung cảnh lớn giữa bất kỳ

các cặp ảnh liên tiếp được chọn.

Hình 3. Đồ thị thể hiện tần suất của mỗi danh mục

2.3. Thuật toán YOLOv5

Được đề xuất bởi R. Joseph vào năm 2015, YOLO (viết

tắt của You Only Look Once) là thuật toán phát hiện vật thể

một giai đoạn. Các thuật toán một giai đoạn không có quá

trình phân loại dựa trên vùng đề xuất mà trực tiếp hồi quy

đầu ra. YOLO được biết đến là thuật toán có độ chính xác

cao, cùng với tốc độ rất nhanh, và đang là một trong những

thuật toán được sử dụng thông thường nhất trong các ngành

công nghiệp. Ý tưởng cốt lõi của YOLO là biến đổi bài toán

phát hiện vật thể thành bài toán hồi quy. Nó đưa các hình

ảnh vào mạng nơ-ron, và trực tiếp đưa ra các bounding box

và danh mục của đối tượng. YOLOv5 là thế hệ thứ 5 của

thuật toán YOLO, được phát triển bởi Ultralytics, nổi tiếng

bởi độ chính xác cao khi nhận diện và tốc độ dự đoán nhanh

của nó.

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 70

Hình 4. Kiến trúc mạng của YOLOv5

Từ hình ảnh trên, ta có thể thấy kiến trúc mạng của

YOLOv5 bao gồm 3 thành phần chính:

- Backbone: Đây là thành phần chủ yếu của mạng lưới.

Đối với YOLOv5, phần backbone được thiết kế sử dụng

kiến trúc New CSP-Darknet53, một phiên bản được sửa đổi

từ kiến trúc Darknet đã sử dụng từ những phiên bản YOLO

trước.

- Neck: Đây là phần nối giữa backbone và head. Trong

YOLOv5, cấu trúc SPPF và New CSP-PAN được sử dụng.

- Head: Phần này có trách nhiệm tạo ra output sau cùng.

YOLOv5 tái sử dụng Head của YOLOv3 cho mục đích này.

YOLOv5 sử dụng các kỹ thuật tăng cường dữ liệu khác

nhau để cải tiến khả năng khái quát hóa and giảm overfitting

cho model. Những kỹ thuật này bao gồm:

 Mosaic Augmentation: Một kỹ thuật xử lý hình ảnh

sử dụng bốn hình ảnh huấn luyện để kết hợp chúng thành

một để khuyến khích các mô hình phát hiện đối tượng xử lý

tốt hơn đối với các quy mô và bản dịch đối tượng khác nhau.

 Copy-Paste Augmentation: Một phương pháp tăng

cường dữ liệu sáng tạo sao chép các bản vá ngẫu nhiên từ

một hình ảnh và dán chúng vào một hình ảnh được chọn ngẫu

nhiên khác, tạo ra một mẫu đào tạo mới một cách hiệu quả.

 Random Affine Transformations: Bao gồm xoay

ngẫu nhiên, chia tỷ lệ, dịch và cắt hình ảnh.

 MixUp Augmentation: Một phương pháp tạo ra

những hình ảnh tổng hợp bằng cách lấy sự kết hợp tuyến

tính của hai hình ảnh và nhãn liên quan của chúng.

 Albumentations: Một thư viện tăng cường hình ảnh

hỗ trợ một lượng lớn các kỹ thuật tăng cường dữ liệu.

 HSV Augmentation: Thay đổi ngẫu Random

Horizontal Flip: Một phương pháp tăng cường ngẫu nhiên

lật hình ảnh theo chiều ngang.

3. THIẾT LẬP THÍ NGHIỆM

3.1. Thiết lập cho hệ thống

Phần cứng: Phần cứng của thiết bị bao gồm CPU 11th

Gen Intel(R) Core(TM) i7-11800H @ 2.30GHz, GPU

NVIDIA RTX 3050Ti 4GB, 16GB RAM. Do hạn chế về

phần cứng, phiên bản nhỏ nhất của mô hình YOLOv5,

YOLOv5s, đã được sử dụng. Mô hình này cung cấp sự cân

bằng tốt giữa hiệu suất và hiệu quả tính toán.

Với mỗi bộ dữ liệu, chúng tôi thực hiện huấn luyện mô

hình 50 lần. Nghiên cứu được thực hiện trên hệ điều hành

Windows 11, phiên bản Python 3.11, CUDA 12.1, pytorch

2.1.0

3.2. Cách đánh giá kết quả

Mô hình được đánh giá hiệu suất dựa trên các tiêu chí:

 Độ Chính Xác P(Precision) và Độ Thu Hồi

R(Recall): Được tính toán dựa trên số lượng phát hiện biển

báo chính xác (TP), số lượng phát hiện bị nhầm lẫn với

background(FP) và số lượng biển báo bị nhầm lẫn là

background (FN) của mô hình.

 = 

+

 = 

+

 mAP (mean Average Precision): Là chỉ số đánh giá

chính xác trung bình của mô hình trên tất cả các danh mục.

Được tính bằng cách lấy trung bình cộng của AP (độ chính

xác trung bình) cho mỗi danh mục.

 = ()





 = 1

()





Trong đó, (C) là số lượng các lớp biển báo.

 FPS (Frame Per Second): Đánh giá tốc độ xử lý của

mô hình, tức là số lượng khung hình mô hình có thể phân

tích mỗi giây. Giá trị FPS càng cao, hiệu suất thời gian thực

của mô hình càng tốt.

 Ngưỡng IOU: Được đặt là 0,2 để đánh giá mức độ

chính xác của việc phát hiện biển báo.

Giá trị mAP cao và FPS cao cho thấy mô hình có khả

năng phát hiện chính xác cao và tốc độ xử lý nhanh, phù

hợp với yêu cầu của bài toán nhận diện biển báo giao thông.

3. KẾT QUẢ VÀ THẢO LUẬN

3.1. Bộ dữ liệu GTSRB

Hình 5. Kết quả thu được trên bộ dữ liệu GTSRB

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 71Đối với bộ dữ liệu GTSRB, kết quả đạt được được biểu

diễn như hình 5.

Từ hình ảnh trên, chúng tôi nhận thấy rằng khả năng

phân loại của YOLOv5 có độ chính xác cao, khi mức

mAP_0.5 và mAP_0.5:0.95 đạt tới giá trị cao nhất lần lượt

là 0,99269 và 0,93827 ở epoch thứ 50

Bộ kiểm thử bao gồm các hình ảnh biển báo giao thông

trong các điều kiện khác nhau từ phơi sáng, thiếu sáng, bị

mờ đi do tốc độ di chuyển của phương tiện,… và mô hình

vẫn đưa ra dự đoán chính xác ở các trường hợp kể trên. Điều

này đến từ bộ huấn luyện cũng có các hình ảnh của biển báo

trong các điều kiện tương tự. Từ đó, việc cung cấp cho mô

hình những dữ liệu ở điều kiện khác nhau là quan trọng để

tăng khả năng dự đoán chính xác của mô hình

Mặc dù vậy, vẫn có trường hợp mô hình cho ra những

kết quả khác so với bộ thẩm định khi thực hiện dự đoán.

Qua quá trình huấn luyện mô hình chúng tôi nhận thấy rằng

ma trận nhầm lẫn cho thấy rằng mô hình ít có xu hướng

phân biệt nhầm lẫn giữa các biển báo giao thông với nhau,

mà vấn đề chủ yếu nằm ở việc phân biệt giữa các biển báo

và background, đặc biệt khi bộ dữ liệu chỉ tập trung vào việc

phân loại biển báo.

Hình 6. Ma trận nhầm lẫn của mô hình với bộ dữ liệu GTSRB

3.2. Bộ dữ liệu biển báo giao thông DFG

Ở bộ dữ liệu này, thử thách phát hiện biển báo giao

thông của mô hình được nâng cao lên đáng kể, khi các biển

báo được chụp lại và chú thích ở một khoảng cách tương

đối, cùng với đó là phần background được giữ lại.

Hình 7. Kết quả thu được trên bộ dữ liệu DFG

Trong quá trình nghiên cứu, chúng tôi nhận thấy rằng

mô hình bắt đầu gặp khó khăn khi được huấn luyện trên bộ

dữ liệu thực tế hơn. Chỉ số mAP_0.5 cao nhất chỉ đạt

0,74957 trên 50 lần huấn luyện, một con số thấp khi so với

những thuật toán phát hiện 2 giai đoạn khi cùng huấn luyện

trên cùng một bộ dữ liệu.

Hình 8. Kết quả thu được của các thuật toán khác khi huấn luyện

trên bộ dữ liệu DFG

Dựa vào các kết quả thu được, mô hình có xu hướng

nhận diện chính xác hơn các biển báo phổ biến (biển rẽ trái,

biển rẽ phải, biển giới hạn tốc độ,…).

Hình 9. Một số dữ liệu kiểm định trên bộ dữ liệu DFG

Hình 10. Kết quả dự đoán của mô hình

Chúng tôi cho rằng sở dĩ có kết quả như vậy là bởi mặc

dù bộ dữ liệu đã được tăng cường để đảm bảo mỗi danh

mục có ít nhất là 200 trường hợp, song vẫn có những biển

mà số trường hợp là vượt trội hơn so với những danh mục

còn lại:

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 72

Ngoài ra, mô hình cũng cho thấy nhược điểm của nó khi

thực hiện nhận dạng những biển báo ở khoảng cách xa (dưới

30 pixel):

Hình 11. Mô hình gặp khó khăn khi phải nhận diện các biển báo

ở khoảng cách xa ( a- Bộ kiểm thử, b- Kết quả dự đoán của mô hình)

Mặc dù kết quả của mô hình còn nhiều hạn chế, tuy

nhiên các số liệu về hàm mất mát cho thấy mô hình vẫn

chưa gặp phải tình trạng overfitting, nên nếu được huấn

luyện nhiều hơn, có thể các chỉ số đánh giá của mô hình sẽ

tiếp tục được nâng cao.

Từ kết quả nghiên cứu, chúng tôi cho rằng mô hình vẫn

chưa đạt đủ về mặt thông số để có thể áp dụng vào thực tiễn,

song, chúng tôi cho rằng mô hình có thể tiếp tục được cải

tiến bằng một số phương pháp sau:

 Thay đổi các thông số huấn luyện

 Thay đổi các lớp (layer) trong mô hình

 Bổ sung vào bộ dữ liệu những hình ảnh biển báo ở các

điều kiện khác nhau

 Thêm vào những hình ảnh môi trường để tăng khả

năng phân biệt giữa biển báo và môi trường

 Kết hợp thuật toán YOLOv5 với những thuật toán

khác để cải thiện những nhược điểm của thuật toán

4. KẾT LUẬN VÀ KIẾN NGHỊ

Kết quả nghiên cứu trên thuật toán YOLOv5 đã cho thấy

khả năng nhận dạng của mô hình phụ thuộc vào các yếu tố

như số lượng dữ liệu hình ảnh, số danh mục trong bộ dữ

liệu, chú thích của hình ảnh phải chính xác,… Do hạn chế

về phần cứng của thiết bị, chúng tôi chỉ có thể thực hiện

nghiên cứu trên mô hình yolov5s. Nếu thực hiện nghiên cứu

trên các mô hình cao hơn (yolov5m, yolov5l,…) độ chính

xác khi dự đoán cũng sẽ tăng lên, nhưng bù lại tốc độ dự

đoán sẽ giảm đi đáng kể, đặc biệt là bài toán yêu cầu về tốc

độ dự đoán của mô hình phải đủ nhanh trong tình huống

thực tế.

Để cải thiện mô hình dự đoán biển báo giao thông, trong

tương lai, chúng tôi sẽ hướng tới việc sử dụng các phiên bản

mới hơn của YOLO, cũng như thu thập bộ dữ liệu có tính

thực tế hơn. Bởi trong hiện thực, vấn đề lớn nhất khi thực

hiện nhiệm vụ phát hiện của mô hình là những biển báo

chiếm kích thước rất nhỏ, thường ít hơn 1% của hình ảnh.

Mô hình cũng sẽ phải loại bỏ được những trường hợp dự

đoán sai một cách gián tiếp (nhầm lẫn giữa môi trường và

biển báo) trong khi giữ nguyên được khả năng dự đoán

chính xác những biển báo giao thông. Đặc biệt, đối với

trường hợp thời tiết cực đoan (mưa, bão, thiếu ánh sáng,…),

việc phát hiện và dự đoán đúng biển báo là cần thiết để giảm

thiểu rủi ro cho người tham gia giao thông. Những dữ liệu

về trường hợp này có thể được thực hiện bằng các kỹ thuật

tăng cường khác nhau.

TÀI LIỆU THAM KHẢO

[1]. Tiep Vu Huu. 2017. Machine Learning cơ bản. Retrieved from

https://machinelearningcoban.com/2017/04/09/smv/

[2]. Britannica, T. Editors of Encyclopaedia. 2024, April 4. Computer vision. Encyclopedia Britannica. Retrieved from

https://www.britannica.com/technology/computer-vision

[3]. Kunyi, Li., Lu, Cao. 2020. A Review of Object Detection Techniques. 2020 5th International Conference on

Electromechanical Control Technology and Transportation

[4]. Bi, Hanqing & Wen, Vincent & Xu, Zhenyu. 2023. Comparing one-stage and two-stage learning strategy in object

detection. Applied and Computational Engineering. 5. 171-177. 10.54254/2755-2721/5/20230556.

[5]. Glenn Jocher, Ayush Chaurasia, Alex Stoken, Jirka Borovec, NanoCode012, Yonghye Kwon, Kalen Michael,

TaoXie, Jiacong Fang, imyhxy, Lorna, 曾逸夫(Zeng Yifu), Colin Wong, Abhiram V, Diego Montes, Zhiqiang Wang,

Nghiên cứu và ứng dụng thuật toán AI vào hệ thống nhận diện biển báo giao thông hỗ trợ người lái xe

Bài báo này tập trung vào nghiên cứu, khám phá việc ứng dụng các thuật toán trí tuệ nhân tạo (AI), cụ thể là Mạng Nơron Tích Chập (CNN) và YOLOv5, trong việc phát triển hệ thống phát hiện biển báo giao thông hỗ trợ người lái xe.

Chủ đề:

Tài liệu liên quan

Tài liêu mới

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi