JOMC 191
Tạp chí Vật liệu & Xây dựng Tập 15 Số 03 năm 2025
M., "Off
Çimen, E. B., İ, K., Ö, S., Şahin, M., and Kılınç, D., "A Hybrid Stock
combining fuzzy multicriteria methods, genetic algorithm, and artificial
*Liên h tác gi: chihieuma@hcmut.edu.vn
Nhn ngày 22/05/2025, sa xong ngày 12/06/2025, chp nhn đăng ngày 13/06/2025
Link DOI: https://doi.org/10.54772/jomc.03.2025.995
Mô hình hc sâu phát hin và nhn din mã container áp dng
trong vn hành cng thông minh
Mã Chí Hiếu1,2*, Trn Quang Trường1,2, Lê Tun Anh1,2
1 Khoa K thut Xây dựng, Trường Đi hc Bách Khoa TP.HCM, Vit Nam
2 Đại hc Quc Gia Thành ph H Chí Minh, Vit Nam
TỪ KHOÁ
TÓM TẮT
Yolov11
EasyOCR
mã code container
thị giác máy tính
cảng thông minh
nhận diện ký tự quang học (OCR)
phát hiện đối tượng
Th giác máy tính, một lĩnh vực quan trng trong trí tu nhân to, đang ngày càng phát trin mnh m
đư
c ng dng rng rãi trong nhiu ngành công nghip. Da trên kiến trúc mng nơ-ron tích ch
p (CNN),
nhi
u mô hình tiên tiến đã được xây dng đ gii quyết các vn đ như phát hiện đối tượng, phân đoạ
n
hình
nh, nhn din ký t quang hc (OCR)... Trong s đó, YOLO ni bt vi kh năng phát hiện đối tượ
ng
nhanh và chính xác; và
EasyOCR là mt công c hiu qu trong nhn dng ký t với độ
chính xác cao.
Ng
hiên cu hin ti tp trung vào vic phát hin và nhn din mã thông qua s kết hp gi
a mô hình
YOLOv11 và EasyOCR. N
i dung nghiên cu bao gm xây dng tp d liu, hun luy
n hình đánh
giá hi
u sut ca mô hình. Kết qu thc nghim cho thấy mô hình đề xut đt đ chính xác trên 90 %, ch
ng
t
tính kh thi và tim năng ng dng trong các h thng thc tế trong các cng thông mình.
KEYWORDS
ABSTRACT
Yolov11
EasyOCR
Container codes
Computer vision
Smart port
Optical character recognition
Object detection
Computer vision, a key area within artificial intelligence, has been rapidly advancing and is increasingly
applied across various industrial domains.
Based on
the architecture of Convolutional Neural Networks
(CNNs), numerous state
-of-the-
art models have been developed to address a range of tasks, including object
detection, image segmentation, and optical character recognition (OCR)
, etc.
Among these, YOLO (You Only
Look Once) stands out for its high
-speed and accurate object detection capabilities, while
EasyOCR has
proven to be an effective tool, offering high character recognition accuracy.
The present study focuses on the
detection and recognition of container codes by integrating the YOLOv11 model with EasyOCR. The research
encompasses the construction of a training dataset, model training, and
model
performance evaluation.
Output
results indicate that the proposed model achieves an accuracy of over 90%, demonstrating its
feasibility and strong potent
ial for real-world applications in the smart ports.
1. Gii thiu
Hin nay, mô hình cảng thông minh đang trở thành xu hướng
phát trin ch đạo ca các cng bin trên toàn cu. Cng thông minh
đưc hiu là mt h thng vn hành tích hp, trong đó các bên liên
quan như khách hàng, cảng và các đơn v logistics cùng tham gia vào
quy trình thu thp, phân phi và vn chuyn hàng hóa thông qua vic
ng dng các công ngh hin đi. Mc tiêu chính là ti ưu hóa vic s
dng các ngun lc. Đ đạt được điu đó, cng thông minh cần đáp
ng các yêu cu như giám sát thông minh, cung cấp dch v thông minh
và kh năng x lý t động. Nhng yếu t này giúp nâng cao mc đ an
toàn, hiu qu và chất lượng trong các dch v logistics. Có th khng
định rng, cảng thông minh được xây dng trên nn tng cơ s h tng
hin đi, vi s tích hp ca các công ngh tiên tiến như mng 5G,
Internet vn vt (IoT), d liu ln (Big Data), trí tu nhân to (AI), và
công ngh chui khi (Blockchain), nhm phù hp vi chc năng vn
hành ca cng [1].
Hin nay, vic vn chuyn hàng hóa bằng container đang được
các công ty vn tải và thương mại s dng ph biến. Container là nhng
thùng thép tiêu chun chuyên dụng, được gn đnh danh bao gm
các ký t và ch s theo quy chun quc tế ISO 6346:2022 [2], hoc
tiêu chuẩn tương đương tại Vit Nam là TCVN 7623:2023 [3]. Mi mã
container bao gm hai phn chính: h thng nhn din (Identification
system) và mã kích thước kiu loi (Size and Type codes), được minh
ha trong Hình 1.
Hình 1. Minh ha cho mt mã container tiêu chun.
Để theo dõi và qun lý các container mt cách hiu qu, cn có
h thng nhn dng mã container. Hiện có ba phương pháp chính: nhận
JOMC 192
Tạp chí Vật liệu & Xây dựng Tập 15 Số 03 năm 2025
din th công, nhn din bng sóng vô tuyến (RFID Radio Frequency
Identification), hoc s dng th giác máy tính [4].
Mỗi phương pháp có những li thế và hn chế riêng. Nhn dng
th công không yêu cu h thng thiết b phc tp nhưng năng sut
thp và d xy ra sai sót. Công ngh RFID mang li đ chính xác gn
như tuyệt đối, tuy nhiên chi phí lp đt và bo trì cao do yêu cu gn
th t cho tng container. Hơn na, h thng này vn chưa đưc trin
khai đồng b trên toàn cu. Th giác máy tính là mt gii pháp kinh tế
hơn, song gặp phi nhiu thách thc v độ chính xác và tc đ nhn
din do chu ảnh hưởng t các yếu t như điều kin ánh sáng, góc chp,
độ m hình ảnh, kích thước và kiu ch ca mã container.
Vic trích xut và phân tích d liu t hình nh cha mã s
container đòi hỏi s h tr ca các thut toán x lý phc tp và cn
đưc ti ưu đ đảm bo đ tin cy đ chính xác cao trong nhn din.
Mặc đã nhiều tiến b đáng kể trong công ngh nhn din
hình nh nhưng đối vi vn đ nhn din mã container vn là mt thách
thc khá ln đối vi các h thng quan sát và kim soát trong các cng
t động. Bài báo này tp trung nghiên cu và phát trin h thng nhn
din mã container t động da theo kiến trúc hc sâu mới đó
YOLOv11 [5] EasyOCR [6]. Trong bài báo hin ti, mô hình
YOLOv11 dùng để phát hin và khoanh vùng v trí ca mã container.
Sau đó, hình EasyOCR [6] đưc s dng để trích xut các ký t
trong ng v trí đã được tìm ra trước đó. Kết qu cho thy mô hình
đưc đề xut có kh năng ng dng rng rãi và hiu qu trong h thng
vn hành ca các cng t động.
2. Phương pháp
2.1. Mô hình đề xut
hình đề xuất được chia thành 2 giai đon : Nhn din và Phát
hin. Sơ đ khi của mô hình đề xuất được minh ha như Hình 3.
Hình 2. Sơ đ khối mô hình đề xut.
2.1.1. Giai đon 1: Phát hin v trí ca mã container
YOLO (You Only Look Once) là mt trong nhng kiến trúc ph
biến đưc nhiu ngưi biết đến trong lĩnh vực th giác máy tính.
YOLOv11 là YOLO phiên bn th 11 được ra mắt vào năm 2024 vi đ
chính xác, tc đ x lý và hiu suất được ci thin so vi các phiên bn
trưc đó [5]. Hiu năng ca YOLOv11 so vi các phiên bn tc đưc
th hin Hình 3. phiên bn này s dng kiến trúc đưc ci tiến
phn Backbone và Neck, nh đó giúp tăng cường kh năng trích xut
đặc trưng đ phát hin đi tượng chính xác hơn và thực hin đưc các
tác v phc tp vi s ng tham s ít hơn nên tc đ x lý cũng đưc
ci thin hơn các phiên bn trưc.
Hình 3. Biu đ so sánh hin năng các phiên bn YOLO [5].
Trong giai đoạn này, d liu đu vào (nh hoc video) s đưc
hun luyn bng mô hình YOLOv11 để phát hin v trí ca mã
container. Mô hình s to ra mt khung vin bao xung quanh
container.
2.1.2. Giai đon 2: Nhn din ký t mã container
Trong giai đon này, h thng s dụng hình EasyOCR để trích
xut các ký t bên trong khung vin đã được xác đnh giai đoạn 1.
Mã container được trích xut có th xut ra vi nhiu đnh dng khác
nhau như đè lên d liu gc hoc định dng tp.
2.2. Mô hình YOLOv11
Trong nghiên cứu này, mô hình YOLOv11 được la chn đ thc
hiện giai đoạn đu tiên phát hin v trí mã container trong nh hoc
video. Kiến trúc của YOLOv11 được t chc thành ba thành phn chính:
Backbone, Neck, và Head. Mi thành phn đm nhim mt vai trò c
th trong quá trình trích xuất đặc trưng và phát hiện đối tượng. Kiến
trúc tng quan của mô hình YOLOv11 được minh ha trong Hình 4.
Hình 4. Kiến trúc mô hình YOLOv11 [7].
2.2.1 Backbone
Backbone chu trách nhim trích xut các đặc trưng từ hình nh
đầu vào thông qua mt chui các tng tích chp [7]. D liu đu vào là
hình nh có đ phân gii 640x640 pixel vi 3 kênh màu (RGB).
Các lp tích chp (Conv) chu trách nhim giảm kích thưc nh
t 640x640x3 xung còn 320x320x64, 160x160x128, 80x80x265,
40x40x512 và 20x20x1024.
Khi C3k2 là mt đim ci tiến mi trong kiến trúc ca YOLOv11
JOMC 193
Tạp chí Vật liệu & Xây dựng Tập 15 Số 03 năm 2025
ế
ỗi phương pháp có nhữ ế ế
ế p nhưng năng su
i đ
như tuyệt đố p đ
Hơn n n ca đư
khai đồ ế
hơn, song gặ độ c đ
ảnh hưở ế như điề
độ ảnh, kích thướ
container đòi hỏ
đư i ưu đ đả o đ y và đ
ặc đã nhiề ế đáng kể
nh nhưng đố n đ
đố
độ
độ ế ới đó
để
Sau đó đư để
trí đã được tìm ra trước đó ế
đư đề năng
độ
Phương pháp
Mô hình đề
hình đề ất đượ đo
Sơ đ ủa mô hình đề ất đượ a như Hình 3.
Sơ đ i mô hình đề
Giai đo
ế
ến đư u ngư ết đế trong lĩnh vự
11 đượ ắt vào m 2024 i đ
c đ ất đượ
trưc đó u năng c n trưc đư
ến tc đư ế
đó giúp tăng cườ năng trích xuấ
đặc trưng đ n đi tượng chính xác hơn và thự n đư
ít hơn c đ lý cũng đư
ơn các phiên bn trư
u đ n năng các phiên b
giai đoạ u đ đư
để
Giai đo
giai đoạ ng hình EasyOCR để
đã đượ xác đ giai đoạ
Mã container đượ u đ
như đè lên d đị
ứu này, nh YOLOv11 đượ n đ
ện giai đoạn đ
ế ủa YOLOv11 đượ
n đ
ất đặc trưng phát hiện đối tượ ế
ủa mô hình YOLOv11 đượ
ế
t các đặc trưng từ
đầ u đ
nh có đ
ảm kích thướ
đi ế ế
so vi các phiên bn trưc đó, đưc thiết kế để tối ưu vic trích xut
các đc trưng ca nh các mc đ phân gii 80x80, 40x40 và 20x20.
Backbone ca YOLOv11 to ra các đặc trưng đa t l ti ba kích
thước chính là 20x20, 40x40 và 80x80, sau đó chuyn tiếp chúng
sang phn Neck đ tiếp tc x lý và tng hp thông tin.
2.2.2 Neck
Thành phn Neck trong kiến trúc YOLOv11 có nhim v tng hp
và kết hp các đặc trưng đưc trích xut t nhiu tng khác nhau ca
Backbone, đc bit là các đc trưng nhiu mc đ phân gii. Vic tích
hợp thông tin theo cách y giúp tăng ng kh năng phát hiện các
đối tượng kích thước đa dng trưc khi chuyển sang giai đoạn d
đoán ti phn Head [7].
Neck ca YOLOv11 s dng mt s thành phn quan trng như
sau:
SPPF (Spatial Pyramid Pooling Fast): Là k thut gp đc
trưng theo nhiều t l khác nhau, cho phép mô hình thu nhn thông tin
đa tỷ l mt cách hiu qu. Đây là mt trong nhng ci tiến tiêu biu
ca các phiên bn YOLO gần đây, giúp đạt được s n bng gia đ
chính xác và tc đ x lý.
C2PSA (Convolutional Block with Parallel Spatial Attention):
Là khi tích chập được tích hp cơ chế chú ý không gian song song,
giúp tăng cường kh năng nhn biết đc trưng kng gian và toàn cc.
Thành phn này góp phn ci thin đ chính xác ca mô hình trong
vic phát hin các đi ng, k c trong điều kin phc tp. Đây là
c tiến đáng kể so vi các phiên bn tc, đc bit phù hp vi các
ng dng th giác máy tính thi gian thc nh vào hiu qu tính toán
cao.
Upsample: Có chức năng tăng độ phân gii không gian ca
các bn đ đặc trưng mc thp, nhm tránh b sót các vt th nh
ci thin kh năng nhn din chi tiết.
Concat (Concatenation): Thc hin vic ni các bn đ đặc
trưng được trích xut t Backbone vi các bn đ đặc trưng đã đưc
tăng độ phân gii t khi Upsample. S kết hp này giúp mô hình tn
dng đy đ thông tin c cp đ thp và cao, t đó ng cao đ chính
xác trong quá trình d đoán.
2.2.3. Head
Phn Head trong kiến trúc YOLOv11 chu trách nhim to ra các
d đoán đu ra cui cùng ca mô hình. Thành phn này đưc chia
thành hai nhánh chính:
Nhánh đnh v (Bounding Box): D đoán ta đ và kích thưc
ca các khung gii hn bao quanh đối tượng trong nh.
Nhánh phân loại (Class Prediction): Xác đnh nhãn lp ca
đối tượng trong khung gii hn, đng thi gán kèm mt giá tr độ tin
cy (confidence score) th hin mc đ chc chn của mô hình đối vi
d đoán đó [7].
chế d đoán hai nhánh cho phép mô hình va phát hin v t
ca đối tượng, va nhn din đưc bn cht ca đối tượng đó, từ đó
tối ưu hiệu qu trong các bài toán phát hin và phân loại đối tượng
đồng thi.
2.3 Mô hình EasyOCR
Trong giai đoạn nhn dng ký t, EasyOCR s dng thut toán
CRAFT (Character Region Awareness for Text Detection) để phát hin
vùng cha ký t trong nh. Đây là mt phương pháp phát hin văn bn
hiu qu, có kh năng c đnh chính xác v trí ca tng ký t, k c
trong các b cc phc tp.
Phn nhn dng ký t đưc thc hin thông qua mô hình CRNN
(Convolutional Recurrent Neural Network), bao gm ba thành phn chính:
Trích xut đc trưng: S dng các kiến trúc CNN ni bt n
ResNet và VGG đ rút trích các đặc trưng hình ảnh đu vào.
hóa chui: Áp dng mng hi tiếp LSTM (Long Short-
Term Memory) để x lý trình t các đc trưng, nhm ghi nhn mi liên
kết theo chiu ngang gia các ký t.
Giải đầu ra: S dng thut toán CTC (Connectionist
Temporal Classification) để chuyn đi chui đặc trưng thành chuỗi ký
t văn bản tương ứng.
Quy trình nhn din trong EasyOCR là mt phiên bn ci tiến t
các mô hình nhn din văn bn sâu truyn thng [6]. Tng quan kiến
trúc của mô hình được minh ha trong Hình 5.
Hình 5. Kiến trúc mô hình EasyOCR [6].
3. Phương thức đánh giá
3.1. Phương thức đánh giá mô hình trong giai đon 1
Giai đoạn đầu tiên trong mô hình đề xut là phát hin đối tượng.
Để xác đnh chtng của mô hình trong giai đoạn này, việc đánh giá
hiu năng c không th thiếu. Việc đánh giá mô hình không ch
giúp xác định mc đ chính xác mà còn h tr trong vic la chn mô
hình phù hp nht cho bài toán c th.
Mt trong nhng tiêu chí quan trng đ đánh giá hiu năng các mô
hình phát hin đối tượng là mAP (mean Average Precision), tc là giá
tr trung bình ca ch s AP (Average Precision) trên tt c các lp đi
ng. Giá tr mAP càng cao chng t hình có kh năng phát hiện
JOMC 194
Tạp chí Vật liệu & Xây dựng Tập 15 Số 03 năm 2025
đúng các đối tượng vi sai s thp, đm bo đ tin cy trong quá trình
nhn din [8]. Giá tr mAP được tính toán như sau:
𝑚𝑚𝑚𝑚𝑚𝑚 = 1
𝑛𝑛𝑚𝑚𝑚𝑚𝑖𝑖
𝑛𝑛
𝑖𝑖=1 (1)
trong đó AP Average Precision; n là tng s lp. Đ xác đnh giá tr
AP, trưc hết phi tính toán các giá tr Precision và Recall cho tng lp.
Sau đó, ly din tích bên dưới đường cong Precision-Recall cho tng
đối tượng bng công thc:
𝑚𝑚𝑚𝑚 = (𝑅𝑅𝑖𝑖
𝑛𝑛
𝑖𝑖=1 𝑅𝑅𝑖𝑖−1) × 𝑚𝑚𝑖𝑖 (2)
trong đó Pi Ri ln t là các giá tr Precision và Recall tại điểm th
i trên đưng cong P-R (Precision-Recall). Đưng cong này bt đu ti
(0,1) và kết thúc ti (1,0).
Giá tr ca Precision và Recall ti mỗi điểm th i trên đường cong
P-R được tính như sau:
𝑚𝑚𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃 = 𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑖𝑖𝑇𝑇𝑖𝑖𝑇𝑇𝑇𝑇
𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑖𝑖𝑇𝑇𝑖𝑖𝑇𝑇𝑇𝑇+𝐹𝐹𝐹𝐹𝐹𝐹𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑖𝑖𝑇𝑇𝑖𝑖𝑇𝑇𝑇𝑇 (3)
𝑅𝑅𝑃𝑃𝑃𝑃𝑅𝑅𝑅𝑅𝑅𝑅 = 𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑖𝑖𝑇𝑇𝑖𝑖𝑇𝑇𝑇𝑇
𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑖𝑖𝑇𝑇𝑖𝑖𝑇𝑇𝑇𝑇+𝐹𝐹𝐹𝐹𝐹𝐹𝑇𝑇𝑇𝑇𝐹𝐹𝑇𝑇𝐹𝐹𝐹𝐹𝑇𝑇𝑖𝑖𝑇𝑇𝑇𝑇 (4)
Mc dù Precision và Recall phn ánh tính chính xác ca các d
đoán và kh năng bao quát của mô hình, chúng không phn ánh trc
tiếp chất lượng đnh v. Vì vy, ch s IoU (Intersection over Union)
đưc s dng đ đánh giá độ chính xác ca khung d đoán thông qua
vic đo lường s chng chéo gia các khung vin d đoán khung
vin thc tế:
𝐼𝐼𝑃𝑃𝐼𝐼 =𝐴𝐴𝑇𝑇𝑇𝑇𝐹𝐹𝑇𝑇𝐴𝐴𝐴𝐴𝑛𝑛𝑇𝑇𝑇𝑇𝑇𝑇 𝑇𝑇𝑇𝑇𝑠𝑠 𝑇𝑇𝑖𝑖𝑇𝑇𝑛𝑛
𝐴𝐴𝑇𝑇𝑇𝑇𝐹𝐹𝑇𝑇𝐴𝐴𝐴𝐴𝑛𝑛𝑖𝑖𝑇𝑇𝑛𝑛 (5)
Giá tr IoU nm trong khong t 0 đến 1; IoU càng cao đồng nghĩa
vi kh năng đnh v càng chính xác. Mt d đoán ch đưc xem là True
Positive nếu IoU vượt qua ngưỡng xác đnh trưc (ví d: 0,5).
Để có cái nhìn toàn diện hơn, có hai cách đánh giá phổ biến:
mAP@50: Tính mAP ti ngưng IoU = 0,50, thường được
s dng như mt chun cơ bn.
mAP@50:95: nh trung bình mAP trên các ngưỡng IoU t
0,50 đến 0,95 vi bưc nhy 0,05, cung cấp đánh giá khắt khe hơn và
phn ánh toàn din hiu sut mô hình nhiu mc đ chính xác định
v khác nhau [8].
3.2. Phương thức đánh giá mô hình trong giai đon 2
Để đánh giá hiu qu ca mô hình trong vic nhn dng ký t, văn
bn đưc trích xut bi mô hình s đưc so sánh vi n bn gc thông
qua Khong cách Levenshtein, còn đưc gi là Khong cách chnh sa [9].
Ch s này đo lưng s ng thao tác ti thiu cn thc hin đ
chuyn đi chui ký t d đoán thành chuỗi ký t đúng, bao gm:
thêm, xóa hoc thay thế mt ký t. Giá tr càng nh đồng nghĩa với độ
tương đồng càng cao gia văn bn nhn dng và văn bn thc tế. Mc
đánh giá cụ th da trên ch s này đưc trình bày trong Bng 1.
Thông thường, Khoảng cách Levenshtein được tính cho tng t
bng cách xác đnh s chnh sa cn thiết cho tng ký t, sau đó ly
trung bình cộng. Tuy nhiên, trong trường hp khong cách ln hơn 2,
t đó được xem là nhn dạng sai hoàn toàn và được n đ chính xác
bng 0.
Bng 1. Đim khong cách Levenshtein [9].
Điu kin Levenshtein
Đim
Chính xác
Khong cách Levenshtein = 0
1
Thêm/Xóa 1 ký t
Khong cách Levenshtein = 1
0,9
Thay thế 1 ký t
Thêm/Xóa 2 ký t
Khong cách Levenshtein = 2
0,8
Khong cách Levenshtein > 2
0
Trong nghiên cu này, đ đánh giá toàn diện mt mã container,
Khoảng cách Levenshtein được tính riêng cho tng class (ký t hoc
nhóm ký t trong mã). Đ chính xác tng th của container được
xác đnh bng công thc sau:
𝑚𝑚𝑃𝑃𝑃𝑃𝐴𝐴𝑃𝑃𝑅𝑅𝑃𝑃𝐴𝐴 = 𝑇𝑇𝑇𝑇𝑇𝑇𝐹𝐹𝐹𝐹𝑇𝑇𝑠𝑠𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇
𝑇𝑇𝑇𝑇𝑇𝑇𝐹𝐹𝐹𝐹𝑠𝑠𝐹𝐹𝐹𝐹𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇 ×100 (6)
trong đó: Tổng điểm là tổng số điểm nhận được từ tất cả các lớp sau khi
áp dụng đánh giá bằng khoảng cách Levenshtein.
4. Thc nghim
4.1. Chun b b d liu và tinh chnh mô hình
4.1.1. Giai đon 1
Tp d liệu được s dng đ hun luyn mô hình YOLOv11 bao
gm 387 hình nh với độ phân giải đa dạng. Quá trình x lý d liu
bắt đầu bng vic phân loi nh thành hai lp đối tượng: "H thng
nhn din" và "Mã kích thưc kiu loi". Vic gán nhãn cho các lp
này đưc thc hin thông qua các nn tng chuyên dng trong lĩnh vc
th giác máy tính. Sau đó, tp d liệu được chia thành ba phn: hun
luyn, kim đnh và kim tra vi t l tương ng 80%, 10% và 10%
(tương đương 309, 39 39 hình nh).
Để chun hóa đầu vào tăng tính đa dạng cho tp d liu, mt
s k thut tin x tăng cường d liệu đã được áp dng. Trong
đó, các c tin x bao gm t động điu chỉnh hướng (auto-
orientation) và t động hiu chnh đ tương phản (auto contrast
adjustment). Bên cnh đó, nhm m rộng và đa dạng hóa d liu hun
luyn, các k thut tăng cường như ct nh (cropping), xoay nh
(shearing), điều chnh đ sáng (brightness adjustment), thay đổi mc
phơi sáng (exposure variation) làm mờ (blurring) ng được trin
khai. Sau khi áp dng các k thuật tăng cường, s ng hình nh trong
tp hun luyện tăng từ 309 lên 927 nh.
Ngoài vic chun b d liu đu vào, mt s tinh chnh tham s
cho mô hình hin tại cũng được thc hin. Batch size (batch) là mt
trong nhng siêu tham s quan trọng quy định s ng d liệu được
s dng trong mt ln cp nht tham số. Khi tăng batch size thì thời
gian hun luyn d liu s đưc rút ngn; t đó mô hình sẽ n đnh và
ít b nhiu hơn. Tuy nhiên, điu này cũng s tiêu tn nhiu tài nguyên
tính toán hơn và d dn ti b lỗi "Out of memory". Đối vi cu hình
máy tính hin có và áp dng cho mô hình đề xut, nhóm tác gi đã thử
JOMC 195
Tạp chí Vật liệu & Xây dựng Tập 15 Số 03 năm 2025
đúng các đối tượ p, đ o đ
mAP được tính toán như sau:
𝑚𝑚𝑚𝑚𝑚𝑚 = 1
𝑛𝑛𝑚𝑚𝑚𝑚𝑖𝑖
𝑛𝑛
𝑖𝑖=1
rong đó AP . Đxác đ
AP, trư ế
Sau đó, n tích bên ới đườ
đối tượ
𝑚𝑚𝑚𝑚 = (𝑅𝑅𝑖𝑖
𝑛𝑛
𝑖𝑖=1 𝑅𝑅𝑖𝑖−1) × 𝑚𝑚𝑖𝑖
rong đó n lư ại điể
đư. Đư t đ
ế
ỗi điể trên đườ
được tính như sa
𝑚𝑚𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃 = 𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑖𝑖𝑇𝑇𝑖𝑖𝑇𝑇𝑇𝑇
𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑖𝑖𝑇𝑇𝑖𝑖𝑇𝑇𝑇𝑇+𝐹𝐹𝐹𝐹𝐹𝐹𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑖𝑖𝑇𝑇𝑖𝑖𝑇𝑇𝑇𝑇
𝑅𝑅𝑃𝑃𝑃𝑃𝑅𝑅𝑅𝑅𝑅𝑅 = 𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑖𝑖𝑇𝑇𝑖𝑖𝑇𝑇𝑇𝑇
𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑖𝑖𝑇𝑇𝑖𝑖𝑇𝑇𝑇𝑇+𝐹𝐹𝐹𝐹𝐹𝐹𝑇𝑇𝑇𝑇𝐹𝐹𝑇𝑇𝐹𝐹𝐹𝐹𝑇𝑇𝑖𝑖𝑇𝑇𝑇𝑇
đoán năng bao quát củ
ế ất ng đ
đư ng đ đánh giá độ đoán thông qua
đo đoán
ế
𝐼𝐼𝑃𝑃𝐼𝐼 =𝐴𝐴𝑇𝑇𝑇𝑇𝐹𝐹𝑇𝑇𝐴𝐴𝐴𝐴𝑛𝑛𝑇𝑇𝑇𝑇𝑇𝑇 𝑇𝑇𝑇𝑇𝑠𝑠 𝑇𝑇𝑖𝑖𝑇𝑇𝑛𝑛
𝐴𝐴𝑇𝑇𝑇𝑇𝐹𝐹𝑇𝑇𝐴𝐴𝐴𝐴𝑛𝑛𝑖𝑖𝑇𝑇𝑛𝑛
0 đến 1; IoU càng cao đồng nghĩa
năng đ đoán chđư
ếu IoU vượt qua ngưỡng xác đnh trư
Để ện hơn, có hai cách đánh giá phổ ế
i ngư 50, thường đượ
ng như m n cơ b
mAP@50:95: nh trung bình mAP trên các ngưỡ
50 đế i bư ấp đánh giá khắt khe hơn và
c đ chính xác đị
Phương thức đánh giá mô hình giai đo
Để đánh giá hi , văn
n đư đư i văn b
n đư
y đo lư n đ
n đ đoán thành chuỗ đúng, bao g
ế đồng nghĩa với độ
tương đồ a văn b ng và văn b ế
đánh giá cụ y đư
Thông thườ ảng cách Levenshtein đượ
ng cáchc đ ế , sau đó l
ộng. Tuy nhiên, trong trườ n hơn 2,
đó đượ ạng sai hoàn toàn và đưc gán đ
Đi
Đi Đi
ế
u này, đ đánh giá toàn diệ
ảng cách Levenshtein đượ
trong mã). Độ a container đượ
xác đ
𝑚𝑚𝑃𝑃𝑃𝑃𝐴𝐴𝑃𝑃𝑅𝑅𝑃𝑃𝐴𝐴 = 𝑇𝑇𝑇𝑇𝑇𝑇𝐹𝐹𝐹𝐹𝑇𝑇𝑠𝑠𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇
𝑇𝑇𝑇𝑇𝑇𝑇𝐹𝐹𝐹𝐹𝑠𝑠𝐹𝐹𝐹𝐹𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇 ×100
trong đó: Tổng điểm tổng số điểm nhận được từ tất cả các lớp sau khi
áp dụng đánh giá bằng khoảng cách
4.1.1. Giai đo
ệu đượ ng đ
ới độ ải đa dạ
ắt đầ p đối tượ
ch thướ
này đư ng trong lĩnh v
giác máy tính. Sau đó, t ệu đư
m đ tương
(tương đương 309, 39 và 39 hình ả
Để n hóa đầu vào tăng tính đa dạ
tăng cườ ệu đã đượ
đó, các động đi ỉnh hướ
độ nh đ tương phả
nh đó, nh ộng và đa dạ
ật tăng cường như c
(shearing), điề nh đ sáng (brightness adjustment), thay đổ
phơi sáng (exposure variation) làm m (blurring) ng đượ
ật tăng cườ
ện tăng từ
u đ
ại cũng đượ
ọng quy đị ệu đượ
ố. Khi tăng batch size thì thờ
đư đó mô hình sẽ n đ
u hơn. Tuy nhiên, điu này cũng s
tính toán n d ỗi "Out of memory". Đố
hình đề đã thử
nghim và chn thông s batch bng 16 đ to s n đnh khi hun
luyện hình. Ngoài batch size, Learning rate cũng mt siêu tham
s quan trọng, giúp điều chnh bưc nhy khi cp nht trng s trong
quá trình hun luyn. Nếu Learning rate quá ln thì có th nhng
tới độ chính xác của mô hình (gây dao động ln hàm Loss). Ngược
li, nếu Learning rate quá bé thì s ảnh hưởng đến thi gian hun luyn
mô hình và có th khiến cho mô hình b không ti ưu đưc hàm Loss.
Batch size càng ln thì Learning rate có th đặt càng cao đ mô hình
hi t nhanh, còn Batch size nh thì cn Learning rate thp đ tránh
mt n đnh cho mô hình. Trong nghiên cu hin ti, Learning rate
đưc chn bằng 0.01 để phù hp vi giá tr batch size bng 16. Vi b
d liu không quá ln gm 1005 tm nh và không quá phc tp vi
hai lp đối tượng như trong nghiên cu hin ti, thì s vòng lp ca
hình được chn là 100 vòng lp (epochs=100) để tránh mô hình
gp vn đ “Overfitting”.
4.1.2. Giai đon 2
Sau quá trình hun luyn, mô hình YOLOv11 có kh năng phát
hin và to khung bao quanh các mã s container trong nh đu vào.
Da trên các khung gii hn đưc to bi mô hình, nh s đưc ct đ
trích xut vùng cha mã, qua đó loi b các ký t đối tượng gây
nhiu không liên quan. Nhm nâng cao đ chính xác trong bước nhn
din ký t bng EasyOCR, mt s k thut tin x ảnh đã được áp
dng lên vùng nh cha mã container sau khi cắt. Các phương pháp
tin x lý này đưc minh ha trong Hình 6.
Hình 6. Các k thut tin x nh.
4.2 Kết qu và tho lun
4.2.1. Giai đon 1
YOLOv11 có mt s phiên bn khác nhau n n (nano), s (small),
m (medium), l (large) vi c tc đ x độ chính xác khác nhau.
Trong nghiên cu này, hiu sut mô hình ca các phiên bn trên s
đưc kho sát để tìm ra phiên bn phù hp vi bài toán hin ti. Bng
2 trình bày các kết qu hun luyn bng các phiên bn khác nhau ca
YOLOv11 cho cùng chung mt b d liu trong vòng 100 epochs.
Quan sát t Bng 2 cho thy rng kh năng nhn din ca các
phiên bản mô hình đã huấn luyện không khác nhau đáng kể phn
hiu sut, các thông s Precision, Recall và mAP không có nhiu khác
bit. Mc dù có các ch s hiu sut cao nhất, nhưng phiên bản nano li
có mc đ n đnh không bng các mô hình cp cao hơn. Thi gian
hun luyện mô hình, kích thước mô hình có s khác nhau đáng kể gia
các phiên bản và tăng dần t n đến l. Tiếp tc th nghim trên cùng
mt tm nh, c bn phiên bn đều cho kết qu chính xác khi nhn din
đủ c hai lp nhưng tc đ nhn din lại khác nhau như trong Bảng 2.
Trong điu kin ca nghiên cu hin ti, để tiết kim chi phí tính toán
cũng như ti ưu v mt thi gian tính toán, phiên bn nano s đưc
chn đ s dng cho các giai đoạn tiếp theo.
Kết qu hun luyn mô hình vi tp d liu gm 387 hình nh
trong 100 vòng lp (epochs) cho thy hiu sut nhn din mc cao,
như đưc th hin trong Hình 7. C th, mô hình Precision đạt
98,14 %, Recall 98,75 %, mAP@50 là 98,38 % và mAP@50 :95 đt
82,85 %. Các ch s này cho thấy mô hình được hun luyn có kh năng
phát hin đối tượng đạt độ chính xác cao n đnh trên tp d liu
đã xây dựng.
4.2.2. Giai đon 2
Các kết qu ca vic tin x ảnh cho giai đoạn 2 được th
hin trong Bng 3. Da vào Bng 3, có th nhn thy rng đc đim b
mt container thường được sơn vi nhiu màu sc khác nhau và d
bám bi bn ảnh hưởng đáng kể đến hiu qu nhn din mã container.
Các k thut tin x lý như chuyển sang nh xám (Grayscale) hoc kết
hp Grayscale vi nh phân hóa (Grayscale + Binary) không mang li
hiu qu cao trong điu kin này. Ngưc lại, phương pháp thay đổi kích
thước nh (Resize) cho thy hiu sut nhn dng vưt trội. Đáng chú
ý, vic điu chnh t l khung hình v 6:4 (chiu ngang: chiu cao) cho
kết qu tt hơn so vi t l 5:5, do đặc đim hình dng mã container
thường có chiu ngang ca ký t hp và kéo dài.
Bng 2. Kết qu hun luyn các phiên bn YOLOv11.
Phiên
bản
Recall
lớn nhất
mAP@50
lớn nhất
mAP@50-95
lớn nhất
Thời gian train
100 epochs
Kích thước
mô hình
Tc đ x lý 1
tm nh
Nano
0,9875
0,9838
0,8285
0,608 giờ
5,2 MB
440,7 ms
Small
0,9487
0,9663
0,7947
0,671 giờ
18,3 MB
575,8 ms
Medium
0,9512
0,9601
0,7819
1,086 giờ
38,6 MB
1441,6 ms
Large
0,9512
0,9531
0,7824
1,462 giờ
48,8 MB
1802,8 ms