ISSN 1859-1531 - TP CHÍ KHOA HC VÀ CÔNG NGH - ĐẠI HỌC ĐÀ NẴNG, VOL. 19, NO. 9, 2021 31
NGHIÊN CU NG DNG HC SÂU XÂY DNG B NHN DNG VT TH
GIÚP THANH TOÁN HÀNG HÓA NHANH
A STUDY ON APPLICATION OF DEEP LEARNING INTO BUILDING AN OBJECT
DETECTOR TO SPEED UP RETAIL CHECKOUT
Nguyn Trí Bng
1
*, Nguyễn Đình Vinh1, Trn Trng Đức1
1Trường Đại hc Bách khoa Đại học Đà Nẵng
*Tác gi liên h: ntbang@dut.udn.vn
(Nhn bài: 22/6/2021; Chp nhận đăng: 09/8/2021)
Tóm tt - Hin nay, chưa có nhiều nghiên cu v ng dng hc
sâu vào mng nhn dng thanh toán hàng hóa; Hu hết ch nêu ra
vic s dụng YOLO để theo dõi s ng vt phẩm thay đổi trên
k hàng. Bài báo này trình bày gii pháp xây dng b nhn dng
vt th thi gian thc giúp thanh toán hàng hóa nhanh. Tác gi s
dng YOLOv4, TResNet và FAISS lần lượt các giai đoạn phát
hin vt th, trích xuất đặc trưng, phân loại hình ảnh đầu ra. Điu
này giúp vic thêm d liu mt hàng mi không phi hun
luyn li t đu so vi gii pháp ch dùng YOLO. B nhn dng
một camera được lp bên trên bàn thanh toán và màn hình hin
th thông tin hóa đơn. Với kết qu th nghiệm ban đu, b nhn
dạng đ chính xác trung bình 94,54%. Thi gian thanh toán
nhanh gấp đôi so vi quét vch. Ngoài ra, tác gi gii thiu
tp d liu thanh toán hàng hóa BRC, góp phn ci thin s thiếu
ht d liu trong cộng đồng nghiên cu hc sâu.
Abstract - Currently, there have not been many studies on applying
deep learning to the field of goods checkout detection; most of them
just point out the solution of using YOLO to track the change of
number of items on shelves. This paper presents a solution to build
a real-time object detector to speed up retail checkout progress. The
author uses YOLOv4, TResNet and FAISS respectively in the
stages of object detection, feature extraction, and image
classification. Which makes it possible to add new item data
without having to completely retrain the model compared to a
YOLO-only solution. The detector has a camera mounted above the
checkout table and a monitor to display the invoice information.
Initial experiment results show that our detector has an average
accuracy of 94.54%. Payment time is twice as fast as barcode
scanning. In addition, the author introduces the BRC, a dataset of
retail checkout, which contributes to ameliorating the data shortage
in the deep learning research community.
T khóa - Hc sâu; YOLO; TResNet; FAISS; nhn dng vt th
Key words - Deep learning; YOLO; TResNet; FAISS; object detector
1. Gii thiu
1.1. Hc sâu trong nhn dng thanh toán hàng hóa
thách thc v mt d liu
Khi thanh toán hàng h với phương pháp quét
vch, nhân viên cn thi gian điu chnh máy quét tìm
kiếm v trí in vch chúng c v trí khác nhau tùy
sn phm. Bên cạnh đó, RFID ng thường được áp dng
khi thanh toán hàng hóa nhưng vẫn t l li do sóng radio
b nhiu. RFID chi phí cao, gây ra các vấn đề v phát
trin bn vng [1]. Theo kết qu kho sát ca Jupiter
Research [2], chi tiêu toàn cu cho dch v bán l da vào
trí tu nhân tạo tăng 300% từ 3,6 t $ trong năm 2019 sang
12 t $ trong năm 2023. Việc s dng các h thng t động
thanh toán hàng hoá bn l ti siêu th giúp gim chi phí
nhân công và mang li tri nghim mua sm tt hơn [3].
Trong nghiên cu [4], [5] ch ra, thi gian ch đợi thanh
toán ảnh hưởng tiêu cực đến mức độ hài lòng mua sm ca
khách hàng. Vì vy, vic ng dng trí tu nhân to giúp ci
tiến các vấn đề trong lĩnh vc thanh toán hàng hóa cn
thiết, cần được nghiên cu ng dng rng rãi. Hc sâu là
mt nhánh ca hc máy, s dng nhiu lp x vi cu
trúc phc tp. Trong thp k qua, học sâu đã trở thành mt
k thut quan trng để gii quyết các bài toán liên quan đến
phát hin vt th và phân loi hình nh [6], [7].
Tuy nhiên, hc sâu trong th giác máy tính đang đối mt
vi nhiu thách thc; mt trong s đó sự thiếu ht d
liu. Tp d liu tm quan trng to lớn đối vi s hiu
1
The University of Danang University of Science and Technology (Nguyen Tri Bang, Nguyen Dinh Vinh, Tran Trong Duc)
qu ca hình hc sâu bi yêu cu một lượng ln hình
nh đ hun luyện. Điều này đặt ra mt thách thc rt ln
trong bi cnh ch ít tp d liu sn có [8]. Hin có 2 tp
d liu v hình nh hàng hoá lúc thanh toán đã đưc công
b là D2S [9] và RPC [10], đưc tng hp Bng 1.
Bng 1. Mt s thông tin v 2 tp d liu D2S và RPC
Tp
d
liu
Tng
s hình
nh
S ng
chng
loi
Tp kim th
S nh
Vt phm/
hình
S nh
Vt phm/
hình
D2S
21,000
60
4,380
1
16,620
>1
RPC
83,739
200
53,739
1
30,000
>1
Thc tế, ng mt vt phm nhất định nhưng dữ liu
hình ảnh thu được t camera là khác nhau bi góc chụp đến
sn phm khác nhau qua mi ln thanh toán. Trong khi hình
nh trong tp hun luyn ca D2S RPC gm các mt
hàng đơn lẻ, đưc xây dng bi các k thut ct xoay
nh, khi ng dng thc tế s gặp khó khăn.
1.2. Các nghiên cu liên quan
Tương tự nhn dng vt th, bài toán nhn dng hàng
hóa bao gm ba giai đoạn chính đưc trình bày Hình 1:
(1) Phát hin vt th; (2) Trích xuất đặc trưng; (3) Phân loi
vt th đó thuộc sn phm nào [11], [7].
Hình 1. Mt mô hình nhn dng vt th cơ bản
Phát hin
vt th
Trích xut
đặc trưng
Phân loi
đặc trưng
32 Nguyn Trí Bng, Nguyễn Đình Vinh, Trần Trọng Đc
Hin nay, nhiu hình học sâu được s dụng để
tiếp cn gii quyết bài toán đặt ra. Thách thc ca bài toán
nhn dng thanh toán phi gii quyết được vấn đề cp
nht d liu hàng hóa nhanh chóng khi chúng được
phân phi v ca hàng, thay đi theo thi gian c chng
loi ln mu mã. Vi vic ch s dng YOLO cho c ba
giai đon Hình 1, khi thêm mi mt mt hàng vàosở
d liu thì cn hun luyn li t đầu, bi YOLO s ng
các lớp đầu ra là c định. Vì vy, bên cạnh dùng YOLO để
phát hin vt th, cn kết hp thêm các hình trích xut
và phân loại đặc trưng khác để phù hp vi bài toán. Trong
mc này nhóm tác gi phân tích la chn các k thut phù
hp cho mi giai đon.
1.2.1. Phát hin vt th vi YOLOv4
Năm 2016, YOLOv1 YOLOv2 đưc xut bn, c hai
đều trình bày cách tiếp cn khác vi các thut toán đề xut
vùng [12], [13]. Theo đó, YOLOv1 mang li s đột phá v
tốc độ, nhưng v mt hiệu năng thì lại kém hơn so vi các
thuật toán trước; YOLOv2 tốt hơn, chính xác nhanh hơn
so vi các thuật toán trước đó. Độ chính xác ca YOLOv1
thấp hơn so vi Fast R-CNN [14] Faster R-CNN [15]
nhưng tốc độ nhn dạng nhanh hơn; Đ chính xác ca
YOLOv2 cũng như s khung hình trên giây (FPS) đã được
cái thiện đáng kể. Được công b năm 2020, YOLOv4 [16]
đã mang lại nhng ci tiến đáng k. Kết qu ch ra rng,
YOLOv4 mt b nhn dng hàng đầu, nhanh chính
xác hơn so với các b nhn dng vt th hin nay. YOLOv4
ci thin độ chính xác trung bình FPS ca YOLOv3 [17]
lần lượt là 10% và 20%.
Trong nghiên cu v nhn dng sn phm được đặt
trên k hàng [18], nhóm nghiên cứu đã sử dụng YOLO để
thc nghim trên tp Grocery Imagenet. Trong [19] làm
v b nhn dng thanh toán bán l vi mt camera được
đặt phía trên bàn thanh toán, YOLO và CaffeNet đưc s
dng để nhn dng sn phm. Trong [20] i v h thng
giám sát tình trng hàng hóa siêu th vi các camera IP,
YOLO đưc la chn bi kh năng phát hiện vi độ chính
xác hiệu năng theo thời gian thc cao.
Độ chính xác và tốc độhai yếu t quan trng khi xây
dng mt b phát hin vt th. Theo n phân tích các
nghiên cu trên thì YOLOv4 là mt la chọn hàng đầu.
1.2.2. Trích xuất đặc trưng với TResNet
Giai đon trích xuất đặc trưng đóng vai trò quan trng
trong bài toán th giác máy tính [21], [22], [23]. Trong các
i toán liên quan đến pt hin vt th, mng hc sâu
ResNet đưc s dng đ trích xut đặc trưng [24], [25].
Ý tưởng chính ca ResNet là s dng kết ni tắt đồng nht
để xuyên qua mt hay nhiu lp, đưc th hin Hình 3.
Phát trin da trên kiến trúc ca mng ResNet, TResNet
[26] ra đời vi 3 biến th: TResNet-M, TResNet-L
TResNet-XL; Khác nhau v chiu sâu s ng kênh.
Nghiên cu [26] ch ra mt s đim ni bt: (1) TResNet
ci thin s cân bng v đ chính c và tc độ; cho hiu
ng vượt tri hơn các mô hình học u hàng đầu trong
tác v pt hin vt thphân loại đa nhãn; (2) TResNet
đã thay thế c lp BatchNorm bng InPlace-ABN [27]
nhm ci thin vic s dng ngun i nguyên ti ưu của
GPU điều đóng vai trò quan trng trong bài toán cn tc
độ thi gian thc; (3) Hàm ch hot thun ReLu ca
ResNet50 đưc thay thế bng m Leaky-Relu, cho độ
chính c cao hơn; (4) Cu trúc mng lưới (Hình 2), kết
hp khi bản ca ResNet34 và khi c chai ca
ResNet50. khi cơ bn, lp SE [28] đưc thêm vào
trưc khi cộng dư vi h s duy gim r = 4. khi c
chai, lp SE đưc thêm o sau khi ch chp 3x3 vi
r = 8, du * nga là ch dùng giai đon 3.
Hình 2. Khối cơ bản và khi c chai ca mng TresNet [26]
1.2.3. Phân loi nh nh với thư vin tìm kiếm tương tự FAISS
Truy vn hình nh tìm kiếm nhng mu thông tin
hình nh liên quan nht đến d liu truy vn đầu vào. V
bn cht, truy vn hình nh ging vi phân loi hình nh
[29]. Phương pháp quan trọng thường đưc s dng trong
truy vn hình nh là tìm kiếm tương tự [30], [31], phù hp
vi nhng bài toán sở d liu phc tp nvideo
hoc hình nh đưc biu din bi các vector đặc trưng đa
chiu [32]. Bài toán truy vn hình nh đưc mô t như sau:
Đầu vào mt vector truy vn; Kết qu tr v danh sách
gm các vector trong sở d liệu cho trước khong
cách Euclid gn nht vi vector truy vn.
Hnsw [33] và Faiss [32] hai thư viện h tr tìm kiếm
tương tự đưc s dng ph biến. Vi tìm kiếm tương tự,
cách tiếp cn bng khong cách Euclid L2 thường đưc
dùng, được định nghĩa như sau: Gi s 2 vector X Y
được đại điện bởi 2 đim 𝑥=(𝑥1,𝑥2,𝑥𝑛),
𝑦=(𝑦1,𝑦2,𝑦𝑛) trong không gian Euclid 𝑛 chiu, khi đó
khong cách L2 giữa 2 điểm 𝑥𝑦 là d, được tính bi:
𝑑𝐿2(𝑥,𝑦)=∑(𝑥𝑖−𝑦𝑖)2
𝑛
𝑖=1
(1)
Vi nhng trình bày v xu thế ng dng hc sâu vào
mng thanh toán hàng hoá cũng như từ các phân tích
đánh giá trên, nhóm tác gi chn ra các hình thư
vin php để xây dng mt b nhn dng thanh toán
hàng hoá. Các bước thc hiện được trình bày phn 1.3
1.4 ca bài báo.
1.3. Xây dng tp d liu
Nhóm tác gi viết mt ng dng bng Python để chp
nh. Cách b trí được th hin Hình 3.
ISSN 1859-1531 - TP CHÍ KHOA HC VÀ CÔNG NGH - ĐẠI HỌC ĐÀ NNG, VOL. 19, NO. 9, 2021 33
Hình 3. Camera chụp bao quát hàng hóa bên dưới
1.3.1. Tp hun luyn
Nhóm tác gi th nghim trên 120 mt hàng khác nhau
đưc mua chui ca hàng Vinmart Vit Nam. B d liu
hun luyn gm 7500 bc nh. Mi bc nh cha 8 mt
hàng khác nhau được chp bởi 1 camera đt c định bên
trên như Hình 3. Khong cách t camera đến mt bàn
thanh toán 70 cm. Hình nh sau đó được gán nhãn bi
công c LabelImg [34]. Mt d đưc trình bày trong
Hình 4. Chi tiết các thông s đưc th hin Bng 2.
Hình 4. Mt hình nh trong tp hun luyện được đánh nhãn
Bng 2. Mô t v tp hun luyn ca BRC
Thông s
Mô t
S mt hàng
120
S mt hàng/nh
8
S nh/mt hàng
500
S nh dùng để hun luyn/mt hàng
400
S hình dùng để đánh giá quá trình hun luyn/ mt
hàng
100
Tng s hình nh
7500
Độ phân gii nh (pixel)
640x480
Ánh sáng môi trường (lux)
170
Nhóm tác gi hun luyn 2 mô hình YOLOv4 và
TResNet trên tp hun luyn ca BRC.
1.3.2. Tp kim th
Để xây dng tp kim th, nhóm tác gi s dng
camera, góc chụp, điều kiện ánh sáng môi trưng, nn nh
ging vi lúc xây dng tp hun luyn. Mi mặt hàng được
chp 18 lần tương ng 18 ng khác nhau vi góc chp
sai khác 20 độ như trong Hình 5.
Hình 5. Mi mặt hàng có 18 hướng chp khác nhau
Các mô t chi tiết được trình bày Bng 3.
Bng 3. Mô t v tp kim th ca BRC
Thông s
Mô t
Tng s hình
5440
S mt hàng
80
S hình/mt hàng
68
S hình dùng để trích xuất làm vector đặc trưng
mu
18
S hình dùng để trích xut làm vector truy vn
50
Độ phân gii nh (pixel)
640x480
Ánh sáng môi trường
170 lux
1.4. Xây dng mô hình b nhn dng thanh toán
Mô hình b nhn dng thanh toán hàng hóa BRC đưc
trình bày Hình 6. Đầu tiên, hình nh các mt hàng cn
thanh toán đưc ghi li thông qua camera và phát hin bi
YOLOv4. Sau đó, các đặc trưng của đối tượng được trích
xut bi TResNet-M. Vector đặc trưng được truy vn vi
thư viện tìm kiếm tương tự Faiss trong cơ sở d liu nhm
ly kết qu đầu ra và xuất thông tin đơn hàng lên màn hình.
giai đoạn truy vn, nhóm tác gi ly mt kết qu tr v
tt nht (top 1).
Hình 6. Các công đoạn nhn dng thanh toán sn phm
Khi cn b sung mt sn phm mới vào sở d liu,
các công đon tiến hành đưc trình bày Hình 7.
Hình 7. Các công đoạn thêm mt hàng mới vào cơ sở d liu
Tóm li, các hình thư vin cho mỗi giai đon
đưc trình bày Bng 4.
Bng 4. Các thư viện được s dụng để xây dng b nhn dng
Công đoạn
Mô hình
Thư viện
Phát hin vt th
YOLOv4
Darknet
Trích xuất đặc trưng
TResNet-M
Pytorch
Truy vn hình nh
Tìm kiếm tương tự
FAISS
Chp
nh
Phát hin và
cắt đối
ng
Thêm đặc
trưng vào
CSDL
Trích xut
đặc trưng
Chp
nh
Phát hin,
cắt đối
ng
So sánh
đặc trưng
Xut
thông tin
đơn hàng
Trích
xuất đặc
trưng
Cơ sở d liu gồm các đặc
trưng mẫu đã gán nhãn
34 Nguyn Trí Bng, Nguyễn Đình Vinh, Trần Trọng Đc
Để chọn ra thư viện phù hp giai đoạn truy vn hình
nh, nhóm tác gi so sánh thi gian thêm mi và tìm kiếm
một vector đặc trưng trong sở d liu s dng khong
cách L2 của 3 thư viện: Hnswlib, Faiss-cpu Faiss-gpu.
Cu hình s dng: CPU Intel Xeon 2.20 GHz 4 nhân, GPU
NVIDIA Tesla P100 16GB. Tp kim th ly t b d liu
BRC gm 68 nh cho mi mt hàng. Trong đó, 18 nh dùng
để trích xuất đặc trưng mẫu 50 ảnh để đích xut xuất đặc
trưng dùng cho truy vn, thu được kết qu Hình 8.
Hình 8. So sánh thi gian (µs) thêm mi và tìm kiếm đặc trưng
theo L2 ca Hnsw, Faiss-cpu và Faiss-gpu
Theo đó, thi gian Faiss-cpu thêm mi mt vector vào
sở d liu nhanh nht nhưng tìm kiếm một vector đc
trưng trong sở d liu lâu nht. Hnswlib tn nhiu thi
gian hơn đ thêm mi và tìm kiếm vector đặc trưng so với
Faiss-gpu. ràng Faiss-gpu cho kết qu tt nht trong
3 thư viện.
B nhn dng BRCchức năng nhận dng thanh toán
mt lúc nhiu sn phm theo thi gian thc, giao diện được
xây dng vi thư viện PyQt5 và OpenCV. Thông tin thanh
toán hin th lên màn hình gm các trường: Tên mt
hàng, đơn giá, số ng, giá tng tng mt hàng và tng g
tr đơn hàng. Chi tiết được trình bày Hình 9.
Hình 9. Giao din ca ng dng BigBee Retail Checkout
2. Kết qu
2.1. Quá trình hun luyn
Nhóm tác gi s dng tp hun luyn BRC để hun
luyn 2 mô hình YOLOv4 và TResNet-M trên máy tính có
cu hình Intel Xeon CPU 2.00GHz - 4 nhân 8 lung, GPU
NVIDIA Tesla P100 16GB RAM 26GB. Vi hình
YOLOv4, thu được độ chính xác trung bình 99,8% sau
1000 vòng lp hun luyện đầu tiên. Đối vi TResNet-M,
độ chính xác trung bình top 1 sau 10 vòng lặp đầu tiên đều
mc trên 99%, đưc th hin Hình 10.
Hình 10. Độ chính xác trung bình top 1 ca TResNet-M qua
10 vòng lặp đầu tiên
2.2. Quá trình kim th
Đối vi mô hình TResNet-M, nhóm tác gi thu được độ
chính xác trung bình d đoán top 1 ca các lp hàng hóa là
92,18%. Độ chính xác ca hình YOLOv4 đạt đưc
99,25%. Nhóm tác gi trích chn trình bày độ chính xác
ca 19 lớp tương ứng vi 19 mt hàng ph biến Hình 11:
Hình 11. Độ chính xác khi kim th ca mt s lp hàng hóa
Kết qu t Hình 11 cho thy:
(1) Các mt hàng dng lon hình tr tròn cho đ chính
xác thp: pepsi-vichanh, cocacola-red, cafe-highlands
độ chính xác lần lượt 52,54%; 61,32%; 73,91%;
(2) Các mt hàng dng hp như: milk-dutchlady, milk-
melon, banhgau, coco-water, coco-xim cho độ chính xác
quanh mc 95%;
(3) Các mt hàng dng gói phẳng cho đ chính xác tuyt
đối 100%: collagen700, tissue-teencare, giavi-bokho,
giavi-thitkho.
Nhn xét:
Vì tính cht c hu ca vt phm tr tròn là d dàng lăn
trên bàn thanh toán nên d liệu camera thu được t chúng
s khác nhau đáng kể qua mi ln thanh toán. Vi cách xây
dng b d liu hun luyn BRC ca nhóm tác gi, toàn b
các mặt hàng đều được chp cùng mt s ng hình nh,
dẫn đến có s ‘không công bằng’ đối vi loi hình tr tròn.
Bi vy, cn nhiu d liu hun luyện hơn cho các loi
hàng này. d, mt lon café cn nhiu d liệu hơn một
gói café đ mng TResNet được hun luyn tốt hơn.
455,168
582,46
15,6687
970,61
266,646
175,682
Thêm mới
Tìm kiếm
Hnswlib Faiss-cpu Faiss-gpu
98,8
99
99,2
99,4
99,6
99,8
100
0 1 2 3 4 5 6 7 8 9
Phần trăm (%)
Vòng lặp
52,54
61,32
97,64
100
92,15
100
73,91
99,91
99,18
95,97
100
99,56
91,09
99,63
100
97,96
99,56
91,21
97,64
0 20 40 60 80 100
pepsi-vichanh
cocacola-red
coo-water
collagen7000
cafeviet-black
knorr-thitkho
cafe-highlands
lifeboy
hovan
mentos-peppermint
tissue-teencare
alpenliebe-caramen
milk-melon
juice-blackcurrant
giavi-bokho
milk-dutchlady
alpenliebe-grape
banhgau
coco-xim
ISSN 1859-1531 - TP CHÍ KHOA HC VÀ CÔNG NGH - ĐẠI HỌC ĐÀ NNG, VOL. 19, NO. 9, 2021 35
2.3. Th nghim, so sánh với phương pháp quét mã vch
Nhóm tác gi tiến hành mua và thanh toán sn phm ti
5 ca hàng Vinmart tại đó phương pháp quét vch
đang được s dng. Cũng chính lượng vt phẩm được mua
t mi ca hàng trên, nhóm tác gi tiến hành thanh toán
bng b nhn dng BRC. D liu thu được của 2 phương
pháp trên gm s ng mt hàng, thời lượng thanh toán
5 ca hàng (CH) đưc so sánh th hin Bng 5. Thi
ợng thanh toán được tính t lúc đặt sn phẩm đu tiên lên
bàn đến lúc tng giá tr hóa đơn đưc xut ra.
Bng 5. So sánh thi gian thanh toán trung bình bi nhân viên
và b nhn dng BigBee Retail Checkout
Ca hàng
S ng
mt hàng
thanh toán
Thi gian thanh toán (giây)
Nhân viên
BigBee Retail
Checkout
CH 1
8
31,12
12,35
CH 2
9
20,15
12,50
CH 3
10
25,38
13,10
CH 4
11
29,45
14,01
CH 5
12
33,23
16,45
Trung bình
10
27,87
13,68
Độ chính xác trung bình ca b nhn dạng BRC được
ghi li Bng 6. Ví d, vi 8 vt phm mua ca hàng 1,
BRC nhn dng 8 vt phm vi 8 mc chính xác khác nhau,
tính trung bình là 96,5.
Bng 6. Độ chính xác trung bình ca BRC 5 ca hàng
Ca hàng
CH1
CH2
CH3
CH4
CH5
Độ chính xác
96,5
95,3
91,7
93,6
95,6
T s liu Bng 6, nếu xem độ chính xác khi thanh
toán bng quét vch bi nhân viên 100% thì gii pháp
BRC đạt độ chính xác trung bình 94,54% khi th nghim
vi 5 ln thanh toán. Trong phm vi nghiên cu, d liu
hun luyn và kim th ca BRC còn hn chế bi vic xây
dng mt tp d liu tn nhiu công sc thi gian;
thế nhóm nghiên cu vn tiếp tc b sung, phát trin b d
liu các phiên bn tiếp theo để ci thiện độ chính xác.
V mt thi gian, gii pháp ca nhóm tác gi ci thin
tốc độ thanh toán nhanh đáng kể. S liu Bng 5 cho thy,
thi gian trung bình thc hin bi b nhn dng BRC
13,68 giây, nhanh gn gấp đôi so vi gii pháp quét mã
vch vi 27,87 giây. Tuy nhiên, đây ch kết qu th
nghim ban đu, cn có nhiu nghiên cứu hơn để kết lun.
Thi gian tiến hành thanh toán còn ph thuc vào nhiu
yếu t khác chng hn như s ng mt hàng, v trí in
vch, hiệu năng máy quét mã vch, kĩ năng kinh nghim
ca nhân viên ti quy.
3. Kết lun
Đầu tiên, bài báo đã nêu ra xu thế ng như thách thc
thiếu ht d liu ca vic ng dng k thut hc sâu vào
mng nhn dng thanh toán hàng hóa. Tiếp đó, nhóm tác gi
phân tích la chn các k thut hình phù hp để
ng dng vào vic xây dng mt b nhn dng thanh toán:
YOLOv4 cho tác v phát hin vt th; hình TResNet cho
giai đoạn trích xut đặc trưng; Thư vin tìm kiếm tương tự
Faiss để truy vn hình nh để tìm đầu ra ca bài toán. Gii
pháp ca nhóm tác gi ớc đu th nghim trên tp d liu
gm các hình nh ca các mặt hàng được mua ca ng
Vinmart, chưa được trin khai ng dng vào thc tin. Kết
qu th nghim ban đầu ch ra rng, b nhn dng thanh toán
BigBee Retail Checkout cho kết qu nhanh hơn đáng kể so
với phương pháp quét vạch. Tuy nhiên, cn thc hin
thêm nhiu nghiên cu sâu khác để đánh giá chi tiết và tính
kh thi khi áp dng trên s ng ln mt hàng.
Bên cạnh đó, hiểu được vic ng dng k thut hc sâu
th giác máy tính vào các lĩnh vực thanh toán hàng hóa
cn thiết, nhưng trong bi cnh ch mt s ít tp d
liu có sn, nhóm tác gi đã gii thiu b d liu hàng hóa
thanh toán BRC, góp phn gii quyết thách thc v s thiếu
ht d liu. Hơn nữa, nghiên cứu ng đã chỉ ra mt s khó
khăn cụ th khi triển khai đi vi các mt hàng dng hình
tr, hình hp. B sung thêm d liu hun luyn cho các loi
hàng này là mt trong nhng gii pháp cn thc hin.
Tóm lại, bài báo đã 4 đóng góp chính: (1) Phân tích
la chn các mô hình và thư viện phù hp s dng cho bài
toán nhn dng thanh toán hàng hóa; (2) Đ xut gii pháp
xây dng mt b nhn dng thanh toán sn phm, bước đầu
th nghim hiu qu v mt thi gian thanh toán;
(3) Gii thiu b d liu hàng hóa thanh toán BRC p
phn phc v cộng đồng nghiên cu hc sâu; (4) Nêu ra
những khó khăn gii pháp khi trin khai xây dng b
nhn dng thanh toán hàng hóa.
Li cm ơn: Bài báo này được tài tr bi Qu Khoa hc
Công ngh Murata Tờng Đại hc Bách khoa Đại hc
Đà Nẵng với đ tài có mã s T2020-02-09MSF.
TÀI LIU THAM KHO
[1] B. Santra and D. P. Mukherjee, “A comprehensive survey on
computer vision-based approaches for automatic identification of
products in retail store”, Image and Vision Computing, 2019,
vol. 86, 4563.
[2] Jupiter Research, “AI spending by retailers to reach $12 billion by
2023, driven by the promise of improved margins”, Jupiter Press
Release, 2019.
[3] F. D. Orel and A. Kara, “Supermarket self-checkout service quality,
customer satisfaction, and loyalty: empirical evidence from an
emerging market”, Journal of Retailing and Consumer Services,
2014, vol. 21, 118129.
[4] A. C. R. Van Riel, J. Semeijn, D. Ribbink, and Y. BomertPeters,
“Waiting for service at the checkout: negative emotional responses,
store image and overall satisfaction”, Journal of Service
Management, 2012, vol. 23, s 2, 144-169.
[5] F. Morimura and K. Nishioka, “Waiting in exit-stage operations:
expectation for self-checkout systems and overall satisfaction”,
Journal of Marketing Channels, 2016, vol. 23, no. 4, 241254.
[6] Athanasios Voulodimos, Nikolaos Doulamis, Anastasios Doulamis,
Eftychios Protopapadakis, "Deep Learning for Computer Vision: A Brief
Review", Computational Intelligence and Neuroscience, vol. 2018, ID
7068349, 13 trang, 2018, https://doi.org/10.1155/2018/7068349.
[7] Yuchen Wei, Son Tran, Shuxiang Xu, Byeong Kang, Matthew
Springer, "Deep Learning for Retail Product Recognition:
Challenges and Techniques", Computational Intelligence and
Neuroscience, vol. 2020, Article ID 8875910, 23 pages, 2020.
https://doi.org/10.1155/2020/8875910.
[8] L. Karlinsky, J. Shtok, Y. Tzur, and A. Tzadok, “Fine-grained
recognition of thousands of object categories with singleexample
training”, Proceedings of the 2017 IEEE Conference on Computer
Vision and Pattern Recognition, 2017, 41134122.
[9] P. Follmann, T. Bottger, P. Hartinger, R. Konig, and M. Ulrich,