41
TAÏP CHÍ KHOA HOÏC VAØ COÂNG NGHEÄ ÑAÏI HOÏC COÂNG NGHEÄ ÑOÀNG NAI
S: 03-2024
T ĐỘNG HÓA QUY TRÌNH SO SÁNH GIÁ VÀ TÌM SẢN PHM
TƯƠNG TỰ THÔNG QUA HÌNH NH S DNG GOOGLE
LENS SELENIUM WEBDRIVER
Lê Nhật Tùng1*, Nguyn Th Liu1, Trn Th Dung2,
Đặng Thái Thịnh3, Lưu Toàn Định3
1Trường Đại học Công nghệ Đồng Nai
2Trường Đại học Giao thông Vn ti
3Đại hc Kinh tế TP. H Chí Minh
*Tác giả liên hệ: Lê Nhật Tùng, lenhattung@dntu.edu.vn
1. GII THIU
1.1. Tng quan
Bài toán so sánh giá sản phẩm ngày nay đặt
ra một thách thức quan trọng trong lĩnh vực
thương mại điện tử. Trong quá trình này, các
thông tin sn phm cần trích xuất bao gồm giá
bán, tả, đánh giá của người dùng, thông số
k thuật, thương hiệu và ảnh sn phm. Vic t
động hóa quá trình thu thập thông tin này không
ch gia tăng độ chính xác mà còn giảm bớt gánh
nặng cho người tiêu dùng và doanh nghiệp. Bài
toán này trở nên quan trọng mang li
nhiu lợi ích, như tiết kiệm chi phí cho người
tiêu dùng, tăng tính minh bạch trong th trường
và tạo cơ hội cnh tranh cho doanh nghip nh.
Trên thực tế, đã xuất hin nhiu ng dụng
dch v s dụng bài toán so sánh giá sản phm
như Pricegrabber, Shopzilla, Google Shopping
Websosanh.vn. Những dch v này không
ch mang li s thun tiện mà còn khuyến khích
s cạnh tranh đa dng trong th trường
thương mại điện t.
Bài toán so sánh giá sn phẩm không dành
riêng cho người tiêu dùng còn là mt trong
nhng yếu t rt quan trọng đối vi doanh
nghip. Trong thc tế, doanh nghiệp cũng cần
thc hiện quá trình so sánh giá để duy trì
cnh tranh v giá trên thị trường thương mại
điện t. góc độ ca doanh nghip, vic theo
dõi so sánh giá sản phm t các đối th trong
ngành giúp họ hiểu rõ hơn về môi trường cnh
THÔNG TIN CHUNG
TÓM TẮT
Ngày nhận bài: 17/01/2024
Ngày nay, với s bùng nổ của thương mại điện t, vic t động
hóa quá trình so sánh giá sản phẩm tìm kiếm các sản phm
tương tự tr thành một yếu t quan trọng đi vi c người tiêu
dùng doanh nghiệp. Trong bài báo này, nhóm tác gi gii
thiệu đề xut chiến lược triển khai Selenium Webdriver để t
động hóa quá trình duyệt web kết hp vi k thuật tìm kiếm
bằng hình ảnh trên Google Lens, giúp tự động hóa quá trình thu
thập thông tin về giá sản phẩm và tìm kiếm các sản phm tương
t trên các trang thương mại điện t hệ thống tìm kiếm
Google. Kết qu của nghiên cứu này có thể tiết kim nhiu thi
gian cho doanh nghiệp người tiêu dùng cũng như nâng cao
độ chính xác trong quá trình thu thập giá và tìm kiếm kiếm sn
phẩm tương tự.
Ngày nhận bài sửa: 27/02/2024
Ngày duyệt đăng: 17/04/2024
T KHOÁ
Thương mại điện t;
Google lens;
Selenium webdriver;
Tìm kiếm hình ảnh;
So sánh giá.
TAÏP CHÍ KHOA HOÏC VAØ COÂNG NGHEÄ ÑAÏI HOÏC COÂNG NGHEÄ ÑOÀNG NAI
42
S: 03-2024
tranh. Điều này giúp h đưa ra quyết định chiến
c v giá cả, phn ánh đúng nhu cầu và mong
mun ca th trường mục tiêu. Bằng cách này,
doanh nghiệp thể điều chnh chiến lược giá
của mình để thu hút khách hàng, đặc biệt
trong bi cảnh khách ng ngày càng trở nên
nhy cm với giá sẵn sàng chuyển đổi gia
các nhãn hàng dựa trên sự hp dn v giá. Ngoài
ra, việc so sánh giá cũng giúp doanh nghiệp xác
định được v thế của nh trong thị trường
phát hiện ra những cơ hội mới. Điều này có th
bao gm việc phát triển các chiến lược giảm giá
hoc khuyến mãi để thu hút khách hàng, cũng
như tối ưu hóa quy trình sn xuất và phân phối
để giảm chi phí tăng cường cạnh tranh giá.
Do đó, không chỉ người tiêu dùng còn doanh
nghiệp cũng đều hưởng li t vic t động hóa
quá trình so sánh giá sn phẩm, đó là một công
c mnh m giúp họ duy trì cải thin v thế
của mình trong thị trường đầy thách thức hin
nay.
Ngoài việc tìm kiếm giá sản phm, trong
thc tế, mt sn phẩm còn thể các sản
phẩm tương tự v hình thức, chức năng sử dng
các yếu t khác. Bài toán tìm kiếm các sản
phẩm tương tự này đặt ra một thách thc m
rộng trong nh vực thương mại điện t. Vic
này đòi hỏi s hiu biết sâu sắc v tính đa dạng
ca sn phẩm khả năng phân loại chính xác
để thể đề xut nhng sn phẩm tương đối
tương đồng.
Đối với người tiêu dùng, khả năng tìm
kiếm so sánh sản phẩm tương tự mang li tri
nghim mua sắm đa dạng phong phú. Điều
này giúp họ nhiều la chọn hơn, đồng thi
cũng cung cấp thông tin chi tiết để h thể đưa
ra quyết định mua sắm thông minh.
T góc độ doanh nghip, kh năng tự động
tìm kiếm sn phẩm tương tự giúp họ nm bt
được xu hướng th trường phản ánh sự đa
dng ca nhu cầu khách hàng. Điều này thể
dẫn đến vic điều chnh chiến lược kinh doanh,
phát triển các sản phm mi hoc thậm chí cả
tối ưu hóa quy trình sản xut.
Trong bài báo y, nhóm tác giả chi tiết hóa
cách triển khai Selenium để t động hóa quá
trình duyệt web, đồng thời tả cách sử dng
k thuật m kiếm bằng hình ảnh trên Google để
thu thập thông tin v giá cả ca sn phẩm sản
phẩm tương tự t các trang thương mại điện t
và hệ thng Google Tìm kiếm.
1.2. Các công trình liên quan
Trong những năm gần đầy một s công
trình ng dng Google Lens trong việc tìm
kiếm đối ợng thông qua hình ảnh. Năm 2023
Tukino Paryono cùng các cộng s đã sử dng
Google Lens để nhn dng bin s xe (Paryono
và c.s., 2023). Nghiên cứu ca Nuraini và cộng
s cho thy rng Google Lens thể nhn dng
tt đối vi sn phẩm cây cnh (Nuraini
c.s., 2022). So sánh độ chính xác của tính năng
nhn dng Google Lens với các ứng dng nhn
dng thc vật khác trong nghiên cứu của nhóm
tác giả Zhanna I. Bilyk cho thy Google Lens
tỷ l nhn din vi độ chính xác cao nhất
(92.6%) (Bilyk et al., 2020).
Selenium WebDriver được s dng rt
nhiều trong các quy trình tự động hóa truy cập
các ng dụng web. Quy trình kiểm th s dng
Selenium WebDriver đưc s dụng trong các
hình kiểm th t động được đánh giá
giảm gánh nặng công việc cho người thc hin
trin khai d dàng (Gojare et al., 2015).
Ngoài ra việc kết hợp Slenium WebDriver cùng
vi học máy cũng được tác giả Duyen Phuc
Nguyen cộng s thc nghiệm trong nghiên
cu gần đây nhằm gim thiu s viết lập
(Phuc Nguyen & Maag, 2020).
Đối vi việc tìm kiếm sn phm bằng hình
ảnh nhiều thc nghim ni trội như: nhn
biết sn phm bng phương pháp phân loại hình
ảnh đa nhãn theo từng mu (George &
Floerkemeier, 2014), công cụ tìm kiếm trc
quan cho hình nh sn phm (Li et al., 2014) ,
tìm kiếm hình nh sn phm dựa trên đặc tính
ni bt ca cnh (Li et al., 2014) . Tuy nhiên các
d án này thưng tập trung vào việc nhn biết
sn phẩm trong hình ảnh chưa tp trung
43
TAÏP CHÍ KHOA HOÏC VAØ COÂNG NGHEÄ ÑAÏI HOÏC COÂNG NGHEÄ ÑOÀNG NAI
S: 03-2024
nhiều vào thông tin giá của sn phẩm trên thị
trường hoặc các thông tin khác.
2. CÔNG NGHỆ PHƯƠNG PHÁP
2.1. Công nghệ
2.1.1. Selenium WebDriver
Selenium một d án tổng hp bao gm
các công cụ thư viện h tr t động hóa vic
điều khin trình duyệt web. cung cấp các
phn m rộng để phỏng tương tác của người
dùng với trình duyệt, một máy chủ phân phối đ
m rng vic cấp phát trình duyt sở h
tng cho vic trin khai ca W3C WebDriver -
một đặc t cho phép bạn viết mã có thể thay thế
được cho tt c các trình duyệt web chính (The
Selenium Browser Automation Project, không
ngày)
Selenium WebDriver còn được biết đến vi
tên gọi Selenium 2.0. Selenium WebDriver trc
tiếp giao tiếp với trình duyệt, do đó Selenium
WebDriver nhanh hơn so với Selenium RC.
Selenium WebDriver h tr nhiều trình duyệt
web cũng hỗ tr cho ng dng Ajax. Mc
tiêu chính của Selenium WebDriver là cải thin
s h tr cho các vấn đề kim th ng dng web
hiện đại. Selenium WebDriver h tr nhiu
ngôn ngữ để viết các kịch bn kim th. API
của Selenium WebDriver đơn giản hơn so với
Selenium RC (Gojare và c.s., 2015).
Hình 1. Kiến trúc Selenium (Architecture of
Selenium WebDriver, không ngày)
Selenium WebDriver thể tương thích
được triển khai trên nhiu loại ngôn ngữ như
ngôn ngữ lập trình Java (Garcia, 2022) hoc
ngôn ngữ lập trình Python (Nyamathulla c.s.,
2021) và một s ngôn ngữ lập trình khác.
2.1.2. Tìm kiếm hình ảnh bng Google
Tìm kiếm hình ảnh trên Google một chc
năng của công cụ tìm kiếm Google, cho phép
người dùng m kiếm thông tin dựa trên hình
ảnh thay từ khóa văn bản. Để s dng chc
năng này, người dùng có thể truy cp trang web
https://images.google.com/ kéo th hoc ti
lên một hình ảnh đ tìm kiếm thông tin liên
quan.
Hình 2. Chức năng tìm hình ảnh ca Google
2.1.3. Google Lens
Google Lens một nhóm tính năng s dng
công nghệ điện toán dựa trên hình ảnh. Google
Lens kết hợp trí tuệ nhân tạo th giác máy
tính để nhn diện hiểu biết v những
"nhìn thấy" thông qua camera của thiết b di
động hoặc hình ảnh được tải lên thông qua trình
duyt. Google Lens khả năng xác định
nhng nội dung bên trong nh sử dụng thông
tin đó đ sao chép hoặc dịch văn bản, xác định
cây cối động vật, phát hiện các ngôn ngữ
hoặc đọc thực đơn, khám phá các sản phẩm, tìm
hình ảnh tương tự làm nhiu vic hữu ích
khác.
Khi s dụng Google Lens để tìm kiếm hình
nh, ng dng s thu thập thông tin từ nhiu
nguồn khác nhau, bao gồm các sở d liu
hình nh của Google, các tín hiệu t người dùng
và các kết qu tìm kiếm trên Google Tìm kiếm.
Sau đó, ng dng s s dụng thông tin này đ
đưa ra một loạt các kết qu th liên quan. Các
TAÏP CHÍ KHOA HOÏC VAØ COÂNG NGHEÄ ÑAÏI HOÏC COÂNG NGHEÄ ÑOÀNG NAI
44
S: 03-2024
kết qu này sẽ được sp xếp dựa trên mức độ
phù hợp tiềm năng ng dng thể loi b
nhng la chọn không phù hợp để ch hin th
kết qu duy nht. dụ, nếu ng dng nhn
din một chú chó trong bức ảnh, th đưa
ra các kết qu như chó chăn cừu Đức, chó corgi,
chó poodle,... ng dng s đánh giá mức độ phù
hp ca tng kết qu dựa trên các yếu t như đ
tương đồng v hình ảnh, độ ph biến ca ging
chó các đánh giá t người dùng. Nếu ng
dụng ước lượng rằng 95% kh năng đó chó
chăn cừu Đức, thể ch hin th kết qu đó.
Ngoài ra, Google Lens cũng th cung cấp các
kết qu tìm kiếm liên quan đến đối tượng trong
ảnh. dụ, nếu bc nh cha sn phẩm như
quần hoặc giày th thao, ng dụng th
hin th thông tin chi tiết v sn phm hoc kết
qu mua sm h tr. (Google Lens - Search
What You See, không ngày).
Mặc Google Lens được Google cung cp
chính cho các nền tảng di động, tuy nhiên người
dùng vẫn thể s dụng trên máy tính thông
qua các trình duyệt web, vic chp ảnh được
thay thế bng vic tải lên hình nh sn phm cn
tìm kiếm. Điều này tạo cơ hội cho vic kết hp
Google Lens Selenium Driver trong việc tìm
kiếm sn phm t động.
Hình 3. ng dụng Google Lens trên thiết b
di động (Trn, 2022)
Mt s website cho phép người dùng nhập
vào thông tin như tên model ca sn phm
để so sánh giá, trong thực tế việc so sánh này
được các công ty chủ qun ca ng dng thu
thp ch động hoc th động, mang tính chất
quảng cáo. Dữ liệu đầu vào của câu truy vấn
thường văn bn (text). Câu truy vấn bng text
thường được s dụng khi người dùng đã
thông tin cụ th v sn phẩm, như tên hoặc mô
tả. Điều này phù hợp khi người dùng muốn tìm
kiếm sn phm c th. Trong khi đó, câu truy
vn bằng hình ảnh thích hợp hơn khi ngưi
dùng không biết chính xác tên hoặc tả ca
sn phẩm, nhưng họ có thể nhn dạng nó thông
qua hình nh. Đối vi mt s doanh nghiệp, đc
biệt doanh nghiệp phân phối vi s ng sn
phẩm lưu kho lên đến hàng chục thậm chí hàng
trăm nghìn sản phm cng vi việc đặt tên sản
phẩm đánh s giữa các doanh nghiệp
khác nhau, không quy tắc chung, dụ như
các sản phm v thời trang, thì việc ng dng
tìm kiếm sn phm bằng hình ảnh rất cn thiết
và hữu ích.
2.2. Quy trình đề xut
2.2.1. Quy trình chính
Quy trình so sánh giá sản phm được t
động hóa thông qua việc dùng Selenium
WebDriver đ điều khiển trình duyệt với các
bước sau đây:
c 1. Người dùng xác định ngôn ngữ tìm
kiếm. Google Tìm kiếm tính đặc thù theo
tng khu vc, theo tng quc gia. Mỗi địa điểm
ngôn ngữ s cách định dng số, đơn vị tin
khác nhau sự ưu tiên hin th kết qu cũng
khác nhau.
Để đa dạng hóa trong quá trình thực
nghiệm, nhóm tác giả thiết kế để người dùng
th la chọn ngôn ngữ. Trong d án này, Tiếng
Vit, tiếng Ba Lan, tiếng Pháp tiếng Hungary
đã được la chọn để thc nghiệm, các loại ngôn
ng có thể được m rộng trong tương lai.
c 2. Người dùng lựa chọn thư mục cha
hình ảnh tt c các sản phm muốn so sánh giá.
c 3. H thng thiết lập các thông tin
ngôn ngữ do người dùng đã chọn.
c 4. Khởi động Selenium WebDriver.
45
TAÏP CHÍ KHOA HOÏC VAØ COÂNG NGHEÄ ÑAÏI HOÏC COÂNG NGHEÄ ÑOÀNG NAI
S: 03-2024
c 5. To mới danh sách chứa báo cáo
tng kết, được thiết kế dưới dng bng trong
HTML.
c 6. H thng lần lượt duyt từng hình
nh sn phm cần so sánh giá thc hiện các
bước con sau đây:
- To mới danh sách cha kết qu so sánh
giá cho sản phẩm đang xử lý.
- Thc hiện quy trình tìm kiếm trích xuất
thông tin cho mt nh sn phẩm, quy trình này
được trình bày tại mc 2.2.2 của bài báo.
- Tìm kiếm thông tin giá sản phm cao nht,
thp nhất, trung bình giá; thực hiện đánh dấu và
ghi nhận thông tin đã tìm được.
- Thêm toàn b kết qu của bước 7 vào báo
cáo cuối cùng.
- Trong tình huống còn sn phẩm trong thư
mc cần so sánh sẽ thc hin lại bước 7, ngược
li s chuyển sang bước s 8.
Hình 4. Quy trình chính
c 7. Xut kết qu dng bng HTML
ca s trình duyệt mới và kết thúc quy trình.
2.2.2. Quy trình tìm kiếm trích xuất thông
tin cho một hình ảnh sn phm
Quy trình tìm kiếm trích xuất thông tin
cho một hình nh sn phm được c th tại Hình
9 và mô tả các bước chi tiết như sau:
c 1. H thống điều khin Selenium
WebDriver truy cập vào Google Lens tại địa ch
sau đây: https://lens.google.com/search?p=
c 2. Xác định nút “Tải lên” thông qua
tìm kiếm thành phần XPATH vi lp CSS được
xác định trước, thc hiện thao tác nhấn vào nút
sau khi tìm thấy thành phần.
Hình 5. Lp CSS của nút Tải lên
Các lớp CSS này được Google thiết kế c
định, tuy nhiên không loi tr theo thời gian dài
truy cập, nó có thể đưc cp nhật thành các lớp
mới, nên cần sự kiểm tra trước các đt thc
nghim.
c 3. Xác định nút “Tải lên t máy
tính” thông qua tìm kiếm thành phần XPATH
vi lp jsname được xác định trước, thc hin
thao tác nhấn vào nút sau khi tìm thấy thành
phn.
Hình 6. Nút tải lên từ máy tính và jsname
Thành phần jsname này được Google đt
giá trị c định, tương t như nút bên trên, không
loi tr theo thời gian dài truy cập, th
được cp nhật thành các giá trị mới, nên cần có
s kiểm tra trước các đợt thc nghim.
c 4. Thc hiện thao tác tải ảnh lên bằng
cách dán đường dẫn hình nh cần tìm kiếm t