
TNU Journal of Science and Technology 230(07): 271 - 279
http://jst.tnu.edu.vn 271 Email: jst@tnu.edu.vn
AN IMAGE RETRIEVAL MODEL USING KNOWLEDGE GRAPH
AND BAG OF VISUAL WORDS
Tran Duc Tai, Nguyen Ngoc Sang, To Thanh Tuan, Nguyen Do Thai Nguyen
*
Ho Chi Minh City University of Education
ARTICLE INFO ABSTRACT
Received:
17/4/2025
In the context of the growing demand for image retrieval based on
content and semantic understanding, traditional techniques that rely
solely on visual features are increasingly revealing limitations,
especially in representing semantic relationships among
entities within
an image. This study proposes an integrated model comprising three key
components: entity detection using YOLOv8, visual feature
representation through the bag of visual words
model, and information
organization via a knowledge graph. Dete
cted entities are encoded into
bag of visual words
, from which relational triples are constructed and
mapped into the knowledge graph
. During querying, the system
generates triples from the input image to perform semantic retrieval
within the knowledge graph
. The model was evaluated on two widely
used image datasets OpenImagesV7 and MS-
COCO, achieving
accuracies of 84.1% and 89.6%, respectively. These results outperform
many traditional approaches, reflecting the reliability and feasibility of
the proposed model.
Revised:
29/6/2025
Published:
30/6/2025
KEYWORDS
Image retrieval
Bag of visual words
Knowledge graph
YOLOv8
Object detection
MỘT MÔ HÌNH TRUY VẤN ẢNH SỬ DỤNG ĐỒ THỊ TRI THỨC
VÀ TÚI TỪ THỊ GIÁC
Trần Đức Tài, Nguyễn Ngọc Sang, Tô Thanh Tuấn, Nguyễn Đỗ Thái Nguyên
*
Trường Đại học Sư phạm Thành phố Hồ Chí Minh
THÔNG TIN BÀI BÁO TÓM TẮT
Ngày nhậ
n bài:
17/4/2025
Trong b
ố
i c
ả
nh nhu c
ầ
u tra c
ứ
u
ả
nh theo hư
ớ
ng hi
ể
u n
ộ
i dung và ng
ữ
nghĩa ngày một trở nên phổ biến, những kỹ thuật truyền thống vốn chỉ
dựa vào đặc trưng thị giác đang dần bộc lộ nhiều hạn chế, đặc biệ
t khi
phải diễn tả được các quan hệ ngữ nghĩa giữa những thực thể
có trong
ảnh. Nghiên cứu này đề xuất một mô hình tích hợp gồm ba yếu tố
chính: phát hiện thực thể bằng YOLOv8, biểu diễn đặc trưng thị gi
ác
với túi từ thị giác, và tổ chức thông tin bằng đồ thị tri thức. Các thự
c
thể được phát hiện sẽ được tổ chức vào túi từ thị giác từ đó tạo các bộ
ba quan hệ để ánh xạ vào đồ thị tri thức. Khi truy vấn, hệ thố
ng sinh
các bộ ba từ ảnh đầu vào để thực hiện tra cứu trong đồ thị tri thức
. Mô
hình được triển khai đánh giá trên hai tập ảnh dữ liệu phổ biế
n là
OpenImagesV7 và MS-COCO với độ chính xác đạt được ở mứ
c 84,1%
và 89,6%, vượt qua nhiều mô hình truyền thống, phản ánh độ tin cậ
y
và khả thi của mô hình đề xuất.
Ngày hoàn thiệ
n:
29/6/2025
Ngày đăng:
30/6/2025
TỪ KHÓA
Truy vấn ảnh
Túi từ thị giác
Đồ thị tri thức
YOLOv8
Trích xuất đối tượng
DOI: https://doi.org/10.34238/tnu-jst.12608
* Corresponding author. Email: nguyenndt@hcmue.edu.vn