TNU Journal of Science and Technology 230(07): 271 - 279
http://jst.tnu.edu.vn 271 Email: jst@tnu.edu.vn
AN IMAGE RETRIEVAL MODEL USING KNOWLEDGE GRAPH
AND BAG OF VISUAL WORDS
Tran Duc Tai, Nguyen Ngoc Sang, To Thanh Tuan, Nguyen Do Thai Nguyen
*
Ho Chi Minh City University of Education
ARTICLE INFO ABSTRACT
Received:
17/4/2025
In the context of the growing demand for image retrieval based on
content and semantic understanding, traditional techniques that rely
solely on visual features are increasingly revealing limitations,
especially in representing semantic relationships among
entities within
an image. This study proposes an integrated model comprising three key
components: entity detection using YOLOv8, visual feature
representation through the bag of visual words
model, and information
organization via a knowledge graph. Dete
cted entities are encoded into
bag of visual words
mapped into the knowledge graph
. During querying, the system
generates triples from the input image to perform semantic retrieval
within the knowledge graph
. The model was evaluated on two widely
used image datasets OpenImagesV7 and MS-
COCO, achieving
accuracies of 84.1% and 89.6%, respectively. These results outperform
many traditional approaches, reflecting the reliability and feasibility of
the proposed model.
Revised:
29/6/2025
Published:
30/6/2025
KEYWORDS
Image retrieval
Bag of visual words
Knowledge graph
YOLOv8
Object detection
MỘT MÔ HÌNH TRUY VẤN ẢNH SỬ DỤNG ĐỒ THỊ TRI THỨC
VÀ TÚI TỪ THỊ GIÁC
Trần Đức Tài, Nguyễn Ngọc Sang, Tô Thanh Tuấn, Nguyễn Đỗ Thái Nguyên
*
Trường Đại học Sư phạm Thành phố Hồ Chí Minh
THÔNG TIN BÀI BÁO TÓM TẮT
Ngày nhậ
n bài:
17/4/2025
Trong b
i c
nh nhu c
u tra c
u
nh theo hư
ng hi
u n
i dung ng
nghĩa ngày một trở nên phổ biến, những kỹ thuật truyền thống vốn chỉ
dựa vào đặc trưng thị giác đang dần bộc lộ nhiều hạn chế, đặc biệ
t khi
phải diễn tả được các quan hệ ngữ nghĩa giữa những thực thể
trong
ảnh. Nghiên cứu y đề xuất một nh ch hợp gồm ba yếu t
chính: phát hiện thực thể bằng YOLOv8, biểu diễn đặc trưng thgi
ác
với túi từ thgiác, tổ chức thông tin bằng đồ thị tri thức. Các th
c
thể được phát hiện sẽ được tổ chức vào túi từ thị giác tđó tạo các bộ
ba quan hệ để ánh xạ o đồ thị tri thức. Khi truy vấn, hệ thố
ng sinh
c bộ ba từ ảnh đầu o để thực hiện tra cứu trong đồ thị tri thức
.
hình được triển khai đánh giá tn hai tập nh dữ liệu ph biế
n là
OpenImagesV7 và MS-COCO với độ chính xác đạt được ở mứ
c 84,1%
89,6%, vượt qua nhiều hình truyền thống, phản ánh đtin c
y
khả thi của mô hình đề xuất.
Ngày hoàn thiệ
n:
29/6/2025
Ngày đăng:
30/6/2025
TỪ KHÓA
Truy vấn ảnh
Túi từ thị giác
Đồ thị tri thức
YOLOv8
Trích xuất đối tượng
DOI: https://doi.org/10.34238/tnu-jst.12608
* Corresponding author. Email: nguyenndt@hcmue.edu.vn
TNU Journal of Science and Technology 230(07): 271 - 279
http://jst.tnu.edu.vn 272 Email: jst@tnu.edu.vn
1. Giới thiệu
Hệ thống m kiếm hình nh dựa vào đặc điểm nội dung (Content-Based Image Retrieval
CBIR) hiện nay được xem là một trong những hướng nghiên cứu trọng tâm của thị giác máy tính,
với phạm vi ứng dụng rộng rãi trong các lĩnh vực như chẩn đoán hình ảnh y khoa, giám sát an ninh
quản kho dữ liệu đa phương tiện. Các phương pp truyền thống thường sử dụng các đặc
trưng thị giác để tính toán sự tương đồng giữa ảnh truy vấn và ảnh trong cơ sở dữ liệu. Tuy nhiên,
các đặc trưng này chủ yếu phản ánh thông tin cục bộ, thiếu khả năng biểu din mối quan hệ ngữ
nghĩa giữa các đối tượng, dẫn đến việc hệ thống khó hiểu được nội dung ảnh ở mức độ khái nim
cao [1], [2]. dụ, một bức ảnh chứa "người cầm cốc" "cốc đặt trên bàn" thể được xem
tương đồng về màu sắc nhưng khác biệt hoàn toàn về ngữ cảnh, điều mà các phương pháp truyền
thống không phân biệt được.
Để giải quyết hạn chế này, nhiều nghiên cứu gần đây đã hướng đến việc tích hợp tri thức bên
ngoài vào quá trình truy vấn. Trong đó, đồ thị ngữ cảnh (scene graph) nổi lên như một công cụ hiệu
quả để mô tả các thực thể và mối liên hệ giữa chúng thông qua cấu trúc đồ thị [3], [4]. Đồ thị này
không chỉ liệt các thực thể trong ảnh (ví dụ: "người", "ghế", "chó") còn hóa tương tác
giữa chúng (ví dụ: "người →ngồi → ghế", "chó → chạy → cạnh xe"). Cách tiếp cận này nâng cao
khả năng diễn giải ngữ nghĩa, từ đó cải thiện hiệu quả tra cứu ảnh dựa trên các mối liên kết ngữ
nghĩa giữa c thực thể. Song song với đó, đồ thị tri thức (Knowledge Graph KG) được tạo từ
các bộ ba quan hệ (subject-predicate-object), cho phép nhúng thông tin vào không gian vector để
hỗ trợ suy luận logic và học máy [5], [6]. Sự kết hợp giữa hai đồ thị này đã chứng minh khả năng
nâng cao chất lượng truy vấn thông qua việc kết nối thông tin thị giác với tri thức nền [3], [6], mở
đường cho các hệ thống CBIR thông minh và có khả năng giải thích.
Bên cạnh các phương pháp dựa trên tri thức, việc biểu diễn đặc trưng nh ảnh cũng không
ngừng được cải tiến. Mô hình túi từ thị giác (Bag of Visual Words BoVW) vẫn giữ vị trí quan
trọng nhờ khả năng ánh xạ các đối tượng thành các "từ" thị giác có tính tổ chức cao, tương tự cách
biểu diễn văn bản trong xử lý ngôn ngtự nhiên. Các nghiên cứu gần đây [1], [2] chỉ ra rằng,
các hình học sâu như mạng nơ-ron ch chập (Convolutional Neural Networks - CNN) đã cải
thin đáng kể hiệu suất trích xuất đặc trưng, việc tổ chức chúng thành dạng có thể truy vấn vẫn là
thách thức. BoVW đóng vai trò cầu nối giữa thông tin thị giác tri thức, đặc biệt hiệu quả khi
được kết hợp với những phương pp phát hiện đối tượng tiên tiến như YOLOv8. YOLOv8, một
phiên bản của họ YOLO, nổi bật nhờ tốc độ xử lý nhanh và độ chính xác cao trong việc nhận diện
đối tượng, là cơ sở cho việc xây dựng BoVW và đồ thị tri thức [7].
Tại Việt Nam, một số nghiên cứu đã tiếp cận hướng tích hợp tri thức vào CBIR. Chẳng hạn,
nhóm nghiên cứu của Thị Vĩnh Thanh [8] đưa ra mô hình kết hợp đồ thị láng giềng đồ thị
ngữ nghĩa giúp cải thiện hiệu suất trong tìm kiếm ảnh, trong khi nhóm của Phan Minh Tiến [9] sử
dụng thống kê và biểu diễn tri thức để tối ưu hóa quá trình tìm kiếm. Tuy nhiên, các phương pháp
này vẫn tồn tại hạn chế như thiếu khả năng tự động hóa, phụ thuộc vào dữ liệu huấn luyện cục bộ
và chưa kết nối hiệu quả với nguồn tri thức đa dạng bên ngoài.
Trong bối cảnh đó, nghiên cứu này đề xuất một mô hình tra cứu hình ảnh tích hợp ba thành
phần chính: YOLOv8 để nhận diện đối tượng chính xác, BoVW để tổ chức đặc trưng thị giác
cấu trúc, đồ thị tri thức đóng vai trò trong việc để biểu diễn tổ chức các liên hệ ngữ nghĩa.
Khác với cách tiếp cận truyền thống, phương pháp đề xuất khai thác không chỉ dựa trên stương
đồng về hình ảnh mà còn xem xét logic giữa các đối tượng để thiết kế một hệ thống đáp ứng yêu
cầu diễn giải kết quả mở rộng tri thức. Chúng tôi đã trin khai thực nghiệm trên các tập ảnh
chuẩn như MSCOCO và OpenImagesV7 nhằm kiểm chứng hiệu quả ngữ nghĩa và khả năng tổng
quát hóa của phương pháp đề xuất.
TNU Journal of Science and Technology 230(07): 271 - 279
http://jst.tnu.edu.vn 273 Email: jst@tnu.edu.vn
2. Phương pháp nghiên cứu
2.1. Cấu trúc tổng quan của mô hình truy vấn ảnh
Nghiên cứu này giới thiệu một hình tra cứu ảnh tích hợp ba thành phần cốt lõi: phát hiện
các thực thể bằng YOLOv8, biểu diễn đặc trưng với hình túi từ thị giác (BoVW), tổ chức
thông tin thông qua đồ thị tri thức (KG). Mô hình gồm hai pha: (1) Pha ngoại tuyến để rút trích và
xây dựng sở tri thức từ tập huấn luyện; (2) Pha trực tuyến để tra cứu ảnh cho các ảnh
tương đồng. Hình 1 minh họa mô hình đề xuất.
Hình 1. Mô hình đề xuất
Trong Hình 1, hệ thống gồm có các bước sau:
Ở pha ngoại tuyến:
(1) YOLOv8 nhận diện và gắn nhãn các thực thể trong ảnh đầu vào.
(2) Các thực thể được tổ chức vào BoVW cùng với đặc trưng histogram, phân loại theo từng
nhóm đối tượng.
(3) Từ BoVW, hệ thống xây dựng KG để biểu diễn các mối liên hệ giữa các thực thể.
Ở pha trực tuyến:
(4) Ảnh truy vấn được phân tích bằng YOLOv8 để xác định c thực th và trích xuất đặc trưng.
(5) Hệ thống sử dụng các bộ ba quan hệ từ ảnh đầu vào để tra cứu ngữ nghĩa trong KG.
Tập ảnh thu được thể hiện sự ơng đồng ngữ nghĩa với ảnh đầu vào theo các bộ ba quan hệ
được truy xuất. Hệ thống này không chỉ so khớp đặc trưng thị giác còn sử dụng các mối liên
kết giữa các đối tượng, mang lại khả năng truy vấn chính xác và dễ diễn giải hơn.
2.2. Các thành phần của mô hình đề xuất
2.2.1. Phát hiện đối tượng với YOLOv8
Trong hình đề xuất, YOLOv8 đóng vai trò nhận diện gán nhãn các thực thể xuất hiện
trong ảnh, làm nền tảng cho quá trình trích xuất và tổ chức thông tin thị giác. Mỗi đối tượng được
xác định kèm theo điểm tin cậy (confidence score), sau đó được chuyển vào hình túi từ thị giác
(BoVW) để tổ chức và lưu trữ. Kết quả này là nền tng cho việc xây dựng đồ thị tri thức, thể hiện
các mối liên kết giữa các đối tượng. Trong giai đoạn truy vấn, YOLOv8 tiếp tục phân tích ảnh đầu
vào để tạo ra các bộ ba quan hệ, làm cơ sở cho việc tra cứu các ảnh tương tự trong KG. Quá trình
nhận diện đối tượng bằng YOLOv8 được minh họa cụ thể trong Hình 2: từ ảnh đầu vào qua
YOLOv8 sẽ nhận diện được các đối tượng thuộc các lớp Cello, Drum, Person.
TNU Journal of Science and Technology 230(07): 271 - 279
http://jst.tnu.edu.vn 274 Email: jst@tnu.edu.vn
Hình 2. Quá trình nhận diện đối tượng sử dụng YOLOv8
Tuy nhiên, chất lượng của các đối tượng phát hiện bởi YOLOv8 quyết định trực tiếp đến độ
chính xác của BoVW và KG. Nếu YOLOv8 bỏ sót hoặc nhận diện sai nhãn, các bộ ba quan hsinh
ra sẽ không đầy đủ hoặc sai lệch, ảnh hưởng đến khả năng truy vấn chính c. Do đó, việc huấn
luyện YOLOv8 với tập dữ liệu phù hợp và tối ưu hóa tham số nhận diện là rất quan trọng để đảm
bảo tính nhất quán của hệ thống.
2.2.2. Túi từ thị giác
Mô hình BoVW biểu diễn nội dung hình ảnh dựa trên việc tổ chức các đặc trưng cục bộ thành
các tthị giác. Trong hệ thống này, BoVW đóng vai trò cầu nối giữa thông tin từ YOLOv8 và việc
ánh xạ vào KG.
Cụ thể, mỗi ảnh đầu vào được chuyển đổi thành một tập các từ thị giác, phản ánh các đối tượng
được nhận dạng gán nhãn bởi YOLOv8. Các đối tượng này được tổ chức theo hai cấu trúc chính:
Object: Đại diện cho một thực thể riêng lẻ trong ảnh, chứa các thông tin như ObjID (ID của
đối tượng), ImgID (ID của ảnh chứa đối tượng), Class (nhãn phân loại), Feature (đặc trưng),
Conf (điểm tin cậy).
Class: Đại diện cho nhóm đối tượng cùng loại, chứa các thông tin như ClassName, ObjCount
(số lượng đối tượng), và ObjList (danh sách các đối tượng thuộc nhóm).
Tập hợp các nhóm Class tạo nên BoVW, hình thành một không gian phân loại có cấu trúc. Quá
trình tổ chức đối tượng vào BoVW được thực hiện bằng cách duyệt qua từng nh, trích xuất danh
sách đối tượng và thêm vào các nhóm tương ứng theo lớp.
Hình 3. Minh họa cấu trúc túi từ thị giác
Hình 3 minh họa cấu trúc túi từ thị giác: từ ảnh đầu vào qua YOLOv8 sẽ nhận dạng các đối
tượng Object, sau đó các đối tượng sẽ được phân bổ vào túi từ tương ứng với từng Class.
TNU Journal of Science and Technology 230(07): 271 - 279
http://jst.tnu.edu.vn 275 Email: jst@tnu.edu.vn
2.2.3. Khung đồ thị tri thức (KGF)
Đồ thị tri thức đóng vai trò là khung lưu trữ, tổ chức thông tin về thực thể, liên hệ và thuộc tính
trong phương pháp đề xuất. Mỗi thực thể một nút trong KG, còn mối quan hệ được thể hiện bằng
các cạnh nối giữa các nút. Các quan hệ chính bao gồm: IsA (xác định phân cấp giữa lớp nút
gốc), HasA (liên kết đối tượng với lớp hoặc ảnh), HasSubcategory (mô tquan hệ phân lớp con)
IsAttributeOf (gắn đặc trưng histogram với ảnh). Trong đó, IsA HasA quan hệ cốt lõi để
hỗ trợ truy vấn. Các từ thgiác trong BoVW được ánh xạ thành các thực thể và quan hệ dựa trên
cấu trúc Class–Object đã tổ chức trước đó. Cụ thể, mỗi thực thể sẽ tạo ít nhất hai quan hệ:
(ClassName, HasA, Object) (ImgID, HasA, Object). Các quan hệ này đóng vai trò tạo nên mạng
lưới tri thức để suy luận khi tra cứu. Ngoài các quan hệ cơ bản, mô hình có thể bổ sung các thuộc
tính mở rộng như vị trí, màu sắc để tăng độ phong phú cho KG.
Để chuyển đổi BoVW thành KG, h thống sử dụng thuật toán CKGF (Create Knowledge Graph
Framework), gồm các bước:
Bước 1: Với mỗi lớp trong BoVW, tạo quan hệ Thing – IsA ClassName
Bước 2: Với mỗi đối tượng thuộc lớp đó, tạo các bộ ba:
o ClassName – HasA Object
o ImgID – HasA → Object
o ImgID – HasA → ClassName (nếu chưa tồn tại)
Bước 3: Thêm các bộ ba vào KG nếu chưa xuất hiện trong KG
Nhờ cấu trúc bộ ba, đồ thị tri thức cho phép thực hiện truy vấn ngữ nghĩa hiu quả và dễ dàng
mở rộng với các nguồn tri thức bổ sung. Hình 4 minh họa cho cấu trúc logic của KGF.
Hình 4. Minh họa cấu trúc của KGF
Trong Hình 4, node u cam ClassName, màu đỏ ImgID, màu xanh Object, bộ ba
ClassName – HasA Object được biểu diễn bng mũi tên HAS_A từ node cam sang node xanh, bộ
ba ImgID – HasA Object được biểu diễn bằng mũi tên HAS_A từ node đỏ sang node xanh và bộ
ba ImgID – HasA → ClassName được biu diễn bằng mũi tên HAS_A từ node đỏ sang node cam.
2.3. Thuật toán truy vấn
Sau khi KG được xây dựng từ tập ảnh huấn luyện, hệ thống triển khai thuật toán truy vấn đ
tìm kiếm các ảnh trong cơ sở dliệu dựa trên mức đtương đồng ngữ nghĩa với ảnh đầu vào. Thuật
toán RIKGF (Retrieval in Knowledge Graph Framework) như sau:
Input: Ảnh truy vấn