Mô hình truy vấn ảnh: Ứng dụng đồ thị tri thức và túi từ thị giác

TNU Journal of Science and Technology 230(07): 271 - 279

http://jst.tnu.edu.vn 271 Email: jst@tnu.edu.vn

AN IMAGE RETRIEVAL MODEL USING KNOWLEDGE GRAPH

AND BAG OF VISUAL WORDS

Tran Duc Tai, Nguyen Ngoc Sang, To Thanh Tuan, Nguyen Do Thai Nguyen

Ho Chi Minh City University of Education

ARTICLE INFO ABSTRACT

Received:

17/4/2025

In the context of the growing demand for image retrieval based on

content and semantic understanding, traditional techniques that rely

solely on visual features are increasingly revealing limitations,

especially in representing semantic relationships among

entities within

an image. This study proposes an integrated model comprising three key

components: entity detection using YOLOv8, visual feature

representation through the bag of visual words

model, and information

organization via a knowledge graph. Dete

cted entities are encoded into

bag of visual words

, from which relational triples are constructed and

mapped into the knowledge graph

. During querying, the system

generates triples from the input image to perform semantic retrieval

within the knowledge graph

. The model was evaluated on two widely

used image datasets OpenImagesV7 and MS-

COCO, achieving

accuracies of 84.1% and 89.6%, respectively. These results outperform

many traditional approaches, reflecting the reliability and feasibility of

the proposed model.

Revised:

29/6/2025

Published:

30/6/2025

KEYWORDS

Image retrieval

Bag of visual words

Knowledge graph

YOLOv8

Object detection

MỘT MÔ HÌNH TRUY VẤN ẢNH SỬ DỤNG ĐỒ THỊ TRI THỨC

VÀ TÚI TỪ THỊ GIÁC

Trần Đức Tài, Nguyễn Ngọc Sang, Tô Thanh Tuấn, Nguyễn Đỗ Thái Nguyên

Trường Đại học Sư phạm Thành phố Hồ Chí Minh

THÔNG TIN BÀI BÁO TÓM TẮT

Ngày nhậ

n bài:

17/4/2025

Trong b

ố

i c

ả

nh nhu c

ầ

u tra c

ứ

ả

nh theo hư

ớ

ng hi

ể

u n

ộ

i dung và ng

ữ

nghĩa ngày một trở nên phổ biến, những kỹ thuật truyền thống vốn chỉ

dựa vào đặc trưng thị giác đang dần bộc lộ nhiều hạn chế, đặc biệ

t khi

phải diễn tả được các quan hệ ngữ nghĩa giữa những thực thể

có trong

ảnh. Nghiên cứu này đề xuất một mô hình tích hợp gồm ba yếu tố

chính: phát hiện thực thể bằng YOLOv8, biểu diễn đặc trưng thị gi

ác

với túi từ thị giác, và tổ chức thông tin bằng đồ thị tri thức. Các thự

thể được phát hiện sẽ được tổ chức vào túi từ thị giác từ đó tạo các bộ

ba quan hệ để ánh xạ vào đồ thị tri thức. Khi truy vấn, hệ thố

ng sinh

các bộ ba từ ảnh đầu vào để thực hiện tra cứu trong đồ thị tri thức

. Mô

hình được triển khai đánh giá trên hai tập ảnh dữ liệu phổ biế

n là

OpenImagesV7 và MS-COCO với độ chính xác đạt được ở mứ

c 84,1%

và 89,6%, vượt qua nhiều mô hình truyền thống, phản ánh độ tin cậ

và khả thi của mô hình đề xuất.

Ngày hoàn thiệ

29/6/2025

Ngày đăng:

30/6/2025

TỪ KHÓA

Truy vấn ảnh

Túi từ thị giác

Đồ thị tri thức

YOLOv8

Trích xuất đối tượng

DOI: https://doi.org/10.34238/tnu-jst.12608

* Corresponding author. Email: nguyenndt@hcmue.edu.vn

TNU Journal of Science and Technology 230(07): 271 - 279

http://jst.tnu.edu.vn 272 Email: jst@tnu.edu.vn

1. Giới thiệu

Hệ thống tìm kiếm hình ảnh dựa vào đặc điểm nội dung (Content-Based Image Retrieval –

CBIR) hiện nay được xem là một trong những hướng nghiên cứu trọng tâm của thị giác máy tính,

với phạm vi ứng dụng rộng rãi trong các lĩnh vực như chẩn đoán hình ảnh y khoa, giám sát an ninh

và quản lý kho dữ liệu đa phương tiện. Các phương pháp truyền thống thường sử dụng các đặc

trưng thị giác để tính toán sự tương đồng giữa ảnh truy vấn và ảnh trong cơ sở dữ liệu. Tuy nhiên,

các đặc trưng này chủ yếu phản ánh thông tin cục bộ, thiếu khả năng biểu diễn mối quan hệ ngữ

nghĩa giữa các đối tượng, dẫn đến việc hệ thống khó hiểu được nội dung ảnh ở mức độ khái niệm

cao [1], [2]. Ví dụ, một bức ảnh chứa "người cầm cốc" và "cốc đặt trên bàn" có thể được xem là

tương đồng về màu sắc nhưng khác biệt hoàn toàn về ngữ cảnh, điều mà các phương pháp truyền

thống không phân biệt được.

Để giải quyết hạn chế này, nhiều nghiên cứu gần đây đã hướng đến việc tích hợp tri thức bên

ngoài vào quá trình truy vấn. Trong đó, đồ thị ngữ cảnh (scene graph) nổi lên như một công cụ hiệu

quả để mô tả các thực thể và mối liên hệ giữa chúng thông qua cấu trúc đồ thị [3], [4]. Đồ thị này

không chỉ liệt kê các thực thể trong ảnh (ví dụ: "người", "ghế", "chó") mà còn mã hóa tương tác

giữa chúng (ví dụ: "người →ngồi → ghế", "chó → chạy → cạnh xe"). Cách tiếp cận này nâng cao

khả năng diễn giải ngữ nghĩa, từ đó cải thiện hiệu quả tra cứu ảnh dựa trên các mối liên kết ngữ

nghĩa giữa các thực thể. Song song với đó, đồ thị tri thức (Knowledge Graph – KG) được tạo từ

các bộ ba quan hệ (subject-predicate-object), cho phép nhúng thông tin vào không gian vector để

hỗ trợ suy luận logic và học máy [5], [6]. Sự kết hợp giữa hai đồ thị này đã chứng minh khả năng

nâng cao chất lượng truy vấn thông qua việc kết nối thông tin thị giác với tri thức nền [3], [6], mở

đường cho các hệ thống CBIR thông minh và có khả năng giải thích.

Bên cạnh các phương pháp dựa trên tri thức, việc biểu diễn đặc trưng hình ảnh cũng không

ngừng được cải tiến. Mô hình túi từ thị giác (Bag of Visual Words – BoVW) vẫn giữ vị trí quan

trọng nhờ khả năng ánh xạ các đối tượng thành các "từ" thị giác có tính tổ chức cao, tương tự cách

biểu diễn văn bản trong xử lý ngôn ngữ tự nhiên. Các nghiên cứu gần đây [1], [2] chỉ ra rằng, dù

các mô hình học sâu như mạng nơ-ron tích chập (Convolutional Neural Networks - CNN) đã cải

thiện đáng kể hiệu suất trích xuất đặc trưng, việc tổ chức chúng thành dạng có thể truy vấn vẫn là

thách thức. BoVW đóng vai trò cầu nối giữa thông tin thị giác và tri thức, đặc biệt hiệu quả khi

được kết hợp với những phương pháp phát hiện đối tượng tiên tiến như YOLOv8. YOLOv8, một

phiên bản của họ YOLO, nổi bật nhờ tốc độ xử lý nhanh và độ chính xác cao trong việc nhận diện

đối tượng, là cơ sở cho việc xây dựng BoVW và đồ thị tri thức [7].

Tại Việt Nam, một số nghiên cứu đã tiếp cận hướng tích hợp tri thức vào CBIR. Chẳng hạn,

nhóm nghiên cứu của Lê Thị Vĩnh Thanh [8] đưa ra mô hình kết hợp đồ thị láng giềng và đồ thị

ngữ nghĩa giúp cải thiện hiệu suất trong tìm kiếm ảnh, trong khi nhóm của Phan Minh Tiến [9] sử

dụng thống kê và biểu diễn tri thức để tối ưu hóa quá trình tìm kiếm. Tuy nhiên, các phương pháp

này vẫn tồn tại hạn chế như thiếu khả năng tự động hóa, phụ thuộc vào dữ liệu huấn luyện cục bộ

và chưa kết nối hiệu quả với nguồn tri thức đa dạng bên ngoài.

Trong bối cảnh đó, nghiên cứu này đề xuất một mô hình tra cứu hình ảnh tích hợp ba thành

phần chính: YOLOv8 để nhận diện đối tượng chính xác, BoVW để tổ chức đặc trưng thị giác có

cấu trúc, và đồ thị tri thức đóng vai trò trong việc để biểu diễn và tổ chức các liên hệ ngữ nghĩa.

Khác với cách tiếp cận truyền thống, phương pháp đề xuất khai thác không chỉ dựa trên sự tương

đồng về hình ảnh mà còn xem xét logic giữa các đối tượng để thiết kế một hệ thống đáp ứng yêu

cầu diễn giải kết quả và mở rộng tri thức. Chúng tôi đã triển khai thực nghiệm trên các tập ảnh

chuẩn như MSCOCO và OpenImagesV7 nhằm kiểm chứng hiệu quả ngữ nghĩa và khả năng tổng

quát hóa của phương pháp đề xuất.

TNU Journal of Science and Technology 230(07): 271 - 279

http://jst.tnu.edu.vn 273 Email: jst@tnu.edu.vn

2. Phương pháp nghiên cứu

2.1. Cấu trúc tổng quan của mô hình truy vấn ảnh

Nghiên cứu này giới thiệu một mô hình tra cứu ảnh tích hợp ba thành phần cốt lõi: phát hiện

các thực thể bằng YOLOv8, biểu diễn đặc trưng với mô hình túi từ thị giác (BoVW), và tổ chức

thông tin thông qua đồ thị tri thức (KG). Mô hình gồm hai pha: (1) Pha ngoại tuyến để rút trích và

xây dựng cơ sở tri thức từ tập huấn luyện; và (2) Pha trực tuyến để tra cứu ảnh và cho các ảnh

tương đồng. Hình 1 minh họa mô hình đề xuất.

Hình 1. Mô hình đề xuất

Trong Hình 1, hệ thống gồm có các bước sau:

Ở pha ngoại tuyến:

(1) YOLOv8 nhận diện và gắn nhãn các thực thể trong ảnh đầu vào.

(2) Các thực thể được tổ chức vào BoVW cùng với đặc trưng histogram, phân loại theo từng

nhóm đối tượng.

(3) Từ BoVW, hệ thống xây dựng KG để biểu diễn các mối liên hệ giữa các thực thể.

Ở pha trực tuyến:

(4) Ảnh truy vấn được phân tích bằng YOLOv8 để xác định các thực thể và trích xuất đặc trưng.

(5) Hệ thống sử dụng các bộ ba quan hệ từ ảnh đầu vào để tra cứu ngữ nghĩa trong KG.

Tập ảnh thu được thể hiện sự tương đồng ngữ nghĩa với ảnh đầu vào theo các bộ ba quan hệ

được truy xuất. Hệ thống này không chỉ so khớp đặc trưng thị giác mà còn sử dụng các mối liên

kết giữa các đối tượng, mang lại khả năng truy vấn chính xác và dễ diễn giải hơn.

2.2. Các thành phần của mô hình đề xuất

2.2.1. Phát hiện đối tượng với YOLOv8

Trong mô hình đề xuất, YOLOv8 đóng vai trò nhận diện và gán nhãn các thực thể xuất hiện

trong ảnh, làm nền tảng cho quá trình trích xuất và tổ chức thông tin thị giác. Mỗi đối tượng được

xác định kèm theo điểm tin cậy (confidence score), sau đó được chuyển vào mô hình túi từ thị giác

(BoVW) để tổ chức và lưu trữ. Kết quả này là nền tảng cho việc xây dựng đồ thị tri thức, thể hiện

các mối liên kết giữa các đối tượng. Trong giai đoạn truy vấn, YOLOv8 tiếp tục phân tích ảnh đầu

vào để tạo ra các bộ ba quan hệ, làm cơ sở cho việc tra cứu các ảnh tương tự trong KG. Quá trình

nhận diện đối tượng bằng YOLOv8 được minh họa cụ thể trong Hình 2: từ ảnh đầu vào qua

YOLOv8 sẽ nhận diện được các đối tượng thuộc các lớp Cello, Drum, Person.

TNU Journal of Science and Technology 230(07): 271 - 279

http://jst.tnu.edu.vn 274 Email: jst@tnu.edu.vn

Hình 2. Quá trình nhận diện đối tượng sử dụng YOLOv8

Tuy nhiên, chất lượng của các đối tượng phát hiện bởi YOLOv8 quyết định trực tiếp đến độ

chính xác của BoVW và KG. Nếu YOLOv8 bỏ sót hoặc nhận diện sai nhãn, các bộ ba quan hệ sinh

ra sẽ không đầy đủ hoặc sai lệch, ảnh hưởng đến khả năng truy vấn chính xác. Do đó, việc huấn

luyện YOLOv8 với tập dữ liệu phù hợp và tối ưu hóa tham số nhận diện là rất quan trọng để đảm

bảo tính nhất quán của hệ thống.

2.2.2. Túi từ thị giác

Mô hình BoVW biểu diễn nội dung hình ảnh dựa trên việc tổ chức các đặc trưng cục bộ thành

các từ thị giác. Trong hệ thống này, BoVW đóng vai trò cầu nối giữa thông tin từ YOLOv8 và việc

ánh xạ vào KG.

Cụ thể, mỗi ảnh đầu vào được chuyển đổi thành một tập các từ thị giác, phản ánh các đối tượng

được nhận dạng và gán nhãn bởi YOLOv8. Các đối tượng này được tổ chức theo hai cấu trúc chính:

 Object: Đại diện cho một thực thể riêng lẻ trong ảnh, chứa các thông tin như ObjID (ID của

đối tượng), ImgID (ID của ảnh chứa đối tượng), Class (nhãn phân loại), Feature (đặc trưng), và

Conf (điểm tin cậy).

 Class: Đại diện cho nhóm đối tượng cùng loại, chứa các thông tin như ClassName, ObjCount

(số lượng đối tượng), và ObjList (danh sách các đối tượng thuộc nhóm).

Tập hợp các nhóm Class tạo nên BoVW, hình thành một không gian phân loại có cấu trúc. Quá

trình tổ chức đối tượng vào BoVW được thực hiện bằng cách duyệt qua từng ảnh, trích xuất danh

sách đối tượng và thêm vào các nhóm tương ứng theo lớp.

Hình 3. Minh họa cấu trúc túi từ thị giác

Hình 3 minh họa cấu trúc túi từ thị giác: từ ảnh đầu vào qua YOLOv8 sẽ nhận dạng các đối

tượng Object, sau đó các đối tượng sẽ được phân bổ vào túi từ tương ứng với từng Class.

TNU Journal of Science and Technology 230(07): 271 - 279

http://jst.tnu.edu.vn 275 Email: jst@tnu.edu.vn

2.2.3. Khung đồ thị tri thức (KGF)

Đồ thị tri thức đóng vai trò là khung lưu trữ, tổ chức thông tin về thực thể, liên hệ và thuộc tính

trong phương pháp đề xuất. Mỗi thực thể là một nút trong KG, còn mối quan hệ được thể hiện bằng

các cạnh nối giữa các nút. Các quan hệ chính bao gồm: IsA (xác định phân cấp giữa lớp và nút

gốc), HasA (liên kết đối tượng với lớp hoặc ảnh), HasSubcategory (mô tả quan hệ phân lớp con)

và IsAttributeOf (gắn đặc trưng histogram với ảnh). Trong đó, IsA và HasA là quan hệ cốt lõi để

hỗ trợ truy vấn. Các từ thị giác trong BoVW được ánh xạ thành các thực thể và quan hệ dựa trên

cấu trúc Class–Object đã tổ chức trước đó. Cụ thể, mỗi thực thể sẽ tạo ít nhất hai quan hệ:

(ClassName, HasA, Object) và (ImgID, HasA, Object). Các quan hệ này đóng vai trò tạo nên mạng

lưới tri thức để suy luận khi tra cứu. Ngoài các quan hệ cơ bản, mô hình có thể bổ sung các thuộc

tính mở rộng như vị trí, màu sắc để tăng độ phong phú cho KG.

Để chuyển đổi BoVW thành KG, hệ thống sử dụng thuật toán CKGF (Create Knowledge Graph

Framework), gồm các bước:

Bước 1: Với mỗi lớp trong BoVW, tạo quan hệ Thing – IsA → ClassName

Bước 2: Với mỗi đối tượng thuộc lớp đó, tạo các bộ ba:

o ClassName – HasA → Object

o ImgID – HasA → Object

o ImgID – HasA → ClassName (nếu chưa tồn tại)

Bước 3: Thêm các bộ ba vào KG nếu chưa xuất hiện trong KG

Nhờ cấu trúc bộ ba, đồ thị tri thức cho phép thực hiện truy vấn ngữ nghĩa hiệu quả và dễ dàng

mở rộng với các nguồn tri thức bổ sung. Hình 4 minh họa cho cấu trúc logic của KGF.

Hình 4. Minh họa cấu trúc của KGF

Trong Hình 4, node màu cam là ClassName, màu đỏ là ImgID, màu xanh là Object, bộ ba

ClassName – HasA → Object được biểu diễn bằng mũi tên HAS_A từ node cam sang node xanh, bộ

ba ImgID – HasA → Object được biểu diễn bằng mũi tên HAS_A từ node đỏ sang node xanh và bộ

ba ImgID – HasA → ClassName được biểu diễn bằng mũi tên HAS_A từ node đỏ sang node cam.

2.3. Thuật toán truy vấn

Sau khi KG được xây dựng từ tập ảnh huấn luyện, hệ thống triển khai thuật toán truy vấn để

tìm kiếm các ảnh trong cơ sở dữ liệu dựa trên mức độ tương đồng ngữ nghĩa với ảnh đầu vào. Thuật

toán RIKGF (Retrieval in Knowledge Graph Framework) như sau:

Input: Ảnh truy vấn

Một mô hình truy vấn ảnh sử dụng đồ thị tri thức và túi từ thị giác

Nghiên cứu này đề xuất một mô hình tích hợp gồm ba yếu tố chính: phát hiện thực thể bằng YOLOv8, biểu diễn đặc trưng thị giác với túi từ thị giác, và tổ chức thông tin bằng đồ thị tri thức.

Chủ đề:

Tài liệu liên quan

Tài liêu mới

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi