ĐẠI HỌC HUẾ

TRƯỜNG ĐẠI HỌC KHOA HỌC

LÊ THỊ VĨNH THANH

KẾT HỢP CẤU TRÚC R-TREE VỚI ĐỒ THỊ TRI THỨC CHO MÔ HÌNH TÌM KIẾM ẢNH

Ngành: Khoa học máy tính Mã số: 9 48 01 01

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

Tập thể hướng dẫn khoa học: PGS. TS Lê Mạnh Thạnh TS. Văn Thế Thành

HUẾ, NĂM 2023

2

Công trình được hoàn thành tại: Khoa Công nghệ Thông

tin, Trường Đại học Khoa học, Đại học Huế.

Tập thể hướng dẫn khoa học: PGS. TS Lê Mạnh Thạnh

TS. Văn Thế Thành

Phản biện 1: PGS.TS. Nguyễn Thanh Bình, Trường Đại học Công

nghệ thông tin và Truyền thông Việt Hàn, Đại học Đà Nẵng.

Phản biện 2: PGS.TS. Đặng Văn Đức, Viện Công nghệ thông tin,

Viện Hàn lâm Khoa học và công nghệ Việt Nam.

Phản biện 3: TS. Phạm Thị Thu Thúy, Trường Đại học Nha

Trang.

Luận án sẽ được bảo vệ tại Hội đồng chấm luận án

cấp Đại học Huế họp tại:

………………………………………...

………………………………………………………………..

Vào hồi:...….giờ….........ngày….........tháng….......năm.........

Có thể tìm hiểu luận án tại thư viện: Trung tâm thông tin thư

viện, Trường Đại học Khoa học, Đại học Huế.

3

MỞ ĐẦU

1. Lý do chọn đề tài

Hiện nay, các hệ thống tìm kiếm ảnh đã được phát triển và đưa

vào nhiều ứng dụng khác nhau như nhận dạng tìm kiếm khuôn mặt

[1]; tìm kiếm ảnh hàng hóa [2]; tìm kiếm ảnh y tế [3], tìm kiếm ảnh

vệ tinh [4], v.v. Có hai phương pháp tìm kiếm ảnh thông dụng bao

gồm: tìm theo từ khóa TBIR (Text-based Image Retrieval) và tìm

theo nội dung CBIR (Content-based Image Retrieval). Phương pháp

CBIR tập trung vào việc trích xuất và so sánh các đặc trưng cấp thấp

(low-level features) của các hình ảnh như màu sắc, kết cấu, hình

dạng, vị trí và một số đặc trưng khác [7-9]. Các kết quả của nhiều

công trình nghiên cứu trong thập kỷ qua đã minh chứng tính hiệu quả

của các kỹ thuật dựa trên CBIR và đã ứng dụng trong nhiều hệ thống

tìm kiếm ảnh [10]. Hệ thống CBIR hỗ trợ người dùng tìm kiếm tập

các ảnh tương tự nhau về nội dung dựa trên các đặc trưng cấp thấp

nhưng các hình ảnh kết quả có thể khác nhau về ngữ nghĩa [11]. Đây

chính là khoảng cách giữa ngữ nghĩa cấp cao và các đặc trưng thị

giác cấp thấp của hình ảnh, việc thu hẹp khoảng cách này là một

trong những thách thức lớn trong các hệ tìm kiếm ảnh dựa trên nội

dung [12, 13]. Do đó, bài toán phân tích và tìm kiếm ảnh theo tiếp

cận ngữ nghĩa trong lĩnh vực thị giác máy tính đang rất được các nhà

nghiên cứu quan tâm [14-16]. Với sự tăng trưởng dữ liệu đa phương

tiện (bao gồm: hình ảnh, âm thanh, video, văn bản), các hệ thống xử

lý cần lưu trữ một khối lượng dữ liệu rất lớn [17]. Vì vậy, việc tạo

cấu trúc lưu trữ dữ liệu đa chiều cho các dạng dữ liệu đa phương tiện

là cần thiết để giúp quá trình tìm kiếm nhanh chóng và hiệu quả.

Trên cơ sở đó, luận án đề xuất thực hiện đề tài “Kết hợp cấu trúc R-

Tree với đồ thị tri thức cho mô hình tìm kiếm ảnh”.

4

2. Tổng quan tình hình nghiên cứu

Trong những năm gần đây, các hệ thống tìm kiếm ảnh được thực

hiện bởi nhiều phương pháp phân cụm dữ liệu khác nhau và mang lại

những kết quả tốt. Trong đó, R-Tree là cấu trúc dùng để phân cụm và

lưu trữ dữ liệu đa chiều dựa trên vùng không gian để phân hoạch dữ

liệu và được ứng dụng hiệu quả trong lĩnh vực tìm kiếm ảnh [16, 18].

Có nhiều công trình đã áp dụng các cấu trúc R-Tree cho bài toán

tìm kiếm ảnh tương tự nhằm nâng cao độ chính xác và giảm thời gian

tìm kiếm ảnh. Haldurai và cộng sự (2015) đã đề xuất một hệ tìm

kiếm ảnh tương tự theo nội dung sử dụng cấu trúc cây R-Tree [22].

Vanitha và cộng sự (2017) đã đề xuất một cấu trúc lưu trữ SR-Tree

ứng dụng cho hệ thống tìm kiếm ảnh tương tự theo nội dung [24].

Shama và cộng sự (2015) đã đề xuất một hệ thống tìm kiếm ảnh

tương tự sử dụng cấu trúc R*-Tree cho tập ảnh thực vật [23].

Alfarrarjeh và cộng sự (2020) đã đề xuất mô hình tìm kiếm ảnh dựa

trên cấu trúc R*-Tree ứng dụng cho bài toán tìm kiếm ảnh tương tự

với dữ liệu ảnh đường phố [21].

Các hệ thống tìm kiếm theo nội dung dựa trên các đặc trưng cấp

thấp đã đạt được nhiều kết quả khả quan và được áp dụng vào thực

tế. Tuy nhiên, hạn chế của các hệ thống này là tồn tại một độ sai lệch

giữa các đặc trưng cấp thấp và ngữ nghĩa cấp cao của hình ảnh

(semantic gap) [11]. Giải quyết “semantic gap” là một bài toán đầy

thách thức của các hệ thống tìm kiếm ảnh dựa trên nội dung [12].

Các công trình nghiên cứu gần đây đã áp dụng đồ thị tri thức và đồ

thị ngữ cảnh cho các hệ thống tìm kiếm theo tiếp cận ngữ nghĩa để

giảm “semantic gap” giữa các đặc trưng cấp thấp và ngữ nghĩa cấp

cao của hình ảnh [44-46], cụ thể như sau: Justin Jonhson và cộng sự

đã đề xuất một khung tìm kiếm ảnh theo ngữ nghĩa dựa trên khái

5

niệm đồ thị ngữ cảnh [27]. Wang, S. và cộng sự đã giới thiệu một mô

hình tìm kiếm ảnh sử dụng đồ thị ngữ cảnh bao gồm đồ thị ngữ cảnh

trực quan và đồ thị ngữ cảnh văn bản [28]. Yoon, S. và cộng sự đã

giới thiệu một cách tiếp cận mới để tìm kiếm ảnh dựa trên độ tương

tự của đồ thị ngữ cảnh sử dụng mạng nơ-ron đồ thị [29]. Qi, M. và

cộng sự đã đề xuất một khung mới để tìm kiếm ngữ cảnh trực tuyến

đa phương thức dựa trên các biểu diễn nhị phân và đồ thị ngữ nghĩa

[30]. Quinn, M. H. và cộng sự mô tả một kiến trúc tìm kiếm ảnh theo

ngữ nghĩa dựa trên tình huống trực quan của hình ảnh [31]. Do đó

phương pháp tìm kiếm ảnh kết hợp giữa đặc trưng cấp thấp và ngữ

nghĩa cấp cao dựa trên đồ thị tri thức cho các tập ảnh lớn là một định

hướng nghiên cứu phù hợp, mang tính cấp thiết và được ứng dụng hiệu

quả trong các hệ thống tìm kiếm ảnh tương tự.

3. Mục tiêu của luận án

Mục tiêu của luận án là phát triển các mô hình tìm kiếm ảnh dựa

trên cấu trúc R-Tree, đề xuất mô hình kết hợp cấu trúc này với biểu

diễn quan hệ ngữ nghĩa giữa các đối tượng hình ảnh nhằm nâng cao

độ chính xác tìm kiếm ảnh. Các mục tiêu cụ thể của luận án bao

gồm: (1) Nghiên cứu phương pháp lưu trữ dữ liệu đa chiều trên cấu

trúc R-Tree, đồng thời kết hợp đồ thị láng giềng vào cấu trúc cải tiến RS-Tree nhằm nâng cao hiệu quả lưu trữ và tìm kiếm; (2) Đề xuất sử dụng đồ thị tri thức để biểu diễn thông tin ngữ nghĩa và các mối quan

hệ ngữ nghĩa giữa các đối tượng trong hình ảnh; (3) Nghiên cứu các mô hình tìm kiếm ảnh dựa trên cấu trúc RS-Tree; kết hợp đồ thị láng giềng với RS-Tree; kết hợp RS-Tree với đồ thị tri thức.

4. Đối tượng và phạm vi nghiên cứu:

Đối tượng nghiên cứu: (1) Các cấu trúc cây phân cụm dữ liệu, tạo

véc-tơ đặc trưng đa chiều phục vụ cho bài toán tìm kiếm ảnh; (2) Các

6

thuật toán tạo cấu trúc lưu trữ dữ liệu và các thuật toán tìm kiếm ảnh;

(3) Đồ thị tri thức; (4) Các tập dữ liệu ảnh phổ biến.

Phạm vi nghiên cứu: (1) Tạo và cải tiến cấu trúc lưu trữ dữ liệu

đa chiều dựa trên cấu trúc R-Tree; (2) Các thuật toán xây dựng và

các thuật toán tìm kiếm trên cây; (3) Các phương pháp cải tiến cây

phân cụm với đồ thị cụm láng giềng; (4) Đồ thị tri thức, ngôn ngữ

OWL, truy vấn SPARQL; (5) Các tập dữ liệu ảnh bao gồm: COREL,

Oxford Flowers 17, Oxford Flowers 102, CUB-200-2011, Visual

Genome, MS-COCO.

5. Phương pháp nghiên cứu

Phương pháp lý thuyết: Tổng hợp, phân tích các công bố liên

quan đến tìm kiếm ảnh dựa trên cấu trúc R-Tree và tìm kiếm ảnh

theo tiếp cận ngữ nghĩa; đánh giá ưu, khuyết điểm của các công

trình nhằm đề xuất các cải tiến phù hợp.

Phương pháp thực nghiệm: Xây dựng thực nghiệm trích xuất

đặc trưng, cải tiến cấu trúc dữ liệu, đề xuất mô hình và cài đặt trên

các tập dữ liệu ảnh phổ biến. Các tập dữ liệu ảnh được sử dụng cho

cài đặt thực nghiệm bao gồm: COREL, Oxford Flowers 17, Oxford

Flowers 102, CUB-2011-200, Visual Genome và MS-COCO.

6. Bố cục của luận án

Luận án được trình bày trong 128 trang, mở đầu (09 trang), kết

luận và hướng phát triển (02 trang), danh mục các công trình khoa

học của tác giả liên quan đến luận án (01 trang), tài liệu tham khảo

(09 trang), luận án chia thành 3 chương. Chương 1 (22 trang) trình

bày các cơ sở lý thuyết về tìm kiếm ảnh và cấu trúc R-Tree. Chương 2 (38 trang) trình bày cấu trúc phân cụm dữ liệu RS-Tree và mô hình tìm kiếm ảnh theo nội dựa trên cấu trúc RS-Tree. Chương 3 (47 trang) đề xuất các cải tiến trên cấu trúc RS-Tree kết hợp đồ thị láng

7

giềng và đồ thị tri thức để nâng cao độ chính xác tìm kiếm ảnh.

7. Đóng góp của luận án

(1) Đề xuất các cải tiến đối với cấu trúc R-Tree và thiết kế RS-

Tree với các khối cầu dữ liệu kết hợp đồ thị láng giềng và xây dựng

cấu GraphNB-RST để nâng cao độ chính xác tìm kiếm ảnh. Đồng

thời, đề xuất các thuật toán và các mô hình tìm kiếm ảnh theo nội

dung dựa trên các cấu trúc đã xây dựng;

(2) Xây dựng đồ thị tri thức dựa trên tập dữ liệu ảnh Visual Genome và RS-Tree để lưu trữ và mô tả các thông tin ngữ nghĩa của

hình ảnh, các mối quan hệ ngữ nghĩa giữa các đối tượng trong ảnh.

Từ đó, xây dựng mô hình tìm kiếm ảnh theo tiếp cận ngữ nghĩa dựa trên sự kết hợp RS-Tree với đồ thị tri thức để nâng cao độ chính xác

tìm kiếm ảnh.

Chương 1. TỔNG QUAN VỀ TÌM KIẾM ẢNH, CẤU TRÚC

R-TREE VÀ ĐỒ THỊ TRI THỨC

1.1. Giới thiệu

Tìm kiếm ảnh theo nội dung được ứng dụng trong nhiều lĩnh vực

khác nhau của đời sống. Hai vấn đề quan trọng trong bài toán tìm

kiếm ảnh đó là (1) mô tả nội dung thị giác của hình ảnh bằng các đặc

trưng cấp thấp; (2) tạo cấu trúc dữ liệu lưu trữ cho nội dung thị giác

[16, 36]. Bên cạnh đó, nhiều phương pháp khác nhau được áp dụng

cho bài toán tìm kiếm ảnh theo tiếp cận ngữ nghĩa để giảm độ sai

lệch ngữ nghĩa giữa các đặc trưng cấp thấp và ngữ nghĩa cấp cao của

con người [48]. Do đó, việc kết hợp các phương pháp khác nhau cho

bài toán tìm kiếm ảnh cần được thực hiện nhằm nâng cao độ chính xác tìm kiếm.

8

1.2. Tìm kiếm ảnh dựa theo nội dung

Tìm kiếm ảnh theo nội dung là phương pháp thực hiện tìm kiếm

tập các hình ảnh tương tự dựa trên việc trích xuất tự động các đặc

trưng cấp thấp của hình ảnh như màu sắc, kết cấu và hình dạng, vị trí,

không gian. Hệ thống sẽ lưu trữ các đặc trưng cấp thấp của bộ dữ

liệu hình ảnh dưới dạng các véc-tơ đặc trưng đa chiều và đối sánh

các véc-tơ đặc trưng dựa trên một độ đo tương đồng [42].

Trong luận án này, các phương pháp trích xuất đặc trưng cấp thấp

được kết hợp bao gồm: đặc trưng màu sắc MPEG7 (25 đặc trưng);

đặc trưng vị trí Shi-tomasi MPEG7 (25 đặc trưng), đặc trưng vị trí và

kết cấu MaxPooling Sobel (48 đặc trưng); đặc trưng hình dạng và kết

cấu Sobel HOG (144 đặc trưng). Số đặc trưng của hình ảnh được

trích xuất là 242 chiều.

Bên cạnh đó, nhiều phương pháp tìm kiếm ảnh theo ngữ nghĩa

được đề xuất để giải quyết độ sai lệch ngữ nghĩa giữa nội dung cấp

thấp của hình ảnh với ngữ nghĩa cấp cao của con người: (1) Các kỹ

thuật học máy được sử dụng để liên kết các đặc trưng cấp thấp với

ngữ nghĩa của hình ảnh. (2) Tìm kiếm ảnh dựa trên đồ thị tri thức để

mô tả ngữ nghĩa hình ảnh và các mối quan hệ của các đối tượng

trong hình ảnh.

1.3. Cấu trúc R-Tree cho bài toán tìm kiếm ảnh

Từ việc khảo sát cấu trúc R-Tree và các biến thể của chúng cho

thấy rằng cấu trúc này được sử dụng để lưu trữ dữ liệu đa chiều và

được áp dụng trong bài toán tìm kiếm dữ liệu ảnh nhằm nâng cao

hiệu quả và tốc độ tìm kiếm. Trên cơ sở đó, trong luận án này, các mô hình tìm kiếm ảnh dựa trên cấu trúc RS-Tree được đề xuất trong phần 1.5. RS-Tree là một cấu trúc được cải tiến từ cấu trúc R-Tree

nguyên thủy và các biến thể của nó, được trình bày trong chương 2.

9

1.4. Tổng quan đồ thị tri thức

Đồ thị tri thức ngày càng được quan tâm vì cấu trúc trừu tượng

của nó đã giúp cho việc quản lý dữ liệu và khái niệm một cách hiệu

quả. Đồ thị tri thức mã hóa ngữ nghĩa và dữ liệu dưới dạng đồ thị bao

gồm: (1) Tri thức (ngữ nghĩa): các khái niệm và mối quan hệ giữa

các khái niệm là yếu tố quan trọng, chúng mã hóa tri thức để mô tả

các miền dữ liệu trong thế giới thực; (2) Đồ thị (dữ liệu): một cấu

trúc dữ liệu dựa trên các nút và cạnh cho phép tích hợp dữ liệu từ các

nguồn dữ liệu không đồng nhất, từ không có cấu trúc đến có cấu trúc.

1.5. Đồ thị ngữ cảnh

Đồ thị ngữ cảnh là một cấu trúc dữ liệu biểu diễn nội dung ngữ

nghĩa của hình ảnh bao gồm: các đối tượng, các thuộc tính của đối

tượng và mối quan hệ giữa các đối tượng [28]. Là một tri thức hữu

ích mô tả ngữ nghĩa chi tiết của hình ảnh và các chú thích, đồ thị ngữ

cảnh đã được ứng dụng trong nhiều nhiệm vụ bao gồm: chú thích

hình ảnh [82], tìm kiếm ảnh [83], trả lời câu hỏi cho hình ảnh(VQA)

[84] và tạo hình ảnh [85].

1.6. Mô hình tìm kiếm ảnh

Trong luận án này đề xuất mô hình tìm kiếm ảnh theo nội dung và ngữ nghĩa dựa trên sự kết hợp cấu trúc RS-Tree và đồ thị tri thức như

trong Hình 1.10. Trong mô hình này gồm hai pha: Pha tiền xử lý và

pha tìm kiếm.

Trong pha tiền: (1) xây dựng cấu trúc dữ liệu lưu trữ và phân cụm

dữ liệu ảnh; (2) xây dựng một đồ thị tri thức dùng để lưu trữ và mô tả

mối quan hệ ngữ nghĩa của các đối tượng trong hình ảnh.

Trong pha tìm kiếm ảnh: quá trình tìm kiếm ảnh theo nội dung và

ngữ nghĩa dựa trên sự kết hợp cấu trúc RS-Tree với đồ thị tri thức.

10

Hình 1.10. Mô hình tìm kiếm ảnh kết hợp RS-Tree với đồ thị tri thức

1.7. Các phương pháp tổ chức thực nghiệm và đánh giá

Để xác định hiệu quả của các mô hình được đề xuất, các phương

pháp tổ chức thực nghiệm và đánh giá trong luận án bao gồm: môi

trường thực nghiệm, các tập ảnh và các giá trị đánh giá hiệu suất.

1.8. Tổng kết chương

Chương này trình bày tổng quan tìm kiếm ảnh theo nội dung và

ngữ nghĩa dựa trên R-Tree và đồ thị tri thức. Các mô hình tìm kiếm

ảnh theo tiếp cận cây R-Tree được đề xuất. Ngoài ra, các phương

pháp tổ chức thực nghiệm được trình bày bao gồm: môi trường thực

nghiệm, tập dữ liệu thực nghiệm và các giá trị đánh giá.

Chương 2. TÌM KIẾM ẢNH DỰA TRÊN RS-TREE

2.1. Giới thiệu

Trên cơ sở các cấu trúc R-Tree và các biến thể được ứng dụng trong lĩnh vực tìm kiếm ảnh, một cấu trúc cây phân cụm dữ liệu RS-

Tree được đề xuất nhằm lưu trữ các véc-tơ đặc trưng cấp thấp của

11

hình ảnh. RS-Tree là cây đa nhánh cân bằng, mỗi nút trên cây được

phân cụm dựa vào độ đo tương tự theo phương pháp phân hoạch và

phân cấp, đảm bảo khả năng lưu trữ lớn trên cây. 2.2. Cấu trúc cây RS-Tree

RS-Tree là cây đa nhánh cân bằng ứng dụng cho bài toán tìm kiếm ảnh tương tự. Cây RS-Tree là cây phân hoạch dữ liệu không gian bao

gồm: một nút gốc, một tập nút trong và một tập nút lá.

𝐼 = (𝑣𝐼1, 𝑣𝐼2, 𝑣𝐼3, … , 𝑣𝐼𝑑). Trong đó, 𝑣𝐼𝑖 là các đặc trưng cấp thấp của ảnh I với 𝑖 = 1. . 𝑑 và 𝑣𝐼𝑖 ∈ [0,1]. Một khối cầu 𝑀𝐵𝑆 của thực thể 𝑠𝑝𝐸𝐷 là khối cầu chứa đối tượng 𝑓⃗

𝐼 gồm tâm 𝑐⃗𝑠𝑝 và bán kính 𝑟𝑠𝑝 như sau:

Cho hình ảnh I có véc-tơ đặc trưng 𝑓⃗

(2.1)

𝑐⃗𝑠𝑝 = (𝑐𝐼1, 𝑐𝐼2, 𝑐𝐼3, … , 𝑐𝐼𝑑)

𝑣𝐼𝑑

1) Tâm khối cầu thực thể:

𝑣𝐼2

𝑘⁄ , … , 𝑎𝐼𝑑 =

𝑘⁄ , với⁡𝑘 ≥ 2.

𝑘⁄ , 𝑎𝐼2 =

Với 𝑐𝐼𝑗 = max⁡(0, 𝑣𝐼𝑗 − 𝑎𝐼𝑗), 𝑗 = 1. . 𝑑 𝑣𝐼1

𝑑

(2.2)

𝑟𝑠𝑝 =

√∑(𝑐𝐼𝑗 − 𝑣𝐼𝑗)2

1 𝑑

𝑗=1

Trong đó, 𝑎𝐼1 = 2) Bán kính khối cầu thực thể:

𝑘

(2.3)

𝑐⃗𝑙 ⁡ =

Một khối cầu MBS của nút lá 𝑆𝑙 là khối cầu tối thiểu bao phủ tất cả các phần tử khối cầu thực thể chứa bên trong gồm tâm 𝑐⃗𝑙 và bán kính 𝑟𝑙 được mô tả như sau:

∑ sp𝑖. 𝑐⃗𝑖 𝑖=1

Trong đó, 𝑠𝑝1, 𝑠𝑝2, … 𝑠𝑝𝑘⁡là các phần tử khối cầu thực thể bên

1) Tâm khối cầu nút lá 𝑆𝐿: 1 𝑘

trong nút lá 𝑆𝐿 và sp𝑖. 𝑐𝑖⃗⃗⃗ là tâm của khối cầu sp𝑖, với 1 < 𝑖 < 𝑘.

(2.4)

𝑟𝑙 = Max𝑖=1..𝑘{𝑑𝐸(𝑐⃗𝑙, 𝑠𝑝𝑖. 𝑐⃗𝑖) + 𝑠𝑝𝑖. 𝑟𝑖}

Trong đó, 𝑑𝐸(𝑐⃗𝑙, 𝑠𝑝𝑖. 𝑐⃗𝑖) là khoảng cách Euclid từ véc-tơ tâm của

2) Bán kính khối cầu nút lá 𝑆𝐿:

12

nút 𝑆𝑙 đến véc-tơ tâm phần tử khối cầu thứ 𝑖 và 𝑠𝑝𝑖. 𝑟𝑖 là bán kính phần tử khối cầu thứ 𝑖.

Một khối cầu MBS của nút trong 𝑆𝑁 là khối cầu tối thiểu bao phủ tất cả các khối cầu của các nút trong nhánh cây con gồm véc-tơ tâm 𝑐⃗𝑛 = (𝑐1, 𝑐2, … 𝑐𝑑) và bán kính 𝑟𝑛 được mô tả như sau:

𝑘 1

(2.5)

, 𝑖 = 1. . 𝑑

𝑐𝑖 =

∑ 𝑆𝑗.𝑐⃗𝑗.𝑥𝑖×𝑆𝑗.𝑤 ∑ 𝑆𝑗.𝑤𝑘 1

Trong đó, 𝑗 là số nút con 𝑆1, 𝑆2, … , 𝑆𝑘 của nút trong 𝑆𝑁, 𝑑 là số chiều của véc-tơ đặc trưng, 𝑆𝑗. 𝑐⃗𝑗. 𝑥𝑖 là đặc trưng thứ 𝑖 của véc-tơ tâm 𝑐⃗𝑖⁡nút con 𝑆𝑗, 𝑆𝑗. 𝑤 là số phần tử chứa trong nút 𝑆𝑗.

1) Tâm khối cầu nút trong 𝑆𝑁:

(2.6)

𝑟𝑛 = Max𝑗=1..𝑘{𝑑𝐸(𝑐⃗𝑛, 𝑆𝑗. 𝑐⃗𝑗) + 𝑆𝑗. 𝑟𝑗}⁡

2) Bán kính khối cầu nút trong 𝑆𝑁:

2.3. Các nguyên tắc thực hiện thao tác trên cấu trúc RS-Tree

Để đảm bảo cho việc lưu trữ các đối tượng dữ liệu hình ảnh gia

tăng theo thời gian và nâng cao hiệu năng tìm kiếm ảnh. Việc thêm

phần tử 𝑠𝑝𝐸𝐷 được thực hiện từ nút gốc theo các nguyên tắc sau:

Nguyên tắc 1: Nếu nút 𝑟𝑜𝑜𝑡⁡ = 𝑁𝑢𝑙𝑙 Thực hiện tạo một nút gốc là nút lá gọi là 𝑆𝐿𝑟, đưa phần tử khối

cầu 𝑠𝑝𝐸𝐷 vào 𝑆𝐿𝑟, cập nhật tâm và bán kính của khối cầu. Nguyên tắc 2: Nếu 𝑟𝑜𝑜𝑡⁡ ≠ 𝑁𝑢𝑙𝑙 và 𝑟𝑜𝑜𝑡 là nút lá Tính khoảng cách⁡𝑑𝑖𝑠𝑡 = 𝑑𝐸(𝑠𝑝𝐸𝐷. 𝑐⃗𝑠𝑝, 𝑆𝐿𝑟. 𝑐⃗𝑟𝑙) + 𝑠𝑝𝐸𝐷. 𝑟𝑠𝑝 • Nếu 𝑑𝑖𝑠𝑡 ≤ 𝜃

+ Nếu 𝑟𝑜𝑜𝑡. 𝑐𝑜𝑢𝑛𝑡 < 𝑀:

Đưa 𝑠𝑝𝐸𝐷𝑖 vào 𝑆𝐿𝑟, cập nhật tâm và bán kính của 𝑆𝐿𝑟.

+ Nếu 𝑟𝑜𝑜𝑡. 𝑐𝑜𝑢𝑛𝑡 = 𝑀, tiến hành tách nút.

• Nếu 𝑑𝑖𝑠𝑡 > 𝜃 Tạo một nút lá mới 𝑆𝐿𝑛𝑒𝑤 để lưu 𝑠𝑝𝐸𝐷, tạo một nút 𝑟𝑜𝑜𝑡 mới là

13

nút trong gọi là 𝑆𝑁𝑟 liên kết đến 𝑆𝐿𝑟 và 𝑆𝐿𝑛𝑒𝑤.

Nguyên tắc 3: Nếu 𝑟𝑜𝑜𝑡⁡ ≠ 𝑁𝑢𝑙𝑙 và 𝑟𝑜𝑜𝑡 không phải nút lá.

Chọn hướng đi từ nút hiện hành đến các nút kế cận và chọn nhánh

phù hợp để đi cho đến khi gặp được nút lá hiện hành 𝑆𝐿𝑐𝑟𝑡.

Tính khoảng cách 𝑑𝑖𝑠𝑡 = 𝑑𝐸(𝑠𝑝𝐸𝐷. 𝑐⃗𝑠𝑝, 𝑆𝐿𝑐𝑟𝑡. 𝑐⃗𝑙𝑐𝑟𝑡) + 𝑠𝑝𝐸𝐷. 𝑟𝑠𝑝. • Nếu 𝑑𝑖𝑠𝑡 ≤ 𝜃

+ Nếu 𝑆𝐿𝑐𝑟𝑡. 𝑐𝑜𝑢𝑛𝑡 < 𝑀 Đưa 𝑠𝑝𝐸𝐷 vào nút lá hiện hành, cập nhật tâm, bán kính của

nút lá hiện hành và cập nhật đến nút gốc. + Nếu 𝑆𝐿𝑐𝑟𝑡. 𝑐𝑜𝑢𝑛𝑡 = 𝑀,⁡thực hiện tách nút.

• Nếu 𝑑 > 𝜃 Tạo một lá mới 𝑆𝐿𝑛𝑒𝑤 để lưu phần tử khối cầu 𝑠𝑝𝐸𝐷, thực hiện

cập nhật tâm và bán kính khối cầu từ nút lá hiện hành. 2.4. Mô hình hệ tìm kiếm ảnh dựa trên cấu trúc RS-Tree

Mô hình tìm kiếm ảnh theo nội dung với một ảnh tìm kiếm đầu vào dựa trên RS-Tree được minh họa như Hình 2.11. Quá trình tìm

kiếm ảnh được thực hiện gồm hai pha, pha thứ nhất thực hiện phân cụm và lưu trữ dữ liệu ảnh trên cây RS-Tree, pha thứ hai thực hiện

tìm kiếm các hình ảnh tương tự cho ảnh đầu vào.

Hình 2.11. Mô hình tìm kiếm ảnh CBIR_RST dựa trên RS-Tree

14

2.5. Thực nghiệm và đánh giá hệ tìm kiếm ảnh CBIR_RST Bảng 2.7. So sánh độ chính xác giữa các phương pháp trên tập ảnh COREL

Phương pháp Bibi, R., 2020 [94] Ahmed, K. T., 2019 [21] Chhabra P., 2020 [95] N.T.U. Nhi [96] CBIR_RST

MAP (%) 65,29 72,10 77,11 67,76 79,45

Bảng 2.8. So sánh độ chính xác giữa các phương pháp trên tập ảnh OF17

Phương pháp Ahmed, 2019 [21] S. Gao, 2014 [97] CBIR_RST

MAP (%) 77,10 73,43 78,69

Bảng 2.9. So sánh độ chính xác giữa các phương pháp trên tập ảnh OF102

Phương pháp Yang, J., 2017 [98] Unar, S., 2019 [99] Ahmed, K. T., 2019 [20] CBIR_RST

MAP (%) 73,20 71,00 71,40 73,16

Bảng 2.10. So sánh độ chính xác giữa các phương pháp trên tập ảnh CUB

Phương pháp Wei, X. S., 2016 [100] Wang, Z., 2018 [101] Zeng, H., 2019 [26] CBIR_RST

MAP (%) 65,80 66,57 70,10 68,17

Hình 2.20. Precision-Recall và ROC của bộ dữ liệu COREL

Hình 2.21. Precision-Recall và ROC của bộ dữ liệu OF17

15

Hình 2.22. Precision-Recall và ROC của bộ dữ liệu OF 102 (1-51)

Hình 2.23. Precision-Recall và ROC của bộ dữ liệu OF102 (52-102)

Hình 2.24. Precision-Recall và ROC của bộ dữ liệu CUB-200 (1-100)

Hình 2.25. Precision-Recall và ROC của bộ dữ liệu CUB-200 (101-200)

2.6. Tổng kết chương

Trong chương 2, cấu trúc RS-Tree được cải tiến để áp dụng cho bài toán tìm kiếm ảnh tương tự theo nội dung. Kết quả thực nghiệm

trong chương 2 được thực hiện trên các tập dữ liệu ảnh đã minh chứng tính hiệu quả của cấu trúc RS-Tree. Tuy nhiên, quá trình tách nút trên cây xảy ra thường xuyên trong quá trình tạo cây dẫn đến một

số phần tử tương tự nhau nằm trên các nút lá khác nhau. Điều này

ảnh hưởng đến hiệu suất tìm kiếm ảnh. Do đó, các cải tiến trên cấu trúc RS-Tree được thực hiện trong chương 3 để nâng cao hiệu quả

tìm kiếm ảnh về độ chính xác.

Chương 3. KẾT HỢP RS-TREE VÀ ĐỒ THỊ TRI THỨC TRONG TÌM KIẾM ẢNH

3.1. Giới thiệu

Các phương pháp cải tiến cây RS-Tree được đề xuất trong chương này bao gồm: (1) kết hợp RS-Tree và đồ thị cụm láng giềng để nâng

16

cao hiệu quả tìm kiếm ảnh theo nội dung; (2) kết hợp RS-Tree với đồ

thị tri thức để nâng cao hiệu quả tìm kiếm ảnh theo ngữ nghĩa. 3.2. RS-Tree kết hợp đồ thị láng giềng

Cấu trúc RS-Tree được được hình thành dựa trên tiến trình tách

nút trong quá trình tạo cây. Quá trình tách nút thường xuyên sẽ ảnh

hưởng đến hiệu quả phân cụm trên cây vì một số phần tử có thể bị

tách ra và không được phân bố vào đúng cụm lá của nó. Do đó, để

khắc phục khuyết điểm này, một cấu trúc đồ thị láng giềng được tạo ra trong quá trình tạo cấu trúc RS-Tree nhằm nâng cao hiệu quả tìm

kiếm ảnh độ chính xác.

Cho khối cầu nút lá 𝑆L1(𝑐⃗1, 𝑟1), 𝑆L2(𝑐⃗2, 𝑟2) có tâm lần lượt là 𝑐⃗1, 𝑐⃗2 và bán kính lần lượt là 𝑟1, 𝑟2. Hai khối cầu 𝑆L1, 𝑆L2 gọi là chồng lấp không gian, ký hiệu là 𝑂𝑣𝑒𝑟𝑙𝑎𝑝(𝑆𝐿1, 𝑆𝐿2), khi:

(3. 1) 𝑑𝐸(𝑆L1. 𝑐⃗1, 𝑆L2. 𝑐⃗2) < 𝑆𝐿1. 𝑟1 + 𝑆𝐿2. 𝑟2

với 𝑑𝐸 là hàm khoảng cách Euclid.

Cho hai khối cầu nút lá 𝑆L1(𝑐⃗1, 𝑟1), 𝑆L2(𝑐⃗2, 𝑟2) có tâm lần lượt là 𝑐⃗1, 𝑐⃗2 và bán kính lần lượt là 𝑟1, 𝑟2. Giả sử 𝑆L1, 𝑆L2 không chồng lấp không gian. Khoảng cách của hai vùng không gian 𝑆L1, 𝑆L2, ký hiệu 𝑑𝑖𝑠𝑡𝑒𝑝𝑠(𝑆𝐿1, 𝑆𝐿2),

disteps = dE(SL1. c⃗1, SL2. c⃗2)-(SL1. r1 + SL2. r2)

(3. 2) Cho một nút lá bất kỳ 𝑆Lk, gọi Ο = {𝑠𝑝𝐸𝐷𝑖, 𝑖⁡ = ⁡1. . 𝑀} là các phần tử dữ liệu được lưu trữ trong nút lá 𝑆Lk. Trong đó, M là số lượng phần tử của nút lá 𝑆Lk. Giả sử, labelα là nhãn lớp bất kỳ thuộc tập phân lớp của bộ dữ liệu thực nghiệm. Phân lớp của nút lá 𝑆Lk được xác định như sau:

(3. 3) class(SLk) =< labelα| max{count(spEDi)} , spEDi. label = labelα > Gọi 𝐶𝑆𝐿 là tập các nút lá trên cấu trúc RS-Tree, 𝑆𝐿𝑘là một nút lá bất kỳ 𝑆𝐿𝑘 ∈ 𝐶𝑆𝐿 , một ngưỡng ε ∈ (0,1) cho trước, 𝑑𝐸𝑢 là hàm

17

khoảng cách Euclid, class(𝑆𝐿𝑘) là hàm phân lớp của nút lá 𝑆𝐿𝑘. Định nghĩa 3.1. (Các loại láng giềng)

1. Láng giềng 𝑜𝑣𝑒𝑟𝑙𝑎𝑝 của nút lá 𝑆𝐿𝑘 là tập hợp

(3. 4) No(SLk) = {SL ∈ CSL⁡\{SLk}|Overlap(SLk, SL)}

(3. 5)

2. Láng giềng 𝑒𝑝𝑠𝑖𝑙𝑜𝑛 của nút lá 𝑆𝐿𝑘 là tập hợp Ne(SLk) = {SL ∈ CSL⁡\{SLk}|distesp(SLk, SL) ≤ ε} 3. Láng giềng 𝑐𝑙𝑎𝑠𝑠𝑒𝑠 của nút lá 𝑆𝐿𝑘 là tập hợp

(3. 6) Nc(SLk) = {SL ∈ CSL⁡|class(SLk) = class(SL)}

4. Láng giềng của một nút lá 𝑆𝐿𝑘, ký hiệu 𝑁𝑛(𝑆𝐿𝑘), là hội của tất cả các phần tử láng giềng overlap, epsilon và classes, có

nghĩa là: Nn(SLk) = No(SLk) ∪ Ne(SLk) ∪ Nc(SLk)

(3. 7) Trên cơ sở Định nghĩa 3.1, một đồ thị láng giềng của nút lá 𝑆𝐿𝑘

được mô tả và được định nghĩa như sau:

Định nghĩa 3.2. (Đồ thị láng giềng) Đồ thị láng giềng của nút lá 𝑆𝐿𝑘 là một đồ thị ký hiệu là 𝐺𝑁𝐵𝐿 ⁡ =⁡< 𝑉, 𝐸 > trong đó,

𝑉 = {𝑆𝐿𝑘} ∪ 𝑁𝑛(𝑆𝐿𝑘), 𝐸 = {(𝑣, 𝑣𝑖)}|𝑣 = 𝑆𝐿𝑘, 𝑣𝑖 ∈ 𝑉 ∖ {𝑆𝐿𝑘}.

(3. 8)

3.3. Đồ thị tri thức từ bộ dữ liệu Visual Genome

Phần này trình bày tiến trình xây dựng KG để mô tả ngữ nghĩa

cho hình ảnh. Một đồ thị tri thức được tạo ra từ các thành phần này

bằng cách sử dụng ngôn ngữ OWL bao gồm một tập hợp các đỉnh là

các thực thể và tập các cạnh là mối quan hệ giữa chúng. Các đỉnh

trên đồ thị tri thức bao gồm bốn loại (1) lớp; (2) cá thể lớp; (3) cá thể

đối tượng; (4) cá thể ảnh. Các quan hệ của các đối tượng trong ảnh

bao gồm quan hệ không gian, quan hệ hành động, quan hệ động từ

miêu tả và quan hệ so sánh.

18

Hình 3.9. Tiến trình xây dựng đồ thị tri thức

Một đồ thị tri thức là đồ thị được ký hiệu 𝐺 =< 𝑉, 𝐴, 𝐸 >, trong đó 𝑉 = {𝑣1, 𝑣2, … , 𝑣𝑛} là tập các đỉnh của đồ thị, 𝑣i là các nhãn, hoặc các khái niệm, hoặc các thể hiện; 𝐴 = {𝑎1, 𝑎2, … , 𝑎𝑛} là tập các thuộc tính, 𝑎𝑖 là tập các thuộc tính hoặc thể hiện; 𝐸 = {𝑒1, 𝑒2, … , 𝑒𝑛} là tập các cạnh của đồ thị, 𝑒𝑖 là mối quan hệ giữa khái niệm và cá thể, hoặc mối quan hệ giữa khái niệm và thuộc tính, hoặc

mối quan hệ giữa cá thể và thuộc tính hoặc giữa các cá thể.

Hình 3.13 Mô hình của đồ thị tri thức

Các thành phần trong cấu trúc KG bao gồm: (1) Các loại nút:

Phân lớp (Classes), Cá thể (inClass, OBJ, IMG); (2) Các loại mối

quan hệ: thuộc tính đối tượng (opOBJinv, opIMGinv, opIMGobj),

mối quan hệ giữa các đối tượng (ON, IN, OF, WEAR, RIDE, …); (3)

Thuộc tính dữ liệu: inClass, OBJ, IMG; (4) Các chú thích thuộc tính

của mối quan hệ (anoRELSynsetID, anoRELPredicate,

anoRELRelationID, anoRELWordNet, anoRELDescription).

19

3.4. Hệ tìm kiếm ảnh dựa trên RS-Tree và đồ thị tri thức

Trong phần này, một mô hình tìm kiếm hình ảnh dựa trên ngữ nghĩa dựa trên cấu trúc RS-Tree kết hợp đồ thị láng giềng và đồ thị tri

thức, đặt tên là SBIR_RSTKG, bao gồm hai pha: Pha thứ nhất: Quá trình xây dựng RS-Tree kết hợp đồ thị láng giềng và đồ thị tri thức; Pha thứ hai: Quá trình tìm kiếm hình ảnh dựa trên ngữ nghĩa được thực hiện trên RS-Tree và các mô tả dữ liệu hình ảnh và tập ảnh tương tự theo ngữ nghĩa.

Hình 3.26. Mô hình tìm kiếm ảnh theo ngữ nghĩa sử dụng RS-Tree và KG

3.5. Thực nghiệm và đánh giá

Hình 3.34. Precision-Recall và ROC của bộ dữ liệu COREL

Hình 3.35. Precision-Recall và ROC của bộ dữ liệu OF17

20

Hình 3.36. Precision-Recall và ROC của bộ dữ liệu OF102

Hình 3.37. Precision-Recall và ROC của bộ dữ liệu CUB-2011-200

Hình 3.38. Precision-Recall và ROC của bộ dữ liệu MS-COCO

Hình 3.39. Precision-Recall và ROC của bộ dữ liệu Dataset 1-VG

Hình 3.40. Precision-Recall và ROC của bộ dữ liệu Dataset 2-VG

Kết quả thực nghiệm trên cấu trúc Knowledge Graph được thể hiện

như trong Hình 3.40-3.42.

Hình 3.41. Precision-Recall và ROC của bộ dữ liệu MS-COCO

Hình 3.42. Precision-Recall và ROC của bộ dữ liệu Dataset 1 -VG

Hình 3.43. Precision-Recall và ROC của bộ dữ liệu Dataset 2 -VG

21

Bảng 3.11. So sánh độ chính xác của các phương pháp trên tập ảnh COREL

Phương pháp Ahmed, K. T., 2019 [21] Chhabra P., 2020 [95] N.T.U. Nhi, 2021 [96] CBIR_RST CBIR_NBGraphRST

MAP (%) 72,10 77,11 67,76 79,45 88,98

Bảng 3.12. So sánh độ chính xác của các phương pháp trên tập ảnh OF17

Phương pháp Ahmed, 2019 [21] S. Gao, 2014 [97] Gonçalves, F.M.F., 2018 [14] CBIR_RST CBIR_NBGraphRST

MAP (%) 77,10 73,43 85.39 78,69 89,76

Bảng 3.13. So sánh độ chính xác của các phương pháp trên tập ảnh OF102

Phương pháp Gonçalves, F.M.F., 2018 [14] Ahmed, K. T., 2019 [21] Lin, H., 2021 [111] CBIR_RST CBIR_NBGraphRST

MAP (%) 73.31 71,40 77.93 73,16 80,52

Bảng 3.14. So sánh độ chính xác của các phương pháp trên tập ảnh CUB

Phương pháp Wei, X. S., 2016 [100] Wang, Z., 2018 [101] Zeng, H., 2019 [26] CBIR_RST CBIR_NBGraphRST

MAP (%) 65,80 66,57 70,10 68,17 79,86

Bảng 3.15. So sánh độ chính xác của các phương pháp trên tập ảnh MS-COCO

Các phương pháp Cao, Y., 2018 [112] Cao, Z., 2017 [113] Yan, C., 2020 [114] CBIR_NBGraphRST SBIR_RSTKG

MAP(%) 70.13 73.62 80.62 75.49 81.19

22

3.6. Tổng kết chương

Trong chương này, một mô hình tìm kiếm ảnh tương tự theo nội dung và ngữ nghĩa được đề xuất dựa trên cấu trúc RS-Tree kết hợp

với đồ thị láng giềng và đồ thị tri thức. Có hai đóng góp chính trong

chương đó là (1) xây dựng mô hình tìm kiếm ảnh theo nội dung và

ngữ nghĩa; (2) xây dựng một đồ thị tri thức để lưu trữ và mô tả ngữ

nghĩa cho các ảnh đa đối tượng. Kết quả thực nghiệm đã cho thấy

tính hiệu quả của phương pháp đề xuất.

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Luận án đã tiếp cận mô hình tìm kiếm ảnh dựa trên cấu trúc RS-

Tree. Đóng góp chính của luận án là (1) cải tiến phương pháp xây

dựng cây dựa trên cấu trúc R-Tree, đồng thời cải tiến trên cấu trúc RS-Tree kết hợp đồ thị láng giềng để nâng cao độ chính xác tìm kiếm

ảnh; (2) đề xuất một mô hình đồ thị tri thức để mô tả ngữ nghĩa giữa

các đối tượng trong hình ảnh áp dụng cho bài toán truy vấn theo ngữ

nghĩa. Kết quả thực nghiệm cho thấy các phương pháp đề xuất đã

nâng cao độ chính xác tìm kiếm ảnh.

Đầu tiên, chúng tôi thiết kế cấu trúc RS-Tree để lưu trữ và phân

cụm dữ liệu ảnh áp dụng cho bài toán tìm kiếm ảnh tương tự. Trên cơ

sở lý thuyết đề xuất, chúng tôi xây dựng một mô hình tìm kiếm ảnh theo nội dung dựa trên cấu trúc RS-Tree. Kết quả thực nghiệm đã minh chứng hiệu quả của cấu trúc RS-Tree áp dụng cho bài toán tìm

kiếm ảnh. Thứ hai, chúng tôi đề xuất một mô hình dựa trên sự kết hợp RS-Tree và đồ thị cụm láng giềng để nâng cao độ chính xác tìm

kiếm ảnh. Kết quả thực nghiệm của mô hình này đã nâng cao được

độ chính xác tìm kiếm ảnh do thực hiện hai quy trình tìm kiếm dựa trên cấu trúc RS-Tree và đồ thị láng giềng. Cuối cùng, chúng tôi đề

23

xuất một mô hình tìm kiếm theo tiếp cận ngữ nghĩa kết hợp RS-Tree

với đồ thị tri thức để cải thiện hơn nữa độ chính xác tìm kiếm ảnh.

Luận án xây dựng thực nghiệm và đánh giá trên các tập dữ liệu

ảnh đơn đối tượng và đa đối tượng, các tập dữ liệu ảnh đơn đối tượng

bao gồm: COREL, Oxford Flowers 17, Oxford Flowers 102, và

CUB-2011-200; các tập dữ liệu ảnh đa đối tượng bao gồm: Visual

Genome và MS-COCO. Các kết quả thực nghiệm trên các mô hình

tìm kiếm ảnh cũng được so sánh với các công trình gần đây trên từng

tập dữ liệu ảnh. Kết quả so sánh chứng tỏ các phương pháp đề xuất là

đúng đắn và nâng cao độ chính xác tìm kiếm ảnh, đáp ứng mục tiêu

đề ra của luận án.

Trên cơ sở lý thuyết và thực nghiệm đã xây dựng, các định

hướng nghiên cứu trong tương lai bao gồm:

(1) Nghiên cứu các phương pháp tạo đồ thị ngữ cảnh tự động

cho ảnh đầu vào dựa trên mạng R-CNN, GCN và đồ thị tri thức;

(2) Làm giàu đồ thị tri thức dựa trên các phương pháp dự

đoán nhãn đỉnh và dự đoán mối quan hệ giữa các đỉnh trong đồ thị tri

thức sử dụng mạng tích chập đồ thị GCN và đồ thị tri thức;

(3) Thực hiện tạo chú thích hình ảnh dựa trên đồ thị tri thức

có đánh trọng số và các thuật toán tìm đường đi trên đồ thị tri thức;

(4) Xây dựng chương trình cho các ứng dụng thực tế trong

các lĩnh vực khác nhau.

24

DANH MỤC CÁC CÔNG TRÌNH CỦA TÁC GIẢ

A1.

A2.

A3.

A4.

A5.

A6.

A7.

A8.

A9.

Lê Thị Vĩnh Thanh, Phan Thị Ngọc Mai, Văn Thế Thành, Lê Mạnh Thạnh, (2020), “Tìm kiếm ảnh theo ngữ nghĩa dựa trên phương pháp gom cụm và ontology”. Kỷ yếu Hội thảo Quốc gia về Nghiên cứu cơ bản và ứng dụng CNTT (FAIR), ĐH Nha Trang, Nhà xuất bản Khoa học Tự nhiên và Công nghệ, ISBN: 978-604-9985-77-5, tr. 612-622. Lê Thị Vĩnh Thanh, Văn Thế Thành, Lê Mạnh Thạnh, (2021), “Một phương pháp tìm kiếm ảnh hiệu quả dựa trên cấu trúc R-Tree”, Kỷ yếu Hội thảo Quốc gia về Công nghệ thông tin và ứng dụng trong các lĩnh vực (CITA2021), Đại học Đà Nẵng, Nhà xuất bản Đà Nẵng, ISBN: 978- 604-84-5998-7, tr. 259-271. Lê, M. T., Lê, T. V. T., Lương, T. T. X., Nguyen, T. D., & Văn, T. T., (2022), “Một mô hình tìm kiếm ảnh dựa trên cấu trúc R-Tree kết hợp KD-Tree Random Forest”. Các công trình nghiên cứu, phát triển và ứng dụng Công nghệ Thông tin và Truyền thông, ISSN: 1859-3526, tr. 29-41. Le Thi Vinh Thanh, Van The Thanh, Le Manh Thanh, (2022), “An improvement of R-Tree for content-based image retrieval”, Annales Univ. Sci. Budapest. Sect. Comp., Vol. 53, pp. 29-55. Thanh, L. T. V., & Thanh, L. M, (2022), “Semantic-Based Image Retrieval using RS-Tree and Neighbor Graph”. In World Conference on Information Systems and Technologies. Springer, Cham. pp. 165-176. Thanh, L.T.V., Van, T.T., Le, T.M., (2022), “Semantic-Based Image Retrieval Using RS-Tree and Knowledge Graph”. In: Nguyen, N.T., Tran, T.K., Tukayev, U., Hong, TP., Trawiński, B., Szczerbicki, E. (eds) Intelligent Information and Database Systems. ACIIDS 2022. Lecture Notes in Computer Science(), vol 13757. Springer, Cham, pp. 481-495. Lê Thị Vĩnh Thanh, Văn Thế Thành, Lê Mạnh Thạnh, (2022), “Tìm kiếm ảnh theo ngữ nghĩa dựa trên cấu trúc iRS-Tree và ontology”, Hue University Journal of Science: Techniques and Technology, T. …, S. …. Lê Thị Vĩnh Thanh, Văn Thế Thành, Lê Mạnh Thạnh, (2022),“Một khảo sát về cấu trúc R-tree cho bài toán tìm kiếm ảnh”, Tạp chí khoa học và công nghệ, Trường Đại học Khoa học, ĐH Huế, Tập …, Số … Lê Thị Vĩnh Thanh, Văn Thế Thành, (2022),“Tìm kiếm ảnh dựa trên đồ thị láng giềng và đồ thị ngữ nghĩa”, Kỷ yếu Hội tảo Quốc gia về Nghiên cứu cơ bản và ứng dụng CNTT (FAIR), Học Viện Kỹ Thuật Mật Mã, Nhà xuất bản Khoa học Tự nhiên và Công nghệ, ISBN: 978-604-357-119-6, tr 400-412.

LIÊN QUAN ĐẾN LUẬN ÁN