
ĐẠI HỌC HUẾ
TRƯỜNG ĐẠI HỌC KHOA HỌC
NGUYỄN THỊ ĐỊNH
PHÁT TRIỂN MÔ HÌNH TÌM KIẾM ẢNH DỰA
TRÊN CẤU TRÚC KD-TREE
Ngành: Khoa học máy tính
Mã số: 9480101
LUẬN ÁN TIẾN SĨ NGÀNH KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học
1. PGS. TS. Lê Mạnh Thạnh
2. TS. Văn Thế Thành
HUẾ, NĂM 2023

Công trình được hoàn thành tại: Khoa Công nghệ Thông tin,
Trường Đại học Khoa học, Đại học Huế.
Người hướng dẫn khoa học: PGS. TS. Lê Mạnh Thạnh
TS. Văn Thế Thành
Phản biện 1: PGS. TS. Trần Đăng Hưng, Trường Đại học Sư phạm
Hà Nội.
Phản biện 2: PGS. TS. Hồ Sỹ Đàm, Trường Đại học Công nghệ,
Đại học Quốc gia Hà Nội.
Phản biện 3: TS. Hoàng Bảo Hùng, Trung tâm Công nghệ thông
tin, tỉnh Thừa Thiên Huế.
Luận án sẽ được bảo vệ tại Hội đồng chấm luận án cấp
Đại học Huế họp tại: ………………………………………...
………………………………………………………………..
Vào hồi:….giờ….........ngày….........tháng….......năm.........
Có thể tìm hiểu luận án tại thư viện: Trung tâm thông tin thư viện,
Trường Đại học Khoa học, Đại học Huế.

1
MỞ ĐẦU
1. Tính cấp thiết của luận án
Dữ liệu ảnh số được ứng dụng trong một số bài toán như phân loại
bệnh nhân qua hình ảnh MRI [75], nhận diện đối tượng bằng hình ảnh
[77], v.v. Vì vậy, ảnh số đã trở nên cần thiết và đóng vai trò quan trọng
trong lĩnh vực tra cứu thông tin và nhận diện đối tượng bằng hình ảnh.
Một cấu trúc dữ liệu lưu trữ được đề xuất đáp ứng nhu cầu gia tăng
dữ liệu là cần thiết cho bài toán tìm kiếm ảnh, chẳng hạn như S-Tree
[38], C-Tree [52], KD-Tree [84], v.v. Trong luận án, cấu trúc dữ liệu
đa chiều KD-Tree được nghiên cứu và xây dựng cho bài toán tìm kiếm
ảnh đã mang lại kết quả khả quan, đáp ứng khả năng lưu trữ khi dữ
liệu tăng trưởng theo thời gian, phù hợp với dữ liệu véc-tơ đặc trưng
hình ảnh, thời gian tìm kiếm ổn định.
2. Tổng quan tình hình nghiên cứu
Tìm kiếm ảnh sử dụng các kỹ thuật gom cụm và phân lớp đã mang
lại những kết quả khả quan trong thập niên vừa qua; trong đó một số
công trình đã sử dụng kết hợp các kỹ thuật học máy k-Means, k-NN,
DNN, CNN, v.v [26], [63], [64]. Hầu hết các công trình này đều sử
dụng kỹ thuật phân lớp và gom cụm thành các nhóm dữ liệu tương
đồng trước khi thực hiện tìm kiếm ảnh. Tuy nhiên, quá trình kết hợp
các kỹ thuật học máy cho bài toán tìm kiếm ảnh còn những hạn chế về
một số yếu tố như: mở rộng khả năng lưu trữ theo nhu cầu dữ liệu tăng
trưởng, giảm thời gian tìm kiếm trên các tập dữ liệu ảnh lớn.
Tìm kiếm ảnh theo tiếp cận ngữ nghĩa sử dụng ontology là một
hướng tiếp cận đã mang lại nhiều kết quả khả quan trong thập niên vừa
qua. Cụ thể như Manzoor và cộng sự (2015) [44] đã đề xuất một
phương pháp tìm kiếm ảnh theo ngữ nghĩa dựa trên ontology để truy

2
xuất ngữ nghĩa hình ảnh có liên quan đến nội dung tìm kiếm của người
dùng. Olfa Allani và cộng sự (2016) [4] đề xuất một hệ thống tra cứu
ảnh tích hợp ngữ nghĩa với các đặc trưng thị giác để xây dựng một
ontology cho việc tra cứu và tổ chức các thông tin ngữ nghĩa hình ảnh.
Trên cơ sở tổng quan tình hình nghiên cứu và các hướng tiếp cận bài
toán tìm kiếm ảnh; một số định hướng được đề xuất và cải tiến nhằm
nâng cao độ chính xác cho bài toán tìm kiếm ảnh dựa trên cấu trúc
KD-Tree. Cuối cùng, kết hợp KD-Tree và Ontology để tìm kiếm ảnh
theo tiếp cận ngữ nghĩa được thực hiện.
3. Mục tiêu của luận án
Mục tiêu cụ thể của luận án gồm: (1) nghiên cứu cấu trúc dữ liệu
đa chiều KD-Tree; xây dựng các thuật toán thao tác trên KD-Tree tổ
chức lưu trữ véc-tơ đặc trưng hình ảnh; (2) phát triển cấu trúc KD-
Tree, đồng thời xây dựng và bổ sung ngữ nghĩa cho các bộ dữ liệu
thực nghiệm nhằm thực hiện mô hình tìm kiếm ảnh theo tiếp cận ngữ
nghĩa; (3) phát triển mô hình tìm kiếm ảnh bằng cách kết hợp các
phương pháp học có giám sát, bán giám sát để tạo ra mô hình phân lớp
hình ảnh, gom cụm dữ liệu dựa trên cấu trúc KD-Tree.
4. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu: (1) các phương pháp phân cụm và phân lớp
dữ liệu; (2) cấu trúc phân cụm dữ liệu đa chiều; (3) cấu trúc Ontology
và phát triển Ontology; (4) các tập ảnh đơn đối tượng, đa đối tượng.
Phạm vi nghiên cứu: (1) các phương pháp học máy: học có giám
sát, và bán giám sát; (2) cấu trúc dữ liệu đa chiều KD-Tree; (3) các cải
tiến: iKD_Tree, KD-Tree lồng nhau, Re KD-Tree, RF KD-Tree; (4)
cấu trúc Ontology và ngôn ngữ truy vấn SPARQL; (5) các tập ảnh
COREL, Wang, Caltech-101, Caltech-256, MS-COCO, Flickr.
5. Phương pháp nghiên cứu

3
Phương pháp lý thuyết: (1) Tổng hợp các công trình nghiên cứu
liên quan đến tìm kiếm ảnh trong thời gian gần đây, quan tâm đến kết
quả của các công trình sử dụng mô hình học máy, tìm kiếm ảnh theo
ngữ nghĩa và các cấu trúc lưu trữ dạng cây. Nghiên cứu phương pháp
làm giàu Ontology và phát triển mô hình tìm kiếm ảnh theo tiếp cận
ngữ nghĩa. (2) Đề xuất mô hình tìm kiếm ảnh theo tiếp cận ngữ nghĩa,
đánh giá thực nghiệm, so sánh độ chính xác tìm kiếm ảnh với các công
trình cùng lĩnh vực để có sự điều chỉnh và cải tiến thích hợp.
Phương pháp thực nghiệm: (1) Các chương trình được viết bằng
ngôn ngữ cấp cao cho các thuật toán và trên hệ thống máy tính có cùng
cấu hình. (2) Dữ liệu thực nghiệm là các bộ dữ liệu ảnh chuẩn đã được
công bố và sử dụng trong các công trình có kết quả. Một số công việc
gồm: trích xuất đặc trưng hình ảnh cho các bộ dữ liệu ảnh tiêu chuẩn:
COREL [19], Wang [20], Caltech-101 [12], Caltech-256 [13], phát
hiện, phân đoạn ảnh đối tượng và trích xuất véc-tơ đặc trưng bộ ảnh
MS-COCO [21], Flickr [22]. (3) Xây dựng cấu trúc dữ liệu, cài đặt
thuật toán và mô hình đề xuất để thực nghiệm trên các bộ dữ liệu ảnh
chuẩn; so sánh kết quả thực nghiệm trên cùng bộ dữ liệu với các công
trình đã công bố, so sánh kết quả thực nghiệm của cùng một bộ dữ liệu
trên các mô hình đề xuất để minh chứng tính đúng đắn và hiệu quả của
cơ sở lý thuyết.
6. Bố cục của luận án
Luận án được trình bày trong 139 trang, mở đầu (08 trang), kết luận
và hướng phát triển (02 trang), danh mục các công trình khoa học của
tác giả liên quan đến luận án (1 trang), tài liệu tham khảo (07 trang),
luận án chia thành 3 chương. Chương 1 (21 trang) trình bày cơ sở lý
thuyết cho tìm kiếm ảnh và cấu trúc KD-Tree. Chương 2 (36 trang)
trình bày một số cải tiến cấu trúc KD-Tree cho tìm kiếm. Chương 3