intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận án Tiến sĩ Khoa học máy tính: Kết hợp cấu trúc R-Tree với đồ thị tri thức cho mô hình tìm kiếm ảnh

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:139

18
lượt xem
9
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục tiêu của luận án "Kết hợp cấu trúc R-Tree với đồ thị tri thức cho mô hình tìm kiếm ảnh" là phát triển các mô hình tìm kiếm ảnh tương tự dựa trên cấu trúc R-Tree, đề xuất mô hình kết hợp cấu trúc này với biểu diễn quan hệ ngữ nghĩa giữa các đối tượng hình ảnh nhằm nâng cao độ chính xác tìm kiếm ảnh.

Chủ đề:
Lưu

Nội dung Text: Luận án Tiến sĩ Khoa học máy tính: Kết hợp cấu trúc R-Tree với đồ thị tri thức cho mô hình tìm kiếm ảnh

  1. ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KHOA HỌC LÊ THỊ VĨNH THANH KẾT HỢP CẤU TRÚC R-TREE VỚI ĐỒ THỊ TRI THỨC CHO MÔ HÌNH TÌM KIẾM ẢNH LUẬN ÁN TIẾN SĨ NGÀNH KHOA HỌC MÁY TÍNH HUẾ, NĂM 2023
  2. ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KHOA HỌC LÊ THỊ VĨNH THANH KẾT HỢP CẤU TRÚC R-TREE VỚI ĐỒ THỊ TRI THỨC CHO MÔ HÌNH TÌM KIẾM ẢNH NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 9480101 LUẬN ÁN TIẾN SĨ NGÀNH KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC PGS. TS. LÊ MẠNH THẠNH TS. VĂN THẾ THÀNH HUẾ, NĂM 2023
  3. LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Nội dung tham khảo từ các công trình khác đều được trích dẫn rõ ràng. Các kết quả viết chung với các tác giả khác đều được sự đồng ý trước khi đưa vào luận án. Các kết quả của luận án là trung thực và chưa được công bố trong các công trình khác ngoài các công trình của tác giả. Tác giả Lê Thị Vĩnh Thanh i
  4. LỜI CÁM ƠN Em xin gửi lời cảm ơn chân thành đến Thầy PGS. TS Lê Mạnh Thạnh và Thầy TS. Văn Thế Thành đã tận tình hướng dẫn em để thực hiện tốt nhiệm vụ nghiên cứu và hoàn thành luận án này. Em xin gửi lời cảm ơn đến các thầy cô khoa Công nghệ thông tin của trường Đại học Khoa học đã chia sẻ và góp ý xác đáng trong quá trình thực hiện luận án. Em xin gửi lời cảm ơn sâu sắc đến Phòng Đào tạo Sau Đại học, lãnh đạo Trường Đại học Khoa học, lãnh đạo Đại học Huế đã tạo điều kiện thuận lợi cho em trong suốt quá trình học tập và thực hiện luận án. Tôi xin gửi lời cảm ơn đến Ban giám hiệu, các đồng nghiệp là cán bộ, giảng viên Trường Đại học Bà Rịa Vũng Tàu đã tạo mọi điều kiện thuận lợi, đã động viên tôi trong quá trình học tập và nghiên cứu. Tôi xin gửi lời cảm ơn đến tất cả bạn bè và những người xung quanh luôn chia sẻ, động viên trong những lúc khó khăn. Xin gửi lời cảm ơn và bày tỏ lòng biết ơn vô hạn đến những người thân yêu, ba mẹ, chồng và các con đã hỗ trợ, ủng hộ trong suốt quá trình học tập, nghiên cứu. Tác giả ii
  5. MỤC LỤC LỜI CAM ĐOAN ....................................................................................................... i LỜI CÁM ƠN ............................................................................................................ ii DANH MỤC KÝ HIỆU VÀ CHỮ VIẾT TẮT ..........................................................v DANH MỤC HÌNH ẢNH ....................................................................................... vii DANH MỤC BẢNG BIỂU ...................................................................................... ix PHẦN MỞ ĐẦU .........................................................................................................1 CHƯƠNG 1. .. TỔNG QUAN VỀ TÌM KIẾM ẢNH, CẤU TRÚC R-TREE VÀ ĐỒ THỊ TRI THỨC .........................................................................................................10 1.1. Giới thiệu........................................................................................................10 1.2. Tìm kiếm ảnh theo nội dung ..........................................................................11 1.2.1. Đặc trưng hình ảnh .....................................................................................12 1.2.2. Độ đo tương tự giữa hai hình ảnh...............................................................17 1.3. Cấu trúc R-Tree và các biến thể cho tìm kiếm ảnh ........................................19 1.4. Đồ thị tri thức .................................................................................................23 1.5. Đồ thị ngữ cảnh ..............................................................................................24 1.6. Kiến trúc hệ thống tìm kiếm ảnh ....................................................................26 1.7. Môi trường thực nghiệm và độ đo đánh giá ...................................................28 1.8. Tổng kết chương ............................................................................................31 CHƯƠNG 2.TÌM KIẾM ẢNH DỰA TRÊN RS-TREE ...........................................32 2.1. Giới thiệu........................................................................................................32 2.2. Cấu trúc RS-Tree ............................................................................................35 2.2.1. Mô tả cấu trúc RS-Tree ...............................................................................35 2.2.2. Xây dựng cấu trúc RS-Tree.........................................................................41 2.3. Các thao tác trên cấu trúc RS-Tree .................................................................44 2.3.1. Tiêu chí lựa chọn nút lá phù hợp ................................................................44 2.3.2. Thêm phần tử vào cây ................................................................................47 2.3.3. Cập nhật tâm và bán kính khối cầu ............................................................49 2.3.4. Tách nút ......................................................................................................50 2.4. Tìm kiếm ảnh theo nội dung dựa trên RS-Tree ..............................................54 2.4.1. Mô hình tìm kiếm ảnh dựa trên RS-Tree ....................................................54 2.4.2. Thuật toán tìm kiếm ảnh .............................................................................55 2.5. Thực nghiệm và đánh giá ...............................................................................56 2.6. Tổng kết chương ............................................................................................69 iii
  6. CHƯƠNG 3. ... KẾT HỢP RS-TREE VÀ ĐỒ THỊ TRI THỨC TRONG TÌM KIẾM ẢNH ..........................................................................................................................70 3.1. Giới thiệu........................................................................................................70 3.2. RS-Tree kết hợp đồ thị láng giềng ..................................................................72 3.2.1. Khái niệm cơ sở ..........................................................................................72 3.2.2. Cấu trúc đồ thị cụm láng giềng ..................................................................76 3.2.3. Thuật toán tạo đồ thị láng giềng .................................................................77 3.2.4. Tìm kiếm ảnh theo nội dung dựa trên cấu trúc NBGraphRST...................79 3.3. Khung đồ thị tri thức cho dữ liệu hình ảnh ....................................................80 3.3.1. Quy trình xây dựng đồ thị tri thức ..............................................................80 3.3.2. Quá trình xây dựng đồ thị tri thức ..............................................................83 3.3.3. Các thuật toán xây dựng đồ thị tri thức ......................................................91 3.4. Tìm kiếm ảnh kết hợp RS-Tree với đồ thị tri thức .........................................94 3.4.1. Nhận dạng đối tượng bằng Faster-RCNN ..................................................94 3.4.2. Mô hình tìm kiếm ảnh kết hợp RS-Tree và đồ thị tri thức ..........................96 3.4.3. Thuật toán tìm kiếm ảnh .............................................................................99 3.5. Thực nghiệm và đánh giá .............................................................................101 3.5.1. Mô tả bộ dữ liệu Visual Genome .............................................................101 3.5.2. Thực nghiệm .............................................................................................102 3.5.3. Đánh giá thực nghiệm ..............................................................................114 3.6. Tổng kết chương ..........................................................................................116 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ..............................................................118 DANH MỤC CÁC CÔNG TRÌNH NGHIÊN CỨU CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN ......................................................................................................120 TÀI LIỆU THAM KHẢO .......................................................................................121 iv
  7. DANH MỤC KÝ HIỆU VÀ CHỮ VIẾT TẮT Ký hiệu Diễn giải tiếng Anh Diễn giải tiếng Việt ARN Attentive Relational Network Mạng mối quan hệ tập trung ARP Average Retrieval Precision Độ chính xác trung bình AUC Area Under the Curve Diện tích dưới đường cong Content-Based Image CBIR Tìm kiếm ảnh theo nội dung Retrieval Content-based Image Retrieval Tìm ảnh theo nội dung dựa trên CBIR_NBGraphRST on RS-Tree and Neighbor RS-Tree và đồ thị láng giềng Graph Content-Based Image Tìm kiếm ảnh theo nội dung CBIR-RST Retrieval on RS-Tree dựa trên RS-Tree CCM Color Co-occurrence Matrix Ma trận đồng xuất hiện màu CDH Color Difference Histogram Lược đồ màu CNN Convolutional Neural Network Mạng nơ-ron tích chập Trường ngẫu nhiên có điều CRF Conditional Random Field kiện CSD Color Structure Descriptor Bộ mô tả cấu trúc màu DCD Dominant Color Descriptor Bộ mô tả màu chủ đạo DWT Discrete Wavelet Transform Phép biến đổi Wavelet rời rạc EDH Edge Histogram Descriptor Bộ mô tả lược đồ biên FCM Fuzzy C-means Clustering Phân cụm mờ C-means GCN Graph Convolutional Network Mạng tích chập đồ thị Gray-level Co-occurrence Ma trận đồng xuất hiện mức GLCM Matrix xám GMM Gaussian Mixture Models Mô hình hỗn hợp Gauss Histograms of Oriented HOG Lược đồ theo hướng Gradient Gradients KG Knowledge Graph Đồ thị tri thức LBP Local Binary Pattern Mẫu nhị phân cục bộ LD Linked Data Dữ liệu liên kết tài nguyên MAP Mean Average Precision Độ chính xác trung bình v
  8. Ký hiệu Diễn giải tiếng Anh Diễn giải tiếng Việt Hình chữ nhật bao đóng tối MBR Minimum Bounding Rectangle thiểu MBS Minimum Bounding Sphere Khối cầu bao đóng tối thiểu MLP Multi-layer Perceptron Mạng Perceptron đa tầng Multi-Resolution Multi- MRMD Đa hướng đa độ phân giải Directional Đồ thị cụm láng giềng trên RS- NBGraphRST Neighbor Graph on RS-Tree Tree OLD Open Linked Data Dữ liệu liên kết mở OWL Web Ontology Language Ngôn ngữ ontology web Resource Description Ngôn ngữ mô tả khung tài RDF Framework nguyên Phương pháp phản hồi liên RF Relevance Feedback quan Receiver Operating ROC Đồ thị mô tả đặc tính Characteristic RS-Tree Region Sphere Tree Cây phân cụm vùng khối cầu Semantic-Based Image SBIR Tìm ảnh theo ngữ nghĩa Retrieval Semantic-based Image Tìm ảnh theo ngữ nghĩa dựa SBIR_GraphRSTKG Retrieval on RS-Tree and trên RS-Tree và đồ thị tri thức Knowledge Graph SG Scene Graph Đồ thị ngữ cảnh Scale Invariant Features SIFT Đặt trưng hình ảnh SIFT Transform SURF Speeded Up Robust Feature Đặc trưng hình ảnh SURF SVM Support Vector Machine Máy vec-tơ hỗ trợ TBIR Text-Based Image Retrieval Tìm kiếm ảnh dựa trên văn bản TTF Tamura Texture Feature Đặc trưng kết cấu Tamura TVG Textual Scene Graph Đồ thị ngữ cảnh theo văn bản Tập dữ liệu ảnh Visual VG Visual Genome Genome VSG Visual Scene Graph Đồ thị ngữ cảnh theo thị giác vi
  9. DANH MỤC HÌNH ẢNH Hình 1.1. Mô hình tìm kiếm ảnh tương tự theo nội dung .........................................11 Hình 1.2. Đặc trưng màu sắc MPEG7.......................................................................16 Hình 1.3. Đặc trưng vị trí Shi-tomasi MPEG7 .........................................................16 Hình 1.4. Đặc trưng vị trí và kết cấu MaxPooling Sobel ..........................................16 Hình 1.5. Đặc trưng hình dạng và kết cấu Sobel HOG .............................................17 Hình 1.6. Cấu trúc R-Tree dạng phân cấp .................................................................19 Hình 1.7. Cấu trúc R-Tree dạng phẳng .....................................................................20 Hình 1.8. Ví dụ về đồ thị ngữ cảnh trong bộ dữ liệu VG [28] ..................................25 Hình 1.9. Mô hình tìm kiếm ảnh theo nội dung dựa trên cấu trúc RS-Tree ..............26 Hình 1.10. Mô hình tìm kiếm ảnh kết hợp RS-Tree và đồ thị tri thức ......................27 Hình 2.1. Cấu trúc RS-Tree dạng phẳng ....................................................................35 Hình 2.2. Cấu trúc RS-Tree dạng phân cấp ...............................................................36 Hình 2.3. Mô tả cấu trúc một khối cầu thực thể MBS ..............................................37 Hình 2.4. Mô tả một nút lá trên cấu trúc RS-Tree .....................................................38 Hình 2.5. Mô tả một nút trong trên RS-Tree .............................................................39 Hình 2.6. Minh họa quá trình thêm một phần tử vào cấu trúc RS-Tree ....................43 Hình 2.7. Mô tả thao tác thêm một phần tử vào nút lá ..............................................44 Hình 2.8. Minh họa sự giãn nở không gian khi thêm mới một phần tử ....................44 Hình 2.9. Minh họa các tiêu chí lựa chọn không gian phân bố phần tử ...................45 Hình 2.10. Mô tả thuật toán tách nút dựa vào độ lệch sai biệt ..................................50 Hình 2.11. Mô hình tìm kiếm ảnh CBIR-RST dựa trên RS-Tree ..............................54 Hình 2.12. Giao diện tạo cấu trúc RS-Tree ................................................................57 Hình 2.13. Giao diện tìm kiếm ảnh dựa trên cấu trúc RS-Tree .................................57 Hình 2.14. Một kết quả tìm kiếm dựa trên cấu trúc RS-Tree ....................................58 Hình 2.15. Thời gian tìm kiếm trung bình của tập ảnh COREL ...............................60 Hình 2.16. Thời gian tìm kiếm trung bình của tập ảnh OF17 ...................................60 Hình 2.17. Thời gian trung bình tìm kiếm của tập ảnh OF102 .................................60 Hình 2.18. Thời gian trung bình tìm kiếm của tập ảnh CUB-2011-200 ...................61 Hình 2.19. So sánh hiệu suất giữa các tập dữ liệu ảnh trên cấu trúc RS-Tree ...........61 Hình 2.20. Precision-Recall và ROC của bộ dữ liệu COREL ..................................62 Hình 2.21. Precision-Recall và ROC của bộ dữ liệu Oxford Flowers 17 .................62 Hình 2.22. Precision-Recall và ROC của bộ dữ liệu Oxford Flowers 102 (1-51) ....62 Hình 2.23. Precision-Recall và ROC của bộ dữ liệu Oxford Flowers 102 (52-102) 63 Hình 2.24. Precision-Recall và ROC của bộ dữ liệu CUB-2011-200 (1-100) .........63 Hình 2.25. Precision-Recall và ROC của bộ dữ liệu CUB-2011-200 (101-200) .....63 Hình 3.1. Tách nút có vùng không gian chồng lấp ...................................................72 Hình 3.2. Tách nút có vùng không gian rời nhau......................................................73 Hình 3.3. Mô tả tính chất chồng lấp không gian .......................................................73 Hình 3.4. Minh họa khoảng cách giữa hai nút lá ......................................................74 vii
  10. Hình 3.5. Mô tả đồ thị láng giềng của một nút lá .....................................................75 Hình 3.6. Cấu trúc đồ thị láng giềng NBGraphRST dạng phẳng .............................76 Hình 3.7. Cấu trúc đồ thị láng giềng NBGraphRST phân cấp ..................................77 Hình 3.8. Một đồ thị ngữ cảnh con của ảnh 2371376.jpg .........................................81 Hình 3.9. Tiến trình xây dựng đồ thị tri thức ............................................................82 Hình 3.10. Dữ liệu mẫu các phân lớp ảnh .................................................................83 Hình 3.11. Mẫu dữ liệu các đối tượng ảnh................................................................84 Hình 3.12. Mẫu dữ liệu mối quan hệ giữa các đối tượng ảnh ...................................84 Hình 3.13. Mô hình của đồ thị tri thức ......................................................................85 Hình 3.14. Bộ ba định nghĩa lớp trong đồ thị tri thức ...............................................86 Hình 3.15. Bộ ba định nghĩa các cá thể trong đồ thị tri thức ....................................87 Hình 3.16. Bộ ba thể hiện mối quan hệ của các cá thể .............................................88 Hình 3.17. Thuộc tính dữ liệu của cá thể inclass ......................................................88 Hình 3.18. Thuộc tính dữ liệu của cá thể OBJ ..........................................................89 Hình 3.19. Thuộc tính dữ liệu của đối tượng OBJ1068652 dưới dạng OWL ..........89 Hình 3.20. Thuộc tính dữ liệu của cá thể IMG1........................................................90 Hình 3.21. Thuộc tính dữ liệu của ảnh IMG3 dưới dạng OWL ................................90 Hình 3.22. Các chú thích của mối quan hệ opREL2 .................................................90 Hình 3.23. Các đối tượng trong hình ảnh của bộ dữ liệu COCO ..............................95 Hình 3.24. Minh họa quá trình phân lớp đối tượng bằng mạng Faster-RCNN ........95 Hình 3.25. Minh họa trích xuất đặc trưng cho ảnh đầu vào ......................................96 Hình 3.26. Mô hình tìm kiếm ảnh theo ngữ nghĩa sử dụng RS-Tree và KG .............97 Hình 3.27. Mô hình tìm kiếm ảnh trên CBIR_NBGraphRST ................................103 Hình 3.28. Một kết quả tìm kiếm ảnh trên CBIR-NBGraphRST ...........................103 Hình 3.29. Tạo KG cho bộ dữ liệu Visual Genome ................................................104 Hình 3.30. Mô tả đồ thị ngữ cảnh của ảnh 285618.jpg trong tập ảnh VG ..............105 Hình 3.31. Tìm kiếm và trích xuất đồ thị ngữ cảnh của hình ảnh trên KG.............105 Hình 3.32. Mô tả ngữ nghĩa của hình ảnh ...............................................................106 Hình 3.33. Một kết quả tìm kiếm ảnh trên SBIR-RSTKG......................................106 Hình 3.34. Precision-Recall và ROC của bộ dữ liệu COREL ................................110 Hình 3.35. Precision-Recall và ROC của bộ dữ liệu OF17 ....................................110 Hình 3.36. Precision-Recall và ROC của bộ dữ liệu OF102 ..................................111 Hình 3.37. Precision-Recall và ROC của bộ dữ liệu CUB-2011-20.......................111 Hình 3.38. Precision-Recall và ROC của bộ dữ liệu MS-COCO ...........................111 Hình 3.39. Precision-Recall và ROC của bộ dữ liệu Dataset 1-VG .......................112 Hình 3.40. Precision-Recall và ROC của bộ dữ liệu Dataset 2-VG .......................112 Hình 3.41. Precision-Recall và ROC của bộ dữ liệu MS-COCO ...........................113 Hình 3.42. Precision-Recall và ROC của bộ dữ liệu Dataset 1 -VG ......................113 Hình 3.43. Precision-Recall và ROC của bộ dữ liệu Dataset 2 -VG ......................114 viii
  11. DANH MỤC BẢNG BIỂU Bảng 1.1. Các giá trị véc-tơ đặc trưng được trích xuất .............................................15 Bảng 1.2. Các tập dữ liệu ảnh được thực nghiệm trong luận án ...............................28 Bảng 2.1. Mô tả các tham số thực nghiệm xây dựng cấu trúc RS-Tree ....................59 Bảng 2.2. Kết quả thực nghiệm xây dựng cấu trúc RS-Tree .....................................59 Bảng 2.3. Hiệu suất tìm kiếm của hệ tìm kiếm CBIR-RST trên tập ảnh COREL ....64 Bảng 2.4. Hiệu suất tìm kiếm của hệ CBIR-RST trên tập ảnh OF17 .......................64 Bảng 2.5. Hiệu suất tìm kiếm của hệ CBIR-RST trên tập ảnh OF102 .....................65 Bảng 2.6. Hiệu suất tìm kiếm của hệ CBIR-RST trên tập ảnh CUB ........................66 Bảng 2.7. So sánh độ chính xác giữa các phương pháp trên tập ảnh COREL ..........66 Bảng 2.8. So sánh độ chính xác giữa các phương pháp trên tập ảnh OF17 ..............67 Bảng 2.9. So sánh độ chính xác giữa các phương pháp trên tập ảnh OF102 ............67 Bảng 2.10. So sánh độ chính xác giữa các phương pháp trên tập ảnh CUB.............67 Bảng 3.1. Mô tả loại đỉnh “cá thể ảnh” và “cá thể đối tượng”..................................82 Bảng 3.2. Mô tả loại đỉnh “lớp” và “cá thể lớp” .......................................................82 Bảng 3.3. Mô tả các tham số thực nghiệm tạo cấu trúc NBGraphRST ..................102 Bảng 3.4. Mô tả kết quả tạo KG cho tập ảnh Visual Genome ................................102 Bảng 3.5. Hiệu suất tìm kiếm của hệ CBIR-NBGraphRST trên tập ảnh COREL ..107 Bảng 3.6. Hiệu suất tìm kiếm của hệ CBIR-NBGraphRST trên tập ảnh OF17 ......108 Bảng 3.7. Hiệu suất tìm kiếm của hệ CBIR-NBGraphRST trên tập ảnh OF102 ....108 Bảng 3.8. Hiệu suất tìm kiếm của hệ CBIR-NBGraphRST trên tập ảnh CUB.......109 Bảng 3.9. Thực nghiệm tìm kiếm ảnh trên NBGraphRST cho các tập ảnh ............110 Bảng 3.10. Thực nghiệm tìm kiếm ảnh trên Knowledge Graph .............................113 Bảng 3.11. Thực nghiệm tìm kiếm ảnh trên các phương pháp cho các tập ảnh .....114 Bảng 3.12. So sánh độ chính xác của các phương pháp trên tập ảnh COREL .......115 Bảng 3.13. So sánh độ chính xác của các phương pháp trên tập ảnh OF17 ...........115 Bảng 3.14. So sánh độ chính xác của các phương pháp trên tập ảnh OF102 .........116 Bảng 3.15. So sánh độ chính xác của các phương pháp trên tập ảnh CUB ............116 Bảng 3.16. So sánh độ chính xác của các phương pháp trên tập ảnh MS-COCO ..116 ix
  12. PHẦN MỞ ĐẦU 1. Tính cấp thiết của luận án Hiện nay, các hệ thống tìm kiếm ảnh đã được phát triển và đưa vào nhiều ứng dụng khác nhau như nhận dạng tìm kiếm khuôn mặt [1]; tìm kiếm ảnh hàng hóa [2]; tìm kiếm ảnh y tế [3], tìm kiếm ảnh vệ tinh [4], v.v. Có hai phương pháp tìm kiếm ảnh thông dụng bao gồm: tìm theo từ khóa TBIR (Text-based Image Retrieval) và tìm theo nội dung CBIR (Content-based Image Retrieval). Phương pháp TBIR thực hiện tìm kiếm ảnh tương tự dựa trên việc lập chỉ mục, mô tả, chú thích hình ảnh được cung cấp từ người dùng [5, 6]. Phương pháp này có một số hạn chế: (1) tốn kém chi phí tài nguyên về con người cho việc chú thích hình ảnh; (2) việc mô tả nội dung hình ảnh còn mang tính chủ quan của con người. Để giải quyết những hạn chế của phương pháp TBIR, phương pháp tìm kiếm ảnh dựa trên nội dung CBIR được phát triển. Phương pháp này tập trung vào việc trích xuất và so sánh các đặc trưng cấp thấp (low- level features) của các hình ảnh như màu sắc, kết cấu, hình dạng, vị trí và một số đặc trưng khác [7-9]. Các kết quả của nhiều công trình nghiên cứu trong thập kỷ qua đã thể hiện tính hiệu quả và độ chính xác của các kỹ thuật dựa trên CBIR và đã ứng dụng trong nhiều hệ thống tìm kiếm ảnh [10]. Hệ thống CBIR hỗ trợ người dùng tìm kiếm tập các ảnh tương tự nhau về nội dung dựa trên các đặc trưng cấp thấp nhưng các hình ảnh kết quả có thể khác nhau về ngữ nghĩa [11]. Đây chính là khoảng cách giữa ngữ nghĩa cấp cao và các đặc trưng thị giác cấp thấp của hình ảnh, việc thu hẹp khoảng cách này là một trong những thách thức lớn trong các hệ tìm kiếm ảnh dựa trên nội dung [12, 13]. Do đó, bài toán phân tích và tìm kiếm ảnh theo tiếp cận ngữ nghĩa trong lĩnh vực thị giác máy tính đang rất được các nhà nghiên cứu quan tâm [14-16]. Bên cạnh đó, với sự tăng trưởng dữ liệu đa phương tiện (bao gồm: hình ảnh, âm thanh, video, văn bản), các hệ thống xử lý cần lưu trữ một khối lượng dữ liệu rất lớn [17]. Vì vậy, việc tạo cấu trúc lưu trữ dữ liệu đa chiều cho các dạng dữ liệu đa phương tiện là cần thiết để giúp quá trình tìm kiếm nhanh chóng và hiệu quả. Để hỗ trợ xử lý dữ liệu đa chiều, cần xem xét các vấn đề: mô hình lưu trữ dữ liệu, cơ chế lập chỉ mục, mô hình tìm kiếm đối tượng, đánh giá tính hiệu quả và chi phí. Một trong những mô 1
  13. hình tìm kiếm đối tượng sử dụng dữ liệu đa chiều đó là cấu trúc R-Tree [18] được Guttman đề xuất vào năm 1984, [19]. Kể từ đó, một số biến thể của cấu trúc R-Tree đã được đề xuất để tìm kiếm hiệu quả hơn và xử lý các đối tượng trong không gian đa chiều. Trên cơ sở cấu trúc lưu trữ dữ liệu đa chiều R-Tree, nhiều biến thể được phát triển để áp dụng trong lĩnh vực tìm kiếm ảnh nhằm nâng cao hiệu quả lưu trữ và cải thiện thời gian tìm kiếm. Từ những khảo sát các ứng dụng và các công trình liên quan đến tìm kiếm ảnh cho thấy rằng tìm kiếm ảnh tương tự là một bài toán quan trọng trong lĩnh vực thị giác máy tính. Do đó, cần có một mô hình tìm kiếm ảnh hiệu quả để đáp ứng nhu cầu người dùng. Trên cơ sở đó, luận án đề xuất thực hiện đề tài “Kết hợp cấu trúc R- Tree với đồ thị tri thức cho mô hình tìm kiếm ảnh”. 2. Tổng quan tình hình nghiên cứu Trong những năm gần đây, các hệ thống tìm kiếm ảnh được thực hiện bởi nhiều phương pháp phân cụm dữ liệu khác nhau và mang lại những kết quả tốt. Trong đó, R-Tree và các biến thể của nó là cấu trúc dùng để phân cụm và lưu trữ dữ liệu đa chiều dựa trên vùng không gian để phân hoạch dữ liệu và thu được nhiều kết quả khả quan [17, 19]. Nhiều công trình đã ứng dụng phương pháp này vào các bài toán tìm kiếm ảnh dựa trên nội dung và đã thực nghiệm trên các tập dữ liệu ảnh khác nhau để minh chứng độ chính xác và thời gian tìm kiếm ảnh [20-25]. Haldurai và cộng sự đã đề xuất một hệ tìm kiếm ảnh tương tự theo nội dung sử dụng cấu trúc cấu trúc R-Tree. Các hình ảnh của bộ dữ liệu được trích xuất đặc trưng màu và đặc trưng kết cấu theo hướng tiếp cận mờ hóa giá trị véc-tơ đặc trưng. Sau đó, các véc-tơ đặc trưng này được lưu trên cấu trúc R-Tree và quá trình tìm kiếm ảnh tương tự được thực hiện nhằm nâng cao hiệu suất tìm kiếm [23]. Abd Aziz và cộng sự đã đề xuất một phương pháp giảm chiều véc-tơ đặc trưng hình ảnh sử dụng S-Map (Simple-Map) và thực hiện tìm kiếm dựa trên cấu trúc R-Tree. Nhóm tác giả sử dụng độ đo Euclid để đánh giá độ tương tự giữa các đối tượng. Kết quả thực nghiệm trên dữ liệu ảnh và video cho thấy phương pháp đề xuất nâng cao được hiệu suất tìm kiếm [20]. Tuy nhiên, việc tìm kiếm một đối tượng dựa trên cấu trúc R-Tree dẫn đến việc 2
  14. xét nhiều đường dẫn từ gốc đến lá, do đó kết quả giảm độ chính xác. Các vùng không gian lưu trữ lớn làm tăng mức độ chồng lấp, dẫn đến suy giảm hiệu suất khi thực hiện tìm kiếm vùng. Do đó, một cấu trúc R-Tree tối giản vùng không gian cần được xây dựng nhưng vẫn đảm bảo được hiệu suất của việc tìm kiếm ảnh. Vanitha và cộng sự đã đề xuất cấu trúc SR-Tree ứng dụng cho hệ thống tìm kiếm ảnh tương tự theo nội dung. Trong hệ thống này, các đặc trưng màu sắc, đặc trưng không gian được trích xuất và lưu trữ véc-tơ đặc trưng trên cây SR-Tree để thực hiện việc tìm kiếm ảnh. Kết quả thực nghiệm trên tập ảnh COREL cho thấy SR-Tree hoạt động hiệu quả hơn các cấu trúc khác [25]. Tuy nhiên, trong cấu trúc cây SR-tree khi chèn phần tử cần cập nhật cả hình cầu và hình chữ nhật dẫn đến việc tạo và cập nhật tương đối phức tạp và tốn kém chi phí tính toán về việc sắp xếp và giãn nở vùng không gian. Bên cạnh đó, mỗi nút trên cây SR-Tree chứa cả hình cầu và hình chữ nhật, nên kích thước sẽ lớn hơn nhiều làm ảnh hưởng đến hiệu suất tìm kiếm. Vì vậy, việc giảm kích thước vùng không gian lưu trữ và giảm chi phí tính toán trong việc giãn nở vùng không gian cho cấu trúc R-Tree cần được xây dựng. Shama, P. S. và cộng sự đã đề xuất một hệ thống tìm kiếm ảnh tương tự sử dụng cấu trúc lưu trữ dữ liệu trên R*-Tree cho tập ảnh thực vật. Nhóm tác giả sử dụng phương pháp ma trận đồng xuất hiện và phép lọc Gabor để trích xuất đặc trưng ảnh. Kết quả thực nghiệm với trên 300 ảnh thực vật, cho thấy tìm kiếm ảnh trên cấu trúc R*-Tree là hiệu quả [24]. Alfarrarjeh và cộng sự đã đề xuất phương pháp tạo chỉ mục và lưu trữ trên cấu trúc R*-Tree nhằm ứng dụng cho bài toán tìm kiếm ảnh tương tự với dữ liệu ảnh đường phố. Kết quả thực nghiệm cho thấy các hình ảnh đường phố thường giống nhau trong cùng một vị trí không gian, cấu trúc lưu trữ cho các tìm kiếm trực quan không gian có thể được xây dựng hiệu quả dựa trên cấu trúc R*-Tree [22]. Tuy nhiên, trong cấu trúc R*-Tree thuật toán chèn lại phần tử khi gặp một nút tràn sẽ tổ chức lại cây dẫn đến tăng chi phí tạo cây. Bên cạnh đó, nhiều công trình nghiên cứu đã áp dụng các kỹ thuật trích xuất đặc trưng truyền thống và các kỹ thuật học sâu cho các hệ tìm kiếm ảnh. Trong công trình [21], Ahmed và cộng sự đã trích xuất các đặc trưng màu từ ảnh RGB và sử dụng hình 3
  15. ảnh mức xám cho các đặc trưng cục bộ. Tuy nhiên, trong nghiên cứu này, nhóm tác giả chỉ thực hiện lập chỉ mục nhưng chưa đề xuất cấu trúc lưu trữ và phân hoạch chỉ mục dữ liệu để cải thiện hiệu suất tìm kiếm. Trong [26], Zeng, H. và cộng sự đã phát triển một phương pháp băm để khoanh vùng các đối tượng và tạo ra các mã nhị phân. Nhóm tác giả đã thiết kế một kiến trúc kết hợp mô-đun định vị vùng và mô-đun tạo mã bảng băm để tăng hiệu suất tìm kiếm. Các đánh giá thực nghiệm trên các tập dữ liệu ảnh CUB-200-2011 và Stanford Dogs cho thấy rằng phương pháp đề xuất đạt được hiệu suất tốt. Kumar và cộng sự đã đề xuất một mô hình tìm kiếm ảnh dựa trên nội dung sử dụng mạng nơ-ron tích chập CNN (Convolution Neural Network). Theo kết quả thực nghiệm cho thấy phương pháp đề xuất đạt hiệu suất tìm kiếm vượt trội so với các công trình khác [27]. Tuy nhiên, trong công trình này nhóm tác giả thực nghiệm tìm kiếm lấy topk với 1 ảnh và 5 ảnh trong tập ảnh kết quả dẫn đến độ chính xác cao nhưng độ phủ thấp. Ngoài ra, trong bài báo này, nhóm tác giả sử dụng mô hình mạng nơ-ron tích chập để huấn luyện. Do đó, chi phí huấn luyện tương đối lớn về thời gian và không gian bộ nhớ. Vì vậy, cần có một cấu trúc dữ liệu để lưu trữ hình ảnh và nâng cao hiệu suất tìm kiếm. Phương pháp tìm kiếm ảnh theo nội dung đã đạt được những thành tựu đáng kể trong các thập kỷ qua. Tuy nhiên, phương pháp này tồn tại hạn chế là có một độ sai lệch ngữ nghĩa (Semantic Gap) giữa các đặc trưng cấp thấp của hình ảnh và ngữ nghĩa mô tả của người dùng. Nhiều công trình nghiên cứu đã đề xuất các phương pháp khác nhau nhằm nâng cao hiệu suất tìm kiếm cho bài toán tìm kiếm ảnh theo hướng tiếp cận ngữ nghĩa dựa trên đồ thị ngữ cảnh (scene graph) cụ thể như sau: Justin Jonhson và cộng sự đã đề xuất một phương pháp tìm kiếm ảnh theo ngữ nghĩa dựa trên khái niệm đồ thị ngữ cảnh. Nhóm tác giả đã sử dụng đồ thị ngữ cảnh để tìm kiếm các hình ảnh liên quan đến ngữ nghĩa. Để thực hiện điều này, một mô hình trường ngẫu nhiên có điều kiện CRF (Conditional Random Field) được thiết kế để suy luận về các trường hợp của đồ thị ngữ cảnh. Kết quả thực nghiệm thực hiện trên tập dữ liệu ảnh gồm 5000 đồ thị ngữ cảnh cho thấy phương pháp đề xuất đạt hiệu quả cao hơn so với các phương pháp sử dụng các đặc trưng cấp thấp [28]. Wang, S. 4
  16. và cộng sự đã giới thiệu một mô hình tìm kiếm ảnh sử dụng đồ thị ngữ cảnh bao gồm đồ thị ngữ cảnh trực quan VSG (Visual Scene Graph) và đồ thị ngữ cảnh văn bản TSG (Textual Scene Graph). Việc tìm kiếm ảnh được thực hiện dựa trên độ đo tương tự đồ thị ngữ cảnh. Trong công trình này, các đặc trưng đối tượng và mối quan hệ được sử dụng để đánh giá sự giống nhau của hình ảnh. Nhóm tác giả thực nghiệm trên tập ảnh Flickr30k và MS-COCO, kết quả thực nghiệm cho thấy phương pháp tiếp cận dựa trên đối sánh đồ thị để tìm kiếm ảnh là hiệu quả [29]. Yoon, S. và cộng sự đã giới thiệu một cách tiếp cận để tìm kiếm ảnh dựa trên độ tương tự của đồ thị ngữ cảnh sử dụng mạng nơ-ron đồ thị. Trong cách tiếp cận này, mạng tích chập đồ thị GCN (Graph Convolutional Network) được huấn luyện để dự đoán mức độ liên quan của hình ảnh. Nhóm tác giả thực nghiệm trên tập dữ liệu được đặt tên là VG- COCO là phần giao của hai tập dữ liệu hình Visual Genome và MS-COCO, tập ảnh Flickr30. Kết quả thực nghiệm cho thấy phương pháp đề xuất có độ chính xác cao hơn so với các phương pháp khác [30]. Qi, M. và cộng sự đã đề xuất một khung mới để tìm kiếm ngữ cảnh dựa trên các biểu diễn nhị phân và đồ thị ngữ nghĩa. Cách tiếp cận này cũng được sử dụng để thực hiện tìm kiếm ảnh dựa trên văn bản. Các thành phần được sử dụng trong công trình này bao gồm: biểu diễn nhị phân cho dữ liệu ảnh, đồ thị ngữ nghĩa, hàm mục tiêu chung và phương pháp cập nhật. Kết quả thử nghiệm trên bốn tập dữ liệu cho thấy hiệu quả của phương pháp đề xuất so với phương pháp hiện có [31]. Quinn, M. H. và cộng sự mô tả một kiến trúc tìm kiếm ảnh theo ngữ nghĩa dựa trên tình huống trực quan của hình ảnh. Kiến trúc này là sự kết hợp các mô hình phân cấp đối tượng dựa trên các đặc trưng trực quan với các mô hình xác suất đại diện cho các mối quan hệ đa đối tượng. Công trình này thực nghiệm trên 500 hình ảnh được lấy từ tập dữ liệu ảnh Visual Genome [32]. Trong công trình [33], các tác giả đã giới thiệu một mạng mối quan hệ tập trung ARN (Attentive Relational Network) bao gồm hai mô-đun chính trên nền tảng phát hiện đối tượng. Mô-đun đầu tiên thực hiện chuyển đổi ngữ nghĩa được sử dụng để tạo các đặc trưng quan hệ ngữ nghĩa, bằng cách chuyển đổi các đặc trưng trực quan và đặc trưng ngôn ngữ vào một không gian ngữ nghĩa chung. Mô-đun thứ hai là mô-đun tự tập trung (Self Attention) để tạo đồ thị có trọng số. Cuối 5
  17. cùng, đồ thị ngữ cảnh được tạo ra để biễu diễn các thực thể và các quan hệ tương ứng. Nhóm tác giả thực nghiệm trên tập dữ liệu Visual Genome và kết quả cho thấy tính hiệu quả và tính ưu việt của phương pháp đề xuất. Từ việc phân tích các nghiên cứu liên quan ở trên cho thấy mô hình tìm kiếm ảnh dựa trên cấu trúc cấu trúc R-Tree được đánh giá là đáng tin cậy và hiệu quả. Bên cạnh đó, những công trình gần đây đã tiếp cận các phương pháp tạo đồ thị ngữ cảnh để mô tả ngữ nghĩa cho các đối tượng trong hình ảnh. Kết quả của những công trình đó cho thấy việc áp dụng đồ thị ngữ cảnh cho bài toán tìm kiếm ảnh dựa trên ngữ nghĩa là khả thi. Tuy nhiên, các công trình này chưa kết hợp giữa tìm kiếm ảnh dựa trên nội dung và tìm kiếm ảnh dựa trên ngữ nghĩa. Mặt khác, các công trình chưa thực hiện tìm kiếm dựa trên ngôn ngữ truy vấn để tìm kiếm ảnh trên đồ thị tri thức. 3. Định hướng nghiên cứu Hai bước quan trọng của bài toán tìm kiếm ảnh là tạo cấu trúc lưu trữ cho tập dữ liệu hình ảnh và tìm kiếm ảnh tương tự. Luận án tiếp cận cấu trúc R-Tree để thực hiện việc lưu trữ các véc-tơ đặc trưng cấp thấp của hình ảnh nhằm tìm kiếm ảnh tương tự theo nội dung cho ảnh đầu vào trên cấu trúc R-Tree. Bên cạnh đó, các phương pháp tìm kiếm ảnh theo tiếp cận ngữ nghĩa được sử dụng để nâng cao độ chính xác tìm kiếm; trong đó, đồ thị tri thức là một phương pháp được áp dụng rộng rãi trong các bài toán tìm kiếm ảnh dựa trên ngữ nghĩa. Do đó, luận án tập trung nghiên cứu các nội dung sau: (1) Nghiên cứu cải tiến các phương pháp xây dựng cấu trúc R-Tree, từ đó đề xuất phương pháp xây dựng cấu trúc phân cụm dữ liệu và lưu trữ các véc-tơ đặc trưng cấp thấp của hình ảnh dựa trên cấu trúc R-Tree; (2) Nghiên cứu kết hợp R- Tree và đồ thị láng giềng trong quá trình tạo cây để phân cụm các dữ liệu tương tự; (3) Nghiên cứu đồ thị tri thức để mô tả các mối quan hệ ngữ nghĩa của các đối tượng trong ảnh; (4) Xây dựng mô hình tìm kiếm ảnh tương tự dựa trên các cấu trúc R-Tree và đồ thị tri thức; (5) Thực nghiệm tìm kiếm ảnh tương tự dựa trên mô hình đề xuất để đánh giá hiệu quả của phương pháp. 6
  18. 4. Mục tiêu nghiên cứu Mục tiêu của luận án là phát triển các mô hình tìm kiếm ảnh tương tự dựa trên cấu trúc R-Tree, đề xuất mô hình kết hợp cấu trúc này với biểu diễn quan hệ ngữ nghĩa giữa các đối tượng hình ảnh nhằm nâng cao độ chính xác tìm kiếm ảnh. Các mục tiêu cụ thể của luận án bao gồm: (1) Nghiên cứu phương pháp lưu trữ dữ liệu đa chiều trên cấu trúc R-Tree, đồng thời kết hợp đồ thị láng giềng vào cấu trúc cải tiến RS-Tree nhằm nâng cao hiệu quả lưu trữ và tìm kiếm; (2) Đề xuất sử dụng đồ thị tri thức để biểu diễn thông tin ngữ nghĩa và các mối quan hệ ngữ nghĩa giữa các đối tượng trong hình ảnh; (3) Nghiên cứu các mô hình tìm kiếm ảnh dựa trên cấu trúc RS-Tree; kết hợp đồ thị láng giềng và RS-Tree; kết hợp RS-Tree và đồ thị tri thức. 5. Phương pháp nghiên cứu Phương pháp lý thuyết: Tổng hợp các công trình nghiên cứu mới liên quan đến nội dung nghiên cứu và phân tích các ưu và nhược điểm của từng công trình. Từ đó, đề xuất phát triển: cải tiến cấu trúc dữ liệu đa chiều R-Tree và các biến thể của nó; đề xuất các cải tiến trên cơ sở xây dựng các luận cứ chắc chắn, phù hợp cho bài toán tìm kiếm ảnh tương tự; nghiên cứu phương pháp xây dựng đồ thị tri thức để mô tả ngữ nghĩa cho hình ảnh; đề xuất các giải pháp mới cho bài toán tìm kiếm ảnh làm căn cứ cho việc so sánh và đánh giá về độ chính xác với các công trình đã có. Phương pháp thực nghiệm: Trên cơ sở các mô hình và các kỹ thuật đã đề xuất trong phần lý thuyết, thiết kế các thuật toán bằng ngôn ngữ lập trình cấp cao (C#) và sử dụng các bộ ảnh đã lựa chọn làm đầu vào cho thuật toán. Các bộ ảnh thực nghiệm là các bộ ảnh đã được sử dụng trong các công trình nghiên cứu liên quan mới nhất, phù hợp với yêu cầu đầu vào của các mô hình và để đối sánh độ chính xác trong tìm kiếm ảnh: COREL, Oxford Flowers 17, Oxford Flowers 102, CUB-2011-200, Visual Genome và MS-COCO. Các kết quả thực nghiệm được so sánh, đối 7
  19. chiếu với các kết quả của các cônng trình nghiên cứu mới trên cùng bộ ảnh. Phân tích và đánh giá các kết quả thu được. 6. Đối tượng và phạm vi nghiên cứu Đối tượng nghiên cứu: Các cấu trúc cây phân cụm dữ liệu, tạo cấu trúc lưu trữ dữ liệu đa chiều phục vụ cho bài toán tìm kiếm ảnh; Các thuật toán tạo cấu trúc dữ liệu và các thuật toán tìm kiếm ảnh; Đồ thị tri thức; Các tập dữ liệu ảnh phổ biến. Phạm vi nghiên cứu: Tạo và cải tiến cấu trúc lưu trữ dữ liệu đa chiều dựa trên cấu trúc R-Tree; Các thuật toán xây dựng cây và các thuật toán tìm kiếm trên cây; Các phương pháp cải tiến cây phân cụm với đồ thị cụm láng giềng; Đồ thị tri thức, ngôn ngữ OWL, truy vấn SPARQL; Các tập dữ liệu ảnh bao gồm: COREL, Oxford Flowers 17, Oxford Flowers 102, CUB-200-2011, Visual Genome, MS-COCO. 7. Nội dung và bố cục luận án Nội dung của luận án được tổ chức thành ba chương như sau: Chương 1 giới thiệu tổng quan cơ sở lý thuyết cho bài toán tìm kiếm ảnh theo tiếp cận cấu trúc R-Tree, phân tích các nghiên cứu liên quan đến cấu trúc R-Tree. Ngoài ra, chương này trình bày tổng quan về bài toán tìm kiếm ảnh theo nội dung và các phương pháp tiếp cận áp dụng cho bài toán tìm kiếm ảnh theo ngữ nghĩa. Từ đó, mô hình tìm kiếm ảnh dựa trên cấu trúc R-Tree được đưa ra đồng thời phát triển mô hình tìm kiếm ảnh dựa trên sự kết hợp cấu trúc R-Tree, đồ thị láng giềng và đồ thị tri thức. Các đối tượng cơ sở được tiếp cận gồm: đặc trưng ảnh, độ đo tương tự của hình ảnh, các giá trị đánh giá hiệu suất và môi trường thực nghiệm. Trên cơ sở đó, luận án đưa ra định hướng xây dựng phương pháp tìm kiếm ảnh dựa trên cấu trúc RS-Tree cải tiến. Chương 2 gồm một số cải tiến phương pháp xây dựng cấu trúc R-Tree để nâng cao hiệu quả cho bài toán tìm kiếm ảnh. Dựa trên cấu trúc R-Tree và các biến thể, cấu trúc RS-Tree được đề xuất để lưu trữ cho các đặc trưng thị giác cấp thấp của hình ảnh dưới dạng khối cầu; đề xuất mô hình, thuật toán và thực nghiệm tìm kiếm ảnh trên RS-Tree. Trên cơ sở lý thuyết đã xây dựng, thực nghiệm được xây dựng trên các tập dữ liệu ảnh COREL, Oxford Flowers 17, Oxford Flowers 102, CUB-200-2011 để 8
  20. minh chứng tính đúng đắn của mô hình và thuật toán đề xuất. Phần cuối chương đưa ra kết luận và định hướng cải tiến tiếp theo. Chương 3 gồm các nội dung chính sau: cấu trúc cải tiến kết hợp RS-Tree với đồ thị cụm láng giềng và thuật toán tạo đồ thị láng giềng nhằm nâng cao độ chính xác tìm kiếm ảnh theo nội dung; xây dựng mô hình đồ thị tri thức từ tập dữ liệu ảnh Visual Genome để mô tả ngữ nghĩa của hình ảnh và các mối quan hệ ngữ nghĩa giữa các đối tượng trong ảnh; phương pháp tìm kiếm ảnh theo tiếp cận ngữ nghĩa dựa trên đồ thị thức. Trên cơ sở lý thuyết đã được đề xuất, thực nghiệm được xây dựng trên tập dữ liệu ảnh đơn đối tượng Oxford Flowers 102 và các tập ảnh đa đối tượng bao gồm Visual Genome, MS-COCO để minh chứng tính đúng đắn của mô hình và thuật toán đề xuất. Phần cuối chương đưa ra kết luận và định hướng cải tiến tiếp theo. 8. Đóng góp của luận án Đóng góp chính của luận án là các kết quả nghiên cứu về phát triển mô hình tìm kiếm ảnh dựa trên sự kết hợp cấu trúc R-Tree với đồ thị tri thức nhằm nâng cao độ chính xác tìm kiếm. Các đóng góp cụ thể bao gồm: (1) Đề xuất các cải tiến đối với cấu trúc R-Tree và xây dựng RS-Tree với các khối cầu dữ liệu kết hợp đồ thị láng giềng và xây dựng cấu trúc NBGraphRST để nâng cao độ chính xác tìm kiếm ảnh. Đồng thời đề xuất các thuật toán và các mô hình tìm kiếm ảnh theo nội dung dựa trên các cấu trúc đã xây dựng; (2) Xây dựng đồ thị tri thức dựa trên tập dữ liệu ảnh Visual Genome và RS-Tree để lưu trữ và mô tả các thông tin ngữ nghĩa của hình ảnh, các mối quan hệ ngữ nghĩa giữa các đối tượng trong ảnh. Từ đó, xây dựng mô hình tìm kiếm ảnh theo tiếp cận ngữ nghĩa dựa trên sự kết hợp RS-Tree với đồ thị tri thức để nâng cao độ chính xác tìm kiếm ảnh. 9
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
6=>0