Luận án Tiến sĩ Công nghệ thông tin: Nâng cao độ chính xác tra cứu ảnh dựa vào nội dung sử dụng kỹ thuật điều chỉnh trọng số của hàm khoảng cách

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:123

Thêm vào BST

Báo xấu

30
lượt xem 5
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án nghiên cứu đề xuất một số phương pháp tra cứu ảnh nhằm nâng cao độ chính xác tra cứu. Các phương pháp này sẽ hướng tới giải quyết các vấn đề về giảm khoảng cách ngữ nghĩa giữa đặc trưng mức thấp và khái niệm mức cao của ảnh.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận án Tiến sĩ Công nghệ thông tin: Nâng cao độ chính xác tra cứu ảnh dựa vào nội dung sử dụng kỹ thuật điều chỉnh trọng số của hàm khoảng cách

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ ----------------------------- ĐÀO THỊ THÚY QUỲNH NÂNG CAO ĐỘ CHÍNH XÁC TRA CỨU ẢNH DỰA VÀO NỘI DUNG SỬ DỤNG KỸ THUẬT ĐIỀU CHỈNH TRỌNG SỐ HÀM KHOẢNG CÁCH LUẬN ÁN TIẾN SỸ CÔNG NGHỆ THÔNG TIN HÀ NỘI – 2019
BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ ----------------------------- ĐÀO THỊ THÚY QUỲNH NÂNG CAO ĐỘ CHÍNH XÁC TRA CỨU ẢNH DỰA VÀO NỘI DUNG SỬ DỤNG KỸ THUẬT ĐIỀU CHỈNH TRỌNG SỐ HÀM KHOẢNG CÁCH LUẬN ÁN TIẾN SỸ CÔNG NGHỆ THÔNG TIN Chuyên ngành: Khoa học máy tính Mã số: 62 48 01 01 Ngƣời hƣớng dẫn khoa học: 1. PGS.TS. Ngô Quốc Tạo 2. PGS.TS. Nguyễn Hữu Quỳnh Hà Nội – 2019
LỜI CAM ĐOAN Tôi xin cam đoan luận án “Nâng cao độ chính xác tra cứu ảnh dựa vào nội dung sử dụng kỹ thuật điều chỉnh trọng số hàm khoảng cách” là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả được trình bày trong luận án hoàn toàn trung thực và chưa từng được công bố trong bất kỳ một công trình nào khác. Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên quan trong nước và quốc tế. Ngoại trừ các tài liệu tham khảo này, luận án hoàn toàn là công việc của riêng tôi. Trong các công trình khoa học được công bố trong luận án, tôi đã thể hiện rõ ràng và chính xác đóng góp của các đồng tác giả và những gì do tôi đã đóng góp. Luận án được hoàn thành trong thời gian tôi làm Nghiên cứu sinh tại phòng Nhận dạng và Công nghệ tri thức, Viện Công nghệ thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam. Tác giả luận án NCS. Đào Thị Thúy Quỳnh i
LỜI CẢM ƠN Luận án Tiến sĩ ―Nâng cao độ chính xác tra cứu ảnh dựa vào nội dung sử dụng kỹ thuật điều chỉnh trọng số hàm khoảng cách‖ được hoàn thiện bằng sự cố gắng của bản thân và sự giúp đỡ của Thầy hướng dẫn khoa học, Ban lãnh đạo Học viện Khoa học và Công nghệ Việt Nam, Ban lãnh đạo Khoa Toán- Tin, trường Đại học Khoa học - Đại học Thái Nguyên, Ban lãnh đạo Khoa Công nghệ thông tin 1, Học viện Công nghệ Bưu chính Viễn thông, các chuyên gia và các nhà khoa học, đồng nghiệp, bạn bè và những người thân trong gia đình. Trước tiên, nghiên cứu sinh xin được bày tỏ lòng biết ơn chân thành đến Thầy hướng dẫn khoa học PGS.TS. Ngô Quốc Tạo và PGS.TS. Nguyễn Hữu Quỳnh. Nghiên cứu sinh đã nhận được những định hướng khoa học, những bài học quý báu, sự hướng dẫn tận tình và kinh nghiệm nghiên cứu khoa học quý giá trong nghiên cứu. Tôi xin chân thành cảm ơn phòng Nhận dạng và Công nghệ tri thức, Viện Công nghệ thông tin, Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam đã tạo điều kiện thuận lợi trong suốt quá trình nghiên cứu và thực hiện luận án. Tôi xin chân thành cảm ơn Ban giám đốc Học viện Công nghệ Bưu chính Viễn thông, Ban lãnh đạo Khoa, Bộ môn Khoa học máy tính và các Thầy Cô Khoa Công nghệ thông tin 1 đã quan tâm giúp đỡ để tôi hoàn thành nhiệm vụ học tập. Xin chân thành cảm ơn sự quan tâm, động viên và những đóng góp quý báu của quý đồng nghiệp. Cuối cùng, tôi xin bày tỏ lòng biết ơn vô hạn tới mọi thành viên trong gia đình, sự khuyến khích động viên của gia đình là động lực để tôi hoàn thành luận án này. ii
MỤC LỤC MỞ ĐẦU............................................................................................. ix CHƢƠNG 1 ..........................................................................................1 TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG......................1 1.1. Giới thiệu ........................................................................................1 1.1.1. Tra cứu dựa vào văn bản ...............................................................2 1.1.2. Tra cứu ảnh dựa vào nội dung ........................................................2 1.2. Trích rút đặc trƣng trong tra cứu ảnh ..............................................5 1.2.1 Đặc trƣng mầu ...............................................................................5 1.2.2. Đặc trƣng kết cấu ..........................................................................8 1.2.3. Đặc trƣng hình ............................................................................11 1.2.4. Thông tin không gian...................................................................13 1.3. Đo khoảng cách .............................................................................15 1.4. Phân cụm ......................................................................................19 1.5. Một số nghiên cứu liên quan về giảm khoảng cách ngữ nghĩa trong tra cứu ảnh ...............................................................................................20 1.6. Đánh giá hiệu năng ........................................................................24 1.7. Kết luận Chƣơng 1 và định hƣớng nghiên cứu .................................25 CHƢƠNG 2 PHƢƠNG PHÁP TRA CỨU ẢNH .....................................27 LIÊN QUAN NGỮ NGHĨA ..................................................................27 2.1. Giới thiệu ......................................................................................27 2.2. Sơ đồ và ý tƣởng phƣơng pháp đề xuất ............................................32 2.3. Phản hồi liên quan với truy vấn đa điểm ..........................................36 2.4. Thuật toán tra cứu ảnh đề xuất .......................................................38 iii
2.4.1. Phân cụm tập ảnh phản hồi ..........................................................38 2.4.2. Thuật toán đề xuất cho phân cụm gia tăng ....................................42 2.4.3. Công thức đề xuất cho tính khoảng cách cải tiến ............................47 2.4.4. Công thức đề xuất cho tính trọng số ngữ nghĩa của truy vấn ...........47 2.4.5. Thuật toán đề xuất cho tính độ quan trọng đặc trƣng.....................48 2.4.6. Thuật toán đề xuất cho gộp các danh sách kết quả .........................50 2.4.7. Thuật toán đề xuất chung cho tra cứu ảnh liên quan ngữ nghĩa ......52 2.5. Đánh giá thực nghiệm ....................................................................56 2.5.1. Môi trƣờng thực nghiệm ..............................................................56 2.5.2. Chiến lƣợc mô phỏng phản hồi liên quan ......................................58 2.5.3. Thực hiện truy vấn và đánh giá ....................................................58 2.6. Kết luận Chƣơng 2 .........................................................................61 CHƢƠNG 3 PHƢƠNG PHÁP TRA CỨU ẢNH SỬ DỤNG TRỌNG SỐ THÍCH NGHI .....................................................................................63 3.1. Giới thiệu ......................................................................................63 3.2. Thuật toán xác định điểm truy vấn tối ƣu và bộ trọng số thích nghi của hàm khoảng cách cải tiến. .....................................................................68 3.3. Đề xuất thuật toán tra cứu ảnh sử dụng bộ trọng số thích nghi ..........73 3.4. Thử nghiệm và đánh giá kết quả .....................................................75 3.4.1. Môi trƣờng thực nghiệm ..............................................................75 3.4.2. Các kết quả thực nghiệm và thảo luận ..........................................76 3.5. Kết luận Chƣơng 3 .........................................................................83 KẾT LUẬN .........................................................................................84 iv
DANH MỤC HÌNH VẼ Hình 1.1. Khoảng cách ngữ nghĩa ...................................................................... 3 Hình 1.2. Kiến trúc hệ thống tra cứu ảnh dựa vào nội dung. ............................... 4 Hình 1.3: Sơ đồ phản hồi liên quan. ................................................................... 5 Hình 2.1. Hình dạng truy vấn. (a) Dịch chuyển điểm truy vấn. (b) Hình dạng lồi (đa điểm). (c) Hình dạng lõm (đa điểm) ........................................................... 29 Hình 2.2. Ba cụm khác nhau (mầu đỏ, mầu vàng và mầu trắng) cho cùng một chủ đề hoa hồng ............................................................................................... 30 Hình 2.3: Khoảng cách từ một điểm đến một truy vấn ..................................... 31 Hình 2.4: Các điểm dữ liệu trên không gian hai chiều. ..................................... 32 Hình 2.5. Cấu trúc phương pháp đề xuất. ......................................................... 33 Hình 2.6. Bốn biểu diễn của cùng một ảnh ....................................................... 35 Hình 2.7. Không gian đặc trưng ảnh xám. ........................................................ 36 Hình 2.8. Minh họa tính trọng số ngữ nghĩa từ một ảnh đến 3 truy vấn. ........... 48 Hình 2.9. Mô hình hệ thống. ............................................................................. 59 Hình 2.10. So sánh độ chính xác. ..................................................................... 61 Hình 3.1: Giao diện điển hình của hệ thống CBIR với phản hồi liên quan. ....... 64 Hình 3.2. Minh họa vùng truy vấn tối ưu ngang bằng nhau. (a) Hình bên trái: điểm truy vấn thứ nhất. (b) Hình bên phải: điểm truy vấn thứ hai. .................... 64 Hình 3.3. Sơ đồ của tra cứu ảnh sử dụng các trọng số thích nghi. ..................... 66 Hình 3.4. Một hình ellip sinh ra từ các mẫu phản hồi dương ............................ 71 Hình 3.5. Minh họa đưa danh sách kết quả bao gồm nhiều ảnh ........................ 72 không liên quan ................................................................................................ 72 Hình 3.6. Minh họa tính toán hàm khoảng cách từ một điểm trong hình ellip tương ứng với điểm truy vấn tối ưu. ................................................................. 72 Hình 3.7. So sánh độ chính xác của 5 phương pháp. ......................................... 79 Hình 3.8. So sánh độ lệch chuẩn của 5 phương pháp ........................................ 79 Hình 3.9. So sánh độ chính xác trung bình của phương pháp Aweight với tập thực sự và Aweight sử dụng nhận thức trực quan của sinh viên........................ 80 v
Hình 3.10. So sánh độ chính xác trung bình của phương pháp Aweight, Aweight_WLNR, Aweight_WIDF và FGSSH. ................................................ 81 Hình 3.11. Thời gian thực hiện tra cứu của phương pháp đề xuất với hai trường hợp ................................................................................................................... 82 Hình B.1. Giao diện frm_Class_Images. ........................................................ 100 Hình B.2.Giao diện frm_Type_of_Features. ................................................... 100 Hình B.3. Giao diện frm_Images_Database.................................................... 101 Hình B.4. Giao diện frm_Upload_Images. ..................................................... 101 Hình B.5. Giao diện frm_Trainning. ............................................................... 102 Hình B.6. Giao diện frm_Features. ................................................................. 102 Hình B.7. Giao diện bước biến đổi ảnh và tra cứu đa biểu diễn. ..................... 103 Hình B.8. Giao diện bước gộp và phản hồi lần 1. ........................................... 103 Hình B.9. Giao diện bước phân cụm và tra cứu trên mỗi cụm. ....................... 104 Hình B.10. Giao diện bước gộp kết quả tra cứu phản hồi lần 1. ...................... 104 Hình B.11. Giao diện chính của hệ thống ....................................................... 105 Hình B.12. Giao diện Load Dataset ................................................................ 105 Hình B.13. Giao diện đưa vào ảnh truy vấn và chọn số lượng ảnh trả về ........ 106 Hình B.14. Kết quả truy vấn khởi vào và người dùng phản hồi (ảnh có viền mầu đỏ) .................................................................................................................. 107 Hình B.15. Thực hiện phân cụm tập ảnh người dùng chọn và hiển thị tập ảnh của cụm 1 ............................................................................................................. 107 Hình B.16. Thực hiên tra cứu với trọng số thích nghi lần lặp thứ nhất ............ 108 Hình B.17. Thực hiên tra cứu với trọng số thích nghi lần lặp thứ hai.............. 108 Hình B.18. Thực hiên tra cứu với trọng số thích nghi lần lặp thứ ba ............... 109 vi
DANH MỤC BẢNG BIỂU Bảng 2.1: Kết quả phân cụm của ba phương pháp. ........................................... 46 Bảng 2.2. Các loại đặc trưng ............................................................................ 57 Bảng 2.3. Bảng kết quả của 3 phương pháp theo số truy vấn trong một lần phản hồi. ................................................................................................................... 60 Bảng 3.1. Các loại đặc trưng ............................................................................ 75 Bảng 3.2. Bảng kết quả trung bình độ chính xác của 5 phương pháp theo số điểm truy vấn trong ba lần phản hồi. ......................................................................... 78 Bảng A1. Độ chính xác trung bình của 34 loại truy vấn với một lần lặp phản hồi của phương pháp SRIR đề xuất ở chương 2...................................................... 94 Bảng A2. Độ chính xác trung bình của 80 loại truy vấn với 3 lần lặp phản hồi của phương pháp đề xuất ở chương 3. .............................................................. 96 vii
TỪ VIẾT TẮT Dạng viết tắt Diễn giải ARP Average Retrieval Precision (Độ chính xác trung bình) An efficient image retrieval method using adaptive AWEIGHT weights (Phương pháp tra cứu ảnh sử dụng trọng số thích nghi) Cotent-based image retrieval (Tra cứu ảnh dựa vào nội CBIR dung) Cluster-based Retrieval of Images by Unsupervised CLUE Learning CSDL Cơ sở dữ liệu EM Expectation maximization Finding an Optimal Query Point and Weight Matrix of FQM the Distance Function (xác định truy vấn tối ưu và ma trận trọng số của hàm khoảng cách) GMM Gaussian mixture models IF Importance of Feature (độ quan trọng đặc trưng) INC Incremental Clustering (phân cụm gia tăng) Phương pháp JF Phương pháp đề xuất bởi tác giả Jin&French Precision Độ chính xác Recall Độ triệu hồi RF Relevant feedback (Phản hồi liên quan) RGB Red, green, blue (Đỏ, xanh lá, xanh dương) Semantic–Related Image Retrieval method (Phương pháp SRIR tra cứu ảnh dựa vào ngữ nghĩa) SVM Support Vector Machine (máy véc tơ hỗ trợ) viii
MỞ ĐẦU 1. Tính cấp thiết của luận án Cơ sở dữ liệu ảnh ngày càng trở nên phổ biến trong các lĩnh vực ứng dụng khác nhau như viễn thám, thời trang, phòng chống tội phạm, xuất bản, y học, kiến trúc,… Sự tiến triển của các kỹ thuật thu, truyền và lưu trữ ảnh đã cho phép xây dựng các cơ sở dữ liệu ảnh rất lớn. Các nhân tố này đã thúc đẩy sự quan tâm nghiên cứu các phương pháp khai thác hiệu quả cơ sở dữ liệu ảnh rất lớn này. Tra cứu ảnh có thể được thực hiện dựa vào các mô tả ngắn của ảnh. Các ảnh có thể được mô tả bởi một tập các thuộc tính độc lập nội dung (tên file, khuôn dạng, loại, kích cỡ, tên tác giả, thiết bị thu nhận, ngày tạo và vị trí ổ đĩa) mà có thể được quản lý thông qua hệ quản trị cơ sở dữ liệu truyền thống. Hạn chế chính của cách tiếp cận này đó là các truy vấn bị giới hạn vào các thuộc tính hiện có của tệp ảnh. Một cách tiếp cận thay thế là sử dụng các từ khóa hoặc các chú thích ảnh. Trong cách tiếp cận này, trước tiên các ảnh được chú thích thủ công bằng các từ khóa. Sau đó, các ảnh có thể được tra cứu bởi các chú thích tương ứng của chúng. Cách tiếp cận này ít giới hạn hơn cách tiếp cận trước. Tuy nhiên, có ba khó khăn chính với cách tiếp cận này, đó là yêu cầu số lượng lớn các nhân công trong việc phát triển các chú thích, sự khác biệt trong giải thích nội dung ảnh, và sự không nhất quán của cách gán từ khóa giữa những người thực hiện chú thích khác nhau. Cách tiếp cận chú thích từ khóa này trở nên không khả thi khi cỡ của các tập ảnh gia tăng nhanh chóng. Để khắc phục các khó khăn của cách tiếp cận dựa vào chú thích, một cách tiếp cận thay thế là tra cứu ảnh dựa vào nội dung đã được đề xuất từ đầu những năm 1990. Bên cạnh sử dụng các từ khóa được con người gán, các hệ thống tra cứu ảnh dựa vào nội dung sử dụng nội dung trực quan của các ảnh, như các đặc trưng mầu sắc, kết cấu, và hình dạng, làm chỉ số ảnh. Điều này làm giảm đáng kể những khó khăn của cách tiếp cận thuần túy dựa trên chú thích, bởi vì quá trình trích rút đặc trưng có thể được thực hiện tự động. Kể từ khi ra đời, tra cứu ảnh dựa vào nội dung đã thu hút sự quan tâm nghiên cứu rất lớn, phạm vi từ ix
nghiên cứu tới thương mại. Cho đến nay, một số hệ thống nguyên mẫu thực nghiệm và các sản phẩm thương mại đã được đề xuất và xây dựng như QBIC [71], MARS [85]. Đến nay, đã có nhiều thuật toán phức tạp được thiết kế để mô tả các đặc trưng mầu, hình dạng và kết cấu, các thuật toán này không thể mô hình tương đương các ngữ nghĩa ảnh và có nhiều giới hạn khi giải quyết cơ sở dữ liệu ảnh nội dung rộng [61]. Các thực nghiệm trên các hệ thống CBIR chỉ ra rằng các nội dung mức thấp thường thất bại trong mô tả các khái niệm ngữ nghĩa mức cao của ảnh [111]. Do đó, hiệu năng của tra cứu ảnh dựa vào nội dung vẫn còn xa so với kỳ vọng của người dùng. Để khắc phục được hạn chế ở trên, những năm gần đây các hướng nghiên cứu tập trung đi tìm các phương pháp giảm khoảng cách ngữ nghĩa giữa đặc trưng mức thấp và khái niệm mức cao. Giảm khoảng cách ngữ nghĩa thường được thực hiện thông qua phản hồi liên quan. Phản hồi liên quan (RF - Relevance Feedback) là một quá trình học trực tuyến mà cố gắng học mục đích của người dùng trong quá trình tương tác; RF là một công cụ mạnh được sử dụng trong các hệ thống tra cứu thông tin [74,78]. Mục đích của nó là mang người dùng vào lặp tra cứu để giảm khoảng cách ngữ nghĩa giữa những gì mà truy vấn biểu diễn và những gì người dùng nghĩ. Bằng việc tiếp tục học thông qua tương tác với người dùng, giảm khoảng cách thông qua phản hồi liên quan đã được chỉ ra là cải tiến độ chính xác đáng kể trong các hệ thống tra cứu ảnh dựa vào nội dung [58,59,64,80,90,118,119,126]. Tuy nhiên, hầu hết các phương pháp đề cập ở trên đều gặp phải các vấn đề như sau: (1) yêu cầu người dùng phải cung cấp đồng thời nhiều ảnh truy vấn đa dạng (các ảnh khác nhau nhưng cùng một chủ đề ), tức là, tăng gánh nặng cho người dùng. (2) chưa tận dụng được thông tin phản hồi của người dùng vào việc xác định độ quan trọng ngữ nghĩa của từng truy vấn và độ quan trọng của từng đặc trưng. (3) sử dụng chung một véc tơ trọng số của hàm khoảng cách cho tất cả các điểm truy vấn tối ưu mà không xét đến tính chất địa phương của các điểm x
truy vấn khác nhau (vị trí các điểm truy vấn khác nhau, tính chất dữ liệu của các điểm lân cận của mỗi điểm truy vấn tương ứng cũng khác nhau). (4) mỗi lần lặp phản hồi, phương pháp phải phân cụm lại từ đầu tất cả các ảnh. Bốn vấn đề này dẫn đến hiệu năng của hệ thống tra cứu thấp. Do đó, việc đề xuất các giải pháp tra cứu ảnh để khắc phục các hạn chế ở trên là một nhu cầu cấp thiết. Đó cũng là lý do mà luận án chọn đề tài ―Nâng cao độ chính xác tra cứu ảnh dựa vào nội dung sử dụng kỹ thuật điều chỉnh trọng số hàm khoảng cách‖. Các phương pháp tra cứu ảnh trong luận án được giới hạn trong phạm vi tìm các ảnh đa dạng cùng chủ đề với ảnh truy vấn, chẳng hạn: tìm tất cả các ảnh thuộc chủ đề hoa hồng bao gồm cả ảnh hoa hồng đỏ, hoa hồng trắng và hoa hồng vàng. 2. Mục tiêu của luận án Mục tiêu chung của luận án: Đề xuất được phương pháp tra cứu ảnh nhằm nâng cao độ chính xác tra cứu. Mục tiêu cụ thể của luận án: - Đề xuất được phương pháp tra cứu các ảnh liên quan ngữ nghĩa nằm rải rác trong không gian đặc trưng để nâng cao độ chính xác mà không tăng thời gian thực hiện tra cứu. - Tận dụng thông tin phản hồi của người dùng để xác định độ quan trọng ngữ nghĩa của mỗi truy vấn, độ quan trọng của mỗi đặc trưng nhằm đề xuất phương pháp tra cứu ảnh hiệu quả. - Đề xuất phương pháp khai thác mức độ phản hồi của người dùng, tính chất địa phương của mỗi vùng chứa điểm truy vấn điều chỉnh để nâng cao độ chính xác tra cứu. 3. Các đóng góp của luận án Trong luận án này, tác giả nghiên cứu đề xuất các phương pháp tra cứu ảnh liên quan ngữ nghĩa gồm: phương pháp SRIR (Semantic–Related Image xi
Retrieval method) [CT5], phương pháp AWEIGHT (An efficient image retrieval method using adaptive weights) [CT6]: - Phương pháp SRIR giải quyết được các hạn chế: (1) Chỉ sử dụng một truy vấn để tạo ra kết quả tra cứu khởi tạo gồm các ảnh nằm trong các vùng khác nhau; (2) Không thực hiện phân cụm lại tập ảnh phản hồi; (3) xác định được độ quan trọng ngữ nghĩa của từng truy vấn và (4) xác định độ quan trọng theo từng đặc trưng. Những đóng góp này làm cho độ chính xác được cải tiến đáng kể. - Phương pháp AWEIGHT khai thác mức độ phản hồi để xác định các điểm truy vấn tối ưu. Bên cạnh đó, phương pháp đề xuất cũng khai thác đầy đủ tính chất địa phương của mỗi điểm truy vấn tối ưu. Ngoài ra, phương pháp trong chương này tận dụng được nhiều phản hồi từ phía người dùng mà không tăng tốc độ tính toán. 4. Bố cục của luận án Luận án này được bố cục thành ba chương: Chương 1 giới thiệu tổng quan về tra cứu ảnh dựa vào nội dung. Chương 2 trình bày phương pháp tra cứu ảnh liên quan ngữ nghĩa được tác giả để xuất, có tên là SRIR. Chương 3 trình bày phương pháp tra cứu ảnh sử dụng trọng số thích nghi được tác giả đề xuất, có tên là AWEIGHT. Cuối cùng, luận án đưa ra một số kết luận và định hướng nghiên cứu trong tương lai. xii
CHƢƠNG 1 TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG Chương này trình bày tổng quan về tra cứu ảnh dựa vào nội dung bao gồm các đặc trưng mức thấp của ảnh, cấu trúc hệ thống tra cứu ảnh dựa vào đặc trưng mức thấp và phân tích một số phương pháp tra cứu ảnh dựa vào đặc trưng mức thấp. Bên cạnh đó, chương này trình bày một số nghiên cứu giảm khoảng cách ngữ nghĩa theo cách tiếp cận phản hồi liên quan. Ngoài ra, chương này cũng phân tích một số kỹ thuật tra cứu ảnh với ngữ nghĩa mức cao. Cuối cùng, chương này đưa ra một số kết luận và định hướng cho nghiên cứu. 1.1. Giới thiệu Các dạng nguồn đa phương tiện khác nhau (văn bản, tiếng nói, ảnh, video) đang tăng lên nhanh chóng, chẳng hạn dữ liệu được trực quan trong các điện thoại thông minh, các ứng dụng 2D/3D, nội dung web,... Thế giới đang chứng kiến một sự tiến hóa về lượng, sự sẵn có, độ phức tạp, sự đa dạng và sự quan trọng của các ảnh trong tất cả các lĩnh vực. Do đó, nhu cầu về các dịch vụ ảnh trở nên quan trọng hơn bao giờ hết. Các ảnh đóng một vai trò quan trọng trong một phạm vi rộng các ứng dụng và các lĩnh vực như giáo dục, chăm sóc y tế, dự báo thời tiết, nghiên cứu về tội phạm, quảng cáo, thiết kế nghệ thuật, web, phương tiện xã hội và giải trí. Tuy nhiên, phương tiện trực quan yêu cầu một lượng xử lý và lưu trữ đáng kể, cần có các phương pháp hiệu quả cao để đánh chỉ số, lưu trữ, phân tích và tra cứu thông tin trực quan từ các cơ sở dữ liệu ảnh. Do đó, tra cứu các ảnh nhanh, chính xác và hiệu quả cho tất cả các loại tập ảnh trở thành một trong những nhiệm vụ thách thức nhất. 1
1.1.1. Tra cứu dựa vào văn bản Cách tiếp cận ban đầu cho tra cứu ảnh là dựa vào văn bản, trong đó các ảnh được đánh chỉ số bằng các từ khóa, chủ đề hoặc mã phân loại. Các từ khóa, chủ đề hoặc mã phân loại này được sử dụng trong quá trình tra cứu [41]. Tuy nhiên, với cơ sở dữ liệu ảnh lớn và tăng lên nhanh chóng, các khó khăn phải đối mặt của cách tiếp cận tra cứu dựa vào văn bản ngày càng trở nên nghiêm trọng hơn. Bên cạnh đó, quá trình này tốn nhiều nhân lực và thời gian, từ khóa lại mang tính chủ quan và không duy nhất, những người khác nhau có các nhận thức khác nhau về cùng một ảnh. Để khắc phục các vấn đề này, các nội dung của ảnh (gồm mầu, kết cấu và hình dạng) được trích rút tự động từ bản thân các ảnh đã được sử dụng cho tra cứu ảnh. Phương pháp này được gọi là tra cứu ảnh dựa vào nội dung (CBIR - content-based image retrieval) [69]. CBIR cho phép loại đi các khó khăn của tra cứu dựa vào văn bản trong các cơ sở dữ liệu ảnh lớn và hệ thống CBIR cung cấp các kết quả chính xác hơn. 1.1.2. Tra cứu ảnh dựa vào nội dung Tra cứu ảnh dựa vào nội dung (CBIR) là một ứng dụng của các kỹ thuật thị giác máy tính đối với bài toán tra cứu ảnh [70]. Mục tiêu của hệ thống CBIR là sử dụng nội dung trực quan của các ảnh để tìm các ảnh quan tâm từ một cơ sở dữ liệu ảnh lớn. Tra cứu ảnh dựa vào nội dung có nghĩa là tra cứu sẽ phân tích nội dung của ảnh thay vì dựa vào các siêu dữ liệu như từ khóa, thẻ và các mô tả văn bản đi kèm với ảnh. Thuật ngữ nội dung ở đây được hiểu là mầu, hình dạng, kết cấu hoặc bất cứ một thông tin nào mà có thể lấy ra từ bản thân ảnh. Trong CBIR, các ảnh có thể được tra cứu thông qua việc sử dụng các đặc trưng mức thấp (tức là mầu sắc, hình dạng, và kết cấu) hoặc sử dụng các đặc trưng mức cao hay các đặc trưng ngữ nghĩa. Hình 1.1 chỉ ra khoảng cách ngữ nghĩa của hai đối tượng ảnh. Như Hình 1.1 cho thấy, véc tơ đặc trưng (hai lược đồ) của ảnh phía trên và véc tơ đặc trưng của ảnh phía dưới là rất giống nhau. 2
Do đó, nếu chỉ dựa vào đặc trưng mức thấp (véc tơ đặc trưng) thì hệ thống sẽ kết luận ảnh phía trên và phía dưới là giống nhau. Tuy nhiên, khi ta nhìn vào hai ảnh này thì lại thấy chúng rất khác nhau (ảnh phía trên là cây trong rừng còn ảnh phía dưới là một bông hồng). Tra cứu ảnh dựa vào ngữ nghĩa đối sánh một truy vấn người dùng dựa vào các nội dung nhận thức nào đó hơn là sự tương tự giữa các đặc trưng. Hình 1.1. Khoảng cách ngữ nghĩa Thành phần chính của CBIR là kỹ thuật tra cứu ảnh được sử dụng để lấy ra các ảnh tương tự nhất đối với ảnh truy vấn mà người dùng đưa vào [101]. Một hệ thống tra cứu dựa vào nội dung tiêu biểu được chia thành hai pha: trích rút đặc trưng ngoại tuyến và tra cứu ảnh trực tuyến. Trong pha ngoại tuyến, hệ thống trích rút tự động các thuộc tính trực quan ở mức thấp (mầu, kết cấu và hình dạng) hoặc ở mức cao. Trong pha tra cứu ảnh trực tuyến, người dùng có thể cung cấp một ảnh mẫu cho hệ thống tra cứu để tìm kiếm các ảnh mong muốn. Hệ thống tra cứu ảnh biểu diễn ảnh mẫu này bởi véc tơ đặc trưng và khoảng cách (hoặc độ tương tự) giữa các véc tơ đặc trưng của ảnh mẫu và của ảnh trong cơ sở dữ liệu đặc trưng được tính toán. Cuối cùng hệ thống phân hạng các ảnh theo thứ tự tăng dần của khoảng cách hay giảm dần của độ tương tự và trả về tập ảnh kết quả cho người dùng. Nếu không thỏa mãn với kết quả tra cứu, người dùng có thể cung cấp phản hồi liên quan cho hệ thống tra cứu, hệ thống sẽ học 3
nhu cầu thông tin của người dùng. Kiến trúc của hệ thống tra cứu ảnh dựa vào nội dung được chỉ ra trên Hình 1.2. Phản hồi liên quan Trích rút đặc trưng Cơ sở dữ liệu Tập ảnh đặc trưng Độ tương tự Kết quả tra cứu Sắp xếp Đầu ra Trích rút đặc trưng Véc tơ Ảnh truy vấn đặc trưng Hình 1.2. Kiến trúc hệ thống tra cứu ảnh dựa vào nội dung. Phản hồi liên quan (RF - Relevance Feedback) là một quá trình trực tuyến mà cố gắng học mục đích của người dùng trong quá trình tương tác. Phản hồi liên quan được sử dụng rộng rãi trong các hệ thống tra cứu thông tin [74,78]. Mục đích của nó là mang người dùng vào lặp tra cứu để giảm khoảng cách ngữ nghĩa giữa những gì mà truy vấn biểu diễn và những gì người dùng nghĩ. Bằng việc tiếp tục học thông qua tương tác với các người dùng cuối, phản hồi liên quan đã được chỉ ra là cung cấp cải tiến hiệu năng đáng kể trong các hệ thống tra cứu ảnh dựa vào nội dung [103,104,119]. Hình 1.3 chỉ ra cơ chế hoạt động của phản hồi liên quan trong tra cứu ảnh dựa vào nội dung [2,74,104]. Khi có kết quả tra cứu khởi tạo, người dùng chọn các ảnh liên quan trong danh sách kết quả này để làm các mẫu có nhãn (dương hay âm). Dựa trên tập mẫu huấn luyện này, một thuật toán máy học được thực hiện để điều chỉnh các tham số. Dựa trên các tham số vừa được học, tra cứu ảnh sẽ tiếp tục được thực hiện. Quá trình được lặp lại cho đến khi người dùng thỏa mãn. 4
Hình 1.3: Sơ đồ phản hồi liên quan. Con người có thể mô tả và giải thích các nội dung ảnh một cách thích hợp, bao gồm cấu trúc liên kết toàn bộ và các đối tượng sử dụng các khái niệm ngữ nghĩa mức cao. Không giống như con người, máy tính xử lý các đặc trưng mức thấp được trích rút từ các điểm ảnh, do đó nó cung cấp các mô tả của ảnh ít ngữ nghĩa hơn so với mô tả của con người. Sự khác nhau giữa máy tính và con người trong việc mô tả cùng một ảnh được gọi là ―khoảng cách ngữ nghĩa‖. Người dùng tìm kiếm sự tương tự ngữ nghĩa nhưng cơ sở dữ liệu chỉ có thể cung cấp các ảnh tương tự bởi một xử lý số. Ngoài ra, khoảng cách ngữ nghĩa giữa các thuộc tính ảnh và các thuộc tính đối tượng giới hạn nhiều hiệu quả tra cứu. 1.2. Trích rút đặc trƣng trong tra cứu ảnh 1.2.1. Đặc trƣng mầu Đặc trưng mầu là một trong những đặc trưng thị giác rộng nhất do quan hệ chặt chẽ với các đối tượng ảnh, tiền cảnh và nền. Mầu cũng là một đặc trưng trực quan mạnh do nó không phụ thuộc vào trạng thái của các nội dung ảnh như 5
hướng, cỡ và góc. Các biểu diễn mầu phổ biến là lược đồ mầu, mô men mầu [34], tương quan mầu [43] và ma trận đồng hiện mầu [37]. Không gian mầu được phân lớp thành các không gian mầu tuyến tính (tức RGB, XYZ, CMY, YIQ và YUV) và các không gian mầu phi tuyến [113] (tức L*a*b, HSV, Nxyz và L*u*v). Không gian mầu RGB là một không gian mầu cộng tính dựa vào ba mầu chính: đỏ, xanh lá cây và xanh lam. Các mầu khác có thể được sinh ra bởi sử dụng các mầu chính, chẳng hạn, sử dụng đỏ với xanh lam tạo ra đỏ tươi, xanh lá cây và xanh lam ta ra mầu lục và sự kết hợp của mầu đỏ, xanh lá cây và mầu xanh lam ở cường độ tối đa tạo ra mầu trắng. Tuy nhiên, không gian RGB không hiệu quả trong việc xử lý các ảnh trong thế giới thực, do đó nó bị tránh trong nhiều thuật toán tra cứu ảnh vì nó thiếu khả năng đo lường sự tương tự về nhận thức. Hơn nữa, khoảng cách trong không gian RGB có ít thông tin ngữ nghĩa về mặt nhận thức thị giác của con người. Theo đó, không gian mầu HSV được sử dụng thay cho không gian mầu RGB vì các thành phần mầu sắc và độ bão hòa rất gần với nhận thức thị giác của con người. Mô hình HSV có ba thành phần cấu thành: ―hue‖ đề cập đến mầu sắc, ―saturation‖ đề cập đến độ sắc nét của mầu và ―value‖ là độ sáng của mầu sắc. Một không gian mầu khác, không gian mầu YCbCr được chia thành độ chói (Y) và sắc độ (Cb, Cr), trong khi Cb và Cr lần lượt biểu thị sự khác biệt mầu xanh-vàng và đỏ-lục. Không gian mầu L * a * b * cũng được lấy từ không gian mầu XYZ để đạt được sự đồng nhất về nhận thức. Như trong YCbCr, L * a * b bao gồm một chiều độ sáng (L) và hai chiều sắc độ (a *, b *) dựa trên quá trình đối lập mầu. Lược đồ mầu không có thông tin về sự phân bố không gian của mầu; do đó, các biểu diễn khác đã được đề xuất như tương quan mầu sắc và sự tương quan. Các phương pháp này cung cấp thông tin về tương quan không gian của 6