Luận văn Thạc sĩ Khoa học máy tính: Nghiên cứu phương pháp tra cứu ảnh nhanh sử dụng phân cụm phổ

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:61

Thêm vào BST

Báo xấu

36
lượt xem 5
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Nhiệm vụ chính của luận văn là nắm vững kiến thức tổng quan của lĩnh vực xử lý ảnh, đi sâu nghiên cứu lĩnh vực tra cứu ảnh dựa vào nội dung, tìm hiểu một số thuật toán học không giám sát, nghiên cứu thuật toán phân cụm phổ và đưa vào hệ thống tra cứu ảnh dựa vào nội dung. Mời các bạn cùng tham khảo!

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận văn Thạc sĩ Khoa học máy tính: Nghiên cứu phương pháp tra cứu ảnh nhanh sử dụng phân cụm phổ

i ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN THỊ THANH THỦY NGHIÊN CỨU PHƯƠNG PHÁP TRA CỨU ẢNH NHANH SỬ DỤNG PHÂN CỤM PHỔ Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: PGS.TS. NGUYỄN HỮU QUỲNH THÁI NGUYÊN, 2018
ii LỜI CAM ĐOAN Tôi Nguyễn Thị Thanh Thủy cam đoan những nội dung trình bày trong luận văn này là kết quả tìm hiểu, nghiên cứu của bản thân dưới sự hướng dẫn của PGS.TS Nguyễn Hữu Quỳnh và các nhà nghiên cứu đi trước. Nội dung tham khảo, kế thừa, phát triển từ các công trình đã được công bố trích dẫn, ghi rõ nguồn gốc. Kết quả mô phỏng, thí nghiệm được lấy từ chương trình của bản thân. Nếu có gì sai phạm tôi xin hoàn toàn chịu mọi trách nhiệm. Người cam đoan Nguyễn Thị Thanh Thủy LỜI CẢM ƠN
iii Trong quá trình thực hiện luận văn mặc dù gặp rất nhiều khó khăn, nhưng tôi luôn nhận được sự quan tâm, giúp đỡ từ thầy cô, bạn bè, đồng nghiệp và người thân. Đây là nguồn động lực giúp tôi hoàn thành luận văn này. Tôi xin gửi lời cảm ơn sâu sắc đến PGS.TS Nguyễn Hữu Quỳnh, đã tận tình giúp đỡ, hướng dẫn chỉ bảo trong quá trình thực hiện luận văn. Tôi xin chân thành cảm ơn đến quý thầy, cô trường Đại học CNTT&TT – Đại học Thái Nguyên đã tận tình chỉ bảo, truyền đạt những kiến thức quý báu giúp thôi hoàn thành được quá trình học tập tại trường. Quý thầy cô đã giúp tôi có được những kiến thức quan trọng trong lĩnh vực Công nghệ thông tin, là nền tảng vững chắc cho những nghiên cứu khoa học của bản thân trong thời gian qua và sau này. Tôi xin chân thành cảm ơn các anh chị em đồng nghiệp đã giúp đỡ, ủng hộ tôi trong thời gian qua. Tôi xin chân thành cảm ơn! Thái Nguyên ngày 15 tháng 04 năm 2018 Học viên thực hiện Nguyễn Thị Thanh Thủy
iv MỤC LỤC LỜI CAM ĐOAN .............................................................................................. i LỜI CẢM ƠN ................................................................................................... ii MỤC LỤC ........................................................................................................ iv DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT .................................. vi DANH MỤC BẢNG BIỂU ............................................................................ vii DANH MỤC CÁC HÌNH .............................................................................. viii MỞ ĐẦU ........................................................................................................... 1 1. Đối tượng và phạm vi nghiên cứu................................................................. 2 3. Những nội dung nghiên cứu chính ................................................................ 3 CHƯƠNG 1. TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG . 4 1.1. Giới thiệu.................................................................................................... 4 1.2. Không gian màu ......................................................................................... 7 1.3. Các ví dụ tìm kiếm tương tự .................................................................... 10 1.4. Đo độ tương tự và các lược đồ đánh chỉ số.............................................. 14 1.4.1. Các độ đo tương tự ......................................................................14 1.4.2. Lược đồ đánh chỉ số .....................................................................15 1.5. Các hệ thống tra cứu ảnh dựa vào nội dung hiện nay .............................. 16 1.5.1. WALRUS ...................................................................................19 1.5.2. Blobworld ..................................................................................20 1.6. Tiểu kết chương 1. ................................................................................... 21 CHƯƠNG 2: PHƯƠNG PHÁP TRA CỨU ẢNH NHANH SỬ DỤNG PHÂN CỤM PHỔ ....................................................................................................... 23 2.1. Giới thiệu.................................................................................................. 23
v 2.2. Một số thuật toán phân cụm ..................................................................... 23 2.2.1. Thuật toán phân cụm k-means: ......................................................23 2.2.2. Thuật toán k-medoids...................................................................28 2.2.3. Thuật toán phân cụm phổ .............................................................29 2.3. Phương pháp tra cứu nhanh sử dụng phân cụm phổ ................................ 30 2.3.1. Giới thiệu phương pháp ................................................................30 2.3.2. Thuật toán phân cụm cơ sở dữ liệu ảnh ..........................................31 2.3.3. Thuật toán tra cứu ảnh nhanh sử dụng phân cụm phổ .......................40 2.4. Tiểu kết chương 2..................................................................................... 41 CHƯƠNG 3. CHƯƠNG TRÌNH THỬ NGHIỆM ......................................... 42 3.1. Phân tích và xây dựng bài toán ................................................................ 42 3.2. Môi trường thực nghiệm .......................................................................... 43 3.2.1. Cơ sở dữ liệu ảnh.........................................................................44 3.2.2. Vector đặc trưng ..........................................................................45 3.2.3. Tập tin cậy nền (ground truth): ......................................................46 3.2.4. Cấu hình đề xuất thiết bị chạy thực nghiệm.....................................46 3.2.5. Kết quả đánh giá..........................................................................46 3.3. Giao diện hệ thống ................................................................................... 48 3.4. Tiểu kết chương 3..................................................................................... 50 KẾT LUẬN ..................................................................................................... 51 TÀI LIỆU THAM KHẢO ............................................................................... 51
vi DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Từ viết tắt Diễn giải CBIR Tra cứu ảnh dựa vào nội dung. FRM Phương pháp bán kính cố định (Fixed-radius method) NNM Phương pháp lân cận gần nhất (Nearest-neighbors method ) SOM Bản đồ tự tổ chức (Self-Organization Map) KL Biến đổi Karhunen-Loeve PCA Phân tích thành phần chính (Principal Component Analysis) KMCC K-Means với ràng buộc liên thông IR Inner Rectangle EHD Mô tả lược đồ cạnh EM Thuật toán cực đại kỳ vọng (Expectation-Maximization)
vii DANH MỤC BẢNG BIỂU Bảng 3.1. Bảng phân bố tập ảnh Corel ........................................................... 44 Bảng 3.2. Các loại đặc trưng ........................................................................... 45 Bảng 3.3. Bảng cấu hình đề xuất thiết bị chạy thực nghiệm. ......................... 46 Bảng 3.4. Bảng kết quả của các phương pháp ................................................ 47
viii DANH MỤC CÁC HÌNH Hình 1.1: Khối màu RGB.................................................................................. 8 Hình 1.2: Trụ màu HSV. ................................................................................... 9 Hình 1.3: Trích rút lược đồ màu sử dụng ba màu. .......................................... 11 Hình 2.1: Sơ đồ mô tả thuật toán K-Means .................................................... 24 Hình 2.2: Cấu trúc của phương pháp đề xuất.................................................. 31 Hình 2.3: Thuật toán phân cụm tập ảnh S={s1,s2,…,sn} thành k cụm SCIS ..... 35 Hình 2.4: Đồ thị biểu diễn cơ sở dữ liệu ảnh. ................................................. 35 Hình 2.5: Thuật toán tra cứu ảnh nhanh sử dụng phân cụm phổ .................... 41 Hình 3.1. Mô hình tổng quát của hệ thống...................................................... 43 Hình 3.2: So sánh độ chính xác và thời gian tra cứu ...................................... 47 Hình 3.3: Giao diện pha huấn luyện. .............................................................. 48 Hình 3.4: Giao diện pha tra cứu. ..................................................................... 48 Hình 3.5: Chọn tập dữ liệu ảnh / đặc trưng. .................................................... 49 Hình 3.6: Chọn ảnh truy vấn khởi tạo. ............................................................ 49 Hình 3.7: Kết quả tra cứu với truy vấn khởi tạo 84090 thuộc lớp 840 ........... 50
1 MỞ ĐẦU Xử lý ảnh là lĩnh vực nghiên cứu đang phát triển không ngừng bởi tính trực quan sinh động cũng như khả năng áp dụng vào thực tế lớn. Hiện xử lý ảnh đang giành được nhiều sự quan tâm của các nhà nghiên cứu trong và ngoài nước. Trong xử lý ảnh, tra cứu ảnh có thể nói là lĩnh vực đòi hỏi sự nghiên cứu tổng hợp: nghiên cứu xử lý ảnh để rút trích các đặc trưng, áp dụng các tính toán toán học cao cấp để xác định mức độ tương đồng giữa hai ảnh. Hơn nữa, cùng với sự phát triển của phần mềm và phần cứng, khối lượng ảnh phát triển không ngừng và ngày càng lớn. Một số lượng lớn các ảnh đang được sử dụng ở trong thư viện ảnh số và trên web. Vì vậy nhu cầu tìm kiếm ảnh là một nhu cầu tất yếu. Hiện tại, tra cứu ảnh ứng dụng trong khá nhiều lĩnh vực như: quản lý biểu trưng (logo), truy tìm tội phạm, ứng dụng trong y khoa, quân sự…. Tra cứu ảnh dựa trên nội dung (CBIR-Content-Based Image Retrieval) là kỹ thuật cho phép trích chọn các đặc điểm dựa vào nội dung trực quan của ảnh như màu sắc, kết cấu, hình dạng và bố cục không gian của ảnh để làm cơ sở cho việc tra cứu, sắp xếp, tổ chức CSDL ảnh. Nhiều phương pháp, hệ thống tra cứu ảnh dựa vào nội đã được phát triển, tuy nhiên, cơ sở dữ liệu ảnh tăng lên từng ngày dẫn đến chúng ta phải tra cứu trên những cơ sở dữ liệu cực lớn. Đó cũng chính là lý do mà luận văn chọn đề tài: “Nghiên cứu phương pháp tra cứu ảnh nhanh sử dụng phân cụm phổ”. Trong học có giám sát, người học được cung cấp một tập dữ liệu gắn nhãn D = {(x,y)}, trong đó y là nhãn của x, nhãn này do người giám sát (người thầy) cung cấp, và nó là giá trị của hàm mục tiêu mà người ta quan sát được. Trong học không có giám sát, người học chỉ được cung cấp một tập dữ liệu không có nhãn: aj D={xi/i=1,...,N} Trong đó, các điểm dữ liệu xi được lấy mẫu từ không gian các đối tượng X nào đó. Các thuật toán thuộc phương pháp học không giám sát sẽ dựa vào
2 cấu trúc của dữ liệu để thực hiện một công việc nào đó, ví dụ như phân cụm hoặc giảm số chiều dữ liệu để thuận tiện cho việc lưu trữ và tính toán. Có nhiều phương pháp phân cụm khác nhau như K-Means, K-medoids, HAC… Mỗi phương pháp có những ưu điểm, thế mạnh riêng và có yêu cầu riêng về cách biểu diễn dữ liệu, độ đo. Đề tài này, tập trung nghiên cứu thuật toán phân cụm phổ, đây là một thuật toán phân cụm và rút gọn chiều dữ liệu hiệu quả. Phương pháp phân cụm phổ phân cụm các điểm sử dụng các véc tơ riêng của ma trận sinh ra bởi dữ liệu. Phân cụm phổ thực hiện hiệu quả trên dữ liệu có kết nối và dữ liệu không nhất thiết là phải có quan hệ chặt chẽ hoặc tập trung trong đường viền của hình lồi. Tập trung biểu diễn dữ liệu trong một không gian thấp chiều hơn để có thể phân cụm dễ dàng. Trong những năm gần đây, phân cụm phổ đã trở thành thuật toàn phân cụm hiện đại phổ biến nhất. Thuật toán thực hiện đơn giản, có thể được giải quyết hiệu quả nhờ phần mềm đại số tuyến tính, và hoạt động tốt hơn các thuật toán phân cụm truyền thống như Kmeans. Đề tài của này sẽ áp dụng thuật toán phân cụm phổ để phân cụm toàn bộ cơ sở dữ liệu ảnh trước khi đưa vào tra cứu. Nhiệm vụ chính của luận văn là nắm vững kiến thức tổng quan của lĩnh vực xử lý ảnh, đi sâu nghiên cứu lĩnh vực tra cứu ảnh dựa vào nội dung, tìm hiểu một số thuật toán học không giám sát, nghiên cứu thuật toán phân cụm phổ và đưa vào hệ thống tra cứu ảnh dựa vào nội dung. Cài đặt chương trình thử nghiệm đánh giá, so sánh hiệu quả của hệ thống tra cứu ảnh dựa vào nội dung sử dụng phân cụm phổ với một số hệ thống tra cứu ảnh điển hình khác. 1. Đối tượng và phạm vi nghiên cứu Luận văn này nhằm mục đích tìm hiểu tổng quan về xử lý ảnh, tra cứu ảnh dựa vào nội dung, tìm hiểu một số thuật toán học không giám sát và đi sâu nghiên cứu thuật toán phân cụm phổ. Trên cơ sở đó cài đặt chương trình thử nghiệm.
3 2. Hướng nghiên cứu của đề tài - Tìm hiểu tổng quan về xử lý ảnh, tra cứu ảnh dựa vào nội dung, một số hệ thống tra cứu ảnh dựa vào nội dung hiện nay. - Tìm hiểu một số thuật toán học không giám sát (unsupervised learning), - Nghiên cứu thuật toán phân cụm phổ (spectral clustering) và áp dụng vào hệ thống tra cứu ảnh dựa vào nội dung nhằm nâng cao hiệu quả tra cứu. - Xây dựng hệ thống và cài đặt chương trình thử nghiệm. 3. Những nội dung nghiên cứu chính Luận văn được chia làm 3 chương: Chương 1: Tổng quan về tra cứu ảnh dựa vào nội dung. Chương 2: Phương pháp tra cứu ảnh nhanh sử dụng phân cụm Phổ. Chương 3: Chương trình thử nghiệm.
4 CHƯƠNG 1 TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG 1.1. Giới thiệu Sự xuất hiện của thời đại đa phương tiện đặt ra một số thách thức mới cho các nhà nghiên cứu cơ sở dữ liệu. Cụ thể, các thư viện số đòi hỏi tra cứu tự động hiệu quả dựa vào nội dung ngữ nghĩa của các ảnh. Sự thúc đẩy của các khả năng đồ họa trong các máy tính hiện đại và phát triển của Internet đã thúc đẩy sự gia tăng các ảnh số nhanh chóng. Trong các hệ cơ sở dữ liệu cổ điển, một đối tượng truy vấn được cho, trong đó các thuộc tính phổ biến nhất hoặc là số hoặc là văn bản, hệ thống phải phát hiện đối tượng cơ sở dữ liệu nào là “giống” với truy vấn. Các kết quả của loại tìm kiếm màu là một tập các đối tượng cơ sở dữ liệu có các thuộc tính đối sánh với các thuộc tính được chỉ ra trong truy vấn. Các cách tiếp cận truyền thống để mô tả nội dung của các ảnh dựa vào các văn bản đại diện, trong đó các chuyên gia chú thích thủ công mỗi ảnh với một mô tả văn bản, sao cho các kỹ thuật tra cứu thông tin dựa vào văn bản có thể được áp dụng. Cách tiếp cận này có ưu điểm kế thừa công nghệ hiệu quả được phát triển cho tra cứu văn bản, nhưng rất không khả thi trong trường hợp của các cơ sở dữ liệu ảnh lớn. Hơn nữa, độ chính xác của nó phụ thuộc nhiều vào các suy nghĩ chủ quan của các chuyên gia, người mà có thể cung cấp các mô tả khác nhau cho cùng một ảnh [Virginia et al., 1995]. Ngay cả khi lược đồ tìm kiếm đối sánh đã được chứng mình là một phương pháp hiệu quả để tra cứu dữ liệu quan tâm trong các hệ cơ sở dữ liệu cổ điển, nó có thể không được áp dụng thành công trong ngữ cảnh của các cơ sở dữ liệu ảnh, và tổng quát hơn, trong các cơ sở dữ liệu đa phương tiện do độ phức tạp tính toán của các đối tượng đa phương tiện cho đối sánh là không đủ ý nghĩa. Trích dẫn từ [Simone et al., 1996]: “Chúng ta tin rằng các cơ sở dữ liệu ảnh trong tương lai nên bỏ qua mô hình đối sánh, và thay vào đó là dựa vào tìm kiếm tương tự. Trong tìm kiếm
5 tương tự chúng ta không đòi hỏi sự tồn tại của một ảnh mục tiêu trong cơ sở dữ liệu. Hơn nữa, chúng ta sắp xếp các ảnh theo độ tương tự với truy vấn, khi được cho một điều kiện tương tự cố định.” Dự đoán này là đúng: Ngày nay, các truy vấn tương tự gia tăng một cách tự nhiên trong nhiều ứng dụng, như: - Thương mại điện tử - Các cơ sở dữ liệu y học - Giải trí - Dự báo thời tiết - Điều tra tội phạm Như được đánh giá ở câu trên, tìm kiếm tương tự có thể khắc phục các hạn chế của các cách tiếp cận truyền thống bằng việc sử dụng các đặc trưng số được tính toán bởi phân tích trực tiếp nội dung thông tin. Tra cứu ảnh dựa vào nội dung (CBIR) đã được phát triển từ đầu những năm 1990. Các hệ thống CBIR sử dụng các đặc trưng trực quan để biểu diễn nội dung ảnh. Cách tiếp cận này là thuận lợi bởi vì các đặc trưng có thể được tính toán tự động, và thông tin được sử dụng trong quá trình tra cứu luôn nhất quán, không phụ thuộc vào ý hiểu của con người. Cụ thể, người dùng phác thảo ảnh truy vấn, hoặc lựa chọn một ảnh mẫu, tìm những cái tương tự. Kết quả của loại truy vấn này là một danh sách các ảnh được sắp xếp theo các giá trị giảm dần của độ tương tự đối ảnh truy vấn. Do đó, ngay tức thì nhu cầu tìm kiếm tương tự để xác định một điều kiện tương tự thích hợp, có thể đo được độ tương tự giữa hai ảnh chỉ sử dụng các thuộc tính ảnh mức thấp (tức là, không cần các chuyên gia cung cấp thông tin bổ sung). Hơn nữa, một cách hiệu quả để thu các ảnh cơ sở dữ liệu tương tự nhất với ảnh truy vấn phải được xác định. Mục đích này thường được thực hiện sử dụng các cấu trúc đánh chỉ số trên các mô tả nội dung ảnh. Nói cách khác, mỗi mô tả nội dung ảnh này, được biểu diễn bởi một véc tơ đặc trưng, được lưu trữ và được đánh chỉ số trong cơ sở dữ
6 liệu sao cho ở thời điểm truy vẫn véc tơ đặc trưng của ảnh truy vẫn được tính toán và cơ sở dữ liệu tìm kiếm được các véc tơ đặc trưng tương tự nhất. Để mô tả các ảnh cơ sở dữ liệu, các hệ thống CBIR hiện đại xác định một tập các thuộc tính liên quan mức thấp (các đặc trưng) có thể mô tả hiệu quả nội dung của các ảnh và sau đó sử dụng các đặc trưng như thế cho các mục tiêu tra cứu. Các đặc trưng nên đủ đơn giản để cho phép thiết kế các thuật toán trích rút tự động, nhưng đủ ý nghĩa để thu nội dung ảnh. Với mục đích này, một số nghiên cứu đã nhấn mạnh thực tế rằng các đặc trưng toàn cục như màu và kết cấu, thực sự có giá trị ngữ nghĩa phong phú, và do đó chúng được sử dụng bởi một số hệ thống CBIR [Myron et al., 1995]. Dưới góc nhìn này, mỗi ảnh được biểu diễn bởi một véc tơ đặc trưng nhiều chiều, chiều của nó phụ thuộc vào số và loại đặc trưng được trích rút, và độ tương tự giữa các ảnh được truy cập bởi xác định một hàm khoảng cách phù hợp trên không gian đặc trưng. Thực tế rằng các hệ thống CBIR dựa trên các đặc trưng toàn cục không thể hỗ trợ các truy vẫn như “tìm tất cả các ảnh chứa một vùng đỏ nhỏ dưới một vùng xanh lớn” mà cần các thuộc tính cục bộ của các ảnh. Do đó, nhu cầu trích rút không chỉ các đặc trưng toàn cục mà còn các đặc trưng cục bộ, và một số hệ thống tra cứu ảnh dựa vào vùng mà phân đoạn mỗi ảnh thành một tập các “vùng không thuần nhất”, được trình bày trong [John et al., 1996]. Trong các hệ thống dựa vào vùng, đánh giá độ tương tự giữa các ảnh được thực hiện bởi kết hợp các vùng trong ảnh truy vấn với các vùng được chứa trong ảnh cơ sở dữ liệu và bởi đưa vào bản miêu tả độ tương tự giữa các vùng kết hợp. Nhằm mục đích này, các đặc trưng được trích rút cho mỗi vùng và một hàm khoảng cách được sử dụng để so sánh các mô tả của vùng. Tuy nhiên, các hệ thống đã có, hoặc xét một kịch bản, trong đó các ràng buộc không gian được đưa vào bản miêu tả [Stefano et al., 1999], hoặc các thuật toán đối sánh kinh nghiệm cổ điển không đảm bảo trả lại các kết quả chính xác. Ví dụ, giả sử rằng một người dùng tìm các ảnh chứa hai con hổ: Trong
7 trường hợp này, ảnh truy vấn sẽ chứa (tối thiểu) hai vùng, mỗi vùng biểu diễn một con hổ. Nếu một ảnh cơ sở dữ liệu chứa một vùng “hổ” đơn, rõ ràng nó không chính xác để kết hợp cả hai vùng truy vấn vào vùng truy vấn đơn của ảnh cơ sở dữ liệu. Xử lý các truy vấn k lân cận gần nhất (các đối sánh tốt nhất), trong đó người dùng yêu cầu k ảnh trong cơ sở dữ liệu mà tương tự nhất, theo độ đo tương tự được thực hiện bởi hệ thống CBIR, đối với ảnh truy vấn. Các truy vấn phạm vi, trong đó người dùng phải chỉ ra một ngưỡng tương tự tối thiểu  mà các ảnh phải vượt qua để là một phần của kết quả. Trong thực tế, do người dùng không có một tri thức tiền nghiệm trên phân bố độ tương tự giữa các ảnh, người dùng không có cách để đoán giá trị đúng cho . Một giá trị cao của  có thể dễ dẫn đến một kết quả rỗng, trong khi  giảm một chút có thể sinh ra một số lớn các ảnh trả về. Tình huống này là phức tạp trong các hệ thống dựa vào vùng. 1.2. Không gian màu Màu là một đặc trưng được chấp nhận rộng rãi để biểu diễn các mô tả của một ảnh. Các nhà nghiên cứu đã khai phá nhiều kỹ thuật để phân loại màu thành các không gian màu khác nhau. Không gian màu RGB (Red, Green, Blue) là một không gian màu nổi tiếng nhất. Trộn ba màu chính đỏ, xanh lá, xanh biển có thể tạo ra vô số màu. Hình 1.1 chỉ ra một khối màu RGB. Không gian màu RGB có nhiều biến thể gồm ISO RGB, ISO RGB rộng, RGB chuẩn, Adobe RGB (1998), Apple RGB, NTSC RGB (1953)....
8 Hình 1.1: Khối màu RGB Tuy nhiên, không gian màu RGB không thích hợp cho xử lý ảnh màu, bởi vì ba lý do sau: - Các màu R, G và B có các quan hệ chặt giữa chúng. - Nó không dễ dàng cho người dùng ít kinh nghiệm để điều chỉnh màu mong muốn. - Trong thị giác máy tính, các màu R, G, B của một đối tượng trong ảnh số dựa vào các ảnh sáng phản chiếu của đối tượng, mà thực hiện phân biệt đối tượng rất khó. Do đó, Smith và cộng sự [Smith, 1978] đề xuất một không gian màu HSV, ở đó H, S và V biểu diễn sắc màu, sự bão hòa, và giá trị tương ứng. Ở đây, sắc màu chỉ ra loại màu, bão hòa chỉ ra sự tinh khiết và giá trị chỉ ra độ sáng màu. So với không gian màu RGB, không gian màu HSV thực hiện phân biệt đối tượng dễ hơn bởi vì thông tin trong ba kênh là tương đối độc lập với mỗi kênh còn lại. Ngoài ra, không gian màu HSV mô hình gần với nhận thức của con người và đã được chứng minh là hiệu quả trong nhiều nghiên cứu CBIR. Hình 1.2 chỉ ra hình trụ màu HSV.
9 Hình 1.2: Trụ màu HSV. Mỗi điểm trong không gian màu RGB có thể được ánh xạ sang một điểm trong không gian màu HSV sử dụng các công thức sau: ở đây Max và Min là giá trị cực đại và cực tiểu của các thành phần R, G và B tại một điểm tương ứng.
10 1.3. Các ví dụ tìm kiếm tương tự Các hệ thống CBIR cung cấp truy cập nội dung của các ảnh trích rút đặc trưng như màu, hình và kết cấu. Sau đó, tất cả các hệ thống này sử dụng các cách tiếp cận dựa vào đặc trưng để đánh chỉ số thông tin ảnh [Arnold et al., 2000]. Lưu ý rằng trích rút đặc trưng là một quá trình phức tạp. Tra cứu ảnh bởi biểu diễn màu Phân bố các màu trong một ảnh thường được biểu diễn bởi một lược đồ. Mỗi pixel của một ảnh O[x,y] gồm ba kênh màu O=(OR, OG, OB), biểu diễn các thành phần đỏ, xanh lá, xanh biển. Các kênh này được biến đổi, theo cách của ma trận biến đổi Tc, sang các thành phần tự nhiên của nhận thức màu, tức là hue, bightness và saturation (không gian màu HSV). Cuối cùng, ba kênh sau được lượng hóa, thông qua một ma trận lượng hóa Qc, thành một không gian gồm một số hữu hạn M màu. Thành phần thứ m của lược đồ, hc[m] được cho bởi: Do đó, mỗi ảnh được biểu diễn bởi một điểm trong một không gian M chiều. Trường hợp đơn giản nhất (như trong Hình 1.3) được biểu diễn bởi các lược đồ màu với chỉ ba màu (ví dụ đỏ, xanh lá, xanh biển). Chi tiết, hai lược đồ màu được tính toán bắt đầu từ hai ảnh: sau đó, so sánh độ tương tự giữa các ảnh được thực hiện trên các véc tơ màu p1 và p2
11 Hình 1.3: Trích rút lược đồ màu sử dụng ba màu. Tuy nhiên, các cách tiếp cận chung thường xác định một số biến màu lớn hơn nhiều, ví dụ 64, 116 hoặc 256. Trong tất cả các trường hợp, để so sánh các lược đồ của các ảnh khác nhau (ví dụ p và q), một hàm khoảng cách trên một không gian được yêu cầu. Các ví dụ liên quan về các hàm khoảng cách gồm các dạng Lp L1 là khoảng cách Manhattan, L2 là dạng Euclidean, L là độ đo cực đại và accs phiên bản có trọng số của chúng. Chẳng hạn, khoảng cách Euclidean có trọng số là: ở đây W=(w1,w2,....wD) là một véc tơ các trọng số mà phản ánh sự quan trọng tương đối của mỗi tọa độ của không gian.
12 Các khoảng cách Quadratic cũng có thể được sử dụng để thi các tương quan giữa các tọa độ khác nhau của các véc tơ đặc trưng [Christos et al., 1994]. Khoảng cách Quaratic được xác định bằng: và dẫn đến các bề mặt ellipsoid có hướng bất kỳ trong không gian đặc trưng [Thomas et al., 1997]. Lưu ý rằng khoảng cách này là một dạng Euclidean có trọng số “được quay”. Khoảng cách Mahalanobis được biết rộng rãi thu được khi mỗi wi,j là một hệ số của ma trận hiệp phương sai. Một phương pháp biểu diễn màu thay thế là các mô men màu [Markus et al., 1995]. Để khắc phục các ảnh hưởng lượng hóa của các lược đồ màu, một véc tơ 9 chiều, gồm trung bình, phương sai, và độ lệch của các thành phần sắc màu (hue), bão hòa (saturation), độ sáng (brightness) cho tất cả các pixel, được trích rút từ mỗi ảnh. Trên các véc tơ này, một hàm khoảng cách Euclidean có trọng số hoặc một khoảng cách Manhattan được sử dụng để so sánh các ảnh. Các trọng số này tỉ lệ nghịch với độ lệch chuẩn của giá trị dọc theo các chiều. Độ chính xác của các mô men màu được chứng minh là tốt hơn nhiều các lược đồ màu [Markus et al., 1995]. Tra cứu ảnh bởi biểu diễn kết cấu Các kết cấu là các mẫu thuần nhất hoặc các sắp xếp không gian của các pixel mà không thể được mô tả đầy đủ bởi cường độ vùng hoặc các đặc trưng màu [Arnold et al., 2000]. Cách đơn giản nhất để biểu diễn toàn cục các thuộc tính kết cấu dựa vào thông tin trích rút trên coarseness, contrast, và direction [Myron et al., 1995]. Một phương pháp mạnh hơn để mô tả kết cấu ảnh theo cùng cách tiếp cận lược đồ màu. Đầu tiên, kết cấu ảnh được phân rã thành các băng con tần số không gian, bằng cách của một ngân hàng lọc sóng. Sau đó, một bộ sinh kênh kết cấu được sử dụng để sinh ra một kênh cho mỗi băng tần con. Mặt