intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Nâng cao độ chính xác tra cứu ảnh dựa vào nội dung trong ngữ cảnh tập mẫu huấn luyện hạn chế

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:8

11
lượt xem
3
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết trình bày việc đề xuất phương pháp tra cứu ảnh IREC (An image retrieval method using efficient Classifier), nó có ưu điểm xây dựng được bộ huấn luyện cân bằng giữa lớp âm và lớp dương.

Chủ đề:
Lưu

Nội dung Text: Nâng cao độ chính xác tra cứu ảnh dựa vào nội dung trong ngữ cảnh tập mẫu huấn luyện hạn chế

  1. Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/8/2018 DOI: 10.15625/vap.2018.00048 NÂNG CAO ĐỘ CHÍNH XÁC TRA CỨU ẢNH DỰA VÀO NỘI DUNG TRONG NGỮ CẢNH TẬP MẪU HUẤN LUYỆN HẠN CHẾ Đào Thị Thúy Quỳnh *, Nguyễn Hữu Quỳnh **, Phƣơng Văn Cảnh**, Ngô Quốc Tạo*** * Khoa Công nghệ thông tin, Học viện Công nghệ Bưu chính Viên thông, ** Khoa Công nghệ thông tin, Trường Đại học Điện lực, ** * Viện Công nghệ thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam, thuyquynhtn90@gmail.com, quynhnh@epu.edu.vn, canhpv@epu.edu.vn, nqtao@ioit.ac.vn TÓM TẮT: Nhiều hệ thống tra cứu ảnh hiện nay có tích hợp phản hồi liên quan để giảm khoảng trống ngữ nghĩa giữa mô tả ảnh mức thấp và ngữ nghĩa mức cao trong suy nghĩ người dùng. Từ thông tin người dùng cung cấp, một thuật toán phân lớp áp dụng lên tập huấn luyện tạo ra một bộ phân lớp được sử dụng trong pha tra cứu tiếp theo. Tuy nhiên, có hai hạn chế của tra cứu ảnh sử dụng phản hồi liên quan với SVM: (a) dữ liệu mất cân bằng mẫu dương và âm (mẫu âm thường lớn hơn mẫu dương) (b) số lượng mẫu phản hồi của người dùng thường rất nhỏ so với số chiều của dữ liệu. Nhằm khắc phục hai hạn chế trên, chúng tôi đề xuất phương pháp tra cứu ảnh IREC (An image retrieval method using efficient Classifier), nó có ưu điểm xây dựng được bộ huấn luyện cân bằng giữa lớp âm và lớp dương. Bên cạnh đó, phương pháp khai thác tính chất hình học của dữ liệu đa tạp nhằm giảm số chiều của tập mẫu huấn luyện theo hướng tiếp cận phổ. Để minh chứng tính hiệu quả của của phương pháp đề xuất, chúng tôi cung cấp các kết quả thực nghiệm trên cơ sở dữ liệu đặc trưng gồm 10800 ảnh. Từ khóa: Tra cứu ảnh dựa vào nội dung, phản hồi liên quan, đa tạp, phổ, giảm chiều dữ liệu, phân lớp cân bằng. I. GIỚI THIỆU Gần đây, tra cứu ảnh đã thu hút sự quan tâm của nhiều nhà nghiên cứu trong cộng đồng khoa học máy tính. Với sự sẵn có của các thiết bị thu nhận ảnh số, số lượng ảnh số tăng lên với tốc độ nhanh chóng. Hệ thống tra cứu ảnh tự động trở thành chìa khóa cho việc sử dụng hiệu quả nguồn tài nguyên số. Trong một hệ thống CBIR tiêu biểu, các đặc trưng ảnh trực quan mức thấp (tức là màu, kết cấu và hình dạng) được trích rút tự động cho mục tiêu đánh chỉ số và mô tả ảnh. Để tìm kiếm các ảnh mong muốn, người dùng đưa một ảnh làm mẫu và hệ thống trả lại một tập các ảnh tương tự dựa vào các đặc trưng được trích rút. Khi các hệ thống trình bày một tập các ảnh được xem là tương tự đối với truy vấn, người dùng có thể lấy ra những ảnh liên quan nhất đến ảnh truy vấn được cho và hệ thống điều chỉnh truy vấn sử dụng chúng. Phản hồi liên quan dựa vào các kỹ thuật CBIR không yêu cầu người dùng cung cấp các truy vấn khởi tạo chính xác, nhưng đánh giá truy vấn lý tưởng của người dùng bằng sử dụng các ảnh liên quan phản hồi. Trong các hệ thống tra cứu ảnh sử dụng phân lớp ở trên có hai chế: (a) dữ liệu mất cân bằng mẫu dương và âm (mẫu âm thường lớn hơn mẫu dương) (b) số lượng mẫu phản hồi của người dùng thường rất nhỏ so với số chiều của dữ liệu. Hai hạn chế chính này dẫn đến độ chính xác thấp và độ phức tạp tính toán cao. Chúng tôi đề xuất một phương pháp nâng cao độ chính xác tra cứu ảnh dựa vào nội dung trong ngữ cảnh tập mẫu huấn luyện hạn chế IREC (An image retrieval method using efficient classifier). Bằng cách sử dụng một kỹ thuật sinh mẫu ngẫu nhiên vào lớp thiểu số để hai lớp cân bằng nhau. Sau đó khai thác tính chất hình học của dữ liệu đa tạp nhằm giảm số chiều của tập mẫu huấn luyện sử dụng thuật toán giảm chiều sử dụng k véctơ riêng lên tập mẫu ví dụ huấn luyện. Trên tập mẫu cân bằng và giảm chiều, chúng tôi tìm được một siêu phẳng tách tối ưu và tính toán khoảng cách của tất cả ảnh trong cơ sở dữ liệu tới siêu phẳng tách và sắp xếp các điểm theo thứ tự tăng dần của khoảng cách và trả về tập ảnh kết quả cho người dùng. Phần còn lại của bài báo được tổ chức như sau. Trong Phần II, chúng tôi khảo sát các nghiên cứu về tra cứu ảnh sử dụng phân lớp SVM. Phần III trình bày chi tiết phương pháp đề xuất. Phần IV mô tả các thực nghiệm đánh giá hiệu năng của phương pháp đề xuất và thảo luận các kết quả. Cuối cùng, chúng tôi đưa ra kết luận trong Phần V. II. PHẢN HỒI LIÊN QUAN VỚI SVM Phản hồi liên quan là một quá trình trực tuyến mà cố gắng học mục đích của người dùng trong quá trình và là một công cụ mạnh được sử dụng truyền thống trong các hệ thống tra cứu thông tin. Nó được giới thiệu đối với CBIR khoảng đầu những năm 1990, với mục đích mang người dùng vào lặp tra cứu để giảm khoảng cách ngữ nghĩa giữa những gì mà truy vấn biểu diễn và những gì người dùng nghĩ. Bằng việc tiếp tục học thông qua tương tác với các người dùng cuối, phản hồi liên quan đã được chỉ ra là cung cấp cải tiến hiệu năng đáng kể trong các hệ thống CBIR. Support vector machine (SVM) là một trong những thuật toán phân lớp phổ biến và hiệu quả. Xét một bài toán phân lớp nhị phân, giả sử các cặp dữ liệu trong tập huấn luyện là ( ) ( ),…, ( ) với mỗi véctơ xi , mỗi điểm dữ liệu đầu vào có yi là nhãn của mỗi điểm dữ liệu đó, n là số chiều và N là số điểm dữ liệu. Trong bài toán phân tách tuyến tính * +
  2. Đào Thị Thúy Quỳnh, Nguyễn Hữu Quỳnh, Phương Văn Cảnh, Ngô Quốc Tạo 363 SVM tách hai lớp điểm này bởi một siêu phẳng tách. (SVM.2) ở đây x là một véctơ đầu vào, w là một véctơ trọng số thích nghi và b là một độ lệch. Mục tiêu của SVM là tìm các tham số w và b sao cho siêu phẳng tối ưu lể cực đại lề và các điểm dữ liệu thỏa mãn: ( ) đối với ( ) đối với Hình 1.1. Phân lớp SVM Các kỹ thuật tra cứu ảnh sử dụng SVM đều xác định siêu phẳng tách dựa trên mẫu huấn luyện thu được từ quá trình phản hồi của người dùng. Khi đó, khoảng cách từ một điểm dữ liệu x bất kỳ trong cơ sở dữ liệu tới siêu phẳng tách được tính theo công thức: |⃗⃗⃗⃗⃗⃗ | (⃗⃗⃗⃗⃗ ) (*) ‖(⃗⃗⃗⃗⃗ )‖ Công thức (*) cho biết khoảng cách từ x tới siêu phẳng tách. Sau đó, phương pháp tra cứu ảnh sử dụng phân lớp SVM sẽ sắp xếp theo thứ tự giảm dần của khoảng cách và lấy ra N ảnh đầu tiên sau khi sắp xếp trả về kết quả. III. PHƢƠNG PHÁP ĐỀ XUẤT 3.1. Giới thiệu phƣơng pháp Truy vấn Xây dựng tập huấn luyện Tra cứu khởi tạo Tập kết quả tra cứu Phản hồi liên quan Tập ảnh khởi tạo phản hồi Sinh mẫu tự động Giảm chiều Phân lớp SVM Tập kết quả Tra cứu ảnh Tập kết quả cuối cùng Hình 3.1. Sơ đồ phương pháp
  3. 364 NÂNG CAO ĐỘ CHÍNH XÁC TRA CỨU ẢNH DỰA VÀO NỘI DUNG TRONG NGỮ CẢNH TẬP MẪU.… 3.2. Xây dựng tập huấn luyện 3.2.1. Sinh mẫu tự động và tâp huấn luyện cân bằng Hầu hết những hệ thống tra cứu ảnh trong phản hồi liên quan sử dụng phân lớp đều gặp phải vấn đề số lượng mẫu ở lớp dương hay những ảnh mà người dùng chọn thường chênh lệch so với số lượng mẫu ở lớp âm. Điều này dẫn đến hiệu quả của những hệ thống tra cứu ảnh trong phản hồi liên quan có sử dụng phân lớp còn hạn chế. Với mong muốn xây dựng một bộ phân lớp tốt hơn, chúng tôi đề xuất một phương pháp nhằm giảm sự chênh lệch giữa số lượng mẫu ở lớp dương và lớp âm. Như đã phân tích ở trên, những phương pháp tra cứu ảnh trong phản hồi lên quan thường gặp phải vấn đề số lượng mẫu dương thường ít hơn rất nhiều so với số lượng mẫu âm dẫn đến sự mất cân bằng mẫu. Phương pháp của chúng tôi khác với những phương pháp tra cứu ảnh trong phản hồi liên quan sử dụng phân lớp là không chấp nhận tập mẫu nghèo nàn [7], cũng không theo cách tiếp cận giảm số lượng mẫu âm bằng cách lựa chọn ngẫu nhiện một số lượng mẫu âm để xây dựng tập huấn luyện còn nhiều hạn chế. Do đó, chúng tôi đề xuất kỹ thuật sinh mẫu dương cho tập huấn luyện để thu được tập ví dụ huấn luyện cân bằng. Phương pháp của chúng tôi dựa trên kỹ thuật SMOTE (Synthetic Minority Over-sampling technique) [7]. Kỹ thuật SMOTE sinh ra mẫu trên tập mẫu nghèo nàn. Với mỗi mẫu trên tập mẫu nghèo nàn, k-NN của nó được lấy ra và một số mẫu trong k-NN được lấy ra tùy thuộc vào tỷ lệ sinh mẫu mong muốn. Sau đó, mẫu mới được sinh ra xsyn nằm trên đường nối giữa mẫu nghèo nàn và lân cận có nó. : Mẫu dương : Mẫu âm Hình 3.2. Hai lớp không cân bằng Hình 3.3. Minh họa thuật toán SMOTE
  4. Đào Thị Thúy Quỳnh, Nguyễn Hữu Quỳnh, Phương Văn Cảnh, Ngô Quốc Tạo 365 Dưới đây là thuật toán thực hiện việc bổ sung mẫu dương và cân bằng tập mẫu BTSE (Balance training set with Synthetic examples). Thuật toán nhận đầu vào là tập training set * + , gồm 2 lớp: lớp thiểu số P là lớp đã được gán nhãn: * + và lớp đa số chưa được gán nhãn * + . Thuật toán nhận đầu vào là một tập ảnh là kết quả của quá trình tra cứu khởi tạo và phản hồi liên quan, gồm m điểm đã được gán nhãn và N-m điểm chưa được gán nhãn. Thuật toán sẽ xác định k-lân cận của mỗi ảnh thuộc tập có nhãn. Thuật toán sẽ sinh mẫu dương nằm trên siêu phẳng nối mẫu dương và một mẫu dương thuộc tập lân cận của nó. Từ đó hình thành tập mẫu với sự cân bằng giữa mẫu dương và âm. Thuật toán BTSE Input: - Tập training set * + - Lớp thiểu số P là lớp đã được gán nhãn: * + - Lớp đa số * + - Tỷ số sinh: s Ouput: - : Tập ví dụ huấn luyện cân bằng Bƣớc 1: Với mỗi phần tử pi (i=1,….,m) thuộc lớp thiểu số P, chúng tôi tính toán k lân cận gần nhất của nó trên lớp thiểu số P. { ( ) ( ) ( )} Bƣớc 2: Sinh ngẫu nhiên s × m mẫu dương vào lớp thiểu số P, với s là một số dương nào đó. Với mỗi pi, chọn ngẫu nhiên s lân cận từ k_NN(pi) trong P. Bƣớc 2.1. Tính difj (j=1,…,s) giữa pi và s lân cận của nó ở tập P. ( ) Bƣớc 2.2. Tính , với ( ) nhận giá trị ngẫu nhiên 1 hoặc 0. Bƣớc 3: Mẫu dương trong tập thiểu số được sinh dựa vào pi và s lân cận của nó: , j=1,2,…,s Bƣớc 4: Return T = {N} * + Hình 3.4. Thuật toán xây dựng tập huấn luyện cân bằng với sinh mẫu ngẫu nhiên 3.2.2. Thuật toán giảm chiều sử dụng k véctơ riêng của ma trận Laplace Trong những hệ thống tra cứu ảnh sử dụng phản hồi liên quan dựa vào SVM thường gặp phải số lượng mẫu phản hồi của người dùng thường rất nhỏ so với số chiều của dữ liệu. Để khắc phục điểm này chúng tôi sử dụng một thuật toán giảm chiều dữ liệu Laplacian eigein map (LE) [2]. LE là một thuật toán giảm chiều dựa vào học đa tạp, phương pháp bảo toàn các mối quan hệ lân cận bằng cách thao tác trên một đồ thị vô hướng có trọng số. Phát biều bài toán giảm chiều: Cho một tập dữ liệu s1,…, sn là n điểm dữ liệu trong không gian Rn, tìm một tập điểm y1,…,yn trong không gian Rk sao cho (k n) sao cho yi biểu diễn xi. ‖ ‖ Đầu tiên, từ n điểm dữ liệu ảnh, phương pháp xây dựng ma trận affinity A theo (i ≠ j), aii=0) (1). Ở đây tham số tỉ lệ 2 điều khiển mức độ ái lực aij giảm nhanh thế nào với khoảng cách giữa si và sj, phương pháp chọn tự động có thể xem trong [3]. Một giá trị aij giữa hai ảnh là “cao” nếu hai ảnh là rất tương tự. Xây dựng ma trận đường chéo D trong đó phần tử (i, i) là tổng hàng thứ i của ma trận A. D là một ma trận chéo với ∑ . Tính ma trận Laplace: L=D-A Tìm k véctơ riêng x1,x2,…xk lớn nhất của ma trận L, trong đó x1=(x11, x12, x13, …, x1n), x2=(x21, x22, x23, …, x2n), ….xk=(xk1, xk2, xk3, …, xkn) và xây dựng ma trận X = [x1T ,x2T ,…,xkT ] Є Rn x k , cụ thể: x1T x2T x 3T … xkT x11 x21 x31 … xk1 x12 x22 x32 … xk2 x13 x23 x33 … xk3 … … … … … x1n x2n x3n xkn
  5. 366 NÂNG CAO ĐỘ CHÍNH XÁC TRA CỨU ẢNH DỰA VÀO NỘI DUNG TRONG NGỮ CẢNH TẬP MẪU.… Sử dụng k véctơ riêng của L để xây dựng phép nhúng trên không gian Euclid k chiều. Xây dựng ma trận Y từ X bằng việc chuẩn hóa mỗi dòng của X là chiều dài đơn vị của ma trận Y (Yij = ) (∑ ) y1 y11 y12 y13 … y1k y2 y21 y22 y32 … y2k y3 y31 y32 y33 … y3k … … … … … Yn yn1 yn2 ynk Mỗi dòng của ma trận Y được xem như là một điểm trong không gian véctơ k chiều. Đến đây, sẽ có n điểm trong không gian Rk. Hình 3.5 dưới đây là thuật toán giảm chiều sử dụng k véctơ riêng của ma trận Laplace sinh ra từ dữ liệu DRELM (Dimensionality Reduction using k Eigeinvector of Laplacian Matrix) Thuật toán DRELM Input: - Tập ảnh T={s1,s2,…,sn} với si R n - Số chiều: k Output: - Tập ảnh Y={y1,y2,…,yn}trong không gian Rk Bước 1: Xây dựng ma trận affinity for i 1 to n do for j 1 to n do ‖ ‖ if (i j) ( ) else Bước 2: Xây dựng ma trận đường chéo và ma trận Laplace L for i 1 to n do ∑ L D-A Bước 3: Tìm k véctơ riêng lớn nhất x1,x2,…,xk của ma trận Laplace L for i 1 to k do ( ) X [x1T ,x2T ,…,xkT ] Bước 4 : Sử dụng k véctơ riêng của L để xây dựng phép nhúng trên không gian Euclid k chiều, xây dựng ma trận Y từ X for i 1 to n do for j 1 to k do yij xij/ (∑ )1/2 Y [y1 ,y2 ,…,yn ] Return y1, y2 ,…,yn Hình 3.5. thuật toán giảm chiều sử dụng k véctơ riêng của ma trận Laplace 3.3. Thuật toán tra cứu ảnh sử dụng bộ phân lớp hiệu quả Chúng tôi đề xuất cải tiến độ chính xác tra cứu ảnh thông qua phản hồi liên quan dựa vào xây dựng bộ phân lớp mạnh có ưu điểm khắc phục được vấn đề mất cân bằng giữa mẫu âm và mẫu dương bằng cách sử dụng kỹ thuật sinh mẫu và giảm chiều dữ liệu sử dụng k véctơ riêng lớn nhất của ma trận Laplace sinh ra từ dữ liệu. Thuật toán tra cứu ảnh sử dụng bộ phân lớp hiệu quả IREC (An image retrieval method using efficient Classifier) như sau:
  6. Đào Thị Thúy Quỳnh, Nguyễn Hữu Quỳnh, Phương Văn Cảnh, Ngô Quốc Tạo 367 Thuật toán IREC Input: Tập các ảnh: S Ảnh truy vấn khởi tạo: Q Số các ảnh được trả về tại mỗi lần lặp: N Output: Tập kết quả được tra cứu: R 1. ResultInit(Q) RetrievalInit(Q, S, N); 2. Repeat 2.1 Relevant( ,m) Feedback( ( )); //Phản hồi liên quan: 2.2 T (S,Relevant( ,m)); //Cân bằng tập mẫu: 2.3 Y DRELM( ); //Bộ dữ liệu giảm về k chiều 2.4 Classifier(Y); //Xây dựng bộ phân lớp 2.5 R Retrieval( S,N); //Tra cứu theo bộ phân lớp 3. until (User dừng phản hồi); 4. Return R; Hình 3.6. Thuật toán tra cứu ảnh sử dụng bộ phân lớp hiệu quả Hình 3.6 trên mô tả thuật toán tra cứu ảnh sử dụng bộ phân lớp hiệu quả có tên IREC (An image retrieval method using efficient Classifier). Mỗi một ảnh trong tập ảnh S được biểu diễn trong không gian đặc trưng nhiều chiều. Khi người dùng đưa vào ảnh truy vấn khởi tạo Q trên giao diện truy vấn bởi mẫu, thuật toán cũng biểu diễn ảnh truy vấn thành một điểm trên cùng một không gian đặc trưng chiều. Truy vấn khởi tạo RetrievalInit(Q, S, N) được thực hiện (Bước 1), ở đây số S là tập ảnh cơ sở dữ liệu và N là số các ảnh được tra cứu trong tập S của mỗi lần lặp. Kết quả thực hiện truy vấn khởi tạo được gán cho Resultinit(Q). Trên tập kết quả Resultinit(Q) trả về bởi truy vấn khởi tạo, người dùng phản hồi trên tập Resultinit(Q) thông qua hàm Feedback(Resultinit(Q)) để được tập m ảnh liên quan và lưu vào tập Relevant( ,m) (Bước 2.1). Bổ sung các mẫu dương và xây dựng tập huấn luyện cân bằng được thực hiện thông qua hàm E(S,Relevant( ,m),T) (Bước 2.2). Hàm DRELM( ); sẽ thực hiện giảm chiều dữ liệu về k chiều… Có được tập ví dụ huấn liệu cân bằng với số chiều phù hợp T được đưa vào huấn luyện phân lớp sử dụng hàm Classifier() dùng SVM được mô tả ở phần II. Sau khi sử dụng SVM huấn luyện tập T, thuật toán sẽ cho ra một siêu phẳng phân tách hai lớp trong tập T sao cho lề cực đại. Sau khi có bộ phân lớp , hàm Retrieval( S,N) (Bước 2.5) thực hiện phân hạng ảnh bằng cách duyệt từng ảnh trong trong toàn bộ cơ sở dữ liệu ảnh S để tính khoảng cách từng ảnh tới siêu phẳng phân tách và sắp xếp theo thứ tự giảm dần của khoảng cách và lấy ra N ảnh đầu tiên sau khi sắp xếp trả về cho người dùng. IV. EXPERIMENTS 4.1. Môi trƣờng thực nghiệm Cơ sở dữ liệu ảnh: Cơ sở dữ liệu được sử dụng cho thử nghiệm được chúng tôi tổ chức lại từ tập con của Corel Photo Gallery. Tập này gồm 80 loại1, ví dụ như là: mùa thu, hàng không, cây cảnh, lâu đài, đám mây, chó, voi, núi băng, linh trưởng, tàu, nhũ đá, hỏa tiến, hổ, tàu hỏa, thác nước,…. Tất cả các ảnh trong tập ảnh này có tính chất là đều chứa đối tượng tiền cảnh nổi bật. Đa số nhóm đều gồm 100 ảnh, có một vài nhóm có hơn 100 hình ảnh. Cỡ của các ảnh có max(chiều rộng, chiều cao)=120 và min(chiều rộng, chiều cao)=80. Véctơ đặc trƣng: Các đặc trưng được chia làm hai loại là: các đặc trưng màu và các đặc trưng kết cấu (xem Bảng 1 ở dưới). 1 https://sites.google.com/site/dctresearch/Home/content-based-image-retrieval (Download lúc 6:32 AM ngày 25/12/2016)
  7. 368 NÂNG CAO ĐỘ CHÍNH XÁC TRA CỨU ẢNH DỰA VÀO NỘI DUNG TRONG NGỮ CẢNH TẬP MẪU.… Bảng 1. Các loại đặc trưng. Các loại đặc trƣng Tên đặc trƣng Độ dài Lược đồ màu hsvHistogram 32 Loại đặc trưng màu Tương quan màu color auto correlogram 64 Gắn kết màu colorMoments 6 Biến đổi wavelet waveletTransform 40 Loại đặc trưng kết cấu gabor Wavelet gaborWavelet 48 Biểu diễn ảnh: Mỗi ảnh được sử dụng biểu diễn bởi 5 đặc trưng trực quan gồm 3 đặc trưng màu và 2 đặc trưng kết cấu. Các véctơ đặc trưng tương ứng với mỗi kênh là một bảng hai chiều gồm 10800 dòng (mỗi dòng chứa một véctơ đặc trưng của ảnh) và 190 cột (độ dài tổng của một véctơ đặc trưng). Tập tin cậy nền (ground truth): Tập tin cậy nền Corel được sử dụng rộng rãi trong đánh giá CBIR, do đó chúng tôi cũng sử dụng phân loại Corel làm tin cậy nền, tức là chúng tôi xem tất cả các ảnh trong cùng loại Corel là liên quan. Tập tin cậy nền này gồm 3 cột (có tiêu đề: ID ảnh truy vấn, ID ảnh và Sự liên quan) và gồm 1,981,320 dòng. 3.2. Chiến lƣợc mô phỏng phản hồi liên quan Để bắt chước hành vi của con người, chúng tôi thực hiện mô phỏng phản hồi liên quan trong thử nghiệm. Đầu tiên, truy vấn khởi tạo sẽ được thực hiện để tạo ra kết quả truy vấn. Chúng tôi mô phỏng tương tác người dùng bằng việc chọn n ảnh liên quan từ kết quả tra cứu khởi tạo dựa vào tập tin cậy nền (ground truth). Những ảnh liên quan từ lần lặp phản hồi đầu tiên sẽ được phân thành k cụm và thực hiện tìm đại diện cho k cụm này. Sau đó k đại diện được dùng để xây dựng truy đa điểm phục vụ cho tra cứu tiếp theo. Sau đó những kết quả tra cứu được gộp lại để tạo ra một danh sách kết quả tổng hợp theo chiến lược truy vấn đa điểm tách rời. Phản hồi liên quan được thực hiện theo chiến lược chọn những ảnh liên quan đầu tiên (dựa vào tập tin cậy nền) trong danh sách kết quả. Trong chiến lược này, trường hợp xấu nhất là không có ảnh liên quan nào ngoài ảnh truy vấn và trường hợp tốt nhất là có n-1 ảnh liên quan ngoài ảnh truy vấn. Do đó, số lượng ảnh liên quan có thể dao động từ 1 đến n ảnh (bao gồm cả ảnh truy vấn). Chiến lược này được sử dụng để mô phỏng người dùng thực tế trong thực nghiệm của chúng tôi. 3.3. Thực hiện truy vấn và đánh giá Trong thực nghiệm của chúng tôi, các yếu tố đó được lựa chọn như sau: Một truy vấn khởi tạo được đưa vào hệ thống, kết quả tương ứng với truy vấn đó được hiển thị cho người dùng. Sau đó, người dùng sẽ phản hồi trên danh sách kết quả tương ứng với truy vấn khởi tạo để hình thành danh sách ảnh phản hồi và tập ảnh phản hồi được đưa vào pha xây dựng tập huấn luyện. Hệ thống sẽ thực hiện sinh mẫu sử dụng thuật toán BTSE. Có được tập ví dụ huấn luyện cân bằng hệ thống sẽ chuyển sang pha giảm chiều dữ liệu và sử dụng bộ dữ liệu huấn luyện vào phân lớp SVM. Sau khi có bộ phân lớp , hệ thống thực hiện phân hạng ảnh bằng cách duyệt từng ảnh trong trong toàn bộ cơ sở dữ liệu ảnh S để tính khoảng cách từng ảnh tới siêu phẳng phân tách và sắp xếp theo thứ tự giảm dần của khoảng cách và lấy ra N ảnh đầu tiên sau khi sắp xếp trả về cho người dùng. Độ chính xác2 trung bình ở mức 100 ảnh trả về được sử dụng để đánh giá. Chúng tôi thực hiện so sánh độ chính xác với ba phương pháp khác nhau bao gồm hệ thống SCRF[9], hệ thống Hong[8] và phương pháp IREC chúng tôi đề xuất. Bảng 2. Bảng kết quả của 3 phương pháp số đại diện của truy vấn đa điểm trong một lần phản hồi Phƣơng pháp Độ chính xác ERIN 0,24 SCRF 0,35168 Hong 0,39 IREC 0,408 Trong Bảng 2, thể hiện độ chính xác trung bình của bốn phương pháp là phương pháp ERIN và phương pháp SCRF và phương pháp Hong với phương pháp IREC (An image retrieval method using efficient Classifier). 2 Độ chính xác là tỉ số giữa số các ảnh liên quan với ảnh truy vấn trong tập kết quả trả về trên tổng số các ảnh trả về.
  8. Đào Thị Thúy Quỳnh, Nguyễn Hữu Quỳnh, Phương Văn Cảnh, Ngô Quốc Tạo 369 V. KẾT LUẬN Chúng tôi đã tập trung vào đề xuất phương pháp, có tên là IREC (An image retrieval method using efficient Classifier) giải quyết hai vấn đề chính đó là: (1) xây dựng được bộ huấn luyện cân bằng giữa lớp âm và lớp dương (2) khai thác tính chất hình học của dữ liệu đa tạp nhằm giảm số chiều của tập mẫu huấn luyện theo hướng tiếp cận phổ. Kết quả thực nghiệm của chúng tôi trên cơ sở dữ liệu đặc trưng gồm 10.800 ảnh đã chỉ ra rằng phương pháp được đề xuất IREC cung cấp một độ chính xác cao hơn hẳn so với các phương pháp ERIN và phương pháp SCRF và phương pháp Hong. Chúng tôi xin chân thành cảm ơn đề tài: “Nghiên cứu phương pháp tra cứu ảnh dựa vào đa truy vấn”, mã số PTNTDD17.04 đã hỗ trợ. VI. REFERENCES [1] A. W. M. Smeulders, M. Worring, S. Santini, A. Gupta, and R. Jain. “Content-based image retrieval at the end of the early years”. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 22, no. 12, pp. 1349 -1380, Dec. 2000. [2] Belkin M, Niyogi P. Laplacian maps for dimensionality reduction and data representation. Neural computation (2003). [3] F. R. K. Chung. Spectral Graph Theory, volume 92 of Regional Conference Series in Mathematics. AMS, 1997. [4] G. Guo, A. K. Jain, W. Ma, and H. Zhang. “Learning similarity mea-sure for natural image retrieval with relevance feedback”. IEEE Trans. Neural Netw., vol. 12, no. 4, pp. 811-820, Apr. 2002. [5] J. Z. Wang, J. Li, and G. Wiederhold. “SIMPLIcity: Semantics-sen-sitive integrated matching for picture libraries”. IEEE Trans. Pattern Anal. Mach. Intell., vol. 23, no. 9, pp. 947-963, Sep. 2001. [6] Lew M. S., Sebe N., DjerabaC., Andjain R., 2006. Content-Based multimedia information retrieval: State of the art and challenges.ACM Trans. Multimed. Comput. Commun. Appl. 2,1, 1-19. [7] Nitesh V. Chawla, Kevin W. Bowyer, Lawrence O. Hall, W. Philip Kegelmeeyer. “SMOTE: Synthetic Minority Over-sampling Technique”. Journal of Artificial Intelligence Research 16 (2002) 321-357. [8] P. Hong, Q. Tian, and T. S. Huang. “Incorporate support vector machines to content-based image retrieval with relevance feedback” in Proceedings of the IEEE International Conference on Image Processing, 2000, pp. 750 -753. [9] Quynh D. T. T., Quynh N. H., Canh P. V., Tao N. Q., (2017). Một phương pháp tra cứu ảnh hiệu quả sử dụng phân cụm phổ trong phản hồi liên quan, Kỷ yếu hội nghị Quốc gia lần thứ 10 về Nghiên cứu cơ bản và ứng dụng trong Công nghệ thông tin (FAIR). [10] Quynh N. H., Quynh D. T. T., Canh P. V., Can N. V. Tao N. Q.. An efficient image retrieval method using adaptive weights, Appl Intell (2018) (https://doi.org/10.1007/s10489-018-1174-6). [11] Rui, Y., Huang, T. S., Ortega, M., Andmehrotra, S. 1998. Relevance feedback: A power tool in interactive content-based image retrieval. IEEE Trans. Circ. Syst. Vid. Tech. 8, 5 (Sept.), 644-655. [12] Y. Chen, X. S. Zhou, and T. S. Huang.“One-class SVM for learning in image retrieval” in Proc. IEEE Int. Conf. Image Process., Thessaloniki, Greece, 2001, pp. 815-818. [13] Y. Rui, T. Huang, M. Ortega, and S. Mehrotra.“Relevance feedback: a power tool in interactive content-based image retrieval. “IEEE Trans. Circuits Syst. Video Technol., vol. 8, no. 5, pp. 644-655, Sep. 1998. [14] Y. Rui, T. Huang, M. Ortega, and S. Mehrotra.“Relevance feedback: a power tool in interactive content-based image retrieval”. IEEE Trans. Circuits Syst. Video Technol., vol. 8, no. 5, pp. 644-655, Sep. 1998. IMPROVE THE CONTENT-BASED IMAGE RETRIEVAL’S ACCURACY IN THE LIMITED TRAINING SCENARIO Dao Thi Thuy Quynh, Nguyen Huu Quynh, Phuong Van Canh, Ngo Quoc Tao ABSTRACT: There are many image retrieval systems that use the SVM-based relevence feedback approach to reduce the gap between low-level visual features and high-level semantic concepts. However, the performance of these systems is low due to the lack of two issues: first, the imbalance of the training set. Second, the size of the training set is very small compared to the dimension of the feature. In this paper, we propose the image retrieval method, IREC, to overcome the above limitations. Our proposed approach solves the problem of model imbalance training through semi-supervised learning and the reduction of dimensionality by the spectral approach. To illustrate the effectiveness of our proposed method, we provide empirical results on a database of 10800 images. Keywords: Content based image retrieval, relevant feedback, manifold, spectral, reduction dimension, balanced classification.
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
4=>1