intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Truy vấn trực quan

Chia sẻ: Trần Quang Hợp | Ngày: | Loại File: DOC | Số trang:28

128
lượt xem
36
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Truy vấn đề nghị là một phương pháp hiệu quả để cải thiện khả năng sử dụng tìm kiếm hình ảnh. Hầu hết các công cụ tìm kiếm hiện tại có thể tự động đề xuất một danh sách các thuật ngữ truy vấn văn bản dựa trên đầu vào truy vấn của người sử dụng, có thể gọi là truy vấn văn bản đề nghị. Chúng tôi đề xuất một chương trình truy vấn đề nghị mới tên là truy vấn trực quan đề nghị (VQS) được dành riêng cho tìm kiếm hình ảnh....

Chủ đề:
Lưu

Nội dung Text: Truy vấn trực quan

  1. MỤC LỤC
  2. LỜI NÓI ĐẦU
  3. CHƯƠNG I. TỔNG QUAN VỀ HỆ TRUY VẤN TRỰC QUAN 1. Tóm tắt: Truy vấn đề nghị là một phương pháp hiệu quả để cải thiện khả năng sử dụng tìm kiếm hình ảnh. Hầu hết các công cụ tìm kiếm hiện tại có thể tự động đề xuất một danh sách các thuật ngữ truy vấn văn bản dựa trên đầu vào truy vấn của người sử dụng, có thể gọi là truy vấn văn bản đề nghị. Chúng tôi đề xuất một chương trình truy vấn đề nghị mới tên là truy vấn trực quan đề nghị (VQS) được dành riêng cho tìm kiếm hình ảnh. Nó cung cấp một giao diện truy vấn hiệu quả hơn để xây dựng một truy vấn mục đích cụ thể bằng văn bản chung và đề xuất hình ảnh. Chúng tôi thấy rằng VQS có thể giúp chính xác hơn và nhanh chóng hơn cho người sử dụng chỉ định và cung cấp ý định tìm kiếm của họ. Khi một người dùng gửi một truy vấn văn bản, đầu tiên VQS cung cấp một danh sách gợi ý, mỗi dòng chứa một từ khóa và một tập hợp các hình ảnh đại diện trong một trình đơn thả xuống. Nếu người sử dụng chọn một trong những đề nghị, các từ khóa tương ứng sẽ được thêm vào để bổ sung cho các truy vấn văn bản ban đầu như truy vấn văn bản mới, trong khi các bộ sưu tập hình ảnh sẽ được xây dựng như các truy vấn trực quan. VQS sau đó thực hiện tìm kiếm hình ảnh dựa trên truy vấn văn bản mới sử dụng kỹ thuật tìm kiếm văn bản, cũng như phục hồi hình ảnh dựa trên nội dung để tinh chỉnh các kết quả tìm kiếm bằng cách sử dụng các hình ảnh tương ứng như truy vấn ví dụ. Chúng ta so sánh VQS với ba công cụ tìm kiếm hình ảnh phổ biến, và cho thấy rằng VQS nhanh hơn so với những công cụ này cả về chất lượng của các truy vấn đề nghị và thực hiện tìm kiếm. 2. Giới thiệu Với sự tiến bộ nhanh chóng trong cả phần cứng và công nghệ phần mềm, bộ sưu tập lớn các hình ảnh đã được thực hiện có sẵn trên trang web. Đ ể giúp người dùng tìm thấy hình ảnh trên mạng, tìm kiếm hình ảnh đã đ ược chú ý nghiên cứu. Nhiều công cụ tìm kiếm phổ biến (ví dụ, Google, Microsoft Bing, và Yahoo!) đã phát triển công nghệ cho phép người dùng tìm kiếm hình ảnh web. Hầu hết các công cụ tìm kiếm phổ biến hiện nay cho phép người sử dụng miêu tả ý định tìm kiếm của họ bằng cách phát hành các truy vấn như là một danh sách các từ khóa. Tuy nhiên, các truy vấn từ khóa thường không rõ ràng , đặc biệt là khi nó ngắn (một hoặc hai từ). Sự mơ hồ này thường dẫn đến kết quả tìm kiếm không hài lòng. Ví dụ, truy vấn "quả táo" bao gồm nhiều chủ đề khác nhau: trái cây, máy tính, điện thoại thông minh, và như vậy. Với truy vấn không rõ ràng như vậy, công
  4. cụ tìm kiếm thường trả về kết quả trộn với "quả táo"-quả, "quả táo", máy tính, và "quả táo", điện thoại thông minh. . Hình 1: Truy vấn “quả táo” Kết quả như vậy là không thỏa mãn vì người dùng thường thích kết quả tìm kiếm có thể phù hợp với lợi ích của họ, chứ không phải là những kết hợp với chủng loại đa dạng. Do đó, hiển thị hình ảnh từ một hoặc nhiều loại trong đó người dùng đang thực sự quan tâm là hiệu quả hơn nhiều so với hiển thị hình ảnh từ tất cả các cách diễn giải. Bằng cách sử dụng một danh sách gợi ý truy vấn mở rộng, người dùng có thể dễ dàng tìm ra những gì họ đang tìm kiếm một cách chính xác và tìm thấy những hình ảnh mục tiêu. Gần đây, nhiều kỹ thuật truy vấn đề nghị đã được đề xuất để giải quyết các vấn đề truy vấn mơ hồ. Một số công cụ tìm kiếm hình ảnh hiện có như Google, Yahoo!, cũng cố gắng để giải quyết vấn đề này bằng cách cung cấp truy vấn đề nghị. Tuy nhiên, các hệ thống này thường chỉ đơn giản là áp dụng kỹ thuật của truy vấn đề nghị văn bản. Nói cách khác, họ đề xuất một danh sách các từ khóa dựa trên truy vấn người sử dụng và truy vấn lịch sử. Như chúng ta biết, so với các văn bản, hình ảnh mang nhiều thông tin có thể hiểu được một cách nhanh chóng hơn, giống như một câu nói cũ: "một hình ảnh là giá trị của hàng ngàn từ." Hơn nữa, có những thời điểm và tình huống mà chúng ta có thể tưởng tượng những gì chúng ta mong muốn , nhưng không thể trình bày ý định này bằng từ chính xác. Ví dụ, khi chúng ta đã thấy một chiếc xe Lamborghini trên đường phố, chúng ta có thể muốn tìm kiếm một số hình ảnh về nó mà không biết tên c ủa nó. Làm thế nào chúng ta có thể xây dựng các truy vấn để tìm những hình ảnh mong muốn hiệu quả hơn? Có lẽ chúng tôi sẽ truy vấn đầu vào "xe hơi" là quá chung
  5. chung. Để giúp chúng tôi xây dựng một truy vấn cụ thể, phương pháp truy vấn đề nghị thông thường có thể gợi ý từ khóa "Lamborghini". Hình 2a: Từ khóa gợi ý “Lamborghini” Tuy nhiên, chúng tôi không có ý tưởng cho dù đó là những gì chúng tôi đang quan tâm. Trong trường hợp này, nếu một ví dụ trực quan có liên quan đến từ khóa này đề nghị "Lamborghini", thì chúng ta sẽ biết chính xác nó là một trong chúng ta muốn và có thể tái cấu trúc một truy vấn tốt hơn để mục đích tìm kiếm của chúng tôi rõ ràng hơn (xem hình 2 (b)). Hình 2b: Truy vấn trực quan đề nghị Từ những ý kiến trên, chúng tôi cho rằng hình ảnh có thể giúp người sử dụng xác định ý định tìm kiếm của họ, và do đó cung cấp hình ảnh (ví d ụ, hình ảnh), truy vấn đề nghị tiếp cận một cách tự nhiên hơn cho tìm kiếm hình ảnh hơn là chỉ hiển thị văn bản đề nghị. Nếu chúng ta có thể đề nghị một danh sách các câu truy vấn hình ảnh, văn bản chung dựa trên các truy vấn hiện tại của người sử dụng, thì sự mơ hồ có thể được giảm trong xây dựng truy vấn và còn là một kết hợp tốt hơn giữa các truy vấn văn bản gốc và hình ảnh có thể đ ạt đ ược. Bằng cách này, người dùng sẽ có kinh nghiệm tìm kiếm tốt hơn. Từ đó, chúng tôi đề xuất một chương trình truy vấn đề nghị có tên là trực quan truy vấn đề nghị (VQS), trong đó xây dựng một truy vấn cụ thể bằng cách đồng thời cung cấp các văn bản và hình ảnh gợi ý. Nó có thể giúp người sử dụng thể hiện ý định tìm kiếm chính xác hơn. Cụ thể, nó giúp người sử dụng trong việc xây dựng các truy vấn cụ thể bằng cách gợi ý từ khóa liên quan đến các truy vấn văn bản ban đầu. Đối với mỗi từ khóa gợi ý, những hình ảnh đại diện liên quan
  6. đến từ khóa này được thừa hưởng để cung cấp các đề xuất hình ảnh để hoàn chình hơn ý định tìm kiếm của người dùng. Hình 3: Thủ tục truy vấn đề nghị Hình 3 cho thấy toàn bộ thủ tục truy vấn đề nghị cho tìm kiếm hình ảnh trong các đề xuất hệ thống VQS. Khi người dùng nhập các truy vấn, hệ thống VQS cung cấp một danh sách gợi ý mỗi có chứa cả hình ảnh đại diện và từ khóa trong một trình đơn thả xuống. Người sử dụng có thể chọn một gợi ý từ khóa- hình ảnh từ danh sách. Sau đó, hệ thống VQS mở rộng truy vấn ban đầu với từ khóa tương ứng. Điều này dẫn đến một truy vấn tổng hợp, mà hệ thống VQS thực hiện tìm kiếm hình ảnh sử dụng kỹ thuật tìm kiếm dựa trên văn bản. Sau đó, hệ thống VQS cung cấp những truy vấn hình ảnh tương ứng như truy vấn ví dụ và lọc các kết quả tìm kiếm ban đầu bằng cách tận dụng thông tin trực quan, đó là khả năng hữu ích để cải thiện dựa trên tìm kiếm hình ảnh bằng văn bản. Kết quả này sau đó được trình bày cho người sử dụng, đáp ứng mục đích của người sử dụng tốt hơn. Với sự hiểu biết của chúng tôi, công việc này là nỗ lực đầu tiên trong việc xây dựng các đề nghị truy vấn với cả văn bản và hình ảnh. Những đóng góp chính của bài viết này có thể được tóm tắt như sau: - Chúng tôi đề xuất một chương trình đề nghị truy vấn mới tên là trực quan truy vấn đề nghị (VQS) cho tìm kiếm hình ảnh. VQS giúp người dùng xây dựng một truy vấn mục đích cụ thể bằng cách đồng thời cung cấp cả hai văn bản và đề xuất hình ảnh. - Giao diện dễ dàng, có khả năng giúp người dùng xác định và cung cấp ý định tìm kiếm của họ một cách chính xác và hiệu quả hơn. - Là một sản phẩm phụ, VQS có thể tinh chỉnh các kết quả tìm kiếm hình ảnh dựa trên văn bản bằng cách khai thác thông tin trực quan, như vậy kết quả tìm kiếm có thể đáp ứng thông tin của người sử dụng tốt hơn nhiều. 3. Các vấn đề có liên quan Trong những năm gần đây, nhiều phương pháp tiếp cận đề nghị truy vấn đã được đề xuất để giải quyết vấn đề truy vấn mơ hồ trong cộng đồng thông tin.
  7. Một giải pháp thường được áp dụng là tìm gợi ý từ khóa từ các tài liệu lấy được bằng cách truy vấn ban đầu. Ví dụ, Xu và Lâm chiết xuất các từ khóa từ các tài liệu hàng đầu, được coi là kết quả có liên quan của truy vấn ban đầu. Carpineto đề xuất để lựa chọn từ khóa tối đa hóa sự khác nhau giữa các mô hình ngôn ngữ được xác định bởi các văn bản xếp hạng hàng đầu và được xác định bởi bộ sưu tập toàn bộ tài liệu. Gần đây, Yu lựa chọn các từ khóa từ các phân đoạn dựa trên tầm nhìn của trang web để đối phó với nhiều chủ đề. Một loại giải pháp để truy vấn văn bản đề nghị là truy vấn tương tự từ các bản ghi tìm kiếm. Các truy vấn khai thác sau đó được sử dụng như là những gợi ý dành cho nhau. Giả định cơ bản là hai truy vấn tương tự như nhau nếu họ chia sẻ một số lượng lớn các URL nhấp vào. Ví dụ, Beeferman thông qua phương thức tích tụ phân cấp để khai thác truy vấn tương tự trong một cách lặp đi lặp lại. Wen sử dụng một phương pháp dựa trên mật độ để tìm các truy vấn tương tự bằng cách khai thác nội dung câu hỏi và nhấp qua thông tin. BaezaYates thông qua k-means là thuật toán để phát hiện các truy vấn tương tự. Sau khi quá trình phân nhóm, các truy vấn trong cùng một nhóm đã được sử dụng như đề nghị. Mặc dù các phương pháp thiết kế cho tìm kiếm văn bản có thể được áp dụng trực tiếp cho tìm kiếm hình ảnh, nhưng họ chỉ mở rộng các truy vấn bằng từ khóa và do đó bỏ qua những hình ảnh trực quan, mà có thể giúp người sử dụng cung cấp tìm kiếm của họ ý nghĩa chính xác hơn.
  8. CHƯƠNG II. HỆ THỐNG TRUY VẤN TRỰC QUAN 1. Các thành phần của hệ truy vấn trực quan (VQS) Một hệ thống của VQS có ba thành phần, đó là: - Khai thác truy vấn đề nghị - Trình bày đề nghị, gợi ý - Tìm kiếm hình ảnh với truy vấn đề nghị Trong mô-đun khai thác truy vấn đề nghị, chúng ta khám phá cả hai hình ảnh và đề xuất từ khoá để giúp người sử dụng thể hiện mục đích tìm kiếm rõ ràng hơn. Cụ thể, những từ khóa hình ảnh đề nghị được tạo ra bằng cách khai thác kiến thức từ dịch vụ chia sẻ ảnh phổ biến Flickr. Flickr chứa hơn hai tỷ bức ảnh được gắn thẻ (từ khóa). Phát hiện đề xuất từ khoá-hình ảnh từ hình ảnh phong phú như vậy liên quan đến từ khóa phong phú là hợp lý và thuận lợi trong hai khía cạnh sau đây: (1) Những lời đề nghị có thể được tạo ra mà không thực hiện tìm kiếm ban đầu cho các truy vấn ban đầu, dẫn đến các phương pháp được đề xuất là hiệu quả hơn. (2) Những lời đề nghị cung cấp sẽ không bị chất lượng không thỏa mãn của các kết quả tìm kiếm ban đầu, dẫn đến nhiều đề xuất có hiệu quả. Một cách tiếp cận hai bước được phát triển để phát hiện ra những lời đề nghị từ khóa hình ảnh. Bước đầu tiên liên quan đến một phương pháp thống kê có thể gợi ý từ khóa (ví dụ, thẻ) để giảm sự mơ hồ của các truy vấn ban đầu. Trong bước thứ hai, cho mỗi gợi ý từ khóa, trước tiên chúng ta thu thập các hình ảnh liên quan đến cả hai truy vấn ban đầu và từ khóa được đề xuất, và nhóm các hình ảnh, với mỗi nhóm đại diện cho một khía cạnh của truy vấn kết hợp. Hình 4: Khuôn khổ hệ thống của VQS. VQS chứa ba thành phần: (1) truy vấn gợi ý khai thác: phát hiện cả hình ảnh và gợi ý từ khóa cho các truy vấn hiện tại của người sử dụng, (2) đề nghị trình bày: hiển thị các gợi ý từ khóa hình ảnh trong một trình đơn thả xuống, và (3) tìm kiếm hình ảnh với đề nghị truy vấn: thực hiện tìm kiếm hình ảnh sử dụng kỹ thuật tìm kiếm văn bản và hoàn chỉnh các kết quả tìm kiếm bằng cách sử dụng các gợi ý hình ảnh được chọn làm ví dụ truy vấn.
  9. 2. Cách tiếp cận Trong phần này, chúng ta xây dựng thực hiện VQS. Chúng ta sẽ thấy làm thế nào những từ khóa và hình ảnh đề nghị được phát hiện và làm thế nào hình ảnh tìm kiếm được thực hiện với những từ khóa hình ảnh đề nghị chung. 2.1. Từ khóa gợi ý Đưa ra một truy vấn không rõ ràng Q (tức là, một từ khóa hoặc một danh sách các từ khóa), mục tiêu của chúng tôi là để tìm một tập các từ khóa SQ từ toàn bộ các từ khóa S. Các từ khóa này sẽ có thể giải quyết sự mơ hồ của Q. Vì vậy, họ phải thoả mãn hai đặc tính sau đây: - Quan hệ: Trong số các từ khóa được lựa chọn q ∈ SQ là vốn liên quan đến truy vấn ban đầu Q; - Mạng thông tin: Các từ khóa được lựa chọn SQ đủ thông tin như vậy mà họ có thể phản ánh các khía cạnh khác nhau của các truy vấn ban đầu Q. Một ví dụ điển hình của một truy vấn không rõ ràng là "quả táo", vì nó có ý nghĩa khác nhau. Cho truy vấn "quả táo", các từ khóa "trái cây", "máy tính", "điện thoại thông minh" đều là những gợi ý tốt, vì nó vốn dĩ liên quan đến "quả táo" và phản ánh các khía cạnh khác nhau của "quả táo." Ở đây, chúng tôi trình bày một công thức xác suất mà đồng thời đề cập đến hai tính chất trên trong một khuôn khổ duy nhất. Để giải quyết tính chất đầu tiên, chúng tôi ước lượng sự liên hệ giữa qi ∈ SQ và Q với họ xuất hiện đồng thời. Chúng tôi tính toán đồng thời giữa qi và Q như xác suất sau đó được chuẩn hóa bởi các tần số của Q. Trong đó: I(Q): số hình ảnh liên quan với Q I(qi ∩ Q): số hình ảnh liên cả từ khóa qi và truy vấn Q R(qi, Q) = f p(qi|Q) f (*) là một số hàm đơn điệu tăng. Chúng tôi xác định f (*) là hàm sigmoid tiêu chuẩn trong các thí nghiệm. Theo đó, liên hệ giữa các từ khóa bộ SQ và Q được cho bởi: Để giải quyết các tính chất thứ hai, chúng ta tìm thấy một bộ từ khóa SQ mà có thể phản ánh đa dạng các khía cạnh khác nhau của các truy vấn ban đầu Q. Mỗi từ khóa được lựa chọn qi ∈ SQ cần được thông tin đầy đủ sao cho nó có thể
  10. phản ánh một khía cạnh của Q. Trong khi đó, khía cạnh này cần phải khác với những đặc trưng của các từ khóa khác qj ∈ SQ \ {qi}. Chúng tôi cho rằng qi và qj phản ánh hai khía cạnh khác nhau của Q nếu thêm qi hoặc qj để Q có thể dẫn đến phân phối khác nhau trên các từ khóa còn lại q ∈ S \ {qi, qj}. Đó là để nói, qi và qj có thể giải quyết sự mơ hồ của Q nếu phân phối p (q | Q ∪ {qi}) và p (q | Q ∪ {qj}) là khá khác nhau [23]. Ví dụ, cho các truy vấn "quả táo", các từ khóa xảy ra đồng thời với {"quả táo", "quả"} và những truy vấn {"quả táo", "máy tính"} là khá khác nhau. Vì vậy,thêm "quả" hay "máy tính" để "quả táo" dẫn đến hai bản phân phối khác nhau, ví dụ, p (q | "quả táo", "quả") và p (q | "quả táo", "máy tính"). Ở đây, chúng tôi sử dụng Kullback-Leibler (KL) phân kỳ đối xứng [15] để đo sự khác biệt giữa phân phối p (q | Q ∪ {qi}) và p (q | Q ∪ {qj}) như: Mà Theo đó, chúng tôi xác định mạng thông tin của {qi, qj} đối với Q như: trong đó: g (*) là một hàm đơn điệu tăng. Các mạng thông tin của một từ khóa bộ SQ có thể được đo lường như: Theo đó, các từ khóa SQ mà thỏa mãn đồng thời cả hai Quan hệ và tính chất mạng thông tin có thể tìm thấy bằng cách giải phương trình sau: Với N = | SQ | là số các từ khóa được lựa chọn. λ (λ 0 6 6 1) là một tham số trọng số được sử dụng để điều chỉnh hai tính chất. Tuy nhiên, đó là tính toán nan giải để giải quyết equa hóa trực tiếp vì nó là một lập trình số nguyên phi tuyến tính. Ngoài ra, chúng tôi dùng đến một chiến lược tham lam mà đơn giản nhưng hiệu quả trong việc giải quyết vấn đề NIP. Quá trình này được minh họa trong thuật toán 1. Trong các vấn đề thực tế, hầu hết các từ khóa không liên quan đến Q. Vì vậy, chúng tôi thực hiện trước khi lọc để lọc ra các từ khóa với giá trị nhỏ của R (q, Q). Kết quả là, chỉ có các từ khóa với giá trị lớn của R (q, Q) cần được
  11. xem xét. Điều này sẽ tiếp tục đẩy mạnh quá trình tạo đề nghị. Với các từ khóa phát hiện SQ, chúng tôi cố gắng để tạo ra những gợi ý trực quan trong phần tiếp theo. Thuật giải 1: Input S, Q Output S*Q Khởi tạo đặt S*Q= Ø 1: for each t do 2: S*Q= Ø, L(S(t)Q)= 0; 3: Lựa chọn ngẫu nhiên từ khóa đầu tiên q từ S \ S(t)Q 4: S(t)Q= S(t)Q ∪{q}; 5: chọn từ khóa tiếp theo qi từ S \ S(t)Q bằng cách giải: 6: if ∆L(S(t)Q) > e mà e là 1 ngưỡng do S(t)Q= S(t)Q ∪{qi}, chuyển sang bước 5; else Kết thúc vòng lặp end if; 7: End for Return S*Q= arg max L(S(t)Q) 2.2. Hình ảnh gợi ý Như đã nói ở trên, hệ thống VQS không chỉ cung cấp đề xuất từ khoá mà còn đề xuất hình ảnh. Ở đây chúng tôi chọn hình ảnh đại diện cho mỗi từ khóa gợi ý để tạo thành những lời đề nghị hình ảnh. Xem xét một từ khóa q gợi ý cho truy vấn Q ban đầu, trước tiên chúng ta thu thập các hình ảnh liên quan cả q và Q từ tập hợp hình ảnh Flickr của chúng tôi. Sau đó, những hình ảnh đại diện được lựa chọn từ bộ sưu tập hình ảnh. Như nội dung hình ảnh của những hình ảnh thường thay đổi chủ yếu, những hình ảnh được lựa chọn nên được đa dạng đủ để họ có thể đại diện cho toàn diện các từ khóa tương ứng. Ở đây, chúng tôi dùng đến phương pháp Tuyên truyền Affinity (AP) được đề xuất để xác định số lượng nhỏ của hình ảnh đại diện chính xác một tập dữ
  12. liệu hình ảnh. Dựa vào hình ảnh thu thập thiết lập I = { Ii }Ni=1 đối với (Q, q), và các biện pháp tương tự s(Ii, Ij) giữa hai hình ảnh, mục tiêu của chúng tôi là gom cụm I vào M (M
  13. Như đã trình bày, thuật toán AP ban đầu sử dụng mạng kết nối đầy đủ có thể dẫn đến chi phí tính toán cao của O(N2T) trong đó T là số lần lặp lại. Một giải pháp để cải thiện tốc độ là để thực hiện AP trên một ma trận tương tự thưa thớt thay vì toàn bộ một. Điều này có thể accom-plished bằng cách xây dựng một đồ thị thưa thớt cấu trúc G=(V,E) . V là tập hình ảnh và E đại diện cho các cạnh giữa các hình ảnh. Chúng tôi xây dựng đồ thị bằng cách sử dụng chiến lược k lân cận gần nhất. Đối với mỗi điểm dữ liệu, chúng tôi thấy k lân cận gần nhất, mỗi trong số đó được kết nối với một điểm mốc tính toán thông qua một cạnh. Dựa trên đồ thị thưa thớt, các thuật toán AP có thể được thực hiện hiệu quả hơn nhiều kể từ khi công tác tuyên truyền thông tin trong báo chỉ cần được thực hiện trên các cạnh hiện có. Tuy nhiên, khi chúng tôi thực hiện AP trên đồ thị thưa thớt như vậy, mỗi điểm dữ liệu có thể và chỉ có thể là ví dụ điển hình của (k+1) điểm dữ liệu. Đó là để nói, có ít nhất N / k những hình mẫu, mà là nhiều hơn so với dự kiến. Để giải quyết vấn đề này, chúng tôi áp dụng một phương pháp tinh tế cạnh đề xuất trong, được tóm tắt trong thuật toán 2. Trong mỗi lần lặp, nhiều những hình mẫu có thể sáp nhập vào một cụm. AP thực hiện trên đồ thị tái xây dựng có thể tạo ra những hình mẫu ít hơn. Khi số lượng của những hình mẫu được giảm xuống một giá trị mong muốn, lặp đi lặp lại có thể được kết thúc. Các những hình mẫu cuối cùng là đại diện và được coi là những hình ảnh đề nghị. 2.3. Tìm kiếm hình ảnh thông qua từ khóa-hình ảnh gợi ý Sau khi người dùng chọn một từ khóa hình ảnh gợi ý, từ khóa được nối với truy vấn ban đầu. Điều này dẫn đến một câu hỏi tổng hợp, mà hệ thống VQS thực hiện tìm kiếm dựa trên kĩ thuật tìm kiếm bằng văn bản . Tuy nhiên, do sự không phù hợp giữa nội dung hình ảnh và các văn bản liên quan, việc thực hiện tìm kiếm hình ảnh bằng văn bản thường không thỏa mãn. Mặt khác,gợi ý hình ảnh người sử dụng vốn đã phản ánh mục đích tìm kiếm của người sử dụng và các nội dung trực quan của hình ảnh là có khả năng hữu ích để cải thiện dựa trên văn bản tìm kiếm hình ảnh. Vì vậy, chúng tôi đề xuất hoàn thiện kết quả tìm kiếm dựa trên văn bản bằng cách khai thác thông tin thị giác. Một phương pháp tái xếp hạng, được phát triển để tái xếp hạng những hình ảnh quay trở lại theo những điểm tương đồng về quan điểm giữa nó và gợi ý các hình ảnh được chọn. Giả sử có các hình thức trực quan K (ví dụ như màu sắc, hình dạng và kết cấu), trước tiên chúng ta tính toán tương tự hình ảnh Sk={Ski}Ni =1 giữa những hình ảnh trả về và gợi ý các hình ảnh người dùng lựa chọn Iq trên phương thức thứ k, trong đó N là số lượng hình ảnh trả lại. Sau đó, tất cả các thông tin K trực quan được tổng hợp hoàn thiện kết quả tìm kiếm ban đầu thông qua phương trình sau đây:
  14. Mà r0i biểu thị số điểm liên quan ban đầu giữa các truy vấn và hình ảnh Ii,được tạo ra bởi phương pháp tìm kiếm bằng văn bản. ri: số điềm phù hợp α0 và αk là các thông số trọng số được sử dụng để điều chỉnh thông tin văn bản và hình ảnh Từ những điểm tương đồng trên các phương thức khác nhau có thể thay đổi đáng kể, sự giống nhau hình ảnh Sk={Ski}Ni =1 trên mỗi phương thức được chuẩn hóa mà Ski với số 0 có nghĩa và thống nhất phương sai. Sự liên quan ban đầu điểm r0i cũng được chuẩn hóa theo cùng một cách. Sau khi có điểm phù hợp cuối cùng R={ri}Ni=1 hệ thống VQS sẽ trình bày các hình ảnh được sắp xếp theo mức độ phù hợp với thứ tự giảm dần. Thuật giải 2: Input: I, G Output: Ie Khởi tạo: đặt G(0)=G 1: for each t do 2: Tạo Ie(t) với AP trên G(t-1), Ie=Ie(t); 3: Xây dựng G(t) dựa trên Ie(t) và G(t-1) (1) for each Ii ∈Ie(t) nếu Ii là khuôn mẫu của Ij thì một cạnh giữa Ii và Ij được thêm. (2) for Ik, Il ∈ Ie(t), nếu có 2 điểm dữ liệu Im, In là 2 điểm liền kề nhau và đáp ứng điều kiện e(Im)= Ik và e(In)= xl thì Ik, Il được kết nối bởi 1 cạnh. (3) For Ik, Il ∈Ie(t), nếu chúng đc kết nối trong (2), thì tất cả các điểm dữ liệu mà chọn Ik là bản mẫu đc kết nối tới Il, và ngược lại. 4: end for Return Ie
  15. CHƯƠNG III. THỬ NGHIỆM HỆ THỐNG Chúng tôi tiến hành thử nghiệm rộng rãi và đánh giá, bao gồm cả đánh giá chủ quan và khách quan. Cũng như so sánh giữa VQS và ba công cụ tìm kiếm phổ biến khác. Đầu tiền chúng tôi đánh giá hiệu suất các câu lệnh đ ược cung cấp b ởi hệ thống VQS. Sau đó, khảo sát hiệu suất tìm kiếm hình ảnh thông qua VQS. Truy vấn đầu tiên A A irshow nimal A B pple uilding C C amping ar D F isaster lag Fl F ight lower Fr G uit ame P P aris lant P R ortrait oad S S cenic eason S S ky ports S T unset ralvel w eather Bảng 1: Mẫu truy vấn đầu tiên được sử dụng trong thí nghiệm 1. Dữ liệu và phương pháp Để tạo những gợi ý từ khóa hình ảnh, chúng tôi sử dụng Fickr images như một cơ sở dữ liệu. Fickr là hình ảnh chia sẻ phổ biến nhất, cho phép người dùng
  16. tải lên, chia sẻ và tag hình của họ. Chúng tôi đã thu thập 3 triệu hình ảnh Fickr, được kết hợp với khoảng 15 triệu từ khóa trong tổng số. Để đánh giá khả năng tìm kiếm hình ảnh với VQS, một công cụ tìm kiếm hình ảnh phổ biến đã đ ược thông qua như các công cụ tìm kiếm cơ bản . Chúng tôi sử dụng Engine III để lấy hình ảnh với mỗi truy vấn ban đầu và truy vấn mới tương ứng với nó. Đó là sự kết hợp giữa truy vấn ban đầu và gợi ý từ khóa. 1000 kết quả hình ảnh trả về của mỗi truy vấn sẽ được thu thập để xây dựng bộ dữ liệu thử nghiệm. Đ ể có đ ược một mặt bằng chung giữa các kết quả hình ảnh trả về, chúng tôi dùng một thủ tục dán nhãn. Cụ thể, mỗi hình ảnh được dán nhãn với 3 cấp độ: “cấp 0 : không thích hợp”, “cấp 1 : có liên quan”, “cấp 2 : phù hợp”. Chúng tôi đã dùng 20 đối tượng để tự dán nhãn cho mỗi cấp độ phù hợp của những hình ảnh trả về. Mỗi hình ảnh được dán nhãn ít nhất 3 đối tượng. Mặt bằng thu được thông qua số l ượng đ ối tượng được gán nhãn. Đại diện cho nội dung hình ảnh, chúng tôi lấy 3 tính năng thực, bao gồm : 225 – chiều khối- thời điểm màu sáng dựa trên 5 của 5 bộ phận hình ảnh; 128 – kết cấu wavelet chiều; và 75 – chiều cạnh phân phối biểu đồ. Sự tương đồng giữa 2 hình ảnh được tính như exp(−||xi − xj ||2). xi là vector của hình ảnh I i. Các đơn điệu tăng hàm f (•) trong phương trình (2) và g (•) trong phương trình (6) là đ ịnh nghĩa là hàm sigmoid, tức là, f (x) = g (x) = 1/(1+ e -x). Các tham số cân bằng trong phương trình (7) được thiết lập để thực nghiệm 0.7. Tất cả các thông số cân bằng trong phương trình (11) được thiết lập đểlà như nhau, nghĩa là, α0 = αk = 1/(K+1). 2. Đánh giá gợi ý truy vấn Chúng tôi tiến hành hai nghiên cứu dùng để đánh giá VQS. Nghiên cứu đầu tiên nhằm mục đích so sánh VQS với hai dịch vụ gợi ý truy vấn hiện tại được cung cấp bởi Engine I và Engine II. Trong khi nghiên cứu thứ hai đánh giá tính hữu ích của VQS.
  17. Đánh giá Đánh giá Hình 6 : So sánh giữa VQS và tìm kiếm hình ảnh của engine I và II. Chúng tôi đã mời 30 người dùng thử tìm kiếm hình ảnh trung bình để đánh giá hệ thống VQS, trong đó có 28 sinh viên tốt nghiệp và hai nhà nghiên c ứu. Tất cả trong số họ đã có kinh nghiệm sử dụng công cụ tìm kiếm hình ảnh nhiều hơn một lần mỗi tuần. Chúng tôi cũng mời thêm 10 đối tượng không quen với tìm kiếm hình ảnh để tham gia cuộc nghiên cứu sử dụng. Những đối tượng này bao gồm một loạt các ngành nghề khác nhau, chẳng hạn như những người bán hàng, những người tiếp thị, giáo viên, nhân viên văn phòng. Vì thế, có 40 thẩm định trong tổng số, trong đó có 30 nam và 10 nữ. Độ tuổi từ 21 đ ến 55.Đ ể tránh bất kỳ s ự thiên vị về việc đánh giá, tất cả những người tham gia được lựa chọn sao cho họ không có bất kỳ kiến thức về cách tiếp cận hiện nay cho gợi ý câu truy vấn và tìm kiếm. Để thuận lợi cho việc đánh giá và so sánh, chúng tôi đã chọn 25 câu truy vấn đại diện (xem bảng 1) từ các bản ghi truy vấn của Engine III. Các truy vấn này thuộc về loại khác nhau như khung cảnh, đối tượng, và sự kiện. Đối với mỗi truy vấn, chúng tôi chọn bốn đề xuất từ khoá và ba đề nghị hình ảnh cho mỗi từ khóa. Kết quả là, đã có 300 (25 × 4 × 3) cặp truy vấn ban đầu và gợi ý từ khóa hình ảnh để đánh giá. a. So sánh các công cụ tìm kiếm hiện nay Người tham gia được yêu cầu phải nộp 25 truy vấn từng cái một đến ba hệ thống hình ảnh tìm kiếm, ví dụ, Engine I, Engine II, và hệ thống VQS của chúng tôi. Sau đó, họ được yêu cầu cung cấp các đánh giá sau đây:
  18. Đánh giá cá nhân : Chúng tôi so sánh VQS với Engine I và Engine II một cách riêng biệt. Dựa trên quan sát của các dịch vụ đề xuất của VQS, Công cụ I (II) cho mỗi truy vấn, người tham gia được yêu cầu cung cấp một số từ "2" đển "-2", để chỉ ra rằng VQS thực hiện tốt hơn, chặt chẽ, nặng hơn , và tồi tệ hơn nhiều so với Engine I (II), tương ứng. Đánh giá chung: Tương tự như vậy, đánh giá viên cũng được yêu cầu đưa ra so sánh tổng thể giữa VQS và công cụ tìm kiếm hình ảnh hiện tại. Họ được yêu cầu chọn một trong năm tùy chọn: VQS thực hiện "tốt hơn nhiều", "tốt hơn", "tương tự", "tệ hơn" và "tệ hơn nhiều" so với Engine I (II). Kết quả từ 30 hình ảnh mà người dùng tìm kiếm tường xuyên được minh họa trong bảng 6 . Hình 6 (a) cung cấp các con số trung bình của các truy vấn với tỷ số "2", "1", "0", "-1", hoặc "-2" từ 30 người tham gia. So với Engine I, hệ thống VQS thực hiện tốt hơn nhiều so với 15 câu truy vấn, tốt hơn 7 truy vấn, chặt chẽ hơn 2 truy vấn, và tệ hơn trên chỉ có 1 truy vấn. So với Engine II, hệ thống VQS cung cấp gợi ý tốt hơn cho 14 câu truy vấn và gợi ý tốt hơn cho 8 câu truy vấn. Hình 6 (b) cho thấy việc đánh giá tổng thể. Tất cả 30 người đã xem xét hệ thống VQS nhanh hơn so với công cụ tìm kiếm hình ảnh hiện tại. Cụ thể, 60% và 53% người dùng thông báo rằng những đề nghị truy vấn của hệ thống VQS là tốt hơn nhiều so với các Engine I và Engine II, tương ứng. Hình 7 cho thấy kết quả đánh giá từ 10 đánh giá viên những người không quen với tìm kiếm hình ảnh. Họ cho rằng hệ thống VQS thực hiện tốt hơn nhiều so với Engine I trên 17 câu truy vấn, tốt hơn trên 5 truy vấn, và chặt chẽ trên 3 truy vấn, trong khi họ nghĩ rằng hệ thống VQS thực hiện tốt hơn nhiều so với động cơ II hơn 20 truy vấn, tốt hơn 4 truy vấn, và chặt chẽ hơn 1 truy vấn. Trong đánh giá tổng th ể, t ất cả trong số họ nghĩ rằng hệ thống VQS nhanh hơn so với công cụ tìm kiếm hình ảnh hiện tại.
  19. Đánh giá Đánh giá Hình 7 : so sánh giữa VQS và hình ảnh tìm kiếm engine I và II từ 10 người dùng không quen với tìm kiếm hình ảnh b. Đánh giá tính hữu ích Để đánh giá tính hữu ích của hệ thống VQS, người tham gia được mời đ ể trả lời câu hỏi "có phải là VQS hữu dụng cho gợi ý tìm kiếm mục đích đúng c ủa mình?" Họ được yêu cầu chọn một trong ba lựa chọn: "rất hữu ích", "phần nào hữu ích," và "vô ích". Hình 8 cho thấy các kết quả đánh giá từ 30 người dùng tìm kiếm hình ảnh thường xuyên. Hệ thống VQS được coi là rất hữu ích bởi 30% người sử dụng và có ích cho 70% còn lại người sử dụng. Hình 9 kết quả đánh giá từ 10 người dùng không quen với tìm kiếm hình ảnh. Tám trong số 10 người xem hệ thống VQS là rất hữu ích và còn lại hai nghĩ rằng nó là 1 phần hữu ích. Từ các nghiên cứu sử dụng ở trên, chúng ta có thể thấy rằng các đề xuất hệ thống VQS nhanh hơn so với công cụ tìm kiếm hình ảnh phổ biến hiện có và nó rất hữu ích, gợi ý tốt hơn ý nghĩa thực sự của người sử dụng. Chúng tôi hiển th ị một số khuôn mẫu cho các đề xuất hình ảnh từ khóa cho ba truy vấn ban đ ầu trong Hình 10. Nó có thể được tìm thấy rằng những lời đ ề nghị từ khóa hình ảnh được cung cấp bởi hệ thống VQS không thể hiện các khía cạnh khác nhau của các truy vấn ban đầu và giải quyết sự mơ hồ của nó, và do đó họ có thể giúp người sử dụng xác định mục đích tìm kiếm rõ ràng.
  20. Hình 8: Kết quả đánh giá về tính hữu ích của VQS từ 30 người dùng thường xuyên tìm kiếm hình ảnh. Hình 9: Kết quả đánh giá về tính hữu ích của VQS từ 10 người dùng không quen với tìm kiếm hình ảnh.
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2