Luận văn Thạc sĩ Khoa học máy tính: Nghiên cứu phương pháp tra cứu ảnh sử dụng phân cụm gia tăng với phản hồi liên quan

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

NGUYỄN VĂN TOÀN

NGHIÊN CỨU PHƯƠNG PHÁP TRA CỨU ẢNH

SỬ DỤNG PHÂN CỤM GIA TĂNG

VỚI PHẢN HỒI LIÊN QUAN

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN, 2018

i

LỜI CẢM ƠN

Luận văn này được hoàn thành với sự hướng dẫn tận tình của PGS.TS

Nguyễn Hữu Quỳnh – Khoa Công nghệ thông tin - Đại học Điện lực. Trước tiên

tôi xin chân thành bày tỏ lòng biết ơn sâu sắc tới PGS.TS Nguyễn Hữu Quỳnh

người đã tận tình hướng dẫn, động viên giúp đỡ tôi trong suốt thời gian thực hiện

luận văn. Tôi cũng xin chân thành cảm ơn các thầy cô trong trường Đại học Công

Nghệ thông tin và Truyền thông – Đại học Thái Nguyên, tạo điều kiện thuận lợi

cho tôi hoàn thành tốt khóa học.

Xin chân thành cảm ơn các anh, các chị và các bạn học viên lớp Cao học

CHK15A đã luôn động viên, giúp đỡ và nhiệt tình chia sẻ với tôi những kinh

nghiệm học tập, công tác trong suốt khoá học.

Cuối cùng, tôi xin gửi lời cảm ơn sâu sắc đến gia đình, người thân, bạn bè đã

động viên, khuyến khích và hỗ trợ cần thiết để tôi hoàn thành luận văn này.

Mặc dù rất cố gắng, song luận văn này không thể tránh khỏi những thiếu sót,

kính mong được sự chỉ dẫn của các quý thầy cô và các bạn.

Thái Nguyên, ngày 2 tháng 5 năm 2018

Người viết

Nguyễn Văn Toàn

ii

LỜI CAM ĐOAN

Tôi xin cam đoan rằng số liệu và kết quả nghiên cứu trong luận văn này là

trung thực và không trùng lặp với các đề tài khác. Tôi cũng xin cam đoan rằng

mọi sự giúp đỡ cho việc thực hiện luận văn này đã được cảm ơn và các thông tin

trích dẫn trong luận văn đã được chỉ rõ nguồn gốc.

Thái Nguyên, ngày 2 tháng 5 năm 2018

Người cam đoan

Nguyễn Văn Toàn

iii

MỤC LỤC

LỜI CẢM ƠN ........................................................................................................ i

LỜI CAM ĐOAN ................................................................................................. iii

MỤC LỤC ............................................................................................................ iv

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT ....................................... vi

DANH MỤC CÁC BẢNG BIỂU ....................................................................... vii

DANH MỤC CÁC HÌNH .................................................................................. viii

MỞ ĐẦU ............................................................................................................... 1

CHƯƠNG 1: TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG VỚI PHẢN HỒI LIÊN QUAN ..................................................................................... 4

1.1. Tổng quan về tra cứu ảnh dựa vào nội dung .............................................. 4 1.1.1. Vấn đề tra cứu ảnh dựa vào nội dung ................................................. 4 1.2. Tra cứu ảnh sử dụng phản hồi liên quan .................................................. 14 1.3. Vấn đề phân cụm[1] ................................................................................. 16 1.3.1. Thuật toán K-Means. ......................................................................... 20 1.3.2. Phân cụm phân cấp ........................................................................... 21 1.3.3. Phân cụm dựa vào mật độ ................................................................. 23 1.3.4. Phân cụm dựa vào mô hình ............................................................... 23 1.3.5. Phân cụm dựa vào đồ thị ................................................................... 26 1.4. Tiểu kết chương 1. ................................................................................... 26 CHƯƠNG 2: PHƯƠNG PHÁP TRA CỨU ẢNH VỚI PHẢN HỒI LIÊN QUAN SỬ DỤNG PHÂN CỤM GIA TĂNG ................................................................. 27

2.1. Tra cứu ảnh với ngữ nghĩa mức cao ........................................................ 27 2.1.1. Giới thiệu về tra cứu ảnh với ngữ nghĩa mức cao ............................. 27 2.1.2. Khoảng cách ngữ nghĩa ..................................................................... 28 2.1.3. Phản hồi liên quan ............................................................................. 29 2.2. Tra cứu ảnh với phản hồi liên quan ......................................................... 31 2.3. Kỹ thuật phân tích phân biệt tuyến tính (LDA-Linear Discriminant Analysis) .......................................................................................................... 32

iv

2.3.1. Định nghĩa về LDA ........................................................................... 32

2.3.2 Tính toán phương sai between-class (𝑺𝑩) ......................................... 32

2.3.3 Tính phương sai within-class (𝑺𝒘) .................................................... 34 2.3.4 Xây dựng không gian thấp chiều ....................................................... 36 2.3.5. Sơ đồ phương pháp tra cứu ảnh sử dụng phân cụm gia tăng trong phản hồi liên quan ................................................................................................ 37 2.4. Tiểu kết chương 2..................................................................................... 39 CHƯƠNG 3: CHƯƠNG TRÌNH THỬ NGHIỆM ............................................. 40

3.1. Giới thiệu bài toán tra cứu ảnh dựa vào nội dung .................................... 40 3.2. Môi trường thực nghiệm. ......................................................................... 41 3.2.1. Cơ sở dữ liệu ảnh. ............................................................................. 42 3.2.2. Vec-tơ đặc trưng ................................................................................ 43 3.2.3. Tập tin cậy nền .................................................................................. 44 3.2.4. Cấu hình đề xuất thiết bị chạy thực nghiệm ..................................... 44 3.3. Đánh giá kết quả thực nghiệm. ................................................................ 44 3.3.1. Chiến lược mô phỏng phản hồi liên quan. ........................................ 44 3.3.2. Kết quả đánh giá................................................................................ 45 3.4. Giao diện hệ thống ................................................................................... 47 3.5. Tiểu kết chương 3. ................................................................................... 51 KẾT LUẬN ......................................................................................................... 52

TÀI LIỆU THAM KHẢO ................................................................................... 53

v

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

Từ viết tắt Diễn giải

Tra cứu ảnh dựa vào nội dung. CBIR

Tra cứu ảnh dựa vào vùng RBIR

CSDL Cơ sở dữ liệu

Mẫu vùng cấu tạo CRT

Earth Mover Distance EMD

Lược đồ đối sánh vùng tích hợp IRM

Hàm khoảng cách động một phần DPF

MRMD Khoảng cách đa tạp đa phân giải

RF Phản hồi liên quan

vi

DANH MỤC CÁC BẢNG BIỂU

Bảng 3.1. Bảng phân bố tập ảnh Corel................................................................ 42

Bảng 3.2. Các loại đặc trưng. .............................................................................. 43

Bảng 3.3. Bảng cấu hình đề xuất thiết bị chạy thực nghiệm. ............................. 44

Bảng 3.4. Bảng kết quả của các phương pháp .................................................... 46

vii

DANH MỤC CÁC HÌNH

Hình 1.1. Kiến trúc tổng quan của hệ thống tra cứu ảnh dựa vào nội dung. ........ 5

Hình 1.2. Không gian màu RGB. .......................................................................... 8

Hình 1.3. Không gian màu HSV. .......................................................................... 9

Hình 1.4. Lược đồ của một hệ thống CBIR với RF. ........................................... 16

Hình 1.5. Các tập dữ liệu và các cụm ................................................................. 17

Hình 1.6. Các tập dữ liệu không thích hợp với K-Means. .................................. 21

Hình 1.7 Phân cụm phân cấp tập dữ liệu D={a,b,c,d,e} ..................................... 22

Hình 2.1. Dịch chuyển điểm truy vấn. ................................................................ 29

Hình 2.2. Hình dạng lồi (đa điểm). ..................................................................... 30

Hình 2.3. Hình dạng lõm (đa điểm). ................................................................... 30

Hình 2.4. Tra cứu ảnh dựa vào nội dung với phản hồi liên quan. ...................... 31

Hình 2.5. Các bước được trực quan hóa để tính một không gian con chiều thấp hơn của kỹ thuật LDA. ........................................................................................ 33

Hình 2.6. Sơ đồ tra cứu ảnh sử dụng phân cụm gia tăng. ................................... 38

Hình 3.1. Mô hình tổng quát của hệ thống .......................................................... 41

Hình 3.2. Biểu đồ so sánh kết quả thực nghiệm ................................................. 46

Hình 3.3. Giao diện chính của hệ thống. ............................................................. 47

Hình 3.4. Chọn tập dữ liệu ảnh / đặc trưng ......................................................... 48

Hình 3.5. Chọn ảnh truy vấn khởi tạo. ................................................................ 48

Hình 3.6. Tra cứu với truy vấn khởi tạo 84003, 84004, 84008 thuộc lớp 840. .. 48

Hình 3.7. Kết quả phân cụm tập huấn luyện. ...................................................... 49

Hình 3.8. Công cụ tra cứu và phân cụm LDA. ................................................... 49

Hình 3.9. Kết quả tra cứu phản hồi liên quan. .................................................... 50

Hình 3.10. Kết quả phân cụm gia tăng. ............................................................... 50

Hình 3.11. Kết quả tra cứu sau khi sử dụng phân cụm gia tăng. ........................ 51

viii

MỞ ĐẦU

Tra cứu ảnh dựa vào nội dung (CBIR-Content Based Image Retrieval) đã

nhận được nhiều sự quan tâm trong thập kỷ qua, do nhu cầu xử lý hiệu quả lượng

dữ liệu đa phương tiện khổng lồ và tăng nhanh chóng. Nhiều hệ thống CBIR đã

được phát triển, gồm QBIC, Photobook, MARS, VisualSEEK, SIMPLIcity và

những hệ thống khác. Trong một hệ thống CBIR tiêu biểu, các đặc trưng ảnh trực

quan mức thấp (tức là màu, kết cấu và hình dạng) được trích rút tự động cho mục

tiêu đánh chỉ số và mô tả ảnh. Để tìm kiếm các ảnh mong muốn, người dùng đưa

một ảnh làm mẫu và hệ thống trả lại một tập các ảnh tương tự dựa vào các đặc

trưng được trích rút.

Là một vấn đề quan trọng trong CBIR, độ đo tương tự lượng hóa sự giống

nhau về nội dung giữa từng cặp ảnh. Phụ thuộc vào kiểu đặc trưng được trích rút

mà chúng ta lựa chọn độ đo tương tự thích hợp. Tất cả các kỹ thuật tra cứu ảnh

dựa vào nội dung hiện nay đều thừa nhận thông tin tương hỗ giữa độ đo tương tự

ảnh và ngữ nghĩa của ảnh. Bằng nhiều cách khác nhau, độ đo tương tự cố gắng

nắm được một khía cạnh nào đó của nội dung ảnh, đó là ngữ nghĩa kế thừa từ độ

tương tự hay đặc trưng mức thấp. Tuy nhiên, ngữ nghĩa kế thừa từ độ tương tự

nhiều khi không giống với khái niệm mức cao được truyền tải bởi một ảnh (ngữ

nghĩa của ảnh). Đó chính là khoảng cách ngữ nghĩa, nó phản ánh sự khác biệt giữa

năng lực mô tả hạn chế của đặc trưng trực quan mức thấp và khái niệm mức cao.

Các kỹ thuật trong việc rút ngắn “khoảng cách ngữ nghĩa” gồm có 5 loại chính:

(1) sử dụng bản thể đối tượng để xác định các khái niệm mức cao, (2) sử dụng

các công cụ học máy để kết hợp các đặc trưng mức thấp với các khái niệm truy

vấn, (3) đưa phản hồi liên quan vào lặp tra cứu cho học ý định của người dùng,

(4) sinh ra mẫu ngữ nghĩa để hỗ trợ tra cứu ảnh mức cao, (5) Cách sử dụng cả nội

dung trực quan của các ảnh và thông tin văn bản thu được từ Web cho tra cứu ảnh

trên Web.

1

Từ những nhận định trên và được sự gợi ý của giáo viên hướng dẫn, tôi quyết

định chọn đề tài: “Nghiên cứu phương pháp tra cứu ảnh sử dụng phân cụm

gia tăng với phản hồi liên quan”. Đề tài sẽ kết hợp hai hướng tiếp cận (2) và (3),

đưa phản hồi liên quan của người dùng vào quá trình tra cứu và sử dụng phương

pháp phân cụm gia tăng để phân cụm tập ảnh phản hồi nhằm biểu diễn nhu cầu

thông tin người dùng hiệu quả.

Phản hồi liên quan là một quá trình trực tuyến mà cố gắng học mục đích của

người dùng trong quá trình tra cứu, là một công cụ mạnh được sử dụng truyền

thống trong các hệ thống tra cứu thông tin. Nó được giới thiệu đối với CBIR

khoảng đầu những năm 1990, với mục đích mang người dùng vào lặp tra cứu để

giảm khoảng cách ngữ nghĩa giữa những gì mà truy vấn biểu diễn và những gì

người dùng nghĩ. Bằng việc tiếp tục học thông qua tương tác với các người dùng

cuối, phản hồi liên quan đã được chỉ ra là cung cấp cải tiến hiệu năng đáng kể

trong các hệ thống CBIR.

Phân cụm là một phương pháp học không giám sát để tạo thành các nhóm

hay các cụm dữ liệu. Lý thuyết phân cụm giả thuyết rằng “các đối tượng gần nhau

có xu hướng liên quan tới cùng một yêu cầu”. Đã có nhiều thuật toán thực hiện

việc phân cụm như: K-mean, K-medoid, EM…Tuy nhiên, các thuật toán này

thường được gọi là phân cụm ngoại tuyến (off-line), tức là, các thuật toán này

thực hiện phân cụm trên toàn bộ cơ sở dữ liệu ảnh đã có sẵn (gồm rất nhiều ảnh),

mỗi khi có ảnh mới bổ sung vào, quá trình lại phải phân cụm lại từ đầu. Các thuật

toán ngoại tuyến không phù hợp trong các trường hợp đòi hỏi trực tuyến (on-line),

chẳng hạn, trường hợp mà áp dụng trên một tập ảnh nhỏ (là kết quả của một lần

thực hiện tra cứu) nhưng đòi hỏi phân cụm ngay lập tức trong khi vẫn còn nhiều

ảnh cần được bổ sung và phân cụm tiếp theo không cần phải tiến hành với dữ liệu

đã được phân cụm trước đó. Thuật toán mà đáp ứng trường hợp trực tuyến này

phải có tính chất “gia tăng” hay gọi là phân cụm gia tăng.

2

Nhiệm vụ chính của luận văn là nắm vững kiến thức tổng quan của lĩnh vực

xử lý ảnh, đi sâu nghiên cứu lĩnh vực tra cứu ảnh dựa vào nội dung, tìm hiểu một

số thuật toán học không giám sát, nghiên cứu thuật toán phân cụm gia tăng và đưa

vào hệ thống tra cứu ảnh dựa vào nội dung. Cài đặt chương trình thử nghiệm đánh

giá, so sánh hiệu quả của hệ thống tra cứu ảnh dựa vào nội dung sử dụng phân

cụm phổ với một số hệ thống tra cứu ảnh điển hình khác.

Bố cục luận văn:

Chương 1: Tổng quan về tra cứu ảnh dựa vào nội dung với phản hồi liên quan

Chương 2: Phương pháp tra cứu ảnh với phản hồi liên quan sử dụng phân cụm

gia tăng.

Chương 3: Chương trình thử nghiệm.

3

CHƯƠNG 1: TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG

VỚI PHẢN HỒI LIÊN QUAN

1.1. Tổng quan về tra cứu ảnh dựa vào nội dung

1.1.1. Vấn đề tra cứu ảnh dựa vào nội dung

Tra cứu ảnh dựa vào nội dung là việc áp dụng kỹ thuật thị giác máy tính vào vấn đề tìm kiếm hình ảnh, tức là vấn đề tìm kiếm hình ảnh kỹ thuật số trong các cơ sở dữ liệu (lớn). Tra cứu ảnh dựa vào nội dung sử dụng những nội dung thị giác như màu sắc, hình dạng, kết cấu, không gian để biểu diễn ảnh. Các nội dung thị giác của ảnh được trích rút và mô tả bằng các véc tơ đặc trưng đa chiều có dạng véc tơ đặc trưng của cơ sở dữ liệu. Khởi đầu cho việc tra cứu ảnh, người dùng cung cấp một ảnh mẫu cho hệ thống tra cứu. Hệ thống này sẽ chuyển đổi những ảnh mẫu này thành các véc tơ đặc trưng và so sánh với khoảng cách/độ tương tự của các véc tơ đặc trưng của những ảnh trong cơ sở dữ liệu để tính toán và đưa ra kết quả là bức ảnh có độ tương tự cao nhất.

Hệ thống tra cứu ảnh dựa vào nội dung

1.1.1.1. Các chức năng của hệ thống tra cứu ảnh dựa vào nội dung

Một hệ thống tra cứu ảnh dựa vào nội dung (CBIR – Content Based Image

Retrieval) có các chức năng chính như sau:

1) Trích rút đặc trưng và biểu diễn các nội dung của các nguồn được phân tích theo cách thích hợp cho so sánh các truy vấn sử dụng (không gian của nguồn thông tin được biến đổi thành không gian đặc trưng cho mục tiêu so sánh nhanh trong bước tiếp theo). Bước này thông thường cần rất nhiều thời gian do nó phải xử lý lần lượt tất cả thông tin nguồn (các ảnh) trong cơ sở dữ liệu. Tuy nhiên, bước này được thực hiện chỉ một lần và có thể được thực hiện ngoại tuyến.

2) Phân tích truy vấn của người sử dụng và biểu diễn chúng dưới dạng thích hợp để đối sánh với cơ sở dữ liệu nguồn. Bước này là tương tự với bước trước, nhưng chỉ áp dụng với ảnh cần truy vấn.

3) Thực hiện so sánh các truy vấn tìm kiếm với thông tin có trong cơ sở dữ liệu được lưu trữ để tra cứu thông tin liên quan theo một cách hiệu quả. Bước này

4

được thực hiện trực tuyến và yêu cầu là phải đáp ứng rất nhanh. Các kỹ thuật đánh chỉ số hiện đại có thể được sử dụng để tổ chức lại không gian đặc trưng nhằm tăng tốc quá trình đối sánh.

4) Thực hiện các điều chỉnh cần thiết trong hệ thống (thường là điều chỉnh các tham số trong máy đối sánh) dựa trên phản hồi từ người sử dụng và/hoặc các ảnh được tra cứu.

Thực hiện ngoại tuyến

1.1.1.2. Một số hệ thống CBIR tiêu biểu

Cơ sở dữ liệu đặc trưng Cơ sở dữ liệu ảnh

Đ á n h c h ỉ s ố

So sánh độ tương tự

T r í c h r ú t đ ặ c t r ư n g

Người dùng Đầu ra

Véc tơ đặc trưng Tạo truy vấn Các kết quả tra cứu

Phản hồi liên quan

Hình 1.1. Kiến trúc tổng quan của hệ thống tra cứu ảnh dựa vào nội dung.

Một hệ thống CBIR sẽ thực hiện truy vấn ảnh dựa trên việc tự động rút trích các thông tin đặc trưng hình ảnh như: màu sắc, kết cấu, hình dạng, vị trí. Các nhà nghiên cứu đã đưa ra nhiều phương pháp với những cách tiếp cận khác nhau; do đó rất nhiều hệ thống truy vấn ảnh dựa trên nội dung đã ra đời như: QBIC, BlobWorld, VisualSEEk, MARS, Photobook, Virage, Netra, SIMPLIcity, NEC PicHunter… Dưới đây xin điểm qua một số hệ thống CBIR tiêu biểu.

5

1) Hệ thống QBIC

Hệ thống truy vấn ảnh theo nội dung QBIC (Query By Image Content) được nghiên cứu và phát triển bởi nhóm nghiên cứu Visual Media Management thuộc công ty IBM, là hệ thống tra cứu ảnh thương mại được phát triển từ rất sớm. Người dùng xây dựng một phác thảo, vẽ ra và lựa chọn màu cùng kết cấu dựa theo ảnh truy vấn.

Hệ thống này hỗ trợ một vài độ đo tương tự cho ảnh như: trung bình màu sắc, lược đồ màu sắc và kết cấu. Công nghệ sử dụng trong hệ thống bao gồm đánh chỉ số và tìm kiếm. Hiện nay hệ thống này còn cung cấp vài cách tiếp cận truy vấn theo đơn đặc trưng, đa đặc trưng và đa giai đoạn.

2) Hệ thống Blobwold

Hệ thống Blobwold do khoa Khoa học máy tính, Đại học California, Berkeley nghiên cứu và phát triển. Các đặc tính được sử dụng cho truy vấn là màu sắc, kết cấu, vị trí và hình dạng của vùng và nền. Màu sắc được mô tả bởi biểu đồ 218 bin màu kết hợp trong không gian Lab. Kết cấu được thể hiện bằng sự tương phản và không đẳng hướng trên vùng như không gian 2D (độ tương phản, độ tương phản x tính không đẳng hướng). Hình dạng được thể hiện bằng (xấp xỉ) vùng, độ lệch tâm và định hướng.

3) Hệ thống VisualSEEk

Hệ thống VisualSEEk được xây dựng bởi Trung tâm nghiên cứu viễn thông thuộc trường đại học Columbia, New York. Đây là hệ thống truy vấn dựa vào các đặc trưng trực quan của ảnh, sử dụng không gian 166 màu HSV. Sự tương đồng giữa hai ảnh được xác định theo sự tương đồng của các vùng trong ảnh. Hệ thống cho phép người dùng nhập vào truy vấn, sử dụng các đặc trưng mức thấp của hình ảnh như: màu sắc, bố cục không gian và kết cấu. Các đặc trưng đó được mô tả theo màu sắc và biến đổi Wavelet dựa trên đặc trưng kết cấu.

4) Hệ thống Netra

Hệ thống Netra sử dụng các đặc trưng của ảnh: màu sắc, hình dạng, kết cấu, vị trí không gian trong các vùng ảnh được phân đoạn để tìm kiếm và tra cứu các

6

vùng tương tự từ cơ sở dữ liệu. Các đặc trưng nghiên cứu chính của hệ thống Netra là phân tích kết cấu dựa trên lọc Gabor, xây dựng từ điển ảnh dựa trên mạng neural và phân đoạn vùng dựa vào luồng biên.

Trích rút đặc trưng

Trích rút đặc trưng ảnh mức thấp là cơ sở của các hệ thống CBIR. Trích rút đặc trưng bao gồm trích rút thông tin có nghĩa của ảnh, làm giảm dung lượng lưu trữ, do đó hệ thống sẽ nhanh và hiệu quả hơn trong CBIR.

1.1.1.3. Đặc trưng màu sắc

Đặc trưng màu sắc được sử dụng rộng rãi nhất trong tra cứu ảnh. Một vài phương pháp tra cứu ảnh dựa trên cơ sở sự tương tự về màu sắc đã được mô tả trong các tài liệu nhưng các ý tưởng cơ bản là giống nhau. Mỗi hình ảnh được thêm vào bộ sưu tập được phân tích và tính toán biểu đồ màu để thấy tỷ lệ điểm ảnh của mỗi màu trong một ảnh. Biểu đồ màu của mỗi ảnh sau đó được lưu trữ trong cơ sở dữ liệu để khi tìm kiếm, người dùng có thể xác định tỷ lệ mong muốn của mỗi màu hoặc gửi một ảnh mẫu mà đã được tính toán biểu đồ màu. Dù bằng cách nào đi chăng nữa thì quá trình tra cứu sau đó là lấy ra những bức ảnh mà có biểu đồ màu tương ứng gần nhất với ảnh truy vấn.

1) Không gian màu

- Không gian màu RGB (Red – Green – Blue)

Không gian màu RGB được sử dụng nhiều nhất cho đồ họa máy tính, mô tả màu sắc bằng 3 thành phần chính là R (Red) – G (Green) và B (Blue). Không gian này được xem như một khối lập phương 3 chiều với màu Red là trục x, màu Green là trục y, và màu Blue là trục z. Mỗi màu trong không gian này được xác định bởi 3 thành phần R, G, B. Ứng với các tổ hợp khác nhau của 3 màu này sẽ cho ta một màu mới.

Không gian màu RGB được sử dụng rộng rãi trong việc biểu diễn ảnh, gồm 3 thành phần màu là đỏ, xanh lục, xanh lam. Chúng được gọi là bộ cộng sơ cấp vì một màu khác trong không gian RGB được tạo ra bằng cách thêm chúng.

7

Hình 1.2. Không gian màu RGB.

- Không gian màu CIE

Không gian màu CIE L*a*b và CIE L*u*v là không gian độc lập và được xem như đồng bộ. Chúng chứa độ sáng hoặc thành phần nhẹ sáng (L) và hai thành phần màu a và b hoặc u và v. Có thể chuyển từ không gian màu RGB thành không gian CIEL*a*b và CIE L*u*v.

- Không gian màu HSV

Không gian màu HSV (HSL hoặc HSB) được sử dụng rộng rãi trong đồ họa máy tính và miêu tả màu một cách trực quan hơn. Ba thành phần màu có màu sắc, độ bão hòa (nhẹ sáng) và giá trị (độ sáng). Không gian RGB cũng có thể được chuyển thành không gian HSV bằng công thức đơn giản.

Không gian màu thành phần sử dụng trục màu thành phần (R-G, 2B-R-G, R+G+B). Cách thể hiện này có lợi thế trong việc cô lập thông tin về độ sáng ở trục thứ ba. Hai trục màu đầu tiên bất biến với sự thay đổi cường độ sáng và tối, có thể giảm việc lấy mẫu khi con người nhạy cảm với độ sáng hơn.

8

Hình 1.3. Không gian màu HSV.

2) Lược đồ màu

Lược đồ màu được xác định bằng một tập các bin, trong đó mỗi bin biểu thị xác suất của các pixel trong ảnh. Một lược đồ màu H của một ảnh đã cho được xác định bởi véc tơ:

H={H[0], H[1], H[2], ..., H[i],... H[N]}

Ở đây i biểu diễn một màu trong lược đồ màu và tương ứng với một khối con trong không gian màu RGB, H[i] là số các pixel có màu i trong ảnh và N là số các bin trong lược đồ màu.

1.1.1.4. Đặc trưng kết cấu

Kết cấu là một mô tả vùng trợ giúp tốt trong quá trình tra cứu. Kết cấu không có khả năng tìm ra các ảnh tương tự, nhưng nó có thể được sử dụng để phân lớp các ảnh kết cấu từ các ảnh không kết cấu và sau đó được kết hợp với các thuộc tính đặc trưng khác như màu để làm cho tra cứu hiệu quả hơn. Kết cấu là một thuộc tính quan trọng khác của ảnh. Những kết cấu đa dạng đã được xem xét trong các mẫu nhận dạng và tầm nhìn máy tính. Phương pháp đại diện cấu trúc được phân thành hai loại: cấu trúc và thống kê. Phương pháp cấu trúc gồm có hoạt động

9

hình thái và đồ thị kề. Phương pháp thống kê gồm: quang phổ Fourier, ma trận đồng xuất hiện, phân tích bộ phận chính thay đổi bất biến, tính năng Tamura, phân hủy Wold, trường ngẫu nhiên Markov, mô hình fractal và bộ lọc đa phân giải.

1.1.1.5. Đặc trưng hình dạng

Hình dạng được xem như là một đặc trưng quan trọng trong mô tả các đối tượng nổi bật trong ảnh và có thể giúp phân biệt giữa hai ảnh. Các đặc trưng hình dạng của ứng dụng nói chung gồm aspect ratio, circularity, Fourier descriptors, moment invariants, consecutive boundary segments.

Đặc trưng hình dạng của đối tượng hoặc vùng đã được sử dụng nhiều trong hệ thống tra cứu ảnh dựa vào nội dung. So với đặc tính màu sắc và kết cấu thì hình dạng thường được mô tả sau khi ảnh được phân đoạn thành các vùng hoặc các đối tượng. Khi mà việc phân đoạn ảnh rất khó để đạt được độ chính xác và mạnh mẽ thì việc sử dụng đặc tính hình dạng trong tra cứu ảnh đã được giới hạn trong các ứng dụng đặc biệt nơi mà các đối tượng hoặc các vùng đã có sẵn. Mô tả hình dạng có thể dựa vào biên hoặc dựa vào vùng. Đặc tính hình dạng tốt với đối tượng là bất biến với xoay, dịch chuyển và mở rộng.

1.1.1.6. Vị trí không gian

Bên cạnh kết cấu và màu, vị trí không gian cũng là hữu ích trong phân lớp vùng. Chẳng hạn, “bầu trời” và “biển” có thể có các đặc trưng kết cấu và màu tương tự, nhưng vị trí không gian của chúng là khác nhau với “bầu trời” thường xuất hiện ở trên đỉnh của ảnh, trong khi biển ở dưới.

Vị trí không gian thường được xác định đơn giản như “trên, dưới, đỉnh” theo vị trí của vùng trong một ảnh. Trọng tâm vùng và hình chữ nhật bao tối thiểu của nó được sử dụng để cung cấp thông tin vị trí không gian. Tâm không gian của một vùng được sử dụng để biểu diễn vị trí không gian của nó.

Quan hệ không gian tương đối là quan trọng hơn vị trí không gian tuyệt đối trong các đặc trưng ngữ nghĩa. Xâu 2-D và các biến thể của nó là cấu trúc phổ biến nhất được sử dụng để biểu diễn các quan hệ hướng giữa các đối tượng như “trái/phải”, “dưới/trên”. Tuy nhiên, chỉ một mình quan hệ hướng không đủ để biểu

10

diễn nội dung ngữ nghĩa của các ảnh khi bỏ qua quan hệ topo. Để hỗ trợ tốt hơn cho tra cứu ảnh dựa vào ngữ nghĩa, một thuật toán mô hình ngữ cảnh không gian được trình bày mà xem xét sáu quan hệ không gian giữa cắc cặp vùng: trái, phải, trên, dưới, tiếp xúc và trước. Một phương pháp thú vị được đề xuất bởi Smith và cộng sự. Hệ thống sử dụng một mẫu vùng cấu tạo (CRT) để xác định sự sắp xếp không gian của các vùng và mỗi lớp ngữ nghĩa được đặc trưng bởi các CRT thu được từ một tập các ảnh mẫu.

Độ đo tương tự

Hệ thống tra cứu ảnh dựa vào nội dung tính toán độ tương tự trực quan giữa ảnh truy vấn và ảnh trong cơ sở dữ liệu. Khi đó, kết quả tra cứu không chỉ là một ảnh mà gồm một danh sách ảnh được xếp hạng theo độ tương tự với ảnh truy vấn. Có nhiều phương pháp đo độ tương tự đã được phát triển trong tra cứu ảnh những năm gần đây. Các phương pháp đo khoảng cách/độ tương tự khác nhau ảnh hưởng đáng kể tới hiệu suất tra cứu.

Trong các hệ thống tra cứu ảnh CBIR dựa vào vùng (RBIR), độ tương tự ảnh được đo ở hai mức. Đầu tiên là mức vùng. Tức là đo khoảng cách giữa hai vùng dựa trên các đặc trưng mức thấp của chúng. Thứ hai là mức ảnh. Tức là đo độ tương tự toàn bộ của hai ảnh mà có thể chứa số các vùng khác nhau.

Hầu hết các nhà nghiên cứu sử dụng độ đo kiểu Minkowski để xác định khoảng vùng. Giả sử chúng ta có hai vùng biểu diễn bởi hai véc tơ p chiều (x1, x2,…xp), (y1, y2,…yp) tương ứng. Độ đo Minkowski được xác định như sau:

1/𝑟 )

𝑝 𝑑(𝑋, 𝑌) = (∑ |𝑥𝑖 − 𝑦𝑖| 𝑖=1

(1.1)

Cụ thể, khi r bằng 2, nó là khoảng cách Euclidean nổi tiếng (khoảng cách

L2). Khi r là 1, nó là khoảng cách Manhattan (khoảng cách L1).

Một phiên bản biến thể được sử dụng thường xuyên là hàm khoảng cách Minkowski có trọng số mà đưa trọng số vào để nhận biết các đặc trưng quan trọng.

1/𝑟 )

𝑝 𝑑(𝑋, 𝑌) = (∑ 𝑤𝑖|𝑥𝑖 − 𝑦𝑖|𝑟 𝑖=1

(1.2)

Ở đây wi, i=1,…,p là trọng số được áp dụng vào các đặc trưng khác nhau.

11

Các khoảng cách khác cũng được sử dụng trong tra cứu ảnh, như khoảng cách Canberra, khoảng cách angular, hệ số Czekanowski, tích trong, hệ số dice, hệ số cosine và hệ số Jaccard.

Độ tương tự toàn thể của hai ảnh là khó hơn để đo. Về cơ bản có hai cách:

Đối sánh mộ t- một: Nghĩa là mỗi vùng trong ảnh truy vấn chỉ được phép đối sánh một vùng trong ảnh mục tiêu và ngược lại. Như trong [8], mỗi vùng truy vấn của ảnh truy vấn được kết hợp với một vùng đối sánh tốt nhất trong ảnh mục tiêu. Sau đó độ tương tự toàn bộ được xác định bằng tổng có trọng số của độ tương tự giữa mỗi vùng truy vấn trong ảnh truy vấn và đối sánh tốt nhất của nó trong ảnh mục tiêu, trong khi trọng số liên quan đến cỡ vùng.

Đối sánh nhiều - nhiều: Có nghĩa là mỗi vùng trong ảnh truy vấn được phép đối sánh nhiều hơn một vùng trong ảnh mục tiêu và ngược lại. Một phương pháp được sử dụng phổ biến là khoảng cách EMD (Earth Mover Distance). EMD là một độ đo linh hoạt và tổng quát. Nó đo chi phí cực tiểu được yêu cầu để biến đổi một phân bố sang một phân bố khác dựa vào bài toán giao vận truyền thống từ tối ưu tuyến tính, theo đó các thuật toán hiệu quả là sẵn có. EMD đối sánh tương tự nhận thức tốt và có thể được áp dụng đối với các biểu diễn của các phân bố có độ dài thay đổi, vì thế nó thích hợp cho đo độ tương tự ảnh trong hệ thống RBIR.

Li và cộng sự đề xuất một lược đồ đối sánh vùng tích hợp (IRM) mà cho phép đối sánh một vùng của một ảnh với một số vùng của ảnh khác và do đó giảm sự ảnh hưởng của phân đoạn thiếu chính xác. Trong định nghĩa này, một đối sánh giữa hai vùng bất kỳ được gán với một điểm quan trọng. Điều này tạo ta một ma trận quan trọng giữa hai tập vùng (một tập là của ảnh truy vấn, tập còn lại là của ảnh mục tiêu). Độ tương tự toàn thể của hai ảnh được xác định dựa vào ma trận quan trọng trong một cách tương tự với EMD.

Dù độ đo Minkowski được sử dụng rộng rãi trong các hệ thống hiện nay để đo khoảng cách vùng, các thực nghiệm mở rộng chỉ ra rằng nó không hiệu quả trong mô hình độ tương tự nhận thức. Cách đo độ tương tự nhận thức vẫn là một câu hỏi lớn chưa có đáp án. Có một số nghiên cứu đã thực hiện trong nỗ nực để giải quyết vấn đề này. Chẳng hạn, trong [4], một hàm khoảng cách động một phần

12

(DPF) được xác định, nó giảm chiều của các véc tơ đặc trưng bằng việc chọn động một lượng nhỏ của các chiều. Cho𝛿𝑖 = |𝑥𝑖 − 𝑦𝑖|, 𝑖 = 1, . . 𝑝các tác giả xác định∆𝑚= {𝑚 𝑐á𝑐 𝛿 𝑛ℎỏ 𝑛ℎấ𝑡 𝑡𝑟𝑜𝑛𝑔 (𝛿1, … , 𝛿𝑝). Sau đó DPF được xác định bằng

1/𝑟 )

𝑟 𝑑(𝑚, 𝑟) = (∑ 𝛿𝑖

𝛿𝑖

(1.3)

Có hai tham số được điều chỉnh m và r. Các kết quả thực nghiệm ban đầu minh chứng rằng DPF có thể cung cấp các kết quả tra cứu chính xác hơn độ đo Minkowski. Tuy nhiên, giá trị m là phụ thuộc dữ liệu, điều này làm cho thuật toán không linh hoạt. Ngoài ra, để được sử dụng rộng rãi trong các hệ thống tra cứu ảnh, nghiên cứu xa hơn được yêu cầu để xác thực hiệu năng của nó trong các ứng dụng khác nhau.

Trong [9], một khoảng cách nhận thức cho độ đo tương tự hình dạng được trình bày. Mỗi hình dạng được đặc trưng với một tập các dấu hiệu. Một khoảng cách độ đo giữa các dấu hiệu được xác định đầu tiên sau đó một khoảng cách không độ đo được xác định bằng tập khoảng cách dấu hiệu để đo độ tương tự hình. Phương pháp có thể được mở rộng sang RBIR bằng việc coi các vùng ảnh như các dấu hiệu.

Vasconcelos và Lippman đã đề xuất một khoảng cách đa tạp đa phân giải (MRMD) cho nhận dạng khuôn mặt. Trong MRMD, hai ảnh được đối sánh được xem là đa tạp và khoảng cách giữa hai ảnh là một cực tiểu sai số của biến đổi một đa tạp sang một đa tạp khác. Để giảm tính toán, các ảnh được đưa vào phân tích đa phân giải. Đo khoảng cách là thích hợp cho các ứng dụng gióng hàng ảnh như nhận dạng khuôn mặt và phát hiện cảnh video.

Trong [3], đo độ tương tự giữa các loại đặc trưng ảnh khác nhau được xem như một quyết định đa mức xử lý. Các ảnh trong cơ sở dữ liệu được biểu diễn bởi một số các bộ mô tả kết cấu và màu MPEG-7, các bộ mô tả này được đưa sang một khuôn khổ hợp nhất quyết định phân cấp sử dụng logic mờ. Ưu điểm của độ đo tương tự này là các loại đặc trưng ảnh khác nhau có thể được kết hợp thành một đặc trưng tích hợp. Trong nghiên cứu sau đó, các tác giả đã mở rộng khuôn

13

khổ hợp nhất quyết định thành khuôn khổ học có giám sát với phản hồi liên quan từ người dùng [2].

1.2. Tra cứu ảnh sử dụng phản hồi liên quan

Tra cứu ảnh dựa vào nội dung đã thu hút nhiều sự quan tâm nghiên cứu và đã đạt được nhiều thành tựu, tuy nhiên, các nỗ lực nghiên cứu này vẫn chưa theo kịp sự phát triển của tra cứu thông tin (văn bản). Có hai lý do cho sự không hiệu quả của các hệ thống này là:

- Thứ nhất là: Khoảng trống giữa các đặc trưng mức thấp và các khái niệm mức cao (khoảng cách ngữ nghĩa). Vấn đề xuất phát từ thực tế là các đặc trưng như màu, kết cấu, và hình dạng không chuyển tải ý nghĩa của ảnh; do đó, nhiều độ đo tương tự trực quan được sử dụng trong quá trình tra cứu như các lược đồ màu hoặc các mô tả Fourier là chưa đủ bởi vì các biểu diễn đặc trưng này không nhất thiết phải phù hợp với ngữ nghĩa được gán cho ảnh nào đó của người dùng.

- Thứ 2 là: Sự nhận thức chủ quan của con người: hai người khác nhau hoặc thậm chí cùng một người trong các hoàn cảnh khác nhau có thể có các giải thích khác nhau về cùng nội dung trực quan ảnh. Sự nhận thức chủ quan của con người tồn tại ở các mức khác nhau: một người có thể quan tâm nhiều hơn đến đặc trưng màu của ảnh, trong khi người khác có thể đưa ra nhiều sự liên quan đến đặc trưng kết cấu; thậm chí nếu cả hai cùng quan tâm đến đặc trưng kết cấu, cách họ cảm nhận về độ tương tự của kết cấu có thể rất khác nhau.

Để giải quyết các hạn chế của CBIR, một kỹ thuật được gọi là phản hồi liên quan được giới thiệu, trong đó người và máy tính tương tác nhiều lần với nhau để cải tiến các truy vấn mức cao đối với các biểu diễn dựa trên các đặc trưng ảnh mức thấp. Kỹ thuật đã được áp dụng thành công tương đối lâu trong tra cứu tài liệu, nhưng mới được quan tâm nhiều trong cộng đồng CBIR. Những lý do cho điều này là do các vấn đề nhận thức chủ quan của con người, khoảng cách ngữ nghĩa, và cũng do thực tế không giống như các tài liệu văn bản, đánh giá một ảnh và quyết định một ảnh là liên quan hay không cũng không phải là gánh nặng đối với người dùng. Điều này tạo cho quá trình phản hồi liên quan hợp lý và nhanh hơn. Tuy nhiên, thực tế chủ yếu góp phần làm cho phản hồi liên quan là chủ đề

14

nghiên cứu tích cực nhất trong CBIR là do độ chính xác của các máy tìm kiếm CBIR nói chung rất thấp.

Phản hồi liên quan trong CBIR là quá trình điều chỉnh động một truy vấn đã có sử dụng thông tin phản hồi từ người dùng về sự liên quan của các ảnh được tra cứu từ trước sao cho truy vấn được điều chỉnh xấp xỉ tốt nhất đối với nhu cầu của người dùng. Mục tiêu của một quá trình như thế là thu được truy vấn mức cao của người dùng và nhận thức chủ quan bằng việc tương tác với anh/chị ấy và điều chỉnh tự động các trọng số dựa trên phản hồi được cung cấp. Một ngữ cảnh trong hệ thống phản hồi liên quan (Relevance Feedback - RF) là:

Bước 1: Người dùng đưa ra một ảnh mẫu truy vấn và/hoặc từ khóa mô tả đối

đối với hệ thống.

Bước 2: Hệ thống cung cấp các kết quả tra cứu khởi tạo dựa trên các độ đo

tương tự nào đó đã được xác định trước.

Bước 3: Người dùng đánh dấu các ảnh được tra cứu bằng việc đánh giá chúng

có liên quan đến truy vấn hay không.

Bước 4: Dựa trên thông tin phản hồi bởi người dùng, hệ thống điều chỉnh truy vấn và tra cứu một danh sách mới các ảnh cho người dùng. Thuật toán lặp lại Bước 3.

Hình 1.4 chỉ ra một lược đồ đơn giản của một hệ thống CBIR với RF.

15

Lặp phản hồi Truy vấn người dùng khởi tạo (ảnh mẫu hoặc từ khóa)

Các kết quả tra cứu

Phản hồi người dùng

Cơ sở dữ liệu ảnh Các mẫu được gán nhãn (các ảnh liên quan hay không)

Học (điều chỉnh các tham số truy vấn)

Các kết quả tra cứu cuối cùng

Hình 1.4. Lược đồ của một hệ thống CBIR với RF.

1.3. Vấn đề phân cụm.

Khái niệm phân cụm

Phân cụm (clustering/cluster analysic) là quá trình phân chia tập đối tượng dữ liệu thành các cụm (cluster), sao cho các đối tượng trong cùng một cụm là tương tự với nhau, các đối tượng trong các cụm khác nhau thì không tương tự với nhau. Khác với phân lớp là học có giám sát (học từ tập ví dụ gắn nhãn), phân cụm là một vấn đề của học không giám sát (học từ tập ví dụ không gắn nhãn).

Phân cụm vốn dĩ là một hoạt động quan trọng trong tư duy nhận thức của con người. Từ lâu phân cụm đã được thực hiện trong nhiều ngành khoa học như sinh học, y học, địa lý, tâm lý học... Hiện nay phân cụm được ứng dụng trong nhiều lĩnh vực như: khai khoáng dữ liệu (data mining), tra cứu thông tin (information retrieval), nhận dạng mẫu (pettern recognition), xử lý hình ảnh (image processing), thị giác máy tính (computer vision), marketing...

16

Hình 1.5 biểu diễn ba tập dữ liệu trong không gian 2 chiều. Hầu hết ai quan sát cũng cho rằng, tập dữ liệu hình 1.5a có 3 cụm, hình 1.5b có 2 cụm, hình 1.5c có 2 cụm, được chỉ ra (bằng khoanh vùng) trong các hình 1.5a, 1.5b và 1.5c tương ứng. Trong hình 1.5c, các điểm nằm ngoài 2 vùng được khoanh không thuộc cụm nào cả, chúng được xem như các dữ liệu nhiễu (ngoại lai). Thế nhưng nếu hỏi, lý do nào bạn cho rằng các tập dữ liệu đó có các cụm như thế, có lẽ chúng ta sẽ rất lúng túng đưa ra câu trả lời. Sẽ không có một định nghĩa chính xác (về mặt toán học) về cụm thích hợp cho cả ba tập dữ liệu hình 1.5, để dựa vào định nghĩa đó chúng ta xác định được các cụm như đã được chỉ ra.

(a) (b) (c)

Hình 1.5. Các tập dữ liệu và các cụm

Chúng ta sẽ hiểu rõ hơn về khái niệm cụm, nếu chúng ta mô tả cụm bởi hai đặc trưng: sự gắn kết bên trong (cohesion/compactness) giữa các đối tượng trong cùng một cụm, và sự cô lập bên ngoài hay sự tách biệt (separation) giữa các cụm. Theo hai đặc trưng này, với việc xác định ý nghĩa cụ thể cho sự gắn kết bên trong một cụm và sự tách biệt giữa các cụm, chúng ta có thể đưa ra một mô tả chính xác hơn về cụm. Có nhiều cách xác định sự gắn kết giữa các đối tượng trong cùng một cụm, và sự tách biệt giữa các cụm, và do đó có nhiều cách quan niệm về cụm.

17

Với một tập dữ liệu đã cho, chúng ta không biết trước cấu trúc của tập dữ liệu đó (mục tiêu của phân cụm chính là để phát hiện ra cấu trúc của tập dữ liệu), chúng ta không biết tập đó có cụm hay không? có mấy cụm? sự gắn kết nào tạo ra cụm? làm thế nào để tìm ra các cụm vốn có của tập dữ liệu đó? Đã có rất nhiều thuật toán phân cụm được đề xuất. Nhiều thuật toán phân cụm đòi hỏi số cụm là đã biết, tức là số cụm là tham biến của thuật toán. Có thuật toán lại cần các tham biến khác. Có tập dữ liệu chứa các cụm hình cầu, hình elipsoid hoặc là tập lồi; nhưng cũng có tập chứa các cụm như các đám mây hình dáng đa dạng, và “độ đậm đặc” của các đám mây cũng khác nhau, làm thế nào tìm ra các cụm như thế? Trong thực tế, tập dữ liệu có thể chứa một số rất lớn dữ liệu, có thể là tập điểm trong không gian chiều cao; đòi hỏi thuật toán phải hiệu quả kể cả trong các trường hợp đó. Có thể nói phân cụm là một vấn đề thách thức!

Sau đây chúng ta đưa ra một số định nghĩa và ký hiệu cần thiết. Mỗi đối tượng biểu diễn bởi một vector đặc trưng M thành phần X = (x1,…,xM), trong đó xi là giá trị của đặc trưng thứ i, các xi có thể là số thực hoặc rời rạc. Chúng ta sẽ giả sử tập dữ liệu gồm N dữ liệu:

D = {x1,…,xn,…,xN}, trong đó Xn= (xn1,…,xnM)

Một (cách) phân cụm của D là một họ C các tập con không rỗng Ck của D: C={C1,…,Ck,...,CK}. Trong đó, K là số cụm (1

= 1 , với mọi n 0≤ukn≤1 và

18

Độ đo tương tự trong phân cụm

Khi chúng ta được cho tập dữ liệu, nếu định phân cụm tập dữ liệu đó, chúng ta cần khai thác các thông tin từ tập dữ liệu đó. Một chỉ số có thể rút ra từ tập dữ liệu đó và đóng vai trò quan trọng cho sự phân cụm là độ đo tương tự. Trong mục này ta sẽ đưa ra cách xác định độ đo tương tự giữa hai đối tượng dữ liệu Xi và Xj, hay ngắn gọn, độ đo tương tự giữa hai đối tượng i và j. Đối lập với độ đo tương tự (similarity) là độ đo không tương tự (dissimilarity). Ký hiệu s(i,j) và dis(i,j) là độ đo tương tự và không tương tự giữa hai đối tượng i và j tương ứng. Độ đo tương tự (không tương tự) cần phải là một số không âm và đối xứng, tức là s(i,j) = s(j,i) (dis(i,j) = dis(j,i)). Độ đo tương tự (không tương tự) giữa hai đối tượng càng lớn thì chúng được xem là càng tương tự (càng không tương tự) với nhau. Giả thiết mỗi dữ liệu là một vector gồm M thành phần X = (x1,…,xM), thành phần xi là giá trị của thuộc tính thứ i của đối tượng, một thuộc tính có thể là biến liên tục (nhận các giá trị thực), chẳng hạn thuộc tính chiều cao, cân nặng; có thể là biến rời rạc (chỉ nhận một số hữu hạn giá trị), chẳng hạn thuộc tính màu sắc của đối tượng; trường hợp riêng của biến rời rạc là biến nhị phân (chỉ nhận một trong hai giá trị), chẳng hạn các thuộc tính giới tính, có bệnh, hút thuốc. Dữ liệu nhị phân (rời rạc, liên tục) được hiểu là dữ liệu mà tất cả các thành phần của nó đều là các giá trị nhị phân (rời rạc, liên tục).

Một số phương pháp phân cụm

Cho đến nay, các nhà nghiên cứu đã đề xuất một số đối tượng lớn các thuật toán phân cụm. Mục này sẽ trình bày một số thuật toán phân cụm quan trọng nhất từ cổ điển đến hiện đại. Các thuật toán được sắp xếp thành các nhóm theo phương pháp phân cụm: phân cụm phân hoạch (partitioning clustering/optimization clustering), phân cụm phân cấp (hierarchical clustering), phân cụm dựa vào mật độ (density-based clustering), phân cụm dựa vào mô hình (model-based clustering), và phân cụm dựa vào đồ thị (graph-based clustering). Không như trong phân lớp, việc đánh giá tính xác thực (valiadation) của phân cụm là phức tạp hơn nhiều.

19

1.3.1. Thuật toán K-Means.

Thuật

toán phân cụm K-Means ra đời cách đây hơn 40 năm (MacQueen,1967), nhưng vẫn còn là một trong các thuật toán phân cụm quan trọng nhất, được sử dụng rộng rãi trong nhiều lĩnh vực. Ý tưởng của K-Means là tìm phân hoạch cho cực tiểu hàm tiêu chuẩn (1.27) bằng kỹ thuật lặp như sau:

xuất phát từ các tâm (k=1,…, K) được khởi tạo ban đầu, ta thực hiện phép lặp:

nhất, sau đó tính gán mỗi dữ liệu Xn (n=1,…,N) vào cụm Ck mà Xn gần tâm

lại tâm của các cụm Ck theo công thức (1.26).

Thuật toán K-Means

 Khởi tạo các tâm cụm (k=1,…K);

 Lặp lại các bước sau cho tới khi các tâm cụm không thay đổi

1. Gán mỗi dữ liệu Xn (n=1,…, N) vào cụm Ck mà Xn gần tâm

nhất;

2. Tính lại tâm (k=1,…, K) của các cụm Ck thu được từ bước 1;

nhiên. Tâm Thuật toán lặp trên cho ra phân hoạch C là cực tiểu địa phương của hàm tiêu chuẩn (1.27). Chứng minh điều đó bằng cách chỉ ra rằng, cả hai bước lặp đều làm giảm giá trị hàm tiêu chuẩn. Đối với bước 1, hàm mục tiêu (1.27) giảm là hiển của cụm Ck được tính theo công thức (1.26) trong bước 2 chính là

giá trị mà tại đó nhỏ nhất, và vì vậy bước 2 cũng làm giảm giá trị hàm

tiêu chuẩn. Độ phức tạp tính toán của thuật toán này là O(TKN), trong đó N là số dữ liệu, K là số cụm, T là số lần lặp. Trong thực tế, số lần lặp T nói chung nhỏ hơn số dữ liệu N.

Kết quả chạy K-Means phụ thuộc vào các tâm được khởi tạo ban đầu.

Đơn giản nhất, ta chọn (k=1,…, K) là K điểm khác nhau được lấy ngẫu nhiên

trong tập dữ liệu D.

Thuật toán K-Means thích hợp với các tập dữ liệu có các cụm dạng “hình cầu” và tách biệt tốt, chẳng hạn tập dữ liệu trong hình 1.5a. Khi mà các cụm có dạng “không hình cầu”, chẳng hạn 2 cụm trong hình 1.6a, hình 1.6b, hoặc mật độ

20

trong các cụm rất khác nhau hoặc số dữ liệu trong các cụm rất khác nhau, trong các hoàn cảnh đó, K-Means có thể cho ra phân cụm không sát thực tế. Thuật toán K-Means cũng nhạy cảm với dữ liệu ngoại lai.

Nhược điểm chính của K-Means và của các thuật toán phân cụm tối ưu khác là cần phải biết trước số cụm K. Thuật toán K-Means cũng rất nhạy cảm với các tâm cụm khởi tạo. Mặc dù có các hạn chế đó, nhưng K-Means là thuật toán rất đơn giản, rất hiệu quả trong thực tế, và vì vậy K-Means vẫn là một trong các thuật toán phân cụm quan trọng nhất.

(a) (b)

Hình 1.6. Các tập dữ liệu không thích hợp với K-Means.

1.3.2. Phân cụm phân cấp

Các phương pháp phân cụm tối ưu (phân cụm phân hoạch) cho ra phân cụm là một phân hoạch tối ưu theo một hàm tiêu chuẩn nào đó. Tuy nhiên, trong nhiều hoàn cảnh, một cụm lại chứa các cụm con, các cụm con này lại chứa các cụm con nhỏ hơn,… Điều đó dẫn đến cách tiếp cận phân cụm như sau. Quá trình phân cụm tạo thành một dãy các mức. Đầu tiên (mức 1), mỗi điểm dữ liệu tạo thành một cụm, và do đó ở mức 1 có N cụm (tập dữ liệu D có N điểm). Ở mức 2, ta chọn hai cụm ở mức 1 gộp lại thành một cụm, và do đó mức 2 có N – 1 cụm. Cứ thế tiếp tục, chọn hai cụm ở mức k – 1 gộp lại để tạo thành một cụm ở mức k. Số cụm ở mức k là N – k + 1. Cuối cùng ở mức N, toàn bộ tập dữ liệu ở trong một cụm. Quá

21

trình trên có thể biểu diễn dưới dạng cây như trong hình 1.7a, hoặc dưới dạng biểu đồ Venn như trong hình 1.7b. Quá trình phân cụm trên được gọi là phân cụm phân cấp gộp (agglomerative hierarchical cluster), đó là thủ tục bottom-up. Đối lập với phân cụm phân cấp gộp là phân cụm phân cấp chia (divisive hierarchical clustering). Đó là thủ tục top-down. Đầu tiên (ở mức 1), toàn bộ tập dữ liệu thuộc cùng một cụm. Sau đó ở các mức tiếp theo ta chọn một cụm và chẻ nó ra thành hai cụm. Cuối cùng ở mức N, ta thu được N cụm, mỗi cụm chứa đúng một dữ liệu, như được chỉ ra hình 1.7a.

(a) (b)

Hình 1.7 Phân cụm phân cấp tập dữ liệu D={a,b,c,d,e}

Phần lớn các thuật toán phân cụm phân cấp thuộc phạm trù phân cụm phân cấp gộp. Mục này sẽ trình bày một vài thuật toán đó. Trước hết ta cần trả lời được câu hỏi, ở mỗi bước làm thế nào chọn ra được hai cụm để gộp chúng thành một cụm? Chúng ta sẽ xác định khoảng cách giữa hai cụm. Khi đã lựa chọn một khoảng cách, thì hai cụm được chọn là hai cụm gần nhau nhất theo khoảng cách đã chọn.

Khoảng cách giữa hai cụm. Giả sử Ckvà Cl là hai cụm, và dis(X, X’) là độ đo không tương tự giữa hai điểm X và X’. Sau đây là một số độ đo khoảng cách thông dụng nhất.

Dmin (Ck, Cl) = (1.4)

Dmax (Ck, Cl) = (1.5)

22

(1.6) Davg (Ck, Cl) =

Trong đó Nk , Nl là số điểm dữ liệu của cụm Ck, Cl tương ứng. Với các dữ

liệu liên tục, còn có thể sử dụng khoảng cách sau:

(1.7) Dmin (Ck, Cl) =

Trong đó, mk và mllà tâm của cụm Ck và Cltương ứng.

1.3.3. Phân cụm dựa vào mật độ

Phương pháp phân cụm dựa vào mật độ (density-based clustering) xuất phát từ quan niệm các cụm như là các vùng mật độ cao được tách bởi các vùng mật độ thấp. Phân cụm dựa vào mật độ cho phép ta tìm ra các cụm có hình dạng bất kỳ trong tập dữ liệu chiều cao và có chứa các điểm dữ liệu nhiễu (ngoại lai). Các thuật toán phân cụm dựa vào mật độ đều có chung ý tưởng là, phát triển các vùng mật độ cao để nhận được các cụm. Các thuật toán đó chứa đựng hai điểm chính: Đánh giá mật độ của các điểm để tìm các điểm mật độ cao, và xác định sự kết nối bởi mật độ giữa các điểm để tạo thành các cụm. Đánh giá mật độ được thực hiện dựa vào hai cách tiếp cận: láng giềng gần nhất và đánh giá mật độ nhân. Sau đây chúng ta trình bày hai thuật toán quan trọng trong số nhiều thuật toán phân cụm dựa vào mật độ đã được đề xuất: DBSCAN và MEAN-SHIFT. Thuật toán DBSCAN sử dụng cách đánh giá mật độ láng giềng gần nhất, còn MEAN-SHIFT sử dụng cách đánh giá mật độ nhân.

1.3.4. Phân cụm dựa vào mô hình

Phân cụm dựa vào mô hình (model-base clustering)xuất phát từ ý tưởng cho rằng, mỗi cụm dữ liệu được sinh ra bởi một phân phối xác suất nào đó. Ta giả sử tập dữ liệu D = {X1,…,XN} có K cụm: c1,…,cK, chúng ta xem rằng, cụm thứ k (k = 1,…,K) được sinh ra bởi hàm mật độ xác suất pK(X/𝜃𝐾), trong đó 𝜃𝐾 là véctơ tham biến của phân phối, và toàn bộ tập dữ liệu D được sinh ra bởi hàm mật độ

𝐾 𝐾=1

(1.8) 𝑝(𝑋) = ∑ 𝜋𝐾𝑝𝐾 (𝑋 ⁄ ) 𝜃𝐾

23

𝐾 𝐾=1

Trong đó, 𝜋𝐾 là các hệ số sao cho 𝜋𝐾 ≥ 0 và ∑ 𝜋𝐾

𝐾

= 1. Hàm mật độ (1.53) được gọi là mật độ hỗn hợp (finite mixture density). Có thể xem mật độ hỗn hợp như mô hình biến ẩn. Ta đưa vào các biến ẩn z nhận K giá trị là các nhãn cụm c1,…,cK, nó nhận giá trị cK nếu dữ liệu thuộc cụm cK. Khi đó, mật độ sinh ra tập dữ liệu có thể biểu diễn thành:

𝐾=1

(1.9) 𝑝(𝑋) = ∑ 𝑃(𝑧 = 𝑐𝐾)𝑝(𝑋 𝑧⁄ = 𝑐𝐾) = ∑ 𝑃(𝑐𝐾)𝑝(𝑋 𝑐𝐾⁄ )

còn 𝑝𝐾(𝑋 Như vậy, 𝜋𝐾 = P(cK) = P(z = cK) là xác suất để một dữ liệu thuộc cụm cK; 𝑧⁄ = 𝑐𝐾) là phân phối xác suất của các dữ liệu 𝑐𝐾⁄ )= 𝑝(𝑋 ⁄ )= 𝑝(𝑋 𝜃𝐾

thuộc cụm cK, ta gọi là phân phối thành phần thứ k của phân phối hỗn hợp. Nếu chúng ta biết mật độ hỗn hợp sinh ra tập dữ liệu, thì từ công thức Bayes ta có:

𝐾 𝐾=1

𝜋𝐾𝑝𝐾(𝑋 (1.10) 𝑐𝐾 𝑃( 𝑋⁄ ) = ∑ ⁄ ) 𝜃𝐾 𝜋𝐾𝑝𝐾(𝑋 ⁄ ) 𝜃𝐾

Đây là xác suất để dữ liệu X thuộc cụm cK. Ta đặt

𝑐𝐾 (1.11) 𝑝𝑘𝑛 = 𝑃 ( ⁄ ) (𝐾 = 1, … , 𝐾; 𝑛 = 1, … , 𝑁) 𝑋𝑛

Bởi vì pkn là xác suất để dữ liệu Xnthuộc cụm cK, do đó {pkn} xác định một

phân cụm mềm của tập dữ liệu D.

Khi các phân phối thành phần là phân phối Gaus, ta có mô hình hỗn hợp Gaus. Giả sử phân phối thành phần thứ k là phân phối Gaus với kỳ vọng 𝜇𝑘 và ma trận covariance Σ𝑘: N(X/𝜇𝑘, Σ𝑘), khi đó phân phối hỗn hợp Gaus có dạng:

𝐾 𝐾=1

𝑝(𝑋 𝜃⁄ ) = ∑ 𝜋𝐾 𝑁(𝑋 𝜇𝑘,⁄ Σ𝑘) (1.12)

Trong đó, 𝜃 = (𝜋, 𝜇, Σ) với 𝜋 = (𝜋1, … , 𝜋𝑘); 𝜇 =

(𝜇1, … , 𝜇𝐾); Σ = (Σ1, … , Σ𝐾) là tham biến của phân phối. Phân phối hỗn hợp Gaus được phổ biến rộng rãi nhất cho mục đích phân cụm dữ liệu. Khi đã lựa chọn hỗn

hợp Gaus, chúng ta cần đánh giá vectơ tham biến 𝜃 = (𝜋, 𝜇, Σ) từ tập dữ liệu. Có

24

nhiều cách tiếp cận để đánh giá các tham biến của hỗn hợp Gaus, phổ biến nhất vẫn là thuật toán EM.

Thuật toán EM cho phân cụm Inputs:Tập dữ liệu D = {X1,…,XN}; số cụm K; Outputs: phân cụm mềm {pkn/K = 1,…,K; n = 1,…,N}  Khởi tạo các tham biến

𝜋 = (𝜋1, … , 𝜋𝑘); 𝜇 = (𝜇1, … , 𝜇𝐾); Σ = (Σ1, … , Σ𝐾);

 (Bước lặp) thực hiện hai bước sau cho tới khi hội tụ:

Bước E:

∑

𝜋𝐾

Σ𝑘)

𝜋𝐾𝑁(𝑋 𝜇𝑘, Σ𝑘) ⁄ 𝐾 ⁄ 𝐾=1 𝑁(𝑋 𝜇𝑘,

(1.13) 𝑝𝑘𝑛 ← 𝑃(𝑐𝐾 𝑋⁄ , 𝜃) =

(𝑘 = 1, … , 𝐾; 𝑛 = 1, … , 𝑁)

Bước M:

𝑁 𝑛=1

(1.14) 𝑁𝐾 ← ∑ 𝑝𝑘𝑛

𝑁𝑘 𝑁

∑

𝑋𝑛

𝑁 𝑛=1

(1.15) (𝐾 = 1, … , 𝐾) 𝜋𝑘 ←

𝑝𝑘𝑛 𝑁𝑘

(1.16) (𝐾 = 1, … , 𝐾) 𝜇𝑘 ←

𝑁 𝑛=1

1 𝑁𝑘

∑ (1.17) Σ𝑘 ← 𝑝𝑘𝑛 (𝑋𝑛 − 𝜇𝑘)′(𝑋𝑛 − 𝜇𝑘)

(𝑘 = 1, … , 𝐾)

Trong phân cụm dựa vào mô hình hỗn hợp Gaus, hình dạng và kích cỡ của

các cụm phụ thuộc vào ma trận convariance Σ𝑘.

Cũng như K-Means, nhượcđiểm lớn nhất của phân cụm dựa vào mô hình hỗn hợp Gaus là ta cần biết trước số cụm K, và kết quả phụ thuộc vào việc khởi tạo các tham biến ban đầu. Tuy nhiên, với phân cụm dựa vào mô hình hỗn hợp Gaus thì việc lựa chọn số cụm K có thể quy về việc lựa chọn mô hình, và cụ thể là sử dụng tiêu chuẩn thông tin Bayes BIC, ta sẽ chọn K cho BIC lớn nhất. Cũng cần lưu ý rằng, ngoài mô hình hỗn hợp Gaus, một số mô hình hỗn hợp khác đã được đề xuất.

25

1.3.5. Phân cụm dựa vào đồ thị

Đã có nhiều công trình lý thuyết và nhiều thuật toán phân cụm theo phương

pháp phân cụm dựa vào đồ thị (graph-based clustering).

Phương pháp luận phân cụm dựa vào đồ thị:

Giả sử chúng ta cần phân cụm tập dữ liệu D = {X1,…,XN}. Từ tập dữ liệu này, chúng ta xây dựng ma trận tương tự S = (sij), ma trận vuông cấp N, trong đó sij là độ đo tương tự giữa Xi và Xj. Đồ thị là mô hình toán học rất thích hợp để biểu diễn tập dữ liệu D. Chúng ta sẽ biểu diễn tập dữ liệu D bởi đồ thị vô hướng có trọng số G = (V, E, W), trong đó V là tập đỉnh của đồ thị, mỗi đỉnh biểu diễn một dữ liệu, V = {1,…,N}, đỉnh n (n = 1,…,N) biểu diễn dữ liệu Xn, tập các cạnh của đồ thị là E, mỗi cạnh (i,j) ∈ E có trọng số là wij, trọng số này là độ đo tương tự sij, và W là ma trận các trọng số wij đó. Đồ thị G đó được gọi là đồ thị tương tự.

1.4. Tiểu kết chương 1.

Trong chương này, luận văn đã trình bày nghiên cứu tổng quan về các phương pháp tra cứu ảnh dựa vào nội dung đã được nghiên cứu và công bố trong các công trình khác nhau trong nước và trên thế giới bao gồm phân đoạn ảnh, trích rút đặc trưng, độ đo tương tự …

Chương 1 cũng tập trung vào nghiên cứu tra cứu ảnh sử dụng phản hồi liên quan và vấn đề phân cụm, trên cơ sở đó làm tiền đề cho các đề xuất được đề cập đến trong chương 2 của luận văn với hy vọng nâng cao chất lượng tra cứu ảnh dựa vào nội dung.

26

CHƯƠNG 2: PHƯƠNG PHÁP TRA CỨU ẢNH VỚI PHẢN HỒI LIÊN

QUAN SỬ DỤNG PHÂN CỤM GIA TĂNG

2.1. Tra cứu ảnh với ngữ nghĩa mức cao

2.1.1. Giới thiệu về tra cứu ảnh với ngữ nghĩa mức cao

Thông tin trực quan đã trở thành một yếu tố quan trọng trong tất cả khía

cạnh của xã hội. Dữ liệu trực quan lớn thu hút nhiều nhà nghiên cứu tập trung

vào các vấn đè làm thế nào lưu trữ, truy cập, biểu diễn, mô tả, tra cứu nội dung

của nó thật hiệu quả. Nghiên cứu trong tra cứu ảnh dựa vào ngữ nghĩa có liên

quan tới các chủ đề như tri thức và hành vi của con người, đánh chỉ số và tra cứu

trên dữ liệu phân tán, đánh chỉ số và tra cứu trên dữ liệu lớn, khai phá thông tin

dựa vào đánh chỉ số, phương pháp tiếp cận máy học, giải thích ngữ nghĩa mức

cao, tương tác giữa người và máy, nhận dạng đối tượng, phản hồi liên quan, mô

hình ngữ nghĩa cho tra cứu, biểu diễn và mô tả ngữ nghĩa. Khoảng cách ngữ

nghĩa giữa ngữ nghĩa thật và cảm quan nhận thức thu hút được nhiều nhà nghiên

cứu..

Khoảng cách ngữ nghĩa định nghĩa theo Smeulders như sau: “Khoảng cách

ngữ nghĩa là sự không tương đồng giữa thông tin ản được trích rút ra từ dữ liệu

trực quan so với diễn giải về dữ liệu ảnh đó bởi người dùng trong tình huống cụ

thể”. Tra cứu ảnh ngữ nghĩa cố gắng trích rút khái niệm nhận thức của người dùng

bằng cách kết hợp các đặc trưng trực quan mức thấp theo một cách nào đó.

Tìm kiếm ảnh liên quan ngữ nghĩa trong các hệ thống tra cứu ảnh dựa vào

nội dung đề cập đến việc tìm kiếm các ảnh mà theo suy nghĩ của người dùng là

có liên quan với nhau về mặt ngữ nghĩa chẳng hạn như các ảnh hoa hồng có màu

vàng và màu đỏ là có liên quan ngữ nghĩa với nhau. Sự phát triển tích cực của các

phương pháp tra cứu ảnh ngữ nghĩa được thực hiện nhằm rút ngắn khoảng cách

ngữ nghĩa giữa đặc trưng trực quan mức thấp và mô tả ngữ nghĩa mức cao.

27

Các kỹ thuật trong việc rút ngắn “khoảng cách ngữ nghĩa” gồm có 5 loại

chính: (1) sử dụng bản thể đối tượng để xác định các khái niệm mức cao, (2) sử

dụng các công cụ học máy để kết hợp các đặc trưng mức thấp với các khái niệm

truy vấn, (3) đưa phản hồi liên quan vào lặp tra cứu cho học ý định của người

dùng, (4) sinh ra mẫu ngữ nghĩa để hỗ trợ tra cứu ảnh mức cao, (5) Cách sử dụng

cả nội dung trực quan của các ảnh và thông tin văn bản thu được từ Web cho tra

cứu ảnh trên Web.

2.1.2. Khoảng cách ngữ nghĩa

Thuật ngữ “khoảng trống ngữ nghĩa” được dùng để miêu tả sự khác nhau

giữa hai mức miêu tả của một ảnh. Mức miêu tả đầu trong CBIR sử dụng các

vector đặc trưng miêu tả đặc trưng mức thấp của ảnh (mầu sắc, kết cấu, hình

dạng,…). Mức miêu tả thứ hai được thực hiện bởi con người sử dụng các khái

niệm ngữ nghĩa mức cao khi tra cứu ảnh.

Các kỹ thuật hiện đại để giảm khoảng cách ngữ nghĩa có thể phân loại theo

nhiều cách khác nhau. Ví dụ, xem xét các ứng dụng, các kỹ thuật có thể phân chia

thành các nhóm: tra cứu tác phẩm nghệ thuật, tra cứu hình ảnh phong cảnh , tra

cứu ảnh web…Luận văn tập trung vào các kỹ thuật được sử dụng để lấy được ngữ

nghĩa mức cao và chia thành 5 loại sau:

(1) sử dụng bản thể đối tượng để định nghĩa khái niệm ngữ nghĩa

(2) sử dụng phương pháp học có giám sát hoặc không giám sát để liên kết

các đặc trưng mức thấp với khái niệm truy vấn.

(3) Đưa RF vào vòng lặp để học nhu cầu của người dùng

(4) Sinh ra ST để hỗ trợ tra cứu ngữ nghĩa mức cao

(5) Sử dụng cả thông tin thu được từ Web và nội dung trực quan của ảnh đối

với tra cứu ảnh Web.

28

Rất nhiều hệ thống khai thác một hoặc nhiều kỹ thuật để thực hiện tra cứu

ảnh dựa vào ngữ nghĩa mức cao. Ví dụ, (3) thường được kết hợp với (1), (2) hoặc

(5), hoặc (5) thường được kết hợp với bốn kỹ thuật khác.

2.1.3. Phản hồi liên quan

Phản hồi liên quan là một quá trình trực tuyến mà cố gắng học mục đích của

người dùng trong quá trình và là một công cụ mạnh được sử dụng truyền thống

trong các hệ thống tra cứu thông tin. Nó được giới thiệu đối với CBIR khoảng đầu

những năm 1990, với mục đích mang người dùng vào lặp tra cứu để giảm khoảng

cách ngữ nghĩa giữa những gì mà truy vấn biểu diễn và những gì người dùng nghĩ.

Bằng việc tiếp tục học thông qua tương tác với các người dùng cuối, phản hồi liên

quan đã được chỉ ra là cung cấp cải tiến hiệu năng đáng kể trong các hệ thống

CBIR.

Thực hiện phản hồi liên quan đề cập đến việc tính toán một hoặc nhiều điểm

truy vấn mới trong không gian đặc trưng và thay đổi hàm khoảng cách.

Hình 2.1. Dịch chuyển điểm truy vấn.

29

Hình 2.2. Hình dạng lồi (đa điểm).

Hình 2.3. Hình dạng lõm (đa điểm).

30

2.2. Tra cứu ảnh với phản hồi liên quan

Một viễn cảnh tiêu biểu cho RF trong CBIR là như sau:

(1) Hệ thống cung cấp các kết quả tra cứu khởi tạo thông qua truy vấn bởi

mẫu, phác thảo,…

(2) Người dùng đánh giá các kết quả trên là có liên quan đến ảnh truy vấn

hay không và độ liên quan là bao nhiêu.

(3) Thuật toán học máy được áp dụng để học phản hồi của người dùng. Sau

đó quay về bước (2).

(2)-(3) được lặp cho đến khi người dùng thỏa mãn với các kết quả. Hình 1

Lặp phản hồi

Truy vấn người dùng khởi tạo (ảnh mẫu hoặc từ khóa)

Các kết quả tra cứu

Phản hồi

người dùng

Cơ sở dữ liệu ảnh

Các mẫu được gán nhãn (các ảnh liên quan hay không)

Học (điều chỉnh các tham số truy vấn)

Các kết quả tra cứu cuối cùng

chỉ ra một lược đồ đơn giản của một hệ thống CBIR với phản hồi liên quan.

Hình 2.4. Tra cứu ảnh dựa vào nội dung với phản hồi liên quan.

31

2.3. Kỹ thuật phân tích phân biệt tuyến tính (LDA-Linear Discriminant Analysis)

2.3.1. Định nghĩa về LDA

Mục tiêu của kỹ thuật LDA là chiếu ma trận dữ liệu gốc lên không gian chiều thấp hơn. Để đạt được mục tiêu này, ba bước cần được thực hiện. Bước đầu tiên là tính sự tách biệt giữa các lớp (tức khoảng cách giữa các kỳ vọng của các lớp khác nhau), được gọi là “phương sai between-class” hoặc “ma trận between- class”. Bước thứ hai là tính khoảng cách giữa kỳ vọng và các mẫu của mỗi lớp, được gọi là “phương sai within-class” hoặc “ma trận within-class”. Bước ba là xây dựng không gian chiều thấp mà cực đại “phương sai between-class” và cực tiểu “phương sai within-class”. Tiếp theo, luận văn giải thích ba bước này một cách chi tiết và sau đó mô tả đầy đủ thuật toán LDA. Hình 1 và 2 được sử dụng để trực quan các bước của kỹ thuật LDA.

2.3.2 Tính toán phương sai between-class (𝑺𝑩)

3 𝑖=1

. Phương sai between-class của lớp thứ i (𝑆𝐵𝑖) biểu diễn khoảng cách giữa kỳ vọng của lớp thứ i (𝜇𝑖) và kỳ vọng trung bình (𝜇). Kỹ thuật LDA tìm một không gian chiều thấp, được sử dụng để cực đại hóa phương sai between-class, hoặc cực đại khoảng cách tách biệt giữa các lớp. Để giải thích phương sai between-class hoặc ma trận between-class (𝑆𝐵) có thể được tính như thế nào, các giải thiết sau đây được đưa ra. Ma trận dữ liệu gốc 𝑋 = {𝑥1, 𝑥2, … 𝑥𝑁}, ở đây 𝑥𝑖 biểu diễn mẫu thứ i hoặc quan sát và N là tổng số các mẫu. Mỗi mẫu được biểu diễn bởi M đặc trưng (𝑥𝑖 ∈ 𝑅𝑀). Nói cách khác, mỗi mẫu được biểu diễn bằng một điểm trong không gian M chiều. Giả sử ma trận dữ liệu được phân hoạch thành c=3 lớp như sau, 𝑋 = (𝜔1, 𝜔2, 𝜔3) như hình 2.5 bước A dưới đây. Mỗi lớp có 5 mẫu (tức 𝑛1 = 𝑛2 = 𝑛3 = 5), ở đây 𝑛𝑖 biểu diễn số các mẫu của lớp thứ i. Tổng số mẫu (N) được tính như sau: 𝑁 = ∑ 𝑛𝑖

Để tính phương sai between-class (𝑆𝐵), khoảng cách tách biệt giữa các lớp

khác nhau, được biểu thị bởi (𝑚𝑖 − 𝑚) sẽ được tính như sau:

(𝑚𝑖 − 𝑚)2 = (𝑊𝑇𝜇𝑖 − 𝑊𝑇𝜇)2 = 𝑊𝑇(𝜇𝑖 − 𝜇)(𝜇𝑖 − 𝜇)𝑇𝑊 (1)

32

Hình 2.5. Các bước được trực quan hóa để tính một không gian con chiều thấp hơn của kỹ thuật LDA.

Ở đây 𝑚𝑖 biểu diễn chiếu của kỳ vọng của lớp thứ i và nó được tính như sau, 𝑚𝑖 = 𝑊𝑇𝜇𝑖, ở đây 𝑚 là chiếu của tổng kỳ vọng của tất cả các lớp và nó được tính

33

như sau 𝑚 = 𝑊𝑇𝜇, 𝑊 biểu diễn ma trận biến đổi của LDA, 𝜇𝑖(1 × 𝑀) biểu diễn kỳ vọng của lớp thứ i và nó được tính như trong phương trình (2), và 𝜇(1 × 𝑀) là tổng kỳ vọng của tất cả các lớp và nó có thể được tính như trong phương trình (3). Hình 2.1 chỉ ra kỳ vọng của mỗi lớp và tổng kỳ vọng trong Bước (B) và (C) tương ứng.

𝑥𝑖∈𝑤𝑗

1 𝑛𝑗

∑ (2) 𝜇𝑗 = 𝑥𝑖

𝑖=1 = ∑ 𝑛𝑖 𝑁 ∑ 𝑥𝑖

𝑐 𝑖=1

𝑁

(3) 𝜇 = 𝜇𝑖

ở đây c biểu diễn tổng số các lớp (trong ví dụ c=3).

Số hạng (𝜇𝑖 − 𝜇)(𝜇𝑖 − 𝜇)𝑇 trong phương trình (1) biểu diễn khoảng cách tách biệt giữa kỳ vọng của lớp thứ i (𝜇𝑖) và tổng kỳ vọng (𝜇), hoặc đơn giản nó biểu diễn phương sai between-class của lớp thứ i (𝑆𝐵𝑖). Thay thế 𝑆𝐵𝑖 trong phương trình (1) như sau:

(𝑚𝑖 − 𝑚)2 = 𝑊𝑇𝑆𝐵𝑖𝑊 (4)

𝑐 𝑖=1

. Hình

Tổng phương sai between-class được tính như sau, 𝑆𝐵 = ∑ 𝑛𝑖𝑆𝐵𝑖 2.5 (bước D) chỉ ra đầu tiên ma trận between-class của lớp đầu tiên (𝑆𝐵1) được tính như thế nào và sau đó ma trận tổng between-class (𝑆𝐵) được tính bằng cộng tổng tất cả các ma trận between-class của tất cả các lớp như thế nào.

2.3.3 Tính phương sai within-class (𝑺𝒘)

Phương sai within-class của lớp thứ i 𝑆𝑊𝑖 biểu diễn sự khác nhau giữa kỳ vọng và các mẫu của lớp đó. Kỹ thuật LDA tìm kiếm một không gian chiều thấp, được sử dụng để cực tiểu sự khác nhau giữa kỳ vọng được chiều (𝑚𝑖) và các mẫu chiếu của mỗi lớp (𝑊𝑇𝑥𝑖), hoặc cực tiểu phương sai within-class. Phương sai within-class (𝑆𝑊𝑖) được tính như trong phương trình (5).

34

𝑥𝑖∈𝑤𝑗,𝑗=1,..𝑐

∑ (𝑊𝑇𝑥𝑖 − 𝑚𝑗)2

𝑥𝑖∈𝑤𝑗,𝑗=1,..𝑐

= ∑ (𝑊𝑇𝑥𝑖𝑗 − 𝑊𝑇𝜇𝑗)2

𝑥𝑖∈𝑤𝑗,𝑗=1,..𝑐

= ∑ 𝑊𝑇(𝑥𝑖𝑗 − 𝜇𝑗)2𝑊

𝑥𝑖∈𝑤𝑗,𝑗=1,..𝑐

= ∑ 𝑊𝑇(𝑥𝑖𝑗 − 𝜇𝑗)(𝑥𝑖𝑗 − 𝜇𝑗)𝑇𝑊

𝑥𝑖∈𝑤𝑗,𝑗=1,..𝑐

(5) = ∑ 𝑊𝑇𝑆𝑊𝑗𝑊

𝑇 ∗ 𝑑𝑗 = ∑ (𝑥𝑖𝑗 − 𝜇𝑗)(𝑥𝑖𝑗 − 𝜇𝑗)𝑇

𝑛𝑗 𝑖=1

Từ phương trình (5), phương sai within-class cho mỗi lớp có thể được tính

, ở đây 𝑥𝑖𝑗 biểu diễn mẫu như sau, 𝑆𝑊𝑖 = 𝑑𝑗 thứ i trong lớp thứ j như được chỉ ra trong Hình 2.1 (bước E, F), và 𝑑𝑗 là dữ liệu 𝑛𝑗 − 𝜇𝑗. Hơn nữa, bước (F) trong tâm của lớp thứ j, tức là 𝑑𝑗 = 𝜔𝑗 − 𝜇𝑗 = {𝑥𝑖}𝑖=1 Hình minh họa phương sai within-class của lớp thứ nhất (𝑆𝑊1) trong ví dụ được tính như thế nào. Tổng phương sai within-class biểu diễn tổng tất cả các ma trận within-class của tất cả các lớp (xem Hình 2.5 (bước F), và nó có thể được tính như phương trình (6).

𝑖=1

𝑆𝑊 = ∑ 𝑆𝑊𝑖

∑ (𝑥𝑖 − 𝜇1)(𝑥𝑖 − 𝜇1)𝑇 𝑥𝑖∈𝑤1

𝑥𝑖∈𝑤2

+ ∑ (𝑥𝑖 − 𝜇2)(𝑥𝑖 − 𝜇2)𝑇

𝑥𝑖∈𝑤3

(6) + ∑ (𝑥𝑖 − 𝜇3)(𝑥𝑖 − 𝜇3)𝑇

35

2.3.4 Xây dựng không gian thấp chiều

Sau khi tính toán phương sai between-class (𝑆𝐵) và phương sai within-class (𝑆𝑊), ma trận biến đổi 𝑊 của kỹ thuật LDA có thể được tính như trong phương trình (7), được gọi là tiểu chuẩncủa Fisher. Công thức này có thể được phát biểu như trong phương trình (8).

𝑊𝑇𝑆𝐵𝑊 𝑊𝑇𝑆𝑊𝑊

(7) argmax 𝑊

−1𝑆𝐵, nếu 𝑆𝑊 khả nghịch.

𝑆𝐵𝑊 = 𝜆𝑆𝑊𝑊 (8)

ở đây 𝜆 biểu diễn các giá trị riêng của ma trận biến đổi (𝑊). Nghiệm của bài toán này có thể thu được bởi tính toán các giá trị riêng 𝜆 = {𝜆1, 𝜆2, … 𝜆𝑀} và các véc tơ riêng 𝑉 = {𝑣1, 𝑣2, … 𝑣𝑀} của ma trận 𝑆𝑊

Các giá trị riêng là các giá trị vô hướng, trong khi các véc tơ riêng là các véc tơ khác không, thỏa mãn phương trình (8) và cung cấp cho chúng ta thông tin về không gian LDA. Các véc tơ riêng biểu diễn các hướng của không gian mới , và các giá trị riêng tương ứng biểu diễn nhân tố tỉ lệ, độ dài hoặc độ lớn của các véc tơ riêng. Bởi vậy, mỗi véc tơ riêng biểu diễn một trục của không gian LDA, và giá trị riêng kết hợp biểu diễn độ mạnh của véc tơ riêng này. Độ mạng của véc tơ riêng phản ánh khả năng phân biệt giữa các lớp của nó, tức là tăng phương sai between-class, và giảm phương sai within-class của mỗi lớp; do đó đạt được mục tiêu LDA. Bởi vậy, các véc tơ riêng với k giá trị riêng lớn nhất được sử dụng để xây dựng một không gian thấp chiều (𝑉𝑘), trong khi các véc tơ riêng khác ({𝑣𝑘+1, 𝑣𝑘+2, . . 𝑣𝑀}) bị loại đi như được chỉ ra trong Hình 2.5 (Bước G).

Hình 2.2 chỉ ra không gian chiều thấp hơn của kỹ thuật LDA, được tính toán như trong Hình 2.5 (Bước G). Như được chỉ ra, chiều của ma trận dữ liệu gốc (𝑋 ∈ 𝑅𝑁×𝑀) được giảm bằng việc chiếu nó lên không gian chiều thấp hơn của LDA (𝑉𝑘 ∈ 𝑅𝑁×𝑘) được chú thích trong phương trình (9). Chiều của dữ liệu sau khi chiếu là k; do đó, M-k đặc trưng bị bỏ qua hoặc xóa khỏi mỗi mẫu. Do đó, mỗi mẫu 𝑥𝑖 được biểu diễn bằng một điểm trong không gian M chiều sẽ được biểu

36

diễn trong một không gian k chiều bởi chiếu nó lên không gian chiều thấp hơn (𝑉𝑘) như sau, 𝑦𝑖 = 𝑉𝑘𝑥𝑖

𝑌 = 𝑋 𝑉𝑘 (9)

Để dự đoán một ảnh thuộc cụm nào, chúng ta tính ma trận hiệp phương sai

gộp chung C, tính theo công thức:

𝑔 ∑ 𝑛𝑖 𝑖=1

𝑁

𝐶(𝑟, 𝑠) = 𝑐(𝑖)(𝑟, 𝑠)

P là véc tơ xác suất tiền nghiệm 𝑃 = [𝑝1 … , 𝑝𝑔] 𝑇 với 𝑝𝑖 biểu diễn xác suất tiền nghiệm của cụm i. Ở đây, do không biết xác suất tiền nghiệm nên chúng ta lấy bằng số phần tử trong mỗi cụm chia cho tổng số phẩn tử:

𝑛𝑖 𝑁

𝑝𝑖 =

𝑇 −

Đối tượng 𝑥𝑘 được gán vào cụm 𝑖 nếu hàm 𝑓𝑖 đạt cực đại.

𝑇 + ln(𝑝𝑖)

𝑓𝑖 = 𝜇(𝑖)𝐶−1𝑥𝑘 𝜇(𝑖)𝐶−1𝜇𝑖 1 2

2.3.5. Sơ đồ phương pháp tra cứu ảnh sử dụng phân cụm gia tăng trong phản hồi liên quan

Phương pháp tra cứu ảnh sử dụng phân cụm gia tăng được mô tả trên hình

2.6.

37 Các ảnh truy vấn

Máy tìm kiếm

Tập kết quả

Tập phản hồi

Yes

Có là tra cứu khởi tạo?

Phân các ảnh thành M cụm

No

Gia tăng cụm

Tập huấn luyện

Hình 2.6. Sơ đồ tra cứu ảnh sử dụng phân cụm gia tăng.

Đầu tiên, người dùng cung cấp cho máy tìm kiếm k ảnh truy vấn. Máy tìm kiếm thực hiện trích rút các đặc trưng của k ảnh truy vấn và đối sánh các đặc trưng của mỗi trong k ảnh truy vấn với cơ sở dữ liệu ảnh để được k kết quả tra cứu. Gộp k kết quả tra cứu để được một tập kết quả. Trên tập kết quả, người dùng đánh dấu một số ảnh là liên quan hay không liên quan để được tập phản hồi. Nếu là lần tra cứu khởi tạo, hệ thống phân các ảnh trong tập phản hồi t hành M cụm để có được tập ví dụ huấn luyện. Do đây là lần tra cứu khởi tạo, gia tăng cụm sẽ lấy chính tập huấn luyện làm đầu ra của thủ tục gia tăng cụm, tức là có M cụm và số ảnh trong mỗi cụm chưa được gia tăng.

Tiếp theo, mỗi trong M cụm sẽ tìm ra một ảnh đại diện cụm. Các ảnh đại diện của các cụm sẽ là đầu vào của máy tìm kiếm. Máy tìm kiếm thực hiện việc tìm kiếm để cho ra tạp kết quả tương ứng với M ảnh đại diện. Sau đó, người dùng

38

phản hồi trên tập kết quả để được tập phản hồi. Do lần tra cứu này không phải là lần tra cứu khởi tạo nên các ảnh phản hồi sẽ được chuyển cho thủ tục Gia tăng cụm, tức là, mỗi ảnh phản hồi sẽ được phân vào một cụm nào đó theo thủ tục Gia tăng cụm và kết quả của thủ tục gia tăng cụm là M cụm với số lượng của mỗi cụm có thể được tăng lên. M cụm được cung cấp cho máy tìm kiếm. Quá trình này được lặp đi lặp lại cho đến khi người dùng ngừng phản hồi và hệ thống cho ra một tập kết quả cuối cùng.

2.4. Tiểu kết chương 2

Trong chương này, luận văn tập trung trình bày phương pháp phương pháp tra cứu ảnh với phản hồi liên quan sử dụng phân cụm gia tăng. Phương pháp sử dụng một phương pháp phân cụm gia tăng lên tập ảnh mà người dùng chọn để hình thành lên truy vấn ở lần lặp sau, và ưu điểm của phương pháp phân cụm gia tăng là ở lần lặp tra cứu sau các ảnh phản hồi sẽ được phân vào các cụm mà không phải thực hiện phân cụm lại. Phương pháp tra cứu được các ảnh đa dạng mà không phải đưa vào một truy vấn phức tạp, bên cạnh đó thời gian tra cứu nhanh.

39

CHƯƠNG 3: CHƯƠNG TRÌNH THỬ NGHIỆM

3.1. Giới thiệu bài toán tra cứu ảnh dựa vào nội dung

Tra cứu ảnh dựa vào nội dung là phương pháp giúp con người tiếp cận tập dữ liệu ảnh lớn một cách có hiệu quả nhất, từ đó cung cấp nhiều thông tin cho người dùng hơn là văn bản. Tuy nhiên, bước chuyển từ tra cứu văn bản với mô tả ảnh sang sử dụng một ảnh truy vấn bộc lộ nhiều hạn chế bởi vì việc sử dụng một ảnh truy vấn không thể biểu diễn được toàn bộ nhu cầu của người dùng. Một trong những cách khắc phục hạn chế này là sử dụng đa truy vấn, nhu cầu của người dùng sẽ được biểu diễn bởi nhiều ảnh truy vấn đầu vào. Từ đó thông tin được cung cấp tốt hơn cho hệ thống CBIR, giúp đa dạng hơn kết quả trả về đối với truy vấn khởi tạo, làm đầu vào cho pha phản hồi liên quan.

Phản hồi liên quan được sử dụng để học thông tin từ người dùng sau truy vấn khởi tạo, các phương pháp phân cụm được sử dụng để giảm độ phức tạp tính toán thông qua gom nhóm các ảnh tương tự nhau về mặt ngữ nghĩa. Trọng tâm cụm được sử dụng làm đầu vào cho pha tra cứu kế tiếp. Việc này lặp lại đến khi nào đạt được mong muốn của người dùng.

Đối với các phương pháp phân cụm truyền thống, độ phức tạp tính toán tăng tỉ lệ thuận với số lượng tập ảnh phản hồi từ người dùng. Phân cụm gia tăng được đề xuất nhằm hạn chế việc này, giúp tốc độ xử lý của các hệ thống CBIR tăng lên mà không làm giảm chất lượng tra cứu ảnh dựa vào nội dung.

Chiến lược tra cứu được chúng tôi đề xuất sử dụng trong luận văn này là kết hợp tính đa dạng trong tra cứu ảnh sử dụng đa truy vấn và học thông tin từ người dùng thông qua phản hồi liên quan với phân cụm gia tăng LDA. Hình 3.1 cho thấy mô hình tổng quát của hệ thống.

40

Hình 3.1. Mô hình tổng quát của hệ thống

Trong đó, n ảnh truy vấn đầu vào Q1 đến Qn được cung cấp cho hệ thống, sử dụng cùng phương pháp trích rút đặc trưng đối với tập cơ sở dữ liệu nhận được n vec-tơ đặc trưng, là truy vấn khởi tạo cho máy tìm kiếm CBIR. Với mỗi truy vấn đầu vào nhận được một tập kết quả trả về, các tập này sau đó được gộp lại để được một tập kết quả SMerge duy nhất.

Thông tin phản hồi từ người dùng hay các ảnh liên quan ngữ nghĩa được cung cấp. Hệ thống sử dụng phân cụm LDA phân tập phản hồi thành m cụm, huấn luyện LDA cho mỗi cụm và cung cấp lại đầu vào mới cho máy tìm kiếm là đại diện của mỗi cụm.

Ở lần lặp thứ hai, hệ thống không phân cụm lại mà sử dụng gia tăng cụm

LDA đã được huấn luyện để gán nhãn cho các ảnh mới phản hồi.

Quá trình phản hồi này có thể lặp lại nhiều lần cho đến khi đạt được mong

muốn từ người dùng.

3.2. Môi trường thực nghiệm.

Trong khuôn khổ luận văn, luận văn không đề cập đến hiệu năng của các phương pháp trích rút đặc trưng, vì vậy, tập đặc trưng ảnh được xem là sẵn có cho pha tra cứu tiếp theo.

41

3.2.1. Cơ sở dữ liệu ảnh.

Cơ sở dữ liệu ảnh được sưu tầm là tập con của tập Corel được sử dụng rộng rãi trong cộng đồng nghiên cứu lĩnh vực tra cứu ảnh dựa vào nội dung. Tập ảnh này gồm 3400 ảnh đã được phân lớp theo ngữ nghĩa từ phía người dùng. Tập này gồm 34 loại, mỗi loại có 100 ảnh, cụ thể được cung cấp trong bảng 3.1. Tất cả các ảnh trong tập ảnh này có tính chất là đều chứa đối tượng tiền cảnh nổi bật. Cỡ của các ảnh có max(chiều rộng, chiều cao)=384 và min(chiều rộng, chiều cao)=256.

Bảng 3.1. Bảng phân bố tập ảnh Corel

STT LỚP ẢNH SỐ LƯỢNG GHI CHÚ

1 290 100

2 700 100

3 750 100

4 770 100

5 840 100

6 1040 100

7 1050 100

8 1070 100

9 1080 100

10 1090 100

11 1100 100

12 1120 100

13 1340 100

14 1350 100

15 1680 100

16 2680 100

17 2890 100

18 3260 100

19 3510 100

42

20 3540 100

21 3910 100

22 4150 100

23 4470 100

24 4580 100

25 4990 100

26 5210 100

27 5350 100

28 5530 100

29 5810 100

30 5910 100

31 6440 100

32 6550 100

33 6610 100

6840 100

3.2.2. Vec-tơ đặc trưng

Các đặc trưng được chia làm hai loại là: các đặc trưng màu và các đặc trưng

kết cấu (xem Bảng 3.2 ở dưới).

Bảng 3.2. Các loại đặc trưng.

Các loại đặc trưng

Tên đặc trưng

Độ dài

Lược đồ màu

ColorHsvHistogram64

64 Mô men màu

ColorLuvMoment123

9 Loại đặc trưng màu

Gắn kết màu

ColorHsvCoherence64

128 CoarsnessVector

10 Kết cấu Tamura

Directionality

8 Loại đặc trưng kết cấu

Kết cấu Wavelet

WaveletTwtTexture

104 Kết cấu MASAR

MRSAR

15

43

3.2.3. Tập tin cậy nền

Tập tin cậy nền Corel được sử dụng rộng rãi trong đánh giá CBIR, do đó luận văn cũng sử dụng phân loại Corel làm tin cậy nền, tức là luận văn xem tất cả các ảnh trong cùng loại Corel là liên quan. Tập tin cậy nền này gồm 4 cột (có tiêu đề: ID ảnh truy vấn, Truy vấn khởi tạo Q0, ID ảnh và Sự liên quan) và gồm 3400 dòng (mỗi dòng là một véc tơ đặc trưng).

3.2.4. Cấu hình đề xuất thiết bị chạy thực nghiệm

Để đảm bảo hệ thống vận hành thông suốt, luận văn cũng đề xuất cấu hình tối thiểu đối với thiết bị chạy thực nghiệm. Bảng 3.3 cung cấp chi tiết thông tin cấu hình tối thiểu của thiết bị chạy thực nghiệm.

Bảng 3.3. Bảng cấu hình đề xuất thiết bị chạy thực nghiệm.

Chủng loại

STT 1 2 3 4 5 6 7

Intel Core i3 4Gb DDRIII 500Gb HDD Intel HD Graphic Windows 8 x64 Matlab 2016a x64

Số lượng 1 1 1 1 1 1 1

Loại TB CHIP RAM HDD VGA SCREEN OS Matlab 3.3. Đánh giá kết quả thực nghiệm.

3.3.1. Chiến lược mô phỏng phản hồi liên quan.

Để bắt chước hành vi của con người, luận văn thực hiện mô phỏng phản hồi liên quan trong thử nghiệm. Đầu tiên, 05 ảnh truy vấn khởi tạo sẽ cung cấp cho đầu vào tra cứu. Thông qua máy tìm kiếm phân hạng tập ảnh cơ sở dữ liệu đối với mỗi ảnh truy vấn được 05 tập kết quả. 05 kết quả này sau đó được gộp lại thành một tập kết quả trả về duy nhất.

Tiếp theo chúng tôi mô phỏng tương tác người dùng bằng việc chọn các ảnh liên quan (positive) từ kết quả tra cứu khởi tạo dựa vào tập tin cậy nền (ground truth), những ảnh còn lại là những ảnh không liên quan (negative) trong 100 ảnh đầu tiên của tập kết quả. Lý do lựa chọn 100 ảnh đầu tiên là bởi vì thông thường người dùng chỉ xem trong từ 2 đến 3 màn hình (Mỗi màn hình có khoảng 50 ảnh)

44

để phản hồi. Các ảnh phản hồi liên quan sau đó được phân cụm thành M cụm, huấn luyện LDA được thực hiện trên các cụm. Hệ thống tính toán các điểm truy vấn tối ưu với từng cụm, làm đầu vào cho máy tìm kiếm lần thứ hai. Các kết quả phân hạng tập ảnh cơ sở dữ liệu được kết hợp lại. Mô phỏng tương tác người dùng lại một lần nữa được sử dụng trên tập kết quả mới nhằm lấy ra các ảnh liên quan thông qua tập tin cậy nền. Tuy nhiên, các ảnh được bổ sung thêm vào các cụm trong tập dữ liệu huấn luyện trước đó thông qua phân cụm gia tăng. Lặp lại quá trình tra cứu một lần nữa để lấy kết quả đánh giá.

Chiến lược này được sử dụng để mô phỏng người dùng thực tế trong thực

nghiệm của chúng tôi.

3.3.2. Kết quả đánh giá.

Áp dụng chiến lược mô phỏng phản hồi liên quan được đề cập trong phần 3.3.1 của luận văn này với tập 3400 ảnh Corel và 2 lần mô phỏng phản hồi. Luận văn sử dụng 3400 ảnh này lần lượt mỗi 05 ảnh trong một nhóm chính là đa truy vấn để thực hiện đánh giá đối với hệ thống.

Trong thực nghiệm luận văn chạy lần lượt với 3400 truy vấn, mỗi truy vấn thực nghiệm 3 lần với số cụm khác nhau lần lượt là 2, 4 và 6 cụm để xem xét hiệu quả khi số cụm tăng lên trên hệ thống. Các kết quả thực nghiệm được chỉ ra trong Hình 3.2. Trục ngang chỉ ra số cụm (cụ thể là 2, 4 và 6 cụm). Trục đứng chỉ ra độ chính xác. Các kết quả, độ chính xác trung bình của 3400 truy vấn, được thể hiện bằng số liệu trong Bảng 3.4 và bằng đồ thị trong Hình 3.2 ở dưới.

Độ chính xác là tỉ số giữa số các ảnh liên quan với ảnh truy vấn trong tập kết quả trả về trên tổng số các ảnh trả về. Độ chính xác của phương pháp là trung bình độ chính xác đối với 3400 ảnh truy vấn.

45

Bảng 3.4. Bảng kết quả của các phương pháp

2 cụm 4 cụm 6 cụm

Truyền thống Lần 1 Lần 2 Lần 1 Lần 2 Lần 1 Lần 2 Đa truy vấn

20.33 28.14 31.73 29.43 33.50 30.32 36.14 23.13

Độ chính xác

C Á X H N H C Ộ Đ

38 36 34 32 30 28 26 24 22 20

Truyền thống

Đa truy vấn

Lần 1

Lần 2

2 cụm

20.33

23.13

28.14

31.73

4 cụm

20.33

23.13

29.43

33.5

6 cụm

20.33

23.13

30.32

36.14

Biểu đồ so sánh kết quả thực nghiệm

Hình 3.2. Biểu đồ so sánh kết quả thực nghiệm

Luận văn có thể đưa ra các kết luận từ Hình 3.2. Độ chính xác của hệ thống tra cứu ảnh sử dụng đa truy vấn đạt 23.13%, tốt hơn so với phương pháp tra cứu truyền thống đạt 20.33%. Khi kết hợp sử dụng phản hồi liên quan với phân cụm gia tăng, ở lần lặp thứ 1 độ chính xác dạt 28.14 đối với 2 cụm, 29.43 với 4 cụm và 30.32 với 6 cụm; ở lần lặp thứ 2 độ chính xác đạt 31.73% với 2 cụm, 33.5% với 4 cụm và 36.14% với 6 cụm. Điều này khẳng định rằng độ chính xác của hệ thống tăng lên sau mỗi lần lặp phản hồi và tăng hơn khi số lượng cụm tăng.

46

3.4. Giao diện hệ thống

Hình 3.3. Giao diện chính của hệ thống.

Hình 3.3 cung cấp giao diện chính của hệ thống. Hệ thống được xây dựng

tuần tự theo các bước của mô hình hệ thống cụ thể:

Bước 1: Chọn tập dữ liệu ảnh / đặc trưng.

Bước 2: Chọn truy vấn khởi tạo (Có thể chọn một hay nhiều truy vấn)

Bước 3: Tra cứu khởi tạo (với pha tra cứu) và phản hồi lần 1 (sau khi tra cứu)

Bước 4: Huấn luyện bằng cách chọn số lượng cụm và sử dụng phân cụm LDA bước huấn luyện. Thông tin cụm của dữ liệu huấn luyện được hiển thị trong mục Danh sách cụm.

Bước 5: Tra cứu đối với dữ liệu huấn luyện và sử dụng phân cụm LDAvới thông tin sau tra cứu. Thông tin sau phân cụm thích gia tăng được cập nhật vào dữ liệu huấn luyện, hiển thị trong mục Danh sách cụm.

Thanh trạng thái cho biết tình trạng hoạt động của các tiến trình trong hệ

thống.

47

Hình 3.4. Chọn tập dữ liệu ảnh / đặc trưng

Tập dữ liệu đặc trưng đã được trích rút tương ứng với hệ thống tra cứu và được lưu trong file dataset1.mat. Khi dữ liệu đã được đọc thành công, các công cụ sẽ được kích hoạt cho phép người dùng sử dụng.

Hình 3.5. Chọn ảnh truy vấn khởi tạo.

Người dùng chọn ảnh truy vấn từ tập đặc trưng. Hình 3.5 các ảnh truy vấn

được chọn là 84003, 84004 và 84008 thuộc lớp 840.

Hình 3.6. Tra cứu với truy vấn khởi tạo 84003, 84004, 84008 thuộc lớp 840.

48

Người dùng tiến hành tra cứu với truy vấn khởi tạo, tập kết quả trả về được hiển thị với tên và ảnh đại diện của lớp tương ứng trong tập ảnh Corel. Ảnh tương tự ngữ nghĩa với ảnh truy vấn là hình ảnh được khoanh màu đỏ. Hình 3.6 cung cấp kết quả tra cứu đối với truy vấn khởi tạo hay phương pháp tra cứu truyền thống.

Mô phỏng chiến lược phản hồi liên quan thông qua tập tin cậy nền, các ảnh tương tự ngữ nghĩa với ảnh truy vấn khởi tạo được đưa vào huấn luyện. Trên Hình 3.7 số lượng ảnh phản hồi là 25/100 ảnh đối với truy vấn 84003, 84004, 84008. Người dùng chọn số lượng cụm, tiến hành phân cụm tập huấn luyện. Kết quả phân cụm được hiển thị trong thanh “Danh sách cụm”. Hình 3.7 cung cấp kết quả phân cụm tập huấn luyện của ảnh truy vấn 84003, 84004, 84008.

Hình 3.7. Kết quả phân cụm tập huấn luyện.

Sau khi phân cụm dữ liệu huấn luyện, có thể tiến hành tra cứu với dữ liệu

huấn luyện.

Hình 3.8. Công cụ tra cứu và phân cụm LDA.

49

Hình 3.9. Kết quả tra cứu phản hồi liên quan.

Hình 3.9 cung cấp kết quả tra cứu với 4 truy vấn tối ưu tương ứng với 4 cụm của tập dữ liệu huấn luyện. Áp dụng chiến lược mô phỏng phản hồi với tập kết quả trên với phương pháp phân cụm gia tăng nhận được kết quả như Hình 3.10.

Hình 3.10. Kết quả phân cụm gia tăng.

Hình 3.11 cung cấp kết quả tra cứu với tập huấn luyện mới.

50

Hình 3.11. Kết quả tra cứu sau khi sử dụng phân cụm gia tăng.

3.5. Tiểu kết chương 3.

Trong chương 3, luận văn đã phân tích thiết kế hệ thống và xây dựng theo

mô hình tra cứu được đề xuất ở chương 2, đồng thời xây dựng tập ảnh thử nghiệm

cho hệ thống. Một phương pháp đánh giá kết quả hệ thống và so sánh với một số

hệ thống tra cứu khác tương tự cũng được trình bày trong chương này. Theo đó,

hiệu quả tra cứu của hệ thống theo mô hình đề xuất cho hiệu quả tra cứu tốt hơn

trên cùng một tập dữ liệu thử nghiệm. Đáp ứng được mục tiêu đặt ra ban đầu là

nâng cao chất lượng tra cứu ảnh.

51

KẾT LUẬN

Các hệ thống tra cứu ảnh truyền thống có những hạn chế về độ chính xác

thấp là do gặp vấn đề về khoảng cách ngữ nghĩa giữa mô tả ảnh bởi đặc trưng

mức thấp và ngữ nghĩa của ảnh được cho người dùng. Để giải quyết hạn chế

này có nhiều cách tiếp cận khác nhau và phản hồi liên quan là một cách tiếp

cận hiệu quả.

Các phương pháp theo cách tiếp cận phản hồi liên quan thường dựa vào tập

ảnh phản hồi từ người dùng để tính toán lại ảnh truy vấn ảnh ở lần lặp sau. Quá

trình lặp đi lặp lại cho đến khi người dùng thỏa mãn. Tuy nhiên, các phương pháp

tra cứu ảnh sử dụng phản hồi liên quan hiện nay thường phân cụm lại tập ảnh phản

hồi tại mỗi lần lặp dẫn đến tốn nhiều thời gian tra cứu.

Để khắc phục hạn chế ở trên, cách tiếp cận đa điểm được đề xuất để có thế

lấy được các ảnh liên quan ngữ nghĩa nằm rải rác trong không gian đặc trưng. Với

cách tiếp cận này, chúng ta sẽ phân cụm các mẫu phản hồi của người dùng ở lần

phản hồi đầu tiên bởi thuật toán phân cụm gia tăng LDA, ở các lần lặp sau ta sẽ

gia tăng cụm chứ không thực hiện phân cụm lại tập mẫu phản hồi nữa.

Luận văn đã thực hiện được các công việc sau:

- Tìm hiểu được tổng quan về tra cứu ảnh dựa vào nội dung.

- Tìm hiểu về phương pháp tra cứu ảnh với phản hồi liên quan sử dụng phân

cụm gia tăng.

- Tìm hiểu kỹ thuật phân tích phân biệt tuyến tính (LDA).

- Xây dựng hệ thống tra cứu ảnh thử nghiệm sử dụng cụm gia tăng với phản

hồi liên quan.

Một số vấn đề cần được nghiên cứu tiếp trong tương lai:

- Thử nghiệm và đánh giá kết quả phương pháp trên tập ảnh lớn và đa dạng hơn.

52

TÀI LIỆU THAM KHẢO

Tiếng Việt:

[1] Đỗ Năng Toàn, Phạm Việt Bình (2007), Giáo trình xử lý ảnh, NXB ĐH

Thái Nguyên.

[2] Đinh Mạnh Tường (2016) ,Giáo trình Học máy, NXB Khoa học kỹ

thuật.

Tiếng Anh:

[3]Moses Charikar, Chandra Chekuri,Tomás Feder, Rajeev Motwani,

Incremental clustering and dynamic information retrieval, In:STOC '97

Proceedings of the twenty-ninth annual ACM symposium on Theory of computing,

pp. 626-635.

[4] Jin, X., & French, J.C, (2005). "Improving Image Retrieval Effectiveness

via Multiple Queries," Multimedia Tools and Applications, vol. 26, pp. 221-245.

[5] J. Fournier, M. Cord, Long-term similarity learning in content-based

image retrieval, in: Int. Conf. Image Processing (ICIP), 441{444, 2002.

[6] Quynh Dao Thi Thuy, Quynh Nguyen Huu, Canh Phuong Van, Tao Ngo

Quoc (2017), “An efficient semantic–Related image retrieval method”, Expert

Systems With Applications, 72, 30-41.

[7] Rocchio, J.J., (1971). Relevance feedback in information retrieval. In:

Salton, G. (Ed.), The SMART Retrieval System—Experiments in Automatic

Document Processing. Prentice Hall, Englewood Cliffs, NJ, pp. 313–323.

[8] Ying Liua, Dengsheng Zhanga, Guojun Lua, Wei-Ying Ma, A survey of

content-based image retrieval with high-level semantics, Pattern Recognition 40

(2007), pp. 262-282.

53

[9] Alzu'bi, Ahmad; Amira, Abbes; Ramzan, Naeem (2015), Semantic content based image retrieval: A comprehensive study, in: journal of visual communication and image representation, Vol. 32, p. 20-54.

[10] J.R. Smith, C.-S. Li, Decoding image semantics using composite region templates, IEEE Workshop on Content-Based Access of Image and Video Libraries (CBAIVL-98), June 1998, pp. 9–13.

[11] W.K. Leow, S.Y. Lai, Scale and orientation-invariant texture matching for image retrieval, in: M.K. Pietikainen (Ed.), Texture Analysis in Machine Vision, World Scientific, Singapore, 2000.

[12] T. Li, S. Zhu and M. Ogihara, Using discriminant analysis for multi- class classification: An experimental investigation, Knowledge and Information Systems 10(4) (2006).