Luận văn Thạc sĩ Công nghệ thông tin: Phân lớp ngữ nghĩa hình ảnh dựa trên mạng nơ-ron tích chập

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:85

Thêm vào BST

Báo xấu

20
lượt xem 6
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Trong luận văn này, đề xuất mô hình học sâu là mạng nơ-ron tích chập trong việc phân loại tập ảnh. Đồng thời, kết hợp ngữ nghĩa vào việc tìm kiếm dựa trên một domainontology để mô tả các mối quan hệ giữa các chủ đề ảnh cần phân lớp. Phương pháp tìm kiếm này không những hiệu quả và chính xác hơn phương pháp tìm kiếm dựa trên meta - data hoặc nội dung của ảnh mà còn cho phép mở rộng và đa dạng hóa kết quả tìm kiếm thông qua việc kết hợp ngữ nghĩa vào việc tìm kiếm.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận văn Thạc sĩ Công nghệ thông tin: Phân lớp ngữ nghĩa hình ảnh dựa trên mạng nơ-ron tích chập

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÀ RỊA-VŨNG TÀU --------  -------- TRƯƠNG HỮU CHIẾN PHÂN LỚP NGỮ NGHĨA HÌNH ẢNH DỰA TRÊN MẠNG NƠ-RON TÍCH CHẬP LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN BÀ RỊA VŨNG TÀU - 2020
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÀ RỊA-VŨNG TÀU --------  -------- TRƯƠNG HỮU CHIẾN PHÂN LỚP NGỮ NGHĨA HÌNH ẢNH DỰA TRÊN MẠNG NƠ-RON TÍCH CHẬP Chuyên ngành: Công nghệ thông tin Mã ngành: 8480201 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. VĂN THẾ THÀNH BÀ RỊA VŨNG TÀU - 2020
LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Phân lớp ngữ nghĩa hình ảnh dựa trên mạng nơ-ron tích chập” là công trình nghiên cứu của tôi dưới sự hướng dẫn của giảng viên hướng dẫn, không trùng lắp của người khác. Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên quan trong nước và quốc tế. Các tài liệu được luận văn tham khảo, kế thừa và trích dẫn đều được liệt kê trong danh mục các tài liệu tham khảo. Tôi xin chịu hoàn toàn trách nhiệm về lời cam đoan trên. Bà rịa - Vũng tàu, ngày 12 tháng 12 năm 2020. Học viên Trương Hữu Chiến i
LỜI CẢM ƠN Trước tiên, tôi xin gửi lời cảm ơn và bày tỏ sự biết ơn chân thành tới TS.Văn Thế Thành – Giáo viên hướng dẫn khoa học đã trực tiếp hướng dẫn tôi, đã hết lòng hỗ trợ và giúp đỡ tôi trong quá trình nghiên cứu và hoàn thiện luận văn của mình. Tôi cũng xin gửi lời cảm ơn chân thành tới các thầy, các cô là giảng viên của Trường Đại học Bà Rịa Vũng Tàu đã tạo những điều kiện thuận lợi cho tôi học tập và nghiên cứu trong suốt quá trình học tập tại trường. Và tôi cũng muốn gửi lời cảm tới các anh, chị, em lớp MIT18K1 khóa đầu tiên Thạc sĩ ngành công nghệ thông tin, luôn bên cạnh và động viên tôi trong suốt thời gian học tập và quá trình thực hiện luận văn tốt nghiệp. Cuối cùng, tôi cũng xin gửi lời cảm ơn tới cha, vợ và các con, và những người thân trong gia đình tôi, đã chăm lo, động viên tôi tích cực học tập và hoàn thành thật tốt khóa học thạc sĩ này. Vì thời gian có hạn, mặc dù đã hết sức cố gắng hoàn thành luận văn nhưng chắc chắn sẽ không tránh khỏi những thiếu sót. Rất mong nhận được sự cảm thông, chia sẻ, đóng góp ý kiến tận tình của quý thầy cô và các bạn để luận văn được hoàn thiện hơn. Tôi xin chân thành cảm ơn! ii
MỤC LỤC LỜI CAM ĐOAN ............................................................................................................. i MỤC LỤC ...................................................................................................................... iii DANH MỤC CÁC TỪ VIẾT TẮT ............................................................................... vi DANH MỤC HÌNH VẼ ................................................................................................... i DANH MỤC BẢNG BIỂU ............................................................................................ iv LỜI MỞ ĐẦU .................................................................................................................. 1 CHƯƠNG 1 ..................................................................................................................... 5 TỔNG QUAN PHÂN TÍCH NGỮ NGHĨA HÌNH ẢNH ............................................ 5 1.1. Đặc trưng văn bản đi kèm ảnh ................................................................................ 6 1.2. Đặc trưng nội dung ảnh ........................................................................................... 8 1.3. Hướng tiếp cận theo ngữ nghĩa hình ảnh .............................................................. 10 1.4. Trích xuất đặc trưng .............................................................................................. 13 1.4.1. Ý nghĩa của trích xuất đặc trưng .................................................................. 14 1.4.2. Các đặc trưng phổ biến ................................................................................ 14 1.5. Các nghiên cứu liên quan ...................................................................................... 15 1.6. Kết luận ................................................................................................................. 17 CHƯƠNG 2 ................................................................................................................... 18 TỔNG QUAN VỀ MẠNG NƠ-RON TÍCH CHẬP ................................................... 18 2.1. Giới thiệu .............................................................................................................. 18 2.2. Một số khái niệm .................................................................................................. 20 2.3. Kiến trúc mạng nơ-ron tích chập.............................................................................. 21 iii
2.3.1. Lớp tích chập (Convolutional) ...................................................................... 23 2.3.2. Hàm kích hoạt ReLU .................................................................................... 27 2.3.3. Lớp lấy mẫu (Pooling) ................................................................................. 28 2.3.4. Lớp kết nối đầy đủ ........................................................................................ 29 2.4. Kỹ thuật tối ưu mạng ............................................................................................ 31 2.5. Một số Kiến trúc mạng CNN phổ biến ................................................................. 32 2.5. 1. Kiến trúc LeNet-5 ........................................................................................ 33 2.5. 2. Kiến trúc AlexNet ........................................................................................ 34 2.5. 3. Kiến trúc VGG-16 ....................................................................................... 36 2.5.4. Kiến trúc Inception (GoogleLeNet) .............................................................. 38 2.6. Kết luận ................................................................................................................. 40 CHƯƠNG 3 ................................................................................................................... 41 ĐỀ XUẤT MÔ HÌNH PHÂN LOẠI ẢNH VÀ KẾT HỢP ........................................ 41 TÌM KIẾM THEO NGỮ NGHĨA ............................................................................... 41 3.1. Kiến trúc của hệ thống .......................................................................................... 41 3.2. Mô hình phân lớp hình ảnh bằng CNN ................................................................. 42 3.3. Mô hình tìm kiếm theo ngữ nghĩa......................................................................... 46 3.3.1. Các chú thích cho hình ảnh .......................................................................... 47 3.3.2. Phát triển Ontology ...................................................................................... 49 3.3.3. Ontology hình ảnh ........................................................................................ 50 3.3.4. Truy xuất hình ảnh ngữ nghĩa (SIR-Semantic Image Retrieval) .................. 53 3.4. Kết luận ................................................................................................................. 55 iv
CHƯƠNG 4 ................................................................................................................... 56 KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ ........................................................... 56 4.1. Môi trường và các công cụ sử dụng cho thực nghiệm .......................................... 56 4.2. Tập dữ liệu thực nghiệm ....................................................................................... 56 4.3. Xây dựng mô hình phân loại ảnh cho hệ thống tìm kiếm ..................................... 58 4.3.1. Vai trò của Dropout ..................................................................................... 60 4.3.2. Ảnh hưởng của Batch size đến kết phân lớp dữ liệu .................................... 61 4.4. Kết quả tìm kiếm ảnh theo ngữ nghĩa ................................................................... 62 4.5. Kết luận ................................................................................................................. 69 TÀI LIỆU THAM KHẢO ............................................................................................ 70 Tiếng Việt .................................................................................................................... 70 Tiếng Anh .................................................................................................................... 70 v
DANH MỤC CÁC TỪ VIẾT TẮT STT Từ viết tắt Tiếng anh Giải thích 01 AI Artificial Intelligence Trí tuệ nhân tạo 02 ANN Artificial Neural Network Mạng nơ-ron nhân tạo Content-Based Images 03 CBIR Tìm kiếm ảnh theo nội dung Retrieval Convolutional Neural 04 CNN Mạng nơ-ron tích tập Network 05 CSDL Database Cơ sở dữ liệu 06 DL Deep Learning Học sâu 07 DNN Deep Neural Network Mạng nơ-ron sâu 08 DT Decision Tree Cây quyết định 09 FNN Feedforward Neural Network Mạng nơ-ron truyền thẳng 10 GPU Graphic Proccessing Unit Bộ vi xử lý dữ liệu hình ảnh Histograms of Oriented 11 HOG Biểu đồ độ dốc định hướng Gradients 12 k-NN k-Nearest Neighbors K-láng giềng gần nhất Cuộc thi thử thách nhận biết ImageNet Large Scale Visual 13 ILSVRC hình ảnh quy mô lớn Recognition Challenge ImageNet 14 IoT Internet of Things Internet vạn vật 15 OWL Ontology Web language Ngôn ngữ ontology web 16 QBIC Query Based Image Content Truy vấn ảnh theo nội dung Semantic Based Image 17 SBIR Truy vấn ảnh theo ngữ nghĩa Retrieval vi
Scale Invariant Feature Biến đổi đặc trưng cục bộ 18 SIFT Transform bất biến SIFT 19 SURF Speeded Up Robust Features Trích chọn đặc trưng SURF 20 SVM Support Vector Machine Máy vec-tơ hỗ trợ 21 ReLU Rectified Linear Unit Điều chỉnh đơn vị tuyến tính 22 RGB Red Green Blue Hệ màu cơ bản Resource Description 23 RDF Khung mô tả tài nguyên Framework 24 SIR Semantic Image Retrieval Truy vấn ảnh nghữ nghĩa SPARQL Protocol And RDF Ngôn ngữ truy vấn cho 25 SPARQL Query Language CSDL ngữ nghĩa Truy xuất hình ảnh dựa trên 26 TBIR Text-Based Image Retrieval văn bản vii
DANH MỤC HÌNH VẼ Hình 1.1: Ví dụ hiển thị một ảnh……………………………………………….……………....7 Hình 1.2: Ví dụ truy vấn “d-80” của Google……………………………….………………..7 Hình 1.3: Ví dụ truy vấn “Apple” của Google……………………………….……………...8 Hình 1.4: Ví dụ về một số lọai kết cấu………………………………………….….………….9 Hình 1.5: Minh họa các tầng ngôn ngữ dùng trong ontology………..…….…………….13 Hình 2.1: Mô hình bộ não người……………………………………………………………..18 Hình 2.2: Mạng nơ-ron tích chập hay Convolutional Neural Networks (CNN)………..19 Hình 2.3: Kiến trúc của CNN………………………………………………………………….22 Hình 2.4: Mạng nơ-ron thông thường……………………………………………………….22 Hình 2.5: Mạng nơ-ron tích chập………………………………………….…...….…………22 Hình 2.6: Minh họa ảnh dữ liệu đầu vào và bộ lọc………………………………………..23 Hình 2.7: Minh họa tích chập ảnh đầu vào và kết quả Bảng đồ đặc trưng…………….24 Hình 2.8: Minh họa quá trình tích chập nhiều lớp…………………….…………………..26 Hình 2.9: Minh họa bảng đồ đặc trưng xếp chồng lên nhau………………….…………27 Hình 2.10: Các hàm kích hoạt…………………………………………….………………….28 Hình 2.11: Minh họa việc lấy mẫu con………………………………….………………......29 Hình 2.12: Một ví dụ về mô hình học sâu dựa trên mạng nơ-ron tích chập…….….….31 Hình 2.13: Mạng nơ-ron trước và sau quá trình Dropout…………………………….....32 i
Hình 2.14: Mô hình Kiến trúc LeNet-5………………………………………………………34 Hình 2.15: Mô hình Kiến trúc AlexNet…………………………………….…………..…….35 Hình 2.16: Mô hình Kiến trúc AGG-16………….…………………………..………...……37 Hình 2.17: Mô hình dạng cell của Kiến trúc Inception…………………..………..……...38 Hình 2.18: Mô hình Kiến trúc Inception……………………………..……………..……....39 Hình 3.1: Kiến trúc của hệ thống…………………………………………………...……..…41 Hình 3.2: Áp dụng kiến trúc mạng AlexNet………………….…………………..………....42 Hình 3.3: Kiến trúc mạng AlexNet ở dạng phẳng……………………..……......……..….43 Hình 3.4: Minh họa hình ảnh qua các lớp trong kiến trúc AleNet………….……………45 Hình 3.5: Kiến trúc tìm kiếm ngữ nghĩa……………………..……………..……..…………46 Hình 3.6: Chú thích một hình ảnh……………………………………..…........…………….48 Hình 3.7: Chú thích ontology cho hình ảnh hoa hồng…………………….…..…………...48 Hình 3.8: Domain ontology của hệ thống……………………………….……………….…50 Hình 3.9: Liên kết hình ảnh với các ontology trong protégé………….………………….52 Hình 3.10: Mô hình từ khóa tìm kiếm với ngữ nghĩa…………………..……….……….…53 Hình 4.1: Tập huấn luyện từng phần……………………………….…………….………..…57 Hình 4.2: Biểu đồ Confusion matrix đánh giá theo các chủ đề ảnh …………….………59 Hình 4.3: Biểu đồ Precision đánh giá mô hình phân loại theo các chủ đề ảnh …...….60 Hình 4.4: Minh họa phân lớp dữ liệu hình ảnh……………………………...…………….62 ii
Hình 4.5: Minh họa biểu đồ truy vấn khớp hình ảnh…………………...…………………63 Hình 4.6: Trường hợp thực nghiệm với hình ảnh ngựa vằn…………….……………….64 Hình 4.7: Trường hợp thực nghiệm với hình ảnh chú chó………………………………..65 Hình 4.8: Trường hợp thực nghiệm với từ khóa truy vấn “Dog”……………………..…66 Hình 4.9: Trường hợp thực nghiệm với từ khóa truy vấn “Monkey”……..……..…..…67 Hình 4.9: Tìm kiếm với từ khóa “Animal”…………………………………………………..68 iii
DANH MỤC BẢNG BIỂU Bảng 4.1: Kết quả huấn luyện mô hình……………………………………………………..59 Bảng 4.2: Tỉ lệ lỗi khi thay đổi giá trị Dropout của hệ thống………………………..….60 Bảng 4.3: Kết quả phân lớp khi sử dụng dữ liệu với các batch size khác nhau…..…..61 iv
LỜI MỞ ĐẦU 1. Đặt vấn đề Trong thời gian gần đây, với sự phát triển mạnh mẽ về khả năng tính toán của các thế hệ máy tính hiện đại cũng như sự bùng nổ về dữ liệu thông qua mạng internet, dữ liệu đa phương tiện ngày càng được phát triển nhanh chóng về mặt số lượng và kích thước, và với việc chia sẻ hình ảnh trên các trang web, các mạng xã hội, kích thước của bộ sưu tập hình ảnh kỹ thuật số đang gia tăng nhanh chóng về số lượng, độ phức tạp và tính đa dạng. Theo WordStream, năm 2019, mỗi ngày có 8.95 triệu ảnh, video được chia sẻ trên Instagram, mỗi năm một người tạo ra ít nhất 1.000 ảnh, mỗi năm tạo ra ít nhất 1 nghìn tỷ hình ảnh… Cùng với sự phát triển vượt trội của các công nghệ kỹ thuật số, công nghệ thông tin và sự phổ biến rộng rãi các thiết bị thông minh, dẫn đến dữ liệu hình ảnh trở nên thân thuộc với cuộc sống của con người và được ứng dụng trong nhiều lĩnh vực quan trọng, như hệ thống thông tin giao thông, hệ thống thông tin địa lý, hệ thống thông tin bệnh viện, hệ thống thư viện số, ứng dụng tìm kiếm ảnh trong y học, giáo dục đào tạo, giải trí,…[3]. Qua đó cho thấy dữ liệu cũng như số lượng ảnh ngày càng được gia tăng nên cần phải có nhiều hệ thống, phương thức truy vấn ảnh trên các thiết bị cũng như trong các hệ thống đa phương tiện. Chính vì thế, việc nghiên cứu và phát triển các hệ thống tra cứu ảnh là một bài toán quan trọng trong các hệ thống đa phương tiện và phù hợp với xu thế của xã hội hiện đại. Các nhà khoa học trong thập kỷ qua đã đề xuất rất nhiều phương pháp tiếp cận hiệu quả cho tìm kiếm hình ảnh. Với các hệ thống tìm kiếm ảnh sử dụng các văn bản đi kèm với ảnh (meta-data) hoặc theo nội dung (sự tương đồng) của ảnh giúp cho việc tìm kiếm đơn giản và hiệu quả. Tuy nhiên việc tìm kiếm ảnh trên thiếu cấu trúc ngữ nghĩa, nơi duy trì khả năng mở rộng thành phần và sự phụ thuộc lẫn nhau, nên vẫn còn một số hạn chế làm cho kết quả tìm kiếm chưa thật chính xác khi các mô tả này bị sai hoặc có thể các kết quả trả lại có 1
chứa hình ảnh không liên quan. Các công nghệ ngữ nghĩa cung cấp cách tiếp cận đầy hứa hẹn cho việc tìm kiếm ảnh, giúp việc tìm kiếm hiệu quả và chính xác hơn. Bên cạnh đó, với sự phát triển vượt bậc của các phương pháp học sâu đã giúp thị giác máy tính đạt được những thành tựu đáng kể trong vấn đề nhận biết, phân tích, nhận dạng và phân loại dữ liệu ảnh trên mạng CNN kết hợp với các kỹ thuật tối ưu nhằm nâng cao khả năng phân loại các đối tượng và truy xuất dữ liệu ảnh [4]. Ưu điểm của CNN là tận dụng được tính năng trích chọn đặc trưng của lớp tích chập và bộ phân lớp được huấn luyện đồng thời. Nó có thể giải quyết các bài toán với số lượng lớn các biến, tham số kích thước đầu vào lớn với hiệu năng cũng như độ chính xác vượt trội so với các phương pháp phân lớp truyền thống. Mạng nơ-ron tích chập CNN là mô hình được sử dụng phổ biến trong cộng đồng máy học cho hiệu quả trong các bài toán phân loại hình ảnh [5]. Từ những phân tích trên và sự gợi ý của giảng viên hướng dẫn, tôi quyết định chọn nội dung “Phân lớp ngữ nghĩa hình ảnh dựa trên mạng nơ-ron tích chập” để làm đề tài nghiên cứu thực hiện luận văn thạc sỹ của mình, với hy vọng có ý nghĩa và thiết thực, ứng dụng thành công các mô hình học sâu hiện đại để xây dựng một hệ truy vấn ảnh theo hướng tiếp cận ngữ nghĩa để tăng độ chính xác hơn so với các phương pháp tìm kiếm ảnh theo các văn bản đi kèm với ảnh hoặc theo nội dung của ảnh, nhằm phục vụ cho nhiều lĩnh vực khác nhau trong đời sống kinh tế xã hội, như nhận dạng và phân loại nông sản, thủy sản trong lĩnh vực nông nghiệp và nông thôn,… nhằm góp phần bắt nhịp xu hướng thời đại cách mạng công nghiệp 4.0, đã có tác động sâu sắc đến định hướng phát triển kinh tế xã hội ở nước ta trong nhiều lĩnh vực như nông nghiệp thông minh, giao thông thông minh, y tế thông minh,… 2. Mục tiêu của đề tài Trong luận văn này, đề xuất mô hình học sâu là mạng nơ-ron tích chập trong việc phân loại tập ảnh. Đồng thời, kết hợp ngữ nghĩa vào việc tìm kiếm dựa trên một domain- ontology để mô tả các mối quan hệ giữa các chủ đề ảnh cần phân lớp. Phương pháp tìm kiếm này không những hiệu quả và chính xác hơn phương pháp tìm kiếm dựa trên meta- 2
data hoặc nội dung của ảnh mà còn cho phép mở rộng và đa dạng hóa kết quả tìm kiếm thông qua việc kết hợp ngữ nghĩa vào việc tìm kiếm. 2.1. Đối tượng nghiên cứu Đề tài tiếp cận nghiên cứu các đối tượng về ảnh số, trích xuất đặc trưng trên ảnh để làm cơ sở phân lớp dựa trên kỹ thuật mạng nơ-ron tích chập. Kết hợp ngữ nghĩa vào quá trình tìm kiếm dựa trên một domain ontology được xây dựng để mô tả các mối quan hệ ngữ nghĩa giữa các chủ đề ảnh. 2.2. Phương pháp nghiên cứu Thực hiện việc phân tích hình ảnh để trích xuất đặc trưng hình ảnh và phân lớp dữ liệu hình ảnh dựa trên mạng nơ-ron tích chập. Xây dựng một hệ truy vấn ảnh dựa trên dựa trên mô hình phân loại ảnh CNN và kết hợp với domain ontology để hỗ trợ tìm kiếm theo ngữ nghĩa. 2.3. Ý nghĩa của đề tài Về khoa học: Đề tài sẽ mang ý nghĩa cung cấp về mặt lý thuyết để làm rõ về phương pháp và kỹ thuật phân loại ảnh, truy vấn ảnh theo ngữ nghĩa. Về thực tiễn: Góp phần cho việc truy vấn ảnh theo ngữ nghĩa dựa trên mô hình phân loại ảnh CNN và kết hợp với domain ontology để hỗ trợ tìm kiếm theo ngữ nghĩa. Cấu trúc luận văn được tổ chức gồm bốn chương, cụ thể như sau: Chương 1: Tổng quan phân tích ngữ nghĩa hình ảnh Nội dung chương này nhằm giới thiệu tổng quan phân tích ngữ nghĩa hình ảnh với những đặc trưng văn bản đi kèm ảnh, đặc trưng nội dung ảnh, hướng tiếp cận ngữ nghĩa hình ảnh và điểm qua một số nghiên cứu, công trình liên quan với phân tích ưu nhược điểm. Từ đó làm cơ sở cho quá trình đề xuất một phương pháp tra cứu ảnh theo ngữ nghĩa dựa trên mô hình phân loại ảnh CNN. 3
Chương 2: Tổng quan về Mạng nơ-ron tích chập Trình bày tổng quan về mạng nơ-ron tích chập, với kiến trúc mạng qua lớp tích chập nhằm trích xuất đặc trưng ảnh, biểu diễn vector đặc trưng cho việc phân loại ảnh,… và kỹ thuật tối ưu mạng nhằm hạn chế overfiting. Bên cạnh đó cũng điểm qua một số kiến trúc mạng CNN phổ biến, qua đó đề xuất mô hình cho bài toán phân lớp dữ liệu hình ảnh trong chương sau. Chương 3: Đề xuất mô hình phân loại ảnh và kết hợp tìm kiếm theo ngữ nghĩa. Trong chương này đề xuất kiến trúc cho hệ thống với một mô hình cụ thể cho bài toán phân lớp dữ liệu hình ảnh và mô hình tìm kiếm ảnh theo hướng tiếp cận ngữ nghĩa với kỹ thuật ontology. Việc phân tích và mô tả mô hình được thực hiện nhằm minh chứng tính khả thi và tính đúng đắn để từ đó làm cơ sở cho việc ứng dụng thực nghiệm. Chương 4: Kết quả thử nghiệm và đánh giá Trong chương này mô tả quá trình thực nghiệm và kết quả thực nghiệm trên cơ sở dữ liệu hình ảnh thu thập từ bộ dữ liệu ImageNet nổi tiếng. Kết quả thực nghiệm được phân tích đánh giá để từ đó đưa ra định hướng phát triển tiếp theo cho hệ thống sau này. 4
CHƯƠNG 1 TỔNG QUAN PHÂN TÍCH NGỮ NGHĨA HÌNH ẢNH Trong những năm gần đây, dữ liệu hình ảnh đã gia tăng một cách nhanh chóng cả về dung lượng lẫn về thể loại. Các dữ liệu hình ảnh đều phục vụ cho nhiều lĩnh vực quan trọng trong cuộc sống như trong các hệ thống giao thông, an ninh, y tế,... Vì thế việc phân tích một lượng lớn dữ liệu ảnh để nhận dạng, phân loại và tìm kiếm đóng vai trò hết sức quan trọng trong các hệ thống đa phương tiện. Các nhà khoa học trong thập kỷ qua đã đề xuất rất nhiều phương pháp tiếp cận hiệu quả cho tìm kiếm hình ảnh đang có xu hướng trở nên phổ biến. Với nguồn tài nguyên ảnh vô cùng to lớn trên mạng internet, thì việc tìm kiếm chính xác một bức ảnh đúng với yêu cầu của người dùng đối với thế hệ Web 2.0 đang gặp nhiều khó khăn. Chúng ta khó có thể tìm kiếm một bức ảnh theo cách thông thường, có nghĩa là việc tìm kiếm được thực hiện lần lượt trên từng tấm ảnh cho đến khi tìm thấy đúng ảnh có nội dung cần tìm. Hơn nữa, theo sự phát triển của công nghệ số, nguồn tài nguyên ảnh trên mạng internet ngày càng nhiều. Do đó, nhu cầu thật sự đòi hỏi chúng ta phải có một công cụ hỗ trợ cho việc tìm kiếm ảnh chính xác là hết sức thiết thực trong thời đại cách mạng công nghiệp 4.0. Vì vậy, sự ra đời của Web ngữ nghĩa [6] đã mở ra một bước tiến của công nghệ Web. Web ngữ nghĩa (Web 3.0) là bước tiến lớn so với kỹ thuật của Web 2.0 về khả năng làm việc với thông tin thay vì chỉ đơn thuần là lưu trữ, cùng với xử lý ngôn ngữ tự nhiên, trí thông minh nhân tạo,… đã giúp cho web ngữ nghĩa có cấu trúc hoàn chỉnh và mang ngữ nghĩa mà máy tính có thể “hiểu” được. Những thông tin này, có thể được sử dụng lại mà không cần qua các bước tiền xử lý. Khi sử dụng các máy tìm kiếm thông thường (Google, Yahoo…), tìm kiếm thông tin trên Web ngữ nghĩa sẽ không tận dụng được những ưu điểm vượt trội của Web ngữ nghĩa, kết quả trả về không có sự thay đổi. Nói theo một cách khác thì với các máy tìm kiếm hiện tại Web ngữ nghĩa hay Web thông thường chỉ là một. 5
Do vậy, cần thiết có một hệ thống tìm kiếm ngữ nghĩa (Semantic Search) tìm kiếm trên Web ngữ nghĩa hay trên một mạng tri thức mang ngữ nghĩa, kết quả trả về là các thông tin có cấu trúc hoàn chỉnh mà máy tính có thể “hiểu” được, nhờ đó việc sử dụng hay xử lý thông tin trở nên dễ dàng hơn. Quá trình truy xuất và hiển thị hình ảnh có liên quan dựa trên các truy vấn của người dùng từ web hoặc cơ sở dữ liệu hình ảnh. Nói chung các phương pháp truy xuất hình ảnh được phân thành ba loại kỹ thuật chính bao gồm tìm kiếm dựa trên đặc trưng văn bản đi kèm ảnh, dựa trên đặc trưng nội dung ảnh và tìm kiếm ảnh theo ngữ nghĩa với vai trò của ontology trong việc sử dụng bản thể học miền (domain ontology) cụ thể để truy xuất hình ảnh có liên quan đến truy vấn của người dùng. Ontology được coi là trọng tâm của web ngữ nghĩa và sẽ là kỹ thuật chính trong tìm kiếm ảnh theo tiếp cận ngữ nghĩa. 1.1. Đặc trưng văn bản đi kèm ảnh Mỗi ảnh trên web thường có các văn bản đi kèm như là tên ảnh (title), các thẻ (tags), bình luận (comment),…để mô tả các thông tin về ảnh, đây là các dữ liệu mô tả về ảnh (metadata). Các dữ liệu này thường do người dùng tạo ảnh gắn cho mỗi ảnh, vì vậy chúng đều mang một ý nghĩa nhất định. Độ quan trọng của các loại siêu dữ liệu khác nhau cũng khác nhau. Ví dụ, các thẻ thường quan trọng hơn tên ảnh, tên ảnh quan trọng hơn bình luận. Dưới đây là một ví dụ về văn bản đi kèm một ảnh: • Title: “Red_Rose Flower” • Tags: “redRoseflower, hongkongflowershow, 2009, bokeh, ausewaybay, hongkong, jonnoj, jonbinalay, nikond80, interestingness50” • Description: “HEAVEN SCENT"...FOR THE LOVE OF THE RED ROSE... • Content: 6
Hình 1.1: Ví dụ hiển thị một ảnh Vì văn bản đi kèm ảnh mang ngữ nghĩa về nội ảnh cho nên hai bức ảnh có nội dung giống nhau thường có tên giống nhau và các thẻ tương tự nhau. Vì vậy, các công cụ tìm kiếm ảnh theo văn bản đi kèm thường tập trung khai thác nội dung của các văn bản này để tìm kiếm và xếp hạng ảnh. Phương pháp này cho kết quả khả quan cũng như đáp ứng nhanh nhu cầu của người sử dụng. Tuy nhiên, với các câu truy vấn mang ý nghĩa nhập nhằng có thể các kết quả trả về sẽ không đúng với yêu cầu đặt ra. Ví dụ khi truy vấn là “d-80”, một máy ảnh phổ biến của Nikon, thì các hệ thống trả về kết quả khá tốt như Hình 1.2 kết quả với truy vấn máy ảnh Nikon “d-80”. Hình 1.2: Ví dụ truy vấn “d-80” của Google 7