intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn Thạc sĩ Công nghệ thông tin: Phân lớp ngữ nghĩa hình ảnh dựa trên mạng nơ-ron tích chập

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:85

19
lượt xem
6
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Trong luận văn này, đề xuất mô hình học sâu là mạng nơ-ron tích chập trong việc phân loại tập ảnh. Đồng thời, kết hợp ngữ nghĩa vào việc tìm kiếm dựa trên một domainontology để mô tả các mối quan hệ giữa các chủ đề ảnh cần phân lớp. Phương pháp tìm kiếm này không những hiệu quả và chính xác hơn phương pháp tìm kiếm dựa trên meta - data hoặc nội dung của ảnh mà còn cho phép mở rộng và đa dạng hóa kết quả tìm kiếm thông qua việc kết hợp ngữ nghĩa vào việc tìm kiếm.

Chủ đề:
Lưu

Nội dung Text: Luận văn Thạc sĩ Công nghệ thông tin: Phân lớp ngữ nghĩa hình ảnh dựa trên mạng nơ-ron tích chập

  1. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÀ RỊA-VŨNG TÀU --------  -------- TRƯƠNG HỮU CHIẾN PHÂN LỚP NGỮ NGHĨA HÌNH ẢNH DỰA TRÊN MẠNG NƠ-RON TÍCH CHẬP LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN BÀ RỊA VŨNG TÀU - 2020
  2. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÀ RỊA-VŨNG TÀU --------  -------- TRƯƠNG HỮU CHIẾN PHÂN LỚP NGỮ NGHĨA HÌNH ẢNH DỰA TRÊN MẠNG NƠ-RON TÍCH CHẬP Chuyên ngành: Công nghệ thông tin Mã ngành: 8480201 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. VĂN THẾ THÀNH BÀ RỊA VŨNG TÀU - 2020
  3. LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Phân lớp ngữ nghĩa hình ảnh dựa trên mạng nơ-ron tích chập” là công trình nghiên cứu của tôi dưới sự hướng dẫn của giảng viên hướng dẫn, không trùng lắp của người khác. Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên quan trong nước và quốc tế. Các tài liệu được luận văn tham khảo, kế thừa và trích dẫn đều được liệt kê trong danh mục các tài liệu tham khảo. Tôi xin chịu hoàn toàn trách nhiệm về lời cam đoan trên. Bà rịa - Vũng tàu, ngày 12 tháng 12 năm 2020. Học viên Trương Hữu Chiến i
  4. LỜI CẢM ƠN Trước tiên, tôi xin gửi lời cảm ơn và bày tỏ sự biết ơn chân thành tới TS.Văn Thế Thành – Giáo viên hướng dẫn khoa học đã trực tiếp hướng dẫn tôi, đã hết lòng hỗ trợ và giúp đỡ tôi trong quá trình nghiên cứu và hoàn thiện luận văn của mình. Tôi cũng xin gửi lời cảm ơn chân thành tới các thầy, các cô là giảng viên của Trường Đại học Bà Rịa Vũng Tàu đã tạo những điều kiện thuận lợi cho tôi học tập và nghiên cứu trong suốt quá trình học tập tại trường. Và tôi cũng muốn gửi lời cảm tới các anh, chị, em lớp MIT18K1 khóa đầu tiên Thạc sĩ ngành công nghệ thông tin, luôn bên cạnh và động viên tôi trong suốt thời gian học tập và quá trình thực hiện luận văn tốt nghiệp. Cuối cùng, tôi cũng xin gửi lời cảm ơn tới cha, vợ và các con, và những người thân trong gia đình tôi, đã chăm lo, động viên tôi tích cực học tập và hoàn thành thật tốt khóa học thạc sĩ này. Vì thời gian có hạn, mặc dù đã hết sức cố gắng hoàn thành luận văn nhưng chắc chắn sẽ không tránh khỏi những thiếu sót. Rất mong nhận được sự cảm thông, chia sẻ, đóng góp ý kiến tận tình của quý thầy cô và các bạn để luận văn được hoàn thiện hơn. Tôi xin chân thành cảm ơn! ii
  5. MỤC LỤC LỜI CAM ĐOAN ............................................................................................................. i MỤC LỤC ...................................................................................................................... iii DANH MỤC CÁC TỪ VIẾT TẮT ............................................................................... vi DANH MỤC HÌNH VẼ ................................................................................................... i DANH MỤC BẢNG BIỂU ............................................................................................ iv LỜI MỞ ĐẦU .................................................................................................................. 1 CHƯƠNG 1 ..................................................................................................................... 5 TỔNG QUAN PHÂN TÍCH NGỮ NGHĨA HÌNH ẢNH ............................................ 5 1.1. Đặc trưng văn bản đi kèm ảnh ................................................................................ 6 1.2. Đặc trưng nội dung ảnh ........................................................................................... 8 1.3. Hướng tiếp cận theo ngữ nghĩa hình ảnh .............................................................. 10 1.4. Trích xuất đặc trưng .............................................................................................. 13 1.4.1. Ý nghĩa của trích xuất đặc trưng .................................................................. 14 1.4.2. Các đặc trưng phổ biến ................................................................................ 14 1.5. Các nghiên cứu liên quan ...................................................................................... 15 1.6. Kết luận ................................................................................................................. 17 CHƯƠNG 2 ................................................................................................................... 18 TỔNG QUAN VỀ MẠNG NƠ-RON TÍCH CHẬP ................................................... 18 2.1. Giới thiệu .............................................................................................................. 18 2.2. Một số khái niệm .................................................................................................. 20 2.3. Kiến trúc mạng nơ-ron tích chập.............................................................................. 21 iii
  6. 2.3.1. Lớp tích chập (Convolutional) ...................................................................... 23 2.3.2. Hàm kích hoạt ReLU .................................................................................... 27 2.3.3. Lớp lấy mẫu (Pooling) ................................................................................. 28 2.3.4. Lớp kết nối đầy đủ ........................................................................................ 29 2.4. Kỹ thuật tối ưu mạng ............................................................................................ 31 2.5. Một số Kiến trúc mạng CNN phổ biến ................................................................. 32 2.5. 1. Kiến trúc LeNet-5 ........................................................................................ 33 2.5. 2. Kiến trúc AlexNet ........................................................................................ 34 2.5. 3. Kiến trúc VGG-16 ....................................................................................... 36 2.5.4. Kiến trúc Inception (GoogleLeNet) .............................................................. 38 2.6. Kết luận ................................................................................................................. 40 CHƯƠNG 3 ................................................................................................................... 41 ĐỀ XUẤT MÔ HÌNH PHÂN LOẠI ẢNH VÀ KẾT HỢP ........................................ 41 TÌM KIẾM THEO NGỮ NGHĨA ............................................................................... 41 3.1. Kiến trúc của hệ thống .......................................................................................... 41 3.2. Mô hình phân lớp hình ảnh bằng CNN ................................................................. 42 3.3. Mô hình tìm kiếm theo ngữ nghĩa......................................................................... 46 3.3.1. Các chú thích cho hình ảnh .......................................................................... 47 3.3.2. Phát triển Ontology ...................................................................................... 49 3.3.3. Ontology hình ảnh ........................................................................................ 50 3.3.4. Truy xuất hình ảnh ngữ nghĩa (SIR-Semantic Image Retrieval) .................. 53 3.4. Kết luận ................................................................................................................. 55 iv
  7. CHƯƠNG 4 ................................................................................................................... 56 KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ ........................................................... 56 4.1. Môi trường và các công cụ sử dụng cho thực nghiệm .......................................... 56 4.2. Tập dữ liệu thực nghiệm ....................................................................................... 56 4.3. Xây dựng mô hình phân loại ảnh cho hệ thống tìm kiếm ..................................... 58 4.3.1. Vai trò của Dropout ..................................................................................... 60 4.3.2. Ảnh hưởng của Batch size đến kết phân lớp dữ liệu .................................... 61 4.4. Kết quả tìm kiếm ảnh theo ngữ nghĩa ................................................................... 62 4.5. Kết luận ................................................................................................................. 69 TÀI LIỆU THAM KHẢO ............................................................................................ 70 Tiếng Việt .................................................................................................................... 70 Tiếng Anh .................................................................................................................... 70 v
  8. DANH MỤC CÁC TỪ VIẾT TẮT STT Từ viết tắt Tiếng anh Giải thích 01 AI Artificial Intelligence Trí tuệ nhân tạo 02 ANN Artificial Neural Network Mạng nơ-ron nhân tạo Content-Based Images 03 CBIR Tìm kiếm ảnh theo nội dung Retrieval Convolutional Neural 04 CNN Mạng nơ-ron tích tập Network 05 CSDL Database Cơ sở dữ liệu 06 DL Deep Learning Học sâu 07 DNN Deep Neural Network Mạng nơ-ron sâu 08 DT Decision Tree Cây quyết định 09 FNN Feedforward Neural Network Mạng nơ-ron truyền thẳng 10 GPU Graphic Proccessing Unit Bộ vi xử lý dữ liệu hình ảnh Histograms of Oriented 11 HOG Biểu đồ độ dốc định hướng Gradients 12 k-NN k-Nearest Neighbors K-láng giềng gần nhất Cuộc thi thử thách nhận biết ImageNet Large Scale Visual 13 ILSVRC hình ảnh quy mô lớn Recognition Challenge ImageNet 14 IoT Internet of Things Internet vạn vật 15 OWL Ontology Web language Ngôn ngữ ontology web 16 QBIC Query Based Image Content Truy vấn ảnh theo nội dung Semantic Based Image 17 SBIR Truy vấn ảnh theo ngữ nghĩa Retrieval vi
  9. Scale Invariant Feature Biến đổi đặc trưng cục bộ 18 SIFT Transform bất biến SIFT 19 SURF Speeded Up Robust Features Trích chọn đặc trưng SURF 20 SVM Support Vector Machine Máy vec-tơ hỗ trợ 21 ReLU Rectified Linear Unit Điều chỉnh đơn vị tuyến tính 22 RGB Red Green Blue Hệ màu cơ bản Resource Description 23 RDF Khung mô tả tài nguyên Framework 24 SIR Semantic Image Retrieval Truy vấn ảnh nghữ nghĩa SPARQL Protocol And RDF Ngôn ngữ truy vấn cho 25 SPARQL Query Language CSDL ngữ nghĩa Truy xuất hình ảnh dựa trên 26 TBIR Text-Based Image Retrieval văn bản vii
  10. DANH MỤC HÌNH VẼ Hình 1.1: Ví dụ hiển thị một ảnh……………………………………………….……………....7 Hình 1.2: Ví dụ truy vấn “d-80” của Google……………………………….………………..7 Hình 1.3: Ví dụ truy vấn “Apple” của Google……………………………….……………...8 Hình 1.4: Ví dụ về một số lọai kết cấu………………………………………….….………….9 Hình 1.5: Minh họa các tầng ngôn ngữ dùng trong ontology………..…….…………….13 Hình 2.1: Mô hình bộ não người……………………………………………………………..18 Hình 2.2: Mạng nơ-ron tích chập hay Convolutional Neural Networks (CNN)………..19 Hình 2.3: Kiến trúc của CNN………………………………………………………………….22 Hình 2.4: Mạng nơ-ron thông thường……………………………………………………….22 Hình 2.5: Mạng nơ-ron tích chập………………………………………….…...….…………22 Hình 2.6: Minh họa ảnh dữ liệu đầu vào và bộ lọc………………………………………..23 Hình 2.7: Minh họa tích chập ảnh đầu vào và kết quả Bảng đồ đặc trưng…………….24 Hình 2.8: Minh họa quá trình tích chập nhiều lớp…………………….…………………..26 Hình 2.9: Minh họa bảng đồ đặc trưng xếp chồng lên nhau………………….…………27 Hình 2.10: Các hàm kích hoạt…………………………………………….………………….28 Hình 2.11: Minh họa việc lấy mẫu con………………………………….………………......29 Hình 2.12: Một ví dụ về mô hình học sâu dựa trên mạng nơ-ron tích chập…….….….31 Hình 2.13: Mạng nơ-ron trước và sau quá trình Dropout…………………………….....32 i
  11. Hình 2.14: Mô hình Kiến trúc LeNet-5………………………………………………………34 Hình 2.15: Mô hình Kiến trúc AlexNet…………………………………….…………..…….35 Hình 2.16: Mô hình Kiến trúc AGG-16………….…………………………..………...……37 Hình 2.17: Mô hình dạng cell của Kiến trúc Inception…………………..………..……...38 Hình 2.18: Mô hình Kiến trúc Inception……………………………..……………..……....39 Hình 3.1: Kiến trúc của hệ thống…………………………………………………...……..…41 Hình 3.2: Áp dụng kiến trúc mạng AlexNet………………….…………………..………....42 Hình 3.3: Kiến trúc mạng AlexNet ở dạng phẳng……………………..……......……..….43 Hình 3.4: Minh họa hình ảnh qua các lớp trong kiến trúc AleNet………….……………45 Hình 3.5: Kiến trúc tìm kiếm ngữ nghĩa……………………..……………..……..…………46 Hình 3.6: Chú thích một hình ảnh……………………………………..…........…………….48 Hình 3.7: Chú thích ontology cho hình ảnh hoa hồng…………………….…..…………...48 Hình 3.8: Domain ontology của hệ thống……………………………….……………….…50 Hình 3.9: Liên kết hình ảnh với các ontology trong protégé………….………………….52 Hình 3.10: Mô hình từ khóa tìm kiếm với ngữ nghĩa…………………..……….……….…53 Hình 4.1: Tập huấn luyện từng phần……………………………….…………….………..…57 Hình 4.2: Biểu đồ Confusion matrix đánh giá theo các chủ đề ảnh …………….………59 Hình 4.3: Biểu đồ Precision đánh giá mô hình phân loại theo các chủ đề ảnh …...….60 Hình 4.4: Minh họa phân lớp dữ liệu hình ảnh……………………………...…………….62 ii
  12. Hình 4.5: Minh họa biểu đồ truy vấn khớp hình ảnh…………………...…………………63 Hình 4.6: Trường hợp thực nghiệm với hình ảnh ngựa vằn…………….……………….64 Hình 4.7: Trường hợp thực nghiệm với hình ảnh chú chó………………………………..65 Hình 4.8: Trường hợp thực nghiệm với từ khóa truy vấn “Dog”……………………..…66 Hình 4.9: Trường hợp thực nghiệm với từ khóa truy vấn “Monkey”……..……..…..…67 Hình 4.9: Tìm kiếm với từ khóa “Animal”…………………………………………………..68 iii
  13. DANH MỤC BẢNG BIỂU Bảng 4.1: Kết quả huấn luyện mô hình……………………………………………………..59 Bảng 4.2: Tỉ lệ lỗi khi thay đổi giá trị Dropout của hệ thống………………………..….60 Bảng 4.3: Kết quả phân lớp khi sử dụng dữ liệu với các batch size khác nhau…..…..61 iv
  14. LỜI MỞ ĐẦU 1. Đặt vấn đề Trong thời gian gần đây, với sự phát triển mạnh mẽ về khả năng tính toán của các thế hệ máy tính hiện đại cũng như sự bùng nổ về dữ liệu thông qua mạng internet, dữ liệu đa phương tiện ngày càng được phát triển nhanh chóng về mặt số lượng và kích thước, và với việc chia sẻ hình ảnh trên các trang web, các mạng xã hội, kích thước của bộ sưu tập hình ảnh kỹ thuật số đang gia tăng nhanh chóng về số lượng, độ phức tạp và tính đa dạng. Theo WordStream, năm 2019, mỗi ngày có 8.95 triệu ảnh, video được chia sẻ trên Instagram, mỗi năm một người tạo ra ít nhất 1.000 ảnh, mỗi năm tạo ra ít nhất 1 nghìn tỷ hình ảnh… Cùng với sự phát triển vượt trội của các công nghệ kỹ thuật số, công nghệ thông tin và sự phổ biến rộng rãi các thiết bị thông minh, dẫn đến dữ liệu hình ảnh trở nên thân thuộc với cuộc sống của con người và được ứng dụng trong nhiều lĩnh vực quan trọng, như hệ thống thông tin giao thông, hệ thống thông tin địa lý, hệ thống thông tin bệnh viện, hệ thống thư viện số, ứng dụng tìm kiếm ảnh trong y học, giáo dục đào tạo, giải trí,…[3]. Qua đó cho thấy dữ liệu cũng như số lượng ảnh ngày càng được gia tăng nên cần phải có nhiều hệ thống, phương thức truy vấn ảnh trên các thiết bị cũng như trong các hệ thống đa phương tiện. Chính vì thế, việc nghiên cứu và phát triển các hệ thống tra cứu ảnh là một bài toán quan trọng trong các hệ thống đa phương tiện và phù hợp với xu thế của xã hội hiện đại. Các nhà khoa học trong thập kỷ qua đã đề xuất rất nhiều phương pháp tiếp cận hiệu quả cho tìm kiếm hình ảnh. Với các hệ thống tìm kiếm ảnh sử dụng các văn bản đi kèm với ảnh (meta-data) hoặc theo nội dung (sự tương đồng) của ảnh giúp cho việc tìm kiếm đơn giản và hiệu quả. Tuy nhiên việc tìm kiếm ảnh trên thiếu cấu trúc ngữ nghĩa, nơi duy trì khả năng mở rộng thành phần và sự phụ thuộc lẫn nhau, nên vẫn còn một số hạn chế làm cho kết quả tìm kiếm chưa thật chính xác khi các mô tả này bị sai hoặc có thể các kết quả trả lại có 1
  15. chứa hình ảnh không liên quan. Các công nghệ ngữ nghĩa cung cấp cách tiếp cận đầy hứa hẹn cho việc tìm kiếm ảnh, giúp việc tìm kiếm hiệu quả và chính xác hơn. Bên cạnh đó, với sự phát triển vượt bậc của các phương pháp học sâu đã giúp thị giác máy tính đạt được những thành tựu đáng kể trong vấn đề nhận biết, phân tích, nhận dạng và phân loại dữ liệu ảnh trên mạng CNN kết hợp với các kỹ thuật tối ưu nhằm nâng cao khả năng phân loại các đối tượng và truy xuất dữ liệu ảnh [4]. Ưu điểm của CNN là tận dụng được tính năng trích chọn đặc trưng của lớp tích chập và bộ phân lớp được huấn luyện đồng thời. Nó có thể giải quyết các bài toán với số lượng lớn các biến, tham số kích thước đầu vào lớn với hiệu năng cũng như độ chính xác vượt trội so với các phương pháp phân lớp truyền thống. Mạng nơ-ron tích chập CNN là mô hình được sử dụng phổ biến trong cộng đồng máy học cho hiệu quả trong các bài toán phân loại hình ảnh [5]. Từ những phân tích trên và sự gợi ý của giảng viên hướng dẫn, tôi quyết định chọn nội dung “Phân lớp ngữ nghĩa hình ảnh dựa trên mạng nơ-ron tích chập” để làm đề tài nghiên cứu thực hiện luận văn thạc sỹ của mình, với hy vọng có ý nghĩa và thiết thực, ứng dụng thành công các mô hình học sâu hiện đại để xây dựng một hệ truy vấn ảnh theo hướng tiếp cận ngữ nghĩa để tăng độ chính xác hơn so với các phương pháp tìm kiếm ảnh theo các văn bản đi kèm với ảnh hoặc theo nội dung của ảnh, nhằm phục vụ cho nhiều lĩnh vực khác nhau trong đời sống kinh tế xã hội, như nhận dạng và phân loại nông sản, thủy sản trong lĩnh vực nông nghiệp và nông thôn,… nhằm góp phần bắt nhịp xu hướng thời đại cách mạng công nghiệp 4.0, đã có tác động sâu sắc đến định hướng phát triển kinh tế xã hội ở nước ta trong nhiều lĩnh vực như nông nghiệp thông minh, giao thông thông minh, y tế thông minh,… 2. Mục tiêu của đề tài Trong luận văn này, đề xuất mô hình học sâu là mạng nơ-ron tích chập trong việc phân loại tập ảnh. Đồng thời, kết hợp ngữ nghĩa vào việc tìm kiếm dựa trên một domain- ontology để mô tả các mối quan hệ giữa các chủ đề ảnh cần phân lớp. Phương pháp tìm kiếm này không những hiệu quả và chính xác hơn phương pháp tìm kiếm dựa trên meta- 2
  16. data hoặc nội dung của ảnh mà còn cho phép mở rộng và đa dạng hóa kết quả tìm kiếm thông qua việc kết hợp ngữ nghĩa vào việc tìm kiếm. 2.1. Đối tượng nghiên cứu Đề tài tiếp cận nghiên cứu các đối tượng về ảnh số, trích xuất đặc trưng trên ảnh để làm cơ sở phân lớp dựa trên kỹ thuật mạng nơ-ron tích chập. Kết hợp ngữ nghĩa vào quá trình tìm kiếm dựa trên một domain ontology được xây dựng để mô tả các mối quan hệ ngữ nghĩa giữa các chủ đề ảnh. 2.2. Phương pháp nghiên cứu Thực hiện việc phân tích hình ảnh để trích xuất đặc trưng hình ảnh và phân lớp dữ liệu hình ảnh dựa trên mạng nơ-ron tích chập. Xây dựng một hệ truy vấn ảnh dựa trên dựa trên mô hình phân loại ảnh CNN và kết hợp với domain ontology để hỗ trợ tìm kiếm theo ngữ nghĩa. 2.3. Ý nghĩa của đề tài Về khoa học: Đề tài sẽ mang ý nghĩa cung cấp về mặt lý thuyết để làm rõ về phương pháp và kỹ thuật phân loại ảnh, truy vấn ảnh theo ngữ nghĩa. Về thực tiễn: Góp phần cho việc truy vấn ảnh theo ngữ nghĩa dựa trên mô hình phân loại ảnh CNN và kết hợp với domain ontology để hỗ trợ tìm kiếm theo ngữ nghĩa. Cấu trúc luận văn được tổ chức gồm bốn chương, cụ thể như sau: Chương 1: Tổng quan phân tích ngữ nghĩa hình ảnh Nội dung chương này nhằm giới thiệu tổng quan phân tích ngữ nghĩa hình ảnh với những đặc trưng văn bản đi kèm ảnh, đặc trưng nội dung ảnh, hướng tiếp cận ngữ nghĩa hình ảnh và điểm qua một số nghiên cứu, công trình liên quan với phân tích ưu nhược điểm. Từ đó làm cơ sở cho quá trình đề xuất một phương pháp tra cứu ảnh theo ngữ nghĩa dựa trên mô hình phân loại ảnh CNN. 3
  17. Chương 2: Tổng quan về Mạng nơ-ron tích chập Trình bày tổng quan về mạng nơ-ron tích chập, với kiến trúc mạng qua lớp tích chập nhằm trích xuất đặc trưng ảnh, biểu diễn vector đặc trưng cho việc phân loại ảnh,… và kỹ thuật tối ưu mạng nhằm hạn chế overfiting. Bên cạnh đó cũng điểm qua một số kiến trúc mạng CNN phổ biến, qua đó đề xuất mô hình cho bài toán phân lớp dữ liệu hình ảnh trong chương sau. Chương 3: Đề xuất mô hình phân loại ảnh và kết hợp tìm kiếm theo ngữ nghĩa. Trong chương này đề xuất kiến trúc cho hệ thống với một mô hình cụ thể cho bài toán phân lớp dữ liệu hình ảnh và mô hình tìm kiếm ảnh theo hướng tiếp cận ngữ nghĩa với kỹ thuật ontology. Việc phân tích và mô tả mô hình được thực hiện nhằm minh chứng tính khả thi và tính đúng đắn để từ đó làm cơ sở cho việc ứng dụng thực nghiệm. Chương 4: Kết quả thử nghiệm và đánh giá Trong chương này mô tả quá trình thực nghiệm và kết quả thực nghiệm trên cơ sở dữ liệu hình ảnh thu thập từ bộ dữ liệu ImageNet nổi tiếng. Kết quả thực nghiệm được phân tích đánh giá để từ đó đưa ra định hướng phát triển tiếp theo cho hệ thống sau này. 4
  18. CHƯƠNG 1 TỔNG QUAN PHÂN TÍCH NGỮ NGHĨA HÌNH ẢNH Trong những năm gần đây, dữ liệu hình ảnh đã gia tăng một cách nhanh chóng cả về dung lượng lẫn về thể loại. Các dữ liệu hình ảnh đều phục vụ cho nhiều lĩnh vực quan trọng trong cuộc sống như trong các hệ thống giao thông, an ninh, y tế,... Vì thế việc phân tích một lượng lớn dữ liệu ảnh để nhận dạng, phân loại và tìm kiếm đóng vai trò hết sức quan trọng trong các hệ thống đa phương tiện. Các nhà khoa học trong thập kỷ qua đã đề xuất rất nhiều phương pháp tiếp cận hiệu quả cho tìm kiếm hình ảnh đang có xu hướng trở nên phổ biến. Với nguồn tài nguyên ảnh vô cùng to lớn trên mạng internet, thì việc tìm kiếm chính xác một bức ảnh đúng với yêu cầu của người dùng đối với thế hệ Web 2.0 đang gặp nhiều khó khăn. Chúng ta khó có thể tìm kiếm một bức ảnh theo cách thông thường, có nghĩa là việc tìm kiếm được thực hiện lần lượt trên từng tấm ảnh cho đến khi tìm thấy đúng ảnh có nội dung cần tìm. Hơn nữa, theo sự phát triển của công nghệ số, nguồn tài nguyên ảnh trên mạng internet ngày càng nhiều. Do đó, nhu cầu thật sự đòi hỏi chúng ta phải có một công cụ hỗ trợ cho việc tìm kiếm ảnh chính xác là hết sức thiết thực trong thời đại cách mạng công nghiệp 4.0. Vì vậy, sự ra đời của Web ngữ nghĩa [6] đã mở ra một bước tiến của công nghệ Web. Web ngữ nghĩa (Web 3.0) là bước tiến lớn so với kỹ thuật của Web 2.0 về khả năng làm việc với thông tin thay vì chỉ đơn thuần là lưu trữ, cùng với xử lý ngôn ngữ tự nhiên, trí thông minh nhân tạo,… đã giúp cho web ngữ nghĩa có cấu trúc hoàn chỉnh và mang ngữ nghĩa mà máy tính có thể “hiểu” được. Những thông tin này, có thể được sử dụng lại mà không cần qua các bước tiền xử lý. Khi sử dụng các máy tìm kiếm thông thường (Google, Yahoo…), tìm kiếm thông tin trên Web ngữ nghĩa sẽ không tận dụng được những ưu điểm vượt trội của Web ngữ nghĩa, kết quả trả về không có sự thay đổi. Nói theo một cách khác thì với các máy tìm kiếm hiện tại Web ngữ nghĩa hay Web thông thường chỉ là một. 5
  19. Do vậy, cần thiết có một hệ thống tìm kiếm ngữ nghĩa (Semantic Search) tìm kiếm trên Web ngữ nghĩa hay trên một mạng tri thức mang ngữ nghĩa, kết quả trả về là các thông tin có cấu trúc hoàn chỉnh mà máy tính có thể “hiểu” được, nhờ đó việc sử dụng hay xử lý thông tin trở nên dễ dàng hơn. Quá trình truy xuất và hiển thị hình ảnh có liên quan dựa trên các truy vấn của người dùng từ web hoặc cơ sở dữ liệu hình ảnh. Nói chung các phương pháp truy xuất hình ảnh được phân thành ba loại kỹ thuật chính bao gồm tìm kiếm dựa trên đặc trưng văn bản đi kèm ảnh, dựa trên đặc trưng nội dung ảnh và tìm kiếm ảnh theo ngữ nghĩa với vai trò của ontology trong việc sử dụng bản thể học miền (domain ontology) cụ thể để truy xuất hình ảnh có liên quan đến truy vấn của người dùng. Ontology được coi là trọng tâm của web ngữ nghĩa và sẽ là kỹ thuật chính trong tìm kiếm ảnh theo tiếp cận ngữ nghĩa. 1.1. Đặc trưng văn bản đi kèm ảnh Mỗi ảnh trên web thường có các văn bản đi kèm như là tên ảnh (title), các thẻ (tags), bình luận (comment),…để mô tả các thông tin về ảnh, đây là các dữ liệu mô tả về ảnh (metadata). Các dữ liệu này thường do người dùng tạo ảnh gắn cho mỗi ảnh, vì vậy chúng đều mang một ý nghĩa nhất định. Độ quan trọng của các loại siêu dữ liệu khác nhau cũng khác nhau. Ví dụ, các thẻ thường quan trọng hơn tên ảnh, tên ảnh quan trọng hơn bình luận. Dưới đây là một ví dụ về văn bản đi kèm một ảnh: • Title: “Red_Rose Flower” • Tags: “redRoseflower, hongkongflowershow, 2009, bokeh, ausewaybay, hongkong, jonnoj, jonbinalay, nikond80, interestingness50” • Description: “HEAVEN SCENT"...FOR THE LOVE OF THE RED ROSE... • Content: 6
  20. Hình 1.1: Ví dụ hiển thị một ảnh Vì văn bản đi kèm ảnh mang ngữ nghĩa về nội ảnh cho nên hai bức ảnh có nội dung giống nhau thường có tên giống nhau và các thẻ tương tự nhau. Vì vậy, các công cụ tìm kiếm ảnh theo văn bản đi kèm thường tập trung khai thác nội dung của các văn bản này để tìm kiếm và xếp hạng ảnh. Phương pháp này cho kết quả khả quan cũng như đáp ứng nhanh nhu cầu của người sử dụng. Tuy nhiên, với các câu truy vấn mang ý nghĩa nhập nhằng có thể các kết quả trả về sẽ không đúng với yêu cầu đặt ra. Ví dụ khi truy vấn là “d-80”, một máy ảnh phổ biến của Nikon, thì các hệ thống trả về kết quả khá tốt như Hình 1.2 kết quả với truy vấn máy ảnh Nikon “d-80”. Hình 1.2: Ví dụ truy vấn “d-80” của Google 7
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2