LUẬN VĂN: ỨNG DỤNG WEB NGỮ NGHĨA TRONG LƯU TRỮ VÀ QUẢN LÍ CÁC TÀI LIỆU SỐ

Chia sẻ: Sunflower Sunflower_1 | Ngày: | Loại File: PDF | Số trang:68

Thêm vào BST

Báo xấu

385
lượt xem 99
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận văn này tìm hiểu chung nhất về kiến trúc của web ngữ nghĩa, dựa trên cách tiếp cận web ngữ nghĩa, tìm hiểu cách tích hợp ngữ nghĩa vào các thư viên số. Cấu trúc của luận văn gồm 3 chương:Chương 1: Tổng quan về Web ngữ nghĩaTìm hiểu chung nhất về kiến trúc của web ngữ nghĩa, các thành phần cơ bản làm nên web ngữ nghĩa.Chương 2: Tiếp cận Web ngữ trong lưu trữ và quản lí tài liệu sốTìm hiểu một trong những cách quản lí tài liệu số đó là thư viện số. Nghiên cứu...

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: LUẬN VĂN: ỨNG DỤNG WEB NGỮ NGHĨA TRONG LƯU TRỮ VÀ QUẢN LÍ CÁC TÀI LIỆU SỐ

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  Lương Đỗ Long ỨNG DỤNG WEB NGỮ NGHĨA TRONG LƯU TRỮ VÀ QUẢN LÍ CÁC TÀI LIỆU SỐ LUẬN VĂN THẠC SĨ KHOA HỌC HÀ NỘI - 2011
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  Lương Đỗ Long ỨNG DỤNG WEB NGỮ NGHĨA TRONG LƯU TRỮ VÀ QUẢN LÍ CÁC TÀI LIỆU SỐ Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60.48.05 LUẬN VĂN THẠC SĨ KHOA HỌC Cán bộ hướng dẫn khoa học: PGS. TS Đỗ Trung Tuấn HÀ NỘI - 2011
LỜI CAM ĐOAN Tôi xin cam đoan luận văn: “ỨNG DỤNG WEB NGỮ NGHĨA TRONG LƯU TRỮ VÀ QUẢN LÍ CÁC TÀI LIỆU SỐ” là kết quả nghiên cứu của riêng tôi, không sao chép của riêng ai. Các số liệu và bảng biểu là hoàn toàn chính xác và nội dung luận văn có tham khảo và sử dụng các tài liệu, thông tin đuợc đăng tải trên các tác phẩm, tạp chí và các trang web theo danh mục tài liệu của luận văn. Hà nội, ngày 02 tháng 05 năm 2011 Tác giả luận văn Lương Đỗ Long i
LỜI CẢM ƠN Trước tiên tôi xin chân thành cảm ơn PGS.TS Đỗ Trung Tuấn, người thầy đã hướng dẫn tận tình, chỉ bảo thẳng thắn và đã động viên tôi rất nhiều để tôi hoàn thành bản luận văn này. Tôi xin chân thành cảm ơn các thầy, cô giáo của Trường Đại học Công nghệ đặc biệt là các thầy, cô giáo trong bộ môn Hê thống Thông tin đã giảng dạy, động viên và tạo điều kiện thuận lợi cho tôi trong quá trình học tập và làm luận văn. Sau cùng, tôi xin đuợc gửi lời cám đến các bạn đồng nghiệp, các bạn học viên cao học khóa 15 - những người đã động viên, giúp đỡ tôi trong suốt quá trình học tập và thực hiện luận văn này. Hà nội, Mùa hè năm 2011 Tác giả luận văn Lương Đỗ Long ii
MỤC LỤC Chương 1. TỔNG QUAN VỀ WEB NGỮ NGHĨA .................................................1 1.1. Khái niệm Web ngữ nghĩa và Siêu dữ liệu .....................................................1 1.1.1. Khái niệm ................................................................................................1 1.1.2. Siêu dữ liệu .............................................................................................2 1.2. Kiến trúc Web ngữ nghĩa ...............................................................................3 1.3 Ngôn ngữ Cơ cấu mô tả tài nguyên và Bản thể luận ........................................8 1.3.1 Ngôn ngữ mô tả tài nguyên RDF ..............................................................8 1.3.2 Bản thể luận ........................................................................................... 15 1.3.3 Lược đồ RDF và truy vấn RDF............................................................... 16 Kết luận .............................................................................................................. 23 Chương 2. TIẾP CẬN WEB NGỮ NGHĨA TRONG LƯU TRỮ VÀ QUẢN LÍ TÀI LIỆU SỐ................................................................................................................ 24 2.1 Web ngữ nghĩa và thư viện số .......................................................................24 2.1.1 Thư viện số ngữ nghĩa ............................................................................ 24 2.1.2. Tổ chức tri thức trong thư viện .............................................................. 26 2.1.3. Web ngữ nghĩa trong thư viện số ........................................................... 26 2.2. Kiến trúc của thư viện số ngữ nghĩa ............................................................. 30 2.3. Bản thể luận cho thư viện số ngữ nghĩa ....................................................... 31 2.3.1. Bản thể luận biểu ghi thư mục ............................................................... 31 2.3.2. Bản thể luận cho cấu trúc nội dung ........................................................ 33 2.3.3. Cơ bản về sự phân loại .......................................................................... 34 2.3.4. Xây dựng Bản thể luận .......................................................................... 36 2.4. Thư viện số ngữ nghĩa và mạng xã hội......................................................... 37 2.5. Tìm kiếm trong thư viện ngữ nghĩa .............................................................. 38 iii
2.5.1. Tìm kiếm dựa trên sự phân loại ............................................................. 38 2.5.2. Tìm kiếm ngữ nghĩa .............................................................................. 38 Kết luận .............................................................................................................. 40 Chương 3. Xây dựng thư viện số ngữ nghĩa dựa trên phần mềm JeromeDL ........... 41 3.1 Giới thiệu phần mềm JeromeDL ...................................................................41 3.2. Kiến trúc và Bản thể luận trong JeromeDL .................................................. 42 3.2.1. Kiến trúc của JeromeDL ........................................................................ 42 3.2.2. Bản thể luận trong JeromeDL ................................................................ 44 3.3. Truy vấn trong JeromeDL ............................................................................ 48 3.4. Sử dụng JeromeDL ...................................................................................... 51 Kết luận .............................................................................................................. 53 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .............................................................. 54 TÀI LIỆU THAM KHẢO...................................................................................... 56 iv
Bảng kí hiệu thuật ngữ viết tắt Tên viết tắt Tiếng Việt Tiếng Anh Mạng toàn cầu WWW World Wide Web Tổ chức Mạng toàn cầu World Wide Web Consortium W3C Cơ cấu mô tả tài nguyên Resource Description Framework RDF Lược đồ Cơ cấu mô tả tài Resource Description Framework RDFS nguyên Scheme Ngôn ngữ đánh dấu mở rộng eXtensible Markup Language XML v
Danh mục hình ảnh Hình 1.1. Kiến trúc của Web ngữ nghĩa ................................ ................................ .......................... 4 Hình 1.2. Đồ thị RDF ................................ ................................ ................................ ................... 11 Hình 1.3. Quan hệ kế thừa ................................ ................................ ................................ ............ 17 Hình 1.4. Không gian miền và giới hạn của thuộc tính RDFS ................................ ....................... 20 Hình 2.1. Các thành phần hỗ trợ thư viện số ngữ nghĩa ................................ ................................ . 26 Hình 2.2. Biểu diễn cấu trúc tài liệu dưới dạng RDF ................................ ................................ ..... 29 Hình 2.3. Kiến trúc thư viện số ngữ nghĩa ................................ ................................ .................... 31 Hình 2.4. Bản thể luận BibTeX ................................ ................................ ................................ .... 32 Hình 2.5. Một dạng cây phân cấp ................................ ................................ ................................ . 35 Hình 2.6. Một Bản thể luận Cys ................................ ................................ ................................ ... 35 Hình 2.7. Quá trình tìm kiếm trong thư viện số ngữ nghĩa ................................ ............................ 39 Hình 2.8. Quá trình chia sẻ dữ liệu RDF ................................ ................................ ....................... 40 Hình 3.1. Giao diện của JeromeDL ................................ ................................ .............................. 42 Hình 3.2. Kiến trúc của JeromeDL ................................ ................................ ............................... 43 Hình 3.3. Bản thể luận MarcOnt ................................ ................................ ................................ ... 44 Hình 3.4. Bản thể luận cấu trúc nội dung ................................ ................................ ...................... 46 Hình 3.5. Mạng xã hội trong JeromeDL ................................ ................................ ....................... 48 Hình 3.6. Các bước trong truy vấn JeromeDL................................ ................................ ............... 49 Hình 3.7. Giao diện chức năng tìm kiếm ngữ nghĩa ................................ ................................ ...... 52 Hình 3.8. Giao diện chức năng xuất bản tài liệu ................................ ................................ ............ 53 vi
Danh mục bảng biểu Bảng 1. Các lớp trong RDFS ................................ ................................ ................................ ........ 18 Bảng 2. Các thuộc tính trong RDFS ................................ ................................ ............................. 19 Bảng 3. Các lớp, thuộc tính, thể hiện của Bản thể luận MarcOnt ................................ ................... 45 Bảng 4. Các lớp, thuộc tính, thể hiện của Bản thể luận cấu trúc nội dung ................................ ...... 47 vii
MỞ ĐẦU Web ngữ nghĩa (hay Semantic Web) là thế hệ mở rộng của Web hiện tại được đưa ra bởi Tim Berners-Lee vào khoảng năm 1998. Mục tiêu ban đầu của Semantic Web là để hỗ trợ người dùng tìm kiếm thông tin trên mạng một cách nhanh chóng, chuẩn xác và thông minh hơn so với các công cụ tìm kiếm truyền thống. Theo định nghĩa của tổ chức World Wide Web Consortium (W3C), web ngữ nghĩa là sự mở rộng của WWW hiện tại bằng cách thêm vào các mô tả ý nghĩa (hay ngữ nghĩa) của thông tin dưới dạng mà chương trình mà máy tính có thể hiểu được và do vậy cho phép xử lí thông tin có hiệu quả hơn. Web ngữ nghĩa cố gắng làm sao để máy tính hiểu được các khái niệm, mối quan hệ giữa các khái niệm, các thuộc tính và các tiến trình của chúng. Trong trường hợp này, máy tính có khả năng ra kết luận và trích xuất ra thông tin mới và có giá trị từ các dữ liệu đã tồn tại. Web ngữ nghĩa không phải là Trí tuệ nhân tạo (AI), nhưng nó có thể xem là một loại web thông minh, hay thế hệ phát triển tiếp theo của web. Nền tảng cơ bản làm nên web ngữ nghĩa là các siêu dữ liệu (metadata) và bản thể luận. Siêu dữ liệu có thể hiểu đơn giản là dữ liệu về dữ liệu, còn bản thể luận định nghĩa về các từ vựng được sử dụng trong các miền ứng dụng khác nhau. Các siêu dữ liệu có thể dùng để biểu diễn cho mọi loại tài nguyên (thực thể hoặc các khái niệm). Một cách để biểu diễn các khái niệm, và mối quan hệ giữa chúng trong một tài liệu là sử dụng ngôn ngữ mô tả tài nguyên RDF (Resource Description Framework). Các tài liệu số (tài nguyên) thường đường lưu trữ và truy cập qua các cổng thông tin và các thư viện số. Các thư viện số ngoài chức năng lưu trữ các tài liệu số, còn có chức năng cho phép người sử dụng tìm kiếm các tài liệu có liên quan một cách nhanh nhất. Các siêu dữ liệu là một trong những cách tiếp cận cho việc biên mục, phân loại và hỗ trợ tìm kiếm các tài liệu số. Trong cách biểu diễn bởi các siêu dữ liệu, các tài liệu số được “cấu trúc hóa” vào các siêu dữ liệu. Bất kì thông tin nào trong các thư viện số cũng có thể được biểu diễn bởi các siêu dữ liệu, với cách biểu diễn này sẽ thuận lợi cho việc quản lí và người dùng dễ dàng tìm kiếm ra các tài liệu gốc. Ngoài ra, cách tiếp cận này cho phép các thư viện số dễ dàng chia sẻ các tài nguyên với nhau dựa trên một chuẩn đặc tả chung. Việc tích hợp ngữ nghĩa vào các viii
thư viện số dựa trên kiến trúc của Web ngữ nghĩa làm cho thư viện số có nhiều ưu điểm hơn so với cách tiếp cận thông thường. Luận văn này tìm hiểu chung nhất về kiến trúc của web ngữ nghĩa, dựa trên cách tiếp cận web ngữ nghĩa, tìm hiểu cách tích hợp ngữ nghĩa vào các thư viên số. Cấu trúc của luận văn gồm 3 chương: Chương 1: Tổng quan về Web ngữ nghĩa Tìm hiểu chung nhất về kiến trúc của web ngữ nghĩa, các thành phần cơ bản làm nên web ngữ nghĩa. Chương 2: Tiếp cận Web ngữ trong lưu trữ và quản lí tài liệu số Tìm hiểu một trong những cách quản lí tài liệu số đó là thư viện số. Nghiên cứu cách tích hợp ngữ nghĩa vào các tài nguyên trong thư viện số: cơ chế biên mục và phân loại dựa trên ngữ nghĩa Chương 3: Xây dựng thư viện số ngữ nghĩa dựa trên phần mềm JeromeDL Giới thiệu phần mềm mã nguồn mở JeromeDL trong việc xây dựng các thư viện số ngữ nghĩa. ix
Chương 1. TỔNG QUAN VỀ WEB NGỮ NGHĨA Trong chương này, sẽ giới thiệu công nghệ cơ bản được sử dụng trong luận văn, bao gồm định nghĩa về web ngữ nghĩa, những nồ lực trong việc xây dựng web ngữ nghĩa từ web hiện tại, giới thiệu kiến trúc web ngữ nghĩa của tổ chức World WideWeb Consortium (W3C). Tìm hiểu về Bản thể luận và ngôn ngữ bản thể luận. 1.1. Khái niệm Web ngữ nghĩa và Siêu dữ liệu 1.1.1. Khái niệm Sau khi ra đời của Internet và World Wide Web (WWW), rất nhiều những nỗ lực đã được thực hiện và các công nghệ được phát triển nhằm mục đích làm cho World Wide Web tốt hơn, nhanh hơn, và thông minh hơn. Nhiều công nghệ, kiến nghị sau khi xuất hiện đã trở thành chuẩn chung chỉ trong một thời gian ngắn. Một trong những nỗ lực này là web ngữ nghĩa. Web ngữ nghĩa có thể được xem là sự mở rộng của web hiện tại. Web ngữ nghĩa không phải là Trí tuệ nhân tạo, nhưng có thể xem là một dạng web thông minh. Web ngữ nghĩa là sự mở rộng của WWW bằng cách thêm vào các mô tả ngữ nghĩa của thông tin dưới dạng mà chương trình máy tính có thể “hiểu” và do vậy cho phép xử lý thông tin hiệu quả hơn [3]. Xét về mặt bản chất, Semantic Web ngữ nghĩa chỉ là một công cụ để con người cũng như máy tính sử dụng để biểu diễn thông tin, hay nói chính xác hơn thì Web ngữ nghĩa chỉ là một dạng dữ liệu trên Web. Khác với các dạng thức dữ liệu được trình bày trong HTML, dữ liệu trong Semantic Web được đánh dấu, phân lớp, mô hình hóa, được bổ sung thêm các thuộc tính, các mối liên hệ… theo các lĩnh vực cụ thể, qua đó giúp cho các phần mềm máy tính có thể hiểu được dữ liệu và tự động xử lý được những dữ liệu đó. Có thể kể ra đây những ưu điểm của web ngữ nghĩa so với web hiện tại: Máy tính có thể hiểu được thông tin trên Web: Web ngữ nghĩa định nghĩa  các khái niệm và bổ sung quan hệ dưới dạng máy tính có thể hiểu được. Do 1
đó, việc tìm kiếm, đánh giá, xử lý, tích hợp thông tin có thể được tiến hành một cách tự động. Thông tin được tìm kiếm nhanh chóng và chính xác hơn: Với Web ngữ  nghĩa, máy tính có thể xác định một thực thể thuộc lớp hay thuộc tính cụ thể nào dựa trên ngữ cảnh chứa nó. Do đó thu hẹp không gian tìm kiếm và cho kết quả nhanh, chính xác hơn. Khả năng suy luận thông minh: Dựa vào các luật suy diễn trên cơ sở tri thức  về các thực thể, máy tính có khả năng sinh ra những kết luận mới. Dữ liệu liên kết động: Thay thế cách liên kết sử dụng hyperlink tĩnh trong  Web cũ, Web ngữ nghĩa liên kết dữ liệu từ nhiều nguồn khác nhau một cách hiệu quả hơn dựa trên định danh của tài nguyên (URI) và quan hệ giữa chúng. Cách liên kết này đôi khi còn được gọi là liên kết bằng siêu dữ liệu. Trong web ngữ nghĩa, với sự trợ giúp của các công nghệ khác, chúng ta có thể trợ giúp cho máy tính hiểu được các khái niệm, mối quan hệ giữa chúng, xử lí nhanh chóng, chính xác các truy vấn từ người dùng. 1.1.2. Siêu dữ liệu Một trong những nền tảng cơ bản làm nên web ngữ nghĩa là các siêu dữ liệu. Siêu dữ liệu dùng để mô tả tài nguyên thông tin, còn gọi là dữ liệu về dữ liệu. Mỗi thực thể hay khái niệm có thể có một hay nhiều siêu dữ liệu. Cho ví dụ, một khóa luận tốt nghiện có [một tác giả], [tên khóa luận], [cán bộ hướng dẫn], ... là các siêu dữ liệu về khóa luận. Chúng ta có thể đơn giản hóa việc phân loại và truy vấn dữ liệu bằng cách dùng các siêu dữ liệu. Mối liên hệ giữa siêu dữ liệu và tài nguyên thông tin mà nó mô tả có thể được thể hiện ở một trong hai cách sau:  Các phần tử metadata được chứa trong một biểu ghi tách biệt bên ngoài đối tượng mô tả.  Các phần tử metadata có thể được nhúng (gắn) vào bên trong tài nguyên mà nó mô tả. Trước đây với tài liệu truyền thống, các mô tả dữ liệu nằm ngoài đối tượng mô tả, như vậy siêu dữ liệu được lưu trữ một cách tách biệt bên ngoài đối tương mô tả. 2
Với tài liệu số, siêu dữ liệu của chúng được nhúng (gắn) trong bản thân tài nguyên hoặc liên kết với tài nguyên mà nó mô tả như trong trường hợp các thẻ meta của tài liệu HTML i. Sơ đồ siêu dữ liệu Sơ đồ siêu dữ liệu là tập hợp những yếu tố siêu dữ liệu được thiết kế cho mô tả một dạng tài nguyên thông tin cụ thể. Như vậy siêu dữ liệu là sơ đồ hình thức được xác định để mô tả tài nguyên thông tin cho đối tượng số hoặc không số. Thí dụ tập hợp yếu tố siêu dữ liệu Dublin Core có sơ đồ bao gồm 15 yếu tố cơ bản để mô tả tài nguyên thông tin. ii. Ngữ nghĩa Định nghĩa các yếu tố hoặc ý nghĩa đực gán cho các yếu tố siêu dữ liệu thì được gọi là ngữ nghĩa của sơ đồ. Mỗi sơ đồ siêu dữ liệu có ngữ nghĩa và cú pháp được quy định riêng. Ví dụ trong yếu tố siêu dữ liệu Dublin Core yếu tố “Creator” – dùng để xác định là tác giả của tài liệu, hoặc yếu tố “Title” – được hiểu là nhan đề của tài liệu. iii. Nội dung Giá trị (dữ liệu) của từng yếu tố được gọi là nội dung. Đó chính là giá trị của mỗi yếu tố siêu dữ liệu. Nhờ các sơ đồ dữ liệu, các chương trình xử lý tự động sẽ nhận biết đoạn dữ liệu nào sẽ thuộc thành phần nào, chẳng hạn đoạn dữ liệu này được nhận biết là nhan đề, đoạn dữ liệu kia được nhận biết là tác giả của tài liệu. 1.2. Kiến trúc Web ngữ nghĩa Để có được những khả năng như đã đề cập ở phần trên, web ngữ nghĩa cần có một hạ tầng chặt chẽ với nhiều lớp hỗ trợ. Dưới đây là kiến trúc tổng quát nhất của web ngữ nghĩa do tổ chức W3C đề xuất: 3
Hình 1.1. Kiến trúc của Web ngữ nghĩa i. Unicode và định danh tài nguyên thống nhất Tầng thấp nhất là tài nguyên (một đối tượng, một thực thể hay một khái niệm, v.v...), chúng được mô tả bằng các định danh tài nguyên thống nhất - Uniform Resource Identifier (URI). Mục đích của tầng này là xác định tính duy nhất của mỗi tài nguyên. Một tài nguyên có duy nhất một URI, tập con của URI là định vị tài nguyên thống nhất: Uniform Resource Locator (URL), nó chứa phương thức truy cập và vị trí của tài liệu trên mạng. Một tập con khác của URI là tên tài nguyên thống nhất : Uniform Resource Name (URN), cho phép xác định một tài nguyên mà không cần phải chứa địa chỉ và phương thức truy cập đến nó, ví dụ chỉ số ISBN là một URN. Việc sử dụng URI là rất quan trọng, vì nó cho phép xây dựng một hệ thống phân tán, trong đó các tài nguyên nằm ở nhiều nơi khác nhau trên mạng. Một biến thể khác của URI là định danh tài nguyên được quốc tế hóa: Internationalized Resource Identifier (IRI), nó cho phép sử đụng các kí tự Unicode trong định danh [1]. Để mã hóa các thông tin, dữ liệu ta sử dụng chuẩn mã hóa Unicode, đây là chuẩn thống nhất dùng để mã hóa các tập kí tự quốc tế. Nó cho phép tất cả các ngôn ngữ của tất cả các nước có thể được mã hóa thống nhất, tránh hiện tượng mỗi quốc gia lại sử dụng một chuẩn mã hóa riêng, gây khó khăn cho trao đổi dữ liệu. 4
ii. Biểu diễn XML Tầng tiếp theo là Ngôn ngữ đánh dẫu mở rộng: Extensible Markup Language (XML), nó được dùng để biểu diễn dữ liệu mà máy tính có thể hiểu và xử lí dữ liệu được. XML là công nghệ chính và là chuẩn của web hiện tại và trong tương lai. Với XML, máy tính có thể tích hợp và tương tác trao đổi dữ liệu với nhau. XML cung cấp một phương tiện dùng văn bản để mô tả thông tin và áp dụng một cấu trúc kiểu cây cho thông tin đó. Tại mức căn bản, mọi thông tin đều thể hiện dưới dạng text, chen giữa là các thẻ đánh dấu với nhiệm vụ ký hiệu sự phân chia thông tin thành một cấu trúc có thứ bậc của các dữ liệu ký tự, các phần tử dùng để chứa dữ liệu, và các thuộc tính của các phần tử đó. Đơn vị cơ sở của XML là các ký tự theo định nghĩa của Bộ ký tự toàn cầu (Universal Character Set). Các ký tự được kết hợp theo các tổ hợp chuỗi hợp lệ để tạo thành một tài liệu XML. Tài liệu này gồm một hoặc nhiều thực thể, mỗi thực thể thường là một phần nào đó của các ký tự thuộc tài liệu, được mã hóa dưới dạng một chuỗi các bit và lưu trữ trong một tệp văn bản. Các tệp XML có thể dùng cho nhiều loại dữ liệu đa phương tiện. RFC3023 định nghĩa các loại "application/xml" và "text/xml", với ý rằng dữ liệu được biểu diễn bằng XML mà không nói gì đến ngữ nghĩa của dữ liệu. Bằng cách cho phép các tên dữ liệu, cấu trúc thứ bậc được phép, và ý nghĩa của các phần tử và thuộc tính có tính chất mở và có thể được định nghĩa bởi một lược đồ tùy biến được (XML Scheme), XML cung cấp một cơ sở cú pháp (Document Type Definition - DTD) cho việc tạo lập các ngôn ngữ đánh dấu dựa XML theo yêu cầu. Cú pháp chung của các ngôn ngữ đó là cố định — các tài liệu phải tuân theo các quy tắc chung của XML, bảo đảm rằng tất cả các phần mềm hiểu XML ít ra cũng phải có khả năng đọc (phân tích cú pháp) và hiểu bố cục tương đối của thông tin trong các tài liệu đó. Lược đồ chỉ bổ sung một tập các ràng buộc cho các quy tắc cú pháp. Các lược đồ thường hạn chế tên của phần tử và thuộc tính và các cấu trúc thứ bậc được phép, ví dụ, chỉ cho phép một phần tử tên 'ngày sinh' chứa một phần tử tên 'ngày' và một phần tử có tên 'tháng', mỗi phần tử phải chứa đúng một ký tự. Có một khái niệm rất quan trọng trong XML là Không gian tên XML (XML namespace). Không gian tên XML là cơ chế cho phép gom các tên phân tử và thuộc tính vào một nhóm. Nó thường xuyên được dùng để phối hợp việc dùng tên phần tử (hay thuộc tính) từ nhiều nguồn khác nhau trong một tài liệu XML, mà vẫn tránh được nguy cơ trùng tên. Một Không gian tên là tập hợp các tên có thể dùng trong tài 5
liệu XML, như tên các phần tử, thuộc tính,..., nó gom các tên này vào các vùng riêng. iii. Trao đổi dữ liệu RDF Cơ cấu mô tả tài nguyên - RDF được W3C giới thiệu để cung cấp một cú pháp chuẩn để tạo, thay đổi và sử dụng các chú thích trong Web ngữ nghĩa. Một mệnh đề RDF là một bộ ba có dạng: [chủ đề], [thuộc tính], [đốitượng]. Trong đó, [chủ đề] là tài nguyên mà được mô tả bằng [thuộc tính] và [đối tượng]. [Thuộc tính] thể hiện mối quan hệ giữa [chủ đề] và [đối tượng]. Còn [đối tượng] ở đây có thể là một tài nguyên hoặc một giá trị. Ba thành phần trên trong RDF đều là các URI. Ví dụ về biểu diễn RDF của siêu dữ liệu Dublin Core: Lương Đỗ Long Các dạng khảo sát hàm số Giới thiệu các dạng khảo sát hàm số thường hay gặp trong các kì thi đại học 2000-01-20 Chi tiết về RDF sẽ được đề cập chi tiết ở phần sau. iv. Lược đồ RDF Để xác định ra cấu trúc và ngữ nghĩa của RDF, ngôn ngữ lược đồ RDF: RDF Scheme (hay RDFS) đã được đề xuất. RDFS là một ngôn ngữ Bản thể luận đơn giản của web ngữ nghĩa, được coi là một ngôn ngữ cơ sở của web ngữ nghĩa. RDFS cung cấp một phương tiện để đặc tả các từ vựng mô tả tính chất và quan hệ giữa các tài nguyên RDF, bao gồm: - Định nghĩa các lớp tài nguyên - Định nghĩa các quan hệ giữa các lớp - Định nghĩa các loại thuộc tính mà các lớp trên có 6
- Định nghĩa các mối quan hệ giữa các thuộc tính. v. Bản thể luận Đối với mỗi miền ứng dụng cụ thể, sẽ có một tập các khái niệm và các mối quan hệ, ràng buộc giữa chúng tạo thành một bản thể luận. Một khái niệm có thể là một lớp, một thuộc tính của một lớp hay bộ từ vựng sử dụng trong miền ứng dụng đó. Bộ từ vựng bản thể luận được xây dựng trên cơ sở tầng RDF và RDFS, cung cấp biểu diễn ngữ nghĩa mềm dẻo cho tài nguyên web và có khả năng hỗ trợ lập luận. Để xây dựng được các bộ từ vựng này, người ta đã sử dụng các ngôn ngữ bản thể luận để biểu diễn chúng như: RDFS, OIL, DAML, DAML+OIL, hay ngôn ngữ bản thể luận cho web (OWL), ... Các ngôn ngữ này cung cấp khả năng biểu diễn và hỗ trợ lập luận khác nhau và chúng dựa trên nền tảng là các ngôn ngữ logic mô tả tương ứng khác nhau. Để cung cấp các luật suy diễn dựa trên các ngôn ngữ bản thể luận, một số ngôn ngữ luật đang được phát triển và chuẩn hóa, chẳng hạn, ngôn ngữ Qui tắc trao đổi định dạng (Rule Interchange Format RIF ). Để truy vấn dữ liệu RDF trong một cơ sở tri thức, ngôn ngữ truy vấn RDF: Simple Protocol and RDF Query Language – SPARQL đã được đề xuất. Ngôn ngữ SPARQL là ngôn ngữ truy vấn tương tự như ngôn ngữ truy vấn có cấu trúc SQL dùng để thao tác với các hệ hệ quản trị CSDL quan hệ vi. Tầng Logic Việc biểu diễn các tài nguyên dưới dạng các bộ từ vựng ontology có mục đích là để máy có thể lập luận được. Mà cơ sở lập luận chủ yếu dựa vào logic. Chính vì vậy mà các ontology được ánh xạ sang logic, cụ thể là logic mô tả để có thể hỗ trợ lập luận. Vì logic mô tả có biểu diễn ngữ nghĩa hình thức và cung cấp các dịch vụ lập luận, là cơ sở để hỗ trợ máy tính có thể lập luận và hiểu tài nguyên. vii. Tầng chứng minh Tầng này đưa ra các luật để suy luận. Cụ thể từ các thông tin đã có ta có thể suy ra các thông tin mới. Ví dụ: A là cha của B, A là em trai C thì khi đó ta có thông tin mới là C là bác của B. Để có được các suy luận này thì cơ sở là FOL (First- Order-Logic). Và tầng này hiện nay các nhà nghiên cứu đang xây dựng các ngôn ngữ luật cho nó như: SWRL, RuleML. 7
Để đảm bảo dữ liệu đầu vào đáng tin cậy, có thể sử dụng mật mã, chẳng hạn như sử dụng chữ kí điện tử để thẩm định xuất xứ của nguồn dữ liệu [2] viii. Tầng xác nhận Đảm bảo tính tin cậy của các ứng dụng trên Web ngữ nghĩa. Ví dụ: có một mệnh đề: X là A, một mệnh đề khác lại xác định X không là A, như thế Web ngữ nghĩa là không đáng tin cậy? Câu trả lời ở đây được xem xét trong các ngữ cảnh. Mỗi ứng dụng trên web ngữ nghĩa sẽ có một ngữ cảnh cụ thể, chính vì thế các mệnh đề trên có thể nằm trong các ngữ cảnh khác nhau khi đó ngữ nghĩa tương ứng khác nhau nên các mệnh đề đó vẫn đúng, đáng tin cậy trong ngữ cảnh của nó. Để có được sự chứng minh về độ tin cậy thì các lập luận được áp dụng là không đơn điệu và có các cơ chế kiểm tra chứng minh kết hợp với công nghệ chữ ký điện tử để xác nhận độ tin cậy. Các ngôn ngữ chứng minh là ngôn ngữ cho ta chứng minh một mệnh đề là đúng hay sai. ix. Giao diện người dùng và ứng dụng Đây là tầng trực tiếp giao tiếp với người dùng và ứng dụng, tầng này cung cấp giao diện cho người dùng và các dịch vụ khác truy cập. 1.3 Ngôn ngữ Cơ cấu mô tả tài nguyên và Bản thể luận 1.3.1 Ngôn ngữ mô tả tài nguyên RDF Ngôn ngữ biểu diễn dữ liệu và tri thức là một khía cạnh quan trọng của Semantic Web. Như đã đề cập ở bên trên, XML là nền tảng cơ bản làm nên web ngữ nghĩa, tuy nhiên XML không đủ khả năng để tạo ra ngữ nghĩa trong web. Mặc dù XML cho phép người dùng thêm dữ liệu tùy ý vào cấu trúc tài liệu nhưng nó không đề cập gì đến ngữ nghĩa của tài liệu hàm chứa. Ngôn ngữ Cơ cấu mô tả tài nguyên - RDF được đề xuất nhằm khắc phục những nhược điểm của XML không thể giải quyết được. Định nghĩa cơ bản của ngôn ngữ RDF là dùng để mã hóa các siêu dữ liệu của các tài nguyên vào một bộ ba (RDF Triple): [chủ ngữ], [vị ngữ] và [đối tượng]. Ta biết rằng mỗi một thực thể hay khái niệm đều có các thuộc tính, mỗi thuộc tính đều có các giá trị, vì vậy mọi tài nguyên cũng đều có thể được biểu diễn qua ngôn ngữ RDF. XML cung cấp cú pháp để mã hóa dữ liệu, RDF là một cơ cấu chỉ ra điều gì đó về dữ liệu. RDF cung cấp một mô hình dữ liệu, và một cú pháp đơn giản sao cho 8
các hệ thống độc lập có thể trao đổi và sử dụng nó. RDF được thiết kế sao cho hệ thống máy tính có thể hiểu được và có thể đọc được thông tin, chứ không phải để trình bày dữ liệu cho người dùng. Là một thành phần của Web ngữ nghĩa, được đặt trên XML, RDF sử dụng cú pháp của XML để biểu diễn thông tin, điều này có nghĩa là các tài liệu RDF được viết bằng XML. Ngôn ngữ XML dùng để biểu diễn thông tin trong RDF được gọi là RDF/XML. Thông qua định dạng này, các thông tin trong RDF có thể được trao đổi dễ dàng giữa các hệ thống máy tính cũng như các hệ điều hành hay các ngôn ngữ lập trình ứng dụng khác nhau. RDF mô tả các nguồn tài nguyên bởi bộ ba [chủ ngữ], [vị ngữ], [ đối tượng]. Một [vị ngữ] là một khía cạnh, tính chất, thuộc tính, hay mối liên hệ mô tả cho một tài nguyên. Một phát biểu bao gồm một tài nguyên riêng biệt, một thuộc tính được đặt tên, và giá trị thuộc tính cho tài nguyên đó ([đối tượng]). Giá trị này cơ bản có thể là một tài nguyên khác hay một giá trị mang tính nghĩa đen hay dạng chuỗi văn bản tùy ý. [Chủ ngữ] và đối tượng được xác định qua Định danh tài nguyên thống nhất – URI, chẳng hạn chúng có thể là một liên kết của một trang web. Các [vị ngữ] cũng được xác định qua URI, do đó bất kì ai cũng có thể định nghĩa ra một khái niệm mới, một thuộc tính mới, bằng cách chỉ cần định nghĩa URI cho chúng. Bởi vì RDF sử dụng URI để biểu diễn các thông tin trong một tài liệu, các URI đảm bảo rằng các khái niệm không chỉ chứa văn bản thuần túy mà nó còn là định danh tài nguyên duy nhất mà tất cả người dùng có thể tìm kiếm được trên mạng. Trong RDF, các URI đóng một vai trò rất quan trọng: Chúng ta có thể tạo ra các (siêu) dữ liệu dựa trên bất kỳ một nguồn tài nguyên nào trên Web, ngữ nghĩa được đưa vào các nguồn tài nguyên Web thông qua các URI, và URI cho phép liên kết giữa các phần tử dữ liệu thông qua các thuộc tính. i. Mô hình dữ liệu RDF Sự kết hợp của một nguồn tài nguyên ([chủ ngữ]), một thuộc tính ([vị ngữ]) và một giá trị của thuộc tính được ([đối tượng]) được đặt trong một Phát_biểu. Ví dụ một câu nói như sau: “Giám đốc của công ty Garden Network là Nguyễn Văn A”. Như vậy, ta có thể biểu diễn bởi một Phát_biểu với các “thông số” sau: - Chủ ngữ của Phát_biểu RDF là: “Công ty Garden Network” - Tính chất là: “Giám đốc” - Đối tượng là: “Nguyễn Văn A” 9