XML, Metadata và Dublin Core Metadata
1. XML
1.1 Khái quát sự ra đời và phát triển của XML
(Tham khảo: http://www.w3.org/TR/REC-xml/
XML (eXtensible Markup Language): là ngôn ngtạo cấu trúc dữ liệu
văn bản được phát triển từ đầu năm 1996 dựa theo và tn dng những điểm
mạnh của chuẩn SGML (Standard Generalized Markup Language: được coi
như siêu ngôn ng khnăng sinh ngôn ng khác), cùng những kinh
nghiệm được từ ngôn ngữ HTML (HyperText Markup Language). SGML
phát trin cho việc định cu trúc và ni dung tài liệu điện tử do t chc ISO
(International Organization for Standardization) chun hóa năm 1986.
SGML là do IBM đưa ra nhưng đưc phát trin bởi W3C (World Wide
Web Consortium: t chức độc lập định ra tiêu chuẩn cho định dng Web,
máy chvà ngôn ngữ), nhưng đặc tả XML lại do Netscape, Microsoft và các
thành viên d án Text Encoding Intiative (TEI) xây dựng. Tổ chức W3C
XML Special Interest Group đi diện từ hơn 100 công ty cùng nhiu
chuyên gia được mời khác. W3C chính thức thông qua chun XML vào tháng
2/1998.
XML một hệ thống luật dùng cho vic thiết kế các khổ mẫu
(format) cho n bn giúp tạo cấu trúc cho dữ liệu. Trong thực tế XML
không phải là một ngôn ngữ lập trình, XML giúp máy tính ddàng tạo dữ
liệu, đọc dữ liệu, trao đổi dữ liệu và làm cho cu trúc dữ liệu trở nên ràng
và dễ hiểu hơn, ngoài ra XML còn có th mở rộng, có nền tảng hoàn toàn độc
lập và htrợ tính quốc tế hóa, ni địa hóa. XML htrợ hoàn toàn unicode.
1.2. XML và HTML
Trong thc tế bn thân ngôn ngữ XML nguồn gốc giống như nn
ngđịnh dng siêu văn bản HTML (HyperText Markup Language) từ chuẩn
ngôn ngữ định dạng văn bản tổng quát có cấu trúc SGML. Mỗi văn bn XML
cũng sử các thẻ (tags), các từ được đặt trong ngoặc với ‘’ (mở đóng)
dùng thuộc tính tên gọi ca các phần tử (element) với mẫu name= “value”.
Trong khi HTML đặc biệt chú ý tới từng thẻ (tag) thuộc tính
(attribute) có ý nghĩa gì và phần văn bản giữa các thẻ đó hin thị như thế nào
trên trình duyệt thì XML sdụng các thẻ chỉ để phân định ranh giới giữa các
đoạn dữ liệu và coi việc đc và xdữ liệu hoàn toàn nhiệm vụ của các
ứng dụng. Nhưng khác với ngôn ngữ HTML, số lượng và tên gi các phần t
trong XML là không hạn chế.
XML là một văn bản nhưng không giống với những loại văn bn thông
thường mà ta có thể đọc được. Các chương trình dùng đ tạo các dữ liệu được
cấu trúc hóa tng thường được lưu dữ liệu trên đĩa cứng, sdụng khuôn
dạng text hay nhị phân. Một thuận lợi của khuôn dạng văn bn là cho phép
người đọc thể đc với bất kỳ bsoạn thảo văn bn nào tùy thích. Các
khuôn dạng n bản ng cho phép tìm lỗi dễ dàng hơn trong các ứng dụng.
Giống như HTML các file XML những file văn bản được tạo ra không
phải với mục đích đđc, nhưng vẫn có thể đọc nếu thấy cần thiết. Tuy nhiên
XML điểm không bằng HTML, các luật dùng trong XML rất hn chế, chỉ
cần quên mt thẻ, hay một thuc tính không đi kèm với nội dung sẽ làm cho
toàn bfile XML đó ngừng hoạt động, trong khi đó lỗi này file HTML
thể được bỏ qua.
XML được xem như ngôn ngữ mạnh hơn HTML do mang lại
thông tin đầy đủ về dữ liệu. XML cung cấp “siêu dliệu” metadata hay n
được gọi là “dliệu về d liệu” (data about data). XML cho phép các nhà
phát triển và qun trng nghệ thông tin tả thông tin có liên quan ti các
nguồn thông tin khác. Đây phương pháp khai thác thông tin lý tưởng trong
môi trưng trao đổi thông tin từ các y chng dụng cũng như từ các ng
dụng với nhau. Cấu trúc chặt chẽ của XML (ni dung được đặt giữa các thẻ
metadata) cho phép các ứng dụng dễ dàng tìm kiếm và sdụng nội dung đã
tạo. Môi trường tài liệu XML trở thành một kho dliệu hỏi-đáp (query data
repository) tương tự ncơ sở dữ liệu. Ngôn ngữ XML là giải pháp tích hp
cho vấn đề trao đổi dữ liu t đng giữa các kho thông tin trên mạng Internet.
Một biểu ghi XML đơn giản có dng như sau:
encoding="utf-8" standalone="yes"?>
Kinh tế học vi mô
Ngô Đình Giao
Kinh tế vĩ
Thống kê
2006
Chuẩn trao đi các dữ liu trên Internet hiện nay đã được tổ chức tiêu
chuẩn quốc gia của Mỹ thông qua nhằm thay thế cho các chuẩn cũ không còn
phù đó là chuẩn ANSI/NISO Z39.85-2001
(tham khảo: http://www.niso.org/standards/resources/Z39-85.pdf). Nội dung
chủ yếu ca chuẩn mô tả dữ liệu này gồm 15 trường dữ liệu còn được gọi là
chuẩn Dublin Core Metadata. Đây là các trường dữ liệu phổ biến và hữu ích
nhất kèm theo một tài liu shóa để trao đổi trên mạng Internet.
Hiện nay các thư viện và trung tâm thông tin lớn trên thế giới đang có
xu hướng sử dụng chuẩn XML thay thế cho chuẩn Marc 21 đã không còn phù
hợp cho công tác biên mục trao đổi dữ liệu như (Tviện Y hc Quốc gia
M, các thư viện của Pháp, Anh, Nhật Bản...)
2. Metadata
2.1. Siêu dữ liệu là ?
Siêu d liệu (metadata) dùng đ tả tài nguyên thông tin. Thuật ngữ
“meta” xut xứ là một tHy Lạp đùng để chmột cái gì đó bn chất
bản hơn hoặc cao hơn. Vì vậy metadata là dữ liệu về dữ liu.
Theo tiến sĩ Warwick Cathro (Thư vin Quốc gia Úc) thì “siêu dliệu
là những thành phần mô tả tài nguyên thông tin hoặc hỗ trợ thông tin truy cập
đến tài nguyên thông tin”. Cthể trong tài liệu thì siêu dliu được xác định
là “dliệu mô tả c thuộc tính của đối tượng thông tin và trao cho các thuộc
tính này ý nghĩa, khung cảnh và tchức. Siêu dliệu còn thđược định
nghĩa là dữ liệu có cấu trúc về dữ liệu”.
Theo Gail Hodge siêu dliệu là “thông tin cu trúc mà tả,
giải thích, định vị, hoặc làm cho nguồn tin trở nên d tìm kiếm, s dụng và
quản hơn. Siêu dliu được hiểu là dliệu về dữ liệu hoặc thông tin về
thông tin”
Nói tóm lại thì siêu dữ liệu là tng tin tả tài nguyên thông tin.
Mục đích đầu tiên yêu cầu cốt lỗi nhất của siêu dữ liu (metadata) là
góp phần mô tả và tìm li c tài liệu điện tử trên mng Internet. Sự phát triển
mạnh mẽ của Internet đã tạo ra sbùng nca các loại dữ liu đa dạng
dạng số, văn bản, âm thanh, hình ảnh, tài liệu đa phương tiện. Những tài liệu
này thtruy cập được trên mạng Internet song việc tìm kiếm chúng một
cách hiệu quả và khoa học như với các hthng thông tin trực tuyến là hết
sức khó khăn. Để góp phần tăng cường chất ng tìm kiếm các tài liệu số
trên mng Internet, người ta đã đưa ra giải pháp sdụng siêu d liệu.
Thực ra trong hoạt đng thông tin thư viện truyền thống, từ u đã
những khái niệm liên quan đến siêu d liệu. c bản thư mục chứa các dữ
liệu mô tả đối tượng như cho sách , cho tạp chí thì chúng cũng được coi như
mt dạng siêu dliệu. Với việc tự động hóa công tác biên mục, phiếu thư