intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Thư viện số: Các chuẩn sử dụng trong Digital Libraries - TS. Đỗ Quang Vinh

Chia sẻ: Dương Hoàng Lạc Nhi | Ngày: | Loại File: PPT | Số trang:133

33
lượt xem
6
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng Thư viện số: Các chuẩn sử dụng trong Digital Libraries. Bài này cung cấp cho học viên những nội dung về: chuẩn trình bày ASCII, Unicode, SGML, HTML, XML, GIF, JPG, TIF, PNP; chuẩn biên mục tự động; chuẩn mô tả siêu dữ liệu;... Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Bài giảng Thư viện số: Các chuẩn sử dụng trong Digital Libraries - TS. Đỗ Quang Vinh

  1.       PHD. DO QUANG VINH         Email: dqvinh@live.com HANOI ­ 2013 1
  2. BÀI GIẢNG THƯ VIỆN SỐ       TS. Đ        Ỗ QUANG VINH      Email: dqvinh@live.com HÀ NỘI ­ 2013 2
  3. NỘI  DUNG I. TỔNG QUAN VỀ THƯ VIỆN SỐ DL II. MÔ HÌNH HÌNH THỨC CHO THƯ VIỆN SỐ DL III. CHỈ MỤC TÀI LIỆU IV. TÌM KIẾM THÔNG TIN V. CÁC CHUẨN SỬ DỤNG TRONG THƯ VIỆN SỐ VI. THỰC HÀNH HỆ PHẦN MỀM  THƯ VIỆN SỐ GREENSTONE 3
  4. V. CÁC CHUẨN SỬ DỤNG TRONG DL 5.1. Chuẩn trình bày    ASCII, Unicode, SGML, HTML, XML, GIF, JPG, TIF, PNP a. ASCII American Standard Code for Information Exchange Tiêu chuẩn Việt Nam: TCVN 5712­1993 Văn bản chỉ có ký tự, không có lệnh trình bày (plain text  file). Văn bản bằng ký tự ASCII không có khả năng trình  bày các công thức toán học và hoá học. Thường phải được nhập thủ công vào CSDL 4
  5. Ưu điểm:  + Tìm kiếm được theo toàn văn + Tìm kiếm nhanh + Dữ liệu có kích thước tệp nhỏ, dễ truyền trên mạng Nhược điểm: + Hình thức đơn giản + Không bảo toàn được nguyên dạng của trang. + Không hỗ trợ đa ngôn ngữ (255 ký tự) 5
  6. b. UNICODE  Dùng cho văn bản Tiêu chuẩn Việt Nam: TCVN 6909­2001 Hỗ trợ đa ngôn ngữ: 16 triệu mã ký tự Vẫn còn ít chương trình hỗ trợ UNICODE 6
  7. c.  NGÔN NGỮ ĐÁNH DẤU  Tài liệu số – Ngày càng nhiều – Chuẩn đa dạng:  Chuẩn độc quyền: DOC của MS; PDF của Adobe  Chuẩn mở: SGML  Chuẩn độc quyền – Phụ thuộc phần mềm – Phụ thuộc sự phát triển của công ty – Đòi hỏi bản quyền   Sự phát triển tài liệu số dẫn đến nhu cầu về chuẩn mở 7
  8.  Sự phát triển của tài liệu số  đã đặt ra yêu cầu mới: chuẩn  dữ liệu không độc quyền  Có tính mở  Không  phụ  thuộc  phần  mềm,  nền  tảng  máy  tính  (Platform  independent)   Ngôn ngữ đánh dấu (Markup Language)  Sử  dụng  các  cặp  thẻ  đánh  dấu:  bao  gồm  thẻ  mở  và  thẻ  đóng: –    và   Hiện nay: SGML, HTML và XML 8
  9.  Ngôn ngữ đánh dấu tổng quát chuẩn SGML  Standard Generalized Markup Language  SGML là  cách  thức trình  bày  tài  liệu  số bằng  các  mã đánh  dấu  Là  tiêu  chuẩn  ISO  8879  (Information  processing­­Text  and  office systems ­ Standard Generalized Markup Language)  Là một chuẩn không độc quyền để soạn thảo tài liệu số có  cấu trúc  Sử dụng các nhãn (thẻ) để đánh dấu và gán ý nghĩa cho dữ  liệu. Thí dụ:   Đây là nhan đề tài liệu  Có thể tự phát triển khổ mẫu riêng, chỉ cần tuân thủ nguyên  tắc. 9
  10.  Cấu trúc tài liệu SGML  Gồm 3 phần – Phần 1: Phần thông báo (Statement) – Phần 2: Định nghĩa phần tử tài liệu – DTD  ­ Document Type Definition Thông báo mô hình logic của tài liệu (có các kiểu yếu tố  nào, thẻ mô tả là gì,...) – Phần 3: Nội dung tài liệu  Định nghĩa phần tử dữ liệu (DTD)  DTD Document Type Definition  DTD xác định các khối thông tin hợp lệ của một tài liệu  SGML  DTD xác định cấu trúc của tài liệu thông qua một danh mục  các yếu tố và thuộc tính 10
  11.  Ví dụ DTD    Những yếu tố này đều dạng     dữ liệu Character (ký tự)     ]>         Tove        Jani   Nội dung của văn bản      Reminder        Don't forget me this  weekend   11
  12.  #PCDATA CDATA: cho biết đây là dữ liệu dạng ký tự (character data),  sử dụng trong ngôn ngữ đánh dấu SGML and XML. Dùng  để  phân  biệt  với  dữ  liệu  không  phải  ký  tự  dùng  cho  các chức năng cấu trúc đặc thù 12
  13.  Ngôn ngữ SGML mạnh cho xây dựng tài liệu có cấu trúc  Phức tạp, phát triển ứng dụng tốn kém  Phải có trình duyệt riêng để đọc  Điều quan trọng để ứng dụng SGML là xây dựng DTD  Ví dụ về ứng dụng: TEI – Text Encoding Initiative 13
  14.  HTML  HyperText Mark­up Language Là một ứng dụng của SGML dùng cho tài liệu WEB Đơn giản hoá SGML Thẻ HTML là một kiểu DTD nhưng được chấp nhận bởi  cộng đồng sử dụng Web Các thẻ HTML được thống nhất toàn cầu (W3C – WWW  Consortium) 14
  15.  Ưu nhược điểm của HTML  Ưu điểm – Đơn giản – Có định hướng đến trình bày – Được đọc bằng những trình duyệt (Browser) – Được các công ty hỗ trợ phát triển trình duyệt: Internet  Explorer, Netscape Navigator, Mosaic,...  Nhược điểm – Phải chờ thông qua cho thẻ mới – Số thẻ hạn chế 15
  16.  Cấu trúc của tài liệu HTML   Dữ liệu      Nhan đề trang Web không hiển thị                Dữ liệu hiển thị      ...... Dữ liệu hiển thị   trên màn hình 16
  17.  Thẻ trợ giúp mô tả tài liệu HTML   Thẻ trợ giúp mô tả (còn gọi là thẻ siêu dữ liệu) nằm trong  phần  của tài liệu  Hai loại thẻ chính: – ........... –
  18.  Ví dụ đánh dấu HTML Giống lúa lai Trung Quốc và kỹ thuật  gieo trồng ...... 18
  19.  Ngôn ngữ đánh dấu mở rộng XML XML  eXtensible Markup Language Là  một  dạng  của  SGML  và  được  World  Wide  Web  Consortium (W3C) đề xuất Đơn giản hơn SGML Linh hoạt hơn HTML Hiện được coi là một dạng ngôn ngữ được coi là chủ đạo  trong tạo lập các tài nguyên điện tử  19
  20.  Đặc điểm của XML  XML là ngôn ngữ đánh dấu tương tự HTML  Được  thiết  kế  để  chứa/trao  đổi  dữ  liệu  nhưng  không  để  trình bày dữ liệu  Các  thẻ  XML  không  được  xác  định  trước.  Người  dùng  tự  xác định các thẻ của mình XML được thiết kế để tự mô tả (self­descriptive) Tổ chức 3WC gọi XML là:  "một  cú  pháp  thông  dụng  cho  việc  biểu  thị  cấu  trúc  trong  dữ liệu"  20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
3=>0