BÀI GI NG TH VI N S
Ư Ệ Ố
Ả
CH NG 5: DL ƯƠ CÁC CHU N S D NG TRONG Ẩ Ử Ụ
Ỗ TS. Đ QUANG VINH
11
HÀ N I - 2013 Ộ
N I DUNG
Ộ
I. T NG QUAN V TH VI N S DL Ề Ư Ệ Ố Ổ
II. MÔ HÌNH HÌNH TH C CHO TH VI N S DL Ứ Ư Ệ Ố
III. CH M C TÀI LI U Ỉ Ụ Ệ
IV. TÌM KI M THÔNG TIN Ế
V. CÁC CHU N S D NG TRONG TH VI N S Ẩ Ử Ụ Ư Ệ Ố
Ầ Ệ Ề
22
VI. TH C HÀNH H PH N M M TH VI N S GREENSTONE Ự Ư Ệ Ố
V. CÁC CHU N S D NG TRONG
DL
Ẩ Ử Ụ
5.1. Chu n trình bày ẩ
ASCII, Unicode, SGML, HTML, XML, GIF, JPG, TIF, PNP
a. ASCII
- American Standard Code for Information Exchange
- Tiêu chu n Vi t Nam: ẩ ệ
TCVN 5712-1993
- ả ự ệ
, không có l nh trình bày (plain text ASCII không có kh năng trình ả
Văn b n ch có ký t ỉ file). Văn b n b ng ký t ự ả bày các công th c toán h c và hoá h c. ọ ằ ứ ọ
33
- Th ng ph i đ c nh p th công vào CSDL ườ ả ượ ủ ậ
- u đi m: Ư ể
+ Tìm ki m đ c theo toàn văn ế ượ
+ Tìm ki m nhanh ế
+ D li u có kích th c t p nh , d truy n trên m ng ữ ệ ướ ệ ỏ ễ ề ạ
- Nh ượ c đi m: ể
+ Hình th c đ n gi n ứ ơ ả
+ Không b o toàn đ ả ượ c nguyên d ng c a trang. ạ ủ
44
+ Không h tr đa ngôn ng (255 ký t ) ự ỗ ợ ữ
b. UNICODE
- Dùng cho văn b nả
- Tiêu chu n Vi t Nam: ẩ ệ
TCVN 6909-2001
- H tr đa ngôn ng : 16 tri u mã ký t ữ ỗ ợ ệ ự
55
- V n còn ít ch ẫ ươ ng trình h tr UNICODE ỗ ợ
c. NGÔN NG ĐÁNH D U Ữ Ấ
Tài li u sệ ố
– Ngày càng nhi uề
– Chu n đa d ng: ẩ ạ
Chu n đ c quy n: DOC c a MS; PDF c a Adobe ủ ủ ề ẩ ộ
Chu n m : SGML ẩ ở
Chu n đ c quy n ề ộ ẩ
– Ph thu c ph n m m ụ ề ầ ộ
– Ph thu c s phát tri n c a công ty ể ủ ộ ự ụ
– Đòi h i b n quy n ỏ ả ề
66
S phát tri n tài li u s d n đ n nhu c u v chu n m ệ ố ẫ ầ ề ự ế ể ẩ ở
S phát tri n c a tài li u s đã đ t ra yêu c u m i: chu n d ẩ ữ ể ủ ệ ố ự ầ ặ ớ
li u không đ c quy n ệ ề ộ
Có tính mở
Không ph thu c ph n m m, n n t ng máy tính (Platform ề ả ụ ề ầ ộ
independent)
Ngôn ng đánh d u (Markup Language) ấ ữ
S d ng các c p th đánh d u: bao g m th m và th đóng: ấ ẻ ở ử ụ ẻ ẻ ặ ồ
–
77
Hi n nay: SGML, HTML và XML ệ
Ngôn ng đánh d u t ng quát chu n SGML ấ ổ ữ ẩ
Standard Generalized Markup Language
ố ằ ứ ệ
SGML là cách th c trình bày tài li u s b ng các mã đánh d uấ
Information processing--Text and
Là tiêu chu n ISO 8879 ( ẩ office systems - Standard Generalized Markup Language)
ộ ệ ố ể ạ ẩ ả ộ
Là m t chu n không đ c quy n đ so n th o tài li u s có ề c u trúc ấ
ẻ ể ấ
S d ng các nhãn (th ) đ đánh d u và gán ý nghĩa cho d ữ li u. Thí d : ử ụ ệ ụ
88
phát tri n kh m u riêng, ch c n tuân th nguyên ể ự ổ ẫ ỉ ầ ủ ể
Có th t t c.ắ
ệ
ầ
tài li u C u trúc tài li u SGML ấ G m 3 ph n ầ ồ – Ph n 1: Ph n thông báo (Statement) ầ ầ ử ầ ị
– Ph n 2: Đ nh nghĩa ph n t ệ – DTD - Document Type Definition
Thông báo mô hình logic c a tài li u (có các ki u y u t ủ ế ố ệ ể
ả
nào, th mô t là gì,...) ẻ – Ph n 3: N i dung tài li u ộ ệ ầ Đ nh nghĩa ph n t d li u (DTD) ầ ử ữ ệ ị
DTD Document Type Definition
DTD xác đ nh các kh i thông tin h p l ợ ệ ủ c a m t tài li u ộ ệ ố ị
SGML
DTD xác đ nh c u trúc c a tài li u thông qua m t danh m c ủ ụ ệ ộ
99
các y u t ế ố ấ ị và thu c tính ộ
ệ
: to, from,
ố
ế
này đ u d ng ề
ạ
Tài li u là Note Có 4 y u t heading, body Nh ng y u t ế ố ữ d li u Character (ký t ) ự ữ ệ
N i dung c a văn b n ả ủ
ộ
(to,from,heading,body)>
]>
weekend
1010
Ví d DTD ụ
#PCDATA - CDATA: cho bi (character data), t đây là d li u d ng ký t ữ ệ ự ạ
ế s d ng trong ngôn ng đánh d u ử ụ ấ SGML and XML. ữ
t v i d li u không ph i ký t dùng cho các - Dùng đ phân bi ể ệ ớ ữ ệ ả ự
1111
ch c năng c u trúc đ c thù ấ ứ ặ
Ngôn ng SGML m nh cho xây d ng tài li u có c u trúc ự ữ ệ ạ ấ
Ph c t p, phát tri n ng d ng t n kém ứ ạ ể ứ ụ ố
Ph i có trình duy t riêng đ đ c ể ọ ệ ả
Đi u quan tr ng đ ng d ng SGML là xây d ng DTD ụ ể ứ ự ề ọ
Ví d v ng d ng: ụ ề ứ ụ
1212
TEI – Text Encoding Initiative
HTML
HyperText Mark-up Language
- Là m t ng d ng c a SGML dùng cho tài li u WEB ộ ứ ụ ủ ệ
- Đ n gi n hoá SGML ả ơ
- c ch p nh n b i ẻ ư ộ ượ ậ ấ ở
Th HTML là m t ki u DTD nh ng đ ể c ng đ ng s d ng Web ộ ử ụ ồ
- ượ c th ng nh t toàn c u (W3C – WWW ầ ấ ố
1313
Các th HTML đ ẻ Consortium)
u nh Ư ượ c đi m c a HTML ủ ể
u đi m Ư ể
– Đ n gi n ả ơ
– Có đ nh h ng đ n trình bày ị ướ ế
– Đ c đ c b ng nh ng trình duy t (Browser) ượ ọ ằ ữ ệ
– Đ c các công ty h tr phát tri n trình duy t: Internet ỗ ợ ượ ệ ể
Explorer, Netscape Navigator, Mosaic,...
Nh ượ c đi m ể
– Ph i ch thông qua cho th m i ẻ ớ ả ờ
1414
– S th h n ch ố ẻ ạ ế
D li u ữ ệ không hi n thể
ị
C u trúc c a tài li u HTML ủ ệ ấ
ể
ị
D li u hi n th ữ ệ trên màn hình
ể
1515
tin”>
D li u hi n th ị ữ ệ ...... Th tr giúp mô t tài li u HTML ẻ ợ ả ệ
Th tr giúp mô t (còn g i là th siêu d li u) n m trong ả ữ ệ ẻ ằ ọ
ph n
c a tài li u ẻ ợ ầ ủ ệ Hai lo i th chính: ạ ẻ
–
– ậ ố ồ ỹ
ố ồ
ồ
CONTENT="/THUVIENDIENTU/BOOK/Vb/2001/Vb44.pdf">
1717
......