BN TIN THƯ VIN - CÔNG NGH THÔNG TIN THÁNG 4/2004
31
D tho:
Chun trao đổi tài liu s hoá
da trên Dublin Core Metadata
(Phiên bn 1.0)
dùng cho trao đổi d liu trong các d án CNTT
Cơ quan biên son:
Ban qun lý các d án CNTT Thành ph HCM
S Khoa hc và Công ngh Thành ph HCM
Ch trì:
TS. Hoàng Lê Minh
ThS. Nguyn Khc Thanh, ThS. Đào Quc Hùng
Lê Phm Hoàng Giàu, Võ Đức Cm Hi
Phm Quc Phương, Ngô Quang Tun Huy, Nguyn Đức Tun
Phi hp:
TS. Nguyn Chí Công
T trưởng T chuyên môn, Ban Điu hành đề án 112 CP
TS. Đỗ Văn Lc
Chánh Văn phòng CNTT, B Khoa hc và Công ngh
ThS. Nguyn Long
Tng thư ký Hi Tin hc Vit Nam
ThS. Nguyn Minh Hip
Ch tch Liên hip thư vin các trường ĐH khu vc phía Nam
THÀNH PH H CHÍ MINH
2004
BN TIN THƯ VIN - CÔNG NGH THÔNG TIN THÁNG 4/2004
32
I. S cn thiết phi có chun trong
lưu tr và trao đổi tài liu s hoá
Bt đầu t năm 2004, thành ph H
Chí Minh s trin khai mnh m các d án
CNTT ca Chương trình mc tiêu ng
dng phát trin CNTT thành ph,
thuc bn lĩnh vc ln sau đây:
1. Các d án Tin hc hoá qun lý
hành chính nhà nước (Đề án
112)
2. Các d án ng dng H thng
thông tin địa lý Tp. HCM
(SagoGIS)
3. Các d án ng dng CNTT
trong các lĩnh vc khác
4. Các d án đào to nhân lc,
phát trin ngành Công nghip
CNTT.
Ban Qun lý các d án CNTT (Ban
QLDA CNTT) thành ph H CMinh vi
nhim v tham mưu cho S Khoa hc và
Công ngh giúp y ban nhân dân thành
ph H Chí Minh t chc trin khai và
qun lý toàn bc d án CNTT nhìn
nhn mt thc tế: để thc hin có hiu
qu Chương trình CNTT, trách đầu tư
dàn tri và thiếu hiu qu, nht thiết
phi nhanh chóng xem xét và áp dng
chun lưu tr và trao đổi các tài liu
đin t s hoá, tiến ti thng nht các
chun trong trao đổi thông tin, d liu
gia các h thng tin hc. Đây là mt
nhim v tương đối mi mkhó khăn,
do hin nay có khá nhiu cách lưu tr, trao
đổi d liu và thông tin đang được các
công ty tin hc trong nước s dng cho các
doanh nghip và cơ quan chính ph. Vic
chp nhn h thng các chun theo
hướng m, không ph thuc vào vic s
dng các phn mm lưu tr và trao đổi
thông tin s nguyên tc ch đạo khi
xem xét vn đề định chun để tránh vn
đề ph thuc vào công ngh và sn phm
do các nhà cung cp đưa ra.. Xut phát t
thc tin trin khai các ng dng CNTT
và tin hc hoá ti Tp. HCM, đặc bit trong
quá trình chun b đầu tư d án “H thng
thông tin – thư vin đin t liên kết
các trường đại hc”, sau khi trao đổi
vi mt s chuyên gia CNTT và thông
tin – thư vin ti Hà ni và thành ph
H Chí Minh, Ban QLDA CNTT đề
xut xây dng bn D tho “Chun
trao đổi tài liu s hoá da trên
Dublin Core Metadata để áp dng
trong các d án CNTT ca thành ph
H Chí minh, phc v vic trao đổi d
liu, thông tin, các tài liu s hoá và là
cơ s nn tng công ngh để phc v
tích hp d liu cho các Trung tâm
tích hp d liu đang đưc xây dng
ti Thành ph H Chí Minh: Trung tâm
tích hp d liu cho các d án 112,
CityWEB, SagoGIS.
Tài liu D tho Chun lưu tr
và trao đổi y s được gi cho mt
s chuyên gia CNTT, chuyên gia các
ngành thông tin – thư vin, thương mi
đin t, GIS, mt s cơ quan chuyên
môn ca trung ương và các địa phương
xem xét, đóng góp ý kiến. Chúng tôi
tin tưởng các kết qu trin khai trên
thc tế ca các chun lưu tr và trao
đổi thông tin do Ban qun lý các d án
CNTT thành ph H Chí Minh đề xut
trong D tho sđóng góp thiết thc
để các cơ quan chuyên môn qun lý
cp trung ương: Ban ch đạo quc gia
v CNTT, B Khoa hc và Công ngh,
B Bưu chính Vin thông, B Thương
mi, y ban Khoa hc, Công ngh
Môi trường ca Quc hi xem xét trước
khi ban hành các tiêu chun quc gia.
Mi ý kiến trao đổi xin gi v địa
ch info@itpmo.hochiminhcity.gov.vn
II. Chun lưu tr tài liu s hoá
(tài liu đin t toàn văn)
Xut phát t thc tin là hin
nay, chúng ta đang s dng các công
c son tho văn bn da trên phn
mm Microsoft Word, có khá nhiu
tài liu đin t được to lp lưu
BN TIN THƯ VIN - CÔNG NGH THÔNG TIN THÁNG 4/2004
33
tr dưới khuôn dng tài liu doc ca
Microsoft. Tuy nhiên khuôn dng doc
không thích hp cho trao đổi văn bn
hành chính gia các các cơ quan chính
ph, doanh nghip vì các lý do sau:
1. Tài liu lưu tr và trao đổi dưới
dng doc d dàng b thay đổi ni
dung, không có kh năng xác thc
người to lp, người ký, con du
đóng trên tài liu và các thông tin
khác kèm theo (bút phê ca lãnh đạo,
các bút tích khác)
2. Hu hết các tài liu - văn bn hin
hành đều không có phiên bn đin t
s hoá dng doc. Vic s dng khuôn
dng doc như chun trao đổi tài liu
đin t đòi hi các cơ quan, doanh
nghip phi tuân th quy trình son
tho, s hoá lưu tr tài liu đin
t, hoc bng phương pháp nhp
liu, nhn dng t nhng tài liu –
văn bn bng giy. Đây mt quy
trình tin hc hoá rt khó khăn và
tn kém, có th gây nên nhng s
lãng phí rt ln cho chính các cơ
quan, doanh nghip khi áp dng tin
hc hoá.
3. Các tài liu dng doc thường cha
các thông tin n, các macro, và có
kh năng lây nhim virus rt ln, do
đó không nên dùng để lưu tr, trao
đổi vi các h thng khác, tr khi
tài liu đó đang được luân chuyn
trong ni b mt đơn v, cơ quan để
ch x lý, hoàn thin và ban hành.
Vi các lý do trên đây, vic chn
dng tài liu doc để lưu tr và trao đổi là
không phù hp. Chúng tôi đề xut ch
s dng chun tài liu PDF (Portable
Document Format) để lưu tr và trao
đổi tài liu đin t toàn văn gia các h
thng tin hc vi các ưu đim như sau:
1. Tài liu PDF có th đưc hình
thành t các tài liu doc mt
cách khá dng, gi nguyên
định dng như tài liu gc. Ngoài
ra các tài liu do quét các văn bn
như các hình nh s hoá cũng có
th lưu tr dưới dng PDF.
2. Tài liu PDF không th thay đổi,
nht là nhng văn bn, tài liu do
s hoá văn bn bng giy cha
các bút tích, ch ký, con du,
3. S dng các tài liu s hoá PDF,
chúng ta không cn có ngay
chun mã hoá tiếng Vit, do các
tài liu có th được s hoá t các
văn bn in trên giy.
4. Tài liu PDF có th dng đọc
và in ra t nhiu loi thiết b:
PDA, máy tính IBM, MacIntosh,
h điu hành Windows, Linux,
UNIX, vv...
Vi tiến b ca công ngh s hoá
và lưu tr tài liu hin nay, dung lượng
ca các tài liu được quét vào máy
s hoá dng PDF là khá nh. Trên thế
gii đã phát minh ra công ngh tìm
kiếm theo mu hình nh (image search
engine) cho phép người ta có th tìm
kim toàn văn trong nhng văn bn s
hoá quét vào máy tính lưu tr dng
PDF mà không phi dùng đến nhn
dng (xem thí d search inside the books
ti Amazon website).
Tóm li, chúng tôi đề ngh chn
III. Phương thc trao đổi tài liu s
hoá
Để cho s trao đổi các tài liu s
hoá dng PDF đưc thun tin và d
dàng, nên kèm theo các thông tin cơ
bn v tài liu như: tên tài liu, tác
gi, ngày ban hành, s hiu, ngun
gc, nơi lưu tr, các thông tin vn tt
v tài liu, chú thích, v.v... Các thông
BN TIN THƯ VIN - CÔNG NGH THÔNG TIN THÁNG 4/2004
34
tin kèm theo này được gi là các thông tin
metadata v tài liu.
Trong b tiêu chun quc gia ca
M, để t các tài liu đin t, t năm
2001 Chính ph M đã chp nhn s dng
chun mô t thông tin metadata d trên
ngôn ng XML, ký hiu chun
ANSI/NISO Z.39.85-2001. Chun này
tên gi là Dublin Core Metadata Element
Set.
Dublin Core Metadata Element Set
gm có 15 trường chính t nhng
thông tin quan trng nht, thường gp và
chung nht trong phân loi, lưu tr
trao đổi tài liu đin t. T các trường
mô t này, người ta có th thêm vào các
trường dn xut để m rng tùy ý kh
năng t tài liu ca Dublin Core
metadata.
Bn thân d liu metadata có th
mt tp tin XML, có th được lưu tr
trong mt h qun tr CSDL, tuy nhiên để
s dng đúng mc đích, người ta yêu cu
tp tin cha các thông tin metadata v
tài liu phi được kèm theo tài liu ngay
khi bt đầu đưa tài liu vào lưu tr, qun lý
và trao đổi.
Sau đây t mt quá trình trao
đổi tài liu đin t toàn văn kèm theo
thông tin metadata mà các h thng x
thông tin cn phi nhn biết và x
Nhp liu bng tay: h thng phi
cho phép người dùng to lp và lưu
tr các thông tin metadata mô ti
liu bng tay khi bt đầu đưa tài liu
vào qun lý và lưu tr trong h thng
(chi tiết vc trường metadata nói
phn sau)
Nhp liu t động: h thng phi
kh năng t động đọc các
thông tin metadata được gi t bên
ngoài ti h thng và xtheo cách
thc ging như các thông tin y
được người dùng nhp bng tay
vào h thng. (chi tiết v chun
mc trình bày thông tin metadata
nói phn sau)
Xut d liu metadata: hê thng
phi có kh năng xut ra các d
liu metadata theo chun mc
thng nht dùng để trao đổi vi
các h thng khác, kèm theo tài
liu đin t toàn văn.
Phương thc trao đổi: tài liu
đin t toàn văn và các thông tin
metadatam theo được khuyến
cáo ch s dng web service. Tuy
nhiên h thng phi có kh năng
tiếp nhn các tài liu và thông
tin metadata theo nhng cách
truyn thng, trc tuyến và
ngoi tuyến khác, như trao đổi
tp tin qua CD-ROM, E- mail,
FTP, download t Net, v.v....
Không khuyến cáo s dng các
hình client/server, các chun
trao đổi d liu trên mng phi
s dng các phn mm được viết
riêng, các phương thc trao đổi
d liu trc tiếp t CSDL như
nhân bn d liu (database
replication), đồng b d liu
(database synchronization), các
chun đặc thù khác như
Z.39.50, OAI harvest protocol,
vv....
IV. S dng Dublin Core Metadata
cho mô t văn bn hành chính
Sau đây là thí d s dng chun
Dublin Core Metadata mô t các văn
bn đã và đang được s hoá trên h
thng qun lý văn bn ca Ban Qun
lý các d án CNTT ti địa ch
http://itpmo.hochiminhcity.gov.vn
BN TIN THƯ VIN - CÔNG NGH THÔNG TIN THÁNG 4/2004
35
¶·