Đ nh d ng các files c a tài li u đi n t
T n t i nhi u đ nh d ng các files khác nhau. Chúng th đ c phân ượ
chia thành “đ n ch ng trình”, nghĩa chúng đ c qu n b o đ m b iơ ươ ượ
m t nhân viên l p trình, “đa ch ng trình” đ c b o đ m b i vài nhân ươ ượ
viên l p trình th đ c x b ng nhi u ch ng trình ph n m m khác ượ ươ
nhau.
Chúng ta có th li t kê nh ng đ nh d ng c b n: ơ
1. Các đ nh d ng văn b n
Chúng th ng đ c xây d ng nh s tr giúp c a các quá trình biênườ ượ
so n. Nh ng đ nh d ng văn b n ph bi n nh t là: ế
- các đ nh d ng đ n ph n m m Microsoft Word và Word Perfect; ơ
- đ nh d ng RTF (Rich Text Format) đ c b o đ m b i nhi u ph l c ph n ượ
m m trong khi đó v n gi đ nh d ng văn b n đã đ t;
- đ nh d ng PDF (Portable Ducument Format) g m hình nh trang v i c
văn b n bi u đ . th đ c nh ng file theo đ nh d ng PDF b ng nhi u
ph n m m đ đ c files khác nhau, nh ng chúng đ c đ c xây d ng ch nh ư ượ ượ
ph n m m Adobe Acrobat.
2. Các đ nh d ng đ h a
Chúng l u gi hình nh (ví d , nh ch p, hình v ) đ c chia raư ư
thành hai ki u chính:
2.1. Các đ nh d ng vector - l u gi hình nh nh t p h p các hìnhư ư
d ng hình h c. Trong s chúng ph bi n h n c đ nh d ng DXF (Drawing ế ơ
Interchange Format) đ c s d ng r ng rãi trong các ch ng trình thi t kượ ươ ế ế
b ng máy tính cho các k s ki n trúc s ; đ nh d ng EPS (Encapsulated ư ế ư
PortScript) đ c s d ng r ng rãi trong các h th ng bi u quy t/b u c t iượ ế
bàn vàđ nh d ng CGM (Computer Graphics Metafile) đ c s d ng r ng rãi ượ
trong nhi u ph n m m đ h a (ví d trong ph n m m Photoshop).
2.2. Các đ nh d ng mành , chúng l u gi hình nh nh là t p h p nh ngư ư
đi m nh - pixels. Khi thay đ i kích c nh, đ h a mành b bi n d ng. Trong ế
s các đ nh d ng mành ph bi n h n c đ nh d ng BMP (Bitmap), m t ế ơ
đ nh d ng t ng đ i kém v ch t l ng, th ng dùng vào quá trình so n ươ ư ườ
th o văn b n; đ nh d ng TIFF (Tagget Image File Format) s d ng r ng rãi
trong các ng d ng ph n m m đ nh d ng GIF (Graphics Interchange
Format) s d ng r ng rãi trong các ph n m m dành cho Internet.
3. Các đ nh d ng c s d li u ơ
Các đ nh d ng c s d li u ơ đ c xây d ng nh nh ng ph n m mượ
chuyên d ng - các h th ng qu n lý c s d li u. ơ
H th ng qu n c s d li u cho phép xác đ nh nh ng m i quan h gi a ơ
các thành ph n thông tin c a c s d li u, th c hi n các tác đ ng khác nhau ơ
t i thông tin c a c s d li u (tìm ki m, đánh d u, th c hi n nh ng phép ơ ế
toán khác nhau, l p các báo cáo ch d n, v.v.). Nh ng d v h th ng
qu n c s d li u Microsoft SQL Sever, Oracle, MySQL, IBM DB2, ơ
Sybase và nh ng ph n m m khác.
Thí d , c s d li u v khách hàng g m tr ng thông tin v i các ơ ườ
tên ng i mua, đ a ch thông tin v hàng hóa. Nh ng tr ng đó thườ ư
1
đ c t ch c thành các b ng riêng bi t (thí d , m t b ng cho t t c cácượ
tr ng v i nh ng tên c a khách hàng).ườ
C s d li u th chuy n sang đ nh d ng văn b n, nh ng khi đó b m t điơ ư
m i liên h gi a các tr ng v i các b ng (ví d , lúc đó th nh n đ c ườ ư
m i trang tên, m i trang đ a ch nghìn trang thông tin v hàng hóa, t c ườ ườ
thông tin không liên k t).ế
4. Các đ nh d ng c a b ng đi n t
Nh ng file trong đ nh d ng b ng đi n t l u gi trong các ô nh ng con ư
s các m i liên h gi a nh ng con s đó. d , m t ô th ch a công
th c th c hi n vi c c ng các d li u c a hai ô khác. Gi ng nh các file c s ư ơ
d li u, các file b ng đi n t th ng đ nh d ng c a chính ph n m m t o ườ
ra nó. M t s ch ng trình th nh p kh u khai thác nh ng d li u c a ươ
các ngu n khác k c c a nh ng ch ng trình dùng đ trao đ i d li u ki u ươ
này (thí d , đ nh d ng DIF (Data Interchange Format)). Các file c a b ng đi n
t th chuy n đ i thành file văn b n, nh ng nh ng con s m i liên h ư
gi a các s s không còn n a.
5. Các đ nh d ng nhìn- nghe /video-audio
Nh ng đ nh d ng này ch a hình nh chuy n đ ng (ví d video s , ho t
hình) các d li u âm thanh đ c xây d ng th xem, nghe đ c nh ư ượ
ch ng trình t ng thích l u gi trong đ nh d ng đ n ch ng trình.ươ ươ ư ơ ươ
Nh ng đ nh d ng đ c s d ng nhi u h n c QuickTime MPEG ượ ơ
(Motion Picture Experts Group).
6. Đánh d u ngôn ng (th ng g i “duy t web”) còn đ c g i ườ ượ
các đ nh d ng đánh d u, g m h ng d n đính kèm đ bi u di n n i dung ướ
c a file. Đó là:
SGML (Standard Generalized Markup Language) đ c s d ng trong các cượ ơ
quan nhà n c nhi u n c trên th gi i và là tiêu chu n qu c t ;ướ ướ ế ế
HTML (Hypertext Markup Language) đ c s d ng đ bi u di n h u nhượ ư
toàn b thông tin c a m ng World Wide Web;
XML (Extensible Markup Language) - ngôn ng t ng đ i đ n gi n d a trên ươ ơ
c s SGML và đ c dùng ph bi n khi qu n lý thông tin và trao đ i nó.ơ ượ ế
Khi áp d ng vào vi c b o đ m tài li u cho qu n lý, t ng đ nh d ng file
đi m m nh đi m y u riêng. d , nh ng đ nh d ng văn b n ế
(MicrosoftWord, WordPerfect, RTF v.v.) thu n ti n cho tìm ki m ng c nh ế
theo các tài li u trong c s d li u, còn các đ nh d ng đ ho (PDF, TIFF ơ
v.v.) giúp nh n đ c hình nh khi quét v i toàn b nh ng đ c đi m bên ngoài ượ
c a gi tài li u d ng đúng nh trên gi y v i đ y đ ch cùng ư
d u xác nh n (th th c-visa).
Đ nh d ng MS Word r t ti n cho biên t p tài li u công vi c c a
nhóm nhân viên v i nó, nh ng file MS Word l i ch a đ ng nhi u thông tin n ư
(tr c tiên v nh ng thay đ i đã th c hi n trong file) nh v y, r tướ ư
không an toàn theo quan đi m th t thoát thông tin công v . d , trong lúc
chu n b tài li u th ng m i, thông tin n l i cho ta bi t nh ng đ xu t kh i ươ ế
đi m, ai s nh h ng m nh nh t t i văn b n. Trong chu n b tài li u ư
2
theo nhóm, s phân tích s a đ i cho ta kh năng nh n bi t không ch h tên ế
nh ng ng i l p tài li u mà c m c đ đóng góp c a t ng ng i vào ph ng ườ ườ ươ
án hoàn ch nh c a tài li u.
Nga, các c quan chính quy n LB t quy đ nh nh ng đ nh d ng cho ơ
các d ng đã xác đ nh c a các tài li u đi n t đ c s d ng trong m i quan h ượ
qua l i v i các t ch c khác v i các công dân. Thí d , theo nh ng yêu c u
c a U ban LB v th tr ng ti n t (ngày nay C quan LB v th tr ng ườ ơ ườ
tài chính) các file c a nh ng d ng đã xác đ nh c a các tài li u ph i đ c trình ượ
bày trong đ nh d ng RTF. V ph n mình, B Tài chính Nga quy đ nh r ng
nh ng tài li u báo cáo th ng do các t ch c b o hi m (b o hi m y t ) l p ế
d i d ng t p h p các file văn b n trong đ nh d ng XML.ướ
V y đ nh d ng XML tuy t v i cái gì? Đánh d u ngôn ng m r ng
(Extensible Markup Language) ch a đ ng trong mình không ch các d li u
mà còn mang thông tin mô t nh ng d li u đó. Nó dùng đ c cho b t kỳ ng ượ
d ng máy tính nào không b l thu c vào b o đ m k thu t các h
th ng x lý, cho phép chuy n t i dung l ng l n thông tin không c n đ n ượ ế
nh ng bi n đ i n ng nh c các c u trúc d li u. ế
Nh ng đ nh d ng ti n nhi m c a XML đánh d u ngôn ng chu n chung
đ c phê duy t b i T ch c tiêu chu n qu c t nh m t tiêu chu n ngay tượ ế ư
nh ng năm 1980, m t phiên b n rút g n c a nó là đánh d u ngôn ng siêu văn
b n HTML.
Đ nh d ng XML đ c thông qua b i các t ch c tiêu chu n c a c ng ượ
đ ng-internet v i đ i di n là t p đoàn World Wide Web (W3C) t ch c
UDDI.org. Hi n nay các công ty Microsoft, IBM, Oracle, cũng nh m t lo t ư
các công ty s n xu t ph m m m đã linh ho t chuy n sang s d ng XML vào
các s n ph m c a nh v th c t h đang th c hi n ý t ng tiêu chu n ế ưở
hoá đ nh d ng tài li u trên c s XML. ơ
Đ nh d ng PDF do hãng Adobe Systems Inc. xây d ng đang r t ph bi n ế
trong trao đ i tài li u đ c s d ng r ng rãi cho nh ng tài li u c a m ng ượ
internet b i cho phép gi ngo i hình g c c a tài li u ngăn c n vi c
đ a nh ng thay đ i vào tài li u. Theo đánh giá c a công ty Adobe thì đã ư
n a tri u ng i t i ph n m m mi n phí c a công ty đ xem các file PDF, ườ
nhi u doanh nghi p đã ch n đ nh d ng này làm tiêu chu n chuy n giao và l u ư
gi tài li u, có không ít nhà l p trình đ c l p đang gi i thi u nh ng s n ph m
h tr PDF, th m chí m t s là mi n phí.
Nh ng công ty Adobe trong t ng lai s không cung c p mi n phí cácư ươ
ch ng trình c a mình. H n n a, trong nh ng phiên b n m i c a ch ngươ ơ ươ
trình Adobe các file c a phiên b n cũ th ng đ c trình di n không chính xác. ườ ượ
Chính v y đã xu t hi n phiên b n nâng c p đ nh d ng PDF đ c g i ượ
PDF-Archive (PDF-A). n c ngoài đ c coi là m t trong hai phiên b n ướ ượ
c s trong t ng lai chúng th đ c s d ng cho b o qu n l u trơ ươ ượ ư
các tài li u đi n t . Còn đ nh d ng th hai là XML nói trên.
Đ nh d ng PDF-A cũng gi ng nh XML nh ng n i tr i nh ng ư
y u kém c a mình trong công tác l u tr tài li u đi n t . C th , đ nh d ngế ư
PDF-A đ c bi t thu n l i cho l u tr tài li u đi n t r ng gi đ c ư ượ
3
ngo i hình c a tài li u g c b ng gi y. Kinh nghi m công tác xét x hai v
phá s n l n nh t trong l ch s M - các công ty Enron Global Crossing đã
kh ng đ nh đ c ti n ích c a nó. H đã t o l p kh i l ng l n tài li u trong ượ ượ
đ nh d ng PDF đã đ t ra tr c các c quan t pháp LB nhi m v l u tr ướ ơ ư ư
nh ng tài li u đó. V nhi u đi m thì đó đã xung l c tác đ ng vào quá trình
biên so n d th o tiêu chu n qu c t v l u tr tài li u theo PDF. ế ư
Song kh năng s d ng nh ng đ nh d ng trên vào l u tr đi n t còn ư
h n ch , l y d , đ nh d ng PDF-A không dùng đ c cho l u tr tài li u ế ượ ư
nghe nhìn.
Ph i l u ý r ng không có m t đ nh d ng nào trong s các đ nh d ng file ư
tài li u đi n t v n năng cho l u tr lâu dài, b i k thu t, công ngh ư
b o đ m ch ng trình thay đ i khá nhanh. Ngay bây gi đã khó d ng l i trên ươ
thi t b m i nh ng tài li u đ c l p nh các công c biên t p AmiPro,ế ượ
WordPerfect. V y thì s d dàng không, d , d ng l i tài li u l u tr trong ư
đ nh d ng Word-97 sau 10 - 15 năm n a?
XML là viết tt ca ch EXtensible Markup Language, tc là "ngôn ng đánh du m rng".
Tương t như HTML, XML cũng dùng các th (tag) trong văn bn, nhưng khác vi HTML mt chút.
HTML dùng các th để định dng văn bn. Còn XML dùng các th để mô t văn bn.
Tc là các th trong HTML s quyết định văn bn khi hin th lên phi như thế nào, còn các th trong XML s quyết
định văn bn đó mang ý nghĩa gì.
Vì XML là để mô t văn bn nên nó có ng dng khá rng rãi. Mt ng dng ca nó là để trao đổi d liu gia các
h thng vi nhau.
XML (viết tt t tiếng Anh Extensible Markup Language, "Ngôn ng Đánh du M rng") là ngôn ng đánh du
vi mc đích chung do W3C đề ngh, để to ra các ngôn ng đánh du khác. Đây là mt tp con đơn gin ca SGML, có
kh năng mô t nhiu loi d liu khác nhau. Mc đích chính ca XML là đơn gin hóa vic chia s d liu gia các h
thng khác nhau, đặc bit là các h thng được kết ni vi Internet. Các ngôn ng da trên XML (thí d: RDF, RSS,
MathML, XHTML, SVG, và cXML) được định nghĩa theo cách thông thường, cho phép các chương trình sa đổi và kim
tra hp l bng các ngôn ng này mà không cn có hiu biết trước v hình thc ca chúng.
Lch s :
Vào gia nhng năm 1990, các chuyên gia SGML đã có kinh nghim vi World Wide Web (vn còn khá mi vào thi
đó). H tin tưởng rng SGML có th cung cp gii pháp cho các vn đề mà Web đang gp phi. Jon Bosak đưa ra ý kiến
W3C nên tài tr mt chương trình mang tên "SGML trên Web".
Đặc đim :
XML cung cp mt phương tin dùng văn bn (text) để mô t thông tin và áp dng mt cu trúc kiu cây cho thông tin
đó. Ti mc căn bn, mi thông tin đều th hin dưới dng text, chen gia là các th đánh du (markup) vi nhim v ký
hiu s phân chia thông tin thành mt cu trúc có th bc ca các d liu ký t, các phn t dùng để cha d liu, và
các thuc tính ca các phn t đó. V mt đó, XML tương t vi các biu thc S (S-expression) ca ngôn ng lp trình
LISP ch chúng đều mô t các cu trúc cây mà trong đó mi nút có th có mt danh sách tính cht ca riêng mình.
Đơn v cơ s ca XML là các ký t theo định nghĩa ca Universal Character Set (B ký t toàn cu). Các ký t được kết
hp theo các t hp chui hp l để to thành mt tài liu XML. Tài liu này gm mt hoc nhiu thc th, mi thc th
thường là mt phn nào đó ca các ký t thuc tài liu, được mã hóa dưới dng mt chui các bit và lưu tr trong mt tp
văn bn (text file).
4
Các tp XML có th dùng cho nhiu loi d liu đa phương tin. RFC3023 định nghĩa các loi "application/xml" và
"text/xml", vi ý rng d liu được biu din bng XML mà không nói gì đến ng nghĩa ca d liu.
S ph biến ca các phn mm son tho văn bn (word processor) đã h tr vic son tho và bo trì tài liu XML mt
cách nhanh chóng. Trước XML, có rt ít ngôn ng mô t d liu vi các đặc đim đa năng, thân thin vi giao thc
Internet, d hc và d to. Thc tế, đa s các định dng trao đổi d liu thi đó đều chuyn dng, có tính độc quyn, và
có định dng nh phân (chui bit thay vì chui ký t) khó dùng chung gia các ng dng phn mm khác nhau hay gia
các h nn (platform) khác nhau. Vic to và bo trì trên các trình son tho thông dng li càng khó khăn.
Bng cách cho phép các tên d liu, cu trúc th bc được phép, và ý nghĩa ca các phn t và thuc tính có tính cht
m và có th được định nghĩa bi mt gin đồ tùy biến được, XML cung cp mt cơ s cú pháp cho vic to lp các
ngôn ng đánh du da XML theo yêu cu. Cú pháp chung ca các ngôn ng đó là c định — các tài liu phi tuân theo
các quy tc chung ca XML, bo đảm rng tt c các phn mm hiu XML ít ra cũng phi có kh năng đọc (phân tích
cú pháp - parse) và hiu b cc tương đối ca thông tin trong các tài liu đó. Gin đồ ch b sung mt tp các ràng buc
cho các quy tc cú pháp. Các gin đồ thường hn chế tên ca phn t và thuc tính và các cu trúc th bc được phép,
ví d, ch cho phép mt phn t tên 'ngày sinh' cha mt phn t tên 'ngày' và mt phn t có tên 'tháng', mi phn t
phi cha đúng mt ký t. Đây là đim khác bit gia XML và HTML. HTML có mt b các phn t và thuc tính không
mm do, ch có mt tác dng và nói chung là không th dùng cho mc đích khác.
XML không hn chế v vic nó được s dng như thế nào. Mc dù XML v cơ bn là dng text, các phn mm vi chc
năng tru tượng hóa nó thành các định dng khác giàu thông tin hơn đã nhanh chóng xut hin, quá trình tru tượng hóa
này được thc hin ch yếu qua vic s dng các gin đồ định hướng kiu d liu (datatype-oriented schema) và khuôn
mu lp trình hướng đối tượng (mà trong đó, mi tài liu XML được thao tác như là mt đối tượng). Nhng phn mm như
vy có th coi XML như là dng text đã được tun t hóa ch khi nó cn truyn d liu qua mng.
Sơ lược v cú pháp
<tên thuc_tính="giá tr">ni dung</tên>
<?xml version="1.0" encoding="UTF-8"?>
<công_thc_nu_ăn tên="bánh mì" thi_gian_chun_b="5 phút" thi_gian_nu="3 tiếng">
<title>Bánh mì cơ bn</title>
<nguyên_liu lượng="3" đơn_v="ca">Bt mì</nguyên_liu>
<nguyên_liu lượng="7" đơn_v="gram">Men</nguyên_liu>
<nguyên_liu lượng="1.5" đơn_v="ca" trng_thái="m">Nước</nguyên_liu>
<nguyên_liu lượng="1" đơn_v="thìa cà phê">Mui</nguyên_liu>
<ch_dn>
<bước>Trn tt c các nguyên liu vi nhau và nhào kĩ</bước>
<bước>Ph mt mnh vi, mt tiếng đồng h trong phòng m.</bước>
<bước>Nhào li, đổ vào khuôn, cho vào lò nướng.</bước>
</ch_dn>
</công_thc_nu_ăn>
5