
Đ nh d ng các files c a tài li u đi n tị ạ ủ ệ ệ ử
T n t i nhi u đ nh d ng các files khác nhau. Chúng có th đ c phânồ ạ ề ị ạ ể ượ
chia thành “đ n ch ng trình”, nghĩa là chúng đ c qu n lý và b o đ m b iơ ươ ượ ả ả ả ở
m t nhân viên l p trình, và “đa ch ng trình” đ c b o đ m b i vài nhânộ ậ ươ ượ ả ả ở
viên l p trình và có th đ c x lý b ng nhi u ch ng trình ph n m m khácậ ể ượ ử ằ ề ươ ầ ề
nhau.
Chúng ta có th li t kê nh ng đ nh d ng c b n:ể ệ ữ ị ạ ơ ả
1. Các đ nh d ng văn b nị ạ ả
Chúng th ng đ c xây d ng nh s tr giúp c a các quá trình biênườ ượ ự ờ ự ợ ủ
so n. Nh ng đ nh d ng văn b n ph bi n nh t là: ạ ữ ị ạ ả ổ ế ấ
- các đ nh d ng đ n ph n m m Microsoft Word và Word Perfect;ị ạ ơ ầ ề
- đ nh d ng RTF (Rich Text Format) đ c b o đ m b i nhi u ph l c ph nị ạ ượ ả ả ở ề ụ ụ ầ
m m trong khi đó v n gi đ nh d ng văn b n đã đ t;ề ẫ ữ ị ạ ả ặ
- đ nh d ng PDF (Portable Ducument Format) g m có hình nh trang v i cị ạ ồ ả ớ ả
văn b n và bi u đ . Có th đ c nh ng file theo đ nh d ng PDF b ng nhi uả ể ồ ể ọ ữ ị ạ ằ ề
ph n m m đ đ c files khác nhau, nh ng chúng đ c đ c xây d ng ch nhầ ề ể ọ ư ượ ượ ự ỉ ờ
ph n m m Adobe Acrobat. ầ ề
2. Các đ nh d ng đ h aị ạ ồ ọ
Chúng l u gi hình nh (ví d , nh ch p, hình v ) và đ c chia raư ữ ả ụ ả ụ ẽ ượ
thành hai ki u chính:ể
2.1. Các đ nh d ng vectorị ạ - l u gi hình nh nh là t p h p các hìnhư ữ ả ư ậ ợ
d ng hình h c. Trong s chúng ph bi n h n c là đ nh d ng DXF (Drawingạ ọ ố ổ ế ơ ả ị ạ
Interchange Format) đ c s d ng r ng rãi trong các ch ng trình thi t kượ ử ụ ộ ươ ế ế
b ng máy tính cho các k s và ki n trúc s ; đ nh d ng EPS (Encapsulatedằ ỹ ư ế ư ị ạ
PortScript) đ c s d ng r ng rãi trong các h th ng bi u quy t/b u c t iượ ử ụ ộ ệ ố ể ế ầ ử ạ
bàn vàđ nh d ng CGM (Computer Graphics Metafile) đ c s d ng r ng rãiị ạ ượ ử ụ ộ
trong nhi u ph n m m đ h a (ví d trong ph n m m Photoshop).ề ầ ề ồ ọ ụ ầ ề
2.2. Các đ nh d ng mànhị ạ , chúng l u gi hình nh nh là t p h p nh ngư ữ ả ư ậ ợ ữ
đi m nh - pixels. Khi thay đ i kích c nh, đ h a mành b bi n d ng. Trongể ả ổ ỡ ả ồ ọ ị ế ạ
s các đ nh d ng mành ph bi n h n c là đ nh d ng BMP (Bitmap), m tố ị ạ ổ ế ơ ả ị ạ ộ
đ nh d ng t ng đ i kém v ch t l ng, th ng dùng vào quá trình so nị ạ ươ ố ề ấ ượ ườ ạ
th o văn b n; đ nh d ng TIFF (Tagget Image File Format) s d ng r ng rãiả ả ị ạ ử ụ ộ
trong các ng d ng ph n m m và đ nh d ng GIF (Graphics Interchangeứ ụ ầ ề ị ạ
Format) s d ng r ng rãi trong các ph n m m dành cho Internet.ử ụ ộ ầ ề
3. Các đ nh d ng c s d li uị ạ ơ ở ữ ệ
Các đ nh d ng c s d li uị ạ ơ ở ữ ệ đ c xây d ng nh nh ng ph n m mượ ự ờ ữ ầ ề
chuyên d ng - các h th ng qu n lý c s d li u.ụ ệ ố ả ơ ở ữ ệ
H th ng qu n lý c s d li u cho phép xác đ nh nh ng m i quan h gi aệ ố ả ơ ở ữ ệ ị ữ ố ệ ữ
các thành ph n thông tin c a c s d li u, th c hi n các tác đ ng khác nhauầ ủ ơ ở ữ ệ ự ệ ộ
t i thông tin c a c s d li u (tìm ki m, đánh d u, th c hi n nh ng phépớ ủ ơ ở ữ ệ ế ấ ự ệ ữ
toán khác nhau, l p các báo cáo và ch d n, v.v.). Nh ng ví d v h th ngậ ỉ ẫ ữ ụ ề ệ ố
qu n lý c s d li u là Microsoft SQL Sever, Oracle, MySQL, IBM DB2,ả ơ ở ữ ệ
Sybase và nh ng ph n m m khác.ữ ầ ề
Thí d , c s d li u v khách hàng g m có tr ng thông tin v i cácụ ơ ở ữ ệ ề ồ ườ ớ
tên ng i mua, đ a ch và thông tin v hàng hóa. Nh ng tr ng đó có thườ ị ỉ ề ữ ườ ể
1

đ c t ch c thành các b ng riêng bi t (thí d , m t b ng cho t t c cácượ ổ ứ ả ệ ụ ộ ả ấ ả
tr ng v i nh ng tên c a khách hàng).ườ ớ ữ ủ
C s d li u có th chuy n sang đ nh d ng văn b n, nh ng khi đó b m t điơ ở ữ ệ ể ể ị ạ ả ư ị ấ
m i liên h gi a các tr ng v i các b ng (ví d , lúc đó có th nh n đ cố ệ ữ ườ ớ ả ụ ể ậ ượ
m i trang tên, m i trang đ a ch và nghìn trang thông tin v hàng hóa, t c làườ ườ ị ỉ ề ứ
thông tin không liên k t).ế
4. Các đ nh d ng c a b ng đi n tị ạ ủ ả ệ ử
Nh ng file trong đ nh d ng b ng đi n t l u gi trong các ô nh ng conữ ị ạ ả ệ ử ư ữ ữ
s và các m i liên h gi a nh ng con s đó. Ví d , m t ô có th ch a côngố ố ệ ữ ữ ố ụ ộ ể ứ
th c th c hi n vi c c ng các d li u c a hai ô khác. Gi ng nh các file c sứ ự ệ ệ ộ ữ ệ ủ ố ư ơ ở
d li u, các file b ng đi n t th ng có đ nh d ng c a chính ph n m m t oữ ệ ả ệ ử ườ ị ạ ủ ầ ề ạ
ra nó. M t s ch ng trình có th nh p kh u và khai thác nh ng d li u c aộ ố ươ ể ậ ẩ ữ ữ ệ ủ
các ngu n khác k c c a nh ng ch ng trình dùng đ trao đ i d li u ki uồ ể ả ủ ữ ươ ể ổ ữ ệ ể
này (thí d , đ nh d ng DIF (Data Interchange Format)). Các file c a b ng đi nụ ị ạ ủ ả ệ
t có th chuy n đ i thành file văn b n, nh ng nh ng con s và m i liên hử ể ể ổ ả ư ữ ố ố ệ
gi a các s s không còn n a. ữ ố ẽ ữ
5. Các đ nh d ng nhìn- nghe /video-audioị ạ
Nh ng đ nh d ng này ch a hình nh chuy n đ ng (ví d video s , ho tữ ị ạ ứ ả ể ộ ụ ố ạ
hình) và các d li u âm thanh đ c xây d ng và có th xem, nghe đ c nhữ ệ ượ ự ể ượ ờ
ch ng trình t ng thích và l u gi trong đ nh d ng đ n ch ng trình.ươ ươ ư ữ ị ạ ơ ươ
Nh ng đ nh d ng đ c s d ng nhi u h n c là QuickTime và MPEGữ ị ạ ượ ử ụ ề ơ ả
(Motion Picture Experts Group).
6. Đánh d u ngôn ngấ ữ (th ng g i là “duy t web”) còn đ c g i làườ ọ ệ ượ ọ
các đ nh d ng đánh d u, g m có h ng d n đính kèm đ bi u di n n i dungị ạ ấ ồ ướ ẫ ể ể ễ ộ
c a file. Đó là:ủ
SGML (Standard Generalized Markup Language) đ c s d ng trong các cượ ử ụ ơ
quan nhà n c nhi u n c trên th gi i và là tiêu chu n qu c t ;ướ ở ề ướ ế ớ ẩ ố ế
HTML (Hypertext Markup Language) đ c s d ng đ bi u di n h u nhượ ử ụ ể ể ễ ầ ư
toàn b thông tin c a m ng World Wide Web;ộ ủ ạ
XML (Extensible Markup Language) - ngôn ng t ng đ i đ n gi n d a trênữ ươ ố ơ ả ự
c s SGML và đ c dùng ph bi n khi qu n lý thông tin và trao đ i nó.ơ ở ượ ổ ế ả ổ
Khi áp d ng vào vi c b o đ m tài li u cho qu n lý, t ng đ nh d ng fileụ ệ ả ả ệ ả ừ ị ạ
có đi m m nh và đi m y u riêng. Ví d , nh ng đ nh d ng văn b nể ạ ể ế ụ ữ ị ạ ả
(MicrosoftWord, WordPerfect, RTF v.v.) thu n ti n cho tìm ki m ng c nhậ ệ ế ữ ả
theo các tài li u trong c s d li u, còn các đ nh d ng đ ho (PDF, TIFFệ ơ ở ữ ệ ị ạ ồ ạ
v.v.) giúp nh n đ c hình nh khi quét v i toàn b nh ng đ c đi m bên ngoàiậ ượ ả ớ ộ ữ ặ ể
c a nó và gi tài li u có d ng đúng nh trên gi y v i đ y đ ch ký cùngủ ữ ệ ạ ư ấ ớ ầ ủ ữ
d u xác nh n (th th c-visa).ấ ậ ị ự
Đ nh d ng MS Word r t ti n cho biên t p tài li u và công vi c c aị ạ ấ ệ ậ ệ ệ ủ
nhóm nhân viên v i nó, nh ng file MS Word l i ch a đ ng nhi u thông tin nớ ư ạ ứ ự ề ẩ
(tr c tiên v nh ng thay đ i đã th c hi n trong file) và nh v y, nó r tướ ề ữ ổ ự ệ ư ậ ấ
không an toàn theo quan đi m th t thoát thông tin công v . Ví d , trong lúcể ấ ụ ụ
chu n b tài li u th ng m i, thông tin n l i cho ta bi t nh ng đ xu t kh iẩ ị ệ ươ ạ ẩ ạ ế ữ ề ấ ở
đi m, ai có s nh h ng m nh nh t t i văn b n. Trong chu n b tài li uể ự ả ưở ạ ấ ớ ả ẩ ị ệ
2

theo nhóm, s phân tích s a đ i cho ta kh năng nh n bi t không ch h tênự ử ổ ả ậ ế ỉ ọ
nh ng ng i l p tài li u mà c m c đ đóng góp c a t ng ng i vào ph ngữ ườ ậ ệ ả ứ ộ ủ ừ ườ ươ
án hoàn ch nh c a tài li u.ỉ ủ ệ
Nga, các c quan chính quy n LB t quy đ nh nh ng đ nh d ng choỞ ơ ề ự ị ữ ị ạ
các d ng đã xác đ nh c a các tài li u đi n t đ c s d ng trong m i quan hạ ị ủ ệ ệ ử ượ ử ụ ố ệ
qua l i v i các t ch c khác và v i các công dân. Thí d , theo nh ng yêu c uạ ớ ổ ứ ớ ụ ữ ầ
c a U ban LB v th tr ng ti n t (ngày nay là C quan LB v th tr ngủ ỷ ề ị ườ ề ệ ơ ề ị ườ
tài chính) các file c a nh ng d ng đã xác đ nh c a các tài li u ph i đ c trìnhủ ữ ạ ị ủ ệ ả ượ
bày trong đ nh d ng RTF. V ph n mình, B Tài chính Nga quy đ nh r ngị ạ ề ầ ộ ị ằ
nh ng tài li u báo cáo th ng kê do các t ch c b o hi m (b o hi m y t ) l pữ ệ ố ổ ứ ả ể ả ể ế ậ
d i d ng t p h p các file văn b n trong đ nh d ng XML.ướ ạ ậ ợ ả ị ạ
V y đ nh d ng XML tuy t v i vì cái gì? Đánh d u ngôn ng m r ngậ ị ạ ệ ờ ấ ữ ở ộ
(Extensible Markup Language) ch a đ ng trong mình không ch các d li uứ ự ỉ ữ ệ
mà còn mang thông tin mô t nh ng d li u đó. Nó dùng đ c cho b t kỳ ngả ữ ữ ệ ượ ấ ứ
d ng máy tính nào mà không b l thu c vào b o đ m k thu t và các hụ ị ệ ộ ả ả ỹ ậ ệ
th ng x lý, nó cho phép chuy n t i dung l ng l n thông tin không c n đ nố ử ể ả ượ ớ ầ ế
nh ng bi n đ i n ng nh c các c u trúc d li u.ữ ế ổ ặ ọ ấ ữ ệ
Nh ng đ nh d ng ti n nhi m c a XML là đánh d u ngôn ng chu n chungữ ị ạ ề ệ ủ ấ ữ ẩ
đ c phê duy t b i T ch c tiêu chu n qu c t nh m t tiêu chu n ngay tượ ệ ở ổ ứ ẩ ố ế ư ộ ẩ ừ
nh ng năm 1980, m t phiên b n rút g n c a nó là đánh d u ngôn ng siêu vănữ ộ ả ọ ủ ấ ữ
b n HTML.ả
Đ nh d ng XML đ c thông qua b i các t ch c tiêu chu n c a c ngị ạ ượ ở ổ ứ ẩ ủ ộ
đ ng-internet v i đ i di n là t p đoàn World Wide Web (W3C) và t ch cồ ớ ạ ệ ậ ổ ứ
UDDI.org. Hi n nay các công ty Microsoft, IBM, Oracle, cũng nh m t lo tệ ư ộ ạ
các công ty s n xu t ph m m m đã linh ho t chuy n sang s d ng XML vàoả ấ ầ ề ạ ể ử ụ
các s n ph m c a mình và v th c t h đang th c hi n ý t ng tiêu chu nả ẩ ủ ề ự ế ọ ự ệ ưở ẩ
hoá đ nh d ng tài li u trên c s XML.ị ạ ệ ơ ở
Đ nh d ng PDF do hãng Adobe Systems Inc. xây d ng đang là r t ph bi nị ạ ự ấ ổ ế
trong trao đ i tài li u và đ c s d ng r ng rãi cho nh ng tài li u c a m ngổ ệ ượ ử ụ ộ ữ ệ ủ ạ
internet b i vì nó cho phép gi ngo i hình g c c a tài li u và ngăn c n vi cở ữ ạ ố ủ ệ ả ệ
đ a nh ng thay đ i vào tài li u. Theo đánh giá c a công ty Adobe thì đã cóư ữ ổ ệ ủ
n a tri u ng i t i ph n m m mi n phí c a công ty đ xem các file PDF,ử ệ ườ ả ầ ề ễ ủ ể
nhi u doanh nghi p đã ch n đ nh d ng này làm tiêu chu n chuy n giao và l uề ệ ọ ị ạ ẩ ể ư
gi tài li u, có không ít nhà l p trình đ c l p đang gi i thi u nh ng s n ph mữ ệ ậ ộ ậ ớ ệ ữ ả ẩ
h tr PDF, th m chí m t s là mi n phí. ỗ ợ ậ ộ ố ễ
Nh ng công ty Adobe trong t ng lai s không cung c p mi n phí cácư ươ ẽ ấ ễ
ch ng trình c a mình. H n n a, trong nh ng phiên b n m i c a ch ngươ ủ ơ ữ ữ ả ớ ủ ươ
trình Adobe các file c a phiên b n cũ th ng đ c trình di n không chính xác.ủ ả ườ ượ ễ
Chính vì v y đã xu t hi n phiên b n nâng c p đ nh d ng PDF đ c g i làậ ấ ệ ả ấ ị ạ ượ ọ
PDF-Archive (PDF-A). n c ngoài nó đ c coi là m t trong hai phiên b nỞ ướ ượ ộ ả
c s mà trong t ng lai chúng có th đ c s d ng cho b o qu n l u trơ ở ươ ể ượ ử ụ ả ả ư ữ
các tài li u đi n t . Còn đ nh d ng th hai là XML nói trên.ệ ệ ử ị ạ ứ
Đ nh d ng PDF-A cũng gi ng nh XML có nh ng n i tr i và nh ngị ạ ố ư ữ ổ ộ ữ
y u kém c a mình trong công tác l u tr tài li u đi n t . C th , đ nh d ngế ủ ư ữ ệ ệ ử ụ ể ị ạ
PDF-A đ c bi t thu n l i cho l u tr tài li u đi n t vì r ng nó gi đ cặ ệ ậ ợ ư ữ ệ ệ ử ằ ữ ượ
3

ngo i hình c a tài li u g c b ng gi y. Kinh nghi m công tác xét x hai vạ ủ ệ ố ằ ấ ệ ử ụ
phá s n l n nh t trong l ch s M - các công ty Enron và Global Crossing đãả ớ ấ ị ử ỹ
kh ng đ nh đ c ti n ích c a nó. H đã t o l p kh i l ng l n tài li u trongẳ ị ượ ệ ủ ọ ạ ậ ố ượ ớ ệ
đ nh d ng PDF và đã đ t ra tr c các c quan t pháp LB nhi m v l u trị ạ ặ ướ ơ ư ệ ụ ư ữ
nh ng tài li u đó. V nhi u đi m thì đó đã là xung l c tác đ ng vào quá trìnhữ ệ ề ề ể ự ộ
biên so n d th o tiêu chu n qu c t v l u tr tài li u theo PDF.ạ ự ả ẩ ố ế ề ư ữ ệ
Song kh năng s d ng nh ng đ nh d ng trên vào l u tr đi n t cònả ử ụ ữ ị ạ ư ữ ệ ử
h n ch , l y ví d , đ nh d ng PDF-A không dùng đ c cho l u tr tài li uạ ế ấ ụ ị ạ ượ ư ữ ệ
nghe nhìn.
Ph i l u ý r ng không có m t đ nh d ng nào trong s các đ nh d ng fileả ư ằ ộ ị ạ ố ị ạ
tài li u đi n t là v n năng cho l u tr lâu dài, b i vì k thu t, công ngh vàệ ệ ử ạ ư ữ ở ỹ ậ ệ
b o đ m ch ng trình thay đ i khá nhanh. Ngay bây gi đã khó d ng l i trênả ả ươ ổ ờ ự ạ
thi t b m i nh ng tài li u đ c l p nh các công c biên t p AmiPro,ế ị ớ ữ ệ ượ ậ ờ ụ ậ
WordPerfect. V y thì s d dàng không, ví d , d ng l i tài li u l u tr trongậ ẽ ễ ụ ự ạ ệ ư ữ
đ nh d ng Word-97 sau 10 - 15 năm n a?ị ạ ữ
XML là viết tắt của chữ EXtensible Markup Language, tức là "ngôn ngữ đánh dấu mở rộng".
Tương tự như HTML, XML cũng dùng các thẻ (tag) trong văn bản, nhưng khác với HTML một chút.
HTML dùng các thẻ để định dạng văn bản. Còn XML dùng các thẻ để mô tả văn bản.
Tức là các thẻ trong HTML sẽ quyết định văn bản khi hiển thị lên phải như thế nào, còn các thẻ trong XML sẽ quyết
định văn bản đó mang ý nghĩa gì.
Vì XML là để mô tả văn bản nên nó có ứng dụng khá rộng rãi. Một ứng dụng của nó là để trao đổi dữ liệu giữa các
hệ thống với nhau.
XML (viết tắt từ tiếng Anh Extensible Markup Language, "Ngôn ngữ Đánh dấu Mở rộng") là ngôn ngữ đánh dấu
với mục đích chung do W3C đề nghị, để tạo ra các ngôn ngữ đánh dấu khác. Đây là một tập con đơn giản của SGML, có
khả năng mô tả nhiều loại dữ liệu khác nhau. Mục đích chính của XML là đơn giản hóa việc chia sẻ dữ liệu giữa các hệ
thống khác nhau, đặc biệt là các hệ thống được kết nối với Internet. Các ngôn ngữ dựa trên XML (thí dụ: RDF, RSS,
MathML, XHTML, SVG, và cXML) được định nghĩa theo cách thông thường, cho phép các chương trình sửa đổi và kiểm
tra hợp lệ bằng các ngôn ngữ này mà không cần có hiểu biết trước về hình thức của chúng.
Lịch sử :
Vào giữa những năm 1990, các chuyên gia SGML đã có kinh nghiệm với World Wide Web (vẫn còn khá mới vào thời
đó). Họ tin tưởng rằng SGML có thể cung cấp giải pháp cho các vấn đề mà Web đang gặp phải. Jon Bosak đưa ra ý kiến
W3C nên tài trợ một chương trình mang tên "SGML trên Web".
Đặc điểm :
XML cung cấp một phương tiện dùng văn bản (text) để mô tả thông tin và áp dụng một cấu trúc kiểu cây cho thông tin
đó. Tại mức căn bản, mọi thông tin đều thể hiện dưới dạng text, chen giữa là các thẻ đánh dấu (markup) với nhiệm vụ ký
hiệu sự phân chia thông tin thành một cấu trúc có thứ bậc của các dữ liệu ký tự, các phần tử dùng để chứa dữ liệu, và
các thuộc tính của các phần tử đó. Về mặt đó, XML tương tự với các biểu thức S (S-expression) của ngôn ngữ lập trình
LISP ở chỗ chúng đều mô tả các cấu trúc cây mà trong đó mỗi nút có thể có một danh sách tính chất của riêng mình.
Đơn vị cơ sở của XML là các ký tự theo định nghĩa của Universal Character Set (Bộ ký tự toàn cầu). Các ký tự được kết
hợp theo các tổ hợp chuỗi hợp lệ để tạo thành một tài liệu XML. Tài liệu này gồm một hoặc nhiều thực thể, mỗi thực thể
thường là một phần nào đó của các ký tự thuộc tài liệu, được mã hóa dưới dạng một chuỗi các bit và lưu trữ trong một tệp
văn bản (text file).
4

Các tệp XML có thể dùng cho nhiều loại dữ liệu đa phương tiện. RFC3023 định nghĩa các loại "application/xml" và
"text/xml", với ý rằng dữ liệu được biểu diễn bằng XML mà không nói gì đến ngữ nghĩa của dữ liệu.
Sự phổ biến của các phần mềm soạn thảo văn bản (word processor) đã hỗ trợ việc soạn thảo và bảo trì tài liệu XML một
cách nhanh chóng. Trước XML, có rất ít ngôn ngữ mô tả dữ liệu với các đặc điểm đa năng, thân thiện với giao thức
Internet, dễ học và dễ tạo. Thực tế, đa số các định dạng trao đổi dữ liệu thời đó đều chuyện dụng, có tính độc quyền, và
có định dạng nhị phân (chuỗi bit thay vì chuỗi ký tự) khó dùng chung giữa các ứng dụng phần mềm khác nhau hay giữa
các hệ nền (platform) khác nhau. Việc tạo và bảo trì trên các trình soạn thảo thông dụng lại càng khó khăn.
Bằng cách cho phép các tên dữ liệu, cấu trúc thứ bậc được phép, và ý nghĩa của các phần tử và thuộc tính có tính chất
mở và có thể được định nghĩa bởi một giản đồ tùy biến được, XML cung cấp một cơ sở cú pháp cho việc tạo lập các
ngôn ngữ đánh dấu dựa XML theo yêu cầu. Cú pháp chung của các ngôn ngữ đó là cố định — các tài liệu phải tuân theo
các quy tắc chung của XML, bảo đảm rằng tất cả các phần mềm hiểu XML ít ra cũng phải có khả năng đọc (phân tích
cú pháp - parse) và hiểu bố cục tương đối của thông tin trong các tài liệu đó. Giản đồ chỉ bổ sung một tập các ràng buộc
cho các quy tắc cú pháp. Các giản đồ thường hạn chế tên của phần tử và thuộc tính và các cấu trúc thứ bậc được phép,
ví dụ, chỉ cho phép một phần tử tên 'ngày sinh' chứa một phần tử tên 'ngày' và một phần tử có tên 'tháng', mỗi phần tử
phải chứa đúng một ký tự. Đây là điểm khác biệt giữa XML và HTML. HTML có một bộ các phần tử và thuộc tính không
mềm dẻo, chỉ có một tác dụng và nói chung là không thể dùng cho mục đích khác.
XML không hạn chế về việc nó được sử dụng như thế nào. Mặc dù XML về cơ bản là dạng text, các phần mềm với chức
năng trừu tượng hóa nó thành các định dạng khác giàu thông tin hơn đã nhanh chóng xuất hiện, quá trình trừu tượng hóa
này được thực hiện chủ yếu qua việc sử dụng các giản đồ định hướng kiểu dữ liệu (datatype-oriented schema) và khuôn
mẫu lập trình hướng đối tượng (mà trong đó, mỗi tài liệu XML được thao tác như là một đối tượng). Những phần mềm như
vậy có thể coi XML như là dạng text đã được tuần tự hóa chỉ khi nó cần truyền dữ liệu qua mạng.
Sơ lược về cú pháp
<tên thuộc_tính="giá trị">nội dung</tên>
<?xml version="1.0" encoding="UTF-8"?>
<công_thức_nấu_ăn tên="bánh mì" thời_gian_chuẩn_bị="5 phút" thời_gian_nấu="3 tiếng">
<title>Bánh mì cơ bản</title>
<nguyên_liệu lượng="3" đơn_vị="ca">Bột mì</nguyên_liệu>
<nguyên_liệu lượng="7" đơn_vị="gram">Men</nguyên_liệu>
<nguyên_liệu lượng="1.5" đơn_vị="ca" trạng_thái="ấm">Nước</nguyên_liệu>
<nguyên_liệu lượng="1" đơn_vị="thìa cà phê">Muối</nguyên_liệu>
<chỉ_dẫn>
<bước>Trộn tất cả các nguyên liệu với nhau và nhào kĩ</bước>
<bước>Phủ một mảnh vải, ủ một tiếng đồng hồ trong phòng ấm.</bước>
<bước>Nhào lại, đổ vào khuôn, cho vào lò nướng.</bước>
</chỉ_dẫn>
</công_thức_nấu_ăn>
5