Định dạng các files của tài liệu điện tử

Chia sẻ: Nguyễn Lệ Nhung | Ngày: | Loại File: DOC | Số trang:7

0
278
lượt xem
88
download

Định dạng các files của tài liệu điện tử

Mô tả tài liệu
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Tồn tại nhiều định dạng các files khác nhau. Chúng có thể được phân chia thành “đơn chương trình”, nghĩa là chúng được quản lý và bảo đảm bởi một nhân viên lập trình, và “đa chương trình” được bảo đảm bởi vài nhân viên lập trình và có thể được xử lý bằng nhiều chương trình (phần mềm) khác nhau. Chúng ta có thể liệt kê những định dạng cơ bản 1. Các định dạng văn bản 2. Các định dạng đồ họa 3. Các định dạng cơ sở dữ liệu 4. Các định dạng bảng điện tử 5. Các định dạng nghe-nhìn/video-audio 6....

Chủ đề:
Lưu

Nội dung Text: Định dạng các files của tài liệu điện tử

  1. Định dạng các files của tài liệu điện tử Tồn tại nhiều định dạng các files khác nhau. Chúng có thể được phân chia thành “đơn chương trình”, nghĩa là chúng được quản lý và bảo đảm bởi một nhân viên lập trình, và “đa chương trình” được bảo đảm bởi vài nhân viên lập trình và có thể được xử lý bằng nhiều chương trình phần mềm khác nhau. Chúng ta có thể liệt kê những định dạng cơ bản: 1. Các định dạng văn bản Chúng thường được xây dựng nhờ sự trợ giúp của các quá trình biên soạn. Những định dạng văn bản phổ biến nhất là: - các định dạng đơn phần mềm Microsoft Word và Word Perfect; - định dạng RTF (Rich Text Format) được bảo đảm bởi nhiều phụ lục phần mềm trong khi đó vẫn giữ định dạng văn bản đã đặt; - định dạng PDF (Portable Ducument Format) gồm có hình ảnh trang với cả văn bản và biểu đồ. Có thể đọc những file theo định dạng PDF bằng nhiều phần mềm để đọc files khác nhau, nhưng chúng được được xây dựng chỉ nhờ phần mềm Adobe Acrobat. 2. Các định dạng đồ họa Chúng lưu giữ hình ảnh (ví dụ, ảnh chụp, hình vẽ) và được chia ra thành hai kiểu chính: 2.1. Các định dạng vector - lưu giữ hình ảnh như là tập hợp các hình dạng hình học. Trong số chúng phổ biến hơn cả là định dạng DXF (Drawing Interchange Format) được sử dụng rộng rãi trong các chương trình thiết kế bằng máy tính cho các kỹ sư và kiến trúc sư; định dạng EPS (Encapsulated PortScript) được sử dụng rộng rãi trong các hệ thống biểu quyết/bầu cử tại bàn vàđịnh dạng CGM (Computer Graphics Metafile) được sử dụng rộng rãi trong nhiều phần mềm đồ họa (ví dụ trong phần mềm Photoshop). 2.2. Các định dạng mành, chúng lưu giữ hình ảnh như là tập hợp những điểm ảnh - pixels. Khi thay đổi kích cỡ ảnh, đồ họa mành bị biến dạng. Trong số các định dạng mành phổ biến hơn cả là định dạng BMP (Bitmap), một định dạng tương đối kém về chất lượng, thường dùng vào quá trình soạn thảo văn bản; định dạng TIFF (Tagget Image File Format) sử dụng rộng rãi trong các ứng dụng phần mềm và định dạng GIF (Graphics Interchange Format) sử dụng rộng rãi trong các phần mềm dành cho Internet. 3. Các định dạng cơ sở dữ liệu Các định dạng cơ sở dữ liệu được xây dựng nhờ những phần mềm chuyên dụng - các hệ thống quản lý cơ sở dữ liệu. Hệ thống quản lý cơ sở dữ liệu cho phép xác định những mối quan hệ giữa các thành phần thông tin của cơ sở dữ liệu, thực hiện các tác động khác nhau tới thông tin của cơ sở dữ liệu (tìm kiếm, đánh dấu, thực hiện những phép toán khác nhau, lập các báo cáo và chỉ dẫn, v.v.). Những ví dụ về hệ thống quản lý cơ sở dữ liệu là Microsoft SQL Sever, Oracle, MySQL, IBM DB2, Sybase và những phần mềm khác. Thí dụ, cơ sở dữ liệu về khách hàng gồm có trường thông tin với các tên người mua, địa chỉ và thông tin về hàng hóa. Những trường đó có thể 1
  2. được tổ chức thành các bảng riêng biệt (thí dụ, một bảng cho tất cả các trường với những tên của khách hàng). Cơ sở dữ liệu có thể chuyển sang định dạng văn bản, nhưng khi đó bị mất đi mối liên hệ giữa các trường với các bảng (ví dụ, lúc đó có thể nhận được mười trang tên, mười trang địa chỉ và nghìn trang thông tin về hàng hóa, tức là thông tin không liên kết). 4. Các định dạng của bảng điện tử Những file trong định dạng bảng điện tử lưu giữ trong các ô những con số và các mối liên hệ giữa những con số đó. Ví dụ, một ô có thể chứa công thức thực hiện việc cộng các dữ liệu của hai ô khác. Giống như các file cơ sở dữ liệu, các file bảng điện tử thường có định dạng của chính phần mềm tạo ra nó. Một số chương trình có thể nhập khẩu và khai thác những dữ liệu của các nguồn khác kể cả của những chương trình dùng để trao đổi dữ liệu kiểu này (thí dụ, định dạng DIF (Data Interchange Format)). Các file của bảng điện tử có thể chuyển đổi thành file văn bản, nhưng những con số và mối liên hệ giữa các số sẽ không còn nữa. 5. Các định dạng nhìn- nghe /video-audio Những định dạng này chứa hình ảnh chuyển động (ví dụ video số, hoạt hình) và các dữ liệu âm thanh được xây dựng và có thể xem, nghe được nhờ chương trình tương thích và lưu giữ trong định dạng đơn chương trình. Những định dạng được sử dụng nhiều hơn cả là QuickTime và MPEG (Motion Picture Experts Group). 6. Đánh dấu ngôn ngữ (thường gọi là “duyệt web”) còn được gọi là các định dạng đánh dấu, gồm có hướng dẫn đính kèm để biểu diễn nội dung của file. Đó là: SGML (Standard Generalized Markup Language) được sử dụng trong các cơ quan nhà nước ở nhiều nước trên thế giới và là tiêu chuẩn quốc tế; HTML (Hypertext Markup Language) được sử dụng để biểu diễn hầu như toàn bộ thông tin của mạng World Wide Web; XML (Extensible Markup Language) - ngôn ngữ tương đối đơn giản dựa trên cơ sở SGML và được dùng phổ biến khi quản lý thông tin và trao đổi nó. Khi áp dụng vào việc bảo đảm tài liệu cho quản lý, từng định dạng file có điểm mạnh và điểm yếu riêng. Ví dụ, những định dạng văn bản (MicrosoftWord, WordPerfect, RTF v.v.) thuận tiện cho tìm kiếm ngữ cảnh theo các tài liệu trong cơ sở dữ liệu, còn các định dạng đồ hoạ (PDF, TIFF v.v.) giúp nhận được hình ảnh khi quét với toàn bộ những đặc điểm bên ngoài của nó và giữ tài liệu có dạng đúng như trên giấy với đầy đủ chữ ký cùng dấu xác nhận (thị thực-visa). Định dạng MS Word rất tiện cho biên tập tài liệu và công việc của nhóm nhân viên với nó, nhưng file MS Word lại chứa đựng nhiều thông tin ẩn (trước tiên về những thay đổi đã thực hiện trong file) và như vậy, nó rất không an toàn theo quan điểm thất thoát thông tin công vụ. Ví dụ, trong lúc chuẩn bị tài liệu thương mại, thông tin ẩn lại cho ta biết những đề xuất khởi điểm, ai có sự ảnh hưởng mạnh nhất tới văn bản. Trong chuẩn bị tài liệu 2
  3. theo nhóm, sự phân tích sửa đổi cho ta khả năng nhận biết không chỉ họ tên những người lập tài liệu mà cả mức độ đóng góp của từng người vào phương án hoàn chỉnh của tài liệu. Ở Nga, các cơ quan chính quyền LB tự quy định những định dạng cho các dạng đã xác định của các tài liệu điện tử được sử dụng trong mối quan hệ qua lại với các tổ chức khác và với các công dân. Thí dụ, theo những yêu cầu của Uỷ ban LB về thị trường tiền tệ (ngày nay là Cơ quan LB về thị trường tài chính) các file của những dạng đã xác định của các tài liệu phải được trình bày trong định dạng RTF. Về phần mình, Bộ Tài chính Nga quy định rằng những tài liệu báo cáo thống kê do các tổ chức bảo hiểm (bảo hiểm y tế) lập dưới dạng tập hợp các file văn bản trong định dạng XML. Vậy định dạng XML tuyệt vời vì cái gì? Đánh dấu ngôn ngữ mở rộng (Extensible Markup Language) chứa đựng trong mình không chỉ các dữ liệu mà còn mang thông tin mô tả những dữ liệu đó. Nó dùng được cho bất kỳ ứng dụng máy tính nào mà không bị lệ thuộc vào bảo đảm kỹ thuật và các hệ thống xử lý, nó cho phép chuyển tải dung lượng lớn thông tin không cần đến những biến đổi nặng nhọc các cấu trúc dữ liệu. Những định dạng tiền nhiệm của XML là đánh dấu ngôn ngữ chuẩn chung được phê duyệt bởi Tổ chức tiêu chuẩn quốc tế như một tiêu chuẩn ngay từ những năm 1980, một phiên bản rút gọn của nó là đánh dấu ngôn ngữ siêu văn bản HTML. Định dạng XML được thông qua bởi các tổ chức tiêu chuẩn của cộng đồng-internet với đại diện là tập đoàn World Wide Web (W3C) và tổ chức UDDI.org. Hiện nay các công ty Microsoft, IBM, Oracle, cũng như một loạt các công ty sản xuất phầm mềm đã linh hoạt chuyển sang sử dụng XML vào các sản phẩm của mình và về thực tế họ đang thực hiện ý tưởng tiêu chuẩn hoá định dạng tài liệu trên cơ sở XML. Định dạng PDF do hãng Adobe Systems Inc. xây dựng đang là rất phổ biến trong trao đổi tài liệu và được sử dụng rộng rãi cho những tài liệu của mạng internet bởi vì nó cho phép giữ ngoại hình gốc của tài liệu và ngăn cản việc đưa những thay đổi vào tài liệu. Theo đánh giá của công ty Adobe thì đã có nửa triệu người tải phần mềm miễn phí của công ty để xem các file PDF, nhiều doanh nghiệp đã chọn định dạng này làm tiêu chuẩn chuyển giao và lưu giữ tài liệu, có không ít nhà lập trình độc lập đang giới thiệu những sản phẩm hỗ trợ PDF, thậm chí một số là miễn phí. Nhưng công ty Adobe trong tương lai sẽ không cung cấp miễn phí các chương trình của mình. Hơn nữa, trong những phiên bản mới của chương trình Adobe các file của phiên bản cũ thường được trình diễn không chính xác. Chính vì vậy đã xuất hiện phiên bản nâng cấp định dạng PDF được gọi là PDF-Archive (PDF-A). Ở nước ngoài nó được coi là một trong hai phiên bản cơ sở mà trong tương lai chúng có thể được sử dụng cho bảo quản lưu trữ các tài liệu điện tử. Còn định dạng thứ hai là XML nói trên. Định dạng PDF-A cũng giống như XML có những nổi trội và những yếu kém của mình trong công tác lưu trữ tài liệu điện tử. Cụ thể, định dạng PDF-A đặc biệt thuận lợi cho lưu trữ tài liệu điện tử vì rằng nó giữ được 3
  4. ngoại hình của tài liệu gốc bằng giấy. Kinh nghiệm công tác xét xử hai vụ phá sản lớn nhất trong lịch sử Mỹ - các công ty Enron và Global Crossing đã khẳng định được tiện ích của nó. Họ đã tạo lập khối lượng lớn tài liệu trong định dạng PDF và đã đặt ra trước các cơ quan tư pháp LB nhiệm vụ lưu trữ những tài liệu đó. Về nhiều điểm thì đó đã là xung lực tác động vào quá trình biên soạn dự thảo tiêu chuẩn quốc tế về lưu trữ tài liệu theo PDF. Song khả năng sử dụng những định dạng trên vào lưu trữ điện tử còn hạn chế, lấy ví dụ, định dạng PDF-A không dùng được cho lưu trữ tài liệu nghe nhìn. Phải lưu ý rằng không có một định dạng nào trong số các định dạng file tài liệu điện tử là vạn năng cho lưu trữ lâu dài, bởi vì kỹ thuật, công nghệ và bảo đảm chương trình thay đổi khá nhanh. Ngay bây giờ đã khó dựng lại trên thiết bị mới những tài liệu được lập nhờ các công cụ biên tập AmiPro, WordPerfect. Vậy thì sẽ dễ dàng không, ví dụ, dựng lại tài liệu lưu trữ trong định dạng Word-97 sau 10 - 15 năm nữa? XML   là   viết   tắt   của   chữ   EXtensible  Markup  Language,   tức   là   "ngôn   ngữ   đánh   dấu   mở   rộng". Tương   tự   như   HTML,   XML   cũng   dùng   các   thẻ   (tag)   trong   văn   bản,   nhưng   khác   với   HTML   một   chút. HTML   dùng   các   thẻ   để  định   dạng  văn   bản.   Còn   XML   dùng   các   thẻ   để  mô   tả  văn   bản. Tức là các thẻ trong HTML sẽ quyết định văn bản khi hiển thị lên phải như thế nào, còn các thẻ trong XML sẽ quyết  định   văn   bản   đó   mang   ý   nghĩa   gì. Vì XML là để mô tả văn bản nên nó có ứng dụng khá rộng rãi. Một ứng dụng của nó là để trao đổi dữ liệu giữa các  hệ thống với nhau. XML (viết tắt từ tiếng Anh Extensible Markup Language, "Ngôn ngữ Đánh dấu Mở rộng") là ngôn ngữ đánh dấu  với mục đích chung do W3C đề nghị, để tạo ra các ngôn ngữ đánh dấu khác. Đây là một tập con đơn giản của SGML, có  khả năng mô tả nhiều loại dữ liệu khác nhau. Mục đích chính của XML là đơn giản hóa việc chia sẻ dữ liệu giữa các hệ  thống khác nhau, đặc biệt là các hệ thống được kết nối với Internet. Các ngôn ngữ dựa trên XML (thí dụ: RDF, RSS,  MathML, XHTML, SVG, và cXML) được định nghĩa theo cách thông thường, cho phép các chương trình sửa đổi và kiểm  tra hợp lệ bằng các ngôn ngữ này mà không cần có hiểu biết trước về hình thức của chúng. Lịch sử : Vào giữa những năm 1990, các chuyên gia SGML đã có kinh nghiệm với World Wide Web (vẫn còn khá mới vào thời  đó). Họ tin tưởng rằng SGML có thể cung cấp giải pháp cho các vấn đề mà Web đang gặp phải. Jon Bosak đưa ra ý kiến  W3C nên tài trợ một chương trình mang tên "SGML trên Web". Đặc điểm : XML cung cấp một phương tiện dùng văn bản (text) để mô tả thông tin và áp dụng một cấu trúc kiểu cây cho thông tin  đó. Tại mức căn bản, mọi thông tin đều thể hiện dưới dạng text, chen giữa là các thẻ đánh dấu (markup) với nhiệm vụ ký  hiệu sự phân chia thông tin thành một cấu trúc có thứ bậc của các dữ liệu ký tự, các phần tử dùng để chứa dữ liệu, và  các thuộc tính của các phần tử đó. Về mặt đó, XML tương tự với các biểu thức S (S­expression) của ngôn ngữ lập trình  LISP ở chỗ chúng đều mô tả các cấu trúc cây mà trong đó mỗi nút có thể có một danh sách tính chất của riêng mình. Đơn vị cơ sở của XML là các ký tự theo định nghĩa của Universal Character Set (Bộ ký tự toàn cầu). Các ký tự được kết  hợp theo các tổ hợp chuỗi hợp lệ để tạo thành một tài liệu XML. Tài liệu này gồm một hoặc nhiều thực thể, mỗi thực thể  thường là một phần nào đó của các ký tự thuộc tài liệu, được mã hóa dưới dạng một chuỗi các bit và lưu trữ trong một tệp  văn bản (text file). 4
  5. Các tệp XML có thể dùng cho nhiều loại dữ liệu đa phương tiện. RFC3023 định nghĩa các loại "application/xml" và  "text/xml", với ý rằng dữ liệu được biểu diễn bằng XML mà không nói gì đến ngữ nghĩa của dữ liệu. Sự phổ biến của các phần mềm soạn thảo văn bản (word processor) đã hỗ trợ việc soạn thảo và bảo trì tài liệu XML một  cách nhanh chóng. Trước XML, có rất ít ngôn ngữ mô tả dữ liệu với các đặc điểm đa năng, thân thiện với giao thức  Internet, dễ học và dễ tạo. Thực tế, đa số các định dạng trao đổi dữ liệu thời đó đều chuyện dụng, có tính độc quyền, và  có định dạng nhị phân (chuỗi bit thay vì chuỗi ký tự) khó dùng chung giữa các ứng dụng phần mềm khác nhau hay giữa  các hệ nền (platform) khác nhau. Việc tạo và bảo trì trên các trình soạn thảo thông dụng lại càng khó khăn. Bằng cách cho phép các tên dữ liệu, cấu trúc thứ bậc được phép, và ý nghĩa của các phần tử và thuộc tính có tính chất  mở và có thể được định nghĩa bởi một giản đồ tùy biến được, XML cung cấp một cơ sở cú pháp cho việc tạo lập các  ngôn ngữ đánh dấu dựa XML theo yêu cầu. Cú pháp chung của các ngôn ngữ đó là cố định — các tài liệu phải tuân theo  các quy tắc chung của XML, bảo đảm rằng tất cả các phần mềm hiểu XML ít ra cũng phải có khả năng đọc (phân tích  cú pháp ­ parse) và hiểu bố cục tương đối của thông tin trong các tài liệu đó. Giản đồ chỉ bổ sung một tập các ràng buộc  cho các quy tắc cú pháp. Các giản đồ thường hạn chế tên của phần tử và thuộc tính và các cấu trúc thứ bậc được phép,  ví dụ, chỉ cho phép một phần tử tên 'ngày sinh' chứa một phần tử tên 'ngày' và một phần tử có tên 'tháng', mỗi phần tử  phải chứa đúng một ký tự. Đây là điểm khác biệt giữa XML và HTML. HTML có một bộ các phần tử và thuộc tính không  mềm dẻo, chỉ có một tác dụng và nói chung là không thể dùng cho mục đích khác. XML không hạn chế về việc nó được sử dụng như thế nào. Mặc dù XML về cơ bản là dạng text, các phần mềm với chức  năng trừu tượng hóa nó thành các định dạng khác giàu thông tin hơn đã nhanh chóng xuất hiện, quá trình trừu tượng hóa  này được thực hiện chủ yếu qua việc sử dụng các giản đồ định hướng kiểu dữ liệu (datatype­oriented schema) và khuôn  mẫu lập trình hướng đối tượng (mà trong đó, mỗi tài liệu XML được thao tác như là một đối tượng). Những phần mềm như  vậy có thể coi XML như là dạng text đã được tuần tự hóa chỉ khi nó cần truyền dữ liệu qua mạng. Sơ lược về cú pháp nội dung Bánh mì cơ bản Bột mì Men Nước Muối Trộn tất cả các nguyên liệu với nhau và nhào kĩ Phủ một mảnh vải, ủ một tiếng đồng hồ trong phòng ấm. Nhào lại, đổ vào khuôn, cho vào lò nướng. 5
  6. Dòng đầu tiên là Khai báo XML (XML declaration): đó là một dòng không bắt buộc, với nhiệm vụ thông báo phiên bản  XML đang được sử dụng (thường là phiên bản 1.0), và còn có thể chứa thông tin về mã hóa ký tự và các phụ thuộc bên  ngoài. Phần còn lại của tài liệu này chứa các phần tử lồng nhau, một số phần tử trong đó có các thuộc tính và nội dung. Một  phần tử thường bao gồm hai thẻ (tag), một thẻ bắt đầu và một thẻ kết thúc, có thể bao quanh văn bản và các phần tử  khác. Thẻ bắt đầu bao gồm một cái tên đặt trong một cặp ngoặc nhọn, như ""; thẻ kết thúc bao gồm chính cái tên  đó đặt trong một cặp ngoặc nhọn, với một dấu gạch chéo đứng trước, như "". Nội dung của phần tử là tất cả  những gì nằm giữa thẻ bắt đầu và thẻ kết thúc, bao gồm văn bản và các phần tử (con) khác. Dưới đây là một phần tử  XML hoàn chỉnh, với thẻ bắt đầu, nội dung văn bản, và thẻ kết thúc: Nhào lại, đổ vào khuôn, cho vào lò nướng. Bên cạnh nội dung, một phần tử có thể chứa các thuộc tính — các cặp tên ­ giá trị được đặt trong thẻ bắt đầu, ngay sau  tên phần tử. Giá trị của thuộc tính phải được đặt trong cặp nháy đơn hoặc nháy kép, mỗi tên thuộc tính chỉ được xuất  hiện một lần trong mỗi phần tử. Bột mì Trong ví dụ này, phần tử nguyên_liệu có hai thuộc tính: lượng với giá trị "3", và đơn vị với giá trị "ca". Trong cả hai trường  hợp, cũng như tên và nội dung của các phần tử, tại cấp độ đánh dấu, tên và giá trị của các thuộc tính cũng chỉ là dữ liệu  text — các giá trị "3" và "ca" không phải một số lượng và một đơn vị đo lường mà chỉ là các chuỗi ký tự mà tác giả tài liệu  có thể dùng để biểu diễn những thứ đó. Ngoài văn bản, các phần tử còn có thể chứa các phần tử khác:   Trộn tất cả các nguyên liệu với nhau và nhào kĩ Phủ một mảnh vải, ủ một tiếng đồng hồ trong phòng. Nhào lại, đổ vào khuôn, cho vào lò nướng. Trong đó, phần tử chỉ_dẫn chứa ba phần tử bước. XML đòi hỏi rằng các phần tử phải được lồng nhau một cách đúng đắn  — các phần tử không được có phần xen vào nhau. Ví dụ, đoạn dưới đây không phải XML định dạng đúng (well­formed  XML) vì các phần từ em và strong xen vào nhau: Normal emphasized strong emphasized strong Mỗi tài liệu XML phải có đúng một phần tử gốc tại bậc trên cùng (còn gọi là phần tử văn bản), do đó đoạn sau cũng sẽ là  một tài liệu XML định dạng sai: Đồ vật thứ nhất Đồ vật thứ hai XML cung cấp cú pháp đặc biệt để biểu diễn một phần tử với nội dung rỗng. Thay vì viết một thẻ bắt đầu và một thẻ kết  thúc ngay sau đó, tài liệu có thể chứa thẻ phần tử rỗng mà trong đó dấu gạch chéo đứng ngay sau tên phần tử. Hai ví dụ  sau là tương đương về chức năng:  : XML cung cấp hai phương pháp biểu diễn các ký tự đặc biệt: các tham chiếu thực thể (entity reference) và các tham  6
  7. chiếu ký tự số (numeric character reference). Trong XML, một thực thể (entity) là một thân dữ liệu được đặt tên với dữ liệu thường là text, chẳng hạn một ký tự đặc biệt. Một tham chiếu thực thể là một ký hiệu đại diện cho thực thể đó. Nó bao gồm tên của thực thể với dấu ("&") đứng trước  và một dấu chấm phảy (";") đứng sau. XML có năm thực thể đã được khai báo trước: * & (&) * < () * ' (') * " (") Chắc chắn là sự đa dạng của các định dạng sẽ vẫn tồn tại. Vì vậy, các cơ quan lưu trữ đang biên soạn tiêu chuẩn cho lưu trữ tài liệu điện tử các định dạng khác nhau mà trước tiên cho những định dạng phổ biến hơn cả là PDF và XML. Tuy vậy, hiện nay những hy vọng lớn lao đều liên quan đến việc sử dụng định dạng XML như là tiêu chuẩn để trao đổi tài liệu điện tử trong các lĩnh vực hoạt động khác nhau, đặc biệt là trong lĩnh vực quản lý nhà nước. 7

CÓ THỂ BẠN MUỐN DOWNLOAD

Đồng bộ tài khoản