Số hóa tài liệu không cần Internet
Cho phép trích xuất và chuyn đổi tài liu tiếng Việt dạng nh (ảnh ty
quét, máy nh, tập tin PDF dạng nh…) thành các i liu thể biên tập
(dng tập tin n bản text ví d
Microsoft Word…).
Nhìn chung, ưu điểm của các
trang web s hóa tài liu tiếng
Việt là sthuận tiện, người dùng
thdùng bất kmáy tính nào
để truy cập dịch vụ số hóa, đăng
nhập tài khon và sdụng. Tuy
nhiên, nếu bạn là chuyên viên
soạn thảo hp đng, nhân viên
văn thư, hay ng việc đòi hi
phải thường xuyên chuyển sách
báo, văn bản, biu mẫu tiếng
Việt in trên giy thành i liệu
lưu trữ có thể chỉnh sửa được trên máy tính thì vic shóa tài liệu tiếng Việt
trên trang web đòi hi bạn phải luôn luôn kết nối Internet. Vì vậy, nếu
đường truyền Internet trục trặc thì ng việc số hóa tài liệu của bạn cũng b
ảnh hưởng.
Giải pháp cho việc số hóa tài liu tiếng Việt không cn Internet là sdụng
phần mềm i đặt trên máy tính. i viết Số hóa tài liu tiếng Việt” trước
Hình 1: Giao di
n ABBYY FineReader
Professional 11 k trực quan và d
dùng
đây tng giới thiệu VietOCR, một chương trình nguồn mở Java/.NET, hỗ trợ
nhận dạng tài liu tiếng Việt dạng nh PDF, TIFF, JPEG, GIF, PNG, và
BMP (xem thêm http://vietocr.sourceforge.net).
Trong i viết này, chúng tôi giới thiệu phần mm shóa tài liu tiếng Việt
ABBYY FineReader Professional 11. ABBYY FineReader Professional 11
dùng ng nghnhận dạng tài liệu ADRT (Adaptive Document Recognition
Technology) của hãng ABBYY Nga, khnăng nhận dạng các cu trúc
logic, cách n trang cũng như các đnh dng khác nhau trong tài liu nhiu
trang, dụ: Mc lục, đầu trang, chân trang, chú thích bảng, chú tch nh.
ABBYY FineReader Professional 11 htrợ nhiều kiểu định dạng tập tin đầu
vào như BMP, PCX, DCX, JPEG, JPEG 2000, JBIG2, PNG, TIFF, PDF,
XPS, DjVu, GIF, WDP nhiu kiểu định dạng tập tin đầu ra như DOC,
DOCX, XLS, XLSX, PPTX, RTF, PDF, PDF/A, HTML, CSV, TXT, ODT,
DjVu, EPUB, FB2. Hin phần mềm ABBYY FineReader Professional 11 có
thnhận dạng tài liệu của 189 ngôn ngữ, trong đó tiếng Việt. Bn thể
tải về dùng th ABBYY FineReader Professional 11 tại
http://finereader.abbyy.com/professional. Phiên bn dùng th 15 ngày cho
phép shóa 50 trang tài liệu và mỗi lần shóa 1 trang đầu tiên trong danh
sách.
S dụng dễ dàng
Trước tiên, bn tải về phần mềm ABBYY FineReader Professional 11 vài
đặt vào máy tính. Để minh họa bài viết, chúng i chun bsn tập tin đầu
vào bng ch dùng y quét (scan) HP LaserJet 100 Color MFP M175a
quét một trang trong Tạp cThế Gii Vi Tính với độ pn gii 300dpi, nh
giai sắc m (grayscale), độ u màu 24 bit, định dạng JPG. Tài liu đầu vào
định dạng bảng, chữ in đậm, chữ hoa, chữ thường, chia cột, nh, chú
thích nh, ch chân trang. Sau đó, chúng tôi chạy chương trình ABBYY
FineReader Professional 11.
Giao din ABBYY FineReader
Professional 11 ktrực quan và
d dùng. Ngay màn hình đầu
tiên, bn có th tùy chn ngôn
ngcủa tài liu cn shóa hoặc
để chế độ chương trình t động
nhận dạng ngôn ngữ (autoselect).
Tiếp theo chọn pơng thức số
hóa i liệu: Kiểu tập tin đầu vào
kiểu tập tin đầu ra. ABBYY
FineReader Professional 11 cung
cấp 5 chế độ s hóa tài liệu:
Thường dùng (common),
Microsoft Word, Adobe PDF, E-book, c chế độ khác (Other). Trong mỗi
chế độ lại nhiều phương thức số hóa tài liệu, chẳng hạn trực tiếp từ máy
quét sang tp tin Microsoft Word, ttập tin (PDF/hình nh) sang Word, từ
ảnh trong máy nh sang Word.
Sau khi bn chn tập tin cần số hóa, ABBYY FineReader Professional 11 sẽ
tđộng phân tích và kết xuất tài liu sang kiểu định dạng tập tin đầu ra mà
Hình 2: n trái là i liệu đầu v
ào, n
phải là i liu đầu ra sau khi ch
ương
trình tự động nhận dạng và phân tích.
bạn đã chọn. Bạn không cn phải thực hiện thao tác mở ng dụng (chẳng
hạn Microsoft Word), mà ABBYY FineReader Professional 11, sau khi phân
ch, nhn dạng tài liệu, sẽ tự động m tài liệu đã shóa bằng ứng dụng mà
bạn đã chn trước đó.
ABBYY FineReader Professional 11 cho phép bn tự xác định c vùng
hình ảnh, bảng, chữ của tài liệu cần số hóa, nhm giúp chương trình nhn
dạng tài liu chính xác hơn. Các thao tác thực hiện k đơn giản và trực
quan: Chn công cvà kéo thtrên đối tượng (ảnh, bảng, chữ) cn xác định.
Ngoài ra, ABBYY FineReader Professional 11 n htrợ người dùng kiểm
tra các lỗi nhận dạng mà chương trình nghi ngờ, bạn nhấn chọn
Verification.
Cửa sổ kiểm tra, sửa lỗi nhận dạng được thiết kế trực quan: Phía trên ni
dung tài liu gốc, phía dưới là ni dung tài liệu đã nhn dạng. Bạn có thể sửa
lỗi trực tiếp, nhập lại từ b nhận dạng sai, hay chọn t mà ABBYY
FineReader Professional 11 đnghị trong ô Suggestions. Nhấn Confirm hay
Replace để sửa, nhn Ignore để bỏ qua.