
iii
TÓM TẮT
Ngày nay, bảo tồn và phát huy tiếng nói, chữ viết các dân tộc thiểu số là cấp thiết
để giữ gìn bản sắc văn hóa, thực hiện quyền bình đẳng giữa các dân tộc. Nhưng các các
loại sách báo, tư liệu về tiếng nói, chữ viết của các dân tộc thiểu số lại không nhiều,
hoặc có thì lại được in trên giấy truyền thống. Do đó, qua thời gian văn bản in giấy
truyền thống đó không còn chất lượng tốt, cập nhật, sửa chữa, và trao đổi cũng gập nhiều
khó khăn. Từ đó, nảy sinh vấn đề làm cách nào để khôi phục lại những thông tin của
sách báo dưới dạng văn bản số để có thể cập nhật, tái bản hay để có thể lưu trữ lâu dài
hơn.
Việc khôi phục lại những thông tin được lưu trữ dưới dạng hình ảnh, điển hình từ
cuốn từ điển la tinh tiếng Ba Na mang đến tầm quan trọng đối với tiếng Ba Na khi có
thể lưu giữ và bảo tồn chúng dưới dạng văn bản số. Tuy nhiên việc chuyển đổi này
không phải lúc nào cũng luôn mang đến sự chính xác tuyệt đối, điều đó dẫn đến xuất
hiện những lỗi sai chính tả trong văn bản số làm cho kết quả không đạt như mong muốn.
Mục đích của nghiên cứu này là thực hiện hậu xử lý cho quá trình trên nhằm cải
tiến chất lượng cho văn bản số đầu ra từ bước chuyển đổi. Trong phạm vi của luận án,
tôi thực hiện các cách tiếp cận sau:
• Thực hiện chuyển đổi thông tin từ hình ảnh sang văn bản số dưới định dạng
phù hợp gồm mục từ và thân từ như cuốn từ điển gốc.
• Xây dựng bộ sửa lỗi dựa trên mô hình ngôn ngữ mức kí tự nhằm sửa lỗi chính tả
cho tiếng Ba Na. Mở rộng thêm với những phương thức nhằm tăng cường khả năng sửa
lỗi cho mô hình.
• Đề xuất chiến lược cho mô hình ngôn ngữ trong việc đánh giá kí tự nguyên
âm trên lỗi sai nhằm phù hợp với thực tế bài toán. Bên cạnh đó, dùng các kĩ thuật nghiệm
suy (heuristic) để bổ trợ cho việc sửa lỗi nhằm đem lại kết quả tốt nhất.
Kết quả thực nghiệm cho thấy mô hình đề xuất mang tính ứng dụng cao khi giúp
cải thiện chất lượng cho kết quả thu được từ việc chuyển đổi hình ảnh sang văn bản trên
cuốn từ điển Tiếng Ba Na. Sau cùng luận văn đưa ra hướng mở rộng cho đề tài khi có
thể phát triển mô hình này nhằm đạt kết quả tốt hơn hoặc sử dụng vào những nghiên cứu
khác liên quan đến sửa lỗi chính tả tiếng Ba Na.