
NGÔN NGỮ HỌC TÍNH TOÁN: NHỮNG XU HƯỚNG MỚI, TRIỂN VỌNG VÀ THÁCH THỨC | 413
...................................................................................................................................................................................
XÂY DỰNG TỰ ĐỘNG DỮ LIỆU
HÌNH ẢNH - VĂN BẢN CHO CHỮ HÁN - NÔM
CHU HOÀNG PHÚC* - HOÀNG THIÊN ĐỨC**
Tóm tắt: Bảo tồn chữ Hán-Nôm là một sứ mệnh thiết yếu hiện nay do sự xuống cấp
của các tài liệu lịch sử theo thời gian. Xử lí thủ công là một phương pháp truyền thống cho
công việc này, nhưng lại tốn nhiều công sức và dễ gặp sai sót. Để giải quyết vấn đề này, các
tác giả đề xuất một công cụ xây dựng tự động dữ liệu hình ảnh - văn bản hỗ trợ cho việc số
hóa, lưu giữ các văn bản Hán - Nôm. Công cụ sử dụng mô hình trí tuệ nhân tạo để phát hiện
và nhận diện văn bản, đồng thời trích xuất văn bản từ hình ảnh. Bài viết thử nghiệm các mô
hình khác nhau, sử dụng các bộ dữ liệu NomNaOCR [11] và SacPhongHCMUS [10] để huấn
luyện. Kết quả thử nghiệm chứng minh tính hiệu quả của các mô hình được đề xuất, với mô
hình phát hiện đạt được 85,41% và nhận diện đạt 41,23%. Mặc dù cần thêm sự cải tiến, công
cụ này cung cấp một bước quan trọng trong việc tự động hóa việc bảo quản các tài liệu Hán
- Nôm. Từ khóa: Chữ Hán - Nôm, phát hiện văn bản, nhận diện văn bản, gán nhãn dữ liệu,
công cụ tự động
1. GIỚI THIỆU
Chữ Hán-Nôm là một ngôn ngữ cổ đã từng được sử dụng ở Việt Nam và cũng là một
phần quan trọng trong văn hóa của người Việt Nam cần được bảo tồn. Tuy nhiên, do tuổi đời
của nhiều tài liệu lịch sử viết bằng chữ Hán-Nôm, các văn bản thường khó đọc hoặc bị hỏng,
khiến thế hệ trẻ khó tiếp cận và hiểu những văn bản này. Ngoài ra, vì hầu hết các tác phẩm văn
học chữ Nôm có nguồn gốc từ dân gian nên điều kiện bảo quản thường không tốt, dẫn đến
nhiều tác phẩm chữ Nôm bị mất đi nhiều đoạn và không đầy đủ. Do đó, việc bảo tồn di sản
Hán - Nôm là một việc làm quan trọng cần được quan tâm.
Thách thức chính của vấn đề nằm ở quá trình số hóa tài liệu để bảo quản cho tương lai.
Việc xử lý thủ công thường không hiệu quả, tốn thời gian và dễ mắc sai sót do chất lượng của
một số tác phẩm không tốt. Một trong những giải pháp được đề xuất là tạo ra một mô hình trí
tuệ nhân tạo có thể giúp phát hiện và nhận diện văn bản Hán - Nôm, giúp giảm khối lượng
công việc cho những người chịu trách nhiệm cho việc bảo quản văn bản.
Để giúp ích hơn cho việc bảo tồn, trong bài báo này, các tác giả muốn tạo ra một công
cụ tự động sử dụng những mô hình nhận diện kí tự quang học đã được huấn luyện để trích
xuất văn bản từ hình ảnh đầu vào, đồng thời cung cấp một bộ dữ liệu có nhãn giúp cải thiện
các bài toán nhận diện ký tự quang học, dịch thuật sắp tới, qua đó đẩy nhanh quá trình số hóa
cũng như đóng vai trò là dữ liệu nền tảng để đào tạo mô hình để nhận diện văn bản tốt hơn
* Trường ĐH Khoa học Tự nhiên - ĐHQG TP. HCM; Email: 21125130@student.hcmus.edu.vn
** Trường ĐH Khoa học Tự nhiên - ĐHQG TP. HCM; Email: 21125076@student.hcmus.edu.vn