NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 413
...................................................................................................................................................................................
XÂY DNG T ĐỘNG D LIU
HÌNH NH - VĂN BẢN CHO CH HÁN - NÔM
CHU HOÀNG PHÚC* - HOÀNG THIÊN ĐỨC**
Tóm tt: Bảo tồn chHán-Nôm một sứ mệnh thiết yếu hiện nay do sự xuống cấp
của các tài liệu lịch sử theo thời gian. Xử thủ công một phương pháp truyền thống cho
công việc này, nhưng lại tốn nhiều công sức dễ gặp sai sót. Để giải quyết vấn đề y, các
tác giả đề xuất một công cụ y dựng tự động dữ liệu nh ảnh - văn bản hỗ trợ cho việc số
hóa, lưu giữ các văn bản Hán - Nôm. Công cụ sử dụng hình trí tuệ nhân tạo để phát hiện
nhận diện văn bản, đồng thời trích xuất văn bản từ hình ảnh. Bài viết thử nghiệm các
hình khác nhau, sử dụng các bộ dữ liệu NomNaOCR [11] và SacPhongHCMUS [10] để huấn
luyện. Kết quả thử nghiệm chứng minh tính hiệu quả của các hình được đề xuất, với
hình phát hiện đạt được 85,41% và nhận diện đạt 41,23%. Mặc dù cần thêm sự cải tiến, công
cụ này cung cấp một bước quan trọng trong việc tự động hóa việc bảo quản các tài liệu Hán
- Nôm. T khóa: Ch Hán - Nôm, phát hiện văn bản, nhn diện văn bản, gán nhãn d liu,
công c t động
1. GII THIU
Ch Hán-Nôm là mt ngôn ng c đã từng được s dng Việt Nam và cũng là mt
phn quan trọng trong văn hóa của người Vit Nam cần được bo tn. Tuy nhiên, do tuổi đi
ca nhiu tài liu lch s viết bng ch Hán-Nôm, các văn bản thường khó đọc hoc b hng,
khiến thế h tr khó tiếp cn hiu những văn bản y. Ngoài ra, vì hu hết các tác phẩm văn
hc ch Nôm ngun gc t dân gian nên điều kin bo quản thường không tt, dẫn đến
nhiu tác phm ch Nôm b mất đi nhiều đoạn không đầy đủ. Do đó, việc bo tn di sn
Hán - Nôm là mt vic làm quan trng cần được quan tâm.
Thách thc chính ca vấn đề nm quá trình s hóa tài liệu để bo quản cho tương lai.
Vic x th công thường không hiu qu, tn thi gian và d mc sai sót do chất lượng ca
mt s tác phm không tt. Mt trong nhng giải pháp được đề xut là to ra mt mô hình t
tu nhân to th giúp phát hin nhn diện văn bản Hán - Nôm, giúp gim khối lượng
công vic cho những người chu trách nhim cho vic bo quản văn bản.
Để giúp ích hơn cho việc bo tn, trong bài báo này, các tác gi mun to ra mt công
c t động s dng nhng hình nhn din t quang học đã được hun luyện để trích
xuất văn bản t hình ảnh đầu vào, đồng thi cung cp mt b d liu nhãn giúp ci thin
các bài toán nhn din ký t quang hc, dch thut sp ti, qua đó đẩy nhanh quá trình s hóa
cũng như đóng vai trò dữ liu nn tảng để đào tạo hình để nhn diện văn bn tốt hơn
* Trường ĐH Khoa học T nhiên - ĐHQG TP. HCM; Email: 21125130@student.hcmus.edu.vn
** Trường ĐH Khoa học T nhiên - ĐHQG TP. HCM; Email: 21125076@student.hcmus.edu.vn
414 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
trong tương lai. Bằng cách t động hóa nhim v này, chúng ta th gim công sc thi
gian cn thiết ca hu hết các hc gi các nhà nghiên cứu. Điều y đảm bo các hc gi
th tp trung nhiều n vào vic nghiên cứu c văn bản, thay dành thi gian cho vic
x lí th công.
Bài báo này s đóng góp hai mô hình, một cho vic phát hin, và mô hình còn li cho
vic nhn din kí t. Phn còn li ca bài viết này có cấu trúc như sau: Phần 2 tóm tt các cách
khác nhau để gii quyết các vấn đề trong phát hin và nhn din văn bản. Phn 3 trình bày tp
d liu các tác gi đã thu thp công c được s dụng để chú thích d liu. Phần 4 đề
cập các phương pháp các tác gi đã thử nghim cho vic phát hin và nhn din. Phn 5 trình
bày kết qu đạt được sau khi đào tạo các mô hình vi d liu Hán - Nôm thu thập được. Phn
6 nêu ra kết lun và d định trong tương lai của các tác gi v vấn đềy.
2. CÁC CÔNG TRÌNH LIÊN QUAN
Để xây dng t động d liu hình nh - văn bn cho ch Hán-Nôm, thông thường s
cn hai hình riêng bit, một để phát hiện văn bản và một để nhn diện văn bản. Hình nh
đầu vào trưc tiên s s dng mô hình phát hiện để chú thích các vùng văn bản tiềm năng. Sau
đó, hình nhận din s nhn các vùng hình ảnh đó làm d liệu đầu vào để xut ra tệp văn
bn cha các ký t nhn diện được trên vùng hình ảnh đó.
2.1. PHÁT HIỆN VĂN BẢN
Hu hết các mô-đun phát hiện văn bản có th được gn nhãn là mt trong hai loi: da
trên hi quy dựa trên phân đoạn. Các phương pháp da trên hồi quy đề xut mt tp hp
các vùng cha nh trong mi hình nh và s dng mt thut toán chn lọc để loi b các vùng
chồng lên nhau; Thông thường, thut toán đó một biến th ca non-maximum suppression
(NMS). EAST [1] đi theo cách tiếp cận đầu tiên, s dng mt mạng -ron duy nhất để trc
tiếp to ra các d đoán cấp đ t hoặc dòng văn bn. X. Zhou các dng tác gi đã phát
trin mt hàm mt entropy chéo cân bng theo lp da trên bản đồ điểm được to ra t t giác
hộp hướng bt kỳ; Hơn nữa, mt thut toán NMS nhn biết lân cận đã được thiết lp
trong công vic ca h, áp dụng chế kết hp thayb phiếu như các thuật toán NMS khác.
Mt khác, các phương pháp dựa trên phân đon tập trung vào các điểm nh ca hình nh
xem xét liu mỗi điểm ảnh được phân loi mt phn của văn bản hay không. Theo hướng
này, mô-đun DB [2] sử dụng phương pháp nhị phân hóa vào mạng phân đoạn để tối ưu hóa
tng th. Các tác gi đã đề xut một hàm bước gần đúng khả vi để tối ưu hóa nhị phân và
mạng lưới phân đoạn trong giai đoạn rèn luyn.
2.2. NHN DIỆN VĂN BẢN
Trong nhn diện văn bản ngoi cnh, tt c các hình th được chia thành hai
nhánh: nhn din không theo ng cnh và nhn din ph thuc ng cnh. Giống như tên gọi,
các kiến trúc không theo ng cnh không da vào bt k thông tin ng cảnh bên ngoài nào để
d đoán các ký tự tp trung vào các đặc trưng trực quan của văn bản. Vi ch đề y,
NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 415
...................................................................................................................................................................................
Rosetta [3] s dng hình tích chp hoàn toàn nhn din da trên ký t được hun luyn
vi hàm mất mát CTC. Để xp x vic gán nhán tối ưu, các tác giả ca h thống này đã chọn
mt cách tiếp cn tham lam là ly ký t có kh năng nhất mi v trí ca chui, dẫn đến thi
gian tìm kiếm tuyến tính. chiều ngược li, các mô-đun nhận din ph thuc ng cnh s
dng thông tin ng cảnh để h tr nhim v nhn din. SVTR [4] chia nh văn bản hình nh
thành các patch nh hai chiu; Các hình nh nh y các thành phn t th ch
cha mt phn ca tự. Do đó, để thu được các gi ý cho vic nhn din gia các thành phn
nhân vt, mã hóa hình nh theo patch cùng vi self-attention đã được s dng.
3. B D LIU
Vì ch Hán Nôm là ngôn ng c không còn được s dng trong xã hi Vit Nam hin
nay nên d liu ch có th được thu thp t các tài liu c đã được s bi nhiu hc gi nghiên
cu Hán - Nôm. Các tác gi thu thp các tài liu này t trang D liu mở” [5] để y dng
tp d liu.
Tp d liu các tác gi thu thập được bao gm các hình nh rõ ràng và không rõ ràng,
do ảnh hưởng ca thi gian [Hình 1]. Mt s trang hin th văn bn ràng, trong khi nhng
trang khác b m hoc b hng các tài liu gốc đã b ảnh hưởng bởi môi trường bo
qun trong những năm qua, dẫn đến các tài liu k thut s cũng b ảnh hưởng. Điều y đặt
ra mt thách thc cho các tác gi trong quá trình ghi nhãn d liu th công quá trình đào
to hình. vy, vic tin x lý d liu cn phải được tiến hành cn thận để được kết
qu tt.
(a) Hình nh rõ ràng (b) Hình nh không rõ ràng
Hình 1: Ví d hình nh trong b d liu (Ngun: VNPF[13])
Để chú thích tp d liệu đã đề cp mt cách hiu qu, các tác gi s dng PPOCRLabel
[12], mt công c được to bi cộng đồng PaddleOCR để tr giúp cho công vic. Công c
PPOCRLabel s dụng mô hình để phát hin các vùng hình nh chứa văn bản, do đó, chúng ta
có th tn dng PPOCRLabel cho quá trình chú thích vùng hình nh, biến thành quá trình bán
416 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
t động. PPOCRLabel đầu tiên x d liệu, sau đó các c gi s kim tra lại đ đảm bo
chất lượng ca kết quả. Sau đó, nhng d liu mới được x này s được s dụng để tinh
chnh mô hình nhm ci thiện độ chính xác trong các ln chạy trong tương lai. Quy trình làm
việc được minh ha bằng sơ đồ bên dưới [Hình 2].
Hình 2: Quy trình chú thích
Vì d liu các tác gi thu thập được không có nhãn để hun luyn mô hình, các tác gi
quyết định s dng tp d liu NomNaOCR làm d liu hun luyn. B d liu bao gm các
tài liu vi nn trng và ch viết màu đen, phù hp vi hu hết các tác v OCR trong vic s
hóa tài liu Nôm.
S dng tp d liu này làm nn tng, các tác gi có th tinh chnh mô hình vi d liu
được gán nhãn b sung. Quá trình lặp đi lp li này s giúp đm bo rng hình s x
được nhiu kiu chất lượng văn bản Hán-Nôm, ci thin kh năng x ca hình vi
các loại văn bản Hán-Nôm khác nhau. Đây sẽ là cơ sở cho mt h thng OCR mnh m trong
tương lai, giảm thiu công sc cho các nhà nghiên cu và hc gi.
Ngoài b d liu NomNaOCR bao gm hình nh ca 38.318 câu thơ, văn, các tác gi
cũng sử dng mt phn ca b d liu SacPhongHCMUS gm 620 hình nh sc lệnh được
viết bởi các nhà nước phong kiến trong quá kh. So vi các d liu trong b d liu
NomNaOCR, nhng d liu này nn màu vàng và nhng hình nh rồng được v màu
tương tự như văn bản, đt ra mt thách thc trong vic chun hóa nn, do ch viết th b
ln trong nhng hình v.
NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 417
...................................................................................................................................................................................
4. PHƯƠNG PHÁP
4.1. PHÁT HIN
Vì Hán-Nôm là mt ngôn ng c không còn được s dng ngày nay, vic phát hin
nhn din các t ca ch Hán-Nôm mt thách thức. Đối vi tp d liu các tác gi
thu thập được, các ký t xut hiện dưới nhiu hình dạng điều kin khác nhau. Mt sth
được phát hin d dàng, trong khi mt s thì không, điều này có th hiểu được vì các văn bản
này đều có t ng trăm năm trước. Do đó, để đạt được kết qu tốt hơn, các tác gi th nghim
phương pháp da trên hi quy da trên phân đoạn để phát hiện văn bản, vi các mô-đun
EAST và DB là các ví d tương ứng cho mỗi phương thức.
4.1.1. EAST
EAST là một phương pháp dựa trên hi quy d đoán trực tiếp các vùng cha ch hoc
câu thông qua mng tích chp hoàn toàn (FCN). Yếu t thiết yếu của phương pháp này là một
mạng -ron được hun luyện đ d đoán các văn bản hình dng ca vùng chứa văn từ
hình ảnh đầu vào mt cách trc tiếp. EAST s dng nhng model nn tảng, như VGG-16 [7]
hoặc PVANET [8], để trích xut bản đồ đặc trưng. Ngoài ra, để s dng hiu qu các đặc trưng
khác nhau và duy trì chi phí tính toán ti thiểu, ý tưởng áp dng U-Net [9] đã được s dng.
Các lp tích chp kế tiếp hi quy s d đoán hình dạng văn bản thông qua vic to ra
mt bản đồ điểm s và nhiu bản đồ hình hình dng. Bản đồ điểm đưc to bng cách thu nh
các cnh ca hình dạng ban đầu giúp ci thiện độ chính xác cho vic phát hiện. Trong khi đó,
khoảng cách đến 4 cnh của vùng văn bản cũng được đo cho các bản đồ nh học, mà đầu ra
th mt hp xoay hoc mt hình t giác. văn bản Hán-Nôm th nhiều hướng
khác nhau, kh năng d đoán các vùng văn bn xoay ca EAST giúp ích rt nhiều trong trường
hp này.
Để có được kết qu cui cùng, các vùng gii hạn được hp nht theo tng hàng lặp đi
lp li, vi vùng hin tại được hp nht với vùng được hp nht cuối cùng. Điều y giúp
gim thi gian chy xhu k xung O(n) trong các tình hung ch xut hin mt vài dòng
văn bản so vi thi gian chy O(n2) ca thuật toán NMS đơn giản.
4.1.2. DB
Các tác gi cũng đã th nghim vi Differentiable Binarization (DB), một phương pháp
dựa trên phân đoạn, tp trung vào phát hiện văn bn cấp độ điểm nh. Mô-đun này sử dng
model xương sống có dng kim t tháp và có các đặc trưng được đưa về cùng một kích thước.
Sau đó, các đặc trưng đó được ni thành một đặc trưng duy nhất được s dụng để d đoán bản
đồ xác sut bản đồ ngưỡng. DB phân loi từng điểm nh là mt phn của văn bản hoc nn,
cho phép d đoán vùng văn bản độ chi tiết cao. Cách tiếp cận này đặc bit có li cho vic
phát hin các ký t phc tp hoc b cục văn bản dày đặc được tìm thy trong các tài liu Hán
- Nôm.