NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 423
...................................................................................................................................................................................
NG DNG MÔ HÌNH DCH MÁY THNG KÊ
TRONG BÀI TOÁN DỊCH VĂN BẢN
CH QUC NG VIT NAM SANG CH HÁN NÔM
NGÔ THÁI PHNG* - ĐẶNG MINH NHT**
Tóm tt: Ch viết được xem đại din cho ngôn ng bởi in đậm du vết chng
đường mt dân tộc đã đi qua. Trong lịch s Vit Nam, l ch Hán Nôm ch Quc
Ng hai ch viết đặc trưng nht gc gác Vit Nam nht. Nếu ch Quc Ng ch
viết chính thc hiện nayđược xem như một minh chứng cho độc lp ch quyn ca quc
gia này, thì ch Hán Nôm lại được xem như chữ viết đầu tiên của riêng người Vit sau gn
1.000 năm Bắc thuc và là nn tng m đường cho ch Quc Ng sau này. Vì vy, vic phc
sinh duy trì đ giá tr tinh thn y không b tht truyn là cùng quan trng. Chúng tôi
mong mun tạo điều kiện cho người Vit Nam hin đại tiếp cận đến giá tr tinh thần xa xưa y
d dàng hơn thông qua việc cung cấp hướng phát trin cho bài toán dịch ngược t ch Quc
Ng sang ch Hán Nôm. Bài báo này ng dng và kho sát hình dch máy thng Moses
trong bài toán dịch ngược. Ng liu hun luyn bao gm 26.000 cp câu Quc Ng - Hán Nôm
song song được thu thp t các văn bản truyện, thơ, văn, bản tụng… trên trang web
nomfoundatinon.org. Kết qu cho thy hình baseline của Moses đem lại được kết qu n
định hơn so với mt mô hình dch ngược state-of-the-art (SOTA) khác hiện nay. Điều này m
ra thêm hướng phát trin ha hẹn đối với mô hình Moses để phc v cho bài toán dịch ngược
này. T khóa: dịch ngược, ch Quc Ng, ch Hán m, dch máy thng kê, Moses SMT,
x ngôn ng t nhiên.
I. GII THIU
th nói rng nền văn hoá Việt Nam luôn bước chuyển mình sâu đậm qua mi
thi kì mà mt ch viết mi xut hin. Hin nay, Tiếng Vit - hay còn được gi là Ch Quc
Ng - là ngôn ng và ch viết chính thc mà dân tc Vit Nam t tn sau năm 1882 cho đến
thời điểm hin tại đều s dng rng rãi trong giao tiếp, ghi chép thường ngày và c trong hc
thut, hành chính. Tuy nhiên, ch Hán Nôm vn là mt loi ch viết mang giá tr tinh thn và
giá tr văn hoá cao của người Vit bi nó là kết tinh ca tiếng Vit c ch n nhưng không
làm mất đi gốc gác ca người Việt xưa. vậy, bên cnh s cn thiết ca vic dch t ch Hán
Nôm sang ch Quc Ng để khai thác giá tr kiến thc của người xưa, vic dịch ngược
* Trường Đại hc Khoa hc T nhiên - ĐHQG TP. HCM; Email: ntphung21@apcs.fitus.edu.vn
** Trường Đại hc Khoa hc T nhiên - ĐHQG TP. HCM; Email: dmnhut22@apcs.fitus.edu.vn
424 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
cũng quan trọng không kém trong công tác phục sinh duy trì đứa con tinh thn ca riêng
dân tc Vit Nam.
Trước khi bước vào giai đoạn ng dng hình, chúng tôi nghiên cu tìm kiếm
mt s công trình nghiên cứu liên quan, đánh giá các công cụ, mô hình tt nht hiện có để xác
định tính đúng đắn và hướng đi của bài toán này.
Sau đó, chúng tôi s trình y sở nghiên cứu. Trong đó, chúng tôi trình y tổng
quan cơ chế hoạt động ca dch máy thng kê và công c Moses SMT.
Trong phn chính của bài báo, chúng tôi trình bày phương pháp nghiên cu gm nhng
phn sau:
1) Lý do chúng tôi chn Moses cho bài toán dịch ngược
2) Mô t v b ng liu Quc Ng - Hán Nôm
3) Quy trình cài đặt mô hình baseline
4) Quy trình tin x lí d liu
5) Quy trình hun luyn mô hình
6) Quy trình đánh giá mô hình
Tiếp theo, chúng tôi s trình bày kết qu thí nghiệm, đánh giá và sonh hiệu qu dch
ca Moses vi mt mô hình SOTA khác hin có trên cùng mt b ng liu và nêu lên mt s
yếu t hn chế để khc phục ưu điểm để tn dụng để hướng phát trin tốt hơn trong
tương lai.
Cuối cùng để kết lun bài báo, chúng tôi s tóm tắt các điểm chính nht ca quy trình
ng dng Moses nhn mnh những điểm sáng trin vng cho bài toán dịch ngược. Chúng
tôi mong mun bài báo là một đóng góp tích cực trong công tác phc sinh và bo tn ch Hán
Nôm Vit Nam.
II. NHNG NGHIÊN CU LIÊN QUAN
Các nghiên cu v dch máy thống kê đã đạt được nhng tiến b đáng kể, đặc biệt đối
vi các ngôn ng ít tài nguyên. Tuy không cùng ngôn ng ngun - đích với bài báo y, nghiên
cu ca Suraiya Jabin và cng s (2013) đã hướng dn quy trình xây dng mt h thng dch
máy t tiếng Anh sang tiếng Khmer bng công c Moses vi b ng liu vn vn 5.000 cp
câu. Kết qu cho thy Moses có kh năng xử lý các ngôn ng ít ph biến dù d liu song ng
b hn chế. Tuy nhiên, độ chính xác vn còn ph thuc nhiu vào chất lượng và kích thước ca
b ng liu.
Ngoài ra, trong một lĩnh vực khác không thun v ngôn ng hay ch viết, Hudík và
Ruopp (2011) đã nghiên cứu tích hp công c Moses vào các h thng h tr dch thut
trong ngành nội đại hoá. H đã phát triển mt quy trình x d liu Translation Memory
(TM) thông qua định dạng XLIFF để tạo điu kin thun li cho vic áp dng Moses trong các
d án dch thut phc tp. Nghiên cứu y cũng đã m ra hướng tiếp cn mi cho vic ch
hp vào các quy trình dch thut phi truyn thng, giúp tối ưu hoá hiệu qu làm vic.
NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 425
...................................................................................................................................................................................
Gần đây, liên quan đến đề tài bài báo y nht, mt công c dch trc tuyến (CLC
Phiên dịch Hán Nôm) do Trường Đại hc Khoa hc T nhiên, Đại hc Quc gia TP.HCM
phát triển đã cho phép dịch t động t ch Quc ng sang chn Nôm da trên mô hình T5
(Text-To-Text Transfer Transformer). hình T5 kh năng học sâu hiu ng cnh, giúp
nâng cao chất lượng dch gia tiếng Vit hin đại ch Hán Nôm. Tuy nhiên, công c này
mt s hn chế v việc đảm bo gi đúng độ dài câu s ng ch khi dch. vy,
chúng tôi xem công c này đối trng vi hình Moses chúng tôi kho sát. Hn chế
trên cũng sẽ được đề cp và bàn lun thêm phần đánh giá và so sánh kết qu gia Moses vi
công c CLC, nhằm đánh giá hiệu sut của hai phương pháp này đối vi bài toán dịch ngược.
III. CƠ S NGHIÊN CU
1. Dch máy thng kê (Statistical Machine Translation - SMT)
Dch máy thng kê (SMT) là một phương pháp dịch t động, da trên các mô hình xác
suất được hc t d liu song ngữ. Ý tưởng chính ca SMT là da trên các quy lut thng kê
để to ra bn dch t ngôn ng ngun sang ngôn ng đích: mục tiêu chính yếu là tìm bn dch
t tối ưu sao cho xác suất p(t|s) là ln nhất, trong đó s là câu ngôn ng ngun. SMT hoạt động
da trên gi định rng vic dch là mt chui các quyết định nh:
1) Dch t (word translation)
2) Sp xếp th t t (reordering)
Các bước cơ bản để xây dng h thng SMT bao gm:
1) Xây dng mô hình dch (translation model)
2) Ước lượng tham s (parameter estimation)
3) Gii mã (Decoding)
Các mô hình SMT ban đu, chng hạn như mô hình dựa trên t (word-based), ch dch
tng t một cách độc lp. Tuy nhiên, sau y các nghiên cứu đã phát triển lên hình dch
da trên cm t (phrase-based), cho phép dch các cm t liên tiếp thay tng t như ban
đầu. Điều này giúp mang li kết qu dch tốt hơn, đặc bit trong vic x các ngôn ng
cu trúc khác nhau v th t t.
Các h thng SMT cn một ng ln d liu song ng để th hun luyn các
hình xác sut tt nht. Các d liu song ng bao gm nhng cặp câu song song được căn chỉnh
SMT s dùng nhng mô hình ngôn ng để nm bt quy lut học được ng cnh ca ngôn
ng đích. Ngoài ra, các mô hình SMT hiện đại thường s dng các thut toán tìm kiếm để tìm
được bn dch tt nht trong mt không gian dch cùng ln. Mc SMT đã đạt được
nhng thành tựu đáng kể trong dch t động, phương pháp y vẫn gp thách thc ln v vic
x loi ngôn ng có kích thước d liu hn chế hoc có cu trúc ngôn ng phc tp.
2. Công c Moses SMT
Moses mt trong nhng công c ngun m ph biến nht da trên lý thuyết SMT
phrase-based, được phát trin bi Phillip Koehn. Moses được to ra nhm xóa đi rào cản cho
426 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
các nhà nghiên cu mun tiếp cn vi SMT. Moses cho phép xây dng thc hin các h
thng dch y cho bt cp ngôn ng nào dựa theo hướng dn trên website chính thc
http://www2.statmt.org/moses/.
Moses thc hin dch cm t bng cách nhn vào câu nguồn và tìm ra câu đích có xác
sut cao nht da trên hình xác sut. Quá trình này bao gồm: phân đoạn câu ngun thành
nhng cm t liên tc, dch tng cm, và sp xếp li các cm t đã dịch cho phù hp vi ngôn
ng đích.
Đim ni bt ca Moses là tính linh hot và kh năng mở rng, vi cu trúc phn mm
-đun thiết kế hướng đối tượng, giúp các nhà nghiên cu d dàng phát trin hoc tùy
chnh các thành phn trong h thng dch. Ngoài ra, Moses không ch h tr vic dch các câu
đơn giản 1-1 còn h tr dch mạng lưới t (lattice networks) và đưa ra kết qu dưới dng
danh sách các bn dch tt nht (n-best lists).
Nh tính linh hot và kh năng mở rng, Moses th tr thành công c tưởng để
nghiên cu so sánh vi các hình dch máy hiện đại khác, chng hạn như các hình
học sâu như T5.
IV. PHƯƠNG PHÁP NGHIÊN CU
1. Vì sao là Moses SMT?
Thế k 17, các giáo sĩ Kito Giáo Dòng Tên đến Vit Nam truyn giáo và phi hc theo
ch Nôm của đất nước ta. Vì ch Nôm thi by gi vốn dĩ rất khó học đối với người Vit, đối
với người ngoi quc xa l vi ch ng hình thì ch Nôm lại càng khó hơn. vậy, các v
giáo sĩ đã Latin hóa tiếng Vit bng mu t Latin để son nhng kinh sách của đạo để các con
chiên có th học, đọc theo và truyn li. Vì tính cht biu âm ca ch Nôm mà vic Latin hóa
này tr nên d dàng hơn. Các giáo sĩ đã biến đổi loi ch gc Hán có yếu t biu âm y thành
th ch biu âm Latin hóa d hc và d dùng hơn. Qua điều này chúng i rút ra được kết lun
rng ch Hán Nôm ch Quc Ng tính tương đồng nhau v s ng âm tiết cách
phát âm. Đặc điểm này chính là cơ sở quan trng cho vic la chn Moses. Moses rt phù hp
đối vi bài toán dịch ngược cho cp ch viết Quc Ng - n Nôm những đặc điểm vượt
tri sau:
a) Ràng buc 1-1
Điều này có nghĩa là mỗi t hoc cm t trong câu nguồn đều được ánh x tương ứng
vi mt t hoc cm t trong câu đích không sự chia nh thêm. Đặc tính y rt quan
trng trong bài toán dch nợc, đặc bit gia các h thng ch viết có s tương đồng cao như
ch Hán Nôm và ch Quc Ng. C hai đều có cu trúc âm tiết gần như giống nhau, ch khác
nhau v mt ch viết: mt bên h ch Hán bên còn li h ch Latinh. Điều này đảm
bảo độ dài của câu đích được dch bng với độ dài ca câu ngun.
b) Hn chế việc đảo trt t t
NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 427
...................................................................................................................................................................................
Như đã đ cp trên, ch Hán Nôm và ch Quc Ng ch khác nhau v mt ch viết
cu trúc âm tiết rt ít khi khác nhau. vy, việc thay đổi trt t trong câu đích so vi
câu ngun là hầu như không cần thiết. Vic này Moses hoàn toàn có th hc và nhn biết s ít
thay đổi v trt t này trong quá trình xây dng h thng dịch qua c hc trt t t
(reordering) t b ng liu được cung cp.
2. B ng liu
Trong nghiên cu này, chúng tôi s dng b ng liu Quc Ng - Hán Nôm song song
được thu thp t trang web nomfoundation.org. Đây là trang web lưu tr một lượng
ln các tác phẩm văn hc c điển ca Việt Nam như: Truyện Kiu, Chinh ph Ngâm
Khúc, Lục Vân Tiên,… Ngoài ra trang web còn có nhng tài liu bn kinh tng ca các nhà
chùa. Tt c nhng tài liệu trên đu ngun gc trong khong thế k 17-18 đã sẵn
phiên bn ch Hán Nôm ch Quc Ng. Sau khi thu thp tp hp, chúng tôi to nên
được b ng liu gm 26.370 cp câu Quc Ng - Hán Nôm song song. Đây là s ng va
đủ để có th đạt được mt kết qu kh quan ban đầu.
V quy trình phân chia b ng liệu, đầu tiên chúng tôi xáo trn ngu nhiên th t các
cp câu vi nhau nhằm đảm báo tính ngu nhiên và gim thiu thiên lch trong quá trình hun
luyện mô hình. Sau đó, b ng liệu được chia theo t l 6:2:2 cho ba tp: hun luyn (15.822
cp câu), tinh chnh (5.274 cp câu), và kim th (5.274 cặp câu). Cách chia này đảm bo tính
cân bng giữa các giai đoạn phát triển hình, giúp đánh giá chính xác hiệu năng của h
thng dịch ngược.
3. Quy trình cài đt mô hình baseline
T phn này tr đi, chúng tôi sẽ trình bày tng quát t quy trình cài đặt Moses cho đến
quy trình đánh giá hiệu qu của hình Moses SMT. Chúng tôi đã cài đt s dng thành
công Moses dựa theo các bước hướng dn hu ích trên trang web
http://www2.statmt.org/moses/?n=Moses.Baseline. V thuật, chúng tôi dùng môi trường
Ubuntu 22.04 được cài đặt trên máy ảo có RAM 10GB, Chipset PIIX3, 6 CPU. Đu tiên,
theo hướng dn chun b môi trường trên trang web
https://www2.statmt.org/moses/?n=Development.GetStarted, chúng tôi đã cài đt mt
s công c cơ bản để có th Moses có th vn hành:
1) GCC (GNU Compiler Collection): Mt b biên dch C++ hiện đại để có th biên
dch mã ngun.
2) Boost Libraries: Moses ph thuc rt nhiều vào thư viện Boost để h tr các tính
năng nâng cao cho C++. Thư viện này cung cp mt tp hp các hàm và công c
mnh mẽ, đặc bit quan trọng đối vi các tác v như xử lý chui và cu trúc d
liu.
3) CMake: Mt công c qun lý quá trình build và biên dch. Nó cho phép kim
soát d dàng cấu hình môi trường và các bước biên dch.