NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 403
...................................................................................................................................................................................
PHƯƠNG PHÁP DÓNG HÀNG CÂU TỰ ĐỘNG CHO VĂN BẢN
TRUNG QUC C ĐIN - VIT NAM HIỆN ĐẠI
VƯƠNG QUỐC PHONG* - LƯU VĂN PHÚC**
Tóm tt: Vic khám phá giá tr lch s văn hóa ca ông cha là mt công vic truyn
cm hng cho các thế h chúng ta. Tuy nhiên, để x và khai thác kiến thc hiu qu, cn
ng dng các k thut x lý ngôn ng t nhiên. Nhng cách tiếp cn này dẫn đến nhu cu v
các ng liu song song ca cp ngôn ng để hun luyn các hình. Bài viết này trình y
mt cách tiếp cn da trên t điển để dóng hàng các văn bản Hán c vi tiếng Vit hiện đại
ca chúng cấp độ câu, để giúp xây dng ng liu song song mt cách hiu qu hơn. Vì thế,
vic dóng hàng câu hin ti cần được thc hin hiu qu hơn. Trong nhiều phương pháp dóng
hàng câu hin tại, phương pháp dựa trên độ dài không hiu qu cho cp ngôn ng y, do thiếu
s tương ứng v độ dài ca cp ngôn ngữ. Phương pháp dựa trên t đin của chúng tôi, được
b sung bi t điển song ng tùy chỉnh, đạt được độ chính xác là 71,92% và 82,87%.
T khóa: Dóng hàng câu t động, Văn bản Trung-Vit c điển, Hán Nôm, X ngôn
ng t nhiên, phương pháp dựa trên t điển.
1. GII THIU
Trong lch s, ngôn ng văn hóa c Vit Nam ca chúng ta chu ảnh ng nng n
của văn hóa Trung Quốc, nht là v khía cnh ngôn ngữ. Khi đề cập đến tiếng Hán c, chúng
ta thc s đang đề cập đến ngôn ng Hán Nôm, mt ngôn ng được s dng rng rãi vào thi
điểm đó. Ch viết ca ngôn ngy da trên các ký t Trung Quc và kết hp vi mt s t
do t tiên ca chúng ta ng to ra. Kết qu là, mt s ng ln các tài liệu trong các lĩnh vực
khác nhau, chng hạn như văn học, văn bản pháp lý... đã được th hin bng cách s dng ch
n Nôm. Thế h chúng ta đưc truyn cm hứng để khám phá và nhn thc kiến thc trong
các văn bản này để giúp bo tồn và lưu truyền nhng di sn lch s và văn hóa của đất nước
Vit Nam. Tuy nhiên, vic xth công các văn bản Hán Nôm là vô cùng khó khăn, do tính
c xưa và phức tp ca ngôn ng. Nhng thách thc này hiện đang được gii quyết bng cách
s dng các k thut x ngôn ng t nhiên (NLP) các hình ngôn ng ln (LLM).
Nhng cách tiếp cận này đòi hỏi rt nhiu d liệu để đào tạo và th nghim các mô hình, dn
đến nhu cu v các b ng liu song song gia ngôn ng Hán Nôm và tiếng Vit hiện đại.
Việc có được mt b ng liu song song có th đưc xem là một bước khởi đầu quan
trng khi làm vic trong các ng dụng liên quan đến ngôn ng t nhiên, như dch y, khai
thác d liu, v.v. Mt b ng liu song song chứa các văn bản song ng được dóng hàng theo
* Trường ĐH Khoa học Tự nhiên - ĐHQG TP. HCM; Email: 21125087@student.hcmus.edu.vn
** Trường ĐH Khoa học Tự nhiên - ĐHQG TP. HCM; Email: 21125089@student.hcmus.edu.vn
404 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
cấp độ câu. Do đó, quá trình tạo ra mt b ng liu song song bao gm hai phn: thu thập văn
bn bn dch ca chúng trong cp ngôn ng ánh x các câu phía ngun vi các bn
dịch tương ứng ca chúng phía đích.
Nhiều hướng tiếp cận để gii quyết vấn đề dóng hàng câu đã được đề xut, bao gm
các phương pháp dựa trên độ dài, da trên t đin học máy. Phương pháp dựa trên đ dài
gi định rằng các câu dài hơn trong một ngôn ng có xu hướng khp với các câu dài hơn trong
mt ngôn ng khác. Phương pháp này hoạt động tt vi các cp ngôn ng độ dài tương ng
cao. Tuy nhiên, các văn bản ch Hán Nôm và bn dch tiếng Vit ca chúng không có độ dài
tương ng mnh m như vậy do s khác biệt đáng kể v ngôn ng cấu trúc câu. Do đó,
phương pháp dóng hàng dựa trên chiu dài tr nên không có tính áp dng lm cho cp ngôn
ng y. Vy nên, các tác gi đã quyết định nghiên cứu thêm và đánh giá hiu qu ca vic s
dụng các phương pháp da trên t điển để sp xếp các văn bản song văn Hán-Vit trong bài
báo này.
Mt s nghiên cứu liên quan được gii thiu trong Phn 2. Thng kê tp d liệu được
s dng trong bài báo này và quy trình tin x lý d liệu được trình bày trong Phn 3. Phn 4
gii thích chi tiết thut toán nêu bt mt s kết qu đáng chú ý trong các thí nghiệm ca
chúng tôi. Cui cùng, trong Phn 5, các tác gi trình bày mt s kết lun quan trọng và hướng
đi trong tương lai để ci thiện độ chính xác của phương pháp được đề xut.
2. CÔNG TRÌNH LIÊN QUAN
Có rt nhiu nhng nghiên cu v phương pháp dóng hàng câu cho các cp ngôn ng
khác. Hu hết các cách tiếp cận cơ bản cho vấn đề s dụng đánh giá xác suất, để xác định các
dóng hàng hp lý nht trong tt c các trưng hp th, s dụng hàm tính đim da
trên mt hoc nhiu thuộc tính tương ứng giữa các đoạn nguồn và đích.
Mt trong nhng nghiên cứu đầu tiên v vic s dụng độ dài câu làm thuc tính duy
nhất để tính xác sut dóngng là thut toán ca Gale & Church (1994) [5], một phương pháp
đếm s ký t để tính độ dài câu. Brown và đồng tác gi cũng đề xut một cách khác để đo độ
dài câu, bằng cách đếm s ng t [4]. Hai nghiên cu này kho sát các cp ngôn ng như
Anh-Pháp và Anh-Đức, trong đó ngôn ngữ nguồn và đích có mối tương quan độ dài cao. Tuy
nhiên, khi mối tương quan đ dài không ổn định, thuật toán không được thc hin tt, ví d,
trong trường hp Trung-Anh (Ma, 2006) [7]. Kch bản khá tương tự đối vi cp ngôn ng
Hán-Vit. Ch Hán c đại là mt ngôn ng có hàm ý cao, có nghĩa là một câu ngắn trong văn
bn Hán Nôm cth cn một đoạn văn gồm nhiu câu tiếng Việt để th hiện đầy đủ ý nghĩa
bi cnh của văn bản gc. Ngoài ra, không tiêu chun cho các tài liu dch thut, làm
cho các thuật toán trên kém chính xác hơn khi áp dụng vào cho vấn đề được nêu ra.
Các nghiên cứu khác như (Li et al., 2004) [6] đ xuất các phương pháp sử dng thông
tin v trí câu để thc hiện dóng hàng câu. Phương pháp y (Li et al., 2004) ch ra rng h
không ch chọn các điểm neo trong quá trình dóng hàng mà còn s dng mt t điển song ng
NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 405
...................................................................................................................................................................................
để đánh giá sự ging nhau v ng nghĩa giữa hai câu. Ý tưởng da vào các thuộc tính khác để
đánh giá sự ging nhau của câu cũng được áp dng trong mt s nghiên cu khác. d, (Wu,
1994) [11] đã đề xut một phương pháp thống ci tiến kết hp c tiêu chí độ dài vi các
tiêu chí liên quan đến t vựng để đánh giá độ tương thích của các câu cần dóng hàng. Điều
này mang lại độ chính xác cao hơn so với phương pháp da trên chiu dài thun túy. (Yu et
al., 2010) cũng đ xut một phương pháp da trên t điển cho vic dóng hàng câu ca cp
ngôn ng Trung Quc-Tây Tng. Cách tiếp cận y đã được tun b mt gii pháp cho
mt s khó khăn trong cp ngôn ng cho 84,8% kết qu th nghim. T hai nghiên cu
trên, các tác gi tin rng kết hp yêu t t vựng ý nghĩa quan trọng trong vấn đề nâng cao
độ hiu qu dóng hàng câu.
3. B D LIU
3.1. Tng quan
Trong bài báo này, các tác gi s dng hai b d liu khác nhau. Hai b d liu y
được trích t hai cun sách Minh Tâm TVK và Quần Thư Tr Yếu 360, được dch bi dch gi
[14] và đăng tải trên [13]. Các tác gi thc s biết ơn sự h tr vô giá t Trung tâm Ngôn ng
hc Tính toán (CLC Lab) [1] v vic cung cp d liu cho th nghim.
B d liệu đầu tiên Minh Tâm TVK (MT), cha 3.217 cp vế thuộc văn bản tiếng
Trung được dóng hàng với các văn bản dch tiếng Việt tương ng. Tp d liệu này đại din
cho kho d liu song ng mt dóng hàng mt.
B d liu th hai các tác gi quyết định s dng Quần Thư Trị Yếu 360 (QTTY),
gm 1.086 câu tiếng Trung, mỗi câu đều khp vi đoạn dch tiếng Việt tương ng. Mỗi đoạn
dch bây gi th cha nhiều câu trong đó. Các tác giả s dng tp d liệu này như mt b
ng liu song ng trong đó một câu thuc ngôn ng nguồn tương ng vi nhiu câu ngôn
ng đích. Do đó, phần dch ca tp d liệu này được phân đoạn thành các câu đ đánh giá
thut toán dóng hàng.
V t điển chúng tôi s dụng trong phương pháp đối sánh t vng, các tác gi s dng
mt t điển Trung-Việt được thu thp t thivien.vn [3] trong công trình ca V.N.Tín và các
đồng tác gi [9], da trên công trình của L. H. Thai và các đồng tác gi [12]. T điển bao gm
14.808 ký t Trung Quốc độc nht và các bn dịch tương ứng ca chúng (mt ký t có th
nhiu y chn dch). Mt t điển tùy chỉnh, được y dng da trên b d liệu MT, cũng
được s dụng để kim tra xem các bn dch hiện đạica các ký t Trung Quc có giúp ci thin
độ chính xác hay không.
3.2. Tin x lý d liu
Mi tài liệu được chia thành các phân đoạn gồm 8 đơn vị, mỗi phân đoạn bắt đầu bng
biểu tượng "#" mt s th t của câu đầu tiên của đoạn đó trừ đi một, các phân đoạn
tương ứng phải được đặt các v trí tương ứng trong tp ngun và tệp đích.
406 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
Trong văn bn thô ca Trung Quc, các ký t lin k không được tách ri nhau. Do
đó, chúng ta phải thêm khong trng gia chúng, bi theo cách tiếp cn da trên t điển,
các câu được mã hóa để trích xut các t nội dung đ tìm các cp t tương ng. Vic tách ký
t cũng được yêu cu khi s dụng GIZA ++ để xây dng t điển mt ký t, nếu không, GIZA
++ s nhn dng toàn b câu dưới dng mt t duy nht và dóng hàng t s gp trc trc.
Đối vi b d liu "QTTY", các tác gi đã cho biết rng mi câu tiếng Trung được
dóng hàng vi một đoạn văn tiếng Vit cha nhiều câu. Do đó, những đoạn văn đó cũng
cần được phân tách thành câu. Điều quan trng phải đảm bo rằng 2 câu được phân tách
nm trong cùng một phân đoạn vi các câu tiếng Trung tương ng ca chúng trong tp ngun
phi nm trong cùng một phân đoạn. Vì lý do đó, trước tiên chúng ta s chia tp ngun và tp
đích thành các phân đoạn, sau đó áp dụng công c tách câu để chia đoạn văn thành các u.
V công c tách câu, các tác gi ng s dng các công c hin có do CLC Lab cung cp [1].
Hình 1: Quy trình tin x lý d liu
4. PHƯƠNG PHÁP
Các phương pháp dóng hàng dựa trên t điển s dng t điển song ng để tính điểm
nhm tìm các cp dóng hàng tt nht trong tài liu nguồn đích. Trong nghiên cu y,
chúng tôi ch yếu da trên khái nim Quy hoạch động được đề xut bi Utsuro et al. [10] vào
năm 1994.
4.1. Xây dng t đin tùy chnh
Các tác gi s dng b d liệu MT đã được dóng hàng hoàn chỉnh được đề cp trong
Mục 3, để xây dng mt t điển ph bng GIZA++[8]. Tp tin output.A3.final sau khi chy
GIZA ++ được phân tích chuyn th thành bn thô cha các cp t ng tương xng. D liu
thô được tinh chnh bng cách s dng hanzii.net [2] làm ngun tham kho. T điển t xây
dng y cha 468 ký t Trung Quc riêng bit. Sau khi kết hp nó vi b t điển chính hình
thành b t điển được s dng cho hình của chúng tôi, trong đó bao gm 15.276 ký t
Trung Quc riêng bit và bn dch tiếng Việt tương ứng ca chúng.
4.2. Ký hiu
Để làm cho người đọc d dàng hình thành s kết ni t bài nghiên cu gc [9], bài viết
này s s dng nhng ký hiệu tương t. T sở đó, bài toán dóng hàng câu song ng được
định nghĩa như sau.
NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 407
...................................................................................................................................................................................
Cho S là một văn bản gm n câu ca ngôn ng ngun, và Tmột văn bn gm m câu
ca ngôn ng đích, và giả s rng ST là bn dch ca nhau:
𝑆 = 𝑠1, 𝑠2, 𝑠3, , 𝑠𝑛
𝑇 = 𝑡1, 𝑡2, 𝑡3, , 𝑡𝑚
Cho pmt cặp phân đoạn tương ng ti thiểu trong văn bản ST. Gi s p gm x
câu sa−x+1, ..., sa trong tp S y câu tb−y+1,..., tb trong T và được ký hiệu như sau:
𝑝 = ⟨𝑎, 𝑥; 𝑏, 𝑦⟩
Cặp phân đoạn tương ứng ti thiểu trong các văn bn song ng được gi bead. Sau
đó, các câu trong văn bn song ng ca S T đưc dóng hàng thành mt chui P ca các
bead:
𝑃 = 𝑝1, 𝑝2, 𝑝3, , 𝑝𝑘
4.3. Tính điểm của bead
Đim ca mt bead có th được tính theo công thc sau:
(𝑝)=𝑛𝑠𝑡(𝑝)
𝑛𝑠(𝑎, 𝑥)+ 𝑛𝑡(𝑏, 𝑦)
trong đó:
ns(a, x): số lượng thực từ trong dãy câu sa−x+1, ..., sa
nt(b, y): số lượng thực từ trong dãy câu tb−y+1,..., tb
nst(p): số cặp từ tương ứng trong bead hiện tại.
Trước nhất, các câu được phân tách thành y các từ đơn và chuẩn hóa thanh dấu. Mặc
về lý thuyết mỗi câu chỉ tách lấy những thực từ nhưng trong hình của bài viết lại chỉ
tách thành các từ đơn lẻ bởi sự thiếu sót về mặt kthuật, tuy vậy điều y không tạo thành ảnh
hưởng tiêu cực quá lớn đối với kết quả dóng hàng câu. Nguyên nhân do tự điển chính
(ThiVien[3]) hoàn toàn bản dịch phiên âm của các ký tự qua phiên bản Hán Việt, do đó
phần dịch chỉ bao gồm duy nhất một từ đơn khiến cho việc dùng tự điển này không bị ảnh
hưởng. Về phần tự điển bổ sung tập trung vào bản dịch ngữ nghĩa, bởi vậy sẽ có những nghĩa
gồm nhiều từ đơn. Để giảm thiểu tác động tiêu cực, mô hình của chúng tôi có cài đặt một phần
phụ để tạo thêm từ bằng cách ghép hai từ đơn liền kề trong câu ở ngôn ngữ đích để tạo thành
một từ mới và đặt vào dãy các từ cần phải xét trong quá trình tính điểm.
Thành tố quan trọng nhất của công thức nst(p) - số lượng các cặp tương ứng. Một
cặp được coi hợp lệ nếu nó được m thấy trong từ điển. Vấn đề ghép cặp này thể được
hình hóa như bài toán Cặp ghép cực đại trên đồ thị không trọng, bằng cách xem mỗi từ
trong tập cần xét thành một nút của đồ thị, tập từ của bộ S không có điểm giao với tập từ của
bộ T tạo thành độ thị hai phía, cạnh nôi của đồ thị được định nghĩa bằng các bộ từ có trong từ
điển được sử dụng. hình của chúng tôi sử dụng thuật toán Kuhn, một chương trình con
trong thuật toán Hungary, để giải quyết vấn đề ghép cặp này. Độ phức tạp về mặt thời gian