
NGÔN NGỮ HỌC TÍNH TOÁN: NHỮNG XU HƯỚNG MỚI, TRIỂN VỌNG VÀ THÁCH THỨC | 403
...................................................................................................................................................................................
PHƯƠNG PHÁP DÓNG HÀNG CÂU TỰ ĐỘNG CHO VĂN BẢN
TRUNG QUỐC CỔ ĐIỂN - VIỆT NAM HIỆN ĐẠI
VƯƠNG QUỐC PHONG* - LƯU VĂN PHÚC**
Tóm tắt: Việc khám phá giá trị lịch sử và văn hóa của ông cha là một công việc truyền
cảm hứng cho các thế hệ chúng ta. Tuy nhiên, để xử lý và khai thác kiến thức hiệu quả, cần
ứng dụng các kỹ thuật xử lý ngôn ngữ tự nhiên. Những cách tiếp cận này dẫn đến nhu cầu về
các ngữ liệu song song của cặp ngôn ngữ để huấn luyện các mô hình. Bài viết này trình bày
một cách tiếp cận dựa trên từ điển để dóng hàng các văn bản Hán cổ với tiếng Việt hiện đại
của chúng ở cấp độ câu, để giúp xây dựng ngữ liệu song song một cách hiệu quả hơn. Vì thế,
việc dóng hàng câu hiện tại cần được thực hiện hiệu quả hơn. Trong nhiều phương pháp dóng
hàng câu hiện tại, phương pháp dựa trên độ dài không hiệu quả cho cặp ngôn ngữ này, do thiếu
sự tương ứng về độ dài của cặp ngôn ngữ. Phương pháp dựa trên từ điển của chúng tôi, được
bổ sung bởi từ điển song ngữ tùy chỉnh, đạt được độ chính xác là 71,92% và 82,87%.
Từ khóa: Dóng hàng câu tự động, Văn bản Trung-Việt cổ điển, Hán Nôm, Xử lý ngôn
ngữ tự nhiên, phương pháp dựa trên từ điển.
1. GIỚI THIỆU
Trong lịch sử, ngôn ngữ và văn hóa cổ Việt Nam của chúng ta chịu ảnh hưởng nặng nề
của văn hóa Trung Quốc, nhất là về khía cạnh ngôn ngữ. Khi đề cập đến tiếng Hán cổ, chúng
ta thực sự đang đề cập đến ngôn ngữ Hán Nôm, một ngôn ngữ được sử dụng rộng rãi vào thời
điểm đó. Chữ viết của ngôn ngữ này dựa trên các ký tự Trung Quốc và kết hợp với một số tự
do tổ tiên của chúng ta sáng tạo ra. Kết quả là, một số lượng lớn các tài liệu trong các lĩnh vực
khác nhau, chẳng hạn như văn học, văn bản pháp lý... đã được thể hiện bằng cách sử dụng chữ
Hán Nôm. Thế hệ chúng ta được truyền cảm hứng để khám phá và nhận thức kiến thức trong
các văn bản này để giúp bảo tồn và lưu truyền những di sản lịch sử và văn hóa của đất nước
Việt Nam. Tuy nhiên, việc xử lý thủ công các văn bản Hán Nôm là vô cùng khó khăn, do tính
cổ xưa và phức tạp của ngôn ngữ. Những thách thức này hiện đang được giải quyết bằng cách
sử dụng các kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) và các mô hình ngôn ngữ lớn (LLM).
Những cách tiếp cận này đòi hỏi rất nhiều dữ liệu để đào tạo và thử nghiệm các mô hình, dẫn
đến nhu cầu về các bộ ngữ liệu song song giữa ngôn ngữ Hán Nôm và tiếng Việt hiện đại.
Việc có được một bộ ngữ liệu song song có thể được xem là một bước khởi đầu quan
trọng khi làm việc trong các ứng dụng liên quan đến ngôn ngữ tự nhiên, như dịch máy, khai
thác dữ liệu, v.v. Một bộ ngữ liệu song song chứa các văn bản song ngữ được dóng hàng theo
* Trường ĐH Khoa học Tự nhiên - ĐHQG TP. HCM; Email: 21125087@student.hcmus.edu.vn
** Trường ĐH Khoa học Tự nhiên - ĐHQG TP. HCM; Email: 21125089@student.hcmus.edu.vn

404 | KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2024
...................................................................................................................................................................................
cấp độ câu. Do đó, quá trình tạo ra một bộ ngữ liệu song song bao gồm hai phần: thu thập văn
bản và bản dịch của chúng trong cặp ngôn ngữ và ánh xạ các câu ở phía nguồn với các bản
dịch tương ứng của chúng ở phía đích.
Nhiều hướng tiếp cận để giải quyết vấn đề dóng hàng câu đã được đề xuất, bao gồm
các phương pháp dựa trên độ dài, dựa trên từ điển và học máy. Phương pháp dựa trên độ dài
giả định rằng các câu dài hơn trong một ngôn ngữ có xu hướng khớp với các câu dài hơn trong
một ngôn ngữ khác. Phương pháp này hoạt động tốt với các cặp ngôn ngữ có độ dài tương ứng
cao. Tuy nhiên, các văn bản chữ Hán Nôm và bản dịch tiếng Việt của chúng không có độ dài
tương ứng mạnh mẽ như vậy do sự khác biệt đáng kể về ngôn ngữ và cấu trúc câu. Do đó,
phương pháp dóng hàng dựa trên chiều dài trở nên không có tính áp dụng lắm cho cặp ngôn
ngữ này. Vậy nên, các tác giả đã quyết định nghiên cứu thêm và đánh giá hiệu quả của việc sử
dụng các phương pháp dựa trên từ điển để sắp xếp các văn bản song văn Hán-Việt trong bài
báo này.
Một số nghiên cứu liên quan được giới thiệu trong Phần 2. Thống kê tập dữ liệu được
sử dụng trong bài báo này và quy trình tiền xử lý dữ liệu được trình bày trong Phần 3. Phần 4
giải thích chi tiết thuật toán và nêu bật một số kết quả đáng chú ý trong các thí nghiệm của
chúng tôi. Cuối cùng, trong Phần 5, các tác giả trình bày một số kết luận quan trọng và hướng
đi trong tương lai để cải thiện độ chính xác của phương pháp được đề xuất.
2. CÔNG TRÌNH LIÊN QUAN
Có rất nhiều những nghiên cứu về phương pháp dóng hàng câu cho các cặp ngôn ngữ
khác. Hầu hết các cách tiếp cận cơ bản cho vấn đề sử dụng đánh giá xác suất, để xác định các
dóng hàng có hợp lý nhất trong tất cả các trường hợp có thể, và sử dụng hàm tính điểm dựa
trên một hoặc nhiều thuộc tính tương ứng giữa các đoạn nguồn và đích.
Một trong những nghiên cứu đầu tiên về việc sử dụng độ dài câu làm thuộc tính duy
nhất để tính xác suất dóng hàng là thuật toán của Gale & Church (1994) [5], một phương pháp
đếm số ký tự để tính độ dài câu. Brown và đồng tác giả cũng đề xuất một cách khác để đo độ
dài câu, bằng cách đếm số lượng từ [4]. Hai nghiên cứu này khảo sát các cặp ngôn ngữ như
Anh-Pháp và Anh-Đức, trong đó ngôn ngữ nguồn và đích có mối tương quan độ dài cao. Tuy
nhiên, khi mối tương quan độ dài không ổn định, thuật toán không được thực hiện tốt, ví dụ,
trong trường hợp Trung-Anh (Ma, 2006) [7]. Kịch bản khá tương tự đối với cặp ngôn ngữ
Hán-Việt. Chữ Hán cổ đại là một ngôn ngữ có hàm ý cao, có nghĩa là một câu ngắn trong văn
bản Hán Nôm cổ có thể cần một đoạn văn gồm nhiều câu tiếng Việt để thể hiện đầy đủ ý nghĩa
và bối cảnh của văn bản gốc. Ngoài ra, không có tiêu chuẩn cho các tài liệu dịch thuật, làm
cho các thuật toán trên kém chính xác hơn khi áp dụng vào cho vấn đề được nêu ra.
Các nghiên cứu khác như (Li et al., 2004) [6] đề xuất các phương pháp sử dụng thông
tin vị trí câu để thực hiện dóng hàng câu. Phương pháp này (Li et al., 2004) chỉ ra rằng họ
không chỉ chọn các điểm neo trong quá trình dóng hàng mà còn sử dụng một từ điển song ngữ

NGÔN NGỮ HỌC TÍNH TOÁN: NHỮNG XU HƯỚNG MỚI, TRIỂN VỌNG VÀ THÁCH THỨC | 405
...................................................................................................................................................................................
để đánh giá sự giống nhau về ngữ nghĩa giữa hai câu. Ý tưởng dựa vào các thuộc tính khác để
đánh giá sự giống nhau của câu cũng được áp dụng trong một số nghiên cứu khác. Ví dụ, (Wu,
1994) [11] đã đề xuất một phương pháp thống kê cải tiến kết hợp cả tiêu chí độ dài với các
tiêu chí liên quan đến từ vựng để đánh giá độ tương thích của các câu cần dóng hàng. Điều
này mang lại độ chính xác cao hơn so với phương pháp dựa trên chiều dài thuần túy. (Yu et
al., 2010) cũng đề xuất một phương pháp dựa trên từ điển cho việc dóng hàng câu của cặp
ngôn ngữ Trung Quốc-Tây Tạng. Cách tiếp cận này đã được tuyên bố là một giải pháp cho
một số khó khăn trong cặp ngôn ngữ và cho 84,8% kết quả thử nghiệm. Từ hai nghiên cứu
trên, các tác giả tin rằng kết hợp yêu tố từ vựng có ý nghĩa quan trọng trong vấn đề nâng cao
độ hiệu quả dóng hàng câu.
3. BỘ DỮ LIỆU
3.1. Tổng quan
Trong bài báo này, các tác giả sử dụng hai bộ dữ liệu khác nhau. Hai bộ dữ liệu này
được trích từ hai cuốn sách Minh Tâm TVK và Quần Thư Trị Yếu 360, được dịch bởi dịch giả
[14] và đăng tải trên [13]. Các tác giả thực sự biết ơn sự hỗ trợ vô giá từ Trung tâm Ngôn ngữ
học Tính toán (CLC Lab) [1] về việc cung cấp dữ liệu cho thử nghiệm.
Bộ dữ liệu đầu tiên là Minh Tâm TVK (MT), chứa 3.217 cặp vế thuộc văn bản tiếng
Trung được dóng hàng với các văn bản dịch tiếng Việt tương ứng. Tập dữ liệu này đại diện
cho kho dữ liệu song ngữ một dóng hàng một.
Bộ dữ liệu thứ hai mà các tác giả quyết định sử dụng là Quần Thư Trị Yếu 360 (QTTY),
gồm 1.086 câu tiếng Trung, mỗi câu đều khớp với đoạn dịch tiếng Việt tương ứng. Mỗi đoạn
dịch bây giờ có thể chứa nhiều câu trong đó. Các tác giả sử dụng tập dữ liệu này như một bộ
ngữ liệu song ngữ mà trong đó một câu thuộc ngôn ngữ nguồn tương ứng với nhiều câu ở ngôn
ngữ đích. Do đó, phần dịch của tập dữ liệu này được phân đoạn thành các câu để đánh giá
thuật toán dóng hàng.
Về tự điển chúng tôi sử dụng trong phương pháp đối sánh từ vựng, các tác giả sử dụng
một ký tự điển Trung-Việt được thu thập từ thivien.vn [3] trong công trình của V.N.Tín và các
đồng tác giả [9], dựa trên công trình của L. H. Thai và các đồng tác giả [12]. Tự điển bao gồm
14.808 ký tự Trung Quốc độc nhất và các bản dịch tương ứng của chúng (một ký tự có thể có
nhiều tùy chọn dịch). Một tự điển tùy chỉnh, được xây dựng dựa trên bộ dữ liệu MT, cũng
được sử dụng để kiểm tra xem các bản dịch hiện đạicủa các ký tự Trung Quốc có giúp cải thiện
độ chính xác hay không.
3.2. Tiền xử lý dữ liệu
Mỗi tài liệu được chia thành các phân đoạn gồm 8 đơn vị, mỗi phân đoạn bắt đầu bằng
biểu tượng "#" và một số thứ tự của câu đầu tiên của đoạn đó trừ đi một, và các phân đoạn
tương ứng phải được đặt ở các vị trí tương ứng trong tệp nguồn và tệp đích.

406 | KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2024
...................................................................................................................................................................................
Trong văn bản thô của Trung Quốc, các ký tự liền kề không được tách rời nhau. Do
đó, chúng ta phải thêm khoảng trống giữa chúng, bởi vì theo cách tiếp cận dựa trên từ điển,
các câu được mã hóa để trích xuất các từ nội dung để tìm các cặp từ tương ứng. Việc tách ký
tự cũng được yêu cầu khi sử dụng GIZA ++ để xây dựng từ điển một ký tự, nếu không, GIZA
++ sẽ nhận dạng toàn bộ câu dưới dạng một từ duy nhất và dóng hàng từ sẽ gặp trục trặc.
Đối với bộ dữ liệu "QTTY", các tác giả đã cho biết rằng mỗi câu tiếng Trung được
dóng hàng với một đoạn văn tiếng Việt có chứa nhiều câu. Do đó, những đoạn văn đó cũng
cần được phân tách thành câu. Điều quan trọng là phải đảm bảo rằng 2 câu được phân tách
nằm trong cùng một phân đoạn với các câu tiếng Trung tương ứng của chúng trong tệp nguồn
phải nằm trong cùng một phân đoạn. Vì lý do đó, trước tiên chúng ta sẽ chia tệp nguồn và tệp
đích thành các phân đoạn, sau đó áp dụng công cụ tách câu để chia đoạn văn thành các câu.
Về công cụ tách câu, các tác giả cũng sử dụng các công cụ hiện có do CLC Lab cung cấp [1].
Hình 1: Quy trình tiền xử lý dữ liệu
4. PHƯƠNG PHÁP
Các phương pháp dóng hàng dựa trên từ điển sử dụng từ điển song ngữ để tính điểm
nhằm tìm các cặp dóng hàng tốt nhất trong tài liệu nguồn và đích. Trong nghiên cứu này,
chúng tôi chủ yếu dựa trên khái niệm Quy hoạch động được đề xuất bởi Utsuro et al. [10] vào
năm 1994.
4.1. Xây dựng từ điển tùy chỉnh
Các tác giả sử dụng bộ dữ liệu MT đã được dóng hàng hoàn chỉnh được đề cập trong
Mục 3, để xây dựng một từ điển phụ bằng GIZA++[8]. Tập tin output.A3.final sau khi chạy
GIZA ++ được phân tích chuyển thể thành bản thô chứa các cặp từ ngữ tương xứng. Dữ liệu
thô được tinh chỉnh bằng cách sử dụng hanzii.net [2] làm nguồn tham khảo. Tự điển tự xây
dựng này chứa 468 ký tự Trung Quốc riêng biệt. Sau khi kết hợp nó với bộ tự điển chính hình
thành bộ từ điển được sử dụng cho mô hình của chúng tôi, trong đó bao gồm 15.276 ký tự
Trung Quốc riêng biệt và bản dịch tiếng Việt tương ứng của chúng.
4.2. Ký hiệu
Để làm cho người đọc dễ dàng hình thành sự kết nối từ bài nghiên cứu gốc [9], bài viết
này sẽ sử dụng những ký hiệu tương tự. Từ cơ sở đó, bài toán dóng hàng câu song ngữ được
định nghĩa như sau.

NGÔN NGỮ HỌC TÍNH TOÁN: NHỮNG XU HƯỚNG MỚI, TRIỂN VỌNG VÀ THÁCH THỨC | 407
...................................................................................................................................................................................
Cho S là một văn bản gồm n câu của ngôn ngữ nguồn, và T là một văn bản gồm m câu
của ngôn ngữ đích, và giả sử rằng S và T là bản dịch của nhau:
𝑆 = 𝑠1, 𝑠2, 𝑠3, … , 𝑠𝑛
𝑇 = 𝑡1, 𝑡2, 𝑡3, … , 𝑡𝑚
Cho p là một cặp phân đoạn tương ứng tối thiểu trong văn bản S và T. Giả sử p gồm x
câu sa−x+1, ..., sa trong tập S và y câu tb−y+1,..., tb trong T và được ký hiệu như sau:
𝑝 = ⟨𝑎, 𝑥; 𝑏, 𝑦⟩
Cặp phân đoạn tương ứng tối thiểu trong các văn bản song ngữ được gọi là bead. Sau
đó, các câu trong văn bản song ngữ của S và T được dóng hàng thành một chuỗi P của các
bead:
𝑃 = 𝑝1, 𝑝2, 𝑝3, … , 𝑝𝑘
4.3. Tính điểm của bead
Điểm của một bead có thể được tính theo công thức sau:
ℎ(𝑝)=𝑛𝑠𝑡(𝑝)
𝑛𝑠(𝑎, 𝑥)+ 𝑛𝑡(𝑏, 𝑦)
trong đó:
ns(a, x): số lượng thực từ trong dãy câu sa−x+1, ..., sa
nt(b, y): số lượng thực từ trong dãy câu tb−y+1,..., tb
nst(p): số cặp từ tương ứng trong bead hiện tại.
Trước nhất, các câu được phân tách thành dãy các từ đơn và chuẩn hóa thanh dấu. Mặc
dù về lý thuyết mỗi câu chỉ tách lấy những thực từ nhưng trong mô hình của bài viết lại chỉ
tách thành các từ đơn lẻ bởi sự thiếu sót về mặt kỹ thuật, tuy vậy điều này không tạo thành ảnh
hưởng tiêu cực quá lớn đối với kết quả dóng hàng câu. Nguyên nhân là do tự điển chính
(ThiVien[3]) hoàn toàn là bản dịch phiên âm của các ký tự qua phiên bản Hán Việt, do đó
phần dịch chỉ bao gồm duy nhất một từ đơn khiến cho việc dùng tự điển này không bị ảnh
hưởng. Về phần tự điển bổ sung tập trung vào bản dịch ngữ nghĩa, bởi vậy sẽ có những nghĩa
gồm nhiều từ đơn. Để giảm thiểu tác động tiêu cực, mô hình của chúng tôi có cài đặt một phần
phụ để tạo thêm từ bằng cách ghép hai từ đơn liền kề trong câu ở ngôn ngữ đích để tạo thành
một từ mới và đặt vào dãy các từ cần phải xét trong quá trình tính điểm.
Thành tố quan trọng nhất của công thức là nst(p) - số lượng các cặp tương ứng. Một
cặp được coi là hợp lệ nếu nó được tìm thấy trong từ điển. Vấn đề ghép cặp này có thể được
mô hình hóa như bài toán Cặp ghép cực đại trên đồ thị không trọng, bằng cách xem mỗi từ
trong tập cần xét thành một nút của đồ thị, tập từ của bộ S không có điểm giao với tập từ của
bộ T tạo thành độ thị hai phía, cạnh nôi của đồ thị được định nghĩa bằng các bộ từ có trong từ
điển được sử dụng. Mô hình của chúng tôi sử dụng thuật toán Kuhn, một chương trình con
trong thuật toán Hungary, để giải quyết vấn đề ghép cặp này. Độ phức tạp về mặt thời gian