Phương pháp dóng hàng câu tự động cho văn bản Trung Quốc cổ điển

NGÔN NGỮ HỌC TÍNH TOÁN: NHỮNG XU HƯỚNG MỚI, TRIỂN VỌNG VÀ THÁCH THỨC | 403

...................................................................................................................................................................................

PHƯƠNG PHÁP DÓNG HÀNG CÂU TỰ ĐỘNG CHO VĂN BẢN

TRUNG QUỐC CỔ ĐIỂN - VIỆT NAM HIỆN ĐẠI

VƯƠNG QUỐC PHONG* - LƯU VĂN PHÚC**

Tóm tắt: Việc khám phá giá trị lịch sử và văn hóa của ông cha là một công việc truyền

cảm hứng cho các thế hệ chúng ta. Tuy nhiên, để xử lý và khai thác kiến thức hiệu quả, cần

ứng dụng các kỹ thuật xử lý ngôn ngữ tự nhiên. Những cách tiếp cận này dẫn đến nhu cầu về

các ngữ liệu song song của cặp ngôn ngữ để huấn luyện các mô hình. Bài viết này trình bày

một cách tiếp cận dựa trên từ điển để dóng hàng các văn bản Hán cổ với tiếng Việt hiện đại

của chúng ở cấp độ câu, để giúp xây dựng ngữ liệu song song một cách hiệu quả hơn. Vì thế,

việc dóng hàng câu hiện tại cần được thực hiện hiệu quả hơn. Trong nhiều phương pháp dóng

hàng câu hiện tại, phương pháp dựa trên độ dài không hiệu quả cho cặp ngôn ngữ này, do thiếu

sự tương ứng về độ dài của cặp ngôn ngữ. Phương pháp dựa trên từ điển của chúng tôi, được

bổ sung bởi từ điển song ngữ tùy chỉnh, đạt được độ chính xác là 71,92% và 82,87%.

Từ khóa: Dóng hàng câu tự động, Văn bản Trung-Việt cổ điển, Hán Nôm, Xử lý ngôn

ngữ tự nhiên, phương pháp dựa trên từ điển.

1. GIỚI THIỆU

Trong lịch sử, ngôn ngữ và văn hóa cổ Việt Nam của chúng ta chịu ảnh hưởng nặng nề

của văn hóa Trung Quốc, nhất là về khía cạnh ngôn ngữ. Khi đề cập đến tiếng Hán cổ, chúng

ta thực sự đang đề cập đến ngôn ngữ Hán Nôm, một ngôn ngữ được sử dụng rộng rãi vào thời

điểm đó. Chữ viết của ngôn ngữ này dựa trên các ký tự Trung Quốc và kết hợp với một số tự

do tổ tiên của chúng ta sáng tạo ra. Kết quả là, một số lượng lớn các tài liệu trong các lĩnh vực

khác nhau, chẳng hạn như văn học, văn bản pháp lý... đã được thể hiện bằng cách sử dụng chữ

Hán Nôm. Thế hệ chúng ta được truyền cảm hứng để khám phá và nhận thức kiến thức trong

các văn bản này để giúp bảo tồn và lưu truyền những di sản lịch sử và văn hóa của đất nước

Việt Nam. Tuy nhiên, việc xử lý thủ công các văn bản Hán Nôm là vô cùng khó khăn, do tính

cổ xưa và phức tạp của ngôn ngữ. Những thách thức này hiện đang được giải quyết bằng cách

sử dụng các kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) và các mô hình ngôn ngữ lớn (LLM).

Những cách tiếp cận này đòi hỏi rất nhiều dữ liệu để đào tạo và thử nghiệm các mô hình, dẫn

đến nhu cầu về các bộ ngữ liệu song song giữa ngôn ngữ Hán Nôm và tiếng Việt hiện đại.

Việc có được một bộ ngữ liệu song song có thể được xem là một bước khởi đầu quan

trọng khi làm việc trong các ứng dụng liên quan đến ngôn ngữ tự nhiên, như dịch máy, khai

thác dữ liệu, v.v. Một bộ ngữ liệu song song chứa các văn bản song ngữ được dóng hàng theo

* Trường ĐH Khoa học Tự nhiên - ĐHQG TP. HCM; Email: 21125087@student.hcmus.edu.vn

** Trường ĐH Khoa học Tự nhiên - ĐHQG TP. HCM; Email: 21125089@student.hcmus.edu.vn

404 | KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2024

...................................................................................................................................................................................

cấp độ câu. Do đó, quá trình tạo ra một bộ ngữ liệu song song bao gồm hai phần: thu thập văn

bản và bản dịch của chúng trong cặp ngôn ngữ và ánh xạ các câu ở phía nguồn với các bản

dịch tương ứng của chúng ở phía đích.

Nhiều hướng tiếp cận để giải quyết vấn đề dóng hàng câu đã được đề xuất, bao gồm

các phương pháp dựa trên độ dài, dựa trên từ điển và học máy. Phương pháp dựa trên độ dài

giả định rằng các câu dài hơn trong một ngôn ngữ có xu hướng khớp với các câu dài hơn trong

một ngôn ngữ khác. Phương pháp này hoạt động tốt với các cặp ngôn ngữ có độ dài tương ứng

cao. Tuy nhiên, các văn bản chữ Hán Nôm và bản dịch tiếng Việt của chúng không có độ dài

tương ứng mạnh mẽ như vậy do sự khác biệt đáng kể về ngôn ngữ và cấu trúc câu. Do đó,

phương pháp dóng hàng dựa trên chiều dài trở nên không có tính áp dụng lắm cho cặp ngôn

ngữ này. Vậy nên, các tác giả đã quyết định nghiên cứu thêm và đánh giá hiệu quả của việc sử

dụng các phương pháp dựa trên từ điển để sắp xếp các văn bản song văn Hán-Việt trong bài

báo này.

Một số nghiên cứu liên quan được giới thiệu trong Phần 2. Thống kê tập dữ liệu được

sử dụng trong bài báo này và quy trình tiền xử lý dữ liệu được trình bày trong Phần 3. Phần 4

giải thích chi tiết thuật toán và nêu bật một số kết quả đáng chú ý trong các thí nghiệm của

chúng tôi. Cuối cùng, trong Phần 5, các tác giả trình bày một số kết luận quan trọng và hướng

đi trong tương lai để cải thiện độ chính xác của phương pháp được đề xuất.

2. CÔNG TRÌNH LIÊN QUAN

Có rất nhiều những nghiên cứu về phương pháp dóng hàng câu cho các cặp ngôn ngữ

khác. Hầu hết các cách tiếp cận cơ bản cho vấn đề sử dụng đánh giá xác suất, để xác định các

dóng hàng có hợp lý nhất trong tất cả các trường hợp có thể, và sử dụng hàm tính điểm dựa

trên một hoặc nhiều thuộc tính tương ứng giữa các đoạn nguồn và đích.

Một trong những nghiên cứu đầu tiên về việc sử dụng độ dài câu làm thuộc tính duy

nhất để tính xác suất dóng hàng là thuật toán của Gale & Church (1994) [5], một phương pháp

đếm số ký tự để tính độ dài câu. Brown và đồng tác giả cũng đề xuất một cách khác để đo độ

dài câu, bằng cách đếm số lượng từ [4]. Hai nghiên cứu này khảo sát các cặp ngôn ngữ như

Anh-Pháp và Anh-Đức, trong đó ngôn ngữ nguồn và đích có mối tương quan độ dài cao. Tuy

nhiên, khi mối tương quan độ dài không ổn định, thuật toán không được thực hiện tốt, ví dụ,

trong trường hợp Trung-Anh (Ma, 2006) [7]. Kịch bản khá tương tự đối với cặp ngôn ngữ

Hán-Việt. Chữ Hán cổ đại là một ngôn ngữ có hàm ý cao, có nghĩa là một câu ngắn trong văn

bản Hán Nôm cổ có thể cần một đoạn văn gồm nhiều câu tiếng Việt để thể hiện đầy đủ ý nghĩa

và bối cảnh của văn bản gốc. Ngoài ra, không có tiêu chuẩn cho các tài liệu dịch thuật, làm

cho các thuật toán trên kém chính xác hơn khi áp dụng vào cho vấn đề được nêu ra.

Các nghiên cứu khác như (Li et al., 2004) [6] đề xuất các phương pháp sử dụng thông

tin vị trí câu để thực hiện dóng hàng câu. Phương pháp này (Li et al., 2004) chỉ ra rằng họ

không chỉ chọn các điểm neo trong quá trình dóng hàng mà còn sử dụng một từ điển song ngữ

NGÔN NGỮ HỌC TÍNH TOÁN: NHỮNG XU HƯỚNG MỚI, TRIỂN VỌNG VÀ THÁCH THỨC | 405

...................................................................................................................................................................................

để đánh giá sự giống nhau về ngữ nghĩa giữa hai câu. Ý tưởng dựa vào các thuộc tính khác để

đánh giá sự giống nhau của câu cũng được áp dụng trong một số nghiên cứu khác. Ví dụ, (Wu,

1994) [11] đã đề xuất một phương pháp thống kê cải tiến kết hợp cả tiêu chí độ dài với các

tiêu chí liên quan đến từ vựng để đánh giá độ tương thích của các câu cần dóng hàng. Điều

này mang lại độ chính xác cao hơn so với phương pháp dựa trên chiều dài thuần túy. (Yu et

al., 2010) cũng đề xuất một phương pháp dựa trên từ điển cho việc dóng hàng câu của cặp

ngôn ngữ Trung Quốc-Tây Tạng. Cách tiếp cận này đã được tuyên bố là một giải pháp cho

một số khó khăn trong cặp ngôn ngữ và cho 84,8% kết quả thử nghiệm. Từ hai nghiên cứu

trên, các tác giả tin rằng kết hợp yêu tố từ vựng có ý nghĩa quan trọng trong vấn đề nâng cao

độ hiệu quả dóng hàng câu.

3. BỘ DỮ LIỆU

3.1. Tổng quan

Trong bài báo này, các tác giả sử dụng hai bộ dữ liệu khác nhau. Hai bộ dữ liệu này

được trích từ hai cuốn sách Minh Tâm TVK và Quần Thư Trị Yếu 360, được dịch bởi dịch giả

[14] và đăng tải trên [13]. Các tác giả thực sự biết ơn sự hỗ trợ vô giá từ Trung tâm Ngôn ngữ

học Tính toán (CLC Lab) [1] về việc cung cấp dữ liệu cho thử nghiệm.

Bộ dữ liệu đầu tiên là Minh Tâm TVK (MT), chứa 3.217 cặp vế thuộc văn bản tiếng

Trung được dóng hàng với các văn bản dịch tiếng Việt tương ứng. Tập dữ liệu này đại diện

cho kho dữ liệu song ngữ một dóng hàng một.

Bộ dữ liệu thứ hai mà các tác giả quyết định sử dụng là Quần Thư Trị Yếu 360 (QTTY),

gồm 1.086 câu tiếng Trung, mỗi câu đều khớp với đoạn dịch tiếng Việt tương ứng. Mỗi đoạn

dịch bây giờ có thể chứa nhiều câu trong đó. Các tác giả sử dụng tập dữ liệu này như một bộ

ngữ liệu song ngữ mà trong đó một câu thuộc ngôn ngữ nguồn tương ứng với nhiều câu ở ngôn

ngữ đích. Do đó, phần dịch của tập dữ liệu này được phân đoạn thành các câu để đánh giá

thuật toán dóng hàng.

Về tự điển chúng tôi sử dụng trong phương pháp đối sánh từ vựng, các tác giả sử dụng

một ký tự điển Trung-Việt được thu thập từ thivien.vn [3] trong công trình của V.N.Tín và các

đồng tác giả [9], dựa trên công trình của L. H. Thai và các đồng tác giả [12]. Tự điển bao gồm

14.808 ký tự Trung Quốc độc nhất và các bản dịch tương ứng của chúng (một ký tự có thể có

nhiều tùy chọn dịch). Một tự điển tùy chỉnh, được xây dựng dựa trên bộ dữ liệu MT, cũng

được sử dụng để kiểm tra xem các bản dịch hiện đạicủa các ký tự Trung Quốc có giúp cải thiện

độ chính xác hay không.

3.2. Tiền xử lý dữ liệu

Mỗi tài liệu được chia thành các phân đoạn gồm 8 đơn vị, mỗi phân đoạn bắt đầu bằng

biểu tượng "#" và một số thứ tự của câu đầu tiên của đoạn đó trừ đi một, và các phân đoạn

tương ứng phải được đặt ở các vị trí tương ứng trong tệp nguồn và tệp đích.

406 | KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2024

...................................................................................................................................................................................

Trong văn bản thô của Trung Quốc, các ký tự liền kề không được tách rời nhau. Do

đó, chúng ta phải thêm khoảng trống giữa chúng, bởi vì theo cách tiếp cận dựa trên từ điển,

các câu được mã hóa để trích xuất các từ nội dung để tìm các cặp từ tương ứng. Việc tách ký

tự cũng được yêu cầu khi sử dụng GIZA ++ để xây dựng từ điển một ký tự, nếu không, GIZA

++ sẽ nhận dạng toàn bộ câu dưới dạng một từ duy nhất và dóng hàng từ sẽ gặp trục trặc.

Đối với bộ dữ liệu "QTTY", các tác giả đã cho biết rằng mỗi câu tiếng Trung được

dóng hàng với một đoạn văn tiếng Việt có chứa nhiều câu. Do đó, những đoạn văn đó cũng

cần được phân tách thành câu. Điều quan trọng là phải đảm bảo rằng 2 câu được phân tách

nằm trong cùng một phân đoạn với các câu tiếng Trung tương ứng của chúng trong tệp nguồn

phải nằm trong cùng một phân đoạn. Vì lý do đó, trước tiên chúng ta sẽ chia tệp nguồn và tệp

đích thành các phân đoạn, sau đó áp dụng công cụ tách câu để chia đoạn văn thành các câu.

Về công cụ tách câu, các tác giả cũng sử dụng các công cụ hiện có do CLC Lab cung cấp [1].

Hình 1: Quy trình tiền xử lý dữ liệu

4. PHƯƠNG PHÁP

Các phương pháp dóng hàng dựa trên từ điển sử dụng từ điển song ngữ để tính điểm

nhằm tìm các cặp dóng hàng tốt nhất trong tài liệu nguồn và đích. Trong nghiên cứu này,

chúng tôi chủ yếu dựa trên khái niệm Quy hoạch động được đề xuất bởi Utsuro et al. [10] vào

năm 1994.

4.1. Xây dựng từ điển tùy chỉnh

Các tác giả sử dụng bộ dữ liệu MT đã được dóng hàng hoàn chỉnh được đề cập trong

Mục 3, để xây dựng một từ điển phụ bằng GIZA++[8]. Tập tin output.A3.final sau khi chạy

GIZA ++ được phân tích chuyển thể thành bản thô chứa các cặp từ ngữ tương xứng. Dữ liệu

thô được tinh chỉnh bằng cách sử dụng hanzii.net [2] làm nguồn tham khảo. Tự điển tự xây

dựng này chứa 468 ký tự Trung Quốc riêng biệt. Sau khi kết hợp nó với bộ tự điển chính hình

thành bộ từ điển được sử dụng cho mô hình của chúng tôi, trong đó bao gồm 15.276 ký tự

Trung Quốc riêng biệt và bản dịch tiếng Việt tương ứng của chúng.

4.2. Ký hiệu

Để làm cho người đọc dễ dàng hình thành sự kết nối từ bài nghiên cứu gốc [9], bài viết

này sẽ sử dụng những ký hiệu tương tự. Từ cơ sở đó, bài toán dóng hàng câu song ngữ được

định nghĩa như sau.

NGÔN NGỮ HỌC TÍNH TOÁN: NHỮNG XU HƯỚNG MỚI, TRIỂN VỌNG VÀ THÁCH THỨC | 407

...................................................................................................................................................................................

Cho S là một văn bản gồm n câu của ngôn ngữ nguồn, và T là một văn bản gồm m câu

của ngôn ngữ đích, và giả sử rằng S và T là bản dịch của nhau:

𝑆 = 𝑠1, 𝑠2, 𝑠3, … , 𝑠𝑛

𝑇 = 𝑡1, 𝑡2, 𝑡3, … , 𝑡𝑚

Cho p là một cặp phân đoạn tương ứng tối thiểu trong văn bản S và T. Giả sử p gồm x

câu sa−x+1, ..., sa trong tập S và y câu tb−y+1,..., tb trong T và được ký hiệu như sau:

𝑝 = ⟨𝑎, 𝑥; 𝑏, 𝑦⟩

Cặp phân đoạn tương ứng tối thiểu trong các văn bản song ngữ được gọi là bead. Sau

đó, các câu trong văn bản song ngữ của S và T được dóng hàng thành một chuỗi P của các

bead:

𝑃 = 𝑝1, 𝑝2, 𝑝3, … , 𝑝𝑘

4.3. Tính điểm của bead

Điểm của một bead có thể được tính theo công thức sau:

ℎ(𝑝)=𝑛𝑠𝑡(𝑝)

𝑛𝑠(𝑎, 𝑥)+ 𝑛𝑡(𝑏, 𝑦)

trong đó:

ns(a, x): số lượng thực từ trong dãy câu sa−x+1, ..., sa

nt(b, y): số lượng thực từ trong dãy câu tb−y+1,..., tb

nst(p): số cặp từ tương ứng trong bead hiện tại.

Trước nhất, các câu được phân tách thành dãy các từ đơn và chuẩn hóa thanh dấu. Mặc

dù về lý thuyết mỗi câu chỉ tách lấy những thực từ nhưng trong mô hình của bài viết lại chỉ

tách thành các từ đơn lẻ bởi sự thiếu sót về mặt kỹ thuật, tuy vậy điều này không tạo thành ảnh

hưởng tiêu cực quá lớn đối với kết quả dóng hàng câu. Nguyên nhân là do tự điển chính

(ThiVien[3]) hoàn toàn là bản dịch phiên âm của các ký tự qua phiên bản Hán Việt, do đó

phần dịch chỉ bao gồm duy nhất một từ đơn khiến cho việc dùng tự điển này không bị ảnh

hưởng. Về phần tự điển bổ sung tập trung vào bản dịch ngữ nghĩa, bởi vậy sẽ có những nghĩa

gồm nhiều từ đơn. Để giảm thiểu tác động tiêu cực, mô hình của chúng tôi có cài đặt một phần

phụ để tạo thêm từ bằng cách ghép hai từ đơn liền kề trong câu ở ngôn ngữ đích để tạo thành

một từ mới và đặt vào dãy các từ cần phải xét trong quá trình tính điểm.

Thành tố quan trọng nhất của công thức là nst(p) - số lượng các cặp tương ứng. Một

cặp được coi là hợp lệ nếu nó được tìm thấy trong từ điển. Vấn đề ghép cặp này có thể được

mô hình hóa như bài toán Cặp ghép cực đại trên đồ thị không trọng, bằng cách xem mỗi từ

trong tập cần xét thành một nút của đồ thị, tập từ của bộ S không có điểm giao với tập từ của

bộ T tạo thành độ thị hai phía, cạnh nôi của đồ thị được định nghĩa bằng các bộ từ có trong từ

điển được sử dụng. Mô hình của chúng tôi sử dụng thuật toán Kuhn, một chương trình con

trong thuật toán Hungary, để giải quyết vấn đề ghép cặp này. Độ phức tạp về mặt thời gian

Phương pháp dóng hàng câu tự động cho văn bản Trung Quốc cổ điển - Việt Nam hiện đại

Bài viết trình bày nghiên cứu phương pháp dóng hàng câu tự động Hán cổ-Việt hiện đại dựa trên từ điển, đạt độ chính xác cao (71.92%-82.87%), hỗ trợ NLP & bảo tồn văn hóa.

Chủ đề:

Tài liệu liên quan

Tài liêu mới

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi