
NGÔN NGỮ HỌC TÍNH TOÁN: NHỮNG XU HƯỚNG MỚI, TRIỂN VỌNG VÀ THÁCH THỨC | 403
...................................................................................................................................................................................
PHƯƠNG PHÁP DÓNG HÀNG CÂU TỰ ĐỘNG CHO VĂN BẢN
TRUNG QUỐC CỔ ĐIỂN - VIỆT NAM HIỆN ĐẠI
VƯƠNG QUỐC PHONG* - LƯU VĂN PHÚC**
Tóm tắt: Việc khám phá giá trị lịch sử và văn hóa của ông cha là một công việc truyền
cảm hứng cho các thế hệ chúng ta. Tuy nhiên, để xử lý và khai thác kiến thức hiệu quả, cần
ứng dụng các kỹ thuật xử lý ngôn ngữ tự nhiên. Những cách tiếp cận này dẫn đến nhu cầu về
các ngữ liệu song song của cặp ngôn ngữ để huấn luyện các mô hình. Bài viết này trình bày
một cách tiếp cận dựa trên từ điển để dóng hàng các văn bản Hán cổ với tiếng Việt hiện đại
của chúng ở cấp độ câu, để giúp xây dựng ngữ liệu song song một cách hiệu quả hơn. Vì thế,
việc dóng hàng câu hiện tại cần được thực hiện hiệu quả hơn. Trong nhiều phương pháp dóng
hàng câu hiện tại, phương pháp dựa trên độ dài không hiệu quả cho cặp ngôn ngữ này, do thiếu
sự tương ứng về độ dài của cặp ngôn ngữ. Phương pháp dựa trên từ điển của chúng tôi, được
bổ sung bởi từ điển song ngữ tùy chỉnh, đạt được độ chính xác là 71,92% và 82,87%.
Từ khóa: Dóng hàng câu tự động, Văn bản Trung-Việt cổ điển, Hán Nôm, Xử lý ngôn
ngữ tự nhiên, phương pháp dựa trên từ điển.
1. GIỚI THIỆU
Trong lịch sử, ngôn ngữ và văn hóa cổ Việt Nam của chúng ta chịu ảnh hưởng nặng nề
của văn hóa Trung Quốc, nhất là về khía cạnh ngôn ngữ. Khi đề cập đến tiếng Hán cổ, chúng
ta thực sự đang đề cập đến ngôn ngữ Hán Nôm, một ngôn ngữ được sử dụng rộng rãi vào thời
điểm đó. Chữ viết của ngôn ngữ này dựa trên các ký tự Trung Quốc và kết hợp với một số tự
do tổ tiên của chúng ta sáng tạo ra. Kết quả là, một số lượng lớn các tài liệu trong các lĩnh vực
khác nhau, chẳng hạn như văn học, văn bản pháp lý... đã được thể hiện bằng cách sử dụng chữ
Hán Nôm. Thế hệ chúng ta được truyền cảm hứng để khám phá và nhận thức kiến thức trong
các văn bản này để giúp bảo tồn và lưu truyền những di sản lịch sử và văn hóa của đất nước
Việt Nam. Tuy nhiên, việc xử lý thủ công các văn bản Hán Nôm là vô cùng khó khăn, do tính
cổ xưa và phức tạp của ngôn ngữ. Những thách thức này hiện đang được giải quyết bằng cách
sử dụng các kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) và các mô hình ngôn ngữ lớn (LLM).
Những cách tiếp cận này đòi hỏi rất nhiều dữ liệu để đào tạo và thử nghiệm các mô hình, dẫn
đến nhu cầu về các bộ ngữ liệu song song giữa ngôn ngữ Hán Nôm và tiếng Việt hiện đại.
Việc có được một bộ ngữ liệu song song có thể được xem là một bước khởi đầu quan
trọng khi làm việc trong các ứng dụng liên quan đến ngôn ngữ tự nhiên, như dịch máy, khai
thác dữ liệu, v.v. Một bộ ngữ liệu song song chứa các văn bản song ngữ được dóng hàng theo
* Trường ĐH Khoa học Tự nhiên - ĐHQG TP. HCM; Email: 21125087@student.hcmus.edu.vn
** Trường ĐH Khoa học Tự nhiên - ĐHQG TP. HCM; Email: 21125089@student.hcmus.edu.vn