434 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
ỚC ĐẦU TÍCH HP TRI THC NHỊP THƠ
VÀO MÔ HÌNH DỊCH NGHĨA TỰ ĐNG
THƠ CHỮ HÁN VIT NAM SANG TING VIT HIỆN ĐẠI
THÁI HOÀNG LÂM* - ĐINH ĐIỀN**
Tóm tt: Thơ chữ Hán Vit Nam nhng thi phẩm được các thi gia Vit Nam sáng
tác bng ch Hán trong nhng thế k trước. Vi thế h người Vit hin nay, gii nhng
tác phm này sang tiếng Vit hiện đại là mt trong nhng nhim v cp thiết nhm bo tn và
phát huy những cái hay, cái đẹp ca các bc tiền nhân khi văn t Hán c đã không còn là
h ch viết chính thc Việt Nam. Đứng trước nhim v y, các nhà nghiên cu ngôn ng
học máy tính đang dần đưa ra những mô hình t đng hoá vic gii mã t tác v s hoá, phiên
âm cho đến dịch nghĩa, trong đó dịch nghĩa vẫn là mt bài toán thách thc nht. Trong nghiên
cu này, da trên tri thc v nhp mt trong những đặc trưng cơ bản của thơ, chúng tôi bước
đầu đưa ra phương pháp tích hợp tri thc nhp vào hình dịch nghĩa tự động vi kiến trúc
Transformer. Kết qu nghiên cu cho thy, tri thc v nhp có nhiều tác động đến đến tác v
dịch nghĩa thông qua việc ci thin chất lượng dịch. Đây sẽ động lực để thc hin các nghiên
cứu sâu hơn cho việc ngt nhịp thơ t động để h tr cho bài toán dịch nghĩa tự động Hán thi
Vit Nam sang tiếng Vit hiện đại.
T khóa: Thơ chữ Hán Vit Nam, dịch nghĩa tự động, nhịp thơ, tri thức ngôn ng,
Transformer.
1. GIỚI THIỆU
Từ gia thế kỷ XX về trước, cùng sử dụng chữ Hán để sáng tác văn chương nhưng
Hán văn Việt Nam lại mang những nét đặc thù so với Hán văn của Trung Quốc các nước
từng đồng văn khác. Bởi lẽ, ánh sáng văn hoá, truyền thống của người Việt đã khiến những
áng thơ chữ Hán ấy mang trong hình hơi thở của ngôn ngữ Việt, dáng vóc của non sông Việt
Nam đồng thi phản ánh những biến đổi thăng trầm của hội Việt Nam trong quá khứ
[1]. Nói cách khác, văn học chữ Hán Việt Nam cht cha những “cái riêng” giữa “cái chung”
của nền văn học văn tự Hán, như cách Trần Ngọc Vương [2] nói về văn học Việt Nam, đó
“dòng riêng giữa nguồn chung”. Lấy dụ nét riêng về mặt ngôn ngữ, ngoài vốn từ Hán chung,
người Việt chúng ta còn sáng tạo ra những từ Hán Việt không trong từ điển tiếng Hán
sử dụng làm chất liệu cho tác phẩm văn chương ch Hán như thủy triều (水潮), phù sa (浮沙
)[3]Ngoài ra, hệ thống danh từ riêng chỉ nhân danh, địa danh của Việt Nam cũng là những
đặc trưng riêng trong ngôn ngữ thơ chữ Hán Việt Nam.
* Trường Đại hc Khoa hc T nhiên, ĐHQG TP. HCM; Email: lamhoangthai.work@gmail.com
** PGS. TS, Trường Đại hc Khoa hc T nhiên, ĐHQG TP. HCM; Email: ddien@fit.hcmus.edu.vn
NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 435
...................................................................................................................................................................................
Chính vì vậy, dịch Hán - Việt tuy là một bài toán quá đỗi quen thuộc đối với lĩnh vực
ngôn ngữ học máy tính nhưng các công cụ dịch tự động ngôn ngữ Hán - Việt hiện đại như
Google dịch hay thậm chí ChatGPT cũng khó giải tốt miền n bản Hán thi Việt
Nam. Đó là chưa kể, dịch ngôn ngữ văn chương vẫn là một tác vụ khó nhằn đối với máy tính
tính hàm súc, tinh tế phức tạp. Hơn nữa, khó khăn nối tiếp khó khăn khi những tác phẩm
này còn được viết bằng ngôn ngữ Hán cổ với thvăn ngôn, dẫn đến tình trạng khan hiếm
nguồn ngữ liệu song song. Từ thực trạng như thế, việc xây dựng một mô hình riêng cho việc
phiên dịch Hán thi Việt Nam sang tiếng Việt hiện đại cần thiết. Chúng tôi tạm gọi cặp cặp
ngôn ngữ này là Việt Hán thi - Việt hiện đại (VHT - Vi). Trong đó, Việt Hán thi là ngôn ngữ
nguồn (thơ chữ Hán Việt Nam) ngôn ngữ đích tiếng Việt hiện đại. đây, chúng ta cần
lưu ý rằng dịch Hán thi nhiều phương pháp tương ứng với các bản dịch khác nhau, điển
hình là dịch thơ và dịch nghĩa. So với dịch thơ cần giữ được các vấn đề về hình thức thơ như
vần, niêm, nhịp,… nhưng đôi khi lại không đủ để làm rõ ý nghĩa của câu thơ thì dịch nghĩa tập
trung vào việc diễn đạt sao cho đầy đủ và dễ hiểu ý tứ của câu thơ, bài thơ [1]. Vì vậy, nghiên
cứu của chúng tôi chọn bản dịch nghĩa cho ngôn ngữ đích như các nghiên cứu trước đó [11
,12].
Như các bài toán trí tuệ nhân tạo khác, để có mộthình dịch nghĩa tốt, chúng ta
thể tiếp cận theo 2 hướng: một tập trung vào hình (model-centric), hai là tập trung vào
dữ liệu (data-centic). Với thực trạng thiếu thốn một nguồn ngữ liệu song song đủ tốt cho cặp
ngôn ngữ VHT-Vi, chúng tôi thiết nghĩ, một mô hình tiên tiến, phức tạp lên đến hàng tỷ tham
số, đòi hỏi lượng dliệu huấn luyện đủ lớn sẽ chưa phù hợp với cặp ngôn ngữ y. Vì vậy,
chúng tôi đã đi theo hướng data-centric, với mục tiêu tạo ra một bộ ngữ liệu ngày một tốt hơn
để nâng cao chất lượng dịch. Để làm được điều này, chúng tôi đã tiến hành tích hợp thêm các
tri thức ngôn ngữ và biểu diễn những tri thức này trên chính kho ngữ liệu huấn luyện. Bởi lẽ,
chúng ta biết rằng bản chất của học máy (Machine Learning) chính tìm ra những quy luật
từ những mẫu dữ liệu được học để dự đoán khi gặp một mẫu dữ liệu mới, nhưng khi dữ liệu
không đủ nhiều, các thuật toán học chưa thể nhận dạng ra đầy đủ các quy luật thì khi này việc
tích hợp tri thức ngôn ngữ chính là một cách để hỗ trợ máy “chú ý” đến những quy luật ngôn
ngữ này, từ đó tăng cường khả năng dự đoán.
Trong khuôn khổ của nghiên này, chúng tôi chọn tích hợp tri thức về nhịp - một trong
những đặc trưng bản khi nhắc đến hình thức của thơ. Nhịp thơ thuộc vào phạm trù ngữ
pháp của thơ, không chỉ nằm hình thức, nhịp thơ mối liên hệ chặt chẽ đến nội dung câu
thơ, do đó ảnh hưởng trực tiếp đến sự bảo toàn ngữ nghĩa khi chuyển dịch thơ chữ Hán sang
tiếng Việt hiện đại. vậy, câu hỏi nghiên cứu chúng tôi muốn đặt ra chất lượng dịch
nghĩa thơ chữ Hán Việt Nam sang tiếng Việt hiện đại sẽ ảnh hưởng như thếo tri ch hợp tri
thức về nhịp thơ vào ngữ liệu huấn luyện? Việc tích hợp tri thức này không hề đơn giản, nên
436 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
trong nghiên cứu này chúng tôi chỉ bước đầu tích hợp nhịp thơ bằng cách dựa trên thông tin
về thể loại ca bài thơ.
Các đóng góp chính của nghiên cứu này:
- Đưa ra phương pháp tích hợp nhịp thơ vào hình dịch nghĩa VHT - Vi hiệu quả
thông qua ngữ liệu huấn luyện.
- Cải thiện chất lượng hình dịch nghĩa thơ văn chữ Hán Việt Nam sang tiếng Việt
hiện đại thông qua việc lựa chọn cách tích hợp nhịp thơ phù hợp nhất.
Phần còn lại của bài báo được tổ chức như sau: tác giả trình bày ngắn gọn sở
thuyết về nhịp trong thơ chữ Hán mục 2; mục 3, tác giả tóm tắt một số nghiên cứu liên
quan đến đề tài; bài báo đưa ra phương pháp tích hợp tri thức nhịp thơ vào mô hình thông qua
kho ngữ liệu huấn luyện mục 4; mục 5 nơi tác giả cung cấp các kết quả thực nghiệm và
phân tích; cuối cùng tác giả tóm tắt kết quả nghiên cứu đưa ra hướng tiếp cận tương lai
mục 6.
2. CƠ SỞ LÝ THUYẾT
Nhịp là một trong những đặc trưng cơ bản của thể loại thơ ca, “còn là một phương tiện
ngữ pháp của thơ” (theo Nguyễn Thế Lịch) [4]. Định nghĩa về nhịp trong thơ nhiều quan
điểm khác nhau, theo nghiên cứu của Vũ Thị Sao Chi, “nhịp” là một nhân tố của “nhịp điệu”
(bên cạnh nhân tố còn lại “điệu”) được định nghĩa như sau: “Nhịp những đoạn âm
thanh (nhóm các âm tiết) trong chuỗi ngôn từ được “cắt” ra bởi những khoảng ngừng (ngắt)
ổn định. Một nhịp được đánh dấu bằng đoạn âm thanh giữa hai khoảng ngừng.” [5]. Như vậy,
nếu đơn vị là một bài thơ, thì cuối mỗi dòng thơ sẽ có một khoảng ngừng được xem như một
nhịp và bên trong nội tại từng dòng thơ có thể có thêm những nhịp nhỏ hơn tương ứng với các
tổ hợp âm tiết (trong thơ chữ Hán một hay nhiều chữ Hán) và tổ hợp này “phải đảm bảo ít
nhất một cấu trúc cú pháp và ngữ nghĩa nhất định” [5]. Vì vậy, việc ngắt nhịp nhơ không phải
vấn đề đơn giản chỉ nằm bề mặt âm thanh còn tác động đến ngữ nghĩa của câu thơ.
Điều y cũng trùng khớp với ý kiến của các nhà nghiên cứu ngôn ngữ nMai Ngọc Chừ
[6], Nguyễn Thế Lịch [4]. Đối với thơ chữ Hán Việt Nam, để lấy dụ vấn đề nhịp thơ tác
động đến ngữ nghĩa, chúng ta quan sát cách ngắt nhịp được trong câu đầu của bài thơ “Nam
quốc sơn hà” (Lý Thường Kiệt?) như sau:
Cách ngắt đúng: “南國山河 / 南帝居”(Nam quốc sơn hà / Nam đế cư)
Cách ngắt sai: “南國山 / 河南帝居”(Nam quốc sơn / hà Nam đế cư)
NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 437
...................................................................................................................................................................................
Ta thấy rằng với cách ngắt đúng theo nhịp 4/3 (của thể thơ thất ngôn tứ tuyệt) thì câu
thơ được dịch nghĩa thành “Núi sông nước Nam thì vua Nam ở” (theo Thơ văn -Trần tập I
[7]). Nhưng nếu câu thơ bị ngắt nhịp sai thành 3/4, thì rõ ràng rất dễ bị hiểu nhầm thành “Núi
nước Nam, vua Hà Nam ở”, bởi lẽ Hà Nam vốnmột địa danh (một thực thể có tên) và nếu
đưa câu thơ chữ Hán với cách ngắt nhịp sai này cho người chưa tiếp xúc qua bài thơ “Nam
quốc sơn hà” hay máy tính thì thể sbị dịch sai nghĩa. Chúng tôi thử dùng -đun dịch
Hán văn cổ của phần mềm Microsoft Translator được tích hợp trong Microsoft Excel để dịch
câu thơ trên thì kết quả như sau:
Hình 1: Bản dịch câu thơ đầu trong bài “Nam quốc sơn hà” của Microsoft Translator
(bản dịch ngày 3/10/2024)
Đúng như dự đoán, y đã dịch sai câu thơ này với việc xem “Hà Nam” là một danh
từ riêng điều y cũng chứng tỏ phần mềm dịch cũng đã nhận dạng sai nhịp của câu thơ.
vậy, nhịp thơ một tri thức quan trọng đối với việc giải văn chương chữ Hán nên
được tích hợp vào máy tính.
Nhịp thơ thường được quy định theo luật thơ ổn định đối với một số thể loại [5],
đặc biệt là các thể thơ c phỏng theo thể thơ chữ Hán Trung Hoa. Ví dụ, thể thơ thất ngôn
(mỗi câu 7 chữ) thể được ngắt nhịp thành 4/3, 2/2/3 hay 2/2/2/1 [9]. Tuy nhiên vẫn những
trường hợp ngoại lệ như câu thơ thứ 7 trong bài thơ “Độc Tiểu Thanh Ký” - Nguyễn Du:
知三百餘年後”(Bất tri tam bách niên hậu) nên được ngắt theo nhịp 2/5 để đúng với kết
cấu động - tân của câu thơ thay vì nhịp 4/3 thông thường của thể thất ngôn [8].
Trong khuôn khổ của nghiên cứu y, chúng tôi dừng lại việc ngắt nhịp dựa vào
thông tin thể loại của bài thơ, nghĩa là tách nhịp câu thơ theo nhịp thông dụng tương ứng với
thể loại đó mà chưa xét đến những trường hợp ngoại lệ phải ngắt dựa trên ngữ pháp, ngữ nghĩa
438 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
của câu thơ. Dưới đây là nhịp thông dụng của một số thể loại thơ chữ Hán Việt Nam (các thể
loại nàyphỏng theo thể thơ của Trung Hoa) mà chúng tôi sẽ áp dụng cho kho ngữ liệu của
mình:
Thất ngôn (bao gồm tứ tuyệt, bát cú, cổ phong): 4/3 , 2/2/3, 2/2/2/1 [9]
Ngũ ngôn (bao gồm tứ tuyệt, bát cú, cổ phong): 2/3 [9]
3. NHỮNG NGHIÊN CỨU LIÊN QUAN
Về kho ngữ liệu song song Hán văn Việt Nam chú thích vthể loại (thông tin đ
suy ra nhịp thơ) thì có thể kể đến công trình của Thái Hoàng Lâm và các cộng sự (2023) [10].
Công trình này đã xây dựng tự động khoảng 4000 bài thơ Hán của Việt Nam bản dịch nghĩa
tiếng Việt, trong đó 3 thể loại có số lượng bài thơ nhiều nhất lần lượt là: Thất ngôn bát cú, thất
ngôn tứ tuyệt ngũ ngôn bát cú. Kho ngữ liệu y quả hữu ích để xây dựng các hình
dịch nghĩa tự động, đặc biệt là thông tin về thể loại giúp ích cho việc tách nhịp thơ.
Về dịch nghĩa tự động Hán văn Việt Nam sang tiếng Việt hiện đại nói chung thể
loại thơ ca nói riêng vẫn một đề tài khá mới chưa nhiều nghiên cứu chuyên sâu về
hướng này. Gần đây, với sự chú ý vào những điểm dị biệt giữa Hán văn Việt Nam và Trung
Quốc, một số bài báo nghiên cứu trong nước về vấn đề y đã được công bố. Cụ thể, thể
nói công trình của Thái Hoàng Lâm và Đinh Điền (2023) [11] đã tiên phong với hướng nghiên
cứu y. Các tác giả đã xây dựng một hình dịch nghĩa tự động sử dụng công nghệ Dịch
máy thống kê (Statistical Machine Translation - SMT) đạt được kết quả ban đầu là 8.61 điểm
BLEU tác giả cũng chứng minh được tuy kết quả chưa thực sự cao, nhưng hình vẫn
hiệu quả hơn các công cụ dch tự động có sẵn khác như Google Dịch, Microsoft Translator và
ChatGPT. Tiếp tục cải thiện mô hình dịch nghĩa tự động này, nhóm nghiên cứu y đã tiếp tục
trình bày báo cáo [12] tại hội nghị FAIR 2024 về một hình dịch nghĩa sử dụng kiến trúc
Transformer[13] và tích hợp tri thức về ngữ âm Hán Việt. Chất lượng dịch nghĩa tự động của
mô hình này đã cải thiện so với trước đó 1.34 điểm BLEU. Đây cũng là nghiên cứu làm động
lực để chúng tôi tiếp cận theo hướng tích hợp các tri thức ngôn ngữ vào mô hình dịch nghĩa tự
động, cụ thể hình Transformer hóa - giải [13]. Nếu nghiên cứu của nhóm Lâm
cộng sự đã tích hợp tri thức về bình diện ngữ âm thì trong nghiên cứu y chúng tôi tích
hợp tri thức về nhịp thơ - thuộc về bình diện ngữ pháp - ngữ nghĩa.
4. DỮ LIỆU VÀ PHƯƠNG PHÁP
4.1. Dữ liệu
Chúng tôi sử dụng lại kho ngữ liệu từ nghiên cứu của Lâm các cộng sự [12]. Kho
ngữ liệu đã được chia làm 4 tập: huấn luyện (train), tinh chỉnh (fine-tune), đánh giá (validation)
và kiểm tra (test). Trong đó, bộ ngữ liệu huấn luyện bao gồm cả các bài thơ chữ Hán của Việt
Nam và Trung Hoa có bản dịch nghĩa tiếng Việt, còn tập tinh chnh, đánh giá và tập kiểm tra
chỉ bao gồm thơ văn chữ Hán của Việt Nam. Tập tinh chnh thật chất tách ra từ tập huấn
luyện. Số liệu thống kê theo số dòng thơ như Bảng 1.