
NGÔN NGỮ HỌC TÍNH TOÁN: NHỮNG XU HƯỚNG MỚI, TRIỂN VỌNG VÀ THÁCH THỨC | 383
...................................................................................................................................................................................
TĂNG CƯỜNG HIỆU NĂNG ĐẶT DẤU CÂU
TRONG CÂU ĐỐI HÁN VIỆT QUA VIỆC TẬN DỤNG
TÀI NGUYÊN HÁN NGỮ
HOÀNG THẾ ANH* - ĐẶNG HOÀNG NHẬT HƯNG**
Tóm tắt: Việc đặt dấu câu trong các câu đối là một thách thức lớn do ảnh hưởng từ
ngữ pháp và cú pháp phức tạp của tiếng Hán cổ. Bằng cách tận dụng tài nguyên ngôn ngữ Hán
cổ của Trung Quốc, chúng tôi đề xuất phương pháp kết hợp mô hình BERT, BiLSTM và CRF
để tăng cường hiệu quả đặt dấu câu trong câu đối Hán-Việt. Kết quả thí nghiệm cho thấy mô
hình BERT-BiLSTM-CRF vượt trội về độ chính xác so với các mô hình truyền thống trước
đây. Về ý nghĩa, nghiên cứu này nhằm mục đích tăng cường hiệu quả xử lý tự động câu đối
Hán Việt, giúp phục vụ các bài toán NLP khác trên miền văn bản này như dịch nghĩa, nhận
diện thực thể chứa tên tốt hơn, góp phần bảo tồn và lan truyền những giá trị văn hóa và lịch sử
của chúng.
Từ khóa: Câu đối Hán-Việt, đặt dấu câu, BERT, BiLSMT, CRF, xử lý ngôn ngữ tự
nhiên
I. GIỚI THIỆU
Đi suốt ngàn năm văn hiến, câu đối đã là một thể loại quan trọng trong cả văn học
Trung Quốc và Việt Nam. Dù chỉ tóm gọn vỏn vẹn trong hai câu, câu đối được sáng tác vô
cùng tỉ mỉ với những quy tắc nghiêm ngặt về vần, thanh điệu và đối ngẫu, tạo nên một tổng
thể hài hòa và cân đối.
Trong quá trình nghiên cứu và dịch thuật câu đối, việc đặt dấu câu chính xác đóng vai
trò rất quan trọng. Đặt dấu câu giúp ngắt một câu thành các cụm từ, mệnh đề hợp lý, giúp
người đọc dễ dàng hơn trong việc hiểu đúng ý nghĩa của câu đối.
Tầm quan trọng của việc đặt dấu câu chính xác có thể thấy qua hai câu đối trích từ sách
“5000 Hoành Phi Câu Đối Hn Nôm” của tác giả Trần Lê Sáng [1]:
帝軫臣私甫得歸,奈不久得養
天奪母壽經此愛,即亦同此悲
Phiên âm:
Đế chn thần tư phủ đắc qui, nại bất cửu đắc dưng
Thiên đoạt mẫu thọ kinh thử biến, tức diệc đồng thử bi
* Trường Đại học Khoa học Tự nhiên - ĐHQG TP. HCM, Email: htanh21@apcs.fitus.edu.vn
** Trường Đại học Khoa học Tự nhiên - ĐHQG TP. HCM, Email: dhnhung21@apcs.fitus.edu.vn

384 | KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2024
...................................................................................................................................................................................
Và câu:
遇亦甚難哉,慷慨先已駙馬子
神當不沒矣,悽愴長在升龍聞
Phiên âm:
Ngộ diệc thậm nan tai, khảng khi tiên dĩ phò m tử
Thần đương bất một hĩ, thê thương trường tại Thăng Long môn
Ở ví dụ trên, ta có thể thấy rằng cách ngắt nhịp có thể khác nhau trên những câu đối có
cùng một độ dài. Cả hai câu đối trên đều có số chữ là 12, tuy nhiên, ở câu thứ nhất, vị trí ngắt
ngay ở ký tự thứ 7, còn câu thứ hai lại có vị trí ngắt ở ký tự thứ 5. Từ đó, ta có thể thấy và việc
biết được chỗ ngắt sẽ giúp việc đọc và hiểu ý nghĩa câu đối trở nên dễ dàng hơn. Ngoài việc
giúp cho người đọc, đặc biệt là những người không quen thuộc với tiếng Hán cổ, có thể dễ
dàng tiếp thu, nắm bắt được ý nghĩa của những câu đối, việc ngắt nhịp hợp lý còn góp phần
cải thiện một số tác vụ trong xử lý ngôn ngữ tự nhiên (NLP) như dịch máy, nhận diện thực thể
chứa tên,...
Hiểu được tầm quan trọng của việc đặt dấu câu, chúng tôi đã tiến hành nghiên cứu và
cải thiện hiệu quả đặt dấu câu trong miền câu đối Việt Nam. Đầu tiên, ở phần II, chúng tôi sẽ
xem xét các công trình nghiên cứu liên quan, đánh giá các công cụ, mô hình hiện có để xác
định các vấn đề mà nghiên cứu này muốn khắc phục. Sau đó, ở phần III, chúng tôi sẽ trình bày
các phương pháp sẽ sử dụng, và làm rõ vai trò của chúng trong nghiên cứu. Phần phương pháp
sẽ đi từ cách chúng tôi thu thập dữ liệu để huấn luyện và kiểm thử, cách tích hợp tài nguyên
tiếng Trung với câu đối Việt Nam, đến áp dụng các mô hình để giải quyết tác vụ này. Tiếp
theo, ở phần IV, chúng tôi sẽ trình bày kết quả thí nghiệm, đánh giá hiệu quả của các phương
pháp đã đề xuất. Từ đó, thảo luận những phát hiện này trong mối tương quan với các nghiên
cứu trước đây và mục tiêu của nghiên cứu ở phần VI. Phần VII sẽ tóm tắt các phát hiện chính,
nhấn mạnh những đóng góp của nghiên cứu và tác động của nó đối với việc bảo tồn kho tàng
câu đối Việt Nam.
II. NHỮNG NGHIÊN CỨU LIÊN QUAN
Đầu tiên phải nói đến Jiayan [2]. Bằng việc sử dụng mô hình xác suất, cách tiếp cận
của Jiayan phản ánh khả năng giải quyết những thách thức đặc trưng của văn bản Hán cổ, cung
cấp một giải pháp gọn nhẹ cho các nhiệm vụ tiền xử lý.
Cũng với mô hình xác suất, Xue và Yang [3] đã đề xuất cách tiếp cận độc đáo cho việc
đặt dấu câu tiếng Trung. Họ chuyển bài toán ban đầu thành bài toán phân loại dấu phẩy: Dấu
phẩy dùng để đánh dấu sự kết thúc của một câu và dấu phẩy dùng để tách các mệnh đề trong
cùng một câu. Nghiên cứu của họ cũng cho thấy rằng cần có những phương pháp đặc thù hơn
khi xử lý văn bản Hán cổ, khi dấu câu và cấu trúc câu có nhiều khác biệt.

NGÔN NGỮ HỌC TÍNH TOÁN: NHỮNG XU HƯỚNG MỚI, TRIỂN VỌNG VÀ THÁCH THỨC | 385
...................................................................................................................................................................................
Gần đây, các phương pháp mạng nơ-ron, như nghiên cứu của Xiaochen(ray) Zhang
[4], đã đạt được nhiều kết quả khả quan trong tác vụ đặt dấu câu. Các mô hình dựa trên học
sâu được phát triển để xử lý các cấu trúc văn bản phức tạp và bộ dữ liệu lớn, nhưng không
hoàn toàn phù hợp với đặc thù của Hán cổ hoặc văn bản ngắn như câu đối.
Hiện tại, theo hiểu biết của chúng tôi, chưa có nghiên cứu nào tập trung vào việc đặt
dấu câu trên câu đối Việt Nam viết bằng Hán cổ. Phần lớn các nghiên cứu hiện có hướng tới
văn bản tiếng Trung hiện đại hoặc các tài liệu dài, để lại một khoảng trống trong nghiên cứu
về câu đối Hán cổ của Việt Nam. Vì vậy, chúng tôi hướng đến việc lấp đầy khoảng trống đó
bằng cách đề xuất các phương pháp mới, phù hợp với việc đặt dấu câu trên hai vế của những
câu đối viết bằng Hán cổ, đóng góp cho lĩnh vực nghiên cứu chuyên sâu này.
III. CƠ SỞ LÝ THUYẾT
1. Mô hình Bidirectional Encoder Representations from Transformers (BERT)
Một trong những thách thức lớn của lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) là hiểu
được ý nghĩa dựa vào ngữ cảnh của từ. Xem xét câu “Con ngựa đ con ngựa đ”, từ “đ” đầu
tiên và từ “đ” thứ hai có ý nghĩa hoàn toàn khác nhau (hành động “đ” và tính chất “làm từ
đ”). Vào năm 2018, BERT đã được Jacob Devlin và đồng nghiệp tại Google AI công bố [5],
và là một bước tiến quan trọng trong lĩnh vực NLP. Trước BERT, nhiều mô hình như
Word2Vec [6], GloVe [7], và ELMo [8] cung cấp cách véc-tơ từ có giá trị, nhưng thường
không nắm bắt được hết sự phức tạp của ngôn ngữ. Khác với các mô hình đó, BERT cung cấp
khả năng hiểu được ngữ cảnh thông qua các lớp Transformer cùng với cơ chế tự chú ý (self-
attention). Ngoài ra, khả năng fine-tune của BERT đã tạo nên nhiều bước tiến vượt bậc cho
nhiều tác vụ như trả lời câu hỏi, nhận diện thực thể, phân loại văn bản, v.v. [5, 9, 10]
2. Mô hình Bidirectional Long Short-Term Memory (BiLSTM)
BiLSTM là một kiến trục mạng nơ-ron mở rộng từ mô hình LSTM (Long Short-Term
Memory) nhằm nắm bắt thông tin từ cả hai chiều trong một chuỗi. LSTMS, được Hochreiter
và Schmidhuber giới thiệu vào năm 1997, giúp giải quyết vấn đề “phụ thuộc dài hạn” trong
các dữ liệu tuần tự [11]. Tuy nhiên, LSTM chỉ xử lý thông tin theo một hướng - từ quá khứ
đến tương lai, gây ra nhiều hạn chế trong các tác vụ NLP, khi mà ý nghĩa của một từ phụ thuộc
vào cả từ phía trước và sau. BiLSTM ra đời nhằm khắc phục hạn chế này bằng cách kết hợp
hai LSTM: một LSTM xử lý chuỗi dữ liệu theo hướng xuôi và một LSTM xử lý theo hướng
ngược lại; giúp nó có thể nắm bắt thông tin ngữ cảnh từ cả hai hướng [12].
3. Conditional Random Field (CRF)
CRF được John Lafferty, Andrew McCallum, và Fernando Pereira giới thiệu vào năm
2001, là một loại mô hình xác suất được thiết kế cho các bài toán dự đoán cấu trúc trong xử lý
ngôn ngữ tự nhiên. CRF đặc biệt phù hợp với các tác vụ mà nhãn đầu ra có tính liên hệ mật
thiết với nhau [13]. CRF giải quyết vấn đề này bằng cách mô hình hóa xác suất có điều kiện
của nhãn đầu ra dựa trên chuỗi đầu vào, cho phép tập trung vào mối liên hệ giữa các nhãn mà

386 | KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2024
...................................................................................................................................................................................
không cần giả định sự độc lập giữa các đặc trưng đầu vào. Điều này giúp CRF nắm bắt tốt hơn
các phụ thuộc ngữ cảnh và cấu trúc toàn cục trong dữ liệu. Từ đó, khi ứng dụng vào các bài
toán gán nhãn tuần tự (sequence labeling), CRF có thể đảm bảo rằng các nhãn được gán nhất
quán trên toàn bộ chuỗi.
IV. PHƯƠNG PHÁP VÀ DỮ LIỆU
1. Phương pháp
Xét từ thực tế kho tàng câu đối Việt Nam ta ít nhiều chịu ảnh hưởng từ văn học Trung
Quốc, tận dụng nguồn tài nguyên tiếng Trung to lớn có thể cải thiện độ chính xác của các tác
vụ này một cách đáng kể. Cụ thể hơn, phương pháp của chúng tôi tận dụng mô hình BERT
huấn luyện sẵn, tên là bert-ancient-chinese [14], kết hợp với mạng BiLSTM và lớp CRF. Tổng
quan về phương pháp của chúng tôi được mô hình hóa ở Hình IV.1. Phương pháp này khai
thác được cả sự phong phú về ngữ cảnh của BERT lẫn khả năng mô hình hóa chuỗi của
BiLSTM và CRF, đã được tối ưu hóa cho các câu đối chữ Hán cổ.
Hình IV.1 Sơ đồ cấu trúc mô hình BERT-BiLSTM-CRF cho tác vụ đặt dấu câu trên câu đối [15]
Mỗi câu trong cặp câu đối được xử lý và dự đoán dấu câu độc lập trước. Sau đó, để
đảm bảo tính đối xứng vốn có của câu đối, chúng tôi kết hợp kết quả dấu câu từ cả hai câu,
đảm bảo cấu trúc tổng thể tuân thủ tính chất đối ngẫu của câu đối Hán cổ, giúp cải thiện hiệu
suất bằng cách tinh chỉnh vị trí phân đoạn trong câu thông qua sự tương hỗ giữa hai câu.

NGÔN NGỮ HỌC TÍNH TOÁN: NHỮNG XU HƯỚNG MỚI, TRIỂN VỌNG VÀ THÁCH THỨC | 387
...................................................................................................................................................................................
Đầu tiên, chúng tôi sử dụng mô hình bert-ancient-chinese để thu được các véc-tơ từ
ngữ (word embeddings) từ dữ liệu câu đối đầu vào. Những véc-tơ này nắm bắt thông tin ngữ
cảnh một cách chi tiết, bao gồm cả các đặc điểm phức tạp trong cấu trúc ngôn ngữ Hán cổ.
Tiếp theo, các véc-tơ từ ngữ được đưa vào một lớp BiLSTM để mô hình có thể nắm
bắt được các mối quan hệ phụ thuộc dài hạn trong chuỗi. Vì câu đối thường mang tính chất
văn thơ, nên việc mô hình biết được các quan hệ phụ thuộc về phía trước lẫn phía sau là rất
cần thiết. Cuối cùng, chúng tôi sử dụng lớp CRF để dự đoán các chỗ đặt nhằm đảm bảo rằng
chuỗi dự đoán cuối cùng nhất quán và đúng ngữ pháp.
2. Dữ liệu
2.1. Tổng quan và tiền xử lý
Trong nghiên cứu này, chúng tôi sử dụng hai bộ dữ liệu riêng biệt: một bộ dữ liệu câu
đối từ Trung Quốc để huấn luyện và một bộ dữ liệu câu đối chữ Hán của Việt Nam được số
hóa từ quyển sách của tác giả Trần Lê Sáng [1] để kiểm nghiệm.
Bộ dữ liệu huấn luyện được lấy từ một kho tàng mở về các câu đối tiếng Trung, bao
gồm các câu đối thượng-hạ liên [16]. Đây là một dữ liệu khá lớn, lên đến 700 nghìn câu, tuy
nhiên, chúng tôi chỉ sử dụng 10 nghìn câu đầu tiên làm dữ liệu huấn luyện phục vụ cho nghiên
cứu. Việc chọn 10 nghìn câu giúp cho phương pháp của chúng tôi không tốn quá nhiều thời
gian cho việc huấn luyện mô hình, đồng thời đảm bảo độ lớn của bộ dữ liệu nhằm phục vụ cho
việc fine-tune trên mô hình ngôn ngữ BERT.
Để đánh giá mô hình, chúng tôi sử dụng một bộ dữ liệu được trích xuất từ cuốn “5.000
Hoành Phi Câu Đối Hn Nôm”, một bộ sưu tập câu đối được viết bằng chữ Hán Nôm. Về
tổng thể, bộ dữ liệu này có tổng cộng 4.643 câu đối Hán với phần còn lại là câu đối Nôm cùng
với hoành phi. Để có thể sử dụng được bộ dữ liệu này, chúng tôi đã thực hiện số hóa cuốn sách
này thông qua một ứng dụng nhận dạng kí tự quang học (OCR). Tuy nhiên, điều này gây ra
một số thách thức như lỗi nhận dạng, định dạng không chuẩn và chất lượng văn bản suy giảm.
Để giảm thiểu các vấn đề này, chúng tôi đã tiến hành tinh chỉnh, làm sạch dữ liệu bằng cách
đối chiếu văn bản số hóa với bản gốc. Cụ thể, khi các ký tự Hán bị thiếu hoặc nhận dạng sai,
chúng tôi chỉnh sửa thủ công dựa trên các từ tiếng Việt tương ứng trong câu đối. Tương tự,
khi các từ tiếng Việt bị thiếu hoặc không rõ, chúng tôi dựa vào các ký tự Hán tương ứng để
khôi phục. Quá trình này đảm bảo tập dữ liệu đạt độ chính xác cao nhất có thể, giảm thiểu ảnh
hưởng của các lỗi OCR trong quá trình đánh giá mô hình, đồng thời giữ nguyên được tính toàn
vẹn của các câu đối gốc.
2.2. Lựa chọn tập nhãn
Nhận thấy những điểm mạnh từ nghiên cứu của Xue và Yang [3] và những đặc trưng
của câu đối cổ, chúng tôi đã định nghĩa bộ gán nhãn chỉ gồm hai nhãn: [PUNC] và [NONE].
Cụ thể, thường các câu đối cổ chỉ sử dụng những dấu câu đơn giản, dấu phẩy dùng để ngắt
trên từng dòng, và dấu chấm để kết thúc câu. Do đó, việc áp dụng bộ gán nhãn phức tạp với