NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 383
...................................................................................................................................................................................
TĂNG CƯỜNG HIỆU NĂNG ĐẶT DU CÂU
TRONG CÂU ĐỐI HÁN VIT QUA VIC TN DNG
TÀI NGUYÊN HÁN NG
HOÀNG TH ANH* - ĐẶNG HOÀNG NHẬT HƯNG**
Tóm tt: Việc đặt dấu câu trong các câu đối mt thách thc ln do ảnh hưởng t
ng pháp và cú pháp phc tp ca tiếngn c. Bng cách tn dng tài nguyên ngôn ng Hán
c ca Trung Quốc, chúng tôi đề xuất phương pháp kết hp mô hình BERT, BiLSTM và CRF
để tăng cường hiu qu đặt dấu câu trong câu đối Hán-Vit. Kết qu thí nghim cho thy mô
hình BERT-BiLSTM-CRF vượt tri v độ chính xác so vi các hình truyn thống trước
đây. Về ý nghĩa, nghiên cứu này nhm mục đích tăng cường hiu qu x t động câu đi
Hán Vit, giúp phc v các bài toán NLP khác trên miền văn bản y như dịch nghĩa, nhận
din thc th cha tên tốt hơn, góp phần bo tn và lan truyn nhng giá tr văn hóa và lịch s
ca chúng.
T khóa: Câu đối Hán-Việt, đặt du câu, BERT, BiLSMT, CRF, x lý ngôn ng t
nhiên
I. GII THIU
Đi suốt ngàn năm văn hiến, câu đối đã một th loi quan trng trong c văn học
Trung Quc Vit Nam. ch tóm gn vn vẹn trong hai câu, câu đối được sáng tác
cùng t m vi nhng quy tc nghiêm ngt v vần, thanh điệu đối ngu, to nên mt tng
th hài hòa và cân đối.
Trong quá trình nghiên cu và dch thuật câu đối, việc đặt du câu chính xác đóng vai
trò rt quan trọng. Đặt du câu giúp ngt mt câu thành các cm t, mệnh đề hp lý, giúp
người đọc d dàng hơn trong việc hiểu đúng ý nghĩa của câu đối.
Tm quan trng ca việc đặt du câu chính xác th thấy qua hai câu đối trích t ch
“5000 Hoành Phi Câu Đối Hn Nôm” ca tác gi Trn Lê Sáng [1]:
帝軫臣私甫得歸,奈不久得養
天奪母壽經此愛,即亦同此悲
Phiên âm:
Đế chn thần tư phủ đắc qui, nại bất cửu đắc dưng
Thiên đoạt mẫu thọ kinh thử biến, tức diệc đồng thử bi
* Trường Đại hc Khoa hc T nhiên - ĐHQG TP. HCM, Email: htanh21@apcs.fitus.edu.vn
** Trường Đại hc Khoa hc T nhiên - ĐHQG TP. HCM, Email: dhnhung21@apcs.fitus.edu.vn
384 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
Và câu:
遇亦甚難哉,慷慨先已駙馬子
神當不沒矣,悽愴長在升龍聞
Phiên âm:
Ngộ diệc thậm nan tai, khảng khi tiên dĩ phò m tử
Thần đương bất một hĩ, thê thương trường tại Thăng Long môn
ví d trên, ta có th thy rng cách ngt nhp có th khác nhau trên những câu đối
cùng một độ dài. C hai câu đối trên đều có s ch là 12, tuy nhiên, câu th nht, v trí ngt
ngay ký t th 7, còn câu th hai li có v trí ngt t th 5. T đó, ta có thể thy và vic
biết được ch ngt s giúp việc đọc và hiểu ý nghĩa câu đi tr nên d dàng hơn. Ngoài vic
giúp cho người đọc, đặc bit những người không quen thuc vi tiếng Hán c, th d
dàng tiếp thu, nm bắt được ý nghĩa của những câu đối, vic ngt nhp hp còn góp phn
ci thin mt s tác v trong x lý ngôn ng t nhiên (NLP) như dịch máy, nhn din thc th
cha tên,...
Hiểu được tm quan trng ca việc đt dấu câu, chúng tôi đã tiến hành nghiên cu và
ci thin hiu qu đặt du câu trong miền câu đối Việt Nam. Đầu tiên, phn II, chúng tôi s
xem xét các công trình nghiên cứu liên quan, đánh giá các công cụ, hình hiện để xác
định các vn đề nghiên cu này mun khc phục. Sau đó, phn III, chúng tôi s trình bày
các phương pháp sẽ s dng, làm vai trò ca chúng trong nghiên cu. Phần phương pháp
s đi từ cách chúng tôi thu thp d liệu để hun luyn kim th, cách ch hp tài nguyên
tiếng Trung với câu đối Việt Nam, đến áp dụng các hình để gii quyết tác v này. Tiếp
theo, phn IV, chúng tôi s trình bày kết qu thí nghiệm, đánh giá hiệu qu của các phương
pháp đã đề xut. T đó, thảo lun nhng phát hin này trong mối tương quan với các nghiên
cứu trước đây và mục tiêu ca nghiên cu phn VI. Phn VII s tóm tt các phát hin chính,
nhn mnh những đóng góp của nghiên cứu và tác động ca nó đối vi vic bo tn kho tàng
câu đối Vit Nam.
II. NHNG NGHIÊN CU LIÊN QUAN
Đầu tiên phải nói đến Jiayan [2]. Bng vic s dng hình xác sut, cách tiếp cn
ca Jiayan phn ánh kh năng giải quyết nhng thách thc đặc trưng của văn bản Hán c, cung
cp mt gii pháp gn nh cho các nhim v tin x lý.
Cũng với mô hình xác sut, Xue và Yang [3] đã đề xut cách tiếp cận độc đáo cho việc
đặt du câu tiếng Trung. H chuyn bài toán ban đầu thành bài toán phân loi du phy: Du
phẩy dùng để đánh dấu s kết thúc ca mt câu và du phy dùng đch các mệnh đề trong
cùng mt câu. Nghiên cu ca h cũng cho thấy rng cn có nhng phương pháp đặc thù hơn
khi x lý văn bản Hán c, khi du câu và cu trúc câu có nhiu khác bit.
NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 385
...................................................................................................................................................................................
Gần đây, các phương pháp mạng -ron, như nghiên cứu ca Xiaochen(ray) Zhang
[4], đã đạt được nhiu kết qu kh quan trong tác v đặt du câu. Các hình da trên hc
sâu được phát triển để x lý các cu trúc văn bn phc tp b d liu lớn, nhưng không
hoàn toàn phù hp với đặc thù ca Hán c hoặc văn bản ngắn như câu đối.
Hin ti, theo hiu biết của chúng tôi, chưa nghiên cứu nào tp trung vào việc đặt
dấu câu trên câu đối Vit Nam viết bng Hán c. Phn ln các nghiên cu hiện có hướng ti
văn bản tiếng Trung hiện đại hoc các tài liệu dài, để li mt khong trng trong nghiên cu
v câu đối Hán c ca Vit Nam. vy, chúng tôi hướng đến vic lấp đầy khong trống đó
bằng cách đề xuất các phương pháp mi, phù hp vi việc đặt du câu trên hai vế ca nhng
câu đối viết bng Hán cổ, đóng góp cho lĩnh vực nghiên cu chuyên sâu này.
III. CƠ SỞ LÝ THUYT
1. Mô hình Bidirectional Encoder Representations from Transformers (BERT)
Mt trong nhng thách thc ln của lĩnh vc x ngôn ng t nhiên (NLP) hiu
được ý nghĩa dựa vào ng cnh ca từ. Xem xét câu Con ngựa đ con ngựa đ”, từ đ” đầu
tiên và t đthứ hai ý nghĩa hoàn toàn khác nhau (hành động đtính chất làm t
đ”). Vào năm 2018, BERT đã được Jacob Devlin và đồng nghip ti Google AI công b [5],
một bước tiến quan trọng trong lĩnh vực NLP. Trước BERT, nhiều hình như
Word2Vec [6], GloVe [7], ELMo [8] cung cp ch véc-từ giá trị, nhưng thường
không nm bắt được hết s phc tp ca ngôn ng. Khác với cáchình đó, BERT cung cấp
kh năng hiểu được ng cnh thông qua các lp Transformer cùng với chế t chú ý (self-
attention). Ngoài ra, kh năng fine-tune của BERT đã tạo nên nhiều bước tiến vượt bc cho
nhiu tác v như trả li câu hi, nhn din thc th, phân loại văn bản, v.v. [5, 9, 10]
2. Mô hình Bidirectional Long Short-Term Memory (BiLSTM)
BiLSTM là mt kiến trc mạng nơ-ron m rng t mô hình LSTM (Long Short-Term
Memory) nhm nm bt thông tin t c hai chiu trong mt chuỗi. LSTMS, được Hochreiter
Schmidhuber gii thiệu vào năm 1997, giúp giải quyết vấn đề “phụ thuc dài hạn” trong
các d liu tun t [11]. Tuy nhiên, LSTM ch x lý thông tin theo một hướng - t quá kh
đến tương lai, gây ra nhiều hn chế trong các tác v NLP, khi mà ý nghĩa của mt t ph thuc
vào c t phía trước và sau. BiLSTM ra đi nhm khc phc hn chế này bng cách kết hp
hai LSTM: mt LSTM x lý chui d liệu theo hướng xuôi mt LSTM x lý theo hướng
ngược li; giúp nó có th nm bt thông tin ng cnh t c hai hướng [12].
3. Conditional Random Field (CRF)
CRF được John Lafferty, Andrew McCallum, và Fernando Pereira gii thiệu vào năm
2001, là mt loi mô hình xác suất được thiết kế cho các bài toán d đoán cấu trúc trong x
ngôn ng t nhiên. CRF đặc bit phù hp vi các tác v nhãn đầu ra nh liên h mt
thiết vi nhau [13]. CRF gii quyết vấn đề này bng cách hình hóa xác suất điều kin
của nhãn đầu ra da trên chuỗi đầu vào, cho phép tp trung vào mi liên h gia các nhãn mà
386 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
không cn gi định s độc lp gia các đặc trưng đầu vào. Điều này giúp CRF nm bt tốt hơn
các ph thuc ng cnh cu trúc toàn cc trong d liu. T đó, khi ng dng vào các bài
toán gán nhãn tun t (sequence labeling), CRF có th đảm bo rằng các nhãn được gán nht
quán trên toàn b chui.
IV. PHƯƠNG PHÁP VÀ DỮ LIU
1. Phương pháp
Xét t thc tế kho tàng câu đối Vit Nam ta ít nhiu chu ảnh hưởng t văn học Trung
Quc, tn dng ngun tài nguyên tiếng Trung to ln có th ci thiện độ chính xác ca các tác
v này một cách đáng kể. C th hơn, phương pháp của chúng tôi tn dng hình BERT
hun luyn sn, tên bert-ancient-chinese [14], kết hp vi mng BiLSTM lp CRF. Tng
quan v phương pháp của chúng tôi được hình hóa Hình IV.1. Phương pháp này khai
thác được c s phong phú v ng cnh ca BERT ln kh năng hình hóa chuỗi ca
BiLSTM và CRF, đã được tối ưu hóa cho các câu đối ch Hán c.
Hình IV.1 Sơ đồ cu trúc mô hình BERT-BiLSTM-CRF cho tác v đặt dấu câu trên câu đối [15]
Mi câu trong cặp câu đối được x d đoán dấu câu độc lập trước. Sau đó, để
đảm bảo tính đối xng vn của câu đối, chúng tôi kết hp kết qu du câu t c hai câu,
đảm bo cu trúc tng th tuân th tính chất đối ngu của câu đối Hán c, giúp ci thin hiu
sut bng cách tinh chnh v trí phân đoạn trong câu thông qua s tương hỗ gia hai câu.
NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 387
...................................................................................................................................................................................
Đầu tiên, chúng tôi s dng hình bert-ancient-chinese để thu được các véc-từ
ng (word embeddings) t d liệu câu đối đầu vào. Nhng véc-này nắm bt thông tin ng
cnh mt cách chi tiết, bao gm c các đặc điểm phc tp trong cu trúc ngôn ng Hán c.
Tiếp theo, các véc-từ ng được đưa vào một lớp BiLSTM để hình th nm
bắt được các mi quan h ph thuc dài hn trong chuỗi. câu đối thường mang tính cht
văn thơ, nên việc hình biết được các quan h ph thuc v phía trước ln phía sau rt
cn thiết. Cui cùng, chúng tôi s dng lớp CRF để d đoán các chỗ đặt nhằm đảm bo rng
chui d đoán cuối cùng nhất quán và đúng ngữ pháp.
2. D liu
2.1. Tng quan và tin x
Trong nghiên cu này, chúng tôi s dng hai b d liu riêng bit: mt b d liu câu
đối t Trung Quốc để hun luyn mt b d liệu câu đối ch Hán ca Việt Nam được s
hóa t quyn sách ca tác gi Trn Lê Sáng [1] để kim nghim.
B d liu hun luyện được ly t mt kho tàng m v các câu đối tiếng Trung, bao
gồm các câu đối thượng-h liên [16]. Đây là một d liu khá lớn, lên đến 700 nghìn câu, tuy
nhiên, chúng tôi ch s dụng 10 nghìn câu đầu tiên làm d liu hun luyn phc v cho nghiên
cu. Vic chọn 10 nghìn câu giúp cho phương pháp ca chúng tôi không tn quá nhiu thi
gian cho vic hun luyện hình, đồng thời đảm bảo độ ln ca b d liu nhm phc v cho
vic fine-tune trên mô hình ngôn ng BERT.
Để đánh gmô hình, chúng tôi sử dng mt b d liệu được trích xut t cun “5.000
Hoành Phi Câu Đối Hn Nôm”, mt b sưu tập câu đối được viết bng ch Hán Nôm. V
tng th, b d liu này có tng cng 4.643 câu đối Hán vi phn còn lại là câu đối Nôm cùng
với hoành phi. Để th s dụng được b d liệu này, chúng tôi đã thc hin s hóa cun sách
này thông qua mt ng dng nhn dng t quang học (OCR). Tuy nhiên, điều này gây ra
mt s thách thức như lỗi nhn dạng, định dng không chun và chất lượng văn bản suy gim.
Để gim thiu các vấn đề y, chúng tôi đã tiến hành tinh chnh, làm sch d liu bng cách
đối chiếu văn bản s hóa vi bn gc. C th, khi các ký t Hán b thiếu hoc nhn dng sai,
chúng tôi chnh sa th công da trên các t tiếng Việt tương ứng trong câu đối. Tương tự,
khi các t tiếng Vit b thiếu hoc không rõ, chúng tôi da vào các ký t n tương ứng để
khôi phục. Quá trình này đảm bo tp d liệu đạt độ chính xác cao nht có th, gim thiu nh
hưởng ca các lỗi OCR trong quá trình đánh ghình, đồng thi gi nguyên được nh toàn
vn của các câu đối gc.
2.2. La chn tp nhãn
Nhn thy những đim mnh t nghiên cu ca Xue Yang [3] và những đặc trưng
của câu đối cổ, chúng tôi đã định nghĩa bộ gán nhãn ch gm hai nhãn: [PUNC] và [NONE].
C thể, thường các câu đối c ch s dng nhng dấu câu đơn giản, du phẩy dùng đ ngt
trên tng dòng, du chấm đ kết thúc câu. Do đó, vic áp dng b gán nhãn phc tp vi