Tăng cường hiệu năng đặt dấu câu trong câu đối Hán Việt: Tận dụng tài nguyên Hán ngữ

NGÔN NGỮ HỌC TÍNH TOÁN: NHỮNG XU HƯỚNG MỚI, TRIỂN VỌNG VÀ THÁCH THỨC | 383

...................................................................................................................................................................................

TĂNG CƯỜNG HIỆU NĂNG ĐẶT DẤU CÂU

TRONG CÂU ĐỐI HÁN VIỆT QUA VIỆC TẬN DỤNG

TÀI NGUYÊN HÁN NGỮ

HOÀNG THẾ ANH* - ĐẶNG HOÀNG NHẬT HƯNG**

Tóm tắt: Việc đặt dấu câu trong các câu đối là một thách thức lớn do ảnh hưởng từ

ngữ pháp và cú pháp phức tạp của tiếng Hán cổ. Bằng cách tận dụng tài nguyên ngôn ngữ Hán

cổ của Trung Quốc, chúng tôi đề xuất phương pháp kết hợp mô hình BERT, BiLSTM và CRF

để tăng cường hiệu quả đặt dấu câu trong câu đối Hán-Việt. Kết quả thí nghiệm cho thấy mô

hình BERT-BiLSTM-CRF vượt trội về độ chính xác so với các mô hình truyền thống trước

đây. Về ý nghĩa, nghiên cứu này nhằm mục đích tăng cường hiệu quả xử lý tự động câu đối

Hán Việt, giúp phục vụ các bài toán NLP khác trên miền văn bản này như dịch nghĩa, nhận

diện thực thể chứa tên tốt hơn, góp phần bảo tồn và lan truyền những giá trị văn hóa và lịch sử

của chúng.

Từ khóa: Câu đối Hán-Việt, đặt dấu câu, BERT, BiLSMT, CRF, xử lý ngôn ngữ tự

nhiên

I. GIỚI THIỆU

Đi suốt ngàn năm văn hiến, câu đối đã là một thể loại quan trọng trong cả văn học

Trung Quốc và Việt Nam. Dù chỉ tóm gọn vỏn vẹn trong hai câu, câu đối được sáng tác vô

cùng tỉ mỉ với những quy tắc nghiêm ngặt về vần, thanh điệu và đối ngẫu, tạo nên một tổng

thể hài hòa và cân đối.

Trong quá trình nghiên cứu và dịch thuật câu đối, việc đặt dấu câu chính xác đóng vai

trò rất quan trọng. Đặt dấu câu giúp ngắt một câu thành các cụm từ, mệnh đề hợp lý, giúp

người đọc dễ dàng hơn trong việc hiểu đúng ý nghĩa của câu đối.

Tầm quan trọng của việc đặt dấu câu chính xác có thể thấy qua hai câu đối trích từ sách

“5000 Hoành Phi Câu Đối Hn Nôm” của tác giả Trần Lê Sáng [1]:

帝軫臣私甫得歸,奈不久得養

天奪母壽經此愛,即亦同此悲

Phiên âm:

Đế chn thần tư phủ đắc qui, nại bất cửu đắc dưng

Thiên đoạt mẫu thọ kinh thử biến, tức diệc đồng thử bi

* Trường Đại học Khoa học Tự nhiên - ĐHQG TP. HCM, Email: htanh21@apcs.fitus.edu.vn

** Trường Đại học Khoa học Tự nhiên - ĐHQG TP. HCM, Email: dhnhung21@apcs.fitus.edu.vn

384 | KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2024

...................................................................................................................................................................................

Và câu:

遇亦甚難哉,慷慨先已駙馬子

神當不沒矣,悽愴長在升龍聞

Phiên âm:

Ngộ diệc thậm nan tai, khảng khi tiên dĩ phò m tử

Thần đương bất một hĩ, thê thương trường tại Thăng Long môn

Ở ví dụ trên, ta có thể thấy rằng cách ngắt nhịp có thể khác nhau trên những câu đối có

cùng một độ dài. Cả hai câu đối trên đều có số chữ là 12, tuy nhiên, ở câu thứ nhất, vị trí ngắt

ngay ở ký tự thứ 7, còn câu thứ hai lại có vị trí ngắt ở ký tự thứ 5. Từ đó, ta có thể thấy và việc

biết được chỗ ngắt sẽ giúp việc đọc và hiểu ý nghĩa câu đối trở nên dễ dàng hơn. Ngoài việc

giúp cho người đọc, đặc biệt là những người không quen thuộc với tiếng Hán cổ, có thể dễ

dàng tiếp thu, nắm bắt được ý nghĩa của những câu đối, việc ngắt nhịp hợp lý còn góp phần

cải thiện một số tác vụ trong xử lý ngôn ngữ tự nhiên (NLP) như dịch máy, nhận diện thực thể

chứa tên,...

Hiểu được tầm quan trọng của việc đặt dấu câu, chúng tôi đã tiến hành nghiên cứu và

cải thiện hiệu quả đặt dấu câu trong miền câu đối Việt Nam. Đầu tiên, ở phần II, chúng tôi sẽ

xem xét các công trình nghiên cứu liên quan, đánh giá các công cụ, mô hình hiện có để xác

định các vấn đề mà nghiên cứu này muốn khắc phục. Sau đó, ở phần III, chúng tôi sẽ trình bày

các phương pháp sẽ sử dụng, và làm rõ vai trò của chúng trong nghiên cứu. Phần phương pháp

sẽ đi từ cách chúng tôi thu thập dữ liệu để huấn luyện và kiểm thử, cách tích hợp tài nguyên

tiếng Trung với câu đối Việt Nam, đến áp dụng các mô hình để giải quyết tác vụ này. Tiếp

theo, ở phần IV, chúng tôi sẽ trình bày kết quả thí nghiệm, đánh giá hiệu quả của các phương

pháp đã đề xuất. Từ đó, thảo luận những phát hiện này trong mối tương quan với các nghiên

cứu trước đây và mục tiêu của nghiên cứu ở phần VI. Phần VII sẽ tóm tắt các phát hiện chính,

nhấn mạnh những đóng góp của nghiên cứu và tác động của nó đối với việc bảo tồn kho tàng

câu đối Việt Nam.

II. NHỮNG NGHIÊN CỨU LIÊN QUAN

Đầu tiên phải nói đến Jiayan [2]. Bằng việc sử dụng mô hình xác suất, cách tiếp cận

của Jiayan phản ánh khả năng giải quyết những thách thức đặc trưng của văn bản Hán cổ, cung

cấp một giải pháp gọn nhẹ cho các nhiệm vụ tiền xử lý.

Cũng với mô hình xác suất, Xue và Yang [3] đã đề xuất cách tiếp cận độc đáo cho việc

đặt dấu câu tiếng Trung. Họ chuyển bài toán ban đầu thành bài toán phân loại dấu phẩy: Dấu

phẩy dùng để đánh dấu sự kết thúc của một câu và dấu phẩy dùng để tách các mệnh đề trong

cùng một câu. Nghiên cứu của họ cũng cho thấy rằng cần có những phương pháp đặc thù hơn

khi xử lý văn bản Hán cổ, khi dấu câu và cấu trúc câu có nhiều khác biệt.

NGÔN NGỮ HỌC TÍNH TOÁN: NHỮNG XU HƯỚNG MỚI, TRIỂN VỌNG VÀ THÁCH THỨC | 385

...................................................................................................................................................................................

Gần đây, các phương pháp mạng nơ-ron, như nghiên cứu của Xiaochen(ray) Zhang

[4], đã đạt được nhiều kết quả khả quan trong tác vụ đặt dấu câu. Các mô hình dựa trên học

sâu được phát triển để xử lý các cấu trúc văn bản phức tạp và bộ dữ liệu lớn, nhưng không

hoàn toàn phù hợp với đặc thù của Hán cổ hoặc văn bản ngắn như câu đối.

Hiện tại, theo hiểu biết của chúng tôi, chưa có nghiên cứu nào tập trung vào việc đặt

dấu câu trên câu đối Việt Nam viết bằng Hán cổ. Phần lớn các nghiên cứu hiện có hướng tới

văn bản tiếng Trung hiện đại hoặc các tài liệu dài, để lại một khoảng trống trong nghiên cứu

về câu đối Hán cổ của Việt Nam. Vì vậy, chúng tôi hướng đến việc lấp đầy khoảng trống đó

bằng cách đề xuất các phương pháp mới, phù hợp với việc đặt dấu câu trên hai vế của những

câu đối viết bằng Hán cổ, đóng góp cho lĩnh vực nghiên cứu chuyên sâu này.

III. CƠ SỞ LÝ THUYẾT

1. Mô hình Bidirectional Encoder Representations from Transformers (BERT)

Một trong những thách thức lớn của lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) là hiểu

được ý nghĩa dựa vào ngữ cảnh của từ. Xem xét câu “Con ngựa đ con ngựa đ”, từ “đ” đầu

tiên và từ “đ” thứ hai có ý nghĩa hoàn toàn khác nhau (hành động “đ” và tính chất “làm từ

đ”). Vào năm 2018, BERT đã được Jacob Devlin và đồng nghiệp tại Google AI công bố [5],

và là một bước tiến quan trọng trong lĩnh vực NLP. Trước BERT, nhiều mô hình như

Word2Vec [6], GloVe [7], và ELMo [8] cung cấp cách véc-tơ từ có giá trị, nhưng thường

không nắm bắt được hết sự phức tạp của ngôn ngữ. Khác với các mô hình đó, BERT cung cấp

khả năng hiểu được ngữ cảnh thông qua các lớp Transformer cùng với cơ chế tự chú ý (self-

attention). Ngoài ra, khả năng fine-tune của BERT đã tạo nên nhiều bước tiến vượt bậc cho

nhiều tác vụ như trả lời câu hỏi, nhận diện thực thể, phân loại văn bản, v.v. [5, 9, 10]

2. Mô hình Bidirectional Long Short-Term Memory (BiLSTM)

BiLSTM là một kiến trục mạng nơ-ron mở rộng từ mô hình LSTM (Long Short-Term

Memory) nhằm nắm bắt thông tin từ cả hai chiều trong một chuỗi. LSTMS, được Hochreiter

và Schmidhuber giới thiệu vào năm 1997, giúp giải quyết vấn đề “phụ thuộc dài hạn” trong

các dữ liệu tuần tự [11]. Tuy nhiên, LSTM chỉ xử lý thông tin theo một hướng - từ quá khứ

đến tương lai, gây ra nhiều hạn chế trong các tác vụ NLP, khi mà ý nghĩa của một từ phụ thuộc

vào cả từ phía trước và sau. BiLSTM ra đời nhằm khắc phục hạn chế này bằng cách kết hợp

hai LSTM: một LSTM xử lý chuỗi dữ liệu theo hướng xuôi và một LSTM xử lý theo hướng

ngược lại; giúp nó có thể nắm bắt thông tin ngữ cảnh từ cả hai hướng [12].

3. Conditional Random Field (CRF)

CRF được John Lafferty, Andrew McCallum, và Fernando Pereira giới thiệu vào năm

2001, là một loại mô hình xác suất được thiết kế cho các bài toán dự đoán cấu trúc trong xử lý

ngôn ngữ tự nhiên. CRF đặc biệt phù hợp với các tác vụ mà nhãn đầu ra có tính liên hệ mật

thiết với nhau [13]. CRF giải quyết vấn đề này bằng cách mô hình hóa xác suất có điều kiện

của nhãn đầu ra dựa trên chuỗi đầu vào, cho phép tập trung vào mối liên hệ giữa các nhãn mà

386 | KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2024

...................................................................................................................................................................................

không cần giả định sự độc lập giữa các đặc trưng đầu vào. Điều này giúp CRF nắm bắt tốt hơn

các phụ thuộc ngữ cảnh và cấu trúc toàn cục trong dữ liệu. Từ đó, khi ứng dụng vào các bài

toán gán nhãn tuần tự (sequence labeling), CRF có thể đảm bảo rằng các nhãn được gán nhất

quán trên toàn bộ chuỗi.

IV. PHƯƠNG PHÁP VÀ DỮ LIỆU

1. Phương pháp

Xét từ thực tế kho tàng câu đối Việt Nam ta ít nhiều chịu ảnh hưởng từ văn học Trung

Quốc, tận dụng nguồn tài nguyên tiếng Trung to lớn có thể cải thiện độ chính xác của các tác

vụ này một cách đáng kể. Cụ thể hơn, phương pháp của chúng tôi tận dụng mô hình BERT

huấn luyện sẵn, tên là bert-ancient-chinese [14], kết hợp với mạng BiLSTM và lớp CRF. Tổng

quan về phương pháp của chúng tôi được mô hình hóa ở Hình IV.1. Phương pháp này khai

thác được cả sự phong phú về ngữ cảnh của BERT lẫn khả năng mô hình hóa chuỗi của

BiLSTM và CRF, đã được tối ưu hóa cho các câu đối chữ Hán cổ.

Hình IV.1 Sơ đồ cấu trúc mô hình BERT-BiLSTM-CRF cho tác vụ đặt dấu câu trên câu đối [15]

Mỗi câu trong cặp câu đối được xử lý và dự đoán dấu câu độc lập trước. Sau đó, để

đảm bảo tính đối xứng vốn có của câu đối, chúng tôi kết hợp kết quả dấu câu từ cả hai câu,

đảm bảo cấu trúc tổng thể tuân thủ tính chất đối ngẫu của câu đối Hán cổ, giúp cải thiện hiệu

suất bằng cách tinh chỉnh vị trí phân đoạn trong câu thông qua sự tương hỗ giữa hai câu.

NGÔN NGỮ HỌC TÍNH TOÁN: NHỮNG XU HƯỚNG MỚI, TRIỂN VỌNG VÀ THÁCH THỨC | 387

...................................................................................................................................................................................

Đầu tiên, chúng tôi sử dụng mô hình bert-ancient-chinese để thu được các véc-tơ từ

ngữ (word embeddings) từ dữ liệu câu đối đầu vào. Những véc-tơ này nắm bắt thông tin ngữ

cảnh một cách chi tiết, bao gồm cả các đặc điểm phức tạp trong cấu trúc ngôn ngữ Hán cổ.

Tiếp theo, các véc-tơ từ ngữ được đưa vào một lớp BiLSTM để mô hình có thể nắm

bắt được các mối quan hệ phụ thuộc dài hạn trong chuỗi. Vì câu đối thường mang tính chất

văn thơ, nên việc mô hình biết được các quan hệ phụ thuộc về phía trước lẫn phía sau là rất

cần thiết. Cuối cùng, chúng tôi sử dụng lớp CRF để dự đoán các chỗ đặt nhằm đảm bảo rằng

chuỗi dự đoán cuối cùng nhất quán và đúng ngữ pháp.

2. Dữ liệu

2.1. Tổng quan và tiền xử lý

Trong nghiên cứu này, chúng tôi sử dụng hai bộ dữ liệu riêng biệt: một bộ dữ liệu câu

đối từ Trung Quốc để huấn luyện và một bộ dữ liệu câu đối chữ Hán của Việt Nam được số

hóa từ quyển sách của tác giả Trần Lê Sáng [1] để kiểm nghiệm.

Bộ dữ liệu huấn luyện được lấy từ một kho tàng mở về các câu đối tiếng Trung, bao

gồm các câu đối thượng-hạ liên [16]. Đây là một dữ liệu khá lớn, lên đến 700 nghìn câu, tuy

nhiên, chúng tôi chỉ sử dụng 10 nghìn câu đầu tiên làm dữ liệu huấn luyện phục vụ cho nghiên

cứu. Việc chọn 10 nghìn câu giúp cho phương pháp của chúng tôi không tốn quá nhiều thời

gian cho việc huấn luyện mô hình, đồng thời đảm bảo độ lớn của bộ dữ liệu nhằm phục vụ cho

việc fine-tune trên mô hình ngôn ngữ BERT.

Để đánh giá mô hình, chúng tôi sử dụng một bộ dữ liệu được trích xuất từ cuốn “5.000

Hoành Phi Câu Đối Hn Nôm”, một bộ sưu tập câu đối được viết bằng chữ Hán Nôm. Về

tổng thể, bộ dữ liệu này có tổng cộng 4.643 câu đối Hán với phần còn lại là câu đối Nôm cùng

với hoành phi. Để có thể sử dụng được bộ dữ liệu này, chúng tôi đã thực hiện số hóa cuốn sách

này thông qua một ứng dụng nhận dạng kí tự quang học (OCR). Tuy nhiên, điều này gây ra

một số thách thức như lỗi nhận dạng, định dạng không chuẩn và chất lượng văn bản suy giảm.

Để giảm thiểu các vấn đề này, chúng tôi đã tiến hành tinh chỉnh, làm sạch dữ liệu bằng cách

đối chiếu văn bản số hóa với bản gốc. Cụ thể, khi các ký tự Hán bị thiếu hoặc nhận dạng sai,

chúng tôi chỉnh sửa thủ công dựa trên các từ tiếng Việt tương ứng trong câu đối. Tương tự,

khi các từ tiếng Việt bị thiếu hoặc không rõ, chúng tôi dựa vào các ký tự Hán tương ứng để

khôi phục. Quá trình này đảm bảo tập dữ liệu đạt độ chính xác cao nhất có thể, giảm thiểu ảnh

hưởng của các lỗi OCR trong quá trình đánh giá mô hình, đồng thời giữ nguyên được tính toàn

vẹn của các câu đối gốc.

2.2. Lựa chọn tập nhãn

Nhận thấy những điểm mạnh từ nghiên cứu của Xue và Yang [3] và những đặc trưng

của câu đối cổ, chúng tôi đã định nghĩa bộ gán nhãn chỉ gồm hai nhãn: [PUNC] và [NONE].

Cụ thể, thường các câu đối cổ chỉ sử dụng những dấu câu đơn giản, dấu phẩy dùng để ngắt

trên từng dòng, và dấu chấm để kết thúc câu. Do đó, việc áp dụng bộ gán nhãn phức tạp với

Tăng cường hiệu năng đặt dấu câu trong câu đối Hán Việt qua việc tận dụng tài nguyên Hán ngữ

Bài viết trình bày nghiên cứu tăng cường hiệu năng đặt dấu câu cho câu đối Hán Việt bằng mô hình BERT-BiLSTM-CRF, tận dụng tài nguyên Hán ngữ, độ chính xác cao.

Chủ đề:

Tài liệu liên quan

Tài liêu mới

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi