intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Ứng dụng trí tuệ nhân tạo trong dịch nghĩa văn bản cổ chữ Hán cho phát triển du lịch ở Việt Nam

Chia sẻ: Tô Nhiễm | Ngày: | Loại File: PDF | Số trang:14

4
lượt xem
1
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Nghiên cứu "Ứng dụng trí tuệ nhân tạo trong dịch nghĩa văn bản cổ chữ Hán cho phát triển du lịch ở Việt Nam" khảo sát và phân tích một số hướng tiếp cận cho các hoạt động du lịch trong việc vận dụng sức mạnh của trí tuệ nhân tạo vào dịch nghĩa các văn bản chữ Hán, nhằm thu hút sự hứng thú, thỏa mãn nhu cầu học hỏi, trải nghiệm của du khách khi đi du lịch, góp phần phát triển du lịch thông minh và khai thác giá trị di sản Hán Nôm ở Việt Nam. Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Ứng dụng trí tuệ nhân tạo trong dịch nghĩa văn bản cổ chữ Hán cho phát triển du lịch ở Việt Nam

  1. ỨNG DỤNG TRÍ TUỆ NHÂN TẠO TRONG DỊCH NGHĨA VĂN BẢN CỔ CHỮ HÁN CHO PHÁT TRIỂN DU LỊCH Ở VIỆT NAM Thái Hoàng Lâm1,2, Nguyễn Gia Phúc1,2, Đinh Điền1,2 Tóm tắt: Ứng dụng trí tuệ nhân tạo (AI) trong khai thác và phát huy các giá trị di sản Hán Nôm là một trong những xu hướng hiện nay gắn liền với mục đích phát triển du lịch. Theo đó, trong những năm gần đây đã có nhiều nghiên cứu về nhận dạng tự động văn tự Hán Nôm, chuyển tự tự động chữ Nôm sang chữ Quốc ngữ,… có kết quả rất tốt nhưng vẫn chưa đủ để khai thác tối đa tiềm năng và ý nghĩa to lớn của kho di sản Hán Nôm đối với du lịch cũng như là truyền tải những thông điệp quý báu của cha ông đến thế hệ người Việt hiện tại, bởi lẽ trong đó có các văn bản chữ Hán cần được thực hiện thêm một bước nữa là dịch nghĩa sang tiếng Việt hiện đại. Thế nên, điều thiết yếu là chúng ta phải tiếp tục nghiên cứu ứng dụng trí tuệ nhân tạo trong dịch nghĩa tự động các văn bản chữ Hán ở các khu du lịch của Việt Nam với một thực tế rằng ở các địa điểm du lịch nổi tiếng như cố đô Huế, các vùng đất du lịch tâm linh,… có số lượng không ít các văn bản chữ Hán như câu đối, hoành phi, thơ ca,... Vì vậy, trong nghiên cứu này chúng tôi khảo sát và phân tích một số hướng tiếp cận cho các hoạt động du lịch trong việc vận dụng sức mạnh của trí tuệ nhân tạo vào dịch nghĩa các văn bản chữ Hán, nhằm thu hút sự hứng thú, thoả mãn nhu cầu học hỏi, trải nghiệm của du khách khi đi du lịch, góp phần phát triển du lịch thông minh và khai thác giá trị di sản Hán Nôm ở Việt Nam. Từ khóa: Trí tuệ nhân tạo, di sản Hán Nôm, dịch nghĩa, du lịch, Việt Nam. 1. ĐẶT VẤN ĐỀ Du lịch là một trong những lựa chọn hàng đầu cho hoạt động giải trí, thư giãn của du khách trong các kỳ nghỉ, dịp lễ, Tết sau những ngày phải chạy đua với guồng quay của cuộc sống. Các điểm đến mà du khách thường chọn để tham quan, du lãm là các danh lam, thắng cảnh, khu di tích lịch sử - văn hoá. Theo Từ điển tiếng Việt, du lịch là “đi xa cho biết xứ lạ khác với nơi mình ở” (Viện Ngôn ngữ học, 2003: 264). Vì vậy, ngoài mục đích giải trí, du lịch còn là dịp để du khách trải nghiệm, tích luỹ thêm những tri thức về lịch sử, đa dạng văn hoá, con người,… ở những vùng đất khác nhau. Đối với du lịch Việt Nam, các khu di tích lịch sử - văn hoá, tâm linh thường thu hút lượng khách tham quan, hành hương đông đúc. Ở những địa điểm di tích lịch sử - văn hoá này, sẽ không khó để bắt gặp những văn bản Hán - Nôm như câu đối, hoành phi, thơ văn được thể hiện dưới những hình thức khác nhau như khắc trên cột, trên tường, trên bia đá, trên chuông,… Đây là những tác phẩm nghệ thuật ngôn từ đang mã hóa Khoa Công nghệ Thông tin, Trường Đại học Khoa học Tự nhiên, TP. Hồ Chí Minh, Việt Nam. 1 2 Đại học Quốc gia TP. Hồ Chí Minh, Việt Nam.
  2. 612 HỘI THẢO DU LỊCH QUỐC GIA: ỨNG DỤNG CÔNG NGHỆ SỐ, KHAI THÁC GIÁ TRỊ DI SẢN, PHỤC VỤ PHÁT TRIỂN DU LỊCH... những tri thức, tâm tư, thông điệp của các bậc tiền nhân. Vì vậy, các tác phẩm này cũng chính là một trong những yếu tố văn hoá thu hút du khách - yếu tố ngôn ngữ, bên cạnh các yếu tố khác như ẩm thực, kiến trúc, trang phục,… (Đoàn Mạnh Cương, 2023) mà chúng ta nên khai thác cho phát triển du lịch bền vững. Tuy nhiên, không phải du khách người Việt nào cũng có thể giải mã được những văn bản này, vì chữ Hán (dạng văn ngôn) và chữ Nôm đã không còn là hệ chữ viết chính trong đời sống văn hoá của người Việt từ đầu thế kỉ XX , thay vào đó là chữ Quốc ngữ như hiện nay. Vì vậy, thiết nghĩ để phần nào xóa bỏ được rào cản về mặt văn tự này, chúng ta nên có những chiếc “cầu nối” nhằm truyền tải ý nghĩa của các văn bản chữ Hán này bằng tiếng Việt hiện đại đến nhiều đối tượng du khách nhau khác nhau. Biêlinxki từng nói rằng: “Sự thích thú trước một tác phẩm nghệ thuật mà ta không hiểu - đó là một sự thích thú đau khổ” (được dẫn lại bởi Nguyễn Đăng Mạnh, 2003: 99). Thế nên, việc giải mã các tác phẩm Hán Nôm này, đặc biệt là dịch nghĩa tác phẩm chữ Hán, sẽ giúp du khách thoả mãn được nhu cầu học hỏi, lĩnh hội những giá trị cũ nhưng giàu ý nghĩa. Chính việc này sẽ góp phần thu hút du khách và tạo ra những tiềm năng cho việc phát triển du lịch thông minh; đồng thời phát huy giá trị di sản Hán Nôm. Trong tiến trình giải mã các văn bản cổ Hán Nôm, thường chia làm 2 nhóm văn bản: chữ Hán và chữ Nôm. Trong đó, các văn bản chữ Nôm cần được chuyển tự sang chữ Quốc ngữ, còn việc phiên dịch các văn bản chữ Hán thường gồm 2 bước chính là phiên âm ra cách đọc Hán - Việt (chúng tôi tạm gọi là “dịch âm” trong nghiên cứu này) và dịch nghĩa các văn bản này. Ngày nay, với sự phát triển như vũ bão của Trí tuệ nhân tạo (Artificial Intelligence - AI), các nhà ngôn ngữ học - máy tính đang vận dụng công nghệ này vào sứ mệnh giải mã các văn bản Hán Nôm. Trong đó, tiến trình nghiên cứu ứng dụng AI cho dịch âm văn bản Hán Nôm (bao gồm chuyển tự văn bản chữ Nôm sang chữ Quốc ngữ và phiên âm Hán Việt cho văn bản chữ Hán) đã có nhiều thành công, tiêu biểu nhất là công cụ “CLC - Phiên dịch Hán Nôm”1. Tuy nhiên, các công trình nghiên cứu về dịch nghĩa tự động văn bản chữ Hán của Việt Nam sang tiếng Việt hiện đại bằng AI thì còn khá hạn chế, mới chỉ ở các bước đầu. Bởi lẽ, so với dịch âm, dịch nghĩa văn bản chữ Hán gặp nhiều thách thức hơn, vì các văn bản này thường là các tác phẩm văn chương lời ít ý nhiều, trong đó ngôn từ mang tính hình tượng, sử dụng nhiều biện pháp nghệ thuật như ẩn dụ, hoán dụ, điển tích, điển cố,… chưa kể văn chương chữ Hán của người Việt còn có những khác biệt so với văn chương chữ Hán của người Trung Quốc. Vì vậy, để dịch được nghĩa các văn bản này cần một lượng tri thức dồi dào từ ngôn ngữ - văn tự đến lịch sử, văn hoá. Đối với dịch tự động bằng AI, chúng ta cần có một kho ngữ liệu đủ tốt và các kỹ thuật Học máy (Machine Learning) phù hợp để “dạy” cho máy các quy luật chuyển dịch Hán - Việt. 1 https://tools.clc.hcmus.edu.vn/, truy cập lần sau cùng vào ngày 20/02/2024.
  3. Phần 3: DU LỊCH DI SẢN 613 Hình 1. Ứng dụng AI vào dịch nghĩa văn bản cổ điển chữ Hán ngoại cảnh Thế nên, trong bài viết này, chúng tôi tập trung vào đối tượng nghiên cứu là văn bản chữ Hán ở các địa điểm du lịch của Việt Nam và phạm vi nghiên cứu là khảo sát cũng như phân tích các giải pháp cho việc ứng dụng AI vào tác vụ dịch nghĩa các văn bản chữ Hán này trong hoạt động du lịch. Ý tưởng đưa AI vào dịch nghĩa văn bản chữ Hán ngoại cảnh ở các khu du lịch của Việt Nam (các văn bản này thường là các thể loại văn học cổ điển được viết bằng chữ Hán phồn thể) sang tiếng Việt hiện đại được minh họa trong Hình 1 với đầu vào là một văn bản chữ Hán cổ và đầu ra là văn bản tiếng Việt hiện đại. Các đóng góp chính của nghiên cứu bao gồm: • Khảo sát tình hình khai thác di sản Hán Nôm cho phát triển du lịch và ứng dụng công nghệ vào khai thác văn bản Hán Nôm. • Đưa ra và phân tích các giải pháp tích hợp AI vào dịch nghĩa văn bản chữ Hán ở các khu du lịch của Việt Nam. • Đưa ra kết quả khảo sát thực tế các công cụ AI cho dịch nghĩa văn bản chữ Hán trong hoạt động du lịch ở Việt Nam. Bố cục các phần còn lại của bài viết như sau: • Phần 2. Các nghiên cứu liên quan: Nhằm cung cấp bức tranh tổng thể: tầm quan trọng của dịch thuật Hán Nôm trong du lịch và ứng dụng AI vào dịch nghĩa các văn bản chữ Hán ở các khu di tích lịch sử - văn hoá Việt Nam. • Phần 3. Các giải pháp: Tác giả đưa ra các đường hướng khả thi để ứng dụng AI vào dịch nghĩa các văn bản chữ Hán trong hoạt động du lịch. • Phần 4. Một số kết quả khảo sát thực tế: Bao gồm khảo sát thực tế việc vận dụng các công cụ AI trong dịch thuật văn bản chữ Hán ở các địa điểm du lịch. • Phần 5. Kết luận và khuyến nghị: Tác giả tổng kết lại vấn đề nghiên cứu và đưa ra một số khuyến nghị.
  4. 614 HỘI THẢO DU LỊCH QUỐC GIA: ỨNG DỤNG CÔNG NGHỆ SỐ, KHAI THÁC GIÁ TRỊ DI SẢN, PHỤC VỤ PHÁT TRIỂN DU LỊCH... 2. CÁC NGHIÊN CỨU LIÊN QUAN Về nghiên cứu khai thác di sản Hán Nôm vào phát triển du lịch, Đào Ngọc Cảnh và Trương Thị Kim Thuỷ (2019) đã công bố công trình “Đánh giá của du khách về việc khai thác di sản Hán Nôm phục vụ phát triển du lịch ở tỉnh An Giang” nhằm đưa ra bức tranh khái quát về khối di sản Hán Nôm ở tỉnh An Giang và ý kiến, mong muốn của du khách liên quan đến kho tàng di sản Hán Nôm trong du lịch. Kết quả nghiên cứu của công trình này đã cho thấy rằng, trong các yếu tố cần thiết để khai thác kho di sản Hán Nôm trong du lịch, yếu tố được quan tâm thứ 2 đó là “Di sản Hán Nôm cần được dịch ra tiếng Việt” với tỉ lệ là 29% đứng sau yếu tố “Di sản Hán Nôm cần được bảo tồn tốt” (tỉ lệ 38%). Điều này cho thấy rằng, du khách có mối quan tâm và có nhu cầu được hiểu các văn bản Hán Nôm khi đi thăm quan ở các khu di tích - văn hóa. Ngoài ra, công trình này cũng đưa ra biểu đồ thống kê về ý kiến của du khách trên 11 giải pháp nhằm khai thác giá trị Hán Nôm trong du lịch, trong đó giải pháp “Dịch thuật tư liệu Hán Nôm” chiếm 10,7%. Điều này cũng cho thấy rằng dịch thuật tư liệu Hán Nôm sẽ tạo ra những tiềm năng phát triển du lịch. Như chúng tôi đã giới thiệu ở trên, trong các bước phiên dịch Hán Nôm thì dịch nghĩa là bước gặp nhiều thử thách và cũng đóng vai trò quan trọng nhất trong việc thỏa mãn nhu cầu hiểu văn bản chữ Hán của du khách. Về các giải pháp thực tiễn cho việc khai thác di sản Hán Nôm trong du lịch, công trình của Nguyễn Sĩ Toàn và Lưu Ngọc Thành (2017), đã đưa ra một số giải pháp như: “Đặt bản trích phiên âm, dịch nghĩa di sản Hán Nôm tại di tích”, “Hướng dẫn thuyết minh tại di tích”, “Ứng dụng khoa học công nghệ, trang thiết bị kỹ thuật”. Trong phương pháp thứ 1, tác giả có quan tâm đến vấn đề dịch nghĩa các văn bản Hán Nôm, chúng tôi thấy rằng đây là hướng tiếp cận đúng đắn. Tuy nhiên, không phải lúc nào ta cũng tìm được vị trí phù hợp để đặt các bản phiên âm, dịch nghĩa, bởi lẽ các bản dịch nghĩa so với bản chữ Hán gốc thì đôi khi dài hơn rất nhiều. Hơn nữa, nếu mật độ các văn bản chữ Hán ở khu di tích dày thì việc tìm các vị trí phù hợp mà vẫn giữ được vẻ thẩm mỹ càng khó hơn và gây tốn diện tích. Đối với giải pháp thứ 3, tác giả có đề cập đến “ứng dụng khoa học công nghệ”, nhưng các đề xuất tác giả đưa ra chủ yếu trang bị thêm các thiết bị ngoại vi như loa, bộ đàm, màn hình,… tại khu di tích để hỗ trợ du khách chủ động tìm hiểu di sản Hán Nôm và hỗ trợ người thuyết minh. Theo chúng tôi, điều này vẫn chưa đáp ứng được yêu cầu rằng du khách “có thể tự do khám phá không phụ thuộc vào hướng dẫn viên” mà tác giả đã đề cập. Vì khi số lượng khách đông đảo thì các thiết bị này vẫn khó mà phục vụ được hết. Ví dụ, ở một văn bia Hán Nôm có hệ thống thuyết minh tự động qua loa và màn hình, du khách A đến trước và sử dụng, thì nếu có du khách B đến sau khi đoạn thuyết minh đã đi đến phân nửa thì anh ta phải đợi người A nghe xong mới có thể nghe lại đoạn đầu và đồng thời nếu anh A muốn nghe lại đoạn hay để ghi chép chẳng hạn thì cũng khó lòng vì anh B đang đợi.
  5. Phần 3: DU LỊCH DI SẢN 615 Vậy nên, ứng dụng khoa học công nghệ là một ý tưởng hay nhưng các phương pháp tác giả đề xuất chưa vận dụng được các công nghệ tiên tiến hơn để khai thác di sản Hán Nôm trong du lịch. Về dịch nghĩa tự động các văn bản chữ Hán của Việt Nam, gần đây nhóm tác giả Thái Hoàng Lâm và Đinh Điền (2023) có đề xuất một mô hình dịch tự động thơ văn chữ Hán của Việt Nam sử dụng công nghệ dịch máy thống kê và có đề cập đến ý nghĩa thực tiễn là phục vụ cho việc tìm hiểu các văn bản chữ Hán khi tham quan các địa điểm du lịch như đền, chùa, miếu. Đây có thể là nói là công trình manh nha cho việc ứng dụng trí tuệ nhân tạo vào dịch nghĩa văn bản chữ Hán của Việt Nam và có ý nghĩa ứng dụng vào phát triển du lịch. Tuy nhiên, công trình chỉ đưa ra mô hình mà chưa đưa ra cách triển khai mô hình này trong thực tế. 3. MỘT SỐ KẾT QUẢ KHẢO SÁT THỰC TẾ 3.1. Phương pháp khảo sát và dữ liệu Nhằm trải nghiệm thực tế các công cụ trí tuệ nhân tạo (AI) trong việc dịch nghĩa các văn bản chữ Hán trong hoạt động du lịch, chúng tôi đã đến một số chùa chiền có văn bản chữ Hán với vai trò là du khách để thực nghiệm và đánh giá sơ lược các công cụ đang sẵn dùng trên mạng bao gồm các công cụ OCR kết hợp với dịch tự động (cho phép người dùng chụp ảnh trực tiếp trên ứng dụng để dịch) và các mô hình ngôn ngữ lớn có khả năng dịch văn bản từ hình ảnh khi nhập vào một câu lệnh yêu cầu (prompt) cùng với thao tác tải hình ảnh lên. Dưới đây, chúng tôi đưa ra 2 ví dụ cụ thể cho 2 dạng văn bản là văn bản chữ Hán theo chiều ngang từ phải sang trái (dạng hoành phi) và theo chiều dọc từ trên xuống dưới (dạng câu đối) mà chúng tôi đã chụp tại các địa điểm. Hình 3. Văn bản chữ Hán theo chiều ngang Hình 4. Văn bản chữ Hán theo chiều dọc (hoành phi) (vế bên trái của 1 câu đối)
  6. 616 HỘI THẢO DU LỊCH QUỐC GIA: ỨNG DỤNG CÔNG NGHỆ SỐ, KHAI THÁC GIÁ TRỊ DI SẢN, PHỤC VỤ PHÁT TRIỂN DU LỊCH... 3.2. Các công cụ có khả năng dịch nghĩa văn bản chữ Hán từ hình ảnh Hai hình ảnh được dùng để khảo sát cách sử dụng cũng như khả năng của các công cụ được đưa ra ở Hình 31 và Hình 42. 3.2.1. Công cụ “Dịch” của Google Chúng tôi sử dụng ứng dụng “Google Translate” (Google Dịch) trên hệ điều hành IOS để thực hiện dịch văn bản chữ Hán từ hình ảnh (Truy cập ngày 15/02/2024). Chúng tôi chọn chiều dịch từ tiếng Trung (phồn thể) sang tiếng Việt. Văn bản chữ Hán trong Hình 3 và Hình 4 bên trên được chúng tôi sử dụng ứng dụng Google Translate dịch và kết quả được thể hiện trong Hình 5. Hình 5. Sử dụng Google Translate để dịch văn bản chữ Hán sang tiếng Việt Ta thấy rằng với ứng dụng Google, văn bản chữ Hán được nhận dạng và dịch trực tiếp sang tiếng Việt. Tuy nhiên, ứng dụng này có một số điểm cần bàn như sau: Ứng dụng dịch thẳng sang tiếng Việt mà không có bản phiên âm Hán Việt. Vậy nên, sẽ hơi bất tiện cho du khách nếu muốn đọc và ghi nhớ những văn bản Hán này theo cách đọc Hán Việt. (nếu du khách không biết chữ Hán). Hình ảnh được chụp tại Miếu Ông - Hội quán Nghĩa An (678, Nguyễn Trãi, Phường 11, Quận 5, TP. Hồ 1 Chí Minh). Hình ảnh được chụp tại Miếu Bà Thiên Hậu (10, Nguyễn Trãi, Phường 11, Quận 5, Thành phố Hồ Chí 2 Minh).
  7. Phần 3: DU LỊCH DI SẢN 617 Về chất lượng bản dịch, chúng ta thấy với hoành phi 4 chữ “Quốc thái Dân an” thì chất lượng có vẻ không được tốt lắm khi có cụm “Dân an” được dịch theo kiểu phiên âm theo Bính Âm (pinyin) thành “Anmin”, và cụm “Quốc Thái” bị dịch sai, trong khi văn bản này có thể dịch sang tiếng Việt hiện đại là “Quốc gia thái bình, nhân dân được yên bình, ấm no” (tạm dịch). Về cách thể hiện bản dịch trực tiếp trên hình ảnh, điều này khá tiện lợi nhưng với câu đối theo chiều dọc, văn bản bị xoay ngang khiến cho người dùng có lẽ sẽ khó đọc hơn là đặt dọc xuống. Vì vậy, nếu du khách sử dụng ứng dụng này để để dịch các văn bản chữ Hán ở các địa điểm du lịch có thể sẽ không nhận được bản dịch truyền tải đúng ý nghĩa của nguyên tác, cũng như không thể đọc bằng âm Hán Việt. 3.2.2. Công cụ “CLC Phiên Dịch Hán Nôm” Hình 6. Chức năng dịch văn bản chữ Hán từ hình cảnh ngoại cảnh của CLC Công cụ này gọi tắt là công cụ CLC, với hướng tiếp cận tương ứng với giải pháp mà chúng tôi đã đề cập trong phần 3.2. Trang web này có nhiều chức năng khác nhau cho các tác vụ phiên dịch Hán Nôm, trong đó, một trong những chức năng hữu ích nhất phục vụ du lịch là chức năng dịch văn bản chữ Hán ngoại cảnh từ hình ảnh (thể hiện trong Hình 6). Chúng tôi đã thử dùng công cụ này để dịch nghĩa văn bản chữ Hán trong Hình 3, Hình 4 với kết quả như sau: Ở Hình 7, ta có thể thấy rằng, so với Google Translate, cụm “Quốc Thái Dân An” được dịch chính xác hơn. Đồng thời, tuy là trong phần văn bản ở khung dịch, công cụ vẫn đặt các chữ Hán chưa đúng chiều đọc là từ phải sang trái: “國泰民安” thay vì “安 民泰國”, nhưng khi đặt bản phiên âm Hán Việt vào hình ảnh thì đã đúng chiều.
  8. 618 HỘI THẢO DU LỊCH QUỐC GIA: ỨNG DỤNG CÔNG NGHỆ SỐ, KHAI THÁC GIÁ TRỊ DI SẢN, PHỤC VỤ PHÁT TRIỂN DU LỊCH... Hình 7. Kết quả dịch hoành phi trong Hình 3 của CLC Hình 8. Kết quả dịch vế bên trái của câu đối trong Hình 4 của CLC Điểm mạnh của công cụ CLC so với Google Translate đó là có cả phần phiên âm và dịch nghĩa để du khách thuận tiện hơn trong việc đọc và hiểu ý nghĩa văn bản chữ Hán. Về phần đặt bản dịch (như trong Hình 8), thay vì đặt bản dịch nghĩa vào vị trí của văn bản Hán ban đầu thì công cụ CLC đặt phần phiên âm Hán Việt. Chúng tôi thấy điều này là hợp lý, bởi lẽ số chữ trong bản phiên âm bằng với số chữ Hán trong văn bản gốc. Về chất lượng bản dịch, dù chưa hoàn toàn cho được bản dịch nghĩa mượt mà nhất nhưng có thể tạm chấp nhận vì bản dịch này đã phần nào hỗ trợ được du khách hiểu được ý nghĩa của các văn bản chữ Hán. Tuy nhiên, so với Google thì để dùng CLC người dùng cần truy cập vào trang web mà chưa thể tải về dưới dạng ứng dụng (app) trên điện thoại.
  9. Phần 3: DU LỊCH DI SẢN 619 Vì vậy, CLC là một công cụ nên được ứng dụng vào du lịch để giúp cho du khách tìm hiểu các văn bản chữ Hán, vì công cụ vừa nhận dạng ra bản chữ Hán, phiên âm Hán Việt và còn có bản dịch nghĩa để người dùng tham khảo. Tuy nhiên, tới thời điểm hiện tại khi chúng tôi viết bài viết này, chúng tôi nhận thấy phần OCR văn bản chữ Hán ngoại cảnh và dịch âm của CLC đã có thể dần dần đưa vào sử dụng trong thực tế nhưng phần dịch nghĩa vẫn cần có nhiều cải thiện hơn nữa. Công cụ này đã được một nhóm bạn trẻ trải nghiệm thực tế ở các miếu, chùa ở Thành phố Hồ Chí Minh để tìm hiểu các văn chữ Hán. Buổi trải nghiệm này của nhóm đã được phát sóng trên chương trình “Cà phê sáng với VTV3” và đăng tải trên trang Facebook1 vào ngày 15/02/2024. 3.2.3. Gemini của Google Gemini là mô hình ngôn ngữ lớn được phát triển bởi Google vào 6/12/2023 (theo Wikipedia), chúng ta có thể truy cập Chatbot Gemini miễn phí tại website: https:// gemini.google.com/app (truy cập gần nhất vào 20/2/2024). Ngoài tương tác với người dùng bằng văn bản, Gemini cho phép người dùng tải lên hình ảnh và nhập vào câu lệnh yêu cầu Chatbot này thực hiện các tác vụ khác nhau, trong đó có dịch nghĩa. Ở đây, như một du khách với nhu cầu hiểu các văn bản chữ Hán ở các khu du lịch, chùa, miếu, chúng tôi đã sử dụng Gemini như sau: (1) tải lên hình ảnh có chứa văn bản chữ Hán đã chụp (2) Sau đó nhập vào câu lệnh: “Dịch nghĩa sang tiếng Việt văn bản chữ Hán trong hình ảnh sau:”. Kết quả thử nghiệm dịch nghĩa Hình 3, Hình 4 được thể hiện trong Hình 9 và Hình 10 (chúng tôi chụp lại màn hình kết quả tới phần dịch nghĩa, còn các phần thông tin khác mà Gemini trả lời thêm phía sau chúng tôi tạm bỏ qua). Hình 9. Gemini dịch hoành phi từ Hình 3 https://www.facebook.com/giaitrivtv3/videos/418503920740769?locale=vi_VN. Truy cập sau cùng ngày 1 09/03/2024.
  10. 620 HỘI THẢO DU LỊCH QUỐC GIA: ỨNG DỤNG CÔNG NGHỆ SỐ, KHAI THÁC GIÁ TRỊ DI SẢN, PHỤC VỤ PHÁT TRIỂN DU LỊCH... Hình 10. Gemini dịch vế đối bên trái của câu đối trong Hình 4 Về chất lượng OCR và dịch, Hình 9 cho thấy Gemini dịch hoành phi trong Hình 3 khá tốt, tương đương với công cụ CLC, tuy nhiên vẫn chưa xác định đúng được chiều đọc của hoành phi (từ phải sang trái). Còn Hình 10 cho thấy Gemini nhận dạng chưa tốt vế đối dọc trong Hình 4 so với CLC, đáng lẽ phải là “Âu phong Á vũ vũ điều hoà”, Gemini nhận nhầm 2 chữ 雨 thành 2 chữ 兩, điều này dẫn đến việc giải nghĩa chưa thật chính xác. Ngoài ra, đối với trải nghiệm của người dùng, nếu muốn sử dụng Gemini để dịch thì phải làm 2 bước là viết câu lệnh và tải hình ảnh, điều này đôi khi gây bất tiện trong trường hợp du khách muốn đọc nhiều văn bản chữ Hán liên tiếp. Thay vào đó, chụp trực tiếp và nhận kết quả dịch ngay sẽ giúp du khách tiết kiệm thời gian cũng như trải nghiệm không bị ngắt quãng. 4. CÁC GIẢI PHÁP Trong phần này, chúng tôi sẽ tập trung đề xuất các phương hướng ứng dụng trí tuệ nhân tạo để dịch nghĩa các văn bản chữ Hán ở các địa điểm du lịch ở Việt Nam nhằm khai thác kho di sản Hán Nôm phục vụ cho phát triển du lịch, đồng thời góp phần kết nối tri thức từ quá khứ đến hiện tại. Trong các giải pháp dưới đây, mô hình dịch nghĩa mà chúng tôi sẽ đề cập ở mục 3.1 và 3.2 là kết quả nghiên cứu từ các công trình trước của chúng tôi và đã được đưa vào thử nghiệm bằng cách tích hợp lên hệ thống “CLC - Phiên dịch Hán Nôm”1 với mô-đun “Dịch nghĩa (thử nghiệm)”. Mô hình này sẽ được thực thi khi người dùng nhập vào văn bản chữ Hán. Ngoài ra, các đề xuất bên dưới cũng là những đúc kết của chúng tôi từ quá trình quan sát, trải nghiệm các công cụ AI có khả năng dịch chữ Hán mạnh mẽ hiện nay (bên cạnh công cụ của chúng tôi), từ đó 1 https://tools.clc.hcmus.edu.vn/, truy cập lần sau cùng vào ngày 20/02/2024.
  11. Phần 3: DU LỊCH DI SẢN 621 đưa ra ý tưởng vận dụng các công cụ này vào dịch văn bản chữ Hán phục vụ cho hoạt động du lịch cũng như phân tích các ưu và nhược điểm khi triển khai thực tế. 4.1. Triển khai mô hình dịch nghĩa tự động văn bản chữ Hán bằng AI Trước hết để xây dựng được mô hình dịch nghĩa tự động văn bản chữ Hán, các nhóm nghiên cứu ngôn ngữ học - máy tính, cần xây dựng một bộ ngữ liệu song song Hán - Việt ở đa dạng các thể loại văn bản chữ Hán thường xuất hiện trong các khu du lịch ở Việt Nam như: thơ, câu đối, văn biền ngẫu, sắc phong, văn xuôi lịch sử,… vì trong thực tế, kho di sản Hán Nôm ở nước ta rất phong phú. Ví dụ: các câu đối chữ Hán ở đền Hùng, các bài thơ chữ Hán ở cố đô Huế,… Sau đó, ta cần sử dụng bộ ngữ liệu này để huấn luyện cho máy bằng một mô hình AI phù hợp, có thể là dịch máy thống kê, dịch máy mạng nơ-ron, hay kết hợp cả 2,… Trong khuôn khổ của nghiên cứu này, chúng tôi sẽ không đi sâu vào các giải thuật. Mô hình này càng chất lượng thì khi gặp các văn bản chữ Hán mới so với ngữ liệu huấn luyện thì máy có thể dịch tốt dựa trên các quy luật ngôn ngữ. Sau khi có mô hình dịch, ta có thể triển khai lên website hoặc dưới dạng ứng dụng trên điện thoại như đưa lên Cửa hàng Play trên nền tảng Android, hay Appstore trên IOS để người dùng có thể truy cập hoặc tải về sử dụng khi tham quan ở các địa điểm có các văn bản chữ Hán. Người dùng có thể sử dụng bộ gõ Thương Hiệt, hay chức năng viết tay chữ Hán trên điện thoại để nhập liệu các văn bản chữ Hán, sau đó ứng dụng sẽ tự động dịch nghĩa ra tiếng Việt hiện đại. Tuy nhiên, có một vấn đề cần bàn thêm đó là chất lượng dịch nghĩa của mô hình dịch tự động này. Ta đã biết rằng dịch nghĩa là một tác vụ rất khó cần vốn tri thức về ngôn ngữ và ngoài ngôn ngữ rất sâu mới có thể giải mã chính xác được các văn bản chữ Hán vốn được ký mã với những thông điệp thâm sâu. Vậy nên, chúng ta nên liên tục cải thiện chất lượng của các mô hình dịch nghĩa để có những bản dịch chất lượng cho người dùng (du khách). Chúng tôi đề xuất một phương pháp mang tính tổng quát cao, đó là cải tiến mô hình dịch tự động bằng kho ngữ liệu lớn hơn và các kỹ thuật hiện đại hơn, chẳng hạn như mô hình ngôn ngữ lớn (Large Language Model) và nếu được, trước khi triển khai ứng dụng thì mô hình nên được đánh giá bởi con người (human evaluation) bên cạnh đánh giá bằng các độ đo tự động. Ưu điểm của phương pháp này là khả năng ứng dụng rộng rãi ở nhiều địa điểm du lịch có nhiều văn bản chữ Hán khác nhau vì mô hình có khả năng dịch tốt các văn bản mới mà máy chưa từng được “dạy” (huấn luyện). Tuy nhiên, phương pháp này yêu cầu thời gian nghiên cứu đủ lâu và đủ sâu. Một hướng tiếp cận khác đó là cho máy học tăng cường (reinforcement learning) dựa trên phản hồi của người dùng. Nếu các chuyên gia sử dụng phần mềm này, họ có thể góp ý những bản dịch chuẩn xác hơn và từ đó dần dần máy sẽ cải thiện được độ chính xác. Tuy nhiên, cách thức này cũng còn hạn chế vì cần được một nhóm đối tượng sử dụng biết chữ Hán.
  12. 622 HỘI THẢO DU LỊCH QUỐC GIA: ỨNG DỤNG CÔNG NGHỆ SỐ, KHAI THÁC GIÁ TRỊ DI SẢN, PHỤC VỤ PHÁT TRIỂN DU LỊCH... 4.2. Kết hợp dịch nghĩa tự động văn bản chữ Hán với nhận dạng ký tự quang học (OCR) Nếu để dịch nghĩa được các văn bản chữ Hán này, người dùng phải nhập liệu vào bằng bộ gõ hay vẽ chữ như chúng tôi đề cập ở trên thì sẽ khiến người tham quan phải mất nhiều thời gian cho một văn bản; đôi khi điều này không khả thi khi khu du lịch có nhiều văn bản chữ Hán và có khi là những bài khá dài như văn bia, chưa kể có những chữ Hán phức tạp sẽ gây khó khăn cho người dùng không biết chữ Hán. Để người dùng có trải nghiệm tốt nhất, ta có thể tiếp cận theo cách cho du khách chụp ảnh bằng máy ảnh điện thoại và nhập thẳng ảnh vào ứng dụng dịch nghĩa để nhận kết quả. Để làm được điều này, chúng ta cần kết hợp thêm công nghệ nhận dạng ký tự quang học (Optical Character Recognition - OCR). Khi này, phần mềm sẽ tự động phát hiện ra các khu vực có văn bản chữ Hán và chọn các chữ Hán phù hợp cho văn bản đó. Mô hình này cũng đòi hỏi phải được học trên một bộ dữ liệu huấn luyện là các hình ảnh có gán nhãn các văn bản chữ Hán. Hệ thống kết hợp OCR và dịch nghĩa văn bản phục vụ du khách trong việc tìm hiểu ý nghĩa của các hoành phi, câu đối,… được viết bằng chữ Hán ở các địa điểm du lịch của Việt Nam được minh hoạ chi tiết trong Hình 2. Hình 2. Hệ thống kết hợp OCR và dịch nghĩa văn bản chữ Hán ngoại cảnh bằng AI Ưu điểm của phương pháp này là rất tiện dụng cho người dùng trong thực tế: khi cần hiểu nghĩa một văn bản chữ Hán, họ có thể dùng ngay điện thoại thông minh của mình để chụp và nhận kết quả. Tuy nhiên, thách thức của phương pháp này là độ chính xác phụ thuộc vào cả 2 mô hình OCR và dịch nghĩa. Nghĩa là độ lỗi của phần mềm dịch nghĩa tự động văn bản chữ Hán này sẽ bị nhân lên: 1 lần là độ lỗi của mô hình OCR, sau đó là độ lỗi của mô hình dịch nghĩa. Nói cách khác, nếu như mô hình OCR nhận dạng văn bản trong ảnh đầu vào không chính xác thì dẫn đến kết quả dịch càng không chính xác. Ngoài ra, với cách tiếp cận như Hình 2, du khách có thể đọc văn bản chữ Hán thông qua bản phiên âm Hán Việt (dịch âm), kết hợp với dịch nghĩa sẽ giúp họ có thể vừa ghi nhớ các câu đối, hoành phi,... dễ hơn, vừa hiểu được ý nghĩa. Bản phiên âm và bản dịch nghĩa sẽ bổ sung qua lại lẫn nhau trong việc giúp du khách giải mã được các văn bản chữ Hán ở địa điểm du lịch.
  13. Phần 3: DU LỊCH DI SẢN 623 4.3. Sử dụng các mô hình ngôn ngữ lớn Hiện nay, các mô hình ngôn ngữ lớn như ChatGPT1 của OpenAI, Gemini2 của Google đang có ảnh hưởng sâu rộng đến các lĩnh vực đời sống có sử dụng ngôn ngữ. Người dùng có thể sử dụng các chatbot này để dịch nghĩa các văn bản chữ Hán bằng cách tải hình ảnh và viết một câu yêu cầu Chatbot này dịch nghĩa văn bản từ hình ảnh. Trong đó, ChatGPT yêu cầu người dùng trả phí để được sử dụng tính năng này ở phiên bản cao cấp hơn, còn Gemini cho phép người dùng sử dụng tính năng này một cách miễn phí (thông tin này được cập nhật gần nhất vào ngày 20/12/2024). Ưu điểm của cách này là người dùng có thể sử dụng các Chatbot này miễn phí (trừ một số Chatbot như ChatGPT cần trả phí nếu muốn dịch văn bản từ hình ảnh) trong khi khả năng nhận dạng chữ Hán của chúng khá tốt và cho bản dịch khá là mượt mà, tự nhiên vì được huấn luyện trên một kho ngữ liệu khổng lồ. Đồng thời, ta có thể tương tác với các Chatbot này để hỏi thêm các thông tin liên quan đến văn bản hoặc địa điểm du lịch đó (nếu có). Tuy nhiên, nhược điểm của phương pháp này là bản dịch tuy khá là tự nhiên, nhưng một số trường hợp dịch chưa đúng nhưng khiến người dùng lầm tưởng là bản dịch chính xác vì cách giải thích của nó rất mượt mà, ví dụ như dịch chưa chuẩn những từ ngữ văn hóa, điển tích, điển cố,… Về phía người dùng, một trong những điểm bất tiện là phải tải ảnh lên và nhập thêm một câu lệnh thì Chatbot mới cho ra được câu trả lời. Trong trường hợp du khách muốn dịch các văn bản chữ Hán khác nhau thì phải nhập đi nhập lại nhiều lần câu lệnh. 5. KẾT LUẬN VÀ KHUYẾN NGHỊ Qua các kết quả nghiên cứu ở trên cho thấy, các công cụ AI hiện nay có khả năng dịch nghĩa văn bản chữ Hán ở Việt Nam có những điểm mạnh và yếu riêng. Tuy vậy, chúng ta vẫn có thể phần nào vận dụng các công cụ AI này vào trong du lịch dần dần bằng cách tận dụng các điểm mạnh của từng công cụ. Với sự phát triển mạnh mẽ của AI như vậy, chúng ta nên tích cực, chủ động vận dụng những công nghệ tiên tiến này vào việc khai thác giá trị di sản Hán Nôm cho phát triển du lịch, trong đó dịch nghĩa tự động các văn bản chữ Hán là một trong những tác vụ cốt lõi. Với những ứng dụng AI cho dịch nghĩa văn bản chữ Hán, các tổ chức du lịch có thể đào tạo cho các hướng dẫn viên sử dụng thành thạo các công cụ này để hỗ trợ cho việc thuyết minh tại địa điểm du lịch và đồng thời hướng dẫn, phổ biến cho du khách về các ứng dụng này, đặc biệt là công cụ tiện dụng khi kết hợp OCR và dịch âm, dịch nghĩa như CLC. Ngoài ra, các nhà phát triển ứng dụng AI cho dịch thuật Hán Nôm cũng cần cải thiện thêm chất lượng mô hình, ví dụ như kết hợp thêm https://chat.openai.com/. Truy cập lần sau cùng ngày 15/02/2024. 1 https://gemini.google.com/app. Truy cập lần sau cùng ngày 20/02/2024. 2
  14. 624 HỘI THẢO DU LỊCH QUỐC GIA: ỨNG DỤNG CÔNG NGHỆ SỐ, KHAI THÁC GIÁ TRỊ DI SẢN, PHỤC VỤ PHÁT TRIỂN DU LỊCH... sức mạnh của Gemini vào bên trong các mô hình nhận dạng và dịch nghĩa và lập trình công cụ này thành một ứng dụng trên điện thoại (IOS, Android). Việc ứng dụng AI vào dịch nghĩa văn bản chữ Hán mang ý nghĩa thực tế to lớn đối với phát triển du lịch. Chính điều này sẽ góp phần thu hút du khách và phát triển du lịch ở các khu di tích lịch sử - văn hoá, tâm linh,… có những văn bản chữ Hán chưa được dịch nghĩa. Hơn nữa, việc làm này còn góp phần xây dựng những chiếc cầu nối chuyên chở tri thức từ quá khứ đến hiện tại. TÀI LIỆU THAM KHẢO 1. Đào Ngọc Cảnh và Trương Thị Kim Thuỷ. (2019). “Đánh giá của du khách về việc khai thác di sản Hán Nôm phục vụ phát triển du lịch ở tỉnh An Giang”. Tạp chí Khoa học Đại học Cần Thơ, 55 (5), 88-97. 2. Đoàn Mạnh Cương. Văn phòng Quốc hội. (2023). “Khai thác giá trị văn hóa tạo động lực phát triển kinh tế du lịch”. Bộ Văn hoá, Thể thao và Du Lịch, Cục Du lịch Quốc gia Việt Nam. (https://vietnamtourism.gov.vn/post/48415). Truy cập ngày 15/02/2024. 3. Nguyễn Đăng Mạnh. (2003). Mấy vấn đề về phương pháp tìm hiểu, phân tích thơ Hồ Chí Minh. NXB Giáo dục. 4. Nguyễn Sĩ Toàn và Lưu Ngọc Thành. (2017). “Giải pháp phát huy giá trị di sản Hán Nôm tại các di tích quốc gia đặc biệt ở Hà Nội”. Tạp chí Nghiên cứu Văn hoá, Số 22 - tháng 12. 5. Thái Hoàng Lâm và Đinh Điền. (2023). “Dịch nghĩa tự động thơ văn chữ Hán của Việt Nam sang tiếng Việt đương đại sử dụng dịch máy thống kê”. Kỷ yếu Hội nghị Khoa học công nghệ Quốc gia lần thứ XVI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Đà Nẵng, ngày 28-29/9/2023. 6. Viện Ngôn ngữ học. Trung tâm Từ điển học. (2003). Từ điển tiếng Việt. NXB Đà Nẵng.
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2