Nhận diện thực thể tên trong tài liệu y học cổ truyền Hán Việt: Áp dụng mô hình kết hợp BiLSTM-CRF (Mạng bộ nhớ dài - ngắn hạn hai chiều và trường điều kiện ngẫu nhiên)

392 | KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2024

...................................................................................................................................................................................

ÁP DỤNG MÔ HÌNH KẾT HỢP MẠNG BỘ NHỚ

DÀI-NGẮN HẠN HAI CHIỀU VÀ TRƯỜNG ĐIỀU KIỆN

NGẪU NHIÊN (BILSTM-CRF) ĐỂ NHẬN DIỆN

THỰC THỂ CÓ TÊN TRONG TÀI LIỆU Y HỌC

CỔ TRUYỀN VIẾT BẰNG HÁN VIỆT

PHẠM VÕ QUNH NHƯ* - NGUYỄN PHÚC BẢO UYÊN**

Tóm tắt: Y học cổ truyền đã đóng vai trò quan trọng trong lịch sử y học Việt Nam từ

xưa đến nay. Trong nhiều thế kỷ, hàng ngàn văn bản y học quý giá đã được ghi chép bằng chữ

Hán và truyền lại qua các thế hệ. Một trong những thách thức lớn đối với việc xử lý các văn

bản này là Nhận diện Thực thể có tên (NER). Nghiên cứu này nhằm giải quyết vấn đề NER

trong lĩnh vực y học cổ truyền bằng cách tạo ra bộ dữ liệu từ “Lĩnh Nam bản thảo” [1], một

tác phẩm có ảnh hưởng lớn trong lĩnh vực này của Việt Nam. Chúng tôi so sánh hiệu suất của

bốn mô hình trong tác vụ NER: HMM, CRF, BiLSTM-CRF và GPT-4o. Quá trình thực

nghiệm cho thấy mô hình BiLSTM-CRF đạt F1-score với giá trị 0,8364, cao nhất so với 3 mô

hình còn lại. Nghiên cứu này mong muốn được góp phần vào việc bảo tồn và số hóa kiến thức

y học cổ truyền Việt Nam, mở ra hướng phát triển mới cho việc ứng dụng học máy vào văn

bản lịch sử.

Từ khóa: Nhận diện Thực thế có tên, Y học cổ truyền Việt Nam, HMM, CRF,

BiLSTM-CRF, GPT-4o.

I. GIỚI THIỆU

Văn học Việt Nam từ năm 111 trước Công nguyên đến thế kỷ 20, vì ảnh hưởng của

văn hóa và ngôn ngữ Trung Quốc, nên phần lớn được viết dưới dạng chữ Hán cổ [2]. Kho tàng

văn học đồ sộ này không chỉ bao gồm các tác phẩm văn học và triết học, mà còn là những

đóng góp quan trọng trong các lĩnh vực quản lý, đạo đức và đặc biệt là y học cổ truyền. Y học

cổ truyền Việt Nam, với sự kết hợp các phương pháp chữa bệnh bằng thảo dược, châm cứu và

các liệu pháp, là một khía cạnh quan trọng của di sản văn hóa quốc gia. Các tài liệu lịch sử

miêu tả những phương pháp này là nguồn tài nguyên vô giá, cung cấp những hiểu biết sâu sắc

về các phương pháp cổ truyển, và tiếp tục ảnh hưởng đến y học Việt Nam ở thời hiện đại. Tuy

nhiên, nhiều văn bản cổ truyền này đang có nguy cơ bị thất lạc do thời gian, hư hỏng hoặc

thiếu khả năng tiếp cận. Trong kỷ nguyên kỹ thuật số, công nghệ tiên tiến cho phép bảo tồn

* Trường Đại học Khoa học Tự nhiên - ĐHQG TP. HCM; Email: pvqnhu21@apcs.fitus.edu.vn

** Trường Đại học Khoa học Tự nhiên - ĐHQG TP. HCM; Email: npbuyen21@apcs.fitus.edu.vn

NGÔN NGỮ HỌC TÍNH TOÁN: NHỮNG XU HƯỚNG MỚI, TRIỂN VỌNG VÀ THÁCH THỨC | 393

...................................................................................................................................................................................

các bản thảo cổ thông qua việc số hóa, cũng như nâng cao khả năng tiếp cận thông qua việc

dịch thuật các tài liệu cổ. Điều này giúp Việt Nam tôn vinh di sản lịch sử của mình, đồng thời

tích hợp trí tuệ truyền thống vào xã hội hiện đại.

Nhận diện thực thể có tên (NER) là một kỹ thuật quan trọng trong xử lý ngôn ngữ tự

nhiên, đặc biệt đối với các nhiệm vụ liên quan đến văn bản y học, nơi nó đóng vai trò chủ chốt

trong việc xác định và phân loại các thực thể quan trọng như cây thuốc, bệnh tật và phương

pháp điều trị. NER không chỉ hiệu quả trong việc trích xuất dữ liệu từ các văn bản mà còn hỗ

trợ dịch các tác phẩm cổ sang tiếng Việt hiện đại, giúp chúng trở nên dễ tiếp cận hơn đối với

thời đại hiện nay. Mặc dù việc sử dụng NER đã trở nên phổ biến trong nghiên cứu văn học

Việt Nam cổ, ứng dụng của nó trong lĩnh vực y học cổ truyền vẫn còn chưa được nghiên cứu

rộng rãi.

Để bù đắp cho sự hạn chế này, nghiên cứu của chúng tôi hướng tới việc tạo ra tập dữ

liệu và đề xuất phương pháp áp dụng học máy cho NER trong lãnh vực y học cổ truyền Việt

Nam. Về tập dữ liệu, chúng tôi đã phát triển chúng dựa trên cuốn Lĩnh Nam bản thảo [1] được

soạn bởi Hải Thượng Lãn Ông.

Trong bài báo này, chúng tôi trình bày nghiên cứu về Nhận dạng thực thể có tên (NER)

sử dụng ba mô hình: mô hình CRF (Conditional Random Fields), mô hình HMM (Hidden

Markov Model) và mô hình BiLSTM-CRF (Bidirectional Long Short-Term Memory with

Conditional Random Fields). Ngoài ra, chúng tôi còn đánh giá mô hình GPT-4o để so sánh

hiệu quả trong việc gán nhãn với ba mô hình được đề cập phía trên. Nghiên cứu của chúng tôi

được thực hiện các bước sau: (1) lựa chọn các mô hình dựa trên khả năng nắm bắt sự phụ

thuộc theo chuỗi trong văn bản, (2) tiến hành các thí nghiệm trên các văn bản Hán Nôm Việt

Nam, (3) phân tích kết quả thí nghiệm, và (4) thảo luận về các tác động của những phát hiện.

Những đóng góp chính của chúng tôi bao gồm:

● Giới thiệu tập dữ liệu mới trong lĩnh vực y học cổ truyền Việt Nam, nhằm mở

ra các hướng nghiên cứu mới trong lĩnh vực này.

● Đánh giá hiệu quả của các mô hình HMM, CRF và BiLSTM-CRF, làm rõ

những ưu điểm và hạn chế của chúng trong việc xử lý các văn bản cổ điển.

● Làm nổi bật những thách thức và tiềm năng của việc áp dụng học máy vào số

hóa và bảo tồn y học cổ truyền Việt Nam.

Phần còn lại của bài viết được tổ chức như sau: Mục II đánh giá các nghiên cứu NER

hiện có, Mục III trình bày các mô hình liên quan, bao gồm mô hình HMM, CRF và BiLSTM-

CRF. Mục IV mô tả các nguồn và quá trình tiền xử lý của tập dữ liệu được sử dụng trong

nghiên cứu, đồng thời trình bày thí nghiệm. Mục V trình bày các phát hiện của chúng tôi và

thảo luận về tác động của chúng đối với y học cổ truyền Việt Nam và định hướng nghiên cứu

trong tương lai. Cuối cùng, Mục VI và VII là kết luận nghiên cứu.

394 | KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2024

...................................................................................................................................................................................

II. NHỮNG NGHIÊN CỨU LIÊN QUAN

Conditional Random Fields (CRFs) đã chứng minh hiệu quả đáng kể trong việc xử lý

ngôn ngữ tự nhiên (NLP), đặc biệt trong gán nhãn chuỗi và Nhận dạng thực thể có tên (NER).

Ví dụ, Chen và cộng sự [3] đã phát triển một hệ thống NER cho tiếng Trung sử dụng CRF, kết

hợp các đặc trưng cơ bản với các đặc trưng thống kê bổ sung từ tập huấn luyện.

Mặc dù mô hình CRF (Conditional Random Fields) rất hiệu quả, nhưng chúng thường

phụ thuộc vào việc thiết kế thủ công các đặc trưng và kiến thức chuyên ngành, điều này có thể

trở nên khó khăn trong quá trình phát triển. Để khắc phục vấn đề này, Huang và cộng sự [4]

đã giới thiệu mô hình BiLSTM-CRF, sử dụng các LSTM hai chiều để nắm bắt các đặc trưng

ngữ cảnh và kết hợp với khả năng gán nhãn cấp câu của CRF. Sự kết hợp này giúp giảm thiểu

sự phụ thuộc vào nhúng từ, đồng thời nâng cao hiệu suất so với các mô hình trước đây. Cũng

với ý tưởng trên, Lample và cộng sự [5] đã cải tiến phương pháp bằng cách kết hợp LSTM và

CRF với các đại diện từ cấp ký tự, qua đó cải thiện đáng kể hiệu suất Nhận diện Thực thể có

tên (NER) trên nhiều tác vụ đa dạng.

Trong lĩnh vực Nhận diện Thực thể có tên (NER) tiếng Trung, Xu và cộng sự [6] đã

giới thiệu bộ dữ liệu CLUENER2020, tập trung vào nhiều loại danh mục khác nhau. Họ cũng

thực hiện một nghiên cứu để đánh giá hiệu quả của các mô hình khác nhau khi sử dụng bộ dữ

liệu này. Tuy nhiên, một điểm hạn chế của bộ dữ liệu là thiếu sự chú trọng đến y học cổ truyền,

điều này làm giảm khả năng phản ánh chính xác trong lĩnh vực y học.

III. NỀN TẢNG

Trong phần này, chúng tôi sẽ tóm tắt về các mô hình được sử dụng trong nghiên cứu

của mình: HMM, CRF, BiLSTM-CRF và GPT-4.0.

● HMM (Hidden Markov Model) [7] là một mô hình thống kê phổ biến trong

các tác vụ gán nhãn chuỗi. Mô hình này giả định rằng trạng thái hiện tại chỉ phụ thuộc vào

trạng thái trước đó, điều này giúp HMM nắm bắt các mối quan hệ đơn giản trong chuỗi, mặc

dù nó có thể gặp khó khăn trong việc xử lý các mối quan hệ phức tạp hơn. Mục tiêu chính của

HMM là suy luận chuỗi trạng thái ẩn có xác suất cao nhất đã sinh ra một chuỗi quan sát nhất

định, khiến cho nó phù hợp cho các tác vụ như gán nhãn từ loại và nhận diện thực thể có tên

(NER). Tuy nhiên, HMM bị hạn chế bởi sự phụ thuộc vào giả định Markov, điều này làm giảm

khả năng nắm bắt các phụ thuộc dài hạn trong dữ liệu.

● CRF (Conditional Random Fields) [8] là một mô hình xác suất phân biệt nổi

bật trong việc gán nhãn chuỗi, bởi vì nó xem xét toàn bộ chuỗi quan sát và các phụ thuộc nhãn.

So với HMM, CRF cải thiện các giả định độc lập, giúp nó phù hợp hơn cho các tác vụ như

nhận diện thực thể có tên (NER).

● BiLSTM-CRF [3] kết hợp thế mạnh của mạng LSTM hai chiều (BiLSTM), có

khả năng nắm bắt cả ngữ cảnh quá khứ và tương lai trong một chuỗi, với mô hình CRF, cho

phép dự đoán chính xác hơn ở cấp câu trong các tác vụ NER. Mạng BiLSTM xử lý đầu vào

NGÔN NGỮ HỌC TÍNH TOÁN: NHỮNG XU HƯỚNG MỚI, TRIỂN VỌNG VÀ THÁCH THỨC | 395

...................................................................................................................................................................................

theo cả hai chiều, giúp nắm bắt ngữ cảnh từ cả trước và sau, trong khi lớp CRF cho phép dự

đoán chính xác hơn bằng cách mô hình hóa các phụ thuộc giữa các nhãn đầu ra liên tiếp. Cụ

thể, lớp CRF bao gồm một ma trận chuyển trạng thái học các mối quan hệ giữa các nhãn, cho

phép mô hình dự đoán nhãn hiện tại bằng cách sử dụng cả nhãn quá khứ và tương lai, tương

tự như cách các mạng BiLSTM tận dụng các đặc trưng đầu vào xung quanh để cải thiện dự

đoán. Sự kết hợp này mang lại kết quả tốt hơn trong việc gán nhãn câu bằng cách hiệu quả sử

dụng cả ngữ cảnh đầu vào và nhãn.

● GPT-4.0 [9] là một mô hình ngôn ngữ tiên tiến từ OpenAI, có khả năng xử lý

và tạo ra văn bản giống như con người. Trong nghiên cứu của chúng tôi, GPT-4.0 được đưa

vào để so sánh nhờ khả năng hiểu và thực hiện các tác vụ ngôn ngữ phức tạp, bao gồm NER,

với việc tinh chỉnh tối thiểu theo từng tác vụ.

IV. BỘ DỮ LIỆU

Dữ liệu của chúng tôi được lấy từ Lĩnh Nam bản thảo [1], một tác phẩm quan trọng

của Hải Thượng Lãn Ông, được coi là nền tảng trong y học cổ truyền Việt Nam. Tài liệu này

cung cấp một bộ sưu tập chi tiết về các loại thảo dược cùng công dụng của chúng, phản ánh

hàng thế kỷ kiến thức tích lũy trong lĩnh vực y học thảo dược. Tập đầu tiên ghi nhận 496 loại

thảo dược bản địa của Việt Nam, được kế thừa từ công trình của danh y Tuệ Tĩnh, trong khi

tập thứ hai bổ sung thêm 305 loại thảo dược khác. Những mục bổ sung này không chỉ giới

thiệu các loại thảo dược mới được phát hiện mà còn cung cấp thông tin thêm về công dụng

của những thảo dược đã biết, mang đến cái nhìn sâu sắc hơn về các đặc tính y học của chúng.

Để đảm bảo tính xác thực lịch sử và giá trị học thuật của tập dữ liệu, chúng tôi đã thu

thập hình ảnh văn bản gốc từ Thư viện Quốc gia Việt Nam nhằm bảo tồn tính nguyên vẹn và

ý nghĩa lịch sử của tài liệu. Văn bản đã được xử lý bằng công nghệ Nhận dạng Ký tự Quang

học (OCR) để chuyển đổi hình ảnh quét thành văn bản có thể đọc được bằng máy cho các phân

tích và chú thích tính toán. Tuy nhiên, quá trình OCR gặp khó khăn với các ký tự cổ và thuật

ngữ y học phức tạp, dẫn đến những sai sót nhất định. Để khắc phục, chúng tôi đã tiến hành

chỉnh sửa thủ công các lỗi OCR, đặc biệt trong việc phiên âm các thuật ngữ y học cổ truyền

và thuật ngữ chuyên ngành, nhằm đảm bảo độ chính xác cho tập dữ liệu trong các nghiên cứu

tương lai.

Sau đó, văn bản đã được gán nhãn bằng một phương pháp kết hợp, trong đó GPT-4o

được sử dụng để tạo nhãn ban đầu cho các thực thể được đặt tên, và các sửa đổi thủ công được

thực hiện để đảm bảo tính chính xác. Phương pháp này đã giảm đáng kể khối lượng công việc

thủ công cần thiết, đồng thời duy trì mức độ chính xác cao trong xây dựng bộ dữ liệu. Bộ dữ

liệu bao gồm 560 dòng, với tổng cộng 13.738 ký tự.

Chúng tôi tiến hành xác định bốn nhãn Nhận dạng Thực thể có tên (NER) cụ thể phù

hợp với lĩnh vực y học cổ truyền Việt Nam:

396 | KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2024

...................................................................................................................................................................................

● PLT (Tên thực vật): Chỉ tên của các loài thực vật đóng vai trò quan trọng trong

thực hành y học cổ truyền Việt Nam (số lượng nhãn: 525).

● PRP (Thuộc tính): Gồm các phân loại như “Ngũ giác” (năm vị: chua, cay, ngọt,

mặn, đắng) và “Tứ khí” (bốn tính chất: lạnh, mát, ấm, nóng), là những yếu tố thiết yếu trong

chẩn đoán và kê đơn điều trị trong y học cổ truyền, cùng với các thuộc tính liên quan khác (số

lượng nhãn: 1.377).

● ANI (Thành phần động vật): Đề cập đến các loại động vật được sử dụng trong

các phương thuốc truyền thống (số lượng nhãn: 293).

● IGD (Thành phần khác): Bao gồm các thành phần không phải thực vật, chẳng

hạn như nước, muối, hoặc khoáng chất, thường được dùng trong các liệu pháp điều trị (số

lượng nhãn: 290).

Hnh 4.1: Ví dụ của bộ dữ liệu

V. THỰC NGHIỆM VÀ KẾT QUẢ

1. Quy trình huấn luyện.

Chúng tôi đã thực hiện một phân tích so sánh chi tiết giữa các mô hình HMM, CRF và

BiLSTM-CRF, cũng như việc gán nhãn của GPT, thông qua phương pháp k-fold cross-

validation với k = 2, 3, 4 và 5. Mô hình BiLSTM-CRF được triển khai theo các hướng dẫn cài

đặt của Huang và cộng sự [4], Xu và cộng sự [6], sử dụng tốc độ học 0,001 và bộ tối ưu hóa

Adam. Phương pháp gán nhãn BIO đã được áp dụng để tiền xử lý tập dữ liệu, và tất cả các mô

hình đều được huấn luyện trên Google Colab T4.

2. Chỉ số đánh giá.

Để đánh giá hiệu suất của các mô hình Nhận dạng Thực thể có tên (NER), chúng tôi

đã áp dụng các chỉ số đánh giá chuẩn như độ chính xác, độ hồi phục và điểm F1, những chỉ số

này thường được sử dụng trong các nhiệm vụ gán nhãn chuỗi.

● Precision: đo lường tỷ lệ các vị trí phân đoạn mà mô hình dự đoán chính xác

(true positives) so với tổng số vị trí phân đoạn được dự đoán (true positives và false positives).

Áp dụng mô hình kết hợp Mạng bộ nhớ dài - ngắn hạn hai chiều và trường điều kiện ngẫu nhiên (BiLSTM-CRF) để nhận diện thực thể có tên trong tài liệu y học cổ truyền viết bằng Hán Việt

Bài viết trình bày nghiên cứu ứng dụng mô hình BiLSTM-CRF nhận diện thực thể trong y học cổ truyền Hán Việt, đạt F1-score 0.8364. Góp phần bảo tồn và số hóa di sản y học.

Chủ đề:

Tài liệu liên quan

Tài liêu mới

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi