
392 | KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2024
...................................................................................................................................................................................
ÁP DỤNG MÔ HÌNH KẾT HỢP MẠNG BỘ NHỚ
DÀI-NGẮN HẠN HAI CHIỀU VÀ TRƯỜNG ĐIỀU KIỆN
NGẪU NHIÊN (BILSTM-CRF) ĐỂ NHẬN DIỆN
THỰC THỂ CÓ TÊN TRONG TÀI LIỆU Y HỌC
CỔ TRUYỀN VIẾT BẰNG HÁN VIỆT
PHẠM VÕ QUNH NHƯ* - NGUYỄN PHÚC BẢO UYÊN**
Tóm tắt: Y học cổ truyền đã đóng vai trò quan trọng trong lịch sử y học Việt Nam từ
xưa đến nay. Trong nhiều thế kỷ, hàng ngàn văn bản y học quý giá đã được ghi chép bằng chữ
Hán và truyền lại qua các thế hệ. Một trong những thách thức lớn đối với việc xử lý các văn
bản này là Nhận diện Thực thể có tên (NER). Nghiên cứu này nhằm giải quyết vấn đề NER
trong lĩnh vực y học cổ truyền bằng cách tạo ra bộ dữ liệu từ “Lĩnh Nam bản thảo” [1], một
tác phẩm có ảnh hưởng lớn trong lĩnh vực này của Việt Nam. Chúng tôi so sánh hiệu suất của
bốn mô hình trong tác vụ NER: HMM, CRF, BiLSTM-CRF và GPT-4o. Quá trình thực
nghiệm cho thấy mô hình BiLSTM-CRF đạt F1-score với giá trị 0,8364, cao nhất so với 3 mô
hình còn lại. Nghiên cứu này mong muốn được góp phần vào việc bảo tồn và số hóa kiến thức
y học cổ truyền Việt Nam, mở ra hướng phát triển mới cho việc ứng dụng học máy vào văn
bản lịch sử.
Từ khóa: Nhận diện Thực thế có tên, Y học cổ truyền Việt Nam, HMM, CRF,
BiLSTM-CRF, GPT-4o.
I. GIỚI THIỆU
Văn học Việt Nam từ năm 111 trước Công nguyên đến thế kỷ 20, vì ảnh hưởng của
văn hóa và ngôn ngữ Trung Quốc, nên phần lớn được viết dưới dạng chữ Hán cổ [2]. Kho tàng
văn học đồ sộ này không chỉ bao gồm các tác phẩm văn học và triết học, mà còn là những
đóng góp quan trọng trong các lĩnh vực quản lý, đạo đức và đặc biệt là y học cổ truyền. Y học
cổ truyền Việt Nam, với sự kết hợp các phương pháp chữa bệnh bằng thảo dược, châm cứu và
các liệu pháp, là một khía cạnh quan trọng của di sản văn hóa quốc gia. Các tài liệu lịch sử
miêu tả những phương pháp này là nguồn tài nguyên vô giá, cung cấp những hiểu biết sâu sắc
về các phương pháp cổ truyển, và tiếp tục ảnh hưởng đến y học Việt Nam ở thời hiện đại. Tuy
nhiên, nhiều văn bản cổ truyền này đang có nguy cơ bị thất lạc do thời gian, hư hỏng hoặc
thiếu khả năng tiếp cận. Trong kỷ nguyên kỹ thuật số, công nghệ tiên tiến cho phép bảo tồn
* Trường Đại học Khoa học Tự nhiên - ĐHQG TP. HCM; Email: pvqnhu21@apcs.fitus.edu.vn
** Trường Đại học Khoa học Tự nhiên - ĐHQG TP. HCM; Email: npbuyen21@apcs.fitus.edu.vn

NGÔN NGỮ HỌC TÍNH TOÁN: NHỮNG XU HƯỚNG MỚI, TRIỂN VỌNG VÀ THÁCH THỨC | 393
...................................................................................................................................................................................
các bản thảo cổ thông qua việc số hóa, cũng như nâng cao khả năng tiếp cận thông qua việc
dịch thuật các tài liệu cổ. Điều này giúp Việt Nam tôn vinh di sản lịch sử của mình, đồng thời
tích hợp trí tuệ truyền thống vào xã hội hiện đại.
Nhận diện thực thể có tên (NER) là một kỹ thuật quan trọng trong xử lý ngôn ngữ tự
nhiên, đặc biệt đối với các nhiệm vụ liên quan đến văn bản y học, nơi nó đóng vai trò chủ chốt
trong việc xác định và phân loại các thực thể quan trọng như cây thuốc, bệnh tật và phương
pháp điều trị. NER không chỉ hiệu quả trong việc trích xuất dữ liệu từ các văn bản mà còn hỗ
trợ dịch các tác phẩm cổ sang tiếng Việt hiện đại, giúp chúng trở nên dễ tiếp cận hơn đối với
thời đại hiện nay. Mặc dù việc sử dụng NER đã trở nên phổ biến trong nghiên cứu văn học
Việt Nam cổ, ứng dụng của nó trong lĩnh vực y học cổ truyền vẫn còn chưa được nghiên cứu
rộng rãi.
Để bù đắp cho sự hạn chế này, nghiên cứu của chúng tôi hướng tới việc tạo ra tập dữ
liệu và đề xuất phương pháp áp dụng học máy cho NER trong lãnh vực y học cổ truyền Việt
Nam. Về tập dữ liệu, chúng tôi đã phát triển chúng dựa trên cuốn Lĩnh Nam bản thảo [1] được
soạn bởi Hải Thượng Lãn Ông.
Trong bài báo này, chúng tôi trình bày nghiên cứu về Nhận dạng thực thể có tên (NER)
sử dụng ba mô hình: mô hình CRF (Conditional Random Fields), mô hình HMM (Hidden
Markov Model) và mô hình BiLSTM-CRF (Bidirectional Long Short-Term Memory with
Conditional Random Fields). Ngoài ra, chúng tôi còn đánh giá mô hình GPT-4o để so sánh
hiệu quả trong việc gán nhãn với ba mô hình được đề cập phía trên. Nghiên cứu của chúng tôi
được thực hiện các bước sau: (1) lựa chọn các mô hình dựa trên khả năng nắm bắt sự phụ
thuộc theo chuỗi trong văn bản, (2) tiến hành các thí nghiệm trên các văn bản Hán Nôm Việt
Nam, (3) phân tích kết quả thí nghiệm, và (4) thảo luận về các tác động của những phát hiện.
Những đóng góp chính của chúng tôi bao gồm:
● Giới thiệu tập dữ liệu mới trong lĩnh vực y học cổ truyền Việt Nam, nhằm mở
ra các hướng nghiên cứu mới trong lĩnh vực này.
● Đánh giá hiệu quả của các mô hình HMM, CRF và BiLSTM-CRF, làm rõ
những ưu điểm và hạn chế của chúng trong việc xử lý các văn bản cổ điển.
● Làm nổi bật những thách thức và tiềm năng của việc áp dụng học máy vào số
hóa và bảo tồn y học cổ truyền Việt Nam.
Phần còn lại của bài viết được tổ chức như sau: Mục II đánh giá các nghiên cứu NER
hiện có, Mục III trình bày các mô hình liên quan, bao gồm mô hình HMM, CRF và BiLSTM-
CRF. Mục IV mô tả các nguồn và quá trình tiền xử lý của tập dữ liệu được sử dụng trong
nghiên cứu, đồng thời trình bày thí nghiệm. Mục V trình bày các phát hiện của chúng tôi và
thảo luận về tác động của chúng đối với y học cổ truyền Việt Nam và định hướng nghiên cứu
trong tương lai. Cuối cùng, Mục VI và VII là kết luận nghiên cứu.

394 | KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2024
...................................................................................................................................................................................
II. NHỮNG NGHIÊN CỨU LIÊN QUAN
Conditional Random Fields (CRFs) đã chứng minh hiệu quả đáng kể trong việc xử lý
ngôn ngữ tự nhiên (NLP), đặc biệt trong gán nhãn chuỗi và Nhận dạng thực thể có tên (NER).
Ví dụ, Chen và cộng sự [3] đã phát triển một hệ thống NER cho tiếng Trung sử dụng CRF, kết
hợp các đặc trưng cơ bản với các đặc trưng thống kê bổ sung từ tập huấn luyện.
Mặc dù mô hình CRF (Conditional Random Fields) rất hiệu quả, nhưng chúng thường
phụ thuộc vào việc thiết kế thủ công các đặc trưng và kiến thức chuyên ngành, điều này có thể
trở nên khó khăn trong quá trình phát triển. Để khắc phục vấn đề này, Huang và cộng sự [4]
đã giới thiệu mô hình BiLSTM-CRF, sử dụng các LSTM hai chiều để nắm bắt các đặc trưng
ngữ cảnh và kết hợp với khả năng gán nhãn cấp câu của CRF. Sự kết hợp này giúp giảm thiểu
sự phụ thuộc vào nhúng từ, đồng thời nâng cao hiệu suất so với các mô hình trước đây. Cũng
với ý tưởng trên, Lample và cộng sự [5] đã cải tiến phương pháp bằng cách kết hợp LSTM và
CRF với các đại diện từ cấp ký tự, qua đó cải thiện đáng kể hiệu suất Nhận diện Thực thể có
tên (NER) trên nhiều tác vụ đa dạng.
Trong lĩnh vực Nhận diện Thực thể có tên (NER) tiếng Trung, Xu và cộng sự [6] đã
giới thiệu bộ dữ liệu CLUENER2020, tập trung vào nhiều loại danh mục khác nhau. Họ cũng
thực hiện một nghiên cứu để đánh giá hiệu quả của các mô hình khác nhau khi sử dụng bộ dữ
liệu này. Tuy nhiên, một điểm hạn chế của bộ dữ liệu là thiếu sự chú trọng đến y học cổ truyền,
điều này làm giảm khả năng phản ánh chính xác trong lĩnh vực y học.
III. NỀN TẢNG
Trong phần này, chúng tôi sẽ tóm tắt về các mô hình được sử dụng trong nghiên cứu
của mình: HMM, CRF, BiLSTM-CRF và GPT-4.0.
● HMM (Hidden Markov Model) [7] là một mô hình thống kê phổ biến trong
các tác vụ gán nhãn chuỗi. Mô hình này giả định rằng trạng thái hiện tại chỉ phụ thuộc vào
trạng thái trước đó, điều này giúp HMM nắm bắt các mối quan hệ đơn giản trong chuỗi, mặc
dù nó có thể gặp khó khăn trong việc xử lý các mối quan hệ phức tạp hơn. Mục tiêu chính của
HMM là suy luận chuỗi trạng thái ẩn có xác suất cao nhất đã sinh ra một chuỗi quan sát nhất
định, khiến cho nó phù hợp cho các tác vụ như gán nhãn từ loại và nhận diện thực thể có tên
(NER). Tuy nhiên, HMM bị hạn chế bởi sự phụ thuộc vào giả định Markov, điều này làm giảm
khả năng nắm bắt các phụ thuộc dài hạn trong dữ liệu.
● CRF (Conditional Random Fields) [8] là một mô hình xác suất phân biệt nổi
bật trong việc gán nhãn chuỗi, bởi vì nó xem xét toàn bộ chuỗi quan sát và các phụ thuộc nhãn.
So với HMM, CRF cải thiện các giả định độc lập, giúp nó phù hợp hơn cho các tác vụ như
nhận diện thực thể có tên (NER).
● BiLSTM-CRF [3] kết hợp thế mạnh của mạng LSTM hai chiều (BiLSTM), có
khả năng nắm bắt cả ngữ cảnh quá khứ và tương lai trong một chuỗi, với mô hình CRF, cho
phép dự đoán chính xác hơn ở cấp câu trong các tác vụ NER. Mạng BiLSTM xử lý đầu vào

NGÔN NGỮ HỌC TÍNH TOÁN: NHỮNG XU HƯỚNG MỚI, TRIỂN VỌNG VÀ THÁCH THỨC | 395
...................................................................................................................................................................................
theo cả hai chiều, giúp nắm bắt ngữ cảnh từ cả trước và sau, trong khi lớp CRF cho phép dự
đoán chính xác hơn bằng cách mô hình hóa các phụ thuộc giữa các nhãn đầu ra liên tiếp. Cụ
thể, lớp CRF bao gồm một ma trận chuyển trạng thái học các mối quan hệ giữa các nhãn, cho
phép mô hình dự đoán nhãn hiện tại bằng cách sử dụng cả nhãn quá khứ và tương lai, tương
tự như cách các mạng BiLSTM tận dụng các đặc trưng đầu vào xung quanh để cải thiện dự
đoán. Sự kết hợp này mang lại kết quả tốt hơn trong việc gán nhãn câu bằng cách hiệu quả sử
dụng cả ngữ cảnh đầu vào và nhãn.
● GPT-4.0 [9] là một mô hình ngôn ngữ tiên tiến từ OpenAI, có khả năng xử lý
và tạo ra văn bản giống như con người. Trong nghiên cứu của chúng tôi, GPT-4.0 được đưa
vào để so sánh nhờ khả năng hiểu và thực hiện các tác vụ ngôn ngữ phức tạp, bao gồm NER,
với việc tinh chỉnh tối thiểu theo từng tác vụ.
IV. BỘ DỮ LIỆU
Dữ liệu của chúng tôi được lấy từ Lĩnh Nam bản thảo [1], một tác phẩm quan trọng
của Hải Thượng Lãn Ông, được coi là nền tảng trong y học cổ truyền Việt Nam. Tài liệu này
cung cấp một bộ sưu tập chi tiết về các loại thảo dược cùng công dụng của chúng, phản ánh
hàng thế kỷ kiến thức tích lũy trong lĩnh vực y học thảo dược. Tập đầu tiên ghi nhận 496 loại
thảo dược bản địa của Việt Nam, được kế thừa từ công trình của danh y Tuệ Tĩnh, trong khi
tập thứ hai bổ sung thêm 305 loại thảo dược khác. Những mục bổ sung này không chỉ giới
thiệu các loại thảo dược mới được phát hiện mà còn cung cấp thông tin thêm về công dụng
của những thảo dược đã biết, mang đến cái nhìn sâu sắc hơn về các đặc tính y học của chúng.
Để đảm bảo tính xác thực lịch sử và giá trị học thuật của tập dữ liệu, chúng tôi đã thu
thập hình ảnh văn bản gốc từ Thư viện Quốc gia Việt Nam nhằm bảo tồn tính nguyên vẹn và
ý nghĩa lịch sử của tài liệu. Văn bản đã được xử lý bằng công nghệ Nhận dạng Ký tự Quang
học (OCR) để chuyển đổi hình ảnh quét thành văn bản có thể đọc được bằng máy cho các phân
tích và chú thích tính toán. Tuy nhiên, quá trình OCR gặp khó khăn với các ký tự cổ và thuật
ngữ y học phức tạp, dẫn đến những sai sót nhất định. Để khắc phục, chúng tôi đã tiến hành
chỉnh sửa thủ công các lỗi OCR, đặc biệt trong việc phiên âm các thuật ngữ y học cổ truyền
và thuật ngữ chuyên ngành, nhằm đảm bảo độ chính xác cho tập dữ liệu trong các nghiên cứu
tương lai.
Sau đó, văn bản đã được gán nhãn bằng một phương pháp kết hợp, trong đó GPT-4o
được sử dụng để tạo nhãn ban đầu cho các thực thể được đặt tên, và các sửa đổi thủ công được
thực hiện để đảm bảo tính chính xác. Phương pháp này đã giảm đáng kể khối lượng công việc
thủ công cần thiết, đồng thời duy trì mức độ chính xác cao trong xây dựng bộ dữ liệu. Bộ dữ
liệu bao gồm 560 dòng, với tổng cộng 13.738 ký tự.
Chúng tôi tiến hành xác định bốn nhãn Nhận dạng Thực thể có tên (NER) cụ thể phù
hợp với lĩnh vực y học cổ truyền Việt Nam:

396 | KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2024
...................................................................................................................................................................................
● PLT (Tên thực vật): Chỉ tên của các loài thực vật đóng vai trò quan trọng trong
thực hành y học cổ truyền Việt Nam (số lượng nhãn: 525).
● PRP (Thuộc tính): Gồm các phân loại như “Ngũ giác” (năm vị: chua, cay, ngọt,
mặn, đắng) và “Tứ khí” (bốn tính chất: lạnh, mát, ấm, nóng), là những yếu tố thiết yếu trong
chẩn đoán và kê đơn điều trị trong y học cổ truyền, cùng với các thuộc tính liên quan khác (số
lượng nhãn: 1.377).
● ANI (Thành phần động vật): Đề cập đến các loại động vật được sử dụng trong
các phương thuốc truyền thống (số lượng nhãn: 293).
● IGD (Thành phần khác): Bao gồm các thành phần không phải thực vật, chẳng
hạn như nước, muối, hoặc khoáng chất, thường được dùng trong các liệu pháp điều trị (số
lượng nhãn: 290).
Hnh 4.1: Ví dụ của bộ dữ liệu
V. THỰC NGHIỆM VÀ KẾT QUẢ
1. Quy trình huấn luyện.
Chúng tôi đã thực hiện một phân tích so sánh chi tiết giữa các mô hình HMM, CRF và
BiLSTM-CRF, cũng như việc gán nhãn của GPT, thông qua phương pháp k-fold cross-
validation với k = 2, 3, 4 và 5. Mô hình BiLSTM-CRF được triển khai theo các hướng dẫn cài
đặt của Huang và cộng sự [4], Xu và cộng sự [6], sử dụng tốc độ học 0,001 và bộ tối ưu hóa
Adam. Phương pháp gán nhãn BIO đã được áp dụng để tiền xử lý tập dữ liệu, và tất cả các mô
hình đều được huấn luyện trên Google Colab T4.
2. Chỉ số đánh giá.
Để đánh giá hiệu suất của các mô hình Nhận dạng Thực thể có tên (NER), chúng tôi
đã áp dụng các chỉ số đánh giá chuẩn như độ chính xác, độ hồi phục và điểm F1, những chỉ số
này thường được sử dụng trong các nhiệm vụ gán nhãn chuỗi.
● Precision: đo lường tỷ lệ các vị trí phân đoạn mà mô hình dự đoán chính xác
(true positives) so với tổng số vị trí phân đoạn được dự đoán (true positives và false positives).