392 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
ÁP DNG MÔ HÌNH KT HP MNG B NH
DÀI-NGN HN HAI CHIỀU VÀ TRƯỜNG ĐIỀU KIN
NGU NHIÊN (BILSTM-CRF) ĐỂ NHN DIN
THC TH CÓ TÊN TRONG TÀI LIU Y HC
C TRUYN VIT BNG HÁN VIT
PHM VÕ QUNH N* - NGUYN PHÚC BO UYÊN**
Tóm tt: Y hc c truyền đã đóng vai trò quan trng trong lch s y hc Vit Nam t
xưa đến nay. Trong nhiu thế kỷ, hàng ngàn văn bản y học quý giá đã được ghi chép bng ch
Hán truyn li qua các thế h. Mt trong nhng thách thc lớn đối vi vic x lý các văn
bn y là Nhn din Thc th tên (NER). Nghiên cu y nhm gii quyết vấn đ NER
trong lĩnh vc y hc c truyn bng cách to ra b d liu t “Lĩnh Nam bản tho [1], mt
tác phm có ảnh hưởng lớn trong lĩnh vực y ca Vit Nam. Chúng tôi so sánh hiu sut ca
bn hình trong tác v NER: HMM, CRF, BiLSTM-CRF GPT-4o. Quá trình thc
nghim cho thy mô hình BiLSTM-CRF đạt F1-score vi giá tr 0,8364, cao nht so vi 3
hình còn li. Nghiên cu này mong muốn được góp phn vào vic bo tn và s hóa kiến thc
y hc c truyn Vit Nam, m ra hướng phát trin mi cho vic ng dng học y vào văn
bn lch s.
T khóa: Nhn din Thc thế tên, Y hc c truyn Vit Nam, HMM, CRF,
BiLSTM-CRF, GPT-4o.
I. GII THIU
Văn học Vit Nam t năm 111 trước Công nguyên đến thế k 20, vì ảnh hưởng ca
văn hóa ngôn ngữ Trung Quc, nên phn lớn được viết dưi dng ch Hán c [2]. Kho tàng
văn học đồ s y không ch bao gm các tác phẩm văn học và triết hc, còn nhng
đóng góp quan trọng trong các nh vực quản lý, đạo đức và đặc bit là y hc c truyn. Y hc
c truyn Vit Nam, vi s kết hợp các phương pháp chữa bnh bng thảo dược, châm cu và
các liu pháp, mt khía cnh quan trng ca di sản văn hóa quốc gia. Các tài liu lch s
miêu t những phương pháp này là nguồn tài nguyên vô giá, cung cp nhng hiu biết sâu sc
v các phương pháp cổ truyn, và tiếp tc ảnh hưởng đến y hc Vit Nam thi hiện đại. Tuy
nhiên, nhiều văn bn c truyền này đang nguy b tht lc do thời gian, hỏng hoc
thiếu kh năng tiếp cn. Trong k nguyên k thut s, công ngh tiên tiến cho phép bo tn
* Trường Đại hc Khoa hc T nhiên - ĐHQG TP. HCM; Email: pvqnhu21@apcs.fitus.edu.vn
** Trường Đại hc Khoa hc T nhiên - ĐHQG TP. HCM; Email: npbuyen21@apcs.fitus.edu.vn
NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 393
...................................................................................................................................................................................
các bn tho c thông qua vic s hóa, cũng như nâng cao kh năng tiếp cn thông qua vic
dch thut các tài liu cổ. Điều này giúp Vit Nam tôn vinh di sn lch s của mình, đồng thi
tích hp trí tu truyn thng vào xã hi hiện đại.
Nhn din thc th tên (NER) mt k thut quan trng trong x lý ngôn ng t
nhiên, đặc bit đối vi các nhim v liên quan đến văn bản y học, nơi nó đóng vai trò chủ cht
trong việc xác định phân loi các thc th quan trọng như y thuốc, bnh tật phương
pháp điều tr. NER không ch hiu qu trong vic trích xut d liu t các văn bản mà còn h
tr dch các tác phm c sang tiếng Vit hiện đại, giúp chúng tr nên d tiếp cận hơn đối vi
thời đại hin nay. Mc dù vic s dụng NER đã trở nên ph biến trong nghiên cứu văn học
Vit Nam c, ng dng của nó trong lĩnh vc y hc c truyn vẫn còn chưa được nghiên cu
rng rãi.
Để bù đp cho s hn chế này, nghiên cu của chúng tôi hướng ti vic to ra tp d
liệu và đề xuất phương pháp áp dụng hc y cho NER trong lãnh vc y hc c truyn Vit
Nam. V tp d liệu, chúng tôi đã phát triển chúng da trên cuốn Lĩnh Nam bản thảo [1] được
son bi Hải Thượng Lãn Ông.
Trong bài báo này, chúng tôi trình bày nghiên cu v Nhn dng thc th có tên (NER)
s dng ba hình: hình CRF (Conditional Random Fields), hình HMM (Hidden
Markov Model) hình BiLSTM-CRF (Bidirectional Long Short-Term Memory with
Conditional Random Fields). Ngoài ra, chúng tôi còn đánh giá hình GPT-4o để so sánh
hiu qu trong vic gán nhãn với ba mô hình được đề cp phía trên. Nghiên cu ca chúng tôi
được thc hiện các bước sau: (1) la chn các mô hình da trên kh năng nắm bt s ph
thuc theo chuỗi trong văn bản, (2) tiến hành các thí nghiệm trên các văn bn Hán Nôm Vit
Nam, (3) phân tích kết qu thí nghim, và (4) tho lun v các tác động ca nhng phát hin.
Những đóng góp chính của chúng tôi bao gm:
Gii thiu tp d liu mới trong lĩnh vực y hc c truyn Vit Nam, nhm m
ra các hướng nghiên cu mới trong lĩnh vực này.
Đánh giá hiu qu ca các hình HMM, CRF BiLSTM-CRF, làm
những ưu điểm và hn chế ca chúng trong vic x lý các văn bản c điển.
Làm ni bt nhng thách thc tiềm năng của vic áp dng hc máy vào s
hóa và bo tn y hc c truyn Vit Nam.
Phn còn li ca bài viết được t chức như sau: Mục II đánh giá các nghiên cu NER
hin có, Mc III trình bày các mô hình liên quan, bao gm mô hình HMM, CRF và BiLSTM-
CRF. Mc IV t các ngun quá trình tin x ca tp d liệu đưc s dng trong
nghiên cứu, đồng thi trình bày thí nghim. Mc V trình bày các phát hin ca chúng tôi
tho lun v tác động của chúng đối vi y hc c truyn Việt Nam và định hướng nghiên cu
trong tương lai. Cuối cùng, Mc VI và VII là kết lun nghiên cu.
394 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
II. NHNG NGHIÊN CU LIÊN QUAN
Conditional Random Fields (CRFs) đã chứng minh hiu qu đáng kể trong vic x lý
ngôn ng t nhiên (NLP), đặc bit trong gán nhãn chui và Nhn dng thc thtên (NER).
Ví d, Chen và cng s [3] đã phát triển mt h thng NER cho tiếng Trung s dng CRF, kết
hợp các đặc trưng cơ bản với các đặc trưng thống kê b sung t tp hun luyn.
Mc dù mô hình CRF (Conditional Random Fields) rt hiu qu, nhưng chúng thường
ph thuc vào vic thiết kế th công các đặc trưng kiến thức chuyên ngành, điều này có th
tr nên khó khăn trong qtrình phát triển. Để khc phc vấn đ này, Huang cng s [4]
đã giới thiu hình BiLSTM-CRF, s dng các LSTM hai chiều để nm bắt các đặc trưng
ng cnh và kết hp vi kh năng gán nhãn cấp câu ca CRF. S kết hp này giúp gim thiu
s ph thuc vào nhúng từ, đồng thi nâng cao hiu sut so với các mô hình trước đây. Cũng
vi ý ng trên, Lample và cng s [5] đã cải tiến phương pháp bằng cách kết hp LSTM và
CRF với các đại din t cp ký tự, qua đó cải thin đáng kể hiu sut Nhn din Thc th
tên (NER) trên nhiu tác v đa dạng.
Trong lĩnh vực Nhn din Thc th tên (NER) tiếng Trung, Xu và cng s [6] đã
gii thiu b d liu CLUENER2020, tp trung vào nhiu loi danh mc khác nhau. H cũng
thc hin mt nghiên cứu để đánh giá hiệu qu ca các mô hình khác nhau khi s dng b d
liu này. Tuy nhiên, một điểm hn chế ca b d liu thiếu s chú trọng đến y hc c truyn,
điều này làm gim kh năng phản ánh chính xác trong lĩnh vực y hc.
III. NN TNG
Trong phn y, chúng tôi s tóm tt v các hình được s dng trong nghiên cu
ca mình: HMM, CRF, BiLSTM-CRF và GPT-4.0.
HMM (Hidden Markov Model) [7] mt hình thng ph biến trong
các tác v gán nhãn chui. hình này gi định rng trng thái hin ti ch ph thuc vào
trạng thái trước đó, điều này giúp HMM nm bt các mi quan h đơn giản trong chui, mc
dù nó có th gặp khó khăn trong việc x lý các mi quan h phc tp hơn. Mục tiêu chính ca
HMM là suy lun chui trng thái n có xác sut cao nhất đã sinh ra một chui quan sát nht
định, khiến cho phù hp cho các tác v như gán nhãn t loi và nhn din thc th tên
(NER). Tuy nhiên, HMM b hn chế bi s ph thuc vào gi định Markov, điều y làm gim
kh năng nắm bt các ph thuc dài hn trong d liu.
CRF (Conditional Random Fields) [8] là mt mô hình xác sut phân bit ni
bt trong vic gán nhãn chui, bi xem xét toàn b chui quan sát các ph thuc nhãn.
So vi HMM, CRF ci thin các gi định độc lp, giúp phù hợp hơn cho các tác v như
nhn din thc th có tên (NER).
BiLSTM-CRF [3] kết hp thế mnh ca mng LSTM hai chiu (BiLSTM), có
kh năng nm bt c ng cnh quá kh tương lai trong mt chui, vi hình CRF, cho
phép d đoán chính xác hơn cp câu trong các tác v NER. Mng BiLSTM x đầu vào
NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 395
...................................................................................................................................................................................
theo c hai chiu, giúp nm bt ng cnh t c trước sau, trong khi lp CRF cho phép d
đoán chính xác hơn bằng cách hình hóa các ph thuc giữa các nhãn đu ra liên tiếp. C
th, lp CRF bao gm mt ma trn chuyn trng thái hc các mi quan h gia các nhãn, cho
phép hình d đoán nhãn hiện ti bng cách s dng c nhãn quá kh tương lai, tương
t như ch các mng BiLSTM tn dụng các đặc trưng đầu vào xung quanh đ ci thin d
đoán. Sự kết hp này mang li kết qu tốt hơn trong việc gán nhãn câu bng cách hiu qu s
dng c ng cảnh đầu vào và nhãn.
GPT-4.0 [9]mt mô hình ngôn ng tiên tiến t OpenAI, có kh năng x
tạo ra văn bn giống như con người. Trong nghiên cu ca chúng tôi, GPT-4.0 được đưa
vào để so sánh nh kh năng hiểu và thc hin các tác v ngôn ng phc tp, bao gm NER,
vi vic tinh chnh ti thiu theo tng tác v.
IV. B D LIU
D liu của chúng tôi đưc ly t Lĩnh Nam bản tho [1], mt tác phm quan trng
ca Hải Thượng Lãn Ông, đưc coi là nn tng trong y hc c truyn Vit Nam. Tài liu này
cung cp mt b sưu tập chi tiết v các loi thảo dược cùng công dng ca chúng, phn ánh
hàng thế k kiến thức tích lũy trong lĩnh vc y hc thảo dược. Tập đầu tiên ghi nhn 496 loi
thảo dược bản địa ca Việt Nam, được kế tha t ng trình ca danh y Tu Tĩnh, trong khi
tp th hai b sung thêm 305 loi thảo dược khác. Nhng mc b sung này không ch gii
thiu các loi thảo dược mi được phát hin còn cung cp thông tin thêm v công dng
ca nhng thảo dược đã biết, mang đến cái nhìn sâu sắc hơn về các đặc tính y hc ca chúng.
Để đảm bo tính xác thc lch sgiá tr hc thut ca tp d liệu, chúng tôi đã thu
thp hình ảnh văn bn gc t Thư viện Quc gia Vit Nam nhm bo tn tính nguyên vn
ý nghĩa lch s ca tài liu. Văn bản đã được x lý bng công ngh Nhn dng t Quang
học (OCR) để chuyển đổi hình ảnh quét thành văn bản th đọc được bng máy cho các phân
tích và chú thích tính toán. Tuy nhiên, quá trình OCR gặp khó khăn với các ký t cthut
ng y hc phc tp, dẫn đến nhng sai sót nhất định. Để khc phục, chúng tôi đã tiến hành
chnh sa th công các lỗi OCR, đặc bit trong vic phiên âm các thut ng y hc c truyn
và thut ng chuyên ngành, nhằm đảm bảo độ chính xác cho tp d liu trong các nghiên cu
tương lai.
Sau đó, văn bản đã được gán nhãn bng một phương pháp kết hợp, trong đó GPT-4o
được s dụng để tạo nhãn ban đầu cho các thc th được đặt tên, và các sửa đổi th công đưc
thc hiện để đảm bảo tính chính xác. Phương pháp này đã giảm đáng kể khối lượng công vic
th công cn thiết, đồng thi duy trì mức độ chính xác cao trong xây dng b d liu. B d
liu bao gm 560 dòng, vi tng cng 13.738 ký t.
Chúng tôi tiến hành xác đnh bn nhãn Nhn dng Thc th có tên (NER) c th phù
hp với lĩnh vc y hc c truyn Vit Nam:
396 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
PLT (Tên thc vt): Ch tên ca các loài thc vật đóng vai trò quan trọng trong
thc hành y hc c truyn Vit Nam (s ng nhãn: 525).
PRP (Thuc tính): Gm các phân loại như “Ngũ giác” (năm vị: chua, cay, ngt,
mặn, đắng) T khí (bn tính cht: lnh, mát, m, nóng), là nhng yếu t thiết yếu trong
chẩn đoán và kê đơn điều tr trong y hc c truyn, cùng vi các thuc tính liên quan khác (s
ng nhãn: 1.377).
ANI (Thành phần động vật): Đề cập đến các loại đng vật được s dng trong
các phương thuốc truyn thng (s ng nhãn: 293).
IGD (Thành phn khác): Bao gm các thành phn không phi thc vt, chng
hạn như nước, mui, hoc khoáng chất, thường được dùng trong các liu pháp điu tr (s
ng nhãn: 290).
Hnh 4.1: Ví d ca b d liu
V. THC NGHIM VÀ KT QU
1. Quy trình hun luyn.
Chúng tôi đã thực hin mt phân tích so sánh chi tiết gia các mô hình HMM, CRF và
BiLSTM-CRF, cũng như việc gán nhãn ca GPT, thông qua phương pháp k-fold cross-
validation vi k = 2, 3, 4 và 5. Mô hình BiLSTM-CRF được triển khai theo các hướng dn cài
đặt ca Huang và cng s [4], Xu và cng s [6], s dng tc độ hc 0,001 và b tối ưu hóa
Adam. Phương pháp gán nhãn BIO đã được áp dng để tin xtp d liu, và tt c các
hình đều được hun luyn trên Google Colab T4.
2. Ch s đánh giá.
Để đánh giá hiệu sut ca các hình Nhn dng Thc th tên (NER), chúng tôi
đã áp dụng các ch s đánh giá chuẩn như độ chính xác, độ hi phục và điểm F1, nhng ch s
này thường được s dng trong các nhim v gán nhãn chui.
Precision: đo lường t l các v trí phân đon hình d đoán chính xác
(true positives) so vi tng s v trí phân đoạn được d đoán (true positives và false positives).