480 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
ELECTRA-NER-VIETNAMESE-MEDICAL-MÔ HÌNH
NHN DIN THC TH TRÊN VĂN BẢN Y T TING VIT
PHM TRN NHT MINH* - NGUYN TH XUÂN HIN**
Tóm tt: Nhn din thc th (NER) mt thành phn quan trng trong vic x văn
bn y tế, đặc bit là trong vic trích xut thông tin lâm sàng t các báo cáo bnh lý. Trong bài
báo này, mt h thng NER chúng tôi trình bày được thiết kế riêng cho văn bản y tế tiếng Vit,
tập trung vào lĩnh vực bnh hc. H thng của chúng tôi xác định và phân loi các thc th y
học chính như "person", “disease”, “symptom”, “part” and “treatment”. Chúng tôi s dng
mt hình tin hun luyn dựa trên Electra được tối ưu hóa cho tiếng Việt, đạt được điểm
F1 là 90% trên tp d liu bnh lý chun. Kết qu cho thy tính hiu qu của phương pháp của
chúng tôi trong vic x các thut ng y tế phc tp trong tiếng Vit, cung cp mt gii pháp
mnh m cho vic trích xut thông tin lâm sàng. Nghiên cứu trong tương lai nhm m rng
kh năng của hình để bao ph thêm các thc th y tế ci thin hiu sut trên các thut
ng hiếm hoặc mơ hồ.
T khóa: NER Vietnamese model, Electra, thc th y học, rút trích thông tin văn
bn, bnh hc.
* Trường Đại hc Khoa hc T nhiên - ĐHQG TP. H Chí Minh; Email: minhpham@gmail.com
** Trường Đại hc Khoa hc T nhiên - ĐHQG TP. H Chí Minh; Email: ntxhien98@gmail.com
NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 481
...................................................................................................................................................................................
482 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
1. GII THIU
Nhn dng thc th tên (NER) mt nhim v bản trong x ngôn ng t
nhiên (NLP) và rt quan trng cho vic trích xut thông tin và t chc tri thc. NER tp trung
vào việc xác định phân loi các thc th tên - thường thấy như nhân, tổ chức, địa điểm
và thời gian… trong các dữ liệu văn bản. Tm quan trng ca bài toán NER nm kh năng
chuyển đổi văn bản không cu trúc thành thông tin có cu trúc, t đó nâng cao khả năng truy
xut, phân tích hiu biết d liu. NER cc k hu ích trong nhiều lĩnh vc, bao gm truy
xut thông tin, tr li câu hi, tóm tt tài liu và hiu ngôn ngữ, đóng vai trò là thành phần cơ
bn cho các ng dng NLP phc tạp hơn.
Trong lĩnh vực tin hc y tế chăm sóc sức khe, NER gi vai trò đặc bit quan trng.
Bằng cách xác đnh chính xác các thc th như bệnh tt, triu chứng, phương pháp điều tr,
các tên v b phận hay cơ quan cơ thể, NER h tr quá trình ra quyết định lâm sàng, thúc đẩy
vic phát trin h sức khỏe điện t h tr nghiên cu bng cách kết ni thông tin bnh
nhân vi tài liu y khoa liên quan. Cui cùng, NER hoạt động như một công ngh thiết yếu
giúp các chuyên gia y tế nâng cao chất lượng chăm sóc bệnh nhân thúc đẩy nghiên cu y
hc.
Đa số các hình v nhn dng thc th v y tế hiện nay được nghiên cu trên các
ngôn ng như tiếng Anh, tiếng Trung Quc, tiếng Pháp,... Tuy nhiên đối vi tiếng Vit thì vn
còn rt hn chế ít được nghiên cu sâu rng. Bài báo này gii thiu mt mô hình mi mang
tên Electra-NER-Vietnamese-Medical, được thiết kế đặc biệt cho bài toán NER lĩnh vực y tế
cho văn bản tiếng Vit. Da trên mt hình train sn trên tiếng Vit Electra-Vietnamese.
Mô hình này được dào tạo để nhn din hiu qu các thc th cho bài toán NER liên quan đến
khoa hc y tế, bao gm các loại như người, triu chng, bệnh, phương pháp điều tr và các b
phận thể. Thông qua công trình y, chúng tôi mong muốn đóng góp vào những tiến b
liên tục trong lĩnh vực NER y tế, cui cùng tạo điều kin cho nhng kết qu chăm sóc sc
khe tốt hơn.
2. NHNG NGHIÊN CU LIÊN QUAN
Các phương pháp truyền thng trong nhn dng thc th có tên (NER)
Trong những giai đoạn đầu ca X lý ngôn ng t nhiên, Nhn dng thc th tên
ch yếu da vào các h thng da trên quy tc khung logic. Những phương pháp này sử
dng các quy tc và mẫu được thiết kế th công để xác định các thc th như cá nhân, tổ chc
và địa điểm trong văn bản. Các công trình sm ca Grishman và Sundheim (1996)
[1] đã thiết lp các tp d liu chuẩn như MUC, điều y đã tạo điu kin cho vic
đánh giá các hệ thng này.
Các phương pháp thống kê và hc máy
Khi sc mạnh tính toán gia tăng, các nhà nghiên cu bắt đầu áp dng các hình
thống kê cho bài toán NER. Các phương pháp như Conditional Random Fields CRFs tr nên
ph biến vì kh ng mô hình hóa dữ liu tun tkết hp ng cnh. Các công trình ni bt,
NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 483
...................................................................................................................................................................................
như của
Lafferty c
ng s
(2001)
[2], đã chứng minh hiu qu ca CRFs trong vic
nm bt s ph thuc gia các t lin k, dẫn đến độ chính xác cao hơn trong việc nhn din
các thc thể. Điều này đánh dấu một bước chuyn t các h thng da trên quy tc cng nhc
sang các k thut linh hot và da trên d liệu hơn.
Bước chuyển đi sang hc sâu
S xut hin ca hc sâu là cuc cách mng cho NER, vi các mô hình tn dng mng
-ron để hc các biu din phân cp của văn bn. Collobert cng s (2011) [3] đã
chng minh hiu qu ca mạng -ron cho nhiu nhim v NLP, bao gm c NER, m đưng
cho các nghiên cu tiếp theo. Vic áp dng mạng -ron hi tiếp (RNN) mng nh dài ngn
hạn (LSTM) đã tăng cường kh năng nắm bt thông tin ng cnh gia các câu, ci thiện đáng
k kh năng nhận din thc th.
S xut hin ca các mô hình ngôn ng ln (LLMs)
Vic gii thiu kiến trúc transformer đã tạo ra mt bứt phá trong lĩnh vực X
ngôn ng t nhiên (NLP). Được đề xut bi Vaswani cng s (2017) [4], mô hình
transformer đã thay thế các mạng -ron RNN truyn thng bng mt cu trúc hiu qu hơn
th thc hiện song song. Điểm trung tâm ca kiến trúc này chế t chú ý (self-
attention), cho phép mô hình đánh giá tm quan trng ca tng t trong mt câu so vi tt c
các t khác. Cơ chế này giúp xtốt hơn các phụ thuc dài hn và các sc thái ng cnh, ci
thiện đáng kể kh năng của mô hình trong vic hiu các mu ngôn ng phc tp.
Sau s xut hin ca transformers, các hình ngôn ng ln (LLMs) đã nổi lên như
nhng công c mnh mẽ. Các mô hình như BERT công bố bi Devlin và cng s (2019)
[5] các phiên bn tinh chnh vi các k thut hun luyện khác như mô hình RoBERTa [6]
ALBERT [7] đã tận dụng lượng ln d liệu không được gán nhãn để hc các embedding
ng cnh. Nhng embedding này cho phép các mô hình nm bắt được ý nghĩa ngữ nghĩa của
các t trong ng cnh ca chúng.
ELECTRA: Mt Mô Hình Tuyt Vi
Sau thành công của các hình như BERT, sự ra mt ca ELECTRA
(Clark
c
ng s
, 2020)
[8] đã đại din cho một bước đột phá quan trọng trong các phương pháp tiền
đào tạo cho các hình ngôn ng. ELECTRA s dng một phương pháp mới gi "phát
hin token thay thế", trong đó hình được đào tạo để phân bit gia các token tht gi
trong một câu, được to ra bi mt hình sinh nh hơn. Phương pháp này cho phép
ELECTRA s dng toàn b đầu vào cho việc đào tạo, làm cho nó hiu qu hơn về mt mu so
vi các mô hình ngôn ng có mt n truyn thng.
Kiến trúc của ELECTRA cho phép đạt được hiu sut mnh m trên nhiu nhim
v NLP, bao gm c NER, vi chi phí tính toán gim. Khi so sánh vi các hình transformer
khác, ELECTRA cho thy s cân bng hp dn gia tốc độ độ chính xác. Thiết kế ca nó
gim thiu mt s hn chế ca BERT, chng hạn như tính không hiệu qu trong d đoán token
b che. Các nghiên cu ch ra rằng ELECTRA thường vượt trội hơn BERT các hình
484 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
tương tự trong các nhim v h ngun, bao gm c nhn dng thc th, nh kh năng hc các
biu diễn phong phú hơn từ d liệu đào tạo.
bài toán NER cho ngôn ng tiếng Việt, chúng tôi đã sử dng mt phiên bn
pretrained ELECTRA-based-vietnamese bởi NlpHUST trên Huggingface. Đây một hình
được hun luyn trên 148gb d liệu văn bản tiếng Việt và đạt được nhng kết qu rt đáng tin
cy.
3. PHƯƠNG PHÁP
Kiến Trúc Mô Hình
Kiến trúc ELECTRA bao gm hai thành phn chính: b sinh (generator) b phân
loi (discriminator). Trong ng dng NER ca chúng tôi, chúng tôi tp trung ch yếu vào b
phân loại, được thiết kế để x lý văn bản đầu vào và đưa ra dự đoán về phân loi các token.
1. Lp nhúng (Embedding Layer): Văn bản đầu vào trước tiên được chuyển đổi thành
các vector nhúng thông qua mt lp nhúng t. Lp này kết hp các nhúng token, nhúng v trí
và nhúng phân đon, cho phép mô hình nm bt ng cnh và các mi quan h gia các token
trong chuỗi đầu vào.
2. Các lp Transformer: Sau lp nhúng, hình bao gm nhiu lp hóa
transformer. Mi lp s dụng cơ chế t chú ý để x lý các nhúng đầu vào, cho phép mô hình
đánh giá tầm quan trng ca tng token so với các token khác. chế t chú ý đa đầu y
giúp hình nm bt c ph thuc phc tp thông tin ng cnh cn thiết cho vic nhn
din thc th chính xác.