14 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
NHNG VẤN Đ ĐẶT RA ĐI VI VIC XÂY DNG
VÀ PHÁT TRIN MNG T TING VIT
PHẠM VĂN LAM*
Tóm tt: Báo cáo cung cp mt bc tranh khái quát v lch s phát trin ca Mng t,
Mng t tiếng Việt, và đng thi gii thiu nhng vấn đề ngôn ng hc quan trng cần được
đặt ra trong quá trình xây dng, phát trin và hoàn thin Mng t tiếng Việt. Để phát trin và
hoàn thin Mng t tiếng Việt, báo cáo đã đặt ra bộ tho lun v các vấn đề như: cấu
trúc vĩ mô của Mng t tiếng Vit, các du hiu hình thức được s dụng để xác định các quan
h ng nghĩa, mối quan h giữa chế t pháp và quan h ng nghĩa trong Mng t tiếng Vit.
Bên cạnh đó, báo cáo cũng đã đề cập đến vấn đề t Hán Vit và s xut hin ca các t thuc
trường hợp và đặc trưng văn hóa Vit Nam trong Mng t tiếng Vit.
T khoá: Mng t, Mng t tiếng Vit, quan h ng nghĩa, dấu hiu hình thức, cơ chế
t pháp, t Hán Vit, t thuộc trường hp.
1. Khái quát v lch s mng t
1.1. Mng t l g?
Mng t (WordNet) là mt sn phm liên ngành ch yếu ca ngôn ng hc, tâm lí hc
và khoa hc y tính. Mng t một sở ng liu ln, được thiết kế cho mt hay nhiu
ngôn ngữ, trong đó các từ được nhóm li thành các loạt đồng nghĩa/loạt đồng nghĩa tri nhn;
mi loạt đồng nghĩa y th hin mt khái niệm/nghĩa riêng biệt; các loạt đồng nghĩa khác
nhau gn kết vi nhau nh vào các quan h ng nghĩa. Loạt đồng nghĩa mt nhóm các
t cùng t loi và có th thay thế cho nhau trong mt s ng cnh nhất định [6]. Các quan h
ng nghĩa chủ yếu có tác dng kết ni các loạt đồng nghĩa lại vi nhau quan h bao thuc
(hyponymy/hypernymy), quan h tng phân (meronymy/holonymy), quan h cách
(troponymy), quan h trái nghĩa, quan hệ nhân qu (causonomy), quan h suy ra (entailment),
quan h vai (semantic role), quan h thuc tính (attribute). Cần lưu ýquan hệ đồng nghĩa là
quan h trong ni ti ca các t đồng nghĩa trong loạt đồng nghĩa; quan hệ đồng nghĩa không
ni kết các loạt đồng nghĩa với nhau; các loạt đồng nghĩa tồn ti trong Mng t với tư cách là
nhng thc th.
Nói đơn giản hơn, chúng ta có th hình dung Mng t giống như là một đồ th ri rc
khng l trong đó mỗi nút mt lot t đồng nghĩa mỗi cnh mt quan h ng nghĩa
ni cc nt là loạt đồng nghĩa khc nhau li vi nhau. Hoặc để d hiểu hơn chúng ta th
din giải như thế này: Nếu mt h thng có 2 phn t, chúng ta có hai quan h; nếu có 3 phn
t, chúng ta có 3 quan h; nếu có 5 phn t, chúng ta có 10 quan hệ,…; có n phn t, chúng ta
* TS, Vin Ngôn ng hc; Email: phamvanlam1999@gmail.com
NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 15
...................................................................................................................................................................................
m quan h. S ng phn t càng ln, s ng quan h càng nhiu. S ợng nghĩa của
ngôn ng t nhiên hn, s ng quan h nghĩa của ngôn ng t nhiên li n cái
hn. Trên thc tế, các Mng t thường ch x khong 10 loi quan h ng nghĩa. Như thế,
cũng thể nói rng, Mng t, xét mt phương diện nào đó cũng chỉ mt loi hình
hoá giản đơn cái cấu trúc cùng phc tp ca t vng tinh thn (mental lexicon) ca ngôn
ng t nhiên [4].
Biu din tuyến tính ca t chicken trong Mng t tiếng Anh. Ngun:
http://wordnetweb.princeton.edu
16 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
Biu din đồ hình ca t run trong Mng t tiếng Anh. Ngun: http://wordventure.eti.pg.gda.pl
Trng thái hin nay ca các Mng t nói chung mi ch ghi nhn bn lp t loi chính
là danh t, động t, tính t và trng t. Có th nói rằng, cho đến thời điểm này, Mng t là
mt trong nhng ngun tài ngun t vng trc tuyến dành cho máy tính ln nht và quan
trng nht.
NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 17
...................................................................................................................................................................................
1.2. Gi thiết ban đu ca vic xây dng và phát trin Mng t
Mng t, ngay t đầu, được xây dng ch yếu da vào ba gi thiết chính v h thng
t vng ca ngôn ng: gi thiết v tính kh tách (seperabilty); gi thiết v tính hình
(petterning); gi thiết v tính toàn cc (comprehensiveness) [1, 4].
- Gi thiết v nh kh tách cho rng: H thng t vng hoàn toàn th được tách khi
nhng b phận khác (như âm vị, ng pháp) ca ngôn ng. Gi thiết này được hình thành t
my quan sát và thc tế. Th nht, h thng âm vng pháp ca mt ngôn ng được đồng
thi th đắc mt cách rt sm và toàn din ngay t những năm đầu đời ca một đứa tr; trong
khi y, t vng lại được th đắc mt cách dn dn cùng s ln lên v trí tu của đứa trẻ, nghĩa
kích thước đ hoàn thin ca vn t vựng được tăng dần theo nhn thc. Th hai, lch
s nghiên cu t điển hc thc hành cho thy: mt, công việc y được tiến hành thun y
trên cấp độ t, ch không hoc rất ít liên quan đến các cấp đ âm v ng pháp; hai, s
phát trin ca t điển hc thực hành dường như phát triển một cách tương đối độc lp cùng
âm v hc và ng pháp.
- Gi thiết v tính mô hình cho rằng: Con người không th chiếm lĩnh, có đưc tri thc
t vng - cái được dùng vào vic s dng ngôn ng t nhiên - mt cách ổn định và chc chn
tr phi h có th chiếm lĩnh và có được các mô hình và các quan h có tính h thng gia các
nghĩa từ. Gi thiết này được xây dng da vào nhng quan sát. Mt, các mô hình/quan h t
vng, vn rt tính h thống, đã là chủ đề ca triết học tư biện ngay t thi c đại. Hai, ngày
nay, ngôn ng hc hiện đại đang bắt đầu đưa ra các cách khác nhau đ xác định chúng trong
các cu trúc ng nghĩa của ngôn ng t nhiên. Bng chng ca vic này hiện nay đã
nhiu lí thuyết ng nghĩa học hiện đại vẫn đang “mắc cn” trong nhng tham vọng như vậy.
- Gi thiết v tính toàn cc ca h thng t vng cho rng: Gi s ngôn ng hc tính
toán th x các ngôn ng t nhiên như con người thường làm thì c nhiên máy tính
cũng phải chiếm lĩnh, sở hu mt kho tri thc t vng có tính toàn cục như con người có. Đây
mt gi thiết ngun gc thuc v trí tu nhân to, khoa học y tính hơn thuộc v
ngôn ng hc. Cách tiếp cn nhng thc hành, nhng kết qu đã đạt được ca ng nghĩa
hc thành t (phân tích thành t nghĩa) và ngữ nghĩa học t vng quan h là mt trong nhng
ch da vng chc nht cho gi thiết này.
1.3. Lch s ca Mng t
Năm 1978, giáo ngôn ngữ hc tâm lí tại Đại hc Priceton George Miller bắt đầu
phát trin một cơ sở d liu v t và mi quan h ng nghĩa gia chúng trong tiếng Anh.
s d liu t vng này có th được xem như là mt loi mô hình t vng tinh thn. Cơ sở d
liu này được gi Mng t [1]. Mng t tiếng Anh chính là Mng t đầu tiên trên thế gii.
Hin nay phiên bn 3.1. phiên bn mi nht ca Mng t tiếng Anh, ra mắt người s dng
vào năm 2012 (chậm gn một năm so với thông báo ban đầu), gm 155.287 t, vi 117.659
loạt đồng nghĩa với tng s 206.941 cặp nghĩa t, tn tại dưới dng nén với kích thước 12MB.
18 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
Vi phiên bn 3.1 này, trong Anh ng không th mt ngun ng liu t vng nào trc tuyến
tốt hơn đầy đủ hơn (v cách giải thích nghĩa theo lối tôn ti, cách định vị, định tr quan h
ng nghĩa, về vic cung cấp thông tin bách khoa,…), lớn hơn (xét về s ợng đơn vị t vng
và s ợng nghĩa được ghi nhận)… Mng t tiếng Anh.
Sau khi ra đời, bên cnh vic s dng vào các mục đích tra cứu thông thường, Mng
t tiếng Anh được s dng rng rãi trong nhiu ng dụng liên quan đến x lí ngôn ng t nhiên
trên toàn thế gii và nó đã thúc đẩy, phát trin nhiu nghiên cu mi.
Vi s thành công và tm quan trng ca Mng t tiếng Anh y, người ta nhn thy
cn phi phát trin các ngun tài nguyên t vựng tương tự như vậy cho các ngôn ng khác.
Thêm vào đó, nếu như các Mng t ca các ngôn ng khác được xây dựng, người ta s to ra
được mt mạng lưới tài nguyên t vng có s liên kết thng nht vi nhau, giúp cho vic
nghiên cu và ng dụng được phát trin tốt hơn. Vì thế, các nhà ngôn ng hc, tin hc và tâm
lí hc châu Âu đã bt tay vào vic y dng d án Mng t Châu Âu (EuroWordNet) [12]. Năm
1996, dưới s tài tr ca EU, Mng t Châu Âu chính thức được bắt đầu, vi mc tiêu là phát
trin mt Mng t Châu Âu chung cho các tiếng Hà Lan, y Ban NhaÝ, và liên kết Mng
t chung này vi Mng t tiếng Anh để có th to thành được một sở d liu t vựng đa
ngôn ng. Mng t Châu Âu (vốn được xây dng da trên phiên bn 1.5 ca Mng t tiếng
Anh) không ch có lõi tương thích vi Mng t tiếng Anh, mà còn được m rng b sung thêm
nhiu v mặt đối tượng t vng và các quan h ng nghĩa. Năm 1997, dự án đã được m rng
để phát trin cho các tiếng Đức, Pháp, Séc, và Estonia. Phiên bn Mng t Châu Âu đầu tiên
đã ra đời vào cuối năm 1999.
Sau Mng t Châu Âu, mt mng t đa ngữ đầu tiên trên thế gii, Mng t Châu Á
cũng đã được phát trin. Mng t Châu (Asian WordNet) cũng được thiết kế ch yếu da
trên Mng t tiếng Anh đơn ngữ và các ngun t đin song ng bn ng vi tiếng Anh. Hin
có trên 10 ngôn ng trong Mng t Châu Á, như Nhật, Thái, Hàn, Hán, Indonesnia. Các ngôn
ng được phát trin trong Mng t Châu Á t l như sau: Bengal (0.90%) Indonesia (8.17%),
Nht (30.35%), Hàn Quc(35.93%), Lào (33.05%), Mông C (1.38%), Myanma (16.95%),
Nepal (0.03%), Sinhala (0.23%), Sundanese (0.06%), Thái (40.27%), Vit Nam (10.40%)
[11]. Hin nay trên thế giới đã có ti khong 100 ngôn ng, da trên Mng t gc là Mng
t tiếng Anh, đã xây dựng được mng t riêng ca mình vi mức độ hoàn thin rt khác nhau.
Các ngôn ng lớn như Nga, Trung, Nhật cũng đều đã có mng riêng ca mình.
2. Gii thiu v Mng t tiếng Vit
2.1. Bài toán Mng t tiếng Vit
Bài toán y dng mng t dành cho tiếng Việt đã được chúng tôi đặt ra cách đây nhiều
năm. Năm 2014 chúng tôi đã tham gia tổ chc Hi tho khoa học chuyên đề ng ti vic