NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 455
...................................................................................................................................................................................
KHÁM PHÁ NN TNG PHÂN LOI NG NGHĨA
TRÊN CÁC H THNG NHÃN NG NGHĨA
DANH T TING ANH
PHAN TH M TRANG* - ĐINH ĐIỀN**- TRN TH MINH PHƯỢNG***
Tóm tt: S tn ti ca các h thng nhãn ng nghĩa đã tạo điều kin thun li cho
vic tìm kiếm thông tin theo trường ng nghĩa. Nghiên cứu y s dụng phương pháp t
so sánh đối chiếu nhm khám phá nn tng thuyết v phân loi ng nghĩa trên các h
thng như Longman Lexicon of Contemporary English (LLOCE) (McArthur, 1988), UCREL
Semantic Analysis System (USAS) (Rayson và các tác gi khác, 2004) WordNet (Miller
và các tác gi khác, 1990), đng thời tìm ra điểm tương đồng và d biệt cũng như ưu điểm và
hn chế ca chúng. Các phát hin cho thy h thng nhãn ng nghĩa LLOCE và UCREL chủ
yếu dựa trên nghĩa chủ đề, trong khi WordNet dựa trên nghĩa ý niệm. Kết qu nghiên cu giúp
hiểu sâu hơn về phân loi ng nghĩa, từ đó đề xut loại nghĩa số tng phân loi phù hp
trong xây dng h thng nhãn ng nghĩa cho danh từ tiếng Việt dưới góc độ ngôn ng hc,
góp phn ng dng trong x lý ng nghĩa tự động, ging dy và nghiên cu ng nghĩa học t
vng.
T khóa: phân loi ng nghĩa, hệ thng nhãn ng nghĩa, LLOCE, UCREL, WordNet.
1. GII THIU
Phân loi ng nghĩa đóng vai trò quan trng trong vic t chc các khái nim theo
trường nghĩa. S phát trin ca các h thng nhãn ng nghĩa đã mở ra những hướng tiếp cn
mới như hỗ tr tìm kiếm thông tin, cung cp công c phân tích x lý ng nghĩa tự động.
Trong tiếng Anh, ba h thng ph biến Longman Lexicon of Contemporary English
(LLOCE), UCREL Semantic Analysis System (USAS) WordNet; mi h thng cách
tiếp cn riêng v phân loi ng nghĩa, tạo nên s đa dạng trong xng nghĩa. Đối vi tiếng
Vit, vic trin khai h thng nhãn ng nghĩa t góc độ ngôn ng hc còn hn chế. Các h
thng hin tại thường da trên vic chuyn dch ngôn ng t tiếng Anh sang tiếng Vit, dn
đến mt s khó khăn như: chỉ dịch được một nghĩa của t b sót các nghĩa khác; hoặc
nhng khái nim trong ngôn ng y nhưng không trong ngôn ngữ kia do s khác bit
* NCS, Trường Đại hc Khoa hc xã hội và Nhân văn - ĐHQG TP. HCM; ThS, Trường Đại hc
Công ngh Sài Gòn; Email: mytrang779@gmail.com
** PGS.TS, Trường Đại hc Khoa hc T nhiên, ĐHQG TP. HCM; Email: ddien@fit.hcmus.edu.vn
*** TS, Trường Đại hc Khoa hc xã hội và Nhân văn, ĐHQG TP. HCM; Email:
minhphuongtrn@hcmussh.edu.vn
456 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
v văn hóa; hiện tượng “từ vựng hóa” cũng gây khó khăn khi nhiều t trong tiếng Anh là mt
t đơn nhưng khi chuyển dch sang tiếng Vit li thành mt cm t và ngược li. Nhng khó
khăn trên đòi hỏi người xây dng x lý h thng nhãn ng nghĩa từ vng tiếng Vit cn
quan tâm đến c yếu t ngôn ng và văn hóa đ to ra mt h thng nhãn ng nghĩa phù hợp
với đặc trưng của tiếng Vit. vy, nghiên cu nn tng phân loi ng nghĩa đóng vai trò
quan trng, góp phần định hướng vic trin khai h thng nhãn ng nghĩa cho danh t tiếng
Vit. Hiện nay, chưa nghiên cu c th nào v phân loi ng nghĩa cho các danh t trong
tiếng Anh. Do đó, mục tiêu chính ca nghiên cu nàytìm hiu nn tng phân loi ng nghĩa
ca danh t tiếng Anh trên ba h thng nhãn ng nghĩa tiêu biểu: LLOCE, UCREL
WordNet. Nghiên cu này mang li nhng hiu biết sâu sc v phân loi ng nghĩa, từ đó đ
xut loại nghĩa số tng ng nghĩa phù hợp trong vic xây dng h thng nhãn ng nghĩa
cho danh t tiếng Việt dưới góc độ ngôn ng hc.
2. LCH S NGHIÊN CU
Lch s ca t điển đồng nghĩa bắt ngun t công trình đt phá của Roget vào năm
1852 vi vic xut bản “Thesaurus of English Words and Phrases”. Roget người đầu tiên
to ra t điển đồng nghĩa, đã tổ chc các t cm t theo ch đề thay theo th t bng ch
cái, nhóm các t dựa trên ý nghĩa mi liên h ca chúng. Cách tiếp cận y đã mở ra mt
góc nhìn mi v t chc ngôn ngtruyn cm hng cho các nghiên cu ngôn ng hc sau
này (Lyons, 1995). Tiếp ni thành tu này, h thng nhãn ng nghĩa LLOCE được phát trin
bi mt nhóm các nhà ngôn ng hc t điển hc do Tom McArthur dẫn đầu xut bn
lần đầu vào năm 1981. LLOCE chứa 16.000 mc t 25.000 nghĩa, tổ chc thành 14
chính, 127 nhóm 2.441 tp t. H thng phân tích ng nghĩa UCREL, dựa trên
LLOCE, là mt công c phn mm t động gán nhãn ng nghĩa cho tiếng Anh vi cấu trúc đa
tầng và đã m rng sang 12 ngôn ng khác (Piao các c gi khác, 2016). Mt công trình
quan trng khác là WordNet, một cơ sở d liu t vng tiếng Anh được xây dng tại Đại hc
Princeton vào năm 1986 bởi nhóm các nhà khoa học do Miller đứng đầu, t chc các t thành
các tp t đồng nghĩa (synsets) và thiết lp các mi quan h ng nghĩa giữa chúng. WordNet
không ch gán nhãn cho các mi quan h ng nghĩa mà còn tổ chc chúng theo cu trúc phân
cp, tạo điều kin thun li cho nhiu ng dng trong x lý ngôn ng t nhiên (Fellbaum,
2005). Những công trình này đã đặt nn móng và phát trin các h thng t đin và gán nhãn
ng nghĩa, mở ra các hướng nghiên cu mi và ng dng rộng rãi trong các lĩnh vực như ngữ
nghĩa học t vng, t điển hc, ngôn ng hc ng liu và ngôn ng hc tính toán.
Cho đến thời điểm hin tại, chưa tài liu nghiên cu chi tiết v nn tng phân loi
ng nghĩa cho ba hệ thng trên, các nghiên cứu trước đây phần lớn đi vào tìm hiểu tm quan
trng ca các ngun tài nguyên t vng ng nghĩa trong phân tích ngôn ngữ và x ngôn
ng t nhiên. Archer các tác gi khác (2004) đã sử dụng lược đồ chú thích ng nghĩa
UCREL (USAS) để phân ch trường ng nghĩa trong từ điển hc, so sánh vi hai h thng
NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 457
...................................................................................................................................................................................
phân loi t điển là Longman Lexicon of Contemporary English (LLOCE) và Collins English
Dictionary (CED). Nghiên cu kim tra kh năng ánh xạ ca UCREL vi b nhãn t điển
tiếng Anh Collins WordNet, hưng dn quá trình ánh x nhãn đưa các nhà từ điển hc
gần hơn với vic s dụng trường ng nghĩa làm nguyên tc t chc trong t điển tng quát.
Rayson các tác gi khác (2004) tiếp tục đề cập đến USAS, mt công c phn mm thc
hin phân tích ng nghĩa tự động cho d liu tiếng Anh, với 21 trường din ngôn chính và 232
nhãn trường ng nghĩa chi tiết. Đánh giá cho thấy độ chính xác ca h thống đt 91% so vi
tp d liu th nghiệm được gán nhãn th công, bên cnh đó bài viết đề cập đến các ng dng
ca h thng trong ngôn ng hc ng liu, công ngh phn mm t điển điện t. Piao
các tác gi khác (2016) xây dng b t vng ng nghĩa đa ngôn ngữ quy mô ln cho 12 ngôn
ng, s dng phân loi ng nghĩa Lancaster để to nn tng kiến thc t vựng đa ngôn ngữ
cho h thng chú thích ng nghĩa UCREL tự động. Nhìn chung, các nghiên cu trên nhn
mnh tm quan trng ca các ngun tài nguyên t vng ng nghĩa và h thng gán nhãn ng
nghĩa trong phân tích ngôn ngữ và x lý ngôn ng t nhiên, m ra tiềm năng lớn cho các ng
dng thc tiễn. Đồng thi, các nghiên cu này cung cấp s khoa hc chng minh nh
kh thi ca vic xây dng mt h thng nhãn ng nghĩa tiếng Vit t góc độ ngôn ng hc.
3. CƠ SỞ LÝ THUYT
3.1. Phân loi ng nghĩa trong ngôn ngữ
Ng nghĩa bình din nghiên cu ni dung của các đơn vị ngôn ng. Các lý thuyết
ng nghĩa giúp chúng ta hiểu việc hình thành ý nghĩa của các đơn vị ngôn ng trong các
ng cnh khác nhau. Trên thế gii nhiu nhà ngôn ng hc cùng nghiên cu các lý thuyết
v nghĩa. Việc phân loại nghĩa tùy thuộc vào các tiêu chí mc tiêu c th ca tng nhà
nghiên cứu; điều y dẫn đến vic phân loại nghĩa được đưa ra trong nhiu thuyết khác nhau
và dưới các góc nhìn khác nhau.
3.1.1. Quan nim ca Geoffrey Leech
Theo tác gi Leech (1985), 7 loại nghĩa bao gồm: nghĩa khái niệm (conceptual
meaning), nghĩa hàm chỉ (connotative meaning), nghĩa xã hội (social meaning), nghĩa biểu
cảm (affective meaning), nghĩa phản ánh (reflected meaning), nghĩa kết ngôn (collocative
meanning) và nghĩa chủ đề (thematic meaning). 7 loại nghĩa này được phân ra thành 3 nhóm
chính: nhóm nghĩa khái nim (conceptual meaning), nhóm nghĩa kết hp (associative
meaning) và nhóm nghĩa ch đề (thematic meaning). Trong nhóm nghĩa kết hp (associative
meaning) bao gồm nghĩa hàm chỉ (connotative meaning), nghĩa hội nghĩa biểu cm
(social & affective meaning), nghĩa phản ánh nghĩa kết ngôn (reflected & collocative
meanning) (xem Bng 1).
458 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
Bng 1. 7 loại nghĩa (Leech, 1985, trang 23)
1. Nghĩa khái niệm
(conceptual meaning or sense)
Ni dung lôgic, tri nhn hoc biu vt
Nghĩa kết
hp
(associative
meaning)
2. Nghĩa hàm ch
(connotative meaning)
Thông điệp được truyền đạt thông qua
nhng gì ngôn ng tham chiếu đến.
3. Nghĩa xã hội
(social meaning)
Thông điệp được truyền đạt v các tình
hung xã hi ca vic s dng ngôn ng.
4. Nghĩa biểu cm
(affective meaning)
Thông điệp được truyền đạt v cm xúc và
thái độ của người nói/người viết.
5. Nghĩa phản ánh
(reflected meaning)
Thông điệp được truyền đạt thông qua mi
quan h với nghĩa khác của cùng mt t.
6. Nghĩa kết ngôn
(collocative meaning)
Thông điệp được truyền đạt thông qua s
kết hp vi các t có xu hướng xut hin
trong môi trường ca t khác.
7. Nghĩa chủ đề (thematic meaning)
Thông điệp được truyền đạt qua cách thc
t chc theo th t và được nhn mnh.
3.1.2. Quan nim ca John Lyons
Trong công trình công b năm 1995, John Lyons đã tng hợp đưa ra 6 thuyết v
nghĩa gồm: (1) Thuyết quy chiếu (referential) hoc biu vt (denotational), (2) Thuyết ý nim
(ideational) hoc tinh thn lun (mentalistic), (3) Thuyết hành vi (behaviourist), (4) Thuyết
nghĩa--cách-dùng (meaning-is-use), (5) Thuyết minh xác (verificationist), (6) Thuyết điều
kin chân tr (truth-conditional) (Lyons, 1995, trang 40) (xem Bng 2).
Bng 2. 6 thuyết v nghĩa (Lyons, 1995, trang 40)
1. Thuyết quy chiếu (referential)
hoc biu vt (denotational)
Nghĩa của mt biu thc chính là cái mà nó
quy chiếu đến hoc biu th cho hoặc đại din
cho.
2. Thuyết ý nim (ideational) hoc
tinh thn lun (mentalistic)
Nghĩa của mt biu thc là ý nim, hoc khái
nim kết hợp nó trong ý nghĩ của nhng ai biết
và hiểu được biu thức đó.
3. Thuyết hành vi (behaviourist)
Nghĩa của mt biu thc hoc là cái kích thích
gi ra nó hoc là cái phn ng mà nó gi ra,
hoc là s kết hp ca c hai trong mt tình
hung phát ngôn c th.
4. Thuyết nghĩa--cách-dùng
(meaning-is-use)
Nghĩa của mt biu thức được xác định bi,
nếu không nói là đồng nht vi, cách dùng nó
trong ngôn ng.
5. Thuyết minh xác (verificationist)
Nếu mt biu thức có nghĩa thì cái nghĩa này
được xác định bi chng c ly t câu hay
mệnh đề cha biu thức đó.
6. Thuyết điều kin chân tr (truth-
conditional)
Nghĩa của mt biu thc là s đóng góp của
nó vào điều kin chân tr ca câu cha nó.
NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 459
...................................................................................................................................................................................
3.2. Cu trúc phân cp
Cu trúc phân cp da trên nguyên tc bao hàm lớp, trong đó lớp cao hơn (thưng
danh) bao hàm tt c các mc trong lp thấp hơn (hạ danh). d, lớp “động vật” bao hàm
các lp nh hơn như “động vật có vú”, “chim” và “bò sát”. cp đ tiếp theo, lớp “động vt
có vú” bao hàm các lớp “chó”, “mèo”, “bò”, “sư tử”, “voi” và “chuột”… Xét từ dưới lên, mi
quan h bao hàm lp xut hiện như một loi quan h, chng hạn: “chó sục” một loi chó,
“chó” một loại động vt vú, “động vật vú” một loại động vt (Ungerer Schmid,
2006) (xem Hình 1).
Hình 1. Minh ha mt nhánh cu trúc cây phân cp các lp ý nim
4. PHƯƠNG PHÁP NGHIÊN CU
Để nghiên cu v nn tng phân loi ng nghĩa cho danh từ trên các h thng nhãn ng
nghĩa LLOCE, UCREL WordNet, chúng tôi tiến hành thu thp ng liu, s dụng phương
pháp mô t và phương pháp so sánh đối chiếu.
4.1. Thu thp ng liu
Nghiên cu này thu thp ng liu danh t trên ba h thng nhãn ng nghĩa: Longman
Lexicon of Contemporary English (LLOCE) (McArthur, 1988), UCREL Semantic Analysis
System (USAS) (Rayson và các tác gi khác, 2004) WordNet (Miller các tác gi khác,
1990) để khám phá các nn tng phân loi ng nghĩa cấu trúc phân cp ca các h thng
trên.
4.2. Phương pháp mô tả
Nghiên cu y tập trung điều tra t chi tiết cu trúc nguyên tc phân loi
trên ba h thng nhãn ng nghĩa: LLOCE, UCREL và WordNet.
4.3. Phương pháp so sánh đối chiếu
Phương pháp so sánh đối chiếu được s dụng để so sánh phân loi ng nghĩa trên mỗi
h thng nhằm xác định những điểm tương đồng và d bit, t đó tìm ra điểm mnh hn chế