
NGÔN NGỮ HỌC TÍNH TOÁN: NHỮNG XU HƯỚNG MỚI, TRIỂN VỌNG VÀ THÁCH THỨC | 455
...................................................................................................................................................................................
KHÁM PHÁ NỀN TẢNG PHÂN LOẠI NGỮ NGHĨA
TRÊN CÁC HỆ THỐNG NHÃN NGỮ NGHĨA
DANH TỪ TIẾNG ANH
PHAN THỊ MỸ TRANG* - ĐINH ĐIỀN**- TRẦN THỊ MINH PHƯỢNG***
Tóm tắt: Sự tồn tại của các hệ thống nhãn ngữ nghĩa đã tạo điều kiện thuận lợi cho
việc tìm kiếm thông tin theo trường ngữ nghĩa. Nghiên cứu này sử dụng phương pháp mô tả
và so sánh đối chiếu nhằm khám phá nền tảng lý thuyết về phân loại ngữ nghĩa trên các hệ
thống như Longman Lexicon of Contemporary English (LLOCE) (McArthur, 1988), UCREL
Semantic Analysis System (USAS) (Rayson và các tác giả khác, 2004) và WordNet (Miller
và các tác giả khác, 1990), đồng thời tìm ra điểm tương đồng và dị biệt cũng như ưu điểm và
hạn chế của chúng. Các phát hiện cho thấy hệ thống nhãn ngữ nghĩa LLOCE và UCREL chủ
yếu dựa trên nghĩa chủ đề, trong khi WordNet dựa trên nghĩa ý niệm. Kết quả nghiên cứu giúp
hiểu sâu hơn về phân loại ngữ nghĩa, từ đó đề xuất loại nghĩa và số tầng phân loại phù hợp
trong xây dựng hệ thống nhãn ngữ nghĩa cho danh từ tiếng Việt dưới góc độ ngôn ngữ học,
góp phần ứng dụng trong xử lý ngữ nghĩa tự động, giảng dạy và nghiên cứu ngữ nghĩa học từ
vựng.
Từ khóa: phân loại ngữ nghĩa, hệ thống nhãn ngữ nghĩa, LLOCE, UCREL, WordNet.
1. GIỚI THIỆU
Phân loại ngữ nghĩa đóng vai trò quan trọng trong việc tổ chức các khái niệm theo
trường nghĩa. Sự phát triển của các hệ thống nhãn ngữ nghĩa đã mở ra những hướng tiếp cận
mới như hỗ trợ tìm kiếm thông tin, cung cấp công cụ phân tích và xử lý ngữ nghĩa tự động.
Trong tiếng Anh, ba hệ thống phổ biến là Longman Lexicon of Contemporary English
(LLOCE), UCREL Semantic Analysis System (USAS) và WordNet; mỗi hệ thống có cách
tiếp cận riêng về phân loại ngữ nghĩa, tạo nên sự đa dạng trong xử lý ngữ nghĩa. Đối với tiếng
Việt, việc triển khai hệ thống nhãn ngữ nghĩa từ góc độ ngôn ngữ học còn hạn chế. Các hệ
thống hiện tại thường dựa trên việc chuyển dịch ngôn ngữ từ tiếng Anh sang tiếng Việt, dẫn
đến một số khó khăn như: chỉ dịch được một nghĩa của từ và bỏ sót các nghĩa khác; hoặc có
những khái niệm có trong ngôn ngữ này nhưng không có trong ngôn ngữ kia do sự khác biệt
* NCS, Trường Đại học Khoa học xã hội và Nhân văn - ĐHQG TP. HCM; ThS, Trường Đại học
Công nghệ Sài Gòn; Email: mytrang779@gmail.com
** PGS.TS, Trường Đại học Khoa học Tự nhiên, ĐHQG TP. HCM; Email: ddien@fit.hcmus.edu.vn
*** TS, Trường Đại học Khoa học xã hội và Nhân văn, ĐHQG TP. HCM; Email:
minhphuongtrn@hcmussh.edu.vn

456 | KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2024
...................................................................................................................................................................................
về văn hóa; hiện tượng “từ vựng hóa” cũng gây khó khăn khi nhiều từ trong tiếng Anh là một
từ đơn nhưng khi chuyển dịch sang tiếng Việt lại thành một cụm từ và ngược lại. Những khó
khăn trên đòi hỏi người xây dựng và xử lý hệ thống nhãn ngữ nghĩa từ vựng tiếng Việt cần
quan tâm đến cả yếu tố ngôn ngữ và văn hóa để tạo ra một hệ thống nhãn ngữ nghĩa phù hợp
với đặc trưng của tiếng Việt. Vì vậy, nghiên cứu nền tảng phân loại ngữ nghĩa đóng vai trò
quan trọng, góp phần định hướng việc triển khai hệ thống nhãn ngữ nghĩa cho danh từ tiếng
Việt. Hiện nay, chưa có nghiên cứu cụ thể nào về phân loại ngữ nghĩa cho các danh từ trong
tiếng Anh. Do đó, mục tiêu chính của nghiên cứu này là tìm hiểu nền tảng phân loại ngữ nghĩa
của danh từ tiếng Anh trên ba hệ thống nhãn ngữ nghĩa tiêu biểu: LLOCE, UCREL và
WordNet. Nghiên cứu này mang lại những hiểu biết sâu sắc về phân loại ngữ nghĩa, từ đó đề
xuất loại nghĩa và số tầng ngữ nghĩa phù hợp trong việc xây dựng hệ thống nhãn ngữ nghĩa
cho danh từ tiếng Việt dưới góc độ ngôn ngữ học.
2. LỊCH SỬ NGHIÊN CỨU
Lịch sử của từ điển đồng nghĩa bắt nguồn từ công trình đột phá của Roget vào năm
1852 với việc xuất bản “Thesaurus of English Words and Phrases”. Roget là người đầu tiên
tạo ra từ điển đồng nghĩa, đã tổ chức các từ và cụm từ theo chủ đề thay vì theo thứ tự bảng chữ
cái, nhóm các từ dựa trên ý nghĩa và mối liên hệ của chúng. Cách tiếp cận này đã mở ra một
góc nhìn mới về tổ chức ngôn ngữ và truyền cảm hứng cho các nghiên cứu ngôn ngữ học sau
này (Lyons, 1995). Tiếp nối thành tựu này, hệ thống nhãn ngữ nghĩa LLOCE được phát triển
bởi một nhóm các nhà ngôn ngữ học và từ điển học do Tom McArthur dẫn đầu và xuất bản
lần đầu vào năm 1981. LLOCE chứa 16.000 mục từ và 25.000 nghĩa, tổ chức thành 14 mã
chính, 127 mã nhóm và 2.441 mã tập từ. Hệ thống phân tích ngữ nghĩa UCREL, dựa trên
LLOCE, là một công cụ phần mềm tự động gán nhãn ngữ nghĩa cho tiếng Anh với cấu trúc đa
tầng và đã mở rộng sang 12 ngôn ngữ khác (Piao và các tác giả khác, 2016). Một công trình
quan trọng khác là WordNet, một cơ sở dữ liệu từ vựng tiếng Anh được xây dựng tại Đại học
Princeton vào năm 1986 bởi nhóm các nhà khoa học do Miller đứng đầu, tổ chức các từ thành
các tập từ đồng nghĩa (synsets) và thiết lập các mối quan hệ ngữ nghĩa giữa chúng. WordNet
không chỉ gán nhãn cho các mối quan hệ ngữ nghĩa mà còn tổ chức chúng theo cấu trúc phân
cấp, tạo điều kiện thuận lợi cho nhiều ứng dụng trong xử lý ngôn ngữ tự nhiên (Fellbaum,
2005). Những công trình này đã đặt nền móng và phát triển các hệ thống từ điển và gán nhãn
ngữ nghĩa, mở ra các hướng nghiên cứu mới và ứng dụng rộng rãi trong các lĩnh vực như ngữ
nghĩa học từ vựng, từ điển học, ngôn ngữ học ngữ liệu và ngôn ngữ học tính toán.
Cho đến thời điểm hiện tại, chưa có tài liệu nghiên cứu chi tiết về nền tảng phân loại
ngữ nghĩa cho ba hệ thống trên, các nghiên cứu trước đây phần lớn đi vào tìm hiểu tầm quan
trọng của các nguồn tài nguyên từ vựng ngữ nghĩa trong phân tích ngôn ngữ và xử lý ngôn
ngữ tự nhiên. Archer và các tác giả khác (2004) đã sử dụng lược đồ chú thích ngữ nghĩa
UCREL (USAS) để phân tích trường ngữ nghĩa trong từ điển học, so sánh với hai hệ thống

NGÔN NGỮ HỌC TÍNH TOÁN: NHỮNG XU HƯỚNG MỚI, TRIỂN VỌNG VÀ THÁCH THỨC | 457
...................................................................................................................................................................................
phân loại từ điển là Longman Lexicon of Contemporary English (LLOCE) và Collins English
Dictionary (CED). Nghiên cứu kiểm tra khả năng ánh xạ của UCREL với bộ nhãn từ điển
tiếng Anh Collins và WordNet, hướng dẫn quá trình ánh xạ nhãn và đưa các nhà từ điển học
gần hơn với việc sử dụng trường ngữ nghĩa làm nguyên tắc tổ chức trong từ điển tổng quát.
Rayson và các tác giả khác (2004) tiếp tục đề cập đến USAS, một công cụ phần mềm thực
hiện phân tích ngữ nghĩa tự động cho dữ liệu tiếng Anh, với 21 trường diễn ngôn chính và 232
nhãn trường ngữ nghĩa chi tiết. Đánh giá cho thấy độ chính xác của hệ thống đạt 91% so với
tập dữ liệu thử nghiệm được gán nhãn thủ công, bên cạnh đó bài viết đề cập đến các ứng dụng
của hệ thống trong ngôn ngữ học ngữ liệu, công nghệ phần mềm và từ điển điện tử. Piao và
các tác giả khác (2016) xây dựng bộ từ vựng ngữ nghĩa đa ngôn ngữ quy mô lớn cho 12 ngôn
ngữ, sử dụng phân loại ngữ nghĩa Lancaster để tạo nền tảng kiến thức từ vựng đa ngôn ngữ
cho hệ thống chú thích ngữ nghĩa UCREL tự động. Nhìn chung, các nghiên cứu trên nhấn
mạnh tầm quan trọng của các nguồn tài nguyên từ vựng ngữ nghĩa và hệ thống gán nhãn ngữ
nghĩa trong phân tích ngôn ngữ và xử lý ngôn ngữ tự nhiên, mở ra tiềm năng lớn cho các ứng
dụng thực tiễn. Đồng thời, các nghiên cứu này cung cấp cơ sở khoa học và chứng minh tính
khả thi của việc xây dựng một hệ thống nhãn ngữ nghĩa tiếng Việt từ góc độ ngôn ngữ học.
3. CƠ SỞ LÝ THUYẾT
3.1. Phân loại ngữ nghĩa trong ngôn ngữ
Ngữ nghĩa là bình diện nghiên cứu nội dung của các đơn vị ngôn ngữ. Các lý thuyết
ngữ nghĩa giúp chúng ta hiểu rõ việc hình thành ý nghĩa của các đơn vị ngôn ngữ trong các
ngữ cảnh khác nhau. Trên thế giới có nhiều nhà ngôn ngữ học cùng nghiên cứu các lý thuyết
về nghĩa. Việc phân loại nghĩa tùy thuộc vào các tiêu chí và mục tiêu cụ thể của từng nhà
nghiên cứu; điều này dẫn đến việc phân loại nghĩa được đưa ra trong nhiều thuyết khác nhau
và dưới các góc nhìn khác nhau.
3.1.1. Quan niệm của Geoffrey Leech
Theo tác giả Leech (1985), có 7 loại nghĩa bao gồm: nghĩa khái niệm (conceptual
meaning), nghĩa hàm chỉ (connotative meaning), nghĩa xã hội (social meaning), nghĩa biểu
cảm (affective meaning), nghĩa phản ánh (reflected meaning), nghĩa kết ngôn (collocative
meanning) và nghĩa chủ đề (thematic meaning). 7 loại nghĩa này được phân ra thành 3 nhóm
chính: nhóm nghĩa khái niệm (conceptual meaning), nhóm nghĩa kết hợp (associative
meaning) và nhóm nghĩa chủ đề (thematic meaning). Trong nhóm nghĩa kết hợp (associative
meaning) bao gồm nghĩa hàm chỉ (connotative meaning), nghĩa xã hội và nghĩa biểu cảm
(social & affective meaning), nghĩa phản ánh và nghĩa kết ngôn (reflected & collocative
meanning) (xem Bảng 1).

458 | KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2024
...................................................................................................................................................................................
Bảng 1. 7 loại nghĩa (Leech, 1985, trang 23)
1. Nghĩa khái niệm
(conceptual meaning or sense)
Nội dung lôgic, tri nhận hoặc biểu vật
Nghĩa kết
hợp
(associative
meaning)
2. Nghĩa hàm chỉ
(connotative meaning)
Thông điệp được truyền đạt thông qua
những gì ngôn ngữ tham chiếu đến.
3. Nghĩa xã hội
(social meaning)
Thông điệp được truyền đạt về các tình
huống xã hội của việc sử dụng ngôn ngữ.
4. Nghĩa biểu cảm
(affective meaning)
Thông điệp được truyền đạt về cảm xúc và
thái độ của người nói/người viết.
5. Nghĩa phản ánh
(reflected meaning)
Thông điệp được truyền đạt thông qua mối
quan hệ với nghĩa khác của cùng một từ.
6. Nghĩa kết ngôn
(collocative meaning)
Thông điệp được truyền đạt thông qua sự
kết hợp với các từ có xu hướng xuất hiện
trong môi trường của từ khác.
7. Nghĩa chủ đề (thematic meaning)
Thông điệp được truyền đạt qua cách thức
tổ chức theo thứ tự và được nhấn mạnh.
3.1.2. Quan niệm của John Lyons
Trong công trình công bố năm 1995, John Lyons đã tổng hợp và đưa ra 6 thuyết về
nghĩa gồm: (1) Thuyết quy chiếu (referential) hoặc biểu vật (denotational), (2) Thuyết ý niệm
(ideational) hoặc tinh thần luận (mentalistic), (3) Thuyết hành vi (behaviourist), (4) Thuyết
nghĩa-là-cách-dùng (meaning-is-use), (5) Thuyết minh xác (verificationist), (6) Thuyết điều
kiện chân trị (truth-conditional) (Lyons, 1995, trang 40) (xem Bảng 2).
Bảng 2. 6 thuyết về nghĩa (Lyons, 1995, trang 40)
1. Thuyết quy chiếu (referential)
hoặc biểu vật (denotational)
Nghĩa của một biểu thức chính là cái mà nó
quy chiếu đến hoặc biểu thị cho hoặc đại diện
cho.
2. Thuyết ý niệm (ideational) hoặc
tinh thần luận (mentalistic)
Nghĩa của một biểu thức là ý niệm, hoặc khái
niệm kết hợp nó trong ý nghĩ của những ai biết
và hiểu được biểu thức đó.
3. Thuyết hành vi (behaviourist)
Nghĩa của một biểu thức hoặc là cái kích thích
gợi ra nó hoặc là cái phản ứng mà nó gợi ra,
hoặc là sự kết hợp của cả hai trong một tình
huống phát ngôn cụ thể.
4. Thuyết nghĩa-là-cách-dùng
(meaning-is-use)
Nghĩa của một biểu thức được xác định bởi,
nếu không nói là đồng nhất với, cách dùng nó
trong ngôn ngữ.
5. Thuyết minh xác (verificationist)
Nếu một biểu thức có nghĩa thì cái nghĩa này
được xác định bởi chứng cứ lấy từ câu hay
mệnh đề chứa biểu thức đó.
6. Thuyết điều kiện chân trị (truth-
conditional)
Nghĩa của một biểu thức là sự đóng góp của
nó vào điều kiện chân trị của câu chứa nó.

NGÔN NGỮ HỌC TÍNH TOÁN: NHỮNG XU HƯỚNG MỚI, TRIỂN VỌNG VÀ THÁCH THỨC | 459
...................................................................................................................................................................................
3.2. Cấu trúc phân cấp
Cấu trúc phân cấp dựa trên nguyên tắc bao hàm lớp, trong đó lớp cao hơn (thượng
danh) bao hàm tất cả các mục trong lớp thấp hơn (hạ danh). Ví dụ, lớp “động vật” bao hàm
các lớp nhỏ hơn như “động vật có vú”, “chim” và “bò sát”. Ở cấp độ tiếp theo, lớp “động vật
có vú” bao hàm các lớp “chó”, “mèo”, “bò”, “sư tử”, “voi” và “chuột”… Xét từ dưới lên, mối
quan hệ bao hàm lớp xuất hiện như một loại quan hệ, chẳng hạn: “chó sục” là một loại chó,
“chó” là một loại động vật có vú, và “động vật có vú” là một loại động vật (Ungerer và Schmid,
2006) (xem Hình 1).
Hình 1. Minh họa một nhánh cấu trúc cây phân cấp các lớp ý niệm
4. PHƯƠNG PHÁP NGHIÊN CỨU
Để nghiên cứu về nền tảng phân loại ngữ nghĩa cho danh từ trên các hệ thống nhãn ngữ
nghĩa LLOCE, UCREL và WordNet, chúng tôi tiến hành thu thập ngữ liệu, sử dụng phương
pháp mô tả và phương pháp so sánh đối chiếu.
4.1. Thu thập ngữ liệu
Nghiên cứu này thu thập ngữ liệu danh từ trên ba hệ thống nhãn ngữ nghĩa: Longman
Lexicon of Contemporary English (LLOCE) (McArthur, 1988), UCREL Semantic Analysis
System (USAS) (Rayson và các tác giả khác, 2004) và WordNet (Miller và các tác giả khác,
1990) để khám phá các nền tảng phân loại ngữ nghĩa và cấu trúc phân cấp của các hệ thống
trên.
4.2. Phương pháp mô tả
Nghiên cứu này tập trung điều tra và mô tả chi tiết cấu trúc và nguyên tắc phân loại
trên ba hệ thống nhãn ngữ nghĩa: LLOCE, UCREL và WordNet.
4.3. Phương pháp so sánh đối chiếu
Phương pháp so sánh đối chiếu được sử dụng để so sánh phân loại ngữ nghĩa trên mỗi
hệ thống nhằm xác định những điểm tương đồng và dị biệt, từ đó tìm ra điểm mạnh và hạn chế