370 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
GÁN NHÃN NG NGHĨA TỰ ĐỘNG
CHO T ĐIN OALD ANH-ANH-VIT DA TRÊN
MNG T WORDNET
PHAN VĂN BÁ HẢI* - ĐỖ QUC TRÍ**
PHAN TH M TRANG*** - ĐINH ĐIỀN****
Tóm tắt: Nghiên cứu y đề xuất phương pháp gán nhãn ngữ nghĩa tự động cho các
định nghĩa trong từ điển “Oxford Advanced Learner’s Dictionary with Vietnamese translation”
(OALD, ấn bản lần thứ 8) dựa trên “synset_id” của WordNet. hình ghép cặp các định
nghĩa tương đồng, sử dụng phương pháp “sentence embedding”: “Word2Vec”, “GloVe”,
“FastText” “Sentence-BERT”. Các thử nghiệm được thực hiện trên hai tập dữ liệu chuẩn
“SICK” và “Quora Question Pairs” nhằm đánh giá độ chính xác và tìm ra phương pháp nh
độ tương đồng tốt nhất. Kết quả cho thấy hình “SBERT” đạt độ chính xác cao nhất được
sử dụng trong quá trình gán nhãn ngữ nghĩa tự động. Việc liên kết giữa từ điển OALD với
WordNet mở ra tiềm năng kết nối giữa những từ điển đa ngôn ngữ thông qua “synset_id”.
Từ khóa: OALD, WordNet, SBERT, Gán nhãn ngữ nghĩa tự động, Rút trích đặc trưng
văn bản.
1. GII THIU
Từ điển Oxford Advanced Learner’s Dictionary (OALD) một trong những từ điển
học tiếng Anh phổ biến dành cho người học ngoại ngữ. Mỗi mục từ trong OALD cung cấp
thông tin chi tiết bao gồm: cách phát âm, từ loại, định nghĩa chi tiết của từ, ví dụ minh họa
hướng dẫn sử dụng từ trong nhiều ngữ cảnh khác nhau, mở rộng thêm một số cụm từ hoặc
thành ngữ liên quan. Với nguồn ngữ liệu phong phú toàn diện về tiếng Anh, OALD đóng
vai trò quan trọng trong việc hỗ trợ người học tiếng Anh cũng như những người làm việc trong
lĩnh vực dịch thuật và nghiên cứu ngôn ngữ Anh.
Bên cạnh đó, WordNet một sở dữ liệu về ý niệm từ vựng tiếng Anh phổ biến,
được phát triển bởi Đại học Princeton [6]. WordNet tổ chức các danh từ, động từ, nh từ
trạng từ bằng cách liên kết chúng lại với nhau dựa trên từ loại và thông qua các mối quan hệ
* Trường Đại học Khoa học Tự nhiên - ĐHQG TP. HCM, Email: phanvanbahai@gmail.com
** Trường Đại học Khoa học Tự nhiên - ĐHQG TP. HCM, Email: doquoctri2003@gmail.com
*** NCS, Trường Đại học Khoa học hội Nhân văn - ĐHQG TP. HCM; ThS, Trường Đại học Công
nghệ Sài Gòn; Email: mytrang779@gmail.com
**** PGS.TS, Trường Đại học Khoa học Tự nhiên - ĐHQG HCM, Trung tâm Ngôn ngữ học tính toán;
Email: ddien@fit.hcmus.edu.vn
NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 371
...................................................................................................................................................................................
ngữ nghĩa, được biểu diễn dưới dạng các tập đồng nghĩa (synsets), được định danh bởi
synset_id. Các mối quan hệ ngữ nghĩa trong WordNet bao gồm: quan hệ đồng nghĩa
(synonymy), quan hệ trái nghĩa (antonymy), quan hệ thượng danh (hypernymy), quan hệ hạ
danh (hyponymy), quan hệ tổng thể (holonymy), quan hệ bộ phận (meronymy), quan hệ kéo
theo (entailment) và quan hệ cách thức đặc biệt (troponymy). Với cách tổ chức trên, WordNet
đã cung cấp một phương pháp tiếp cận mới để sắp xếp và cấu trúc từ vựng tiếng Anh dựa trên
các quan hệ ngữ nghĩa giữa các từ. Do đó, WordNet đã trở thành một công cụ hữu ích không
chỉ trong nghiên cứu ngôn nggiảng dạy ngoại ngữ, còn trong các ứng dụng thực tế
của Xử lý Ngôn ngữ Tự nhiên (Natural Language Processing - NLP) như phân tích văn bản,
tìm kiếm thông tin, nhận dạng ngữ nghĩa và nhiều ứng dụng khác.
Tuy nhiên, WordNet vẫn chưa thực sự phổ biến trong cộng đồng dạy học tiếng Anh
Việt Nam. Nhằm thúc đẩy việc sử dụng WordNet tại Việt Nam, việc đồng bộ hóa các tri
thức từ WordNet vào các từ điển kiểu mẫu (như từ điển OALD trong nghiên cứu y) hết
sức cần thiết. Từ đó, việc so khớp và gán nhãn ngữ nghĩa tự động cho các định nghĩa của các
từ trong từ điển OALD với WordNet sẽ giúp nâng cao hiệu qutrong việc dạy học tiếng
Anh. Đồng thời, giải pháp y sẽ mở ra một hướng đi mới tiềm năng trong phân tích ngữ nghĩa
làm tăng độ chính xác cho các tác vụ Xlý Ngôn ngữ Tự nhiên trong lĩnh vực Học y.
Kết quả đạt được từ bài báo này sẽ tiền đề cho việc xây dựng một phiên bản WordNet cho
tiếng Việt (tạm gọi là VietNet), từ đó tạo ra cầu nối giữa từ điển tiếng Việt và các từ điển của
những ngôn ngữ khác trên thế giới, thông qua cầu nối chung là synset_id.
3. NGHIÊN CU LIÊN QUAN
Về bản chất, việc gán synset_id cho từng định nghĩa trong một mục từ của từ điển
OALD việc tìm ghép cặp với định nghĩa tương ứng của trong WordNet. Các phương
pháp trích xuất đặc trưngtính toán độ tương đồng của một cặp định nghĩa phát triển qua ba
giai đoạn chính: giai đoạn trước khi xuất hiện hình Học sâu hình Ngôn ngữ, giai
đoạn khi các Mô hình Học sâu bắt đầu được áp dụng và giai đoạn khi các Mô hình Ngôn ngữ
ra đời.
Trước khi Mạng Học sâu Mô hình Ngôn ngữ phát triển, Tri và các tác giả khác [10]
thực hiện ghép cặp những định nghĩa tương ứng trong từ điển OALD WordNet thông qua
ba giai đoạn chính là: Trích xuất đặc trưng từng định nghĩa, Tính độ tương đồng cho từng cặp
định nghĩa này và Quyết định ghép cặp dựa theo ngưỡng. Ở giai đoạn thứ nhất, đặc trưng của
một synset trong WordNet được thể hiện bằng một tập hợp synset có liên quan bao gồm chính
synset đó, thượng danh, hạ danh, bộ phận và các synset của những từ có trong định nghĩa của
synset đang xét. Về đặc trưng của một nghĩa trong từ điển OALD, được thể hiện bằng tập
hợp synset được rút trích ra từ định nghĩa, ví dụ và từ đồng nghĩa của từ đang xét. Ở giai đoạn
thứ hai, độ tương đồng của một cặp đặc trưng định nghĩa bất kỳ trong từ điển OALD
WordNet được tính bằng tổng trọng số của những hàm đo khoảng cách trong WordNet,
372 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
khoảng cách hình thái từ và khoảng cách trên thống kê ngữ liệu của cặp đặc trưng này. Ở giai
đoạn cuối, từng cặp đặc trưng độ tương đồng lớn nhất (và lớn hơn ngưỡng tối thiểu) sẽ được
ghép cặp với nhau.
Với sự phát triển của Mạng Học sâu, để rút trích đặc trưng văn bản dưới dạng vector,
các công cụ như Word2Vec [5], GloVe [7], FastText [1] đã được sử dụng rộng rãi. Trong
đó, Word2Vec học được embedding thông qua việc tối ưu hóa để các từ trong ngữ cảnh tương
tự vector gần nhau trong không gian vector. GloVe (Global Vectors for Word
Representation) là một mô hình dựa trên ma trận đồng xuất hiện của từ trong toàn bộ văn bản.
hình cố gắng học embedding sao cho tỉ số xác suất đồng xuất hiện giữa các từ được bảo
toàn trong không gian vector. FastText mở rộng của Word2Vec, nhưng khác biệt chính
nó không chỉ học embedding cho từ còn học embedding cho các n-gram tự (các chuỗi
tự con) giúp mô hình hiểu được các từ chưa xuất hiện trong tập huấn luyện và xử tốt hơn
các ngôn ngữ có tính biến hình.
Sentence embedding mở rộng khái niệm word embedding để biểu diễn toàn bộ câu
thành vector thay vì chỉ các từ đơn lẻ. Ta có thể tổng hợp, biến đổi các word embedding thành
một sentence embedding tượng trưng cho cả câu bằng một số phương pháp. Đơn giản nhất và
nhanh chóng nhất là phương pháp tính trung bình của các vector word embedding. Phương
pháp khác là sử dụng những Mô hình Học sâu như Mạng Lan truyền thẳng (Fully Connected
Neural Network - FC), Mạng Tuần hoàn (Recurrent Neural Network - RNN), Mạng Trí nhớ
Dài-Ngắn hạn (Long-Short Term Memory Neural Network - LSTM) để tổng hợp. Phương pháp
này tăng độ chính xác đối với phương pháp trước, thể hiện được thứ tự từ và mối quan hệ ng
cảnh giữa các từ.
Gần đây, với sự phát triển của hình Ngôn ngữ, các phương pháp sentence
embedding sử dụng hình ngôn ngữ tiền huấn luyện như BERT [2] Sentence-BERT [9]
ra đời. BERT (Bidirectional Encoder Representations from Transformers) một hình
ngôn ngữ dựa trên kiến trúc Transformer, được phát triển bởi Google. BERT khả năng nắm
bắt ngữ cảnh của từ theo cả hai chiều trái và phải trong câu, khác với các hình trước đây
chỉ xem xét ngữ cảnh theo một chiều. Sentence-BERT (SBERT) là một phiên bản cải tiến của
BERT bằng cách sử dụng kiến trúc siamese hoặc triplet network, cho phép so sánh các câu dựa
trên ngữ nghĩa của chúng. Điều này giúp SBERT tối ưu cho các tác vụ như đo sự tương đồng
giữa các câu, tìm kiếm ngữ nghĩa, và suy luận với độ chính xác lớn hơn BERT.
Sau khi đã có vector biểu diễn cho từng câu, việc tính độ tương đồng có thể được tính
bằng độ tương đồng cosine giữa hai vector hoặc sử dụng một mạng Lan truyền thẳng với hàm
kích hoạt sigmoid ở đầu ra để tính độ tương đồng.
Khác với công trình nghiên cứu của Tri và các tác giả khác, nghiên cứu của chúng tôi
đưa ra hướng tiếp cận mới là ứng dụng Mạng Học sâu Mô hình Ngôn ngữ để rút trích đặc
trưng văn bản dưới dạng vector tính độ tương đồng văn bản bằng Mạng Lan truyền thẳng
NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 373
...................................................................................................................................................................................
hoặc độ tương đồng cosine thay cho việc rút trích đặc trưng bằng những synset liên quan
độ tương đồng được tính bằng những hàm đo khoảng cách trong WordNet.
3. PHƯƠNG PHÁP NGHIÊN CỨU
3.1. Phát biểu bài toán
Để thực hiện ánh xạ các định nghĩa của một từ trong từ điển OALD với các ý niệm
tương ứng trong WordNet, nhóm nghiên cứu tiến hành so sánh độ tương đồng ngữ nghĩa giữa
những định nghĩa của từ đó trong từ điển OALD với những định nghĩa của các synset chứa t
đó trong WordNet. Quy trình được thực hiện như sau:
(1) Tra cứu từ: Đầu tiên, tiến hành tra cứu một từ trong ctừ điển OALD
WordNet để thu thập các định nghĩa tương ứng.
(2) Tính toán độ tương đồng: Khi đã các định nghĩa từ hai nguồn, độ tương
đồng cho từng cặp định nghĩa sẽ được tính bằng cách chuyển đổi mỗi định nghĩa thành một
vector đặc trưng và so sánh độ tương đồng giữa chúng dựa trên một thang đo nhất định.
(3) Ghép cặp định nghĩa: Đối với từng định nghĩa trong từ điển OALD, chúng ta
sẽ ghép cặp với định nghĩa có độ tương đồng cao nhất từ WordNet.
(4) Thiết lập ngưỡng: Tuy nhiên, trường hợp không tồn tại định nghĩa nào
trong WordNet tương ứng với định nghĩa trong từ điển OALD. Do đó, cần xác định một ngưỡng
độ tương đồng để tránh việc ghép cặp giữa hai đnh nghĩa, mặc chúng độ tương đồng
cao nhất.
Hình 1. Quy trnh ghp cặp cc định nghĩa của một từ
trong từ điển OALD và WordNet
3.2. Xây dựng tập dữ liệu từ từ điển OALD và WordNet
Tập dữ liệu của nghiên cứu này được khai thác từ 2 nguồn dữ liệu là từ điển OALD
WordNet. Trong từ điển OALD, với mỗi mục từ, các dữ liệu về từ loại (parts of speech) và các
định nghĩa sẽ được thu thập tự động nhờ thuật toán vét cạn trên dữ liệu của từ điển. Trong
WordNet, với mỗi từ, danh sách các mục từ được thu thập trong từ điển OALD, nhóm tác giả
khai thác tất cả các synset_id, các từ loại các định nghĩa của từ đó. Ứng với mỗi mục từ
374 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
được lấy trong từ điển OALD, những thông tin về synset_id, từ loại và định nghĩa tương ứng
sẽ khai thác từ WordNet.
Bảng 1. Ví dụ từ “artistic” trong từ điển OALD và WordNet được thu thập
OALD
WordNet
Định nghĩa
POS
Định nghĩa
POS
1. connected with art or
artists
adj
1. relating to or
characteristic of art
or artists
adj
2. showing a natural skill in
or enjoyment of art,
especially being able to paint
or draw well
adj
2. satisfying
aesthetic standards
and sensibilities
adj
3. done with skill and
imagination; attractive or
beautiful
adj
3. aesthetically
pleasing
adj
Nhằm đánh giá thuật toán ghép cặp định nghĩa giữa từ điển OALD WordNet, nhóm
nghiên cứu đã xây dựng một tập kiểm thử bằng phương pháp bán tự động. Từ danh sách các
từ bắt đầu bằng chữ cái "A", 100 mục từ được chọn ngẫu nhiên, sau đó những định nghĩa của
mỗi từ được thu thập trong từ điển OALD WordNet.
Quá trình ghép cặp định nghĩa được thực hiện thủ công, dựa trên mức độ tương đồng
ngữ nghĩa giữa các định nghĩa từ hai nguồn. Tập dữ liệu y được sử dụng làm tiêu chuẩn
đánh giá cho thuật toán ghép cặp định nghĩa, nhằm so sánh độ chính xác hiệu quả trong
việc áp dụng các mô hình khác nhau vào tác vụ này.
4. KT QU TH NGHIM
4.1 Tìm mô hình tốt nhất
Nhằm tìm ra hình tối ưu, nhóm nghiên cứu thực hiện các thử nghiệm với các
phương pháp sentence embedding như Word2Vec, GloVe, FastText kết hợp với các Mô hình
Học sâu như LSTM, CNN, SBERT. Để đánh giá độ tương đồng giữa các câu, hai phương
pháp được áp dụngđộ tương đồng cosine Mạng lan truyền thẳng (FC). Thí nghiệm được
thực hiện trên hai tập dữ liệu chuẩn: Quora Question Pairs [8]SICK [4].
Cả hai tập dữ liệu đều chứa hai cột văn bản và một cột biểu thị độ tương đồng giữa các
cặp câu. Đối với tập Quora Question Pairs, nhãn về độ tương đồng thể hiện việc hai câu
đồng nghĩa hay không, với các giá trị 0 (không đồng nghĩa) 1 (đồng nghĩa). Trong tập SICK,
độ tương đồng được đánh giá theo thang từ 1 đến 5, biểu thị mức độ tương đồng từ hoàn toàn
không tương đồng đến hoàn toàn tương đồng.