Gán nhãn ngữ nghĩa tự động cho từ điển OALD Anh - Anh

370 | KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2024

...................................................................................................................................................................................

GÁN NHÃN NGỮ NGHĨA TỰ ĐỘNG

CHO TỪ ĐIỂN OALD ANH-ANH-VIỆT DỰA TRÊN

MẠNG TỪ WORDNET

PHAN VĂN BÁ HẢI* - ĐỖ QUỐC TRÍ**

PHAN THỊ MỸ TRANG*** - ĐINH ĐIỀN****

Tóm tắt: Nghiên cứu này đề xuất phương pháp gán nhãn ngữ nghĩa tự động cho các

định nghĩa trong từ điển “Oxford Advanced Learner’s Dictionary with Vietnamese translation”

(OALD, ấn bản lần thứ 8) dựa trên “synset_id” của WordNet. Mô hình ghép cặp các định

nghĩa tương đồng, sử dụng phương pháp “sentence embedding”: “Word2Vec”, “GloVe”,

“FastText” và “Sentence-BERT”. Các thử nghiệm được thực hiện trên hai tập dữ liệu chuẩn

là “SICK” và “Quora Question Pairs” nhằm đánh giá độ chính xác và tìm ra phương pháp tính

độ tương đồng tốt nhất. Kết quả cho thấy mô hình “SBERT” đạt độ chính xác cao nhất và được

sử dụng trong quá trình gán nhãn ngữ nghĩa tự động. Việc liên kết giữa từ điển OALD với

WordNet mở ra tiềm năng kết nối giữa những từ điển đa ngôn ngữ thông qua “synset_id”.

Từ khóa: OALD, WordNet, SBERT, Gán nhãn ngữ nghĩa tự động, Rút trích đặc trưng

văn bản.

1. GIỚI THIỆU

Từ điển Oxford Advanced Learner’s Dictionary (OALD) là một trong những từ điển

học tiếng Anh phổ biến dành cho người học ngoại ngữ. Mỗi mục từ trong OALD cung cấp

thông tin chi tiết bao gồm: cách phát âm, từ loại, định nghĩa chi tiết của từ, ví dụ minh họa và

hướng dẫn sử dụng từ trong nhiều ngữ cảnh khác nhau, mở rộng thêm một số cụm từ hoặc

thành ngữ liên quan. Với nguồn ngữ liệu phong phú và toàn diện về tiếng Anh, OALD đóng

vai trò quan trọng trong việc hỗ trợ người học tiếng Anh cũng như những người làm việc trong

lĩnh vực dịch thuật và nghiên cứu ngôn ngữ Anh.

Bên cạnh đó, WordNet là một cơ sở dữ liệu về ý niệm từ vựng tiếng Anh phổ biến,

được phát triển bởi Đại học Princeton [6]. WordNet tổ chức các danh từ, động từ, tính từ và

trạng từ bằng cách liên kết chúng lại với nhau dựa trên từ loại và thông qua các mối quan hệ

* Trường Đại học Khoa học Tự nhiên - ĐHQG TP. HCM, Email: phanvanbahai@gmail.com

** Trường Đại học Khoa học Tự nhiên - ĐHQG TP. HCM, Email: doquoctri2003@gmail.com

*** NCS, Trường Đại học Khoa học xã hội và Nhân văn - ĐHQG TP. HCM; ThS, Trường Đại học Công

nghệ Sài Gòn; Email: mytrang779@gmail.com

**** PGS.TS, Trường Đại học Khoa học Tự nhiên - ĐHQG HCM, Trung tâm Ngôn ngữ học tính toán;

Email: ddien@fit.hcmus.edu.vn

NGÔN NGỮ HỌC TÍNH TOÁN: NHỮNG XU HƯỚNG MỚI, TRIỂN VỌNG VÀ THÁCH THỨC | 371

...................................................................................................................................................................................

ngữ nghĩa, được biểu diễn dưới dạng các tập đồng nghĩa (synsets), được định danh bởi

synset_id. Các mối quan hệ ngữ nghĩa trong WordNet bao gồm: quan hệ đồng nghĩa

(synonymy), quan hệ trái nghĩa (antonymy), quan hệ thượng danh (hypernymy), quan hệ hạ

danh (hyponymy), quan hệ tổng thể (holonymy), quan hệ bộ phận (meronymy), quan hệ kéo

theo (entailment) và quan hệ cách thức đặc biệt (troponymy). Với cách tổ chức trên, WordNet

đã cung cấp một phương pháp tiếp cận mới để sắp xếp và cấu trúc từ vựng tiếng Anh dựa trên

các quan hệ ngữ nghĩa giữa các từ. Do đó, WordNet đã trở thành một công cụ hữu ích không

chỉ trong nghiên cứu ngôn ngữ và giảng dạy ngoại ngữ, mà còn trong các ứng dụng thực tế

của Xử lý Ngôn ngữ Tự nhiên (Natural Language Processing - NLP) như phân tích văn bản,

tìm kiếm thông tin, nhận dạng ngữ nghĩa và nhiều ứng dụng khác.

Tuy nhiên, WordNet vẫn chưa thực sự phổ biến trong cộng đồng dạy và học tiếng Anh

ở Việt Nam. Nhằm thúc đẩy việc sử dụng WordNet tại Việt Nam, việc đồng bộ hóa các tri

thức từ WordNet vào các từ điển kiểu mẫu (như từ điển OALD trong nghiên cứu này) là hết

sức cần thiết. Từ đó, việc so khớp và gán nhãn ngữ nghĩa tự động cho các định nghĩa của các

từ trong từ điển OALD với WordNet sẽ giúp nâng cao hiệu quả trong việc dạy và học tiếng

Anh. Đồng thời, giải pháp này sẽ mở ra một hướng đi mới tiềm năng trong phân tích ngữ nghĩa

và làm tăng độ chính xác cho các tác vụ Xử lý Ngôn ngữ Tự nhiên trong lĩnh vực Học máy.

Kết quả đạt được từ bài báo này sẽ là tiền đề cho việc xây dựng một phiên bản WordNet cho

tiếng Việt (tạm gọi là VietNet), từ đó tạo ra cầu nối giữa từ điển tiếng Việt và các từ điển của

những ngôn ngữ khác trên thế giới, thông qua cầu nối chung là synset_id.

3. NGHIÊN CỨU LIÊN QUAN

Về bản chất, việc gán synset_id cho từng định nghĩa có trong một mục từ của từ điển

OALD là việc tìm và ghép cặp với định nghĩa tương ứng của nó có trong WordNet. Các phương

pháp trích xuất đặc trưng và tính toán độ tương đồng của một cặp định nghĩa phát triển qua ba

giai đoạn chính: giai đoạn trước khi xuất hiện Mô hình Học sâu và Mô hình Ngôn ngữ, giai

đoạn khi các Mô hình Học sâu bắt đầu được áp dụng và giai đoạn khi các Mô hình Ngôn ngữ

ra đời.

Trước khi Mạng Học sâu và Mô hình Ngôn ngữ phát triển, Tri và các tác giả khác [10]

thực hiện ghép cặp những định nghĩa tương ứng trong từ điển OALD và WordNet thông qua

ba giai đoạn chính là: Trích xuất đặc trưng từng định nghĩa, Tính độ tương đồng cho từng cặp

định nghĩa này và Quyết định ghép cặp dựa theo ngưỡng. Ở giai đoạn thứ nhất, đặc trưng của

một synset trong WordNet được thể hiện bằng một tập hợp synset có liên quan bao gồm chính

synset đó, thượng danh, hạ danh, bộ phận và các synset của những từ có trong định nghĩa của

synset đang xét. Về đặc trưng của một nghĩa trong từ điển OALD, nó được thể hiện bằng tập

hợp synset được rút trích ra từ định nghĩa, ví dụ và từ đồng nghĩa của từ đang xét. Ở giai đoạn

thứ hai, độ tương đồng của một cặp đặc trưng định nghĩa bất kỳ trong từ điển OALD và

WordNet được tính bằng tổng có trọng số của những hàm đo khoảng cách trong WordNet,

372 | KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2024

...................................................................................................................................................................................

khoảng cách hình thái từ và khoảng cách trên thống kê ngữ liệu của cặp đặc trưng này. Ở giai

đoạn cuối, từng cặp đặc trưng có độ tương đồng lớn nhất (và lớn hơn ngưỡng tối thiểu) sẽ được

ghép cặp với nhau.

Với sự phát triển của Mạng Học sâu, để rút trích đặc trưng văn bản dưới dạng vector,

các công cụ như Word2Vec [5], GloVe [7], và FastText [1] đã được sử dụng rộng rãi. Trong

đó, Word2Vec học được embedding thông qua việc tối ưu hóa để các từ trong ngữ cảnh tương

tự có vector gần nhau trong không gian vector. GloVe (Global Vectors for Word

Representation) là một mô hình dựa trên ma trận đồng xuất hiện của từ trong toàn bộ văn bản.

Mô hình cố gắng học embedding sao cho tỉ số xác suất đồng xuất hiện giữa các từ được bảo

toàn trong không gian vector. FastText là mở rộng của Word2Vec, nhưng khác biệt chính là

nó không chỉ học embedding cho từ mà còn học embedding cho các n-gram ký tự (các chuỗi

ký tự con) giúp mô hình hiểu được các từ chưa xuất hiện trong tập huấn luyện và xử lý tốt hơn

các ngôn ngữ có tính biến hình.

Sentence embedding mở rộng khái niệm word embedding để biểu diễn toàn bộ câu

thành vector thay vì chỉ các từ đơn lẻ. Ta có thể tổng hợp, biến đổi các word embedding thành

một sentence embedding tượng trưng cho cả câu bằng một số phương pháp. Đơn giản nhất và

nhanh chóng nhất là phương pháp tính trung bình của các vector word embedding. Phương

pháp khác là sử dụng những Mô hình Học sâu như Mạng Lan truyền thẳng (Fully Connected

Neural Network - FC), Mạng Tuần hoàn (Recurrent Neural Network - RNN), Mạng Trí nhớ

Dài-Ngắn hạn (Long-Short Term Memory Neural Network - LSTM) để tổng hợp. Phương pháp

này tăng độ chính xác đối với phương pháp trước, thể hiện được thứ tự từ và mối quan hệ ngữ

cảnh giữa các từ.

Gần đây, với sự phát triển của Mô hình Ngôn ngữ, các phương pháp sentence

embedding sử dụng mô hình ngôn ngữ tiền huấn luyện như BERT [2] và Sentence-BERT [9]

ra đời. BERT (Bidirectional Encoder Representations from Transformers) là một mô hình

ngôn ngữ dựa trên kiến trúc Transformer, được phát triển bởi Google. BERT có khả năng nắm

bắt ngữ cảnh của từ theo cả hai chiều trái và phải trong câu, khác với các mô hình trước đây

chỉ xem xét ngữ cảnh theo một chiều. Sentence-BERT (SBERT) là một phiên bản cải tiến của

BERT bằng cách sử dụng kiến trúc siamese hoặc triplet network, cho phép so sánh các câu dựa

trên ngữ nghĩa của chúng. Điều này giúp SBERT tối ưu cho các tác vụ như đo sự tương đồng

giữa các câu, tìm kiếm ngữ nghĩa, và suy luận với độ chính xác lớn hơn BERT.

Sau khi đã có vector biểu diễn cho từng câu, việc tính độ tương đồng có thể được tính

bằng độ tương đồng cosine giữa hai vector hoặc sử dụng một mạng Lan truyền thẳng với hàm

kích hoạt sigmoid ở đầu ra để tính độ tương đồng.

Khác với công trình nghiên cứu của Tri và các tác giả khác, nghiên cứu của chúng tôi

đưa ra hướng tiếp cận mới là ứng dụng Mạng Học sâu và Mô hình Ngôn ngữ để rút trích đặc

trưng văn bản dưới dạng vector và tính độ tương đồng văn bản bằng Mạng Lan truyền thẳng

NGÔN NGỮ HỌC TÍNH TOÁN: NHỮNG XU HƯỚNG MỚI, TRIỂN VỌNG VÀ THÁCH THỨC | 373

...................................................................................................................................................................................

hoặc độ tương đồng cosine thay cho việc rút trích đặc trưng bằng những synset liên quan và

độ tương đồng được tính bằng những hàm đo khoảng cách trong WordNet.

3. PHƯƠNG PHÁP NGHIÊN CỨU

3.1. Phát biểu bài toán

Để thực hiện ánh xạ các định nghĩa của một từ trong từ điển OALD với các ý niệm

tương ứng trong WordNet, nhóm nghiên cứu tiến hành so sánh độ tương đồng ngữ nghĩa giữa

những định nghĩa của từ đó trong từ điển OALD với những định nghĩa của các synset chứa từ

đó trong WordNet. Quy trình được thực hiện như sau:

(1) Tra cứu từ: Đầu tiên, tiến hành tra cứu một từ trong cả từ điển OALD và

WordNet để thu thập các định nghĩa tương ứng.

(2) Tính toán độ tương đồng: Khi đã có các định nghĩa từ hai nguồn, độ tương

đồng cho từng cặp định nghĩa sẽ được tính bằng cách chuyển đổi mỗi định nghĩa thành một

vector đặc trưng và so sánh độ tương đồng giữa chúng dựa trên một thang đo nhất định.

(3) Ghép cặp định nghĩa: Đối với từng định nghĩa trong từ điển OALD, chúng ta

sẽ ghép cặp với định nghĩa có độ tương đồng cao nhất từ WordNet.

(4) Thiết lập ngưỡng: Tuy nhiên, có trường hợp không tồn tại định nghĩa nào

trong WordNet tương ứng với định nghĩa trong từ điển OALD. Do đó, cần xác định một ngưỡng

độ tương đồng để tránh việc ghép cặp giữa hai định nghĩa, mặc dù chúng có độ tương đồng

cao nhất.

Hình 1. Quy trnh ghp cặp cc định nghĩa của một từ

trong từ điển OALD và WordNet

3.2. Xây dựng tập dữ liệu từ từ điển OALD và WordNet

Tập dữ liệu của nghiên cứu này được khai thác từ 2 nguồn dữ liệu là từ điển OALD và

WordNet. Trong từ điển OALD, với mỗi mục từ, các dữ liệu về từ loại (parts of speech) và các

định nghĩa sẽ được thu thập tự động nhờ thuật toán vét cạn trên dữ liệu của từ điển. Trong

WordNet, với mỗi từ, danh sách các mục từ được thu thập trong từ điển OALD, nhóm tác giả

khai thác tất cả các synset_id, các từ loại và các định nghĩa của từ đó. Ứng với mỗi mục từ

374 | KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2024

...................................................................................................................................................................................

được lấy trong từ điển OALD, những thông tin về synset_id, từ loại và định nghĩa tương ứng

sẽ khai thác từ WordNet.

Bảng 1. Ví dụ từ “artistic” trong từ điển OALD và WordNet được thu thập

OALD

WordNet

Định nghĩa

POS

Định nghĩa

POS

Synset_id

1. connected with art or

artists

adj

1. relating to or

characteristic of art

or artists

adj

omw-en31-03002630-a

2. showing a natural skill in

or enjoyment of art,

especially being able to paint

or draw well

adj

2. satisfying

aesthetic standards

and sensibilities

adj

omw-en31-00070557-s

3. done with skill and

imagination; attractive or

beautiful

adj

3. aesthetically

pleasing

adj

omw-en31-02401653-s

Nhằm đánh giá thuật toán ghép cặp định nghĩa giữa từ điển OALD và WordNet, nhóm

nghiên cứu đã xây dựng một tập kiểm thử bằng phương pháp bán tự động. Từ danh sách các

từ bắt đầu bằng chữ cái "A", 100 mục từ được chọn ngẫu nhiên, sau đó những định nghĩa của

mỗi từ được thu thập trong từ điển OALD và WordNet.

Quá trình ghép cặp định nghĩa được thực hiện thủ công, dựa trên mức độ tương đồng

ngữ nghĩa giữa các định nghĩa từ hai nguồn. Tập dữ liệu này được sử dụng làm tiêu chuẩn

đánh giá cho thuật toán ghép cặp định nghĩa, nhằm so sánh độ chính xác và hiệu quả trong

việc áp dụng các mô hình khác nhau vào tác vụ này.

4. KẾT QUẢ THỬ NGHIỆM

4.1 Tìm mô hình tốt nhất

Nhằm tìm ra mô hình tối ưu, nhóm nghiên cứu thực hiện các thử nghiệm với các

phương pháp sentence embedding như Word2Vec, GloVe, FastText kết hợp với các Mô hình

Học sâu như LSTM, CNN, và SBERT. Để đánh giá độ tương đồng giữa các câu, hai phương

pháp được áp dụng là độ tương đồng cosine và Mạng lan truyền thẳng (FC). Thí nghiệm được

thực hiện trên hai tập dữ liệu chuẩn: Quora Question Pairs [8] và SICK [4].

Cả hai tập dữ liệu đều chứa hai cột văn bản và một cột biểu thị độ tương đồng giữa các

cặp câu. Đối với tập Quora Question Pairs, nhãn về độ tương đồng thể hiện việc hai câu có

đồng nghĩa hay không, với các giá trị 0 (không đồng nghĩa) và 1 (đồng nghĩa). Trong tập SICK,

độ tương đồng được đánh giá theo thang từ 1 đến 5, biểu thị mức độ tương đồng từ hoàn toàn

không tương đồng đến hoàn toàn tương đồng.

Gán nhãn ngữ nghĩa tự động cho từ điển OALD Anh - Anh - Việt dựa trên Mạng Từ WordNet

Bài viết trình bày nghiên cứu gán nhãn ngữ nghĩa tự động cho từ điển OALD dựa trên WordNet, dùng SBERT để tăng độ chính xác trong NLP và liên kết từ điển đa ngôn ngữ.

Chủ đề:

Ngôn ngữ học ứng dụng

Tài liệu liên quan

Nghiên cứu phương pháp dạy phát âm tiếng Hàn đối với người học Việt Nam - tập trung chủ yếu vào phụ âm cuối ㄴ,ㄹ

Ứng đụng lý thuyết ngôn ngữ học vào việc dạy phát âm Tiếng Việt cho người nước ngoài: các phụ âm /M/, /N/, /R/, /Y/, /P/, /T/, /K/, /C/

Một số mô hình định danh thuật ngữ thủy sản tiếng Anh

Khảo sát thực trạng và đề xuất giải pháp nâng cao chất lượng giảng dạy và học tập học phần thuyết trình tiếng Trung Quốc của sinh viên trường Ngoại ngữ - Đại học Thái Nguyên

So sánh các kết quả dịch tự động và dịch truyền thống Việt - Hàn

Nhận diện đặc điểm ngôn ngữ trong văn bản được viết bởi trí tuệ nhân tạo (AI) với văn bản được viết bởi con người và đánh giá hiệu suất của công cụ phát hiện văn bản do AI viết

Dịch chính tả tương tác: Tích hợp nhận dạng giọng nói vào việc giảng dạy và thực hành dịch thuật chuyên nghiệp

Sử dụng trí tuệ nhân tạo Text-to-Speech hỗ trợ thiết kế âm thanh trong phát triển tài liệu giảng dạy kỹ năng nghe tiếng Anh

Số hóa trong giảng dạy tiếng Anh với Python

Phân tích cảm xúc đa ngôn ngữ: Cơ hội và thách thức

Tài liêu mới

Cảm thức cô đơn trong thơ Đỗ Phủ và thơ chữ Hán Nguyễn Du

Tài liệu Định dạng đề thi tiếng Việt (hướng dẫn đánh giá năng lực tiếng Việt của người nước ngoài)

Poetry as method in the History classroom: Decolonising possibilities

Đề thi kết thúc học phần học kì 1 môn Phân tích tác phẩm văn học năm 2024-2025

Đạm Phương nữ sử và ánh xạ tư tưởng nữ quyền

Bài giảng Chức năng văn học

Vấn đề bảo tồn di sản gia tộc trong truyện ngắn Giữa vật chất này của Nguyễn Ngọc Tư

Cảnh quê và tình quê trong tập thơ Mưa nguồn của Bùi Giáng từ góc nhìn cổ mẫu

Bước đầu tìm hiểu lý thuyết ký hiệu học của Roman Jakobson trong dịch thuật

Truyện Kiều của Nguyễn Du và Thơ Nôm của Hồ Xuân Hương: Từ tiếp cận đối thoại liên văn hóa

Yêu người ngóng núi (Nguyễn Ngọc Tư) và Đến độ hoa vàng (Đỗ Bích Thúy) từ góc nhìn cổ mẫu

Cấu trúc tiểu thuyết và trò chơi của sự đọc nhìn từ kí hiệu con số trong tiểu thuyết Palomar của Italo Calvino

Vô thức trong văn xuôi viết về tính dục của các nhà văn nữ Việt Nam sau 1986

An analysis of persuasive strategies utilized in Taylor Swift’s commencement speech

An analysis of thematic roles in news articles and short stories

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Giới thiệu

Về chúng tôi

Việc làm

Quảng cáo

Liên hệ

Chính sách

Thoả thuận sử dụng

Chính sách bảo mật

Chính sách hoàn tiền

DMCA

Hỗ trợ

Hướng dẫn sử dụng

Đăng ký tài khoản VIP

093 303 0098

support@tailieu.vn

Phương thức thanh toán

Theo dõi chúng tôi

Facebook

Youtube

TikTok