Chương 7 Xử lý nhập nhằng ngữ<br />
nghĩa<br />
Nghĩa của từ<br />
Wordnet<br />
Phương pháp dựa trên từ điển<br />
IT4772 Xử lý ngôn ngữ tự nhiên<br />
Viện CNTT-TT, ĐHBKHN<br />
<br />
Phương pháp dựa trên tương đ ồng ng ữ nghĩa<br />
Babelnet<br />
<br />
2<br />
<br />
Chương 6 Xử lý nhập nhằng ngữ nghĩa<br />
Nghĩa của từ<br />
INFORMATION EXTRACTION<br />
<br />
“You shall know a word by the company it<br />
keeps” (Firth, J. R. 1957:11)<br />
NATURAL LANGUAGE UNDERSTANDING<br />
<br />
END-TO-END<br />
APPLICATIONS<br />
<br />
NATURAL LANGUAGE GENERATION<br />
<br />
DATA + LINGUISTICS + MACHINE LEARNING<br />
<br />
3<br />
<br />
4<br />
<br />
Chương 6 Xử lý nhập nhằng ngữ nghĩa<br />
Nghĩa của từ<br />
<br />
Chương 6 Xử lý nhập nhằng ngữ nghĩa<br />
Nghĩa của từ<br />
<br />
5<br />
<br />
Chương 6 Xử lý nhập nhằng ngữ nghĩa<br />
Nghĩa của từ<br />
<br />
6<br />
<br />
Chương 6 Xử lý nhập nhằng ngữ nghĩa<br />
Nghĩa của từ<br />
<br />
Từ đồng âm (cùng từ loại):<br />
Đồng là nguyên tố hóa học trong bảng tu ần hoàn<br />
nguyên tố có ký hiệu Cu và số nguyên t ử b ằng 29.<br />
Đồng (VND) là đơn vị tiền tệ chính thức c ủa Vi ệt<br />
Nam, do Ngân hàng Nhà nước Việt Nam phát hành.<br />
Ruộng lúa, đồng lúa, hoặc cánh đồng lúa hay còn<br />
gọi đơn giản là ruộng là một khu đất ng ập n ước có<br />
diện tích đất dùng để canh tác và đ ược s ử d ụng<br />
cho việc trồng lúa và các cây trồng khác.<br />
<br />
7<br />
<br />
8<br />
<br />
Chương 6 Xử lý nhập nhằng ngữ nghĩa<br />
Nghĩa của từ<br />
<br />
●<br />
<br />
Chương 6 Xử lý nhập nhằng ngữ nghĩa<br />
Nghĩa của từ<br />
<br />
Xử lý nhập nhằng ngữ nghĩa: Xác đ ịnh nghĩa c ủa<br />
từ trong một ngữ cảnh cụ thể theo một từ đi ển.<br />
<br />
Từ đa nghĩa (cùng từ loại)<br />
<br />
Chỉ xét các từ cùng từ loại<br />
Chỉ xét các từ nội dung<br />
Ứng dụng:<br />
Truy hồi thông tin<br />
Dịch máy<br />
Hỏi đáp<br />
9<br />
<br />
Chương 6 Xử lý nhập nhằng ngữ nghĩa<br />
Wordnet<br />
<br />
10<br />
<br />
Chương 6 Xử lý nhập nhằng ngữ nghĩa<br />
Wordnet<br />
<br />
●<br />
<br />
Princeton Wordnet<br />
<br />
●<br />
<br />
Princeton University<br />
<br />
nhân dân, người dân, quần chúng, dân<br />
<br />
●<br />
<br />
Miller, Fellbaum and co-authors<br />
<br />
học sinh, học trò<br />
<br />
●<br />
<br />
Từ 1985<br />
<br />
●<br />
<br />
11<br />
<br />
Từ đồng nghĩa:<br />
<br />
12<br />
<br />
Chương 6 Xử lý nhập nhằng ngữ nghĩa<br />
Wordnet<br />
<br />
●<br />
●<br />
<br />
Chương 6 Xử lý nhập nhằng ngữ nghĩa<br />
Wordnet<br />
<br />
Synset: Tập hợp các từ đồng nghĩa<br />
<br />
●<br />
<br />
Hypernymy in noun hierarchy<br />
‘science’ is hypernym of ‘mathematics’<br />
<br />
Một từ có thể thuộc nhiều synset khác nhau<br />
ứng với các ý nghĩa khác nhau c ủa t ừ đó<br />
<br />
‘computer’ is hypernym of ‘server’<br />
<br />
13<br />
<br />
Chương 6 Xử lý nhập nhằng ngữ nghĩa<br />
Wordnet<br />
<br />
14<br />
<br />
Chương 6 Xử lý nhập nhằng ngữ nghĩa<br />
Wordnet<br />
<br />
Quan hệ<br />
<br />
Ví dụ<br />
<br />
hypernym<br />
<br />
Breakfast → meal<br />
<br />
hyponym<br />
<br />
Meal → lunch<br />
<br />
Has-member<br />
<br />
Faculty → professor<br />
<br />
Member-of<br />
<br />
Pilot → crew<br />
<br />
has-part<br />
<br />
Table → leg<br />
<br />
part-of<br />
<br />
display → computer<br />
<br />
antonym<br />
<br />
Leader → follow<br />
<br />
●<br />
<br />
Ứng dụng<br />
Xử lý nhập nhằng ngữ nghĩa<br />
Tương đồng ngữ nghĩa<br />
<br />
15<br />
<br />
16<br />
<br />
Chương 6 Xử lý nhập nhằng ngữ nghĩa<br />
Phương pháp dựa trên từ điển<br />
<br />
●<br />
<br />
Chương 6 Xử lý nhập nhằng ngữ nghĩa<br />
Phương pháp dựa trên từ điển<br />
<br />
Đầu vào:<br />
Một từ trong một ngữ cảnh<br />
“Thời đại công nghệ cao, đến bẫy chuột cũng phải kết nối<br />
Wi-Fi”<br />
<br />
Từ loại<br />
nghĩa#1<br />
<br />
Từ điển chứa các nghĩa của từ<br />
<br />
giải thích<br />
<br />
Giải thích nghĩa<br />
Ví dụ<br />
●<br />
<br />
từ<br />
<br />
ví dụ<br />
nghĩa#2<br />
<br />
Đầu ra: nghĩa của từ<br />
<br />
17<br />
<br />
Chương 6 Xử lý nhập nhằng ngữ nghĩa<br />
Phương pháp dựa trên từ điển<br />
<br />
●<br />
<br />
Thuật toán Lesk<br />
<br />
●<br />
<br />
Dựa trên mô hình truy h ồi thông tin:<br />
<br />
18<br />
<br />
Chương 6 Xử lý nhập nhằng ngữ nghĩa<br />
Phương pháp dựa trên từ điển<br />
<br />
●<br />
<br />
Ưu điểm:<br />
Đơn giản<br />
Kế thừa được các kĩ thuật truy hồi thông tin<br />
<br />
Nghĩa ~ văn bản (giải thích + ví dụ)<br />
Từ + ngữ cảnh ~ câu truy vấn<br />
<br />
●<br />
<br />
→ Tìm văn bản (nghĩa) phù hợp nhất v ới câu truy<br />
vấn (từ)<br />
<br />
Nhược điểm:<br />
Cần từ điển<br />
Văn bản ngắn, thưa<br />
<br />
19<br />
<br />
20<br />
<br />