
1
Nghĩa từ vựng và phân
giải nhập nhằng từ
Lê Thanh Hươn
g
1
g
Bộ môn Hệ thống Thông tin
Viện CNTT &TT – Trường ĐHBKHN
Email: huonglt-fit@mail.hut.edu.vn
Từ đồng âm
zTừ đồng âm (Homonymy): là những từ trùng
nhau về hình thức ngữ âm nhưng khác nhau về
nghĩa
zTừ đồng âm, đồng tự (Homograph) : các từ với cùng
cách viết nhưng có nghĩa khác nhau. Ví dụ:
d
di i hi bi d
z
d
ove -
di
ve
i
nto water, w
hi
te
bi
r
d
zsaw
zTừ đồng âm, không đồng tự (Homophone): các từ có
cách viết khác nhau nhưng có cùng âm. Ví dụ:
zsee, sea; meat, meet
2
Phân loại từ đồng âm tiếng Việt
zĐồng âm từ với từ, gồm:
zĐồng âm từ vựng: Tất cả các từ đều thuộc cùng một từ loại. Ví dụ:
zđường1(đắp đường) - đường2(đường phèn).
zđường kính1(đường để ăn) - đường kính2(…của đường tròn).
zcất1(cất vó) - cất2(cất tiền vào tủ) - cất3(cất hàng) - cất4(cất rượu)
ồ
ồ
z
Đồ
ng âm từ vựng-ngữ pháp: Các từ trong nhóm đ
ồ
ng âm với nhau chỉ
khác nhau về từ loại. Ví dụ:
zchỉ1(cuộn chỉ) - chỉ2(chỉ tay năm ngón) - chỉ3(chỉ còn có dăm đồng).
zcâu1(nói vài câu) - câu2(rau câu) - câu3(chim câu) - câu4(câu cá)
zĐồng âm từ với tiếng: các đơn vị khác nhau về cấp độ; kích
thước ngữ âm của chúng đều không vượt quá một tiếng. Ví dụ:
zCon trai Văn Cốclên dốc bắn cò, đứng lăm le cười khanh khách. Con gái
Bát Chàng bán hàng thịt ếch ngồi châu chẫunói ương ương.
3
Từ đa nghĩa, đồng nghĩa
zTừ đa nghĩa (Polysemy): một từ nhiều nghĩa,
biểu thị những đặc điểm, thuộc tính khác nhau
của một đối tượng, hoặc biểu thị những đối
tượng khác nhau của thực tại. Ví dụ
zđichỉ việc dịch chuyển bằng hai chi dưới hoặc chỉ
ộtờiàđóđãhết
m
ột
ngư
ời
n
à
o
đó
đã
c
hết
zĐồng nghĩa (Synonymy): là những từ tương
đồng với nhau về nghĩa, khác nhau về âm
thanh. Ví dụ
zcố, gắng
zcar, automobile
4
Nghĩa từ vựng
zNgữ nghĩa nghiên cứu ý nghĩa của các phát biểu dạng
ngôn ngữ
zNghĩa từ vựng (Lexical semantics) nghiên cứu:
z(quan hệ từ vựng) sự liên hệ về mặt ngữ nghĩa giữa các từ
z(ràng buộc về lựa chọn) cấu trúc liên hệ ngữ nghĩa bên
trong của từng từ
zbao gồm lý thuyết về phân loại và phân rã nghĩa của từ, sự
giống và khác trong cấu trúc từ vựng – ngữ nghĩa giữa các
ngôn ngữ, và quan hệ nghĩa của từ với cú pháp và ngữ
nghĩa của câu.
5
Ràng buộc về lựa chọn: Mã hóa
ngữ nghĩa trong văn phạm
zVị từ biểu diễn các ràng buộc qua tham số
zread (human subject, textual object)
zeat (animate subject)
z
kill (animate object)
z
kill
(animate
object)
zSử dụng vị từ để phân giải nhập nhằng
zVí dụ "dish":
zcái đĩa để ăn
zmón ăn
zphương tiện liên lạc
6

2
Ví dụ về từ “dish”
zNot unexpectedly, wives, whether working or non-
working, did by far the most - about 80% of the shopping,
laundry and cooking, and about two-thirds of
housecleaning, washing dishes, child care, and family
p
a
p
er work.
pp
zIn her tiny kitchen at home, Ms. Chen works efficiently,
stir-frying several simple dishes, including braised pig's
ears and chicken livers with green peppers.
zInstallation of satellite dishes, TVs and videocassette
equipment will cost the company about $20,000 per
school, Mr Whittle said.
7
Ràng buộc lựa chọn
zVPPNC có thể đưa vào các ràng buộc lựa chọn
ztạo ontology (ví dụ, người, động vật)
zràng buộc về luật
zvd. VP →VgiếtNPđộng vật
zràng buộc về dịch nghĩa
zvd. ăn([sinh vật sống], [thức ăn])
zNhược điểm: Cách viết này không tổng quát
zkhông đủ thông tin
zkhông sử dụng được với các trường hợp không liệt kê
trong văn phạm
8
Khai thác quan hệ từ vựng
Xác định quan hệ từ vựng giữa các từ trong
đoạn sau
Tôi
y
êu đ
ộ
n
g
v
ậ
t nuôi tron
g
nhà. Tôi đ
ặ
c bi
ệ
t
yộgậgặ ệ
thích mèo vì chúng là loài động vật rất độc
lập. Ngược lại, chó thì khá lắm nhu cầu. Ví
dụ, bạn phải dắt chúng đi dạo hàng ngày.
9
Khai thác quan hệ từ vựng
zTừ điển đồng nghĩa:
zgồm từ đồng nghĩa (Synonyms) và trái nghĩa
(Antonyms)
zWordnet:
zTừ đồng nghĩa và trái nghĩa
zTừ lớp cha và từ lớp con
z…
10
Nhập nhằng và các ràng buộc
lựa chọn
zNhập nhằng:
zCác vị từ khác nhau ứng với các nghĩa khác nhau
zwash the dishes (theme : washable-thing)
zTham số cũng có thể giải quyết nhập nhằng cho vị từ
serve vegetarian dishes (theme : food-type)
Phân tích ngữnghĩa
z
Phân
tích
ngữ
nghĩa
:
zLuật có gắn thông tin ngữ nghĩa được sử dụng với các câu đã
được phân tích cú pháp
“I wanna eat somewhere close to CSSE”
Ngoại động từ: VÆeat <theme> {theme:food-type} (VP --> V
NP)
Nội động từ: VÆeat <no-theme> (VP --> V)
zXung đột ràng buộc lựa chọn: loại trừ cú pháp
11
zVấn đề:
zĐôi khi ràng buộc lựa chọn không đủ chặt (khi 1 từ
có nhiều nghĩa)
zĐôi khi ràng buộc quá chặt – khi vị từ sử dụng
p
hé
p
ẩ
n d
ụ
. Vd
,
I’ll eat m
y
hat!
pp ụ,y
12

3
CSDL từ vựng
zLấy ý tưởng từ lý thuyết về tâm lý ngôn ngữ về khả năng
nhớ từ vựng của con người
Xâ d ộtkhổlồátừàhệtừ
WordNet: Giới thiệu
z
Xâ
y
d
ựng m
ột
mạng
khổ
ng
lồ
c
á
c
từ
vựng v
à
quan
hệ
từ
vựng
zWordnet tiếng Anh
z4 lớp: danh từ, động từ, tính từ, trạng từ
zDanh từ: 120,000; Động từ: 22,000; Tính từ: 30,000;
Trạng từ: 6,000
13
CSDL từ vựng
zWordnet cho các ngôn ngữ khác
[www.globalwordnet.org]
WordNet: Giới thiệu
zCó wordnet cho các ngôn ngữ: Tây Ban Nha, Tiệp, Hà
Lan, Pháp, Đức, Ý, Bồ Đào Nha, Thụy Điển, Basque,
Estonian
zWordnets đang được làm cho các tiếng: Bulgary, Đan
mạch, Hy lạp, Hebrew, Hindi, Cannada, Latvian,
Moldavy, Romany, Nga, Slovenian, Tamil, Thái lan, Thổ
Nhĩ Kỳ, Ireland, Nauy, Ba tư, Iran
14
Tập từ đồng nghĩa
Synonym Sets - Synsets
zTừ có nhập nhằng
zCác nút trong Wordnet biểu diễn tập từ đồng
nghĩa “synonym sets”, hoặc synsets. Ví dụ:
z
Fool:
1
ngườidễbịlợidụng
z
Fool:
1
người
dễ
bị
lợi
dụng
z{chump, fish, fool, gull, mark, patsy, fall guy, sucker,
schlemiel, shlemiel, soft touch, mug}
zSynset = tập khái niệm
15
Các quan hệ khác trong WordNet
•Các từ nối theo chiều dọc biểu diễn quan hệ rộng (holonymy) -
hẹp (hypernymy), theo chiều ngang biểu diễn quan hệ bộ phận
meronymy (part_of) và holonymy (has_part) .
•Mỗi nghĩa của từ được biểu diễn bằng 1 số synset
http://wordnet.princeton.edu/ 16
Phân giải nhập nhằng sử dụng
quan hệ từ vựng
Supplement Vitamin_Pill
Publication Dietary
Pill
SENSE OF WORD
KIND-OF (HYPONYMY)
HAS-PART (HOLONYMY)
PART-OF (MERONYMY)
Nutriment
Nutriment
Medicine
Textual
Matter
WordNet Similarity Metrics:
http://marimba.d.umn.edu/cgi-bin/similarity/similarity.cgi
17 18

4
Đo quan hệ từ vựng
zĐếm số cạnh/đỉnh trên đồ thị:
zkhoảng cách giữa 2 từ tỉ lệ nghịch với quan hệ ngữ nghĩa
giữa chúng
zNếu giữa 2 từ có nhiều đường đi, chọn đường ngắn nhất
số cạnh = 3
số nút = 4
19
Cặp từ nào gần nhau hơn?
zcá heo và cá?
zcá và cá hồi?
WordNet Similarity Metrics:
http://marimba.d.umn.edu/cgi-bin/similarity/similarity.cgi
20
21 22
Phân giải nhập nhằng và đếm cạnh
zwhale#n#1
z1 người rất lớn (về kích thước hoặc phẩm chất)
zfish#n#3
z(thiên văn học) người được sinh khi mặt trời ở vì
sao Pisces
sao
Pisces
person
Pisces (fish)
Giant ( w hale)
tall/ large person
Path Length = 4
23
Phân giải nhập nhằng và đếm cạnh
vertebrate
fish
aquat ic
vertebrate
mammal
placental
aquat ic
whale
animal
cetacean
Path length = 8
24

5
Nhược điểm của WordNet trong tính
quan hệ ngữ nghĩa
zĐộ đo quan hệ ngữ nghĩa WordNet dựa trên các giả
thiết sau:
zMọi cạnh trong đồ thị có độ dài bằng nhau
zCác nhánh tron
g
đồ thị có cùn
g
độ đậm đặc
g g
zTồn tại tất cả các quan hệ ngoại động từ
¾không đáng tin cậy
25
Cách tiếp cận dựa trên từ điển
zCác từ điển điện tử (Lesk ‘86)
zCho biết ý nghĩa của các từ trong ngữ cảnh cụ thể nội
dung (vd., I’ve often caught bass while out at sea)
zSo sánh sự chồn
g
chéo của các định n
g
hĩa về n
g
hĩa
g g g
của từ (bass2: a type of fish that lives in the sea)
zChọn nghĩa trùng nhau nhiều nhất
zHạn chế: đường dẫn đến từ ngắn Æmở rộng
cho các từ liên quan
26
Cách tiếp cận học máy
zHọc việc phân loại để gán từ với một trong các
nghĩa của nó
zTích lũy tri thức từ tập ngữ liệu có hoặc không gán nhãn
zCon người chỉ can thiệp vào tập ngữ liệu gán nhãn và lựa
ử ấ
chọn tập đặc trưng s
ử
dụng trong việc hu
ấ
n luyện
zVào: vectơ đặc trưng
zđích (từ cần phân giải nhập nhằng)
znội dung (các đặc trưng có thể dùng để tiên đoán nghĩa
đúng)
zRa: các luật phân loại cho văn bản mới
27
Các đặc trưng sử dụng trong
WSD
zCác thẻ POS của từ và các từ lân cận
zCác từ lân cận (có thể lấy gốc từ hoặc không)
zDấu chấm, viết hoa, định dạng
zPTCP b
ộ
p
h
ậ
n đ
ể
xác đ
ị
nh vai trò n
g
ữ
p
há
p
và
q
uan
ộpậ ị gpp q
hệ giữa chúng
zCác thông tin về đồng xuất hiện:
zTừ và các từ lân cận của nó có thường đồng xuất hiện không
zĐồng xuất hiện của các từ láng giềng
zVí dụ: sea có thường xuyên xuất hiện với bass không
28
Ví dụ
Tôi ăn cơm với cá.
zDT ĐgT DT GT DT
z(C (CN (ĐaT Tôi)) (VN (ĐgN (ĐgN (ĐgT ăn) (DT cơm)) (GN (GT
với) (DT cá)))))
Em bé chỉ thích ăn k
ẹ
o thôi.
ẹ
zDT TT TT ĐgT DT PT
z(C (CN (DT Em bé)) (VN (TN (TN (TT chỉ) (TN (TT thích) (ĐgN (ĐgT
ăn) (DT kẹo)))) (PT thôi))))
Nó ăn nhiều hoa hồng quá.
zĐaT ĐgT TT DT TT
z(C (CN (ĐaT Nó)) (VN (ĐgN (ĐgN (ĐgT ăn) (TT nhiều) (DT hoa
hồng)) (TT quá))))
zTôi tên là Hoa.
29
Các kiểu phân loại
zNaïve Bayes: Nghĩa tốt nhất là nghĩa có khả năng xảy ra
nhất với 1 đầu vào cho trước
zŝ= p(s|V), hoặc
ztrong đó s là 1 trong các nghĩa và V là vector đầu vào của các
đặctrưng
)(
)()|(
maxarg Vp
spsVp
Ss∈
maxarg
S
s
∈
đặc
trưng
zChỉ có ít dữ liệu có thông tin vector kết hợp với nghĩa
zGiả sử các đặc trưng là độc lập, p(V|s) là tích xác suất của các
đặc trưng
zp(V) là giống nhau với mọi ŝ (không ảnh hưởng đến xếp hạng
cuối cùng)
)|
1
()|( s
n
j
vj
psVp ∏
=
=
30