1
Nghĩa t vng và phân
gii nhp nhng t
Lê Thanh Hươn
g
1
g
B môn H thng Thông tin
Vin CNTT &TT – Trường ĐHBKHN
Email: huonglt-fit@mail.hut.edu.vn
T đồng âm
zT đồng âm (Homonymy): là nhng t trùng
nhau v hình thc ng âm nhưng khác nhau v
nghĩa
zT đồng âm, đồng t (Homograph) : các t vi cùng
cách viết nhưng có nghĩa khác nhau. Ví d:
d
di i hi bi d
z
d
ove -
di
ve
i
nto water, w
hi
te
bi
r
d
zsaw
zT đồng âm, không đồng t (Homophone): các t
cách viết khác nhau nhưng có cùng âm. Ví d:
zsee, sea; meat, meet
2
Phân loi t đồng âm tiếng Vit
zĐồng âm t vi t, gm:
zĐồng âm t vng: Tt c các t đều thuc cùng mt t loi. Ví d:
zđường1(đắp đường) - đường2(đường phèn).
zđường kính1(đường để ăn) - đường kính2(…ca đường tròn).
zct1(ct vó) - ct2(ct tin vào t) - ct3(ct hàng) - ct4(ct rượu)
z
Đồ
ng âm t vng-ng pháp: Các t trong nhóm đ
ng âm vi nhau ch
khác nhau v t loi. Ví d:
zch1(cun ch) - ch2(ch tay năm ngón) - ch3(ch còn có dăm đồng).
zcâu1(nói vài câu) - câu2(rau câu) - câu3(chim câu) - câu4(câu cá)
zĐồng âm t vi tiếng: các đơn v khác nhau v cp độ; kích
thước ng âm ca chúng đều không vượt quá mt tiếng. Ví d:
zCon trai Văn Cclên dc bn , đứng lăm le cười khanh khách. Con gái
Bát Chàng bán hàng tht ếch ngi châu chunói ương ương.
3
T đa nghĩa, đồng nghĩa
zT đa nghĩa (Polysemy): mt t nhiu nghĩa,
biu th nhng đặc đim, thuc tính khác nhau
ca mt đối tượng, hoc biu th nhng đối
tượng khác nhau ca thc ti. Ví d
zđich vic dch chuyn bng hai chi dưới hoc ch
tđóđãhết
m
t
ngư
i
n
à
o
đó
đã
c
hết
zĐồng nghĩa (Synonymy): là nhng t tương
đồng vi nhau v nghĩa, khác nhau v âm
thanh. Ví d
zc, gng
zcar, automobile
4
Nghĩa t vng
zNg nghĩa nghiên cu ý nghĩa ca các phát biu dng
ngôn ng
zNghĩa t vng (Lexical semantics) nghiên cu:
z(quan h t vng) s liên h v mt ng nghĩa gia các t
z(ràng buc v la chn) cu trúc liên h ng nghĩa bên
trong ca tng t
zbao gm lý thuyết v phân loi và phân rã nghĩa ca t, s
ging và khác trong cu trúc t vng – ng nghĩa gia các
ngôn ng, và quan h nghĩa ca t vi cú pháp và ng
nghĩa ca câu.
5
Ràng buc v la chn: Mã hóa
ng nghĩa trong văn phm
zV t biu din các ràng buc qua tham s
zread (human subject, textual object)
zeat (animate subject)
z
kill (animate object)
z
kill
(animate
object)
zS dng v t để phân gii nhp nhng
zVí d "dish":
zcái đĩa để ăn
zmón ăn
zphương tin liên lc
6
2
Ví d v t “dish”
zNot unexpectedly, wives, whether working or non-
working, did by far the most - about 80% of the shopping,
laundry and cooking, and about two-thirds of
housecleaning, washing dishes, child care, and family
a
er work.
zIn her tiny kitchen at home, Ms. Chen works efficiently,
stir-frying several simple dishes, including braised pig's
ears and chicken livers with green peppers.
zInstallation of satellite dishes, TVs and videocassette
equipment will cost the company about $20,000 per
school, Mr Whittle said.
7
Ràng buc la chn
zVPPNC có th đưa vào các ràng buc la chn
zto ontology (ví d, người, động vt)
zràng buc v lut
zvd. VP VgiếtNPđộng vt
zràng buc v dch nghĩa
zvd. ăn([sinh vt sng], [thc ăn])
zNhược đim: Cách viết này không tng quát
zkhông đủ thông tin
zkhông s dng được vi các trường hp không lit kê
trong văn phm
8
Khai thác quan h t vng
Xác định quan h t vng gia các t trong
đon sau
Tôi
y
êu đ
n
g
v
t nuôi tron
g
nhà. Tôi đ
c bi
t
ygg
thích mèo vì chúng là loài động vt rt độc
lp. Ngược li, chó thì khá lm nhu cu. Ví
d, bn phi dt chúng đi do hàng ngày.
9
Khai thác quan h t vng
zT đin đồng nghĩa:
zgm t đồng nghĩa (Synonyms) và trái nghĩa
(Antonyms)
zWordnet:
zT đồng nghĩa và trái nghĩa
zT lp cha và t lp con
z
10
Nhp nhng và các ràng buc
la chn
zNhp nhng:
zCác v t khác nhau ng vi các nghĩa khác nhau
zwash the dishes (theme : washable-thing)
zTham s cũng có th gii quyết nhp nhng cho v t
serve vegetarian dishes (theme : food-type)
Phân tích ngnghĩa
z
Phân
tích
ng
nghĩa
:
zLut có gn thông tin ng nghĩa được s dng vi các câu đã
được phân tích cú pháp
“I wanna eat somewhere close to CSSE”
Ngoi động t: VÆeat <theme> {theme:food-type} (VP --> V
NP)
Ni động t: VÆeat <no-theme> (VP --> V)
zXung đột ràng buc la chn: loi trpháp
11
zVn đề:
zĐôi khi ràng buc la chn không đủ cht (khi 1 t
có nhiu nghĩa)
zĐôi khi ràng buc quá cht – khi v t s dng
p
p
n d
. Vd
,
I’ll eat m
y
hat!
pp ,y
12
3
CSDL t vng
zLy ý tưởng t lý thuyết v tâm lý ngôn ng v kh năng
nh t vng ca con người
d tkhlátàht
WordNet: Gii thiu
z
y
d
ng m
t
mng
kh
ng
l
c
á
c
t
vng v
à
quan
h
t
vng
zWordnet tiếng Anh
z4 lp: danh t, động t, tính t, trng t
zDanh t: 120,000; Động t: 22,000; Tính t: 30,000;
Trng t: 6,000
13
CSDL t vng
zWordnet cho các ngôn ng khác
[www.globalwordnet.org]
WordNet: Gii thiu
zCó wordnet cho các ngôn ng: Tây Ban Nha, Tip, Hà
Lan, Pháp, Đức, Ý, B Đào Nha, Thy Đin, Basque,
Estonian
zWordnets đang được làm cho các tiếng: Bulgary, Đan
mch, Hy lp, Hebrew, Hindi, Cannada, Latvian,
Moldavy, Romany, Nga, Slovenian, Tamil, Thái lan, Th
Nhĩ K, Ireland, Nauy, Ba tư, Iran
14
Tp t đồng nghĩa
Synonym Sets - Synsets
zT có nhp nhng
zCác nút trong Wordnet biu din tp t đồng
nghĩa “synonym sets”, hoc synsets. Ví d:
z
Fool:
1
ngườidblidng
z
Fool:
1
người
d
b
li
dng
z{chump, fish, fool, gull, mark, patsy, fall guy, sucker,
schlemiel, shlemiel, soft touch, mug}
zSynset = tp khái nim
15
Các quan h khác trong WordNet
•Các t ni theo chiu dc biu din quan h rng (holonymy) -
hp (hypernymy), theo chiu ngang biu din quan h b phn
meronymy (part_of) và holonymy (has_part) .
•Mi nghĩa ca t được biu din bng 1 s synset
http://wordnet.princeton.edu/ 16
Phân gii nhp nhng s dng
quan h t vng
Supplement Vitamin_Pill
Publication Dietary
Pill
SENSE OF WORD
KIND-OF (HYPONYMY)
HAS-PART (HOLONYMY)
PART-OF (MERONYMY)
Nutriment
Nutriment
Medicine
Textual
Matter
WordNet Similarity Metrics:
http://marimba.d.umn.edu/cgi-bin/similarity/similarity.cgi
17 18
4
Đo quan h t vng
zĐếm s cnh/đỉnh trên đồ th:
zkhong cách gia 2 t t l nghch vi quan h ng nghĩa
gia chúng
zNếu gia 2 t có nhiu đường đi, chn đường ngn nht
s cnh = 3
s nút = 4
19
Cp t nào gn nhau hơn?
zcá heo và cá?
zcá và cá hi?
WordNet Similarity Metrics:
http://marimba.d.umn.edu/cgi-bin/similarity/similarity.cgi
20
21 22
Phân gii nhp nhng và đếm cnh
zwhale#n#1
z1 người rt ln (v kích thước hoc phm cht)
zfish#n#3
z(thiên văn hc) người được sinh khi mt tri
sao Pisces
sao
Pisces
person
Pisces (fish)
Giant ( w hale)
tall/ large person
Path Length = 4
23
Phân gii nhp nhng và đếm cnh
vertebrate
fish
aquat ic
vertebrate
mammal
placental
aquat ic
whale
animal
cetacean
Path length = 8
24
5
Nhược đim ca WordNet trong tính
quan h ng nghĩa
zĐộ đo quan h ng nghĩa WordNet da trên các gi
thiết sau:
zMi cnh trong đồ thđộ dài bng nhau
zCác nhánh tron
g
đồ th có cùn
g
độ đậm đặc
g g
zTn ti tt c các quan h ngoi động t
¾không đáng tin cy
25
Cách tiếp cn da trên t đin
zCác t đin đin t (Lesk ‘86)
zCho biết ý nghĩa ca các t trong ng cnh c th ni
dung (vd., I’ve often caught bass while out at sea)
zSo sánh s chn
g
chéo ca các định n
g
hĩa v n
g
hĩa
g g g
ca t (bass2: a type of fish that lives in the sea)
zChn nghĩa trùng nhau nhiu nht
zHn chế: đường dn đến t ngn Æm rng
cho các t liên quan
26
Cách tiếp cn hc máy
zHc vic phân loi để gán t vi mt trong các
nghĩa ca nó
zTích lũy tri thc t tp ng liu có hoc không gán nhãn
zCon người ch can thip vào tp ng liu gán nhãn và la
chn tp đặc trưng s
dng trong vic hu
n luyn
zVào: vectơ đặc trưng
zđích (t cn phân gii nhp nhng)
zni dung (các đặc trưng có th dùng để tiên đoán nghĩa
đúng)
zRa: các lut phân loi cho văn bn mi
27
Các đặc trưng s dng trong
WSD
zCác th POS ca t các t lân cn
zCác t lân cn (có th ly gc t hoc không)
zDu chm, viết hoa, định dng
zPTCP b
p
h
n đ
xác đ
nh vai trò n
g
p
p
q
uan
p gpp q
h gia chúng
zCác thông tin v đồng xut hin:
zT và các t lân cn ca nó có thường đồng xut hin không
zĐồng xut hin ca các t láng ging
zVí d: sea có thường xuyên xut hin vi bass không
28
Ví d
Tôi ăn cơm vi cá.
zDT ĐgT DT GT DT
z(C (CN (ĐaT Tôi)) (VN (ĐgN (ĐgN (ĐgT ăn) (DT cơm)) (GN (GT
vi) (DT cá)))))
Em bé ch thích ăn k
o thôi.
zDT TT TT ĐgT DT PT
z(C (CN (DT Em bé)) (VN (TN (TN (TT ch) (TN (TT thích) (ĐgN (ĐgT
ăn) (DT ko)))) (PT thôi))))
ăn nhiu hoa hng quá.
zĐaT ĐgT TT DT TT
z(C (CN (ĐaT Nó)) (VN (ĐgN (ĐgN (ĐgT ăn) (TT nhiu) (DT hoa
hng)) (TT quá))))
zTôi tên là Hoa.
29
Các kiu phân loi
zNaïve Bayes: Nghĩa tt nht là nghĩa có kh năng xy ra
nht vi 1 đầu vào cho trước
zŝ= p(s|V), hoc
ztrong đó s là 1 trong các nghĩa và V là vector đầu vào ca các
đặctrưng
)(
)()|(
maxarg Vp
spsVp
Ss
maxarg
S
s
đặc
trưng
zCh có ít d liu có thông tin vector kết hp vi nghĩa
zGi s các đặc trưng là độc lp, p(V|s) là tích xác sut ca các
đặc trưng
zp(V) là ging nhau vi mi ŝ (không nh hưởng đến xếp hng
cui cùng)
)|
1
()|( s
n
j
vj
psVp
=
=
30