Gán nhãn t loi
Thanh Hương
1
Thanh
Hương
B môn H thng Thông tin
Vin CNTT &TT – Trường ĐHBKHN
Email: huonglt-fit@mail.hut.edu.vn
Định nghĩa
zGán nhãn t loi (Part of Speech tagging - POS
tagging): mi t trong câu được gán nhãn th t loi
tương ng ca nó
zVào : 1 đon văn bn đã tách t + tp nhãn
z
Ra: cách gán nhãn chính xác nht
2
z
Ra:
cách
gán
nhãn
chính
xác
nht
Ví d 1
Ví d 2
Ví d 3
Ví d 4
Ví d5
¾Gán nhãn làm cho vic phân tích văn bn d dàng hơn
Ti sao cn gán nhãn?
zD thc hin: có th thc hin bng nhiu phương pháp
khác nhau
zCác phương pháp s dng ng cnh có th đem li
kết qu tt
Mdùêth hib h ăb
3
z
M
c
n
ê
n
th
c
hi
n
b
ng p
n
c
h
v
ă
n
b
n
zCác ng dng:
zText-to-speech: record - N: [‘reko:d], V: [ri’ko:d]; lead –
N [led], V: [li:d]
zTin x lý cho PTCP. PTCP thc hin vic gán nhãn
tt hơn nhưng đắt hơn
zNhn dng tiếng nói, PTCP, tìm kiếm, v.v…
zD đánh giá (có bao nhiêu th được gán nhãn đúng?)
Tp t loi tiếng Anh
zLp đóng (các t chc năng): s lượng c định
zGii t (Prepositions): on, under, over,…
zTiu t (Particles): abroad, about, around, before, in,
instead, since, without,…
4
zMo t (Articles): a, an, the
zLiên t (Conjunctions): and, or, but, that,…
zĐại t (Pronouns): you, me, I, your, what, who,…
zTr động t (Auxiliary verbs): can, will, may, should,…
zLp m: có th có thêm t mi
Lp t m trong tiếng Anh
o
p
en class
verbs
Proper nouns: IBM, Colorado
nouns
common nouns
count nouns: book, ticket
mass nouns: snow, salt
auxiliaries
Color: red, white
. . .
5
p
adverbs
adjectives Age: old, young
Value: good, bad
Degree adverbs: extremely, very, somewhat
Manner adverbs: slowly, delicately
Temporal adverbs: yesterday, Monday
Locatives adverbs: home, here, downhill
Tp nhãn cho tiếng Anh
ztp ng liu Brown: 87 nhãn
z3 tp thường được s dng:
¾
Nh:45nhãn
-
6
¾
Nh:
45
nhãn
-
¾Trung bình: 61 nhãn, British national corpus
¾Ln: 146 nhãn, C7
7
I know that blocks the sun.
He always books the violin concert tickets early.
He says that book is interesting.
Penn Treebank – ví d
zThe grand jury commented on a number of
other topics.
8
ÖThe/DT grand/JJ jury/NN commented/VBD
on/IN a/DT number/NN of/IN other/JJ
topics/NNS ./.
Khó khăn trong gán nhãn t
loi?
… là x lý nhp nhng
9
Các phương pháp gán nhãn t
loi
zDa trên xác sut: da trên xác sut ln
nht, da trên mô hình Markov n (hidden
markov model – HMM)
Pr (Det
N) > Pr (Det
Det)
10
Pr
(Det
-
N)
>
Pr
(Det
-
Det)
zDa trên lut
If <mu>
Then … <gán nhãn th t loi>
Các cách tiếp cn
zS dng HMM : “S dng tt c thông tin đã
có và đoán”
zD
a trên ràn
g
bu
c n
g
p
p
: “khôn
g
11
ggpp
g
đoán, ch loi tr nhng kh năng sai”
zDa trên chuyn đổi: Đoán trước, sau đó
có th thay đổi”
Gán nhãn da trên xác sut
Cho câu hoc 1 xâu các t, gán nhãn t loi
thường xy ra nht cho các t trong xâu đó.
Cách thc hin:
12
zHidden Markov model (HMM):
Chn th t loi làm ti đa xác sut:
P(t|t loi)P(t loi| n t loi phía trước)
The/DT grand/JJ jury/NN commented/VBD on/IN a/DT
number/NN of/IN other/JJ topics/NNS ./.
P(jury|NN) = 1/2
Ví d -HMMs
13
Thc hin hc có giám sát, sau đó suy din để xác
định th t loi
Gán nhãn HMM
zCông thc Bigram HMM: chn ti cho wicó nhiu
kh năng nht khi biết ti-1 wi :
ti = argmaxjP(tj | ti-1 , wi)(1)
z
Githiếtđơngin hóa HMM:
vnđề gán nhãn
14
z
Gi
thiết
đơn
gin
hóa
HMM:
vn
đề
gán
nhãn
có th gii quyết bng cách da trên các t
th t loi bên cnh nó
ti = argmaxjP(tj | tj-1 )P(wi | tj ) (2)
xs chui th
(các th đồng xut hin)
xs t thường xut hin vi th tj
Ví d
1. Secretariat/NNP is/VBZ expected/VBN to/TO race/VB
tomorrow/NN
2. People/NNS continue/VBP to/TO inquire/VB the/DT
reason/NN for/IN the/DT race/NN for/IN outer/JJ
15
space/NN
zKhông th đánh giá bng cách ch đếm t trong tp ng
liu (và chun hóa)
zMun 1 động t theo sau TO nhiu hơn 1 danh t (to
race, to walk). Nhưng 1 danh t cũng có th theo sau
TO (run to school)
Gi s chúng ta có tt c các t
loi tr t race
zCh nhìn vào t đứng trước(bigram):
to/TO race/??? NN or VB?
the/DT race/???
I/PP know/VBP that/WDT block/NN blocks/NNS?VBZ? the/DT
sun/NN.
16
zÁp dng (2):
zChn th có xác sut ln hơn gia 2 xác sut:
P(VB|TO)P(race|VB) hoc P(NN|TO)P(race|NN)
xác sut ca 1 t là race khi biết t loi là VB.
ti = argmaxjP(tj | tj-1 )P(wi | tj )
Tính xác sut
Xét P(VB|TO) và P(NN|TO)
zT tp ng liu Brown
P(NN|TO)= .021
P(VB|TO)= .340
17
P(race|NN)= 0.00041
P(race|VB)= 0.00003
zP(VB|TO)P(race|VB) = 0.00001
zP(NN|TO)P (race|NN) = 0.000007
¾race cn phi là động t nếu đi sau “TO”
Bài tp
zI know that blocks the sun.
zHe always books the violin concert tickets early.
zHe says that book is interesting.
zI/PP know/VBP that/WDT blocks/VBZ the/DT sun/NN.
18
zHe/PP always/RB books/VBZ the/DT violin/NN
concert/NN tickets/NNS early/RB.
zI know that block blocks the sun.
zI/PP know/VBP that/DT block/NN blocks/NNS?VBZ?
the/DT sun/NN.
zHe/PP says/VBZ that/WDT book/NN is/VBZ
interesting/JJ.
Mô hình đầy đủ
zChúng ta cn tìm chui th tt nht cho toàn xâu
zCho xâu t W, cn tính chui t loi có xác sut ln
nht
T=t1,t2 ,…, tn hoc,
19
(nguyên lý Bayes)
ˆarg max ( | )
T
TPTW
τ
=
M rng s dng lut chui
P(A,B) = P(A|B)P(B) = P(B|A)P(A)
P(A,B,C) = P(B,C|A)P(A) = P(C|A,B)P(B|A)P(A)
= P(A)P(B|A)P(C|A,B)
20
P(A,B,C,D…) = P(A)P(B|A)P(C|A,B)P(D|A,B,C..)
11 1 1 11 1 1
1
( ) ( | ) ( | ... ) ( | ... )
n
iiiiiii
i
PT PW T Pw wt w t t Pt wt w t
−− −−
=
=
lch s nhãn
pr t
Gi thiết trigram
zXác sut 1 t ch ph thuc vào nhãn ca nó
11 1
( | ... ) ( | )
iiiii
Pw wt t t Pw t
=
21
zTa ly lch s nhãn thông qua 2 nhãn gn
nht (trigram: 2 nhãn gn nht + nhãn hin
ti)
11 1
( | ... ) ( | )
iiiii
Pw wt t t Pw t
11 1 2 1
( | ... ) ( | )
ii iii
Pt wt t Pt t t
−−
=
Thay vào công thc
nn
P(T)P(W|T) =
22
121 21
31
()(|)(| )[(|)]
iii ii
ii
P
tPt t Pt t t Pwt
−−
=
=
Đánh giá xác sut
zS dng quan h xác sut t tp ng liu để
đánh giá xác sut:
21
()
(| )
iii
ct t t
Pt t t
−−
23
21
12
21
()
(| )
()
iii
iii
ii
Pt t t
ct t
−−
−−
=
(,)
(|) ()
ii
ii
i
cw t
Pw t
ct
=
Bài toán
Cn gii quyết
ˆ
arg max ( ) ( | )
TPTPWT
=
24
Bây gi ta có th tính được tt c các tích
P(T)P(W|T)
arg max ( ) ( | )
T
TPTPWT
τ
=
Ví d
NNS
DT
NNS
NNS
25
the dog
VB
saw
VBP
ice-cream
Tìm đường đi tt nht?
Tìm đường đi có đim cao
nht
NNS NNS
75
30
NNS
1
121 21
31
() ( | ) ( | )[ ( | )]
nn
iii ii
ii
P
tPt t Pt t t Pwt
−−
=
=
∏∏
26
the dog
VB
DT
saw
VBP
ice-cream
75
1
6030
1
NNS
1
52
Cách tìm đường đi có đim
cao nht
zS dng tìm kiếm kiu best-first (A*)
1. Ti mi bước, chn k giá tr tt nht ( ) . Mi giá
tr trong k giá tr này ng vi 1 kh năng kết hp
nhãn ca tt c các t
ế
27
2. Khi gán t ti
ế
p theo, tính li xác su
t. Quay li
bước 1
zƯu: nhanh (không cn kim tra tt c các kh năng
kết hp, ch k cái tim năng nht)
zNhược: có th không tr v kết qu tt nht mà ch
chp nhn được
Độ chính xác
z> 96%
zCách đơn gin nht? 90%
zGán mi t vi t loi thường xuyên nht ca
28
zGán t chưa biết = danh t
zNgười: 97%+/- 3%; nếu có tho lun: 100%
Cách tiếp cn th 2: gán nhãn
da trên chuyn đổi
Transformation-based Learning (TBL):
zKết hp cách tiếp cn da trên lut và cách tiếp
átd h á để hhl ith
29
c
n x
á
c su
t
: s
d
ng
h
c m
á
y
để
c
h
n
h
l
i
th
thông qua vài ln duyt
zGán nhãn s dng tp lut tng quát nht, sau đó
đến tp lut hp hơn, thay đổi mt s nhãn, và tiếp
tc
Transformation-based painting
30