Phân tích cú pháp xác
sut
Lê Thanh Hươn
g
1
g
B môn H thng Thông tin
Vin CNTT &TT – Trường ĐHBKHN
Email: huonglt-fit@mail.hut.edu.vn
Làm cách nào chn cây đúng?
zVí d:
I saw a man with a telescope.
zKhi s lut tăng, kh năng nhp nhng tăng
zT
p
lut NYU: b PTCP A
pp
le
p
ie : 20,000-30,000
2
ppp p
lut cho tiếng Anh
zLa chn lut AD: V DT NN PP
(1) VP V NP PP
NP DT NN
(2) VP V NP
NP DT NN PP
Kết hp t (bigrams pr)
Ví d:
Eat ice-cream (high freq)
Eat John (low, except on Survivor)
Nhược đim:
zP(John decided to bake a) có xác sut cao
zXét:
P(w
3
)
=
P(w
3
|w
2
w
1
)
=
P(w
3
|w
2
2
|w
1
)P(w
1
)
3
P(w
3
)
P(w
3
|w
2
w
1
)P(w
3
|w
2
2
|w
1
)P(w
1
)
Gi thiết này quá mnh: ch ng có th quyết định b ng trong
câu
Clinton admires honesty
¾s dng cu trúc ng pháp để dng vic lan truyn
zXét Fred watered his mother’s small garden. T garden
nh hưởng như thế nào?
zPr(garden|mother’s small) thp mô hình trigram không tt
zPr(garden | X là thành phn chính ca b ng cho động t to
water) cao hơn
¾s dng bigram + quan h ng pháp
Kết hp t (bigrams pr)
zV có mt s loi b ng nht định
Verb-with-obj, verb-without-obj
zS tương thích gia ch ng và b ng:
John admires honesty
Honesty admires John ???
4
Nhược đim:
Kích thước tp ng pháp tăng
zCác bài báo ca tp chí Wall Street Journal trong 1 năm:
47,219 câu, độ dài trung bình 23 t, gán nhãn bng tay: ch
có 4.7% hay 2,232 câu có cùng cu trúc ng pháp
¾Không th da trên vic tìm các cu trúc cú pháp đúng cho
c câu. Phi xây dng tp các mu ng pháp nh
Ví d
S
VP VP
VP
Lut 3
5
This apple pie looks good and is a real treat
DT NN NN VBX JJ CC VBX DT JJ NN
NP NP
VP ADJ
Lut 1 Lut 2
Lut
1. NPDT NN NN
2. NPDT JJ NN
3. SNP VBX JJ CC VBX NP
zNhóm (NNS, NN) thành NX; (NNP, NNPs)=NPX;
(VBP, VBZ, VBD)
=
VBX;
6
(VBP,
VBZ,
VBD) VBX;
zChn các lut theo tn sut ca nó
Tính xác sut
XNP
1470
Pr(X Y)
7
Y DT JJ NN
9711
NP
==0.1532
Tính Pr
S
NP VP
DT JJ NN VBX NP
DT JJ NN
The big guy ate
1
4
3
S NP VP; 0.35
NP DT JJ NN; 0.1532
VP VBX NP; 0.302
2
8
Lut áp dng Chui Pr
1S NP VP 0.35
2NP DT JJ NN 0.1532 x 0.35 = 0.0536
3VP VBX NP 0.302 x 0.0536= 0.0162
4NP DT JJ NN 0.1532 x 0.0162=0.0025
Pr = 0.0025
the a
pp
le
p
ie
Văn phm phi ng cnh xác sut
z1 văn phm phi ng cnh xác sut (Probabilistic Context
Free Grammar) gm các phn thông thường ca CFG
zTp ký hiu kết thúc {wk}, k = 1, . . . ,V
zTp ký hiu không kết thúc {Ni}, i = 1, . . . ,n
z
hiukhiđầuN
1
9
z
hiu
khi
đầu
N
zTp lut {Ni→ζ
j}, ζjlà chui các hiu kết thúc và không
kết thúc
zTp các xác sut ca 1 lut là:
i jP(Ni→ζ
j) = 1
zXác sut ca 1 cây cú pháp:
P(T) = Πi=1..n p(r(i))
Các gi thiết
zĐộc lp v trí: Xác sut 1 cây con không ph thuc vào v trí
ca các t ca cây con đó trong câu
k, P(Njk(k+c) →ζ) là ging nhau
zĐ
c l
p
n
g
cnh: Xác sut 1 câ
y
con khôn
g
p
h
thu
c vào
10
pg
ygp
các t ngoài cây con đó
P(Njkl→ζ| các t ngoài khong k đến l) = P(Njkl→ζ)
zĐộc lp t tiên: Xác sut 1 cây con không ph thuc vào
các nút ngoài cay con đó
P(Njkl→ζ| các nút ngoài cây con Njkl ) = P(Njkl→ζ)
Các thut toán
zCKY
zBeam search
z
Agenda/chart
based search
11
z
Agenda/chart
-
based
search
z
CKY kết hp xác sut
zCu trúc d liu:
zMng lp trình động π[i,j,a] lưu xác sut ln nht
ca ký hiu không kết thúc a trin khai thành chui
i…j.
ế ế
12
zBackptrs lưu liên k
ế
t đ
ế
n các thành ph
n trên câ
y
zRa: Xác sut ln nht ca cây
Tính Pr da trên suy din
zTrường hp cơ bn: ch có 1 t đầu vào
Pr(tree) = pr(Awi)
zTrường hp đệ qui: Đầu vào là xâu các t
Awij if k: A→ ΒC, B wik ,C wkj ,ik j.
***
13
p[i,j] = max(p(
A
→ ΒC) x p[i,k] x p[k,j]).
ikj
A
BC
wij
14
TÍnh xác sut Viterbi (thut toán
CKY)
15
0.0504
Ví d
zS ÆNP VP 0.80
zNP ÆDet N 0.30
zVP ÆV NP 0.20
z
V
Æ
includes
005
zDet Æthe 0.50
zDet Æa0.40
zN Æmeal 0.01
z
N
Æ
flight
002
z
V
Æ
includes
0
.
05
z
N
Æ
flight
0
.
02
Dùng thut toán CYK phân tích câu vào:
“The flight includes a meal”
Tính Pr
1. S NP VP 1.0
2. VP V NP PP 0.4
3. VP V NP 0.6
4. NP N0.7
5. NP N PP 0.3
6. PP PREP N 1.0 NP NP PP
VP
SVP
NP
PP
V N
1.0
0.4
07
07
0.6
0.3
17
7. N a_dog 0.3
8. N a_cat 0.5
9. N a_telescop 0.2
10. V saw 1.0
11. PREP with 1.0
N V N PREP N
PREP N
0
.
7
0.3 1.0 0.5 1.0 0.2
0
.
7
1.0 1.0
Pl= 1×.7×.4×.3×.7×1×.5×1×1×.2 = .00588
Pr= 1×.7×.6×.3×.3×1×.5×1×1×.2 = .00378
¾Plis chosen
a_dog saw a_cat with a_telescope
Xác sut Forward và Backward
The big brown fox
NP
N’
N
’’
The
big
t
Xt
1t-1… …T
Forward= xác sut các phn
t trên và bao gm 1 nút c
thnào đó
18
N
N
big
brown
fox
Forward
Probability =
ai(t)=P(w1(t-1), Xt=i)
i
Backward
Probability =
bi(t)=P(wtT |Xt=i)
bi(t)
ai(t)
th
nào
đó
Backward= xác sut các
phn t dưới 1 nút c th
nào đó
Xác sut trong và ngoài
N1= Start
Nj
β
α
Outside αj(p,q)
Inside βj(p,q)
19
zNpq = ký hiu không kết thúc Njtri t v trí p đến q trong
xâu
zαj = xác sut ngoài (outside)
zβj = xác sut trong (inside)
zNj phcác t wp … wq, nếu Nj⇒∗ wp … wq
w1wm
β
wpwqwq+1
wp-1
N1= Start
Nj
α
Outside αj(p,q)
Inside βj(p,q)
Xác sut trong và ngoài
20
w1wm
β
wpwqwq+1
wp-1
αj(p,q) βj(p,q) = P(N1⇒∗ w1m , Nj ⇒∗ wpq | G)
=P(N1⇒∗ w1m |G)P(Nj ⇒∗ wpq | N1⇒∗ w1m, G)
αj(p,q)=P(w1(p-1) , Npqj,w(q+1)m|G)
βj(p,q)=P(wpq|Npqj, G)
Tính xác sut ca xâu
zS dng thut toán Inside, 1 thut toán lp trình động da
trên xác sut inside
P(w1m|G) = P(N1* w1m|G) = P(w1m|N1m1, G) = β1(1,m)
21
zTrường hp cơ bn:
βj(k,k) = P(wk|Nkkj, G)=P(Njwk|G)
zSuy din:
βj(p,q) = Σr,sΣd(p,q-1) P(NjNrNs) βr(p,d) βs(d+1,q)
Suy din
Nj
P(N
j
N
r
N
s
)
Tính
β
j(p,q) vi p < q – tính trên tt c các đim j –
thc hin t dưới lên
22
NrNs
wpwdwd+1 wq
β
r(p,d)
β
s(d+1,q)
x
P(N
j
N
r
N
s
)
-nhân 3 thành phn, tính
tng theo j, r,s.
Ví d
1. S NP VP 1.0
2. VP V NP PP 0.4
3. VP V NP 0.6
4. NP N0.7
5.
NP
NPP
0.3
NP
NP
PP
VP
SVP
NP
PP
VN
1.0
0.4
0.6
0.3
23
5.
NP
N
PP
0.3
6. PP PREP N 1.0
7. N a_dog 0.3
8. N a_cat 0.5
9. N a_telescope 0.2
10. V saw 1.0
11. PREP with 1.0 P(a_dog saw a_cat with a_telescope) =
N V N PREP N
NP
NP
PP
V
N
PREP N
0.7
0.3 1.0 0.5 1.0 0.2
0.7
1.0 1.0
1×.7×.4×.3×.7×1×.5×1×1×.2 + ... ×.6... ×.3... = .00588 + .00378 = .00966
Tìm kiếm kiu chùm
zTìm kiếm trong không gian trng thái
zMi trng thái là mt cây cú pháp con vi 1 xác sut
nht định
zTi mi thi đim, ch gi các thành phn có đim cao nht
24
Làm giàu PCFG
zPCFG đơn gin hot động không tt do các
gi thiết độc lp
zGii quyết: Đưa thêm thông tin
Ph th
25
z
Ph
th
u
c c
u
t
r
ú
c
zVic trin khai 1 nút ph thuc vào v trí ca nó
trên cây ( độc lp vi ni dung v t vng ca nó)
zVí d: b sung thông tin cho 1 nút bng cách lưu
gi thông tin v cha ca nó: SNP khác vi VPNP
Làm giàu PCFG
zPCFG t vng hóa : PLCFG (Probabilistic
Lexicalized CFG, Collins 1997; Charniak
1997)
zGán t vng vi các nút ca lut
z
Cutrúc
Head
26
z
Cu
trúc
Head
zMi phn t ca parsed tree được gn lin vi
mt lexical head
zĐể xác định head ca mt nút trong ta phi xác
định trong các nút con, nút nào là head (xác định
head trong vế phi ca mt lut).
Làm giàu PLCFG
VP(dumped) VBD(dumped) NP(sacks) PP(into) 3*10-10
VP(dumped) VBD(dumped) NP(cats) PP(into) 8*10-11
27
Ti sao dùng PLCFG
zTính ngoi l (exception) ca ngôn ng
zS phân loi theo cú pháp hin ti chưa th
hin hết đặc tính hot động ca tng t
vng
vng
.
zT vng hóa lut CFG giúp b phân tích cú
pháp thc hin chính xác hơn
Hn chế ca PLCFG
VP -> VBD NP PP
VP(dumped) -> VBD(dumped) NP(sacks)
PP(into)
zKhông có mt corpus đủ ln!
zTh hin hết các trường hp cú pháp, hết các
trường hp đối vi tng t.
Penn Treebank
zPenn Treebank: tp ng liu có chú gii ng
pháp, có 1 triu t, là ngun ng liu quan
trng
zTính thưa:
30
zcó 965,000 mu, nhưng ch có 66 mu WHADJP,
trong đó ch có 6 mu không là how much hoc
how many
zPhn ln các phép x lý thông minh ph thuc
vào các thng kê mi quan h t vng gia 2
t lin nhau: