Dependency Parsing
Nguyn Hu Hoàng
Ni dung trình bày
1. Tng quan v Dependency Parsing
2. Phương pháp Transition-based
3. Phương pháp Graph-based
4. Các cách tiếp cn hin nay
5. Mt s kết qu cài đặt
2
1. Tng quan v Dependency Parsing
1.1. Dependency Parsing là gì?
1.2. Các nhãn ph thuc (Dependency Labels)
1.3. Các tính cht ca cây cú pháp ph thuc.
1.4. Các vn đề cn gii quyết ca bài toán phân tích cú pháp ph thuc
3
1.1. Dependency Parsing là gì
Tiếng Vit: Phân tích cú pháp ph thuc
Thuc 1 kiu bài toán phân tích cú pháp
Không phân tích ch ng, v ng, các cm danh t, cm động t,… thay vì
đó, phân tích quan h ph thuc gia các t trong câu vi nhau.
Thường liên quan cht ch đến bài toán Gán nhãn t loi (Part Of Speech
Tagging)
Được bt đầu quan tâm nhiu t thp k trước do s giàu thông tin mà kiu
phân tích này mang li.
4
1.1. Dependency Parsing là gì
Ví d v cây cú pháp ph thuc:
5
1.1. Dependency Parsing là gì
Mt quan h ph thuc th hin bng 1 mũi tên có hướng, trong đó:
Phn có mũi tên là dependent (modifier, subordinate, ...)
Phn còn li là head (governor, regent, ...)
Nhãn ph thuc tương ng gia 2 t
Mt cu trúc ph thuc gm có:
Các quan h ph thuc (directed arcs)
Nhãn ph thuc tương ng ca các quan h này
Thường kèm vi nhãn t loi tương ng ca 1 t
Cây cú pháp thường s có thêm 1 nút root ni vi nút không có head trong câu,
quan h đi kèm cũng có nhãn là root.
6
1.1. Dependency Parsing là gì
Các ng dng ca phân tích cú pháp ph thuc:
- Nhn din thc th
- Trích rút quan h.
- Dch máy
7
1.2. Các nhãn ph thuc
Mt s nhãn ph thuc:
nsubj (Nominal subject): ch ng, ch th
nsubjpass: ch ng b động
dobj (Direct object): tân ng trc tiếp
iobj (indirect object): tân ng gián tiếp
nmod (Nominal modifier): danh t b nghĩa
amod (Adjectival modifier): tính t b nghĩa
nummod (Numeric modifier): s t b nghĩa
advmod (Adverbial modifier): thành phn b nghĩa mang tính cht trng t.
8
1.2. Các nhãn ph thuc
Mt s nhãn ph thuc:
ccomp (Clausal component): Mnh đề thành phn
xcomp (Open clausal component): Mnh đề thành phn m rng
aux (Auxiliary): ph t, tr động t
det (Determiner): định t
mark: là t đánh du ngăn cách gia 2 mnh đề
punct: du câu
9
1.2. Các nhãn ph thuc
Mt s nhãn ph thuc:
advcl (Adverbial clause modifier): Mnh đề trng ng b nghĩa
acl (Adjectival clause): Mnh đề ph thuc
...
Xem thêm: http://universaldependencies.org/u/dep/
10
1.3. Các tính cht ca cây cú pháp ph thuc
Xét cây cú pháp là 1 đồ th vi các t là các đỉnh (node), các quan h là các
cnh (arc)
Đồ th cú pháp ph thuc này có 4 tính cht:
Weakly Connected (Kết ni yếu)
Acyclic (Không có chu k)
Single head (1 t ch có duy nht 1 head)
Projective
11
1.3. Các tính cht ca cây cú pháp ph thuc
Weakly Connected:
Vi mi node i, luôn tn ti 1 node j sao cho có 1 cnh ni i -> j hoc j -> i
Acyclic:
Nếu tn ti cnh i->j, thì không th tn ti 1 đường đi j->*i
Single head:
Nếu có cnh i -> j, thì s không có cnh k -> j, vi k != i
12
1.3. Các tính cht ca cây cú pháp ph thuc
Projective: (tính cht này không bt buc)
Nếu tn ti cnh i->j, thì vi mi k nm gia i và j, luôn có đường đi i ->* k
Mt cách trc quan, không có cnh chéo nhau khi v cây cú pháp tun t theo câu
Projective
Non-Projective
13
1.4. Các vn đề cn gii quyết
Vi bài toán phân tích cú pháp ph thuc, có nhiu cách tiếp cn khác nhau.
Tương t như nhiu bài toán NLP, ta có 2 hướng ph biến:
Rule-based, da trên lut mà quyết định gia 2 t có quan h ph thuc gì
Data-driven, da trên d liu, áp dng phương pháp hc máy để hc ra mô hình quyết định
quan h gia các t.
Trong phn trình bày này, chúng ta ch xem xét hướng data-driven vi 2
phương pháp chính:
Transition-based
Graph-based
14
1.4. Các vn đề cn gii quyết
Ví d h thng transition-based
15
1.4. Các vn đề cn gii quyết
Có 3 vn đề chính cn gii quyết trong bài toán phân tích cú pháp ph thuc
hướng d liu (data-driven):
- La chn đặc trưng để hc. (Feature Extractor)
- Thut toán hc máy. (Learning Algorithm)
- Thut toán phân tích. (Parsing Algorithm)
16
1.4. Các vn đề cn gii quyết
La chn đặc trưng:
đây giai đon này, cn la chn ra nhng đặc trưng tt nht để hc ra mô
hình quyết định các quan h ph thuc gia các t.
Các đặc trưng này thường được la chn bi các chuyên gia trong lĩnh vc
này
Thường gm các core feature (t, nhãn t loi,... ca các t đang xét và các
t xung quanh) và các feature template (các kết hp gia các core feature,
...)
Cn la chn cn thn, vic đưa các đặc trưng không có ích làm tăng độ
phc tp tính toán và tăng nguy cơ overfit mô hình
17
1.4. Các vn đề cn gii quyết
Thut toán hc máy:
Dùng hc máy để hun luyn ra mô hình cung cp kh năng quyết định gia
2 t có quan h ph thuc gì và nhãn gì hay không.
S dng các đặc trưng đã được la chn bước trước.
Khác nhau gia các phương pháp Transition-based và Graph-based
Transition-based: ti 1 thi đim, quyết định transition tiếp theo là gì.
Graph-based: quyết định đim (score) ca tng cnh ni 2 t trong câu
18
1.4. Các vn đề cn gii quyết
Thut toán phân tích cú pháp:
Thut toán này giúp xây dng được cây ph thuc tt nht vi các quyết định
ca mô hình được hun luyn.
Thut toán này cũng đóng vai trò kim soát điu khin các thành phn trong
quá trình phân tích, ly kết qu thình d đoán cho các t phía trước
cung cp cho phn Extractor, ly đặc trưng ra đẩy vào mô hình tiếp tc d
đoán cho các t phía sau.
19
1.4. Các vn đề cn gii quyết
Các vn đề này đều cn gii quyết vi c 2 phương pháp Transition-based
và Graph-based.
Do cách tiếp cn ca 2 phương pháp này khác nhau, nên các thut toán bên
trong khá khác nhau. Tuy nhiên, phn la chn đặc trưng chia s khá nhiu
đặc trưng chung ging nhau
Các phn tiếp theo s ln lượt trình bày v 2 phương pháp này
20