IT4772 X lý ngôn ng t nhiên
Vi n CNTT-TT, ĐHBKHN
2
Ch ng 10 Tóm t t văn b nươ
Tóm t t văn b n
TextRank
3
INFORMATION EXTRACTION
NATURAL LANGUAGE UNDERSTANDING
NATURAL LANGUAGE GENERATION
DATA + LINGUISTICS + MACHINE LEARNING
END-TO-END
APPLICATIONS
4
Ch ng 10 Tóm t t văn b nươ
Tóm t t văn b n
Y/c
Tóm l c nh ng đi m chính c a văn b nượ
Đm b o tính chính xác v ngôn ng , th ng nh t
v c u trúc
D ng đu ra:
Tóm t t trích xu t
Tóm l c văn b nượ
5
Ch ng 10 Tóm t t văn b nươ
Tóm t t văn b n
Các bài toán
Tóm t t đn văn b n ơ
Tóm t t đa văn b n
Tóm t t đa văn b n h ng truy v n ướ
6
Ch ng 10 Tóm t t văn b nươ
Tóm t t văn b n
Tóm t t trích xu t đn văn b n: ơ
Đu vào: Văn b n g m N câu
Đu ra: Tóm t t bao g m K câu
7
Ch ng 10 Tóm t t văn b nươ
TextRank
Pagerank: X p h ng các đnh trên đ th d a ế
trên m c đ quan tr ng so v i các đnh khác
from Wikipedia
rank(v) = d * 1/N + (1-d) sum rank(u) / O(u)
8
Ch ng 10 Tóm t t văn b nươ
TextRank
9
Ch ng 10 Tóm t t văn b nươ
TextRank
ng d ng vào tóm t t văn b n
Xây d ng đ th G(V,E)
V: t p các câu trong văn b n
E: e(i,j) - m c đ t ng đng c a câu i và câu j ươ
Tính pagerank trên G
L a ch n K câu có ranking cao nh t
10
Ch ng 10 Tóm t t văn b nươ
TextRank
Tính toán đ t ng đng gi a m t c p câu ươ
11
Ch ng 10 Tóm t t văn b nươ
TextRank
u đi m:Ư
Thu t toán đn gi n, có th m r ng cho nhi u văn ơ
b n
Không c n d li u hu n luy n
Nh c đi m:ượ
Ph thu c vào đ đo t ng đng c a c p câu ươ
Ch a lo i b đc d th a thông tin trong tóm t tư ượ ư
12
Q&A
hieunk@soict.hust.edu.vn