
IT4772 X lý ngôn ng t nhiênử ữ ự
Vi n CNTT-TT, ĐHBKHNệ
2
Ch ng 10 Tóm t t văn b nươ ắ ả
Tóm t t văn b nắ ả
TextRank
3
INFORMATION EXTRACTION
NATURAL LANGUAGE UNDERSTANDING
NATURAL LANGUAGE GENERATION
DATA + LINGUISTICS + MACHINE LEARNING
END-TO-END
APPLICATIONS
4
Ch ng 10 Tóm t t văn b nươ ắ ả
Tóm t t văn b nắ ả
●Y/c
–Tóm l c nh ng đi m chính c a văn b nượ ữ ể ủ ả
–Đm b o tính chính xác v ngôn ng , th ng nh t ả ả ề ữ ố ấ
v c u trúcề ấ
●D ng đu ra:ạ ầ
–Tóm t t trích xu tắ ấ
–Tóm l c văn b nượ ả

5
Ch ng 10 Tóm t t văn b nươ ắ ả
Tóm t t văn b nắ ả
●Các bài toán
–Tóm t t đn văn b nắ ơ ả
–Tóm t t đa văn b nắ ả
–Tóm t t đa văn b n h ng truy v n ắ ả ướ ấ
6
Ch ng 10 Tóm t t văn b nươ ắ ả
Tóm t t văn b nắ ả
●Tóm t t trích xu t đn văn b n:ắ ấ ơ ả
●Đu vào: Văn b n g m N câuầ ả ồ
●Đu ra: Tóm t t bao g m K câuầ ắ ồ
7
Ch ng 10 Tóm t t văn b nươ ắ ả
TextRank
●Pagerank: X p h ng các đnh trên đ th d a ế ạ ỉ ồ ị ự
trên m c đ quan tr ng so v i các đnh khác ứ ộ ọ ớ ỉ
from Wikipedia
rank(v) = d * 1/N + (1-d) sum rank(u) / O(u)
8
Ch ng 10 Tóm t t văn b nươ ắ ả
TextRank

9
Ch ng 10 Tóm t t văn b nươ ắ ả
TextRank
●ng d ng vào tóm t t văn b nỨ ụ ắ ả
–Xây d ng đ th G(V,E)ự ồ ị
●V: t p các câu trong văn b nậ ả
●E: e(i,j) - m c đ t ng đng c a câu i và câu jứ ộ ươ ồ ủ
–Tính pagerank trên G
–L a ch n K câu có ranking cao nh tự ọ ấ
10
Ch ng 10 Tóm t t văn b nươ ắ ả
TextRank
●Tính toán đ t ng đng gi a m t c p câuộ ươ ồ ữ ộ ặ
11
Ch ng 10 Tóm t t văn b nươ ắ ả
TextRank
●u đi m:Ư ể
–Thu t toán đn gi n, có th m r ng cho nhi u văn ậ ơ ả ể ở ộ ề
b nả
–Không c n d li u hu n luy nầ ữ ệ ấ ệ
●Nh c đi m:ượ ể
–Ph thu c vào đ đo t ng đng c a c p câuụ ộ ộ ươ ồ ủ ặ
–Ch a lo i b đc d th a thông tin trong tóm t tư ạ ỏ ượ ư ừ ắ
12
Q&A
hieunk@soict.hust.edu.vn