Chương 10 Tóm tắt văn bản<br />
Tóm tắt văn bản<br />
TextRank<br />
IT4772 Xử lý ngôn ngữ tự nhiên<br />
Viện CNTT-TT, ĐHBKHN<br />
<br />
2<br />
<br />
Chương 10 Tóm tắt văn bản<br />
Tóm tắt văn bản<br />
INFORMATION EXTRACTION<br />
●<br />
<br />
NATURAL LANGUAGE UNDERSTANDING<br />
<br />
END-TO-END<br />
APPLICATIONS<br />
<br />
●<br />
<br />
NATURAL LANGUAGE GENERATION<br />
<br />
Y/c<br />
–<br />
<br />
Tóm lược những điểm chính của văn bản<br />
<br />
–<br />
<br />
Đảm bảo tính chính xác về ngôn ngữ, th ống nh ất<br />
về cấu trúc<br />
<br />
Dạng đầu ra:<br />
–<br />
<br />
Tóm tắt trích xuất<br />
<br />
–<br />
<br />
Tóm lược văn bản<br />
<br />
DATA + LINGUISTICS + MACHINE LEARNING<br />
<br />
3<br />
<br />
4<br />
<br />
Chương 10 Tóm tắt văn bản<br />
Tóm tắt văn bản<br />
●<br />
<br />
Chương 10 Tóm tắt văn bản<br />
Tóm tắt văn bản<br />
<br />
Các bài toán<br />
<br />
●<br />
<br />
Tóm tắt trích xuất đơn văn b ản:<br />
<br />
–<br />
<br />
Tóm tắt đơn văn bản<br />
<br />
●<br />
<br />
Đầu vào: Văn bản gồm N câu<br />
<br />
–<br />
<br />
Tóm tắt đa văn bản<br />
<br />
●<br />
<br />
–<br />
<br />
Tóm tắt đa văn bản hướng truy vấn<br />
<br />
Đầu ra: Tóm tắt bao gồm K câu<br />
<br />
5<br />
<br />
Chương 10 Tóm tắt văn bản<br />
TextRank<br />
●<br />
<br />
6<br />
<br />
Chương 10 Tóm tắt văn bản<br />
TextRank<br />
<br />
Pagerank: Xếp hạng các đỉnh trên đ ồ th ị d ựa<br />
trên mức độ quan trọng so với các đ ỉnh khác<br />
rank(v) = d * 1/N + (1-d) sum rank(u) / O(u)<br />
<br />
from Wikipedia<br />
<br />
7<br />
<br />
8<br />
<br />
Chương 10 Tóm tắt văn bản<br />
TextRank<br />
●<br />
<br />
Chương 10 Tóm tắt văn bản<br />
TextRank<br />
<br />
Ứng dụng vào tóm tắt văn bản<br />
–<br />
<br />
●<br />
<br />
Tính toán độ tương đồng giữa một c ặp câu<br />
<br />
Xây dựng đồ thị G(V,E)<br />
●<br />
●<br />
<br />
V: tập các câu trong văn bản<br />
E: e(i,j) - mức độ tương đồng của câu i và câu j<br />
<br />
–<br />
<br />
Tính pagerank trên G<br />
<br />
–<br />
<br />
Lựa chọn K câu có ranking cao nhất<br />
<br />
9<br />
<br />
10<br />
<br />
Chương 10 Tóm tắt văn bản<br />
TextRank<br />
●<br />
<br />
●<br />
<br />
Q&A<br />
<br />
Ưu điểm:<br />
–<br />
<br />
Thuật toán đơn giản, có thể mở rộng cho nhi ều văn<br />
bản<br />
<br />
–<br />
<br />
Không cần dữ liệu huấn luyện<br />
<br />
Nhược điểm:<br />
–<br />
<br />
Phụ thuộc vào độ đo tương đồng của cặp câu<br />
<br />
–<br />
<br />
Chưa loại bỏ được dư thừa thông tin trong tóm t ắt<br />
<br />
hieunk@soict.hust.edu.vn<br />
11<br />
<br />
12<br />
<br />