intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 10 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)

Chia sẻ: Dien_vi10 Dien_vi10 | Ngày: | Loại File: PDF | Số trang:3

97
lượt xem
6
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng "Xử lý ngôn ngữ tự nhiên - Chương 10: Tóm tắt văn bản" cung cấp cho người học các kiến thức về tóm tắt văn bản, TextRank. Đây là một tài liệu hữu ích dành cho các bạn sinh viên ngành Công nghệ thông tin và những ai quan tâm dùng làm tài liệu học tập và nghiên cứu.

Chủ đề:
Lưu

Nội dung Text: Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 10 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)

Chương 10 Tóm tắt văn bản<br /> Tóm tắt văn bản<br /> TextRank<br /> IT4772 Xử lý ngôn ngữ tự nhiên<br /> Viện CNTT-TT, ĐHBKHN<br /> <br /> 2<br /> <br /> Chương 10 Tóm tắt văn bản<br /> Tóm tắt văn bản<br /> INFORMATION EXTRACTION<br /> ●<br /> <br /> NATURAL LANGUAGE UNDERSTANDING<br /> <br /> END-TO-END<br /> APPLICATIONS<br /> <br /> ●<br /> <br /> NATURAL LANGUAGE GENERATION<br /> <br /> Y/c<br /> –<br /> <br /> Tóm lược những điểm chính của văn bản<br /> <br /> –<br /> <br /> Đảm bảo tính chính xác về ngôn ngữ, th ống nh ất<br /> về cấu trúc<br /> <br /> Dạng đầu ra:<br /> –<br /> <br /> Tóm tắt trích xuất<br /> <br /> –<br /> <br /> Tóm lược văn bản<br /> <br /> DATA + LINGUISTICS + MACHINE LEARNING<br /> <br /> 3<br /> <br /> 4<br /> <br /> Chương 10 Tóm tắt văn bản<br /> Tóm tắt văn bản<br /> ●<br /> <br /> Chương 10 Tóm tắt văn bản<br /> Tóm tắt văn bản<br /> <br /> Các bài toán<br /> <br /> ●<br /> <br /> Tóm tắt trích xuất đơn văn b ản:<br /> <br /> –<br /> <br /> Tóm tắt đơn văn bản<br /> <br /> ●<br /> <br /> Đầu vào: Văn bản gồm N câu<br /> <br /> –<br /> <br /> Tóm tắt đa văn bản<br /> <br /> ●<br /> <br /> –<br /> <br /> Tóm tắt đa văn bản hướng truy vấn<br /> <br /> Đầu ra: Tóm tắt bao gồm K câu<br /> <br /> 5<br /> <br /> Chương 10 Tóm tắt văn bản<br /> TextRank<br /> ●<br /> <br /> 6<br /> <br /> Chương 10 Tóm tắt văn bản<br /> TextRank<br /> <br /> Pagerank: Xếp hạng các đỉnh trên đ ồ th ị d ựa<br /> trên mức độ quan trọng so với các đ ỉnh khác<br /> rank(v) = d * 1/N + (1-d) sum rank(u) / O(u)<br /> <br /> from Wikipedia<br /> <br /> 7<br /> <br /> 8<br /> <br /> Chương 10 Tóm tắt văn bản<br /> TextRank<br /> ●<br /> <br /> Chương 10 Tóm tắt văn bản<br /> TextRank<br /> <br /> Ứng dụng vào tóm tắt văn bản<br /> –<br /> <br /> ●<br /> <br /> Tính toán độ tương đồng giữa một c ặp câu<br /> <br /> Xây dựng đồ thị G(V,E)<br /> ●<br /> ●<br /> <br /> V: tập các câu trong văn bản<br /> E: e(i,j) - mức độ tương đồng của câu i và câu j<br /> <br /> –<br /> <br /> Tính pagerank trên G<br /> <br /> –<br /> <br /> Lựa chọn K câu có ranking cao nhất<br /> <br /> 9<br /> <br /> 10<br /> <br /> Chương 10 Tóm tắt văn bản<br /> TextRank<br /> ●<br /> <br /> ●<br /> <br /> Q&A<br /> <br /> Ưu điểm:<br /> –<br /> <br /> Thuật toán đơn giản, có thể mở rộng cho nhi ều văn<br /> bản<br /> <br /> –<br /> <br /> Không cần dữ liệu huấn luyện<br /> <br /> Nhược điểm:<br /> –<br /> <br /> Phụ thuộc vào độ đo tương đồng của cặp câu<br /> <br /> –<br /> <br /> Chưa loại bỏ được dư thừa thông tin trong tóm t ắt<br /> <br /> hieunk@soict.hust.edu.vn<br /> 11<br /> <br /> 12<br /> <br />
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2