intTypePromotion=1

Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 8 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)

Chia sẻ: Dien_vi10 Dien_vi10 | Ngày: | Loại File: PDF | Số trang:5

0
27
lượt xem
6
download

Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 8 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)

Mô tả tài liệu
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng "Xử lý ngôn ngữ tự nhiên - Chương 8: Trích rút thông tin" cung cấp cho người học các kiến thức: Trích rút thuật ngữ, trích rút quan hệ, phương pháp Snowball, phương pháp hướng dẫn từ xa. Mời các bạn cùng tham khảo.

Chủ đề:
Lưu

Nội dung Text: Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 8 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)

Chương 8 Trích rút thông tin<br /> Trích rút thuật ngữ<br /> Trích rút quan hệ<br /> Phương pháp Snowball<br /> <br /> IT4772 Xử lý ngôn ngữ tự nhiên<br /> Viện CNTT-TT, ĐHBKHN<br /> <br /> Phương pháp hướng dẫn từ xa<br /> <br /> 2<br /> <br /> Chương 8 Trích rút thông tin<br /> Trích rút thuật ngữ<br /> INFORMATION EXTRACTION<br /> ●<br /> <br /> NATURAL LANGUAGE UNDERSTANDING<br /> <br /> END-TO-END<br /> APPLICATIONS<br /> <br /> ●<br /> <br /> Làm sao biết “trí tuệ nhân t ạo” là thu ật ng ữ<br /> trong lĩnh vực CNTT?<br /> Làm sao trích rút các thuật ngữ từ một tập văn<br /> bản trong lĩnh vực CNTT?<br /> <br /> NATURAL LANGUAGE GENERATION<br /> <br /> DATA + LINGUISTICS + MACHINE LEARNING<br /> <br /> 3<br /> <br /> 4<br /> <br /> Chương 8 Trích rút thông tin<br /> Trích rút thuật ngữ<br /> Tạo ứng cử viên<br /> <br /> Chương 8 Trích rút thông tin<br /> Trích rút thuật ngữ<br /> ●<br /> <br /> B1: Tạo các tập ứng cử viên<br /> <br /> ●<br /> <br /> B2: Xếp hạng các ứng cử viên<br /> <br /> ●<br /> <br /> ●<br /> <br /> Tiền xử lý:<br /> –<br /> <br /> Tách từ<br /> <br /> –<br /> <br /> Loại bỏ từ dừng<br /> <br /> Tạo ứng cử viên<br /> –<br /> <br /> Cách 1: sử dụng n-gram (n = 2, 3, 4)<br /> <br /> –<br /> <br /> Cách 2: Sử dụng thông tin cú pháp<br /> ●<br /> ●<br /> ●<br /> <br /> Từ loại<br /> Cụm danh từ<br /> Mẫu ngôn ngữ (vd N A, N N)<br /> <br /> 5<br /> <br /> Chương 8 Trích rút thông tin<br /> Trích rút thuật ngữ<br /> Xếp hạng ứng cử viên<br /> ●<br /> <br /> PMI(w1, w2) = log (p(w1, w2) / (p(w1) * p(w2))<br /> <br /> ●<br /> <br /> p(w1, w2) = count(w1,w2) / D<br /> <br /> ●<br /> <br /> p(w1) = count(w1) / N<br /> <br /> 6<br /> <br /> Chương 8 Trích rút thông tin<br /> Trích rút quan hệ<br /> Nam châm<br /> <br /> phát-hành<br /> <br /> bao-gồm<br /> <br /> Bức tường<br /> thành-viên<br /> <br /> Người mộng-du<br /> <br /> giáo-dục<br /> Trần Lập<br /> <br /> ĐHXD<br /> <br /> nơi sinh<br /> <br /> địa-điểm<br /> <br /> Hà Nội<br /> 7<br /> <br /> quốc-tịch<br /> <br /> thủ-đô<br /> <br /> 8<br /> <br /> Chương 8 Trích rút thông tin<br /> Trích rút quan hệ<br /> ●<br /> <br /> Chương 8 Trích rút thông tin<br /> Trích rút quan hệ<br /> <br /> Thực thể có tên<br /> <br /> ●<br /> <br /> Quan hệ (arg1, relation, arg2)<br /> <br /> PERSON: POLITICIAN, SCIENTIST, MUSICIAN<br /> <br /> (Bức Tường, phát hành, Nam châm)<br /> <br /> PRODUCT: MOVIE, SONG, BRAND<br /> <br /> (Hà Nội, thủ đô của, Việt Nam)<br /> <br /> ORG: CORP, PARTY, GPE<br /> <br /> 9<br /> <br /> Chương 8 Trích rút thông tin<br /> Trích rút quan hệ<br /> Snowball<br /> ●<br /> <br /> 10<br /> <br /> Chương 8 Trích rút thông tin<br /> Trích rút quan hệ<br /> Snowball<br /> <br /> B1: Cung cấp các ví dụ khởi đầu<br /> <br /> ●<br /> <br /> B2: Tìm sự xuất hiện trong văn b ản<br /> “computer servers at Microsoft’s headquarters in Redmond”<br /> <br /> 11<br /> <br /> 12<br /> <br /> Chương 8 Trích rút thông tin<br /> Trích rút quan hệ<br /> Snowball<br /> ●<br /> <br /> Chương 8 Trích rút thông tin<br /> Trích rút quan hệ<br /> Snowball<br /> <br /> B3: Xây dựng pattern<br /> <br /> ●<br /> <br /> “computer servers at Microsoft’s headquarters in Redmond”<br /> <br /> B2*: Tìm ví dụ mới<br /> “Baidu’s headquarters in Beijing”<br /> <br /> ’s headquarters in <br /> <br /> ’s headquarters in <br /> <br /> 13<br /> <br /> Chương 8 Trích rút thông tin<br /> Trích rút quan hệ<br /> Snowball<br /> ●<br /> <br /> 14<br /> <br /> Chương 8 Trích rút thông tin<br /> Trích rút quan hệ<br /> Distant supervision<br /> <br /> B3*: Xây dựng pattern<br /> <br /> ●<br /> <br /> Sử dụng ví dụ ban đầu từ một cơ s ở tri th ức<br /> (Freebase/Wikipedia)<br /> <br /> “Beijing-based Baidu”<br /> <br /> -based <br /> <br /> 15<br /> <br /> 16<br /> <br /> Q&A<br /> <br /> hieunk@soict.hust.edu.vn<br /> 17<br /> <br />

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản