Chương 8 Trích rút thông tin<br />
Trích rút thuật ngữ<br />
Trích rút quan hệ<br />
Phương pháp Snowball<br />
<br />
IT4772 Xử lý ngôn ngữ tự nhiên<br />
Viện CNTT-TT, ĐHBKHN<br />
<br />
Phương pháp hướng dẫn từ xa<br />
<br />
2<br />
<br />
Chương 8 Trích rút thông tin<br />
Trích rút thuật ngữ<br />
INFORMATION EXTRACTION<br />
●<br />
<br />
NATURAL LANGUAGE UNDERSTANDING<br />
<br />
END-TO-END<br />
APPLICATIONS<br />
<br />
●<br />
<br />
Làm sao biết “trí tuệ nhân t ạo” là thu ật ng ữ<br />
trong lĩnh vực CNTT?<br />
Làm sao trích rút các thuật ngữ từ một tập văn<br />
bản trong lĩnh vực CNTT?<br />
<br />
NATURAL LANGUAGE GENERATION<br />
<br />
DATA + LINGUISTICS + MACHINE LEARNING<br />
<br />
3<br />
<br />
4<br />
<br />
Chương 8 Trích rút thông tin<br />
Trích rút thuật ngữ<br />
Tạo ứng cử viên<br />
<br />
Chương 8 Trích rút thông tin<br />
Trích rút thuật ngữ<br />
●<br />
<br />
B1: Tạo các tập ứng cử viên<br />
<br />
●<br />
<br />
B2: Xếp hạng các ứng cử viên<br />
<br />
●<br />
<br />
●<br />
<br />
Tiền xử lý:<br />
–<br />
<br />
Tách từ<br />
<br />
–<br />
<br />
Loại bỏ từ dừng<br />
<br />
Tạo ứng cử viên<br />
–<br />
<br />
Cách 1: sử dụng n-gram (n = 2, 3, 4)<br />
<br />
–<br />
<br />
Cách 2: Sử dụng thông tin cú pháp<br />
●<br />
●<br />
●<br />
<br />
Từ loại<br />
Cụm danh từ<br />
Mẫu ngôn ngữ (vd N A, N N)<br />
<br />
5<br />
<br />
Chương 8 Trích rút thông tin<br />
Trích rút thuật ngữ<br />
Xếp hạng ứng cử viên<br />
●<br />
<br />
PMI(w1, w2) = log (p(w1, w2) / (p(w1) * p(w2))<br />
<br />
●<br />
<br />
p(w1, w2) = count(w1,w2) / D<br />
<br />
●<br />
<br />
p(w1) = count(w1) / N<br />
<br />
6<br />
<br />
Chương 8 Trích rút thông tin<br />
Trích rút quan hệ<br />
Nam châm<br />
<br />
phát-hành<br />
<br />
bao-gồm<br />
<br />
Bức tường<br />
thành-viên<br />
<br />
Người mộng-du<br />
<br />
giáo-dục<br />
Trần Lập<br />
<br />
ĐHXD<br />
<br />
nơi sinh<br />
<br />
địa-điểm<br />
<br />
Hà Nội<br />
7<br />
<br />
quốc-tịch<br />
<br />
thủ-đô<br />
<br />
8<br />
<br />
Chương 8 Trích rút thông tin<br />
Trích rút quan hệ<br />
●<br />
<br />
Chương 8 Trích rút thông tin<br />
Trích rút quan hệ<br />
<br />
Thực thể có tên<br />
<br />
●<br />
<br />
Quan hệ (arg1, relation, arg2)<br />
<br />
PERSON: POLITICIAN, SCIENTIST, MUSICIAN<br />
<br />
(Bức Tường, phát hành, Nam châm)<br />
<br />
PRODUCT: MOVIE, SONG, BRAND<br />
<br />
(Hà Nội, thủ đô của, Việt Nam)<br />
<br />
ORG: CORP, PARTY, GPE<br />
<br />
9<br />
<br />
Chương 8 Trích rút thông tin<br />
Trích rút quan hệ<br />
Snowball<br />
●<br />
<br />
10<br />
<br />
Chương 8 Trích rút thông tin<br />
Trích rút quan hệ<br />
Snowball<br />
<br />
B1: Cung cấp các ví dụ khởi đầu<br />
<br />
●<br />
<br />
B2: Tìm sự xuất hiện trong văn b ản<br />
“computer servers at Microsoft’s headquarters in Redmond”<br />
<br />
11<br />
<br />
12<br />
<br />
Chương 8 Trích rút thông tin<br />
Trích rút quan hệ<br />
Snowball<br />
●<br />
<br />
Chương 8 Trích rút thông tin<br />
Trích rút quan hệ<br />
Snowball<br />
<br />
B3: Xây dựng pattern<br />
<br />
●<br />
<br />
“computer servers at Microsoft’s headquarters in Redmond”<br />
<br />
B2*: Tìm ví dụ mới<br />
“Baidu’s headquarters in Beijing”<br />
<br />
’s headquarters in <br />
<br />
’s headquarters in <br />
<br />
13<br />
<br />
Chương 8 Trích rút thông tin<br />
Trích rút quan hệ<br />
Snowball<br />
●<br />
<br />
14<br />
<br />
Chương 8 Trích rút thông tin<br />
Trích rút quan hệ<br />
Distant supervision<br />
<br />
B3*: Xây dựng pattern<br />
<br />
●<br />
<br />
Sử dụng ví dụ ban đầu từ một cơ s ở tri th ức<br />
(Freebase/Wikipedia)<br />
<br />
“Beijing-based Baidu”<br />
<br />
-based <br />
<br />
15<br />
<br />
16<br />
<br />
Q&A<br />
<br />
hieunk@soict.hust.edu.vn<br />
17<br />
<br />