
IT4772 X lý ngôn ng t nhiênử ữ ự
Vi n CNTT-TT, ĐHBKHNệ
2
Ch ng 8 Trích rút thông tinươ
Trích rút thu t ngậ ữ
Trích rút quan hệ
Ph ng pháp Snowballươ
Ph ng pháp h ng d n t xaươ ướ ẫ ừ
3
INFORMATION EXTRACTION
NATURAL LANGUAGE UNDERSTANDING
NATURAL LANGUAGE GENERATION
DATA + LINGUISTICS + MACHINE LEARNING
END-TO-END
APPLICATIONS
4
Ch ng 8 Trích rút thông tinươ
Trích rút thu t ngậ ữ
●Làm sao bi t “trí tu nhân t o” là thu t ng ế ệ ạ ậ ữ
trong lĩnh v c CNTT?ự
●Làm sao trích rút các thu t ng t m t t p văn ậ ữ ừ ộ ậ
b n trong lĩnh v c CNTT?ả ự

5
Ch ng 8 Trích rút thông tinươ
Trích rút thu t ngậ ữ
●B1: T o các t p ng c viênạ ậ ứ ử
●B2: X p h ng các ng c viênế ạ ứ ử
6
Ch ng 8 Trích rút thông tinươ
Trích rút thu t ngậ ữ
T o ng c viênạ ứ ử
●Ti n x lý:ề ử
–Tách từ
–Lo i b t d ngạ ỏ ừ ừ
●T o ng c viênạ ứ ử
–Cách 1: s d ng n-gram (n = 2, 3, 4)ử ụ
–Cách 2: S d ng thông tin cú phápử ụ
●T lo iừ ạ
●C m danh tụ ừ
●M u ngôn ng (vd N A, N N)ẫ ữ
7
Ch ng 8 Trích rút thông tinươ
Trích rút thu t ngậ ữ
X p h ng ng c viênế ạ ứ ử
●PMI(w
1
, w
2
) = log (p(w
1
, w
2
) / (p(w
1
) * p(w
2
))
●p(w
1
, w
2
) = count(w
1
,w
2
) / D
●p(w
1
) = count(w
1
) / N
8
B c t ngứ ườ
Tr n L pầ ậ
Nam châm
ĐHXD
Hà N iộ
Ng i m ng-duườ ộ
n i sinhơ
qu c-t chố ị
bao-g mồ
đa-đi mị ể
thành-viên
th -đôủ
phát-hành
giáo-d cụ
Ch ng 8 Trích rút thông tinươ
Trích rút quan hệ

9
Ch ng 8 Trích rút thông tinươ
Trích rút quan hệ
●Th c th có tênự ể
PERSON: POLITICIAN, SCIENTIST, MUSICIAN
PRODUCT: MOVIE, SONG, BRAND
ORG: CORP, PARTY, GPE
10
Ch ng 8 Trích rút thông tinươ
Trích rút quan hệ
●Quan h (argệ
1
, relation, arg
2
)
(B c T ng, phát hành, Nam châm)ứ ườ
(Hà N i, th đô c a, Vi t Nam)ộ ủ ủ ệ
11
Ch ng 8 Trích rút thông tinươ
Trích rút quan hệ
Snowball
●B1: Cung c p các ví d kh i đuấ ụ ở ầ
12
Ch ng 8 Trích rút thông tinươ
Trích rút quan hệ
Snowball
●B2: Tìm s xu t hi n trong văn b nự ấ ệ ả
“computer servers at Microsoft’s headquarters in Redmond”

13
Ch ng 8 Trích rút thông tinươ
Trích rút quan hệ
Snowball
●B3: Xây d ng patternự
“computer servers at Microsoft’s headquarters in Redmond”
<STRING1>’s headquarters in <STRING2>
14
Ch ng 8 Trích rút thông tinươ
Trích rút quan hệ
Snowball
●B2*: Tìm ví d m iụ ớ
“Baidu’s headquarters in Beijing”
<STRING1>’s headquarters in <STRING2>
15
Ch ng 8 Trích rút thông tinươ
Trích rút quan hệ
Snowball
●B3*: Xây d ng patternự
“Beijing-based Baidu”
<STRING2>-based <STRING1>
16
Ch ng 8 Trích rút thông tinươ
Trích rút quan hệ
Distant supervision
●S d ng ví d ban đu t m t c s tri th c ử ụ ụ ầ ừ ộ ơ ở ứ
(Freebase/Wikipedia)

17
Q&A
hieunk@soict.hust.edu.vn