
IT4772 X lý ngôn ng t nhiênử ữ ự
Vi n CNTT-TT, ĐHBKHNệ
2
Ch ng 5 H h i - đápươ ệ ỏ
H h i – đápệ ỏ
Chatbot
3
INFORMATION EXTRACTION
NATURAL LANGUAGE UNDERSTANDING
NATURAL LANGUAGE GENERATION
DATA + LINGUISTICS + MACHINE LEARNING
END-TO-END
APPLICATIONS
4
Ch ng 5 H h i – đápươ ệ ỏ
H h i - đápệ ỏ
●Tr l i các câu h i d i d ng ngôn ng t ả ờ ỏ ướ ạ ữ ự
nhiên
Siri, could you tell me where
can I find a husband who
just talk and give me money
whenever I want?
Uhm, let me think...
...
Maybe you should try
combining a cassette
and an ATM.
câu h iỏ
câu tr l iả ờ

5
Ch ng 5 H h i – đápươ ệ ỏ
H h i - đápệ ỏ
Tiêu chí IR QA
Đu vàoầCâu truy v n d i d ng t ấ ướ ạ ừ
khóa
Câu h iỏ
Yêu c uầLiên quan Chính xác
Đu raầCác văn b nảCâu tr l iả ờ
6
Ch ng 5 H h i – đápươ ệ ỏ
H h i – đápệ ỏ
Các lo i câu h iạ ỏ
●Câu h i đóng:ỏ
Ai?
Ai là tác gi c a cu n sách “Su i ngu n t i tr ”?ả ủ ố ố ồ ươ ẻ
Tác ph m “Su i ngu n t i tr ” do ai sáng tác?ẩ ố ồ ươ ẻ
Ti u thuy t “Su i ngu n t i tr ” đc vi t b i nhà văn ể ế ố ồ ươ ẻ ượ ế ở
nào?
Ai là ng i đu tiên d ch “Su i ngu n t i tr ” sang ti ng ườ ầ ị ố ồ ươ ẻ ế
Vi t?ệ
7
Ch ng 5 H h i – đápươ ệ ỏ
H h i – đápệ ỏ
Các lo i câu h iạ ỏ
●Câu h i đóng:ỏ
Bao gi ?ờ
Bài hát “Ng i l i” đc vi t khi nào?ườ ạ ơ ượ ế
Bài “Ng i l i” đc sáng tác năm nào?ườ ạ ơ ượ
Tác ph m “Ng i l i” đc sáng tác vào th i đi m ẩ ườ ạ ơ ượ ờ ể
nào?
8
Ch ng 5 H h i – đápươ ệ ỏ
H h i – đápệ ỏ
Các lo i câu h iạ ỏ
●Câu h i đóngỏ
đâu?Ở
Tuyên ngôn đc l p đc đc đâu?ộ ậ ượ ọ ở
Tuyên ngôn đc l p đc vi t đâu?ộ ậ ượ ế ở
Đa đi m n ra Cách m ng tháng Tám đâu?ị ể ổ ạ ở

9
Ch ng 5 H h i – đápươ ệ ỏ
H h i – đápệ ỏ
Các lo i câu h iạ ỏ
●Câu h i đóngỏ
Bao nhiêu?
M t ngày c n u ng ít nh t bao nhiêu n c?ộ ầ ố ấ ướ
L ng n c t i thi u ph i u ng m t ngày là bao nhiêu?ượ ướ ố ể ả ố ộ
10
Ch ng 5 H h i – đápươ ệ ỏ
H h i – đápệ ỏ
Các lo i câu h iạ ỏ
●Câu h i đóngỏ
Đúng/sai, l a ch nự ọ
Có ph i M t tr i và các hành tinh quay xung quanh Trái ả ặ ờ
Đt không?ấ
N u cùng lúc có tín hi u đi u khi n c a đèn báo và c nh ế ệ ề ể ủ ả
sát giao thông thì tuân theo cái nào?
Trong bài toán phân tích t lo i có nh t thi t ph i ti n ừ ạ ấ ế ả ế
hành tách t không?ừ
11
Ch ng 5 H h i – đápươ ệ ỏ
H h i – đápệ ỏ
Các lo i câu h iạ ỏ
●Câu h i mỏ ở
Đnh nghĩaị
X lý ngôn ng t nhiên là gì?ử ữ ự
NLP là gì?
Ngôn ng t nhiên là gì?ữ ự
12
Ch ng 5 H h i – đápươ ệ ỏ
H h i – đápệ ỏ
Các lo i câu h iạ ỏ
●Câu h i mỏ ở
Gi i thíchả
T i sao tách t trong ti ng Vi t l i ph c t p h n ti ng ạ ừ ế ệ ạ ứ ạ ơ ế
Anh?
Vì sao t Trái đt không th quan sát đc toàn b b ừ ấ ể ượ ộ ề
m t M t Trăng?ặ ặ
Do đâu gi i Nobel không có lĩnh v c Toán h c?ả ự ọ

13
Ch ng 5 H h i – đápươ ệ ỏ
H h i – đápệ ỏ
Các lo i câu h iạ ỏ
●Câu h i mỏ ở
So sánh
Con voi và con ki n con nào n ng h n?ế ặ ơ
Đng th ng và đng cong đng nào ng n h n?ườ ẳ ườ ườ ắ ơ
S l ng dân đô th hay nông thôn nhi u h n?ố ượ ở ị ề ơ
14
Ch ng 5 H h i – đápươ ệ ỏ
H h i – đápệ ỏ
Cách ti p c n IRế ậ
From Dan Jurafsky (2018)
15
Ch ng 5 H h i – đápươ ệ ỏ
H h i – đápệ ỏ
Cách ti p c n IRế ậ
●Phân lo i câu h iạ ỏ
Tìm lo i câu tr l i t ng ng v i câu h iạ ả ờ ươ ứ ớ ỏ
Vd: “Ai là tri u phú?” → PERSONệ
16
Ch ng 5 H h i – đápươ ệ ỏ
H h i – đápệ ỏ
Cách ti p c n IRế ậ
●Chu n hóa câu h iẩ ỏ
Xóa b các t đ h i, t d ngỏ ừ ể ỏ ừ ừ
Chuy n sang d ng t khóaể ạ ừ
Chuy n sang d ng câu kh ng đnhể ạ ẳ ị

17
Ch ng 5 H h i – đápươ ệ ỏ
H h i – đápệ ỏ
Cách ti p c n IRế ậ
●Tìm ki m văn b nế ả
S d ng n n t ng tìm ki m thông tin đ thu v các ử ụ ề ả ế ể ề
văn b n liên quan đn câu truy v n ả ế ấ
18
Ma tr n t - văn b nậ ừ ả
From Information Retrieval by D. Manning et al. 2008
19
From Information Retrieval by D. Manning et al. 2008
20
Tf-idf
●tf-idf(t,d) = tf(t,d) x idf(t)
●idf(t) = log ( N / df(t) )