Chương 4 Phân lớp văn bản<br />
Tf-idf<br />
Naive Bayes<br />
LibSVM<br />
IT4772 Xử lý ngôn ngữ tự nhiên<br />
Viện CNTT-TT, ĐHBKHN<br />
<br />
2<br />
<br />
Chương 4 Phân lớp văn bản<br />
Tf-idf<br />
Tiền xử lý<br />
INFORMATION EXTRACTION<br />
●<br />
<br />
NATURAL LANGUAGE UNDERSTANDING<br />
<br />
END-TO-END<br />
APPLICATIONS<br />
<br />
NATURAL LANGUAGE GENERATION<br />
<br />
Tại sao cần tiền xử lý?<br />
–<br />
<br />
Loại bỏ nhiễu<br />
<br />
–<br />
<br />
Giảm độ lớn từ vựng<br />
<br />
–<br />
<br />
Tăng độ chính xác<br />
<br />
–<br />
<br />
Tăng tốc độ<br />
<br />
DATA + LINGUISTICS + MACHINE LEARNING<br />
<br />
3<br />
<br />
4<br />
<br />
Chương 4 Phân lớp văn bản<br />
Tf-idf<br />
Tiền xử lý<br />
<br />
Chương 4 Phân lớp văn bản<br />
Tf-idf<br />
Tiền xử lý<br />
<br />
1/ Tách từ<br />
2/ Loại bỏ dấu câu<br />
3/ Chuyển về viết thường<br />
4/ Loại bỏ từ dừng<br />
5/ Loại bỏ từ hiếm<br />
<br />
túi từ<br />
<br />
5<br />
<br />
Chương 4 Phân lớp văn bản<br />
Tf-idf<br />
Tiền xử lý<br />
<br />
6<br />
<br />
Chương 4 Phân lớp văn bản<br />
Tf-idf<br />
Biểu diễn nhị phân<br />
<br />
Biểu diễn n-gram<br />
<br />
boolean(w,d)<br />
= 1 nếu w xuất hiện trong văn b ản d<br />
<br />
học sinh học sinh học<br />
Từ:<br />
<br />
{học_sinh, học, sinh_học}<br />
<br />
Unigram:<br />
<br />
{học, sinh, học, sinh, học}<br />
<br />
Bigram:<br />
<br />
{học-sinh, sinh-học, học-sinh, sinh-học}<br />
<br />
= 0 nếu w không xuất hiện trong d<br />
●<br />
<br />
7<br />
<br />
Đơn giản, không phân biệt tần xu ất xu ất hi ện<br />
<br />
8<br />
<br />
Chương 4 Phân lớp văn bản<br />
Tf-idf<br />
Tf<br />
<br />
Chương 4 Phân lớp văn bản<br />
Tf-idf<br />
Df<br />
<br />
tf(w,d): số lần xuất hiện của từ w trong văn bản d<br />
●<br />
<br />
●<br />
<br />
●<br />
<br />
Số lần xuất hiện càng cao thì từ càng có vai trò<br />
quan trọng trong văn bản<br />
<br />
df(w): số văn bản từ w xuất hiện<br />
●<br />
<br />
Từ xuất hiện trong rất nhiều văn b ản thì ít quan<br />
trọng<br />
<br />
Từ dừng có tần xuất xuất hiện cao trong h ầu h ết<br />
văn bản nhưng đã bị loại bỏ trong b ước ti ền x ử<br />
lý<br />
Chưa thể hiện vai trò của từ trong c ả tập văn<br />
bản<br />
<br />
9<br />
<br />
Chương 4 Phân lớp văn bản<br />
Tf-idf<br />
Tf-idf<br />
<br />
10<br />
<br />
Chương 4 Phân lớp văn bản<br />
Naive Bayes<br />
Bayes rule<br />
<br />
tf-idf(w,d) = tf(w,d) x log N / df(w)<br />
<br />
●<br />
<br />
trong đó N là số lượng văn bản<br />
<br />
●<br />
<br />
11<br />
<br />
Pr(A): xác suất xảy ra sự kiện A<br />
Pr(A|B): xác suất điều kiện x ảy ra A bi ết B đã<br />
xảy ra<br />
<br />
12<br />
<br />
T2<br />
<br />
T3<br />
<br />
T4<br />
<br />
T5<br />
<br />
T6<br />
<br />
T7<br />
<br />
CN<br />
<br />
Trời<br />
<br />
mưa<br />
<br />
nắng<br />
<br />
râm<br />
<br />
mưa<br />
<br />
râm<br />
<br />
mưa<br />
<br />
?<br />
<br />
Chuồn<br />
chuồn<br />
<br />
thấp<br />
<br />
cao<br />
<br />
vừa<br />
<br />
thấp<br />
<br />
cao<br />
<br />
vừa<br />
<br />
thấp<br />
<br />
Pr(mưa) = 3/6<br />
Pr(nắng) = 1/6<br />
Pr(râm) = 2/6<br />
<br />
Pr(thấp|mưa) = 2/3<br />
Pr(cao|mưa) = 0/3<br />
Pr(vừa|mưa) = 1/3<br />
<br />
Pr(thấp) = 2/6<br />
Pr(cao) = 2/6<br />
Pr(vừa) = 2/6<br />
<br />
Pr(thấp|nắng) = 0/1<br />
Pr(cao|nắng) = 1/1<br />
Pr(vừa|nắng) = 0/1<br />
<br />
Xác suất tiên nghiệm<br />
<br />
Xác suất biên<br />
<br />
P(A) .P(B|A)<br />
P(B)<br />
Xác suất hậu nghiệm<br />
<br />
Khả năng<br />
<br />
Pr(thấp|râm) = 0/2<br />
Pr(cao|râm) = 1/2<br />
Pr(vừa|râm) = 1/2<br />
13<br />
<br />
Định luật dây chuyền<br />
<br />
14<br />
<br />
Ví dụ: Ba người A, B, C tham gia tranh lu ận. A,<br />
B, C chiếm lần lượt 20%, 30%, 50% t ổng s ố<br />
tranh luận đưa ra. Hỏi xác su ất để C đ ưa ra<br />
một tranh luận tiêu cực là bao nhiêu bi ết r ằng t ỉ<br />
lệ tranh luận tiêu cực của A, B, C l ần l ượt là<br />
5%, 3%, và 1%?<br />
<br />
P(A1,A2,A3..An) = P(A1|A2,A3..An)P(A2|<br />
A3..An)..P(An-1|An)P(An)<br />
<br />
15<br />
<br />
16<br />
<br />
P(A)=.2<br />
P(B)=.3<br />
<br />
P(neg) = P(neg|A)P(A) + P(neg|B)P(B) + P(neg|<br />
C)P(C) = .05x.2 + .03x.3 + .01x.5=.024<br />
<br />
P(C)=.5<br />
<br />
P(C|neg) = P(C)P(neg|C)/P(neg)<br />
= .01x.5/.024 = .208<br />
<br />
P(neg|A)=.05<br />
P(neg|B)=.03<br />
P(neg|C)=.01<br />
P(C|neg) = ?<br />
17<br />
<br />
●<br />
<br />
P(c|x) = P(c|f1,f2..fn)<br />
<br />
18<br />
<br />
●<br />
<br />
= P(c)P(f1,f2..fn|c)/P(f1,f2..fn)<br />
<br />
Giả thiết độc lập: Các đặc trưng là đ ộc l ập v ới<br />
nhau về mặt xác suất<br />
P(fi|fj) = P(fi)<br />
<br />
~ P(c)P(f1,f2..fn|c)<br />
<br />
P(c|x)~P(f1|f2..fn,c)P(f2|f3..fn,c)..P(fn-1|fn,c)P(fn|c)P(c)<br />
<br />
= P(f1,f2..fn,c)<br />
<br />
=P(f1|c)P(f2|c)..P(fn|c)P(c)<br />
<br />
= P(f1|f2..fn,C)P(f2|f3..fn,C)..P(fn-1|fn,C)P(fn|C)P(C)<br />
<br />
P(c|x) ~ P(f1|c)P(f2|c)..P(fn|c)P(c)<br />
<br />
19<br />
<br />
20<br />
<br />