
IT4772 X lý ngôn ng t nhiênử ữ ự
Vi n CNTT-TT, ĐHBKHNệ
2
Ch ng 4 Phân l p văn b nươ ớ ả
Tf-idf
Naive Bayes
LibSVM
3
INFORMATION EXTRACTION
NATURAL LANGUAGE UNDERSTANDING
NATURAL LANGUAGE GENERATION
DATA + LINGUISTICS + MACHINE LEARNING
END-TO-END
APPLICATIONS
4
Ch ng 4 Phân l p văn b nươ ớ ả
Tf-idf
Ti n x lýề ử
●T i sao c n ti n x lý?ạ ầ ề ử
–Lo i b nhi uạ ỏ ễ
–Gi m đ l n t v ngả ộ ớ ừ ự
–Tăng đ chính xácộ
–Tăng t c đố ộ

5
Ch ng 4 Phân l p văn b nươ ớ ả
Tf-idf
Ti n x lýề ử
1/ Tách từ
2/ Lo i b d u câuạ ỏ ấ
3/ Chuy n v vi t th ngể ề ế ườ
4/ Lo i b t d ngạ ỏ ừ ừ
5/ Lo i b t hi mạ ỏ ừ ế
6
Ch ng 4 Phân l p văn b nươ ớ ả
Tf-idf
Ti n x lýề ử
túi từ
7
Ch ng 4 Phân l p văn b nươ ớ ả
Tf-idf
Ti n x lýề ử
Bi u di n n-gramể ễ
h c sinh h c sinh h cọ ọ ọ
{h c_sinh, h c, sinh_h c}ọ ọ ọ
{h c, sinh, h c, sinh, h c}ọ ọ ọ
{h c-sinh, sinh-h c, h c-sinh, sinh-h c}ọ ọ ọ ọ
T :ừ
Unigram:
Bigram:
8
Ch ng 4 Phân l p văn b nươ ớ ả
Tf-idf
Bi u di n nh phânể ễ ị
boolean(w,d)
= 1 n u w xu t hi n trong văn b n dế ấ ệ ả
= 0 n u w không xu t hi n trong dế ấ ệ
●Đn gi n, không phân bi t t n xu t xu t hi nơ ả ệ ầ ấ ấ ệ

9
Ch ng 4 Phân l p văn b nươ ớ ả
Tf-idf
Tf
tf(w,d): s l n xu t hi n c a t ố ầ ấ ệ ủ ừ w trong văn b n ảd
●S l n xu t hi n càng cao thì t càng có vai trò ố ầ ấ ệ ừ
quan tr ng trong văn b nọ ả
●T d ng có t n xu t xu t hi n cao trong h u h t ừ ừ ầ ấ ấ ệ ầ ế
văn b n nh ng đã b lo i b trong b c ti n x ả ư ị ạ ỏ ướ ề ử
lý
●Ch a th hi n vai trò c a t trong c t p văn ư ể ệ ủ ừ ả ậ
b nả
10
Ch ng 4 Phân l p văn b nươ ớ ả
Tf-idf
Df
df(w): s văn b n t ố ả ừ w xu t hi nấ ệ
●T xu t hi n trong r t nhi u văn b n thì ít quan ừ ấ ệ ấ ề ả
tr ngọ
11
Ch ng 4 Phân l p văn b nươ ớ ả
Tf-idf
Tf-idf
tf-idf(w,d) = tf(w,d) x log N / df(w)
trong đó N là s l ng văn b nố ượ ả
12
Ch ng 4 Phân l p văn b nươ ớ ả
Naive Bayes
Bayes rule
●Pr(A): xác su t x y ra s ki n Aấ ả ự ệ
●Pr(A|B): xác su t đi u ki n x y ra A bi t B đã ấ ề ệ ả ế
x y raả

13
T2 T3 T4 T5 T6 T7 CN
Tr iờm aưn ngắrâm m aưrâm m aư?
Chu n ồ
chu nồ
th pấcao v aừth pấcao v aừth pấ
Pr(m a) = 3/6ư
Pr(n ng) = 1/6ắ
Pr(râm) = 2/6
Pr(th p) = 2/6ấ
Pr(cao) = 2/6
Pr(v a) = 2/6ừ
Pr(th p|m a) = 2/3ấ ư
Pr(cao|m a) = 0/3ư
Pr(v a|m a) = 1/3ừ ư
Pr(th p|n ng) = 0/1ấ ắ
Pr(cao|n ng) = 1/1ắ
Pr(v a|n ng) = 0/1ừ ắ
Pr(th p|râm) = 0/2ấ
Pr(cao|râm) = 1/2
Pr(v a|râm) = 1/2ừ
14
P(A) .P(B|A)
P(B)
Xác su t biênấ
Xác su t tiên nghi mấ ệ
Kh năngả
Xác su t h u nghi mấ ậ ệ
15
Đnh lu t dây chuy nị ậ ề
P(A
1
,A
2
,A
3
..A
n
) = P(A
1
|A
2
,A
3
..A
n
)P(A
2
|
A
3
..A
n
)..P(A
n-1
|A
n
)P(A
n
)
16
Ví dụ: Ba ng i A, B, C tham gia tranh lu n. A, ườ ậ
B, C chi m l n l t 20%, 30%, 50% t ng s ế ầ ượ ổ ố
tranh lu n đa ra. H i xác su t đ C đa ra ậ ư ỏ ấ ể ư
m t tranh lu n tiêu c c là bao nhiêu bi t r ng t ộ ậ ự ế ằ ỉ
l tranh lu n tiêu c c c a A, B, C l n l t là ệ ậ ự ủ ầ ượ
5%, 3%, và 1%?

17
P(A)=.2
P(B)=.3
P(C)=.5
P(neg|A)=.05
P(neg|B)=.03
P(neg|C)=.01
P(C|neg) = ?
18
P(neg) = P(neg|A)P(A) + P(neg|B)P(B) + P(neg|
C)P(C) = .05x.2 + .03x.3 + .01x.5=.024
P(C|neg) = P(C)P(neg|C)/P(neg)
= .01x.5/.024 = .208
19
●P(c|x) = P(c|f
1
,f
2
..f
n
)
= P(c)P(f
1
,f
2
..f
n
|c)/P(f
1
,f
2
..f
n
)
~ P(c)P(f
1
,f
2
..f
n
|c)
= P(f
1
,f
2
..f
n
,c)
= P(f
1
|f
2
..f
n
,C)P(f
2
|f
3
..f
n
,C)..P(f
n-1
|f
n
,C)P(f
n
|C)P(C)
20
●Gi thi t đc l p: Các đc tr ng là đc l p v i ả ế ộ ậ ặ ư ộ ậ ớ
nhau v m t xác su tề ặ ấ
P(f
i
|f
j
) = P(f
i
)
P(c|x)~P(f
1
|f
2
..f
n
,c)P(f
2
|f
3
..f
n
,c)..P(f
n-1
|f
n
,c)P(f
n
|c)P(c)
=P(f
1
|c)P(f
2
|c)..P(f
n
|c)P(c)
P(c|x) ~ P(f1|c)P(f2|c)..P(fn|c)P(c)