IT4772 X lý ngôn ng t nhiên
Vi n CNTT-TT, ĐHBKHN
2
Ch ng 4 Phân l p văn b nươ
Tf-idf
Naive Bayes
LibSVM
3
INFORMATION EXTRACTION
NATURAL LANGUAGE UNDERSTANDING
NATURAL LANGUAGE GENERATION
DATA + LINGUISTICS + MACHINE LEARNING
END-TO-END
APPLICATIONS
4
Ch ng 4 Phân l p văn b nươ
Tf-idf
Ti n x
T i sao c n ti n x lý?
Lo i b nhi u
Gi m đ l n t v ng
Tăng đ chính xác
Tăng t c đ
5
Ch ng 4 Phân l p văn b nươ
Tf-idf
Ti n x
1/ Tách t
2/ Lo i b d u câu
3/ Chuy n v vi t th ng ế ườ
4/ Lo i b t d ng
5/ Lo i b t hi m ế
6
Ch ng 4 Phân l p văn b nươ
Tf-idf
Ti n x
túi t
7
Ch ng 4 Phân l p văn b nươ
Tf-idf
Ti n x
Bi u di n n-gram
h c sinh h c sinh h c
{h c_sinh, h c, sinh_h c}
{h c, sinh, h c, sinh, h c}
{h c-sinh, sinh-h c, h c-sinh, sinh-h c}
T :
Unigram:
Bigram:
8
Ch ng 4 Phân l p văn b nươ
Tf-idf
Bi u di n nh phân
boolean(w,d)
= 1 n u w xu t hi n trong văn b n dế
= 0 n u w không xu t hi n trong dế
Đn gi n, không phân bi t t n xu t xu t hi nơ
9
Ch ng 4 Phân l p văn b nươ
Tf-idf
Tf
tf(w,d): s l n xu t hi n c a t w trong văn b n d
S l n xu t hi n càng cao thì t càng có vai trò
quan tr ng trong văn b n
T d ng có t n xu t xu t hi n cao trong h u h t ế
văn b n nh ng đã b lo i b trong b c ti n x ư ướ
Ch a th hi n vai trò c a t trong c t p văn ư
b n
10
Ch ng 4 Phân l p văn b nươ
Tf-idf
Df
df(w): s văn b n t w xu t hi n
T xu t hi n trong r t nhi u văn b n thì ít quan
tr ng
11
Ch ng 4 Phân l p văn b nươ
Tf-idf
Tf-idf
tf-idf(w,d) = tf(w,d) x log N / df(w)
trong đó N là s l ng văn b n ượ
12
Ch ng 4 Phân l p văn b nươ
Naive Bayes
Bayes rule
Pr(A): xác su t x y ra s ki n A
Pr(A|B): xác su t đi u ki n x y ra A bi t B đã ế
x y ra
13
T2 T3 T4 T5 T6 T7 CN
Tr im aưn ngrâm m aưrâm m aư?
Chu n
chu n
th pcao v ath pcao v ath p
Pr(m a) = 3/6ư
Pr(n ng) = 1/6
Pr(râm) = 2/6
Pr(th p) = 2/6
Pr(cao) = 2/6
Pr(v a) = 2/6
Pr(th p|m a) = 2/3 ư
Pr(cao|m a) = 0/3ư
Pr(v a|m a) = 1/3 ư
Pr(th p|n ng) = 0/1
Pr(cao|n ng) = 1/1
Pr(v a|n ng) = 0/1
Pr(th p|râm) = 0/2
Pr(cao|râm) = 1/2
Pr(v a|râm) = 1/2
14
P(A) .P(B|A)
P(B)
Xác su t biên
Xác su t tiên nghi m
Kh năng
Xác su t h u nghi m
15
Đnh lu t dây chuy n
P(A
1
,A
2
,A
3
..A
n
) = P(A
1
|A
2
,A
3
..A
n
)P(A
2
|
A
3
..A
n
)..P(A
n-1
|A
n
)P(A
n
)
16
Ví d: Ba ng i A, B, C tham gia tranh lu n. A, ườ
B, C chi m l n l t 20%, 30%, 50% t ng s ế ượ
tranh lu n đa ra. H i xác su t đ C đa ra ư ư
m t tranh lu n tiêu c c là bao nhiêu bi t r ng t ế
l tranh lu n tiêu c c c a A, B, C l n l t là ượ
5%, 3%, và 1%?
17
P(A)=.2
P(B)=.3
P(C)=.5
P(neg|A)=.05
P(neg|B)=.03
P(neg|C)=.01
P(C|neg) = ?
18
P(neg) = P(neg|A)P(A) + P(neg|B)P(B) + P(neg|
C)P(C) = .05x.2 + .03x.3 + .01x.5=.024
P(C|neg) = P(C)P(neg|C)/P(neg)
= .01x.5/.024 = .208
19
P(c|x) = P(c|f
1
,f
2
..f
n
)
= P(c)P(f
1
,f
2
..f
n
|c)/P(f
1
,f
2
..f
n
)
~ P(c)P(f
1
,f
2
..f
n
|c)
= P(f
1
,f
2
..f
n
,c)
= P(f
1
|f
2
..f
n
,C)P(f
2
|f
3
..f
n
,C)..P(f
n-1
|f
n
,C)P(f
n
|C)P(C)
20
Gi thi t đc l p: Các đc tr ng là đc l p v i ế ư
nhau v m t xác su t
P(f
i
|f
j
) = P(f
i
)
P(c|x)~P(f
1
|f
2
..f
n
,c)P(f
2
|f
3
..f
n
,c)..P(f
n-1
|f
n
,c)P(f
n
|c)P(c)
=P(f
1
|c)P(f
2
|c)..P(f
n
|c)P(c)
P(c|x) ~ P(f1|c)P(f2|c)..P(fn|c)P(c)