4/21/2011
1
PHÂN LP VĂN BN TING VIT
THEO HƯỚNG TIP CN
LEXICAL CHAIN
PHN I:
TNG QUAN VBÀI TOÁN
TNG
QUAN
V
BÀI
TOÁN
PHÂN LP VĂN BN
Các phương pháp biu din văn bn
Mô hình vector
Văn bn = 1 vector n chiu + trng s cho mi giá tr ca nó
Mô hình vector thưa
t it khá 0 hhthi itó
s
t
v
i
t
rng s
khá
c
0
n
h
h
ơn r
t
n
hi
u so v
i
s
t
c
ó
trong Cơ s d liu
Các phương pháp biu din văn bn
Mô hình tn s kết hp TF x IDF
Xét:
Tp d liu gm m văn bn: D = {d1, d2,… dm}.
Mi văn bn bi
u din dưới d
n
g
m
t vector
g
m n thu
t
gg
ng T = {t1, t2,…tn}.
fij là sln xut hin cathut ng titrong văn bnd
j
m là slượng văn bn
hilà svăn bnmà thut ng tixut hin
Gi W = {wij } là ma trn trng s, trong đó wij là giá tr
trng s ca thut ng titrong văn bn dj
Các phương pháp biu din văn bn
Ma trn trng s TFxIDF được tính như sau:
+
=
l¹i ngîc nÕu
nÕu1
0
h
h
m
f
wij
i
ij
ij
1log)]log([
Các phương pháp biu din văn bn (tt)
Mô hình Lexical Chain:
“Lexical Chain” là mt khái nim nhm duy trì tính c kết gia
các t trong văn bn có mi liên quan vi nhau v mt ng
n
g
hĩa
g
Mt s loi quan h v ng nghĩa gia các t:
Lp li (Repeatation)
Đồng nghĩa (synonyms )
Trái nghĩa ()
B phn-Toàn th (hypernyms, hyponyms )
Ví d : C1= {kinh tế, thương mi, lĩnh vc, vn, th trường}
4/21/2011
2
Các thut toán gii quyết bài toán
Phân lp văn bn
Thut toán cây quyết định.
Thut toán k-NN.
Thut toán Lexical Chain.
Thut toán Cây quyết định
Cây quyết định gm các nút quyết định, các nhánh và lá :
Mi gn vi mt nhãn lp,
Mi nút quyết định mô t mt phép th X nào đó,
Mi nhánh ca nút nà
y
tươn
g
n
g
vi m
t kh năn
g
ca X.
y g g g
Ý tưởng: Phân lp mt tài liu dj bng phép th đệ quy các trng s
mà các khái nim được gán nhãn cho các nút trong ca cây vi vector
cho đến khi đạt timt nút lá => nhãn ca nút lá này được gán cho tài
liu dj.
Ưu đim: chuyn d dàng sang dng cơ s tri thc là các lut Nếu -
Thì .
Nhược đim:
Cây thu được thưòng rt phc tp, ch phù hp vi tp mu ban đầu.
Khi áp dng cây vi các d liu mi s gây ra sai s ln.
Thut toán kNN (K-Nearest Neighbor)
Tư tưởng : tính toán độ phù hpca văn bn đang xét
vi tng lp (nhóm) da trên kvăn bn mu có độ tương
t gn nht.
Có 3 cách gán nhãn:
Gán nhãn văn bn gn nht:
Gán nhãn theo s đông
Gán nhãn theo độ phù hp ch đề
Cách biu din văn bn (hướng tiếp cn truyn thng):
TF x IDF
Thut toán Lexical Chain
Bước 1: Đọc t w trong văn bn.
Bước 2: Tiến hành dng nếu w là stop-word.
Bước 3: Thông qua WordNet, ly v tp S gm tt c các nghĩa mà w
có th có.
Bước 4: Tiến hành tìm kiếm mi liên h gn nht gia w vi các t
trong tp hp chain đã được khi to
Nếu tìm thy mi liên h đủ gn, tiến hành kết np w vào chain đó,
đồng thi kh nhp nhng nghĩa cho w bng cách ta đi tt c các
sense đã không được s dng để tìm mi liên h này
Nếu không tìm được chain nào tho mãn, tiến hành lp chain mi và
kết np w là t đầu tiên.
Lý do la chn hướng Lexical Chain
Can thip vào bn cht ngôn ng ca văn bn, thay vì mô
hình toán hc thun tuý
Kh nhp nhng ng nghĩa ca t rt tt.
u qu
ng c
n
c
Giúp thu gn không gian bài toán
Là hướng tiếp cn mi
PHN II:
TIPCN BÀI TOÁN PHÂN LP
TIP
CN
BÀI
TOÁN
PHÂN
LP
VĂN BN TING VIT THEO HƯỚNG
LEXICAL CHAIN
4/21/2011
3
Các tác động ca đặc trưng ngôn
ng Tiếng Vit đến bài toán
Cn phi thiết kế thêm gii thut để tách t
Không cn phi gii quyết bài toán Stemming
Hin tượng t đồng âm: nhp nhng ng nghĩa
ế
Ti
ế
ng Vit chưa có mt WordNet hoàn chnh đ
bi
u đạt
các mi quan h ng nghĩa mt cách phong phú và đầy
đủ như Tiếng Anh
Mô hình gii quyết bài toán
T đin
Tiếng
Vit1.Tin x
Input Text
T đin
Stop-
word
Kho văn
bn đã
hun
luyn
Cây
phân
cp
ng
nghĩa
2. Xây dng Lexical Chains
(LC)
3.Tính độ tương đương vi
các văn bn mu bng LC
4.Quyết định lp cho văn
bn
Categorized Text
Các yếu t ngôn ng được s dng
T đin Tiếng Vit : 70.000 t (có gn nghĩa)
T đin t dng
Cây phân cp ng nghĩa
ROOT
Cây phân cp
ng nghĩa
Tiếng Vit
Bird
Chim sVàng anh
T
Mammal
Gu
Fish
Cá trmCá thu
animal
ROOT
ConcreteThing
K N
Mc tru tượng chung thp nht
N
K
SEMDIST =
Tin x lý văn bn
Tách t
Gán nhãn t loi, lc
ra các danh t
Libtd
begin
Chia văn bn thành các
truy vn nh hơn
B
q
ua 1
Là t
khoá ?
F
các du “.”, “, “ , “;” ,
“:”
Xét tng truy vn (các
tiếng)
L
o
i
b
t
d
ng.
end
q
tiếng bên
phi
Ct t khi
truy vn
khoá
?
Truy vn
rng ?
T
F
T
Gii thut xây dng Lexical Chain
Bước 1: Vi mi danh t trong văn bn, lit kê tt c các nghĩa mà
nó có th có.
Bước 2: S dng WSDG để xác định nghĩa phù hp nht ca mi
t trong s tp hp nghĩa xác định bước 1.
Bước 3: Xây dng các Lexical Chain da vào nghĩa duy nht va
tìm được cho mi t.
Xut phát t tp chain rng.
Vi mi t w:
kết np nó vào chain c nếu độ tương đồng ca nó vi tt c các t
trong c đều đủ gn (vượt ngưỡng lp trước)
Ngược li, lp chain mi và kết np nó là t đầu tiên
α
Đồ th kh nhp nhng nghĩa
Gi:
T = {T1 , T2,… Tn} là tp các danh t trong văn bn.
Si (i=1,...mi) là tp hp các nghĩa mà danh t Ti có th
được (mi là s lượng nghĩa ca Ti)
G=(V,E)
Vi biu din Ti, nhưng chia làm mi phn
Mi phn Vij biu din nghĩa Sij ca Ti
Mi cnh trong E ni Vij và Vi’j’
Mi cnh được gán trng s:
Trng s ca mi nghĩa Vij:
'' , ''
(, ) ( )
ij i j ij i j
wV V sim S S=
''
() (, )(' ,,'1,)
ij ij i j
wV wV V i i ii n=≠=
4/21/2011
4
Ví d minh ho gii thut
Vn
Đơn v
« Sáng nay, m tôi đi ch mua hai
cân đường để vt nước chanh »
Vn
ti
Gia v
quy uc
đo lường
Vt
dng
Hoa
qu
ĐƯỜNG CÂN
CHANH
+ Đường: W(‘Gia v’) =2.0, W(‘vn ti’)
=0.8
=> Đường = Gia v
+ Cân: W(‘đơn v đo lường’) =1.8,
W(‘Vt dng’) =1.4
Cân = đơn v đo lường
Đánh giá các Lexical Chain
Đim cho mi chain:
score(C) = Length * Homogeneity
Trong đó:
LthSlá“l tt”t C
L
eng
th
:
S
l
ượng c
á
c
“l
ượ
t
t
t
rong
C
.
Homogeneity: Tính đồng nht gia các t trong C
Alpha = 0.75
__ _ __
Homogeneity 1 Number of distinct words in C
Length
α
=−
Dùng LC tính độ tương t gia các văn bn
Ký hiu các chui t vng c và d ln lượt là :
c = {c1,c2,…, cm} và d = {d1,d2,…, dn}
Trong đó, mi thành phn ci, dj (i=1..m, j=1..n) đều ch
1 n
g
hĩa du
y
nht ln lư
t là .
c
s
d
s
g y
Độ tương đồng gia c và d :
Độ tương t gia chain c và văn bn D
i
c
s
j
d
s
11
(, ) ( , )
ij
mn
cd
ij
s
im c d sim s s
==
=∑∑
(, ) (, )
dD
s
im c D sim c d
=
Gán nhãn lp cho văn bn
Gán nhãn theo tng độ phù hp ch đề
Ln lượt tính tng độ phù hp ca văn bn Q vi tt c các
phân lp có trong k văn bn đã ly ra
G
án nhãn chđề phù hpnhtchoQ
G
án
nhãn
ch
đề
phù
hp
nht
cho
Q
Q s thuc vào phân lp có tng độ liên quan cao nht.
PHN III:
TIPCN BÀI TOÁN PHÂN LP
TIP
CN
BÀI
TOÁN
PHÂN
LP
VĂN BN TING VIT THEO HƯỚNG
LEXICAL CHAIN
Chc năng Hun luyn tp mu
Tin x Xây dng
tp Lexical
Chains
Lc các
Chains mnh
và lưu tr
Tp văn
bn thô
(đã phân
lp đúng)
CHC NĂNG HUN LUYN TP MU
Tp văn
bn được
hun
luyn
Tp văn bn
ch cha
danh t
Tp văn bn
dưới dng
các chain
4/21/2011
5
Xây dng các Lexical Chain
T đin Tiếng
Vit (có gn
nghĩa)
Cây phân cp
ng nghĩa
Tp văn bn
(biu din dưới
dng các danh
t )
XÂY DNG TP LEXICAL
CHAINS
Thu
thp tp
nghĩa
Xây dng
WSD
Graph
Chn
nghĩa phù
hp nht
Tp danh
t+ tp
nghĩa
Tp các
chain cho
văn bn
Cu trúc
nên các
chain
Chc năng Phân lp văn bn
T đin
tiếng
Vit+ ng
nghĩa
Tp V.bn
đã hun
luyn
Văn bn đầu
vào (cn phân
lp)
Ch đề phù
hp nht
cho văn bn
Tin x
Xác định
độ liên
quan
Gán ch
đề
Tp các
chains mnh
Các văn bn phù hp
nht (có kèm ch đề)
PHÂN LP VĂN BN
lp)
Thiết kế d liu
<LexicalEntry>
<HeadWord>cá qu</HeadWord>
<Morphology>
<WordType>composite word</WordType>
¾T đin Tiếng Vit (ngun: trung tâm t đin hc Vietlex):
</Morphology>
<Semantic>
<LogicalConstraint>
<CategoryMeaning>Animal</CategoryMeaning>
<Synonym>_</Synonym>
<Antonym>_</Antonym>
</LogicalConstraint>
<Definition>cá dữởnướcngt, thân tròn, dài, nhiu
đốmđen, đầunhn, kho,bơi nhanh</Definition>
</Semantic>
</LexicalEntry>
Thiết kế d liu
¾Cây phân cp nghĩa (ngun: trung tâm t đin hc Vietlex):
Organization Root/ConcreteThing/LivingThing/People/Organization
Thiết kế d liu
Lưu các Lexical Chain:
Tp lexical chain ca mi văn bn lưu trong mt file .txt
Các lexical chain cách nhau 1 dòng trng
Trong 1 lexical chain:
Mitđượclưu trên 1 dòng
Mi
t
được
lưu
trên
1
dòng
Câu trúc mi t như sau:
Ví d:
lut sư|People|4
b cáo|People|1
thm phán|People|3
cán b|People|2
người làm|People|1
TNghĩa S ln xut hin
Giao din chính