1
PHÂN LOITINTĐỘNG CHO BÁO ĐINT
1
PHÂN
LOI
TIN
T
ĐỘNG
CHO
BÁO
ĐIN
T
1. Tng quan
ng dng ca Phân loi văn bn
Phân loi các tài liu trong các thư vin
Phân loi trong quá trình tác nghip ca các báo đin t.
2
Phân chia sp xếp li các lun văn, đồ án trong các
trường Đại hc.
B máy tìm kiếm mun phân chia các tài liu tr v
thành các chuyên mc Ængười đọc d nm bt được
ni dung ban đầu ca các kết qu tìm được.
1. Tng quan
ng dng “Phân loitintựđng cho báo đint
nhmtìmhiuvàthnghim các phương pháp phân
loivănbpdng trên Tiếng Vit.
3
Kếthpgiahaiphương pháp đãđượcchng minh
hiuqucao để gii quyết hai bài toán khác nhau
Phân loivàLp nhóm vănbnÆđề xutmtmôhình
citiến, phù hpvi bài toán
1. Tng quan
Sơ đồ minh ha quá trình phân loi
Mô hình hóa VB Document
Vector
4
VB c
n phân lp
Các VB mu đã phân lp
Pha lp nhóm
Vector trng tâm
mi nhóm
Kết lun
phân nhóm
Kết lun
phân loi
Tính độ
tương t
2. Các phương pháp thc hin
Pha lp nhóm
Vector trng tâm
ihó
5
Các VB mu đã phân lp
Pha lp nhóm m
i
n
m
Pha lp nhóm được thc hin trước, mt cách “offline” Æđể
xác định vector trng tâm cho mi nhóm cùng các thông tin
truy hi
2. Các phương pháp thc hin (tiếp)
Tisaocnsdng các phương pháp lpnhómvăn
bndatrênthutngxuthinthường xuyên ?
Kthutlp nhóm này phù hpviyêucu “offline”, các thuttoáp
dng cho phương pháp này độ chính xác cao tuy thigianx
h
à
hi
l
khô
thiết
l
khi
ffli
6
c
h
mv
à
c
hi
p
l
n, n
ưng
khô
ng c
n
thiết
l
m
khi
x
o
ffli
ne.
Thut ng thường xuyên là các thut ngư xut hin nhiu ln trong văn
bn hoc trong mt tp văn bn, các thut ng phi có ý nghĩa, chúng
đại din cho ni dung toàn văn bn.
Các thut ng thường xuyên to nn tng ca vic khai thác quy tc
kết hp.
Làm gim được s chiu ca vector biu din tài liu.
2
Gim bt s lượng các tp mc cn xét
Nguyên tc ca gii thut Apriori – Loi b (prunning)
da trên độ h tr
Nếu mt tp mc là thường xuyên, thì tt c các tp con
(subsets) ca nó đều là các tp mc thường xuyên
Nếumttpmc không thường xuyên (not frequent), thì tt
Nếu
mt
tp
mc
không
thường
xuyên
(not
frequent),
thì
tt
c các tp cha (supersets) ca nó đều là các tp mc không
thường xuyên
Nguyên tc ca gii thut Apriori da trên đặc tính
không đơn điu (anti-monotone) ca độ h tr
Độ h tr ca mt tp mc nh hơn độ h tr ca các tp con
ca nó 7
Khai Phá D Liu
)()()(:, YsXsYXYX
Apriori: Loi b da trên độ h tr
null
AB AC AD AE BC BD BE CD CE DE
A B C D E
null
AB AC AD AE BC BD BE CD CE DE
A B C D E
8
Khai Phá D Liu
Tp mc
không
thường
xuyên
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD ABCE ABDE ACDE BCDE
ABCDE
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD ABCE ABDE ACDE BCDE
ABCDE
Các tp cha ca tp
mc đó (AB) b loi b
2. Các phương pháp thc hin (tiếp)
GiithutApriori
BiếnC
k:Cáctpthutngữứng cmck.
BiếnL
k:Cáctpthutngthường xuyên mck.
Bước 1 : Gii thut Apriori – tính toán các tp thut ng thường xuyên
9
L1={Cácthutngthường xuyên mc1};
For (k=1; Lk!=Ø; k++) do Begin
// Lp li cho đến khi không có thêm bt k tp mc thường xuyên nào mi
//Bước kết hp: Kết hp Lkvi bn thân nó để to ra Ck+1
//Bướcctta: Loib(k+1)-itemsets tCk+1 cha k-itemsets không thường
xuyên
Ck+1 =cácng cviên đượctoratLk
For mitàiliu t trong tpvănbndo
Tăng slượng cattccác ng cviên trong Ck+1 cha trong t
Lk+1 =cácng cviên trong Ck+1 GS > min_support
End
Return Lk
2. Các phương pháp thc hin (tiếp)
Bước 2 : s dng thuât toán FIHC để phân nhóm các tp
thut ng thường xuyên ra. (Frequent Item-based
Hierarchical Clustering)
10
Hierarchical
Clustering)
ThuttoánFIHCbaogm hai giai đon:
Xây dng các Cluster khito.
Dng cây Cluster.
3.Chương trình thc nghim
Mô hình
Phntinx vănbnlàmcáccôngvicnhưtách
thutng,phântíchtchcdliu, tchctừđin.
11
Pha lp nhóm vănbn, sdng thuttoánApriorivà
FIHC.
Khi phân loimtvănbnming dng chvicđọc
các thông tin vvector trng tâm, so sánh vivăn
bnđầuvàođãđượcvectorhóaÆquyếtđịnh phân
loi.
3.Chương trình thc nghim
Phn tin x lý văn bn.
Tách thut ng tiếng Vit: S dng thut toán đối
sánh thut ng dài nht t bên phi qua.
12
d:Ban công tác đãxácđịnh đượcvnđề.
Khi sdng thuttoántphi qua, ta stách được
chính xác câu này. Kếtqunhưsau : vnđề,được,
xác định, đã, công tác, ban.Vàtachcnđảongược
lithtnày.
3
3.Chương trình thc nghim
Phn tin x lý văn bn.
Phân tích t chc d liu: (1)
T chc t đin dưới dng cu trúc như sau:
13
3.Chương trình thc nghim
Phân tích t chc d liu: Xây dng 3 File đầu vào
Ví d ni dung 1 file ClassID.txt
0: Dulich
1
File
ClassID.txt
14
1: Giaoduc
2: Oto xe may
3: Suckhoe
4: The thao
5: Vitinh
6: Kinhdoanh
1
.
File
ClassID.txt
file cha ID và tên
ca các class, được
to bng cách duyt
qua tt c các thư
mc con ca thư mc
cha tp văn bn
mu.
3.Chương trình thc nghim
2. File ThreeLine.txt cha các thông schung caquá
trình lp nhóm, gm 3 dòng:
Tng snhóm phân ra ttpvănbnmu
S
lp
(
s
thư
mc
con
)
ca
tp
văn
bn
mu
15
S
lp
(
s
thư
mc
con
)
ca
tp
văn
bn
mu
.
Slượng các nhóm phân bvào tng lptương ng
bên file ClassID.txt.
Ví dni dung mt file ThreeLine.txt :
174
8
20 22 22 16 27 14 14 39
3.Chương trình thc nghim
3. File InputForYou.txt cha các vectơ trng tâm ca tt
c các nhóm, 1 vectơ / dòng.
Thông tin trên 1 dòng
S ănbnth c nhóm/ ectơtrng tâm đó
16
S
v
ăn
bn
th
u
c
nhóm/
v
ectơ
trng
tâm
đó
;
ID ca lp mà nhóm đó thuc v;
ID ca nhóm đó trong lp;
Các cp (Term ID – Trng s) th hin cho các chiu ca vector
trng tâm
4. Đánh giá kết qu
Xây dng mu kim th
Tp kim th được xây dng t các bài báo thuc các lĩnh vc khác
nhau ca báo đintVnExpress
(
http://www vnexpress net
)
17
nhau
ca
báo
đin
t
VnExpress
(
http://www
.
vnexpress
.
net
)
D liu kim th là 56 bn tin mi nht trên VNExpress thuc các
ch đề Giáo dc, Du lch, Kinh doanh, Ô tô xe máy, Th Thao, Pháp
lut, Vi Tính, Sc kho (theo s phân chia ch đề ca báo) đã được
ghi li theo ch đề t trước.
Độ chính xác : 94,64%.
4. Đánh giá kết qu
Mô hình ci tiến đạt được độ chính xác cao.
D liu nói chung đã ti ưu
Các chc năn
g
đư
c
p
hân tách rõ ràn
g
làm
g
im chi
p
hí tài
18
gpggp
nguyên và tăng tc độ phân lp lên rt nhiu.
Hai thut toán Apriori, FIHC tuy đạt được độ chính xác cao
nhưng chưa n định.
4
Hướng phát trin
Các thut toán Apriori, FIHC tuy được cài đặt để s dng trong
thi gian x lý “offline” nhưng chi phí tính toán cũng khá ln. Æ
ci tiến các thut toán này để gim chi phí lp nhóm
19
Vic ti
n x lý văn bn như x lý th
ng nh
t font ch, định dng
file đầu vào và đặc bit là quá trình tách thut ngnh
hưởng quan trng đối vi h thng x lý văn bn nói chung và
ng dng phân loi tin t động nói riêng. Đây cũng là mt vn
đề cn được nghiên cu sâu hơn và đưa ra các gii thut tt
hơn