Tách t tiếng Vit
Lê Thanh Hương
B môn H thng Thông tin
Vin CNTT &TT – Trường ĐHBKHN
Email: huonglt-fit@mail.hut.edu.vn
1
Tách t
zMc đích: xác định ranh gii ca các t trong câu.
zLà bước x lý quan trng đối vi các h thng XLNNTN,
đặc bit là đối vi các ngôn ng đơn lp, ví d: âm tiết
Trung Quc, âm tiết Nht, âm tiết Thái, và tiếng Vit.
zVi các ngôn ng đơn lp, mt t có th
có mt hoc
nhiu âm tiết.
¾Vn đề ca bài toán tách t là kh được s nhp nhng
trong ranh gii t.
2
T vng
ztiếng Vit là ngôn ng không biến hình
zT đin t tiếng Vit (Vietlex): >40.000 t,
trong đó:
81 55% â tiếtlàtt đ
z
81
.
55%
â
m
tiết
t
:
t
đ
ơn
z15.69% các t trong t đin là t đơn
z70.72% t ghép có 2 âm tiết
z13.59% t ghép 3 âm tiết
z1.04% t ghép 4 âm tiết
3
T vng
Độ dài # %
1 6,303 15.69
2 28,416 70.72
3
2 259
562
3
2
,
259
5
.
62
4 2,784 6.93
5 419 1.04
Tng 40,181 100
4
Bng 1. Độ dài ca t tính theo âm tiết
Qui tc cu to t tiếng Vit
zT đơn: dùng mt âm tiếtlàm mt t.
zVí d: tôi, bác, người, cây, hoa, đi, chy, vì, đã, à, nh, nhé...
zT ghép: t hp(ghép) các âm tiết li, gia các âm tiết
đó có quan h v nghĩa vi nhau.
áà óì
zT ghép đ
ng lp. c
á
c th
à
nh t
c
u to c
ó
quan h
b
ì
nh đ
ng v
i
nhau v nghĩa.
zVí d: ch búa, bếp núc
zT ghép chính ph. các thành t cu to này ph thuc vào thành
t cu to kia. Thành t ph có vai trò phân loi, chuyên bit hoá
và sc thái hoá cho thành t chính.
zVí d: tàu ho, đường st, xu bng, tt mã, ngay đơ, thng
tp, sưng vù...
5
Qui tc cu to t tiếng Vit
zT láy: các yếu t cu to có thành phn ng âm được lp
li; nhưng va lp va biến đổi. Mt t được lp li cũng cho
ta t láy.
zBiến th ca t: được coi là dng lâm thi biến động hoc
dng
"
li nói"
dng
li
nói
zRút gn mt t dài thành t ngn hơn
zki-lô-gam ki lô/ kí lô
zLâm thi phá v cu trúc ca t, phân b li yếu t to t vi
nhng yếu t khác ngoài t chen vào. Ví d:
zkh s lo kh lo s
zngt ngho cười ngt cười ngho
zdanh li + ham chung ham danh chung li
6
Qui tc cu to t tiếng Vit
zCác din t gm nhiu t (vd, “bi vì”) cũng được coi là
1 t
zTên riêng: tên người và v trí được coi là 1 đơn v t
vng
zCác m
u thường xuyên: s
, thi gian
7
Các hướng tiếp cn
zTiếp cn da trên t đin
zTiếp cn theo phương pháp thng kê
zKết hp hai phương pháp trên.
8
Các phương pháp
zSo khp t dài nht (Longest Matching)
zHc da trên s ci biến (Transformation-based
Learning – TBL)
zChuyn đổi trng thái trng s hu hn (Weighted Finite
State Transducer
WFST)
zĐộ hn lon cc đại (Maximum Entropy – ME)
zHc máy s dng mô hình Markov n (Hidden Markov
Models- HMM)
zHc máy s dng vectơ h tr (Support Vector
Machines)
zKết hp mt s phương pháp trên
9
Tiếp cn da trên t đin
<Lê Thanh Hương, Phân tích cú pháp tiếng Vit, Lun văn
cao hc, 1999>
zXây dng t đin
zMi mc t lưu thông tin v t, t loi, nghĩa loi
zT chc sao cho tn ít b nh và thun tin trong vic
tìm kiếm
zMã hóa t đin: T loi và nghĩa loi kiu byte được lưu
dưới dng mt ký t.
zVD: danh t -112 – p, <loi t> - 115 – s
10
Tiếp cn da trên t đin
zPhân trang theo hai ch cái đầu ca t, sp tăng. Vi mi trang,
các t li được sp theo vn ABC.
ba xe
......
Content
Paragraph
12n
11
bao
bà ngoi bài tp
xe cxe đạp
Content
1
2
n
Tìm t trong t đin
zĐộ dài ti đa ca t? 3? 4? 5?
zVn đề: không xđược các t hp t c
định, vd "ông chng bà chuc“
Đ
ttát ó t t đi
¾
Đ
ưa ra
tt
c
c
á
c
t
g
p c
ó
t
rong
t
đi
n
trùng vi phn đầu ca xâu vào
12
Tìm t trong t đin
Nếu nhà máy ngh thì ta v
V trí t: 0 1 2 3 4 5 6 7
zTa có bng sau:
z
z
zKý hiu:
z<liên t> - LT <danh t> - DT
z<động t> - ĐgT <đại t> - ĐaT
13
Phân gii nhp nhng
zLy tt c các cách phân tích, nếu phân tích
cú pháp cho ra cây đúng thì đó là cách phân
tích đúng.
14
Cách tiếp cn lai
<Phuong Le-Hong et al., A hybrid approach to word
segmentation of Vietnamese texts, Proceedings of the
2nd International Conference on Language and Automat
Theory and Applications, LATA 2008, Tarragona, Spain,
2008 >
2008
.
>
zKết hp phân tích automat hu hn + biu thc chính
quy + so khp t dài nht + thng kê (để gii quyết nhp
nhng)
15
Biu thc chính qui
zlà mt khuôn mu được so sánh vimt chui
zCác ký t đặc bit:
z* - bt c chui ký t nào, k c không có gì
zx – ít nht 1 ký t
z+-chui trong ngoc xut hin ít nht 1 ln
d
z
d
:
zEmail: x@x(.x)+
zdir *.txt
z‘*John’ -> ‘John’, ‘Ajohn’, “Decker John”
zBiu thc chính quy được s dng đặc bit nhiu trong:
* Phân tích cú pháp
* Xác nhn tính hp l ca d liu
* X lý chui
* Tách d liu và to báo cáo
16
Automat hu hn
zLp ngôn ng chính qui, được đoán nhn bi máy o,
gi tên là automat hu hn.
zAutomat hu hn đơn định (Deterministic Finite Automat a– DFA
zAutomat hu hn không đơn định (Nondeterministic Finite
Automat a
NFA)
Automat
a
NFA)
zAutomat hu hn không đơn định, chp nhn phép truyn rng
(ε-NFA)
17
Gii thiu phi hình thc v
automat hu hn
zMt bài toán trong automat là nhn din
chui w có thuc v ngôn ng L hay không.
zChui nhp được xtun t tng ký hiu
mt
ttrái sang phi
mt
t
trái
sang
phi
.
zTrong quá trình thc thi, automat cn phi
nh thông tin đã qua x lý.
18
Ví d v automat hu hn
L = {w {0, 1}* | w kết thúc bng chui con 10}.
19
Automat hu hn cho các t
tiếng Anh
20
Cách tách t đơn gin
zPhát hin các mu thông thường như tên riêng, ch viết
tt, s, ngày tháng, địa ch email, URL,… s dng biu
thc chính qui
zH
thn
g
ch
n chui âm tiết dài nht t v
trí hi
n t
i và
g
có trong t đin, chn cách tách có ít t nht
¾Hn chế: có th đưa ra cách phân tích không đúng.
¾Gii quyết: lit kê tt, có 1 chiến lược để chn cách tách
tt nht.
21
La chn cách tách t
zBiu din đon bng chui các âm tiết s1 s2… sn
zTrường hp nhp nhng thường xuyên nht là 3 t lin nhau s1s2s3
trong đó s1s2và s2s3đều là t.
zBIu din 1 đon bng đồ th có hướng tuyến tính G = (V,E), V = {v0,
v1, . . . , vn, vn+1}
zNếu các âm tiết si+1, si+2, . . . , sjto thành 1 t -> trong G có cnh
(vi,vj)
zCác cách tách t = các đường đi ngn nht t v0đến vn+1
22
Thut toán
Thut toán 1. Xây dng đồ th cho chui s1s2. . . sn
1: V
׎
;
2: for i = 0 to n + 1 do
3: V V
׫
{vi};
4: end for
5:
for
i
=0
to
n
do
5:
for
i
=
0
to
n
do
6: for j = i to n do
7: if (accept(AW, si· · · sj)) then
8: E E
׫
{(vi, vj+1)};
9: end if
10: end for
11: end for
12: return G = (V,E);
23
accept(A, s): automat A nhn xâu vào s
Phân gii nhp nhng
zXác sut xâu s:
zP(wi|w1i-1): xác sut wikhi có i-1 âm tiết trước
đó
zn = 2: bigram; n = 3: trigram
24
Phân gii nhp nhng
zKhi n = 2, tính giá tr P(wi|wi-1) ln nht maximum
likelihood (ML)
zc(s): s ln xâu s xut hin; N: tng s t trong tp luyn
zKhi d liu luyn nh hơn kích c toàn b tp d liu Æ
P ~ 0
zS dng k thut làm trơn
25
K thut làm trơn
vi λ1+ λ2= 1 và λ1, λ2 0
PML(wi) = c(wi)/N
zVi tp th nghim T = {s1,s2,…,sn}, xác sut P(T) ca tp
th
th
:
zEntropy ca văn bn:
vi NT: s t trong T
zEntropy t l nghch vi xác sut trung bình ca 1 cách tách
t cho các câu trong văn bn th nghim.
26
Xác định giá tr λ1, λ2
zT tp d liu mu, định nghĩa C(wi-1,wi) là s ln (wi-1,
wi) xut hin trong tp mu. Ta cn chn λ1 λ2để làm
cc đại giá tr
vi λ1+ λ2= 1 và λ1, λ2 0
Thut toán
28
Kết qu
zS dng tp d liu gm 1264 bài trong báo Tui tr, có 507,358 t
zLy ε= 0.03, các giá tr λhi t sau 4 vòng lp
zĐộ chính xác = s t h thng xác định đúng/tng s t h thng
xác định = 95%
29