(cid:30)(cid:132)I H¯C QU¨C GIA H(cid:128) N¸I
TR(cid:215)˝NG (cid:30)(cid:132)I H¯C C˘NG NGH(cid:155)
(cid:22)(cid:22)(cid:22)(cid:22)(cid:22)(cid:22)(cid:22)
C(cid:131)I TI(cid:152)N CH(cid:135)T L(cid:215)(cid:209)NG D(cid:192)CH M(cid:129)Y TH¨NG K(cid:150)
CHO C(cid:144)P NG˘N NG(cid:218) ANH-VI(cid:155)T
D(cid:220)A V(cid:128)O C(cid:133)Y PH(cid:133)N T(cid:157)CH C(cid:211) PH(cid:129)P PH(cid:214) THU¸C
Chuy¶n ng(cid:160)nh: Khoa h(cid:229)c m¡y t‰nh
M¢ sŁ: 62 48 01 01
T´M T(cid:141)T LU(cid:138)N (cid:129)N
TR(cid:134)N H˙NG VI(cid:155)T
H(cid:160) Nºi - 2018
C(cid:230)ng tr…nh (cid:31)(cid:247)æc ho(cid:160)n th(cid:160)nh t⁄i: Tr(cid:247)(cid:237)ng (cid:30)⁄i h(cid:229)c C(cid:230)ng ngh», (cid:30)⁄i h(cid:229)c
QuŁc Gia H(cid:160) Nºi.
Ng(cid:247)(cid:237)i h(cid:247)(cid:238)ng d¤n khoa h(cid:229)c:
1. TS.Nguy„n V«n Vinh
2. PGS.TS. Nguy„n L¶ Minh
M(cid:240) (cid:31)ƒu
1. T‰nh c§p thi‚t cıa lu“n ¡n
V§n (cid:31)• quan tr(cid:229)ng cıa d(cid:224)ch m¡y li¶n quan (cid:31)‚n vi»c l(cid:160)m th‚ n(cid:160)o (cid:31)” sinh ra thø
t(cid:252) c¡c tł (c(cid:246)m) ch‰nh x¡c trong ng(cid:230)n ngœ (cid:31)‰ch. Trong h» d(cid:224)ch m¡y thŁng k¶
d(cid:252)a tr¶n c(cid:246)m tł (PBSMT), vi»c (cid:31)£o c(cid:246)m tł v¤n cÆn (cid:31)(cid:236)n gi£n v(cid:160) ch§t l(cid:247)æng
ch(cid:247)a cao. B¶n c⁄nh (cid:31)(cid:226), do c¡c ng(cid:230)n ngœ c(cid:226) nhi•u (cid:31)(cid:176)c (cid:31)i”m kh¡c nhau d¤n t(cid:238)i
kh(cid:230)ng th” m(cid:230) h…nh h(cid:226)a ch‰nh x¡c trong qu¡ tr…nh d(cid:224)ch.
Ph(cid:247)(cid:236)ng ph¡p ti•n xß l(cid:254) v(cid:238)i c¡ch ti‚p c“n tŒ hæp c(cid:226) (cid:247)u (cid:31)i”m l(cid:160) giœ (cid:31)(cid:247)æc
(cid:31)i”m m⁄nh cıa h» thŁng d(cid:224)ch m¡y d(cid:252)a tr¶n c(cid:246)m tł, gi£m thi”u th(cid:237)i gian gi£i
m¢, c(cid:244)ng nh(cid:247) giœ (cid:31)i”m m⁄nh cıa d(cid:224)ch m¡y theo c(cid:243) ph¡p trong b(cid:160)i to¡n (cid:31)£o
tr“t t(cid:252) tł. Nhœng v§n (cid:31)• th¡ch thøc (cid:31)(cid:176)t ra:
- Mºt sŁ nghi¶n cøu (cid:31)¢ ¡p d(cid:246)ng (cid:31)£o tr“t t(cid:252) tł d(cid:252)a tr¶n c¥y c(cid:243) ph¡p ph(cid:246)
thuºc cho chi•u Anh-Vi»t. Tuy nhi¶n nhœng nghi¶n cøu n(cid:160)y chı y‚u d(cid:242)ng
c¡c lu“t b‹ng tay, ch(cid:247)a ¡p d(cid:246)ng c¡c lu“t t(cid:252) (cid:31)ºng trong b(cid:160)i to¡n d(cid:224)ch.
- (cid:157)t nghi¶n cøu sß d(cid:246)ng ti•n xß l(cid:254) d(cid:252)a v(cid:160)o c¥y c(cid:243) ph¡p ph(cid:246) thuºc, t(cid:231)n t⁄i
nhi•u h⁄n ch‚ cƒn c£i ti‚n (cid:31)” n¥ng cao ch§t l(cid:247)æng.
V(cid:238)i (cid:247)u (cid:31)i”m cıa c§u tr(cid:243)c c¥y ph¥n t‰ch ph(cid:246) thuºc trong vi»c th” hi»n quan h»
ph(cid:246) thuºc tł, tŁc (cid:31)º nhanh, ph(cid:242) hæp v(cid:238)i v§n (cid:31)• s›p x‚p l⁄i tr“t t(cid:252) tł, lu“n ¡n
t“p trung nghi¶n cøu (cid:31)• t(cid:160)i: "C£i ti‚n ch§t l(cid:247)æng d(cid:224)ch m¡y thŁng k¶ cho c(cid:176)p
ng(cid:230)n ngœ Anh-Vi»t d(cid:252)a v(cid:160)o c¥y ph¥n t‰ch c(cid:243) ph¡p ph(cid:246) thuºc(cid:17).
2. M(cid:246)c ti¶u cıa lu“n ¡n
m¡y thŁng k¶ d(cid:252)a v(cid:160)o c(cid:246)m theo h(cid:247)(cid:238)ng ti‚p c“n ti•n xß l(cid:254).
• Nghi¶n cøu c¡c ph(cid:247)(cid:236)ng ph¡p gi£i quy‚t b(cid:160)i to¡n (cid:31)£o c(cid:246)m tł trong d(cid:224)ch
d(cid:246)ng (cid:31)” c£i thi»n ch§t l(cid:247)æng d(cid:224)ch m¡y thŁng k¶.
• X¥y d(cid:252)ng, m(cid:240) rºng c¡c lu“t thı c(cid:230)ng v(cid:160) ph¡t tri”n c¡c lu“t t(cid:252) (cid:31)ºng ¡p
xu§t ph(cid:247)(cid:236)ng ph¡p m(cid:238)i, th(cid:252)c nghi»m.
3. (cid:30)(cid:226)ng g(cid:226)p cıa lu“n ¡n
• Nghi¶n cøu h» thŁng d(cid:224)ch thŁng k¶ Moses, t‰ch hæp tri thøc ng(cid:230)n ngœ, (cid:31)•
c(cid:230)ng tł vi»c l(cid:252)a ch(cid:229)n (cid:31)(cid:176)c tr(cid:247)ng v• ng(cid:230)n ngœ tr¶n c¥y c(cid:243) ph¡p ph(cid:246) thuºc.
• Nghi¶n cøu c¡c hi»n t(cid:247)æng ng(cid:230)n ngœ, (cid:31)• xu§t c¡c lu“t (cid:31)£o tr“t t(cid:252) tł thı
b(cid:160)i to¡n s›p x‚p l⁄i tr“t t(cid:252) tł. C¡c lu“t (cid:31)(cid:247)æc h(cid:229)c t(cid:252) (cid:31)ºng tł ngœ li»u.
• (cid:30)• xu§t ph(cid:247)(cid:236)ng ph¡p sß d(cid:246)ng (cid:31)a ph¥n l(cid:238)p trong h(cid:229)c m¡y (cid:31)” gi£i quy‚t
x‚p l⁄i c¥u ngu(cid:231)n theo thø t(cid:252) tł c¥u (cid:31)‰ch.
• (cid:30)• xu§t ph(cid:247)(cid:236)ng ph¡p sß d(cid:246)ng m⁄ng n(cid:236)-ron (cid:31)” gi£i quy‚t b(cid:160)i to¡n s›p
qua vi»c ¡p d(cid:246)ng c¡c lu“t s›p x‚p l⁄i tr“t t(cid:252) tł ph‰a c¥u ngu(cid:231)n.
K‚t qu£ nghi¶n cøu (cid:31)(cid:247)æc c(cid:230)ng bŁ trong 10 c(cid:230)ng tr…nh: 08 b¡o c¡o trong k(cid:27) y‚u
cıa hºi ngh(cid:224) quŁc t‚ c(cid:226) ph£n bi»n; 01 b¡o c¡o trong k(cid:27) y‚u cıa hºi th£o quŁc
gia c(cid:226) ph£n bi»n; 01 b(cid:160)i b¡o (cid:240) t⁄p ch‰ trong n(cid:247)(cid:238)c c(cid:226) ph£n bi»n.
4. BŁ c(cid:246)c cıa lu“n ¡n
• Ph¥n t‰ch £nh h(cid:247)(cid:240)ng cıa c¡c lØi ph¥n t‰ch c(cid:243) ph¡p (cid:31)‚n ch§t l(cid:247)æng d(cid:224)ch
• Ch(cid:247)(cid:236)ng 1 TŒng quan c¡c v§n (cid:31)• li¶n quan lu“n ¡n.
tł trong d(cid:224)ch m¡y thŁng k¶.
• Ch(cid:247)(cid:236)ng 2 Ph(cid:247)(cid:236)ng ph¡p d(cid:252)a v(cid:160)o lu“t thı c(cid:230)ng cho b(cid:160)i to¡n (cid:31)£o tr“t t(cid:252)
ph¥n l(cid:238)p.
• Ch(cid:247)(cid:236)ng 3 Ph(cid:247)(cid:236)ng ph¡p sß d(cid:246)ng c¡c lu“t t(cid:252) (cid:31)ºng b‹ng h(cid:229)c m¡y v(cid:238)i (cid:31)a
c£nh.
• Ch(cid:247)(cid:236)ng 4 Ph(cid:247)(cid:236)ng ph¡p sß d(cid:246)ng m⁄ng n(cid:236)-ron k‚t hæp c¡c th(cid:230)ng tin ngœ
h» thŁng thß nghi»m.
• Ch(cid:247)(cid:236)ng 5 (cid:131)nh h(cid:247)(cid:240)ng cıa c¥y ph¥n t‰ch c(cid:243) ph¡p ph(cid:246) thuºc v(cid:160) x¥y d(cid:252)ng
Ch(cid:247)(cid:236)ng 1
TŒng quan c¡c v§n (cid:31)• li¶n quan
lu“n ¡n
Ch(cid:247)(cid:236)ng n(cid:160)y tr…nh b(cid:160)y tŒng quan v• c¡c v§n (cid:31)• nghi¶n cøu trong lu“n ¡n,
bao g(cid:231)m: d(cid:224)ch m¡y (Machine Translation - MT), d(cid:224)ch m¡y thŁng k¶ (Statistical
Machine Translation - SMT), m(cid:230) h…nh d(cid:224)ch m¡y d(cid:252)a tr¶n c(cid:246)m tł, ph¥n t‰ch
c(cid:243) ph¡p, c(cid:243) ph¡p ph(cid:246) thuºc, c¡c nghi¶n cøu li¶n quan, (cid:31)(cid:247)a ra v§n (cid:31)• cÆn t(cid:231)n
t⁄i m(cid:160) lu“n ¡n s‡ t“p trung gi£i quy‚t.
1.1 L(cid:224)ch sß d(cid:224)ch m¡y
D(cid:224)ch l(cid:160) mºt qu¡ tr…nh chuy”n ngh(cid:190)a cıa c¡c tł hay v«n b£n sang ng(cid:230)n ngœ
kh¡c, li¶n quan (cid:31)‚n vi»c gi£i m¢ ngh(cid:190)a cıa ng(cid:230)n ngœ ngu(cid:231)n v(cid:160) sau (cid:31)(cid:226) m¢ h(cid:226)a
l⁄i theo ngh(cid:190)a v(cid:160)o ng(cid:230)n ngœ (cid:31)‰ch. Qu¡ tr…nh (cid:31)Æi h(cid:228)i ki‚n thøc (cid:31)ƒy (cid:31)ı v• ng(cid:230)n
ngœ bao g(cid:231)m: h…nh th¡i h(cid:229)c, c(cid:243) ph¡p, ngœ ngh(cid:190)a...
1
(a) Th¡p chuy”n (cid:31)Œi th” hi»n qu¡ tr…nh d(cid:224)ch
(b) Th¡p chuy”n (cid:31)Œi th” hi»n c¡c ki”u ph¥n
theo c¡c ph(cid:247)(cid:236)ng ph¡p kh¡c nhau
t‰ch trong s(cid:236) (cid:31)(cid:231) h…nh th¡p
H…nh 1.1: S(cid:236) (cid:31)(cid:231) h…nh th¡p th” hi»n c¡c h» thŁng d(cid:224)ch m¡y kh¡c nhau.
1.2 TŒng quan v• d(cid:224)ch m¡y
1.3 D(cid:224)ch m¡y thŁng k¶
D(cid:224)ch m¡y thŁng k¶ (SMT) l(cid:160) mºt ph(cid:247)(cid:236)ng ph¡p ti‚p c“n cıa d(cid:224)ch m¡y d(cid:252)a
tr¶n ph¥n t‰ch thŁng k¶ t“p dœ li»u c¡c c(cid:176)p c¥u tł hai ng(cid:230)n ngœ, ngœ li»u song
ngœ.
H…nh 1.2: Ki‚n tr(cid:243)c c(cid:236) b£n cıa h» thŁng d(cid:224)ch m¡y thŁng k¶
2
1.4 D(cid:224)ch m¡y m⁄ng n(cid:236)-ron
H…nh 1.3: H» thŁng d(cid:224)ch m¡y d(cid:252)a tr¶n m⁄ng n(cid:236)-ron
1.5 Ph¥n t‰ch c(cid:243) ph¡p ph(cid:246) thuºc
1.6 V§n (cid:31)• (cid:31)£o tr“t t(cid:252) tł trong d(cid:224)ch m¡y
1.6.1 S(cid:252) kh¡c nhau v• thø t(cid:252) tł giœa c¡c ng(cid:230)n ngœ
1.6.2 B(cid:160)i to¡n s›p x‚p l⁄i tr“t t(cid:252) tł
B(cid:160)i to¡n d(cid:224)ch m¡y thŁng k¶ g(cid:231)m hai b(cid:160)i to¡n con: (cid:31)o¡n (cid:31)(cid:224)nh t“p hæp tł
trong b£n d(cid:224)ch v(cid:160) x¡c (cid:31)(cid:224)nh thø t(cid:252) cıa c¡c tł d(cid:224)ch (b(cid:160)i to¡n s›p x‚p l⁄i).
1.7 M(cid:230) h…nh d(cid:224)ch m¡y d(cid:252)a tr¶n c(cid:246)m tł
Ki‚n tr(cid:243)c cıa m(cid:230) h…nh d(cid:224)ch d(cid:252)a tr¶n c(cid:246)m tł trong h…nh 1.4
3
H…nh 1.4: Ki‚n tr(cid:243)c cıa m(cid:230) h…nh d(cid:224)ch d(cid:252)a tr¶n c(cid:246)m tł
1.8 C¡c nghi¶n cøu li¶n quan
1.8.1 Sß d(cid:246)ng c¡c lu“t thı c(cid:230)ng cho v§n (cid:31)• ti•n xß l(cid:254)
1.8.2 Sß d(cid:246)ng c¡c lu“t t(cid:252) (cid:31)ºng cho v§n (cid:31)• ti•n xß l(cid:254)
1.9 K‚t lu“n ch(cid:247)(cid:236)ng
4
Ch(cid:247)(cid:236)ng 2
Ph(cid:247)(cid:236)ng ph¡p d(cid:252)a v(cid:160)o lu“t thı
c(cid:230)ng cho b(cid:160)i to¡n (cid:31)£o tr“t t(cid:252) tł
trong d(cid:224)ch m¡y thŁng k¶
Tr…nh b(cid:160)y c¡ch gi£i quy‚t v§n (cid:31)• s›p x‚p l⁄i tr“t t(cid:252) tł ((cid:31)£o tr“t t(cid:252) tł) d(cid:252)a
tr¶n ti•n xß l(cid:254) cho b(cid:160)i to¡n d(cid:224)ch v(cid:238)i kho ngœ li»u song ngœ Anh (cid:21) Vi»t. Tł
ph¥n t‰ch c¡c th(cid:230)ng tin tr¶n c¥y c(cid:243) ph¡p ph(cid:246) thuºc v(cid:160) c¡c hi»n t(cid:247)æng ng(cid:230)n
ngœ, sß d(cid:246)ng c¡c lu“t thı c(cid:230)ng (cid:31)” gi£i quy‚t v§n (cid:31)• (cid:31)£o tr“t t(cid:252) tł nh(cid:247) b(cid:247)(cid:238)c
ti•n xß l(cid:254) h» thŁng d(cid:224)ch m¡y.
2.1 V§n (cid:31)• (cid:31)£o tr“t t(cid:252) tł trong d(cid:224)ch m¡y
Vi»c (cid:31)£o tr“t tł tł d(cid:252)a v(cid:160)o c¥y ph¥n t‰ch ph(cid:246) thuºc v(cid:160) ¡p d(cid:246)ng c¡c lu“t
s›p x‚p l⁄i (cid:31)” ti‚n h(cid:160)nh thay (cid:31)Œi thø t(cid:252) c¡c tł.
5
2.2 C¡c nghi¶n cøu li¶n quan
2.3 D(cid:224)ch m¡y thŁng k¶ d(cid:252)a tr¶n c(cid:246)m tł
Th(cid:252)c hi»n d(cid:224)ch c¥u ngu(cid:231)n sang c¥u (cid:31)‰ch b‹ng c¡ch chia c¥u ngu(cid:231)n th(cid:160)nh
c¡c chuØi c(cid:246)m tł, mØi c(cid:246)m (cid:31)(cid:247)æc d(cid:224)ch sang ng(cid:230)n ngœ (cid:31)‰ch. Bi”u di„n cıa qu¡
tr…nh qua c(cid:230)ng thøc:
n (cid:88)
(2.3.1)
t,a
i=1
ˆt = argmax λifj(s, t, a)
2.4 Ti•n xß l(cid:254) c(cid:243) ph¡p ph(cid:246) thuºc cho d(cid:224)ch m¡y
thŁng k¶
2.4.1 Ph¥n t‰ch hi»n t(cid:247)æng ng(cid:230)n ngœ v(cid:160) v§n (cid:31)• s›p x‚p l⁄i
T“p trung v(cid:160)o vi»c ph¥n t‰ch c¡c c§u tr(cid:243)c th(cid:230)ng d(cid:246)ng nh§t cıa ti‚ng Anh
khi d(cid:224)ch sang ti‚ng Vi»t nh(cid:247) trong h…nh 2.2 v(cid:160) h…nh 2.3.
H…nh 2.1: V‰ d(cid:246) v• ti•n xß l(cid:254) cho d(cid:224)ch Anh-Vi»t.
6
H…nh 2.2: V‰ d(cid:246) v• hi»n t(cid:247)æng ng(cid:230)n ngœ trong c(cid:246)m danh tł v(cid:238)i amod v(cid:160) det. Trong
v‰ d(cid:246) n(cid:160)y, danh tł (cid:16)computer(cid:17) (cid:31)(cid:247)æc (cid:31)£o v(cid:238)i t‰nh tł (cid:16)personal(cid:17)
2.4.2 Lu“t chuy”n (cid:31)Œi tr“t t(cid:252) tł
(cid:129)nh x⁄: T → (L, W, O)
H…nh 2.3: V‰ d(cid:246) v• hi»n t(cid:247)æng ng(cid:230)n ngœ trong c(cid:246)m t‰nh tł v(cid:238)i advmod v(cid:160) det
• T l(cid:160) tł lo⁄i cıa tł ch‰nh (n(cid:243)t cha) trong c(cid:246)m tr¶n c¥y c(cid:243) ph¡p ph(cid:246) thuºc.
• L l(cid:160) nh¢n ph(cid:246) thuºc (hay quan h» ph(cid:246) thuºc) cıa c¡c n(cid:243)t con.
• W l(cid:160) tr(cid:229)ng sŁ (cid:31)” x¡c (cid:31)(cid:224)nh thø t(cid:252) cıa n(cid:243)t con.
• O l(cid:160) d⁄ng (cid:31)£o (Normal: kh(cid:230)ng (cid:31)£o, Reverse: (cid:31)£o).
7
H…nh 2.4: C¡c lu“t b‹ng tay cho vi»c s›p x‚p l⁄i tł ti‚ng Anh sang ti‚ng Vi»t sß d(cid:246)ng
2.4.3 T“p c¡c lu“t (cid:31)£o tr“t t(cid:252) tł thı c(cid:230)ng
ti•n xß l(cid:254) c(cid:243) ph¡p ph(cid:246) thuºc.
2.5 Th(cid:252)c nghi»m v• sß d(cid:246)ng c¡c lu“t thı c(cid:230)ng d(cid:252)a
tr¶n ti•n xß l(cid:254) trong d(cid:224)ch m¡y
2.5.1 T“p dœ li»u v(cid:160) c(cid:160)i (cid:31)(cid:176)t th(cid:252)c nghi»m
2.5.2 K‚t qu£ th(cid:252)c nghi»m
2.6 K‚t lu“n ch(cid:247)(cid:236)ng
Sß d(cid:246)ng c¡c lu“t thı c(cid:230)ng (cid:31)” gi£i quy‚t v§n (cid:31)• (cid:31)£o tr“t t(cid:252) tł. (cid:129)p d(cid:246)ng
ph(cid:247)(cid:236)ng ph¡p ti•n xß l(cid:254) (cid:31)em l⁄i c¥n b‹ng giœa tŁc (cid:31)º, th(cid:237)i gian th(cid:252)c hi»n v(cid:160)
(cid:31)º ch‰nh x¡c trong qu¡ tr…nh gi£i m¢, n¥ng cao ch§t l(cid:247)æng d(cid:224)ch.
8
H…nh 2.5: Mºt kh£o s¡t v• v(cid:224) tr‰ tł lo⁄i v(cid:160) c¡c nh¢n trong vi»c s›p x‚p l⁄i thø t(cid:252) tł
H» thŁng BLEU(%) M(cid:230) t£
System I
26.95
(cid:129)p d(cid:246)ng c¡c lu“t v(cid:238)i nh(cid:226)m danh tł
System II
26.71
(cid:129)p d(cid:246)ng c¡c lu“t v(cid:238)i nh(cid:226)m (cid:31)ºng tł
System III
27.15
(cid:129)p d(cid:246)ng c¡c lu“t v(cid:238)i nh(cid:226)m t‰nh tł v(cid:160) gi(cid:238)i tł
System IV
27.26
(cid:129)p d(cid:246)ng c¡c lu“t thı c(cid:230)ng v(cid:238)i to(cid:160)n bº c¡c nh(cid:226)m
Baseline
26.52
H» thŁng d(cid:224)ch tr¶n c(cid:246)m tł trong c(cid:230)ng c(cid:246) Moses
B£ng 2.1: Th(cid:252)c nghi»m sß d(cid:246)ng c¡c lu“t thı c(cid:230)ng cho kho ngœ li»u song ngœ Anh-Vi»t
9
Ch(cid:247)(cid:236)ng 3
Ph(cid:247)(cid:236)ng ph¡p sß d(cid:246)ng c¡c lu“t t(cid:252)
(cid:31)ºng b‹ng h(cid:229)c m¡y v(cid:238)i (cid:31)a ph¥n l(cid:238)p
Trong ch(cid:247)(cid:236)ng n(cid:160)y, tr…nh b(cid:160)y c¡ch gi£i quy‚t b(cid:160)i to¡n (cid:31)£o tr“t t(cid:252) tł nh(cid:247)
b(cid:247)(cid:238)c ti•n xß l(cid:254) cho b(cid:160)i to¡n d(cid:224)ch b‹ng c¡ch m(cid:230) h…nh h(cid:226)a b(cid:160)i to¡n (cid:31)£o tr“t t(cid:252)
tł v(cid:238)i c¡c ph¥n l(cid:238)p quan h» thø t(cid:252) (v§n (cid:31)• ti•n xß l(cid:254) d(cid:252)a tr¶n ph¥n l(cid:238)p): c¡c
lu“t (cid:31)£o tr“t t(cid:252) tł (cid:31)(cid:247)æc sinh t(cid:252) (cid:31)ºng tł dœ li»u, (cid:31)(cid:247)æc n†n th(cid:230)ng tin tri thøc,
c¡c (cid:31)(cid:176)c tr(cid:247)ng ng(cid:230)n ngœ v(cid:160)o m(cid:230) h…nh h(cid:229)c m¡y.
3.1 Ti•n xß l(cid:254) d(cid:252)a tr¶n ph¥n l(cid:238)p cho d(cid:224)ch m¡y d(cid:252)a
theo c(cid:246)m
Tł nhœng (cid:247)u (cid:31)i”m cıa h(cid:229)c m¡y, ch(cid:243)ng t(cid:230)i (cid:31)• xu§t sß d(cid:246)ng k(cid:255) thu“t h(cid:229)c
m¡y trong vi»c gi£i quy‚t v§n (cid:31)• (cid:31)£o tr“t t(cid:252) tł v(cid:160) ¡p d(cid:246)ng nh(cid:247) qu¡ tr…nh ti•n
xß l(cid:254) cho h» thŁng d(cid:224)ch m¡y.
3.1.1 V§n (cid:31)• ti•n xß l(cid:254) d(cid:252)a tr¶n ph¥n l(cid:238)p
X¥y d(cid:252)ng m(cid:230) h…nh h(cid:229)c m¡y c(cid:226) th” t(cid:252) (cid:31)ºng thay (cid:31)Œi thø t(cid:252) c¡c tł trong
c¥u ng(cid:230)n ngœ ngu(cid:231)n sang thø t(cid:252) t(cid:247)(cid:236)ng øng v(cid:238)i c¥u ng(cid:230)n ngœ (cid:31)‰ch.
10
3.1.2 (cid:30)(cid:176)c tr(cid:247)ng
3.1.3 M(cid:230) h…nh ph¥n l(cid:238)p
-Thu“t to¡n 2.1 : Tr‰ch xu§t t(cid:252) (cid:31)ºng c¡c lu“t v(cid:238)i (cid:31)ƒu v(cid:160)o bao g(cid:231)m c¡c c¥y
ph(cid:246) thuºc cıa c¡c c¥u ngu(cid:231)n v(cid:160) c(cid:176)p gi(cid:226)ng h(cid:160)ng tł.
-Thu“t to¡n 2.2 : Ti‚n h(cid:160)nh b‹ng c¡ch x†t t§t c£ c¡c lu“t sau khi ho(cid:160)n th(cid:160)nh
theo thu“t to¡n 1 v(cid:160) c¡c c¥y ph(cid:246) thuºc ph‰a ngu(cid:231)n (cid:31)” sinh c¥u m(cid:238)i.
H…nh 3.1: V‰ d(cid:246) v• ti•n xß l(cid:254) cho ngœ li»u song ngœ Anh-Vi»t.
H…nh 3.2: ThŁng k¶ v• quan h» giœa n(cid:243)t cha v(cid:238)i n(cid:243)t con tr¶n ngœ li»u song ngœ.
11
3.2 Th(cid:252)c nghi»m v• ph(cid:247)(cid:236)ng ph¡p sß d(cid:246)ng ph¥n
l(cid:238)p cho vi»c ti•n xß l(cid:254) trong d(cid:224)ch m¡y
3.2.1 T“p dœ li»u v(cid:160) c(cid:160)i (cid:31)(cid:176)t th(cid:252)c nghi»m
3.2.2 K‚t qu£ th(cid:252)c nghi»m
H…nh 3.3: ThŁng k¶ v• quan h» giœa n(cid:243)t cha v(cid:238)i hai n(cid:243)t con tr¶n ngœ li»u song ngœ.
H» thŁng
BLEU (%)
Baseline
26.52
Manual Rules
27.26
Auto Rules
27.09
Auto Rules + Manual Rules
27.34
B£ng 3.1: Hi»u n«ng cho t¡c v(cid:246) d(cid:224)ch Anh- Vi»t
3.3 K‚t lu“n ch(cid:247)(cid:236)ng
12
Ch(cid:247)(cid:236)ng 4
Ph(cid:247)(cid:236)ng ph¡p sß d(cid:246)ng m⁄ng n(cid:236)-ron
k‚t hæp c¡c th(cid:230)ng tin ngœ c£nh
Trong ch(cid:247)(cid:236)ng n(cid:160)y, tr…nh b(cid:160)y nºi dung, k‚t qu£ nghi¶n cøu v• ti•n xß l(cid:254)
c(cid:243) ph¡p ph(cid:246) thuºc cho b(cid:160)i to¡n d(cid:224)ch m¡y thŁng k¶ Anh-Vi»t sß d(cid:246)ng ph(cid:247)(cid:236)ng
ph¡p h(cid:229)c m¡y trong (cid:31)(cid:226) m⁄ng n(cid:236)-ron d(cid:242)ng c¡c th(cid:230)ng tin ngœ c£nh tł word
embedding.
4.1 M(cid:230) h…nh (cid:31)£o d(cid:252)a tr¶n m⁄ng n(cid:236)-ron sß d(cid:246)ng
c¥y c(cid:243) ph¡p ph(cid:246) thuºc cho d(cid:224)ch m¡y thŁng k¶
H…nh 4.1 m(cid:230) t£ ki‚n tr(cid:243)c v(cid:160) c¡c dœ li»u hu§n luy»n, tr‰ch xu§t (cid:31)(cid:176)c tr(cid:247)ng
trong m(cid:230) h…nh.
4.1.1 (cid:30)(cid:176)c tr(cid:247)ng cho ph¥n l(cid:238)p v(cid:160) hu§n luy»n m(cid:230) h…nh
Ph¥n l(cid:238)p head-child
Ph¥n l(cid:238)p sibling
C¡c (cid:31)(cid:176)c tr(cid:247)ng cho hai ph¥n l(cid:238)p nh(cid:247) trong h…nh 4.2 v(cid:160) h…nh 4.3.
L(cid:238)p truy•n thflng
13
MØi (cid:31)(cid:176)c tr(cid:247)ng (cid:31)(cid:247)æc ¡nh x⁄ b(cid:240)i vi»c tham chi‚u b£ng v(cid:238)i bi”u di„n v†c t(cid:236)
v(cid:160) c¡c v†c t(cid:236) k‚t qu£ (cid:31)(cid:247)æc nŁi v(cid:160) (cid:31)(cid:247)a v(cid:160)o mØi chuØi c¡c l(cid:238)p 'n (c¡c ma tr“n
tr(cid:229)ng sŁ) d(cid:242)ng h(cid:160)m k‰ch ho⁄t sigmoid:
(4.1.1)
σ(z) = 1 1 + e−x
H…nh 4.1: M(cid:230) h…nh (cid:31)£o cho d(cid:224)ch m¡y thŁng k¶ Anh-Vi»t sß d(cid:246)ng m⁄ng n(cid:236)-ron v(cid:238)i c¥y
ph¥n t‰ch ph(cid:246) thuºc: (a) Ki‚n tr(cid:243)c ph¥n l(cid:238)p m⁄ng n(cid:236)-ron (b) Mºt gi(cid:226)ng h(cid:160)ng c¥u tł
ngœ li»u song ngœ Anh-Vi»t v(cid:238)i c¡c dœ li»u hu§n luy»n v(cid:160) (cid:31)(cid:176)c tr(cid:247)ng (cid:31)(cid:247)æc tr‰ch xu§t
L(cid:238)p 'n (cid:31)¢ cho chuy”n (cid:31)Œi v(cid:238)i v†c t(cid:236) embedding x, v†c t(cid:236) tr(cid:229)ng sŁ W v(cid:160) mºt
gi¡ tr(cid:224) bias b, (cid:31)ƒu ra d(cid:252) (cid:31)o¡n δ x¡c (cid:31)(cid:224)nh b(cid:240)i:
cho: (c) ph¥n l(cid:238)p cha-con v(cid:160) (d) ph¥n l(cid:238)p anh-em.
(4.1.2)
z = W.x + b
(4.1.3)
Hu§n luy»n m⁄ng n(cid:236)-ron
T (cid:88)
δ = tanh(z )
(4.1.4)
i=1
L = − yi log ˆyi + (1 − yi) log (1 − ˆyi) 1 T
14
H…nh 4.2: C¡c (cid:31)(cid:176)c tr(cid:247)ng cho quan h» head-chlid trong m(cid:230) h…nh ph¥n l(cid:238)p
4.1.2 Khung l(cid:160)m vi»c cho (cid:31)£o tr“t t(cid:252) tł
Khung l(cid:160)m vi»c m(cid:230) t£ trong h…nh 4.4. Ch(cid:243)ng t(cid:230)i ¡p d(cid:246)ng thu“t to¡n 4.1
(X¥y d(cid:252)ng m(cid:230) h…nh hu§n luy»n) v(cid:160) thu“t to¡n 4.2 (S›p x‚p l⁄i) trong khung
l(cid:160)m vi»c cıa ch(cid:243)ng t(cid:230)i.
H…nh 4.3: C¡c (cid:31)(cid:176)c tr(cid:247)ng cho quan h» sibling trong m(cid:230) h…nh ph¥n l(cid:238)p
15
H…nh 4.4: Khung l(cid:160)m vi»c cho qu¡ tr…nh ti•n xß l(cid:254) c¥u ngu(cid:231)n tł dœ li»u song ngœ
Anh-Vi»t.
4.2 Th(cid:252)c nghi»m v• ph(cid:247)(cid:236)ng ph¡p sß d(cid:246)ng m⁄ng
n(cid:236)-ron k‚t hæp th(cid:230)ng tin ngœ c£nh
4.2.1 T“p dœ li»u v(cid:160) c(cid:160)i (cid:31)(cid:176)t th(cid:252)c nghi»m
4.2.2 (cid:30)i”m BLEU
4.3 Ph¥n t‰ch v(cid:160) th£o lu“n
4.4 K‚t lu“n ch(cid:247)(cid:236)ng
16
Corpus
Sentence pairs Training Set Development Set Test Set
General
133403
131019
1304
1080
Vietnamese
English
Training
Sentences
131019
Average Length
18.91
17.98
Word
2481762
2360727
Vocabulary
39071
54086
Development
Sentences
1304
Average Length
22.73
21.41
Word
9092
8567
Vocabulary
1537
1920
Test
Sentences
1080
Average Length
22.70
21.42
Word
22707
21428
Vocabulary
2882
3816
B£ng 4.1: ThŁng k¶ ngœ li»u
H» thŁng
BLEU (%)
Baseline
26.5
Manual Rules
27.12
Auto Rules
27.07
DPNN Classifier
27.16
B£ng 4.2: Hi»u n«ng cho t¡c v(cid:246) d(cid:224)ch Anh- Vi»t
17
Ch(cid:247)(cid:236)ng 5
(cid:131)nh h(cid:247)(cid:240)ng cıa c¥y ph¥n t‰ch c(cid:243)
ph¡p ph(cid:246) thuºc v(cid:160) x¥y d(cid:252)ng h»
thŁng thß nghi»m
Trong ch(cid:247)(cid:236)ng n(cid:160)y, th(cid:252)c hi»n ph¥n t‰ch so s¡nh (cid:31)” quan s¡t hi»u qu£ cıa
c¡c lØi ph¥n t‰ch c(cid:243) ph¡p kh¡c nhau (cid:31)Łi v(cid:238)i vi»c s›p x‚p l⁄i b‹ng c¡ch k‚t hæp
c¡c ph(cid:247)(cid:236)ng ph¡p th(cid:252)c nghi»m v(cid:160) m(cid:230) t£.
5.1 Ph¥n t‰ch c(cid:243) ph¡p ph(cid:246) thuºc
Theo quy (cid:247)(cid:238)c phŒ bi‚n trong c¡c t(cid:160)i li»u v• c(cid:243) ph¡p ph(cid:246) thuºc th… m(cid:246)c tł
n‹m (cid:240) gŁc cıa m(cid:244)i t¶n l(cid:160) tł ch‰nh (cid:21) g(cid:229)i l(cid:160) head, m(cid:246)c tł n‹m (cid:240) (cid:31)ƒu m(cid:244)i t¶n l(cid:160)
tł ph(cid:246) - g(cid:229)i l(cid:160) dependent.
H…nh 5.1: Bi”u di„n (cid:31)(cid:231) th(cid:224) c¥y ph¥n t‰ch ph(cid:246) thuºc v(cid:238)i c¡c nh¢n quan h».
18
5.1.1 B(cid:160)i to¡n ph¥n t‰ch c(cid:243) ph¡p ph(cid:246) thuºc
B(cid:160)i to¡n tŒng qu¡t: Cho mºt c¥u, ph¥n t‰ch c(cid:243) ph¡p (cid:31)(cid:247)a ra m(cid:230) t£ v•
quan h» v(cid:160) vai trÆ ngœ ph¡p cıa c¡c tł, c(cid:246)m tł v(cid:160) h…nh th¡i cıa c¥u (cid:31)(cid:226).
5.1.2 (cid:30)(cid:224)nh d⁄ng dœ li»u theo chu'n CoNLL
5.1.3 Sß d(cid:246)ng t“p nh¢n cho c(cid:243) ph¡p ph(cid:246) thuºc
H…nh 5.2: M(cid:230) h…nh b(cid:160)i to¡n tŒng qu¡t v• ph¥n t‰ch c(cid:243) ph¡p ph(cid:246) thuºc
5.2 (cid:131)nh h(cid:247)(cid:240)ng cıa lØi ph¥n t‰ch c(cid:243) ph¡p ph(cid:246) thuºc
t(cid:238)i ch§t l(cid:247)æng d(cid:224)ch m¡y
5.2.1 Ph(cid:247)(cid:236)ng ph¡p ph¥n t‰ch lØi
- (cid:30)o s(cid:252) t(cid:247)(cid:236)ng t(cid:252) tł mŁc chu'n v(cid:160) c¥u (cid:31)(cid:247)æc s›p x‚p l⁄i d(cid:252)a tr¶n Gold-Tree,
c(cid:244)ng nh(cid:247) giœa mŁc chu'n v(cid:160) c¥u (cid:31)(cid:247)æc s›p x‚p l⁄i d(cid:252)a tr¶n tłng c¥y c(cid:243) ph¡p.
- X¡c (cid:31)(cid:224)nh møc (cid:31)º lØi ph¥n t‰ch c(cid:243) ph¡p £nh h(cid:247)(cid:240)ng (cid:31)‚n s›p x‚p l⁄i.
5.2.2 (cid:30)¡nh gi¡
Sß d(cid:246)ng (cid:31)º (cid:31)o Kendall’s tau (τ ) x‚p h⁄ng (cid:31)º t(cid:247)(cid:236)ng quan (cid:31)” (cid:31)o (cid:31)º t(cid:247)(cid:236)ng
t(cid:252) thø t(cid:252) tł trong c¡c c(cid:176)p c¥u g(cid:231)m dœ li»u chu'n v(cid:160) dœ li»u (cid:31)(cid:247)æc s›p x‚p l⁄i.
(5.2.1)
τ = × 2 − 1 #of concordant pairs #of all pairs
19
H…nh 5.3: M(cid:230) t£ ph(cid:247)(cid:236)ng ph¡p ph¥n t‰ch lØi.
H…nh 5.4: V‰ d(cid:246) v• lØi do x¡c (cid:31)(cid:224)nh sai lo⁄i ph(cid:246) thuºc n(cid:243)t gŁc khi so s¡nh dœ li»u
thŁng k¶ giœa c¥y (cid:31)(cid:247)æc sinh ra v(cid:238)i c¥y (cid:31)(cid:247)æc sinh tł dœ li»u chu'n.
H…nh 5.5: V‰ d(cid:246) v• lØi tł lo⁄i khi so s¡nh dœ li»u thŁng k¶ giœa c¥y (cid:31)(cid:247)æc sinh ra v(cid:238)i
c¥y (cid:31)(cid:247)æc sinh tł dœ li»u chu'n.
20
(a)
(b)
5.2.3 Ph¥n t‰ch nguy¶n nh¥n g¥y lØi (cid:31)£o tr“t t(cid:252) tł
• LØi ph(cid:246) thuºc: tł lo⁄i kh(cid:230)ng ph£i l(cid:160) mºt ph(cid:246) thuºc (cid:31)ºc l“p v(cid:238)i n(cid:243)t cha.
• LØi n(cid:243)t cha: tł lo⁄i sai khi (cid:31)(cid:247)æc nh“n bi‚t nh(cid:247) n(cid:243)t cha.
5.3 K‚t lu“n ch(cid:247)(cid:236)ng
21
K‚t lu“n
S›p x‚p l⁄i tr“t t(cid:252) tł trong b(cid:247)(cid:238)c ti•n xß l(cid:254) nh(cid:247) mºt ph(cid:247)(cid:236)ng ph¡p bŒ sung c(cid:226)
hi»u qu£ (cid:31)Łi v(cid:238)i c¡c h» thŁng d(cid:224)ch m¡y truy•n thŁng, (cid:31)(cid:226)ng vai trÆ quan tr(cid:229)ng trong
b£n d(cid:224)ch.
1. T(cid:226)m l(cid:247)æc c¡c k‚t qu£ v(cid:160) (cid:31)(cid:226)ng g(cid:226)p cıa lu“n ¡n
C¡c k‚t qu£ v(cid:160) (cid:31)(cid:226)ng g(cid:226)p bao g(cid:231)m:
• (cid:30)• xu§t c¡c lu“t (cid:31)£o tr“t t(cid:252) tł thı c(cid:230)ng b‹ng vi»c l(cid:252)a ch(cid:229)n c¡c (cid:31)(cid:176)c tr(cid:247)ng v•
ng(cid:230)n ngœ tr¶n c¥y ph¥n t‰ch c(cid:243) ph¡p ph(cid:246) thuºc.
• Ch(cid:243)ng t(cid:230)i (cid:31)• xu§t lu“t (cid:31)£o tr“t t(cid:252) tł t(cid:252) (cid:31)ºng. V(cid:238)i hai (cid:31)• xu§t g(cid:231)m:
(cid:21) Khai th¡c c¡c (cid:31)(cid:176)c tr(cid:247)ng v• ng(cid:230)n ngœ v(cid:160) (cid:31)• xu§t ph(cid:247)(cid:236)ng ph¡p sß d(cid:246)ng (cid:31)a
ph¥n l(cid:238)p trong k(cid:255) thu“t h(cid:229)c m¡y (cid:31)” gi£i quy‚t b(cid:160)i to¡n (cid:31)£o tr“t t(cid:252) tł nh(cid:247)
vi»c (cid:31)o¡n nh“n thø t(cid:252) (cid:31)(cid:243)ng cıa ng(cid:230)n ngœ cıa c¥u (cid:31)ƒu v(cid:160)o t(cid:247)(cid:236)ng øng v(cid:238)i
thø t(cid:252) trong ng(cid:230)n ngœ (cid:31)‰ch.
(cid:21) (cid:30)• xu§t ph(cid:247)(cid:236)ng ph¡p sß d(cid:246)ng m⁄ng n(cid:236)-ron (cid:31)” gi£i quy‚t b(cid:160)i to¡n s›p x‚p
l⁄i c¥u ngu(cid:231)n theo thø t(cid:252) tł c¥u (cid:31)‰ch tr(cid:247)(cid:238)c khi (cid:31)(cid:247)a v(cid:160)o h» d(cid:224)ch (cid:31)” n¥ng
cao ch§t l(cid:247)æng b£n d(cid:224)ch.
• (cid:30)• xu§t ph¥n t‰ch £nh h(cid:247)(cid:240)ng cıa c¡c lØi ph¥n t‰ch c(cid:243) ph¡p (cid:31)‚n ch§t l(cid:247)æng d(cid:224)ch
qua vi»c ¡p d(cid:246)ng c¡c lu“t s›p x‚p l⁄i tr“t t(cid:252) tł ph‰a c¥u ngu(cid:231)n.
2. H⁄n ch‚ v(cid:160) h(cid:247)(cid:238)ng ph¡t tri”n cıa lu“n ¡n
M(cid:240) rºng nghi¶n cøu cıa ch(cid:243)ng t(cid:230)i (cid:31)‚n c¡c c(cid:176)p ng(cid:230)n ngœ ho(cid:176)c tłng ng(cid:230)n ngœ kh¡c.
Thß nghi»m ph(cid:247)(cid:236)ng ph¡p h(cid:229)c t(cid:252) (cid:31)ºng v(cid:238)i kho ngœ li»u l(cid:238)n, c(cid:226) (cid:31)º phı tŁt (cid:31)” c(cid:226) th”
x¥y d(cid:252)ng c¡c lu“t b‹ng tay c(cid:226) ch§t l(cid:247)æng tŁt c(cid:244)ng nh(cid:247) h(cid:229)c t(cid:252) (cid:31)ºng (cid:31)” c(cid:226) c¡c lu“t
s›p x‚p l⁄i tr“t t(cid:252) tł tŁt h(cid:236)n. Ngo(cid:160)i ra ch(cid:243)ng t(cid:230)i s‡ ti‚n h(cid:160)nh sß d(cid:246)ng c¡ch ti‚p c“n
t‰ch hæp v(cid:160)o h» d(cid:224)ch m¡y m⁄ng n(cid:236)-ron (cid:31)” c(cid:226) th” x¥y d(cid:252)ng h» thŁng d(cid:224)ch tŁt cho c£
hai chi•u d(cid:224)ch Anh-Vi»t, Vi»t-Anh.
22
Danh m(cid:246)c c(cid:230)ng tr…nh khoa h(cid:229)c cıa
t¡c gi£ li¶n quan (cid:31)‚n lu“n ¡n
[1] Viet Hong Tran, Huyen Vu Thuong, Vinh Van Nguyen and Minh Le Nguyen,
"Dependency-based Pre-ordering For English-Vietnamese Statistical Machine
Translation", In VNU Journal of Science: Computer Science and Communication
Engineering, 2017, pages 175-179.
[2] Viet Hong Tran, Quan Hoang Nguyen and Vinh Van Nguyen "A Neural Net-
work Classifier Based on Dependency Tree English-Vietnamese Statistical Ma-
chine Translation", In Proceedings of the 19th International Conference on
Intelligent Text Processing and Computational Linguistics, 2018. Available:
http://site.cicling.org/2018/accepted.html
[3] Viet Hong Tran, Huyen Vu Thuong, Vinh Van Nguyen and Minh Le Nguyen,
"A Classifier-based Preordering Approach for English-Vietnamese Statistical Ma-
chine Translation", In Proceedings of the 17th International Conference on In-
telligent Text Processing and Computational Linguistics.
[4] Viet Hong Tran, Huyen Vu Thuong, Vinh Van Nguyen and Minh Le Nguyen,
"A Reordering Model For Vietnamese-English Statistical Machine Translation
Using Dependency Information", In Computing and Communication Technolo-
gies, Research, Innovation, and Vision for the Future (RIVF), 2016 IEEE RIVF
International Conference on, pages 175-179.
[5] Viet Hong Tran, Vinh Van Nguyen and Minh Le Nguyen, "Improving English-
Vietnamese Statistical Machine Translation Using Pre-processing Dependency
23
Syntactic", In Proceedings of the Pacific Association for Computational Linguis-
tics 2015, pages 115-121.
[6] Viet Hong Tran, Huyen Vu Thuong, Vinh Nguyen Van and Trung Le Tien, "The
English-Vietnamese Machine Translation System for IWSLT 2015", In Proceed-
ing of the 12th International Workshop on Spoken Language Translation, 2015,
pages 80-84. Available: http://workshop2015.iwslt.org.
[7] Viet Hong Tran, Anh Tuan Pham, Vinh Van Nguyen, Hoai Xuan Nguyen, Huy
Quang Nguyen, "Parameter Learning for Statistical Machine Translation using
CMA-ES", In Proceedings of the Sixth International Conference KSE 2014, Se-
ries: Advances in Intelligent Systems and Computing, Vol. 326, pages 251-259.
[8] Luan Nghia Pham, Viet Hong Tran, Vinh Van Nguyen, "Vietnamese Text Ac-
cent Restoration with Statistical Machine Translation ", Proceeding of 27th Pa-
cific Asia Conference on Language, Information and Computation. Available:
http://aclweb.org/anthology/Y13-1044
[9] Hoai Thu Vuong, Vinh Van Nguyen, Viet Hong Tran and Akira Shimazu, "Im-
proving Statistical Machine Translation with Processing Shallow Parsing", Pro-
ceeding of 26th Pacific Asia Conference on Language, Information and Compu-
tation. Available: http://www.aclweb.org/anthology/Y/Y12/Y12-1043.pdf
[10] Trƒn H(cid:231)ng Vi»t, V(cid:247)(cid:236)ng Ho(cid:160)i Thu, Nguy„n V«n Vinh,Trƒn L¥m Qu¥n, "(cid:129)p d(cid:246)ng
ti•n xß l(cid:254) c(cid:243) ph¡p n(cid:230)ng trong d(cid:224)ch m¡y thŁng k¶", K(cid:27) y‚u hºi th£o QuŁc gia lƒn
thø XV "Mºt sŁ v§n (cid:31)• ch(cid:229)n l(cid:229)c cıa C(cid:230)ng ngh» th(cid:230)ng tin v(cid:160) Truy•n th(cid:230)ng",
trang 410-416.
24