(cid:30)(cid:132)I H¯C QU¨C GIA H(cid:128) N¸I

TR(cid:215)˝NG (cid:30)(cid:132)I H¯C C˘NG NGH(cid:155)

(cid:22)(cid:22)(cid:22)(cid:22)(cid:22)(cid:22)(cid:22)

C(cid:131)I TI(cid:152)N CH(cid:135)T L(cid:215)(cid:209)NG D(cid:192)CH M(cid:129)Y TH¨NG K(cid:150)

CHO C(cid:144)P NG˘N NG(cid:218) ANH-VI(cid:155)T

D(cid:220)A V(cid:128)O C(cid:133)Y PH(cid:133)N T(cid:157)CH C(cid:211) PH(cid:129)P PH(cid:214) THU¸C

Chuy¶n ng(cid:160)nh: Khoa h(cid:229)c m¡y t‰nh

M¢ sŁ: 62 48 01 01

T´M T(cid:141)T LU(cid:138)N (cid:129)N

TR(cid:134)N H˙NG VI(cid:155)T

H(cid:160) Nºi - 2018

C(cid:230)ng tr…nh (cid:31)(cid:247)æc ho(cid:160)n th(cid:160)nh t⁄i: Tr(cid:247)(cid:237)ng (cid:30)⁄i h(cid:229)c C(cid:230)ng ngh», (cid:30)⁄i h(cid:229)c

QuŁc Gia H(cid:160) Nºi.

Ng(cid:247)(cid:237)i h(cid:247)(cid:238)ng d¤n khoa h(cid:229)c:

1. TS.Nguy„n V«n Vinh

2. PGS.TS. Nguy„n L¶ Minh

M(cid:240) (cid:31)ƒu

1. T‰nh c§p thi‚t cıa lu“n ¡n

V§n (cid:31)• quan tr(cid:229)ng cıa d(cid:224)ch m¡y li¶n quan (cid:31)‚n vi»c l(cid:160)m th‚ n(cid:160)o (cid:31)” sinh ra thø

t(cid:252) c¡c tł (c(cid:246)m) ch‰nh x¡c trong ng(cid:230)n ngœ (cid:31)‰ch. Trong h» d(cid:224)ch m¡y thŁng k¶

d(cid:252)a tr¶n c(cid:246)m tł (PBSMT), vi»c (cid:31)£o c(cid:246)m tł v¤n cÆn (cid:31)(cid:236)n gi£n v(cid:160) ch§t l(cid:247)æng

ch(cid:247)a cao. B¶n c⁄nh (cid:31)(cid:226), do c¡c ng(cid:230)n ngœ c(cid:226) nhi•u (cid:31)(cid:176)c (cid:31)i”m kh¡c nhau d¤n t(cid:238)i

kh(cid:230)ng th” m(cid:230) h…nh h(cid:226)a ch‰nh x¡c trong qu¡ tr…nh d(cid:224)ch.

Ph(cid:247)(cid:236)ng ph¡p ti•n xß l(cid:254) v(cid:238)i c¡ch ti‚p c“n tŒ hæp c(cid:226) (cid:247)u (cid:31)i”m l(cid:160) giœ (cid:31)(cid:247)æc

(cid:31)i”m m⁄nh cıa h» thŁng d(cid:224)ch m¡y d(cid:252)a tr¶n c(cid:246)m tł, gi£m thi”u th(cid:237)i gian gi£i

m¢, c(cid:244)ng nh(cid:247) giœ (cid:31)i”m m⁄nh cıa d(cid:224)ch m¡y theo c(cid:243) ph¡p trong b(cid:160)i to¡n (cid:31)£o

tr“t t(cid:252) tł. Nhœng v§n (cid:31)• th¡ch thøc (cid:31)(cid:176)t ra:

- Mºt sŁ nghi¶n cøu (cid:31)¢ ¡p d(cid:246)ng (cid:31)£o tr“t t(cid:252) tł d(cid:252)a tr¶n c¥y c(cid:243) ph¡p ph(cid:246)

thuºc cho chi•u Anh-Vi»t. Tuy nhi¶n nhœng nghi¶n cøu n(cid:160)y chı y‚u d(cid:242)ng

c¡c lu“t b‹ng tay, ch(cid:247)a ¡p d(cid:246)ng c¡c lu“t t(cid:252) (cid:31)ºng trong b(cid:160)i to¡n d(cid:224)ch.

- (cid:157)t nghi¶n cøu sß d(cid:246)ng ti•n xß l(cid:254) d(cid:252)a v(cid:160)o c¥y c(cid:243) ph¡p ph(cid:246) thuºc, t(cid:231)n t⁄i

nhi•u h⁄n ch‚ cƒn c£i ti‚n (cid:31)” n¥ng cao ch§t l(cid:247)æng.

V(cid:238)i (cid:247)u (cid:31)i”m cıa c§u tr(cid:243)c c¥y ph¥n t‰ch ph(cid:246) thuºc trong vi»c th” hi»n quan h»

ph(cid:246) thuºc tł, tŁc (cid:31)º nhanh, ph(cid:242) hæp v(cid:238)i v§n (cid:31)• s›p x‚p l⁄i tr“t t(cid:252) tł, lu“n ¡n

t“p trung nghi¶n cøu (cid:31)• t(cid:160)i: "C£i ti‚n ch§t l(cid:247)æng d(cid:224)ch m¡y thŁng k¶ cho c(cid:176)p

ng(cid:230)n ngœ Anh-Vi»t d(cid:252)a v(cid:160)o c¥y ph¥n t‰ch c(cid:243) ph¡p ph(cid:246) thuºc(cid:17).

2. M(cid:246)c ti¶u cıa lu“n ¡n

m¡y thŁng k¶ d(cid:252)a v(cid:160)o c(cid:246)m theo h(cid:247)(cid:238)ng ti‚p c“n ti•n xß l(cid:254).

• Nghi¶n cøu c¡c ph(cid:247)(cid:236)ng ph¡p gi£i quy‚t b(cid:160)i to¡n (cid:31)£o c(cid:246)m tł trong d(cid:224)ch

d(cid:246)ng (cid:31)” c£i thi»n ch§t l(cid:247)æng d(cid:224)ch m¡y thŁng k¶.

• X¥y d(cid:252)ng, m(cid:240) rºng c¡c lu“t thı c(cid:230)ng v(cid:160) ph¡t tri”n c¡c lu“t t(cid:252) (cid:31)ºng ¡p

xu§t ph(cid:247)(cid:236)ng ph¡p m(cid:238)i, th(cid:252)c nghi»m.

3. (cid:30)(cid:226)ng g(cid:226)p cıa lu“n ¡n

• Nghi¶n cøu h» thŁng d(cid:224)ch thŁng k¶ Moses, t‰ch hæp tri thøc ng(cid:230)n ngœ, (cid:31)•

c(cid:230)ng tł vi»c l(cid:252)a ch(cid:229)n (cid:31)(cid:176)c tr(cid:247)ng v• ng(cid:230)n ngœ tr¶n c¥y c(cid:243) ph¡p ph(cid:246) thuºc.

• Nghi¶n cøu c¡c hi»n t(cid:247)æng ng(cid:230)n ngœ, (cid:31)• xu§t c¡c lu“t (cid:31)£o tr“t t(cid:252) tł thı

b(cid:160)i to¡n s›p x‚p l⁄i tr“t t(cid:252) tł. C¡c lu“t (cid:31)(cid:247)æc h(cid:229)c t(cid:252) (cid:31)ºng tł ngœ li»u.

• (cid:30)• xu§t ph(cid:247)(cid:236)ng ph¡p sß d(cid:246)ng (cid:31)a ph¥n l(cid:238)p trong h(cid:229)c m¡y (cid:31)” gi£i quy‚t

x‚p l⁄i c¥u ngu(cid:231)n theo thø t(cid:252) tł c¥u (cid:31)‰ch.

• (cid:30)• xu§t ph(cid:247)(cid:236)ng ph¡p sß d(cid:246)ng m⁄ng n(cid:236)-ron (cid:31)” gi£i quy‚t b(cid:160)i to¡n s›p

qua vi»c ¡p d(cid:246)ng c¡c lu“t s›p x‚p l⁄i tr“t t(cid:252) tł ph‰a c¥u ngu(cid:231)n.

K‚t qu£ nghi¶n cøu (cid:31)(cid:247)æc c(cid:230)ng bŁ trong 10 c(cid:230)ng tr…nh: 08 b¡o c¡o trong k(cid:27) y‚u

cıa hºi ngh(cid:224) quŁc t‚ c(cid:226) ph£n bi»n; 01 b¡o c¡o trong k(cid:27) y‚u cıa hºi th£o quŁc

gia c(cid:226) ph£n bi»n; 01 b(cid:160)i b¡o (cid:240) t⁄p ch‰ trong n(cid:247)(cid:238)c c(cid:226) ph£n bi»n.

4. BŁ c(cid:246)c cıa lu“n ¡n

• Ph¥n t‰ch £nh h(cid:247)(cid:240)ng cıa c¡c lØi ph¥n t‰ch c(cid:243) ph¡p (cid:31)‚n ch§t l(cid:247)æng d(cid:224)ch

• Ch(cid:247)(cid:236)ng 1 TŒng quan c¡c v§n (cid:31)• li¶n quan lu“n ¡n.

tł trong d(cid:224)ch m¡y thŁng k¶.

• Ch(cid:247)(cid:236)ng 2 Ph(cid:247)(cid:236)ng ph¡p d(cid:252)a v(cid:160)o lu“t thı c(cid:230)ng cho b(cid:160)i to¡n (cid:31)£o tr“t t(cid:252)

ph¥n l(cid:238)p.

• Ch(cid:247)(cid:236)ng 3 Ph(cid:247)(cid:236)ng ph¡p sß d(cid:246)ng c¡c lu“t t(cid:252) (cid:31)ºng b‹ng h(cid:229)c m¡y v(cid:238)i (cid:31)a

c£nh.

• Ch(cid:247)(cid:236)ng 4 Ph(cid:247)(cid:236)ng ph¡p sß d(cid:246)ng m⁄ng n(cid:236)-ron k‚t hæp c¡c th(cid:230)ng tin ngœ

h» thŁng thß nghi»m.

• Ch(cid:247)(cid:236)ng 5 (cid:131)nh h(cid:247)(cid:240)ng cıa c¥y ph¥n t‰ch c(cid:243) ph¡p ph(cid:246) thuºc v(cid:160) x¥y d(cid:252)ng

Ch(cid:247)(cid:236)ng 1

TŒng quan c¡c v§n (cid:31)• li¶n quan

lu“n ¡n

Ch(cid:247)(cid:236)ng n(cid:160)y tr…nh b(cid:160)y tŒng quan v• c¡c v§n (cid:31)• nghi¶n cøu trong lu“n ¡n,

bao g(cid:231)m: d(cid:224)ch m¡y (Machine Translation - MT), d(cid:224)ch m¡y thŁng k¶ (Statistical

Machine Translation - SMT), m(cid:230) h…nh d(cid:224)ch m¡y d(cid:252)a tr¶n c(cid:246)m tł, ph¥n t‰ch

c(cid:243) ph¡p, c(cid:243) ph¡p ph(cid:246) thuºc, c¡c nghi¶n cøu li¶n quan, (cid:31)(cid:247)a ra v§n (cid:31)• cÆn t(cid:231)n

t⁄i m(cid:160) lu“n ¡n s‡ t“p trung gi£i quy‚t.

1.1 L(cid:224)ch sß d(cid:224)ch m¡y

D(cid:224)ch l(cid:160) mºt qu¡ tr…nh chuy”n ngh(cid:190)a cıa c¡c tł hay v«n b£n sang ng(cid:230)n ngœ

kh¡c, li¶n quan (cid:31)‚n vi»c gi£i m¢ ngh(cid:190)a cıa ng(cid:230)n ngœ ngu(cid:231)n v(cid:160) sau (cid:31)(cid:226) m¢ h(cid:226)a

l⁄i theo ngh(cid:190)a v(cid:160)o ng(cid:230)n ngœ (cid:31)‰ch. Qu¡ tr…nh (cid:31)Æi h(cid:228)i ki‚n thøc (cid:31)ƒy (cid:31)ı v• ng(cid:230)n

ngœ bao g(cid:231)m: h…nh th¡i h(cid:229)c, c(cid:243) ph¡p, ngœ ngh(cid:190)a...

1

(a) Th¡p chuy”n (cid:31)Œi th” hi»n qu¡ tr…nh d(cid:224)ch

(b) Th¡p chuy”n (cid:31)Œi th” hi»n c¡c ki”u ph¥n

theo c¡c ph(cid:247)(cid:236)ng ph¡p kh¡c nhau

t‰ch trong s(cid:236) (cid:31)(cid:231) h…nh th¡p

H…nh 1.1: S(cid:236) (cid:31)(cid:231) h…nh th¡p th” hi»n c¡c h» thŁng d(cid:224)ch m¡y kh¡c nhau.

1.2 TŒng quan v• d(cid:224)ch m¡y

1.3 D(cid:224)ch m¡y thŁng k¶

D(cid:224)ch m¡y thŁng k¶ (SMT) l(cid:160) mºt ph(cid:247)(cid:236)ng ph¡p ti‚p c“n cıa d(cid:224)ch m¡y d(cid:252)a

tr¶n ph¥n t‰ch thŁng k¶ t“p dœ li»u c¡c c(cid:176)p c¥u tł hai ng(cid:230)n ngœ, ngœ li»u song

ngœ.

H…nh 1.2: Ki‚n tr(cid:243)c c(cid:236) b£n cıa h» thŁng d(cid:224)ch m¡y thŁng k¶

2

1.4 D(cid:224)ch m¡y m⁄ng n(cid:236)-ron

H…nh 1.3: H» thŁng d(cid:224)ch m¡y d(cid:252)a tr¶n m⁄ng n(cid:236)-ron

1.5 Ph¥n t‰ch c(cid:243) ph¡p ph(cid:246) thuºc

1.6 V§n (cid:31)• (cid:31)£o tr“t t(cid:252) tł trong d(cid:224)ch m¡y

1.6.1 S(cid:252) kh¡c nhau v• thø t(cid:252) tł giœa c¡c ng(cid:230)n ngœ

1.6.2 B(cid:160)i to¡n s›p x‚p l⁄i tr“t t(cid:252) tł

B(cid:160)i to¡n d(cid:224)ch m¡y thŁng k¶ g(cid:231)m hai b(cid:160)i to¡n con: (cid:31)o¡n (cid:31)(cid:224)nh t“p hæp tł

trong b£n d(cid:224)ch v(cid:160) x¡c (cid:31)(cid:224)nh thø t(cid:252) cıa c¡c tł d(cid:224)ch (b(cid:160)i to¡n s›p x‚p l⁄i).

1.7 M(cid:230) h…nh d(cid:224)ch m¡y d(cid:252)a tr¶n c(cid:246)m tł

Ki‚n tr(cid:243)c cıa m(cid:230) h…nh d(cid:224)ch d(cid:252)a tr¶n c(cid:246)m tł trong h…nh 1.4

3

H…nh 1.4: Ki‚n tr(cid:243)c cıa m(cid:230) h…nh d(cid:224)ch d(cid:252)a tr¶n c(cid:246)m tł

1.8 C¡c nghi¶n cøu li¶n quan

1.8.1 Sß d(cid:246)ng c¡c lu“t thı c(cid:230)ng cho v§n (cid:31)• ti•n xß l(cid:254)

1.8.2 Sß d(cid:246)ng c¡c lu“t t(cid:252) (cid:31)ºng cho v§n (cid:31)• ti•n xß l(cid:254)

1.9 K‚t lu“n ch(cid:247)(cid:236)ng

4

Ch(cid:247)(cid:236)ng 2

Ph(cid:247)(cid:236)ng ph¡p d(cid:252)a v(cid:160)o lu“t thı

c(cid:230)ng cho b(cid:160)i to¡n (cid:31)£o tr“t t(cid:252) tł

trong d(cid:224)ch m¡y thŁng k¶

Tr…nh b(cid:160)y c¡ch gi£i quy‚t v§n (cid:31)• s›p x‚p l⁄i tr“t t(cid:252) tł ((cid:31)£o tr“t t(cid:252) tł) d(cid:252)a

tr¶n ti•n xß l(cid:254) cho b(cid:160)i to¡n d(cid:224)ch v(cid:238)i kho ngœ li»u song ngœ Anh (cid:21) Vi»t. Tł

ph¥n t‰ch c¡c th(cid:230)ng tin tr¶n c¥y c(cid:243) ph¡p ph(cid:246) thuºc v(cid:160) c¡c hi»n t(cid:247)æng ng(cid:230)n

ngœ, sß d(cid:246)ng c¡c lu“t thı c(cid:230)ng (cid:31)” gi£i quy‚t v§n (cid:31)• (cid:31)£o tr“t t(cid:252) tł nh(cid:247) b(cid:247)(cid:238)c

ti•n xß l(cid:254) h» thŁng d(cid:224)ch m¡y.

2.1 V§n (cid:31)• (cid:31)£o tr“t t(cid:252) tł trong d(cid:224)ch m¡y

Vi»c (cid:31)£o tr“t tł tł d(cid:252)a v(cid:160)o c¥y ph¥n t‰ch ph(cid:246) thuºc v(cid:160) ¡p d(cid:246)ng c¡c lu“t

s›p x‚p l⁄i (cid:31)” ti‚n h(cid:160)nh thay (cid:31)Œi thø t(cid:252) c¡c tł.

5

2.2 C¡c nghi¶n cøu li¶n quan

2.3 D(cid:224)ch m¡y thŁng k¶ d(cid:252)a tr¶n c(cid:246)m tł

Th(cid:252)c hi»n d(cid:224)ch c¥u ngu(cid:231)n sang c¥u (cid:31)‰ch b‹ng c¡ch chia c¥u ngu(cid:231)n th(cid:160)nh

c¡c chuØi c(cid:246)m tł, mØi c(cid:246)m (cid:31)(cid:247)æc d(cid:224)ch sang ng(cid:230)n ngœ (cid:31)‰ch. Bi”u di„n cıa qu¡

tr…nh qua c(cid:230)ng thøc:

n (cid:88)

(2.3.1)

t,a

i=1

ˆt = argmax λifj(s, t, a)

2.4 Ti•n xß l(cid:254) c(cid:243) ph¡p ph(cid:246) thuºc cho d(cid:224)ch m¡y

thŁng k¶

2.4.1 Ph¥n t‰ch hi»n t(cid:247)æng ng(cid:230)n ngœ v(cid:160) v§n (cid:31)• s›p x‚p l⁄i

T“p trung v(cid:160)o vi»c ph¥n t‰ch c¡c c§u tr(cid:243)c th(cid:230)ng d(cid:246)ng nh§t cıa ti‚ng Anh

khi d(cid:224)ch sang ti‚ng Vi»t nh(cid:247) trong h…nh 2.2 v(cid:160) h…nh 2.3.

H…nh 2.1: V‰ d(cid:246) v• ti•n xß l(cid:254) cho d(cid:224)ch Anh-Vi»t.

6

H…nh 2.2: V‰ d(cid:246) v• hi»n t(cid:247)æng ng(cid:230)n ngœ trong c(cid:246)m danh tł v(cid:238)i amod v(cid:160) det. Trong

v‰ d(cid:246) n(cid:160)y, danh tł (cid:16)computer(cid:17) (cid:31)(cid:247)æc (cid:31)£o v(cid:238)i t‰nh tł (cid:16)personal(cid:17)

2.4.2 Lu“t chuy”n (cid:31)Œi tr“t t(cid:252) tł

(cid:129)nh x⁄: T → (L, W, O)

H…nh 2.3: V‰ d(cid:246) v• hi»n t(cid:247)æng ng(cid:230)n ngœ trong c(cid:246)m t‰nh tł v(cid:238)i advmod v(cid:160) det

• T l(cid:160) tł lo⁄i cıa tł ch‰nh (n(cid:243)t cha) trong c(cid:246)m tr¶n c¥y c(cid:243) ph¡p ph(cid:246) thuºc.

• L l(cid:160) nh¢n ph(cid:246) thuºc (hay quan h» ph(cid:246) thuºc) cıa c¡c n(cid:243)t con.

• W l(cid:160) tr(cid:229)ng sŁ (cid:31)” x¡c (cid:31)(cid:224)nh thø t(cid:252) cıa n(cid:243)t con.

• O l(cid:160) d⁄ng (cid:31)£o (Normal: kh(cid:230)ng (cid:31)£o, Reverse: (cid:31)£o).

7

H…nh 2.4: C¡c lu“t b‹ng tay cho vi»c s›p x‚p l⁄i tł ti‚ng Anh sang ti‚ng Vi»t sß d(cid:246)ng

2.4.3 T“p c¡c lu“t (cid:31)£o tr“t t(cid:252) tł thı c(cid:230)ng

ti•n xß l(cid:254) c(cid:243) ph¡p ph(cid:246) thuºc.

2.5 Th(cid:252)c nghi»m v• sß d(cid:246)ng c¡c lu“t thı c(cid:230)ng d(cid:252)a

tr¶n ti•n xß l(cid:254) trong d(cid:224)ch m¡y

2.5.1 T“p dœ li»u v(cid:160) c(cid:160)i (cid:31)(cid:176)t th(cid:252)c nghi»m

2.5.2 K‚t qu£ th(cid:252)c nghi»m

2.6 K‚t lu“n ch(cid:247)(cid:236)ng

Sß d(cid:246)ng c¡c lu“t thı c(cid:230)ng (cid:31)” gi£i quy‚t v§n (cid:31)• (cid:31)£o tr“t t(cid:252) tł. (cid:129)p d(cid:246)ng

ph(cid:247)(cid:236)ng ph¡p ti•n xß l(cid:254) (cid:31)em l⁄i c¥n b‹ng giœa tŁc (cid:31)º, th(cid:237)i gian th(cid:252)c hi»n v(cid:160)

(cid:31)º ch‰nh x¡c trong qu¡ tr…nh gi£i m¢, n¥ng cao ch§t l(cid:247)æng d(cid:224)ch.

8

H…nh 2.5: Mºt kh£o s¡t v• v(cid:224) tr‰ tł lo⁄i v(cid:160) c¡c nh¢n trong vi»c s›p x‚p l⁄i thø t(cid:252) tł

H» thŁng BLEU(%) M(cid:230) t£

System I

26.95

(cid:129)p d(cid:246)ng c¡c lu“t v(cid:238)i nh(cid:226)m danh tł

System II

26.71

(cid:129)p d(cid:246)ng c¡c lu“t v(cid:238)i nh(cid:226)m (cid:31)ºng tł

System III

27.15

(cid:129)p d(cid:246)ng c¡c lu“t v(cid:238)i nh(cid:226)m t‰nh tł v(cid:160) gi(cid:238)i tł

System IV

27.26

(cid:129)p d(cid:246)ng c¡c lu“t thı c(cid:230)ng v(cid:238)i to(cid:160)n bº c¡c nh(cid:226)m

Baseline

26.52

H» thŁng d(cid:224)ch tr¶n c(cid:246)m tł trong c(cid:230)ng c(cid:246) Moses

B£ng 2.1: Th(cid:252)c nghi»m sß d(cid:246)ng c¡c lu“t thı c(cid:230)ng cho kho ngœ li»u song ngœ Anh-Vi»t

9

Ch(cid:247)(cid:236)ng 3

Ph(cid:247)(cid:236)ng ph¡p sß d(cid:246)ng c¡c lu“t t(cid:252)

(cid:31)ºng b‹ng h(cid:229)c m¡y v(cid:238)i (cid:31)a ph¥n l(cid:238)p

Trong ch(cid:247)(cid:236)ng n(cid:160)y, tr…nh b(cid:160)y c¡ch gi£i quy‚t b(cid:160)i to¡n (cid:31)£o tr“t t(cid:252) tł nh(cid:247)

b(cid:247)(cid:238)c ti•n xß l(cid:254) cho b(cid:160)i to¡n d(cid:224)ch b‹ng c¡ch m(cid:230) h…nh h(cid:226)a b(cid:160)i to¡n (cid:31)£o tr“t t(cid:252)

tł v(cid:238)i c¡c ph¥n l(cid:238)p quan h» thø t(cid:252) (v§n (cid:31)• ti•n xß l(cid:254) d(cid:252)a tr¶n ph¥n l(cid:238)p): c¡c

lu“t (cid:31)£o tr“t t(cid:252) tł (cid:31)(cid:247)æc sinh t(cid:252) (cid:31)ºng tł dœ li»u, (cid:31)(cid:247)æc n†n th(cid:230)ng tin tri thøc,

c¡c (cid:31)(cid:176)c tr(cid:247)ng ng(cid:230)n ngœ v(cid:160)o m(cid:230) h…nh h(cid:229)c m¡y.

3.1 Ti•n xß l(cid:254) d(cid:252)a tr¶n ph¥n l(cid:238)p cho d(cid:224)ch m¡y d(cid:252)a

theo c(cid:246)m

Tł nhœng (cid:247)u (cid:31)i”m cıa h(cid:229)c m¡y, ch(cid:243)ng t(cid:230)i (cid:31)• xu§t sß d(cid:246)ng k(cid:255) thu“t h(cid:229)c

m¡y trong vi»c gi£i quy‚t v§n (cid:31)• (cid:31)£o tr“t t(cid:252) tł v(cid:160) ¡p d(cid:246)ng nh(cid:247) qu¡ tr…nh ti•n

xß l(cid:254) cho h» thŁng d(cid:224)ch m¡y.

3.1.1 V§n (cid:31)• ti•n xß l(cid:254) d(cid:252)a tr¶n ph¥n l(cid:238)p

X¥y d(cid:252)ng m(cid:230) h…nh h(cid:229)c m¡y c(cid:226) th” t(cid:252) (cid:31)ºng thay (cid:31)Œi thø t(cid:252) c¡c tł trong

c¥u ng(cid:230)n ngœ ngu(cid:231)n sang thø t(cid:252) t(cid:247)(cid:236)ng øng v(cid:238)i c¥u ng(cid:230)n ngœ (cid:31)‰ch.

10

3.1.2 (cid:30)(cid:176)c tr(cid:247)ng

3.1.3 M(cid:230) h…nh ph¥n l(cid:238)p

-Thu“t to¡n 2.1 : Tr‰ch xu§t t(cid:252) (cid:31)ºng c¡c lu“t v(cid:238)i (cid:31)ƒu v(cid:160)o bao g(cid:231)m c¡c c¥y

ph(cid:246) thuºc cıa c¡c c¥u ngu(cid:231)n v(cid:160) c(cid:176)p gi(cid:226)ng h(cid:160)ng tł.

-Thu“t to¡n 2.2 : Ti‚n h(cid:160)nh b‹ng c¡ch x†t t§t c£ c¡c lu“t sau khi ho(cid:160)n th(cid:160)nh

theo thu“t to¡n 1 v(cid:160) c¡c c¥y ph(cid:246) thuºc ph‰a ngu(cid:231)n (cid:31)” sinh c¥u m(cid:238)i.

H…nh 3.1: V‰ d(cid:246) v• ti•n xß l(cid:254) cho ngœ li»u song ngœ Anh-Vi»t.

H…nh 3.2: ThŁng k¶ v• quan h» giœa n(cid:243)t cha v(cid:238)i n(cid:243)t con tr¶n ngœ li»u song ngœ.

11

3.2 Th(cid:252)c nghi»m v• ph(cid:247)(cid:236)ng ph¡p sß d(cid:246)ng ph¥n

l(cid:238)p cho vi»c ti•n xß l(cid:254) trong d(cid:224)ch m¡y

3.2.1 T“p dœ li»u v(cid:160) c(cid:160)i (cid:31)(cid:176)t th(cid:252)c nghi»m

3.2.2 K‚t qu£ th(cid:252)c nghi»m

H…nh 3.3: ThŁng k¶ v• quan h» giœa n(cid:243)t cha v(cid:238)i hai n(cid:243)t con tr¶n ngœ li»u song ngœ.

H» thŁng

BLEU (%)

Baseline

26.52

Manual Rules

27.26

Auto Rules

27.09

Auto Rules + Manual Rules

27.34

B£ng 3.1: Hi»u n«ng cho t¡c v(cid:246) d(cid:224)ch Anh- Vi»t

3.3 K‚t lu“n ch(cid:247)(cid:236)ng

12

Ch(cid:247)(cid:236)ng 4

Ph(cid:247)(cid:236)ng ph¡p sß d(cid:246)ng m⁄ng n(cid:236)-ron

k‚t hæp c¡c th(cid:230)ng tin ngœ c£nh

Trong ch(cid:247)(cid:236)ng n(cid:160)y, tr…nh b(cid:160)y nºi dung, k‚t qu£ nghi¶n cøu v• ti•n xß l(cid:254)

c(cid:243) ph¡p ph(cid:246) thuºc cho b(cid:160)i to¡n d(cid:224)ch m¡y thŁng k¶ Anh-Vi»t sß d(cid:246)ng ph(cid:247)(cid:236)ng

ph¡p h(cid:229)c m¡y trong (cid:31)(cid:226) m⁄ng n(cid:236)-ron d(cid:242)ng c¡c th(cid:230)ng tin ngœ c£nh tł word

embedding.

4.1 M(cid:230) h…nh (cid:31)£o d(cid:252)a tr¶n m⁄ng n(cid:236)-ron sß d(cid:246)ng

c¥y c(cid:243) ph¡p ph(cid:246) thuºc cho d(cid:224)ch m¡y thŁng k¶

H…nh 4.1 m(cid:230) t£ ki‚n tr(cid:243)c v(cid:160) c¡c dœ li»u hu§n luy»n, tr‰ch xu§t (cid:31)(cid:176)c tr(cid:247)ng

trong m(cid:230) h…nh.

4.1.1 (cid:30)(cid:176)c tr(cid:247)ng cho ph¥n l(cid:238)p v(cid:160) hu§n luy»n m(cid:230) h…nh

Ph¥n l(cid:238)p head-child

Ph¥n l(cid:238)p sibling

C¡c (cid:31)(cid:176)c tr(cid:247)ng cho hai ph¥n l(cid:238)p nh(cid:247) trong h…nh 4.2 v(cid:160) h…nh 4.3.

L(cid:238)p truy•n thflng

13

MØi (cid:31)(cid:176)c tr(cid:247)ng (cid:31)(cid:247)æc ¡nh x⁄ b(cid:240)i vi»c tham chi‚u b£ng v(cid:238)i bi”u di„n v†c t(cid:236)

v(cid:160) c¡c v†c t(cid:236) k‚t qu£ (cid:31)(cid:247)æc nŁi v(cid:160) (cid:31)(cid:247)a v(cid:160)o mØi chuØi c¡c l(cid:238)p 'n (c¡c ma tr“n

tr(cid:229)ng sŁ) d(cid:242)ng h(cid:160)m k‰ch ho⁄t sigmoid:

(4.1.1)

σ(z) = 1 1 + e−x

H…nh 4.1: M(cid:230) h…nh (cid:31)£o cho d(cid:224)ch m¡y thŁng k¶ Anh-Vi»t sß d(cid:246)ng m⁄ng n(cid:236)-ron v(cid:238)i c¥y

ph¥n t‰ch ph(cid:246) thuºc: (a) Ki‚n tr(cid:243)c ph¥n l(cid:238)p m⁄ng n(cid:236)-ron (b) Mºt gi(cid:226)ng h(cid:160)ng c¥u tł

ngœ li»u song ngœ Anh-Vi»t v(cid:238)i c¡c dœ li»u hu§n luy»n v(cid:160) (cid:31)(cid:176)c tr(cid:247)ng (cid:31)(cid:247)æc tr‰ch xu§t

L(cid:238)p 'n (cid:31)¢ cho chuy”n (cid:31)Œi v(cid:238)i v†c t(cid:236) embedding x, v†c t(cid:236) tr(cid:229)ng sŁ W v(cid:160) mºt

gi¡ tr(cid:224) bias b, (cid:31)ƒu ra d(cid:252) (cid:31)o¡n δ x¡c (cid:31)(cid:224)nh b(cid:240)i:

cho: (c) ph¥n l(cid:238)p cha-con v(cid:160) (d) ph¥n l(cid:238)p anh-em.

(4.1.2)

z = W.x + b

(4.1.3)

Hu§n luy»n m⁄ng n(cid:236)-ron

T (cid:88)

δ = tanh(z )

(4.1.4)

i=1

L = − yi log ˆyi + (1 − yi) log (1 − ˆyi) 1 T

14

H…nh 4.2: C¡c (cid:31)(cid:176)c tr(cid:247)ng cho quan h» head-chlid trong m(cid:230) h…nh ph¥n l(cid:238)p

4.1.2 Khung l(cid:160)m vi»c cho (cid:31)£o tr“t t(cid:252) tł

Khung l(cid:160)m vi»c m(cid:230) t£ trong h…nh 4.4. Ch(cid:243)ng t(cid:230)i ¡p d(cid:246)ng thu“t to¡n 4.1

(X¥y d(cid:252)ng m(cid:230) h…nh hu§n luy»n) v(cid:160) thu“t to¡n 4.2 (S›p x‚p l⁄i) trong khung

l(cid:160)m vi»c cıa ch(cid:243)ng t(cid:230)i.

H…nh 4.3: C¡c (cid:31)(cid:176)c tr(cid:247)ng cho quan h» sibling trong m(cid:230) h…nh ph¥n l(cid:238)p

15

H…nh 4.4: Khung l(cid:160)m vi»c cho qu¡ tr…nh ti•n xß l(cid:254) c¥u ngu(cid:231)n tł dœ li»u song ngœ

Anh-Vi»t.

4.2 Th(cid:252)c nghi»m v• ph(cid:247)(cid:236)ng ph¡p sß d(cid:246)ng m⁄ng

n(cid:236)-ron k‚t hæp th(cid:230)ng tin ngœ c£nh

4.2.1 T“p dœ li»u v(cid:160) c(cid:160)i (cid:31)(cid:176)t th(cid:252)c nghi»m

4.2.2 (cid:30)i”m BLEU

4.3 Ph¥n t‰ch v(cid:160) th£o lu“n

4.4 K‚t lu“n ch(cid:247)(cid:236)ng

16

Corpus

Sentence pairs Training Set Development Set Test Set

General

133403

131019

1304

1080

Vietnamese

English

Training

Sentences

131019

Average Length

18.91

17.98

Word

2481762

2360727

Vocabulary

39071

54086

Development

Sentences

1304

Average Length

22.73

21.41

Word

9092

8567

Vocabulary

1537

1920

Test

Sentences

1080

Average Length

22.70

21.42

Word

22707

21428

Vocabulary

2882

3816

B£ng 4.1: ThŁng k¶ ngœ li»u

H» thŁng

BLEU (%)

Baseline

26.5

Manual Rules

27.12

Auto Rules

27.07

DPNN Classifier

27.16

B£ng 4.2: Hi»u n«ng cho t¡c v(cid:246) d(cid:224)ch Anh- Vi»t

17

Ch(cid:247)(cid:236)ng 5

(cid:131)nh h(cid:247)(cid:240)ng cıa c¥y ph¥n t‰ch c(cid:243)

ph¡p ph(cid:246) thuºc v(cid:160) x¥y d(cid:252)ng h»

thŁng thß nghi»m

Trong ch(cid:247)(cid:236)ng n(cid:160)y, th(cid:252)c hi»n ph¥n t‰ch so s¡nh (cid:31)” quan s¡t hi»u qu£ cıa

c¡c lØi ph¥n t‰ch c(cid:243) ph¡p kh¡c nhau (cid:31)Łi v(cid:238)i vi»c s›p x‚p l⁄i b‹ng c¡ch k‚t hæp

c¡c ph(cid:247)(cid:236)ng ph¡p th(cid:252)c nghi»m v(cid:160) m(cid:230) t£.

5.1 Ph¥n t‰ch c(cid:243) ph¡p ph(cid:246) thuºc

Theo quy (cid:247)(cid:238)c phŒ bi‚n trong c¡c t(cid:160)i li»u v• c(cid:243) ph¡p ph(cid:246) thuºc th… m(cid:246)c tł

n‹m (cid:240) gŁc cıa m(cid:244)i t¶n l(cid:160) tł ch‰nh (cid:21) g(cid:229)i l(cid:160) head, m(cid:246)c tł n‹m (cid:240) (cid:31)ƒu m(cid:244)i t¶n l(cid:160)

tł ph(cid:246) - g(cid:229)i l(cid:160) dependent.

H…nh 5.1: Bi”u di„n (cid:31)(cid:231) th(cid:224) c¥y ph¥n t‰ch ph(cid:246) thuºc v(cid:238)i c¡c nh¢n quan h».

18

5.1.1 B(cid:160)i to¡n ph¥n t‰ch c(cid:243) ph¡p ph(cid:246) thuºc

B(cid:160)i to¡n tŒng qu¡t: Cho mºt c¥u, ph¥n t‰ch c(cid:243) ph¡p (cid:31)(cid:247)a ra m(cid:230) t£ v•

quan h» v(cid:160) vai trÆ ngœ ph¡p cıa c¡c tł, c(cid:246)m tł v(cid:160) h…nh th¡i cıa c¥u (cid:31)(cid:226).

5.1.2 (cid:30)(cid:224)nh d⁄ng dœ li»u theo chu'n CoNLL

5.1.3 Sß d(cid:246)ng t“p nh¢n cho c(cid:243) ph¡p ph(cid:246) thuºc

H…nh 5.2: M(cid:230) h…nh b(cid:160)i to¡n tŒng qu¡t v• ph¥n t‰ch c(cid:243) ph¡p ph(cid:246) thuºc

5.2 (cid:131)nh h(cid:247)(cid:240)ng cıa lØi ph¥n t‰ch c(cid:243) ph¡p ph(cid:246) thuºc

t(cid:238)i ch§t l(cid:247)æng d(cid:224)ch m¡y

5.2.1 Ph(cid:247)(cid:236)ng ph¡p ph¥n t‰ch lØi

- (cid:30)o s(cid:252) t(cid:247)(cid:236)ng t(cid:252) tł mŁc chu'n v(cid:160) c¥u (cid:31)(cid:247)æc s›p x‚p l⁄i d(cid:252)a tr¶n Gold-Tree,

c(cid:244)ng nh(cid:247) giœa mŁc chu'n v(cid:160) c¥u (cid:31)(cid:247)æc s›p x‚p l⁄i d(cid:252)a tr¶n tłng c¥y c(cid:243) ph¡p.

- X¡c (cid:31)(cid:224)nh møc (cid:31)º lØi ph¥n t‰ch c(cid:243) ph¡p £nh h(cid:247)(cid:240)ng (cid:31)‚n s›p x‚p l⁄i.

5.2.2 (cid:30)¡nh gi¡

Sß d(cid:246)ng (cid:31)º (cid:31)o Kendall’s tau (τ ) x‚p h⁄ng (cid:31)º t(cid:247)(cid:236)ng quan (cid:31)” (cid:31)o (cid:31)º t(cid:247)(cid:236)ng

t(cid:252) thø t(cid:252) tł trong c¡c c(cid:176)p c¥u g(cid:231)m dœ li»u chu'n v(cid:160) dœ li»u (cid:31)(cid:247)æc s›p x‚p l⁄i.

(5.2.1)

τ = × 2 − 1 #of concordant pairs #of all pairs

19

H…nh 5.3: M(cid:230) t£ ph(cid:247)(cid:236)ng ph¡p ph¥n t‰ch lØi.

H…nh 5.4: V‰ d(cid:246) v• lØi do x¡c (cid:31)(cid:224)nh sai lo⁄i ph(cid:246) thuºc n(cid:243)t gŁc khi so s¡nh dœ li»u

thŁng k¶ giœa c¥y (cid:31)(cid:247)æc sinh ra v(cid:238)i c¥y (cid:31)(cid:247)æc sinh tł dœ li»u chu'n.

H…nh 5.5: V‰ d(cid:246) v• lØi tł lo⁄i khi so s¡nh dœ li»u thŁng k¶ giœa c¥y (cid:31)(cid:247)æc sinh ra v(cid:238)i

c¥y (cid:31)(cid:247)æc sinh tł dœ li»u chu'n.

20

(a)

(b)

5.2.3 Ph¥n t‰ch nguy¶n nh¥n g¥y lØi (cid:31)£o tr“t t(cid:252) tł

• LØi ph(cid:246) thuºc: tł lo⁄i kh(cid:230)ng ph£i l(cid:160) mºt ph(cid:246) thuºc (cid:31)ºc l“p v(cid:238)i n(cid:243)t cha.

• LØi n(cid:243)t cha: tł lo⁄i sai khi (cid:31)(cid:247)æc nh“n bi‚t nh(cid:247) n(cid:243)t cha.

5.3 K‚t lu“n ch(cid:247)(cid:236)ng

21

K‚t lu“n

S›p x‚p l⁄i tr“t t(cid:252) tł trong b(cid:247)(cid:238)c ti•n xß l(cid:254) nh(cid:247) mºt ph(cid:247)(cid:236)ng ph¡p bŒ sung c(cid:226)

hi»u qu£ (cid:31)Łi v(cid:238)i c¡c h» thŁng d(cid:224)ch m¡y truy•n thŁng, (cid:31)(cid:226)ng vai trÆ quan tr(cid:229)ng trong

b£n d(cid:224)ch.

1. T(cid:226)m l(cid:247)æc c¡c k‚t qu£ v(cid:160) (cid:31)(cid:226)ng g(cid:226)p cıa lu“n ¡n

C¡c k‚t qu£ v(cid:160) (cid:31)(cid:226)ng g(cid:226)p bao g(cid:231)m:

• (cid:30)• xu§t c¡c lu“t (cid:31)£o tr“t t(cid:252) tł thı c(cid:230)ng b‹ng vi»c l(cid:252)a ch(cid:229)n c¡c (cid:31)(cid:176)c tr(cid:247)ng v•

ng(cid:230)n ngœ tr¶n c¥y ph¥n t‰ch c(cid:243) ph¡p ph(cid:246) thuºc.

• Ch(cid:243)ng t(cid:230)i (cid:31)• xu§t lu“t (cid:31)£o tr“t t(cid:252) tł t(cid:252) (cid:31)ºng. V(cid:238)i hai (cid:31)• xu§t g(cid:231)m:

(cid:21) Khai th¡c c¡c (cid:31)(cid:176)c tr(cid:247)ng v• ng(cid:230)n ngœ v(cid:160) (cid:31)• xu§t ph(cid:247)(cid:236)ng ph¡p sß d(cid:246)ng (cid:31)a

ph¥n l(cid:238)p trong k(cid:255) thu“t h(cid:229)c m¡y (cid:31)” gi£i quy‚t b(cid:160)i to¡n (cid:31)£o tr“t t(cid:252) tł nh(cid:247)

vi»c (cid:31)o¡n nh“n thø t(cid:252) (cid:31)(cid:243)ng cıa ng(cid:230)n ngœ cıa c¥u (cid:31)ƒu v(cid:160)o t(cid:247)(cid:236)ng øng v(cid:238)i

thø t(cid:252) trong ng(cid:230)n ngœ (cid:31)‰ch.

(cid:21) (cid:30)• xu§t ph(cid:247)(cid:236)ng ph¡p sß d(cid:246)ng m⁄ng n(cid:236)-ron (cid:31)” gi£i quy‚t b(cid:160)i to¡n s›p x‚p

l⁄i c¥u ngu(cid:231)n theo thø t(cid:252) tł c¥u (cid:31)‰ch tr(cid:247)(cid:238)c khi (cid:31)(cid:247)a v(cid:160)o h» d(cid:224)ch (cid:31)” n¥ng

cao ch§t l(cid:247)æng b£n d(cid:224)ch.

• (cid:30)• xu§t ph¥n t‰ch £nh h(cid:247)(cid:240)ng cıa c¡c lØi ph¥n t‰ch c(cid:243) ph¡p (cid:31)‚n ch§t l(cid:247)æng d(cid:224)ch

qua vi»c ¡p d(cid:246)ng c¡c lu“t s›p x‚p l⁄i tr“t t(cid:252) tł ph‰a c¥u ngu(cid:231)n.

2. H⁄n ch‚ v(cid:160) h(cid:247)(cid:238)ng ph¡t tri”n cıa lu“n ¡n

M(cid:240) rºng nghi¶n cøu cıa ch(cid:243)ng t(cid:230)i (cid:31)‚n c¡c c(cid:176)p ng(cid:230)n ngœ ho(cid:176)c tłng ng(cid:230)n ngœ kh¡c.

Thß nghi»m ph(cid:247)(cid:236)ng ph¡p h(cid:229)c t(cid:252) (cid:31)ºng v(cid:238)i kho ngœ li»u l(cid:238)n, c(cid:226) (cid:31)º phı tŁt (cid:31)” c(cid:226) th”

x¥y d(cid:252)ng c¡c lu“t b‹ng tay c(cid:226) ch§t l(cid:247)æng tŁt c(cid:244)ng nh(cid:247) h(cid:229)c t(cid:252) (cid:31)ºng (cid:31)” c(cid:226) c¡c lu“t

s›p x‚p l⁄i tr“t t(cid:252) tł tŁt h(cid:236)n. Ngo(cid:160)i ra ch(cid:243)ng t(cid:230)i s‡ ti‚n h(cid:160)nh sß d(cid:246)ng c¡ch ti‚p c“n

t‰ch hæp v(cid:160)o h» d(cid:224)ch m¡y m⁄ng n(cid:236)-ron (cid:31)” c(cid:226) th” x¥y d(cid:252)ng h» thŁng d(cid:224)ch tŁt cho c£

hai chi•u d(cid:224)ch Anh-Vi»t, Vi»t-Anh.

22

Danh m(cid:246)c c(cid:230)ng tr…nh khoa h(cid:229)c cıa

t¡c gi£ li¶n quan (cid:31)‚n lu“n ¡n

[1] Viet Hong Tran, Huyen Vu Thuong, Vinh Van Nguyen and Minh Le Nguyen,

"Dependency-based Pre-ordering For English-Vietnamese Statistical Machine

Translation", In VNU Journal of Science: Computer Science and Communication

Engineering, 2017, pages 175-179.

[2] Viet Hong Tran, Quan Hoang Nguyen and Vinh Van Nguyen "A Neural Net-

work Classifier Based on Dependency Tree English-Vietnamese Statistical Ma-

chine Translation", In Proceedings of the 19th International Conference on

Intelligent Text Processing and Computational Linguistics, 2018. Available:

http://site.cicling.org/2018/accepted.html

[3] Viet Hong Tran, Huyen Vu Thuong, Vinh Van Nguyen and Minh Le Nguyen,

"A Classifier-based Preordering Approach for English-Vietnamese Statistical Ma-

chine Translation", In Proceedings of the 17th International Conference on In-

telligent Text Processing and Computational Linguistics.

[4] Viet Hong Tran, Huyen Vu Thuong, Vinh Van Nguyen and Minh Le Nguyen,

"A Reordering Model For Vietnamese-English Statistical Machine Translation

Using Dependency Information", In Computing and Communication Technolo-

gies, Research, Innovation, and Vision for the Future (RIVF), 2016 IEEE RIVF

International Conference on, pages 175-179.

[5] Viet Hong Tran, Vinh Van Nguyen and Minh Le Nguyen, "Improving English-

Vietnamese Statistical Machine Translation Using Pre-processing Dependency

23

Syntactic", In Proceedings of the Pacific Association for Computational Linguis-

tics 2015, pages 115-121.

[6] Viet Hong Tran, Huyen Vu Thuong, Vinh Nguyen Van and Trung Le Tien, "The

English-Vietnamese Machine Translation System for IWSLT 2015", In Proceed-

ing of the 12th International Workshop on Spoken Language Translation, 2015,

pages 80-84. Available: http://workshop2015.iwslt.org.

[7] Viet Hong Tran, Anh Tuan Pham, Vinh Van Nguyen, Hoai Xuan Nguyen, Huy

Quang Nguyen, "Parameter Learning for Statistical Machine Translation using

CMA-ES", In Proceedings of the Sixth International Conference KSE 2014, Se-

ries: Advances in Intelligent Systems and Computing, Vol. 326, pages 251-259.

[8] Luan Nghia Pham, Viet Hong Tran, Vinh Van Nguyen, "Vietnamese Text Ac-

cent Restoration with Statistical Machine Translation ", Proceeding of 27th Pa-

cific Asia Conference on Language, Information and Computation. Available:

http://aclweb.org/anthology/Y13-1044

[9] Hoai Thu Vuong, Vinh Van Nguyen, Viet Hong Tran and Akira Shimazu, "Im-

proving Statistical Machine Translation with Processing Shallow Parsing", Pro-

ceeding of 26th Pacific Asia Conference on Language, Information and Compu-

tation. Available: http://www.aclweb.org/anthology/Y/Y12/Y12-1043.pdf

[10] Trƒn H(cid:231)ng Vi»t, V(cid:247)(cid:236)ng Ho(cid:160)i Thu, Nguy„n V«n Vinh,Trƒn L¥m Qu¥n, "(cid:129)p d(cid:246)ng

ti•n xß l(cid:254) c(cid:243) ph¡p n(cid:230)ng trong d(cid:224)ch m¡y thŁng k¶", K(cid:27) y‚u hºi th£o QuŁc gia lƒn

thø XV "Mºt sŁ v§n (cid:31)• ch(cid:229)n l(cid:229)c cıa C(cid:230)ng ngh» th(cid:230)ng tin v(cid:160) Truy•n th(cid:230)ng",

trang 410-416.

24