1
Dch máy
1
Lê Thanh Hương
B môn H thng Thông tin
Vin CNTT &TT – Trường ĐHBKHN
Email: huonglt-fit@mail.hut.edu.vn
Ví d
Au sortir de la saison 97/98 et surtout
au debut de cette saison 98
/
99…
2
/
With leaving season 97/98 and
especially at the beginning of this
season 98/99…
Các vn đề
1. X lý s ging và khác nhau gia các ngôn ng
Hình v: # s âm tiết/t:
Ngôn ngđơmtiết(tiếng Vit, Trung Quc)
1
3
Ngôn
ng
đơn
âm
tiết
(
tiếng
Vit,
Trung
Quc)
1
tiếng/t
Ngôn ng đa âm tiết
(Siberian Yupik), 1 t = c 1 câu
Mc độ phân chia âm tiết
Các vn đề
2. Cú pháp: trt t t trong câu
To Yukio; Yukio ne
Tiếng Anh – tiếng Vit:
The
(affix1)
red
(affix2)
flag
(head)
L
ác
(head)
đỏ
(affix2)
(affix1)
4
L
á
c
(head)
đỏ
(affix2)
(affix1)
3. Các nét riêng bit
English brother Vietnamese anh
em
English wall German wand (inside)
mauer(outside)
German berg English hill
mountain
Không gian khái nim
5
Khong trng t vng: tiếng Nht không có t nào nghĩa
privacy;
tiêgns Anh không có t ng vi
yakoko
(lòng hiếu tho)
Ba khi chính trong dch máy
ngôn
ng
ngun S
ngôn ng đích
T
hiu
ngôn ng
dch
ngôn ng
6
thông tin ánh x
ngôn ng
ngun - đích
2
Hiu ngôn ng
1. Nhp nhng t vng:
English:
book -
Spanish
libro, reservar
S dng thông tin cú pháp
2. Nhp nhng cú pháp:
I saw the guy on the hill with the telescope
7
I
saw
the
guy
on
the
hill
with
the
telescope
3. Nhp nhng ng nghĩa:
E: While driving, John swerved & hit a tree
John’s car
S: Minetras que John estaba manejando, se desvio y
golpeop con un arbo
Các phương pháp dch máy
p
h
áp
mc tru
tượng
cao
ng nghĩa
siêu ngôn ngsiêu ngôn ng
dch chuyn đổi
8
st
ag
t-t
p áp
thp
a =
a(s)
g =
f(a(s)); f
hàm chuyn đổi
t=g(f(a(s)))
dch trc tiếp
Sơ đồ chuyn đổi
9
Lut chuyn đổi
10
Sơ đồ chuyn đổi
11
Cách tiếp cn siêu ngôn ng: s dng
nghĩa
Chuyn đổi: các lut chuyn đổi t ngôn ng này
sang ngôn ng khác
ĐỐi tượng/s kin (ontology)
12
3
Dch máy thng kê
13
Các kiu dch máy
mc đ
tru tượng
cao
ngnghĩa
siêu ngôn ng
}
chuy
n đ
i
14
st
ag
t-t
cú pháp
thp
ng
nghĩa
}
chuy
n đ
i
ý tưởng
Coi vic dch như bài toán kênh có nhiu
Input (Ngun) “Noisy” Output (đích)
The channel
E: English words... (adds “noise”) F: Les mots Anglais...
15
Mô hình dch: P(E|F) = P(F|E) P(E) / P(F)
Khôi phc li E khi biết F:
Sau khi đơn gin hóa (P(F) không đổi):
argmaxEP(E|F) = argmaxEP(F|E) P(E)
Dch máy thng kê
16
Các yếu t
Mô hình ngôn ng - Language Model (LM): xác sut thy
1 câu tiếng Anh (E) (xác sut tin nghim):
P(E)
Mô hình dch - Translation Model (TM): câu đích trong
17
tiến
g
Pháp (F) khi có câu tiến
g
Anh:
P(F|E)
Th tc tìm kiếm:
Cho F, tìm E tt nht s dng mô hình ngôn ng LM và
mô hình dch TM.
Vn đề: thiếu d liu!
Ta không th to t đin câu E F
Thm thí bình thường ta không thy 1 câu lp li 2 ln
Ý tưởng gióng hàng
Mô hình dch TM không quan tâm đến chui đúng các t
tiếng Anh
S dng cách tiếp cn gán nhãn:
18
•1 t tiếng Anh(“tag”) ~ 1 t tiếng Pháp (“word”)
không thc tế: thm chí s t trong 2 câu không bng
nhau
s dng “gióng hàng”.
Gióng hàng câu: tìm các nhóm câu trong 1 ngôn ng tương
ng vi các nhóm câu khác trong ngôn ng khác
4
Gióng hàng câu
The old man is
happy. He has
fished many
El viejo está feliz
porque ha pescado
muchos veces Su
19
fished
many
times. His wife
talks to him. The
fish are jumping.
The sharks await.
muchos
veces
.
Su
mujer habla con él.
Los tiburones
esperan.
Gióng hàng câu
1. The old man is
happy.
2. He has fished many
times
1. El viejo está feliz
porque ha pescado
muchos veces.
20
times
.
3. His wife talks to him.
4. The fish are jumping.
5. The sharks await.
2. Su mujer habla
con él.
3. Los tiburones
esperan.
Gióng hàng câu
1. The old man is
happy.
2. He has fished many
times.
1. El viejo está feliz
porque ha pescado
muchos veces.
2. Su mujer habla con
21
3. His wife talks to him.
4. The fish are jumping.
5. The sharks await.
él.
3. Los tiburones
esperan.
Khó khăn:
S liên quan chéo: trt t câu thay đổi khi dch
Gióng hàng t -Mc d
22
Gióng hàng t - Khó hơn
23
Gióng hàng t - Khó hơn
24
5
Gióng hàng t -Khó
25
Gióng hàng t - Mã hóa
0 1 2 3 4 5 6
e0And the program has been implemented
26
f0Le programme a été mis en application
0 1 2 3 4 5 6 7
Gán thông tin tuyến tính:
•f
0(1) Le(2) programme(3) a(4) été(5) mis(6) en(6)
application(6)
•e
0And(0) the(1) program(2) has(3) been(4)
implemented(5,6,7)
Hc vic gióng hàng t s dng
EM
27
Hc vic gióng hàng t s dng EM
28
Hc vic gióng hàng t s dng EM
29
Kênh nhiu
Mô hình ngôn ng
P(e)
Mô hình dch
P(f|e)
eGii mã
Argmax
=
P(e|f)
f
e
30
P(e|f)
e
e