Nguyễn Văn Vinh và Đtg<br />
<br />
Tạp chí KHOA HỌC & CÔNG NGHỆ<br />
<br />
113(13): 107 - 113<br />
<br />
MỘT CÁCH TIẾP CẬN TÍCH HỢP TRÍ THỨC VỀ NGÔN NGỮ<br />
VÀO HỆ DỊCH MÁY THỐNG KÊ<br />
Nguyễn Văn Vinh1, Lê Thu Trang2,*, Nguyễn Thị Xuân Hương3<br />
2<br />
<br />
1<br />
Trường Đại học Công nghệ – ĐH Quốc Gia Hà Nội<br />
Trường Đại học Công nghệ thông tin và Truyền thông – ĐH Thái Nguyên<br />
3<br />
Trường Đại học Dân lập Hải Phòng<br />
<br />
TÓM TẮT<br />
Mô hình dịch thống kê dựa vào cụm (MHTKC) [6] là một trong những mô hình dịch tự động tốt nhất<br />
hiện nay. Tuy nhiên sự hạn chế của mô hình MHTKC là nó xem xét các cụm như là dãy liên tiếp các<br />
từ và nó hoàn toàn bỏ qua bất cứ thông tin về ngôn ngữ (thông tin cú pháp, thông tin ngữ nghĩa,…).<br />
Để giải quyết vấn đề này, trong bài báo này, chúng tôi tập trung vào nghiên cứu cải tiến mô hình đảo<br />
trật tự từ vựng. Chúng tôi mở rộng mô hình đảo trật tự cụm có phân cấp [2] sử dụng mô hình<br />
Maximum Entropy (ME) để đoán hướng và ước lượng xác suất. Với mô hình này, chúng ta có thể<br />
tích hợp thông tin giàu tri thức ngôn ngữ vào như các thuộc tính địa phương cũng như là toàn cục.<br />
Hơn nữa, xác suất được ước lượng bằng mô hình ME sẽ chính xác và mịn hơn so với ước lượng dựa<br />
vào cách tiếp cần tần suất tương đối. Kết quả thử nghiệm với cặp ngôn ngữ Anh-Việt cho thấy cách<br />
tiếp cận của chúng tôi tốt hơn so với cách tiếp cận sử dụng mô hình từ vựng phân cấp [2].<br />
Từ khóa: Mô hình dịch thống kê, trí thức về ngôn ngữ.<br />
<br />
ĐẶT VẤN ĐỀ*<br />
Những năm gần đây, sự bùng nổ của cách tiếp<br />
cận dịch máy thống kê dựa vào cụm đã tạo ra<br />
các sản phẩm thương mại được sử dụng rộng<br />
rãi trên thế giới (hệ dịch của google,<br />
microsoft, …) [14][15]. Một trong những vấn<br />
đề quan trọng của dịch máy thống kê dựa vào<br />
cụm liên quan đến việc là làm thế nào để sinh<br />
ra thứ tự các từ (cụm) chính xác trong ngôn<br />
ngữ đích.<br />
<br />
Hình 1. Hướng của cụm (M, S, D) cho ví dụ dịch<br />
Anh-Việt<br />
<br />
Để giải quyết vấn đề trên, gần đây, trong<br />
[4][5], mô hình đảo trật tự từ vựng (LRMs) đã<br />
phát triển để dự đoán hướng của cặp cụm dựa<br />
vào cụm đích liền kề. Những mô hình này<br />
phân biệt ba hướng của cặp cụm hiện tại theo<br />
*<br />
<br />
Tel: 0925009989<br />
<br />
cụm đích phía trước: (1) monotone (M) – cụm<br />
nguồn phía trước là liền kề trước cụm nguồn<br />
hiện tại, (2) swap (S) – cụm nguồn phía trước<br />
là liền kề sau cụm nguồn hiện tại và (3)<br />
discontinuous (D) – không phải là S và M.<br />
Hình 1 (1) biểu diễn ví dụ mà ở đây mô hình<br />
hiệu quả trong việc swap cụm tính từ “nice<br />
new” và cụm “house” và cụm “a” là<br />
monotone với cụm “This is”. Những mô hình<br />
đảo trật tự từ vựng này cho chất lượng tốt hơn<br />
so với MHTKC. Tuy nhiên những mô hình<br />
này giải quyết đảo trật tự từ của các cụm cạnh<br />
nhau, chúng thường thất bại khi cụm từ mà vị<br />
trị đảo nằm xa nhau. Ví dụ trong hình 1 (2),<br />
hướng của cụm “Tom’s” nên được swap với<br />
phần còn lại của cụm danh từ, tuy nhiên LRM<br />
đoán hướng là discontinuous (D).<br />
Galley and Manning [2] đã mở rộng mô hình<br />
LRMs bằng cách đề xuất mô hình đảo cụm<br />
phân cấp (HRM). Mô hình này dựa vào cấu<br />
trúc phân cấp và có thể giải quyết được<br />
trường hợp đảo vị trí của các cụm xa nhau. Ví<br />
dụ trong hình 1(2) mô hình của họ có thể giải<br />
quyết được cụm liền kề “two” và “blue<br />
books” như là một cụm và sự thay thế của<br />
“Tom’s” theo cụm này được giải quyết như là<br />
swap(S). Tuy nhiên, mô hình của họ cũng có<br />
vài nhược điểm như sau:<br />
107<br />
<br />
Nguyễn Văn Vinh và Đtg<br />
<br />
Tạp chí KHOA HỌC & CÔNG NGHỆ<br />
<br />
• Mô hình này ước lượng xác suất dựa vào<br />
cách tiếp cận quan hệ tần suất, mà ở đây sẽ<br />
chụi ảnh hưởng của vấn đề dữ liệu thưa. Một<br />
trong những lý do là hầu hết các ví dụ về cụm<br />
chỉ xuất hiện 1 lần trong dữ liệu huấn luyện<br />
(96.5% ví dụ về cụm xuất hiện 1 lần trong<br />
kho dữ liệu “General”).<br />
• Mô hình này không sử dụng bất cứ thông tin<br />
về ngôn ngữ. Điều này làm thiếu thông tin<br />
ngữ cảnh trong việc dự đoán hướng và ước<br />
lượng xác suất của cặp cụm.<br />
Chúng tôi tập trung vào nghiên cứu cải tiến<br />
mô hình đảo trật tự từ vựng. Chúng tôi mở<br />
rộng mô hình đảo trật tự cụm có phân cấp [2]<br />
sử dụng mô hình Maximum Entropy (ME) để<br />
đoán hướng và ước lượng xác suất . Với mô<br />
hình này, chúng ta có thể tích hợp thông tin<br />
giàu trí thức ngôn ngữ vào như các thuộc tính<br />
địa phương cũng như là toàn cục. Hơn nữa,<br />
xác suất được ước lượng bằng mô hình ME sẽ<br />
chính xác và mịn hơn so với ước lượng dựa<br />
vào cách tiếp cần tần suất tương đối. Kết quả<br />
thử nghiệm với cặp ngôn ngữ Anh-Việt cho<br />
thấy cách tiếp cận của chúng tôi tốt hơn so<br />
với cách tiếp cận sử dụng mô hình từ vựng<br />
phân cấp [2].<br />
MỘT SỐ NGHIÊN CỨU LIÊN QUAN<br />
Quá trình giải mã trong MHTKC xây dựng câu<br />
đích từ trái qua phải. Từ giả thuyết hiện tại,<br />
điều quan trọng là phải xác định cụm nguồn<br />
nào cần được dịch. Một vài nhà nghiên cứu<br />
[11], [4] đã đề xuất mô hình khá mạnh được<br />
gọi là mô hình đảo trật tự từ vựng cho việc dự<br />
đoán hướng của cụm nguồn như mô tả ở phần<br />
trên. LRMs học hướng địa phương (monotonecùng hướng, swap- khác hướng, discontinue không gần nhau) với xác suất của mỗi cặp cụm<br />
song ngữ từ dữ liệu huấn luyện.<br />
[12][13] ứng dụng mô hình Maximum<br />
Entropy cho đảo trật tự cụm. Họ sử dụng ME<br />
ước lượng xác suất đảo cụm. Tuy nhiên họ sử<br />
dụng các đặc trưng đơn giản và áp dụng vào<br />
các mô hình khác của dịch máy.<br />
Galley and Manning [2] đã mở rộng mô hình<br />
LRMs bằng cách đề xuất mô hình đảo cụm<br />
phân cấp (HRM). Mô hình này dựa vào cấu<br />
trúc phân cấp và có thể giải quyết được<br />
108<br />
<br />
113(13): 107 - 113<br />
<br />
trường hợp đảo vị trí của các cụm xa nhau.<br />
Tuy nhiên mô hình của họ cũng một số nhược<br />
điểm như đã nêu ở phần trên.<br />
MÔ HÌNH ĐẢO TRẬT TỰ TỪ VỰNG<br />
Để cải tiến mô hình đảo cụm dựa vào khoảng<br />
cách, [4] [11] đã đề xuất mô hình đảo trật tự<br />
từ vựng. Mô hình sẽ dựa vào quan hệ vị trí<br />
với các cụm liền kề của cụm đích từ đó tính<br />
xác suất của các cặp cụm tương ứng.<br />
Cho một câu nguồn f, mà được dịch thành câu<br />
ngôn ngữ đích e. Hệ thống dịch thống kê dựa<br />
vào cụm tốt nhất hiện nay là mô hình tuyến<br />
tính logarit của xác suất điều kiện Pr(f|e):<br />
e x p ∑ i λ i hi ( e , f )<br />
(1)<br />
P r( f | e ) =<br />
∑ e ' e x p λ i hi ( e ', f )<br />
Ở đây hi (e, f ) là hàm đặc trưng bất kỳ trên<br />
cặp câu (e,f). Tham số λ là trọng số của các<br />
hàm đặc trưng hi (e, f ) . Quá trình tìm kiếm<br />
giải mã sẽ tìm câu dịch tốt nhất ê thỏa mãn<br />
công thức sau:<br />
<br />
<br />
(2)<br />
ê =<br />
exp<br />
λ h (e, f )<br />
<br />
arg max<br />
e<br />
<br />
<br />
<br />
<br />
∑<br />
<br />
i<br />
<br />
<br />
<br />
<br />
i<br />
<br />
i<br />
<br />
Các đặc trưng bao gồm trong mô hình đảo trật<br />
tự từ vựng đươc tham số hóa như sau: cho<br />
trước câu nguồn f, dãy các cụm ngôn ngữ<br />
đích e = (e1 ,......., en ) là các giả thuyết hiện<br />
tại của quá trình giải mã và gióng hàng cụm<br />
a = (a1 ,...., an ) xác định sao cho cụm nguồn<br />
<br />
f ai tương ứng với cụm dịch của nó là cụm<br />
đích ei. Những mô hình ước lượng xác suất<br />
của dãy các hướng (o = o1, …, on ) như sau:<br />
<br />
P r( o | e , f ) =<br />
<br />
n<br />
<br />
∏<br />
i =1<br />
<br />
p ( oi | e i , f<br />
<br />
ai<br />
<br />
)<br />
<br />
trong đó oi nhận các giá trị hướng<br />
∆ = M , S , D . Trong khi tuyển tập các cặp<br />
cụm, có thể phân loại chúng thành 3 hướng<br />
như sau:<br />
• oi = M nếu ai – ai -1 = 1<br />
• oi = S nếu ai – ai -1 = -1<br />
• oi = D nếu (ai – ai -1 ≠ 1 và ai – ai -1 ≠ -1)<br />
Trong từng bước của quá trình giải mã, chúng<br />
tôi dựa vào cách tiếp cận của Moses mà ở đây<br />
<br />
Nguyễn Văn Vinh và Đtg<br />
<br />
Tạp chí KHOA HỌC & CÔNG NGHỆ<br />
<br />
gán cho ba tham số phân biệt (λm, λs, λd ) với<br />
ba hàm đặc trưng tương ứng:<br />
<br />
fm =<br />
<br />
∑ i =1 log p ( oi = M |e i , f ai )<br />
n<br />
<br />
f s = ∑ i =1 log p ( oi = S |e i , f ai )<br />
n<br />
<br />
f d = ∑ i =1 log p ( oi = D |e i , f ai )<br />
n<br />
<br />
Để tích hợp p (oi | e i , f<br />
<br />
ai<br />
<br />
) vào công thức<br />
<br />
(1) trong quá trình giải mã, chúng ta cần tính<br />
những giá trị xác suất này. Cách đơn giản để<br />
tính là ta dựa vào tần xuất xuất hiện như sau:<br />
<br />
p (oi | e i , f<br />
<br />
ai<br />
<br />
)=<br />
<br />
C o u n t (oi , e i , f<br />
<br />
ai )<br />
<br />
∑ 0 C o u n t ( o , e i , f ai )<br />
<br />
trong đó Count(x) là số lần xuất hiện của x<br />
trong dữ liệu huấn luyện.<br />
Chúng tôi tính p (oi | e i , f<br />
<br />
ai<br />
<br />
) dựa vào gióng<br />
<br />
hàng cụm trước ai-1 của ai. Chúng ta giả sử ai<br />
có m gióng hàng cụm trước. Ta có:<br />
<br />
∑ Count ( o , e i , f , a )<br />
∑ ∑ Count ( o , e , f , a )<br />
m<br />
<br />
p ( oi | e i , f<br />
<br />
ai ) =<br />
<br />
k =1<br />
<br />
i<br />
<br />
k<br />
i −1<br />
<br />
ai<br />
<br />
m<br />
<br />
k =1<br />
<br />
i<br />
<br />
0<br />
<br />
k<br />
i −1<br />
<br />
ai<br />
<br />
Tuy nhiên, cách tính như trên sẽ gặp một số<br />
vấn đề như là dữ liệu thưa vì vậy cách hợp lý<br />
là ta sử dụng mô hình Maximum Entropy để<br />
tích hợp đặc trưng và tính xác suất như sau:<br />
p ( oi | e i , f<br />
<br />
ai<br />
<br />
)=<br />
<br />
exp( ∑ j θ j h j ( oi , e i , f<br />
<br />
∑ 0 exp( ∑<br />
<br />
j<br />
<br />
ai<br />
<br />
θ j h j ( oi , e i , f<br />
<br />
))<br />
ai<br />
<br />
))<br />
<br />
TÍCH HỢP MÔ HÌNH ĐẢO TRẬT TỰ TỪ<br />
VỰNG VÀO HỆ THỐNG DỊCH MÁY DỰA<br />
VÀO CỤM SỬ DỤNG MÔ HÌNH<br />
MAXIMUM ENTROPY<br />
<br />
113(13): 107 - 113<br />
<br />
Mô hình<br />
Trong phần này chúng tập trung sử dụng<br />
thông tin ngữ cảnh để giúp HRM tính xác<br />
suất và dự đoán hướng của cụm. Chúng tôi<br />
xem hướng của cụm như là bài toán phân lớp:<br />
Hướng của cụm (M, S, D) là nhãn. Vì vậy<br />
trong quá trình giải mã, cách hiệu quả để giải<br />
quyết bài toán phân lớp là cách tiếp cận dựa<br />
vào Maximum Entropy:<br />
p (oi | e i , f ai ) =<br />
<br />
exp( ∑ j θ j h j ( oi , e i , f ai ))<br />
<br />
∑ 0 exp(∑<br />
<br />
j<br />
<br />
θ j h j ( oi , e i , f<br />
<br />
ai<br />
<br />
))<br />
<br />
Định nghĩa các đặc trưng<br />
1) Từ chính của cụm (HW). Ví dụ cụm<br />
“social sciences”, HW là “sciences”<br />
2) Một phần của chức năng ngữ pháp (POS)<br />
của từ chính (TG). Ví dụ cụm “social<br />
sciences”, TG là NNS.<br />
3) Nhãn cú pháp của cụm (SL). Ví dụ với<br />
cụm “social sciences”, SL là NP<br />
4) Đặc trưng nút mẹ (Parent Features)<br />
Nút mẹ của ST trong cây phân tích của câu<br />
nguồn. Với cùng cây con của câu nguồn có<br />
nút mẹ khác nhau trong ví dụ huấn luyện. Và<br />
các đặc trưng này có thể cung cấp thông tin<br />
để phân biệt giữa các cây con của câu nguồn.<br />
Hình 2a biểu diễn nút mẹ của cây con ST<br />
(“social sciences”) là nút VP trong hình thoi.<br />
5) Đặc trưng nút anh em (Sibling Features)<br />
Nút anh em của nút gốc ST (“social<br />
sciences”). Đặc trưng này xem xét nút anh em<br />
(nút VBD trong hình thoi) mà cùng nút mẹ<br />
(VP). Được biểu diễn ở hình 2b.<br />
<br />
Hình 2. Minh họa về một số đặc trưng<br />
109<br />
<br />
Nguyễn Văn Vinh và Đtg<br />
<br />
Tạp chí KHOA HỌC & CÔNG NGHỆ<br />
<br />
Trong quá trình trích trọn đặc trưng, chúng ta<br />
phải gán nhãn cho các cặp cụm mà được cho<br />
bởi các cụm nguồn và cây phân tích của nó.<br />
Sự thực hiện gán nhãn cụm như sau:<br />
• Nếu cây con (subtree) ST phủ chính xác<br />
cụm p thì chúng ta xác định (HW, TG, SL,<br />
PF, SBF) từ cây con trên.<br />
• Nếu cây con mà không phủ toàn bộ cụm p<br />
(cụm p không là thành phần ngữ pháp) thì ta<br />
chọn cây con nhỏ nhất SST mà chứa p. Ta<br />
xác định (HW, TG, SL, PF, SBF) từ cây con<br />
SST cho cụm p (nếu HW ∉ p, chúng ta chọn<br />
từ đầu tiên của cụm p làm HW).<br />
Chúng tôi tính p (oi | e i , f<br />
<br />
ai<br />
<br />
Để tính toán những xác suất này, mô hình<br />
phải xác định các khối liên tiếp M hoặc S mà<br />
có thể kết hợp với nhau thành khối phân cấp.<br />
Chúng tôi đã sử dụng thuật toán như mô tả<br />
trong [2] để tính các xác suất trên.<br />
<br />
) dựa vào gióng<br />
<br />
hàng cụm trước ai-1 của ai. Với mỗi (e i , f ai )<br />
chung ta có m ví dụ của cặp cụm<br />
<br />
(ei , f ai , aik−1 , ai ) (k = 1, .., m). Mỗi ví dụ<br />
của cặp cụm, chúng ta trích trọn đặc trưng<br />
dựa vào cây con ST của f ai và<br />
<br />
f ak<br />
<br />
i −1<br />
<br />
.<br />
<br />
Chúng tôi sử dụng 2 mẫu của đặc trưng là<br />
từng đặc trưng và kết hợp các đặc trưng.<br />
Huấn luyện<br />
Đầu tiên mỗi cặp cụm, ta trích trọn ví dụ từ<br />
mỗi cặp cụm. Thứ hai, chúng ta tính toán<br />
<br />
p(oi | e i , f ai ) sử dụng mô hình Maximum<br />
Entropy. Tất cả các ví dụ của cặp cụm trong<br />
mô hình này được trích trọn theo thuật toán<br />
trích cụm [10] với độ dài của cụm là 8.<br />
Chúng tôi trích trọn đặc trưng như mô tả như<br />
ở trên từ các ví dụ của các cặp cụm. Sau đó<br />
chúng tôi sử dụng công cụ mã nguồn mở<br />
Maximum Entropy để huấn luyện mô hình<br />
Maximum Entropy cho mô hình đảo trật tự.<br />
Chúng tôi thiết lập số vòng lặp là 100 và tham<br />
số ưu tiên Gaussian là 1.<br />
Quá trình giải mã<br />
Trong quá trình giải mã, chúng ta cần tìm<br />
theo ê công thức (2). Chúng tôi phát triển<br />
công cụ giải mã cho dịch thống kê dựa vào<br />
cụm dưa vào công cụ giải mã Pharaoh [3]. Để<br />
tích hợp mô hình HRM vào quá trình giải mã,<br />
chúng tôi tính điểm đảo trật tự cụm với mô<br />
hình HRM (xác định p (oi | e i , f<br />
110<br />
<br />
113(13): 107 - 113<br />
<br />
ai<br />
<br />
) ).<br />
<br />
Hình 3. Cụm phân cấp h1 và h2 biểu diễn “may<br />
gio” and “khong” có hướng Swap (S). Trong khi<br />
h3 biểu diễn “?” có hướng là Monotone (M)<br />
<br />
Chúng tôi sử dụng một thể hiện của thuật toán<br />
phân tích shift-reduce và dựa vào ngăn xếp<br />
(Stk) chứa chuỗi xâu nguồn mà đã được dịch.<br />
Mỗi lần, quá trình giải mã sẽ thêm khối mới<br />
vào giả thuyết dịch hiện thời, nó sẽ chuyển<br />
khối ngôn ngữ nguồn vào Stk, sau đó nó lặp<br />
đi lặp lại việc kết hợp hai phần tử trên đỉnh<br />
của ngăn xếp Stk nếu chúng là liên tiếp nhau.<br />
Chúng ta không cần lưu trữ ngôn ngữ đích<br />
bởi vì quá trình giải mã thực hiện từ trái qua<br />
phải và các khối thành công luôn luôn là liên<br />
tiếp nhau theo ngôn ngữ đích.<br />
Với ví dụ: Cho ngôn ngữ nguồn tiếng Anh<br />
“Do you know what time the film begins?” và<br />
câu dịch tương ứng trong tiếng Việt là: “Ban<br />
biet bo_phim bat_dau may gio khong ?”.<br />
Chúng tôi minh họa các bước của quá trình<br />
dịch này. Hình 4 mô tả các bước thực thi của<br />
thuật toán này mà kết quả dịch được thể hiện<br />
trong hình 3 mà ở đây thực hiện quá trình giải<br />
mã của MHTKC và tích hợp mô hình đảo trật<br />
tự cụm phân cấp.<br />
Cột đầu tiên biểu diễn cụm đích mà quá trình<br />
giải mã thực hiện từ trái qua phải. Cột thứ 3<br />
bao gồm các toán tử chuyển- shift (S), kết<br />
hợp- reduce (R) và chấp nhận (A) của ngăn<br />
xếp Stk. Cột ngăn xếp (Stk) và cột cụm nguồn<br />
bao gồm các cận (span) của cụm nguồn (vị trí<br />
từ của cụm nguồn trong câu nguồn) mà ở đây<br />
<br />
Nguyễn Văn Vinh và Đtg<br />
<br />
Tạp chí KHOA HỌC & CÔNG NGHỆ<br />
<br />
là các thông tin cần thiết để xác định hai khối<br />
có liên tiếp nhau hay không. Cột oi biểu diễn<br />
nhãn được dự đoán bởi mô hình phân cấp<br />
bằng cách so sánh khối hiện tại với khối phân<br />
cấp trên đỉnh của Stk.<br />
Cụm<br />
nguồn<br />
Ban<br />
Biet<br />
bo_phim<br />
<br />
Source<br />
spans<br />
[2-2]<br />
[3-3]<br />
[6-7]<br />
<br />
Thực<br />
hiện<br />
S<br />
R<br />
S<br />
<br />
Oi<br />
<br />
bat_dau<br />
<br />
[8-8]<br />
<br />
R<br />
<br />
M<br />
<br />
may_gio<br />
<br />
[4-5]<br />
<br />
R<br />
<br />
S<br />
<br />
khong<br />
?<br />
<br />
[1-1]<br />
[9]<br />
<br />
R,R<br />
R,A<br />
<br />
S<br />
M<br />
<br />
M<br />
M<br />
D<br />
<br />
Ngăn xếp<br />
(Stk)<br />
[2-2]<br />
[2-3]<br />
[6-7],<br />
[2-3]<br />
[6-8],<br />
[2-3]<br />
[2-8]<br />
[1-8]<br />
<br />
Hình 4. Thuật toán phân tích shift - reducefor xác<br />
định khối phân cấp với ví dụ trong hình 3<br />
<br />
Quá trình giải mã thành công khi đặt vào Stk<br />
các cận của cụm nguồn [2-2], [3-3] mà ở đây<br />
kết hợp 2 cụm này thành [2-3] và chúng<br />
tương ứng có hướng monotone (M). Tiếp theo<br />
là khối [6-7] tương ứng là hướng (D) nên ta<br />
đặt vào Stk. Tiếp theo, quá trình giải mã sẽ<br />
kết hợp khối [8-8] với [6-7] thành [6-8] với<br />
hướng M và sau đó kết hợp [4-5] với [6-8]<br />
thành [4-8] với hướng S. Và cuối cùng khi<br />
quá trình giải mã thực hiện tới cụm “khong”,<br />
tương ứng với cận của cụm nguồn [1-1] mà sẽ<br />
được kết hợp thành công với [2-8] sinh ra<br />
trong ngăn xếp Stk bao gồm [1-8].<br />
Bảng 1. Kho dữ liệu và tập dữ liệu<br />
(đơn vị bằng số câu)<br />
Sentence Training Dev Test<br />
Corpus<br />
pairs<br />
set<br />
set<br />
set<br />
General<br />
55,341<br />
54,642<br />
200<br />
499<br />
<br />
KẾT QUẢ THỬ NGHIỆM<br />
Tập dữ liệu<br />
Chúng tôi thử nghiệm với cặp ngôn ngữ AnhViệt. Chúng tôi sử dụng kho dữ liệu song ngữ<br />
Anh-Việt được tập hợp từ báo mới hàng ngày<br />
[10]. Kho dữ liệu này bao gồm 55,341 cặp<br />
câu song ngữ, được chia là 3 tập: huấn luyện,<br />
tập phát triển và tập thử nghiệm. Tập dữ liệu<br />
<br />
113(13): 107 - 113<br />
<br />
được mô tả chi tiết trong bảng 1 và thông tin<br />
thống kê được mô tả trong bảng 2.<br />
Điểm BLEU<br />
Chúng tôi thử nghiệm trên PC với bộ vi xử lý<br />
Core 2- Duo 2.4 GZ, bộ nhớ 4 GB. Kết quả<br />
được thể hiện trên bảng 3. Chúng tôi chạy<br />
GIZA++[7] trong kho dữ liệu huấn luyện với<br />
cả hai hướng sử dụng các tham số mặc định,<br />
và ứng dụng luật “grow-diag-final” [6] để tạo<br />
ra gióng hàng từ tương ứng nhiều-nhiều cho<br />
mỗi cặp câu Anh-Việt. Về mô hình ngôn ngữ<br />
chúng tôi sử dụng công cụ mã nguồn mở<br />
SRILM [9]. Về đánh giá chất lượng dịch,<br />
chúng tôi sử dụng độ đo BLEU [8] mà được<br />
tính bởi công cụ Nist phiên bản 11b. Về phân<br />
tích các câu tiếng Anh trong tập huấn luyện,<br />
chúng tôi sử dụng một trong bộ phân tích<br />
thống kê tốt nhất hiện nay [1]. Sau đó chúng<br />
tôi trích trọn đặc trưng của các cặp ví dụ theo<br />
phương pháp của chúng tôi mô tả ở trên.<br />
Kết quả về chất lượng dịch được mô tả trong<br />
bảng 3. Hệ thống baseline là hệ thông dịch<br />
thống kê dựa vào cụm thông thường [3].<br />
Thêm vào đó, chúng tôi cũng so sánh hệ<br />
thống của chúng tôi với hai hệ thống: (1) hệ<br />
thông dịch dựa vào cụm tốt nhất hiện nay –<br />
Moses [5] mà ở đây có sử dụng mô hình đảo<br />
trật tự từ vựng; (2) hệ thống HRM mà ở đây<br />
hệ thống sử dụng mô hình đảo trật tự từ vựng<br />
phân cấp [2]. Ở đây chúng tôi cũng đánh giá<br />
hệ thống với từng loại đặc trưng bao gồm cả<br />
địa phương lẫn toàn cục.<br />
Để đánh giá ảnh hưởng của các đặc trựng địa<br />
phương và toàn cục, chúng tôi thử nghiệm với<br />
4 hệ thống sử dụng phương pháp trên bao<br />
gồm: “HW + TG + SL”, “HW + TG + SL +<br />
PF”, “HW + TG + SL + SBF”, HW + TG +<br />
SL + PF + SBF (tất cả đặc trưng)”. Điểm<br />
BLEU của hệ thống HRM và bốn hệ thống<br />
MEM tương ứng là 35.39, 36.14, 36.35,<br />
36.51, 36.76 mà ở đây cải tiến 0.64, 1.39,<br />
1.67, 1.58, 2.01 điểm so với hệ thống Moses.<br />
Điểm BLEU của hệ thống “HW + TG + SL” và<br />
“HW + TG + SL + PF + SBF” cải tiến 0.75 và<br />
1.37 điểm BLUE so với hệ thống HRM.<br />
<br />
Bảng 2. Thống kê thông tin về kho dữ liệu Anh – Việt<br />
111<br />
<br />