
TÓM TẮT
Đảo trật tự từ là một trong các vấn đề quan trọng của dịch máy liên
quan đến việc làm thế nào để sinh ra thứ tự các từ (cụm từ) chính xác trong
ngôn ngữ đích. Trong hệ dịch máy thống kê dựa trên cụm từ (Phrase-Based
Statistical Machine Translation - PBSMT)(Koehn và cộng sự, 2003; Och và
Ney, 2004) [59,89], việc đảo cụm từ vẫn còn đơn giản và chất lượng chưa cao.
Bên cạnh đó, do các ngôn ngữ có nhiều đặc điểm khác nhau (đặc biệt sự khác
nhau về thứ tự từ trong các ngôn ngữ) dẫn tới không thể mô hình hóa chính
xác trong quá trình dịch [89]. Nhiều hướng nghiên cứu giải quyết vấn đề sắp
xếp lại trật tự từ bên trong hệ thống dịch máy thống kê dựa trên cụm từ. Một
số nghiên cứu theo hướng tiếp cận tiền xử lý cho vấn đề sắp xếp lại trật tự từ
cho kết quả tốt, đảm bảo cân bằng giữa chất lượng dịch và thời gian giải mã
qua thực hiện tiền xử lý quá trình sắp xếp lại.
Với ưu điểm của cấu trúc cây cú pháp phụ thuộc: kết nối tất cả các từ trong
một câu với khả năng nắm bắt phụ thuộc giữa các từ xa nhau với các cấu trúc
phụ thuộc địa phương cũng như sự tương ứng chặt chẽ với ngữ nghĩa, luận
án tập trung nghiên cứu đề tài: "Cải tiến chất lượng dịch máy thống kê
Anh-Việt dựa vào đảo trật tự từ theo cây cú pháp phụ thuộc".
Luận án tập trung giải quyết các tồn tại đã nêu thông qua bài toán: sắp
xếp lại các từ của câu cần dịch trong ngôn ngữ nguồn theo thứ tự gần nhất
có thể với câu được dịch trong ngôn ngữ đích. Các đề xuất này thực hiện như
bước tiền xử lý sử dụng cây cú pháp phụ thuộc đối với ngôn ngữ nguồn để
đưa vào hệ dịch thống kê dựa trên cụm từ nhằm cải tiến chất lượng dịch máy.
Kết quả dịch từ tiếng Anh sang tiếng Việt với bộ dữ liệu IWSLT 2015 trên hệ
thống của chúng tôi tốt hơn hai hệ thống dịch phổ biến nhất hiện nay là NMT
và PBSMT.
Đóng góp của luận án cụ thể như sau:
2