ĐẠI HỌC QUỐC GIA NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
———————
TRẦN HỒNG VIỆT
CẢI TIẾN CHẤT LƯỢNG DỊCH Y
THỐNG ANH-VIỆT DỰA VÀO ĐO TRẬT TỰ TỪ
THEO Y PHÁP PHỤ THUỘC
LUẬN ÁN TIẾN KHOA HỌC Y TÍNH
Nội - 2019
ĐẠI HỌC QUỐC GIA NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
———————
TRẦN HỒNG VIỆT
CẢI TIẾN CHẤT LƯỢNG DỊCH Y
THỐNG ANH-VIỆT DỰA VÀO ĐO TRẬT TỰ TỪ
THEO Y PHÁP PHỤ THUỘC
Chuyên ngành: Khoa học y tính
số: 9 48 01 01 01
LUẬN ÁN TIẾN KHOA HỌC Y TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. TS. Nguyễn Văn Vinh
2. PGS.TS. Nguyễn Minh
Nội - 2019
Lời cam đoan
Tôi xin cam đoan luận án y kết quả nghiên cứu của tôi, được thực hiện
dưới sự hướng dẫn của TS. Nguyễn Văn Vinh và PGS.TS. Nguyễn Minh.
Các nội dung trích dẫn từ các nghiên cứu của các tác giả khác trình y trong
luận án y được ghi nguồn trong phần tài liệu tham khảo.
Trần Hồng Việt
TÓM TT
Đảo trật tự từ một trong các vấn đề quan trọng của dịch máy liên
quan đến việc làm thế nào để sinh ra thứ tự các từ (cụm từ) chính xác trong
ngôn ngữ đích. Trong hệ dịch y thống dựa trên cụm từ (Phrase-Based
Statistical Machine Translation - PBSMT)(Koehn và cộng sự, 2003; Och và
Ney, 2004) [59,89], việc đảo cụm từ vẫn còn đơn giản và chất lượng chưa cao.
Bên cạnh đó, do các ngôn ngữ nhiều đặc điểm khác nhau (đặc biệt sự khác
nhau v thứ tự từ trong các ngôn ngữ) dẫn tới không thể hình hóa chính
xác trong quá trình dịch [89]. Nhiều hướng nghiên cứu giải quyết vấn đề sắp
xếp lại trật tự từ bên trong hệ thống dịch máy thống kê dựa trên cụm từ. Một
số nghiên cứu theo hướng tiếp cận tiền xử cho vấn đề sắp xếp lại trật tự từ
cho kết quả tốt, đảm bảo cân bằng giữa chất lượng dịch và thời gian giải
qua thực hiện tiền xử quá trình sắp xếp lại.
Với ưu điểm của cấu trúc y pháp ph thuộc: kết nối tất cả các từ trong
một câu với khả năng nắm bắt ph thuộc giữa các từ xa nhau với các cấu trúc
ph thuộc địa phương cũng như sự tương ứng chặt chẽ với ngữ nghĩa, luận
án tập trung nghiên cứu đề tài: "Cải tiến chất ợng dịch y thống kê
Anh-Việt dựa vào đảo trật tự từ theo y pháp ph thuộc".
Luận án tập trung giải quyết các tồn tại đã nêu thông qua bài toán: sắp
xếp lại các từ của câu cần dịch trong ngôn ngữ nguồn theo thứ tự gần nhất
thể với câu được dịch trong ngôn ngữ đích. Các đề xuất y thực hiện như
bước tiền xử sử dụng y pháp ph thuộc đối với ngôn ngữ nguồn để
đưa vào hệ dịch thống dựa trên cụm từ nhằm cải tiến chất lượng dịch y.
Kết quả dịch từ tiếng Anh sang tiếng Việt với b dữ liệu IWSLT 2015 trên hệ
thống của chúng tôi tốt hơn hai hệ thống dịch phổ biến nhất hiện nay NMT
và PBSMT.
Đóng góp của luận án cụ thể như sau:
2
Thứ nhất, luận án đề xuất các luật đảo trật tự từ th công từ việc lựa
chọn các đặc trưng v ngôn ngữ trên y pháp phụ thuộc. Từ đó áp
dụng phương pháp đảo trật tự từ để nâng cao chất lượng hệ thống dịch
y Anh-Việt.
Thứ hai, luận án đề xuất phương pháp y dựng luật đảo trật tự từ tự
động. Chúng tôi coi việc y dựng luật đảo trật tự từ như vấn đề học
y trong việc dự đoán chính xác vị trí các thành phần của luật để đoán
thứ tự đúng các câu trong ngôn ngữ nguồn tương ứng với thứ tự câu
ngôn ngữ đích. Với hai đề xuất gồm:
Khai thác các đặc trưng v ngôn ngữ và đề xuất phương pháp sử
dụng các b phân lớp để giải quyết bài toán đảo trật tự từ. Cụ thể
xác định thứ tự đúng của các phân lớp quan hệ giữa cụm cha-con
trên y phân tích ph thuộc biểu diễn câu đầu vào.
Bằng việc khai thác quan hệ các cặp từ trên y phân tích ph thuộc
và ưu điểm của việc biểu diễn dưới dạng word embedding, luận án
đề xuất phương pháp sử dụng mạng nơ-ron để giải quyết bài toán
đảo trật tự từ câu nguồn theo thứ tự từ câu đích trước khi đưa vào
hệ dịch để nâng cao chất lượng dịch.
Thứ ba, luận án đưa ra phân tích ảnh hưởng của các lỗi phân tích
pháp đến chất lượng dịch qua việc áp dụng các luật đảo trật tự từ đối
với câu nguồn. Các phân tích y mang lại lợi ích cho việc cải tiến các
phương pháp đảo trật tự từ dựa trên pháp và phát triển việc phân tích
pháp ph thuộc, đặc biệt với ngôn ngữ tiếng Việt.
Từ khóa: dịch máy, dịch y thống kê, tiền xử pháp, pháp ph
thuộc, dịch y thống kê dựa trên cụm từ.
3