ĐẠI HỌC QUỐC GIA HÀ NỘI<br />
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ<br />
<br />
LÊ QUANG HÙNG<br />
<br />
KHAI PHÁ TRI THỨC<br />
SONG NGỮ VÀ ỨNG DỤNG<br />
TRONG DỊCH MÁY ANH – VIỆT<br />
<br />
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH<br />
<br />
Hà Nội – 2016<br />
<br />
ĐẠI HỌC QUỐC GIA HÀ NỘI<br />
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ<br />
<br />
LÊ QUANG HÙNG<br />
<br />
KHAI PHÁ TRI THỨC<br />
SONG NGỮ VÀ ỨNG DỤNG<br />
TRONG DỊCH MÁY ANH – VIỆT<br />
Chuyên ngành: Khoa học máy tính<br />
Mã số: 62 48 01 01<br />
<br />
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH<br />
<br />
NGƯỜI HƯỚNG DẪN KHOA HỌC:<br />
1. PGS.TS. Lê Anh Cường<br />
2. PGS.TS. Huỳnh Văn Nam<br />
<br />
Hà Nội – 2016<br />
<br />
Lời cam đoan<br />
Tôi xin cam đoan luận án này là kết quả nghiên cứu của tôi, được thực hiện dưới<br />
sự hướng dẫn của PGS.TS. Lê Anh Cường và PGS.TS. Huỳnh Văn Nam. Các nội<br />
dung trích dẫn từ các nghiên cứu của các tác giả khác mà tôi trình bày trong luận<br />
án này đã được ghi rõ nguồn trong phần tài liệu tham khảo.<br />
<br />
Lê Quang Hùng<br />
<br />
i<br />
<br />
Tóm tắt<br />
Nhiệm vụ của một hệ thống dịch máy là tự động dịch một văn bản từ ngôn ngữ<br />
này (ví dụ, tiếng Anh) sang một văn bản tương đương ở ngôn ngữ khác (ví dụ,<br />
tiếng Việt). Tính hữu ích của công nghệ dịch máy tăng lên cùng với chất lượng<br />
của nó. Dịch máy có nhiều ứng dụng như: (i) dịch tài liệu tiếng nước ngoài cho<br />
mục đích hiểu nội dung, (ii) dịch văn bản để xuất bản ở các ngôn ngữ khác và (iii)<br />
thông tin liên lạc, chẳng hạn như dịch email, chat, vv.<br />
Có một số cách tiếp cận cho bài toán dịch máy như dịch trực tiếp (direct<br />
translation), dịch dựa trên chuyển đổi (transfer - based translation), dịch liên ngữ<br />
(interlingua translation), dịch dựa trên ví dụ (example - based translation) và dịch<br />
thống kê (statistical translation). Hiện tại, dịch máy dựa trên cách tiếp cận thống<br />
kê đang là một hướng phát triển đầy tiềm năng bởi những ưu điểm vượt trội so<br />
với các cách tiếp cận khác. Thay vì xây dựng các từ điển, các quy luật chuyển đổi<br />
bằng tay, dịch máy thống kê tự động xây dựng các từ điển, các quy luật dựa trên<br />
kết quả thống kê có được từ ngữ liệu. Đối với một hệ thống dịch máy thống kê,<br />
hiệu quả (chất lượng dịch) của nó tỷ lệ thuận với số lượng (kích thước) và chất<br />
lượng của ngữ liệu song ngữ được sử dụng để xây dựng hệ thống dịch. Tuy nhiên,<br />
ngữ liệu song ngữ sẵn có hiện vẫn còn hạn chế cả về kích thước lẫn chất lượng,<br />
ngay cả đối với các cặp ngôn ngữ chính. Ngoài ra, đối với các cặp ngôn ngữ có<br />
nhiều khác biệt về cấu trúc ngữ pháp (ví dụ, Anh - Việt), vấn đề về chất lượng<br />
dịch đang là thách thức đối với các nhà nghiên cứu về dịch máy trong nhiều năm<br />
qua. Vì vậy, việc bổ sung thêm ngữ liệu song ngữ và phát triển các phương pháp<br />
hiệu quả hơn dựa trên ngữ liệu hiện có là những giải pháp quan trọng để tăng<br />
chất lượng dịch cho dịch máy thống kê.<br />
Luận án của chúng tôi tập trung giải quyết các tồn tại đã nêu thông qua ba<br />
bài toán: phát triển phương pháp xây dựng ngữ liệu song ngữ, cải tiến các phương<br />
pháp gióng hàng từ và xác định cụm từ song ngữ cho dịch máy thống kê, cụ thể<br />
như sau:<br />
Thứ nhất, đối với bài toán xây dựng ngữ liệu song ngữ, chúng tôi khai thác từ<br />
hai nguồn: Web và sách điện tử song ngữ. Đối với nguồn từ Web, chúng tôi tập<br />
trung vào rút trích các văn bản song ngữ từ các web-site song ngữ. Chúng tôi đề<br />
xuất hai phương pháp thiết kế các đặc trưng dựa trên nội dung: sử dụng các từ<br />
bất biến giữa hai ngôn ngữ (cognate) và sử dụng các phân đoạn dịch. Ngoài ra,<br />
<br />
chúng tôi kết hợp các đặc trưng dựa trên nội dung với các đặc trưng dựa trên cấu<br />
trúc của trang web để rút trích các văn bản song ngữ, bằng cách sử dụng phương<br />
pháp học máy. Đối với nguồn từ sách điện tử, chúng tôi đề xuất phương pháp dựa<br />
trên nội dung, sử dụng một số mẫu liên kết giữa các khối văn bản trong hai ngôn<br />
ngữ để rút trích các câu song ngữ.<br />
Thứ hai, với bài toán gióng hàng từ, chúng tôi đề xuất một số cải tiến đối với<br />
mô hình IBM 1 theo cách tiếp cận dựa trên ràng buộc, bao gồm: ràng buộc neo,<br />
ràng buộc về vị trí của từ, ràng buộc về từ loại và ràng buộc về cụm từ. Với mỗi<br />
ràng buộc, chúng tôi đưa ra phương pháp tổng quát để tích hợp nó vào thuật toán<br />
cực đại kỳ vọng trong quá trình ước lượng tham số của mô hình. Ngoài ra, chúng<br />
tôi đưa ra một phương pháp để kết hợp các ràng buộc. Những cải tiến này đã giúp<br />
nâng cao chất lượng dịch cho hệ thống dịch máy thống kê Anh - Việt.<br />
Thứ ba, đối với bài toán xác định cụm từ song ngữ cho dịch máy thống kê,<br />
chúng tôi đề xuất phương pháp rút trích cụm từ song ngữ từ ngữ liệu song ngữ,<br />
sử dụng các mẫu cú pháp kết hợp với gióng hàng cụm từ. Các cụm từ song ngữ<br />
này đã được ứng dụng vào việc nâng cao chất lượng dịch cho hệ thống dịch máy<br />
thống kê Anh - Việt.<br />
Từ khóa: dịch máy, dịch máy thống kê, tri thức song ngữ, ngữ liệu song<br />
ngữ, văn bản song ngữ, gióng hàng từ.<br />
<br />
iii<br />
<br />