Luận án Tiến sĩ: Khai phá tri thức song ngữ và ứng dụng trong dịch máy Anh - Việt

Chia sẻ: Nguyễn Văn H | Ngày: | Loại File: PDF | Số trang:129

Thêm vào BST

Báo xấu

46
lượt xem 6
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Trong luận án này, chúng tôi đặt ra hai mục tiêu chính: Thứ nhất, nghiên cứu đề xuất một số phương pháp để khai thác tri thức song ngữ nhằm bổ sung nguồn ngữ liệu cho dịch máy thống kê. Thứ hai, nghiên cứu đề xuất một số phương pháp để làm tăng chất lượng dịch cho dịch máy thống kê dựa trên ngữ liệu hiện có. Mời các bạn cùng tham khảo đề tài.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận án Tiến sĩ: Khai phá tri thức song ngữ và ứng dụng trong dịch máy Anh - Việt

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ QUANG HÙNG KHAI PHÁ TRI THỨC SONG NGỮ VÀ ỨNG DỤNG TRONG DỊCH MÁY ANH – VIỆT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Hà Nội – 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ QUANG HÙNG KHAI PHÁ TRI THỨC SONG NGỮ VÀ ỨNG DỤNG TRONG DỊCH MÁY ANH – VIỆT Chuyên ngành: Khoa học máy tính Mã số: 62 48 01 01 LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. PGS.TS. Lê Anh Cường 2. PGS.TS. Huỳnh Văn Nam Hà Nội – 2016 Lời cam đoan Tôi xin cam đoan luận án này là kết quả nghiên cứu của tôi, được thực hiện dưới sự hướng dẫn của PGS.TS. Lê Anh Cường và PGS.TS. Huỳnh Văn Nam. Các nội dung trích dẫn từ các nghiên cứu của các tác giả khác mà tôi trình bày trong luận án này đã được ghi rõ nguồn trong phần tài liệu tham khảo. Lê Quang Hùng i Tóm tắt Nhiệm vụ của một hệ thống dịch máy là tự động dịch một văn bản từ ngôn ngữ này (ví dụ, tiếng Anh) sang một văn bản tương đương ở ngôn ngữ khác (ví dụ, tiếng Việt). Tính hữu ích của công nghệ dịch máy tăng lên cùng với chất lượng của nó. Dịch máy có nhiều ứng dụng như: (i) dịch tài liệu tiếng nước ngoài cho mục đích hiểu nội dung, (ii) dịch văn bản để xuất bản ở các ngôn ngữ khác và (iii) thông tin liên lạc, chẳng hạn như dịch email, chat, vv. Có một số cách tiếp cận cho bài toán dịch máy như dịch trực tiếp (direct translation), dịch dựa trên chuyển đổi (transfer - based translation), dịch liên ngữ (interlingua translation), dịch dựa trên ví dụ (example - based translation) và dịch thống kê (statistical translation). Hiện tại, dịch máy dựa trên cách tiếp cận thống kê đang là một hướng phát triển đầy tiềm năng bởi những ưu điểm vượt trội so với các cách tiếp cận khác. Thay vì xây dựng các từ điển, các quy luật chuyển đổi bằng tay, dịch máy thống kê tự động xây dựng các từ điển, các quy luật dựa trên kết quả thống kê có được từ ngữ liệu. Đối với một hệ thống dịch máy thống kê, hiệu quả (chất lượng dịch) của nó tỷ lệ thuận với số lượng (kích thước) và chất lượng của ngữ liệu song ngữ được sử dụng để xây dựng hệ thống dịch. Tuy nhiên, ngữ liệu song ngữ sẵn có hiện vẫn còn hạn chế cả về kích thước lẫn chất lượng, ngay cả đối với các cặp ngôn ngữ chính. Ngoài ra, đối với các cặp ngôn ngữ có nhiều khác biệt về cấu trúc ngữ pháp (ví dụ, Anh - Việt), vấn đề về chất lượng dịch đang là thách thức đối với các nhà nghiên cứu về dịch máy trong nhiều năm qua. Vì vậy, việc bổ sung thêm ngữ liệu song ngữ và phát triển các phương pháp hiệu quả hơn dựa trên ngữ liệu hiện có là những giải pháp quan trọng để tăng chất lượng dịch cho dịch máy thống kê. Luận án của chúng tôi tập trung giải quyết các tồn tại đã nêu thông qua ba bài toán: phát triển phương pháp xây dựng ngữ liệu song ngữ, cải tiến các phương pháp gióng hàng từ và xác định cụm từ song ngữ cho dịch máy thống kê, cụ thể như sau: Thứ nhất, đối với bài toán xây dựng ngữ liệu song ngữ, chúng tôi khai thác từ hai nguồn: Web và sách điện tử song ngữ. Đối với nguồn từ Web, chúng tôi tập trung vào rút trích các văn bản song ngữ từ các web-site song ngữ. Chúng tôi đề xuất hai phương pháp thiết kế các đặc trưng dựa trên nội dung: sử dụng các từ bất biến giữa hai ngôn ngữ (cognate) và sử dụng các phân đoạn dịch. Ngoài ra, chúng tôi kết hợp các đặc trưng dựa trên nội dung với các đặc trưng dựa trên cấu trúc của trang web để rút trích các văn bản song ngữ, bằng cách sử dụng phương pháp học máy. Đối với nguồn từ sách điện tử, chúng tôi đề xuất phương pháp dựa trên nội dung, sử dụng một số mẫu liên kết giữa các khối văn bản trong hai ngôn ngữ để rút trích các câu song ngữ. Thứ hai, với bài toán gióng hàng từ, chúng tôi đề xuất một số cải tiến đối với mô hình IBM 1 theo cách tiếp cận dựa trên ràng buộc, bao gồm: ràng buộc neo, ràng buộc về vị trí của từ, ràng buộc về từ loại và ràng buộc về cụm từ. Với mỗi ràng buộc, chúng tôi đưa ra phương pháp tổng quát để tích hợp nó vào thuật toán cực đại kỳ vọng trong quá trình ước lượng tham số của mô hình. Ngoài ra, chúng tôi đưa ra một phương pháp để kết hợp các ràng buộc. Những cải tiến này đã giúp nâng cao chất lượng dịch cho hệ thống dịch máy thống kê Anh - Việt. Thứ ba, đối với bài toán xác định cụm từ song ngữ cho dịch máy thống kê, chúng tôi đề xuất phương pháp rút trích cụm từ song ngữ từ ngữ liệu song ngữ, sử dụng các mẫu cú pháp kết hợp với gióng hàng cụm từ. Các cụm từ song ngữ này đã được ứng dụng vào việc nâng cao chất lượng dịch cho hệ thống dịch máy thống kê Anh - Việt. Từ khóa: dịch máy, dịch máy thống kê, tri thức song ngữ, ngữ liệu song ngữ, văn bản song ngữ, gióng hàng từ. iii