Luận án Tiến sĩ Toán học: Nghiên cứu xây dựng tài nguyên song ngữ Việt - Anh ứng dụng cho dịch máy theo miền

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:158

Thêm vào BST

Báo xấu

27
lượt xem 5
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Ngày nay, với sự hỗ trợ mạnh mẽ của phần cứng máy tính và Internet, dịch máy đã cho kết quả dịch có thể chấp nhận được và nhiều ứng dụng dịch đã được đưa vào sử dụng: Dịch tiếng nói; dịch tự động giữa nhiều ngôn ngữ khác nhau (Google Translate hỗ trợ dịch giữa hơn 100 thứ tiếng khác nhau); dịch các phụ đề phim; dịch các trang Web;... Chất lượng dịch máy ngày càng được cải thiện, hứa hẹn sẽ mang đến nhiều ứng dụng trong nhiều lĩnh vực khác nhau. Mời các bạn cùng tham khảo nội dung luận án.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận án Tiến sĩ Toán học: Nghiên cứu xây dựng tài nguyên song ngữ Việt - Anh ứng dụng cho dịch máy theo miền

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN ——————— NGUYỄN TIẾN HÀ NGHIÊN CỨU XÂY DỰNG TÀI NGUYÊN SONG NGỮ VIỆT-ANH ỨNG DỤNG CHO DỊCH MÁY THEO MIỀN LUẬN ÁN TIẾN SĨ TOÁN HỌC Hà Nội - 2020
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN ——————— NGUYỄN TIẾN HÀ NGHIÊN CỨU XÂY DỰNG TÀI NGUYÊN SONG NGỮ VIỆT-ANH ỨNG DỤNG CHO DỊCH MÁY THEO MIỀN Chuyên ngành: Cơ sở toán học cho tin học Mã số: 9460117.02 LUẬN ÁN TIẾN SĨ TOÁN HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. TS. Nguyễn Thị Minh Huyền 2. PGS.TS. Nguyễn Hữu Ngự Hà Nội - 2020
LỜI CAM ĐOAN Tôi xin cam đoan các nội dung trình bày trong luận án này là kết quả nghiên cứu của tôi, được thực hiện dưới sự hướng dẫn của TS. Nguyễn Thị Minh Huyền và PGS. TS. Nguyễn Hữu Ngự. Các nội dung trích dẫn từ các nghiên cứu của các tác giả khác trình bày trong luận án này được ghi rõ nguồn trong phần tài liệu tham khảo. Nguyễn Tiến Hà
LỜI CẢM ƠN Tôi xin gửi lời cảm ơn sâu sắc đến TS. Nguyễn Thị Minh Huyền và PGS.TS. Nguyễn Hữu Ngự đã trực tiếp hướng dẫn, chỉ bảo tận tình, luôn hỗ trợ và tạo những điều kiện tốt nhất cho tôi trong quá trình học tập và nghiên cứu. Tôi xin gửi lời cảm ơn đến các thầy/cô giáo ở Khoa Toán - Cơ - Tin học, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội, đặc biệt là các thầy/cô giáo ở Bộ môn Tin học, những người đã trực tiếp giảng dạy và giúp đỡ tôi trong quá trình học tập và nghiên cứu ở trường. Tôi xin gửi cảm ơn đến TS. Nguyễn Văn Vinh, PGS. TS. Nguyễn Phương Thái, PGS. TS Phan Xuân Hiếu Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội; TS. Trần Thị Oanh khoa Quốc tế, Đại học Quốc gia Hà Nội; PGS. TS. Lê Thanh Hương, TS. Đỗ Thị Ngọc Diệp Trường Đại học Bách khoa Hà Nội; PGS. TS Đỗ Trung Tuấn, TS. Đỗ Thanh Hà, TS. Lê Hồng Phương, PGS. TS. Lê Trọng Vĩnh, TS. Nguyễn Thị Bích Thủy, TS. Vũ Tiến Dũng Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội, các thầy/cô đã có những góp ý chỉnh sửa để tôi hoàn thiện luận án. Tôi xin gửi lời cảm ơn đến tất cả anh, chị, em ở Bộ môn Tin học, Khoa Toán- Cơ-Tin học, Trường đại học khoa học Tự nhiên, Đại học Quốc gia Hà Nội và Bộ môn Khoa học máy tính, Khoa Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội đã giúp đỡ tôi trong thời gian làm nghiên cứu sinh. Cuối cùng, tôi xin gửi lời cảm ơn đến tất cả các thành viên trong gia đình, các bạn bè, đồng nghiệp nơi tôi công tác đã luôn ủng hộ, chia sẻ, động viên và khích lệ tôi học tập, nghiên cứu.
Mục lục Danh mục các chữ viết tắt 4 Mở đầu 9 1 Tổng quan về dịch máy và tài nguyên ngôn ngữ 15 1.1 Tổng quan về dịch máy . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.1.1 Lịch sử về dịch máy . . . . . . . . . . . . . . . . . . . . . . 16 1.1.2 Kiến trúc của hệ thống dịch máy . . . . . . . . . . . . . . . 19 1.1.3 Các phương pháp dịch máy . . . . . . . . . . . . . . . . . . 22 1.1.4 Các hệ thống dịch máy có thể sử dụng để thực nghiệm . . 30 1.1.5 Đánh giá các hệ thống dịch máy . . . . . . . . . . . . . . . 32 1.2 Tài nguyên ngôn ngữ cho hệ thống dịch máy . . . . . . . . . . . . 35 1.2.1 Tài nguyên đa ngữ cho dịch máy . . . . . . . . . . . . . . . 35 1.2.2 Tài nguyên song ngữ Việt-Anh . . . . . . . . . . . . . . . . 38 1.3 Thích ứng miền trong dịch máy . . . . . . . . . . . . . . . . . . . . 41 1.4 Các công cụ tiền xử lý văn bản . . . . . . . . . . . . . . . . . . . . 43 1.5 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 2 Xây dựng kho ngữ liệu song ngữ Việt - Anh dóng hàng mức câu theo miền 47 2.1 Xây dựng kho ngữ liệu song ngữ Việt-Anh theo miền . . . . . . . 48 2.1.1 Phương pháp thu thập ngữ liệu song ngữ và dóng hàng câu 48 1
2.1.2 Xây dựng kho ngữ liệu song ngữ Việt - Anh miền du lịch . 49 2.2 Dóng hàng văn bản song ngữ Việt-Anh . . . . . . . . . . . . . . . 52 2.2.1 Phương pháp dóng hàng văn bản song ngữ mức câu . . . . 52 2.2.2 Cải tiến công cụ dóng hàng câu XAlign . . . . . . . . . . . 54 2.3 Ứng dụng kho ngữ liệu du lịch song ngữ Việt-Anh cho hệ thống dịch máy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 2.3.1 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . 65 2.3.2 Một số lỗi của hệ thống dịch . . . . . . . . . . . . . . . . . 68 2.4 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 3 Xây dựng kho ngữ liệu từ, cụm từ song ngữ Việt-Anh 72 3.1 Xây dựng tự động kho từ vựng song ngữ Việt - Anh . . . . . . . . 73 3.1.1 Xây dựng kho từ vựng song ngữ . . . . . . . . . . . . . . . 73 3.1.2 Phương pháp xây dựng tự động từ vựng song ngữ Việt-Anh 77 3.1.3 Phương pháp xây dựng tự động từ vựng song ngữ Việt- Anh miền du lịch . . . . . . . . . . . . . . . . . . . . . . . . 79 3.1.4 Thực nghiệm và kết quả . . . . . . . . . . . . . . . . . . . . 84 3.2 Trích rút thuật ngữ song ngữ Việt-Anh từ văn bản đơn ngữ tiếng Việt dựa vào tập luật . . . . . . . . . . . . . . . . . . . . . . . . . . 88 3.2.1 Các công trình nghiên cứu có liên quan . . . . . . . . . . . 90 3.2.2 Phương pháp trích rút thuật ngữ song ngữ Việt-Anh từ văn bản đơn ngữ tiếng Việt . . . . . . . . . . . . . . . . . . 93 3.2.3 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . 104 3.3 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 4 Khai thác kho ngữ liệu song ngữ Việt-Anh cho dịch máy 108 4.1 Tiền xử lý dữ liệu huấn luyện trong dịch máy nơ-ron . . . . . . . . 108 4.1.1 Phương pháp tiền xử lý câu dài trong dịch máy nơ-ron . . 110 2
4.1.2 Phương pháp trích rút cụm từ ExtPhrase . . . . . . . . . 112 4.1.3 Thực nghiệm và kết quả . . . . . . . . . . . . . . . . . . . . 115 4.2 Phương pháp sinh tự động chú giải tiếng Việt cho hình ảnh . . . . 119 4.2.1 Các công trình có liên quan đến sinh chú giải cho ảnh . . . 119 4.2.2 Đề xuất quy trình xây dựng hệ thống sinh chú giải tiếng Việt cho ảnh . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 4.3 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 Kết luận 131 Danh mục công trình khoa học của tác giả liên quan đến luận án 133 Tài liệu tham khảo 135 3
Danh mục các chữ viết tắt ALPAC Automatic Language Processing Advisory Committee (Hội đồng cố vấn xử lý ngôn ngữ tự động) BiTES Bilingual Term Extraction System (Hệ thống trích rút thuật ngữ song ngữ) BLEU BiLingual Evaluation Understudy (Chỉ số đánh giá chất lượng dịch song ngữ) CNN Convolutional Neural Network (Mạng nơ-ron tích chập) DTW Dynamic Time Warping (Thuật toán căn chỉnh thời gian động) GRU Gated Recurrent Unit (Đơn vị hồi quy cổng) LSTM Long Short Term Memory (Bộ nhớ dài ngắn hạn) MI Mutual Information (Thông tin tương hỗ) NLP Natural Language Processing (Xử lý ngôn ngữ tự nhiên) NMT Neural Machine Translation (Dịch máy mạng nơ-ron) OPUS The open parallel corpus (Kho ngữ liệu song song mở) PBSMT Phrase-Based Statistical Machine Translation (Dịch máy dựa trên cụm từ) PER Position-independent word Error Rate (Tỷ lệ lỗi từ độc lập vị trí) RNN Recurrent Neural Network (Mạng nơ-ron hồi quy) SMT Statistical Machine Translation (Dịch máy thống kê) SALM Suffix Array tool kit for empirical Language Manipulations (Công cụ lọc bảng cụm từ trong Moses) 4
TER Translation Error Rate (Tỷ lệ lỗi dịch) TV Television (Truyền hình) VLSP Vietnamese Language Speech Processing (Xử lý ngôn ngữ và tiếng nói tiếng Việt) WER Word Error Rate (Tỷ lệ lỗi từ) 5
Danh sách hình vẽ 1.1 Tam giác Vauquois . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.2 Mô hình dịch trực tiếp . . . . . . . . . . . . . . . . . . . . . . . . . 21 1.3 Mô hình dịch qua ngôn ngữ trung gian . . . . . . . . . . . . . . . 22 1.4 Mô hình dịch máy thống kê . . . . . . . . . . . . . . . . . . . . . . 24 1.5 Cấu trúc của hệ thống dịch máy dựa trên mạng nơ-ron . . . . . . 27 1.6 Cấu trúc của hệ thống dịch máy MOSES . . . . . . . . . . . . . . 30 3.1 Phương pháp xây dựng tự động từ vựng Việt-Anh . . . . . . . . . 77 3.2 Phương pháp xây dựng tự động từ điển Việt-Anh miền du lịch . . 82 3.3 Mô hình trích rút thuật ngữ song ngữ Việt-Anh từ văn bản tiếng Việt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 3.4 Mô hình áp dụng các luật để lựa chọn các ứng viên là thuật ngữ song ngữ Việt-Anh . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 4.1 Mô hình chú ý toàn cục . . . . . . . . . . . . . . . . . . . . . . . . 111 4.2 Mô hình chú ý cục bộ. . . . . . . . . . . . . . . . . . . . . . . . . . 111 4.3 Mô hình tiền xử lý câu dài hơn 30 từ trong huấn luyện hệ thống dịch máy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 4.4 Điểm BLEU của các hệ thống theo độ dài từ tiếng Việt được coi là câu tiếng Việt dài . . . . . . . . . . . . . . . . . . . . . . . . . . 118 4.5 Mô hình chú giải tiếng Việt cho ảnh . . . . . . . . . . . . . . . . . 123 4.6 So sánh chất lượng dịch máy với Google . . . . . . . . . . . . . . . 125 6
Danh sách bảng 2.1 Kích thước kho ngữ liệu song ngữ Việt-Anh miền du lịch thu thập được . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 2.2 Giá trị penalty cho mỗi kiểu dóng hàng . . . . . . . . . . . . . . . 62 2.3 Dóng hàng trên kho ngữ liệu Việt-Anh "Le Petit prince" . . . . . 63 2.4 Dóng hàng trên kho ngữ liệu du lịch Việt-Anh . . . . . . . . . . . 63 2.5 Điểm BLEU của 6 hệ thống dịch . . . . . . . . . . . . . . . . . . . 67 2.6 Điểm BLEU của 17 Hệ thống dịch máy khi dịch các tệp kiểm tra gồm 10.000 câu tiếng Việt sang tiếng Anh, so với Hệ thống dịch máy Google Translate năm 2017 . . . . . . . . . . . . . . . . . . . . 69 3.1 Từ điển song ngữ Việt-Anh trích rút từ kho ngữ liệu gồm 600.389 cặp câu song ngữ Việt – Anh . . . . . . . . . . . . . . . . . . . . . 86 3.2 Từ điển song ngữ Việt-Anh miền du lịch trích rút từ kho ngữ liệu CorTurism3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 3.3 Kết quả tra một số từ trong từ điển được xây dựng bằng phương pháp đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 3.4 Thống kê về trích rút ứng viên thuật ngữ . . . . . . . . . . . . . . 104 3.5 Số ứng viên thỏa mãn từng luật trên kho ngữ liệu y tế . . . . . . . 105 3.6 Số lần áp dụng luật trên dữ liệu Wikipedia . . . . . . . . . . . . . 105 3.7 Đánh giá kết quả các cặp thuật ngữ thu được . . . . . . . . . . . . 105 3.8 Phân tích kết quả từ các cặp thuật ngữ được trích rút . . . . . . . 106 7
4.1 Thống kê kho ngữ liệu song ngữ . . . . . . . . . . . . . . . . . . . 116 4.2 Kết quả trích rút cặp cụm từ song ngữ . . . . . . . . . . . . . . . . 116 4.3 Kết quả tiền xử lý câu dài trong dịch máy nơ-ron . . . . . . . . . 117 4.4 Chất lượng dịch của 499 câu tiếng Việt dài hơn 30 từ . . . . . . . 119 4.5 Điểm BLEU của các hệ thống khi dịch 500 câu chú giải ảnh từ tiếng Anh sang tiếng Việt . . . . . . . . . . . . . . . . . . . . . . . 125 4.6 Điểm BLEU của hệ thống dịch 500 câu chú giải ảnh từ tiếng Anh sang tiếng Việt sử dụng kỹ thuật xử lý từ mới . . . . . . . . . . . 128 4.7 Một số kết quả của hệ thống chú giải hình ảnh bằng tiếng Việt . 130 8
MỞ ĐẦU Từ xa xưa, con người đã có mong ước dùng máy móc để dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác. Đặc biệt trong giai đoạn hiện nay, các nước đều có xu hướng hội nhập quốc tế sâu rộng. Trong quá trình hội nhập, con người luôn có mong muốn nắm bắt các thông tin được viết từ các ngôn ngữ khác nhau một cách nhanh chóng, do đó rất cần đến sự trợ giúp của các hệ thống dịch máy. Ngày nay, với sự hỗ trợ mạnh mẽ của phần cứng máy tính và Internet, dịch máy đã cho kết quả dịch có thể chấp nhận được và nhiều ứng dụng dịch đã được đưa vào sử dụng: dịch tiếng nói; dịch tự động giữa nhiều ngôn ngữ khác nhau (Google Translate hỗ trợ dịch giữa hơn 100 thứ tiếng khác nhau); dịch các phụ đề phim; dịch các trang Web; . . . Chất lượng dịch máy ngày càng được cải thiện, hứa hẹn sẽ mang đến nhiều ứng dụng trong nhiều lĩnh vực khác nhau. Trong nghiên cứu xây dựng hệ thống dịch máy, có một số hướng tiếp cận khác nhau, như: Dịch dựa trên luật, dịch dựa trên thống kê; dịch dựa vào mạng nơ-ron; dịch dựa trên cơ sở tri thức. Trong các hướng tiếp cận này, tiếp cận dịch máy dựa vào mạng nơ-ron được đánh giá là có ưu thế vượt trội và được kỳ vọng là thu hẹp khoảng cách ngôn ngữ giữa con người và máy tính [116]. Các hệ thống dịch máy, đặc biệt là hệ thống dịch máy dựa vào thống kê hay dựa vào mạng nơ-ron, rất cần đến một kho ngữ liệu song ngữ kích thước lớn và có chất lượng để huấn luyện và nâng cao chất lượng dịch. Đã có nhiều công trình nghiên cứu, đề xuất phương pháp xây dựng kho ngữ liệu song ngữ cho các cặp ngôn ngữ. Ban đầu, các công trình tập trung vào nghiên cứu xây dựng kho ngữ liệu cho từng cặp ngôn ngữ đơn lẻ: Công trình của Resnik năm 1999 [87] đã xây dựng được kho ngữ liệu song ngữ Anh-Pháp với 2.491 cặp văn bản, xấp xỉ 1, 5 triệu từ trên mỗi văn bản. Công trình của Chang Baobao năm 2004 [10] đã xây dựng được kho ngữ liệu với 9
400.000 cặp câu. Công trình của Megyesi và cộng sự năm 2006 [12] đã xây dựng được kho ngữ liệu xấp xỉ 15.000 từ tiếng Thụy Điển và 10.000 từ tiếng Thổ Nhĩ Kỳ. Các công trình nghiên cứu xây dựng kho ngữ liệu song ngữ gần đây tập trung vào xây dựng kho ngữ liệu song song đa ngôn ngữ với kích thước lớn: 1. Công trình của Tiedemann năm 2016 [50], xây kho ngữ liệu OPUS dóng hàng mức câu với trên 60 ngôn ngữ có tổng số 2,6 tỷ cặp câu. Dữ liệu trong kho OPUS (The open parallel corpus) được thu thập từ Internet và chủ yếu là từ phụ đề phim ảnh và phụ đề trên các chương trình TV (Television). OPUS được xây dựng dựa trên các công cụ mã nguồn mở và chia sẻ trong cộng đồng nghiên cứu. 2. Công trình của Abate và cộng sự năm 2018 [98] xây dựng được kho ngữ liệu song song cho 7 cặp ngôn ngữ: (i)Amharic - Tigrigna: 34.349 cặp câu; (ii)Amharic - Afan Oromo: 11.457 cặp câu; (iii) Tigrigna - Afan Oromo: 10.987 cặp câu; (iv) Amharic - Wolaytta: 9.400 cặp câu; (v) Ge’ez - Amharic: 11.546 cặp câu; (vi)Wolaytta - Afan Oromo: 2.923 cặp câu; (vii)Tigrigna - Wolaytta: 2.504 cặp câu. 3. Công trình của Kenji Imamura và Eiichiro Sumita năm 2018 [55] đã xây dựng kho ngữ liệu song song của 10 ngôn ngữ với kích thước lớn: (i) Tiếng Nhật: 2.029.111 câu; (ii) Tiếng Anh: 2.029.111 câu; (iii) Tiếng Trung: 2.026.608 câu; (iv) Tiếng Hàn Quốc: 2.026.608 câu; (v) Tiếng Thái: 1.150.070 câu; (vi) Tiếng Việt: 1.150.070 câu; (vii) Tiếng In-đô-nê-xi-a: 1.150.070 câu; (vii) Tiếng Ma-lai-xi-a: 1.150.070 câu; (ix) Tiếng Tây Ba Nha: 337.654 câu; (x) Tiếng Pháp 340.499 câu. Đối với tiếng Việt, đã có các đề tài, công trình nghiên cứu xây dựng kho ngữ liệu song ngữ Anh-Việt như: 10
1. Kho ngữ liệu trong đề tài VLSP (Vietnamese Language Speech Processing) nhánh đề tài xử lý văn bản1 có 100.000 cặp câu song ngữ Anh-Việt và đã được chia sẻ cho cộng đồng nghiên cứu. 2. Kho ngữ liệu trong công trình "Trích rút văn bản song ngữ từ trang Web" năm 2010 của Lê Quang Hùng và Lê Anh Cường [59] có trên 35.000 cặp câu. 3. Kho ngữ liệu trong công trình "Kho ngữ liệu song ngữ Anh - Việt EVB- Corpus cho nghiên cứu các tác vụ trong Ngôn ngữ học so sánh" năm 2013 của Ngô Quốc Hùng và Cộng sự [75]. Ở công trình này, nhóm tác giả đã xây dựng được kho ngữ liệu song ngữ Anh-Việt 800.000 cặp câu, trong đó có trên 45.000 cặp câu được dóng hàng mức từ. 4. Kho ngữ liệu trong công trình về xây dựng kho ngữ liệu song song đa ngôn ngữ cho 10 cặp ngôn ngữ của các tác giả Triệu Hải Long và Nguyễn Lê Minh năm 2017 [104] có kích thước hơn 1, 1 triệu cặp câu. 5. Kho ngữ liệu trong công trình của các tác giả Ngô Quốc Hùng công bố năm 2018 với trên 2 triệu cặp câu song ngữ Anh-Việt và trên 20 triệu cặp từ song ngữ 2 . Liên quan đến xây dựng kho ngữ liệu trên thế giới và ở Việt Nam gần đây, các nhà nghiên cứu tập trung vào xây dựng kho ngữ liệu song song đa ngôn ngữ với kích thước lớn [104] [55] [41]. Khó khăn mà hầu hết các công trình nghiên cứu xây dựng kho ngữ liệu song song đang phải đối mặt là sự thiếu tài nguyên song ngữ và chưa tận dụng được hết các dạng tài nguyên. Ngoài ra các công trình chỉ tập trung vào kỹ thuật khai phá miền chung và chưa nghiên cứu các kỹ thuật khai phá dữ liệu theo miền cụ thể. Các nguồn văn bản song ngữ sẵn có cho tiếng Việt và một ngôn ngữ khác như cặp ngôn ngữ Việt-Anh vốn còn hạn chế, nên việc xây dựng kho ngữ liệu 1 https://vlsp.hpda.vn/demo/?page=resources 2 https://sites.google.com/a/uit.edu.vn/hungnq/evbcorpus 11
song ngữ Việt-Anh kích thước lớn là một vấn đề khó khăn. Do đó chất lượng dịch máy Việt-Anh còn chưa cao. Bên cạnh đó, miền dữ liệu huấn luyện hệ thống dịch máy cũng có ảnh hưởng đến chất lượng của các hệ thống dịch máy. Công trình nghiên cứu của Koehn và cộng sự năm 2017 về 6 thách thức đối với hệ thống dịch máy nơ-ron [85] đã chỉ ra hệ thống dịch máy nơ-ron bị giảm chất lượng khi dịch các văn bản ngoài miền huấn luyện hệ thống. Để khắc phục hạn chế này, các nhà nghiên cứu sử dụng phương pháp thích ứng miền trong đó các kho ngữ liệu song ngữ theo miền đóng vai trò quan trọng [89] [52] [102] [119] [53] [24]. Du lịch là một lĩnh vực ưu tiên phát triển tại Việt Nam. Lượng khách nước ngoài đến Việt Nam ngày càng tăng. Theo thống kê của Tổng cục Du lịch Việt Nam, lượng khách quốc tế đến Việt Nam năm 2019 là 1.809.580 lượt.3 Nhu cầu dịch tự động Việt-Anh trong lĩnh vực du lịch do vậy cũng rất lớn. Trong thời gian gần đây, tình hình về bệnh dịch và sự xuất hiện các loại bệnh mới ngày một nhiều, dẫn đến nhu cầu tìm hiểu và tra cứu các văn bản thuộc miền y tế ngày càng cao. Do đó hệ dịch Anh-Việt có chất lượng trong lĩnh vực y tế để hỗ trợ nhu cầu này đang trở nên cần thiết. Vì vậy việc khai phá dữ liệu để xây dựng kho ngữ liệu song ngữ miền y tế cần được quan tâm. Từ những lý do nêu trên, luận án nghiên cứu xây dựng kho ngữ liệu song ngữ Việt-Anh theo miền cho các hệ thống dịch máy và miền dữ liệu được ưu tiên xây dựng là du lịch và y tế. Mục tiêu cụ thể của luận án: • Xây dựng kho ngữ liệu song ngữ Việt-Anh có dóng hàng cho dịch máy theo miền. • Nghiên cứu các phương pháp nâng cao hiệu suất của kho ngữ liệu song ngữ Việt-Anh trong dịch máy. 3 http://vietnamtourism.gov.vn/index.php/statistic/international 12
Để thực hiện các mục tiêu này, luận án triển khai thực hiện các nội dung sau: 1. Thu thập dữ liệu song ngữ Việt-Anh miền chung (các văn bản chứa nội dung của nhiều lĩnh vực khác nhau) và các miền của từng lĩnh vực, trong đó miền du lịch và miền y tế được ưu tiên. 2. Nghiên cứu nâng cao hiệu quả công cụ dóng hàng câu cho cặp ngôn ngữ Việt-Anh và xây dựng kho ngữ liệu song ngữ Việt-Anh theo miền. 3. Nghiên cứu đề xuất các phương pháp trích rút tự động các cặp từ, cụm từ song ngữ để xây dựng kho ngữ liệu từ và cụm từ song ngữ Việt-Anh. 4. Nghiên cứu một số kỹ thuật khai thác kho ngữ liệu song ngữ Việt-Anh thu thập được trong dịch máy. Luận án đạt được các kết quả sau: 1. Luận án đã đề xuất kỹ thuật cải tiến công cụ dóng hàng XAlign cho cặp ngôn ngữ Việt-Anh.4 Sử dụng công cụ dóng hàng này luận án đã thu thập và xây dựng được: trên 20.000 cặp câu miền du lịch5 ; trên 270.000 cặp câu miền chung.6 Kết quả này được công bố trong [CT1]. 2. Luận án đã đề xuất và triển khai các phương pháp trích rút từ và cụm từ song ngữ từ kho ngữ liệu song ngữ và kho ngữ liệu đơn ngữ. Từ đó đã xây dựng được kho ngữ liệu trên 40.000 cặp từ và cụm từ song ngữ, bao gồm: trên 1.000 cặp cho miền du lịch,7 trên 600 cặp cho miền y tế,8 còn lại thuộc miền chung.9 Các kết quả liên quan được công bố trong [CT3] và [CT4]. 3. Luận án đã đề xuất kỹ thuật tiền xử lý câu dài trong dịch máy nơ-ron cải thiện chất lượng dịch. Kết quả này được công bố trong [CT2]. 4 https://github.com/viXAlign/viXAlign-project 5 https://github.com/Tienhavn/tourismcorpus 6 https://github.com/Tienhavn/generalcorpus 7 https://github.com/Tienhavn/Tourismterm 8 https://github.com/Tienhavn/medicalterm 9 https://github.com/Tienhavn/generaltermcorpus 13
4. Luận án triển khai một phương pháp sinh chú giải tiếng Việt tự động cho hình ảnh dựa vào dịch máy Anh-Việt. Để nâng cao chất lượng dịch, luận án đã đề xuất một kỹ thuật khai thác từ diển để xử lý các từ mới (unknown words) đối với hệ thống dịch. Kết quả này được trình bày trong [CT6] [CT7]. Cấu trúc luận án Sau phần mở đầu, nội dung chính của luận án bao gồm 4 chương. • Chương 1: Giới thiệu tổng quan về dịch máy và tài nguyên ngôn ngữ. Trong chương này, luận án trình bày các hướng tiếp cận của dịch máy, độ đo dùng trong đánh giá chất lượng các hệ thống dịch máy và vai trò của kho ngữ liệu song ngữ. • Chương 2: Tập trung vào vấn đề xây dựng kho ngữ liệu song ngữ Việt-Anh có dóng hàng mức câu. Đóng góp chính của chương này là đề xuất cải tiến công cụ dóng hàng câu cho cặp ngôn ngữ Việt-Anh. Bên cạnh đó là việc xây dựng kho ngữ liệu song ngữ Việt-Anh trên miền du lịch. • Chương 3: Trình bày một số phương pháp xây dựng kho ngữ liệu từ, cụm từ song ngữ Việt-Anh, từ kho ngữ liệu song ngữ Việt-Anh có dóng hàng mức câu và từ văn bản đơn ngữ tiếng Việt. • Chương 4: Trình bày hai kỹ thuật nâng cao chất lượng hệ thống dịch máy nơ-ron. Kỹ thuật thứ nhất là thực hiện tiền xử lý câu dài để làm giàu mô hình dịch. Kỹ thuật thứ hai là khai thác từ điển để xử lý các từ mới đối với hệ thống dịch, kỹ thuật này đã được ứng dụng trong hệ thống dịch tự động chú giải ảnh từ tiếng Anh sang tiếng Việt. Phần kết luận: Trình bày tóm lược các kết quả và đóng góp của luận án đồng thời nêu ra những hạn chế và hướng phát triển của luận án. 14
Chương 1 Tổng quan về dịch máy và tài nguyên ngôn ngữ Chương này trình bày tổng quan về dịch máy và tài nguyên ngôn ngữ được sử dụng trong dịch máy: lịch sử về dịch máy; kiến trúc của hệ thống dịch máy; các hướng tiếp cận của dịch máy; đánh giá hệ thống dịch máy; tài nguyên ngôn ngữ và tài nguyên ngôn ngữ cho các hệ thống dịch máy; thích ứng miền trong dịch máy và các công cụ tiền xử lý văn bản tiếng Việt. Chúng tôi phân tích, đánh giá các công trình nghiên cứu liên quan, đưa ra vấn đề còn tồn tại mà luận án sẽ giải quyết. 1.1 Tổng quan về dịch máy Dịch máy là gì? Dịch máy là một hệ thống sử dụng máy tính để chuyển đổi văn bản được viết trong ngôn ngữ tự nhiên này thành bản dịch tương đương trong ngôn ngữ khác. Ngôn ngữ của văn bản cần dịch còn gọi là ngôn ngữ nguồn, ngôn ngữ của bản dịch được gọi là ngôn ngữ đích. 15
1.1.1 Lịch sử về dịch máy Mơ ước về việc có thể hiểu ngôn ngữ của dân tộc khác của con người đã có từ rất lâu, từ thế kỷ 17 nhiều nhà nghiên cứu đã có những nỗ lực đầu tiên trong việc xây dựng một cách biểu diễn chung cho tất cả các ngôn ngữ. Năm 1933 có hai phát minh được cấp bằng sáng chế liên quan đến việc xây dựng các thiết bị dịch ngôn ngữ [48]: 1. Tác giả George Artsrouni đã thiết kế một thiết bị lưu trữ có thể tìm kiếm nhanh chóng các cặp từ - giải nghĩa của hai cặp ngôn ngữ bất kỳ. 2. Tác giả Petr Smirnov Troyanskii đã thiết kế một thiết bị dịch máy gồm 3 công đoạn: Phân tích câu nguồn, chuyển đổi từ ngữ và sinh câu đích. Thiết kế của Troyanskii tuy chưa bao giờ trở thành hiện thực nhưng nó là ý tưởng cơ bản cho nhiều loại máy dịch được thiết kế sau này. Đến cuối năm 1940 khi máy tính được phát minh và ứng dụng thành công trong việc giải mật mã, nhiều người đã nghĩ đến khả năng ứng dụng máy tính trong việc dịch với quan điểm coi việc dịch từ một ngôn ngữ bất kỳ sang tiếng Anh tương tự như việc giải mã một văn bản tiếng Anh được viết bằng một loại mật mã nào đó. Vấn đề dịch máy được Warren Weaver đưa ra năm 1949 [110]. Những chương trình dịch tự động đầu tiên đơn giản chỉ sử dụng phương pháp dịch từ sang từ đã cho những kết quả còn hạn chế vì từ ngữ có nghĩa khác nhau trong những ngữ cảnh khác nhau. Năm 1966 tại Hoa Kỳ, Hội đồng cố vấn xử lý ngôn ngữ tự động ALPAC (Automatic Language Processing Advisory Committee) đã soạn một báo cáo nhận định rằng không thể xây dựng một hệ thống dịch tự động có hiệu quả [49]. Sau báo cáo này, các chính phủ đã không còn trợ cấp cho các chương trình nghiên cứu về dịch máy và các chương trình này cũng chấm dứt. Việc nghiên cứu và phát triển dịch máy chỉ với một vài hoạt động của các cá nhân và tổ chức 16