ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
———————
NGUYỄN TIẾN HÀ
NGHIÊN CỨU XÂY DỰNG
TÀI NGUYÊN SONG NGỮ VIỆT-ANH
ỨNG DỤNG CHO DỊCH MÁY THEO MIỀN
LUẬN ÁN TIẾN SĨ TOÁN HỌC
Hà Nội - 2020
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
———————
NGUYỄN TIẾN HÀ
NGHIÊN CỨU XÂY DỰNG
TÀI NGUYÊN SONG NGỮ VIỆT-ANH
ỨNG DỤNG CHO DỊCH MÁY THEO MIỀN
Chuyên ngành: Cơ sở toán học cho tin học Mã số:
9460117.02
LUẬN ÁN TIẾN SĨ TOÁN HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. TS. Nguyễn Thị Minh Huyền
2. PGS.TS. Nguyễn Hữu Ngự
Hà Nội - 2020
LỜI CAM ĐOAN
Tôi xin cam đoan các nội dung trình bày trong luận án này là kết quả nghiên
cứu của tôi, được thực hiện dưới sự hướng dẫn của TS. Nguyễn Thị Minh Huyền
và PGS. TS. Nguyễn Hữu Ngự. Các nội dung trích dẫn từ các nghiên cứu của
các tác giả khác trình bày trong luận án này được ghi rõ nguồn trong phần tài
liệu tham khảo.
Nguyễn Tiến Hà
LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn sâu sắc đến TS. Nguyễn Thị Minh Huyền và PGS.TS.
Nguyễn Hữu Ngự đã trực tiếp hướng dẫn, chỉ bảo tận tình, luôn hỗ trợ và tạo
những điều kiện tốt nhất cho tôi trong quá trình học tập và nghiên cứu.
Tôi xin gửi lời cảm ơn đến các thầy/cô giáo ở Khoa Toán - Cơ - Tin học,
Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội, đặc biệt là các
thầy/cô giáo ở Bộ môn Tin học, những người đã trực tiếp giảng dạy và giúp đỡ
tôi trong quá trình học tập và nghiên cứu ở trường.
Tôi xin gửi cảm ơn đến TS. Nguyễn Văn Vinh, PGS. TS. Nguyễn Phương
Thái, PGS. TS Phan Xuân Hiếu Trường Đại học Công nghệ, Đại học Quốc gia
Hà Nội; TS. Trần Thị Oanh khoa Quốc tế, Đại học Quốc gia Hà Nội; PGS. TS.
Lê Thanh Hương, TS. Đỗ Thị Ngọc Diệp Trường Đại học Bách khoa Hà Nội;
PGS. TS Đỗ Trung Tuấn, TS. Đỗ Thanh Hà, TS. Lê Hồng Phương, PGS. TS.
Lê Trọng Vĩnh, TS. Nguyễn Thị Bích Thủy, TS. Vũ Tiến Dũng Trường Đại học
Khoa học Tự nhiên, Đại học Quốc gia Hà Nội, các thầy/cô đã có những góp ý
chỉnh sửa để tôi hoàn thiện luận án.
Tôi xin gửi lời cảm ơn đến tất cả anh, chị, em ở Bộ môn Tin học, Khoa Toán-
Cơ-Tin học, Trường đại học khoa học Tự nhiên, Đại học Quốc gia Hà Nội và
Bộ môn Khoa học máy tính, Khoa Công nghệ thông tin, Trường Đại học Công
nghệ, Đại học Quốc gia Hà Nội đã giúp đỡ tôi trong thời gian làm nghiên cứu
sinh.
Cuối cùng, tôi xin gửi lời cảm ơn đến tất cả các thành viên trong gia đình,
các bạn bè, đồng nghiệp nơi tôi công tác đã luôn ủng hộ, chia sẻ, động viên và
khích lệ tôi học tập, nghiên cứu.
Mục lục
Danh mục các chữ viết tắt 4
Mở đầu 9
15 1 Tổng quan về dịch máy và tài nguyên ngôn ngữ
1.1 Tổng quan về dịch máy . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.1.1 Lịch sử về dịch máy . . . . . . . . . . . . . . . . . . . . . . 16
1.1.2 Kiến trúc của hệ thống dịch máy . . . . . . . . . . . . . . . 19
1.1.3 Các phương pháp dịch máy . . . . . . . . . . . . . . . . . . 22
1.1.4 Các hệ thống dịch máy có thể sử dụng để thực nghiệm . . 30
1.1.5 Đánh giá các hệ thống dịch máy . . . . . . . . . . . . . . . 32
1.2 Tài nguyên ngôn ngữ cho hệ thống dịch máy . . . . . . . . . . . . 35
1.2.1 Tài nguyên đa ngữ cho dịch máy . . . . . . . . . . . . . . . 35
1.2.2 Tài nguyên song ngữ Việt-Anh . . . . . . . . . . . . . . . . 38
1.3 Thích ứng miền trong dịch máy . . . . . . . . . . . . . . . . . . . . 41
1.4 Các công cụ tiền xử lý văn bản . . . . . . . . . . . . . . . . . . . . 43
1.5 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2 Xây dựng kho ngữ liệu song ngữ Việt - Anh dóng hàng mức câu
theo miền 47
2.1 Xây dựng kho ngữ liệu song ngữ Việt-Anh theo miền . . . . . . . 48
1
2.1.1 Phương pháp thu thập ngữ liệu song ngữ và dóng hàng câu 48
2.1.2 Xây dựng kho ngữ liệu song ngữ Việt - Anh miền du lịch . 49
2.2 Dóng hàng văn bản song ngữ Việt-Anh . . . . . . . . . . . . . . . 52
2.2.1 Phương pháp dóng hàng văn bản song ngữ mức câu . . . . 52
2.2.2 Cải tiến công cụ dóng hàng câu XAlign . . . . . . . . . . . 54
2.3 Ứng dụng kho ngữ liệu du lịch song ngữ Việt-Anh cho hệ thống
dịch máy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.3.1 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . 65
2.3.2 Một số lỗi của hệ thống dịch . . . . . . . . . . . . . . . . . 68
2.4 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3 Xây dựng kho ngữ liệu từ, cụm từ song ngữ Việt-Anh 72
3.1 Xây dựng tự động kho từ vựng song ngữ Việt - Anh . . . . . . . . 73
3.1.1 Xây dựng kho từ vựng song ngữ . . . . . . . . . . . . . . . 73
3.1.2 Phương pháp xây dựng tự động từ vựng song ngữ Việt-Anh 77
3.1.3 Phương pháp xây dựng tự động từ vựng song ngữ Việt-
Anh miền du lịch . . . . . . . . . . . . . . . . . . . . . . . . 79
3.1.4 Thực nghiệm và kết quả . . . . . . . . . . . . . . . . . . . . 84
3.2 Trích rút thuật ngữ song ngữ Việt-Anh từ văn bản đơn ngữ tiếng
Việt dựa vào tập luật . . . . . . . . . . . . . . . . . . . . . . . . . . 88
3.2.1 Các công trình nghiên cứu có liên quan . . . . . . . . . . . 90
3.2.2 Phương pháp trích rút thuật ngữ song ngữ Việt-Anh từ
văn bản đơn ngữ tiếng Việt . . . . . . . . . . . . . . . . . . 93
3.2.3 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . 104
3.3 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
4 Khai thác kho ngữ liệu song ngữ Việt-Anh cho dịch máy 108
4.1 Tiền xử lý dữ liệu huấn luyện trong dịch máy nơ-ron . . . . . . . . 108
2
4.1.1 Phương pháp tiền xử lý câu dài trong dịch máy nơ-ron . . 110
4.1.2 Phương pháp trích rút cụm từ ExtPhrase . . . . . . . . . 112
4.1.3 Thực nghiệm và kết quả . . . . . . . . . . . . . . . . . . . . 115
4.2 Phương pháp sinh tự động chú giải tiếng Việt cho hình ảnh . . . . 119
4.2.1 Các công trình có liên quan đến sinh chú giải cho ảnh . . . 119
4.2.2 Đề xuất quy trình xây dựng hệ thống sinh chú giải tiếng
Việt cho ảnh . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
4.3 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
Kết luận 131
Danh mục công trình khoa học của tác giả liên quan đến luận án 133
3
Tài liệu tham khảo 135
Danh mục các chữ viết tắt
ALPAC Automatic Language Processing Advisory Committee
(Hội đồng cố vấn xử lý ngôn ngữ tự động)
BiTES Bilingual Term Extraction System
(Hệ thống trích rút thuật ngữ song ngữ)
BLEU BiLingual Evaluation Understudy
(Chỉ số đánh giá chất lượng dịch song ngữ)
CNN Convolutional Neural Network (Mạng nơ-ron tích chập)
DTW Dynamic Time Warping
(Thuật toán căn chỉnh thời gian động)
GRU Gated Recurrent Unit (Đơn vị hồi quy cổng)
LSTM Long Short Term Memory (Bộ nhớ dài ngắn hạn)
MI Mutual Information (Thông tin tương hỗ)
NLP Natural Language Processing (Xử lý ngôn ngữ tự nhiên)
NMT Neural Machine Translation (Dịch máy mạng nơ-ron)
OPUS The open parallel corpus (Kho ngữ liệu song song mở)
PBSMT Phrase-Based Statistical Machine Translation
(Dịch máy dựa trên cụm từ)
Position-independent word Error Rate (Tỷ lệ lỗi từ độc lập vị trí) PER
Recurrent Neural Network (Mạng nơ-ron hồi quy) RNN
Statistical Machine Translation (Dịch máy thống kê) SMT
SALM Suffix Array tool kit for empirical Language Manipulations
4
(Công cụ lọc bảng cụm từ trong Moses)
TER Translation Error Rate (Tỷ lệ lỗi dịch)
TV Television (Truyền hình)
VLSP Vietnamese Language Speech Processing
(Xử lý ngôn ngữ và tiếng nói tiếng Việt)
5
WER Word Error Rate (Tỷ lệ lỗi từ)
Danh sách hình vẽ
1.1 Tam giác Vauquois . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.2 Mô hình dịch trực tiếp . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3 Mô hình dịch qua ngôn ngữ trung gian . . . . . . . . . . . . . . . 22
1.4 Mô hình dịch máy thống kê . . . . . . . . . . . . . . . . . . . . . . 24
1.5 Cấu trúc của hệ thống dịch máy dựa trên mạng nơ-ron . . . . . . 27
1.6 Cấu trúc của hệ thống dịch máy MOSES . . . . . . . . . . . . . . 30
3.1 Phương pháp xây dựng tự động từ vựng Việt-Anh . . . . . . . . . 77
3.2 Phương pháp xây dựng tự động từ điển Việt-Anh miền du lịch . . 82
3.3 Mô hình trích rút thuật ngữ song ngữ Việt-Anh từ văn bản tiếng
Việt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
3.4 Mô hình áp dụng các luật để lựa chọn các ứng viên là thuật ngữ
song ngữ Việt-Anh . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
4.1 Mô hình chú ý toàn cục . . . . . . . . . . . . . . . . . . . . . . . . 111
4.2 Mô hình chú ý cục bộ. . . . . . . . . . . . . . . . . . . . . . . . . . 111
4.3 Mô hình tiền xử lý câu dài hơn 30 từ trong huấn luyện hệ thống
dịch máy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
4.4 Điểm BLEU của các hệ thống theo độ dài từ tiếng Việt được coi
là câu tiếng Việt dài . . . . . . . . . . . . . . . . . . . . . . . . . . 118
4.5 Mô hình chú giải tiếng Việt cho ảnh . . . . . . . . . . . . . . . . . 123
6
4.6 So sánh chất lượng dịch máy với Google . . . . . . . . . . . . . . . 125
Danh sách bảng
2.1 Kích thước kho ngữ liệu song ngữ Việt-Anh miền du lịch thu thập
được . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.2 Giá trị penalty cho mỗi kiểu dóng hàng . . . . . . . . . . . . . . . 62
2.3 Dóng hàng trên kho ngữ liệu Việt-Anh "Le Petit prince" . . . . . 63
2.4 Dóng hàng trên kho ngữ liệu du lịch Việt-Anh . . . . . . . . . . . 63
2.5 Điểm BLEU của 6 hệ thống dịch . . . . . . . . . . . . . . . . . . . 67
2.6 Điểm BLEU của 17 Hệ thống dịch máy khi dịch các tệp kiểm tra
gồm 10.000 câu tiếng Việt sang tiếng Anh, so với Hệ thống dịch
máy Google Translate năm 2017 . . . . . . . . . . . . . . . . . . . . 69
3.1 Từ điển song ngữ Việt-Anh trích rút từ kho ngữ liệu gồm 600.389
cặp câu song ngữ Việt – Anh . . . . . . . . . . . . . . . . . . . . . 86
3.2 Từ điển song ngữ Việt-Anh miền du lịch trích rút từ kho ngữ liệu
CorTurism3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
3.3 Kết quả tra một số từ trong từ điển được xây dựng bằng phương
pháp đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
3.4 Thống kê về trích rút ứng viên thuật ngữ . . . . . . . . . . . . . . 104
3.5 Số ứng viên thỏa mãn từng luật trên kho ngữ liệu y tế . . . . . . . 105
3.6 Số lần áp dụng luật trên dữ liệu Wikipedia . . . . . . . . . . . . . 105
3.7 Đánh giá kết quả các cặp thuật ngữ thu được . . . . . . . . . . . . 105
7
3.8 Phân tích kết quả từ các cặp thuật ngữ được trích rút . . . . . . . 106
4.1 Thống kê kho ngữ liệu song ngữ . . . . . . . . . . . . . . . . . . . 116
4.2 Kết quả trích rút cặp cụm từ song ngữ . . . . . . . . . . . . . . . . 116
4.3 Kết quả tiền xử lý câu dài trong dịch máy nơ-ron . . . . . . . . . 117
4.4 Chất lượng dịch của 499 câu tiếng Việt dài hơn 30 từ . . . . . . . 119
4.5 Điểm BLEU của các hệ thống khi dịch 500 câu chú giải ảnh từ
tiếng Anh sang tiếng Việt . . . . . . . . . . . . . . . . . . . . . . . 125
4.6 Điểm BLEU của hệ thống dịch 500 câu chú giải ảnh từ tiếng Anh
sang tiếng Việt sử dụng kỹ thuật xử lý từ mới . . . . . . . . . . . 128
8
4.7 Một số kết quả của hệ thống chú giải hình ảnh bằng tiếng Việt . 130
MỞ ĐẦU
Từ xa xưa, con người đã có mong ước dùng máy móc để dịch văn bản từ ngôn
ngữ này sang ngôn ngữ khác. Đặc biệt trong giai đoạn hiện nay, các nước đều có
xu hướng hội nhập quốc tế sâu rộng. Trong quá trình hội nhập, con người luôn
có mong muốn nắm bắt các thông tin được viết từ các ngôn ngữ khác nhau một
cách nhanh chóng, do đó rất cần đến sự trợ giúp của các hệ thống dịch máy.
Ngày nay, với sự hỗ trợ mạnh mẽ của phần cứng máy tính và Internet, dịch
máy đã cho kết quả dịch có thể chấp nhận được và nhiều ứng dụng dịch đã được
đưa vào sử dụng: dịch tiếng nói; dịch tự động giữa nhiều ngôn ngữ khác nhau
(Google Translate hỗ trợ dịch giữa hơn 100 thứ tiếng khác nhau); dịch các phụ
đề phim; dịch các trang Web; . . . Chất lượng dịch máy ngày càng được cải thiện,
hứa hẹn sẽ mang đến nhiều ứng dụng trong nhiều lĩnh vực khác nhau.
Trong nghiên cứu xây dựng hệ thống dịch máy, có một số hướng tiếp cận
khác nhau, như: Dịch dựa trên luật, dịch dựa trên thống kê; dịch dựa vào mạng
nơ-ron; dịch dựa trên cơ sở tri thức. Trong các hướng tiếp cận này, tiếp cận dịch
máy dựa vào mạng nơ-ron được đánh giá là có ưu thế vượt trội và được kỳ vọng
là thu hẹp khoảng cách ngôn ngữ giữa con người và máy tính [116].
Các hệ thống dịch máy, đặc biệt là hệ thống dịch máy dựa vào thống kê hay
dựa vào mạng nơ-ron, rất cần đến một kho ngữ liệu song ngữ kích thước lớn
và có chất lượng để huấn luyện và nâng cao chất lượng dịch. Đã có nhiều công
trình nghiên cứu, đề xuất phương pháp xây dựng kho ngữ liệu song ngữ cho các
cặp ngôn ngữ. Ban đầu, các công trình tập trung vào nghiên cứu xây dựng kho
ngữ liệu cho từng cặp ngôn ngữ đơn lẻ:
Công trình của Resnik năm 1999 [87] đã xây dựng được kho ngữ liệu song
ngữ Anh-Pháp với 2.491 cặp văn bản, xấp xỉ 1, 5 triệu từ trên mỗi văn bản.
9
Công trình của Chang Baobao năm 2004 [10] đã xây dựng được kho ngữ liệu với
400.000 cặp câu. Công trình của Megyesi và cộng sự năm 2006 [12] đã xây dựng
được kho ngữ liệu xấp xỉ 15.000 từ tiếng Thụy Điển và 10.000 từ tiếng Thổ Nhĩ
Kỳ.
Các công trình nghiên cứu xây dựng kho ngữ liệu song ngữ gần đây tập trung
vào xây dựng kho ngữ liệu song song đa ngôn ngữ với kích thước lớn:
1. Công trình của Tiedemann năm 2016 [50], xây kho ngữ liệu OPUS dóng
hàng mức câu với trên 60 ngôn ngữ có tổng số 2,6 tỷ cặp câu. Dữ liệu trong
kho OPUS (The open parallel corpus) được thu thập từ Internet và chủ yếu
là từ phụ đề phim ảnh và phụ đề trên các chương trình TV (Television).
OPUS được xây dựng dựa trên các công cụ mã nguồn mở và chia sẻ trong
cộng đồng nghiên cứu.
2. Công trình của Abate và cộng sự năm 2018 [98] xây dựng được kho ngữ
liệu song song cho 7 cặp ngôn ngữ: (i)Amharic - Tigrigna: 34.349 cặp câu;
10.987 cặp câu; (iv) Amharic - Wolaytta: 9.400 cặp câu; (v) Ge’ez - Amharic:
11.546 cặp câu; (vi)Wolaytta - Afan Oromo: 2.923 cặp câu; (vii)Tigrigna -
(ii)Amharic - Afan Oromo: 11.457 cặp câu; (iii) Tigrigna - Afan Oromo:
Wolaytta: 2.504 cặp câu.
3. Công trình của Kenji Imamura và Eiichiro Sumita năm 2018 [55] đã xây
dựng kho ngữ liệu song song của 10 ngôn ngữ với kích thước lớn: (i)
2.026.608 câu; (iv) Tiếng Hàn Quốc: 2.026.608 câu; (v) Tiếng Thái: 1.150.070
Tiếng Nhật: 2.029.111 câu; (ii) Tiếng Anh: 2.029.111 câu; (iii) Tiếng Trung:
câu; (vi) Tiếng Việt: 1.150.070 câu; (vii) Tiếng In-đô-nê-xi-a: 1.150.070 câu;
(vii) Tiếng Ma-lai-xi-a: 1.150.070 câu; (ix) Tiếng Tây Ba Nha: 337.654 câu;
(x) Tiếng Pháp 340.499 câu.
Đối với tiếng Việt, đã có các đề tài, công trình nghiên cứu xây dựng kho ngữ
10
liệu song ngữ Anh-Việt như:
1. Kho ngữ liệu trong đề tài VLSP (Vietnamese Language Speech Processing)
nhánh đề tài xử lý văn bản1 có 100.000 cặp câu song ngữ Anh-Việt và đã
được chia sẻ cho cộng đồng nghiên cứu.
2. Kho ngữ liệu trong công trình "Trích rút văn bản song ngữ từ trang Web"
năm 2010 của Lê Quang Hùng và Lê Anh Cường [59] có trên 35.000 cặp câu.
3. Kho ngữ liệu trong công trình "Kho ngữ liệu song ngữ Anh - Việt EVB-
Corpus cho nghiên cứu các tác vụ trong Ngôn ngữ học so sánh" năm 2013
của Ngô Quốc Hùng và Cộng sự [75]. Ở công trình này, nhóm tác giả đã
xây dựng được kho ngữ liệu song ngữ Anh-Việt 800.000 cặp câu, trong đó
có trên 45.000 cặp câu được dóng hàng mức từ.
4. Kho ngữ liệu trong công trình về xây dựng kho ngữ liệu song song đa ngôn
ngữ cho 10 cặp ngôn ngữ của các tác giả Triệu Hải Long và Nguyễn Lê
Minh năm 2017 [104] có kích thước hơn 1, 1 triệu cặp câu.
5. Kho ngữ liệu trong công trình của các tác giả Ngô Quốc Hùng công bố năm
2018 với trên 2 triệu cặp câu song ngữ Anh-Việt và trên 20 triệu cặp từ
song ngữ 2.
Liên quan đến xây dựng kho ngữ liệu trên thế giới và ở Việt Nam gần đây,
các nhà nghiên cứu tập trung vào xây dựng kho ngữ liệu song song đa ngôn ngữ
với kích thước lớn [104] [55] [41]. Khó khăn mà hầu hết các công trình nghiên
cứu xây dựng kho ngữ liệu song song đang phải đối mặt là sự thiếu tài nguyên
song ngữ và chưa tận dụng được hết các dạng tài nguyên. Ngoài ra các công
trình chỉ tập trung vào kỹ thuật khai phá miền chung và chưa nghiên cứu các
kỹ thuật khai phá dữ liệu theo miền cụ thể.
Các nguồn văn bản song ngữ sẵn có cho tiếng Việt và một ngôn ngữ khác
1https://vlsp.hpda.vn/demo/?page=resources 2https://sites.google.com/a/uit.edu.vn/hungnq/evbcorpus
11
như cặp ngôn ngữ Việt-Anh vốn còn hạn chế, nên việc xây dựng kho ngữ liệu
song ngữ Việt-Anh kích thước lớn là một vấn đề khó khăn. Do đó chất lượng
dịch máy Việt-Anh còn chưa cao.
Bên cạnh đó, miền dữ liệu huấn luyện hệ thống dịch máy cũng có ảnh hưởng
đến chất lượng của các hệ thống dịch máy. Công trình nghiên cứu của Koehn
và cộng sự năm 2017 về 6 thách thức đối với hệ thống dịch máy nơ-ron [85] đã
chỉ ra hệ thống dịch máy nơ-ron bị giảm chất lượng khi dịch các văn bản ngoài
miền huấn luyện hệ thống. Để khắc phục hạn chế này, các nhà nghiên cứu sử
dụng phương pháp thích ứng miền trong đó các kho ngữ liệu song ngữ theo miền
đóng vai trò quan trọng [89] [52] [102] [119] [53] [24].
Du lịch là một lĩnh vực ưu tiên phát triển tại Việt Nam. Lượng khách nước
ngoài đến Việt Nam ngày càng tăng. Theo thống kê của Tổng cục Du lịch Việt
Nam, lượng khách quốc tế đến Việt Nam năm 2019 là 1.809.580 lượt.3 Nhu cầu
dịch tự động Việt-Anh trong lĩnh vực du lịch do vậy cũng rất lớn.
Trong thời gian gần đây, tình hình về bệnh dịch và sự xuất hiện các loại bệnh
mới ngày một nhiều, dẫn đến nhu cầu tìm hiểu và tra cứu các văn bản thuộc
miền y tế ngày càng cao. Do đó hệ dịch Anh-Việt có chất lượng trong lĩnh vực
y tế để hỗ trợ nhu cầu này đang trở nên cần thiết. Vì vậy việc khai phá dữ liệu
để xây dựng kho ngữ liệu song ngữ miền y tế cần được quan tâm.
Từ những lý do nêu trên, luận án nghiên cứu xây dựng kho ngữ liệu song ngữ
Việt-Anh theo miền cho các hệ thống dịch máy và miền dữ liệu được ưu tiên
xây dựng là du lịch và y tế.
• Xây dựng kho ngữ liệu song ngữ Việt-Anh có dóng hàng cho dịch máy theo
Mục tiêu cụ thể của luận án:
• Nghiên cứu các phương pháp nâng cao hiệu suất của kho ngữ liệu song ngữ
miền.
3http://vietnamtourism.gov.vn/index.php/statistic/international
12
Việt-Anh trong dịch máy.
Để thực hiện các mục tiêu này, luận án triển khai thực hiện các nội dung sau:
1. Thu thập dữ liệu song ngữ Việt-Anh miền chung (các văn bản chứa nội
dung của nhiều lĩnh vực khác nhau) và các miền của từng lĩnh vực, trong
đó miền du lịch và miền y tế được ưu tiên.
2. Nghiên cứu nâng cao hiệu quả công cụ dóng hàng câu cho cặp ngôn ngữ
Việt-Anh và xây dựng kho ngữ liệu song ngữ Việt-Anh theo miền.
3. Nghiên cứu đề xuất các phương pháp trích rút tự động các cặp từ, cụm từ
song ngữ để xây dựng kho ngữ liệu từ và cụm từ song ngữ Việt-Anh.
4. Nghiên cứu một số kỹ thuật khai thác kho ngữ liệu song ngữ Việt-Anh thu
thập được trong dịch máy.
Luận án đạt được các kết quả sau:
1. Luận án đã đề xuất kỹ thuật cải tiến công cụ dóng hàng XAlign cho cặp
ngôn ngữ Việt-Anh.4 Sử dụng công cụ dóng hàng này luận án đã thu thập
và xây dựng được: trên 20.000 cặp câu miền du lịch5; trên 270.000 cặp câu
miền chung.6 Kết quả này được công bố trong [CT1].
2. Luận án đã đề xuất và triển khai các phương pháp trích rút từ và cụm từ
song ngữ từ kho ngữ liệu song ngữ và kho ngữ liệu đơn ngữ. Từ đó đã xây
dựng được kho ngữ liệu trên 40.000 cặp từ và cụm từ song ngữ, bao gồm:
trên 1.000 cặp cho miền du lịch,7 trên 600 cặp cho miền y tế,8 còn lại thuộc
miền chung.9 Các kết quả liên quan được công bố trong [CT3] và [CT4].
3. Luận án đã đề xuất kỹ thuật tiền xử lý câu dài trong dịch máy nơ-ron cải
4 https://github.com/viXAlign/viXAlign-project 5https://github.com/Tienhavn/tourismcorpus 6https://github.com/Tienhavn/generalcorpus 7 https://github.com/Tienhavn/Tourismterm 8 https://github.com/Tienhavn/medicalterm 9https://github.com/Tienhavn/generaltermcorpus
13
thiện chất lượng dịch. Kết quả này được công bố trong [CT2].
4. Luận án triển khai một phương pháp sinh chú giải tiếng Việt tự động cho
hình ảnh dựa vào dịch máy Anh-Việt. Để nâng cao chất lượng dịch, luận án
đã đề xuất một kỹ thuật khai thác từ diển để xử lý các từ mới (unknown
words) đối với hệ thống dịch. Kết quả này được trình bày trong [CT6]
Cấu trúc luận án
[CT7].
• Chương 1: Giới thiệu tổng quan về dịch máy và tài nguyên ngôn ngữ. Trong
Sau phần mở đầu, nội dung chính của luận án bao gồm 4 chương.
chương này, luận án trình bày các hướng tiếp cận của dịch máy, độ đo dùng
trong đánh giá chất lượng các hệ thống dịch máy và vai trò của kho ngữ
• Chương 2: Tập trung vào vấn đề xây dựng kho ngữ liệu song ngữ Việt-Anh
liệu song ngữ.
có dóng hàng mức câu. Đóng góp chính của chương này là đề xuất cải tiến
công cụ dóng hàng câu cho cặp ngôn ngữ Việt-Anh. Bên cạnh đó là việc
• Chương 3: Trình bày một số phương pháp xây dựng kho ngữ liệu từ, cụm
xây dựng kho ngữ liệu song ngữ Việt-Anh trên miền du lịch.
từ song ngữ Việt-Anh, từ kho ngữ liệu song ngữ Việt-Anh có dóng hàng
• Chương 4: Trình bày hai kỹ thuật nâng cao chất lượng hệ thống dịch máy
mức câu và từ văn bản đơn ngữ tiếng Việt.
nơ-ron. Kỹ thuật thứ nhất là thực hiện tiền xử lý câu dài để làm giàu mô
hình dịch. Kỹ thuật thứ hai là khai thác từ điển để xử lý các từ mới đối với
hệ thống dịch, kỹ thuật này đã được ứng dụng trong hệ thống dịch tự động
chú giải ảnh từ tiếng Anh sang tiếng Việt.
Phần kết luận: Trình bày tóm lược các kết quả và đóng góp của luận án đồng
14
thời nêu ra những hạn chế và hướng phát triển của luận án.
Chương 1
Tổng quan về dịch máy và tài
nguyên ngôn ngữ
Chương này trình bày tổng quan về dịch máy và tài nguyên ngôn ngữ được
sử dụng trong dịch máy: lịch sử về dịch máy; kiến trúc của hệ thống dịch máy;
các hướng tiếp cận của dịch máy; đánh giá hệ thống dịch máy; tài nguyên ngôn
ngữ và tài nguyên ngôn ngữ cho các hệ thống dịch máy; thích ứng miền trong
dịch máy và các công cụ tiền xử lý văn bản tiếng Việt. Chúng tôi phân tích,
đánh giá các công trình nghiên cứu liên quan, đưa ra vấn đề còn tồn tại mà luận
1.1 Tổng quan về dịch máy
án sẽ giải quyết.
Dịch máy là gì?
Dịch máy là một hệ thống sử dụng máy tính để chuyển đổi văn bản được viết
trong ngôn ngữ tự nhiên này thành bản dịch tương đương trong ngôn ngữ khác.
Ngôn ngữ của văn bản cần dịch còn gọi là ngôn ngữ nguồn, ngôn ngữ của bản
15
dịch được gọi là ngôn ngữ đích.
1.1.1 Lịch sử về dịch máy
Mơ ước về việc có thể hiểu ngôn ngữ của dân tộc khác của con người đã có
từ rất lâu, từ thế kỷ 17 nhiều nhà nghiên cứu đã có những nỗ lực đầu tiên trong
việc xây dựng một cách biểu diễn chung cho tất cả các ngôn ngữ.
Năm 1933 có hai phát minh được cấp bằng sáng chế liên quan đến việc xây
dựng các thiết bị dịch ngôn ngữ [48]:
1. Tác giả George Artsrouni đã thiết kế một thiết bị lưu trữ có thể tìm kiếm
nhanh chóng các cặp từ - giải nghĩa của hai cặp ngôn ngữ bất kỳ.
2. Tác giả Petr Smirnov Troyanskii đã thiết kế một thiết bị dịch máy gồm 3
công đoạn: Phân tích câu nguồn, chuyển đổi từ ngữ và sinh câu đích. Thiết
kế của Troyanskii tuy chưa bao giờ trở thành hiện thực nhưng nó là ý tưởng
cơ bản cho nhiều loại máy dịch được thiết kế sau này.
Đến cuối năm 1940 khi máy tính được phát minh và ứng dụng thành công
trong việc giải mật mã, nhiều người đã nghĩ đến khả năng ứng dụng máy tính
trong việc dịch với quan điểm coi việc dịch từ một ngôn ngữ bất kỳ sang tiếng
Anh tương tự như việc giải mã một văn bản tiếng Anh được viết bằng một loại
mật mã nào đó. Vấn đề dịch máy được Warren Weaver đưa ra năm 1949 [110].
Những chương trình dịch tự động đầu tiên đơn giản chỉ sử dụng phương pháp
dịch từ sang từ đã cho những kết quả còn hạn chế vì từ ngữ có nghĩa khác nhau
trong những ngữ cảnh khác nhau.
Năm 1966 tại Hoa Kỳ, Hội đồng cố vấn xử lý ngôn ngữ tự động ALPAC
(Automatic Language Processing Advisory Committee) đã soạn một báo cáo
nhận định rằng không thể xây dựng một hệ thống dịch tự động có hiệu quả
[49]. Sau báo cáo này, các chính phủ đã không còn trợ cấp cho các chương trình
nghiên cứu về dịch máy và các chương trình này cũng chấm dứt. Việc nghiên
16
cứu và phát triển dịch máy chỉ với một vài hoạt động của các cá nhân và tổ chức
nhỏ bên ngoài nước Hoa Kỳ. Tuy nhiên các đầu tư cho dịch máy trong lĩnh vực
quân sự vẫn được tiếp tục như hệ thống dịch Nga-Anh của không lực Hoa Kỳ,
hệ Mark II được phát triển từ năm 1964.
Đến đầu những năm 1970, sau một số thành công trong nghiên cứu về lý
thuyết xử lý ngôn ngữ tự nhiên và sức mạnh của máy tính cũng tăng lên đáng
kể, nhiều trung tâm nghiên cứu bắt đầu quay lại đầu tư vào dịch máy.
Năm 1979 [117], Yorick Wilks giới thiệu một hệ thống dịch tự động Anh-Pháp
cho kết quả khá tốt. Để đạt được thành quả này, hệ thống của Wilks đã sử dụng
các tri thức có tính “khái niệm” trong việc dịch thuật. Ví dụ: Từ “drink” không
đơn thuần là động từ “uống”, trong hệ thống của Wilks, từ “drink” gồm những
khái niệm như “động từ có tính hoạt động”, “có liên hệ đến những chất lỏng”,...
Những tri thức như vậy giúp cho hệ thống của Wilks biết được mối liên hệ giữa
các từ trong câu và từ đó xác định được nghĩa chính xác hơn, phù hợp với ngữ
cảnh hơn.
Đến năm 1990, với sự phát triển mạnh mẽ của Internet, nhu cầu trao đổi
thông tin bùng nổ cùng với sự tích lũy kiến thức về mặt ngôn ngữ, sức mạnh
của máy tính tăng lên và có nhiều kết quả mới về mặt lý thuyết, cho nên việc
phát triển các hệ thống dịch tự động trở nên rất cần thiết. Dịch máy đã bước
sang một giai đoạn phát triển mới, đạt được nhiều thành tựu. Các phương pháp
dịch áp dụng các kỹ thuật khai phá tri thức từ kho ngữ liệu, điều mà trước kia
chưa thể thực hiện được do khả năng hạn chế của máy tính, điều này đã làm
thay đổi hoàn toàn các phương pháp dịch truyền thống và mang lại chất lượng
cho các hệ thống dịch. Trong giai đoạn này, xuất hiện một số hệ thống dịch máy
• Năm 2005: Xuất hiện trang Web dịch tự động đầu tiên của Google.1
• Năm 2006: Hệ thống dịch máy METIS-II được sử dụng, đó là hệ thống dịch
1https://translate.google.com.vn/
17
có chất lượng:
máy kết hợp các ưu điểm giữa dịch máy thống kê, dựa vào ví dụ và dựa
trên tập luật [109].
Đến ngày nay, chất lượng của nhiều hệ thống dịch đã ở mức chấp nhận được
và một số các ứng dụng dịch tự động đã đi vào cuộc sống. Theo ước tính của
John Hutchins, vào năm 2001, có khoảng 1.000 phần mềm dịch tự động các
ngôn ngữ được bán trên thị trường. Tiêu biểu nhất trong thời điểm hiện nay
là các máy chủ dịch tự động trên Internet: Google Translate1, Bing Microsoft
Translator2
Ở Việt Nam, đã có một số nhóm nghiên cứu xây dựng hệ thống dịch máy
• Dự án nghiên cứu về việc học luật chuyển đổi từ ngữ liệu song ngữ của
trên các cặp ngôn ngữ khác nhau. Điển hình là một số nghiên cứu sau:
nhóm nghiên cứu của Đinh Điền Trường Đại học Khoa học Tự nhiên - Đại
• Đề tài nghiên cứu phương pháp phân tích cú pháp có xác suất để dịch văn
học Quốc gia thành phố Hồ Chí Minh, năm 2005.
bản Anh-Việt, Việt-Anh của nhóm nghiên cứu của PGS.TS Phan Thị Tươi,
• Dự án ERIM của trường Đại học Bách khoa Đà Nẵng kết hợp với GETA -
trường Đại học Bách khoa Hồ Chí Minh.
Đại học Bách khoa Grenoble về nghiên cứu thử nghiệm hệ dịch máy Anh-
• Nhóm nghiên cứu của TS. Lê Khánh Hùng - Viện nghiên cứu ứng dụng
Việt, Pháp-Việt của Đoàn Nguyên Hải tại LATL.
công nghệ, Bộ khoa học công nghệ, năm 2005. Hệ thống dịch máy này đã
được đưa thành sản phẩm thương mại với tên ban đầu của hệ thống là
• Đề tài nghiên cứu xây dựng hệ dịch tự động văn bản tiếng Việt ra tiếng nói
EVTRAN. Hiện nay hệ thống có tên là EV-shuttle 4.0 Full.
2https://www.bing.com/translator
18
tiếng Mường, hướng đến áp dụng cho các ngôn ngữ dân tộc thiểu số chưa có
chữ viết ở Việt Nam của TS. Mạc Đăng Khoa tại Viện Nghiên cứu quốc tế
về Thông tin đa phương tiện, Truyền thông và Ứng dụng (MICA), Trường
Đại Học Bách Khoa Hà Nội, năm 2017.
Hiện nay, các nghiên cứu để nâng cao chất lượng hệ thống dịch máy vẫn đang
được các nhóm nghiên cứu tiến hành. Trong đó phương pháp dịch máy dựa trên
mạng nơ-ron là một hướng tiếp cận được xem là có ưu thế hơn hẳn so với các
1.1.2 Kiến trúc của hệ thống dịch máy
hướng tiếp cận dịch máy khác.
Có ba hướng tiếp cận cơ bản được sử dụng để phát triển các hệ thống dịch
máy:
1. Dịch trực tiếp;
2. Dịch chuyển đổi;
3. Dịch qua ngôn ngữ trung gian.
Mỗi phương pháp có ưu và nhược điểm riêng. Hình 1.1 là sơ đồ của Bernard
Vauquois [13] tóm tắt kiến trúc của các hệ thống dịch máy theo ba hướng tiếp
1.1.2.1 Dịch trực tiếp
cận trên.
Theo hướng tiếp cận này, hệ thống sẽ dịch bằng cách thay thế một cách đơn
giản những từ hoặc cụm từ trong ngôn ngữ nguồn bằng những từ hoặc cụm từ
tương ứng trong ngôn ngữ đích. Đặc điểm của hướng tiếp cận dịch này là đơn
giản, nhanh, không cần phân tích cú pháp sâu, thích hợp cho những văn bản
dịch có khối lượng từ vựng nhỏ và số dạng câu giới hạn. Nó thích hợp đối với các
ngôn ngữ cùng loại hình, có sự tương ứng 1-1 về từ vựng, ngữ pháp, . . . chẳng
19
hạn như: tiếng Pháp và tiếng Anh. Nhưng chúng gặp phải khó khăn khi dịch
Hình 1.1: Tam giác Vauquois
cặp ngôn ngữ khác nhau về loại hình, như: tiếng Anh (loại hình biến cách: Từ
biến đổi hình thái) và tiếng Việt (loại hình đơn lập: Từ không biến đổi hình
1.1.2.2 Dịch chuyển đổi
thái). Mô hình dịch theo hướng tiếp cận dịch này được thể hiện trong Hình1.2.
• Bước 1: Chuyển văn bản ở ngôn ngữ nguồn thành một dạng biểu diễn trung
Tiếp cận theo hướng dịch chuyển đổi được thực hiện theo 3 bước:
• Bước 2: Chuyển các biểu diễn trung gian này, thành dạng văn bản tương
gian, thường là cây phân tích cú pháp.
• Bước 3: Sinh ra văn bản ở ngôn ngữ đích.
ứng trong ngôn ngữ đích.
Trong hướng tiếp cận dịch chuyển đổi, văn bản nguồn được phân tích thành
một dạng biểu diễn nào đó, mà vẫn mang đầy đủ các đặc tính của nó. Biểu diễn
20
này có thể nằm trong phạm vi từ cú pháp đến ngữ nghĩa.
Hình 1.2: Mô hình dịch trực tiếp
1.1.2.3 Dịch qua ngôn ngữ trung gian
Theo hướng tiếp cận này, hệ thống sẽ chuyển đổi văn bản từ ngôn ngữ nguồn
thành văn bản ở ngôn ngữ trung gian hay còn gọi là liên ngôn ngữ, sau đó thực
hiện việc chuyển văn bản từ ngôn ngữ trung gian thành văn bản ở ngôn ngữ
đích. Mô hình của hướng tiếp cận này được thể hiện trong hình 1.3.
Một liên ngôn ngữ lý tưởng phải là một sự biểu diễn độc lập với mọi ngôn
ngữ tự nhiên và biểu diễn được mọi sự khác biệt về ý nghĩa đến mức tinh tế
nhất của mọi ngôn ngữ có trong hệ dịch đó. Ví dụ: tiếng Việt phân biệt các từ:
lúa, thóc, gạo, cơm, . . . còn tiếng Anh thì không. Tương tự, tiếng Anh thì phân
biệt các từ : remember, miss, . . . còn tiếng Việt thì chỉ dùng từ nhớ. Chính vì
vậy, việc xây dựng một hệ liên ngôn ngữ đủ mạnh để biểu diễn tất cả các thông
tin của mọi ngôn ngữ có thể có, cùng với bộ phân giải và bộ tạo sinh thích hợp
là một việc vô cùng phức tạp mà đến nay vẫn chưa thực hiện được.
Các phương pháp dịch máy hiện nay chủ yếu được xây dựng theo kiến trúc
21
dịch chuyển đổi.
Hình 1.3: Mô hình dịch qua ngôn ngữ trung gian
1.1.3 Các phương pháp dịch máy
Có rất nhiều phương pháp khác nhau trong dịch máy, mỗi phương pháp đều
cho thấy ưu và nhược điểm của nó đối với từng cặp ngôn ngữ cụ thể. Sau đây
1.1.3.1 Dịch máy dựa trên luật
là một số phương pháp trong dịch máy.
Đây là phương pháp truyền thống xuất phát từ cách làm của các hệ luật dẫn
trong hệ chuyên gia ở lĩnh vực trí tuệ nhân tạo [23] [9]. Trong xử lý ngôn ngữ
tự nhiên thì các luật dẫn này thường được các chuyên gia ngôn ngữ xây dựng
thủ công. Ví dụ để phân tích cú pháp, người ta đã xây dựng các luật văn phạm
• S −→ NP VP
• NP −→ NounDet NounDet Adj Noun
22
như:
• VP −→ ViVt NP
• ...
Đối với khối chuyển đổi cú pháp, người ta cũng dùng các luật chuyển đổi cố
định, chẳng hạn đối với dịch Anh - Việt, một trong những luật đó là:
“Nếu câu nguồn được phân tích là NP −→ Det Adj Noun thì câu đích sẽ được
chuyển thành NP −→ Det Noun Adj”
Đối với khối xử lý ngữ nghĩa, người ta cũng dùng các luật phỏng đoán, như:
“Nếu động từ = ăn −→ chủ từ = động vật và đối từ = đồ ăn được”
Tương tự đối với các công việc khác của hệ dịch; chúng đều dựa vào các luật
do chính con người tạo ra và đưa vào máy.
Việc xây dựng một hệ các luật như thế đòi hỏi công sức rất lớn và nhiều khi
lại không bao quát hết mọi trường hợp. Tuy nhiên, trong một miền giới hạn, thì
phương pháp này tỏ ra hiệu quả và chúng ta hoàn toàn làm chủ được kết quả
dịch (nghĩa là tất cả các câu thỏa mãn các luật đã được xây dựng thì sẽ được
phân tích và dịch tốt). Để bao quát hết các hiện tượng ngôn ngữ, người ta nghĩ
rằng cứ việc thêm nhiều luật vào, nhưng mà trái lại càng khiến cho hệ sinh ra
càng nhiều cây cú pháp ứng với một câu nguồn nhập vào. Kết quả là hệ thống
không biết chọn cây cú pháp nào. Ngoài ra, một khi số luật tăng lên sẽ khiến
cho chính người thiết kế luật khó kiểm soát được tính hợp lý của tất cả các luật
mà mình đã tạo ra và chắc chắn sẽ có những luật thừa, những luật mâu thuẫn
nhau.
Với phương pháp dịch máy dựa trên luật, chúng ta có thể xây dựng được một
hệ thống ban đầu một cách dễ dàng, nhưng càng về sau, khi quy mô tăng lên thì
chúng trở nên khó kiểm soát, thậm chí chúng có thể làm cho máy tính phải xử
lý một cách phức tạp. Cách này có ưu điểm là dựa trên lý thuyết ngôn ngữ học,
vì vậy nó giải quyết được hầu hết các hiện tượng cốt lõi của ngôn ngữ, nhưng
23
chúng lại không giải quyết được các hiện tượng phụ (những trường hợp ngoại lệ
Hình 1.4: Mô hình dịch máy thống kê
1.1.3.2 Dịch máy thống kê
mà không tuân theo luật chính).
Dịch máy thống kê (Statistical Machine Translation - SMT) là một phương
pháp dịch máy, trong đó các bản dịch được tạo ra trên cơ sở các mô hình thống
kê có các tham số được xác định từ việc phân tích các cặp câu song ngữ từ kho
ngữ liệu song ngữ.
Thay vì xây dựng các từ điển, các quy luật dịch thủ công như trong các hệ
thống dịch máy dựa vào luật, dịch máy thống kê sẽ dựa trên thống kê để xây
dựng các từ điển và các quy luật dịch đó một cách tự động. Để thực hiện được
điều này cần có tập ngữ liệu song ngữ rất lớn. Máy tính sẽ thống kê và rút ra
xác suất dịch tương ứng về từ hoặc cụm từ hay cấu trúc giữa hai ngôn ngữ; xác
suất chuyển dịch vị trí giữa hai ngôn ngữ và xác suất xuất hiện của từ hoặc cụm
từ đó trong một ngữ cảnh nhất định nào đó. Mô hình dịch máy thống kê được
thể hiện trong Hình 1.4.
Brown và cộng sự, năm 1990 đã đề xuất phương pháp thống kê cho dịch máy
24
[80]. Ở công trình này bài toán dịch máy được mô tả như sau: Gọi S là câu ngôn
ngữ nguồn và T là câu ngôn ngữ đích, cặp (S, T ) là cặp câu được dịch bởi nhau.
Ứng với mỗi câu S được cho bất kỳ, ta đi tìm câu T hợp lý nhất (là câu được
P (S, T ) cực đại. Vì S và T phụ thuộc lẫn nhau nên theo lý thuyết xác suất có
dịch gần đúng nhất của câu nguồn sang câu đích). Nghĩa là ta phải tìm xác suất
P (S, T ) = P (S) ∗ P (T |S)
điều kiện:
(1.1.1)
P (S) ∗ P (T |S)
P (S, T ) = argmax
Nghĩa là bài toán dịch trở thành:
T
(1.1.2) argmax T
P (T |S). Tính P(T|S)
T
Do P(S) không phụ thuộc vào T nên ta chỉ cần tính: argmax
P (T |S) =
dựa vào định lý Bayes như sau:
P (T )P (S|T ) P (S)
(1.1.3)
Trong công thức 1.1.3, mẫu số không phụ thuộc vào T , do đó bài toán dịch
máy trở thành tìm T để P (T )P (S|T ) đạt giá trị lớn nhất. Gọi P (T ) là xác suất
mô hình ngôn ngữ và P (S|T ) là xác suất mô hình dịch, khi đó một hệ thống
dịch máy thống kê đòi hỏi một phương pháp tính toán xác suất mô hình ngôn
ngữ, một phương pháp tính toán xác suất mô hình dịch và một phương pháp
tìm kiếm câu đích T mà có giá trị P (T )P (S|T ) là lớn nhất.
Phương pháp dịch máy thống kê dựa vào từ: các đơn vị cơ bản của bản
dịch là một từ trong ngôn ngữ tự nhiên. Trong những năm 1990, IBM (Brown
và cộng sự, 1993) [30] đã đề xuất giải thuật cho năm mô hình dịch thống kê
dựa vào từ là IBM1, IBM2, IBM3, IBM4, IBM5. Các mô hình này được sử dụng
rộng rãi trong các công trình nghiên cứu về dịch máy thống kê sau này [40] [20].
Phương pháp dịch máy thống kê dựa trên cụm từ PBSMT (Phrase-
Based Statistical Machine Translation): Trong khi các mô hình dựa trên
từ của IBM là một bước đột phá trong SMT, chúng cũng cho thấy một số thiếu
25
sót chung. Một trong số đó là chúng chủ yếu được thiết kế để mô hình hóa các
phụ thuộc từ vựng giữa các từ đơn lẻ. Để khắc phục điều này, các mô hình dựa
trên cụm từ đã được đề xuất (Vogel và cộng sự, 2000) [100], (Marcu và Wong,
2002) [18] và (Och và Ney, 2004) [33]. Trái ngược với việc sử dụng đơn vị từ làm
cơ sở, các mô hình dựa trên cụm từ thêm một lớp cấu trúc khác gọi là "cụm từ"
(một dãy các từ liền nhau) và sử dụng nó làm đơn vị dịch. Nói cách khác, các
nhóm từ liền nhau trong ngôn ngữ đích có thể được dóng hàng với các nhóm từ
liền nhau trong ngôn ngữ nguồn. Kết quả là, ngữ cảnh của các từ được xem xét
và sự khác biệt về trật tự từ giữa ngôn ngữ nguồn và ngôn ngữ đích có thể được
học một cách rõ ràng.
Mô hình dịch dựa trên cụm từ được thực hiện như sau: đầu tiên dịch độc lập
các cụm từ nguồn thành các cụm từ ở ngôn ngữ đích, sau đó các cụm từ được
dịch sẽ được thay đổi trật tự để sinh câu đích dựa vào giá trị xác suất.
Phương pháp dịch máy thống kê dựa vào cụm từ đã cho thấy nó là hệ thống
dịch máy thống kê tốt nhất được biết đến, phương pháp dịch máy này được
Koehn và cộng sự đề xuất năm 2007 [84]. Dịch máy dựa trên cụm từ đã chiếm
ưu thế trong nghiên cứu cũng như trong thương mại vì hiệu quả của nó cho đến
1.1.3.3 Dịch máy dựa trên mạng nơ-ron
cuối năm 2015 [70] [63] [92] [74] [101].
Dịch máy dựa trên mạng nơ-ron (Neural Machine Translation - NMT)là cách
tiếp cận đầu cuối cho dịch tự động, có tiềm năng vượt qua những yếu điểm của
các hệ thống dịch máy dựa vào cụm từ [116]. Thế mạnh của dịch máy dựa trên
mạng nơ-ron nằm ở khả năng học trực tiếp, ánh xạ từ văn bản đầu vào tới văn
bản đầu ra [27] .
Hệ thống dịch máy dựa trên mạng nơ-ron là một mạng nơ-ron mà mô hình
hóa trực tiếp xác suất có điều kiện P (T |S) của việc dịch một câu nguồn S thành
câu đích T[61]. Cấu trúc cơ bản của dịch máy dựa trên mạng nơ-ron gồm 2
26
thành phần:
Hình 1.5: Cấu trúc của hệ thống dịch máy dựa trên mạng nơ-ron
1. Mã hóa: tính toán biểu diễn θ cho mỗi câu nguồn.
2. Giải mã: sinh tuần tự các từ đích.
Hình 1.5 cho thấy mô phỏng của việc dịch một câu nguồn thành một câu đích
ở mô hình dịch máy dựa trên mạng nơ-ron.
Dịch máy dựa vào mạng nơ-ron thực hiện việc mô hình hóa xác suất của câu
i (cid:89)
đích T (t1, t2, ..., ti) khi biết trước câu nguồn S(s1, s2, ..., sj).
P (S|T ) = P (t1:i|S) =
P (tk|{t1:i−1}, S, θ)
k=1
(1.1.4)
Với P (S|T ) được tính sử dụng kiến trúc mã hóa - giải mã dựa vào sự chú ý
(attention) [27].
Một hệ thống dịch máy dựa trên mạng nơ-ron bao gồm hai mạng nơ-ron hồi
27
quy RNN (Recurrent Neural Network), RNN mã hóa câu nguồn ánh xạ mỗi từ
nguồn đến một véc tơ từ và xử lý chúng thành một chuỗi véc tơ ẩn h1, h2, ..., hs.
RNN giải mã sinh câu đích kết hợp biểu diễn ẩn RNN của từ được sinh trước
đó với các vec tơ ẩn nguồn để dự đoán điểm cho mỗi từ kế tiếp có thể [34]. Sau
đó tầng softmax được sử dụng để tạo ra xác suất của từ kế tiếp P (ti|t1:i−1, s, θ)
[36], các véc tơ ẩn nguồn ảnh hưởng đến xác xuất thông qua tầng ẩn.
Ưu điểm của dịch máy dựa trên mạng nơ-ron: có thể giải quyết được các thiếu
sót của hệ thống dịch máy truyền thống (câu đầu ra trôi chảy; không phải lựa
chọn các bản dịch ứng viên như trong dịch máy thống kê; . . . ). Dễ dàng khi thực
hiện xử lý song song. Tránh được việc phải lựa chọn bản dịch tối ưu trong các
bản dịch ứng viên như trong hệ thống dịch máy dựa vào cụm từ. Bản dịch trôi
chảy hơn, sát nghĩa hơn [64] [8] [81] [96] [69].
• Chậm hơn trong huấn luyện và suy diễn. Không dịch được những từ mới,
Nhược điểm của dịch máy dựa trên mạng nơ-ron là:
• Zheng và cộng sự năm 2018 [113] đã chỉ ra rằng hệ thống dịch máy dựa
quá trình dịch như hộp đen nên khó can thiệp xử lý và gỡ lỗi.
trên mạng nơ-ron có thể bị lỗi ở bản dịch do tính linh hoạt của ngôn ngữ
tự nhiên và do thiết kế mạng nơ-ron. Điều này dẫn đến sự mất thông tin,
• Ott và cộng sự, năm 2018 [72] đã chỉ ra tính không chính xác trong dịch
sai ngữ nghĩa và thiếu tính logic.
máy dựa trên mạng nơ-ron, bao gồm: Không chính xác ở phân bố đầu ra
• Một số nhược điểm khác liên quan đến ngữ liệu huấn luyện và mô hình
của mô hình; Không chính xác trong tìm kiếm chùm ở chùm lớn.
dóng hàng.
Cũng như dịch máy thống kê dựa trên cụm từ, dịch máy dựa trên mạng nơ-
ron là mô hình dịch máy dựa trên dữ liệu, phụ thuộc vào dữ liệu song ngữ được
28
sử dụng trong huấn luyện hệ thống dịch máy. Chất lượng dịch của hệ thống dịch
1.1.3.4 Dịch dựa trên cơ sở tri thức
máy liên quan đến kích thước và chất lượng của kho ngữ liệu huấn luyện.
Ý tưởng chính của việc dịch dựa trên cơ sở tri thức là: "muốn dịch được thì
trước hết phải hiểu được". Mà muốn hiểu được thì máy phải được trang bị tri
thức ngôn ngữ và tri thức về thế giới thực giống như con người [93] [35].
Với phương pháp này, trước hết người ta phải xây dựng một hệ cơ sở tri thức
đủ lớn bao trùm mọi tri thức về thế giới thực ở mọi lĩnh vực. Mà điều này thì
không khả thi, nên người ta chỉ giới hạn trong một lĩnh vực hẹp nào đó và mô
hình hóa tri thức của lĩnh vực này bằng cách xây dựng các lớp ngữ nghĩa và
các thực thể để biểu diễn tất cả các khái niệm trong miền lĩnh vực đó. Mỗi khái
• Tên khái niệm.
• Các khe: các vai ngữ nghĩa được phép.
• Bộ lọc: những lớp khái niệm được phép, phù hợp với các vai nghĩa.
niệm bao gồm:
Hệ thống dựa trên cơ sở tri thức khử nhập nhằng bằng các bộ lọc hạn chế
các vai nghĩa có lớp khái niệm phù hợp. Cơ chế nhận biết tri thức có thể là tự
động hay bán tự động.
Theo phương pháp này, phải xây dựng một hệ thống bản thể học để phân
loại tri thức, xây dựng một cơ chế suy diễn tự động và biểu diễn liên ngôn ngữ.
Tuy nhiên, việc xây dựng một hệ thống phân loại tri thức hoàn chỉnh là điều
khó có thể thực hiện được. Ví dụ: "toy-gun" (súng đồ chơi) được xếp vào nhóm
29
"đồ chơi" (toy) hay "vũ khí" (weapon)?
Hình 1.6: Cấu trúc của hệ thống dịch máy MOSES
1.1.4 Các hệ thống dịch máy có thể sử dụng để thực nghiệm
1.1.4.1 Hệ thống dịch máy thống kê MOSES
MOSES là một hệ thống dịch máy thống kê mã nguồn mở được xây dựng và
phát triển bởi Koehn và cộng sự, có tài liệu hướng dẫn sử dụng chi tiết.3
MOSES cho phép huấn luyện tự động các mô hình dịch cho bất kỳ cặp ngôn
ngữ nào chỉ cần có kho ngữ liệu song ngữ dóng hàng mức câu. Khi có mô hình
huấn luyện, một thuật toán tìm kiếm hiệu quả sẽ nhanh chóng tìm thấy bản
dịch có xác suất cao nhất trong số các lựa chọn theo cấp số nhân.
Hệ thống dịch máy thống kê MOSES được huấn luyện trên kho ngữ liệu song
ngữ kích thước lớn (để học cách dịch các đoạn nhỏ) và kho ngữ liệu đơn ngữ
(để học cách đưa ra đầu ra trôi chảy). Cấu trúc của hệ thống dịch máy MOSES
được thể hiện trong hình 1.6.
• Luồng huấn luyện: là một tập các công cụ nhận dữ liệu thô (song ngữ và
MOSES có hai thành phần chính: Luồng huấn luyện và Bộ giải mã.
3http://www.statmt.org/moses/
30
đơn ngữ) và biến nó thành một mô hình dịch máy.
• Bộ giải mã: là một ứng dụng C++ đơn giản, với một mô hình dịch máy
được huấn luyện và một câu nguồn cho trước, bộ giải mã sẽ dịch câu nguồn
thành câu đích.
• Cung cấp hai kiểu mô hình dịch: Dựa vào cụm từ và dựa vào cây cú pháp.
• Có các mô hình dịch tham số, cho phép tích hợp thông tin ngôn ngữ và
Các tính năng của MOSES:
• Cho phép giải mã các mạng confusion và lưới từ, cho phép tích hợp dễ dàng
thông tin khác ở mức từ.
với các công cụ chẳng hạn như máy nhận dạng giọng nói tự động hoặc máy
• Hệ thống quản lý thử nghiệm giúp việc sử dụng MOSES dễ dàng hơn.
1.1.4.2 Hệ thống dịch máy dựa trên mạng nơ-ron OpenNMT
phân tích hình thái
OpenNMT là một công cụ mã nguồn mở cho dich máy nơ-ron [36]. Nó được
xây dựng, duy trì và phát triển bởi nhóm xử lý ngôn ngữ tự nhiên Harvard và
SYSTRAN.
OpenNMT là một tập hợp các chương trình hỗ trợ dễ dàng cho dịch máy
dựa trên mạng nơ-ron. Tâm điểm của các chương trình là các thư viện cho huấn
luyện, sử dụng và triển khai các mô hình dịch máy dựa trên mạng nơ-ron. Hệ
thống ban đầu dựa vào seq2seq-attn. Dự án hỗ trợ các mô hình NMT vanilla
cùng với hỗ trợ cho các mô hình: chú ý, cổng, xếp chồng, đầu vào, chính quy,
sao chép, tìm kiếm chùm và tất cả các thuộc tính cần thiết cho hiệu xuất tối ưu.
OpenNMT hiện có ba triển khai chính:
1. OpenNMT-lua:4 Chương trình đầu tiên được phát triển trên Torch 7. Đầy
đủ tính năng, tối ưu hóa và Mã chương trình ổn định, sẵn sàng cho các thử
4https://github.com/OpenNMT/OpenNMT
31
nghiệm và xây dựng sản phẩm.
2. OpenNMT-py:5 là một bản sao của OpenNMT-lua sử dụng PyTorch,
được tạo bởi Adam Lerer và nhóm nghiên cứu AI của Facebook. Nó dễ mở
rộng và đặc biệt phù hợp cho nghiên cứu.
3. OpenNMT-tf:6 Một triển khai theo kiểu của TensorFlow. Đây là một
chương trình mới hơn tập trung vào các thử nghiệm quy mô lớn và mô hình
hiệu suất cao, nó sử dụng các tính năng mới nhất của TensorFlow.
OpenNMT hỗ trợ huấn luyện nhiều GPU bằng cách sử dụng song song dữ
liệu. Mỗi GPU có một bản sao của các tham số chính và xử lý các gói độc lập
trong giai đoạn huấn luyện. Hai chế độ có sẵn: huấn luyện đồng bộ và không
đồng bộ. Các thử nghiệm với 8 GPU cho thấy tốc độ tăng 6 lần trong mỗi epoch.
Xây dựng công cụ huấn luyện hệ thống NMT đòi hỏi mã lệnh phức tạp. Nhưng
khi triển khai thì đơn giản, chỉ yêu cầu (i) nhập vào các giá trị cho các tham
biến trong mạng và (ii) chạy một tìm kiếm chùm được đơn giản hóa hơn nhiều
so với SMT. OpenNMT bao gồm một số triển khai dịch máy khác nhau dành
riêng cho các môi trường thời gian chạy khác nhau: triển khai gói CPU/GPU
để dịch nhanh chóng các văn bản có kích thước lớn, triển khai một trường hợp
đơn giản cho sử dụng trên thiết bị di động và triển khai chuyên biệt phù hợp
1.1.5 Đánh giá các hệ thống dịch máy
1.1.5.1 BLEU
cho sử dụng công nghiệp.
Điểm BLEU (BiLingual Evaluation Understudy) do Papineni đề xuất năm
2001 [56] là độ đo tự động đầu tiên được chấp thuận để đánh giá các bản dịch.
Nguyên lý của phương pháp này là tính toán mức tương đồng giữa bản dịch
(bản dịch máy) và một hoặc nhiều các bản dịch tham chiếu dựa vào độ chính
5https://github.com/OpenNMT/OpenNMT-py 6https://github.com/OpenNMT/OpenNMT-tf
32
xác n-gram. Điểm BLEU được định nghĩa theo công thức 1.1.5.
i=1 wilogpi)
BLEU = BP.e((cid:80)n
(1.1.5)
pi: Giá trị trung bình của độ chính xác n-gram được thay đổi.
wi: Trọng số tích cực.
BP (Brevity Penalty): Phạt ngắn dùng để phạt các bản dịch quá vắn tắt.
Trong đó:
1
if
c > r
Phạt ngắn được tính toán trên toàn bộ kho ngữ liệu theo công thức 1.1.6
BP =
c
e1− r
if
c < r
(1.1.6)
c: độ dài của bản dịch.
r: độ dài của kho ngữ liệu tham chiếu.
1.1.5.2 WER
Trong đó:
Độ đo WER (Word Error Rate) được Popovic đề xuất năm 2007 [62]. Đầu
tiên, WER được sử dụng trong nhận dạng tiếng nói tự động, so sánh 1 câu giả
thuyết có liên quan đến một câu hay không dựa vào khoảng cách Levenshtein
[108]. Nó cũng được sử dụng trong dịch máy để đánh giá chất lượng của một
giả thuyết dịch có liên quan đến bản dịch tham chiếu hay không bằng việc tính
số lần chỉnh sửa tối thiểu (thao tác chèn, xóa hoặc thay thế) các từ được thực
hiện trên bản dịch giả thuyết để làm nó giống với bản dịch tham chiếu.
K (cid:88)
W ER =
WER được tính theo công thức 1.1.7
dL(refk,r, hypk)
min r
1 N ∗
ref
k=1
(1.1.7)
N ∗
ref : tỷ lệ lỗi mức câu thấp nhất.
33
Trong đó:
dL: khoảng cách Levenshtein giữa câu tham chiếu refk,r và câu giả thuyết
hypk
Hạn chế của WER là nó không cho phép thay đổi trật tự từ trong khi trận
1.1.5.3 PER
tự từ của giả thuyết có thể khác so với trật tự từ của tham chiếu.
Độ đo PER (Position-independent word Error Rate) do Tillmann đề xuất
năm 1997 [21] so sánh các từ của bản dịch máy với bản tham chiếu không phân
K (cid:88)
P ER =
biệt thứ tự từ. Điểm PER được xác định theo công thức 1.1.8
dP ER(refk,r, hypk)
min r
1 N ∗
ref
k=1
(1.1.8)
Trong đó, dP ER là độ đo cho biết sự khác nhau giữa số lần xuất hiện các từ
trong bản dịch máy và bản dịch tham chiếu, được tính theo công thức 1.1.9
dP ER(refk,r, hypk) =
|n(e, refk,r) − n(e, hypk)|
|Nrefk,r − Nhypk| +
1 2
e
(cid:33) (cid:32) (cid:88) (1.1.9)
1.1.5.4 TER
Hạn chế của PER là không quan tâm đến trật tự từ.
Độ đo TER (Translation Error Rate ) do Snover đề xuất vào năm 2006 [66].
Nó được xác định bằng số lần chỉnh sửa tối thiểu bản dịch giả thuyết để nó
trùng khớp với bản dịch tham chiếu, trên độ dài của bản dịch tham chiếu. Các
thao tác chỉnh sửa bao gồm: chèn, Xóa, thay thế các từ đơn lẻ và di chuyển một
T ER =
dãy các từ liên tục. TER được tính theo công thức 1.1.10
#_of_edits average_#_of_ref erence_words
(1.1.10)
34
Trong đó:
#_of_edits: số lần sửa đổi cực tiểu.
average_#_of_reference_words: số từ tham chiếu trung bình.
Độ đo đánh giá tự động chất lượng các hệ thống dịch máy được sử dụng phổ
biến trong các công trình nghiên cứu là độ đo BLEU. Đánh giá các hệ thống
dịch máy bằng độ đo BLEU được xem là một cách đánh giá sát với đánh giá
của con người [16] [22]. Điểm BLEU đánh giá các hệ thống dịch máy Việt-Anh
thường đạt khoảng 30 điểm.
Để huấn luyện được một hệ thống dịch máy thì điều quan trọng là phải có
nguồn tài nguyên ngôn ngữ. Phần tiếp theo, luận án sẽ trình bày về tài nguyên
1.2 Tài nguyên ngôn ngữ cho hệ thống dịch máy
ngôn ngữ cho hệ thống dịch máy.
Tài nguyên ngôn ngữ là các bộ dữ liệu kèm theo các mô tả ở dạng mà máy
tính có thể đọc được, bao gồm: Kho ngữ liệu văn bản hay tiếng nói; cơ sở dữ
liệu thuật ngữ hay ngữ pháp; . . . . Chúng được dùng để xây dựng, cải tiến hoặc
đánh giá các hệ thống xử lý ngôn ngữ tự nhiên.
Những năm gần đây các cách tiếp cận về phân tích ngôn ngữ chủ yếu dựa
vào dữ liệu. Đối với bài toán dịch máy, dữ liệu là các kho ngữ liệu song song.
Kích thước và chất lượng của các kho ngữ liệu có ảnh hưởng không nhỏ đến
1.2.1 Tài nguyên đa ngữ cho dịch máy
chất lượng của hệ dịch máy.
Đã có rất nhiều công trình nghiên cứu xây dựng các kho ngữ liệu cho các cặp
• Năm 1999, Philip Resnik [86] [87] đã đề xuất phương pháp thu thập các
ngôn ngữ khác nhau, điển hình là các công trình nghiên cứu sau:
văn bản song ngữ từ các trang Web. Phương pháp được thực hiện theo ba
35
bước:(i) Phát hiện các trang Web song ngữ; (ii) Thực hiện lọc các trang
Web song ngữ phát hiện được một cách độc lập ngôn ngữ; (iii) Lọc các
trang Web song ngữ phụ thuộc ngôn ngữ bằng việc áp dụng các tiêu chuẩn
bổ sung theo từng dạng ngôn ngữ và sau đó là nghiên cứu mở rộng phương
pháp bằng việc thêm vào nhận dạng ngôn ngữ tự động.
Trong công trình này tác giả đã thu thập được 2.491 cặp văn bản song ngữ
• Năm 2002, Philipp Koehn [82] đã có nghiên cứu xây dựng kho ngữ liệu đa
Anh-Pháp với xấp xỉ 1,5 tỷ từ cho mỗi ngôn ngữ.
ngôn ngữ cho dịch máy bao gồm 11 ngôn ngữ với trên 2 tỷ từ mỗi ngôn
ngữ. Tài nguyên để xây dựng kho ngữ liệu khai thác từ kỷ yếu của hạ viện
Châu Âu. Quy trình xây dựng kho ngữ liệu được tiến hành theo 5 bước:
(i) Thu thập các trang Web song ngữ; (ii) Trích rút các đoạn văn bản song
song; (iii) Tách câu; (iv) Chuẩn hóa văn bản, (v) Gán nhãn và dóng hàng
• Năm 2007, Macken và cộng sự [60] đã có nghiên cứu xây dựng kho ngữ liệu
câu cho từng cặp văn bản.
song song cho ngôn ngữ Hà Lan gồm hai cặp ngôn ngữ Hà lan - Anh, Hà
Lan - Pháp với tổng số trên 10 tỷ từ cho mỗi cặp ngôn ngữ. Phương pháp
xây dựng kho ngữ liệu song song của họ xuất phát từ việc phân tích cấu
trúc và đặc điểm của mỗi cặp ngôn ngữ để thực hiện xử lý trích rút văn
• Năm 2010, Jakob Uszkoreit và cộng sự [44] đã đề xuất phương pháp khai
bản song ngữ và thực hiện dóng hàng văn bản được hiệu quả hơn.
phá văn bản song ngữ kích thước lớn cho dịch máy. Đầu tiên văn bản song
song đa ngôn ngữ được đưa vào một hệ thống dịch máy để thu được bản
dịch tiếng Anh, sau đó thực hiện trích rút n-gram để tính điểm và sắp xếp
danh sách các cặp văn bản theo trật tự điểm, cuối cùng căn cứ vào một
mức điểm nhất định để xác định các cặp văn bản là bản dịch của nhau rồi
thực hiện tách câu, dóng hàng để xây dựng kho ngữ liệu. Trong công trình
36
này, tác giả đã thu thập được trên 2 tỷ trang Web và một lượng lớn các
cuốn sách điện tử song ngữ theo lĩnh vực.
Các công trình xây dựng kho ngữ liệu song ngữ trong những năm gần đây
chủ yếu dựa vào đặc điểm của từng cặp ngôn ngữ để trích rút tự động các văn
bản song ngữ từ các trang Web, phụ đề phim, sách điện tử song ngữ, . . . nhằm
• Năm 2012, Post và cộng sự [67] đã nghiên cứu xây dựng kho ngữ liệu song
xây dựng kho ngữ liệu song song đa ngôn ngữ có kích thước lớn:
song giữa tiếng Anh và sáu thứ tiếng Bengali, Hindi, Malayalam, Tamil,
Telugu,và Urdu. Kho ngữ liệu này được xây dựng dựa vào công cụ Amazon’s
Mechanical Turk (MTurk) được thiết lập phù hợp với từng cặp ngôn ngữ
để thu thập dữ liệu song ngữ. Phương pháp xây dựng kho ngữ liệu của họ
được tiến hành theo ba bước: (i) Xây dựng từ điển song ngữ; (ii) Sử dụng
từ điển trong bước (i) để khởi tạo các điều khiển thực nghiệm trong thu
thập bốn bản dịch cho mỗi câu nguồn; (iii) Tính toán chất lượng của dữ
liệu thu được và lựa chọn các dữ liệu có chất lượng cao. Kích thước kho ngữ
• Năm 2016, tác giả J¨org Tiedemann đã nghiên cứu xây dựng và chia sẻ cộng
liệu mà họ thu thập được trên các cặp ngôn ngữ là 600.000 câu.
đồng kho ngữ liệu OPUS dóng hàng mức câu với trên 60 ngôn ngữ có tổng
số 2,6 tỷ cặp câu [50]. Hiện tại kho ngữ liệu vẫn được thu thập mở rộng
• Năm 2018 [98], Abate và cộng sự đã mô tả phương pháp phát triển kho ngữ
kích thước.
liệu song song cho các ngôn ngữ của Cộng hòa Dân chủ Liên bang Ethiopia.
Nhóm tác giả đã xây dựng được các kho ngữ liệu song song cho 7 cặp ngôn
ngữ, bao gồm:
1. Amharic - Tigrigna: 34.349 cặp câu;
2. Amharic - Afan Oromo: 11.457 cặp câu;
37
3. Tigrigna - Afan Oromo: với 10.987 cặp câu;
4. Amharic - Wolaytta: 9.400 cặp câu;
5. Ge’ez - Amharic: 11.546 cặp câu;
6. Wolaytta - Afan Oromo: 2.923 cặp câu;
7. Tigrigna - Wolaytta: 2.504 cặp câu.
Tài nguyên để xây dựng kho ngữ liệu này, được nhóm tác giả thu thập từ
kinh thánh và từ các Website Jehovah’s Witnesses,7 Ethiopicbible,8 Ebible,9
Geezexperience.10 Phương pháp xây dựng kho ngữ liệu được thực hiện như
sau:
1. Sử dụng công cụ thu thập Web, các thư viện của Python để phân tích
cấu trúc của trang web và trích rút các văn bản song ngữ;
2. Chuẩn hóa ký tự: Dựa vào đặc điểm hình thái của từng cặp ngôn ngữ.
3. Tách câu và thực hiện dóng hàng câu.
Hầu hết các công trình nghiên cứu xây dựng kho ngữ liệu song song đa ngôn
ngữ khai thác tài nguyên từ các trang Web song ngữ. Kích thước và chất lượng
của các kho ngữ liệu song song mà các nhóm nghiên cứu thu thập được tùy
1.2.2 Tài nguyên song ngữ Việt-Anh
thuộc vào từng cặp ngôn ngữ cụ thể.
Tiếng Việt hiện nay, tài nguyên song ngữ Việt-Anh có sẵn còn hạn chế, đặc
biệt là tài nguyên dùng trong xây dựng và phát triển các hệ thống dịch máy
Việt-Anh. Phương pháp xây dựng tự động kho ngữ liệu song ngữ Việt-Anh đã
được quan tâm nghiên cứu nhưng kết quả còn hạn chế do phương pháp này chỉ
7https://www.jw.org 8https://www.ethiopicbible.com 9http://ebible.org 10https://www.geezexperience.com
38
khai thác được các văn bản song ngữ từ các Website và các chương trình trực
tuyến, kho ngữ liệu thu thập được của các nhóm nghiên cứu chỉ có một số ít
• Trong công trình của Đinh Điền và Hoàng Kiếm năm 2005 [25] đã trình
được chia sẻ cho cộng đồng.
bày phương pháp xây dựng kho ngữ liệu song ngữ Việt-Anh có gán nhãn.
Phương pháp xây dựng được thực hiện như sau:
1. Thu thập văn bản song ngữ: Thu thập từ rất nhiều nguồn (Sách, từ
điển, các tài liệu song ngữ, . . . ).
2. Chuẩn hóa dữ liệu: Dữ liệu sau khi được thu thập sẽ được chuẩn hóa
về cùng định dạng, được chỉnh sửa lỗi chính tả, lỗi ngữ pháp.
3. Dóng hàng câu cho văn bản: Với các văn bản song ngữ được gõ thủ công
sẽ được dóng hàng thủ công; các văn bản điện tử thu thập được từ các
nguồn sẽ được dóng hàng câu sử dụng giải thuật của Gale và Church
[112].
4. Dóng hàng từ: Kho ngữ liệu dóng hàng mức câu được thực hiện dóng
hàng từ tự động bằng việc sử dụng một mô hình kết hợp giữa phân lớp
ngữ nghĩa của S.K.Chang và J.S.Chang [97] với GIGA++.
• Trong đề tài "Xây dựng kho ngữ liệu song ngữ Việt-Anh" năm 2015 [1] của
Kho ngữ liệu xây dựng được từ công trình này là 5.000.000 cặp từ.
Đinh Điền đã đề xuất phương pháp xây dựng kho ngữ liệu song ngữ có
dóng hàng mức câu ở dạng gắn thẻ HTML. Nhóm đã đề xuất phương pháp
bán tự động trong thu thập văn bản song ngữ từ Internet, tài liệu song ngữ
điện tử, tài liệu song ngữ trên giấy, ... để xây dựng kho ngữ liệu song ngữ
• Trong công trình của Triệu Hải Long và Nguyễn Lê Minh năm 2017 [104],
có dóng hàng mức câu.
39
nhóm tác giả đã trình bày nghiên cứu xây dựng kho ngữ liệu song song đa
ngôn ngữ cho một số ngôn ngữ Nam Á, kích thước kho ngữ liệu mà nhóm
tác giả xây dựng được là hơn 1,1 triệu câu của 10 cặp ngôn ngữ, trong đó:
1. Cặp ngôn ngữ Việt - In-đô-nê-xi-a: 76.863 cặp câu.
2. Cặp ngôn ngữ Việt - Ma-lai-xi-a: 55.613 cặp câu.
3. Cặp ngôn ngữ Việt - Phi-líp-pin: 10.418 cặp câu.
4. Cặp ngôn ngữ Việt - Anh: 408.552 cặp câu.
Các công trình nghiên cứu xây dựng kho ngữ liệu song ngữ Việt-Anh ngoài
việc khai thác từ các trang Web song ngữ, các trang đăng các chương trình
video, phim ảnh có phụ đề và phụ đề song ngữ: TED Talks; phim, bài hát có
phụ đề song ngữ Việt-Anh; . . . cũng đã tiếp cận khai thác từ nhiều nguồn song
ngữ khác nhau.
Có hai phương pháp được các nhóm nghiên cứu sử dụng trong xây dựng kho
• Phương pháp xây dựng tự động [10] [71]: Là phương pháp dựa hoàn toàn
ngữ liệu song ngữ:
vào máy tính để xây dựng kho ngữ liệu. Ưu điểm là tốn ít công sức, thời
gian nhưng nhược điểm là chưa khai thác được hết các dạng tài nguyên
• Phương pháp bán tự động [1]: Là phương pháp xây dựng kho ngữ liệu song
song ngữ Việt-Anh trên thực tế và chất lượng kho ngữ liệu không cao.
ngữ mà có một vài giai đoạn trong quá trình xử lý phải thực hiện thủ công.
Ưu điểm là thu thập được hầu hết các dạng tài nguyên song ngữ Việt-Anh,
kho ngữ liệu thu thập được có chất lượng tương đối cao vì kho ngữ liệu đầu
ra được được kiểm tra bởi con người. Nhưng nhược điểm là tốn thời gian
và công sức.
Để tận dụng các nguồn tài nguyên song ngữ hiện có liên quan đến hai ngôn
40
ngữ Anh và Việt, trong luận án không phân biệt ngôn ngữ nào là ngôn ngữ
nguồn trong từng văn bản song ngữ. Do vậy hai thuật ngữ "Kho ngữ liệu song
ngữ Anh-Việt" và "Kho ngữ liệu song ngữ Việt-Anh" được sử dụng như nhau.
Hiện nay kho ngữ liệu song ngữ Việt-Anh được xây dựng chủ yếu dựa vào
khai thác các nguồn tài nguyên song ngữ Việt-Anh. Nhưng do cặp ngôn ngữ
Việt-Anh không có nhiều tài nguyên song ngữ, nên để xây dựng được kho ngữ
liệu song ngữ kích thước lớn nhằm nâng cao chất lượng hệ thống dịch máy là
khó khăn. Một hướng tiếp cận khác giúp nâng cao chất lượng hệ thống dịch máy
khi không có nhiều tài nguyên song ngữ, đó là tiếp cận thích ứng miền trong
1.3 Thích ứng miền trong dịch máy
dịch máy mà luận án sẽ trình bày ở phần tiếp theo.
Các kho ngữ liệu song ngữ được xây dựng cho các hệ thống dịch máy thường
không thể phủ hết tất cả các miền dữ liệu (mỗi miền dữ liệu được phân biệt bởi
các thuộc tính như từ vựng, ngữ pháp, văn phong, ...). Một hệ thống dịch máy
huấn luyện trên một kho văn bản trong lĩnh vực báo chí sẽ bị giảm chất lượng
khi dịch các văn bản trong lĩnh vực y tế chẳng hạn. Để khắc phục điều này,
người ta nghiên cứu các phương pháp thích ứng miền để cải thiện chất lượng
dịch máy trên một miền dữ liệu cụ thể nào đó.
Năm 2020, Gururangan và cộng sự [37] đã có công trình khảo sát về vấn đề:
Khi có dữ liệu miền chung đủ lớn có khả năng phủ hết các miền, thì liệu rằng
có cần các nghiên cứu thích ứng miền? Các kết quả khảo sát của họ cho thấy,
Thích ứng miền hướng dữ liệu và tác vụ là cần thiết để nâng cao chất lượng hệ
thống. Công trình này cũng khẳng rằng, các kho ngữ liệu theo miền được xây
dựng thủ công vẫn là các kho ngữ liệu tốt nhất.
Thích ứng miền trong dịch máy thống kê [17] có thể được dẫn giải một cách
hình thức như sau:
41
Gọi S là tập hợp các câu đầu vào và T là tập hợp các câu dịch tương ứng của
S ở đầu ra của một hệ thống dịch máy. Trong dịch máy thống kê, hệ thống sẽ
thực hiện học hàm f : S −→ T . Để huấn luyện một hệ thống dịch máy thống kê
cần có tập dữ liệu huấn luyện D{(sn, tn) ∈ S × T }. Các mẫu huấn luyện (sn, tn) là
độc lập và tuân theo phân phối p. Mô hình dịch máy thống kê được huấn luyện
để xấp xỉ tn với f (sn) đối với mọi (sn, tn) ∈ D. Thông thường mô hình kiểm thử
trên tập DA cũng tuân theo phân phối p.
Vấn đề ở đây là tệp kiểm thử DA thường được lấy từ một miền khác, vì vậy
f (sn) đối với mọi (sn, tn) ∈ D, nhưng thường là không tốt với các mẫu từ dữ liệu
mà có phối pA khác với p. Trong khi một mô hình có thể xấp xỉ tn rất tốt bởi
kiểm thử DA lấy từ một miền khác. Nếu D và DA là rất khác nhau, hàm xấp xỉ
sẽ không cho kết quả như mong đợi. Trong trường hợp này, chúng ta cần thích
ứng hệ thống dịch với miền và phân phối của dữ liệu kiểm thử.
Có hai xu hướng trong nghiên cứu thích ứng miền:
1. Hướng dữ liệu: Dựa vào kho ngữ liệu giả song ngữ được xây dựng hoặc là
bằng cách sao chép các câu phía đích sang phía nguồn trong miền đích, hoặc
bằng cách ghép các câu phía đích với bản dịch của nó (bản dịch mà được
dịch bởi một hệ thống dịch máy có chất lượng). Chẳng hạn: Công trình
của Jin và cộng sự năm 2020 [24] đã đề xuất một phương pháp thích ứng
miền bán giám sát cho dịch máy nơ ron: Đầu tiên họ khởi tạo bộ mã hóa và
giải mã của mô hình sequence-to-sequence với các tham biến đã được tiền
huấn luyện. Xử lý tiền huấn luyện được thực hiện thông qua mô hình ngôn
ngữ trên kho ngữ liệu đơn ngữ lớn, sau đó thực hiện dịch ngược lặp (cả hai
chiều: từ nguồn ra đích và từ đích ra nguồn) và huấn luyện mô hình ngôn
ngữ trên dữ liệu đơn ngữ miền đích. Thực nghiệm của họ cho thấy, phương
pháp đề xuất của họ đã cải tiến đáng kể chất lượng hệ thống dịch.
2. Hướng mô hình: Tập trung vào học đa tác vụ của tác vụ dịch máy trên dữ
42
liệu song ngữ miền nguồn và tác vụ mô hình ngôn ngữ trên dữ liệu phía
đích miền đích. Chẳng hạn, công trình của Dau và cộng sự năm 2019 [26]
đã đề xuất phương pháp thích ứng mô hình với các embedding có tính năng
nhận biết miền mà được học thông qua mô hình ngôn ngữ phụ trợ. Cách
tiếp cận này cho phép mô hình phân chia các biểu diễn theo miền cụ thể
cho các từ và các câu đầu ra trong miền mong đợi. Thực nghiệm của họ
cho thấy, chất lượng hệ thống dịch áp dụng phương pháp đề xuất được cải
thiện.
Như vậy đối với hướng nghiên cứu thích ứng miền hướng dữ liệu, khi có dữ
liệu theo miền, thì phương pháp thích ứng miền hướng dữ liệu chỉ đơn giản là
việc kết hợp dữ liệu miền chung và dữ liệu theo miền để huấn luyện lại hệ thống
dịch máy.
Trong quá trình thực hiện luận án, có nhiều trường hợp các văn bản tiếng
Việt được xử lý bằng các công cụ tách từ và gán nhãn từ loại. Phần tiếp theo
luận án sẽ trình bày một số công cụ mà đã được các nhóm nghiên cứu chia sẻ
1.4 Các công cụ tiền xử lý văn bản
cho cộng đồng.
Có nhiều bộ công cụ được xây dựng cho tách từ và gán nhãn từ loại, chủ yếu
được huấn luyện trên bộ dữ liệu của đề tài VLSP. Hiện tại có một số bộ công
cụ cung cấp miễn phí cho cộng đồng bao gồm:11
1. Công cụ VnCoreNLP-RDRsegmenter: Công cụ mã nguồn mở của Nguyễn
Quốc Đạt và cộng sự. Công cụ thực hiện tách từ với tiếp cận dựa vào phương
pháp “Các quy tắc Ripple Down phân lớp đơn”, ở đó các quy tắc được lưu
trữ theo một cấu trúc ngoại lệ và các quy tắc chỉ được thêm vào để chính
xác hóa các lỗi tách từ cho trước bởi các quy tắc đã có. Công cụ này đạt
11http://nlpprogress.com/vietnamese/vietnamese.html
43
độ chính xác 97, 90%.
2. Công cụ UETsegmenter: Công cụ được đề xuất bởi Nguyễn Tuấn Phong
và cộng sự. Công cụ thực hiện tách từ với tiếp cận sử dụng hồi quy lô gic
như là một bộ phân lớp nhị phân kết hợp với giải thuật so khớp dài nhất.
Đầu tiên, giải thuật so khớp dài nhất được sử dụng để bắt các từ có nhiều
hơn 2 âm tiết trong câu đầu vào. Tiếp đó hệ thống sử dụng bộ phận lớp để
xác định danh giới của từ hai âm tiết và tên riêng. Sau đó, các phỏng đoán
có độ tin cậy thấp sẽ được xác minh bằng một từ điển để thu được kết quả
cuối cùng. Công cụ này đạt độ chính xác 98, 82%.
3. Công cụ vnTokenizer: Công cụ được đề xuất bởi Lê Hồng Phương và cộng
sự. Công cụ thực hiện tách từ với tiếp cận sử dụng kết hợp kỹ thuật auto
mát trạng thái hữu hạn, phân tích cú pháp biểu thức chính quy và chiến
lược đối sánh cực đại được tăng cường bởi các phương pháp thống kê để
giải quyết sự nhập nhằng trong tách từ. Đầu tiên, văn bản được phân tích
cú pháp thành các cụm từ và các mẫu khác sử sụng các biểu thức chính
quy được định nghĩa trước. Sau đó auto mát được triển khai để xây dựng
đồ thị tuyết tính tương ứng với các cụm từ đã được phân đoạn. Áp dụng
chiến lược đối sánh cực đại trên đồ thị trong tất cả các đoạn ứng viên của
một cụm từ. Việc xử lý sự nhập nhằng trong phân đoạn được giải quyết
bằng việc sử dụng mô hình ngôn ngữ bigram được làm mịn, Công cụ này
đạt độ chính xác là 97, 33%.
4. Công cụ jointWPD: Công cụ được đề xuất bởi Nguyễn Quốc Đạt năm
2019. Công cụ được thiết kế dựa trên mô hình học đa tác vụ có thể thực
hiện tách từ, gán nhãn từ loại và phân tích phụ thuộc cho văn bản tiếng
Việt. jointWPD có độ chính xác 95, 97%.
5. Công cụ VnCoreNLP-VnMarMoT: Công cụ được đề xuất bởi Nguyễn
Quốc Đạt và cộng sự năm 2017. Công cụ thực hiện gán nhãn từ loại cho
44
tiếng Việt với độ chính xác 95.88%.
Các công cụ tách từ và gãn nhãn từ loại cho tiếng Việt hiện nay đều cho
kết quả chính xác cao. Chất lượng của các công cụ chênh lệch không nhiều.
Luận án trong thời gian đầu sử dụng bộ công cụ vnTokenizer là bộ công cụ
có chất lượng tốt nhất tại thời điểm đó. Gần đây luận án có sử dụng bộ công
1.5 Kết luận chương
cụ VnCoreNLP mới được phát triển có chất lượng tốt hơn và dễ sử dụng.
Trong chương này, chúng tôi đã giới thiệu tổng quan về dịch máy, các cách
tiếp cận chủ yếu để giải quyết bài toán dịch máy. Chúng tôi cũng đã trình bày
về vai trò và phương pháp xây dựng kho ngữ liệu song ngữ, một tài nguyên quan
trọng trong huấn luyện các hệ thống dịch máy.
Hiện nay, hệ thống dịch máy dựa trên mạng nơ-ron đã cho thấy ưu thế vượt
trội so với các hệ thống dịch máy khác [116], nhưng nó cũng có những yếu điểm
nhất định. Trong nghiên cứu của Koehn và cộng sự năm 2017 [85] về những
thách thức của dịch máy dựa trên mạng nơ-ron. Koehn đã chỉ ra có 6 thách
thức:
1. Miền dữ liệu: Chất lượng giảm khi dịch các văn bản ngoài miền huấn luyện
hệ thống dịch.
2. Kích thước dữ liệu huấn luyện hệ thống: Kích thước kho ngữ liệu càng lớn
thì chất lượng hệ thống dịch càng tăng.
3. Từ có tần suất thấp: Khó khăn khi dịch các từ có tần suất thấp.
4. Dịch câu dài: Chất lượng dịch bị giảm khi dịch các câu dài.
5. Mô hình dóng hàng từ: Mô hình chú ý (attention) không hoàn thành vai
trò dóng hàng từ.
6. Giải mã tìm kiếm chùm: Chất lượng dịch giảm khi không gian tìm kiếm
45
lớn.
Như đã chỉ ra trong sáu thách thức của dịch máy dựa trên mạng nơ-ron, hệ
thống dịch máy bị giảm chất lượng khi dịch các văn bản ngoài miền. Xây dựng
kho ngữ liệu song ngữ theo miền phục vụ cho nghiên cứu thích ứng miền nâng
cao chất lượng dịch máy là cần thiết cho các cặp ngôn ngữ không nhiều tài
nguyên song ngữ như cặp ngôn ngữ Việt-Anh.
Trong khuôn khổ của luận án, với ứng dụng hướng tới là một hệ thống dịch
máy Việt-Anh tốt trong lĩnh vực du lịch và y tế, luận án tập trung nghiên cứu
xây dựng các kho ngữ liệu song ngữ Việt-Anh theo miền và miền du lịch và y tế
được ưu tiên xây dựng. Bên cạnh đó luận án cũng nghiên cứu đề xuất một số
kỹ thuật để khai thác kho ngữ liệu này trong dịch máy.
Chương tiếp theo, luận án trình phương pháp xây dựng kho ngữ liệu song
ngữ dóng hàng mức câu theo miền và áp dụng cho miền du lịch, đồng thời trình
46
bày kỹ thuật cải tiến một công cụ dóng hàng câu cho cặp ngôn ngữ Việt-Anh.
Chương 2
Xây dựng kho ngữ liệu song ngữ
Việt - Anh dóng hàng mức câu theo
miền
Như đã đề cập trong chương 1, kho ngữ liệu song ngữ dóng hàng ở mức câu
là tài nguyên ngôn ngữ quan trọng cho nhiều ứng dụng của xử lí ngôn ngữ tự
nhiên như: nghiên cứu ngôn ngữ học so sánh, tìm kiếm thông tin xuyên ngữ, xây
dựng từ điển song ngữ,. . . . Tài nguyên này đặc biệt quan trọng trong việc huấn
luyện các hệ thống dịch máy, ví dụ như hệ thống dịch máy thống kê Moses [83],
hệ thống dịch máy nơ-ron OnpenNMT [36]. Chất lượng dịch của một hệ thống
dịch máy chịu ảnh hưởng rất nhiều bởi kích thước và chất lượng của kho ngữ
liệu song ngữ. Bên cạnh đó, các hệ dịch máy huấn luyện trên miền tổng quát
có chất lượng giảm đi rõ rệt khi ứng dụng vào dịch văn bản trên miền hạn chế.
Do vậy, khi triển khai hệ thống dịch máy trên một miền hạn chế, việc xây dựng
kho ngữ liệu phù hợp là một nhiệm vụ thiết yếu.
Đối với cặp ngôn ngữ Việt-Anh, hầu hết các kho ngữ liệu song ngữ Việt-Anh
đã được xây dựng có kích thước còn hạn chế nên việc sử dụng kho ngữ liệu này
trong huấn luyện hệ thống dịch máy Việt-Anh cải thiện chất lượng dịch chưa
47
nhiều. Trong chương này, chúng tôi trình bày việc xây dựng một kho ngữ liệu
song ngữ Việt-Anh có dóng hàng mức câu trên miền du lịch, nhằm nâng cao
chất lượng dịch máy các văn bản trong lĩnh vực du lịch. Việc xây dựng này bao
gồm hai nhiệm vụ, thứ nhất là thu thập văn bản song ngữ Việt-Anh về chủ đề
du lịch, thứ hai là phát triển nâng cấp một phần mềm dóng hàng câu hiệu quả
cho văn bản song ngữ Việt-Anh nhằm hỗ trợ việc dóng hàng kho văn bản song
ngữ.
• Xây dựng kho ngữ liệu song ngữ Việt-Anh dóng hàng mức câu theo miền
Nội dung chương gồm 3 phần chính:
• Phát triển một công cụ dóng hàng cải tiến dựa trên một công cụ dóng hàng
và ứng dụng cho miền du lịch;
• Thực nghiệm đánh giá chất lượng dịch máy Việt-Anh có sử dụng kho ngữ
câu tự động đã có, phục vụ dóng hàng kho ngữ liệu đã xây dựng;
liệu song ngữ Việt-Anh dóng hàng mức câu miền du lịch, kiểm chứng vai
2.1 Xây dựng kho ngữ liệu song ngữ Việt-Anh theo miền
2.1.1 Phương pháp thu thập ngữ liệu song ngữ và dóng hàng câu
trò của kho ngữ liệu có dóng hàng đã xây dựng.
Trong chương 1, chúng ta đã nêu hai phương pháp cơ bản thu thập văn bản
• Phương pháp thủ công [1]: Chụp ảnh hoặc quét hình ảnh các sách báo, tài
song ngữ dưới đây:
liệu, bảng thông tin, . . . rồi dùng các phần mềm xử lý để tách văn bản; hoặc
gõ lại văn bản; hoặc tìm các nguồn dữ liệu song ngữ đã số hóa như các trang
Web. Ưu điểm của cách làm này là thu thập được từ nhiều nguồn văn bản
song ngữ khác nhau, kể cả những nguồn chưa được số hóa. Nhược điểm là
48
tốn rất nhiều công sức, tiền bạc và thời gian.
• Phương pháp tự động [71]: Chủ yếu dùng các chương trình gom tự động các
dữ liệu trên mạng Internet rồi trích chọn văn bản song ngữ là bản dịch của
nhau. Sau đó cần kiểm tra lại bằng phương pháp thủ công để loại bỏ các
kết quả không như ý. Ưu điểm là thu thập văn bản song ngữ nhanh, tốn ít
chi phí, nhưng nhược điểm là nguồn dữ liệu song ngữ thu thập bị hạn chế.
Thực tế phương pháp này chỉ có thể áp dụng để thu thập văn bản song ngữ
từ các trang Web song ngữ.
Qua tìm hiểu, chúng tôi nhận thấy ngữ liệu du lịch song ngữ Việt-Anh khá ít
và phân tán nhiều nguồn khác nhau, như: sách, sổ tay, bảng thông báo, Website
song ngữ, . . . Nên phương pháp thu thập tự động thu được ít dữ liệu. Do vậy,
chúng tôi chủ yếu dùng phương pháp thu thập dữ liệu du lịch song ngữ một cách
2.1.2 Xây dựng kho ngữ liệu song ngữ Việt - Anh miền du lịch
2.1.2.1 Nguồn thu thập dữ liệu
thủ công.
Các văn bản song ngữ trong lĩnh vực du lịch không nhiều và khá tản mát.
Việc thu thập tự động dữ liệu song ngữ du lịch trên các trang Web không khả
thi do số lượng trang Web trong lĩnh vực này không nhiều, và nếu có thì số
lượng bài cũng rất ít. Nếu có hai bài về cùng một chủ đề thì thường lại viết khác
nhau nên không thể coi là bản dịch của nhau. Do đó, chúng tôi thu thập dữ liệu
du lịch song ngữ Việt-Anh bằng phương pháp thủ công là chủ yếu.
• Sổ tay du lịch của các địa danh du lịch, sổ hướng dẫn sử dụng khách sạn,
Các nguồn thu thập chủ yếu gồm có:
sách dạy hội thoại tiếng Anh với khách du lịch. Theo cách thu thập này
chúng tôi đã thu được 93 trang văn bản song ngữ Việt – Anh, tương ứng
• Lời giới thiệu song ngữ trên các bảng gắn tại các di tích, địa điểm du lịch
49
với 1.915 câu tiếng Việt và 1.948 câu tiếng Anh.
do chúng tôi đi du lịch chụp lại và nhờ bạn bè đi du lịch chụp và gửi cho.
Theo cách thu thập này chúng tôi đã thu được 36 trang văn bản song ngữ
• Tờ rơi, tờ gấp quảng cáo du lịch. Theo cách thu thập này chúng tôi đã thu
Việt – Anh, tương ứng với 741 câu tiếng Việt và 756 câu tiếng Anh.
được 13 trang văn bản song ngữ Việt – Anh, tương ứng với 267 câu tiếng
• Sách Luật du lịch. Theo cách thu thập này chúng tôi đã thu được 31 trang
Việt và 273 câu tiếng Anh.
văn bản song ngữ Việt – Anh, tương ứng với 604 câu tiếng Việt và 604 câu
• Văn bản trong hồ sơ đề nghị công nhận di sản văn hóa của Việt Nam. Theo
tiếng Anh.
cách thu thập này chúng tôi đã thu được 184 trang văn bản song ngữ Việt
• Văn bản hợp tác du lịch với các quốc gia. Theo cách thu thập này chúng
– Anh, tương ứng với 3.790 câu tiếng Việt và 3.864 câu tiếng Anh.
tôi đã thu được 54 trang văn bản song ngữ Việt – Anh, tương ứng với 1.112
• Trang Web song ngữ giới thiệu về du lịch Việt Nam: Trang web của Tổng
câu tiếng Việt và 1.144 câu tiếng Anh.
643 trang văn bản song ngữ Việt – Anh, tương ứng với 13.244 câu tiếng Việt
cục Du lịch, Vietravel, . . . Theo cách thu thập này chúng tôi đã thu được
2.1.2.2 Chuyển dữ liệu song ngữ thu thập thành dữ liệu số có cấu trúc thống nhất
và 13.511 câu tiếng Anh.
Đối với các tài liệu như sách, sổ tay, tờ rơi, bảng thông báo, . . . nếu chỉ có
bản cứng (văn bản trên giấy), không có bản mềm (văn bản lưu trên máy tính),
• Bước 1: Dùng máy quét ảnh hoặc máy ảnh để chụp ảnh.
• Bước 2: Dùng phần mềm chuyển file ảnh văn bản thành văn bản.
50
thì chúng tôi tiến hành công việc như sau:
• Bước 3: Chỉnh sửa các lỗi văn bản do phần mềm nhận dạng văn bản nhận
dạng sai để thu được văn bản song ngữ chính xác bằng bản mềm.
Các dữ liệu dạng mềm được làm sạch thành phần không phải chữ như ảnh, các
thẻ, các bảng biểu (nếu có).
Tất cả các văn bản mềm sau đó được tách thành chương, đoạn theo một định
dạng thống nhất. Dữ liệu mới sau đó trải qua quá trình tách câu bằng công cụ
tự động. Chúng tôi dùng công cụ tách câu vnSentDetector1 cho văn bản tiếng
Việt và Stanford NLP2 (Natural Language Processing) cho văn bản tiếng Anh.
Lý do lựa chọn hai công cụ này để thực hiện hiện tách câu tiếng Việt và tiếng
Anh là chúng dễ cài đặt để sử dụng, công cụ chạy ổn định và có độ chính xác
khá cao. Văn bản sau khi tách câu được kiểm tra lại một lần nữa để loại bỏ lỗi
sai.
Chúng tôi cũng xây dựng một công cụ tự động gắn thẻ cấu trúc văn bản (các
khối văn bản như chương, đoạn văn và câu). Thông tin cấu trúc văn bản sẽ hữu
ích cho việc xây dựng công cụ dóng hàng câu trình bày ở mục tiếp theo.
Kích thước kho ngữ liệu song ngữ Việt-Anh miền du lịch mà chúng tôi thu
Bảng 2.1: Kích thước kho ngữ liệu song ngữ Việt-Anh miền du lịch thu thập được
STT
Tên kho
Thời điểm
Số cặp câu
Ghi chú
1
CoTurism1 Tháng 12/2016
5.000
2
CoTurism2 Tháng 12/2017
12.010
Bao gồm CoTurism1
3
CoTurism3
Tháng 5/2018
14.237
Bao gồm CoTurism2
3
CoTurism4 Tháng 12/2019
20.337
Bao gồm CoTurism3
1http://mim.hus.vnu.edu.vn/phuonglh/softwares 2https://stanfordnlp.github.io/CoreNLP/download.html
51
thập được theo thời gian được thể hiện trong Bảng 2.1
2.2 Dóng hàng văn bản song ngữ Việt-Anh
Các kho văn bản song ngữ cần được dóng hàng để có thể khai thác được
trong các hệ thống dịch. Việc dóng hàng có thể thực hiện ở mức từ, mức câu
hoặc thô hơn là ở mức đoạn. Nhu cầu ngữ liệu văn bản song ngữ có dóng hàng
phổ biến nhất là ở mức câu. Việc dóng hàng câu hầu hết đã được tự động hoá
nhờ các phần mềm dóng hàng có chất lượng tương đối cao.
Vấn đề đặt ra cho dóng hàng tự động là không phải lúc nào một câu trong
văn bản nguồn cũng được dịch thành một câu tương ứng trong văn bản đích.
Trong nhiều trường hợp, một câu trong ngôn ngữ này có thể được dịch thành
nhiều cầu trong ngôn ngữ khác, hoặc ngược lại nhiều câu có thể được dịch gộp
thành một câu. Cũng có những trường hợp, một số câu trong văn bản nguồn
bị lược dịch trong văn bản đích. Thứ tự các câu tương ứng dịch trong văn bản
nguồn và đích cũng có thể khác nhau. Chính những hiện tượng như thế làm cho
việc dóng hàng tự động không phải là đơn giản.
Trong mục này chúng tôi trình bày phương pháp luận cho việc dóng hàng câu
trên văn bản song ngữ, đồng thời đề xuất cải tiến một công cụ dóng hàng nhằm
2.2.1 Phương pháp dóng hàng văn bản song ngữ mức câu
nâng cao chất lượng dóng hàng văn bản song ngữ Việt-Anh.
Phương pháp dóng hàng văn bản song ngữ mức câu đầu tiên dựa trên độ dài
câu được Brown và cộng sự đề xuất năm 1991 [79]. Độ dài câu được tính bằng
số lượng từ (token) có trong câu. Thuật toán giả thiết rằng độ dài của một câu
bất kì và bản dịch của nó có sự phụ thuộc chặt chẽ. Thuật toán dóng hàng hai
văn bản dựa vào mô hình Markov ẩn. Gale và Church [112] cũng có hướng tiếp
cận tương tự nhưng các tác giả đo độ dài câu bằng số lượng kí tự và áp dụng
thuật toán quy hoạch động.
52
Kay và R¨oscheisen [65] giả định nếu hai câu là dóng hàng của nhau thì các
từ của chúng cũng phải tương ứng. Ban đầu, một ma trận các cặp ứng viên câu
dóng hàng với nhau được khởi tạo với cặp câu đầu, cuối văn bản và mỗi cặp
câu ở giữa phân bố gần đường chéo cũng được giả định gióng với nhau. Sau đó,
tính toán tần suất của các cặp từ xuất hiện đồng thời trong cặp câu ứng viên.
Bảng các cặp câu ứng viên được cập nhật lại dựa trên số lượng cặp từ tần suất
cao mà cặp câu đó chứa. Các cặp từ với tần suất rất cao tạo thành các điểm
neo mới để cập nhật giả định dóng hàng các câu ở giữa. Thuật toán lặp đi lặp
lại cho đến khi hội tụ. Thuật toán đạt độ chính xác cao nhưng chạy chậm.
Chen [99] đề xuất thuật toán dóng hàng dựa trên việc tính toán xác suất cặp
từ có mặt trong cặp câu dóng hàng với nhau trong văn bản huấn luyện. Sau đó,
áp dụng mô hình Markov ẩn tương tự như của Brown và cộng sự để dóng hàng
câu.
Simard và Plamondon [68] đề xuất dùng các từ cùng gốc (cognate) như ngày,
tháng, tên riêng, một số dấu câu để tạo thành các điểm neo chia 2 văn bản
thành các khối tương ứng nhỏ hơn. Các cognate được định nghĩa là cặp từ tố
trong 2 văn bản có 4 kí tự đầu giống nhau.
Romary và Bonhomme [57] đề xuất phương pháp dóng hàng dựa vào cấu trúc
văn bản kết hợp với dóng hàng dựa vào độ dài văn bản theo ký tự của Gale và
Church [112]. Trên cơ sở đề xuất này, Thi-Minh-Huyen Nguyen và cộng sự đã
triển khai phần mềm dóng hàng XAlign. Trong [77], Huyen và Rossignol tiếp
tục đề xuất cải tiến công cụ dóng hàng XAlign bằng cách ước lượng tự động xác
suất tương hợp độ dài câu của văn bản trong hai ngôn ngữ bất kì. Tuy nhiên,
đánh giá kết quả dóng hàng của công cụ XAlign trên cặp ngôn ngữ Anh-Việt
và Pháp-Việt cho thấy độ chính xác thấp hơn đáng kể so với kết quả dóng hàng
các cặp ngôn ngữ Ấn-Âu chẳng hạn như Anh-Pháp.
Cho đến thời điểm hiện tại các phương pháp dóng hàng câu song ngữ Việt-
Anh đều cho độ chính xác chưa cao [77], [105].
53
Ví dụ, công cụ XAlign [77] dóng hàng kho văn bản Pháp-Anh trích từ Tạp
chí chính thức châu Âu gồm trên 50.000 cặp câu đạt độ đo F1 lên đến 98,06%
với văn bản đã tách câu, 96,84% với văn bản thô. Đối với các cặp ngôn ngữ
khác như Pháp-Trung hay Pháp-Nhật, độ đo F1 trên kho văn bản báo chí chứa
khoảng 5.000 cặp câu đạt lần lượt là 81.78% và 89,05%. Trên văn bản thuộc thể
loại văn học như tác phẩm "Hoàng tử bé" gồm khoảng 1.600 cặp câu, độ đo F1
cho các cặp Pháp-Anh, Pháp-Việt đạt lần lượt là 93,42% và 89,08%, trong khi
cặp ngôn ngữ Anh-Việt chỉ đạt đến 78,73%.
Gần đây hơn, công trình [105] năm 2015 đề xuất công cụ dóng hàng trên cặp
ngôn ngữ Anh-Việt vẫn đạt điểm F1 tương đối thấp 67,09% trên kho ngữ liệu
song ngữ Anh-Việt gồm khoảng 1.800 cặp câu thuộc các lĩnh vực ngân hàng,
khoa học, sức khỏe và du lịch Việt Nam.
Do vậy, trong luận án này chúng tôi đề xuất cải tiến một trong các phần mềm
dóng hàng nguồn mở cho cộng đồng nhằm thu được một hệ thống dóng hàng có
hiệu năng cao hơn.
Chúng tôi lựa chọn cải tiến công cụ XAlign [77] để dóng hàng văn bản. Đây là
một trong các công cụ được cung cấp miễn phí, có độ chính xác cao và ổn định
trong các công cụ tham gia dự án đánh giá các công cụ dóng hàng ARCADE II
[118]. Bên cạnh XAlign, còn có thể kể đến một số công cụ dóng hàng câu phổ
biến như Hunalign hay Champollion3. Trong phần thực nghiệm, chúng tôi sẽ so
sánh công cụ cải tiến XAlign với Hunalign4. Công cụ Champollion phụ thuộc
2.2.2 Cải tiến công cụ dóng hàng câu XAlign
2.2.2.1 Phương pháp dóng hàng XAlign
nhiều vào thông tin từ vựng nên chúng tôi chưa có điều kiện khai thác.
Như đã nêu ở mục trên, XAlign sử dụng phương pháp dóng hàng dựa vào độ
3http://champollion.sourceforge.net 4 https://github.com/danielvarga/hunalign
54
dài văn bản theo ký tự của Gale và Church kết hợp với dóng hàng dựa vào cấu
trúc văn bản.
Lõi của phương pháp dóng hàng theo Gale và Church [112] là thuật toán
DTW (Dynamic Time Warping). Dựa trên quan sát về tương quan độ dài của
các cặp câu là bản dịch của nhau, thuật toán DTW hoạt động như sau.
1. Dóng hàng dùng thuật toán DTW
Cho văn bản song ngữ gồm có m câu thuộc ngôn ngữ nguồn và n câu thuộc
ngôn ngữ đích có chuỗi độ dài câu tương ứng là (ai)1≤i≤m và (bj)1≤j≤n. c(l1, l2)
là một hàm chi phí cho biết mức độ không chắc chắn khi dóng hàng đoạn
văn bản nguồn có độ dài l1 với đoạn văn bản đích có độ dài l2. Thuật toán
DTW giả thiết chuỗi các tương ứng dịch phải tìm bảo toàn thứ tự các câu
trong văn bản. Kí hiệu (i, j) là một phép dóng hàng i câu đầu tiên trong văn
bản nguồn với j câu đầu tiên trong văn bản đích. Như vậy thuật toán DTW
(m, n) (m câu nguồn được dóng với n câu đích). Để thực hiện được điều này,
tìm đường đi tối ưu chi phí dóng hàng từ điểm xuất phát (0,0) tới điểm đích
ta xây dựng một ma trận: M = (matchi,j)1≤i≤m,1≤j≤n, với matchi,j là chi phí
cực tiểu của dóng hàng (i, j). Khi đó match0,0 = 0 và matchm,n chính là tổng
chi phí cực tiểu khi dóng hàng m câu nguồn với n câu đích. Tại mỗi điểm
• Dóng hàng kiểu 1-1: một câu nguồn được dịch thành một câu đích;
• Dóng hàng kiểu 1-0: một câu nguồn bị bỏ qua không được dịch trong
trên đường đi, có thể xét tiếp một trong các kiểu tương ứng dịch sau:
• Dóng hàng kiểu 0-1: câu trong văn bản đích được thêm mới so với văn
văn bản đích;
• Dóng hàng kiểu 1-2: một câu nguồn dịch thành hai câu đích;
• Dóng hàng kiểu 2-1: hai câu nguồn được dịch thành một câu đích;
• Dóng hàng kiểu 2-2: hai câu nguồn được dịch thành hai câu đích.
55
bản nguồn;
Đây là các kiểu dóng hàng câu được Gale và Church thống kê trên kho văn
bản song ngữ Anh - Pháp. matchi,j được tính bởi công thức 2.2.1.
matchi−1,j−1 + c(ai−1, bj−1)
matchi−1,j + c(ai−1, 0) + penalty10
matchi,j−1 + c(0, bj−1) + penalty01
matchi,j = min
matchi−2,j−1 + c(ai−1 + ai−2, bj−1) + penalty21
matchi−1,j−2 + c(ai−1, bj−1 + bj−2) + penalty12
matchi−2,j−2 + c(ai−1 + ai−2, bj−1 + bj−2) + penalty22
(2.2.1)
Mỗi dóng hàng không phải là dóng hàng 1-1 thì chịu một giá trị phạt
(penalty) đó là vì ta giả thiết tất cả các dóng hàng câu của hai văn bản là
dóng hàng 1-1.
P (i − j) là xác xuất của dóng hàng i − j trong kho ngữ liệu song ngữ mẫu.
Giá trị của các penalty được tính như sau: penaltyij = 1 − P (i − j), trong đó
Hàm chi phí c là hàm trung tâm của giải thuật DTW. Gale và Church định
nghĩa nó sử dụng một hằng phản ảnh tỷ lệ độ dài câu điển hình giữa hai
ngôn ngữ được xem xét. [77] ước lượng tỷ lệ này bằng công thức tính xác
suất ánh xạ câu, độc lập ngôn ngữ.
2. Xác suất ánh xạ câu độc lập ngôn ngữ
Để xác định xác suất ánh xạ câu dựa vào độ dài, giả thiết độ dài các câu
trong kho văn bản song ngữ tuân theo phân bố chuẩn Gauss (Đường cong
phân phối chuẩn có hình chuông). Gọi giá trị trung bình và độ lệch chuẩn
là l1 và δl1 cho văn bản nguồn, l2 và δl2 cho văn bản đích (Độ lệch chuẩn là
độ lệch trung bình giữa hai câu bất kỳ trong cùng một ngôn ngữ). Để tính
56
xác suất mà một câu có độ dài l2 là bản dịch của câu có độ dài l1, trước
l(cid:48) 1 =
l(cid:48) 2 =
l1 − l1 δl1
l2 − l2 δl2
tiên chúng ta chuẩn hoá các độ dài này về trong khoảng [0,1]:
1 và l(cid:48) 2, tức là xác suất tìm được độ dài tốt hơn l2 phù hợp với l1. Khi đó xác suất l1
rồi tính diện tích dưới đường cong phân phối chuẩn trong khoảng l(cid:48)
1 ≤ l(cid:48) 2,
ánh xạ được với l2 là 1 trừ đi giá trị tích phân này. Như vậy, giả sử l(cid:48)
2
−t2 2 dt
1 −
e
c(l1, l2) = −log
l(cid:48) 1
(cid:33) khi đó hàm chi phí được tính như sau: (cid:32) (cid:90) l(cid:48) (2.2.2)
Hàm chi phí này cho phép tính toán trên cặp ngôn ngữ bất kì dựa vào độ
dài thực tế các câu trong kho văn bản song ngữ mà không cố định trước
một tỷ lệ như trong thuật toán Gale và Church.
3. Dóng hàng văn bản dựa vào cấu trúc
Romary và Bonhomme đã đưa ra một hệ thống dựa vào giải thuật DTW
của Gale và Church kết hợp với việc xét cấu trúc của văn bản. Mỗi văn bản
được tổ chức theo cấu trúc cây. Ví dụ: Một cuốn sách có thể gồm nhiều
phần. Mỗi phần có thể bao gồm nhiều chương, mỗi chương gồm nhiều mục,
trong đó có các tiểu mục. Mỗi tiểu mục nhỏ nhất (không chứa tiểu mục
con) bao gồm các đoạn (paragraph), mỗi đoạn là một hoặc nhiều câu. Một
cuốn sách như vậy có thể được mã hóa thành cấu trúc cây với các thẻ XML
•
•
như sau:
•
: cho các đoạn;
• : cho các câu.
57
nhau theo phân cấp văn bản;
Giải thuật dóng hàng dựa vào cấu trúc văn bản được thực hiện như sau:
Bước 1: Gán nhãn cấu trúc cho văn bản;
Bước 2: Dựa vào nhãn cấu trúc, thực hiện dóng hàng thành phần lớn nhất
của cặp văn bản (dóng hàng các Văn bản), sau đó thực hiện đệ quy cho các
thành phần nhỏ hơn ở bên trong (dóng hàng các phần , chương, mục, đoạn,
câu).
Hạn chế của hệ thống này là không thể xử lý các trường hợp mà khác nhau
về nhãn cấu trúc nhưng được dóng hàng với nhau.
Để giải quyết vấn đề này, trước khi dóng hàng ở mỗi cấp độ giữa hai văn
bản (văn bản, phần, chương, mục, đoạn, câu), công trình [77] thực hiện
kiểm tra tính thống nhất từ đầu đến cuối của các nhãn cấu trúc. Nếu có sự
không thống nhất (có sự lẫn lộn giữa nhãn đoạn và nhãn mục chẳng hạn)
thì sẽ bỏ qua nhãn cấu trúc ở mức này và chuyển sang mức kế tiếp. Tiếp
đến, nếu thấy sự khác biệt lớn giữa số lượng đoạn văn bản ở hai mức được
dóng hàng (tỷ lệ lớn hơn 2 và nhỏ hơn 0,5) thì bỏ qua và chuyển đến văn
bản kế tiếp có ít phần tử hơn. Xử lý được lặp cho đến khi thu được hai văn
bản ở mức có thể so sánh được.
Nhược điểm của phương pháp dóng hàng dựa vào cấu trúc và độ dài câu ở
trên là chưa xét hết các khả năng dóng hàng giữa hai văn bản và lựa chọn giá
trị penalty cho các dóng hàng không phải là dóng hàng 1-1 còn chưa phù hợp,
điều này làm giảm chất lượng dóng hàng của phương pháp. Chính vì vậy chúng
tôi thực hiện cải tiến phương pháp bằng cách mở rộng khả năng dóng hàng và
đề xuất giá trị penalty phù hợp đối với từng loại dóng hàng cho cặp ngôn ngữ
58
Việt-Anh.
2.2.2.2 Mở rộng khả năng dóng hàng
Cũng như tất cả các phương pháp dóng hàng câu đã trình bày trong mục
2.2.1, phương pháp dóng hàng cài đặt trong XAlign chỉ xét đến các kiểu dóng
2, 2 − 1, 2 − 2 (dóng hàng đến cấp độ 2). Chúng tôi thống kê trên kho ngữ liệu
hàng n−m sau (n câu văn bản nguồn với m câu văn bản đích):0−1, 1−0, 1−1, 1−
du lịch mà chúng tôi thu thập được có khoảng 5.000 cặp câu song ngữ du lịch
Việt-Anh đã được dóng hàng chính xác (bằng cách dóng hàng tự động rồi chỉnh
sửa thủ công), chúng tôi nhận thấy rằng các dóng hàng 3−1, 1−3, 2−3, 3−2, 3−3
(dóng hàng đến cấp độ 3) chiếm khoảng 1, 7%. dóng hàng từ cấp độ 4 trở lên
chiếm tỉ lệ nhỏ hơn nhiều, khoảng 0, 42%.
Với thống kê ở trên, việc không tính đến các dóng hàng cấp độ 3 ảnh hưởng
khá lớn tới chất lượng dóng hàng, do sự lan truyền lỗi. Vì thế chúng tôi quyết
3, tạm thời không xét cấp độ 4 vì nó có tỉ lệ thấp.
định mở rộng phương pháp dóng hàng câu được đề xuất trong [77] đến cấp độ
Với việc mở rộng sang các phép dóng hàng đến cấp độ 3, công thức của giải
thuật DTW trong [77] mở rộng được đề xuất như công thức 2.2.3 (thêm 5 khả
59
năng dóng hàng so với công thức cũ).
matchi−1,j−1 + c(ai−1, bj−1)
matchi−1,j + c(ai−1, 0) + penalty10
matchi,j−1 + c(0, bj−1) + penalty01
matchi−2,j−1 + c(ai−1 + ai−2, bj−1) + penalty21
matchi−1,j−2 + c(ai−1, bj−1 + bj−2) + penalty12
matchi,j = min
matchi−2,j−2 + c(ai−1 + ai−2, bj−1 + bj−2) + penalty22
matchi−1,j−3 + c(ai−1, bj−1 + bj−2 + bj−3) + penalty13
matchi−2,j−3 + c(ai−1 + ai−2, bj−1 + bj−2 + bj−3) + penalty23
matchi−3,j−2 + c(ai−1 + ai−2 + ai−3, bj−1 + bj−2) + penalty32
matchi−3,j−1 + c(ai−1 + ai−2 + ai−3, bj−1) + penalty31
matchi−3,j−3 + c(ai−1 + ai−2 + ai−3, bj−1 + bj−2 + bj−3) + penalty33
(2.2.3)
Dấu "+" trong công thức 2.2.3 là dấu của phép cộng các số thông thường.
Dóng hàng dựa vào độ dài văn bản theo ký tự: Giả sử trong hai văn
bản song song cần dóng hàng có n câu ở ngôn ngữ nguồn và p câu ở ngôn ngữ
đích. Khi đó gọi ai (1 ≤ i ≤ n) và bj (1 ≤ j ≤ p) tương ứng là phần tử của mảng
ls và lt tương ứng là độ dài đoạn văn bản nguồn và độ dài văn bản đích. c(ls,lt)
chứa số kí tự của câu i trong văn bản nguồn và của câu j trong văn bản đích;
là hàm chi phí được tính dựa trên mức độ chênh lệch về độ dài giữa hai đoạn
penaltyij là giá trị hàm phạt cho mỗi kiểu dóng hàng khác với kiểu dóng hàng
văn bản tương ứng khi thực hiện dóng hàng hai đoạn văn bản này với nhau.
phổ biến nhất là 1-1. Giá trị này tỉ lệ nghịch với xác suất của kiểu dóng hàng
tương ứng. matchi,j (1 ≤ i ≤ n, 1 ≤ j ≤ p) lưu giữ chi phí dóng hàng nhỏ nhất
60
khi dóng khớp i câu nguồn với j câu đích. Khi đó dóng hàng dựa vào độ dài ký
tự được thực hiện như sau:
Bước 1: Tính matchi,j theo công thức; 2.2.3
Bước 2: Kiểm tra nếu matchi,j đạt min tại ij thì ta sẽ dóng hàng i câu nguồn
với j câu đích;
Bước 3: Nếu i < n và j < p thì quay lại Bước 1, trái lại thì kết thúc.
Độ phức tạp tính toán của giải thuật là O(n.p) [73].
Công cụ dóng hàng câu XAlign ban đầu được chúng tôi cải tiến và gọi tên là
2.2.2.3 Tính giá trị penalty phù hợp cho cặp ngôn ngữ Việt-Anh
penaltyij được tính theo số lượng dóng hàng i − j so với dóng hàng 1 − 1 trên
viXAlign.
kho ngữ liệu mà ta lựa chọn. Trong công cụ dóng hàng viXAlign, ngoại trừ dóng
hàng kiểu 1 − 1 không xét giá trị phạt, penaltyij được tính theo công thức sau
dựa trên kho ngữ liệu CorTurism1 (Mục 2.1.2.2) đã được dóng hàng chính xác:
+ λ2
penaltyij = −λ1
(cid:19) (2.2.4) (cid:18) P(match(i, j)) P(match(1, 1))
i − j(j (cid:54)= 1, j (cid:54)= 1) có trong công thức 2.2.3.
Công thức 2.2.4 được dùng để tính giá trị phạt penaltyij đối với các dóng hàng
• 0 ≤ i, j ≤ 3 cho các cặp ij trong công thức 2.2.4.
• P(match(i, j)): là xác suất dóng hàng kiểu i−j. Xác suất này được ước lượng
Trong đó:
dựa trên kho ngữ liệu dóng hàng mẫu CorTurism1 (mục 2.1.2.2) dùng làm
• Thử nghiệm nhiều lần trên kho ngữ liệu song ngữ Việt-Anh miền du lịch
khảo sát.
CorTurism1, chúng tôi đã tìm được cặp giá trị: (λ1 = −100, λ2 = 177) là cặp
giá trị hằng số hợp lý cho λ1 và λ2.
61
Giá trị penalty thu được đối với từng loại dóng hàng như trong Bảng 2.2.
Bảng 2.2: Giá trị penalty cho mỗi kiểu dóng hàng
Dóng hàng
0-1
1-0
1-1
1-2
2-2
2-1
penalty
482
547
0
-177
44
200
Dóng hàng
2-3
3-2
3-1
3-3
1-3
penalty
795
657
426
-265
4691
2.2.2.4 Kết quả thực nghiệm
• Độ đo đánh giá
Chúng tôi sử dụng các độ đo độ chính xác (P recision), độ phủ (Recall), độ
P recision =
đo F1 để đánh giá công cụ dóng hàng câu.
#CorrectAlign #SysAlign
Recall =
(2.2.5)
#CorrectAlign #Ref Align
(2.2.6)
F1 = 2 ×
P recision × Recall P recision + Recall
(2.2.7)
#CorrectAlign: là số dóng hàng câu đúng bởi giải thuật.
#SysAlign: là tổng số dóng hàng câu bởi giải thuật.
#Ref Align: là tổng số dóng hàng câu thủ công làm chuẩn tham chiếu.
• Kết quả thực nghiệm
Trong đó:
Thực nghiệm trên kho ngữ liệu song ngữ Việt-Anh "Le Petit prince" của
1.660 câu tiếng Anh và kho ngữ liệu song ngữ Việt-Anh miền du lịch CorTurism3
Nguyễn Thị Minh Huyền và cộng sự, kho ngữ liệu này có 1.663 câu tiếng Việt và
62
(mục 2.1.2.2) có 12.457 câu tiếng Anh và 12.288 câu tiếng Việt.
Chúng tôi so sánh kết quả về mức độ dóng hàng chính xác giữa viXAlign với
công cụ XAlign chưa cải tiến và công cụ Hunalign. Hunalign là công cụ dóng
hàng câu văn bản song ngữ nguồn mở của Varga và cộng sự [19].
Kết quả so sánh của ba công cụ trên được thể hiện trong Bảng 2.3 và Bảng
Bảng 2.3: Dóng hàng trên kho ngữ liệu Việt-Anh "Le Petit prince"
P recision
Recall
F1
XAlign
81,42%
76,21%
59,99%
Hunalign
73,61%
76,86%
57,80%
viXAlign
89,15% 88,18% 88,66%
Bảng 2.4: Dóng hàng trên kho ngữ liệu du lịch Việt-Anh
P recision
Recall
F1
XAlign
80,61%
84,99%
70,31%
Hunalign
78,96%
83,02%
67,19%
viXAlign
90,60% 89,77% 80,95%
2.4.
Như vậy, nhờ có việc bổ sung các phép dóng hàng cấp độ 3, cùng với việc tính
các giá trị penalty phù hợp, chất lượng dóng hàng của công cụ XAlign đã được
tăng lên đáng kể trên cả văn bản trong lĩnh vực du lịch và văn bản thuộc miền
chung (dữ liệu "Hoàng tứ bé" chẳng hạn). Chúng tôi thử nghiệm công cụ dóng
hàng trên dữ liệu “Hoàng tử bé” vì dữ liệu này là đa ngữ nên có thể dùng để
so sánh tương quan giữa chất lượng dóng hàng các ngôn ngữ châu Âu với dóng
hàng Anh-Việt.
Mức độ dóng hàng chính xác của công cụ cải tiến viXAlign cao hơn công cụ
dóng hàng Hunalign bình quân 13,21% trung bình tất cả các độ đo trên hai kho
ngữ liệu thực nghiệm.
63
Công cụ viXAlign đạt độ chính xác cao hơn Hunalign là vì:
• Công cụ viXAlign có sử dụng thông tin cấu trúc văn bản, nên khi dóng
hàng câu bị sai ở đoạn văn bản nào thì nó chỉ gây ảnh hưởng đến kết quả
dóng hàng câu ở đoạn văn bản đó mà không gây ảnh hưởng lan truyền đến
• Chúng tôi lựa chọn được giá trị penalty phù hợp để sử dụng trong dóng
các dóng hàng câu trong toàn văn bản.
hàng câu cho cặp ngôn ngữ Việt-Anh.
Công cụ viXAlign của chúng tôi được chia sẻ dạng nguồn mở trên trang
2.3 Ứng dụng kho ngữ liệu du lịch song ngữ Việt-Anh cho hệ
thống dịch máy
github.4
Vấn đề dịch máy Anh-Việt, Việt-Anh trên miền tổng quát đã được nhiều
nhóm nghiên cứu quan tâm. Đặc biệt đã có những kho ngữ liệu song ngữ Việt-
100.000 cặp câu được xây dựng bởi các nhóm nghiên cứu trong khuôn khổ đề tài
Anh được xây dựng cho dịch máy trên miền tổng quát như kho VLSP gồm
VLSP KC01/06-10,5 hay kho ngữ liệu EVBCorpus gồm 800.000 cặp câu [76].
Trong phần này, chúng tôi quan tâm tới bài toán dịch trên miền văn bản du
lịch. Như đã nêu trong phần mở đầu, du lịch là một lĩnh vực ưu tiên phát triển
tại Việt Nam, với lượng khách nước ngoài đến Việt Nam ngày càng tăng. Nhu
cầu dịch tự động Việt-Anh trong lĩnh vực du lịch nhằm hỗ trợ du khách tra cứu
thông tin du lịch do vậy cũng rất lớn. Gần đây cũng đã có đề tài về dịch tiếng
nói cho các hội thoại nhằm phục vụ khách du lịch.6 Phần này tập trung vào chủ
đề dịch máy Việt-Anh cho văn bản trong lĩnh vực du lịch, nhằm hỗ trợ cho việc
truyền bá các thông tin du lịch của các địa phương. Cụ thể, chúng tôi đặt mục
5https://vlsp.hpda.vn/demo/?page=resources 6Đề tài Nhà nước KC01.03/11-15 Nghiên cứu phát triển hệ thống dịch tiếng nói hai chiều Việt – Anh, Anh – Việt
có định hướng lĩnh vực
64
tiêu cải thiện chất lượng dịch văn bản du lịch bằng việc thực hiện xây dựng kho
ngữ liệu song ngữ Việt – Anh dóng hàng ở mức câu với kích thước lớn trên miền
hạn chế (các văn bản trong một lĩnh vực cụ thể) là thông tin du lịch. Chúng tôi
cũng chỉ ra rằng kho ngữ liệu song ngữ có dóng hàng đã xây dựng thực sự có
2.3.1 Kết quả thực nghiệm
giá trị nâng cao chất lượng dịch văn bản Việt – Anh thuộc lĩnh vực du lịch.
Phương pháp tiếp cận của chúng tôi hướng vào việc xây dựng kho ngữ liệu
song ngữ huấn luyện hệ thống dịch máy phân chia theo các lĩnh vực. Kho ngữ
liệu song ngữ Việt-Anh đã dóng hàng ở bước trên được sử dụng để cải thiện
chất lượng của hệ thống dịch máy thống kê cho các văn bản thuộc lĩnh vực du
lịch. Trong phần này luận án trình bày kết quả thực nghiệm trên hệ thống dịch
máy Moses [83] (hệ thống dịch máy thống kê), có so sánh chất lượng với hệ
thống dịch nơ ron được xem là có ưu điểm vượt trội (hệ thống dịch máy Google
Translate). Kết quả điểm BLEU tăng cho thấy chất lượng của kho ngữ liệu mà
luận án thu thập được.
Cụ thể, chúng tôi sử dụng Moses để huấn luyện hệ thống dịch máy trên kho
ngữ liệu du lịch song ngữ Việt-Anh mà chúng tôi thu thập được, sau đó sử dụng
hệ thống dịch máy này để dịch văn bản du lịch rồi so sánh chất lượng bản dịch
với hệ thống dịch máy huấn luyện trên kho ngữ liệu không chia theo lĩnh vực,
sử dụng phương pháp đánh giá chất lượng dịch máy theo điểm BLEU [56]
Kho ngữ liệu song ngữ Việt-Anh miền du lịch mà chúng tôi thu thập được
đến cuối năm 2017 là 12.000 cặp câu. Chúng tôi đã sử dụng kho ngữ liệu này để
2.3.1.1 Đánh giá hiệu quả ứng dụng kho ngữ liệu du lịch vào hệ thống dịch trên miền
du lịch
triển khai thực nghiệm đánh giá hiệu quả ở mục tiếp theo.
Trong mục này, luận án đánh giá hiệu quả của việc ứng dụng kho ngữ liệu
65
song ngữ Việt – Anh vào huấn luyện các hệ thống dịch máy văn bản trong miền
du lịch. Để làm điều này, chúng tôi thực nghiệm so sánh kết quả dịch của một
hệ thống không được huấn luyện với dữ liệu song ngữ trong miền du lịch (hệ
thống 1) với 6 hệ thống được huấn luyện với dữ liệu miền du lịch theo nguyên
tắc đánh giá chéo: Chia 12.000 cặp câu song ngữ du lịch Việt-Anh thành 6 phần
độc lập, lần lượt giữ lại 1 phần (2.000 cặp câu) để làm dữ liệu đánh giá, 5 phần
còn lại (10.000 cặp câu) sẽ được thay thế bằng 10.000 cặp câu ở các vị trí khác
nhau trong kho ngữ liệu 165.678 cặp câu song ngữ Việt-Anh thuộc nhiều lĩnh
vực khác nhau để huấn luyện Hệ thống dịch máy. Cách thức huấn luyện các hệ
• Huấn luyện Hệ thống dịch máy 1: Chúng tôi sử dụng kho ngữ liệu 165.678
thống dịch như sau:
cặp câu song ngữ Việt-Anh thuộc nhiều lĩnh vực khác nhau (từ nguồn đề
tài VLSP5 và một số dữ liệu khác mà chúng tôi thu thập, dóng hàng và
cung cấp cùng với phần mềm dóng hàng). Sử dụng Moses để huấn luyện
hệ thống dịch máy Việt-Anh trên kho ngữ liệu này chúng tôi thu được hệ
• Huấn luyện Hệ thống dịch máy 2, 3, 4, 5, 6, 7: Sử dụng hệ thống Moses lần
thống dịch máy 1.
lượt huấn luyện để thu được 6 hệ thống dịch máy Việt- Anh trên kho ngữ
liệu 165.678 cặp câu song ngữ Việt-Anh mà chúng tôi đã huấn luyện ra Hệ
10.000 cặp câu song ngữ du lịch Việt-Anh ở mỗi lượt đánh giá chéo. Lần 1
thống dịch máy 1 nhưng thay thế 10.000 cặp câu của kho ngữ liệu này bằng
thay thế từ cặp câu thứ 1 đến cặp câu thứ 10.000. Lần 2 thay thế từ cặp
câu thứ 30.001 đến cặp câu thứ 40.000. Lần 3 thay thế từ cặp câu thứ 50.001
đến cặp câu thứ 60.000. Lần 4 thay thế từ cặp câu thứ 90.001 đến cặp câu
thứ 100.000. Lần 5 thay thế từ cặp câu thứ 120.001 đến cặp câu thứ 130.000.
Lần 6 thay thế từ cặp câu thứ 150.001 đến cặp câu thứ 160.000.
Chúng tôi áp dụng lần lượt các cặp hệ thống dịch máy Việt – Anh (1, 2),
66
(1,3), (1,4), (1,5), (1,6), (1,7) cho việc dịch 2.000 câu tiếng Việt trong miền du
lịch được giữ lại làm dữ liệu kiểm tra. Sau đó dùng công cụ tính điểm BLEU
của Moses [96] để tính điểm cho từng hệ thống dịch này và so sánh kết quả tính
được. Kết quả cho thấy cả 6 hệ thống 2, 3, 4, 5, 6, 7 đều cải thiện điểm BLEU
8, 79 điểm BLEU.
Bảng 2.5: Điểm BLEU của 6 hệ thống dịch
Tệp kiểm thử Hệ thống dịch BLEU Hệ thống dịch BLEU (+)
1
2
16,75
1
4,16
12,59
2
3
20,05
1
5,24
14,81
3
4
11,59
1
4,42
7,17
4
5
10,42
1
3,59
6,8
5
6
10,89
1
2,88
8,01
6
7
7,16
1
3,85
3,31
Trung bình
12,81
Trung bình
4,02
8,79
so với hệ thống 1 như trong Bảng 2.5. Trung bình trong 6 lần thực nghiệm tăng
Các kết quả thu được cho thấy sự cần thiết của việc xây dựng dữ liệu huấn
luyện trên một miền hạn chế để tăng chất lượng của các hệ thống dịch máy trên
2.3.1.2 So sánh kết quả dịch giữa hệ thống huấn luyện trên kho ngữ liệu với Google
Translate
miền này.
Thực nghiệm trên kho ngữ liệu có:
1. Văn bản lĩnh vực Luật: 30.258 cặp câu.7
2. Văn bản lĩnh vực Tin học: 19.705 cặp câu.7
3. Văn bản lĩnh vực xã hội: 84.613 cặp câu.7
4. Văn bản lĩnh vực Kinh thánh: 31.102 cặp câu.7
7https://vlsp.hpda.vn/demo/?page=resources
67
5. Văn bản lĩnh vực Du lịch: 12.010 cặp câu (Kho ngữ liệu CoTurism2 ).
Tổng cộng kho ngữ liệu có: 177.688 cặp câu.
Chúng tôi thực hiện kiểm tra chéo như sau:
Lần lượt giữ lại 10.000 cặp câu để làm tệp kiểm tra, lấy trải đều trên mỗi lĩnh
vực văn bản: 1.700 cặp câu văn bản lĩnh vực Luật; 1.100 cặp câu văn bản lĩnh
vực Tin học; 4.700 cặp câu văn vản lĩnh vực Xã hội; 1.700 cặp câu văn bản lĩnh
vực Kinh thánh; 800 cặp câu văn bản lĩnh vực Du lịch. Ta thu được 17 tệp kiểm
167.688 cặp câu.
tra, mỗi tệp 10.000 cặp câu và 17 tệp dùng huấn luyện Hệ thống dịch, mỗi tệp
Dùng Moses huấn luyện 17 Hệ thống dịch máy trên 17 Kho ngữ liệu 167.688
cặp câu còn lại.
Kết quả điểm BLEU của 17 Hệ thống dịch máy khi dịch tệp kiểm tra, so với
Hệ thống dịch máy Google Translate năm 2017 được thể hiện trong Bảng 2.6.
Hệ thống huấn luyện trên kho ngữ liệu 167.688 cặp câu song ngữ Anh-Việt đạt
cao hơn trung bình 4, 6 điểm BLEU so với hệ thống dịch máy Google Translate
năm 2017.
Chúng tôi cũng đã triển khai thêm thực nghiệm so sánh chất lượng dịch của
các hệ thống dịch máy được huấn luyện trên kho ngữ liệu song ngữ có kết hợp
với kho ngữ liệu song ngữ miền Du lịch của chúng tôi ở trên với hệ thống dịch
máy Google Translate năm 2020. Kết quả cho thấy hệ thống dịch máy của chúng
2.3.2 Một số lỗi của hệ thống dịch
tôi có điểm BLEU cao hơn trung bình 4, 2 so với Google Translate.
Một số câu dịch có cấu trúc ngữ pháp chưa đúng. Hệ thống dịch máy không
dịch được theo ngữ cảnh của văn bản dịch. Công cụ tách từ tiếng Việt đôi khi
tách từ sai. Đa số các câu trong bản dịch chưa được dịch trôi chảy. Hệ thống
không dịch được những từ không biết (unknown word). Chẳng hạn:
Câu tiếng Việt đầu vào: "Tại_Hà_Nội cũng có nhà_thờ đạo Tin_Lành tại
68
phố Hàng_Da."
Bảng 2.6: Điểm BLEU của 17 Hệ thống dịch máy khi dịch các tệp kiểm tra gồm 10.000 câu tiếng
Việt sang tiếng Anh, so với Hệ thống dịch máy Google Translate năm 2017
Tệp kiểm thử Hệ thống dịch BLEU Hệ thống dịch BLEU (+)
1
1
21,78 Google Translate
16,83
4,95
2
2
21,46 Google Translate
17,77
3,69
3
3
23,14 Google Translate
18,75
4,39
4
4
21,25 Google Translate
17,22
4,03
5
5
20,29 Google Translate
16,30
3,99
6
6
21,67 Google Translate
17,92
3,75
7
7
21,58 Google Translate
16,92
4,66
8
8
21,66 Google Translate
18,93
2,73
9
9
21,38 Google Translate
18,72
2,66
10
10
21,60 Google Translate
18,41
3,19
11
11
23,65 Google Translate
18,40
5,61
12
12
22,06 Google Translate
18,63
3.43
13
13
24,99 Google Translate
20,08
4,91
14
14
24,20 Google Translate
18,43
5,77
15
15
23,50 Google Translate
17,97
5,53
16
16
25,18 Google Translate
17,77
7,41
17
17
24,45 Google Translate
17,57
6,88
Trung bình
22,58
Trung bình
18,02
4,56
69
Câu tiếng Anh đầu ra của hệ thống dịch: "Tại_Hà_Nội also is the gospel in
the street Hàng_Da ."
Câu tiếng Việt tham chiếu: "In Hanoi, there is also a Protestant church on
Hang Da street."
Trong ví dụ này, câu tiếng Anh đầu ra của hệ thống dịch bị sai về ngữ pháp khi
dịch cụm từ "phố Hàng_Da" cho kết quả cho kết quả là "the street Hàng_Da",
trong khi kết quả đúng là "Hang Da street". Câu tiếng Việt đầu vào bị tách từ
sai ở cụm từ "Tại_Hà_Nội", tách từ đúng phải là "Tại Hà_Nội". Chính vì lý
do tách từ sai mà hệ thống dịch không thể dịch được cụm từ "Tại_Hà_Nội" ra
tiếng Anh. Cuối cùng, quan sát bản dịch đầu ra của hệ thống dịch ta thấy bản
2.4 Kết luận chương
dịch này là không trôi chảy.
Triển khai nghiên cứu vấn đề về xây dựng kho ngữ liệu song ngữ Việt - Anh
• Đề xuất kỹ thuật cải tiến một công cụ dóng hàng câu tự động cho cặp ngôn
dóng hàng mức câu theo miền, luận án đã thu được các kết quả sau:
ngữ Việt-Anh có mức độ chính xác tăng thêm khoảng 10%. Công cụ này
được chia sẻ cho cộng đồng nghiên cứu tại địa chỉ:
• Xây dựng được kho ngữ liệu song ngữ Việt-Anh miền du lịch được dóng
https://github.com/viXAlign/viXAlign-project.
hàng câu có kích thước trên 20.000 cặp câu và kho ngữ liệu song ngữ Việt-
Anh miền chung với trên 270.000 cặp câu. Kho ngữ liệu song ngữ Việt-Anh
miền du lịch mà luận án xây dựng được đã góp phần nâng cao chất lượng hệ
8, 79 điểm BLEU so với hệ các thống dịch máy Việt-Anh huấn luyện trên
thống dịch máy Việt-Anh trong lĩnh vực du lịch, với mức tăng trung bình
70
kho ngữ liệu song ngữ miền chung có cùng kích thước. So với hệ thống dịch
máy Google Translate tại thời điểm thực nghiệm năm 2017, chất lượng hệ
thống dịch tăng trung bình 4, 56 điểm BLEU; tại thời điểm tháng 03 năm
2020 chất lượng hệ thống dịch tăng 4, 2 điểm BLEU.
Trong chương tiếp theo, luận án sẽ trình bày các kỹ thuật xây dựng kho ngữ
liệu từ, cụm từ song ngữ Việt-Anh dựa trên việc khai thác cả hai nguồn tài
nguyên văn bản: kho văn bản song ngữ Việt-Anh dóng hàng mức câu và kho
văn bản đơn ngữ tiếng Việt.
71
Công bố liên quan đến nghiên cứu ở chương này: [CT1]
Chương 3
Xây dựng kho ngữ liệu từ, cụm từ
song ngữ Việt-Anh
Kho ngữ liệu từ, cụm từ song ngữ là một nguồn tài nguyên ngôn ngữ quan
trọng, được sử dụng trong nhiều ứng dụng của xử lý ngôn ngữ tự nhiên, như:
Xây dựng từ vựng (lexicon), tìm kiếm liên ngôn ngữ, dịch máy, . . .
Trong dịch máy nếu chỉ sử dụng các cặp câu song ngữ huấn luyện hệ thống
dịch mà muốn nâng cao chất lượng dịch thì cần phải huấn luyện bổ sung thêm
rất nhiều cặp câu song ngữ. Việc xây dựng kho ngữ liệu từ và cụm từ song ngữ
cũng là một giải pháp nâng cao chất lượng hệ thống dịch máy từ việc xử lý từ
mới (unknow-words) và hiện tượng dữ liệu thưa.
Hiện nay theo hiểu biết của chúng tôi thì chưa có nghiên cứu đề xuất phương
pháp xây dựng tự động kho ngữ liệu từ, cụm từ song ngữ Việt-Anh. Trong
chương này, chúng tôi trình bày các đề xuất về các phương pháp trích rút từ,
cụm từ song ngữ Việt-Anh khai thác từ kho ngữ liệu song ngữ Việt-Anh có
dóng hàng mức câu và từ các văn bản đơn ngữ tiếng Việt. Kho ngữ liệu này là
cần thiết để xây dựng từ vựng song ngữ Việt-Anh, ứng dụng trong dịch máy và
nhiều lĩnh vực khác.
Phần thứ nhất của chương trình bày phương pháp xây dựng tự động kho từ
72
vựng song ngữ Việt-Anh miền chung và miền du lịch, sử dụng dữ liệu từ kho ngữ
liệu song ngữ Việt-Anh có dóng hàng mức câu. Phần thứ hai trình bày phương
pháp trích rút thuật ngữ song ngữ Việt-Anh từ kho ngữ liệu đơn ngữ tiếng Việt
và thực nghiệm trích rút thuật ngữ song ngữ Việt-Anh từ kho ngữ liệu miền
chung và miền y tế. Phần cuối chương là kết luận đánh giá các phương pháp đề
3.1 Xây dựng tự động kho từ vựng song ngữ Việt - Anh
xuất.
Từ vựng song ngữ (từ hay cụm từ song ngữ) là một dạng tài nguyên ngôn
ngữ quan trọng được sử dụng trong nhiều lĩnh vực của xử lý ngôn ngữ tự nhiên,
như: dịch máy, tìm kiếm liên ngữ, tra cứu ngữ nghĩa giữa hai ngôn ngữ, . . . Việc
xây dựng kho từ vựng có thể được thực hiện nhờ các phương pháp thu thập thủ
công và/hoặc khai thác từ nguồn ngữ liệu song ngữ. Trong khi kho ngữ liệu song
ngữ có dóng hàng mức câu được mở rộng liên tục nhờ các phương pháp xây
dựng bán tự động và tự động, việc tận dụng nguồn tài nguyên này để tự động
làm giàu từ vựng cho phép chúng ta thu được kho từ vựng song ngữ ngày càng
giá trị. Chúng tôi đề xuất một phương pháp thu thập tự động từ vựng song ngữ
và ứng dụng phương pháp này để xây dựng tự động kho từ vựng song ngữ Việt
3.1.1 Xây dựng kho từ vựng song ngữ
– Anh miền du lịch.
Xuất phát từ sự cần thiết của từ điển song ngữ, các nhà nghiên cứu đã sớm
tìm cách tự động xây dựng tài nguyên này. Đã có nhiều công trình nghiên cứu
đề xuất các phương pháp xây dựng kho từ vựng song ngữ, chẳng hạn:
Saba Amsalu(2006)[90] đã đề xuất phương pháp thu thập từ vựng để xây
dựng từ điển song ngữ Amharic-Anh hướng dữ liệu sử dụng mô hình thống kê.
Các phương pháp thống kê thuần túy về phân bố thuật ngữ được sử dụng như
73
là cơ sở để tìm tương quan giữa các thuật ngữ trong văn bản song ngữ có dóng
hàng từ. Một lược đồ tính điểm cho các cặp từ được tạo lập dựa vào các thuộc
tính phân bố của từ. Sau đó dựa vào một giá trị ngưỡng để trích rút các cặp từ
vựng song ngữ.
Lavecchia Caroline , Sma¨ı’li Kamel và Langlois David(2007)[14] đã đề xuất
một phương pháp xây dựng từ điển song ngữ từ phụ đề phim. Đầu tiên họ thu
thập kho ngữ liệu song ngữ phụ đề phim với 32.720 cặp phụ đề được dóng hàng
với độ chính xác 94%, sau đó dữ liệu này được đưa vào xây dựng từ điển dựa
vào một bộ lọc liên ngữ, tức là một danh sách bao gồm từ ở ngôn ngữ nguồn
và các từ có tương quan nhất ở ngôn ngữ đích. Từ nguồn và n từ đích có tương
quan tốt nhất trong danh sách này được đưa vào từ điển.
Ajay Dubey and Vasudeva Varma(2013)[3] đã đề xuất một phương pháp xây
dựng tự động từ điển song ngữ Anh-Hindi từ việc khai thác các thuộc tính cấu
trúc của văn bản. Đầu tiên họ xây dựng một từ điển nhỏ sử dụng phương pháp
kết hợp từ và phiên âm, sau đó sử dụng từ điển này để tìm ra các mục giống
nhau của văn bản trên các ngôn ngữ. Các câu song ngữ được trích rút từ các
mục giống nhau này. Tất cả các từ đồng xuất hiện trong các câu song ngữ được
trích rút để đưa vào từ điển.
Yasuda K, Sumita E. (2013)[54] đã đề xuất một phương pháp xây dựng tự
động từ điển song ngữ từ kho ngữ liệu song ngữ Nhật – Trung. Phương pháp
được đề xuất này sử dụng sự tương đồng về ký tự giữa tiếng Nhật và tiếng
Trung. Đầu tiên, trích rút các cặp dịch từ từ kho ngữ liệu song ngữ dựa vào sự
tương đồng ký tự, sau đó huấn luyện các bảng cụm từ sử dụng hai công cụ huấn
luyện dịch máy thống kê khác nhau, sau đó trích rút các cặp dịch từ chung. Cuối
cùng huấn luyện hệ thống dịch máy thống kê sử dụng các cặp dịch từ thu được
ở trên để thu được từ điển.
Yasuhiro Ogawa và cộng sự [115] đã đề xuất phương pháp trích rút cụm từ
song ngữ lĩnh vực Luật từ tờ thời báo chính thức của Nhật phiên bản tiếng
74
Anh. Phương pháp trích rút cụm từ song ngữ của họ sử dụng công cụ dóng
hàng GIZA++ để xây dựng bảng cụm từ song ngữ Anh-Nhật, sau đó lọc ra các
cặp cụm từ thỏa mãn các điều kiện:
• Xác suất dịch cụm từ từ tiếng Anh sang tiếng Nhật và ngược lại có giá
1. Điều kiện 1:
• Tần suất xuất hiện của các cụm từ tiếng Anh và tiếng Nhật lớn hơn 10.
trị lớn hơn 0,2.
2. Điều kiện 2: Chỉ trích chọn các cụm danh từ dựa vào từ đầu hoặc cuối, từ
nối, động từ và dấu câu.
Thực nghiệm đánh giá phương pháp đề xuất của họ trên kho ngữ liệu Nhật
báo bản tiếng Anh thu thập từ 4/04/1946 đến 4/04/1952 đạt độ chính xác trên
88%. Chúng tôi đã thực nghiệm phương pháp đề xuất này trên kho ngữ liệu
song ngữ Việt-Anh bao gồm 600.389 cặp câu. Kết quả thu được là có 7.736.696
cặp cụm từ thỏa mãn xác suất dịch cụm từ từ tiếng Anh sang tiếng Việt và
ngược lại có giá trị lớn hơn 0, 2. Không có cặp cụm từ nào có tần suất xuất hiện
của cụm từ tiếng Anh và cụm từ tiếng Việt lớn hơn 5. Như vậy phương pháp
của Yasuhiro Ogawa và cộng sự [115] khá phụ thuộc vào cặp ngôn ngữ, không
hiệu quả khi áp dụng trên cặp ngôn ngữ Việt-Anh.
Văn Ngọc Sang và cộng sự (2016)[107] đã trình bày một cách tiếp cận mới
cho việc xây dựng từ điển điện tử Chăm – Việt xuất phát từ 3 thành phần là
dữ liệu, cơ sở dữ liệu và đánh giá. Mô hình ADDIE (Analysis, Design, Develop,
Implement, and Evaluate) đã được nhóm sử dụng trong toàn bộ quá trình tiếp
cận. Đầu tiên nhóm tác giả thực hiện việc phân tích và thiết kế hệ thống với
dữ liệu đầu vào là hai cuốn từ điển Việt-Chăm và Chăm-Việt, sau đó giai đoạn
phát triển và thực hiện được tiến hành từng bước như phân tích và thiết kế.
Cuối cùng, sản phẩm từ điển điện tử được đánh giá bởi chuyên gia và người sử
75
dụng.
Các phương pháp xây dựng từ điển song ngữ tiếng Việt với một ngôn ngữ
khác đã được đề xuất chủ yếu khai thác tài nguyên từ các cuốn từ điển song ngữ
đã được xuất bản, chẳng hạn như trong công trình của Văn Ngọc Sang và cộng
sự công bố năm 2007 về xây dựng từ điển song ngữ Việt-Jrai, Jrai-Việt[106] và
công trình công bố năm 2016[107] về xây dựng từ điển điện tử Chăm – Việt từ
việc khai thác cuốn từ điển Chăm – Việt đã được xuất bản.
Các phương pháp đã được đề xuất ở trên có nhược điểm là chưa khai thác
được kho ngữ liệu song ngữ dóng hàng mức câu, đồng thời chưa đưa ra được
phương pháp xây dựng tự động. Đặc biệt các phương pháp xây dựng từ điển
song ngữ Việt-Anh đã được đề xuất khi được vận dụng vào xây dựng từ điển
song ngữ tiếng Việt với một thứ tiếng bất kỳ thì gặp rất nhiều khó khăn do
không có các cuốn từ điển điện tử tương ứng [106][107].
Phương pháp xây dựng kho từ vựng song ngữ Việt-Anh của chúng tôi có cùng
ý tưởng với phương pháp của Yasuhiro Ogawa và cộng sự [115] nhưng khác ở
• Kho từ vựng được xây dựng dựa trên kho ngữ liệu song ngữ Việt-Anh dóng
các điểm cơ bản sau:
hàng mức câu. Đây là một lợi thế của phương pháp, vì kho ngữ liệu này
hiện đang được các nhóm nghiên cứu thu thập và bổ sung mở rộng từng
• Chúng tôi trích rút từ, cụm từ dựa vào giá trị xác suất, trọng số dịch ở cả
ngày.
hai chiều dịch từ, cụm từ và phương án dóng hàng từ, cụm từ được tính
toán nhờ công cụ MGIZA của hệ thống MOSES và sử dụng công cụ SALM
(Suffix Array tool kit for empirical Language Manipulations) để loại bỏ các
• Việc lọc các cặp từ Việt–Anh để đưa vào từ điển song ngữ Việt-Anh dựa
cặp cụm từ có chất lượng không tốt.
vào nhãn từ loại của các từ.
76
Bên cạnh đó, chúng tôi cũng đề xuất phương pháp xây dựng tự động kho ngữ
Hình 3.1: Phương pháp xây dựng tự động từ vựng Việt-Anh
liệu từ và cụm từ song ngữ theo miền.
3.1.2 Phương pháp xây dựng tự động từ vựng song ngữ Việt-Anh
3.1.2.1 Tóm tắt phương pháp
Mục tiếp theo trình bày chi tiết về phương pháp đề xuất.
Phương pháp xây dựng tự động từ vựng Việt-Anh được đề xuất ở đây sử
dụng tài nguyên là kho ngữ liệu song ngữ Việt-Anh dóng hàng mức câu. Mô
hình của phương pháp được thể hiện trong Hình 3.1.
Đầu tiên, Câu tiếng Việt từ kho ngữ liệu song ngữ được tách từ và gán nhãn
77
từ loại, sau đó chúng tôi viết một chương trình JAVA đơn giản sử dụng đầu vào
là tài nguyên này và cho đầu ra là hai kho ngữ liệu: Kho ngữ liệu từ tiếng Việt
đã gán nhãn và kho ngữ liệu câu tiếng Việt đã gán nhãn.
Tiếp theo, câu tiếng Anh từ kho ngữ liệu song ngữ cũng được gán nhãn từ
loại để thu được kho ngữ liệu câu tiếng Anh đã gán nhãn.
Cuối cùng, kho ngữ liệu từ tiếng Việt đã gán nhãn và kho ngữ liệu song ngữ
đã gán nhãn, được đưa vào giải thuật mà chúng tôi đề xuất (Giải thuật 1) để
trích rút các từ song ngữ và ứng với mỗi cặp từ trích rút được sẽ thực hiện trích
rút các cặp câu song ngữ chứa cặp từ Việt-Anh trong kho ngữ liệu song ngữ đưa
vào từ điển song ngữ Việt-Anh.
Phương pháp xây dựng tự động từ điển song ngữ Việt-Anh được đề xuất ở
đây có thể áp dụng cho một cặp ngôn ngữ bất kỳ bằng việc đưa vào kho ngữ
3.1.2.2 Giải thuật xây dựng từ vựng song ngữ Việt-Anh
liệu song ngữ có dóng hàng mức câu của cặp ngôn ngữ đó.
Gọi C(Cv; Ce) là kho ngữ liệu song ngữ Việt-Anh dóng hàng mức câu; Ct(Ctv; Cte)
Ctw là kho ngữ liệu từ tiếng Việt đã được gán nhãn từ loại. Gọi T a = M o(Ct) là
là kho ngữ liệu song ngữ Việt-Anh dóng hàng mức câu đã được gán nhãn từ loại,
bảng từ, cụm từ được sinh ra bởi hệ thống huấn luyện Moses[83]. Gọi T = Sa(T a)
là bảng từ, cụm từ đầu ra của công cụ SALM.1[42] SALM là công cụ dùng để gỡ
bỏ các cặp từ, cụm từ có chất lượng thấp và gây nhiễu có trong bảng từ, cụm từ
được sinh ra bởi MOSES để đảm bảo chất lượng của bảng từ, cụm từ. Mặc dù
bảng từ, cụm từ đã được lọc nhiễu, nhưng vì nó được sinh ra bởi Moses từ phương
pháp học không giám sát, do vậy nó vẫn chứa rất nhiều các cặp từ, cụm từ không
không phải là bản dịch của nhau. Gọi vi; en; pen; pvi; p(vi|en); p(en|vi); alignve lần
lượt là từ tiếng Việt đã được gán nhãn từ loại; từ tiếng Anh đã được gán nhãn
từ loại ; cụm từ tiếng việt đã được gán nhãn từ loại có chứa từ tiếng Việt vi;
1https://github.com/moses-smt/salm
78
cụm từ tiếng Anh đã được gán nhãn từ loại có chứa từ tiếng Anh en; giá trị xác
suất dịch en thành vi và giá trị xác suất dịch vi thành en và phương án dóng
hàng từ giữa hai cụm từ. Từ điển song ngữ D bao gồm hai tệp Dv và De.
• Bước 1: Kho ngữ liệu song ngữ Việt-Anh có dóng hàng mức câu được tách
Quy trình xây dựng từ vựng song ngữ Việt-Anh như sau:
từ và gán nhãn từ loại để thu được Kho ngữ liệu từ tiếng Việt đã được gán
• Bước 2: Cả hai kho ngữ liệu thu được ở Bước 1 sẽ là đầu vào của giải thuật
nhãn từ loại và Kho ngữ liệu song ngữ Việt-Anh đã được gán nhãn từ loại.
Trích rút từ và cụm từ song ngữ (Giải thuật 1) để thu được các từ và cụm
từ song ngữ đưa vào từ điển song ngữ Việt-Anh. Với mỗi từ, cụm từ trích
rút được, hệ thống tìm trong kho ngữ liệu song ngữ Việt-Anh có dóng hàng
mức câu ở đầu vào để tìm câu song ngữ có chứa từ, cụm từ đưa vào từ điển
3.1.3 Phương pháp xây dựng tự động từ vựng song ngữ Việt-Anh miền du
lịch
làm câu minh họa việc sử dụng từ và cụm từ đó.
Để xây dựng từ vựng song ngữ Việt-Anh theo lĩnh vực (miền), chúng tôi sử
dụng độ đo tf-idf để xác định từ/thuật ngữ đặc trưng cho lĩnh vực đó.
Trước khi trình bày phương pháp xây dựng kho từ vựng song ngữ Việt-Anh
3.1.3.1 Thống kê tf-idf
miền du lịch, chúng tôi nhắc lại độ đo này.
• Ký hiệu v là một văn bản bất kỳ; ws là một từ bất kỳ trong văn bản v.
• Gọi f (w, v) là số lần xuất hiện của từ w trong văn bản v.
• Khi đó, tần số xuất hiện của từ w trong văn bản v được tính theo công thức
Tần số xuất hiện của một từ trong một văn bản
79
(3.1.1) :
Giải thuật 1: Giải thuật xây dựng tự động kho từ song ngữ Việt-Anh.
Đầu vào:
Kho ngữ liệu từ tiếng Việt đã được gán nhãn từ loại Ctw;
Kho ngữ liệu song ngữ dóng hàng mức câu C(Cv; Ce);
Kho ngữ liệu song ngữ dóng hàng mức câu đã được gán nhãn từ loại Ct(Ctv; Cte).
Đầu ra: Kho từ song ngữ Việt – Anh Dv, De.
Begin
while (not EOF(Ctw)) do Get wv in a line of Ctw;
Ta = M o(Ct);
T = Sa(Ta);
while (not EOF (T )) do
Get line;
Get vi; en; pvi; pen; p(vi|en); p(en|vi); alignve in line;
if (wv = vi) and (p(vi|en)max) and(p(en|vi) >= 0.1) and (vi not in Dv)and ((vi, en)
in alignve) then
Return vi, pvi in Dv;
Return en, pen in De;
while (not EOF(Cv) and not EOF(Ce)) do
Get linev in Cv;
Get linee in Ce;
if (wv in linev) then
Return linev in Dv;
Return linee in De;
End
80
f (w, v) max{f (ws, v) : ws in v}
(3.1.1) tf(w, v) =
Trong đó: max{f (ws, v) : ws in v} là số lần xuất hiện nhiều nhất của một từ
bất kỳ ws trong văn bản v.
Tần số nghịch của một từ trong tập văn bản
Tính tần số nghịch của một từ trong tập văn bản để giảm giá trị của những
từ phổ biến.
Gọi |V | là tổng số văn bản có trong tập V; |v in V : w in v|: Số văn bản chứa
từ w, với điều kiện w thuộc v.
Khi đó, tần số nghịch của một từ trong tập văn bản được tính bởi công thức
(3.1.2):
|V | 1 + |v in V : w in v|
idf(w, V ) = log (3.1.2)
Độ đo tf-idf2
Độ đo tfidf(w, v, V ) là giá trị đo mức độ đặc trưng của từ w trong văn bản v,
được tính bởi công thức (3.1.3):
tfidf(w, v, V ) = tf(w, v) ∗ idf(w, V ) (3.1.3)
Giá trị này lớn thể hiện w xuất hiện nhiều trong văn bản v nhưng xuất hiện
3.1.3.2 Phương pháp xây dựng tự động từ điển song ngữ Việt-Anh miền du lịch
ít trong các văn bản khác thuộc V .
1. Phương pháp xây dựng tự động từ điển song ngữ Việt-Anh miền du lịch
Phương pháp xây dựng tự động từ điển song ngữ Việt-Anh miền du lịch
2https://en.wikipedia.org/wiki/Tf%E2%80%93idf
81
được thể hiện trong Hình 3.2.
Hình 3.2: Phương pháp xây dựng tự động từ điển Việt-Anh miền du lịch
82
Đầu tiên, câu tiếng Việt từ kho ngữ liệu song ngữ Việt-Anh miền du lịch và
kho ngữ liệu đơn ngữ câu tiếng Việt miền chung được tách từ và Gán nhãn
từ loại, sau đó chúng được đưa vào giải thuật 2 trích rút từ thuộc miền du
lịch để thu được kho ngữ liệu từ tiếng Việt miền du lịch đã gán nhãn.
Cuối cùng, đưa kho ngữ liệu từ tiếng Việt miền du lịch đã gán nhãn và
kho ngữ liệu song ngữ miền du lịch đã gán nhãn vào giải thuật 1 để trích
rút từ và cụm từ song ngữ và trích rút các cặp câu song ngữ chứa từ tiếng
Việt trong kho ngữ liệu song ngữ miền du lịch đưa vào từ điển song ngữ
Việt-Anh miền du lịch.
Phương pháp xây dựng tự động từ điển song ngữ Việt-Anh miền du lịch
này có thể áp dụng để xây dựng tự động từ điển song ngữ cho một miền
bất kỳ bằng việc thay kho ngữ liệu song ngữ có dóng hàng mức câu ở đầu
vào của phương pháp bằng kho ngữ liệu song ngữ có dóng hàng mức câu
theo miền.
2. Giải thuật trích rút từ thuộc miền du lịch
Gọi Ctv là kho ngữ liệu đơn ngữ gồm câu tiếng Việt miền du lịch và Cgv là
kho ngữ liệu đơn ngữ các câu tiếng Việt miền chung đã được tách từ và gán
nhãn từ loại.
Gọi wv, ws là các từ tiếng Việt.
Giải thuật trích rút từ thuộc miền du lịch được trình bày chi tiết trong Giải
thuật 2:
Trong đó: σ là một hằng số. Chúng tôi đã tính giá trị tfidf cho tất cả các
từ có trong kho ngữ liệu câu tiếng Việt miền du lịch, kết quả nhận được phân
làm hai miền rõ rệt: Miền các từ có giá trị tfidf ≥ 0, 5 và miền các từ có giá trị
83
tfidf ≤ 0, 37. Do đó chúng tôi quyết định lựa chọn giá trị σ = 0, 5.
Giải thuật 2: Giải thuật trích rút từ tiếng Việt miền du lịch.
Đầu vào: Kho ngữ liệu đơn ngữ câu tiếng Việt đã được gán nhãn từ loại thuộc miền du lịch
Ctv và miền chung Cgv.
Đầu ra: Các từ thuộc miền du lịch Dt.
Begin
while (not EOF(Ctv)) do
Get wv in Ctv;
tf(wv, Ctv)) = f (wv, Ctv)/max{f (ws, Ctv) : ws in Ctv}; // Áp dụng công thức (3.1.1)
idf(wv, Cgv) = log(|Cgv|/(1 + |C in Cgv : wv in C|)); // Áp dụng công thức (3.1.2)
tfidf(wv, Ctv, Cgv) = tf(wv, Ctv)∗idf(wv, Cgv); // Áp dụng công thức (3.1.3)
if (tfidf(wv, Ctv, Cgv) > σ) then
Return wv in Dt;
End
3.1.4 Thực nghiệm và kết quả
3.1.4.1 Chuẩn bị ngữ liệu thực nghiệm
Trong phần thực nghiệm, chúng tôi sử dụng một số kho ngữ liệu song ngữ
Việt-Anh có dóng hàng mức câu đã được tách từ và gán nhãn từ loại.
1. Kho ngữ liệu song ngữ Việt – Anh dóng hàng mức câu
100.000 cặp câu song ngữ Việt-Anh của đề tài VLSP3 và 500.389 cặp câu
Kho ngữ liệu song ngữ Việt-Anh được sử dụng trong thực nghiệm bao gồm:
song ngữ Việt-Anh miền chung (Trong đó: 250.000 cặp câu của tác giả thu
thập được và 250.389 cặp câu từ kho ngữ liệu song ngữ của nhóm nghiên
cứu về dịch máy tại Đại học Công nghệ, Đại học Quốc gia Hà Nội); 14.237
cặp câu song ngữ Việt-Anh miền du lịch ở kho ngữ liệu CorTurism3 (mục
2.1.2.2).
2. Tách từ và gán nhãn từ loại tiếng Việt, tiếng Anh
Đối với tiếng Việt, có một số công cụ thực hiện tách từ và gán nhãn từ loại
3https://vlsp.hpda.vn/demo/?page=resources
84
đã được công bố và chia sẻ cho công đồng nghiên cứu sử dụng với độ chính
xác khác cao, trong đó công cụ tách từ và gán nhãn từ loại văn bản tiếng
Việt VncoreNLP4 được viết bởi Thành Vũ và cộng sự năm 2018. Công cụ
được đánh giá là có độ chính xác hơn hẳn so với các công cụ tách từ và gán
nhãn từ loại cho văn bản tiếng Việt.
Đối với tiếng Anh, hiện nay có công cụ Stanford tách từ đạt mức độ chính
xác khá cao: Công cụ Stanford Log-linear Part-Of-Speech Tagger5 phiên bản
đầu tiên được viết bởi Toutanova và sau đó là các phiên bản cải tiến của
Dan Klein, Christopher Manning, William Morgan, Anna Rafferty, Michel
Galley, and John Bauer.
Trong thực nghiệm chúng tôi sử dụng công cụ tách từ và gán nhãn từ loại
VncoreNLP cho tiếng Việt và công cụ gán nhãn từ loại Stanford Log-linear
3.1.4.2 Kết quả
Part-Of-Speech Tagger cho tiếng Anh.
1. Xây dựng từ điển song ngữ Việt-Anh
Triển khai thực nghiệm trên kho ngữ liệu 600.389 cặp câu song ngữ Việt-Anh
miền chung. Với 600.389 câu tiếng Việt, sau khi tách từ thu được 108.040 từ
tiếng Việt. Thực hiện phương pháp xây dựng từ điển song ngữ Việt-Anh
đã được đề xuất, chúng tôi thu được 33.443 cặp từ song ngữ Việt-Anh. Với
mỗi từ tiếng Việt được lưu vào trong từ điển, thuật toán trích chọn hai cặp
cụm từ và hai cặp câu có chứa từ tiếng Việt đó để lưu vào từ điển nhằm
minh họa việc sử dụng từ trong cụm từ và trong câu khi từ được tra trong
từ điển. Kết quả được thể hiện trong Bảng 3.1.
2. Xây dựng từ điển song ngữ Việt-Anh miền du lịch được triển khai thực
nghiệm trên kho ngữ liệu CorTurism3 (mục 2.1.2.2) có 14.237 cặp câu song
4https://github.com/vncorenlp/VnCoreNLP 5https://nlp.stanford.edu/software/tagger.shtml#About
85
ngữ Việt-Anh miền du lịch và kho ngữ liệu 842.423 câu đơn ngữ tiếng Việt
Bảng 3.1: Từ điển song ngữ Việt-Anh trích rút từ kho ngữ liệu gồm 600.389 cặp câu song ngữ Việt –
Anh
Kho ngữ liệu (số cặp câu) Từ tiếng Việt (số từ ) Từ trong từ điển (số cặp từ)
600.389
108.040
33.443
miền chung. Sau khi tách từ các câu tiếng Việt và thực hiện trích rút từ
miền du lịch theo phương pháp đề xuất, chúng tôi thu được 15.881 từ tiếng
Việt thuộc miền du lịch. Sử dụng phương pháp xây dựng tự động từ điển
song ngữ Việt-Anh miền du lịch, thu được từ điển 1.745 từ. Thống kê kết
Bảng 3.2: Từ điển song ngữ Việt-Anh miền du lịch trích rút từ kho ngữ liệu CorTurism3
Kho ngữ liệu (số cặp câu) Từ tiếng Việt (số từ ) Từ trong từ điển (số cặp từ)
14.237
15.881
1.745
quả được thể hiện trong Bảng 3.2.
3. Đánh giá độ chính xác của từ điển
Chúng tôi sử dụng phương pháp chuyên gia để đánh giá mức độ chính xác
của từ điển được xây dựng bằng phương pháp đề xuất ở trên. Cách thực
• Gọi n là số chuyên gia tiếng Anh tham gia đánh giá mức độ chính xác
hiện đánh giá như sau:
• Gọi mi(1 ≤ i ≤ m) là số từ lấy ngẫu nhiên trong từ điển ra để kiểm tra.
• Gọi ki là số từ mà chuyên gia thứ i đánh giá là đúng.
của từ điển;
Khi đó, độ chính xác của từ điển được tính bởi công thức (3.1.4):
)
P recision =
× 100%
i=1( ki mi n
86
(cid:80)n (3.1.4)
Để xác định mức độ chính xác của từ điển xây dựng được, chúng tôi thực
• Lấy ra ngẫu nhiên 1.000 từ trong từ điển;
• Sử dụng 5 chuyên gia tiếng Anh đánh giá, mỗi chuyên gia đánh giá 200
hiện như sau:
từ lấy ngẫu nhiên. Kết quả số từ mà 5 chuyên gia đánh giá là đúng lần
lượt như sau: 191, 192, 189, 191, 194.
Áp dụng công thứ (3.1.4), ta tính được độ chính xác của từ điển là 95,7%.
4. Phân tích kết quả
Bảng 3.3 minh họa một số kết quả trong từ điển thu được sử dụng phương
Bảng 3.3: Kết quả tra một số từ trong từ điển được xây dựng bằng phương pháp đề xuất
Tra từ tiếng Việt Từ loại Kết quả từ tiếng Anh trong từ điển
lăng
Danh từ
mausoleum; tomb
bạt_ngàn
Tính từ
vast
cầu_nguyện
Động từ
pray
Danh từ
praying
tâm_linh
Danh từ
spirit
Tính từ
spiritual
đặc_sắc
Tính từ
special; unique
phật_giáo
Danh từ
buddhist; buddhism
chiêm_ngưỡng
Động từ
admire
vô_lý
Tính từ
absurd; irrational; unreasonable; ridiculous
pháp đề xuât.
Từ điển này được xây dựng dựa vào khai thác các câu song ngữ trong kho
ngữ liệu song ngữ Việt-Anh có dóng hàng mức câu, nên đã tìm được nhiều
tình huống sử dụng từ tiếng Việt khi nó được viết ở tiếng Anh. Chúng tôi
thấy rằng có một số từ tiếng Việt tra trong từ điển được xây dựng bằng
87
phương pháp đề xuất tìm thấy nhiều từ tiếng Anh biểu diễn nghĩa của
từ tiếng Việt đó hơn một số từ điển khác chẳng hạn: từ "lăng", tra trong
từ điển Việt-Anh VNDIC.NET6 chỉ tìm được từ tiếng Anh tương ứng là
"tomb". Nhưng tra trong từ điển của chúng tôi thì từ "lăng" được tìm thấy
có nghĩa là "tomb" và "mausoleum".
Chúng tôi cũng đã nghiên cứu để tìm ra nguyên nhân dẫn đến sự thiếu
chính xác của từ điển được xây dựng bằng phương pháp đề xuất: Số các
cặp cụm từ chưa chính xác trong từ điển chủ yếu là do lỗi tách từ tiếng Việt,
ví dụ từ tiếng Việt "công chúa tiên dung" phần mềm tách từ tách thành
2 từ đó là "công_chúa_tiên" và "dung", khi đó trong từ điển xuất hiện
→ princesses". Chất lượng của từ điển còn bị ảnh hưởng từ chất lượng của
cặp cụm từ "công_chúa_tiên → princesses" mà đúng phải là "công_chúa
kho ngữ liệu song ngữ được đưa vào xây dựng từ điển. Kho ngữ liệu được
dùng trong thực nghiệm này còn chưa tốt ở những vấn đề: lỗi chính tả, lỗi
dư thừa các dấu, ký hiệu,. . . Ngoài ra chất lượng của từ điển còn chịu ảnh
hưởng từ mức độ chính xác của bảng cụm từ được tạo ra từ MOSES.
Từ điển song ngữ Việt-Anh miền du lịch được xây dựng theo phương pháp
đề xuất vẫn còn chứa một số từ ngoài miền, do kho ngữ liệu song ngữ Việt-
Anh miền du lịch được sử dụng trong thực nghiệm là nhỏ mà chúng tôi lại
muốn trích rút được số lượng từ nhiều, do đó trong từ điển miền du lịch
3.2 Trích rút thuật ngữ song ngữ Việt-Anh từ văn bản đơn
ngữ tiếng Việt dựa vào tập luật
vẫn còn chứa một vài từ ngoài miền du lịch.
Thuật ngữ là các từ đơn hoặc cụm từ liên quan đến một miền cụ thể. Các
thuật ngữ song ngữ là tài nguyên ngôn ngữ quan trọng, vì việc khai thác các
6https://vdict.com/l%C4%83ng,2,0,0.html
88
thuật ngữ song ngữ mang lại nhiều lợi ích không chỉ cho việc sử dụng ngôn ngữ
của con người, mà còn để giải quyết các vấn đề liên quan đến xử lý ngôn ngữ
tự nhiên. Ví dụ, thuật ngữ song ngữ giúp tăng đáng kể chất lượng dịch máy, vì
các thuật ngữ sẽ được dịch chính xác hơn và theo ngữ cảnh nhiều hơn. Một vấn
đề khác là sự pha trộn ngôn ngữ trong văn bản, làm tăng khó khăn cho việc
xử lý văn bản và hiểu văn bản. Trong các văn bản trên mạng xã hội, việc sử
dụng các thuật ngữ tiếng Anh xen kẽ trong các văn bản tiếng Việt ngày càng
trở nên phổ biến, chẳng hạn sử dụng "chụp cắt lớp" và "CT scan", "bình luận"
và "comment", v.v. Nguồn tài nguyên các thuật ngữ song ngữ rõ ràng mang lại
nhiều lợi ích trong việc xử lý vấn đề này. Chúng cũng là những công cụ có giá
trị cho tìm kiếm thông tin liên ngôn ngữ.
Việc thu thập tự động các thuật ngữ song ngữ chủ yếu dựa trên kho ngữ liệu
song ngữ. Một số phương pháp đã đề xuất trích rút các thuật ngữ song ngữ từ
kho ngữ liệu song ngữ hay kho ngữ liệu đối sánh, như trong [58] hay [28]. Tuy
nhiên, kho ngữ liệu đơn ngữ cũng có thể là một nguồn tài nguyên tốt để trích rút
các thuật ngữ song ngữ. Trên thực tế, vì tiếng Anh được sử dụng trong các văn
bản được đăng tải cho cộng đồng trên toàn thế giới, chúng ta thường tìm thấy
các từ tiếng Anh cùng với bản dịch của nó trong các tài liệu đơn ngữ được viết ở
các ngôn ngữ khác nhau. Đối với các ngôn ngữ ít tài nguyên song ngữ như tiếng
Việt, việc khai thác các tài liệu đơn ngữ cho phép chúng ta trích rút các thuật
ngữ song ngữ, đặc biệt là các thuật ngữ mới trong các lĩnh vực chuyên ngành.
Một ý tưởng tương tự theo hướng này được thấy trong công trình của F. Bond
và cộng sự [32] để trích rút các thuật ngữ song ngữ Nhật-Anh và Trung-Anh.
Trong phần này, luận án trình bày một phương pháp trích rút thuật ngữ song
ngữ Việt-Anh từ các văn bản đơn ngữ tiếng Việt. Chúng tôi tập trung vào việc
trích rút các thuật ngữ tiếng Việt và giải thích thuật ngữ bằng tiếng Anh được
viết trong ngoặc đơn ngay sau các thuật ngữ này. Để làm điều đó, trước tiên
chúng tôi trích rút các ứng viên là các thuật ngữ tiếng Việt mà có chú thích
89
bằng một thuật ngữ tiếng Anh đặt trong ngoặc ngay sau thuật ngữ tiếng Việt
đó, sau đó đề xuất một bộ quy tắc để trích rút và lọc các ứng viên song ngữ.
Thực nghiệm được tiến hành trên hai kho ngữ liệu: Kho ngữ liệu đơn ngữ tiếng
3.2.1 Các công trình nghiên cứu có liên quan
Việt miền y tế và kho ngữ liệu đơn ngữ tiếng Việt Wikipedia.
Như đã đề cập ở trên, thuật ngữ song ngữ là tài nguyên ngôn ngữ quan trọng
đối với NLP cũng như trong sử dụng của con người. Do đó, đã có nhiều công
trình nghiên cứu về trích rút thuật ngữ song ngữ được công bố. Sau đây là các
hướng tiếp cận khác nhau để trích rút các thuật ngữ song ngữ trong những năm
gần đây:
Le An Ha và cộng sự [58] đề xuất phương pháp để thực hiện trích rút thuật
ngữ song ngữ bằng cách kết hợp trích rút thuật ngữ đơn ngữ cho một ngôn ngữ
với cơ chế dóng hàng các cụm danh từ sẵn có trong kho ngữ liệu song song.
Saralegi và cộng sự [114] đề xuất phương pháp trích rút các cặp thuật ngữ
tiếng Anh-Basque bằng cách sử dụng sự tương đồng ngữ cảnh và các từ cùng
gốc(các từ có dạng tương tự). Khai thác ý tưởng trích rút các thuật ngữ song
ngữ từ các tài liệu đơn ngữ.
Francis Bond và cộng sự [32] đề xuất phương pháp trích rút các thuật ngữ
song ngữ từ văn bản đơn ngữ bằng cách khai thác các dấu hiệu trong văn bản,
cụ thể việc sử dụng dấu ngoặc đơn () và sự khác biệt về hình thức chữ viết (đối
với các cặp ngôn ngữ Anh-Trung Quốc và Anh-Nhật Bản). Phương pháp này
cho phép cải thiện đáng kể độ chính xác của các hệ thống được đề xuất trước đó
cho việc trích rút thuật ngữ Nhật-Anh và Trung-Anh. Nhược điểm của phương
pháp này là khó có thể áp dụng cho các cặp ngôn ngữ cùng sử dụng hệ chữ cái
la-tinh chẳng hạn như cặp ngôn ngữ Việt-Anh.
Trong [28], Els Lefever và cộng sự giới thiệu một mô-đun trích rút thuật ngữ
độc lập cặp ngôn ngữ dựa trên hệ thống dóng hàng câu con mà liên kết các cụm
90
từ xuất hiện trong các văn bản song song. Các bộ lọc thống kê được áp dụng
cho các ứng viên song ngữ được trích rút từ đầu ra của dóng hàng.
Guinovart và cộng sự [4] trình bày phương pháp trích rút thuật ngữ song ngữ
từ kho ngữ liệu song ngữ. Giải thuật được sử dụng ở phương pháp này trích rút
thuật ngữ song ngữ dựa vào sự xuất hiện của các mẫu hình thái ngữ pháp song
ngữ trong từ điển xác suất dịch NATools. Từ điển NATools trích rút tự động
các cặp từ nguồn và đích là bản dịch của nhau từ kho ngữ liệu song ngữ được
dóng hàng câu. Mỗi cặp từ nguồn và đích có một giá trị xác suất dịch. Thông
tin này giúp tạo ra một ma trận dóng hàng cho bất kỳ đơn vị dịch nào. Các ma
trận này được sử dụng để trích rút thuật ngữ song ngữ.
Trong [29], Sadat khai thác ý tưởng sử dụng từ điển bách khoa đa ngôn ngữ
dựa trên Web chẳng hạn như Wikipedia cũng như kho ngữ liệu có thể so sánh
để trích rút thuật ngữ song ngữ. Quá trình trích rút thuật ngữ song ngữ từ các
tài liệu Wikipedia được thực hiện như sau: (i) xây dựng kho ngữ liệu có thể so
sánh; (ii) dịch sử dụng phương pháp thống kê; (iii) kết hợp với thông tin ngôn
ngữ để lọc và xếp hạng lại thứ bậc các thuật ngữ trích rút được.
Năm 2012, Ahmet Aker và cộng sự [2] đề xuất một phương pháp trích rút
các cụm từ song song từ các bài báo tin tức có thể so sánh. Cách tiếp cận của
họ bao gồm một bộ sinh cặp cụm từ mà tự động sinh ra các cụm từ song song
ứng viên và một bộ phân lớp nhị phân SVM (Support Vector Machine) để phân
loại các cặp cụm từ ứng viên là song song hoặc không song song.
Trong [88], Gaizauskas và cộng sự mô tả một hệ thống đa thành phần trích
rút thuật ngữ song ngữ BiTES (Bilingual Term Extraction System). Nó được
thiết kế để tự động thu thập các cặp thuật ngữ song ngữ theo miền từ dữ liệu
Web. Các thành phần của BiTES bao gồm các công cụ thu thập dữ liệu, phân
loại miền, hệ thống trích rút văn bản đơn ngữ và công cụ dóng hàng thuật ngữ
song ngữ.
Yang và cộng sự [111] triển khai thực nghiệm trên một kho ngữ liệu song ngữ
91
Trung Quốc - Nhật Bản. Họ trích rút tự động các thuật ngữ kỹ thuật từ kho
ngữ liệu đơn ngữ bằng cách kết hợp phương pháp lọc và phương pháp thống kê
ngôn ngữ, sau đó sử dụng phương pháp dóng hàng dựa trên mẫu để xác định
các thuật ngữ được dóng hàng rồi chọn ra các thuật ngữ kỹ thuật song ngữ.
Trong [91], Sanjika Hewavitharana và Stephan Vogel đề xuất phương pháp
trích rút các cụm từ song song từ dữ liệu có thể so sánh. Trong phương pháp
này, họ khai thác ba quá trình dóng hàng cụm từ để phát hiện các cặp cụm
từ song song trong các câu có thể so sánh: (i) Giải thuật trích rút cụm từ tiêu
chuẩn dựa vào giải thuật Viterbi path (Viterbi path là một giải thuật quy hoạch
động tìm dãy có khả năng nhất của các trạng thái ẩn); (ii) Mô-đun trích rút
cụm từ chỉ sử dụng đặc trưng từ vựng; (iii) Một bộ phân lớp nhị phân để phát
hiện các cặp cụm từ song song trong một tập hợp lớn các ứng viên cặp cụm từ.
Trong [95], Shengxiang Gao và cộng sự trình bày phương pháp trích rút các
thuật ngữ song ngữ Trung-Việt dựa vào một ngôn ngữ then chốt. Đầu tiên họ
huấn luyện một mô hình để xác định và trích rút thuật ngữ tiếng Trung. Sau
đó, một mô hình dịch máy thống kê dựa trên cụm từ được sử dụng để tạo bảng
cụm từ Trung-Anh và bảng cụm từ Việt-Anh trong kho ngữ liêu song song đa
ngôn ngữ, cho phép suy ra bảng cụm từ Trung-Việt. Cuối cùng, một cặp thuật
ngữ song ngữ Trung-Việt được xây dựng bằng cách kết hợp các thuật ngữ tiếng
Trung được trích xuất từ trước và bảng cụm từ Trung-Việt.
Trong [47], Jingshu Liu và cộng sự đề xuất một khung thống nhất dóng hàng
các thuật ngữ song ngữ không phụ thuộc vào độ dài thuật ngữ. Phương pháp
của họ được xây dựng dựa trên việc kết hợp những ưu thế của phương pháp
thành phần truyền thống và tiếp cận nhúng từ (word embedding) song ngữ. Các
bước thực hiện như sau:
1. Chuẩn bị hai mô hình nhúng từ cho cặp ngôn ngữ nguồn và đích có cùng
kích thước vectơ.
92
2. Học ma trận chuyển đổi sử dụng hướng tiếp cận chiếu dựa trên ngữ cảnh
kết hợp với mạng nơ-ron.
3. Dịch từng từ trong thuật ngữ có nhiều từ thông qua từ vựng hạt giống song
ngữ.
4. Xây dựng vec tơ đại diện cho toàn bộ thuật ngữ có nhiều từ.
5. So sánh vectơ dịch với từng ứng viên trong ngôn ngữ đích bằng cách sử
dụng số đo tương tự. Các bản dịch ứng viên được xếp thứ tự theo giá trị
của độ đo tương tự.
Tóm lại, hầu hết các hướng tiếp cận trong trích rút thuật ngữ song ngữ đã
được đề xuất đều sử dụng kho ngữ liệu song song hoặc kho ngữ liệu có thể
so sánh. Tuy nhiên, tiếng Việt là ngôn ngữ không nhiều tài nguyên song ngữ
Việt-Anh, nên việc trích rút các thuật ngữ song ngữ có trong các văn bản đơn
ngữ tiếng Việt là cần thiết. Phương pháp được đề xuất ở đây khai thác một ý
tưởng tương tự như ý tưởng của F. Bond và cộng sự [32], đó là tìm các thuật
ngữ hoặc từ tiếng Việt tương đương với các thuật ngữ hoặc từ tiếng Anh mà
xuất hiện trong ngoặc đơn. Cách tiếp cận này dựa trên đặc điểm ngôn ngữ của
tiếng Việt. Chúng tôi đề xuất một bộ quy tắc để trích rút và lọc các thuật ngữ
3.2.2 Phương pháp trích rút thuật ngữ song ngữ Việt-Anh từ văn bản đơn
ngữ tiếng Việt
song ngữ Việt-Anh từ kho ngữ liệu đơn ngữ tiếng Việt.
Mục này trình bày phương pháp trích rút tự động các thuật ngữ song ngữ
Việt-Anh từ văn bản đơn ngữ tiếng Việt.
Trong các tài liệu chuyên ngành tiếng Việt, khi viết một thuật ngữ, đặc biệt
là một thuật ngữ mới, người ta thường đặt sau thuật ngữ này thuật ngữ tiếng
Anh tương ứng của nó trong ngoặc đơn (). Ở đây, luận án tập trung vào việc
trích rút các cặp thuật ngữ song ngữ bao gồm một thuật ngữ tiếng Anh trong
93
ngoặc đơn và các thuật ngữ tiếng Việt tương ứng. Vấn đề chính cần giải quyết
Hình 3.3: Mô hình trích rút thuật ngữ song ngữ Việt-Anh từ văn bản tiếng Việt
là xác định đoạn văn bản tiếng Việt nào là một thuật ngữ tương ứng với thuật
ngữ tiếng Anh trong ngoặc đơn.
Phương pháp được đề xuất ở đây là một phương pháp phi giám sát:
1. Bước 1: Trích chọn các ứng viên từ văn bản đơn ngữ tiếng Việt. Mỗi ứng
viên là một xâu chứa từ tiếng Anh trong ngoặc và phần ngữ cảnh tiếng việt
phía trước dấu ngoặc.
2. Bước 2: Áp dụng một tập luật mà chúng tôi đề xuất để sàng lọc các ứng
viên, chọn ra các cặp thuật ngữ song ngữ Việt-Anh chính xác nhất.
94
Mô hình của phương pháp được thể hiện trong Hình 3.3.
Việc lựa chọn các ứng viên, các đặc trưng ngôn ngữ tiếng Việt và bộ quy tắc
3.2.2.1 Trích chọn các ứng viên
được trình bày chi tiết trong các tiểu mục dưới đây.
Khi viết một thuật ngữ tiếng Việt thì thuật ngữ tiếng Anh tương ứng thường
được viết liền sau đó và được đặt trong cặp ngoặc "()", nhận xét này cũng đúng
với một số ngôn ngữ khác, như trình bày trong [32]. Ví dụ câu tiếng việt "Bác
sỹ chỉ định chụp cắt lớp (CT scan)" tương ứng với nó là câu tiếng Anh "The
doctor appointed a CT scan" trong ngoặc đơn được sử dụng để làm tham khảo
cho thuật ngữ tiếng Việt "chụp cắt lớp vi tính".
• Thuật ngữ tiếng Anh là phần văn bản nằm trong ngoặc đơn.
• Phần ngữ cảnh tiếng Việt là phần văn bản liền phía trước ngoặc đơn.
Từ quan sát trên, chúng tôi tiến hành trích trọn các ứng viên là các cặp gồm:
• Bước 1: Tìm trong văn bản đơn ngữ tiếng Việt các ứng viên có dạng "Thuật
Trích rút các cặp ứng viên song ngữ được thực hiện như sau:
ngữ tiếng Việt (thuật ngữ tiếng Anh)". Ví dụ:
– Văn bản đơn ngữ tiếng Việt: Thông thường những vi khuẩn có ích
(lactobacilli) sẽ áp đảo số lượng vi khuẩn gây hại (anaerobes)
– Chúng ta tìm được 2 ứng viên::
1. Thông thường những vi khuẩn có ích (lactobacilli)
• Bước 2: Để đảm bảo các ứng viên được trích trọn theo đúng mẫu trên, một
2. sẽ áp đảo số lượng vi khuẩn gây hại (anaerobes)
từ điển tiếng Anh gồm hơn 370.000 từ7 được sử dụng để tra cứu các từ trong
ngoặc đơn, nếu có từ không xuất hiện trong từ điển thì ứng viên đó sẽ bị
7https://github.com/dwyl/english-words
95
loại.
Ngoài ra, phương pháp này cũng xét đến các thuật ngữ là các từ viết tắt
từ các chữ cái đầu của các từ tiếng Anh, ví dụ như (WHO) "World Health
Organization" "Tổ chức Y tế Thế giới".
Đối với mỗi ứng viên thuật ngữ tiếng Anh được tìm thấy, chúng tôi xác định
ứng viên bản dịch tiếng Việt tương ứng: Cách đơn giản nhưng hiệu quả là xem
xét các dấu câu (".", ",", ":", . . . , "{}") trước dấu ngoặc bên trái của ứng viên
tiếng Anh là điểm bắt đầu cho trích rút văn bản ứng viên tiếng Việt. Ví dụ: Câu
"Bệnh nhân được chỉ định tiến hành một số xét nghiệm như: xét nghiệm công
thức máu toàn bộ (CBC), xét nghiệm nước tiểu (UA)." có thể nhận được 2 ứng
viên đó là: "xét nghiệm công thức máu toàn bộ (CBC) và "xét nghiệm nước tiểu
(UA)".
Mục tiếp sau trình bày một số đặc trưng ngôn ngữ được sử dụng để xây dựng
3.2.2.2 Các đặc trưng ngôn ngữ được sử dụng
tập luật dùng trong sàng lọc các ứng viên đã chọn.
Như đã trình bày ở trên, từ điển tiếng Anh được sử dụng để loại bỏ các ứng
viên không hợp lệ. Bên cạnh đó một số đặc trưng ngôn ngữ cũng được sử dụng
• Thông tin tương hỗ I(X, Y ), với X là xâu tiếng Anh ở trong ngoặc và Y là
như:
xâu tiếng Việt phía trước dấu ngoặc trong một ứng viên [103]:
I(X, Y ) =
p(x, y)
p(x, y) p(x)p(y)
x,y
(cid:88) (3.2.5)
Trong đó:
– x là một từ tiếng Anh, y là một từ tiếng Việt.
– p(x), p(y) tương ứng là xác suất xuất hiện từ x,y trong văn bản.
– p(x,y) là xác suất đồng xuất hiện của từ x và từ y trong các cặp thuật
96
ngữ.
I(X,Y) được sử dụng để xác định một ứng viên có đúng là chỉ chứa thuật
ngữ và bản dịch của nó hay không? và thông tin này cũng giúp xác định
được phần thuật ngữ tiếng Việt tương ứng dựa vào các ngữ cảnh phía trước
• Thông tin về tỷ lệ giữa số từ trong một thuật ngữ tiếng Anh và số từ trong
thuật ngữ.
một thuật ngữ tiếng Việt là bản dịch của nó: Các thuật ngữ tiếng Việt khi
trích rút quá dài hoặc quá ngắn so với tỷ lệ này sẽ được xem xét để được
• Thông tin về nhãn từ loại, thông tin về các từ dừng (stop word) hay các
điều chỉnh độ dài cho hợp lý hơn.
liên từ, giới từ chỉ vị trí, . . . được sử dụng để cắt bỏ phần dư thừa trong
• Một từ điển tiếng Việt với trên 40.000 từ8 được sử dụng để kiểm tra liệu ứng
ngữ cảnh tiếng Việt.
viên tiếng Việt được trích rút có thực sự là văn bản tiếng Việt hay không?
Dựa vào các đặc trưng ngôn ngữ này, chúng tôi xây dựng một tập luật để
trích rút các thuật ngữ song ngữ Việt-Anh. Tập luật và kỹ thuật trích rút các
3.2.2.3 Trích rút thuật ngữ song ngữ Việt-Anh
thuật ngữ song ngữ Việt-Anh được trình bày trong mục tiếp theo.
Việc trích rút thuật ngữ song ngữ Việt-Anh được thực hiện thông qua việc
áp dụng các luật, giống như phương pháp sàng nhiều lớp. Các luật được đưa
ra theo thứ tự ưu tiên độ chắc chắn (độ chính xác). Mô hình áp dụng các luật
để lựa chọn các ứng viên là thuật ngữ song ngữ Việt-Anh được thể hiện trong
• Luật 1: Ứng viên thỏa mãn một trong hai tiêu chuẩn sau đây, sau khi trích
hình 3.4.
8https://vlsp.hpda.vn/demo/?page=resource và https://github.com/vncorenlp/VnCoreNLP
97
rút được sẽ được coi là kết quả cuối cùng vì chúng có độ chắc chắn cao:
Hình 3.4: Mô hình áp dụng các luật để lựa chọn các ứng viên là thuật ngữ song ngữ Việt-Anh
98
– Tiêu chuẩn 1: Thuật ngữ tiếng Anh nằm trong ngoặc đơn (), thuật ngữ
tiếng Việt được đặt trong " ", hoặc ‘ ’ hoặc nằm trong cặp ngoặc đơn
bao ngoài thuật ngữ tiếng Anh.
– Tiêu chuẩn 2: Các thuật ngữ là tên riêng của các tổ chức dựa vào cách
viết Hoa các từ là tên tổ chức.
• Luật 2: Dựa vào thông tin tương hỗ MI (Mutual Information) để xác định
Tuy nhiên không nhiều ứng viên thỏa mãn được luật này.
một ứng viên có là thuật ngữ hay không, đồng thời cũng xác định được
phần thuật ngữ tiếng Việt tương ứng với thuật ngữ tiếng Anh:
– Một ứng viên là một thuật ngữ thì thuật ngữ này sẽ không thay đổi
theo ngữ cảnh, do đó sẽ có phần chung (xâu con) giữa các ngữ cảnh
phía trước của thuật ngữ.
– Nếu không tìm được phần chung giữa các ngữ cảnh, hoặc tỷ lệ số lần
phần chung này xuất hiện trong các ngữ cảnh là thấp thì ứng viên không
phải là thuật ngữ.
– Ví dụ dưới đây là 10 ngữ cảnh phía trước của thuật ngữ ứng viên tiếng
∗ Burpee
∗ Burpee
∗ Hít đất
∗ Hít đất
∗ Hướng dẫn thực hiện động tác Superman
∗ Hướng dẫn thực hiện động tác Body Saw
∗ Hướng dẫn thực hiện động tác Superman
∗ Hướng dẫn thực hiện động tác Body Saw
∗ Hướng dẫn thực hiện động tác Lunge Kick
99
Anh "video".
∗ Bài tập thể dục Plank nghiêng vặn người
Các ngữ cảnh khác nhau này không cho phép tìm một thuật ngữ tiếng
Việt tương ứng với thuật ngữ tiếng Anh "video".
– Ví dụ sau đây cho thấy 10 ngữ cảnh phía trước của ứng viên ALS
∗ Điều trị bệnh xơ cứng teo cơ cột bên
∗ Nguyên nhân gây bệnh xơ cứng cột bên teo cơ
∗ Những ai thường mắc phải bệnh xơ cứng cột bên teo cơ
∗ Những triệu chứng và dấu hiệu của bệnh xơ cứng cột bên teo cơ
∗ Những phương pháp nào dùng để điều trị xơ cứng cột bên teo cơ
∗ Những yếu tố nào làm tăng nguy cơ mắc bệnh xơ cứng cột bên
(Amyotrophic Lateral Sclerosis)
∗ Những kỹ thuật y tế nào dùng để chẩn đoán bệnh xơ cứng cột
teo cơ
∗ Những thói quen sinh hoạt nào giúp bạn hạn chế diễn tiến của bệnh
bên teo cơ
xơ cứng cột bên teo cơ
Từ các ngữ cảnh này, chúng tôi đưa ra bệnh xơ cứng cột bên teo
cơ là ứng viên thuật ngữ tiếng Việt cho thuật ngữ tiếng Anh ALS.
– Nếu tìm được phần chung giữa các ngữ cảnh có xác suất xuất hiện trong
các ngữ cảnh lớn hơn một ngưỡng α thì ứng viên là một thuật ngữ và
phần chung giữa các ngữ cảnh nhiều khả năng sẽ là phần thuật ngữ
tiếng Việt tương ứng.
– Chúng tôi thiết lập ngưỡng α = 0.75, tuy nhiên ngưỡng này sẽ được điều
chỉnh nếu thuật ngữ trích chọn được quá dài hoặc quá ngắn so với tỷ
lệ độ dài từ giữa thuật ngữ tiếng Anh và thuật ngữ bản dịch tiếng Việt
100
của nó.
– Trong nghiên cứu này chúng tôi hướng đến việc xác định một thuật
ngữ thông dụng nhất, tuy nhiên phương pháp này cũng có thể mở rộng
để tìm ra các thuật ngữ tiếng Việt đồng nghĩa (cùng là một thuật ngữ
tiếng Anh), ví dụ như thuật ngữ "bỏng dạ" hay "phỏng dạ" hay "thủy
đậu" (Chickenpox ).
Luật 2 là luật chính trong phương pháp, luật này hoạt động hiệu quả nếu
như dữ liệu đủ giàu (nhiều về số lượng và đa dạng về ngữ cảnh của thuật ngữ).
Tuy nhiên, bên cạnh những thuật ngữ có số lượng thể hiện (instance) nhiều thì
cũng có những thuật ngữ không có nhiều lần xuất hiện hoặc các thuật ngữ đồng
nghĩa khác thể hiện, điều này dẫn đến việc trích rút thuật ngữ thiếu chính xác,
tức là thuật ngữ trích rút được quá dài hoặc quá ngắn. Các luật sau đây chủ
yếu được sử dụng để chuẩn hóa (làm mịn) kết quả của thuật ngữ trích rút được
• Luật 3: Áp dụng với các thuật ngữ tiếng Việt trích rút được có độ dài quá
từ Luật 2.
ngắn so với tỷ lệ giữa từ tiếng Anh và từ tiếng Việt. Như đã phân tích ở
trên, vấn đề này gặp phải do các thuật ngữ đồng nghĩa nhưng khác thể
hiện, nên phần chung có thể sẽ phân bố đều cho các thể hiện.
Luật 3 sẽ thực hiện việc giảm tự động ngưỡng α xuống mỗi lần giảm 0, 01
để tìm được thuật ngữ có độ dài phù hợp hơn. Ví dụ:
– Các ứng viên: "Điều trị cho bệnh tế bào mast hệ thống (SM)"; "Bác
sĩ sẽ chẩn đoán tăng dưỡng bào hệ thống (SM)"; "Việc nghi ngờ chẩn
đoán bệnh tế bào mast hệ thống (SM)".
– Với ngưỡng α = 0, 75, thuật ngữ tiếng Việt trích rút được là "hệ thống".
Tỷ lệ độ dài từ của cặp thuật ngữ được trích chọn này là 0, 5. Nó quá
nhỏ so với tỷ lệ độ dài từ giữa từ tiếng Anh và bản dịch tiếng Việt của
101
nó (1, 56), do đó chúng tôi giảm dần ngưỡng α để tìm được thuật ngữ
tiếng Việt dài hơn. Khi α = 0, 66 thì tỷ lệ độ dài từ giữa thuật ngữ tiếng
Anh và thuật ngữ tiếng Việt trích chọn được gần giá trị 1, 56, chúng tôi
trích rút được thuật ngữ tiếng Việt: "bệnh tế bào mast hệ thống". Đây
• Luật 4: Áp dụng với các thuật ngữ trích rút được có độ dài quá lớn do số
là thuật ngữ được trích chọn đúng.
lượng ngữ cảnh phía trước không đủ nhiều để phân biệt rõ ranh giới của
thuật ngữ. Luật 4 chia thành 2 trường hợp là:
– Luật 4.1: Thực hiện việc tăng ngưỡng để giảm độ dài của xâu chung,
nếu thuật ngữ tìm được vẫn chưa giảm độ dài sẽ áp dụng luật 4.2
– Luật 4.2: Sử dụng thông tin về từ loại, từ dừng để cắt ngắn xâu chung
bằng cách xác định các từ có từ loại là liên từ, giới từ hoặc số từ, . . . xung
quanh vị trí hợp lý về tỷ lệ giữa từ tiếng Anh và từ tiếng Việt. Ví dụ:
ứng viên "tiếp xúc với khí ra-đông (radon)" có phần ngữ cảnh được gán
nhãn từ loại là "tiếp_xúc|V với|E khí|N ra-đông|N ". Từ "với" với nhãn
từ loại "E " là dấu hiệu để cắt ngữ cảnh ngắn hơn, khi đó ta thu được
• Hậu xử lý: xóa bỏ các ký tự không phải là chữ cái hoặc loại bỏ những từ
cặp thuật ngữ đúng "khí ra-đông (radon)".
dừng đứng đầu các thuật ngữ, . . . .
Các luật được áp dụng tuần tự. Đầu tiên, luật 1 được áp dụng cho tất cả
các ứng viên được lựa chọn để trích rút các thuật ngữ với mức độ chắc chắn
cao. Các ứng viên còn lại sẽ áp dụng luật 2, các thuật ngữ quá dài hoặc quá
ngắn so với tỷ lệ độ dài giữa các từ tiếng Anh và từ tiếng Việt sẽ áp dụng
luật 3 hoặc luật 4 để có kết quả tốt hơn. Cuối cùng, kết quả sẽ được hậu
xử lý để chuẩn hóa cặp cụm từ trích rút được.
Giải thuật trích rút thuật ngữ song ngữ Việt-Anh từ kho ngữ liệu đơn ngữ
102
tiếng Việt được thể hiện trong Giải thuật 3.
Giải thuật 3: Giải thuật xây dựng tự động kho từ song ngữ Việt-Anh.
Đầu vào: Kho ngữ liệu đơn ngữ tiếng Việt Sin.
Đầu ra: Kho ngữ liệu thuật ngữ song ngữ Việt-Anh Sout.
Begin
i=0;
while (not EOF(Sin)) do
U ng_vien[++i] = Get(Doan_chua_Thuat_ngu_tieng_Viet (Thuat_ngu_tieng_Anh)
trong Sin);
while (j
if (Luat1(U ng_vien[j]) then
Sout = Hau_xu_ly(U ng_vien[j]);
else
α = 0, 75;
if (Luat2(U ng_vien[j]) and (Xac_xuat_xuat_hien_phan_chung > α)) then
Sout = Hau_xu_ly(U ng_vien[j]);
else
β = len(T huat_ngu_tieng_Anh)/len(T huat_ngu_tieng_V iet);
if (β > 0, 5) and (β < 2) then
Sout = Hau_xu_ly(U ng_vien[j]);
else
if (β < 0, 5) then
if (Luat3(U ng_vien[j]) then
Sout = Hau_xu_ly(U ng_vien[j]);
else
if (Luat4(U ng_vien[j]) then
Sout = Hau_xu_ly(U ng_vien[j]);
End
103
3.2.3 Thực nghiệm
Chúng tôi đã thống kê về số lượng các văn bản mà có thể áp dụng được giải
thuật đề xuất ở trên. Số lượng văn bản này có khoảng 30% tổng số các dạng
văn bản và chỉ phủ được một phần các thuật ngữ mới trong tiếng Việt. Văn bản
miền y tế thường chứa nhiều thuật ngữ mới hơn các văn bản khác.
Việc thực nghiệm được tiến hành trên hai kho ngữ liệu. Thực nghiệm đầu
tiên xử lý các văn bản y tế được thu thập từ Web. Kích thước của kho văn bản
thô này là khoảng 334 MB. Thực nghiệm thứ hai được thực hiện trên các văn
bản tiếng Việt từ Wikipedia, tải về vào ngày 1/9/2018 và bao gồm khoảng 850
MB văn bản thô9.
Bảng 3.4 cho biết số liệu thống kê của các ứng viên thuật ngữ tiếng Anh xuất
hiện trong ngoặc đơn. Đối với kho ngữ liệu y tế, số lượng ứng viên thuật ngữ
song ngữ được trích chọn là 910 trên tổng số 9.779 lần xuất hiện. Đối với các
văn bản Wikipedia tiếng Việt, chúng tôi đã trích rút 6.590 ứng viên tiếng Anh
trên tổng số 28.861 lần xuất hiện. 152 ứng viên thuật ngữ tiếng Anh được trích
rút từ kho ngữ liệu y tế và 1.724 ứng viên thuật ngữ tiếng Anh được trích rút
Bảng 3.4: Thống kê về trích rút ứng viên thuật ngữ
Dữ liệu
Kho ngữ liệu Y tế Wikipedia
# Ứng viên thuật ngữ tiếng Anh
910
6.590
# Số lượt xuất hiện
9.779
28.861
# Số ứng viên thuật ngữ tiếng Anh bị loại
152
1.724
từ Wikipedia được loại bỏ sau khi áp dụng các luật được trình bày ở trên.
Số các ứng viên thuật ngữ song ngữ y tế thỏa mãn từng luật được thể hiện
trong Bảng 3.5.
9https://dumps.wikimedia.org/backup-index.html,
104
Luật đầu tiên được áp dụng trên 11 cặp thuật ngữ. 899 cặp thuật ngữ còn lại
Bảng 3.5: Số ứng viên thỏa mãn từng luật trên kho ngữ liệu y tế
Luật 1 Luật 2 Luật 3 Luật 4
11
455
292
được xử lý bằng áp dụng luật 2. Trong số 899 cặp thuật ngữ này, luật 3 được áp
dụng cho 201 cặp và luật 4 được áp dụng cho 243 cặp. Lưu ý rằng luật 3 và luật
4 được sử dụng để làm mịn các kết quả thu được sau khi luật 2 được áp dụng.
Tất cả các cặp thuật ngữ thu được sau khi áp dụng các luật sẽ được hậu xử lý
để chuẩn hóa.
Tương tự, số ứng viên thỏa mãn từng luật trên dữ liệu Wikipedia được trình
Bảng 3.6: Số lần áp dụng luật trên dữ liệu Wikipedia
Luật 1 Luật 2 Luật 3 Luật 4
855
2.725
1.286
bày trong Bảng 3.6.
Chúng tôi đã tiến hành đánh giá các ứng viên thuật ngữ song ngữ thu thập
được bằng cách kiểm tra thủ công 500 cặp thuật ngữ được chọn ngẫu nhiên từ
các cặp thuật ngữ thu được từ Wikipedia và toàn bộ 626 cặp thuật ngữ từ kho
Bảng 3.7: Đánh giá kết quả các cặp thuật ngữ thu được
Dữ liệu
# Số đánh giá # Số chính xác Tỷ lệ chính xác
Kho ngữ liệu y tế
758
626
82,6 %
Wikipedia
500
371
74,2 %
ngữ liệu y tế. Kết quả được trình bày trong Bảng 3.7.
Từ số liệu thống kê trong Bảng 3.4, có thể thấy rằng số lượng cặp thuật ngữ
trích chọn được trên số xuất hiện trong kho ngữ liệu y tế cao hơn ở kho ngữ liệu
Wikipedia (Tỷ lệ 9,3% ở kho ngữ liệu y tế và 2,3% ở kho ngữ liệu Wikipedia).
105
Điều này là tất nhiên vì văn bản Wikipedia được viết theo một phong cách khác.
Kho ngữ liệu y tế tập trung vào một chủ đề cụ thể, vì vậy mật độ cá thể của
một thuật ngữ cao hơn. Chúng tôi cũng nhận thấy rằng lời giải thích liên quan
đến sự xuất hiện của các thuật ngữ tiếng Anh trong kho văn bản Wikipedia
tiếng Việt thường có ngữ cảnh ngôn ngữ phức tạp hơn, dẫn đến tỷ lệ lỗi cao hơn
trong phát hiện cặp thuật ngữ.
Bảng 3.8 cho thấy trong số 626 cặp thuật ngữ chính xác được trích rút từ
kho văn bản y tế, có 355 từ viết tắt và 40 thuật ngữ được tìm thấy trong từ điển
Việt-Anh miền chung và miền y tế chứa 90.000 mục tiếng Anh. Với 371 thuật
ngữ song ngữ chính xác được trích rút từ Wikipedia, có 105 từ viết tắt và 11 cặp
thuật ngữ có trong từ điển trên. Những con số này cho thấy một tỷ lệ lớn các
thuật ngữ song ngữ Việt-Anh được trích rút từ kho ngữ liệu đơn ngữ là có chất
Bảng 3.8: Phân tích kết quả từ các cặp thuật ngữ được trích rút
Dữ liệu
Kho ngữ liệu y tế Wikipedia
# Số thuật ngữ đúng
626
371
# Số từ
355
105
# Số có trong từ điển
40
11
3.3 Kết luận chương
lượng và rất hữu ích.
Trong chương này luận án đã trình bày phương pháp xây dựng tự động từ
điển song ngữ Việt–Anh từ kho ngữ liệu song ngữ có dóng hàng mức câu; phương
pháp xây dựng tự động từ điển song ngữ Việt-Anh miền du lịch và phương pháp
trích rút tự động thuật ngữ song ngữ từ văn bản đơn ngữ dựa vào tập luật. Các
phương được đề xuất ở đây là tổng quát, có thể áp dụng để xây dựng tự động
từ điển song ngữ hay kho ngữ liệu từ, thuật ngữ song ngữ cho bất kỳ cặp ngôn
106
ngữ nào và cho bất cứ miền dữ liệu giới hạn nào.
Phương pháp trích rút từ, thuật ngữ song ngữ để xây dựng từ điển từ kho
ngữ liệu song ngữ có dóng hàng câu và từ văn bản đơn ngữ dựa vào tập luật vẫn
còn hạn chế về số lượng từ trích rút được so với khả năng của nó, trong tương
lai sẽ chúng tôi sẽ tập trung cải tiến kỹ thuật để có thể thu được số lượng cặp
từ, thuật ngữ tương xứng với khả năng của dữ liệu đầu vào và mở rộng xây dựng
trên các miền khác đồng thời nghiên cứu nâng cao chất lượng kho ngữ liệu từ,
thuật ngữ song ngữ thu được. Đặc biệt là triển khai nghiên cứu việc ứng dụng
kho ngữ liệu này vào vào cải tiến chất lượng dịch máy Việt-Anh.
Chương tiếp theo, luận án trình bày các nghiên cứu khai thác kho ngữ liệu
song ngữ Việt-Anh thu thập được trong dịch máy với mục tiêu nâng cao chất
lượng dịch Việt-Anh, Anh-Việt.
107
Công bố liên quan đến nghiên cứu này: [CT3] [CT4]
Chương 4
Khai thác kho ngữ liệu song ngữ
Việt-Anh cho dịch máy
Như đã trình bày ở chương 2 và chương 3, kho ngữ liệu song ngữ là một
nguồn tài nguyên ngôn ngữ quan trọng trong dịch máy. Một vấn đề đặt ra là,
khi chúng ta đã xây dựng được các kho ngữ liệu này thì việc sử dụng nó như thế
nào để mang lại hiệu quả? Trong chương này, luận án sẽ trình bày các kết quả
nghiên cứu nâng cao chất lượng hệ thống dịch máy nơ-ron từ việc khai thác kho
ngữ liệu song ngữ Việt-Anh. Kết quả thứ nhất là để xuất phương pháp tiền xử
lý câu dài trong huấn luyện hệ thống dịch máy rơ-ron sẽ được trình bày trong
mục 4.1. Kết quả thứ hai là nâng cao chất lượng hệ thống dịch máy từ việc bổ
sung kho ngữ liệu miền chung mà chúng tôi thu thập được và đề xuất kỹ thuật
xử lý từ mới (unknown words) sử dụng từ điển song ngữ Việt-Anh, từ đó đề
xuất quy trình xây dựng hệ thống sinh chú giải tiếng Việt tự động cho ảnh được
4.1 Tiền xử lý dữ liệu huấn luyện trong dịch máy nơ-ron
trình bày trong mục 4.2.
Câu dài luôn là một thách thức đối với các hệ thống dịch máy, nguyên nhân
108
chính dẫn đến thách thức là do câu dài luôn có sự nhập nhằng về cấu trúc ngữ
pháp, ngữ nghĩa và mối quan hệ giữa các từ và cụm từ. Trong những năm qua,
đã có một số công trình nghiên cứu đề xuất phương pháp xử lý câu dài mang
lại hiệu quả cho dịch máy. Hầu hết các nghiên này, tập trung vào xử lý câu dài
trong giai đoạn dịch.
Francisco Oliveira và cộng sự [31] đã trình bày cách tiếp cận dựa vào phân
tích cú pháp để dịch câu dài hiệu quả trong ứng dụng dịch máy dựa vào luật
cho cặp ngôn ngữ Bồ Đào Nha - Trung Quốc. Phương pháp mà họ sử dụng là
ngắt câu dài từ đầu vào của hệ thống dịch thành từng đoạn dựa vào mẫu, các
điều khoản, liên kết câu và dấu câu. Bên cạnh đó, họ còn sử dụng ràng buộc về
đồng bộ ngữ pháp để mô hình hóa tương ứng ở cả hai phía nguồn và đích tại
bước phân tích cú pháp để làm giảm sự nhập nhằng từ đó sinh bản dịch cho các
câu dài hiệu quả.
Chooi-Ling Goh và Eiichiro Sumita [15] đã đề xuất phương pháp chia câu dài
thành các đoạn nhỏ cho dịch máy thống kê dựa vào cụm từ sử dụng thông tin
ngôn ngữ và việc dịch câu dài được thực hiện bằng cách dịch các đoạn nhỏ đó.
Sau đó, họ áp dụng mô hình ngôn ngữ để nối các đoạn nhỏ sau khi dịch thành
một câu hoàn chỉnh.
Baosheng Yin và cộng sự [11] đã sử dụng giải thuật phân đoạn từ trên xuống
để phân đoạn câu dài thành các câu phụ ngắn dựa vào luật. Các luật được rút
ra từ các mẫu câu và hầu hết sử dụng các biểu thức chính quy. Trước tiên giải
thuật làm giảm một số thành phần câu để rút ngắn câu, sau đó kết hợp các câu
con được nhận biết và được phân đoạn; cuối cùng, các mệnh đề trong các câu
con được dịch và sau đó được nhập lại thành câu dịch hoàn chỉnh.
Jean Pouget-Abadie và cộng sự [45] cũng đã đề xuất một cách xử lý câu dài
bằng việc phân đoạn tự động câu đầu vào thành các cụm từ mà có thể dễ dàng
được dịch bởi mô hình dịch máy mạng nơ-ron. Khi mỗi phân đoạn đã được dịch
độc lập bởi mô hình dịch máy nơ-ron, chúng sẽ được ghép lại thành bản dịch
109
cuối cùng.
Shaohui Kuang và Deyi Xiong [94] đề xuất một phương pháp lý thuyết để xử
lý câu dài trong NMT bằng việc phân đoạn câu dài thành một số mệnh đề. Họ
đưa ra một cách chia và mô hình thay đổi trật tự để thu thập và phát hiện dãy
tối ưu ở các điểm phân đoạn đối với một câu nguồn dài. Mỗi mệnh đề sau khi
phân đoạn được dịch độc lập bởi hệ thống NMT thành mệnh đề đích. Sau đó
các mệnh đề đích đã được dịch được ghép lại không theo trật tự để hình thành
bản dịch cuối cùng đối với câu dài.
Ở giai đoạn huấn luyện hệ thống dịch máy, để đảm đảm bảo chất lượng hệ
thống được sinh ra, thông thường các câu có độ dài quá 50 từ sẽ bị hệ thống
huấn luyện loại bỏ (chẳn hạn như hệ thống OpenNMT). Để tận dụng nguồn tài
nguyên này, chúng tôi đề xuất một phương pháp tiền xử lý câu dài được trình
4.1.1 Phương pháp tiền xử lý câu dài trong dịch máy nơ-ron
bày trong các tiểu mục sau đây.
Hiện nay dịch máy nơ-ron dựa vào mô hình chú ý (attention) đã khai thác
được các thông tin ngôn ngữ trong câu nguồn để nâng cao chất lượng dịch.
Trong [61], các tác giả đã phân lớp các mô hình dựa vào sự tập trung thành hai
dạng đó là mô hình chú ý toàn cục và mô hình chú ý cục bộ.
Mô hình chú ý toàn cục: tại mỗi bước thời gian t, mô hình đưa ra một véc
tơ trọng số dóng hàng độ dài thay đổi at dựa vào trạng thái đích ht hiện tại và
s, một vecter ngữ cảnh toàn cục ct được tính bằng
tất cả các trạng thái nguồn h(cid:48)
trung bình trọng số theo at của tất cả các trạng thái nguồn. Mô hình chú ý toàn
cục được thể hiện trong hình 4.1
pt cho từ đích hiện tại. Một cửa sổ xung quanh vị trí trung tâm nguồn pt được
Mô hình chú ý cục bộ: Đầu tiên mô hình dự đoán một vị trí được dóng hàng
sử dụng để tính vec tơ ngữ cảnh ct là trung bình trọng số của các trạng thái ẩn
trong cửa sổ. Trọng số at được suy ra từ trạng thái đích hiện tại ht và các trạng
s trong cửa sổ. Mô hình chú ý cục bộ được thể hiện trong hình 4.2
110
thái nguồn h(cid:48)
Hình 4.1: Mô hình chú ý toàn cục
Hình 4.2: Mô hình chú ý cục bộ.
111
Khi hệ thống dịch máy nơ-ron đối diện với câu dài các giá trị của trạng thái
ẩn trong mô hình chú ý bị phân tán do đó véc tơ ngữ cảnh tính được kém khả
năng hỗ trợ mạng đưa ra quyết định dự đoán từ đích kế tiếp, và đặc biệt giá trị
này còn gây ảnh hưởng đến dự đoán tất cả các từ phía sau do được sử dụng lan
truyền trong mạng, chính điều này gây ảnh hưởng đến chất lượng dịch.
Các mô hình huấn luyện hệ thống dịch máy nơ-ron hiện nay, thường loại bỏ
các câu quá dài trong kho ngữ liệu huấn luyện trước khi huấn luyện hệ thống,
chẳng hạn OpenNMT-py để đảm bảo chất lượng hệ thống dịch máy được sinh
ra, mặc định chỉ lấy các câu dài không quá 50 từ để đưa vào huấn luyện.
Trong mục này luận án trình bày phương pháp xử lý câu dài trong huấn luyện
hệ thống dịch máy nơ-ron. Ý tưởng của phương pháp này rất đơn giản, thay vì
loại bỏ các câu dài chúng tôi ngắt các câu này thành các cụm từ và đưa chúng
vào cùng với kho ngữ liệu huấn luyện. Các câu tiếng Việt có độ dài quá 30 từ
được xem là các câu dài.
Phương pháp đề xuất được thể hiện trong hình 4.3.
• Đầu tiên, trích rút từ kho ngữ liệu song ngữ có dóng hàng câu SC tất cả
Các bước xử lý được thực hiện như sau:
các câu song ngữ có độ dài lớn hơn 30 từ ta được tập câu song ngữ ký hiệu
• Sau đó, tập ngữ liệu SC1 được đưa qua công cụ trích rút cụm từ song ngữ
là SC1.
• Cuối cùng, tích hợp PC vào SC thành một kho ngữ liệu song ngữ để đưa
ExtPhrase. Tập cụm từ kết quả gọi là PC.
4.1.2 Phương pháp trích rút cụm từ ExtPhrase
vào huấn luyện hệ thống hệ thống dịch máy nơ-ron.
Như đã được trình bày ở trên, cụm từ song ngữ là nguồn tài nguyên ngôn
112
ngữ quan trọng trong dịch máy. Trong mục này, luận án trình bày phương pháp
Hình 4.3: Mô hình tiền xử lý câu dài hơn 30 từ trong huấn luyện hệ thống dịch máy.
113
trích rút cụm từ song ngữ từ kho ngữ liệu song ngữ được dóng hàng mức câu.
Đầu vào là kho ngữ liệu song ngữ có dóng hàng mức cầu, đầu ra là tập các từ,
cụm từ song ngữ.
Phương pháp được thực hiện như sau, sử dụng Moses để ngắt các cặp câu
dài từ kho ngữ liệu song ngữ có dóng hàng mức câu thành các cặp cụm từ và
tính xác suất P r(˜s|˜t) và P r(˜t|˜s) (˜s là cụm từ nguồn; ˜t là cụm từ đích)
Sau đó, trích rút các cặp cụm từ thỏa mãn điều kiện p(˜s|˜t) = p(˜t|˜s) = 1, với
các cụm từ s và t là bản dịch của nhau ở kho ngữ liệu song ngữ.
Ký hiệu C là kho ngữ liệu song ngữ có dóng hàng mức câu, Gọi T = M o(C)
là bảng cụm từ được sinh ra bởi hệ thống huấn luyện Moses [83].
Gọi T1 = T o(T ) là đầu ra của công cụ SALM được sử dụng để gỡ bỏ các cặp
cụm từ dư thừa trong bảng cụm từ để đảm bảo chất lượng của bảng cụm từ
[42].
Hai tệp TS và TT tương ứng là các tệp nguồn và đích của kho ngữ liệu song
ngữ dóng hàng mức cụm từ.
Giải thuật 4: Trích rút cụm từ song ngữ
Đầu vào: Kho ngữ liệu song ngữ dóng hàng mức câu C.
Đầu ra: Kho ngữ liệu song ngữ dóng hàng mức cụm từ TS và TT .
Begin
T = M o(C);
T1 = T o(T );
while (notEOF (T1)) do
Get line;
Tách lấy p(˜s|˜t), p(˜t|˜s), ˜s, ˜t trên mỗi line;
if (p(˜s|˜t) == 1)and(p(˜s|˜t) == 1)) then
Ghi ˜s vào tệp TS; Ghi ˜t vào tệp TT ;
End
114
Giải thuật trích rút cụm từ được thể hiện trong Giải thuật 3 4.
4.1.3 Thực nghiệm và kết quả
Để đánh giá hiệu quả úng dụng của phương pháp đề xuất, luận án đã thực
nghiệm sử dụng kho ngữ liệu đã xây dựng trên và so sánh chất lượng của hệ
thống này với hệ thống chỉ dùng kho ngữ liệu SC.
Luận án sử dụng kho ngữ liệu song ngữ Anh-Việt đa lĩnh vực gồm 304.442
cặp câu, trong đó: 300.437 cặp dùng cho huấn luyện, 1.001 cặp cho huấn luyện
hội tụ và 3.004 cặp làm dữ liệu kiểm tra.
Kho ngữ liệu này được thu thập từ:
1. Dự án VLSP1: 100.000 cặp câu,
2. IWSLT152 138.764: cặp câu,
3. Tự thu thập: 65.678 cặp câu.
Bảng 4.1 thống kê chi tiết về kho ngữ liệu.
Chúng tôi đã trích rút được 69.238 cặp câu mà câu tiếng Việt dài quá 30 từ
từ kho ngữ liệu này. Sau đó sử dụng Extphrase (Trình bày trong mục 4.1.2) để
trích rút các cặp cụm từ song ngữ và đã thu được 38.573 cặp cụm từ được trình
bày trong Bảng 4.2.
Chúng tôi đã sử dụng OpenNMT-py được thiết lập với mô hình chú ý toàn
cục để huấn luyện hai hệ thống:
1. Hệ thống Baseline: Hệ thống NMT (LSTM (Long Short Term Memory)
+ Attention) sử dụng 300.437 cặp câu cho huấn luyện (Tệp huấn luyện ở
Bảng 4.1) và 1.001 cặp câu cho huấn luyện hội tụ (Tệp huấn luyện hội tụ
ở Bảng 4.1).
2. Hệ thống Exttrain: Là hệ thống NMT áp dụng phương pháp đề xuất của
1https://vlsp.hpda.vn/demo/?page=resources&lang=en 2https://github.com/stefan-it/nmt-en-vi
115
chúng tôi, sử dụng 339.010 cặp câu (Tệp huấn luyện tiền xử lý câu dài
Bảng 4.1: Thống kê kho ngữ liệu song ngữ
Các tệp dữ liệu
Thông tin
Tiếng Việt Tiếng Anh
Số câu
300.437
Tệp
Độ dài trung bình của câu
20,5
20,4
huấn
Số câu dài hơn 30 từ
54.082
54.710
luyện
Số từ
6.154.195
6.123.958
(Baseline)
Số từ vựng
74.818
98.657
Số câu
1.001
20,3
Độ dài trung bình của câu
20,5
Tệp huấn
luyện hội tụ
192
Số câu dài hơn 30 từ
185
(Validate)
Số từ
20.479
20.310
Số từ vựng
4.126
4.823
Number of sentences
3.004
20,1
Độ dài trung bình của câu
20,2
Tệp kiểm
507
Số câu dài hơn 30 từ
499
tra
Số từ
60.497
60.343
Số từ vựng
7.806
9.489
Tệp huấn
Số câu
339.010
luyện tiền
Độ dài trung bình của câu
18,65
18,58
xử lý câu
Số từ
6.319.172
6.297.267
dài
(Exttrain)
Số từ vựng
74.821
98.736
Bảng 4.2: Kết quả trích rút cặp cụm từ song ngữ
Số câu
Số cặp cụm từ
Kho dữ liệu
69.238
38.573
116
1.001 cặp câu cho huấn luyện hội tụ (Tệp huấn luyện hội tụ ở Bảng 4.1).
ở Bảng 4.1 bao gồm: 300.437 cặp câu và 38.573 cặp cụm từ) cho huấn luyện và
Việc chọn số câu đưa vào tệp huấn luyện, tệp huấn luyện hội tụ và tệp kiểm
tra là lấy ngẫu nhiên từ kho ngữ liệu. Thông thường tập huấn luyện hội tụ lấy
theo tỷ lệ khoảng dưới 5% tệp huấn luyện và không quá 5000.
Kết quả về chất lượng dịch máy trên tệp kiểm tra (Tệp kiểm tra ở Bảng 4.1)
Bảng 4.3: Kết quả tiền xử lý câu dài trong dịch máy nơ-ron
Hệ thống BLEU Mô tả
Baseline
26,68 Hệ thống dịch máy nơ-ron được huấn luyện bởi OpenNMT-py.
Exttrain
28,40 Hệ thống dịch máy nơ-ron tiền xử lý câu dài được huấn luyện bởi
OpenNMT-py.
ở cả hai hệ thống trên được thể hiện trong Bảng 4.3.
Thực nghiệm cho thấy rằng phương pháp tiền xử lý câu dài được đề xuất bởi
chúng tôi đã cải tiến 1, 72 điểm BLEU.
Phương pháp mà chúng tôi đề xuất cải tiến 1, 72 điểm BLEU là có giá trị vì
hệ thống Baseline vốn đã mạnh: Dịch máy dựa vào mạng nơ-ron OpenNMT-py
(Tích hợp mô hình chú ý).
Trong số các mô hình dịch máy nơ-ron khác nhau, NMT dựa vào sự chú ý
[61][27] đã trở nên phổ biến bởi nó sử dụng quan hệ giữa các thành phần của
câu tại mỗi bước dịch. Khả năng này của nó làm cho mô hình dựa vào sự chú ý
có khả năng vượt trội trong dịch các câu dài. Tuy nhiên, đối với các câu rất dài
(dài hơn 50 từ tiếng Anh), Mô hình chú ý xử lý không hiệu quả [94].
Theo [85], Mô hình chú ý đối với NMT không phải lúc nào cũng hoàn thành
vai trò của một mô hình dóng hàng từ. Vì vậy chúng tôi sử dụng các cặp cụm
từ được trích rút từ bảng cụm từ sử dụng mô hình dóng hàng trong SMT đối
117
với các câu quá dài và tích hợp nó với kho ngữ liệu song ngữ để huấn luyện hệ
thống dịch máy nơ-ron như là một cách để cái tiến mô hình dóng hàng đối với
NMT. Đây chính là lý do mà chúng tôi thu được cải tiến điểm BLEU trong thực
nghiệm.
Chúng tôi đã triển khai một số thực nghiệm đối với phương pháp đề xuất
trên các câu có độ dài 20, 25, 30, 35 và 40 từ được xem là các câu dài. Kho ngữ
liệu huấn luyện ban đầu là như nhau. Kết quả về điểm BLEU của các hệ thống
Hình 4.4: Điểm BLEU của các hệ thống theo độ dài từ tiếng Việt được coi là câu tiếng Việt dài
dịch đối với Tệp kiểm tra được thể hiện trong hình 4.4
Kết quả trong hình 4.4 cho thấy việc coi câu có độ dài từ 30 từ trở lên (không
phải là 30 âm tiết) là câu dài trong tiếng Việt là một lựa chọn phù hợp.
Chúng tôi cũng đã tiến hành một thử nghiệm cho thấy hiệu quả của phương
pháp mà chúng tôi đề xuất đối với dịch câu dài. Từ Tệp kiểm tra ở trên, chúng
tôi đã trích rút được 499 câu tiếng Việt dài hơn 30 từ. Chất lượng dịch của các
câu này trên cả hai hệ thống được thể hiện trên Bảng 4.4. Kết quả này khẳng
định rằng phương pháp tiền xử lý câu dài mà chúng tôi đề xuất giúp cải thiện
118
chất lượng dịch nói chung cũng như chất lượng dịch đối với câu dài.
Bảng 4.4: Chất lượng dịch của 499 câu tiếng Việt dài hơn 30 từ
System BLEU Description
Baseline
26,11 Hệ thống dịch máy nơ-ron được huấn luyện bởi OpenNMT-py.
Exttrain
27,23 Hệ thống dịch máy nơ-ron tiền xử lý câu dài được huấn luyện bởi
OpenNMT-py.
4.2 Phương pháp sinh tự động chú giải tiếng Việt cho hình
ảnh
Chú giải hình ảnh là một bước quan trọng để đạt được bức tranh lớn hơn về
việc tạo ra các máy móc có khả năng giống con người, tức là chúng có thể hiểu
được hoạt động của các sự vật hiện tượng xung quanh chúng. Hiện nay đã có
các nhóm nghiên cứu xây dựng hệ thống chú giải hình ảnh bằng ngôn ngữ tiếng
Anh đạt chất lượng khá tốt [51] [78] [46] [38] [78]. Tuy nhiên, hiện tại chưa có
một hệ thống chú giải hình ảnh bằng ngôn ngữ tiếng Việt. Để xây dựng một
hệ thống chú giải tự động cho hình ảnh, người ta phải xây dựng một kho ngữ
liệu huấn luyện rất lớn, mất rất nhiều thời gian và công sức để thực hiện. Trong
phần này, luận án sẽ trình bày một đề xuất xây dựng quy trình sinh chú giải
tiếng Việt tự động cho ảnh dựa vào mô hình chú giải tiếng Anh cho ảnh và hệ
thống dịch máy nơ-ron Anh-Việt. Để thấy hiệu quả của các kho ngữ liệu đã thu
thập được ở chương 2 và chương 3, luận án đã dùng các kho ngữ liệu này để
4.2.1 Các công trình có liên quan đến sinh chú giải cho ảnh
huấn luyện hệ thống dịch máy Anh-Việt và xử lý các từ mới (unknown words).
Sinh chú giải cho ảnh là một miền nhỏ nhưng quan trọng nằm trong chủ đề
rộng lớn của sự hiểu biết ngữ cảnh của máy móc. Nó được áp dụng trong rất
nhiều ứng dụng của xử lý ảnh, chẳng hạn như trong công cụ tìm kiếm hình ảnh
119
bằng văn bản; hệ thống giúp người khiếm thị; . . .
Đã có một số công trình nghiên cứu vấn đề sinh chú giải hình ảnh tự động,
điển hình là một số công trình sau:
Trong [6], Ali Farhadi và cộng sự đã đề xuất một hệ thống tính điểm liên kết
giữa một hình ảnh với một câu bằng cách xây dựng không gian nghĩa bên cạnh
không gian ảnh và không gian câu. Sự giống nhau giữa một câu và một hình
ảnh được đo trên không gian nghĩa, nhờ đó chất lượng hệ thống được cải thiện.
Trong [7], Anna Fariha đã đề xuất một hệ thống sử dụng việc học đa tác vụ.
Hệ thống này bao gồm hai nhiệm vụ chính: nhiệm vụ đầu tiên là sinh chú giải
cho hình ảnh và nhiệm vụ thứ hai là nhận ra các hoạt động trong hình ảnh.
Trên thực tế, mục tiêu của nhiệm vụ thứ hai là cải tiến biểu diễn tầng được chia
sẻ và do đó cải thiện hiệu suất của cả hệ thống.
Trong [5], Alexander Mathews và cộng sự đã phát triển một mô hình phân
biệt ngữ nghĩa và kiểu, bao gồm bảy giai đoạn đơn giản là: (i) xây dựng bộ dữ
liệu; (ii) trích xuất đặc trưng; (iii) tiền xử lý dữ liệu; (iv) xác định mô hình; (v)
đánh giá mô hình; (vi) sinh chú giải; (vii) phát triển phương pháp đánh giá thủ
công mới.
Trong [43], Huda A. Al-muzaini và cộng sự đã đề xuất một phương pháp sinh
chú giải tiếng Ả Rập tự động cho ảnh sử dụng mô hình ngôn ngữ dựa trên mạng
RNN-LSTM và CNN (Convolutional Neural Network ). Trong công trình này,
tập dữ liệu được xây dựng là một phần của tập dữ liệu chú giải Flickr và MS
COCO. Ngoài ra, một mô hình hợp nhất tổng quát để chú giải tiếng Ả Rập cho
ảnh dựa trên việc phát triển mô hình mạng RNN-LSTM và CNN đó là mạng
nơ-ron hồi quy (RNN) cho các câu và một mạng nơ-ron tích chập (CNN) cho
hình ảnh. Hai mạng con này tương tác với nhau trong một lớp hợp nhất để dự
đoán và tạo chú giải hình ảnh.
Trong [39], Hardik Gourisaria và cộng sự đã đề xuất việc sinh chú giải cho
ảnh dưới nước bằng ngôn ngữ tự nhiên. Một cơ sở dữ liệu hình ảnh dưới nước
120
mới, được đặt tên là PESEmphocation5k, đã được tạo và được chú giải. Mô
hình của họ sử dụng các biến thể khác nhau của CNN, LSTM và GRU ( Gated
Recurrent Unit), khi được huấn luyện trên cơ sở dữ liệu mới của họ, sinh ra các
chú giải với độ chính xác khá cao.
Hầu hết các công trình đã được công bố huấn luyện hệ thống sinh chú giải
cho ảnh sử dụng kho ngữ liệu lớn bao gồm cả hình ảnh và mô tả. Đối với ngôn
ngữ tiếng Việt, chưa có kho ngữ liệu huấn luyện hệ thống sinh chú giải tiếng
Việt cho ảnh. Do đó, để khai thác kho ngữ liệu song ngữ Việt-Anh mà luận án
thu thập được và kế thừa kho ngữ liệu huấn luyện hệ thống sinh chú giải tiếng
Anh cho ảnh, chúng tôi đề xuất một cách tiếp cận mới trong việc xây dựng hệ
thống sinh chú giải tiếng Việt cho ảnh đó là hệ thống đa mô hình, kết hợp mô
hình chú giải tiếng Anh tự động cho ảnh với mô hình dịch máy nơ-ron Anh-Việt.
Đóng góp của luận án ở đây là:
- Kho ngữ liệu song ngữ Việt-Anh với hơn 270.000 cặp câu3 góp phần nâng
cao chất lượng hệ thống dịch máy nơ-ron Anh-Việt.
- Đề xuất một kỹ thuật khai thác từ điển để xử lý các từ mới đối với hệ thống
dịch.
- Đề xuất quy trình sinh chú giải tiếng Việt cho ảnh.
- Xây dựng được một tập dữ liệu kiểm thử để đánh giá chất lượng của hệ
4.2.2 Đề xuất quy trình xây dựng hệ thống sinh chú giải tiếng Việt cho
ảnh
thống sinh chú giải tiếng Việt cho ảnh.4
Ý tưởng của hệ thống này, đầu tiên hình ảnh được đưa vào hệ thống sinh chú
giải tiếng Anh cho ảnh, đầu ra nhận được là câu tiếng Anh mô tả hình ảnh đó
3https://github.com/Tienhavn/generalcorpus 4http://www.mediafire.com/file/3n5b7sfwfuq9dsi/TestVietCaption.rar/file
121
(S ), sau đó câu tiếng Anh này được đưa vào hệ thống dịch máy nơ-ron Anh-Việt
để thu được câu tiếng Việt (T ). Cuối cùng, câu tiếng việt này sẽ được được đưa
vào mô đun xử lý từ mới để thu được câu tiếng Việt có chất lượng hơn. Câu
tiếng Việt ở bước cuối cùng chính là câu chú giải cho hình ảnh đầu vào.
Sơ đồ hệ thống sinh chú giải tiếng Việt cho ảnh được thể hiện trong Hình 4.5.
Hệ thống này bao gồm hai mô hình chính (mô hình chú giải tiếng Anh cho
4.2.2.1 Mô hình chú giải tiếng Anh cho ảnh
ảnh, mô hình dịch máy nơ-ron Anh-Việt) và một mô-đun (mô-đun xử lý từ mới).
Có một số mô hình chú giải hình ảnh bao gồm Mao và cộng sự [51], Google
NIC [78], LRCN [46], MS Research [38], Chen, Zitnick và NeuralTalk [78]. Tuy
nhiên, đánh giá về chât lượng sinh chú giải trên 1.000 hình ảnh thử nghiệm bằng
điểm BLEU sử dụng n-gram cho thấy hệ thống của nhóm nghiên cứu ở Stanford
có kết quả tốt hơn so với các nhóm khác. Do đó, chúng tôi sẽ lựa chọn hệ thống
sinh chú giải tiếng Anh cho ảnh của nhóm nghiên cứu ở Stanford (NeuralTalk2 )
để tích hợp trong mô hình đề xuất.
Mô hình chú giải ảnh NeunalTalk2 sử dụng trong thực nghiệm mô hình đề
• Torch 5: Torch được cài đặt với LuaJIT 2.1.
• Model: Sử dụng mô hình cpu.6
xuất của chúng tôi được cài đặt như sau:
Cơ sở dữ liệu huấn luyện là 113.000 hình ảnh trong MSCOCO và mỗi hình
4.2.2.2 Mô hình dịch máy Anh-Việt
ảnh có tổng cộng 45 chú giải khu vực.
Để tìm được một hệ thống dịch máy Anh-Việt có chất lượng cao nhằm tích
5https://github.com/torch/distro 6http://cs.stanford.edu/people/karpathy/neuraltalk2/checkpoint_v1_cpu.zip
122
hợp trong hệ thống đề xuất và thấy được hiệu quả của kho ngữ liệu 294.665 cặp
Hình 4.5: Mô hình chú giải tiếng Việt cho ảnh
123
câu song ngữ Anh-Việt mà luận án thu thập được, chúng tôi sẽ huấn luyện các
• Kho 1: Bao gồm 600.000 cặp câu được chia sẻ từ nhóm nghiên cứu dịch máy
hệ thống dịch máy trên 2 kho ngữ liệu riêng biệt:
• Kho 2: Bao gồm toàn bộ Kho 1 và 294.665 cặp câu song ngữ Anh-Việt mà
Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội và dự án VLSP.
luận án thu thập được.
Chúng tôi sử dụng hai mô hình huấn luyện hệ thống dịch máy đại diện cho 2
cách tiếp cận:
1. Moses[83] đại diện cho tiếp cận dịch máy thống kê dựa vào cụm từ, với mô
hình dóng hàng từ được thiêt lập là Mgiza.
2. OpenNMT-py[36] đại diện cho tiếp cập dịch máy nơ-ron, với mạng LSTM
2 tầng[61] gồm 500 trạng thái ẩn ở cả hai phía mã hóa và giải mã.
Để huấn luyện, chúng tôi sử dụng 1.001 cặp câu song ngữ Anh-Việt để làm
tệp huấn luyện điều chỉnh (tuning) trong huấn luyện hệ thống dịch máy thống
kê Moses và cũng là tệp huấn luyện hội tụ (Validate) trong huấn luyện hệ thống
dịch máy nơ-ron OpenNMT-py.
Tệp kiểm thử chất lượng các hệ thống dịch sử dụng hệ thống NeunalTalk2
[78] để trích rút câu chú giải ảnh từ 500 tệp ảnh lấy ngẫu nhiên từ kho ngữ liệu
ảnh COCO7, 2017 ta có được 1 tệp kiểm tra gồm 500 câu chú giải ảnh bằng
tiếng Anh.
Huấn luyện các hệ thống dịch máy sử dụng Moses và OpenNMT-py trên từng
kho ngữ liệu 1 và 2, sau đó so sánh kết quả dịch máy của các hệ thống khi dịch
500 chú giải từ tiếng Anh sang tiếng việt ta thu được kết quả như trong Bảng 4.5.
Kết quả thực nghiệm cho thấy, hệ thống dịch máy nơ-ron luôn cho kết quả
7http://cocodataset.org/#download
124
dịch cao hơn hệ thống dịch máy thống kê dựa vào cụm từ. Khi bổ sung 294.665
Bảng 4.5: Điểm BLEU của các hệ thống khi dịch 500 câu chú giải ảnh từ tiếng Anh sang tiếng Việt
Kích thước kho ngữ liệu
600.000 cặp câu
894.665 cặp câu
Hệ thống
SMT
NMT
SMT
NMT
BLEU
43,74
56,58
43,70
88,96
Hình 4.6: So sánh chất lượng dịch máy với Google
cặp câu mà luận án thu thập được vào tệp huấn luyện hệ thống dịch, chất lượng
của hệ thống tăng 33, 38 điểm BLEU, từ 56, 58 lên 88, 96, điều này chứng tỏ rằng,
kho ngữ liệu song ngữ Anh-việt 294.665 của luận án là có chất lượng góp phần
nâng cao đáng kể chất lượng dịch máy Anh-Việt.
Chúng tôi sử dụng hệ thống dịch máy Google để dịch 500 câu chú giải ảnh
trong tệp kiểm tra từ tiếng Anh sang tiếng Việt và so sánh kết quả với hệ thống
NMT được huấn luyện trên kho ngữ liệu 894.665 cặp câu song ngữ Anh-Việt.
Kết quả được thể hiện trong Hình 4.6
Từ biểu đồ ở Hình 4.6 cho thấy, hệ thống dịch máy nơ-ron được huấn luyện
trên kho ngữ liệu 894.665 cặp câu song ngữ Anh-Việt dóng hàng mức câu có chất
lượng dịch câu chú giải ảnh từ tiếng Anh ra tiếng Việt tốt hơn hệ thống dịch
125
máy Google và chất lượng hệ thống dịch máy nơ-ron tăng khi kích thước kho
ngữ liệu song ngữ Anh-Việt tăng. Điều này cho thấy việc thu thập xây dựng kho
ngữ liệu song ngữ lớn nhằm cải tiến chât lượng hệ thống dịch máy là cần thiết.
Từ những thực nghiệm đánh giá về chất lượng của các hệ thống dịch máy ở
trên, chúng tôi lựa chọn hệ thống dịch máy nơ-ron Anh-Việt được huấn luyện
trên kho ngữ liệu 894.665 cặp câu để tích hợp trong hệ thống sinh chú giải tiếng
4.2.2.3 Phương pháp xử lý từ mới
Việt cho ảnh đã đề xuất ở trên.
Trong phần này, chúng tôi đề xuất phương pháp xử lý từ mới (UnP) ở bản
dịch tiếng Việt của đầu ra hệ thống dịch máy. Ý tưởng của phương pháp này
như sau: Đầu tiên, thực hiện thay thế từ mới trong câu tiếng Việt bằng từ tiếng
Anh tương ứng ban đầu, sau đó thực hiện tách từ và gán nhãn từ loại cho câu
tiếng Việt này. Cuối cùng, tìm từ tiếng Anh chưa dịch được ở bản dịch tiếng
Việt trong từ điển song ngữ Anh-Việt mà chúng tôi đã xây dựng để thay thế từ
tiếng Anh bằng từ tiếng Việt có cùng nhãn từ loại.
• W : một từ của câu S ;
• DicEV : Từ điển song ngữ Việt-Anh có nhãn từ loại.
• We: Từ tiếng Anh được gán nhãn xuất hiện trong câu tiếng Việt;
• Wv: Từ tiếng Việt là bản dịch của từ tiếng Anh We xuất hiện trong từ điển
Trong đó;
DicEV có cùng nhãn từ loại.
Phương pháp xử lý từ mới ở câu tiếng Việt của đầu ra hệ thống dịch máy
4.2.2.4 Kết quả thực nghiệm
nơ-ron Anh-Việt được thể hiện trong Giải thuật 5.
Bởi vì hệ thống sinh chú giải tiếng Việt tự động cho hình được đề xuất ở đây
126
là đầu tiên, nên không có bất kỳ cơ sở dữ liệu kiểm tra nào sẵn có để đánh giá
Giải thuật 5: Phương pháp xử lý từ mới đề xuất
Câu tiếng Việt mà có chứa từ mới (S )
Output: Câu tiếng Việt mà từ mới đã được dịch (So)
Begin
Phân_đoạn_câu(S);
Gán_nhãn_từ_loại(S);
while (not EOF(S)) do Tách W trong S;
if (W = We ) and (We Trong DicEV) then
Thay_thế(W,Wv);
So=S;
End
hệ thống. Vì vậy chúng tôi phải xây dựng một cơ sở dữ liệu kiểm tra để đánh giá
hệ thống bằng cách: lấy ra 500 ảnh từ cơ sở dữ liệu kiểm tra của COCO (2017
Test images [41K/6GB]).8 Các chú giải bằng tiếng Anh cho các hình ảnh này
được dịch thủ công ra tiếng Việt bởi chuyên gia tiếng Anh.
Các bước triển khai thực nghiệm hệ thống sinh chú giải tiếng việt cho ảnh
• Bước 1: Sử dụng hệ thống Neuraltalk2 để sinh tự động chú giải tiếng Anh
như sau:
• Bước 2: Sử dụng hệ thống NMT để dịch 500 câu chú giải thu được ở Bước
cho 500 hình của tệp kiểm tra.
• Bước 3: Sử dụng mô đun xử lý từ mới mà chúng tôi đề xuất để phát hiện
1 từ tiếng Anh sang tiếng Việt.
và xử lý các từ mới trong các câu tiếng Việt thu được ở Bước 2.
Kết quả thu được sau Bước 3 là 500 câu tiếng Việt chú giải cho 500 hình ảnh
đầu vào.
Để xác định được hiệu suất của kỹ thuật xử lý từ mới, chúng tôi đã tiến hành
8http://cocodataset.org/#download
127
thử nghiệm và so sánh kết quả thu được từ việc áp dụng kỹ thuật xử lý từ mới
với khi chưa áp dụng trên 500 câu tiếng Việt là đầu ra của hệ thống NMT. Kết
Bảng 4.6: Điểm BLEU của hệ thống dịch 500 câu chú giải ảnh từ tiếng Anh sang tiếng Việt sử dụng
kỹ thuật xử lý từ mới
Kích thước kho ngữ liệu
600.000 cặp câu
Mô hình
SMT SMT+UnP NMT NMT+UnP
BLEU
43,74
45,04
56,58
57,78
Kích thước kho ngữ liệu
894.665 cặp câu
Mô hình
SMT SMT+UnP NMT NMT+UnP
BLEU
43,70
44,80
88,96
89,76
quả so sánh được thể hiện trong Bảng 4.6.
• SMT: Hệ thống dịch máy thống kê dựa trên cụm từ.
• SMT+UnP: Hệ thống kết hợp giữa SMT và mô đun xử lý từ mới UnP.
• NMT: Hệ thống dịch máy nơ-ron Anh-Việt.
• NMT+UnP: Hệ thống kết hợp NMT và mô đun xử lý từ mới UnP.
Trong đó:
Bảng 4.6 cho thấy, kỹ thuật xử lý từ mới mà chúng tôi đề xuất cải thiện được
trung bình trên 1,3 điểm BLEU ở các hệ thống thử nghiệm. Kết quả này có thể
khẳng định, từ điển song ngữ mà luận án xây dựng được là có giá trị trong các
ứng dụng.
Bảng 4.7 cho thấy một số kết quả của hệ thống chú giải tiếng Việt cho hình
4.3 Kết luận chương
ảnh.
Như vậy, với cùng một kho ngữ liệu song ngữ được sử dụng để huấn luyện
128
hệ thống dịch máy nơ-ron. Nếu áp dụng Kỹ thuật tiền xử lý câu dài như đã
được trình bày trong mục 4.1.1 sẽ cải thiệt đáng kể chất lượng hệ thống dịch
máy. Bên cạnh đó, việc thu thập xây dựng kho ngữ liệu song ngữ Anh-Việt kích
thước lớn và có chất lượng cũng góp phần nâng cao đáng kể chất lượng của hệ
thống dịch máy. Trong thời gian tiếp theo, chúng tôi nghiên cứu tích hợp kho
ngữ liệu song ngữ từ, cụm từ được khai thác từ các văn bản đơn ngữ vào kho
ngữ liệu để huấn luyện hệ thống dịch máy và nghiên cứu đề xuất phương pháp
thu thập tự động kho ngữ liệu song ngữ Anh-Việt kích thước lớn, đa ngôn ngữ
và có chất lượng để tiếp tục cải tiến và nâng cao chất lượng của hệ thống dịch
máy Việt-Anh, Anh-Việt.
129
Công bố liên quan đến nghiên cứu này: [CT2] [CT6] [CT7]
Một người phụ nữ đứng trên vỉa hè
Một thành phố đông đúc
với đèn giao thông trên nó
Một vài con bò
đang đứng trong một cánh đồng
Một con chim nhỏ đứng trên bãi cỏ
Một người đàn ông và một người phụ nữ
ngồi trên ghế bành
Nhà bếp có bếp và tủ lạnh
Một chiếc bánh sandwich và một đĩa salad
Một con diều đang bay
trên bầu trời một ngày đầy nắng
Một người phụ nữ
nuôi con hươu cao cổ trong vườn thú
Một người đàn ông cưỡi ván
trượt xuống sườn núi
Bảng 4.7: Một số kết quả của hệ thống chú giải hình ảnh bằng tiếng Việt
130
Kết luận
Dịch máy là một lĩnh vực khó trong xử lý ngôn ngữ tự nhiên. Một trong
những yếu tố quyết định chất lượng của các hệ thống dịch máy là chất lượng
và kích thước của tài nguyên ngôn ngữ, cụ thể là các kho văn bản song ngữ có
dóng hàng và các kho từ vựng song ngữ.
Để nâng cao chất lượng các hệ thống dịch máy, hiện nay một số nghiên cứu
tập trung vào việc xây dựng kho ngữ liệu song ngữ kích thước lớn. Hướng tiếp
cận này phù hợp với các cặp ngôn ngữ có nhiều tài nguyên song ngữ. Cặp ngôn
ngữ Việt-Anh hiện nay vẫn còn hạn chế về tài nguyên song ngữ nên để xây dựng
được kho ngữ liệu song ngữ Việt-Anh có kích thước lớn là hết sức khó khăn.
Một hướng tiếp cận cũng có thể giúp nâng cao chất lượng dịch máy đó là
thích ứng miền cho các hệ thống dịch. Đi theo hướng tiếp cận này, luận án tập
trung nghiên cứu và triển khai một số phương pháp xây dựng kho ngữ liệu song
ngữ Việt-Anh theo miền có dóng hàng và các tập từ vựng song ngữ. Các thực
nghiệm trong luận án chủ yếu hướng tới ứng dụng cụ thể là nâng cao chất lượng
dịch máy Việt-Anh trong lĩnh vực du lịch và y tế. Bên cạnh việc xây dựng công
cụ và tài nguyên song ngữ Việt-Anh, luận án đã đề xuất một số kĩ thuật khai
thác kho ngữ liệu song ngữ thu thập được trong việc nâng cao chất lượng hệ
thống dịch máy. Luận án cũng đề xuất triển khai và cải tiến hệ thống dịch máy
Việt-Anh ứng dụng trong chú giải văn bản cho ảnh số.
Trong quá trình triển khai thực hiện các nghiên cứu từ định hướng đã chọn,
• Đề xuất kỹ thuật cải tiến công cụ dóng hàng XAlign cho cặp ngôn ngữ
luận án đã đạt được các kết quả sau:
Việt-Anh và chia sẻ cho cộng đồng nghiên cứu mã nguồn của công cụ cải
tiến viXAlign. Sử dụng công cụ dóng hàng này luận án đã xây dựng được
131
kho ngữ liệu song ngữ có dóng hàng câu gồm trên 20.000 cặp câu miền du
lịch và trên 270.000 cặp câu miền chung Luận án đã chứng tỏ bằng thực
nghiệm rằng việc khai thác các kho ngữ liệu này nâng cao đáng kể chất
• Đề xuất phương pháp trích rút từ và cụm từ song ngữ từ kho ngữ liệu song
lượng dịch máy theo miền du lịch và miền chung.
ngữ và kho ngữ liệu đơn ngữ. Sử dụng các phương pháp này luận án đã xây
dựng được kho ngữ liệu trên 40.000 cặp từ và cụm từ song ngữ, bao gồm:
trên 1.000 cặp cho miền du lịch; trên 600 cặp cho miền y tế; còn lại thuộc
• Đề xuất kỹ thuật tiền xử lý câu dài trong dịch máy nơ-ron cải thiện chất
miền chung.
• Triển khai một phương pháp sinh chú giải tiếng Việt tự động cho hình ảnh
lượng dịch.
dựa vào dịch máy Anh-Việt, đề xuất một kỹ thuật khai thác từ điển để xử
lý các từ mới (unknown words) nhằm nâng cao chất lượng hệ thống dịch.
Bên cạnh các kết quả đã đạt được như đã trình bày ở trên, luận án cũng cho
thấy một số những tồn tại hạn chế cần nghiên cứu khắc phục, đó là: Kho ngữ
liệu song ngữ Việt-Anh mà chúng tôi thu thập được còn hạn chế về kích thước và
hạn chế về số lượng miền; Chưa nghiên cứu được nhiều phương pháp khai thác
kho ngữ liệu song ngữ Việt-Anh hiệu quả cho dịch máy Việt-Anh, Anh-Việt.
Trong thời gian tới, bên cạnh việc nghiên cứu cải tiến hiệu năng dịch máy
thông qua việc khai thác tài nguyên đơn ngữ và song ngữ tổng quát cũng như
theo miền, vấn đề thu thập và khai thác các nguồn tài nguyên đa ngữ (nhiều hơn
một cặp ngôn ngữ) cũng đáng được quan tâm trong việc nâng cao chất lượng
dịch máy. Về mặt kĩ thuật, các vấn đề liên quan tới việc nâng cao chất lượng
biểu diễn từ và biểu diễn ngữ nghĩa đa ngữ hướng tới các hệ thống dịch máy đa
132
ngữ cũng rất cần được quan tâm nghiên cứu.
Danh mục công trình khoa học của
tác giả liên quan đến luận án
[CT1] Nguyễn Tiến Hà, Nguyễn Thị Minh Huyền, Nguyễn Minh Hải (2018),
"Xây dựng kho ngữ liệu du lịch song ngữ Việt - Anh dóng hàng mức câu cho
dịch máy", Tạp chí các công trình nghiên cứu phát triển công nghệ thông tin
và truyền thông Tập V-1, số 39, Bộ Thông tin và Truyền thông, tr. 9-16.
[CT2] Ha Nguyen Tien, Huyen Nguyen Thi Minh (2019), "Long Sentence Pre-
processing in Neural Machine Translation", In Proceedings of the 2019 IEEE-
RIVF International Conference on Computing and Communication Tech-
nologies, DOI: 10.1109/RIVF.2019.8713737, pp. 1-6.
[CT3] Nguyễn Tiến Hà, Nguyễn Thị Minh Huyền (2019), "Xây dựng tự động
từ điển Việt – Anh và ứng dụng trong lĩnh vực du lịch", Kỷ yếu Hội nghị
Quốc gia lần thứ VII về Nghiên cứu cơ bản và ứng dụng Công Nghệ thông
tin (FAIR), tr. 568-576.
[CT4] Ha Nguyen Tien, Quyen Ngo The, Huyen Nguyen Thi Minh and Linh
Ha My (2019), "Rule based English-Vietnamese bilingual terminology ex-
traction from Vietnamese documents", In Proceedings of The Tenth Interna-
tional Symposiumon Information and Communication Technology (SoICT),
133
pp. 56–62.
[CT5] Luan Nghia Pham, Ha Nguyen Tien and Vinh Van Nguyen (2019),
"Grammatical error correction for Vietnamese using Machine Translation",
In Proceedings of 16th International Conference of the Pacific Association
for Computational Linguistics (PACLING), pp. 505-512.
[CT6] Ha Nguyen Tien, Thanh-Ha Do (2020), "Generating Vietnamese Lan-
guage Caption Automatically for Scene Images", 2020 International Con-
ference on Multimedia Analysis and Pattern Recognition (MAPR), IEEE,
doi: 10.1109/MAPR49794.2020.9237773, pp.1-6.
[CT7] Ha Nguyen Tien, Thanh-Ha Do, Van-Anh Nguyen (2020), "Image Cap-
tioning in Vietnamese Language based on Deep Learning Network", Advances
in Computational Collective Intelligence, vol 1287. Springer, Cham, pp.789-
134
800.
Tài liệu tham khảo
Tiếng Việt
[1] Đinh Điền, Lý Ngọc Minh (2015), “Ứng dụng Ngữ liệu Song ngữ Anh-Việt
trong Giảng dạy Ngôn ngữ”, Hội thảo Liên ngành NNH Ứng dụng và Giảng
Tiếng Anh
dạy Ngôn ngữ, tr.559-567.
[2] Ahmet Aker, Fang Feng, and Rob Gaizauskas (2012), “Automatic bilin-
gual phrase extraction from comparable corpora”, Proceedings of The 24th
International Conference on Computational Linguistics (COLING 2012).
[3] Ajay Dubey and Vasudeva Varma (2013), “Generation of bilingual dic-
tionaries using structural properties”, Computacion y Sistemas, Vol.17,
pp. 161–168.
[4] Alberto Simões and Xavier Gómez Guinovart (2009), “Parallel corpus-
based bilingual terminology extraction”, Proceedings of the TIA.
[5] Alexander Patrick Mathews and Lexing Xie and Xuming He (2018), “Sem-
Style: Learning to Generate Stylised Image Captions using Unaligned Text”,
CoRR, abs/1805.07030, arXiv: 1805.07030, url: http://arxiv.org/
135
abs/1805.07030.
[6] Ali Farhadi and Mohsen Hejrati and Sadeghi, Mohammad Amin and Pe-
ter Young and Cyrus Rashtchian and Hockenmaier, Julia Constanze and
Forsyth, David Alexander (2010), “Every picture tells a story: Generat-
ing sentences from images”, English (US), Computer Vision, ECCV 2010
- 11th European Conference on Computer Vision, Proceedings, (PART 4),
pp. 15–29, doi: 10.1007/978-3-642-15561-1_2.
[7] Anna Fariha (2016), “Automatic image captioning using multitask learn-
ing”, 29th Conference on Neural Information Processing Systems (NIPS
2016).
[8] Anna Currey and Kenneth Heafield (2019), “Incorporating Source Syntax
into Transformer-Based Neural Machine Translation”, Proceedings of the
Fourth Conference on Machine Translation (Volume 1: Research Papers),
pp. 24–33, url: http://www.aclweb.org/anthology/W19-5203.
[9] Antonio Lagarda et al. (2009), “Statistical Post-Editing of a Rule-Based
Machine Translation System”, Proceedings of HLT/NAACL, pp. 217–220,
doi: 10.3115/1620853.1620913.
[10] Baobao Chang (2004), “Chinese-English Parallel Corpus Construction and
its Application”, Proceedings of the 18th Pacific Asia Conference on Lan-
guage, Information and Computation, pp. 283–290, doi: http : / / hdl .
handle.net/2065/583, url: https://www.aclweb.org/anthology/Y04-
1030.
[11] Baosheng Yin and Junjun Zuo and Na Ye (2012), “Long sentence parti-
tioning using top-down analysis for machine translation”, 2012 IEEE 2nd
International Conference on Cloud Computing and Intelligence Systems,
03, pp. 1425–1429.
[12] Beáta Bandmann Megyesi, Anna S˚agvall Hein, and Éva Csató Johan-
136
son ((2006)), “Building a Swedish-Turkish Parallel Corpus”, Proceedings
of the Fifth International Conference on Language Resources and Eval-
uation (LREC’06), url: http : / / www . lrec - conf . org / proceedings /
lrec2006/pdf/544_pdf.pdf.
[13] Bernard Vauquois (1968), “A survey of formal grammars and algorithms for
recognition and transformation in mechanical translation”, IFIP Congress
(2), pp. 1114–1122, url: http://dblp.uni-trier.de/db/conf/ifip/
ifip1968-2.html#Vauquois68.
[14] Caroline Lavecchia, Kamel Sma¨ili, and David Langlois (2007), “Building a
bilingual dictionary from movie subtitles based on inter-lingual triggers”,
Translating and the Computer, url: https : / / hal . inria . fr / inria -
00184421.
[15] Chooi-Ling Goh and Eiichiro Sumita (2011), “Splitting Long Input Sen-
tences for Phrase-based Statistical Machine Translation”, Proceedings of
The Association for Natural Language Processing.
[16] Chris Callison-Burch, Miles Osborne, and Philipp Koehn (2006), “Re-
evaluating the Role of Bleu in Machine Translation Research”, 11th Con-
ference of the European Chapter of the Association for Computational Lin-
guistics, url: https://www.aclweb.org/anthology/E06-1032.
[17] Chenhui Chu and Rui Wang (2018), “A Survey of Domain Adaptation for
Neural Machine Translation”, Proceedings of the 27th International Con-
ference on Computational Linguistics, pp. 1304–1319, url: https://www.
aclweb.org/anthology/C18-1111.
[18] Daniel Marcu and Daniel Wong (2002), “A Phrase-Based, Joint Probability
Model for Statistical Machine Translation”, Proceedings of the Conference
on Empirical Methods in Natural Language Processing (EMNLP), pp. 133–
137
139.
[19] Dániel Varga and Péter Halácsy and András Kornai and Nagy Viktor and
Nagy László and Németh László and Tron Viktor (2007), “Parallel corpora
for medium density languages”, Recent Advances in Natural Language Pro-
cessing IV, pp. 247–258.
[20] David Chiang (2005), “A Hierarchical Phrase-Based Model for Statisti-
cal Machine Translation”, Proceedings of the 43rd Annual Meeting of the
Association for Computational Linguistics (ACL’05), pp. 263–270, doi:
10.3115/1219840.1219873, url: https://www.aclweb.org/anthology/
P05-1033.
[21] David Tilman (1997), “Distinguishing between the Effects of Species Di-
versity and Species Composition”, Oikos, no. 1, Vol.80, 185–185.
[22] Deborah A. Coughlin (2003), “Correlating Automated and Human As-
sessments of Machine Translation Quality”, Proceedings of MT Submit
IX, pp. 63–70, url: https://www.microsoft.com/en- us/research/
publication/correlating- automated- and- human- assessments- of-
machine-translation-quality/.
[23] Deryle Lonsdale, Teruko Mitamura, and Eric Nyberg (1994), “Acquisition
of large lexicons for practical knowledge-based MT”, Machine Translation,
Vol.9 (3), pp. 251–283, issn: 1573-0573, doi: 10.1007/BF00980580, url:
https://doi.org/10.1007/BF00980580.
[24] Di Jin and Zhijing Jin and Joey Tianyi Zhou and Peter Szolovits (2020),
“Unsupervised Domain Adaptation for Neural Machine Translation with
Iterative Back Translation”, ArXiv, abs/2001.08140.
[25] Dinh Dien and Hoang Kiem (2004), “Building an Annotated English-
Vietnamese Parallel Corpus for Training Vietnamese-related NLPs”, Pro-
ceedings of the ICEIC : International Conference on Electronics, Informa-
138
tions and Communications International Conference on Electronics, Infor-
mations and Communications (ICEIC), vol. 1 2004.08, pp. 103 –109, doi:
10.15144/MKSJ-35.21.
[26] Zi-Yi Dou et al. (2019), “Unsupervised Domain Adaptation for Neural
Machine Translation with Domain-Aware Feature Embeddings”, arXiv e-
prints, arXiv:1908.10430, arXiv: 1908.10430 [cs.CL].
[27] Dzmitry Bahdanau and Kyunghyun Cho and Yoshua Bengio (2014), “Neu-
ral Machine Translation by Jointly Learning to Align and Translate”, arXiv:1409.0473[cs.CL],
arXiv: 1409.0473v7 [cs.CL].
[28] Els Lefever, Lieve Macken, and Veronique Hoste (2009), “Language-independent
Bilingual Terminology Extraction from a Multilingual Parallel Corpus”,
Proceedings of the 12th Conference of the European Chapter of the Asso-
ciation for Computational Linguistics, pp. 496–504.
[29] Fatiha Sadat (2010), “Exploiting a Multilingual Web-based Encyclopedia
for Bilingual Terminology Extraction”, Proceedings of the 24th Pacific Asia
Conference on Language, Information and Computation, pp. 519–526, url:
https://www.aclweb.org/anthology/Y10-1060.
[30] Peter F. Brown and Stephen A. Della Pietra and Vincent J. Della Pietra
and R. L. Mercer (1993), “The Mathematics of Statistical Machine Trans-
lation: Parameter Estimation”, Computational Linguistics, 19 (2), pp. 263–
311.
[31] Francisco Oliveira and Fai Wong and Iok-Sai Hong (2010), “Systematic
Processing of Long Sentences in Rule Based Portuguese-Chinese Machine
Translation”, Proceedings of The 11th International Conference, CICLing
2010.
[32] Francis Bond and Zhiqiang Chang and Kiyotaka Uchimoto (2008), “Ex-
139
tracting Bilingual Terms from Mainly Monolingual Data”, Proceedings of
the 14th Annual Meeting of The Association for Natural Language Pro-
cessing.
[33] Franz Och and Hermann Ney (2004), “The Alignment Template Approach
to Statistical Machine Translation”, Computational Linguistics, Vol.30, pp. 417–
449, doi: 10.1162/0891201042544884.
[34] Graham Neubig (2017), “Neural Machine Translation and Sequence-to-
sequence Models: A Tutorial”, CoRR, abs/1703.01619, arXiv: 1703.01619,
url: http://arxiv.org/abs/1703.01619.
[35] G. R. Tahir and S. Asghar and N. Masood (2010), “Knowledge Based
Machine Translation”, 2010 International Conference on Information and
Emerging Technologies, pp. 1–5, doi: 10.1109/ICIET.2010.5625695.
[36] Guillaume Klein and Yoon Kim and Yuntian Deng and Jean Senellart and
Alexander M. Rush (2017), “OpenNMT: Open-Source Toolkit for Neural
Machine Translation”, Proceedings of the 55th Annual Meeting of the As-
sociation for Computational Linguistics-System Demonstrations, 67–72.
[37] Suchin Gururangan et al. (2020), “Don’t Stop Pretraining: Adapt Language
Models to Domains and Tasks”, arXiv e-prints, arXiv:2004.10964, arXiv:
2004.10964 [cs.CL].
[38] Hao Fang and Saurabh Gupta and Forrest N. Iandola and Rupesh Kumar
Srivastava and Li Deng and Piotr Dollár and Jianfeng Gao and Xiaodong
He and Margaret Mitchell and John C. Platt and C. Lawrence Zitnick and
Geoffrey Zweig (2014), “From Captions to Visual Concepts and Back”,
CoRR, abs/1411.4952, arXiv: 1411.4952, url: http://arxiv.org/abs/
1411.4952.
[39] Hardik Gourisaria et al. (2019), “Generating Captions for Underwater Im-
ages Using Deep Learning Models”, Conference on Artificial Intelligence:
140
Research, Innovations and its Applications.
[40] Hendra Setiawan et al. (2005), “Phrase-Based Statistical Machine Transla-
tion: A Level of Detail Approach”, Natural Language Processing – IJCNLP
2005, ed. by Robert Dale et al., pp. 576–587.
[41] Holger Schwenk and Guillaume Wenzek and Sergey Edunov and Edouard
Grave and Armand Joulin (2019), “CCMatrix: Mining Billions of High-
Quality Parallel Sentences on the WEB”, ArXiv, abs/1911.04944.
[42] Howard Johnson et al. (2007), “Improving Translation Quality by Discard-
ing Most of the Phrasetable”, Proceedings of the 2007 Joint Conference
on Empirical Methods in Natural Language Processing and Computational
Natural Language Learning (EMNLP-CoNLL), pp. 967–975, url: https:
//www.aclweb.org/anthology/D07-1103.
[43] Al-muzaini, Huda and N., Tasniem and Hafida, Benhidour (2018), “Auto-
matic Arabic image captioning using RNN-LSTM-based language model
and CNN”, International Journal of Advanced Computer Science and Ap-
plications, Vol.9, doi: 10.14569/IJACSA.2018.090610.
[44] Jakob Uszkoreit et al. (2010), “Large Scale Parallel Document Mining for
Machine Translation”, Proceedings of the 23rd International Conference
on Computational Linguistics (Coling 2010), pp. 1101–1109, url: http:
//www.aclweb.org/anthology/C10-1124.
[45] Jean Pouget-Abadie and Dzmitry Bahdanau and Bart van Merrienboer
and Kyunghyun Cho and Yoshua Bengio (2014), “Overcoming the Curse
of Sentence Length for Neural Machine Translation using Automatic Seg-
mentation”, Proceedings of SSST-8, Eighth Workshop on Syntax, Semantics
and Structure in Statistical Translation, 78–85.
[46] Jeff Donahue and Lisa Anne Hendricks and Sergio Guadarrama and Mar-
cus Rohrbach and Subhashini Venugopalan and Kate Saenko and Trevor
141
Darrell (2014), “Long-term Recurrent Convolutional Networks for Visual
Recognition and Description”, CoRR, abs/1411.4389, arXiv: 1411.4389,
url: http://arxiv.org/abs/1411.4389.
[47] Jingshu Liu and Emmanuel Morin and Sebastián Pe˜na Saldarriaga (2018),
“Towards a unified framework for bilingual terminology extraction of single-
word and multi-word terms”, Proceedings of the 27th International Confer-
ence on Computational Linguistics (COLING), pp. 2855–2866.
[48] John Hutchins (2004), “Two Precursors of Machine Translation: Artsrouni
and Trojanskij”, International Journal of Translation, Vol.16(1), 11–31.
[49] John R. Pierce and John B. Carroll (1966), Language and Machines: Com-
puters in Translation and Linguistics, National Academy of Sciences/National
Research Council, USA.
[50] J¨org Tiedemann (2016), “OPUS - Parallel Corpora for Everyone”, English,
Baltic Journal of Modern Computing, Special Issue: Proceedings of the
19th Annual Conference of the European Association of Machine Trans-
lation (EAMT) – Projects/Products Volume: Proceeding volume, p. 384,
issn: 2255-8942.
[51] Junhua Mao and Wei Xu and Yi Yang and Jiang Wang and Alan L. Yuille
(2014), “Explain Images with Multimodal Recurrent Neural Networks”,
ArXiv, abs/1410.1090.
[52] Junjie Hu et al. (2019), “Domain Adaptation of Neural Machine Transla-
tion by Lexicon Induction”, Proceedings of the 57th Annual Meeting of the
Association for Computational Linguistics, pp. 2989–3001, doi: 10.18653/
v1/P19-1286, url: https://www.aclweb.org/anthology/P19-1286.
[53] Junjie Hu and Mengzhou Xia and Graham Neubig and Jaime G. Carbonell
(2019), “Domain Adaptation of Neural Machine Translation by Lexicon
Induction”, CoRR, abs/1906.00376, arXiv: 1906 . 00376, url: http : / /
142
arxiv.org/abs/1906.00376.
[54] Keiji Yasuda and Eiichiro Sumita (2013), “Building a Bilingual Dictionary
from a Japanese-Chinese Patent Corpus”, Proceedings of the 14th Interna-
tional Conference on Computational Linguistics and Intelligent Text Pro-
cessing - Volume 2, pp. 276–284, doi: 10.1007/978-3-642-37256-8_23,
url: http://dx.doi.org/10.1007/978-3-642-37256-8_23.
[55] Kenji Imamura and Eiichiro Sumita (2018), “Multilingual Parallel Corpus
for Global Communication Plan”, Proceedings of the Eleventh International
Conference on Language Resources and Evaluation (LREC-2018).
[56] K. Papineni and S. Roukos and T. Ward and W. J. Zhu (2002), “Bleu: a
method for automatic evaluation of machine translation”, Proc. of the 40th
Annual Meeting of the Association for Computational Linguistics (ACL),
pp. 311–318.
[57] Laurent Romary and Patrice Bonhomme (2000), “Parallel alignment of
structured documents”, Jean Véronis. Parallel Text Processing, Kluwer
Academic Publisher, pp. 233–253.
[58] Le An Ha et al. (2008), “Mutual Bilingual Terminology Extraction”, LREC
2008.
[59] Le Quang Hung and Le Anh Cuong (2010), “Extracting Parallel Texts from
the Web”, Proceeding of The Second International Conference on Knowl-
edge and Systems Engineering, doi: 10.1109/KSE.2010.14.
[60] Lieve Macken and Julia Trushkina and Lidia Rura (2007), “Dutch parallel
corpus: MT corpus and translator’s aid”, Proceedings of Machine Transla-
tion Summit XI, pp. 313–320.
[61] Luong Minh-Thang, Pham Hieu, and Christopher D. Manning (2015),
“Effective Approaches to Attention-based Neural Machine Translation”,
CoRR, abs/1508.04025, arXiv: 1508.04025, url: http://arxiv.org/
143
abs/1508.04025.
[62] Maja Popovi´c and Hermann Ney (2007), “Word Error Rates: Decomposi-
tion over Pos Classes and Applications for Error Analysis”, Proceedings of
the Second Workshop on Statistical Machine Translation, pp. 48–55, url:
http://dl.acm.org/citation.cfm?id=1626355.1626362.
[63] M. Anand Kumar and V. Dhanalakshmi and K. P. Soman and V. Sharmiladevi
(2014), “Improving the Performance of English-Tamil Statistical Machine
Translation System using Source-Side Pre-Processing”, CoRR, abs/1409.8581,
arXiv: 1409.8581, url: http://arxiv.org/abs/1409.8581.
[64] Markus Freitag, Isaac Caswell, and Scott Roy (2019), “APE at Scale and
Its Implications on MT Evaluation Biases”, Proceedings of the Fourth Con-
ference on Machine Translation (Volume 1: Research Papers), pp. 34–44,
url: http://www.aclweb.org/anthology/W19-5204.
[65] Martin Kay and Martin Roscheisen (1993), “Text-Translation Alignment”,
Computational Linguistics, Vol.19 (1), pp. 121–142, url: https://www.
aclweb.org/anthology/J93-1006.
[66] Matthew Snover and Bonnie Dorr and Richard Schwartz and Linnea Mic-
ciulla and John Makhoul (2006), “A study of translation edit rate with tar-
geted human annotation”, Proceedings of Association for Machine Trans-
lation in the Americas, pp. 223–231.
[67] Matt Post, Chris Callison-Burch, and Miles Osborne (2012), “Constructing
Parallel Corpora for Six Indian Languages via Crowdsourcing”, Proceedings
of the Seventh Workshop on Statistical Machine Translation, pp. 154–162,
url: http://oldsite.aclweb.org/anthology-new/W/W12/W12-3152.
pdf.
[68] Michel Simard and Pierre Plamondon (1998), “Bilingual sentence align-
ment: Balancing Robustness and accuracy”, Proceedings of the Conference
144
of the Association for Machine Translation in the Americas, 59–80.
[69] Miguel Gra¸ca et al. (2019), “Generalizing Back-Translation in Neural Ma-
chine Translation”, Proceedings of the Fourth Conference on Machine Trans-
lation (Volume 1: Research Papers), pp. 45–52, url: http://www.aclweb.
org/anthology/W19-5205.
[70] Mihael Arˇcan et al. (2014), “Enhancing Statistical Machine Translation
with Bilingual Terminology in a CAT Environment”, Conference: Associ-
ation for Machine Translation in the Americas (AMTA-2014), doi: 10.
13140/2.1.1019.8404.
[71] Mohammed M.Sakre and Mohammed M.Kouta and Ali M.N.Allam (May,
2016), “Automated construction of Arabic-English parallel corpus”, Arab
World English Journal (AWEJ) Special Issue on Translation, No.5.
[72] Myle Ott and Michael Auli and David Grangier and Marc’Aurelio Ranzato
(2018), “Analyzing Uncertainty in Neural Machine Translation”, ArXiv,
abs/1803.00047.
[73] M¨uller and Meinard (2007), “Dynamic Time Warping”, vol. chapter 4,
pp. 69–84.
[74] Naama Twitto, Noam Ordan, and Shuly Wintner (2015), “Statistical Ma-
chine Translation with Automatic Identification of Translationese”, Pro-
ceedings of the Tenth Workshop on Statistical Machine Translation, pp. 47–
57, url: http://aclweb.org/anthology/W15-3002.
[75] Ngo Quoc Hung and Werner Winiwarter and Bartholom¨aus Wloka (2013),
“EVBCorpus - A Multi-Layer English-Vietnamese Bilingual Corpus for
Studying Tasks in Comparative Linguistics”, Proceedings of the 11th Work-
shop on Asian Language Resources (11th ALR within the IJCNLP2013),
pp. 1–9.
[76] Ngo Quoc-Hung and Werner Winiwarter (2012), “Building an English-
145
Vietnamese Bilingual Corpus for Machine Translation”, Proceedings of the
2012 International Conference on Asian Language Processing, pp. 157–
160.
[77] Nguyen Thị Minh Huyen and Mathias Rossignol (2006), “A language-
independent method for the alignement of parallel corpora”, Proceedings
of 20th Pacific Asia Conference on Language, Information and Computa-
tion (PACLIC), pp. 223–230.
[78] Oriol Vinyals and Alexander Toshev and Samy Bengio and Dumitru Erhan
(2015), “Show and Tell: A Neural Image Caption Generator”, Proceedings
of The 2015 IEEE Conference on Computer Vision and Pattern Recogni-
tion (CVPR), doi: 10.1109/CVPR.2015.7298935, arXiv: 1411.4555v2
[cs.CV].
[79] Peter F. Brown, Jennifer C. Lai, and Robert L. Mercer (1991), “Aligning
Sentences in Parallel Corpora”, Proceedings of the 29th Annual Meeting
on Association for Computational Linguistics, 169–176, doi: 10 . 3115 /
981344.981366, url: https://doi.org/10.3115/981344.981366.
[80] Peter F. Brown et al. (1990), “A Statistical Approach to Machine Trans-
lation”, Comput. Linguist., 16 (2), pp. 79–85, issn: 0891-2017, url: http:
//dl.acm.org/citation.cfm?id=92858.92860.
[81] Pham Ngoc-Quan et al. (2019), “Improving Zero-shot Translation with
Language-Independent Constraints”, Proceedings of the Fourth Conference
on Machine Translation (Volume 1: Research Papers), pp. 13–23, url:
http://www.aclweb.org/anthology/W19-5202.
[82] Philipp Koehn (2002), “Europarl: A Multilingual Corpus for Evaluation of
Machine Translation”, Draft.
[83] Philipp Koehn (2020), Moses Statistical Machine Translation System User
Manual and Code Guide, Statistical Machine Translation, url: http://
146
www.statmt.org/moses/manual/manual.pdf.
[84] Philipp Koehn and Franz Josef Och and Daniel Marcu (2003), “Statistical
phrase-based translation”, Proceedings of HLT-NAACL 2003, pp. 127–133.
[85] Philipp Koehn and Rebecca Knowles (2017), “Six Challenges for Neural
Machine Translation”, CoRR, abs/1706.03872, arXiv: 1706.03872, url:
http://arxiv.org/abs/1706.03872.
[86] Philip Resnik (1998), “Parallel Strands: A Preliminary Investigation into
Mining the Web for Bilingual Text”, Machine Translation and the Informa-
tion Soup, ed. by David Farwell, Laurie Gerber, and Eduard Hovy, pp. 72–
82.
[87] Philip Resnik (1999), “Mining the Web for Bilingual Text”, Proceedings of
the 37th Annual Meeting of the Association for Computational Linguis-
tics, pp. 527–534, doi: 10.3115/1034678.1034757, url: https://www.
aclweb.org/anthology/P99-1068.
[88] Rob Gaizauskas et al. (2015), “Extracting bilingual terms from the Web”,
Terminology. International Journal of Theoretical and Applied Issues in
Specialized Communication, Vol.21, pp. 205–236, doi: 10.1075/term.21.
2.04gai.
[89] Rui Wang et al. (2017), “Sentence Embedding for Neural Machine Trans-
lation Domain Adaptation”, Proceedings of the 55th Annual Meeting of
the Association for Computational Linguistics (Volume 2: Short Papers),
pp. 560–566, doi: 10.18653/v1/P17-2089.
[90] Saba Amsalu (2006), “Data-driven Amharic-English Bilingual Lexicon Ac-
quisition”, Proceedings of the Fifth International Conference on Language
Resources and Evaluation (LREC’06), url: http://www.lrec-conf.org/
147
proceedings/lrec2006/pdf/666_pdf.pdf.
[91] SANJIKA HEWAVITHARANA and Stephan Vogel (2016), “Extracting
parallel phrases from comparable data for machine translation”, Natural
Language Engineering, Vol.22, pp. 549–573, doi: 10.1017/S1351324916000139.
[92] Sara Ebrahim et al. (2015), “English-Arabic Statistical Machine Trans-
lation: State of the Art”, Computational Linguistics and Intelligent Text
Processing, ed. by Alexander Gelbukh, pp. 520–533.
[93] Sergei Nirenburg et al. (2002), “Machine Translation: A Knowledge-Based
Approach”, Morgan Kaufmann Publishers Inc.340 Pine Street, Sixth Floor-
San Francisco CA United States.
[94] Shaohui Kuang and Deyi Xiong (2016), “Automatic Long Sentence Seg-
mentation for Neural Machine Translation”, Proceeding of the 24th Inter-
national Conference on Computer Processing of Oriental Languages, IC-
CPOL 2016, pp. 162–174.
[95] Shengxiang Gao et al. (2018), “A Method to Chinese-Vietnamese Bilingual
Metallurgy Term Extraction Based on a Pivot Language”, Proceedings of
the 6th CCF Conference, Big Data, pp. 3–20, doi: 10.1007/978-981-13-
2922-7_1.
[96] Shuoyang Ding, Hainan Xu, and Philipp Koehn (2019), “Saliency-driven
Word Alignment Interpretation for Neural Machine Translation”, Proceed-
ings of the Fourth Conference on Machine Translation (Volume 1: Research
Papers), pp. 1–12, url: http://www.aclweb.org/anthology/W19-5201.
[97] S. K. Jang and J.S. Chang (1997), “A Class-based Approach to Word
Alignment”, Computational Linguistics, Vol.23(2), pp. 313–343.
[98] Solomon Teferra Abate et al. (2018), “Parallel Corpora for bi-Directional
Statistical Machine Translation for Seven Ethiopian Language Pairs”, Pro-
148
ceedings of the First Workshop on Linguistic Resources for Natural Lan-
guage Processing, pp. 83–90, url: https://www.aclweb.org/anthology/
W18-3812.
[99] Stanley F. Chen (1993), “Aligning Sentences in Bilingual Corpora Using
Lexical Information”, Proceedings of the 31st Annual Meeting on Associa-
tion for Computational Linguistics, 9–16, doi: 10.3115/981574.981576,
url: https://doi.org/10.3115/981574.981576.
[100] Stephan Vogel et al. (2000), “Statistical Methods for Machine Transla-
tion”, Springer, Berlin, Heidelberg, doi: 10 . 1007 / 978 - 3 - 662 - 04230 -
4_27.
[101] Stig-Arne Gr¨onroos, Sami Virpioja, and Mikko Kurimo ((2015)), “Tuning
Phrase-Based Segmented Translation for a Morphologically Complex Tar-
get Language”, Proceedings of the Tenth Workshop on Statistical Machine
Translation, pp. 105–111, url: http : / / aclweb . org / anthology / W15 -
3010.
[102] TAN Min, DUAN Xiangyu, ZHANG Min (2019), “Neural Machine Trans-
lation Domain Adaptation Based on Domain Features”, Journal of Chinese
Information Processing, Vol.33 (7), p. 56, url: http://jcip.cipsc.org.
cn/EN/abstract/article_2798.shtml.
[103] Thomas M. Cover and Joy A. Thomas (1991), Elements of Information
Theory, New York : Wiley, c(cid:13)1991., isbn: 978-0-471-24195-9.
[104] Trieu Hai Long and Nguyen Le Minh (2017), “A Multilingual Parallel
Corpus for Improving Machine Translation on Southeast Asian Languages”,
Machine Translation Summit XVI.
[105] Trieu Hai-Long, Nguyen Phuong-Thai, and Nguyen Le-Minh (2015), “A
New Feature to Improve Moore’s Sentence Alignment Method”, VNU Jour-
149
nal of Science: Comp. Science & Com, Eng. Vol. 31. No. 1, 32–44.
[106] Van Ngoc Sang (2007), “Building Vietnamese -Jrai; Jrai - Vietnamese
dictionary”, Research project and technology, Ministry level, Vietnam.
[107] Van Ngoc Sang, Mohamad Bin Bilal Ali, Noor Dayana Abd Halim (2016),
“Building Cham - Vietnamese Electronic Dictionary”, Journal Pendidikan
Nusantara, ISSN 2289 -9375 (Print). Special Edition, No. 1, pp. 215–223.
[108] V. I. Levenshtein (1966), “Binary Codes Capable of Correcting Deletions,
Insertions and Reversals”, Soviet Physics Doklady, Vol.10, pp. 707–710.
[109] Vincent Vandeghinste et al. (2006), “METIS-II: Machine Translation for
Low Resource Languages”, Proceedings of the Fifth International Confer-
ence on Language Resources and Evaluation (LREC’06).
[110] Warren Weaver (1953), “Recent Contributions to the Mathematical The-
ory of Communication”, ETC: A Review of General Semantics, Vol.10,
No.4, pp. 261–281.
[111] Wei Yang, Jinghui Yan, and Yves Lepage (2016), “Extraction of Bilingual
Technical Terms for Chinese-Japanese Patent Translation”, Proceedings of
the NAACL Student Research Workshop, pp. 81–87, doi: 10.18653/v1/
N16-2012, url: https://www.aclweb.org/anthology/N16-2012.
[112] William A. Gale and Kenneth Ward Church (1991), “A program for Align-
ing sentences in bilingual corpora”, Proceedings of the 29th Annual Meeting
of the Association of Computational Linguistics (ACL).
[113] Wujie Zheng and Wenyu Wang and Dian Liu and Changrong Zhang and
Qinsong Zeng and Yuetang Deng and Wei Yang and Tao Xie (2018),
“Oracle-free Detection of Translation Issue for Neural Machine Transla-
tion”, CoRR, abs/1807.02340.
[114] Xabier Saralegi and I˜naki San Vicente and Antton Gurrutxaga (2008),
150
“Automatic Extraction of Bilingual Terms from Comparable Corpora in
a Popular Science Domain”, Proceeding of the Workshop on Comparable
Corpora, LREC 2008, pp. 27–32.
[115] Yasuhiro Ogawa and Makoto Nakamura and Tomohiro Ohno and Kat-
suhiko Toyama (2018), “Extraction of legal bilingual phrases from the
Japanese Official Gazette, English Edition”, Journal of Information and
Telecommunication, Vol.2 (4), pp. 359–373, doi: 10 . 1080 / 24751839 .
2017 . 1380272, eprint: https : / / doi . org / 10 . 1080 / 24751839 . 2017 .
1380272, url: https://doi.org/10.1080/24751839.2017.1380272.
[116] Yonghui Wu and Mike Schuster and Zhifeng Chen and Quoc V. Le and
Mohammad Norouzi and Wolfgang Macherey and Maxim Krikun and Yuan
Cao and Qin Gao and Klaus Macherey and Jeff Klingner and Apurva Shah
and Melvin Johnson and Xiaobing Liu and (cid:32)Lukasz Kaiser and Stephan
Gouws and Yoshikiyo Kato and Taku Kudo and Hideto Kazawa and Keith
Stevens and George Kurian and Nishant Patil and Wei Wang and Cliff
Young and Jason Smith and Jason Riesa and Alex Rudnick and Oriol
Vinyals and Greg Corrado and Macduff Hughes and Jeffrey Dean (2016),
“Google’s Neural Machine Translation System: Bridging the Gap between
Human and Machine Translation”, CoRR, abs/1609.08144, arXiv: 1609.
08144v2 [cs.CL].
[117] Yorick Wilks (1979), “MACHINE TRANSLATION AND ARTIFICIAL
INTELLIGENCE"”, Translating and the Computer, B.M. Snell (ed.)
[118] Yun-Chuang Chiao et al. (2006), “Evaluation of multilingual text align-
ment systems: the ARCADE II project”, Proceedings of the Fifth Inter-
national Conference on Language Resources and Evaluation (LREC’06),
url: http://www.lrec- conf.org/proceedings/lrec2006/pdf/506_
151
pdf.pdf.
[119] Zi-Yi Dou et al. (2019), “Domain Differential Adaptation for Neural Ma-
chine Translation”, Proceedings of the 3rd Workshop on Neural Generation
152
and Translation (WNGT 2019), pp. 59–69, doi: 10.18653/v1/D19-5606.
Phụ lục
Một số thuật ngữ sử dụng trong xây dựng kho ngữ liệu:
Kho ngữ liệu: Là tập hợp các mảnh ngôn ngữ được chọn lựa và sắp xếp
theo một số tiêu chí ngôn ngữ học rõ ràng để được sử dụng như một mẫu của
ngôn ngữ.
Kho ngữ liệu số: Là kho ngữ liệu được mã hóa theo một chuẩn nhất định
và đồng nhất để có thể khai thác cho các ứng dụng khác nhau.
Kho ngữ liệu song ngữ: Là một tập văn bản được viết bằng hai ngôn ngữ.
Kho ngữ liệu song song đa ngôn ngữ: Là một tập văn bản được viết
bằng nhiều ngôn ngữ.
• Dóng hàng mức văn bản: các văn bản trong kho ngữ liệu được ánh xạ với
Dóng hàng văn bản song ngữ:
• Dóng hàng mức đoạn: các đoạn trong hai văn bản được ánh xạ với nhau,
nhau, tài liệu này là bản dịch của tài liệu kia.
• Dóng hàng mức câu: các câu trong hai văn bản được ánh xạ với nhau, câu
một vài đoạn này sẽ là bản dịch của một vài đoạn kia.
• Dóng hàng mức cụm từ: các cụm từ trong hai văn bản được ánh xạ với
này là bản dịch của câu kia.
• Dóng hàng mức từ: các từ trong hai văn bản được ánh xạ với nhau, từ này
nhau, cụm từ này là bản dịch của cụm từ kia.
1
là bản dịch của từ kia. dóng hàng mức cụm từ là mức dóng hàng chi tiết
2
nhất trong kho ngữ liệu song ngữ.