ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

———————

NGUYỄN TIẾN HÀ

NGHIÊN CỨU XÂY DỰNG

TÀI NGUYÊN SONG NGỮ VIỆT-ANH

ỨNG DỤNG CHO DỊCH MÁY THEO MIỀN

LUẬN ÁN TIẾN SĨ TOÁN HỌC

Hà Nội - 2020

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

———————

NGUYỄN TIẾN HÀ

NGHIÊN CỨU XÂY DỰNG

TÀI NGUYÊN SONG NGỮ VIỆT-ANH

ỨNG DỤNG CHO DỊCH MÁY THEO MIỀN

Chuyên ngành: Cơ sở toán học cho tin học Mã số:

9460117.02

LUẬN ÁN TIẾN SĨ TOÁN HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:

1. TS. Nguyễn Thị Minh Huyền

2. PGS.TS. Nguyễn Hữu Ngự

Hà Nội - 2020

LỜI CAM ĐOAN

Tôi xin cam đoan các nội dung trình bày trong luận án này là kết quả nghiên

cứu của tôi, được thực hiện dưới sự hướng dẫn của TS. Nguyễn Thị Minh Huyền

và PGS. TS. Nguyễn Hữu Ngự. Các nội dung trích dẫn từ các nghiên cứu của

các tác giả khác trình bày trong luận án này được ghi rõ nguồn trong phần tài

liệu tham khảo.

Nguyễn Tiến Hà

LỜI CẢM ƠN

Tôi xin gửi lời cảm ơn sâu sắc đến TS. Nguyễn Thị Minh Huyền và PGS.TS.

Nguyễn Hữu Ngự đã trực tiếp hướng dẫn, chỉ bảo tận tình, luôn hỗ trợ và tạo

những điều kiện tốt nhất cho tôi trong quá trình học tập và nghiên cứu.

Tôi xin gửi lời cảm ơn đến các thầy/cô giáo ở Khoa Toán - Cơ - Tin học,

Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội, đặc biệt là các

thầy/cô giáo ở Bộ môn Tin học, những người đã trực tiếp giảng dạy và giúp đỡ

tôi trong quá trình học tập và nghiên cứu ở trường.

Tôi xin gửi cảm ơn đến TS. Nguyễn Văn Vinh, PGS. TS. Nguyễn Phương

Thái, PGS. TS Phan Xuân Hiếu Trường Đại học Công nghệ, Đại học Quốc gia

Hà Nội; TS. Trần Thị Oanh khoa Quốc tế, Đại học Quốc gia Hà Nội; PGS. TS.

Lê Thanh Hương, TS. Đỗ Thị Ngọc Diệp Trường Đại học Bách khoa Hà Nội;

PGS. TS Đỗ Trung Tuấn, TS. Đỗ Thanh Hà, TS. Lê Hồng Phương, PGS. TS.

Lê Trọng Vĩnh, TS. Nguyễn Thị Bích Thủy, TS. Vũ Tiến Dũng Trường Đại học

Khoa học Tự nhiên, Đại học Quốc gia Hà Nội, các thầy/cô đã có những góp ý

chỉnh sửa để tôi hoàn thiện luận án.

Tôi xin gửi lời cảm ơn đến tất cả anh, chị, em ở Bộ môn Tin học, Khoa Toán-

Cơ-Tin học, Trường đại học khoa học Tự nhiên, Đại học Quốc gia Hà Nội và

Bộ môn Khoa học máy tính, Khoa Công nghệ thông tin, Trường Đại học Công

nghệ, Đại học Quốc gia Hà Nội đã giúp đỡ tôi trong thời gian làm nghiên cứu

sinh.

Cuối cùng, tôi xin gửi lời cảm ơn đến tất cả các thành viên trong gia đình,

các bạn bè, đồng nghiệp nơi tôi công tác đã luôn ủng hộ, chia sẻ, động viên và

khích lệ tôi học tập, nghiên cứu.

Mục lục

Danh mục các chữ viết tắt 4

Mở đầu 9

15 1 Tổng quan về dịch máy và tài nguyên ngôn ngữ

1.1 Tổng quan về dịch máy . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.1.1 Lịch sử về dịch máy . . . . . . . . . . . . . . . . . . . . . . 16

1.1.2 Kiến trúc của hệ thống dịch máy . . . . . . . . . . . . . . . 19

1.1.3 Các phương pháp dịch máy . . . . . . . . . . . . . . . . . . 22

1.1.4 Các hệ thống dịch máy có thể sử dụng để thực nghiệm . . 30

1.1.5 Đánh giá các hệ thống dịch máy . . . . . . . . . . . . . . . 32

1.2 Tài nguyên ngôn ngữ cho hệ thống dịch máy . . . . . . . . . . . . 35

1.2.1 Tài nguyên đa ngữ cho dịch máy . . . . . . . . . . . . . . . 35

1.2.2 Tài nguyên song ngữ Việt-Anh . . . . . . . . . . . . . . . . 38

1.3 Thích ứng miền trong dịch máy . . . . . . . . . . . . . . . . . . . . 41

1.4 Các công cụ tiền xử lý văn bản . . . . . . . . . . . . . . . . . . . . 43

1.5 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

2 Xây dựng kho ngữ liệu song ngữ Việt - Anh dóng hàng mức câu

theo miền 47

2.1 Xây dựng kho ngữ liệu song ngữ Việt-Anh theo miền . . . . . . . 48

1

2.1.1 Phương pháp thu thập ngữ liệu song ngữ và dóng hàng câu 48

2.1.2 Xây dựng kho ngữ liệu song ngữ Việt - Anh miền du lịch . 49

2.2 Dóng hàng văn bản song ngữ Việt-Anh . . . . . . . . . . . . . . . 52

2.2.1 Phương pháp dóng hàng văn bản song ngữ mức câu . . . . 52

2.2.2 Cải tiến công cụ dóng hàng câu XAlign . . . . . . . . . . . 54

2.3 Ứng dụng kho ngữ liệu du lịch song ngữ Việt-Anh cho hệ thống

dịch máy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

2.3.1 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . 65

2.3.2 Một số lỗi của hệ thống dịch . . . . . . . . . . . . . . . . . 68

2.4 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

3 Xây dựng kho ngữ liệu từ, cụm từ song ngữ Việt-Anh 72

3.1 Xây dựng tự động kho từ vựng song ngữ Việt - Anh . . . . . . . . 73

3.1.1 Xây dựng kho từ vựng song ngữ . . . . . . . . . . . . . . . 73

3.1.2 Phương pháp xây dựng tự động từ vựng song ngữ Việt-Anh 77

3.1.3 Phương pháp xây dựng tự động từ vựng song ngữ Việt-

Anh miền du lịch . . . . . . . . . . . . . . . . . . . . . . . . 79

3.1.4 Thực nghiệm và kết quả . . . . . . . . . . . . . . . . . . . . 84

3.2 Trích rút thuật ngữ song ngữ Việt-Anh từ văn bản đơn ngữ tiếng

Việt dựa vào tập luật . . . . . . . . . . . . . . . . . . . . . . . . . . 88

3.2.1 Các công trình nghiên cứu có liên quan . . . . . . . . . . . 90

3.2.2 Phương pháp trích rút thuật ngữ song ngữ Việt-Anh từ

văn bản đơn ngữ tiếng Việt . . . . . . . . . . . . . . . . . . 93

3.2.3 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . 104

3.3 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

4 Khai thác kho ngữ liệu song ngữ Việt-Anh cho dịch máy 108

4.1 Tiền xử lý dữ liệu huấn luyện trong dịch máy nơ-ron . . . . . . . . 108

2

4.1.1 Phương pháp tiền xử lý câu dài trong dịch máy nơ-ron . . 110

4.1.2 Phương pháp trích rút cụm từ ExtPhrase . . . . . . . . . 112

4.1.3 Thực nghiệm và kết quả . . . . . . . . . . . . . . . . . . . . 115

4.2 Phương pháp sinh tự động chú giải tiếng Việt cho hình ảnh . . . . 119

4.2.1 Các công trình có liên quan đến sinh chú giải cho ảnh . . . 119

4.2.2 Đề xuất quy trình xây dựng hệ thống sinh chú giải tiếng

Việt cho ảnh . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

4.3 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

Kết luận 131

Danh mục công trình khoa học của tác giả liên quan đến luận án 133

3

Tài liệu tham khảo 135

Danh mục các chữ viết tắt

ALPAC Automatic Language Processing Advisory Committee

(Hội đồng cố vấn xử lý ngôn ngữ tự động)

BiTES Bilingual Term Extraction System

(Hệ thống trích rút thuật ngữ song ngữ)

BLEU BiLingual Evaluation Understudy

(Chỉ số đánh giá chất lượng dịch song ngữ)

CNN Convolutional Neural Network (Mạng nơ-ron tích chập)

DTW Dynamic Time Warping

(Thuật toán căn chỉnh thời gian động)

GRU Gated Recurrent Unit (Đơn vị hồi quy cổng)

LSTM Long Short Term Memory (Bộ nhớ dài ngắn hạn)

MI Mutual Information (Thông tin tương hỗ)

NLP Natural Language Processing (Xử lý ngôn ngữ tự nhiên)

NMT Neural Machine Translation (Dịch máy mạng nơ-ron)

OPUS The open parallel corpus (Kho ngữ liệu song song mở)

PBSMT Phrase-Based Statistical Machine Translation

(Dịch máy dựa trên cụm từ)

Position-independent word Error Rate (Tỷ lệ lỗi từ độc lập vị trí) PER

Recurrent Neural Network (Mạng nơ-ron hồi quy) RNN

Statistical Machine Translation (Dịch máy thống kê) SMT

SALM Suffix Array tool kit for empirical Language Manipulations

4

(Công cụ lọc bảng cụm từ trong Moses)

TER Translation Error Rate (Tỷ lệ lỗi dịch)

TV Television (Truyền hình)

VLSP Vietnamese Language Speech Processing

(Xử lý ngôn ngữ và tiếng nói tiếng Việt)

5

WER Word Error Rate (Tỷ lệ lỗi từ)

Danh sách hình vẽ

1.1 Tam giác Vauquois . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

1.2 Mô hình dịch trực tiếp . . . . . . . . . . . . . . . . . . . . . . . . . 21

1.3 Mô hình dịch qua ngôn ngữ trung gian . . . . . . . . . . . . . . . 22

1.4 Mô hình dịch máy thống kê . . . . . . . . . . . . . . . . . . . . . . 24

1.5 Cấu trúc của hệ thống dịch máy dựa trên mạng nơ-ron . . . . . . 27

1.6 Cấu trúc của hệ thống dịch máy MOSES . . . . . . . . . . . . . . 30

3.1 Phương pháp xây dựng tự động từ vựng Việt-Anh . . . . . . . . . 77

3.2 Phương pháp xây dựng tự động từ điển Việt-Anh miền du lịch . . 82

3.3 Mô hình trích rút thuật ngữ song ngữ Việt-Anh từ văn bản tiếng

Việt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

3.4 Mô hình áp dụng các luật để lựa chọn các ứng viên là thuật ngữ

song ngữ Việt-Anh . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

4.1 Mô hình chú ý toàn cục . . . . . . . . . . . . . . . . . . . . . . . . 111

4.2 Mô hình chú ý cục bộ. . . . . . . . . . . . . . . . . . . . . . . . . . 111

4.3 Mô hình tiền xử lý câu dài hơn 30 từ trong huấn luyện hệ thống

dịch máy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

4.4 Điểm BLEU của các hệ thống theo độ dài từ tiếng Việt được coi

là câu tiếng Việt dài . . . . . . . . . . . . . . . . . . . . . . . . . . 118

4.5 Mô hình chú giải tiếng Việt cho ảnh . . . . . . . . . . . . . . . . . 123

6

4.6 So sánh chất lượng dịch máy với Google . . . . . . . . . . . . . . . 125

Danh sách bảng

2.1 Kích thước kho ngữ liệu song ngữ Việt-Anh miền du lịch thu thập

được . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

2.2 Giá trị penalty cho mỗi kiểu dóng hàng . . . . . . . . . . . . . . . 62

2.3 Dóng hàng trên kho ngữ liệu Việt-Anh "Le Petit prince" . . . . . 63

2.4 Dóng hàng trên kho ngữ liệu du lịch Việt-Anh . . . . . . . . . . . 63

2.5 Điểm BLEU của 6 hệ thống dịch . . . . . . . . . . . . . . . . . . . 67

2.6 Điểm BLEU của 17 Hệ thống dịch máy khi dịch các tệp kiểm tra

gồm 10.000 câu tiếng Việt sang tiếng Anh, so với Hệ thống dịch

máy Google Translate năm 2017 . . . . . . . . . . . . . . . . . . . . 69

3.1 Từ điển song ngữ Việt-Anh trích rút từ kho ngữ liệu gồm 600.389

cặp câu song ngữ Việt – Anh . . . . . . . . . . . . . . . . . . . . . 86

3.2 Từ điển song ngữ Việt-Anh miền du lịch trích rút từ kho ngữ liệu

CorTurism3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

3.3 Kết quả tra một số từ trong từ điển được xây dựng bằng phương

pháp đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

3.4 Thống kê về trích rút ứng viên thuật ngữ . . . . . . . . . . . . . . 104

3.5 Số ứng viên thỏa mãn từng luật trên kho ngữ liệu y tế . . . . . . . 105

3.6 Số lần áp dụng luật trên dữ liệu Wikipedia . . . . . . . . . . . . . 105

3.7 Đánh giá kết quả các cặp thuật ngữ thu được . . . . . . . . . . . . 105

7

3.8 Phân tích kết quả từ các cặp thuật ngữ được trích rút . . . . . . . 106

4.1 Thống kê kho ngữ liệu song ngữ . . . . . . . . . . . . . . . . . . . 116

4.2 Kết quả trích rút cặp cụm từ song ngữ . . . . . . . . . . . . . . . . 116

4.3 Kết quả tiền xử lý câu dài trong dịch máy nơ-ron . . . . . . . . . 117

4.4 Chất lượng dịch của 499 câu tiếng Việt dài hơn 30 từ . . . . . . . 119

4.5 Điểm BLEU của các hệ thống khi dịch 500 câu chú giải ảnh từ

tiếng Anh sang tiếng Việt . . . . . . . . . . . . . . . . . . . . . . . 125

4.6 Điểm BLEU của hệ thống dịch 500 câu chú giải ảnh từ tiếng Anh

sang tiếng Việt sử dụng kỹ thuật xử lý từ mới . . . . . . . . . . . 128

8

4.7 Một số kết quả của hệ thống chú giải hình ảnh bằng tiếng Việt . 130

MỞ ĐẦU

Từ xa xưa, con người đã có mong ước dùng máy móc để dịch văn bản từ ngôn

ngữ này sang ngôn ngữ khác. Đặc biệt trong giai đoạn hiện nay, các nước đều có

xu hướng hội nhập quốc tế sâu rộng. Trong quá trình hội nhập, con người luôn

có mong muốn nắm bắt các thông tin được viết từ các ngôn ngữ khác nhau một

cách nhanh chóng, do đó rất cần đến sự trợ giúp của các hệ thống dịch máy.

Ngày nay, với sự hỗ trợ mạnh mẽ của phần cứng máy tính và Internet, dịch

máy đã cho kết quả dịch có thể chấp nhận được và nhiều ứng dụng dịch đã được

đưa vào sử dụng: dịch tiếng nói; dịch tự động giữa nhiều ngôn ngữ khác nhau

(Google Translate hỗ trợ dịch giữa hơn 100 thứ tiếng khác nhau); dịch các phụ

đề phim; dịch các trang Web; . . . Chất lượng dịch máy ngày càng được cải thiện,

hứa hẹn sẽ mang đến nhiều ứng dụng trong nhiều lĩnh vực khác nhau.

Trong nghiên cứu xây dựng hệ thống dịch máy, có một số hướng tiếp cận

khác nhau, như: Dịch dựa trên luật, dịch dựa trên thống kê; dịch dựa vào mạng

nơ-ron; dịch dựa trên cơ sở tri thức. Trong các hướng tiếp cận này, tiếp cận dịch

máy dựa vào mạng nơ-ron được đánh giá là có ưu thế vượt trội và được kỳ vọng

là thu hẹp khoảng cách ngôn ngữ giữa con người và máy tính [116].

Các hệ thống dịch máy, đặc biệt là hệ thống dịch máy dựa vào thống kê hay

dựa vào mạng nơ-ron, rất cần đến một kho ngữ liệu song ngữ kích thước lớn

và có chất lượng để huấn luyện và nâng cao chất lượng dịch. Đã có nhiều công

trình nghiên cứu, đề xuất phương pháp xây dựng kho ngữ liệu song ngữ cho các

cặp ngôn ngữ. Ban đầu, các công trình tập trung vào nghiên cứu xây dựng kho

ngữ liệu cho từng cặp ngôn ngữ đơn lẻ:

Công trình của Resnik năm 1999 [87] đã xây dựng được kho ngữ liệu song

ngữ Anh-Pháp với 2.491 cặp văn bản, xấp xỉ 1, 5 triệu từ trên mỗi văn bản.

9

Công trình của Chang Baobao năm 2004 [10] đã xây dựng được kho ngữ liệu với

400.000 cặp câu. Công trình của Megyesi và cộng sự năm 2006 [12] đã xây dựng

được kho ngữ liệu xấp xỉ 15.000 từ tiếng Thụy Điển và 10.000 từ tiếng Thổ Nhĩ

Kỳ.

Các công trình nghiên cứu xây dựng kho ngữ liệu song ngữ gần đây tập trung

vào xây dựng kho ngữ liệu song song đa ngôn ngữ với kích thước lớn:

1. Công trình của Tiedemann năm 2016 [50], xây kho ngữ liệu OPUS dóng

hàng mức câu với trên 60 ngôn ngữ có tổng số 2,6 tỷ cặp câu. Dữ liệu trong

kho OPUS (The open parallel corpus) được thu thập từ Internet và chủ yếu

là từ phụ đề phim ảnh và phụ đề trên các chương trình TV (Television).

OPUS được xây dựng dựa trên các công cụ mã nguồn mở và chia sẻ trong

cộng đồng nghiên cứu.

2. Công trình của Abate và cộng sự năm 2018 [98] xây dựng được kho ngữ

liệu song song cho 7 cặp ngôn ngữ: (i)Amharic - Tigrigna: 34.349 cặp câu;

10.987 cặp câu; (iv) Amharic - Wolaytta: 9.400 cặp câu; (v) Ge’ez - Amharic:

11.546 cặp câu; (vi)Wolaytta - Afan Oromo: 2.923 cặp câu; (vii)Tigrigna -

(ii)Amharic - Afan Oromo: 11.457 cặp câu; (iii) Tigrigna - Afan Oromo:

Wolaytta: 2.504 cặp câu.

3. Công trình của Kenji Imamura và Eiichiro Sumita năm 2018 [55] đã xây

dựng kho ngữ liệu song song của 10 ngôn ngữ với kích thước lớn: (i)

2.026.608 câu; (iv) Tiếng Hàn Quốc: 2.026.608 câu; (v) Tiếng Thái: 1.150.070

Tiếng Nhật: 2.029.111 câu; (ii) Tiếng Anh: 2.029.111 câu; (iii) Tiếng Trung:

câu; (vi) Tiếng Việt: 1.150.070 câu; (vii) Tiếng In-đô-nê-xi-a: 1.150.070 câu;

(vii) Tiếng Ma-lai-xi-a: 1.150.070 câu; (ix) Tiếng Tây Ba Nha: 337.654 câu;

(x) Tiếng Pháp 340.499 câu.

Đối với tiếng Việt, đã có các đề tài, công trình nghiên cứu xây dựng kho ngữ

10

liệu song ngữ Anh-Việt như:

1. Kho ngữ liệu trong đề tài VLSP (Vietnamese Language Speech Processing)

nhánh đề tài xử lý văn bản1 có 100.000 cặp câu song ngữ Anh-Việt và đã

được chia sẻ cho cộng đồng nghiên cứu.

2. Kho ngữ liệu trong công trình "Trích rút văn bản song ngữ từ trang Web"

năm 2010 của Lê Quang Hùng và Lê Anh Cường [59] có trên 35.000 cặp câu.

3. Kho ngữ liệu trong công trình "Kho ngữ liệu song ngữ Anh - Việt EVB-

Corpus cho nghiên cứu các tác vụ trong Ngôn ngữ học so sánh" năm 2013

của Ngô Quốc Hùng và Cộng sự [75]. Ở công trình này, nhóm tác giả đã

xây dựng được kho ngữ liệu song ngữ Anh-Việt 800.000 cặp câu, trong đó

có trên 45.000 cặp câu được dóng hàng mức từ.

4. Kho ngữ liệu trong công trình về xây dựng kho ngữ liệu song song đa ngôn

ngữ cho 10 cặp ngôn ngữ của các tác giả Triệu Hải Long và Nguyễn Lê

Minh năm 2017 [104] có kích thước hơn 1, 1 triệu cặp câu.

5. Kho ngữ liệu trong công trình của các tác giả Ngô Quốc Hùng công bố năm

2018 với trên 2 triệu cặp câu song ngữ Anh-Việt và trên 20 triệu cặp từ

song ngữ 2.

Liên quan đến xây dựng kho ngữ liệu trên thế giới và ở Việt Nam gần đây,

các nhà nghiên cứu tập trung vào xây dựng kho ngữ liệu song song đa ngôn ngữ

với kích thước lớn [104] [55] [41]. Khó khăn mà hầu hết các công trình nghiên

cứu xây dựng kho ngữ liệu song song đang phải đối mặt là sự thiếu tài nguyên

song ngữ và chưa tận dụng được hết các dạng tài nguyên. Ngoài ra các công

trình chỉ tập trung vào kỹ thuật khai phá miền chung và chưa nghiên cứu các

kỹ thuật khai phá dữ liệu theo miền cụ thể.

Các nguồn văn bản song ngữ sẵn có cho tiếng Việt và một ngôn ngữ khác

1https://vlsp.hpda.vn/demo/?page=resources 2https://sites.google.com/a/uit.edu.vn/hungnq/evbcorpus

11

như cặp ngôn ngữ Việt-Anh vốn còn hạn chế, nên việc xây dựng kho ngữ liệu

song ngữ Việt-Anh kích thước lớn là một vấn đề khó khăn. Do đó chất lượng

dịch máy Việt-Anh còn chưa cao.

Bên cạnh đó, miền dữ liệu huấn luyện hệ thống dịch máy cũng có ảnh hưởng

đến chất lượng của các hệ thống dịch máy. Công trình nghiên cứu của Koehn

và cộng sự năm 2017 về 6 thách thức đối với hệ thống dịch máy nơ-ron [85] đã

chỉ ra hệ thống dịch máy nơ-ron bị giảm chất lượng khi dịch các văn bản ngoài

miền huấn luyện hệ thống. Để khắc phục hạn chế này, các nhà nghiên cứu sử

dụng phương pháp thích ứng miền trong đó các kho ngữ liệu song ngữ theo miền

đóng vai trò quan trọng [89] [52] [102] [119] [53] [24].

Du lịch là một lĩnh vực ưu tiên phát triển tại Việt Nam. Lượng khách nước

ngoài đến Việt Nam ngày càng tăng. Theo thống kê của Tổng cục Du lịch Việt

Nam, lượng khách quốc tế đến Việt Nam năm 2019 là 1.809.580 lượt.3 Nhu cầu

dịch tự động Việt-Anh trong lĩnh vực du lịch do vậy cũng rất lớn.

Trong thời gian gần đây, tình hình về bệnh dịch và sự xuất hiện các loại bệnh

mới ngày một nhiều, dẫn đến nhu cầu tìm hiểu và tra cứu các văn bản thuộc

miền y tế ngày càng cao. Do đó hệ dịch Anh-Việt có chất lượng trong lĩnh vực

y tế để hỗ trợ nhu cầu này đang trở nên cần thiết. Vì vậy việc khai phá dữ liệu

để xây dựng kho ngữ liệu song ngữ miền y tế cần được quan tâm.

Từ những lý do nêu trên, luận án nghiên cứu xây dựng kho ngữ liệu song ngữ

Việt-Anh theo miền cho các hệ thống dịch máy và miền dữ liệu được ưu tiên

xây dựng là du lịch và y tế.

• Xây dựng kho ngữ liệu song ngữ Việt-Anh có dóng hàng cho dịch máy theo

Mục tiêu cụ thể của luận án:

• Nghiên cứu các phương pháp nâng cao hiệu suất của kho ngữ liệu song ngữ

miền.

3http://vietnamtourism.gov.vn/index.php/statistic/international

12

Việt-Anh trong dịch máy.

Để thực hiện các mục tiêu này, luận án triển khai thực hiện các nội dung sau:

1. Thu thập dữ liệu song ngữ Việt-Anh miền chung (các văn bản chứa nội

dung của nhiều lĩnh vực khác nhau) và các miền của từng lĩnh vực, trong

đó miền du lịch và miền y tế được ưu tiên.

2. Nghiên cứu nâng cao hiệu quả công cụ dóng hàng câu cho cặp ngôn ngữ

Việt-Anh và xây dựng kho ngữ liệu song ngữ Việt-Anh theo miền.

3. Nghiên cứu đề xuất các phương pháp trích rút tự động các cặp từ, cụm từ

song ngữ để xây dựng kho ngữ liệu từ và cụm từ song ngữ Việt-Anh.

4. Nghiên cứu một số kỹ thuật khai thác kho ngữ liệu song ngữ Việt-Anh thu

thập được trong dịch máy.

Luận án đạt được các kết quả sau:

1. Luận án đã đề xuất kỹ thuật cải tiến công cụ dóng hàng XAlign cho cặp

ngôn ngữ Việt-Anh.4 Sử dụng công cụ dóng hàng này luận án đã thu thập

và xây dựng được: trên 20.000 cặp câu miền du lịch5; trên 270.000 cặp câu

miền chung.6 Kết quả này được công bố trong [CT1].

2. Luận án đã đề xuất và triển khai các phương pháp trích rút từ và cụm từ

song ngữ từ kho ngữ liệu song ngữ và kho ngữ liệu đơn ngữ. Từ đó đã xây

dựng được kho ngữ liệu trên 40.000 cặp từ và cụm từ song ngữ, bao gồm:

trên 1.000 cặp cho miền du lịch,7 trên 600 cặp cho miền y tế,8 còn lại thuộc

miền chung.9 Các kết quả liên quan được công bố trong [CT3] và [CT4].

3. Luận án đã đề xuất kỹ thuật tiền xử lý câu dài trong dịch máy nơ-ron cải

4 https://github.com/viXAlign/viXAlign-project 5https://github.com/Tienhavn/tourismcorpus 6https://github.com/Tienhavn/generalcorpus 7 https://github.com/Tienhavn/Tourismterm 8 https://github.com/Tienhavn/medicalterm 9https://github.com/Tienhavn/generaltermcorpus

13

thiện chất lượng dịch. Kết quả này được công bố trong [CT2].

4. Luận án triển khai một phương pháp sinh chú giải tiếng Việt tự động cho

hình ảnh dựa vào dịch máy Anh-Việt. Để nâng cao chất lượng dịch, luận án

đã đề xuất một kỹ thuật khai thác từ diển để xử lý các từ mới (unknown

words) đối với hệ thống dịch. Kết quả này được trình bày trong [CT6]

Cấu trúc luận án

[CT7].

• Chương 1: Giới thiệu tổng quan về dịch máy và tài nguyên ngôn ngữ. Trong

Sau phần mở đầu, nội dung chính của luận án bao gồm 4 chương.

chương này, luận án trình bày các hướng tiếp cận của dịch máy, độ đo dùng

trong đánh giá chất lượng các hệ thống dịch máy và vai trò của kho ngữ

• Chương 2: Tập trung vào vấn đề xây dựng kho ngữ liệu song ngữ Việt-Anh

liệu song ngữ.

có dóng hàng mức câu. Đóng góp chính của chương này là đề xuất cải tiến

công cụ dóng hàng câu cho cặp ngôn ngữ Việt-Anh. Bên cạnh đó là việc

• Chương 3: Trình bày một số phương pháp xây dựng kho ngữ liệu từ, cụm

xây dựng kho ngữ liệu song ngữ Việt-Anh trên miền du lịch.

từ song ngữ Việt-Anh, từ kho ngữ liệu song ngữ Việt-Anh có dóng hàng

• Chương 4: Trình bày hai kỹ thuật nâng cao chất lượng hệ thống dịch máy

mức câu và từ văn bản đơn ngữ tiếng Việt.

nơ-ron. Kỹ thuật thứ nhất là thực hiện tiền xử lý câu dài để làm giàu mô

hình dịch. Kỹ thuật thứ hai là khai thác từ điển để xử lý các từ mới đối với

hệ thống dịch, kỹ thuật này đã được ứng dụng trong hệ thống dịch tự động

chú giải ảnh từ tiếng Anh sang tiếng Việt.

Phần kết luận: Trình bày tóm lược các kết quả và đóng góp của luận án đồng

14

thời nêu ra những hạn chế và hướng phát triển của luận án.

Chương 1

Tổng quan về dịch máy và tài

nguyên ngôn ngữ

Chương này trình bày tổng quan về dịch máy và tài nguyên ngôn ngữ được

sử dụng trong dịch máy: lịch sử về dịch máy; kiến trúc của hệ thống dịch máy;

các hướng tiếp cận của dịch máy; đánh giá hệ thống dịch máy; tài nguyên ngôn

ngữ và tài nguyên ngôn ngữ cho các hệ thống dịch máy; thích ứng miền trong

dịch máy và các công cụ tiền xử lý văn bản tiếng Việt. Chúng tôi phân tích,

đánh giá các công trình nghiên cứu liên quan, đưa ra vấn đề còn tồn tại mà luận

1.1 Tổng quan về dịch máy

án sẽ giải quyết.

Dịch máy là gì?

Dịch máy là một hệ thống sử dụng máy tính để chuyển đổi văn bản được viết

trong ngôn ngữ tự nhiên này thành bản dịch tương đương trong ngôn ngữ khác.

Ngôn ngữ của văn bản cần dịch còn gọi là ngôn ngữ nguồn, ngôn ngữ của bản

15

dịch được gọi là ngôn ngữ đích.

1.1.1 Lịch sử về dịch máy

Mơ ước về việc có thể hiểu ngôn ngữ của dân tộc khác của con người đã có

từ rất lâu, từ thế kỷ 17 nhiều nhà nghiên cứu đã có những nỗ lực đầu tiên trong

việc xây dựng một cách biểu diễn chung cho tất cả các ngôn ngữ.

Năm 1933 có hai phát minh được cấp bằng sáng chế liên quan đến việc xây

dựng các thiết bị dịch ngôn ngữ [48]:

1. Tác giả George Artsrouni đã thiết kế một thiết bị lưu trữ có thể tìm kiếm

nhanh chóng các cặp từ - giải nghĩa của hai cặp ngôn ngữ bất kỳ.

2. Tác giả Petr Smirnov Troyanskii đã thiết kế một thiết bị dịch máy gồm 3

công đoạn: Phân tích câu nguồn, chuyển đổi từ ngữ và sinh câu đích. Thiết

kế của Troyanskii tuy chưa bao giờ trở thành hiện thực nhưng nó là ý tưởng

cơ bản cho nhiều loại máy dịch được thiết kế sau này.

Đến cuối năm 1940 khi máy tính được phát minh và ứng dụng thành công

trong việc giải mật mã, nhiều người đã nghĩ đến khả năng ứng dụng máy tính

trong việc dịch với quan điểm coi việc dịch từ một ngôn ngữ bất kỳ sang tiếng

Anh tương tự như việc giải mã một văn bản tiếng Anh được viết bằng một loại

mật mã nào đó. Vấn đề dịch máy được Warren Weaver đưa ra năm 1949 [110].

Những chương trình dịch tự động đầu tiên đơn giản chỉ sử dụng phương pháp

dịch từ sang từ đã cho những kết quả còn hạn chế vì từ ngữ có nghĩa khác nhau

trong những ngữ cảnh khác nhau.

Năm 1966 tại Hoa Kỳ, Hội đồng cố vấn xử lý ngôn ngữ tự động ALPAC

(Automatic Language Processing Advisory Committee) đã soạn một báo cáo

nhận định rằng không thể xây dựng một hệ thống dịch tự động có hiệu quả

[49]. Sau báo cáo này, các chính phủ đã không còn trợ cấp cho các chương trình

nghiên cứu về dịch máy và các chương trình này cũng chấm dứt. Việc nghiên

16

cứu và phát triển dịch máy chỉ với một vài hoạt động của các cá nhân và tổ chức

nhỏ bên ngoài nước Hoa Kỳ. Tuy nhiên các đầu tư cho dịch máy trong lĩnh vực

quân sự vẫn được tiếp tục như hệ thống dịch Nga-Anh của không lực Hoa Kỳ,

hệ Mark II được phát triển từ năm 1964.

Đến đầu những năm 1970, sau một số thành công trong nghiên cứu về lý

thuyết xử lý ngôn ngữ tự nhiên và sức mạnh của máy tính cũng tăng lên đáng

kể, nhiều trung tâm nghiên cứu bắt đầu quay lại đầu tư vào dịch máy.

Năm 1979 [117], Yorick Wilks giới thiệu một hệ thống dịch tự động Anh-Pháp

cho kết quả khá tốt. Để đạt được thành quả này, hệ thống của Wilks đã sử dụng

các tri thức có tính “khái niệm” trong việc dịch thuật. Ví dụ: Từ “drink” không

đơn thuần là động từ “uống”, trong hệ thống của Wilks, từ “drink” gồm những

khái niệm như “động từ có tính hoạt động”, “có liên hệ đến những chất lỏng”,...

Những tri thức như vậy giúp cho hệ thống của Wilks biết được mối liên hệ giữa

các từ trong câu và từ đó xác định được nghĩa chính xác hơn, phù hợp với ngữ

cảnh hơn.

Đến năm 1990, với sự phát triển mạnh mẽ của Internet, nhu cầu trao đổi

thông tin bùng nổ cùng với sự tích lũy kiến thức về mặt ngôn ngữ, sức mạnh

của máy tính tăng lên và có nhiều kết quả mới về mặt lý thuyết, cho nên việc

phát triển các hệ thống dịch tự động trở nên rất cần thiết. Dịch máy đã bước

sang một giai đoạn phát triển mới, đạt được nhiều thành tựu. Các phương pháp

dịch áp dụng các kỹ thuật khai phá tri thức từ kho ngữ liệu, điều mà trước kia

chưa thể thực hiện được do khả năng hạn chế của máy tính, điều này đã làm

thay đổi hoàn toàn các phương pháp dịch truyền thống và mang lại chất lượng

cho các hệ thống dịch. Trong giai đoạn này, xuất hiện một số hệ thống dịch máy

• Năm 2005: Xuất hiện trang Web dịch tự động đầu tiên của Google.1

• Năm 2006: Hệ thống dịch máy METIS-II được sử dụng, đó là hệ thống dịch

1https://translate.google.com.vn/

17

có chất lượng:

máy kết hợp các ưu điểm giữa dịch máy thống kê, dựa vào ví dụ và dựa

trên tập luật [109].

Đến ngày nay, chất lượng của nhiều hệ thống dịch đã ở mức chấp nhận được

và một số các ứng dụng dịch tự động đã đi vào cuộc sống. Theo ước tính của

John Hutchins, vào năm 2001, có khoảng 1.000 phần mềm dịch tự động các

ngôn ngữ được bán trên thị trường. Tiêu biểu nhất trong thời điểm hiện nay

là các máy chủ dịch tự động trên Internet: Google Translate1, Bing Microsoft

Translator2

Ở Việt Nam, đã có một số nhóm nghiên cứu xây dựng hệ thống dịch máy

• Dự án nghiên cứu về việc học luật chuyển đổi từ ngữ liệu song ngữ của

trên các cặp ngôn ngữ khác nhau. Điển hình là một số nghiên cứu sau:

nhóm nghiên cứu của Đinh Điền Trường Đại học Khoa học Tự nhiên - Đại

• Đề tài nghiên cứu phương pháp phân tích cú pháp có xác suất để dịch văn

học Quốc gia thành phố Hồ Chí Minh, năm 2005.

bản Anh-Việt, Việt-Anh của nhóm nghiên cứu của PGS.TS Phan Thị Tươi,

• Dự án ERIM của trường Đại học Bách khoa Đà Nẵng kết hợp với GETA -

trường Đại học Bách khoa Hồ Chí Minh.

Đại học Bách khoa Grenoble về nghiên cứu thử nghiệm hệ dịch máy Anh-

• Nhóm nghiên cứu của TS. Lê Khánh Hùng - Viện nghiên cứu ứng dụng

Việt, Pháp-Việt của Đoàn Nguyên Hải tại LATL.

công nghệ, Bộ khoa học công nghệ, năm 2005. Hệ thống dịch máy này đã

được đưa thành sản phẩm thương mại với tên ban đầu của hệ thống là

• Đề tài nghiên cứu xây dựng hệ dịch tự động văn bản tiếng Việt ra tiếng nói

EVTRAN. Hiện nay hệ thống có tên là EV-shuttle 4.0 Full.

2https://www.bing.com/translator

18

tiếng Mường, hướng đến áp dụng cho các ngôn ngữ dân tộc thiểu số chưa có

chữ viết ở Việt Nam của TS. Mạc Đăng Khoa tại Viện Nghiên cứu quốc tế

về Thông tin đa phương tiện, Truyền thông và Ứng dụng (MICA), Trường

Đại Học Bách Khoa Hà Nội, năm 2017.

Hiện nay, các nghiên cứu để nâng cao chất lượng hệ thống dịch máy vẫn đang

được các nhóm nghiên cứu tiến hành. Trong đó phương pháp dịch máy dựa trên

mạng nơ-ron là một hướng tiếp cận được xem là có ưu thế hơn hẳn so với các

1.1.2 Kiến trúc của hệ thống dịch máy

hướng tiếp cận dịch máy khác.

Có ba hướng tiếp cận cơ bản được sử dụng để phát triển các hệ thống dịch

máy:

1. Dịch trực tiếp;

2. Dịch chuyển đổi;

3. Dịch qua ngôn ngữ trung gian.

Mỗi phương pháp có ưu và nhược điểm riêng. Hình 1.1 là sơ đồ của Bernard

Vauquois [13] tóm tắt kiến trúc của các hệ thống dịch máy theo ba hướng tiếp

1.1.2.1 Dịch trực tiếp

cận trên.

Theo hướng tiếp cận này, hệ thống sẽ dịch bằng cách thay thế một cách đơn

giản những từ hoặc cụm từ trong ngôn ngữ nguồn bằng những từ hoặc cụm từ

tương ứng trong ngôn ngữ đích. Đặc điểm của hướng tiếp cận dịch này là đơn

giản, nhanh, không cần phân tích cú pháp sâu, thích hợp cho những văn bản

dịch có khối lượng từ vựng nhỏ và số dạng câu giới hạn. Nó thích hợp đối với các

ngôn ngữ cùng loại hình, có sự tương ứng 1-1 về từ vựng, ngữ pháp, . . . chẳng

19

hạn như: tiếng Pháp và tiếng Anh. Nhưng chúng gặp phải khó khăn khi dịch

Hình 1.1: Tam giác Vauquois

cặp ngôn ngữ khác nhau về loại hình, như: tiếng Anh (loại hình biến cách: Từ

biến đổi hình thái) và tiếng Việt (loại hình đơn lập: Từ không biến đổi hình

1.1.2.2 Dịch chuyển đổi

thái). Mô hình dịch theo hướng tiếp cận dịch này được thể hiện trong Hình1.2.

• Bước 1: Chuyển văn bản ở ngôn ngữ nguồn thành một dạng biểu diễn trung

Tiếp cận theo hướng dịch chuyển đổi được thực hiện theo 3 bước:

• Bước 2: Chuyển các biểu diễn trung gian này, thành dạng văn bản tương

gian, thường là cây phân tích cú pháp.

• Bước 3: Sinh ra văn bản ở ngôn ngữ đích.

ứng trong ngôn ngữ đích.

Trong hướng tiếp cận dịch chuyển đổi, văn bản nguồn được phân tích thành

một dạng biểu diễn nào đó, mà vẫn mang đầy đủ các đặc tính của nó. Biểu diễn

20

này có thể nằm trong phạm vi từ cú pháp đến ngữ nghĩa.

Hình 1.2: Mô hình dịch trực tiếp

1.1.2.3 Dịch qua ngôn ngữ trung gian

Theo hướng tiếp cận này, hệ thống sẽ chuyển đổi văn bản từ ngôn ngữ nguồn

thành văn bản ở ngôn ngữ trung gian hay còn gọi là liên ngôn ngữ, sau đó thực

hiện việc chuyển văn bản từ ngôn ngữ trung gian thành văn bản ở ngôn ngữ

đích. Mô hình của hướng tiếp cận này được thể hiện trong hình 1.3.

Một liên ngôn ngữ lý tưởng phải là một sự biểu diễn độc lập với mọi ngôn

ngữ tự nhiên và biểu diễn được mọi sự khác biệt về ý nghĩa đến mức tinh tế

nhất của mọi ngôn ngữ có trong hệ dịch đó. Ví dụ: tiếng Việt phân biệt các từ:

lúa, thóc, gạo, cơm, . . . còn tiếng Anh thì không. Tương tự, tiếng Anh thì phân

biệt các từ : remember, miss, . . . còn tiếng Việt thì chỉ dùng từ nhớ. Chính vì

vậy, việc xây dựng một hệ liên ngôn ngữ đủ mạnh để biểu diễn tất cả các thông

tin của mọi ngôn ngữ có thể có, cùng với bộ phân giải và bộ tạo sinh thích hợp

là một việc vô cùng phức tạp mà đến nay vẫn chưa thực hiện được.

Các phương pháp dịch máy hiện nay chủ yếu được xây dựng theo kiến trúc

21

dịch chuyển đổi.

Hình 1.3: Mô hình dịch qua ngôn ngữ trung gian

1.1.3 Các phương pháp dịch máy

Có rất nhiều phương pháp khác nhau trong dịch máy, mỗi phương pháp đều

cho thấy ưu và nhược điểm của nó đối với từng cặp ngôn ngữ cụ thể. Sau đây

1.1.3.1 Dịch máy dựa trên luật

là một số phương pháp trong dịch máy.

Đây là phương pháp truyền thống xuất phát từ cách làm của các hệ luật dẫn

trong hệ chuyên gia ở lĩnh vực trí tuệ nhân tạo [23] [9]. Trong xử lý ngôn ngữ

tự nhiên thì các luật dẫn này thường được các chuyên gia ngôn ngữ xây dựng

thủ công. Ví dụ để phân tích cú pháp, người ta đã xây dựng các luật văn phạm

• S −→ NP VP

• NP −→ NounDet NounDet Adj Noun

22

như:

• VP −→ ViVt NP

• ...

Đối với khối chuyển đổi cú pháp, người ta cũng dùng các luật chuyển đổi cố

định, chẳng hạn đối với dịch Anh - Việt, một trong những luật đó là:

“Nếu câu nguồn được phân tích là NP −→ Det Adj Noun thì câu đích sẽ được

chuyển thành NP −→ Det Noun Adj”

Đối với khối xử lý ngữ nghĩa, người ta cũng dùng các luật phỏng đoán, như:

“Nếu động từ = ăn −→ chủ từ = động vật và đối từ = đồ ăn được”

Tương tự đối với các công việc khác của hệ dịch; chúng đều dựa vào các luật

do chính con người tạo ra và đưa vào máy.

Việc xây dựng một hệ các luật như thế đòi hỏi công sức rất lớn và nhiều khi

lại không bao quát hết mọi trường hợp. Tuy nhiên, trong một miền giới hạn, thì

phương pháp này tỏ ra hiệu quả và chúng ta hoàn toàn làm chủ được kết quả

dịch (nghĩa là tất cả các câu thỏa mãn các luật đã được xây dựng thì sẽ được

phân tích và dịch tốt). Để bao quát hết các hiện tượng ngôn ngữ, người ta nghĩ

rằng cứ việc thêm nhiều luật vào, nhưng mà trái lại càng khiến cho hệ sinh ra

càng nhiều cây cú pháp ứng với một câu nguồn nhập vào. Kết quả là hệ thống

không biết chọn cây cú pháp nào. Ngoài ra, một khi số luật tăng lên sẽ khiến

cho chính người thiết kế luật khó kiểm soát được tính hợp lý của tất cả các luật

mà mình đã tạo ra và chắc chắn sẽ có những luật thừa, những luật mâu thuẫn

nhau.

Với phương pháp dịch máy dựa trên luật, chúng ta có thể xây dựng được một

hệ thống ban đầu một cách dễ dàng, nhưng càng về sau, khi quy mô tăng lên thì

chúng trở nên khó kiểm soát, thậm chí chúng có thể làm cho máy tính phải xử

lý một cách phức tạp. Cách này có ưu điểm là dựa trên lý thuyết ngôn ngữ học,

vì vậy nó giải quyết được hầu hết các hiện tượng cốt lõi của ngôn ngữ, nhưng

23

chúng lại không giải quyết được các hiện tượng phụ (những trường hợp ngoại lệ

Hình 1.4: Mô hình dịch máy thống kê

1.1.3.2 Dịch máy thống kê

mà không tuân theo luật chính).

Dịch máy thống kê (Statistical Machine Translation - SMT) là một phương

pháp dịch máy, trong đó các bản dịch được tạo ra trên cơ sở các mô hình thống

kê có các tham số được xác định từ việc phân tích các cặp câu song ngữ từ kho

ngữ liệu song ngữ.

Thay vì xây dựng các từ điển, các quy luật dịch thủ công như trong các hệ

thống dịch máy dựa vào luật, dịch máy thống kê sẽ dựa trên thống kê để xây

dựng các từ điển và các quy luật dịch đó một cách tự động. Để thực hiện được

điều này cần có tập ngữ liệu song ngữ rất lớn. Máy tính sẽ thống kê và rút ra

xác suất dịch tương ứng về từ hoặc cụm từ hay cấu trúc giữa hai ngôn ngữ; xác

suất chuyển dịch vị trí giữa hai ngôn ngữ và xác suất xuất hiện của từ hoặc cụm

từ đó trong một ngữ cảnh nhất định nào đó. Mô hình dịch máy thống kê được

thể hiện trong Hình 1.4.

Brown và cộng sự, năm 1990 đã đề xuất phương pháp thống kê cho dịch máy

24

[80]. Ở công trình này bài toán dịch máy được mô tả như sau: Gọi S là câu ngôn

ngữ nguồn và T là câu ngôn ngữ đích, cặp (S, T ) là cặp câu được dịch bởi nhau.

Ứng với mỗi câu S được cho bất kỳ, ta đi tìm câu T hợp lý nhất (là câu được

P (S, T ) cực đại. Vì S và T phụ thuộc lẫn nhau nên theo lý thuyết xác suất có

dịch gần đúng nhất của câu nguồn sang câu đích). Nghĩa là ta phải tìm xác suất

P (S, T ) = P (S) ∗ P (T |S)

điều kiện:

(1.1.1)

P (S) ∗ P (T |S)

P (S, T ) = argmax

Nghĩa là bài toán dịch trở thành:

T

(1.1.2) argmax T

P (T |S). Tính P(T|S)

T

Do P(S) không phụ thuộc vào T nên ta chỉ cần tính: argmax

P (T |S) =

dựa vào định lý Bayes như sau:

P (T )P (S|T ) P (S)

(1.1.3)

Trong công thức 1.1.3, mẫu số không phụ thuộc vào T , do đó bài toán dịch

máy trở thành tìm T để P (T )P (S|T ) đạt giá trị lớn nhất. Gọi P (T ) là xác suất

mô hình ngôn ngữ và P (S|T ) là xác suất mô hình dịch, khi đó một hệ thống

dịch máy thống kê đòi hỏi một phương pháp tính toán xác suất mô hình ngôn

ngữ, một phương pháp tính toán xác suất mô hình dịch và một phương pháp

tìm kiếm câu đích T mà có giá trị P (T )P (S|T ) là lớn nhất.

Phương pháp dịch máy thống kê dựa vào từ: các đơn vị cơ bản của bản

dịch là một từ trong ngôn ngữ tự nhiên. Trong những năm 1990, IBM (Brown

và cộng sự, 1993) [30] đã đề xuất giải thuật cho năm mô hình dịch thống kê

dựa vào từ là IBM1, IBM2, IBM3, IBM4, IBM5. Các mô hình này được sử dụng

rộng rãi trong các công trình nghiên cứu về dịch máy thống kê sau này [40] [20].

Phương pháp dịch máy thống kê dựa trên cụm từ PBSMT (Phrase-

Based Statistical Machine Translation): Trong khi các mô hình dựa trên

từ của IBM là một bước đột phá trong SMT, chúng cũng cho thấy một số thiếu

25

sót chung. Một trong số đó là chúng chủ yếu được thiết kế để mô hình hóa các

phụ thuộc từ vựng giữa các từ đơn lẻ. Để khắc phục điều này, các mô hình dựa

trên cụm từ đã được đề xuất (Vogel và cộng sự, 2000) [100], (Marcu và Wong,

2002) [18] và (Och và Ney, 2004) [33]. Trái ngược với việc sử dụng đơn vị từ làm

cơ sở, các mô hình dựa trên cụm từ thêm một lớp cấu trúc khác gọi là "cụm từ"

(một dãy các từ liền nhau) và sử dụng nó làm đơn vị dịch. Nói cách khác, các

nhóm từ liền nhau trong ngôn ngữ đích có thể được dóng hàng với các nhóm từ

liền nhau trong ngôn ngữ nguồn. Kết quả là, ngữ cảnh của các từ được xem xét

và sự khác biệt về trật tự từ giữa ngôn ngữ nguồn và ngôn ngữ đích có thể được

học một cách rõ ràng.

Mô hình dịch dựa trên cụm từ được thực hiện như sau: đầu tiên dịch độc lập

các cụm từ nguồn thành các cụm từ ở ngôn ngữ đích, sau đó các cụm từ được

dịch sẽ được thay đổi trật tự để sinh câu đích dựa vào giá trị xác suất.

Phương pháp dịch máy thống kê dựa vào cụm từ đã cho thấy nó là hệ thống

dịch máy thống kê tốt nhất được biết đến, phương pháp dịch máy này được

Koehn và cộng sự đề xuất năm 2007 [84]. Dịch máy dựa trên cụm từ đã chiếm

ưu thế trong nghiên cứu cũng như trong thương mại vì hiệu quả của nó cho đến

1.1.3.3 Dịch máy dựa trên mạng nơ-ron

cuối năm 2015 [70] [63] [92] [74] [101].

Dịch máy dựa trên mạng nơ-ron (Neural Machine Translation - NMT)là cách

tiếp cận đầu cuối cho dịch tự động, có tiềm năng vượt qua những yếu điểm của

các hệ thống dịch máy dựa vào cụm từ [116]. Thế mạnh của dịch máy dựa trên

mạng nơ-ron nằm ở khả năng học trực tiếp, ánh xạ từ văn bản đầu vào tới văn

bản đầu ra [27] .

Hệ thống dịch máy dựa trên mạng nơ-ron là một mạng nơ-ron mà mô hình

hóa trực tiếp xác suất có điều kiện P (T |S) của việc dịch một câu nguồn S thành

câu đích T[61]. Cấu trúc cơ bản của dịch máy dựa trên mạng nơ-ron gồm 2

26

thành phần:

Hình 1.5: Cấu trúc của hệ thống dịch máy dựa trên mạng nơ-ron

1. Mã hóa: tính toán biểu diễn θ cho mỗi câu nguồn.

2. Giải mã: sinh tuần tự các từ đích.

Hình 1.5 cho thấy mô phỏng của việc dịch một câu nguồn thành một câu đích

ở mô hình dịch máy dựa trên mạng nơ-ron.

Dịch máy dựa vào mạng nơ-ron thực hiện việc mô hình hóa xác suất của câu

i (cid:89)

đích T (t1, t2, ..., ti) khi biết trước câu nguồn S(s1, s2, ..., sj).

P (S|T ) = P (t1:i|S) =

P (tk|{t1:i−1}, S, θ)

k=1

(1.1.4)

Với P (S|T ) được tính sử dụng kiến trúc mã hóa - giải mã dựa vào sự chú ý

(attention) [27].

Một hệ thống dịch máy dựa trên mạng nơ-ron bao gồm hai mạng nơ-ron hồi

27

quy RNN (Recurrent Neural Network), RNN mã hóa câu nguồn ánh xạ mỗi từ

nguồn đến một véc tơ từ và xử lý chúng thành một chuỗi véc tơ ẩn h1, h2, ..., hs.

RNN giải mã sinh câu đích kết hợp biểu diễn ẩn RNN của từ được sinh trước

đó với các vec tơ ẩn nguồn để dự đoán điểm cho mỗi từ kế tiếp có thể [34]. Sau

đó tầng softmax được sử dụng để tạo ra xác suất của từ kế tiếp P (ti|t1:i−1, s, θ)

[36], các véc tơ ẩn nguồn ảnh hưởng đến xác xuất thông qua tầng ẩn.

Ưu điểm của dịch máy dựa trên mạng nơ-ron: có thể giải quyết được các thiếu

sót của hệ thống dịch máy truyền thống (câu đầu ra trôi chảy; không phải lựa

chọn các bản dịch ứng viên như trong dịch máy thống kê; . . . ). Dễ dàng khi thực

hiện xử lý song song. Tránh được việc phải lựa chọn bản dịch tối ưu trong các

bản dịch ứng viên như trong hệ thống dịch máy dựa vào cụm từ. Bản dịch trôi

chảy hơn, sát nghĩa hơn [64] [8] [81] [96] [69].

• Chậm hơn trong huấn luyện và suy diễn. Không dịch được những từ mới,

Nhược điểm của dịch máy dựa trên mạng nơ-ron là:

• Zheng và cộng sự năm 2018 [113] đã chỉ ra rằng hệ thống dịch máy dựa

quá trình dịch như hộp đen nên khó can thiệp xử lý và gỡ lỗi.

trên mạng nơ-ron có thể bị lỗi ở bản dịch do tính linh hoạt của ngôn ngữ

tự nhiên và do thiết kế mạng nơ-ron. Điều này dẫn đến sự mất thông tin,

• Ott và cộng sự, năm 2018 [72] đã chỉ ra tính không chính xác trong dịch

sai ngữ nghĩa và thiếu tính logic.

máy dựa trên mạng nơ-ron, bao gồm: Không chính xác ở phân bố đầu ra

• Một số nhược điểm khác liên quan đến ngữ liệu huấn luyện và mô hình

của mô hình; Không chính xác trong tìm kiếm chùm ở chùm lớn.

dóng hàng.

Cũng như dịch máy thống kê dựa trên cụm từ, dịch máy dựa trên mạng nơ-

ron là mô hình dịch máy dựa trên dữ liệu, phụ thuộc vào dữ liệu song ngữ được

28

sử dụng trong huấn luyện hệ thống dịch máy. Chất lượng dịch của hệ thống dịch

1.1.3.4 Dịch dựa trên cơ sở tri thức

máy liên quan đến kích thước và chất lượng của kho ngữ liệu huấn luyện.

Ý tưởng chính của việc dịch dựa trên cơ sở tri thức là: "muốn dịch được thì

trước hết phải hiểu được". Mà muốn hiểu được thì máy phải được trang bị tri

thức ngôn ngữ và tri thức về thế giới thực giống như con người [93] [35].

Với phương pháp này, trước hết người ta phải xây dựng một hệ cơ sở tri thức

đủ lớn bao trùm mọi tri thức về thế giới thực ở mọi lĩnh vực. Mà điều này thì

không khả thi, nên người ta chỉ giới hạn trong một lĩnh vực hẹp nào đó và mô

hình hóa tri thức của lĩnh vực này bằng cách xây dựng các lớp ngữ nghĩa và

các thực thể để biểu diễn tất cả các khái niệm trong miền lĩnh vực đó. Mỗi khái

• Tên khái niệm.

• Các khe: các vai ngữ nghĩa được phép.

• Bộ lọc: những lớp khái niệm được phép, phù hợp với các vai nghĩa.

niệm bao gồm:

Hệ thống dựa trên cơ sở tri thức khử nhập nhằng bằng các bộ lọc hạn chế

các vai nghĩa có lớp khái niệm phù hợp. Cơ chế nhận biết tri thức có thể là tự

động hay bán tự động.

Theo phương pháp này, phải xây dựng một hệ thống bản thể học để phân

loại tri thức, xây dựng một cơ chế suy diễn tự động và biểu diễn liên ngôn ngữ.

Tuy nhiên, việc xây dựng một hệ thống phân loại tri thức hoàn chỉnh là điều

khó có thể thực hiện được. Ví dụ: "toy-gun" (súng đồ chơi) được xếp vào nhóm

29

"đồ chơi" (toy) hay "vũ khí" (weapon)?

Hình 1.6: Cấu trúc của hệ thống dịch máy MOSES

1.1.4 Các hệ thống dịch máy có thể sử dụng để thực nghiệm

1.1.4.1 Hệ thống dịch máy thống kê MOSES

MOSES là một hệ thống dịch máy thống kê mã nguồn mở được xây dựng và

phát triển bởi Koehn và cộng sự, có tài liệu hướng dẫn sử dụng chi tiết.3

MOSES cho phép huấn luyện tự động các mô hình dịch cho bất kỳ cặp ngôn

ngữ nào chỉ cần có kho ngữ liệu song ngữ dóng hàng mức câu. Khi có mô hình

huấn luyện, một thuật toán tìm kiếm hiệu quả sẽ nhanh chóng tìm thấy bản

dịch có xác suất cao nhất trong số các lựa chọn theo cấp số nhân.

Hệ thống dịch máy thống kê MOSES được huấn luyện trên kho ngữ liệu song

ngữ kích thước lớn (để học cách dịch các đoạn nhỏ) và kho ngữ liệu đơn ngữ

(để học cách đưa ra đầu ra trôi chảy). Cấu trúc của hệ thống dịch máy MOSES

được thể hiện trong hình 1.6.

• Luồng huấn luyện: là một tập các công cụ nhận dữ liệu thô (song ngữ và

MOSES có hai thành phần chính: Luồng huấn luyện và Bộ giải mã.

3http://www.statmt.org/moses/

30

đơn ngữ) và biến nó thành một mô hình dịch máy.

• Bộ giải mã: là một ứng dụng C++ đơn giản, với một mô hình dịch máy

được huấn luyện và một câu nguồn cho trước, bộ giải mã sẽ dịch câu nguồn

thành câu đích.

• Cung cấp hai kiểu mô hình dịch: Dựa vào cụm từ và dựa vào cây cú pháp.

• Có các mô hình dịch tham số, cho phép tích hợp thông tin ngôn ngữ và

Các tính năng của MOSES:

• Cho phép giải mã các mạng confusion và lưới từ, cho phép tích hợp dễ dàng

thông tin khác ở mức từ.

với các công cụ chẳng hạn như máy nhận dạng giọng nói tự động hoặc máy

• Hệ thống quản lý thử nghiệm giúp việc sử dụng MOSES dễ dàng hơn.

1.1.4.2 Hệ thống dịch máy dựa trên mạng nơ-ron OpenNMT

phân tích hình thái

OpenNMT là một công cụ mã nguồn mở cho dich máy nơ-ron [36]. Nó được

xây dựng, duy trì và phát triển bởi nhóm xử lý ngôn ngữ tự nhiên Harvard và

SYSTRAN.

OpenNMT là một tập hợp các chương trình hỗ trợ dễ dàng cho dịch máy

dựa trên mạng nơ-ron. Tâm điểm của các chương trình là các thư viện cho huấn

luyện, sử dụng và triển khai các mô hình dịch máy dựa trên mạng nơ-ron. Hệ

thống ban đầu dựa vào seq2seq-attn. Dự án hỗ trợ các mô hình NMT vanilla

cùng với hỗ trợ cho các mô hình: chú ý, cổng, xếp chồng, đầu vào, chính quy,

sao chép, tìm kiếm chùm và tất cả các thuộc tính cần thiết cho hiệu xuất tối ưu.

OpenNMT hiện có ba triển khai chính:

1. OpenNMT-lua:4 Chương trình đầu tiên được phát triển trên Torch 7. Đầy

đủ tính năng, tối ưu hóa và Mã chương trình ổn định, sẵn sàng cho các thử

4https://github.com/OpenNMT/OpenNMT

31

nghiệm và xây dựng sản phẩm.

2. OpenNMT-py:5 là một bản sao của OpenNMT-lua sử dụng PyTorch,

được tạo bởi Adam Lerer và nhóm nghiên cứu AI của Facebook. Nó dễ mở

rộng và đặc biệt phù hợp cho nghiên cứu.

3. OpenNMT-tf:6 Một triển khai theo kiểu của TensorFlow. Đây là một

chương trình mới hơn tập trung vào các thử nghiệm quy mô lớn và mô hình

hiệu suất cao, nó sử dụng các tính năng mới nhất của TensorFlow.

OpenNMT hỗ trợ huấn luyện nhiều GPU bằng cách sử dụng song song dữ

liệu. Mỗi GPU có một bản sao của các tham số chính và xử lý các gói độc lập

trong giai đoạn huấn luyện. Hai chế độ có sẵn: huấn luyện đồng bộ và không

đồng bộ. Các thử nghiệm với 8 GPU cho thấy tốc độ tăng 6 lần trong mỗi epoch.

Xây dựng công cụ huấn luyện hệ thống NMT đòi hỏi mã lệnh phức tạp. Nhưng

khi triển khai thì đơn giản, chỉ yêu cầu (i) nhập vào các giá trị cho các tham

biến trong mạng và (ii) chạy một tìm kiếm chùm được đơn giản hóa hơn nhiều

so với SMT. OpenNMT bao gồm một số triển khai dịch máy khác nhau dành

riêng cho các môi trường thời gian chạy khác nhau: triển khai gói CPU/GPU

để dịch nhanh chóng các văn bản có kích thước lớn, triển khai một trường hợp

đơn giản cho sử dụng trên thiết bị di động và triển khai chuyên biệt phù hợp

1.1.5 Đánh giá các hệ thống dịch máy

1.1.5.1 BLEU

cho sử dụng công nghiệp.

Điểm BLEU (BiLingual Evaluation Understudy) do Papineni đề xuất năm

2001 [56] là độ đo tự động đầu tiên được chấp thuận để đánh giá các bản dịch.

Nguyên lý của phương pháp này là tính toán mức tương đồng giữa bản dịch

(bản dịch máy) và một hoặc nhiều các bản dịch tham chiếu dựa vào độ chính

5https://github.com/OpenNMT/OpenNMT-py 6https://github.com/OpenNMT/OpenNMT-tf

32

xác n-gram. Điểm BLEU được định nghĩa theo công thức 1.1.5.

i=1 wilogpi)

BLEU = BP.e((cid:80)n

(1.1.5)

pi: Giá trị trung bình của độ chính xác n-gram được thay đổi.

wi: Trọng số tích cực.

BP (Brevity Penalty): Phạt ngắn dùng để phạt các bản dịch quá vắn tắt.

Trong đó:

1

if

c > r

Phạt ngắn được tính toán trên toàn bộ kho ngữ liệu theo công thức 1.1.6

BP =

c

e1− r

if

c < r

  (1.1.6) 

c: độ dài của bản dịch.

r: độ dài của kho ngữ liệu tham chiếu.

1.1.5.2 WER

Trong đó:

Độ đo WER (Word Error Rate) được Popovic đề xuất năm 2007 [62]. Đầu

tiên, WER được sử dụng trong nhận dạng tiếng nói tự động, so sánh 1 câu giả

thuyết có liên quan đến một câu hay không dựa vào khoảng cách Levenshtein

[108]. Nó cũng được sử dụng trong dịch máy để đánh giá chất lượng của một

giả thuyết dịch có liên quan đến bản dịch tham chiếu hay không bằng việc tính

số lần chỉnh sửa tối thiểu (thao tác chèn, xóa hoặc thay thế) các từ được thực

hiện trên bản dịch giả thuyết để làm nó giống với bản dịch tham chiếu.

K (cid:88)

W ER =

WER được tính theo công thức 1.1.7

dL(refk,r, hypk)

min r

1 N ∗

ref

k=1

(1.1.7)

N ∗

ref : tỷ lệ lỗi mức câu thấp nhất.

33

Trong đó:

dL: khoảng cách Levenshtein giữa câu tham chiếu refk,r và câu giả thuyết

hypk

Hạn chế của WER là nó không cho phép thay đổi trật tự từ trong khi trận

1.1.5.3 PER

tự từ của giả thuyết có thể khác so với trật tự từ của tham chiếu.

Độ đo PER (Position-independent word Error Rate) do Tillmann đề xuất

năm 1997 [21] so sánh các từ của bản dịch máy với bản tham chiếu không phân

K (cid:88)

P ER =

biệt thứ tự từ. Điểm PER được xác định theo công thức 1.1.8

dP ER(refk,r, hypk)

min r

1 N ∗

ref

k=1

(1.1.8)

Trong đó, dP ER là độ đo cho biết sự khác nhau giữa số lần xuất hiện các từ

trong bản dịch máy và bản dịch tham chiếu, được tính theo công thức 1.1.9

dP ER(refk,r, hypk) =

|n(e, refk,r) − n(e, hypk)|

|Nrefk,r − Nhypk| +

1 2

e

(cid:33) (cid:32) (cid:88) (1.1.9)

1.1.5.4 TER

Hạn chế của PER là không quan tâm đến trật tự từ.

Độ đo TER (Translation Error Rate ) do Snover đề xuất vào năm 2006 [66].

Nó được xác định bằng số lần chỉnh sửa tối thiểu bản dịch giả thuyết để nó

trùng khớp với bản dịch tham chiếu, trên độ dài của bản dịch tham chiếu. Các

thao tác chỉnh sửa bao gồm: chèn, Xóa, thay thế các từ đơn lẻ và di chuyển một

T ER =

dãy các từ liên tục. TER được tính theo công thức 1.1.10

#_of_edits average_#_of_ref erence_words

(1.1.10)

34

Trong đó:

#_of_edits: số lần sửa đổi cực tiểu.

average_#_of_reference_words: số từ tham chiếu trung bình.

Độ đo đánh giá tự động chất lượng các hệ thống dịch máy được sử dụng phổ

biến trong các công trình nghiên cứu là độ đo BLEU. Đánh giá các hệ thống

dịch máy bằng độ đo BLEU được xem là một cách đánh giá sát với đánh giá

của con người [16] [22]. Điểm BLEU đánh giá các hệ thống dịch máy Việt-Anh

thường đạt khoảng 30 điểm.

Để huấn luyện được một hệ thống dịch máy thì điều quan trọng là phải có

nguồn tài nguyên ngôn ngữ. Phần tiếp theo, luận án sẽ trình bày về tài nguyên

1.2 Tài nguyên ngôn ngữ cho hệ thống dịch máy

ngôn ngữ cho hệ thống dịch máy.

Tài nguyên ngôn ngữ là các bộ dữ liệu kèm theo các mô tả ở dạng mà máy

tính có thể đọc được, bao gồm: Kho ngữ liệu văn bản hay tiếng nói; cơ sở dữ

liệu thuật ngữ hay ngữ pháp; . . . . Chúng được dùng để xây dựng, cải tiến hoặc

đánh giá các hệ thống xử lý ngôn ngữ tự nhiên.

Những năm gần đây các cách tiếp cận về phân tích ngôn ngữ chủ yếu dựa

vào dữ liệu. Đối với bài toán dịch máy, dữ liệu là các kho ngữ liệu song song.

Kích thước và chất lượng của các kho ngữ liệu có ảnh hưởng không nhỏ đến

1.2.1 Tài nguyên đa ngữ cho dịch máy

chất lượng của hệ dịch máy.

Đã có rất nhiều công trình nghiên cứu xây dựng các kho ngữ liệu cho các cặp

• Năm 1999, Philip Resnik [86] [87] đã đề xuất phương pháp thu thập các

ngôn ngữ khác nhau, điển hình là các công trình nghiên cứu sau:

văn bản song ngữ từ các trang Web. Phương pháp được thực hiện theo ba

35

bước:(i) Phát hiện các trang Web song ngữ; (ii) Thực hiện lọc các trang

Web song ngữ phát hiện được một cách độc lập ngôn ngữ; (iii) Lọc các

trang Web song ngữ phụ thuộc ngôn ngữ bằng việc áp dụng các tiêu chuẩn

bổ sung theo từng dạng ngôn ngữ và sau đó là nghiên cứu mở rộng phương

pháp bằng việc thêm vào nhận dạng ngôn ngữ tự động.

Trong công trình này tác giả đã thu thập được 2.491 cặp văn bản song ngữ

• Năm 2002, Philipp Koehn [82] đã có nghiên cứu xây dựng kho ngữ liệu đa

Anh-Pháp với xấp xỉ 1,5 tỷ từ cho mỗi ngôn ngữ.

ngôn ngữ cho dịch máy bao gồm 11 ngôn ngữ với trên 2 tỷ từ mỗi ngôn

ngữ. Tài nguyên để xây dựng kho ngữ liệu khai thác từ kỷ yếu của hạ viện

Châu Âu. Quy trình xây dựng kho ngữ liệu được tiến hành theo 5 bước:

(i) Thu thập các trang Web song ngữ; (ii) Trích rút các đoạn văn bản song

song; (iii) Tách câu; (iv) Chuẩn hóa văn bản, (v) Gán nhãn và dóng hàng

• Năm 2007, Macken và cộng sự [60] đã có nghiên cứu xây dựng kho ngữ liệu

câu cho từng cặp văn bản.

song song cho ngôn ngữ Hà Lan gồm hai cặp ngôn ngữ Hà lan - Anh, Hà

Lan - Pháp với tổng số trên 10 tỷ từ cho mỗi cặp ngôn ngữ. Phương pháp

xây dựng kho ngữ liệu song song của họ xuất phát từ việc phân tích cấu

trúc và đặc điểm của mỗi cặp ngôn ngữ để thực hiện xử lý trích rút văn

• Năm 2010, Jakob Uszkoreit và cộng sự [44] đã đề xuất phương pháp khai

bản song ngữ và thực hiện dóng hàng văn bản được hiệu quả hơn.

phá văn bản song ngữ kích thước lớn cho dịch máy. Đầu tiên văn bản song

song đa ngôn ngữ được đưa vào một hệ thống dịch máy để thu được bản

dịch tiếng Anh, sau đó thực hiện trích rút n-gram để tính điểm và sắp xếp

danh sách các cặp văn bản theo trật tự điểm, cuối cùng căn cứ vào một

mức điểm nhất định để xác định các cặp văn bản là bản dịch của nhau rồi

thực hiện tách câu, dóng hàng để xây dựng kho ngữ liệu. Trong công trình

36

này, tác giả đã thu thập được trên 2 tỷ trang Web và một lượng lớn các

cuốn sách điện tử song ngữ theo lĩnh vực.

Các công trình xây dựng kho ngữ liệu song ngữ trong những năm gần đây

chủ yếu dựa vào đặc điểm của từng cặp ngôn ngữ để trích rút tự động các văn

bản song ngữ từ các trang Web, phụ đề phim, sách điện tử song ngữ, . . . nhằm

• Năm 2012, Post và cộng sự [67] đã nghiên cứu xây dựng kho ngữ liệu song

xây dựng kho ngữ liệu song song đa ngôn ngữ có kích thước lớn:

song giữa tiếng Anh và sáu thứ tiếng Bengali, Hindi, Malayalam, Tamil,

Telugu,và Urdu. Kho ngữ liệu này được xây dựng dựa vào công cụ Amazon’s

Mechanical Turk (MTurk) được thiết lập phù hợp với từng cặp ngôn ngữ

để thu thập dữ liệu song ngữ. Phương pháp xây dựng kho ngữ liệu của họ

được tiến hành theo ba bước: (i) Xây dựng từ điển song ngữ; (ii) Sử dụng

từ điển trong bước (i) để khởi tạo các điều khiển thực nghiệm trong thu

thập bốn bản dịch cho mỗi câu nguồn; (iii) Tính toán chất lượng của dữ

liệu thu được và lựa chọn các dữ liệu có chất lượng cao. Kích thước kho ngữ

• Năm 2016, tác giả J¨org Tiedemann đã nghiên cứu xây dựng và chia sẻ cộng

liệu mà họ thu thập được trên các cặp ngôn ngữ là 600.000 câu.

đồng kho ngữ liệu OPUS dóng hàng mức câu với trên 60 ngôn ngữ có tổng

số 2,6 tỷ cặp câu [50]. Hiện tại kho ngữ liệu vẫn được thu thập mở rộng

• Năm 2018 [98], Abate và cộng sự đã mô tả phương pháp phát triển kho ngữ

kích thước.

liệu song song cho các ngôn ngữ của Cộng hòa Dân chủ Liên bang Ethiopia.

Nhóm tác giả đã xây dựng được các kho ngữ liệu song song cho 7 cặp ngôn

ngữ, bao gồm:

1. Amharic - Tigrigna: 34.349 cặp câu;

2. Amharic - Afan Oromo: 11.457 cặp câu;

37

3. Tigrigna - Afan Oromo: với 10.987 cặp câu;

4. Amharic - Wolaytta: 9.400 cặp câu;

5. Ge’ez - Amharic: 11.546 cặp câu;

6. Wolaytta - Afan Oromo: 2.923 cặp câu;

7. Tigrigna - Wolaytta: 2.504 cặp câu.

Tài nguyên để xây dựng kho ngữ liệu này, được nhóm tác giả thu thập từ

kinh thánh và từ các Website Jehovah’s Witnesses,7 Ethiopicbible,8 Ebible,9

Geezexperience.10 Phương pháp xây dựng kho ngữ liệu được thực hiện như

sau:

1. Sử dụng công cụ thu thập Web, các thư viện của Python để phân tích

cấu trúc của trang web và trích rút các văn bản song ngữ;

2. Chuẩn hóa ký tự: Dựa vào đặc điểm hình thái của từng cặp ngôn ngữ.

3. Tách câu và thực hiện dóng hàng câu.

Hầu hết các công trình nghiên cứu xây dựng kho ngữ liệu song song đa ngôn

ngữ khai thác tài nguyên từ các trang Web song ngữ. Kích thước và chất lượng

của các kho ngữ liệu song song mà các nhóm nghiên cứu thu thập được tùy

1.2.2 Tài nguyên song ngữ Việt-Anh

thuộc vào từng cặp ngôn ngữ cụ thể.

Tiếng Việt hiện nay, tài nguyên song ngữ Việt-Anh có sẵn còn hạn chế, đặc

biệt là tài nguyên dùng trong xây dựng và phát triển các hệ thống dịch máy

Việt-Anh. Phương pháp xây dựng tự động kho ngữ liệu song ngữ Việt-Anh đã

được quan tâm nghiên cứu nhưng kết quả còn hạn chế do phương pháp này chỉ

7https://www.jw.org 8https://www.ethiopicbible.com 9http://ebible.org 10https://www.geezexperience.com

38

khai thác được các văn bản song ngữ từ các Website và các chương trình trực

tuyến, kho ngữ liệu thu thập được của các nhóm nghiên cứu chỉ có một số ít

• Trong công trình của Đinh Điền và Hoàng Kiếm năm 2005 [25] đã trình

được chia sẻ cho cộng đồng.

bày phương pháp xây dựng kho ngữ liệu song ngữ Việt-Anh có gán nhãn.

Phương pháp xây dựng được thực hiện như sau:

1. Thu thập văn bản song ngữ: Thu thập từ rất nhiều nguồn (Sách, từ

điển, các tài liệu song ngữ, . . . ).

2. Chuẩn hóa dữ liệu: Dữ liệu sau khi được thu thập sẽ được chuẩn hóa

về cùng định dạng, được chỉnh sửa lỗi chính tả, lỗi ngữ pháp.

3. Dóng hàng câu cho văn bản: Với các văn bản song ngữ được gõ thủ công

sẽ được dóng hàng thủ công; các văn bản điện tử thu thập được từ các

nguồn sẽ được dóng hàng câu sử dụng giải thuật của Gale và Church

[112].

4. Dóng hàng từ: Kho ngữ liệu dóng hàng mức câu được thực hiện dóng

hàng từ tự động bằng việc sử dụng một mô hình kết hợp giữa phân lớp

ngữ nghĩa của S.K.Chang và J.S.Chang [97] với GIGA++.

• Trong đề tài "Xây dựng kho ngữ liệu song ngữ Việt-Anh" năm 2015 [1] của

Kho ngữ liệu xây dựng được từ công trình này là 5.000.000 cặp từ.

Đinh Điền đã đề xuất phương pháp xây dựng kho ngữ liệu song ngữ có

dóng hàng mức câu ở dạng gắn thẻ HTML. Nhóm đã đề xuất phương pháp

bán tự động trong thu thập văn bản song ngữ từ Internet, tài liệu song ngữ

điện tử, tài liệu song ngữ trên giấy, ... để xây dựng kho ngữ liệu song ngữ

• Trong công trình của Triệu Hải Long và Nguyễn Lê Minh năm 2017 [104],

có dóng hàng mức câu.

39

nhóm tác giả đã trình bày nghiên cứu xây dựng kho ngữ liệu song song đa

ngôn ngữ cho một số ngôn ngữ Nam Á, kích thước kho ngữ liệu mà nhóm

tác giả xây dựng được là hơn 1,1 triệu câu của 10 cặp ngôn ngữ, trong đó:

1. Cặp ngôn ngữ Việt - In-đô-nê-xi-a: 76.863 cặp câu.

2. Cặp ngôn ngữ Việt - Ma-lai-xi-a: 55.613 cặp câu.

3. Cặp ngôn ngữ Việt - Phi-líp-pin: 10.418 cặp câu.

4. Cặp ngôn ngữ Việt - Anh: 408.552 cặp câu.

Các công trình nghiên cứu xây dựng kho ngữ liệu song ngữ Việt-Anh ngoài

việc khai thác từ các trang Web song ngữ, các trang đăng các chương trình

video, phim ảnh có phụ đề và phụ đề song ngữ: TED Talks; phim, bài hát có

phụ đề song ngữ Việt-Anh; . . . cũng đã tiếp cận khai thác từ nhiều nguồn song

ngữ khác nhau.

Có hai phương pháp được các nhóm nghiên cứu sử dụng trong xây dựng kho

• Phương pháp xây dựng tự động [10] [71]: Là phương pháp dựa hoàn toàn

ngữ liệu song ngữ:

vào máy tính để xây dựng kho ngữ liệu. Ưu điểm là tốn ít công sức, thời

gian nhưng nhược điểm là chưa khai thác được hết các dạng tài nguyên

• Phương pháp bán tự động [1]: Là phương pháp xây dựng kho ngữ liệu song

song ngữ Việt-Anh trên thực tế và chất lượng kho ngữ liệu không cao.

ngữ mà có một vài giai đoạn trong quá trình xử lý phải thực hiện thủ công.

Ưu điểm là thu thập được hầu hết các dạng tài nguyên song ngữ Việt-Anh,

kho ngữ liệu thu thập được có chất lượng tương đối cao vì kho ngữ liệu đầu

ra được được kiểm tra bởi con người. Nhưng nhược điểm là tốn thời gian

và công sức.

Để tận dụng các nguồn tài nguyên song ngữ hiện có liên quan đến hai ngôn

40

ngữ Anh và Việt, trong luận án không phân biệt ngôn ngữ nào là ngôn ngữ

nguồn trong từng văn bản song ngữ. Do vậy hai thuật ngữ "Kho ngữ liệu song

ngữ Anh-Việt" và "Kho ngữ liệu song ngữ Việt-Anh" được sử dụng như nhau.

Hiện nay kho ngữ liệu song ngữ Việt-Anh được xây dựng chủ yếu dựa vào

khai thác các nguồn tài nguyên song ngữ Việt-Anh. Nhưng do cặp ngôn ngữ

Việt-Anh không có nhiều tài nguyên song ngữ, nên để xây dựng được kho ngữ

liệu song ngữ kích thước lớn nhằm nâng cao chất lượng hệ thống dịch máy là

khó khăn. Một hướng tiếp cận khác giúp nâng cao chất lượng hệ thống dịch máy

khi không có nhiều tài nguyên song ngữ, đó là tiếp cận thích ứng miền trong

1.3 Thích ứng miền trong dịch máy

dịch máy mà luận án sẽ trình bày ở phần tiếp theo.

Các kho ngữ liệu song ngữ được xây dựng cho các hệ thống dịch máy thường

không thể phủ hết tất cả các miền dữ liệu (mỗi miền dữ liệu được phân biệt bởi

các thuộc tính như từ vựng, ngữ pháp, văn phong, ...). Một hệ thống dịch máy

huấn luyện trên một kho văn bản trong lĩnh vực báo chí sẽ bị giảm chất lượng

khi dịch các văn bản trong lĩnh vực y tế chẳng hạn. Để khắc phục điều này,

người ta nghiên cứu các phương pháp thích ứng miền để cải thiện chất lượng

dịch máy trên một miền dữ liệu cụ thể nào đó.

Năm 2020, Gururangan và cộng sự [37] đã có công trình khảo sát về vấn đề:

Khi có dữ liệu miền chung đủ lớn có khả năng phủ hết các miền, thì liệu rằng

có cần các nghiên cứu thích ứng miền? Các kết quả khảo sát của họ cho thấy,

Thích ứng miền hướng dữ liệu và tác vụ là cần thiết để nâng cao chất lượng hệ

thống. Công trình này cũng khẳng rằng, các kho ngữ liệu theo miền được xây

dựng thủ công vẫn là các kho ngữ liệu tốt nhất.

Thích ứng miền trong dịch máy thống kê [17] có thể được dẫn giải một cách

hình thức như sau:

41

Gọi S là tập hợp các câu đầu vào và T là tập hợp các câu dịch tương ứng của

S ở đầu ra của một hệ thống dịch máy. Trong dịch máy thống kê, hệ thống sẽ

thực hiện học hàm f : S −→ T . Để huấn luyện một hệ thống dịch máy thống kê

cần có tập dữ liệu huấn luyện D{(sn, tn) ∈ S × T }. Các mẫu huấn luyện (sn, tn) là

độc lập và tuân theo phân phối p. Mô hình dịch máy thống kê được huấn luyện

để xấp xỉ tn với f (sn) đối với mọi (sn, tn) ∈ D. Thông thường mô hình kiểm thử

trên tập DA cũng tuân theo phân phối p.

Vấn đề ở đây là tệp kiểm thử DA thường được lấy từ một miền khác, vì vậy

f (sn) đối với mọi (sn, tn) ∈ D, nhưng thường là không tốt với các mẫu từ dữ liệu

mà có phối pA khác với p. Trong khi một mô hình có thể xấp xỉ tn rất tốt bởi

kiểm thử DA lấy từ một miền khác. Nếu D và DA là rất khác nhau, hàm xấp xỉ

sẽ không cho kết quả như mong đợi. Trong trường hợp này, chúng ta cần thích

ứng hệ thống dịch với miền và phân phối của dữ liệu kiểm thử.

Có hai xu hướng trong nghiên cứu thích ứng miền:

1. Hướng dữ liệu: Dựa vào kho ngữ liệu giả song ngữ được xây dựng hoặc là

bằng cách sao chép các câu phía đích sang phía nguồn trong miền đích, hoặc

bằng cách ghép các câu phía đích với bản dịch của nó (bản dịch mà được

dịch bởi một hệ thống dịch máy có chất lượng). Chẳng hạn: Công trình

của Jin và cộng sự năm 2020 [24] đã đề xuất một phương pháp thích ứng

miền bán giám sát cho dịch máy nơ ron: Đầu tiên họ khởi tạo bộ mã hóa và

giải mã của mô hình sequence-to-sequence với các tham biến đã được tiền

huấn luyện. Xử lý tiền huấn luyện được thực hiện thông qua mô hình ngôn

ngữ trên kho ngữ liệu đơn ngữ lớn, sau đó thực hiện dịch ngược lặp (cả hai

chiều: từ nguồn ra đích và từ đích ra nguồn) và huấn luyện mô hình ngôn

ngữ trên dữ liệu đơn ngữ miền đích. Thực nghiệm của họ cho thấy, phương

pháp đề xuất của họ đã cải tiến đáng kể chất lượng hệ thống dịch.

2. Hướng mô hình: Tập trung vào học đa tác vụ của tác vụ dịch máy trên dữ

42

liệu song ngữ miền nguồn và tác vụ mô hình ngôn ngữ trên dữ liệu phía

đích miền đích. Chẳng hạn, công trình của Dau và cộng sự năm 2019 [26]

đã đề xuất phương pháp thích ứng mô hình với các embedding có tính năng

nhận biết miền mà được học thông qua mô hình ngôn ngữ phụ trợ. Cách

tiếp cận này cho phép mô hình phân chia các biểu diễn theo miền cụ thể

cho các từ và các câu đầu ra trong miền mong đợi. Thực nghiệm của họ

cho thấy, chất lượng hệ thống dịch áp dụng phương pháp đề xuất được cải

thiện.

Như vậy đối với hướng nghiên cứu thích ứng miền hướng dữ liệu, khi có dữ

liệu theo miền, thì phương pháp thích ứng miền hướng dữ liệu chỉ đơn giản là

việc kết hợp dữ liệu miền chung và dữ liệu theo miền để huấn luyện lại hệ thống

dịch máy.

Trong quá trình thực hiện luận án, có nhiều trường hợp các văn bản tiếng

Việt được xử lý bằng các công cụ tách từ và gán nhãn từ loại. Phần tiếp theo

luận án sẽ trình bày một số công cụ mà đã được các nhóm nghiên cứu chia sẻ

1.4 Các công cụ tiền xử lý văn bản

cho cộng đồng.

Có nhiều bộ công cụ được xây dựng cho tách từ và gán nhãn từ loại, chủ yếu

được huấn luyện trên bộ dữ liệu của đề tài VLSP. Hiện tại có một số bộ công

cụ cung cấp miễn phí cho cộng đồng bao gồm:11

1. Công cụ VnCoreNLP-RDRsegmenter: Công cụ mã nguồn mở của Nguyễn

Quốc Đạt và cộng sự. Công cụ thực hiện tách từ với tiếp cận dựa vào phương

pháp “Các quy tắc Ripple Down phân lớp đơn”, ở đó các quy tắc được lưu

trữ theo một cấu trúc ngoại lệ và các quy tắc chỉ được thêm vào để chính

xác hóa các lỗi tách từ cho trước bởi các quy tắc đã có. Công cụ này đạt

11http://nlpprogress.com/vietnamese/vietnamese.html

43

độ chính xác 97, 90%.

2. Công cụ UETsegmenter: Công cụ được đề xuất bởi Nguyễn Tuấn Phong

và cộng sự. Công cụ thực hiện tách từ với tiếp cận sử dụng hồi quy lô gic

như là một bộ phân lớp nhị phân kết hợp với giải thuật so khớp dài nhất.

Đầu tiên, giải thuật so khớp dài nhất được sử dụng để bắt các từ có nhiều

hơn 2 âm tiết trong câu đầu vào. Tiếp đó hệ thống sử dụng bộ phận lớp để

xác định danh giới của từ hai âm tiết và tên riêng. Sau đó, các phỏng đoán

có độ tin cậy thấp sẽ được xác minh bằng một từ điển để thu được kết quả

cuối cùng. Công cụ này đạt độ chính xác 98, 82%.

3. Công cụ vnTokenizer: Công cụ được đề xuất bởi Lê Hồng Phương và cộng

sự. Công cụ thực hiện tách từ với tiếp cận sử dụng kết hợp kỹ thuật auto

mát trạng thái hữu hạn, phân tích cú pháp biểu thức chính quy và chiến

lược đối sánh cực đại được tăng cường bởi các phương pháp thống kê để

giải quyết sự nhập nhằng trong tách từ. Đầu tiên, văn bản được phân tích

cú pháp thành các cụm từ và các mẫu khác sử sụng các biểu thức chính

quy được định nghĩa trước. Sau đó auto mát được triển khai để xây dựng

đồ thị tuyết tính tương ứng với các cụm từ đã được phân đoạn. Áp dụng

chiến lược đối sánh cực đại trên đồ thị trong tất cả các đoạn ứng viên của

một cụm từ. Việc xử lý sự nhập nhằng trong phân đoạn được giải quyết

bằng việc sử dụng mô hình ngôn ngữ bigram được làm mịn, Công cụ này

đạt độ chính xác là 97, 33%.

4. Công cụ jointWPD: Công cụ được đề xuất bởi Nguyễn Quốc Đạt năm

2019. Công cụ được thiết kế dựa trên mô hình học đa tác vụ có thể thực

hiện tách từ, gán nhãn từ loại và phân tích phụ thuộc cho văn bản tiếng

Việt. jointWPD có độ chính xác 95, 97%.

5. Công cụ VnCoreNLP-VnMarMoT: Công cụ được đề xuất bởi Nguyễn

Quốc Đạt và cộng sự năm 2017. Công cụ thực hiện gán nhãn từ loại cho

44

tiếng Việt với độ chính xác 95.88%.

Các công cụ tách từ và gãn nhãn từ loại cho tiếng Việt hiện nay đều cho

kết quả chính xác cao. Chất lượng của các công cụ chênh lệch không nhiều.

Luận án trong thời gian đầu sử dụng bộ công cụ vnTokenizer là bộ công cụ

có chất lượng tốt nhất tại thời điểm đó. Gần đây luận án có sử dụng bộ công

1.5 Kết luận chương

cụ VnCoreNLP mới được phát triển có chất lượng tốt hơn và dễ sử dụng.

Trong chương này, chúng tôi đã giới thiệu tổng quan về dịch máy, các cách

tiếp cận chủ yếu để giải quyết bài toán dịch máy. Chúng tôi cũng đã trình bày

về vai trò và phương pháp xây dựng kho ngữ liệu song ngữ, một tài nguyên quan

trọng trong huấn luyện các hệ thống dịch máy.

Hiện nay, hệ thống dịch máy dựa trên mạng nơ-ron đã cho thấy ưu thế vượt

trội so với các hệ thống dịch máy khác [116], nhưng nó cũng có những yếu điểm

nhất định. Trong nghiên cứu của Koehn và cộng sự năm 2017 [85] về những

thách thức của dịch máy dựa trên mạng nơ-ron. Koehn đã chỉ ra có 6 thách

thức:

1. Miền dữ liệu: Chất lượng giảm khi dịch các văn bản ngoài miền huấn luyện

hệ thống dịch.

2. Kích thước dữ liệu huấn luyện hệ thống: Kích thước kho ngữ liệu càng lớn

thì chất lượng hệ thống dịch càng tăng.

3. Từ có tần suất thấp: Khó khăn khi dịch các từ có tần suất thấp.

4. Dịch câu dài: Chất lượng dịch bị giảm khi dịch các câu dài.

5. Mô hình dóng hàng từ: Mô hình chú ý (attention) không hoàn thành vai

trò dóng hàng từ.

6. Giải mã tìm kiếm chùm: Chất lượng dịch giảm khi không gian tìm kiếm

45

lớn.

Như đã chỉ ra trong sáu thách thức của dịch máy dựa trên mạng nơ-ron, hệ

thống dịch máy bị giảm chất lượng khi dịch các văn bản ngoài miền. Xây dựng

kho ngữ liệu song ngữ theo miền phục vụ cho nghiên cứu thích ứng miền nâng

cao chất lượng dịch máy là cần thiết cho các cặp ngôn ngữ không nhiều tài

nguyên song ngữ như cặp ngôn ngữ Việt-Anh.

Trong khuôn khổ của luận án, với ứng dụng hướng tới là một hệ thống dịch

máy Việt-Anh tốt trong lĩnh vực du lịch và y tế, luận án tập trung nghiên cứu

xây dựng các kho ngữ liệu song ngữ Việt-Anh theo miền và miền du lịch và y tế

được ưu tiên xây dựng. Bên cạnh đó luận án cũng nghiên cứu đề xuất một số

kỹ thuật để khai thác kho ngữ liệu này trong dịch máy.

Chương tiếp theo, luận án trình phương pháp xây dựng kho ngữ liệu song

ngữ dóng hàng mức câu theo miền và áp dụng cho miền du lịch, đồng thời trình

46

bày kỹ thuật cải tiến một công cụ dóng hàng câu cho cặp ngôn ngữ Việt-Anh.

Chương 2

Xây dựng kho ngữ liệu song ngữ

Việt - Anh dóng hàng mức câu theo

miền

Như đã đề cập trong chương 1, kho ngữ liệu song ngữ dóng hàng ở mức câu

là tài nguyên ngôn ngữ quan trọng cho nhiều ứng dụng của xử lí ngôn ngữ tự

nhiên như: nghiên cứu ngôn ngữ học so sánh, tìm kiếm thông tin xuyên ngữ, xây

dựng từ điển song ngữ,. . . . Tài nguyên này đặc biệt quan trọng trong việc huấn

luyện các hệ thống dịch máy, ví dụ như hệ thống dịch máy thống kê Moses [83],

hệ thống dịch máy nơ-ron OnpenNMT [36]. Chất lượng dịch của một hệ thống

dịch máy chịu ảnh hưởng rất nhiều bởi kích thước và chất lượng của kho ngữ

liệu song ngữ. Bên cạnh đó, các hệ dịch máy huấn luyện trên miền tổng quát

có chất lượng giảm đi rõ rệt khi ứng dụng vào dịch văn bản trên miền hạn chế.

Do vậy, khi triển khai hệ thống dịch máy trên một miền hạn chế, việc xây dựng

kho ngữ liệu phù hợp là một nhiệm vụ thiết yếu.

Đối với cặp ngôn ngữ Việt-Anh, hầu hết các kho ngữ liệu song ngữ Việt-Anh

đã được xây dựng có kích thước còn hạn chế nên việc sử dụng kho ngữ liệu này

trong huấn luyện hệ thống dịch máy Việt-Anh cải thiện chất lượng dịch chưa

47

nhiều. Trong chương này, chúng tôi trình bày việc xây dựng một kho ngữ liệu

song ngữ Việt-Anh có dóng hàng mức câu trên miền du lịch, nhằm nâng cao

chất lượng dịch máy các văn bản trong lĩnh vực du lịch. Việc xây dựng này bao

gồm hai nhiệm vụ, thứ nhất là thu thập văn bản song ngữ Việt-Anh về chủ đề

du lịch, thứ hai là phát triển nâng cấp một phần mềm dóng hàng câu hiệu quả

cho văn bản song ngữ Việt-Anh nhằm hỗ trợ việc dóng hàng kho văn bản song

ngữ.

• Xây dựng kho ngữ liệu song ngữ Việt-Anh dóng hàng mức câu theo miền

Nội dung chương gồm 3 phần chính:

• Phát triển một công cụ dóng hàng cải tiến dựa trên một công cụ dóng hàng

và ứng dụng cho miền du lịch;

• Thực nghiệm đánh giá chất lượng dịch máy Việt-Anh có sử dụng kho ngữ

câu tự động đã có, phục vụ dóng hàng kho ngữ liệu đã xây dựng;

liệu song ngữ Việt-Anh dóng hàng mức câu miền du lịch, kiểm chứng vai

2.1 Xây dựng kho ngữ liệu song ngữ Việt-Anh theo miền

2.1.1 Phương pháp thu thập ngữ liệu song ngữ và dóng hàng câu

trò của kho ngữ liệu có dóng hàng đã xây dựng.

Trong chương 1, chúng ta đã nêu hai phương pháp cơ bản thu thập văn bản

• Phương pháp thủ công [1]: Chụp ảnh hoặc quét hình ảnh các sách báo, tài

song ngữ dưới đây:

liệu, bảng thông tin, . . . rồi dùng các phần mềm xử lý để tách văn bản; hoặc

gõ lại văn bản; hoặc tìm các nguồn dữ liệu song ngữ đã số hóa như các trang

Web. Ưu điểm của cách làm này là thu thập được từ nhiều nguồn văn bản

song ngữ khác nhau, kể cả những nguồn chưa được số hóa. Nhược điểm là

48

tốn rất nhiều công sức, tiền bạc và thời gian.

• Phương pháp tự động [71]: Chủ yếu dùng các chương trình gom tự động các

dữ liệu trên mạng Internet rồi trích chọn văn bản song ngữ là bản dịch của

nhau. Sau đó cần kiểm tra lại bằng phương pháp thủ công để loại bỏ các

kết quả không như ý. Ưu điểm là thu thập văn bản song ngữ nhanh, tốn ít

chi phí, nhưng nhược điểm là nguồn dữ liệu song ngữ thu thập bị hạn chế.

Thực tế phương pháp này chỉ có thể áp dụng để thu thập văn bản song ngữ

từ các trang Web song ngữ.

Qua tìm hiểu, chúng tôi nhận thấy ngữ liệu du lịch song ngữ Việt-Anh khá ít

và phân tán nhiều nguồn khác nhau, như: sách, sổ tay, bảng thông báo, Website

song ngữ, . . . Nên phương pháp thu thập tự động thu được ít dữ liệu. Do vậy,

chúng tôi chủ yếu dùng phương pháp thu thập dữ liệu du lịch song ngữ một cách

2.1.2 Xây dựng kho ngữ liệu song ngữ Việt - Anh miền du lịch

2.1.2.1 Nguồn thu thập dữ liệu

thủ công.

Các văn bản song ngữ trong lĩnh vực du lịch không nhiều và khá tản mát.

Việc thu thập tự động dữ liệu song ngữ du lịch trên các trang Web không khả

thi do số lượng trang Web trong lĩnh vực này không nhiều, và nếu có thì số

lượng bài cũng rất ít. Nếu có hai bài về cùng một chủ đề thì thường lại viết khác

nhau nên không thể coi là bản dịch của nhau. Do đó, chúng tôi thu thập dữ liệu

du lịch song ngữ Việt-Anh bằng phương pháp thủ công là chủ yếu.

• Sổ tay du lịch của các địa danh du lịch, sổ hướng dẫn sử dụng khách sạn,

Các nguồn thu thập chủ yếu gồm có:

sách dạy hội thoại tiếng Anh với khách du lịch. Theo cách thu thập này

chúng tôi đã thu được 93 trang văn bản song ngữ Việt – Anh, tương ứng

• Lời giới thiệu song ngữ trên các bảng gắn tại các di tích, địa điểm du lịch

49

với 1.915 câu tiếng Việt và 1.948 câu tiếng Anh.

do chúng tôi đi du lịch chụp lại và nhờ bạn bè đi du lịch chụp và gửi cho.

Theo cách thu thập này chúng tôi đã thu được 36 trang văn bản song ngữ

• Tờ rơi, tờ gấp quảng cáo du lịch. Theo cách thu thập này chúng tôi đã thu

Việt – Anh, tương ứng với 741 câu tiếng Việt và 756 câu tiếng Anh.

được 13 trang văn bản song ngữ Việt – Anh, tương ứng với 267 câu tiếng

• Sách Luật du lịch. Theo cách thu thập này chúng tôi đã thu được 31 trang

Việt và 273 câu tiếng Anh.

văn bản song ngữ Việt – Anh, tương ứng với 604 câu tiếng Việt và 604 câu

• Văn bản trong hồ sơ đề nghị công nhận di sản văn hóa của Việt Nam. Theo

tiếng Anh.

cách thu thập này chúng tôi đã thu được 184 trang văn bản song ngữ Việt

• Văn bản hợp tác du lịch với các quốc gia. Theo cách thu thập này chúng

– Anh, tương ứng với 3.790 câu tiếng Việt và 3.864 câu tiếng Anh.

tôi đã thu được 54 trang văn bản song ngữ Việt – Anh, tương ứng với 1.112

• Trang Web song ngữ giới thiệu về du lịch Việt Nam: Trang web của Tổng

câu tiếng Việt và 1.144 câu tiếng Anh.

643 trang văn bản song ngữ Việt – Anh, tương ứng với 13.244 câu tiếng Việt

cục Du lịch, Vietravel, . . . Theo cách thu thập này chúng tôi đã thu được

2.1.2.2 Chuyển dữ liệu song ngữ thu thập thành dữ liệu số có cấu trúc thống nhất

và 13.511 câu tiếng Anh.

Đối với các tài liệu như sách, sổ tay, tờ rơi, bảng thông báo, . . . nếu chỉ có

bản cứng (văn bản trên giấy), không có bản mềm (văn bản lưu trên máy tính),

• Bước 1: Dùng máy quét ảnh hoặc máy ảnh để chụp ảnh.

• Bước 2: Dùng phần mềm chuyển file ảnh văn bản thành văn bản.

50

thì chúng tôi tiến hành công việc như sau:

• Bước 3: Chỉnh sửa các lỗi văn bản do phần mềm nhận dạng văn bản nhận

dạng sai để thu được văn bản song ngữ chính xác bằng bản mềm.

Các dữ liệu dạng mềm được làm sạch thành phần không phải chữ như ảnh, các

thẻ, các bảng biểu (nếu có).

Tất cả các văn bản mềm sau đó được tách thành chương, đoạn theo một định

dạng thống nhất. Dữ liệu mới sau đó trải qua quá trình tách câu bằng công cụ

tự động. Chúng tôi dùng công cụ tách câu vnSentDetector1 cho văn bản tiếng

Việt và Stanford NLP2 (Natural Language Processing) cho văn bản tiếng Anh.

Lý do lựa chọn hai công cụ này để thực hiện hiện tách câu tiếng Việt và tiếng

Anh là chúng dễ cài đặt để sử dụng, công cụ chạy ổn định và có độ chính xác

khá cao. Văn bản sau khi tách câu được kiểm tra lại một lần nữa để loại bỏ lỗi

sai.

Chúng tôi cũng xây dựng một công cụ tự động gắn thẻ cấu trúc văn bản (các

khối văn bản như chương, đoạn văn và câu). Thông tin cấu trúc văn bản sẽ hữu

ích cho việc xây dựng công cụ dóng hàng câu trình bày ở mục tiếp theo.

Kích thước kho ngữ liệu song ngữ Việt-Anh miền du lịch mà chúng tôi thu

Bảng 2.1: Kích thước kho ngữ liệu song ngữ Việt-Anh miền du lịch thu thập được

STT

Tên kho

Thời điểm

Số cặp câu

Ghi chú

1

CoTurism1 Tháng 12/2016

5.000

2

CoTurism2 Tháng 12/2017

12.010

Bao gồm CoTurism1

3

CoTurism3

Tháng 5/2018

14.237

Bao gồm CoTurism2

3

CoTurism4 Tháng 12/2019

20.337

Bao gồm CoTurism3

1http://mim.hus.vnu.edu.vn/phuonglh/softwares 2https://stanfordnlp.github.io/CoreNLP/download.html

51

thập được theo thời gian được thể hiện trong Bảng 2.1

2.2 Dóng hàng văn bản song ngữ Việt-Anh

Các kho văn bản song ngữ cần được dóng hàng để có thể khai thác được

trong các hệ thống dịch. Việc dóng hàng có thể thực hiện ở mức từ, mức câu

hoặc thô hơn là ở mức đoạn. Nhu cầu ngữ liệu văn bản song ngữ có dóng hàng

phổ biến nhất là ở mức câu. Việc dóng hàng câu hầu hết đã được tự động hoá

nhờ các phần mềm dóng hàng có chất lượng tương đối cao.

Vấn đề đặt ra cho dóng hàng tự động là không phải lúc nào một câu trong

văn bản nguồn cũng được dịch thành một câu tương ứng trong văn bản đích.

Trong nhiều trường hợp, một câu trong ngôn ngữ này có thể được dịch thành

nhiều cầu trong ngôn ngữ khác, hoặc ngược lại nhiều câu có thể được dịch gộp

thành một câu. Cũng có những trường hợp, một số câu trong văn bản nguồn

bị lược dịch trong văn bản đích. Thứ tự các câu tương ứng dịch trong văn bản

nguồn và đích cũng có thể khác nhau. Chính những hiện tượng như thế làm cho

việc dóng hàng tự động không phải là đơn giản.

Trong mục này chúng tôi trình bày phương pháp luận cho việc dóng hàng câu

trên văn bản song ngữ, đồng thời đề xuất cải tiến một công cụ dóng hàng nhằm

2.2.1 Phương pháp dóng hàng văn bản song ngữ mức câu

nâng cao chất lượng dóng hàng văn bản song ngữ Việt-Anh.

Phương pháp dóng hàng văn bản song ngữ mức câu đầu tiên dựa trên độ dài

câu được Brown và cộng sự đề xuất năm 1991 [79]. Độ dài câu được tính bằng

số lượng từ (token) có trong câu. Thuật toán giả thiết rằng độ dài của một câu

bất kì và bản dịch của nó có sự phụ thuộc chặt chẽ. Thuật toán dóng hàng hai

văn bản dựa vào mô hình Markov ẩn. Gale và Church [112] cũng có hướng tiếp

cận tương tự nhưng các tác giả đo độ dài câu bằng số lượng kí tự và áp dụng

thuật toán quy hoạch động.

52

Kay và R¨oscheisen [65] giả định nếu hai câu là dóng hàng của nhau thì các

từ của chúng cũng phải tương ứng. Ban đầu, một ma trận các cặp ứng viên câu

dóng hàng với nhau được khởi tạo với cặp câu đầu, cuối văn bản và mỗi cặp

câu ở giữa phân bố gần đường chéo cũng được giả định gióng với nhau. Sau đó,

tính toán tần suất của các cặp từ xuất hiện đồng thời trong cặp câu ứng viên.

Bảng các cặp câu ứng viên được cập nhật lại dựa trên số lượng cặp từ tần suất

cao mà cặp câu đó chứa. Các cặp từ với tần suất rất cao tạo thành các điểm

neo mới để cập nhật giả định dóng hàng các câu ở giữa. Thuật toán lặp đi lặp

lại cho đến khi hội tụ. Thuật toán đạt độ chính xác cao nhưng chạy chậm.

Chen [99] đề xuất thuật toán dóng hàng dựa trên việc tính toán xác suất cặp

từ có mặt trong cặp câu dóng hàng với nhau trong văn bản huấn luyện. Sau đó,

áp dụng mô hình Markov ẩn tương tự như của Brown và cộng sự để dóng hàng

câu.

Simard và Plamondon [68] đề xuất dùng các từ cùng gốc (cognate) như ngày,

tháng, tên riêng, một số dấu câu để tạo thành các điểm neo chia 2 văn bản

thành các khối tương ứng nhỏ hơn. Các cognate được định nghĩa là cặp từ tố

trong 2 văn bản có 4 kí tự đầu giống nhau.

Romary và Bonhomme [57] đề xuất phương pháp dóng hàng dựa vào cấu trúc

văn bản kết hợp với dóng hàng dựa vào độ dài văn bản theo ký tự của Gale và

Church [112]. Trên cơ sở đề xuất này, Thi-Minh-Huyen Nguyen và cộng sự đã

triển khai phần mềm dóng hàng XAlign. Trong [77], Huyen và Rossignol tiếp

tục đề xuất cải tiến công cụ dóng hàng XAlign bằng cách ước lượng tự động xác

suất tương hợp độ dài câu của văn bản trong hai ngôn ngữ bất kì. Tuy nhiên,

đánh giá kết quả dóng hàng của công cụ XAlign trên cặp ngôn ngữ Anh-Việt

và Pháp-Việt cho thấy độ chính xác thấp hơn đáng kể so với kết quả dóng hàng

các cặp ngôn ngữ Ấn-Âu chẳng hạn như Anh-Pháp.

Cho đến thời điểm hiện tại các phương pháp dóng hàng câu song ngữ Việt-

Anh đều cho độ chính xác chưa cao [77], [105].

53

Ví dụ, công cụ XAlign [77] dóng hàng kho văn bản Pháp-Anh trích từ Tạp

chí chính thức châu Âu gồm trên 50.000 cặp câu đạt độ đo F1 lên đến 98,06%

với văn bản đã tách câu, 96,84% với văn bản thô. Đối với các cặp ngôn ngữ

khác như Pháp-Trung hay Pháp-Nhật, độ đo F1 trên kho văn bản báo chí chứa

khoảng 5.000 cặp câu đạt lần lượt là 81.78% và 89,05%. Trên văn bản thuộc thể

loại văn học như tác phẩm "Hoàng tử bé" gồm khoảng 1.600 cặp câu, độ đo F1

cho các cặp Pháp-Anh, Pháp-Việt đạt lần lượt là 93,42% và 89,08%, trong khi

cặp ngôn ngữ Anh-Việt chỉ đạt đến 78,73%.

Gần đây hơn, công trình [105] năm 2015 đề xuất công cụ dóng hàng trên cặp

ngôn ngữ Anh-Việt vẫn đạt điểm F1 tương đối thấp 67,09% trên kho ngữ liệu

song ngữ Anh-Việt gồm khoảng 1.800 cặp câu thuộc các lĩnh vực ngân hàng,

khoa học, sức khỏe và du lịch Việt Nam.

Do vậy, trong luận án này chúng tôi đề xuất cải tiến một trong các phần mềm

dóng hàng nguồn mở cho cộng đồng nhằm thu được một hệ thống dóng hàng có

hiệu năng cao hơn.

Chúng tôi lựa chọn cải tiến công cụ XAlign [77] để dóng hàng văn bản. Đây là

một trong các công cụ được cung cấp miễn phí, có độ chính xác cao và ổn định

trong các công cụ tham gia dự án đánh giá các công cụ dóng hàng ARCADE II

[118]. Bên cạnh XAlign, còn có thể kể đến một số công cụ dóng hàng câu phổ

biến như Hunalign hay Champollion3. Trong phần thực nghiệm, chúng tôi sẽ so

sánh công cụ cải tiến XAlign với Hunalign4. Công cụ Champollion phụ thuộc

2.2.2 Cải tiến công cụ dóng hàng câu XAlign

2.2.2.1 Phương pháp dóng hàng XAlign

nhiều vào thông tin từ vựng nên chúng tôi chưa có điều kiện khai thác.

Như đã nêu ở mục trên, XAlign sử dụng phương pháp dóng hàng dựa vào độ

3http://champollion.sourceforge.net 4 https://github.com/danielvarga/hunalign

54

dài văn bản theo ký tự của Gale và Church kết hợp với dóng hàng dựa vào cấu

trúc văn bản.

Lõi của phương pháp dóng hàng theo Gale và Church [112] là thuật toán

DTW (Dynamic Time Warping). Dựa trên quan sát về tương quan độ dài của

các cặp câu là bản dịch của nhau, thuật toán DTW hoạt động như sau.

1. Dóng hàng dùng thuật toán DTW

Cho văn bản song ngữ gồm có m câu thuộc ngôn ngữ nguồn và n câu thuộc

ngôn ngữ đích có chuỗi độ dài câu tương ứng là (ai)1≤i≤m và (bj)1≤j≤n. c(l1, l2)

là một hàm chi phí cho biết mức độ không chắc chắn khi dóng hàng đoạn

văn bản nguồn có độ dài l1 với đoạn văn bản đích có độ dài l2. Thuật toán

DTW giả thiết chuỗi các tương ứng dịch phải tìm bảo toàn thứ tự các câu

trong văn bản. Kí hiệu (i, j) là một phép dóng hàng i câu đầu tiên trong văn

bản nguồn với j câu đầu tiên trong văn bản đích. Như vậy thuật toán DTW

(m, n) (m câu nguồn được dóng với n câu đích). Để thực hiện được điều này,

tìm đường đi tối ưu chi phí dóng hàng từ điểm xuất phát (0,0) tới điểm đích

ta xây dựng một ma trận: M = (matchi,j)1≤i≤m,1≤j≤n, với matchi,j là chi phí

cực tiểu của dóng hàng (i, j). Khi đó match0,0 = 0 và matchm,n chính là tổng

chi phí cực tiểu khi dóng hàng m câu nguồn với n câu đích. Tại mỗi điểm

• Dóng hàng kiểu 1-1: một câu nguồn được dịch thành một câu đích;

• Dóng hàng kiểu 1-0: một câu nguồn bị bỏ qua không được dịch trong

trên đường đi, có thể xét tiếp một trong các kiểu tương ứng dịch sau:

• Dóng hàng kiểu 0-1: câu trong văn bản đích được thêm mới so với văn

văn bản đích;

• Dóng hàng kiểu 1-2: một câu nguồn dịch thành hai câu đích;

• Dóng hàng kiểu 2-1: hai câu nguồn được dịch thành một câu đích;

• Dóng hàng kiểu 2-2: hai câu nguồn được dịch thành hai câu đích.

55

bản nguồn;

Đây là các kiểu dóng hàng câu được Gale và Church thống kê trên kho văn

bản song ngữ Anh - Pháp. matchi,j được tính bởi công thức 2.2.1.

matchi−1,j−1 + c(ai−1, bj−1)

matchi−1,j + c(ai−1, 0) + penalty10

matchi,j−1 + c(0, bj−1) + penalty01

matchi,j = min

matchi−2,j−1 + c(ai−1 + ai−2, bj−1) + penalty21

matchi−1,j−2 + c(ai−1, bj−1 + bj−2) + penalty12

matchi−2,j−2 + c(ai−1 + ai−2, bj−1 + bj−2) + penalty22

 

(2.2.1)

Mỗi dóng hàng không phải là dóng hàng 1-1 thì chịu một giá trị phạt

(penalty) đó là vì ta giả thiết tất cả các dóng hàng câu của hai văn bản là

dóng hàng 1-1.

P (i − j) là xác xuất của dóng hàng i − j trong kho ngữ liệu song ngữ mẫu.

Giá trị của các penalty được tính như sau: penaltyij = 1 − P (i − j), trong đó

Hàm chi phí c là hàm trung tâm của giải thuật DTW. Gale và Church định

nghĩa nó sử dụng một hằng phản ảnh tỷ lệ độ dài câu điển hình giữa hai

ngôn ngữ được xem xét. [77] ước lượng tỷ lệ này bằng công thức tính xác

suất ánh xạ câu, độc lập ngôn ngữ.

2. Xác suất ánh xạ câu độc lập ngôn ngữ

Để xác định xác suất ánh xạ câu dựa vào độ dài, giả thiết độ dài các câu

trong kho văn bản song ngữ tuân theo phân bố chuẩn Gauss (Đường cong

phân phối chuẩn có hình chuông). Gọi giá trị trung bình và độ lệch chuẩn

là l1 và δl1 cho văn bản nguồn, l2 và δl2 cho văn bản đích (Độ lệch chuẩn là

độ lệch trung bình giữa hai câu bất kỳ trong cùng một ngôn ngữ). Để tính

56

xác suất mà một câu có độ dài l2 là bản dịch của câu có độ dài l1, trước

l(cid:48) 1 =

l(cid:48) 2 =

l1 − l1 δl1

l2 − l2 δl2

tiên chúng ta chuẩn hoá các độ dài này về trong khoảng [0,1]:

1 và l(cid:48) 2, tức là xác suất tìm được độ dài tốt hơn l2 phù hợp với l1. Khi đó xác suất l1

rồi tính diện tích dưới đường cong phân phối chuẩn trong khoảng l(cid:48)

1 ≤ l(cid:48) 2,

ánh xạ được với l2 là 1 trừ đi giá trị tích phân này. Như vậy, giả sử l(cid:48)

2

−t2 2 dt

1 −

e

c(l1, l2) = −log

l(cid:48) 1

(cid:33) khi đó hàm chi phí được tính như sau: (cid:32) (cid:90) l(cid:48) (2.2.2)

Hàm chi phí này cho phép tính toán trên cặp ngôn ngữ bất kì dựa vào độ

dài thực tế các câu trong kho văn bản song ngữ mà không cố định trước

một tỷ lệ như trong thuật toán Gale và Church.

3. Dóng hàng văn bản dựa vào cấu trúc

Romary và Bonhomme đã đưa ra một hệ thống dựa vào giải thuật DTW

của Gale và Church kết hợp với việc xét cấu trúc của văn bản. Mỗi văn bản

được tổ chức theo cấu trúc cây. Ví dụ: Một cuốn sách có thể gồm nhiều

phần. Mỗi phần có thể bao gồm nhiều chương, mỗi chương gồm nhiều mục,

trong đó có các tiểu mục. Mỗi tiểu mục nhỏ nhất (không chứa tiểu mục

con) bao gồm các đoạn (paragraph), mỗi đoạn là một hoặc nhiều câu. Một

cuốn sách như vậy có thể được mã hóa thành cấu trúc cây với các thẻ XML

: cho toàn văn bản;

: cho các phần, chương, mục và các tiểu mục được sử dụng lồng

như sau:

: cho các đoạn;

: cho các câu.

57

nhau theo phân cấp văn bản;

Giải thuật dóng hàng dựa vào cấu trúc văn bản được thực hiện như sau:

Bước 1: Gán nhãn cấu trúc cho văn bản;

Bước 2: Dựa vào nhãn cấu trúc, thực hiện dóng hàng thành phần lớn nhất

của cặp văn bản (dóng hàng các Văn bản), sau đó thực hiện đệ quy cho các

thành phần nhỏ hơn ở bên trong (dóng hàng các phần , chương, mục, đoạn,

câu).

Hạn chế của hệ thống này là không thể xử lý các trường hợp mà khác nhau

về nhãn cấu trúc nhưng được dóng hàng với nhau.

Để giải quyết vấn đề này, trước khi dóng hàng ở mỗi cấp độ giữa hai văn

bản (văn bản, phần, chương, mục, đoạn, câu), công trình [77] thực hiện

kiểm tra tính thống nhất từ đầu đến cuối của các nhãn cấu trúc. Nếu có sự

không thống nhất (có sự lẫn lộn giữa nhãn đoạn và nhãn mục chẳng hạn)

thì sẽ bỏ qua nhãn cấu trúc ở mức này và chuyển sang mức kế tiếp. Tiếp

đến, nếu thấy sự khác biệt lớn giữa số lượng đoạn văn bản ở hai mức được

dóng hàng (tỷ lệ lớn hơn 2 và nhỏ hơn 0,5) thì bỏ qua và chuyển đến văn

bản kế tiếp có ít phần tử hơn. Xử lý được lặp cho đến khi thu được hai văn

bản ở mức có thể so sánh được.

Nhược điểm của phương pháp dóng hàng dựa vào cấu trúc và độ dài câu ở

trên là chưa xét hết các khả năng dóng hàng giữa hai văn bản và lựa chọn giá

trị penalty cho các dóng hàng không phải là dóng hàng 1-1 còn chưa phù hợp,

điều này làm giảm chất lượng dóng hàng của phương pháp. Chính vì vậy chúng

tôi thực hiện cải tiến phương pháp bằng cách mở rộng khả năng dóng hàng và

đề xuất giá trị penalty phù hợp đối với từng loại dóng hàng cho cặp ngôn ngữ

58

Việt-Anh.

2.2.2.2 Mở rộng khả năng dóng hàng

Cũng như tất cả các phương pháp dóng hàng câu đã trình bày trong mục

2.2.1, phương pháp dóng hàng cài đặt trong XAlign chỉ xét đến các kiểu dóng

2, 2 − 1, 2 − 2 (dóng hàng đến cấp độ 2). Chúng tôi thống kê trên kho ngữ liệu

hàng n−m sau (n câu văn bản nguồn với m câu văn bản đích):0−1, 1−0, 1−1, 1−

du lịch mà chúng tôi thu thập được có khoảng 5.000 cặp câu song ngữ du lịch

Việt-Anh đã được dóng hàng chính xác (bằng cách dóng hàng tự động rồi chỉnh

sửa thủ công), chúng tôi nhận thấy rằng các dóng hàng 3−1, 1−3, 2−3, 3−2, 3−3

(dóng hàng đến cấp độ 3) chiếm khoảng 1, 7%. dóng hàng từ cấp độ 4 trở lên

chiếm tỉ lệ nhỏ hơn nhiều, khoảng 0, 42%.

Với thống kê ở trên, việc không tính đến các dóng hàng cấp độ 3 ảnh hưởng

khá lớn tới chất lượng dóng hàng, do sự lan truyền lỗi. Vì thế chúng tôi quyết

3, tạm thời không xét cấp độ 4 vì nó có tỉ lệ thấp.

định mở rộng phương pháp dóng hàng câu được đề xuất trong [77] đến cấp độ

Với việc mở rộng sang các phép dóng hàng đến cấp độ 3, công thức của giải

thuật DTW trong [77] mở rộng được đề xuất như công thức 2.2.3 (thêm 5 khả

59

năng dóng hàng so với công thức cũ).

matchi−1,j−1 + c(ai−1, bj−1)

matchi−1,j + c(ai−1, 0) + penalty10

matchi,j−1 + c(0, bj−1) + penalty01

matchi−2,j−1 + c(ai−1 + ai−2, bj−1) + penalty21

matchi−1,j−2 + c(ai−1, bj−1 + bj−2) + penalty12

matchi,j = min

matchi−2,j−2 + c(ai−1 + ai−2, bj−1 + bj−2) + penalty22

matchi−1,j−3 + c(ai−1, bj−1 + bj−2 + bj−3) + penalty13

matchi−2,j−3 + c(ai−1 + ai−2, bj−1 + bj−2 + bj−3) + penalty23

matchi−3,j−2 + c(ai−1 + ai−2 + ai−3, bj−1 + bj−2) + penalty32

matchi−3,j−1 + c(ai−1 + ai−2 + ai−3, bj−1) + penalty31

matchi−3,j−3 + c(ai−1 + ai−2 + ai−3, bj−1 + bj−2 + bj−3) + penalty33

 

(2.2.3)

Dấu "+" trong công thức 2.2.3 là dấu của phép cộng các số thông thường.

Dóng hàng dựa vào độ dài văn bản theo ký tự: Giả sử trong hai văn

bản song song cần dóng hàng có n câu ở ngôn ngữ nguồn và p câu ở ngôn ngữ

đích. Khi đó gọi ai (1 ≤ i ≤ n) và bj (1 ≤ j ≤ p) tương ứng là phần tử của mảng

ls và lt tương ứng là độ dài đoạn văn bản nguồn và độ dài văn bản đích. c(ls,lt)

chứa số kí tự của câu i trong văn bản nguồn và của câu j trong văn bản đích;

là hàm chi phí được tính dựa trên mức độ chênh lệch về độ dài giữa hai đoạn

penaltyij là giá trị hàm phạt cho mỗi kiểu dóng hàng khác với kiểu dóng hàng

văn bản tương ứng khi thực hiện dóng hàng hai đoạn văn bản này với nhau.

phổ biến nhất là 1-1. Giá trị này tỉ lệ nghịch với xác suất của kiểu dóng hàng

tương ứng. matchi,j (1 ≤ i ≤ n, 1 ≤ j ≤ p) lưu giữ chi phí dóng hàng nhỏ nhất

60

khi dóng khớp i câu nguồn với j câu đích. Khi đó dóng hàng dựa vào độ dài ký

tự được thực hiện như sau:

Bước 1: Tính matchi,j theo công thức; 2.2.3

Bước 2: Kiểm tra nếu matchi,j đạt min tại ij thì ta sẽ dóng hàng i câu nguồn

với j câu đích;

Bước 3: Nếu i < n và j < p thì quay lại Bước 1, trái lại thì kết thúc.

Độ phức tạp tính toán của giải thuật là O(n.p) [73].

Công cụ dóng hàng câu XAlign ban đầu được chúng tôi cải tiến và gọi tên là

2.2.2.3 Tính giá trị penalty phù hợp cho cặp ngôn ngữ Việt-Anh

penaltyij được tính theo số lượng dóng hàng i − j so với dóng hàng 1 − 1 trên

viXAlign.

kho ngữ liệu mà ta lựa chọn. Trong công cụ dóng hàng viXAlign, ngoại trừ dóng

hàng kiểu 1 − 1 không xét giá trị phạt, penaltyij được tính theo công thức sau

dựa trên kho ngữ liệu CorTurism1 (Mục 2.1.2.2) đã được dóng hàng chính xác:

+ λ2

penaltyij = −λ1

(cid:19) (2.2.4) (cid:18) P(match(i, j)) P(match(1, 1))

i − j(j (cid:54)= 1, j (cid:54)= 1) có trong công thức 2.2.3.

Công thức 2.2.4 được dùng để tính giá trị phạt penaltyij đối với các dóng hàng

• 0 ≤ i, j ≤ 3 cho các cặp ij trong công thức 2.2.4.

• P(match(i, j)): là xác suất dóng hàng kiểu i−j. Xác suất này được ước lượng

Trong đó:

dựa trên kho ngữ liệu dóng hàng mẫu CorTurism1 (mục 2.1.2.2) dùng làm

• Thử nghiệm nhiều lần trên kho ngữ liệu song ngữ Việt-Anh miền du lịch

khảo sát.

CorTurism1, chúng tôi đã tìm được cặp giá trị: (λ1 = −100, λ2 = 177) là cặp

giá trị hằng số hợp lý cho λ1 và λ2.

61

Giá trị penalty thu được đối với từng loại dóng hàng như trong Bảng 2.2.

Bảng 2.2: Giá trị penalty cho mỗi kiểu dóng hàng

Dóng hàng

0-1

1-0

1-1

1-2

2-2

2-1

penalty

482

547

0

-177

44

200

Dóng hàng

2-3

3-2

3-1

3-3

1-3

penalty

795

657

426

-265

4691

2.2.2.4 Kết quả thực nghiệm

• Độ đo đánh giá

Chúng tôi sử dụng các độ đo độ chính xác (P recision), độ phủ (Recall), độ

P recision =

đo F1 để đánh giá công cụ dóng hàng câu.

#CorrectAlign #SysAlign

Recall =

(2.2.5)

#CorrectAlign #Ref Align

(2.2.6)

F1 = 2 ×

P recision × Recall P recision + Recall

(2.2.7)

#CorrectAlign: là số dóng hàng câu đúng bởi giải thuật.

#SysAlign: là tổng số dóng hàng câu bởi giải thuật.

#Ref Align: là tổng số dóng hàng câu thủ công làm chuẩn tham chiếu.

• Kết quả thực nghiệm

Trong đó:

Thực nghiệm trên kho ngữ liệu song ngữ Việt-Anh "Le Petit prince" của

1.660 câu tiếng Anh và kho ngữ liệu song ngữ Việt-Anh miền du lịch CorTurism3

Nguyễn Thị Minh Huyền và cộng sự, kho ngữ liệu này có 1.663 câu tiếng Việt và

62

(mục 2.1.2.2) có 12.457 câu tiếng Anh và 12.288 câu tiếng Việt.

Chúng tôi so sánh kết quả về mức độ dóng hàng chính xác giữa viXAlign với

công cụ XAlign chưa cải tiến và công cụ Hunalign. Hunalign là công cụ dóng

hàng câu văn bản song ngữ nguồn mở của Varga và cộng sự [19].

Kết quả so sánh của ba công cụ trên được thể hiện trong Bảng 2.3 và Bảng

Bảng 2.3: Dóng hàng trên kho ngữ liệu Việt-Anh "Le Petit prince"

P recision

Recall

F1

XAlign

81,42%

76,21%

59,99%

Hunalign

73,61%

76,86%

57,80%

viXAlign

89,15% 88,18% 88,66%

Bảng 2.4: Dóng hàng trên kho ngữ liệu du lịch Việt-Anh

P recision

Recall

F1

XAlign

80,61%

84,99%

70,31%

Hunalign

78,96%

83,02%

67,19%

viXAlign

90,60% 89,77% 80,95%

2.4.

Như vậy, nhờ có việc bổ sung các phép dóng hàng cấp độ 3, cùng với việc tính

các giá trị penalty phù hợp, chất lượng dóng hàng của công cụ XAlign đã được

tăng lên đáng kể trên cả văn bản trong lĩnh vực du lịch và văn bản thuộc miền

chung (dữ liệu "Hoàng tứ bé" chẳng hạn). Chúng tôi thử nghiệm công cụ dóng

hàng trên dữ liệu “Hoàng tử bé” vì dữ liệu này là đa ngữ nên có thể dùng để

so sánh tương quan giữa chất lượng dóng hàng các ngôn ngữ châu Âu với dóng

hàng Anh-Việt.

Mức độ dóng hàng chính xác của công cụ cải tiến viXAlign cao hơn công cụ

dóng hàng Hunalign bình quân 13,21% trung bình tất cả các độ đo trên hai kho

ngữ liệu thực nghiệm.

63

Công cụ viXAlign đạt độ chính xác cao hơn Hunalign là vì:

• Công cụ viXAlign có sử dụng thông tin cấu trúc văn bản, nên khi dóng

hàng câu bị sai ở đoạn văn bản nào thì nó chỉ gây ảnh hưởng đến kết quả

dóng hàng câu ở đoạn văn bản đó mà không gây ảnh hưởng lan truyền đến

• Chúng tôi lựa chọn được giá trị penalty phù hợp để sử dụng trong dóng

các dóng hàng câu trong toàn văn bản.

hàng câu cho cặp ngôn ngữ Việt-Anh.

Công cụ viXAlign của chúng tôi được chia sẻ dạng nguồn mở trên trang

2.3 Ứng dụng kho ngữ liệu du lịch song ngữ Việt-Anh cho hệ

thống dịch máy

github.4

Vấn đề dịch máy Anh-Việt, Việt-Anh trên miền tổng quát đã được nhiều

nhóm nghiên cứu quan tâm. Đặc biệt đã có những kho ngữ liệu song ngữ Việt-

100.000 cặp câu được xây dựng bởi các nhóm nghiên cứu trong khuôn khổ đề tài

Anh được xây dựng cho dịch máy trên miền tổng quát như kho VLSP gồm

VLSP KC01/06-10,5 hay kho ngữ liệu EVBCorpus gồm 800.000 cặp câu [76].

Trong phần này, chúng tôi quan tâm tới bài toán dịch trên miền văn bản du

lịch. Như đã nêu trong phần mở đầu, du lịch là một lĩnh vực ưu tiên phát triển

tại Việt Nam, với lượng khách nước ngoài đến Việt Nam ngày càng tăng. Nhu

cầu dịch tự động Việt-Anh trong lĩnh vực du lịch nhằm hỗ trợ du khách tra cứu

thông tin du lịch do vậy cũng rất lớn. Gần đây cũng đã có đề tài về dịch tiếng

nói cho các hội thoại nhằm phục vụ khách du lịch.6 Phần này tập trung vào chủ

đề dịch máy Việt-Anh cho văn bản trong lĩnh vực du lịch, nhằm hỗ trợ cho việc

truyền bá các thông tin du lịch của các địa phương. Cụ thể, chúng tôi đặt mục

5https://vlsp.hpda.vn/demo/?page=resources 6Đề tài Nhà nước KC01.03/11-15 Nghiên cứu phát triển hệ thống dịch tiếng nói hai chiều Việt – Anh, Anh – Việt

có định hướng lĩnh vực

64

tiêu cải thiện chất lượng dịch văn bản du lịch bằng việc thực hiện xây dựng kho

ngữ liệu song ngữ Việt – Anh dóng hàng ở mức câu với kích thước lớn trên miền

hạn chế (các văn bản trong một lĩnh vực cụ thể) là thông tin du lịch. Chúng tôi

cũng chỉ ra rằng kho ngữ liệu song ngữ có dóng hàng đã xây dựng thực sự có

2.3.1 Kết quả thực nghiệm

giá trị nâng cao chất lượng dịch văn bản Việt – Anh thuộc lĩnh vực du lịch.

Phương pháp tiếp cận của chúng tôi hướng vào việc xây dựng kho ngữ liệu

song ngữ huấn luyện hệ thống dịch máy phân chia theo các lĩnh vực. Kho ngữ

liệu song ngữ Việt-Anh đã dóng hàng ở bước trên được sử dụng để cải thiện

chất lượng của hệ thống dịch máy thống kê cho các văn bản thuộc lĩnh vực du

lịch. Trong phần này luận án trình bày kết quả thực nghiệm trên hệ thống dịch

máy Moses [83] (hệ thống dịch máy thống kê), có so sánh chất lượng với hệ

thống dịch nơ ron được xem là có ưu điểm vượt trội (hệ thống dịch máy Google

Translate). Kết quả điểm BLEU tăng cho thấy chất lượng của kho ngữ liệu mà

luận án thu thập được.

Cụ thể, chúng tôi sử dụng Moses để huấn luyện hệ thống dịch máy trên kho

ngữ liệu du lịch song ngữ Việt-Anh mà chúng tôi thu thập được, sau đó sử dụng

hệ thống dịch máy này để dịch văn bản du lịch rồi so sánh chất lượng bản dịch

với hệ thống dịch máy huấn luyện trên kho ngữ liệu không chia theo lĩnh vực,

sử dụng phương pháp đánh giá chất lượng dịch máy theo điểm BLEU [56]

Kho ngữ liệu song ngữ Việt-Anh miền du lịch mà chúng tôi thu thập được

đến cuối năm 2017 là 12.000 cặp câu. Chúng tôi đã sử dụng kho ngữ liệu này để

2.3.1.1 Đánh giá hiệu quả ứng dụng kho ngữ liệu du lịch vào hệ thống dịch trên miền

du lịch

triển khai thực nghiệm đánh giá hiệu quả ở mục tiếp theo.

Trong mục này, luận án đánh giá hiệu quả của việc ứng dụng kho ngữ liệu

65

song ngữ Việt – Anh vào huấn luyện các hệ thống dịch máy văn bản trong miền

du lịch. Để làm điều này, chúng tôi thực nghiệm so sánh kết quả dịch của một

hệ thống không được huấn luyện với dữ liệu song ngữ trong miền du lịch (hệ

thống 1) với 6 hệ thống được huấn luyện với dữ liệu miền du lịch theo nguyên

tắc đánh giá chéo: Chia 12.000 cặp câu song ngữ du lịch Việt-Anh thành 6 phần

độc lập, lần lượt giữ lại 1 phần (2.000 cặp câu) để làm dữ liệu đánh giá, 5 phần

còn lại (10.000 cặp câu) sẽ được thay thế bằng 10.000 cặp câu ở các vị trí khác

nhau trong kho ngữ liệu 165.678 cặp câu song ngữ Việt-Anh thuộc nhiều lĩnh

vực khác nhau để huấn luyện Hệ thống dịch máy. Cách thức huấn luyện các hệ

• Huấn luyện Hệ thống dịch máy 1: Chúng tôi sử dụng kho ngữ liệu 165.678

thống dịch như sau:

cặp câu song ngữ Việt-Anh thuộc nhiều lĩnh vực khác nhau (từ nguồn đề

tài VLSP5 và một số dữ liệu khác mà chúng tôi thu thập, dóng hàng và

cung cấp cùng với phần mềm dóng hàng). Sử dụng Moses để huấn luyện

hệ thống dịch máy Việt-Anh trên kho ngữ liệu này chúng tôi thu được hệ

• Huấn luyện Hệ thống dịch máy 2, 3, 4, 5, 6, 7: Sử dụng hệ thống Moses lần

thống dịch máy 1.

lượt huấn luyện để thu được 6 hệ thống dịch máy Việt- Anh trên kho ngữ

liệu 165.678 cặp câu song ngữ Việt-Anh mà chúng tôi đã huấn luyện ra Hệ

10.000 cặp câu song ngữ du lịch Việt-Anh ở mỗi lượt đánh giá chéo. Lần 1

thống dịch máy 1 nhưng thay thế 10.000 cặp câu của kho ngữ liệu này bằng

thay thế từ cặp câu thứ 1 đến cặp câu thứ 10.000. Lần 2 thay thế từ cặp

câu thứ 30.001 đến cặp câu thứ 40.000. Lần 3 thay thế từ cặp câu thứ 50.001

đến cặp câu thứ 60.000. Lần 4 thay thế từ cặp câu thứ 90.001 đến cặp câu

thứ 100.000. Lần 5 thay thế từ cặp câu thứ 120.001 đến cặp câu thứ 130.000.

Lần 6 thay thế từ cặp câu thứ 150.001 đến cặp câu thứ 160.000.

Chúng tôi áp dụng lần lượt các cặp hệ thống dịch máy Việt – Anh (1, 2),

66

(1,3), (1,4), (1,5), (1,6), (1,7) cho việc dịch 2.000 câu tiếng Việt trong miền du

lịch được giữ lại làm dữ liệu kiểm tra. Sau đó dùng công cụ tính điểm BLEU

của Moses [96] để tính điểm cho từng hệ thống dịch này và so sánh kết quả tính

được. Kết quả cho thấy cả 6 hệ thống 2, 3, 4, 5, 6, 7 đều cải thiện điểm BLEU

8, 79 điểm BLEU.

Bảng 2.5: Điểm BLEU của 6 hệ thống dịch

Tệp kiểm thử Hệ thống dịch BLEU Hệ thống dịch BLEU (+)

1

2

16,75

1

4,16

12,59

2

3

20,05

1

5,24

14,81

3

4

11,59

1

4,42

7,17

4

5

10,42

1

3,59

6,8

5

6

10,89

1

2,88

8,01

6

7

7,16

1

3,85

3,31

Trung bình

12,81

Trung bình

4,02

8,79

so với hệ thống 1 như trong Bảng 2.5. Trung bình trong 6 lần thực nghiệm tăng

Các kết quả thu được cho thấy sự cần thiết của việc xây dựng dữ liệu huấn

luyện trên một miền hạn chế để tăng chất lượng của các hệ thống dịch máy trên

2.3.1.2 So sánh kết quả dịch giữa hệ thống huấn luyện trên kho ngữ liệu với Google

Translate

miền này.

Thực nghiệm trên kho ngữ liệu có:

1. Văn bản lĩnh vực Luật: 30.258 cặp câu.7

2. Văn bản lĩnh vực Tin học: 19.705 cặp câu.7

3. Văn bản lĩnh vực xã hội: 84.613 cặp câu.7

4. Văn bản lĩnh vực Kinh thánh: 31.102 cặp câu.7

7https://vlsp.hpda.vn/demo/?page=resources

67

5. Văn bản lĩnh vực Du lịch: 12.010 cặp câu (Kho ngữ liệu CoTurism2 ).

Tổng cộng kho ngữ liệu có: 177.688 cặp câu.

Chúng tôi thực hiện kiểm tra chéo như sau:

Lần lượt giữ lại 10.000 cặp câu để làm tệp kiểm tra, lấy trải đều trên mỗi lĩnh

vực văn bản: 1.700 cặp câu văn bản lĩnh vực Luật; 1.100 cặp câu văn bản lĩnh

vực Tin học; 4.700 cặp câu văn vản lĩnh vực Xã hội; 1.700 cặp câu văn bản lĩnh

vực Kinh thánh; 800 cặp câu văn bản lĩnh vực Du lịch. Ta thu được 17 tệp kiểm

167.688 cặp câu.

tra, mỗi tệp 10.000 cặp câu và 17 tệp dùng huấn luyện Hệ thống dịch, mỗi tệp

Dùng Moses huấn luyện 17 Hệ thống dịch máy trên 17 Kho ngữ liệu 167.688

cặp câu còn lại.

Kết quả điểm BLEU của 17 Hệ thống dịch máy khi dịch tệp kiểm tra, so với

Hệ thống dịch máy Google Translate năm 2017 được thể hiện trong Bảng 2.6.

Hệ thống huấn luyện trên kho ngữ liệu 167.688 cặp câu song ngữ Anh-Việt đạt

cao hơn trung bình 4, 6 điểm BLEU so với hệ thống dịch máy Google Translate

năm 2017.

Chúng tôi cũng đã triển khai thêm thực nghiệm so sánh chất lượng dịch của

các hệ thống dịch máy được huấn luyện trên kho ngữ liệu song ngữ có kết hợp

với kho ngữ liệu song ngữ miền Du lịch của chúng tôi ở trên với hệ thống dịch

máy Google Translate năm 2020. Kết quả cho thấy hệ thống dịch máy của chúng

2.3.2 Một số lỗi của hệ thống dịch

tôi có điểm BLEU cao hơn trung bình 4, 2 so với Google Translate.

Một số câu dịch có cấu trúc ngữ pháp chưa đúng. Hệ thống dịch máy không

dịch được theo ngữ cảnh của văn bản dịch. Công cụ tách từ tiếng Việt đôi khi

tách từ sai. Đa số các câu trong bản dịch chưa được dịch trôi chảy. Hệ thống

không dịch được những từ không biết (unknown word). Chẳng hạn:

Câu tiếng Việt đầu vào: "Tại_Hà_Nội cũng có nhà_thờ đạo Tin_Lành tại

68

phố Hàng_Da."

Bảng 2.6: Điểm BLEU của 17 Hệ thống dịch máy khi dịch các tệp kiểm tra gồm 10.000 câu tiếng

Việt sang tiếng Anh, so với Hệ thống dịch máy Google Translate năm 2017

Tệp kiểm thử Hệ thống dịch BLEU Hệ thống dịch BLEU (+)

1

1

21,78 Google Translate

16,83

4,95

2

2

21,46 Google Translate

17,77

3,69

3

3

23,14 Google Translate

18,75

4,39

4

4

21,25 Google Translate

17,22

4,03

5

5

20,29 Google Translate

16,30

3,99

6

6

21,67 Google Translate

17,92

3,75

7

7

21,58 Google Translate

16,92

4,66

8

8

21,66 Google Translate

18,93

2,73

9

9

21,38 Google Translate

18,72

2,66

10

10

21,60 Google Translate

18,41

3,19

11

11

23,65 Google Translate

18,40

5,61

12

12

22,06 Google Translate

18,63

3.43

13

13

24,99 Google Translate

20,08

4,91

14

14

24,20 Google Translate

18,43

5,77

15

15

23,50 Google Translate

17,97

5,53

16

16

25,18 Google Translate

17,77

7,41

17

17

24,45 Google Translate

17,57

6,88

Trung bình

22,58

Trung bình

18,02

4,56

69

Câu tiếng Anh đầu ra của hệ thống dịch: "Tại_Hà_Nội also is the gospel in

the street Hàng_Da ."

Câu tiếng Việt tham chiếu: "In Hanoi, there is also a Protestant church on

Hang Da street."

Trong ví dụ này, câu tiếng Anh đầu ra của hệ thống dịch bị sai về ngữ pháp khi

dịch cụm từ "phố Hàng_Da" cho kết quả cho kết quả là "the street Hàng_Da",

trong khi kết quả đúng là "Hang Da street". Câu tiếng Việt đầu vào bị tách từ

sai ở cụm từ "Tại_Hà_Nội", tách từ đúng phải là "Tại Hà_Nội". Chính vì lý

do tách từ sai mà hệ thống dịch không thể dịch được cụm từ "Tại_Hà_Nội" ra

tiếng Anh. Cuối cùng, quan sát bản dịch đầu ra của hệ thống dịch ta thấy bản

2.4 Kết luận chương

dịch này là không trôi chảy.

Triển khai nghiên cứu vấn đề về xây dựng kho ngữ liệu song ngữ Việt - Anh

• Đề xuất kỹ thuật cải tiến một công cụ dóng hàng câu tự động cho cặp ngôn

dóng hàng mức câu theo miền, luận án đã thu được các kết quả sau:

ngữ Việt-Anh có mức độ chính xác tăng thêm khoảng 10%. Công cụ này

được chia sẻ cho cộng đồng nghiên cứu tại địa chỉ:

• Xây dựng được kho ngữ liệu song ngữ Việt-Anh miền du lịch được dóng

https://github.com/viXAlign/viXAlign-project.

hàng câu có kích thước trên 20.000 cặp câu và kho ngữ liệu song ngữ Việt-

Anh miền chung với trên 270.000 cặp câu. Kho ngữ liệu song ngữ Việt-Anh

miền du lịch mà luận án xây dựng được đã góp phần nâng cao chất lượng hệ

8, 79 điểm BLEU so với hệ các thống dịch máy Việt-Anh huấn luyện trên

thống dịch máy Việt-Anh trong lĩnh vực du lịch, với mức tăng trung bình

70

kho ngữ liệu song ngữ miền chung có cùng kích thước. So với hệ thống dịch

máy Google Translate tại thời điểm thực nghiệm năm 2017, chất lượng hệ

thống dịch tăng trung bình 4, 56 điểm BLEU; tại thời điểm tháng 03 năm

2020 chất lượng hệ thống dịch tăng 4, 2 điểm BLEU.

Trong chương tiếp theo, luận án sẽ trình bày các kỹ thuật xây dựng kho ngữ

liệu từ, cụm từ song ngữ Việt-Anh dựa trên việc khai thác cả hai nguồn tài

nguyên văn bản: kho văn bản song ngữ Việt-Anh dóng hàng mức câu và kho

văn bản đơn ngữ tiếng Việt.

71

Công bố liên quan đến nghiên cứu ở chương này: [CT1]

Chương 3

Xây dựng kho ngữ liệu từ, cụm từ

song ngữ Việt-Anh

Kho ngữ liệu từ, cụm từ song ngữ là một nguồn tài nguyên ngôn ngữ quan

trọng, được sử dụng trong nhiều ứng dụng của xử lý ngôn ngữ tự nhiên, như:

Xây dựng từ vựng (lexicon), tìm kiếm liên ngôn ngữ, dịch máy, . . .

Trong dịch máy nếu chỉ sử dụng các cặp câu song ngữ huấn luyện hệ thống

dịch mà muốn nâng cao chất lượng dịch thì cần phải huấn luyện bổ sung thêm

rất nhiều cặp câu song ngữ. Việc xây dựng kho ngữ liệu từ và cụm từ song ngữ

cũng là một giải pháp nâng cao chất lượng hệ thống dịch máy từ việc xử lý từ

mới (unknow-words) và hiện tượng dữ liệu thưa.

Hiện nay theo hiểu biết của chúng tôi thì chưa có nghiên cứu đề xuất phương

pháp xây dựng tự động kho ngữ liệu từ, cụm từ song ngữ Việt-Anh. Trong

chương này, chúng tôi trình bày các đề xuất về các phương pháp trích rút từ,

cụm từ song ngữ Việt-Anh khai thác từ kho ngữ liệu song ngữ Việt-Anh có

dóng hàng mức câu và từ các văn bản đơn ngữ tiếng Việt. Kho ngữ liệu này là

cần thiết để xây dựng từ vựng song ngữ Việt-Anh, ứng dụng trong dịch máy và

nhiều lĩnh vực khác.

Phần thứ nhất của chương trình bày phương pháp xây dựng tự động kho từ

72

vựng song ngữ Việt-Anh miền chung và miền du lịch, sử dụng dữ liệu từ kho ngữ

liệu song ngữ Việt-Anh có dóng hàng mức câu. Phần thứ hai trình bày phương

pháp trích rút thuật ngữ song ngữ Việt-Anh từ kho ngữ liệu đơn ngữ tiếng Việt

và thực nghiệm trích rút thuật ngữ song ngữ Việt-Anh từ kho ngữ liệu miền

chung và miền y tế. Phần cuối chương là kết luận đánh giá các phương pháp đề

3.1 Xây dựng tự động kho từ vựng song ngữ Việt - Anh

xuất.

Từ vựng song ngữ (từ hay cụm từ song ngữ) là một dạng tài nguyên ngôn

ngữ quan trọng được sử dụng trong nhiều lĩnh vực của xử lý ngôn ngữ tự nhiên,

như: dịch máy, tìm kiếm liên ngữ, tra cứu ngữ nghĩa giữa hai ngôn ngữ, . . . Việc

xây dựng kho từ vựng có thể được thực hiện nhờ các phương pháp thu thập thủ

công và/hoặc khai thác từ nguồn ngữ liệu song ngữ. Trong khi kho ngữ liệu song

ngữ có dóng hàng mức câu được mở rộng liên tục nhờ các phương pháp xây

dựng bán tự động và tự động, việc tận dụng nguồn tài nguyên này để tự động

làm giàu từ vựng cho phép chúng ta thu được kho từ vựng song ngữ ngày càng

giá trị. Chúng tôi đề xuất một phương pháp thu thập tự động từ vựng song ngữ

và ứng dụng phương pháp này để xây dựng tự động kho từ vựng song ngữ Việt

3.1.1 Xây dựng kho từ vựng song ngữ

– Anh miền du lịch.

Xuất phát từ sự cần thiết của từ điển song ngữ, các nhà nghiên cứu đã sớm

tìm cách tự động xây dựng tài nguyên này. Đã có nhiều công trình nghiên cứu

đề xuất các phương pháp xây dựng kho từ vựng song ngữ, chẳng hạn:

Saba Amsalu(2006)[90] đã đề xuất phương pháp thu thập từ vựng để xây

dựng từ điển song ngữ Amharic-Anh hướng dữ liệu sử dụng mô hình thống kê.

Các phương pháp thống kê thuần túy về phân bố thuật ngữ được sử dụng như

73

là cơ sở để tìm tương quan giữa các thuật ngữ trong văn bản song ngữ có dóng

hàng từ. Một lược đồ tính điểm cho các cặp từ được tạo lập dựa vào các thuộc

tính phân bố của từ. Sau đó dựa vào một giá trị ngưỡng để trích rút các cặp từ

vựng song ngữ.

Lavecchia Caroline , Sma¨ı’li Kamel và Langlois David(2007)[14] đã đề xuất

một phương pháp xây dựng từ điển song ngữ từ phụ đề phim. Đầu tiên họ thu

thập kho ngữ liệu song ngữ phụ đề phim với 32.720 cặp phụ đề được dóng hàng

với độ chính xác 94%, sau đó dữ liệu này được đưa vào xây dựng từ điển dựa

vào một bộ lọc liên ngữ, tức là một danh sách bao gồm từ ở ngôn ngữ nguồn

và các từ có tương quan nhất ở ngôn ngữ đích. Từ nguồn và n từ đích có tương

quan tốt nhất trong danh sách này được đưa vào từ điển.

Ajay Dubey and Vasudeva Varma(2013)[3] đã đề xuất một phương pháp xây

dựng tự động từ điển song ngữ Anh-Hindi từ việc khai thác các thuộc tính cấu

trúc của văn bản. Đầu tiên họ xây dựng một từ điển nhỏ sử dụng phương pháp

kết hợp từ và phiên âm, sau đó sử dụng từ điển này để tìm ra các mục giống

nhau của văn bản trên các ngôn ngữ. Các câu song ngữ được trích rút từ các

mục giống nhau này. Tất cả các từ đồng xuất hiện trong các câu song ngữ được

trích rút để đưa vào từ điển.

Yasuda K, Sumita E. (2013)[54] đã đề xuất một phương pháp xây dựng tự

động từ điển song ngữ từ kho ngữ liệu song ngữ Nhật – Trung. Phương pháp

được đề xuất này sử dụng sự tương đồng về ký tự giữa tiếng Nhật và tiếng

Trung. Đầu tiên, trích rút các cặp dịch từ từ kho ngữ liệu song ngữ dựa vào sự

tương đồng ký tự, sau đó huấn luyện các bảng cụm từ sử dụng hai công cụ huấn

luyện dịch máy thống kê khác nhau, sau đó trích rút các cặp dịch từ chung. Cuối

cùng huấn luyện hệ thống dịch máy thống kê sử dụng các cặp dịch từ thu được

ở trên để thu được từ điển.

Yasuhiro Ogawa và cộng sự [115] đã đề xuất phương pháp trích rút cụm từ

song ngữ lĩnh vực Luật từ tờ thời báo chính thức của Nhật phiên bản tiếng

74

Anh. Phương pháp trích rút cụm từ song ngữ của họ sử dụng công cụ dóng

hàng GIZA++ để xây dựng bảng cụm từ song ngữ Anh-Nhật, sau đó lọc ra các

cặp cụm từ thỏa mãn các điều kiện:

• Xác suất dịch cụm từ từ tiếng Anh sang tiếng Nhật và ngược lại có giá

1. Điều kiện 1:

• Tần suất xuất hiện của các cụm từ tiếng Anh và tiếng Nhật lớn hơn 10.

trị lớn hơn 0,2.

2. Điều kiện 2: Chỉ trích chọn các cụm danh từ dựa vào từ đầu hoặc cuối, từ

nối, động từ và dấu câu.

Thực nghiệm đánh giá phương pháp đề xuất của họ trên kho ngữ liệu Nhật

báo bản tiếng Anh thu thập từ 4/04/1946 đến 4/04/1952 đạt độ chính xác trên

88%. Chúng tôi đã thực nghiệm phương pháp đề xuất này trên kho ngữ liệu

song ngữ Việt-Anh bao gồm 600.389 cặp câu. Kết quả thu được là có 7.736.696

cặp cụm từ thỏa mãn xác suất dịch cụm từ từ tiếng Anh sang tiếng Việt và

ngược lại có giá trị lớn hơn 0, 2. Không có cặp cụm từ nào có tần suất xuất hiện

của cụm từ tiếng Anh và cụm từ tiếng Việt lớn hơn 5. Như vậy phương pháp

của Yasuhiro Ogawa và cộng sự [115] khá phụ thuộc vào cặp ngôn ngữ, không

hiệu quả khi áp dụng trên cặp ngôn ngữ Việt-Anh.

Văn Ngọc Sang và cộng sự (2016)[107] đã trình bày một cách tiếp cận mới

cho việc xây dựng từ điển điện tử Chăm – Việt xuất phát từ 3 thành phần là

dữ liệu, cơ sở dữ liệu và đánh giá. Mô hình ADDIE (Analysis, Design, Develop,

Implement, and Evaluate) đã được nhóm sử dụng trong toàn bộ quá trình tiếp

cận. Đầu tiên nhóm tác giả thực hiện việc phân tích và thiết kế hệ thống với

dữ liệu đầu vào là hai cuốn từ điển Việt-Chăm và Chăm-Việt, sau đó giai đoạn

phát triển và thực hiện được tiến hành từng bước như phân tích và thiết kế.

Cuối cùng, sản phẩm từ điển điện tử được đánh giá bởi chuyên gia và người sử

75

dụng.

Các phương pháp xây dựng từ điển song ngữ tiếng Việt với một ngôn ngữ

khác đã được đề xuất chủ yếu khai thác tài nguyên từ các cuốn từ điển song ngữ

đã được xuất bản, chẳng hạn như trong công trình của Văn Ngọc Sang và cộng

sự công bố năm 2007 về xây dựng từ điển song ngữ Việt-Jrai, Jrai-Việt[106] và

công trình công bố năm 2016[107] về xây dựng từ điển điện tử Chăm – Việt từ

việc khai thác cuốn từ điển Chăm – Việt đã được xuất bản.

Các phương pháp đã được đề xuất ở trên có nhược điểm là chưa khai thác

được kho ngữ liệu song ngữ dóng hàng mức câu, đồng thời chưa đưa ra được

phương pháp xây dựng tự động. Đặc biệt các phương pháp xây dựng từ điển

song ngữ Việt-Anh đã được đề xuất khi được vận dụng vào xây dựng từ điển

song ngữ tiếng Việt với một thứ tiếng bất kỳ thì gặp rất nhiều khó khăn do

không có các cuốn từ điển điện tử tương ứng [106][107].

Phương pháp xây dựng kho từ vựng song ngữ Việt-Anh của chúng tôi có cùng

ý tưởng với phương pháp của Yasuhiro Ogawa và cộng sự [115] nhưng khác ở

• Kho từ vựng được xây dựng dựa trên kho ngữ liệu song ngữ Việt-Anh dóng

các điểm cơ bản sau:

hàng mức câu. Đây là một lợi thế của phương pháp, vì kho ngữ liệu này

hiện đang được các nhóm nghiên cứu thu thập và bổ sung mở rộng từng

• Chúng tôi trích rút từ, cụm từ dựa vào giá trị xác suất, trọng số dịch ở cả

ngày.

hai chiều dịch từ, cụm từ và phương án dóng hàng từ, cụm từ được tính

toán nhờ công cụ MGIZA của hệ thống MOSES và sử dụng công cụ SALM

(Suffix Array tool kit for empirical Language Manipulations) để loại bỏ các

• Việc lọc các cặp từ Việt–Anh để đưa vào từ điển song ngữ Việt-Anh dựa

cặp cụm từ có chất lượng không tốt.

vào nhãn từ loại của các từ.

76

Bên cạnh đó, chúng tôi cũng đề xuất phương pháp xây dựng tự động kho ngữ

Hình 3.1: Phương pháp xây dựng tự động từ vựng Việt-Anh

liệu từ và cụm từ song ngữ theo miền.

3.1.2 Phương pháp xây dựng tự động từ vựng song ngữ Việt-Anh

3.1.2.1 Tóm tắt phương pháp

Mục tiếp theo trình bày chi tiết về phương pháp đề xuất.

Phương pháp xây dựng tự động từ vựng Việt-Anh được đề xuất ở đây sử

dụng tài nguyên là kho ngữ liệu song ngữ Việt-Anh dóng hàng mức câu. Mô

hình của phương pháp được thể hiện trong Hình 3.1.

Đầu tiên, Câu tiếng Việt từ kho ngữ liệu song ngữ được tách từ và gán nhãn

77

từ loại, sau đó chúng tôi viết một chương trình JAVA đơn giản sử dụng đầu vào

là tài nguyên này và cho đầu ra là hai kho ngữ liệu: Kho ngữ liệu từ tiếng Việt

đã gán nhãn và kho ngữ liệu câu tiếng Việt đã gán nhãn.

Tiếp theo, câu tiếng Anh từ kho ngữ liệu song ngữ cũng được gán nhãn từ

loại để thu được kho ngữ liệu câu tiếng Anh đã gán nhãn.

Cuối cùng, kho ngữ liệu từ tiếng Việt đã gán nhãn và kho ngữ liệu song ngữ

đã gán nhãn, được đưa vào giải thuật mà chúng tôi đề xuất (Giải thuật 1) để

trích rút các từ song ngữ và ứng với mỗi cặp từ trích rút được sẽ thực hiện trích

rút các cặp câu song ngữ chứa cặp từ Việt-Anh trong kho ngữ liệu song ngữ đưa

vào từ điển song ngữ Việt-Anh.

Phương pháp xây dựng tự động từ điển song ngữ Việt-Anh được đề xuất ở

đây có thể áp dụng cho một cặp ngôn ngữ bất kỳ bằng việc đưa vào kho ngữ

3.1.2.2 Giải thuật xây dựng từ vựng song ngữ Việt-Anh

liệu song ngữ có dóng hàng mức câu của cặp ngôn ngữ đó.

Gọi C(Cv; Ce) là kho ngữ liệu song ngữ Việt-Anh dóng hàng mức câu; Ct(Ctv; Cte)

Ctw là kho ngữ liệu từ tiếng Việt đã được gán nhãn từ loại. Gọi T a = M o(Ct) là

là kho ngữ liệu song ngữ Việt-Anh dóng hàng mức câu đã được gán nhãn từ loại,

bảng từ, cụm từ được sinh ra bởi hệ thống huấn luyện Moses[83]. Gọi T = Sa(T a)

là bảng từ, cụm từ đầu ra của công cụ SALM.1[42] SALM là công cụ dùng để gỡ

bỏ các cặp từ, cụm từ có chất lượng thấp và gây nhiễu có trong bảng từ, cụm từ

được sinh ra bởi MOSES để đảm bảo chất lượng của bảng từ, cụm từ. Mặc dù

bảng từ, cụm từ đã được lọc nhiễu, nhưng vì nó được sinh ra bởi Moses từ phương

pháp học không giám sát, do vậy nó vẫn chứa rất nhiều các cặp từ, cụm từ không

không phải là bản dịch của nhau. Gọi vi; en; pen; pvi; p(vi|en); p(en|vi); alignve lần

lượt là từ tiếng Việt đã được gán nhãn từ loại; từ tiếng Anh đã được gán nhãn

từ loại ; cụm từ tiếng việt đã được gán nhãn từ loại có chứa từ tiếng Việt vi;

1https://github.com/moses-smt/salm

78

cụm từ tiếng Anh đã được gán nhãn từ loại có chứa từ tiếng Anh en; giá trị xác

suất dịch en thành vi và giá trị xác suất dịch vi thành en và phương án dóng

hàng từ giữa hai cụm từ. Từ điển song ngữ D bao gồm hai tệp Dv và De.

• Bước 1: Kho ngữ liệu song ngữ Việt-Anh có dóng hàng mức câu được tách

Quy trình xây dựng từ vựng song ngữ Việt-Anh như sau:

từ và gán nhãn từ loại để thu được Kho ngữ liệu từ tiếng Việt đã được gán

• Bước 2: Cả hai kho ngữ liệu thu được ở Bước 1 sẽ là đầu vào của giải thuật

nhãn từ loại và Kho ngữ liệu song ngữ Việt-Anh đã được gán nhãn từ loại.

Trích rút từ và cụm từ song ngữ (Giải thuật 1) để thu được các từ và cụm

từ song ngữ đưa vào từ điển song ngữ Việt-Anh. Với mỗi từ, cụm từ trích

rút được, hệ thống tìm trong kho ngữ liệu song ngữ Việt-Anh có dóng hàng

mức câu ở đầu vào để tìm câu song ngữ có chứa từ, cụm từ đưa vào từ điển

3.1.3 Phương pháp xây dựng tự động từ vựng song ngữ Việt-Anh miền du

lịch

làm câu minh họa việc sử dụng từ và cụm từ đó.

Để xây dựng từ vựng song ngữ Việt-Anh theo lĩnh vực (miền), chúng tôi sử

dụng độ đo tf-idf để xác định từ/thuật ngữ đặc trưng cho lĩnh vực đó.

Trước khi trình bày phương pháp xây dựng kho từ vựng song ngữ Việt-Anh

3.1.3.1 Thống kê tf-idf

miền du lịch, chúng tôi nhắc lại độ đo này.

• Ký hiệu v là một văn bản bất kỳ; ws là một từ bất kỳ trong văn bản v.

• Gọi f (w, v) là số lần xuất hiện của từ w trong văn bản v.

• Khi đó, tần số xuất hiện của từ w trong văn bản v được tính theo công thức

Tần số xuất hiện của một từ trong một văn bản

79

(3.1.1) :

Giải thuật 1: Giải thuật xây dựng tự động kho từ song ngữ Việt-Anh.

Đầu vào:

Kho ngữ liệu từ tiếng Việt đã được gán nhãn từ loại Ctw;

Kho ngữ liệu song ngữ dóng hàng mức câu C(Cv; Ce);

Kho ngữ liệu song ngữ dóng hàng mức câu đã được gán nhãn từ loại Ct(Ctv; Cte).

Đầu ra: Kho từ song ngữ Việt – Anh Dv, De.

Begin

while (not EOF(Ctw)) do Get wv in a line of Ctw;

Ta = M o(Ct);

T = Sa(Ta);

while (not EOF (T )) do

Get line;

Get vi; en; pvi; pen; p(vi|en); p(en|vi); alignve in line;

if (wv = vi) and (p(vi|en)max) and(p(en|vi) >= 0.1) and (vi not in Dv)and ((vi, en)

in alignve) then

Return vi, pvi in Dv;

Return en, pen in De;

while (not EOF(Cv) and not EOF(Ce)) do

Get linev in Cv;

Get linee in Ce;

if (wv in linev) then

Return linev in Dv;

Return linee in De;

End

80

f (w, v) max{f (ws, v) : ws in v}

(3.1.1) tf(w, v) =

Trong đó: max{f (ws, v) : ws in v} là số lần xuất hiện nhiều nhất của một từ

bất kỳ ws trong văn bản v.

Tần số nghịch của một từ trong tập văn bản

Tính tần số nghịch của một từ trong tập văn bản để giảm giá trị của những

từ phổ biến.

Gọi |V | là tổng số văn bản có trong tập V; |v in V : w in v|: Số văn bản chứa

từ w, với điều kiện w thuộc v.

Khi đó, tần số nghịch của một từ trong tập văn bản được tính bởi công thức

(3.1.2):

|V | 1 + |v in V : w in v|

idf(w, V ) = log (3.1.2)

Độ đo tf-idf2

Độ đo tfidf(w, v, V ) là giá trị đo mức độ đặc trưng của từ w trong văn bản v,

được tính bởi công thức (3.1.3):

tfidf(w, v, V ) = tf(w, v) ∗ idf(w, V ) (3.1.3)

Giá trị này lớn thể hiện w xuất hiện nhiều trong văn bản v nhưng xuất hiện

3.1.3.2 Phương pháp xây dựng tự động từ điển song ngữ Việt-Anh miền du lịch

ít trong các văn bản khác thuộc V .

1. Phương pháp xây dựng tự động từ điển song ngữ Việt-Anh miền du lịch

Phương pháp xây dựng tự động từ điển song ngữ Việt-Anh miền du lịch

2https://en.wikipedia.org/wiki/Tf%E2%80%93idf

81

được thể hiện trong Hình 3.2.

Hình 3.2: Phương pháp xây dựng tự động từ điển Việt-Anh miền du lịch

82

Đầu tiên, câu tiếng Việt từ kho ngữ liệu song ngữ Việt-Anh miền du lịch và

kho ngữ liệu đơn ngữ câu tiếng Việt miền chung được tách từ và Gán nhãn

từ loại, sau đó chúng được đưa vào giải thuật 2 trích rút từ thuộc miền du

lịch để thu được kho ngữ liệu từ tiếng Việt miền du lịch đã gán nhãn.

Cuối cùng, đưa kho ngữ liệu từ tiếng Việt miền du lịch đã gán nhãn và

kho ngữ liệu song ngữ miền du lịch đã gán nhãn vào giải thuật 1 để trích

rút từ và cụm từ song ngữ và trích rút các cặp câu song ngữ chứa từ tiếng

Việt trong kho ngữ liệu song ngữ miền du lịch đưa vào từ điển song ngữ

Việt-Anh miền du lịch.

Phương pháp xây dựng tự động từ điển song ngữ Việt-Anh miền du lịch

này có thể áp dụng để xây dựng tự động từ điển song ngữ cho một miền

bất kỳ bằng việc thay kho ngữ liệu song ngữ có dóng hàng mức câu ở đầu

vào của phương pháp bằng kho ngữ liệu song ngữ có dóng hàng mức câu

theo miền.

2. Giải thuật trích rút từ thuộc miền du lịch

Gọi Ctv là kho ngữ liệu đơn ngữ gồm câu tiếng Việt miền du lịch và Cgv là

kho ngữ liệu đơn ngữ các câu tiếng Việt miền chung đã được tách từ và gán

nhãn từ loại.

Gọi wv, ws là các từ tiếng Việt.

Giải thuật trích rút từ thuộc miền du lịch được trình bày chi tiết trong Giải

thuật 2:

Trong đó: σ là một hằng số. Chúng tôi đã tính giá trị tfidf cho tất cả các

từ có trong kho ngữ liệu câu tiếng Việt miền du lịch, kết quả nhận được phân

làm hai miền rõ rệt: Miền các từ có giá trị tfidf ≥ 0, 5 và miền các từ có giá trị

83

tfidf ≤ 0, 37. Do đó chúng tôi quyết định lựa chọn giá trị σ = 0, 5.

Giải thuật 2: Giải thuật trích rút từ tiếng Việt miền du lịch.

Đầu vào: Kho ngữ liệu đơn ngữ câu tiếng Việt đã được gán nhãn từ loại thuộc miền du lịch

Ctv và miền chung Cgv.

Đầu ra: Các từ thuộc miền du lịch Dt.

Begin

while (not EOF(Ctv)) do

Get wv in Ctv;

tf(wv, Ctv)) = f (wv, Ctv)/max{f (ws, Ctv) : ws in Ctv}; // Áp dụng công thức (3.1.1)

idf(wv, Cgv) = log(|Cgv|/(1 + |C in Cgv : wv in C|)); // Áp dụng công thức (3.1.2)

tfidf(wv, Ctv, Cgv) = tf(wv, Ctv)∗idf(wv, Cgv); // Áp dụng công thức (3.1.3)

if (tfidf(wv, Ctv, Cgv) > σ) then

Return wv in Dt;

End

3.1.4 Thực nghiệm và kết quả

3.1.4.1 Chuẩn bị ngữ liệu thực nghiệm

Trong phần thực nghiệm, chúng tôi sử dụng một số kho ngữ liệu song ngữ

Việt-Anh có dóng hàng mức câu đã được tách từ và gán nhãn từ loại.

1. Kho ngữ liệu song ngữ Việt – Anh dóng hàng mức câu

100.000 cặp câu song ngữ Việt-Anh của đề tài VLSP3 và 500.389 cặp câu

Kho ngữ liệu song ngữ Việt-Anh được sử dụng trong thực nghiệm bao gồm:

song ngữ Việt-Anh miền chung (Trong đó: 250.000 cặp câu của tác giả thu

thập được và 250.389 cặp câu từ kho ngữ liệu song ngữ của nhóm nghiên

cứu về dịch máy tại Đại học Công nghệ, Đại học Quốc gia Hà Nội); 14.237

cặp câu song ngữ Việt-Anh miền du lịch ở kho ngữ liệu CorTurism3 (mục

2.1.2.2).

2. Tách từ và gán nhãn từ loại tiếng Việt, tiếng Anh

Đối với tiếng Việt, có một số công cụ thực hiện tách từ và gán nhãn từ loại

3https://vlsp.hpda.vn/demo/?page=resources

84

đã được công bố và chia sẻ cho công đồng nghiên cứu sử dụng với độ chính

xác khác cao, trong đó công cụ tách từ và gán nhãn từ loại văn bản tiếng

Việt VncoreNLP4 được viết bởi Thành Vũ và cộng sự năm 2018. Công cụ

được đánh giá là có độ chính xác hơn hẳn so với các công cụ tách từ và gán

nhãn từ loại cho văn bản tiếng Việt.

Đối với tiếng Anh, hiện nay có công cụ Stanford tách từ đạt mức độ chính

xác khá cao: Công cụ Stanford Log-linear Part-Of-Speech Tagger5 phiên bản

đầu tiên được viết bởi Toutanova và sau đó là các phiên bản cải tiến của

Dan Klein, Christopher Manning, William Morgan, Anna Rafferty, Michel

Galley, and John Bauer.

Trong thực nghiệm chúng tôi sử dụng công cụ tách từ và gán nhãn từ loại

VncoreNLP cho tiếng Việt và công cụ gán nhãn từ loại Stanford Log-linear

3.1.4.2 Kết quả

Part-Of-Speech Tagger cho tiếng Anh.

1. Xây dựng từ điển song ngữ Việt-Anh

Triển khai thực nghiệm trên kho ngữ liệu 600.389 cặp câu song ngữ Việt-Anh

miền chung. Với 600.389 câu tiếng Việt, sau khi tách từ thu được 108.040 từ

tiếng Việt. Thực hiện phương pháp xây dựng từ điển song ngữ Việt-Anh

đã được đề xuất, chúng tôi thu được 33.443 cặp từ song ngữ Việt-Anh. Với

mỗi từ tiếng Việt được lưu vào trong từ điển, thuật toán trích chọn hai cặp

cụm từ và hai cặp câu có chứa từ tiếng Việt đó để lưu vào từ điển nhằm

minh họa việc sử dụng từ trong cụm từ và trong câu khi từ được tra trong

từ điển. Kết quả được thể hiện trong Bảng 3.1.

2. Xây dựng từ điển song ngữ Việt-Anh miền du lịch được triển khai thực

nghiệm trên kho ngữ liệu CorTurism3 (mục 2.1.2.2) có 14.237 cặp câu song

4https://github.com/vncorenlp/VnCoreNLP 5https://nlp.stanford.edu/software/tagger.shtml#About

85

ngữ Việt-Anh miền du lịch và kho ngữ liệu 842.423 câu đơn ngữ tiếng Việt

Bảng 3.1: Từ điển song ngữ Việt-Anh trích rút từ kho ngữ liệu gồm 600.389 cặp câu song ngữ Việt –

Anh

Kho ngữ liệu (số cặp câu) Từ tiếng Việt (số từ ) Từ trong từ điển (số cặp từ)

600.389

108.040

33.443

miền chung. Sau khi tách từ các câu tiếng Việt và thực hiện trích rút từ

miền du lịch theo phương pháp đề xuất, chúng tôi thu được 15.881 từ tiếng

Việt thuộc miền du lịch. Sử dụng phương pháp xây dựng tự động từ điển

song ngữ Việt-Anh miền du lịch, thu được từ điển 1.745 từ. Thống kê kết

Bảng 3.2: Từ điển song ngữ Việt-Anh miền du lịch trích rút từ kho ngữ liệu CorTurism3

Kho ngữ liệu (số cặp câu) Từ tiếng Việt (số từ ) Từ trong từ điển (số cặp từ)

14.237

15.881

1.745

quả được thể hiện trong Bảng 3.2.

3. Đánh giá độ chính xác của từ điển

Chúng tôi sử dụng phương pháp chuyên gia để đánh giá mức độ chính xác

của từ điển được xây dựng bằng phương pháp đề xuất ở trên. Cách thực

• Gọi n là số chuyên gia tiếng Anh tham gia đánh giá mức độ chính xác

hiện đánh giá như sau:

• Gọi mi(1 ≤ i ≤ m) là số từ lấy ngẫu nhiên trong từ điển ra để kiểm tra.

• Gọi ki là số từ mà chuyên gia thứ i đánh giá là đúng.

của từ điển;

Khi đó, độ chính xác của từ điển được tính bởi công thức (3.1.4):

)

P recision =

× 100%

i=1( ki mi n

86

(cid:80)n (3.1.4)

Để xác định mức độ chính xác của từ điển xây dựng được, chúng tôi thực

• Lấy ra ngẫu nhiên 1.000 từ trong từ điển;

• Sử dụng 5 chuyên gia tiếng Anh đánh giá, mỗi chuyên gia đánh giá 200

hiện như sau:

từ lấy ngẫu nhiên. Kết quả số từ mà 5 chuyên gia đánh giá là đúng lần

lượt như sau: 191, 192, 189, 191, 194.

Áp dụng công thứ (3.1.4), ta tính được độ chính xác của từ điển là 95,7%.

4. Phân tích kết quả

Bảng 3.3 minh họa một số kết quả trong từ điển thu được sử dụng phương

Bảng 3.3: Kết quả tra một số từ trong từ điển được xây dựng bằng phương pháp đề xuất

Tra từ tiếng Việt Từ loại Kết quả từ tiếng Anh trong từ điển

lăng

Danh từ

mausoleum; tomb

bạt_ngàn

Tính từ

vast

cầu_nguyện

Động từ

pray

Danh từ

praying

tâm_linh

Danh từ

spirit

Tính từ

spiritual

đặc_sắc

Tính từ

special; unique

phật_giáo

Danh từ

buddhist; buddhism

chiêm_ngưỡng

Động từ

admire

vô_lý

Tính từ

absurd; irrational; unreasonable; ridiculous

pháp đề xuât.

Từ điển này được xây dựng dựa vào khai thác các câu song ngữ trong kho

ngữ liệu song ngữ Việt-Anh có dóng hàng mức câu, nên đã tìm được nhiều

tình huống sử dụng từ tiếng Việt khi nó được viết ở tiếng Anh. Chúng tôi

thấy rằng có một số từ tiếng Việt tra trong từ điển được xây dựng bằng

87

phương pháp đề xuất tìm thấy nhiều từ tiếng Anh biểu diễn nghĩa của

từ tiếng Việt đó hơn một số từ điển khác chẳng hạn: từ "lăng", tra trong

từ điển Việt-Anh VNDIC.NET6 chỉ tìm được từ tiếng Anh tương ứng là

"tomb". Nhưng tra trong từ điển của chúng tôi thì từ "lăng" được tìm thấy

có nghĩa là "tomb" và "mausoleum".

Chúng tôi cũng đã nghiên cứu để tìm ra nguyên nhân dẫn đến sự thiếu

chính xác của từ điển được xây dựng bằng phương pháp đề xuất: Số các

cặp cụm từ chưa chính xác trong từ điển chủ yếu là do lỗi tách từ tiếng Việt,

ví dụ từ tiếng Việt "công chúa tiên dung" phần mềm tách từ tách thành

2 từ đó là "công_chúa_tiên" và "dung", khi đó trong từ điển xuất hiện

→ princesses". Chất lượng của từ điển còn bị ảnh hưởng từ chất lượng của

cặp cụm từ "công_chúa_tiên → princesses" mà đúng phải là "công_chúa

kho ngữ liệu song ngữ được đưa vào xây dựng từ điển. Kho ngữ liệu được

dùng trong thực nghiệm này còn chưa tốt ở những vấn đề: lỗi chính tả, lỗi

dư thừa các dấu, ký hiệu,. . . Ngoài ra chất lượng của từ điển còn chịu ảnh

hưởng từ mức độ chính xác của bảng cụm từ được tạo ra từ MOSES.

Từ điển song ngữ Việt-Anh miền du lịch được xây dựng theo phương pháp

đề xuất vẫn còn chứa một số từ ngoài miền, do kho ngữ liệu song ngữ Việt-

Anh miền du lịch được sử dụng trong thực nghiệm là nhỏ mà chúng tôi lại

muốn trích rút được số lượng từ nhiều, do đó trong từ điển miền du lịch

3.2 Trích rút thuật ngữ song ngữ Việt-Anh từ văn bản đơn

ngữ tiếng Việt dựa vào tập luật

vẫn còn chứa một vài từ ngoài miền du lịch.

Thuật ngữ là các từ đơn hoặc cụm từ liên quan đến một miền cụ thể. Các

thuật ngữ song ngữ là tài nguyên ngôn ngữ quan trọng, vì việc khai thác các

6https://vdict.com/l%C4%83ng,2,0,0.html

88

thuật ngữ song ngữ mang lại nhiều lợi ích không chỉ cho việc sử dụng ngôn ngữ

của con người, mà còn để giải quyết các vấn đề liên quan đến xử lý ngôn ngữ

tự nhiên. Ví dụ, thuật ngữ song ngữ giúp tăng đáng kể chất lượng dịch máy, vì

các thuật ngữ sẽ được dịch chính xác hơn và theo ngữ cảnh nhiều hơn. Một vấn

đề khác là sự pha trộn ngôn ngữ trong văn bản, làm tăng khó khăn cho việc

xử lý văn bản và hiểu văn bản. Trong các văn bản trên mạng xã hội, việc sử

dụng các thuật ngữ tiếng Anh xen kẽ trong các văn bản tiếng Việt ngày càng

trở nên phổ biến, chẳng hạn sử dụng "chụp cắt lớp" và "CT scan", "bình luận"

và "comment", v.v. Nguồn tài nguyên các thuật ngữ song ngữ rõ ràng mang lại

nhiều lợi ích trong việc xử lý vấn đề này. Chúng cũng là những công cụ có giá

trị cho tìm kiếm thông tin liên ngôn ngữ.

Việc thu thập tự động các thuật ngữ song ngữ chủ yếu dựa trên kho ngữ liệu

song ngữ. Một số phương pháp đã đề xuất trích rút các thuật ngữ song ngữ từ

kho ngữ liệu song ngữ hay kho ngữ liệu đối sánh, như trong [58] hay [28]. Tuy

nhiên, kho ngữ liệu đơn ngữ cũng có thể là một nguồn tài nguyên tốt để trích rút

các thuật ngữ song ngữ. Trên thực tế, vì tiếng Anh được sử dụng trong các văn

bản được đăng tải cho cộng đồng trên toàn thế giới, chúng ta thường tìm thấy

các từ tiếng Anh cùng với bản dịch của nó trong các tài liệu đơn ngữ được viết ở

các ngôn ngữ khác nhau. Đối với các ngôn ngữ ít tài nguyên song ngữ như tiếng

Việt, việc khai thác các tài liệu đơn ngữ cho phép chúng ta trích rút các thuật

ngữ song ngữ, đặc biệt là các thuật ngữ mới trong các lĩnh vực chuyên ngành.

Một ý tưởng tương tự theo hướng này được thấy trong công trình của F. Bond

và cộng sự [32] để trích rút các thuật ngữ song ngữ Nhật-Anh và Trung-Anh.

Trong phần này, luận án trình bày một phương pháp trích rút thuật ngữ song

ngữ Việt-Anh từ các văn bản đơn ngữ tiếng Việt. Chúng tôi tập trung vào việc

trích rút các thuật ngữ tiếng Việt và giải thích thuật ngữ bằng tiếng Anh được

viết trong ngoặc đơn ngay sau các thuật ngữ này. Để làm điều đó, trước tiên

chúng tôi trích rút các ứng viên là các thuật ngữ tiếng Việt mà có chú thích

89

bằng một thuật ngữ tiếng Anh đặt trong ngoặc ngay sau thuật ngữ tiếng Việt

đó, sau đó đề xuất một bộ quy tắc để trích rút và lọc các ứng viên song ngữ.

Thực nghiệm được tiến hành trên hai kho ngữ liệu: Kho ngữ liệu đơn ngữ tiếng

3.2.1 Các công trình nghiên cứu có liên quan

Việt miền y tế và kho ngữ liệu đơn ngữ tiếng Việt Wikipedia.

Như đã đề cập ở trên, thuật ngữ song ngữ là tài nguyên ngôn ngữ quan trọng

đối với NLP cũng như trong sử dụng của con người. Do đó, đã có nhiều công

trình nghiên cứu về trích rút thuật ngữ song ngữ được công bố. Sau đây là các

hướng tiếp cận khác nhau để trích rút các thuật ngữ song ngữ trong những năm

gần đây:

Le An Ha và cộng sự [58] đề xuất phương pháp để thực hiện trích rút thuật

ngữ song ngữ bằng cách kết hợp trích rút thuật ngữ đơn ngữ cho một ngôn ngữ

với cơ chế dóng hàng các cụm danh từ sẵn có trong kho ngữ liệu song song.

Saralegi và cộng sự [114] đề xuất phương pháp trích rút các cặp thuật ngữ

tiếng Anh-Basque bằng cách sử dụng sự tương đồng ngữ cảnh và các từ cùng

gốc(các từ có dạng tương tự). Khai thác ý tưởng trích rút các thuật ngữ song

ngữ từ các tài liệu đơn ngữ.

Francis Bond và cộng sự [32] đề xuất phương pháp trích rút các thuật ngữ

song ngữ từ văn bản đơn ngữ bằng cách khai thác các dấu hiệu trong văn bản,

cụ thể việc sử dụng dấu ngoặc đơn () và sự khác biệt về hình thức chữ viết (đối

với các cặp ngôn ngữ Anh-Trung Quốc và Anh-Nhật Bản). Phương pháp này

cho phép cải thiện đáng kể độ chính xác của các hệ thống được đề xuất trước đó

cho việc trích rút thuật ngữ Nhật-Anh và Trung-Anh. Nhược điểm của phương

pháp này là khó có thể áp dụng cho các cặp ngôn ngữ cùng sử dụng hệ chữ cái

la-tinh chẳng hạn như cặp ngôn ngữ Việt-Anh.

Trong [28], Els Lefever và cộng sự giới thiệu một mô-đun trích rút thuật ngữ

độc lập cặp ngôn ngữ dựa trên hệ thống dóng hàng câu con mà liên kết các cụm

90

từ xuất hiện trong các văn bản song song. Các bộ lọc thống kê được áp dụng

cho các ứng viên song ngữ được trích rút từ đầu ra của dóng hàng.

Guinovart và cộng sự [4] trình bày phương pháp trích rút thuật ngữ song ngữ

từ kho ngữ liệu song ngữ. Giải thuật được sử dụng ở phương pháp này trích rút

thuật ngữ song ngữ dựa vào sự xuất hiện của các mẫu hình thái ngữ pháp song

ngữ trong từ điển xác suất dịch NATools. Từ điển NATools trích rút tự động

các cặp từ nguồn và đích là bản dịch của nhau từ kho ngữ liệu song ngữ được

dóng hàng câu. Mỗi cặp từ nguồn và đích có một giá trị xác suất dịch. Thông

tin này giúp tạo ra một ma trận dóng hàng cho bất kỳ đơn vị dịch nào. Các ma

trận này được sử dụng để trích rút thuật ngữ song ngữ.

Trong [29], Sadat khai thác ý tưởng sử dụng từ điển bách khoa đa ngôn ngữ

dựa trên Web chẳng hạn như Wikipedia cũng như kho ngữ liệu có thể so sánh

để trích rút thuật ngữ song ngữ. Quá trình trích rút thuật ngữ song ngữ từ các

tài liệu Wikipedia được thực hiện như sau: (i) xây dựng kho ngữ liệu có thể so

sánh; (ii) dịch sử dụng phương pháp thống kê; (iii) kết hợp với thông tin ngôn

ngữ để lọc và xếp hạng lại thứ bậc các thuật ngữ trích rút được.

Năm 2012, Ahmet Aker và cộng sự [2] đề xuất một phương pháp trích rút

các cụm từ song song từ các bài báo tin tức có thể so sánh. Cách tiếp cận của

họ bao gồm một bộ sinh cặp cụm từ mà tự động sinh ra các cụm từ song song

ứng viên và một bộ phân lớp nhị phân SVM (Support Vector Machine) để phân

loại các cặp cụm từ ứng viên là song song hoặc không song song.

Trong [88], Gaizauskas và cộng sự mô tả một hệ thống đa thành phần trích

rút thuật ngữ song ngữ BiTES (Bilingual Term Extraction System). Nó được

thiết kế để tự động thu thập các cặp thuật ngữ song ngữ theo miền từ dữ liệu

Web. Các thành phần của BiTES bao gồm các công cụ thu thập dữ liệu, phân

loại miền, hệ thống trích rút văn bản đơn ngữ và công cụ dóng hàng thuật ngữ

song ngữ.

Yang và cộng sự [111] triển khai thực nghiệm trên một kho ngữ liệu song ngữ

91

Trung Quốc - Nhật Bản. Họ trích rút tự động các thuật ngữ kỹ thuật từ kho

ngữ liệu đơn ngữ bằng cách kết hợp phương pháp lọc và phương pháp thống kê

ngôn ngữ, sau đó sử dụng phương pháp dóng hàng dựa trên mẫu để xác định

các thuật ngữ được dóng hàng rồi chọn ra các thuật ngữ kỹ thuật song ngữ.

Trong [91], Sanjika Hewavitharana và Stephan Vogel đề xuất phương pháp

trích rút các cụm từ song song từ dữ liệu có thể so sánh. Trong phương pháp

này, họ khai thác ba quá trình dóng hàng cụm từ để phát hiện các cặp cụm

từ song song trong các câu có thể so sánh: (i) Giải thuật trích rút cụm từ tiêu

chuẩn dựa vào giải thuật Viterbi path (Viterbi path là một giải thuật quy hoạch

động tìm dãy có khả năng nhất của các trạng thái ẩn); (ii) Mô-đun trích rút

cụm từ chỉ sử dụng đặc trưng từ vựng; (iii) Một bộ phân lớp nhị phân để phát

hiện các cặp cụm từ song song trong một tập hợp lớn các ứng viên cặp cụm từ.

Trong [95], Shengxiang Gao và cộng sự trình bày phương pháp trích rút các

thuật ngữ song ngữ Trung-Việt dựa vào một ngôn ngữ then chốt. Đầu tiên họ

huấn luyện một mô hình để xác định và trích rút thuật ngữ tiếng Trung. Sau

đó, một mô hình dịch máy thống kê dựa trên cụm từ được sử dụng để tạo bảng

cụm từ Trung-Anh và bảng cụm từ Việt-Anh trong kho ngữ liêu song song đa

ngôn ngữ, cho phép suy ra bảng cụm từ Trung-Việt. Cuối cùng, một cặp thuật

ngữ song ngữ Trung-Việt được xây dựng bằng cách kết hợp các thuật ngữ tiếng

Trung được trích xuất từ trước và bảng cụm từ Trung-Việt.

Trong [47], Jingshu Liu và cộng sự đề xuất một khung thống nhất dóng hàng

các thuật ngữ song ngữ không phụ thuộc vào độ dài thuật ngữ. Phương pháp

của họ được xây dựng dựa trên việc kết hợp những ưu thế của phương pháp

thành phần truyền thống và tiếp cận nhúng từ (word embedding) song ngữ. Các

bước thực hiện như sau:

1. Chuẩn bị hai mô hình nhúng từ cho cặp ngôn ngữ nguồn và đích có cùng

kích thước vectơ.

92

2. Học ma trận chuyển đổi sử dụng hướng tiếp cận chiếu dựa trên ngữ cảnh

kết hợp với mạng nơ-ron.

3. Dịch từng từ trong thuật ngữ có nhiều từ thông qua từ vựng hạt giống song

ngữ.

4. Xây dựng vec tơ đại diện cho toàn bộ thuật ngữ có nhiều từ.

5. So sánh vectơ dịch với từng ứng viên trong ngôn ngữ đích bằng cách sử

dụng số đo tương tự. Các bản dịch ứng viên được xếp thứ tự theo giá trị

của độ đo tương tự.

Tóm lại, hầu hết các hướng tiếp cận trong trích rút thuật ngữ song ngữ đã

được đề xuất đều sử dụng kho ngữ liệu song song hoặc kho ngữ liệu có thể

so sánh. Tuy nhiên, tiếng Việt là ngôn ngữ không nhiều tài nguyên song ngữ

Việt-Anh, nên việc trích rút các thuật ngữ song ngữ có trong các văn bản đơn

ngữ tiếng Việt là cần thiết. Phương pháp được đề xuất ở đây khai thác một ý

tưởng tương tự như ý tưởng của F. Bond và cộng sự [32], đó là tìm các thuật

ngữ hoặc từ tiếng Việt tương đương với các thuật ngữ hoặc từ tiếng Anh mà

xuất hiện trong ngoặc đơn. Cách tiếp cận này dựa trên đặc điểm ngôn ngữ của

tiếng Việt. Chúng tôi đề xuất một bộ quy tắc để trích rút và lọc các thuật ngữ

3.2.2 Phương pháp trích rút thuật ngữ song ngữ Việt-Anh từ văn bản đơn

ngữ tiếng Việt

song ngữ Việt-Anh từ kho ngữ liệu đơn ngữ tiếng Việt.

Mục này trình bày phương pháp trích rút tự động các thuật ngữ song ngữ

Việt-Anh từ văn bản đơn ngữ tiếng Việt.

Trong các tài liệu chuyên ngành tiếng Việt, khi viết một thuật ngữ, đặc biệt

là một thuật ngữ mới, người ta thường đặt sau thuật ngữ này thuật ngữ tiếng

Anh tương ứng của nó trong ngoặc đơn (). Ở đây, luận án tập trung vào việc

trích rút các cặp thuật ngữ song ngữ bao gồm một thuật ngữ tiếng Anh trong

93

ngoặc đơn và các thuật ngữ tiếng Việt tương ứng. Vấn đề chính cần giải quyết

Hình 3.3: Mô hình trích rút thuật ngữ song ngữ Việt-Anh từ văn bản tiếng Việt

là xác định đoạn văn bản tiếng Việt nào là một thuật ngữ tương ứng với thuật

ngữ tiếng Anh trong ngoặc đơn.

Phương pháp được đề xuất ở đây là một phương pháp phi giám sát:

1. Bước 1: Trích chọn các ứng viên từ văn bản đơn ngữ tiếng Việt. Mỗi ứng

viên là một xâu chứa từ tiếng Anh trong ngoặc và phần ngữ cảnh tiếng việt

phía trước dấu ngoặc.

2. Bước 2: Áp dụng một tập luật mà chúng tôi đề xuất để sàng lọc các ứng

viên, chọn ra các cặp thuật ngữ song ngữ Việt-Anh chính xác nhất.

94

Mô hình của phương pháp được thể hiện trong Hình 3.3.

Việc lựa chọn các ứng viên, các đặc trưng ngôn ngữ tiếng Việt và bộ quy tắc

3.2.2.1 Trích chọn các ứng viên

được trình bày chi tiết trong các tiểu mục dưới đây.

Khi viết một thuật ngữ tiếng Việt thì thuật ngữ tiếng Anh tương ứng thường

được viết liền sau đó và được đặt trong cặp ngoặc "()", nhận xét này cũng đúng

với một số ngôn ngữ khác, như trình bày trong [32]. Ví dụ câu tiếng việt "Bác

sỹ chỉ định chụp cắt lớp (CT scan)" tương ứng với nó là câu tiếng Anh "The

doctor appointed a CT scan" trong ngoặc đơn được sử dụng để làm tham khảo

cho thuật ngữ tiếng Việt "chụp cắt lớp vi tính".

• Thuật ngữ tiếng Anh là phần văn bản nằm trong ngoặc đơn.

• Phần ngữ cảnh tiếng Việt là phần văn bản liền phía trước ngoặc đơn.

Từ quan sát trên, chúng tôi tiến hành trích trọn các ứng viên là các cặp gồm:

• Bước 1: Tìm trong văn bản đơn ngữ tiếng Việt các ứng viên có dạng "Thuật

Trích rút các cặp ứng viên song ngữ được thực hiện như sau:

ngữ tiếng Việt (thuật ngữ tiếng Anh)". Ví dụ:

– Văn bản đơn ngữ tiếng Việt: Thông thường những vi khuẩn có ích

(lactobacilli) sẽ áp đảo số lượng vi khuẩn gây hại (anaerobes)

– Chúng ta tìm được 2 ứng viên::

1. Thông thường những vi khuẩn có ích (lactobacilli)

• Bước 2: Để đảm bảo các ứng viên được trích trọn theo đúng mẫu trên, một

2. sẽ áp đảo số lượng vi khuẩn gây hại (anaerobes)

từ điển tiếng Anh gồm hơn 370.000 từ7 được sử dụng để tra cứu các từ trong

ngoặc đơn, nếu có từ không xuất hiện trong từ điển thì ứng viên đó sẽ bị

7https://github.com/dwyl/english-words

95

loại.

Ngoài ra, phương pháp này cũng xét đến các thuật ngữ là các từ viết tắt

từ các chữ cái đầu của các từ tiếng Anh, ví dụ như (WHO) "World Health

Organization" "Tổ chức Y tế Thế giới".

Đối với mỗi ứng viên thuật ngữ tiếng Anh được tìm thấy, chúng tôi xác định

ứng viên bản dịch tiếng Việt tương ứng: Cách đơn giản nhưng hiệu quả là xem

xét các dấu câu (".", ",", ":", . . . , "{}") trước dấu ngoặc bên trái của ứng viên

tiếng Anh là điểm bắt đầu cho trích rút văn bản ứng viên tiếng Việt. Ví dụ: Câu

"Bệnh nhân được chỉ định tiến hành một số xét nghiệm như: xét nghiệm công

thức máu toàn bộ (CBC), xét nghiệm nước tiểu (UA)." có thể nhận được 2 ứng

viên đó là: "xét nghiệm công thức máu toàn bộ (CBC) và "xét nghiệm nước tiểu

(UA)".

Mục tiếp sau trình bày một số đặc trưng ngôn ngữ được sử dụng để xây dựng

3.2.2.2 Các đặc trưng ngôn ngữ được sử dụng

tập luật dùng trong sàng lọc các ứng viên đã chọn.

Như đã trình bày ở trên, từ điển tiếng Anh được sử dụng để loại bỏ các ứng

viên không hợp lệ. Bên cạnh đó một số đặc trưng ngôn ngữ cũng được sử dụng

• Thông tin tương hỗ I(X, Y ), với X là xâu tiếng Anh ở trong ngoặc và Y là

như:

xâu tiếng Việt phía trước dấu ngoặc trong một ứng viên [103]:

I(X, Y ) =

p(x, y)

p(x, y) p(x)p(y)

x,y

(cid:88) (3.2.5)

Trong đó:

– x là một từ tiếng Anh, y là một từ tiếng Việt.

– p(x), p(y) tương ứng là xác suất xuất hiện từ x,y trong văn bản.

– p(x,y) là xác suất đồng xuất hiện của từ x và từ y trong các cặp thuật

96

ngữ.

I(X,Y) được sử dụng để xác định một ứng viên có đúng là chỉ chứa thuật

ngữ và bản dịch của nó hay không? và thông tin này cũng giúp xác định

được phần thuật ngữ tiếng Việt tương ứng dựa vào các ngữ cảnh phía trước

• Thông tin về tỷ lệ giữa số từ trong một thuật ngữ tiếng Anh và số từ trong

thuật ngữ.

một thuật ngữ tiếng Việt là bản dịch của nó: Các thuật ngữ tiếng Việt khi

trích rút quá dài hoặc quá ngắn so với tỷ lệ này sẽ được xem xét để được

• Thông tin về nhãn từ loại, thông tin về các từ dừng (stop word) hay các

điều chỉnh độ dài cho hợp lý hơn.

liên từ, giới từ chỉ vị trí, . . . được sử dụng để cắt bỏ phần dư thừa trong

• Một từ điển tiếng Việt với trên 40.000 từ8 được sử dụng để kiểm tra liệu ứng

ngữ cảnh tiếng Việt.

viên tiếng Việt được trích rút có thực sự là văn bản tiếng Việt hay không?

Dựa vào các đặc trưng ngôn ngữ này, chúng tôi xây dựng một tập luật để

trích rút các thuật ngữ song ngữ Việt-Anh. Tập luật và kỹ thuật trích rút các

3.2.2.3 Trích rút thuật ngữ song ngữ Việt-Anh

thuật ngữ song ngữ Việt-Anh được trình bày trong mục tiếp theo.

Việc trích rút thuật ngữ song ngữ Việt-Anh được thực hiện thông qua việc

áp dụng các luật, giống như phương pháp sàng nhiều lớp. Các luật được đưa

ra theo thứ tự ưu tiên độ chắc chắn (độ chính xác). Mô hình áp dụng các luật

để lựa chọn các ứng viên là thuật ngữ song ngữ Việt-Anh được thể hiện trong

• Luật 1: Ứng viên thỏa mãn một trong hai tiêu chuẩn sau đây, sau khi trích

hình 3.4.

8https://vlsp.hpda.vn/demo/?page=resource và https://github.com/vncorenlp/VnCoreNLP

97

rút được sẽ được coi là kết quả cuối cùng vì chúng có độ chắc chắn cao:

Hình 3.4: Mô hình áp dụng các luật để lựa chọn các ứng viên là thuật ngữ song ngữ Việt-Anh

98

– Tiêu chuẩn 1: Thuật ngữ tiếng Anh nằm trong ngoặc đơn (), thuật ngữ

tiếng Việt được đặt trong " ", hoặc ‘ ’ hoặc nằm trong cặp ngoặc đơn

bao ngoài thuật ngữ tiếng Anh.

– Tiêu chuẩn 2: Các thuật ngữ là tên riêng của các tổ chức dựa vào cách

viết Hoa các từ là tên tổ chức.

• Luật 2: Dựa vào thông tin tương hỗ MI (Mutual Information) để xác định

Tuy nhiên không nhiều ứng viên thỏa mãn được luật này.

một ứng viên có là thuật ngữ hay không, đồng thời cũng xác định được

phần thuật ngữ tiếng Việt tương ứng với thuật ngữ tiếng Anh:

– Một ứng viên là một thuật ngữ thì thuật ngữ này sẽ không thay đổi

theo ngữ cảnh, do đó sẽ có phần chung (xâu con) giữa các ngữ cảnh

phía trước của thuật ngữ.

– Nếu không tìm được phần chung giữa các ngữ cảnh, hoặc tỷ lệ số lần

phần chung này xuất hiện trong các ngữ cảnh là thấp thì ứng viên không

phải là thuật ngữ.

– Ví dụ dưới đây là 10 ngữ cảnh phía trước của thuật ngữ ứng viên tiếng

∗ Burpee

∗ Burpee

∗ Hít đất

∗ Hít đất

∗ Hướng dẫn thực hiện động tác Superman

∗ Hướng dẫn thực hiện động tác Body Saw

∗ Hướng dẫn thực hiện động tác Superman

∗ Hướng dẫn thực hiện động tác Body Saw

∗ Hướng dẫn thực hiện động tác Lunge Kick

99

Anh "video".

∗ Bài tập thể dục Plank nghiêng vặn người

Các ngữ cảnh khác nhau này không cho phép tìm một thuật ngữ tiếng

Việt tương ứng với thuật ngữ tiếng Anh "video".

– Ví dụ sau đây cho thấy 10 ngữ cảnh phía trước của ứng viên ALS

∗ Điều trị bệnh xơ cứng teo cơ cột bên

∗ Nguyên nhân gây bệnh xơ cứng cột bên teo cơ

∗ Những ai thường mắc phải bệnh xơ cứng cột bên teo cơ

∗ Những triệu chứng và dấu hiệu của bệnh xơ cứng cột bên teo cơ

∗ Những phương pháp nào dùng để điều trị xơ cứng cột bên teo cơ

∗ Những yếu tố nào làm tăng nguy cơ mắc bệnh xơ cứng cột bên

(Amyotrophic Lateral Sclerosis)

∗ Những kỹ thuật y tế nào dùng để chẩn đoán bệnh xơ cứng cột

teo cơ

∗ Những thói quen sinh hoạt nào giúp bạn hạn chế diễn tiến của bệnh

bên teo cơ

xơ cứng cột bên teo cơ

Từ các ngữ cảnh này, chúng tôi đưa ra bệnh xơ cứng cột bên teo

cơ là ứng viên thuật ngữ tiếng Việt cho thuật ngữ tiếng Anh ALS.

– Nếu tìm được phần chung giữa các ngữ cảnh có xác suất xuất hiện trong

các ngữ cảnh lớn hơn một ngưỡng α thì ứng viên là một thuật ngữ và

phần chung giữa các ngữ cảnh nhiều khả năng sẽ là phần thuật ngữ

tiếng Việt tương ứng.

– Chúng tôi thiết lập ngưỡng α = 0.75, tuy nhiên ngưỡng này sẽ được điều

chỉnh nếu thuật ngữ trích chọn được quá dài hoặc quá ngắn so với tỷ

lệ độ dài từ giữa thuật ngữ tiếng Anh và thuật ngữ bản dịch tiếng Việt

100

của nó.

– Trong nghiên cứu này chúng tôi hướng đến việc xác định một thuật

ngữ thông dụng nhất, tuy nhiên phương pháp này cũng có thể mở rộng

để tìm ra các thuật ngữ tiếng Việt đồng nghĩa (cùng là một thuật ngữ

tiếng Anh), ví dụ như thuật ngữ "bỏng dạ" hay "phỏng dạ" hay "thủy

đậu" (Chickenpox ).

Luật 2 là luật chính trong phương pháp, luật này hoạt động hiệu quả nếu

như dữ liệu đủ giàu (nhiều về số lượng và đa dạng về ngữ cảnh của thuật ngữ).

Tuy nhiên, bên cạnh những thuật ngữ có số lượng thể hiện (instance) nhiều thì

cũng có những thuật ngữ không có nhiều lần xuất hiện hoặc các thuật ngữ đồng

nghĩa khác thể hiện, điều này dẫn đến việc trích rút thuật ngữ thiếu chính xác,

tức là thuật ngữ trích rút được quá dài hoặc quá ngắn. Các luật sau đây chủ

yếu được sử dụng để chuẩn hóa (làm mịn) kết quả của thuật ngữ trích rút được

• Luật 3: Áp dụng với các thuật ngữ tiếng Việt trích rút được có độ dài quá

từ Luật 2.

ngắn so với tỷ lệ giữa từ tiếng Anh và từ tiếng Việt. Như đã phân tích ở

trên, vấn đề này gặp phải do các thuật ngữ đồng nghĩa nhưng khác thể

hiện, nên phần chung có thể sẽ phân bố đều cho các thể hiện.

Luật 3 sẽ thực hiện việc giảm tự động ngưỡng α xuống mỗi lần giảm 0, 01

để tìm được thuật ngữ có độ dài phù hợp hơn. Ví dụ:

– Các ứng viên: "Điều trị cho bệnh tế bào mast hệ thống (SM)"; "Bác

sĩ sẽ chẩn đoán tăng dưỡng bào hệ thống (SM)"; "Việc nghi ngờ chẩn

đoán bệnh tế bào mast hệ thống (SM)".

– Với ngưỡng α = 0, 75, thuật ngữ tiếng Việt trích rút được là "hệ thống".

Tỷ lệ độ dài từ của cặp thuật ngữ được trích chọn này là 0, 5. Nó quá

nhỏ so với tỷ lệ độ dài từ giữa từ tiếng Anh và bản dịch tiếng Việt của

101

nó (1, 56), do đó chúng tôi giảm dần ngưỡng α để tìm được thuật ngữ

tiếng Việt dài hơn. Khi α = 0, 66 thì tỷ lệ độ dài từ giữa thuật ngữ tiếng

Anh và thuật ngữ tiếng Việt trích chọn được gần giá trị 1, 56, chúng tôi

trích rút được thuật ngữ tiếng Việt: "bệnh tế bào mast hệ thống". Đây

• Luật 4: Áp dụng với các thuật ngữ trích rút được có độ dài quá lớn do số

là thuật ngữ được trích chọn đúng.

lượng ngữ cảnh phía trước không đủ nhiều để phân biệt rõ ranh giới của

thuật ngữ. Luật 4 chia thành 2 trường hợp là:

– Luật 4.1: Thực hiện việc tăng ngưỡng để giảm độ dài của xâu chung,

nếu thuật ngữ tìm được vẫn chưa giảm độ dài sẽ áp dụng luật 4.2

– Luật 4.2: Sử dụng thông tin về từ loại, từ dừng để cắt ngắn xâu chung

bằng cách xác định các từ có từ loại là liên từ, giới từ hoặc số từ, . . . xung

quanh vị trí hợp lý về tỷ lệ giữa từ tiếng Anh và từ tiếng Việt. Ví dụ:

ứng viên "tiếp xúc với khí ra-đông (radon)" có phần ngữ cảnh được gán

nhãn từ loại là "tiếp_xúc|V với|E khí|N ra-đông|N ". Từ "với" với nhãn

từ loại "E " là dấu hiệu để cắt ngữ cảnh ngắn hơn, khi đó ta thu được

• Hậu xử lý: xóa bỏ các ký tự không phải là chữ cái hoặc loại bỏ những từ

cặp thuật ngữ đúng "khí ra-đông (radon)".

dừng đứng đầu các thuật ngữ, . . . .

Các luật được áp dụng tuần tự. Đầu tiên, luật 1 được áp dụng cho tất cả

các ứng viên được lựa chọn để trích rút các thuật ngữ với mức độ chắc chắn

cao. Các ứng viên còn lại sẽ áp dụng luật 2, các thuật ngữ quá dài hoặc quá

ngắn so với tỷ lệ độ dài giữa các từ tiếng Anh và từ tiếng Việt sẽ áp dụng

luật 3 hoặc luật 4 để có kết quả tốt hơn. Cuối cùng, kết quả sẽ được hậu

xử lý để chuẩn hóa cặp cụm từ trích rút được.

Giải thuật trích rút thuật ngữ song ngữ Việt-Anh từ kho ngữ liệu đơn ngữ

102

tiếng Việt được thể hiện trong Giải thuật 3.

Giải thuật 3: Giải thuật xây dựng tự động kho từ song ngữ Việt-Anh.

Đầu vào: Kho ngữ liệu đơn ngữ tiếng Việt Sin.

Đầu ra: Kho ngữ liệu thuật ngữ song ngữ Việt-Anh Sout.

Begin

i=0;

while (not EOF(Sin)) do

U ng_vien[++i] = Get(Doan_chua_Thuat_ngu_tieng_Viet (Thuat_ngu_tieng_Anh)

trong Sin);

while (j

if (Luat1(U ng_vien[j]) then

Sout = Hau_xu_ly(U ng_vien[j]);

else

α = 0, 75;

if (Luat2(U ng_vien[j]) and (Xac_xuat_xuat_hien_phan_chung > α)) then

Sout = Hau_xu_ly(U ng_vien[j]);

else

β = len(T huat_ngu_tieng_Anh)/len(T huat_ngu_tieng_V iet);

if (β > 0, 5) and (β < 2) then

Sout = Hau_xu_ly(U ng_vien[j]);

else

if (β < 0, 5) then

if (Luat3(U ng_vien[j]) then

Sout = Hau_xu_ly(U ng_vien[j]);

else

if (Luat4(U ng_vien[j]) then

Sout = Hau_xu_ly(U ng_vien[j]);

End

103

3.2.3 Thực nghiệm

Chúng tôi đã thống kê về số lượng các văn bản mà có thể áp dụng được giải

thuật đề xuất ở trên. Số lượng văn bản này có khoảng 30% tổng số các dạng

văn bản và chỉ phủ được một phần các thuật ngữ mới trong tiếng Việt. Văn bản

miền y tế thường chứa nhiều thuật ngữ mới hơn các văn bản khác.

Việc thực nghiệm được tiến hành trên hai kho ngữ liệu. Thực nghiệm đầu

tiên xử lý các văn bản y tế được thu thập từ Web. Kích thước của kho văn bản

thô này là khoảng 334 MB. Thực nghiệm thứ hai được thực hiện trên các văn

bản tiếng Việt từ Wikipedia, tải về vào ngày 1/9/2018 và bao gồm khoảng 850

MB văn bản thô9.

Bảng 3.4 cho biết số liệu thống kê của các ứng viên thuật ngữ tiếng Anh xuất

hiện trong ngoặc đơn. Đối với kho ngữ liệu y tế, số lượng ứng viên thuật ngữ

song ngữ được trích chọn là 910 trên tổng số 9.779 lần xuất hiện. Đối với các

văn bản Wikipedia tiếng Việt, chúng tôi đã trích rút 6.590 ứng viên tiếng Anh

trên tổng số 28.861 lần xuất hiện. 152 ứng viên thuật ngữ tiếng Anh được trích

rút từ kho ngữ liệu y tế và 1.724 ứng viên thuật ngữ tiếng Anh được trích rút

Bảng 3.4: Thống kê về trích rút ứng viên thuật ngữ

Dữ liệu

Kho ngữ liệu Y tế Wikipedia

# Ứng viên thuật ngữ tiếng Anh

910

6.590

# Số lượt xuất hiện

9.779

28.861

# Số ứng viên thuật ngữ tiếng Anh bị loại

152

1.724

từ Wikipedia được loại bỏ sau khi áp dụng các luật được trình bày ở trên.

Số các ứng viên thuật ngữ song ngữ y tế thỏa mãn từng luật được thể hiện

trong Bảng 3.5.

9https://dumps.wikimedia.org/backup-index.html,

104

Luật đầu tiên được áp dụng trên 11 cặp thuật ngữ. 899 cặp thuật ngữ còn lại

Bảng 3.5: Số ứng viên thỏa mãn từng luật trên kho ngữ liệu y tế

Luật 1 Luật 2 Luật 3 Luật 4

11

455

292

được xử lý bằng áp dụng luật 2. Trong số 899 cặp thuật ngữ này, luật 3 được áp

dụng cho 201 cặp và luật 4 được áp dụng cho 243 cặp. Lưu ý rằng luật 3 và luật

4 được sử dụng để làm mịn các kết quả thu được sau khi luật 2 được áp dụng.

Tất cả các cặp thuật ngữ thu được sau khi áp dụng các luật sẽ được hậu xử lý

để chuẩn hóa.

Tương tự, số ứng viên thỏa mãn từng luật trên dữ liệu Wikipedia được trình

Bảng 3.6: Số lần áp dụng luật trên dữ liệu Wikipedia

Luật 1 Luật 2 Luật 3 Luật 4

855

2.725

1.286

bày trong Bảng 3.6.

Chúng tôi đã tiến hành đánh giá các ứng viên thuật ngữ song ngữ thu thập

được bằng cách kiểm tra thủ công 500 cặp thuật ngữ được chọn ngẫu nhiên từ

các cặp thuật ngữ thu được từ Wikipedia và toàn bộ 626 cặp thuật ngữ từ kho

Bảng 3.7: Đánh giá kết quả các cặp thuật ngữ thu được

Dữ liệu

# Số đánh giá # Số chính xác Tỷ lệ chính xác

Kho ngữ liệu y tế

758

626

82,6 %

Wikipedia

500

371

74,2 %

ngữ liệu y tế. Kết quả được trình bày trong Bảng 3.7.

Từ số liệu thống kê trong Bảng 3.4, có thể thấy rằng số lượng cặp thuật ngữ

trích chọn được trên số xuất hiện trong kho ngữ liệu y tế cao hơn ở kho ngữ liệu

Wikipedia (Tỷ lệ 9,3% ở kho ngữ liệu y tế và 2,3% ở kho ngữ liệu Wikipedia).

105

Điều này là tất nhiên vì văn bản Wikipedia được viết theo một phong cách khác.

Kho ngữ liệu y tế tập trung vào một chủ đề cụ thể, vì vậy mật độ cá thể của

một thuật ngữ cao hơn. Chúng tôi cũng nhận thấy rằng lời giải thích liên quan

đến sự xuất hiện của các thuật ngữ tiếng Anh trong kho văn bản Wikipedia

tiếng Việt thường có ngữ cảnh ngôn ngữ phức tạp hơn, dẫn đến tỷ lệ lỗi cao hơn

trong phát hiện cặp thuật ngữ.

Bảng 3.8 cho thấy trong số 626 cặp thuật ngữ chính xác được trích rút từ

kho văn bản y tế, có 355 từ viết tắt và 40 thuật ngữ được tìm thấy trong từ điển

Việt-Anh miền chung và miền y tế chứa 90.000 mục tiếng Anh. Với 371 thuật

ngữ song ngữ chính xác được trích rút từ Wikipedia, có 105 từ viết tắt và 11 cặp

thuật ngữ có trong từ điển trên. Những con số này cho thấy một tỷ lệ lớn các

thuật ngữ song ngữ Việt-Anh được trích rút từ kho ngữ liệu đơn ngữ là có chất

Bảng 3.8: Phân tích kết quả từ các cặp thuật ngữ được trích rút

Dữ liệu

Kho ngữ liệu y tế Wikipedia

# Số thuật ngữ đúng

626

371

# Số từ

355

105

# Số có trong từ điển

40

11

3.3 Kết luận chương

lượng và rất hữu ích.

Trong chương này luận án đã trình bày phương pháp xây dựng tự động từ

điển song ngữ Việt–Anh từ kho ngữ liệu song ngữ có dóng hàng mức câu; phương

pháp xây dựng tự động từ điển song ngữ Việt-Anh miền du lịch và phương pháp

trích rút tự động thuật ngữ song ngữ từ văn bản đơn ngữ dựa vào tập luật. Các

phương được đề xuất ở đây là tổng quát, có thể áp dụng để xây dựng tự động

từ điển song ngữ hay kho ngữ liệu từ, thuật ngữ song ngữ cho bất kỳ cặp ngôn

106

ngữ nào và cho bất cứ miền dữ liệu giới hạn nào.

Phương pháp trích rút từ, thuật ngữ song ngữ để xây dựng từ điển từ kho

ngữ liệu song ngữ có dóng hàng câu và từ văn bản đơn ngữ dựa vào tập luật vẫn

còn hạn chế về số lượng từ trích rút được so với khả năng của nó, trong tương

lai sẽ chúng tôi sẽ tập trung cải tiến kỹ thuật để có thể thu được số lượng cặp

từ, thuật ngữ tương xứng với khả năng của dữ liệu đầu vào và mở rộng xây dựng

trên các miền khác đồng thời nghiên cứu nâng cao chất lượng kho ngữ liệu từ,

thuật ngữ song ngữ thu được. Đặc biệt là triển khai nghiên cứu việc ứng dụng

kho ngữ liệu này vào vào cải tiến chất lượng dịch máy Việt-Anh.

Chương tiếp theo, luận án trình bày các nghiên cứu khai thác kho ngữ liệu

song ngữ Việt-Anh thu thập được trong dịch máy với mục tiêu nâng cao chất

lượng dịch Việt-Anh, Anh-Việt.

107

Công bố liên quan đến nghiên cứu này: [CT3] [CT4]

Chương 4

Khai thác kho ngữ liệu song ngữ

Việt-Anh cho dịch máy

Như đã trình bày ở chương 2 và chương 3, kho ngữ liệu song ngữ là một

nguồn tài nguyên ngôn ngữ quan trọng trong dịch máy. Một vấn đề đặt ra là,

khi chúng ta đã xây dựng được các kho ngữ liệu này thì việc sử dụng nó như thế

nào để mang lại hiệu quả? Trong chương này, luận án sẽ trình bày các kết quả

nghiên cứu nâng cao chất lượng hệ thống dịch máy nơ-ron từ việc khai thác kho

ngữ liệu song ngữ Việt-Anh. Kết quả thứ nhất là để xuất phương pháp tiền xử

lý câu dài trong huấn luyện hệ thống dịch máy rơ-ron sẽ được trình bày trong

mục 4.1. Kết quả thứ hai là nâng cao chất lượng hệ thống dịch máy từ việc bổ

sung kho ngữ liệu miền chung mà chúng tôi thu thập được và đề xuất kỹ thuật

xử lý từ mới (unknown words) sử dụng từ điển song ngữ Việt-Anh, từ đó đề

xuất quy trình xây dựng hệ thống sinh chú giải tiếng Việt tự động cho ảnh được

4.1 Tiền xử lý dữ liệu huấn luyện trong dịch máy nơ-ron

trình bày trong mục 4.2.

Câu dài luôn là một thách thức đối với các hệ thống dịch máy, nguyên nhân

108

chính dẫn đến thách thức là do câu dài luôn có sự nhập nhằng về cấu trúc ngữ

pháp, ngữ nghĩa và mối quan hệ giữa các từ và cụm từ. Trong những năm qua,

đã có một số công trình nghiên cứu đề xuất phương pháp xử lý câu dài mang

lại hiệu quả cho dịch máy. Hầu hết các nghiên này, tập trung vào xử lý câu dài

trong giai đoạn dịch.

Francisco Oliveira và cộng sự [31] đã trình bày cách tiếp cận dựa vào phân

tích cú pháp để dịch câu dài hiệu quả trong ứng dụng dịch máy dựa vào luật

cho cặp ngôn ngữ Bồ Đào Nha - Trung Quốc. Phương pháp mà họ sử dụng là

ngắt câu dài từ đầu vào của hệ thống dịch thành từng đoạn dựa vào mẫu, các

điều khoản, liên kết câu và dấu câu. Bên cạnh đó, họ còn sử dụng ràng buộc về

đồng bộ ngữ pháp để mô hình hóa tương ứng ở cả hai phía nguồn và đích tại

bước phân tích cú pháp để làm giảm sự nhập nhằng từ đó sinh bản dịch cho các

câu dài hiệu quả.

Chooi-Ling Goh và Eiichiro Sumita [15] đã đề xuất phương pháp chia câu dài

thành các đoạn nhỏ cho dịch máy thống kê dựa vào cụm từ sử dụng thông tin

ngôn ngữ và việc dịch câu dài được thực hiện bằng cách dịch các đoạn nhỏ đó.

Sau đó, họ áp dụng mô hình ngôn ngữ để nối các đoạn nhỏ sau khi dịch thành

một câu hoàn chỉnh.

Baosheng Yin và cộng sự [11] đã sử dụng giải thuật phân đoạn từ trên xuống

để phân đoạn câu dài thành các câu phụ ngắn dựa vào luật. Các luật được rút

ra từ các mẫu câu và hầu hết sử dụng các biểu thức chính quy. Trước tiên giải

thuật làm giảm một số thành phần câu để rút ngắn câu, sau đó kết hợp các câu

con được nhận biết và được phân đoạn; cuối cùng, các mệnh đề trong các câu

con được dịch và sau đó được nhập lại thành câu dịch hoàn chỉnh.

Jean Pouget-Abadie và cộng sự [45] cũng đã đề xuất một cách xử lý câu dài

bằng việc phân đoạn tự động câu đầu vào thành các cụm từ mà có thể dễ dàng

được dịch bởi mô hình dịch máy mạng nơ-ron. Khi mỗi phân đoạn đã được dịch

độc lập bởi mô hình dịch máy nơ-ron, chúng sẽ được ghép lại thành bản dịch

109

cuối cùng.

Shaohui Kuang và Deyi Xiong [94] đề xuất một phương pháp lý thuyết để xử

lý câu dài trong NMT bằng việc phân đoạn câu dài thành một số mệnh đề. Họ

đưa ra một cách chia và mô hình thay đổi trật tự để thu thập và phát hiện dãy

tối ưu ở các điểm phân đoạn đối với một câu nguồn dài. Mỗi mệnh đề sau khi

phân đoạn được dịch độc lập bởi hệ thống NMT thành mệnh đề đích. Sau đó

các mệnh đề đích đã được dịch được ghép lại không theo trật tự để hình thành

bản dịch cuối cùng đối với câu dài.

Ở giai đoạn huấn luyện hệ thống dịch máy, để đảm đảm bảo chất lượng hệ

thống được sinh ra, thông thường các câu có độ dài quá 50 từ sẽ bị hệ thống

huấn luyện loại bỏ (chẳn hạn như hệ thống OpenNMT). Để tận dụng nguồn tài

nguyên này, chúng tôi đề xuất một phương pháp tiền xử lý câu dài được trình

4.1.1 Phương pháp tiền xử lý câu dài trong dịch máy nơ-ron

bày trong các tiểu mục sau đây.

Hiện nay dịch máy nơ-ron dựa vào mô hình chú ý (attention) đã khai thác

được các thông tin ngôn ngữ trong câu nguồn để nâng cao chất lượng dịch.

Trong [61], các tác giả đã phân lớp các mô hình dựa vào sự tập trung thành hai

dạng đó là mô hình chú ý toàn cục và mô hình chú ý cục bộ.

Mô hình chú ý toàn cục: tại mỗi bước thời gian t, mô hình đưa ra một véc

tơ trọng số dóng hàng độ dài thay đổi at dựa vào trạng thái đích ht hiện tại và

s, một vecter ngữ cảnh toàn cục ct được tính bằng

tất cả các trạng thái nguồn h(cid:48)

trung bình trọng số theo at của tất cả các trạng thái nguồn. Mô hình chú ý toàn

cục được thể hiện trong hình 4.1

pt cho từ đích hiện tại. Một cửa sổ xung quanh vị trí trung tâm nguồn pt được

Mô hình chú ý cục bộ: Đầu tiên mô hình dự đoán một vị trí được dóng hàng

sử dụng để tính vec tơ ngữ cảnh ct là trung bình trọng số của các trạng thái ẩn

trong cửa sổ. Trọng số at được suy ra từ trạng thái đích hiện tại ht và các trạng

s trong cửa sổ. Mô hình chú ý cục bộ được thể hiện trong hình 4.2

110

thái nguồn h(cid:48)

Hình 4.1: Mô hình chú ý toàn cục

Hình 4.2: Mô hình chú ý cục bộ.

111

Khi hệ thống dịch máy nơ-ron đối diện với câu dài các giá trị của trạng thái

ẩn trong mô hình chú ý bị phân tán do đó véc tơ ngữ cảnh tính được kém khả

năng hỗ trợ mạng đưa ra quyết định dự đoán từ đích kế tiếp, và đặc biệt giá trị

này còn gây ảnh hưởng đến dự đoán tất cả các từ phía sau do được sử dụng lan

truyền trong mạng, chính điều này gây ảnh hưởng đến chất lượng dịch.

Các mô hình huấn luyện hệ thống dịch máy nơ-ron hiện nay, thường loại bỏ

các câu quá dài trong kho ngữ liệu huấn luyện trước khi huấn luyện hệ thống,

chẳng hạn OpenNMT-py để đảm bảo chất lượng hệ thống dịch máy được sinh

ra, mặc định chỉ lấy các câu dài không quá 50 từ để đưa vào huấn luyện.

Trong mục này luận án trình bày phương pháp xử lý câu dài trong huấn luyện

hệ thống dịch máy nơ-ron. Ý tưởng của phương pháp này rất đơn giản, thay vì

loại bỏ các câu dài chúng tôi ngắt các câu này thành các cụm từ và đưa chúng

vào cùng với kho ngữ liệu huấn luyện. Các câu tiếng Việt có độ dài quá 30 từ

được xem là các câu dài.

Phương pháp đề xuất được thể hiện trong hình 4.3.

• Đầu tiên, trích rút từ kho ngữ liệu song ngữ có dóng hàng câu SC tất cả

Các bước xử lý được thực hiện như sau:

các câu song ngữ có độ dài lớn hơn 30 từ ta được tập câu song ngữ ký hiệu

• Sau đó, tập ngữ liệu SC1 được đưa qua công cụ trích rút cụm từ song ngữ

là SC1.

• Cuối cùng, tích hợp PC vào SC thành một kho ngữ liệu song ngữ để đưa

ExtPhrase. Tập cụm từ kết quả gọi là PC.

4.1.2 Phương pháp trích rút cụm từ ExtPhrase

vào huấn luyện hệ thống hệ thống dịch máy nơ-ron.

Như đã được trình bày ở trên, cụm từ song ngữ là nguồn tài nguyên ngôn

112

ngữ quan trọng trong dịch máy. Trong mục này, luận án trình bày phương pháp

Hình 4.3: Mô hình tiền xử lý câu dài hơn 30 từ trong huấn luyện hệ thống dịch máy.

113

trích rút cụm từ song ngữ từ kho ngữ liệu song ngữ được dóng hàng mức câu.

Đầu vào là kho ngữ liệu song ngữ có dóng hàng mức cầu, đầu ra là tập các từ,

cụm từ song ngữ.

Phương pháp được thực hiện như sau, sử dụng Moses để ngắt các cặp câu

dài từ kho ngữ liệu song ngữ có dóng hàng mức câu thành các cặp cụm từ và

tính xác suất P r(˜s|˜t) và P r(˜t|˜s) (˜s là cụm từ nguồn; ˜t là cụm từ đích)

Sau đó, trích rút các cặp cụm từ thỏa mãn điều kiện p(˜s|˜t) = p(˜t|˜s) = 1, với

các cụm từ s và t là bản dịch của nhau ở kho ngữ liệu song ngữ.

Ký hiệu C là kho ngữ liệu song ngữ có dóng hàng mức câu, Gọi T = M o(C)

là bảng cụm từ được sinh ra bởi hệ thống huấn luyện Moses [83].

Gọi T1 = T o(T ) là đầu ra của công cụ SALM được sử dụng để gỡ bỏ các cặp

cụm từ dư thừa trong bảng cụm từ để đảm bảo chất lượng của bảng cụm từ

[42].

Hai tệp TS và TT tương ứng là các tệp nguồn và đích của kho ngữ liệu song

ngữ dóng hàng mức cụm từ.

Giải thuật 4: Trích rút cụm từ song ngữ

Đầu vào: Kho ngữ liệu song ngữ dóng hàng mức câu C.

Đầu ra: Kho ngữ liệu song ngữ dóng hàng mức cụm từ TS và TT .

Begin

T = M o(C);

T1 = T o(T );

while (notEOF (T1)) do

Get line;

Tách lấy p(˜s|˜t), p(˜t|˜s), ˜s, ˜t trên mỗi line;

if (p(˜s|˜t) == 1)and(p(˜s|˜t) == 1)) then

Ghi ˜s vào tệp TS; Ghi ˜t vào tệp TT ;

End

114

Giải thuật trích rút cụm từ được thể hiện trong Giải thuật 3 4.

4.1.3 Thực nghiệm và kết quả

Để đánh giá hiệu quả úng dụng của phương pháp đề xuất, luận án đã thực

nghiệm sử dụng kho ngữ liệu đã xây dựng trên và so sánh chất lượng của hệ

thống này với hệ thống chỉ dùng kho ngữ liệu SC.

Luận án sử dụng kho ngữ liệu song ngữ Anh-Việt đa lĩnh vực gồm 304.442

cặp câu, trong đó: 300.437 cặp dùng cho huấn luyện, 1.001 cặp cho huấn luyện

hội tụ và 3.004 cặp làm dữ liệu kiểm tra.

Kho ngữ liệu này được thu thập từ:

1. Dự án VLSP1: 100.000 cặp câu,

2. IWSLT152 138.764: cặp câu,

3. Tự thu thập: 65.678 cặp câu.

Bảng 4.1 thống kê chi tiết về kho ngữ liệu.

Chúng tôi đã trích rút được 69.238 cặp câu mà câu tiếng Việt dài quá 30 từ

từ kho ngữ liệu này. Sau đó sử dụng Extphrase (Trình bày trong mục 4.1.2) để

trích rút các cặp cụm từ song ngữ và đã thu được 38.573 cặp cụm từ được trình

bày trong Bảng 4.2.

Chúng tôi đã sử dụng OpenNMT-py được thiết lập với mô hình chú ý toàn

cục để huấn luyện hai hệ thống:

1. Hệ thống Baseline: Hệ thống NMT (LSTM (Long Short Term Memory)

+ Attention) sử dụng 300.437 cặp câu cho huấn luyện (Tệp huấn luyện ở

Bảng 4.1) và 1.001 cặp câu cho huấn luyện hội tụ (Tệp huấn luyện hội tụ

ở Bảng 4.1).

2. Hệ thống Exttrain: Là hệ thống NMT áp dụng phương pháp đề xuất của

1https://vlsp.hpda.vn/demo/?page=resources&lang=en 2https://github.com/stefan-it/nmt-en-vi

115

chúng tôi, sử dụng 339.010 cặp câu (Tệp huấn luyện tiền xử lý câu dài

Bảng 4.1: Thống kê kho ngữ liệu song ngữ

Các tệp dữ liệu

Thông tin

Tiếng Việt Tiếng Anh

Số câu

300.437

Tệp

Độ dài trung bình của câu

20,5

20,4

huấn

Số câu dài hơn 30 từ

54.082

54.710

luyện

Số từ

6.154.195

6.123.958

(Baseline)

Số từ vựng

74.818

98.657

Số câu

1.001

20,3

Độ dài trung bình của câu

20,5

Tệp huấn

luyện hội tụ

192

Số câu dài hơn 30 từ

185

(Validate)

Số từ

20.479

20.310

Số từ vựng

4.126

4.823

Number of sentences

3.004

20,1

Độ dài trung bình của câu

20,2

Tệp kiểm

507

Số câu dài hơn 30 từ

499

tra

Số từ

60.497

60.343

Số từ vựng

7.806

9.489

Tệp huấn

Số câu

339.010

luyện tiền

Độ dài trung bình của câu

18,65

18,58

xử lý câu

Số từ

6.319.172

6.297.267

dài

(Exttrain)

Số từ vựng

74.821

98.736

Bảng 4.2: Kết quả trích rút cặp cụm từ song ngữ

Số câu

Số cặp cụm từ

Kho dữ liệu

69.238

38.573

116

1.001 cặp câu cho huấn luyện hội tụ (Tệp huấn luyện hội tụ ở Bảng 4.1).

ở Bảng 4.1 bao gồm: 300.437 cặp câu và 38.573 cặp cụm từ) cho huấn luyện và

Việc chọn số câu đưa vào tệp huấn luyện, tệp huấn luyện hội tụ và tệp kiểm

tra là lấy ngẫu nhiên từ kho ngữ liệu. Thông thường tập huấn luyện hội tụ lấy

theo tỷ lệ khoảng dưới 5% tệp huấn luyện và không quá 5000.

Kết quả về chất lượng dịch máy trên tệp kiểm tra (Tệp kiểm tra ở Bảng 4.1)

Bảng 4.3: Kết quả tiền xử lý câu dài trong dịch máy nơ-ron

Hệ thống BLEU Mô tả

Baseline

26,68 Hệ thống dịch máy nơ-ron được huấn luyện bởi OpenNMT-py.

Exttrain

28,40 Hệ thống dịch máy nơ-ron tiền xử lý câu dài được huấn luyện bởi

OpenNMT-py.

ở cả hai hệ thống trên được thể hiện trong Bảng 4.3.

Thực nghiệm cho thấy rằng phương pháp tiền xử lý câu dài được đề xuất bởi

chúng tôi đã cải tiến 1, 72 điểm BLEU.

Phương pháp mà chúng tôi đề xuất cải tiến 1, 72 điểm BLEU là có giá trị vì

hệ thống Baseline vốn đã mạnh: Dịch máy dựa vào mạng nơ-ron OpenNMT-py

(Tích hợp mô hình chú ý).

Trong số các mô hình dịch máy nơ-ron khác nhau, NMT dựa vào sự chú ý

[61][27] đã trở nên phổ biến bởi nó sử dụng quan hệ giữa các thành phần của

câu tại mỗi bước dịch. Khả năng này của nó làm cho mô hình dựa vào sự chú ý

có khả năng vượt trội trong dịch các câu dài. Tuy nhiên, đối với các câu rất dài

(dài hơn 50 từ tiếng Anh), Mô hình chú ý xử lý không hiệu quả [94].

Theo [85], Mô hình chú ý đối với NMT không phải lúc nào cũng hoàn thành

vai trò của một mô hình dóng hàng từ. Vì vậy chúng tôi sử dụng các cặp cụm

từ được trích rút từ bảng cụm từ sử dụng mô hình dóng hàng trong SMT đối

117

với các câu quá dài và tích hợp nó với kho ngữ liệu song ngữ để huấn luyện hệ

thống dịch máy nơ-ron như là một cách để cái tiến mô hình dóng hàng đối với

NMT. Đây chính là lý do mà chúng tôi thu được cải tiến điểm BLEU trong thực

nghiệm.

Chúng tôi đã triển khai một số thực nghiệm đối với phương pháp đề xuất

trên các câu có độ dài 20, 25, 30, 35 và 40 từ được xem là các câu dài. Kho ngữ

liệu huấn luyện ban đầu là như nhau. Kết quả về điểm BLEU của các hệ thống

Hình 4.4: Điểm BLEU của các hệ thống theo độ dài từ tiếng Việt được coi là câu tiếng Việt dài

dịch đối với Tệp kiểm tra được thể hiện trong hình 4.4

Kết quả trong hình 4.4 cho thấy việc coi câu có độ dài từ 30 từ trở lên (không

phải là 30 âm tiết) là câu dài trong tiếng Việt là một lựa chọn phù hợp.

Chúng tôi cũng đã tiến hành một thử nghiệm cho thấy hiệu quả của phương

pháp mà chúng tôi đề xuất đối với dịch câu dài. Từ Tệp kiểm tra ở trên, chúng

tôi đã trích rút được 499 câu tiếng Việt dài hơn 30 từ. Chất lượng dịch của các

câu này trên cả hai hệ thống được thể hiện trên Bảng 4.4. Kết quả này khẳng

định rằng phương pháp tiền xử lý câu dài mà chúng tôi đề xuất giúp cải thiện

118

chất lượng dịch nói chung cũng như chất lượng dịch đối với câu dài.

Bảng 4.4: Chất lượng dịch của 499 câu tiếng Việt dài hơn 30 từ

System BLEU Description

Baseline

26,11 Hệ thống dịch máy nơ-ron được huấn luyện bởi OpenNMT-py.

Exttrain

27,23 Hệ thống dịch máy nơ-ron tiền xử lý câu dài được huấn luyện bởi

OpenNMT-py.

4.2 Phương pháp sinh tự động chú giải tiếng Việt cho hình

ảnh

Chú giải hình ảnh là một bước quan trọng để đạt được bức tranh lớn hơn về

việc tạo ra các máy móc có khả năng giống con người, tức là chúng có thể hiểu

được hoạt động của các sự vật hiện tượng xung quanh chúng. Hiện nay đã có

các nhóm nghiên cứu xây dựng hệ thống chú giải hình ảnh bằng ngôn ngữ tiếng

Anh đạt chất lượng khá tốt [51] [78] [46] [38] [78]. Tuy nhiên, hiện tại chưa có

một hệ thống chú giải hình ảnh bằng ngôn ngữ tiếng Việt. Để xây dựng một

hệ thống chú giải tự động cho hình ảnh, người ta phải xây dựng một kho ngữ

liệu huấn luyện rất lớn, mất rất nhiều thời gian và công sức để thực hiện. Trong

phần này, luận án sẽ trình bày một đề xuất xây dựng quy trình sinh chú giải

tiếng Việt tự động cho ảnh dựa vào mô hình chú giải tiếng Anh cho ảnh và hệ

thống dịch máy nơ-ron Anh-Việt. Để thấy hiệu quả của các kho ngữ liệu đã thu

thập được ở chương 2 và chương 3, luận án đã dùng các kho ngữ liệu này để

4.2.1 Các công trình có liên quan đến sinh chú giải cho ảnh

huấn luyện hệ thống dịch máy Anh-Việt và xử lý các từ mới (unknown words).

Sinh chú giải cho ảnh là một miền nhỏ nhưng quan trọng nằm trong chủ đề

rộng lớn của sự hiểu biết ngữ cảnh của máy móc. Nó được áp dụng trong rất

nhiều ứng dụng của xử lý ảnh, chẳng hạn như trong công cụ tìm kiếm hình ảnh

119

bằng văn bản; hệ thống giúp người khiếm thị; . . .

Đã có một số công trình nghiên cứu vấn đề sinh chú giải hình ảnh tự động,

điển hình là một số công trình sau:

Trong [6], Ali Farhadi và cộng sự đã đề xuất một hệ thống tính điểm liên kết

giữa một hình ảnh với một câu bằng cách xây dựng không gian nghĩa bên cạnh

không gian ảnh và không gian câu. Sự giống nhau giữa một câu và một hình

ảnh được đo trên không gian nghĩa, nhờ đó chất lượng hệ thống được cải thiện.

Trong [7], Anna Fariha đã đề xuất một hệ thống sử dụng việc học đa tác vụ.

Hệ thống này bao gồm hai nhiệm vụ chính: nhiệm vụ đầu tiên là sinh chú giải

cho hình ảnh và nhiệm vụ thứ hai là nhận ra các hoạt động trong hình ảnh.

Trên thực tế, mục tiêu của nhiệm vụ thứ hai là cải tiến biểu diễn tầng được chia

sẻ và do đó cải thiện hiệu suất của cả hệ thống.

Trong [5], Alexander Mathews và cộng sự đã phát triển một mô hình phân

biệt ngữ nghĩa và kiểu, bao gồm bảy giai đoạn đơn giản là: (i) xây dựng bộ dữ

liệu; (ii) trích xuất đặc trưng; (iii) tiền xử lý dữ liệu; (iv) xác định mô hình; (v)

đánh giá mô hình; (vi) sinh chú giải; (vii) phát triển phương pháp đánh giá thủ

công mới.

Trong [43], Huda A. Al-muzaini và cộng sự đã đề xuất một phương pháp sinh

chú giải tiếng Ả Rập tự động cho ảnh sử dụng mô hình ngôn ngữ dựa trên mạng

RNN-LSTM và CNN (Convolutional Neural Network ). Trong công trình này,

tập dữ liệu được xây dựng là một phần của tập dữ liệu chú giải Flickr và MS

COCO. Ngoài ra, một mô hình hợp nhất tổng quát để chú giải tiếng Ả Rập cho

ảnh dựa trên việc phát triển mô hình mạng RNN-LSTM và CNN đó là mạng

nơ-ron hồi quy (RNN) cho các câu và một mạng nơ-ron tích chập (CNN) cho

hình ảnh. Hai mạng con này tương tác với nhau trong một lớp hợp nhất để dự

đoán và tạo chú giải hình ảnh.

Trong [39], Hardik Gourisaria và cộng sự đã đề xuất việc sinh chú giải cho

ảnh dưới nước bằng ngôn ngữ tự nhiên. Một cơ sở dữ liệu hình ảnh dưới nước

120

mới, được đặt tên là PESEmphocation5k, đã được tạo và được chú giải. Mô

hình của họ sử dụng các biến thể khác nhau của CNN, LSTM và GRU ( Gated

Recurrent Unit), khi được huấn luyện trên cơ sở dữ liệu mới của họ, sinh ra các

chú giải với độ chính xác khá cao.

Hầu hết các công trình đã được công bố huấn luyện hệ thống sinh chú giải

cho ảnh sử dụng kho ngữ liệu lớn bao gồm cả hình ảnh và mô tả. Đối với ngôn

ngữ tiếng Việt, chưa có kho ngữ liệu huấn luyện hệ thống sinh chú giải tiếng

Việt cho ảnh. Do đó, để khai thác kho ngữ liệu song ngữ Việt-Anh mà luận án

thu thập được và kế thừa kho ngữ liệu huấn luyện hệ thống sinh chú giải tiếng

Anh cho ảnh, chúng tôi đề xuất một cách tiếp cận mới trong việc xây dựng hệ

thống sinh chú giải tiếng Việt cho ảnh đó là hệ thống đa mô hình, kết hợp mô

hình chú giải tiếng Anh tự động cho ảnh với mô hình dịch máy nơ-ron Anh-Việt.

Đóng góp của luận án ở đây là:

- Kho ngữ liệu song ngữ Việt-Anh với hơn 270.000 cặp câu3 góp phần nâng

cao chất lượng hệ thống dịch máy nơ-ron Anh-Việt.

- Đề xuất một kỹ thuật khai thác từ điển để xử lý các từ mới đối với hệ thống

dịch.

- Đề xuất quy trình sinh chú giải tiếng Việt cho ảnh.

- Xây dựng được một tập dữ liệu kiểm thử để đánh giá chất lượng của hệ

4.2.2 Đề xuất quy trình xây dựng hệ thống sinh chú giải tiếng Việt cho

ảnh

thống sinh chú giải tiếng Việt cho ảnh.4

Ý tưởng của hệ thống này, đầu tiên hình ảnh được đưa vào hệ thống sinh chú

giải tiếng Anh cho ảnh, đầu ra nhận được là câu tiếng Anh mô tả hình ảnh đó

3https://github.com/Tienhavn/generalcorpus 4http://www.mediafire.com/file/3n5b7sfwfuq9dsi/TestVietCaption.rar/file

121

(S ), sau đó câu tiếng Anh này được đưa vào hệ thống dịch máy nơ-ron Anh-Việt

để thu được câu tiếng Việt (T ). Cuối cùng, câu tiếng việt này sẽ được được đưa

vào mô đun xử lý từ mới để thu được câu tiếng Việt có chất lượng hơn. Câu

tiếng Việt ở bước cuối cùng chính là câu chú giải cho hình ảnh đầu vào.

Sơ đồ hệ thống sinh chú giải tiếng Việt cho ảnh được thể hiện trong Hình 4.5.

Hệ thống này bao gồm hai mô hình chính (mô hình chú giải tiếng Anh cho

4.2.2.1 Mô hình chú giải tiếng Anh cho ảnh

ảnh, mô hình dịch máy nơ-ron Anh-Việt) và một mô-đun (mô-đun xử lý từ mới).

Có một số mô hình chú giải hình ảnh bao gồm Mao và cộng sự [51], Google

NIC [78], LRCN [46], MS Research [38], Chen, Zitnick và NeuralTalk [78]. Tuy

nhiên, đánh giá về chât lượng sinh chú giải trên 1.000 hình ảnh thử nghiệm bằng

điểm BLEU sử dụng n-gram cho thấy hệ thống của nhóm nghiên cứu ở Stanford

có kết quả tốt hơn so với các nhóm khác. Do đó, chúng tôi sẽ lựa chọn hệ thống

sinh chú giải tiếng Anh cho ảnh của nhóm nghiên cứu ở Stanford (NeuralTalk2 )

để tích hợp trong mô hình đề xuất.

Mô hình chú giải ảnh NeunalTalk2 sử dụng trong thực nghiệm mô hình đề

• Torch 5: Torch được cài đặt với LuaJIT 2.1.

• Model: Sử dụng mô hình cpu.6

xuất của chúng tôi được cài đặt như sau:

Cơ sở dữ liệu huấn luyện là 113.000 hình ảnh trong MSCOCO và mỗi hình

4.2.2.2 Mô hình dịch máy Anh-Việt

ảnh có tổng cộng 45 chú giải khu vực.

Để tìm được một hệ thống dịch máy Anh-Việt có chất lượng cao nhằm tích

5https://github.com/torch/distro 6http://cs.stanford.edu/people/karpathy/neuraltalk2/checkpoint_v1_cpu.zip

122

hợp trong hệ thống đề xuất và thấy được hiệu quả của kho ngữ liệu 294.665 cặp

Hình 4.5: Mô hình chú giải tiếng Việt cho ảnh

123

câu song ngữ Anh-Việt mà luận án thu thập được, chúng tôi sẽ huấn luyện các

• Kho 1: Bao gồm 600.000 cặp câu được chia sẻ từ nhóm nghiên cứu dịch máy

hệ thống dịch máy trên 2 kho ngữ liệu riêng biệt:

• Kho 2: Bao gồm toàn bộ Kho 1 và 294.665 cặp câu song ngữ Anh-Việt mà

Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội và dự án VLSP.

luận án thu thập được.

Chúng tôi sử dụng hai mô hình huấn luyện hệ thống dịch máy đại diện cho 2

cách tiếp cận:

1. Moses[83] đại diện cho tiếp cận dịch máy thống kê dựa vào cụm từ, với mô

hình dóng hàng từ được thiêt lập là Mgiza.

2. OpenNMT-py[36] đại diện cho tiếp cập dịch máy nơ-ron, với mạng LSTM

2 tầng[61] gồm 500 trạng thái ẩn ở cả hai phía mã hóa và giải mã.

Để huấn luyện, chúng tôi sử dụng 1.001 cặp câu song ngữ Anh-Việt để làm

tệp huấn luyện điều chỉnh (tuning) trong huấn luyện hệ thống dịch máy thống

kê Moses và cũng là tệp huấn luyện hội tụ (Validate) trong huấn luyện hệ thống

dịch máy nơ-ron OpenNMT-py.

Tệp kiểm thử chất lượng các hệ thống dịch sử dụng hệ thống NeunalTalk2

[78] để trích rút câu chú giải ảnh từ 500 tệp ảnh lấy ngẫu nhiên từ kho ngữ liệu

ảnh COCO7, 2017 ta có được 1 tệp kiểm tra gồm 500 câu chú giải ảnh bằng

tiếng Anh.

Huấn luyện các hệ thống dịch máy sử dụng Moses và OpenNMT-py trên từng

kho ngữ liệu 1 và 2, sau đó so sánh kết quả dịch máy của các hệ thống khi dịch

500 chú giải từ tiếng Anh sang tiếng việt ta thu được kết quả như trong Bảng 4.5.

Kết quả thực nghiệm cho thấy, hệ thống dịch máy nơ-ron luôn cho kết quả

7http://cocodataset.org/#download

124

dịch cao hơn hệ thống dịch máy thống kê dựa vào cụm từ. Khi bổ sung 294.665

Bảng 4.5: Điểm BLEU của các hệ thống khi dịch 500 câu chú giải ảnh từ tiếng Anh sang tiếng Việt

Kích thước kho ngữ liệu

600.000 cặp câu

894.665 cặp câu

Hệ thống

SMT

NMT

SMT

NMT

BLEU

43,74

56,58

43,70

88,96

Hình 4.6: So sánh chất lượng dịch máy với Google

cặp câu mà luận án thu thập được vào tệp huấn luyện hệ thống dịch, chất lượng

của hệ thống tăng 33, 38 điểm BLEU, từ 56, 58 lên 88, 96, điều này chứng tỏ rằng,

kho ngữ liệu song ngữ Anh-việt 294.665 của luận án là có chất lượng góp phần

nâng cao đáng kể chất lượng dịch máy Anh-Việt.

Chúng tôi sử dụng hệ thống dịch máy Google để dịch 500 câu chú giải ảnh

trong tệp kiểm tra từ tiếng Anh sang tiếng Việt và so sánh kết quả với hệ thống

NMT được huấn luyện trên kho ngữ liệu 894.665 cặp câu song ngữ Anh-Việt.

Kết quả được thể hiện trong Hình 4.6

Từ biểu đồ ở Hình 4.6 cho thấy, hệ thống dịch máy nơ-ron được huấn luyện

trên kho ngữ liệu 894.665 cặp câu song ngữ Anh-Việt dóng hàng mức câu có chất

lượng dịch câu chú giải ảnh từ tiếng Anh ra tiếng Việt tốt hơn hệ thống dịch

125

máy Google và chất lượng hệ thống dịch máy nơ-ron tăng khi kích thước kho

ngữ liệu song ngữ Anh-Việt tăng. Điều này cho thấy việc thu thập xây dựng kho

ngữ liệu song ngữ lớn nhằm cải tiến chât lượng hệ thống dịch máy là cần thiết.

Từ những thực nghiệm đánh giá về chất lượng của các hệ thống dịch máy ở

trên, chúng tôi lựa chọn hệ thống dịch máy nơ-ron Anh-Việt được huấn luyện

trên kho ngữ liệu 894.665 cặp câu để tích hợp trong hệ thống sinh chú giải tiếng

4.2.2.3 Phương pháp xử lý từ mới

Việt cho ảnh đã đề xuất ở trên.

Trong phần này, chúng tôi đề xuất phương pháp xử lý từ mới (UnP) ở bản

dịch tiếng Việt của đầu ra hệ thống dịch máy. Ý tưởng của phương pháp này

như sau: Đầu tiên, thực hiện thay thế từ mới trong câu tiếng Việt bằng từ tiếng

Anh tương ứng ban đầu, sau đó thực hiện tách từ và gán nhãn từ loại cho câu

tiếng Việt này. Cuối cùng, tìm từ tiếng Anh chưa dịch được ở bản dịch tiếng

Việt trong từ điển song ngữ Anh-Việt mà chúng tôi đã xây dựng để thay thế từ

tiếng Anh bằng từ tiếng Việt có cùng nhãn từ loại.

• W : một từ của câu S ;

• DicEV : Từ điển song ngữ Việt-Anh có nhãn từ loại.

• We: Từ tiếng Anh được gán nhãn xuất hiện trong câu tiếng Việt;

• Wv: Từ tiếng Việt là bản dịch của từ tiếng Anh We xuất hiện trong từ điển

Trong đó;

DicEV có cùng nhãn từ loại.

Phương pháp xử lý từ mới ở câu tiếng Việt của đầu ra hệ thống dịch máy

4.2.2.4 Kết quả thực nghiệm

nơ-ron Anh-Việt được thể hiện trong Giải thuật 5.

Bởi vì hệ thống sinh chú giải tiếng Việt tự động cho hình được đề xuất ở đây

126

là đầu tiên, nên không có bất kỳ cơ sở dữ liệu kiểm tra nào sẵn có để đánh giá

Giải thuật 5: Phương pháp xử lý từ mới đề xuất

Câu tiếng Việt mà có chứa từ mới (S )

Output: Câu tiếng Việt mà từ mới đã được dịch (So)

Begin

Phân_đoạn_câu(S);

Gán_nhãn_từ_loại(S);

while (not EOF(S)) do Tách W trong S;

if (W = We ) and (We Trong DicEV) then

Thay_thế(W,Wv);

So=S;

End

hệ thống. Vì vậy chúng tôi phải xây dựng một cơ sở dữ liệu kiểm tra để đánh giá

hệ thống bằng cách: lấy ra 500 ảnh từ cơ sở dữ liệu kiểm tra của COCO (2017

Test images [41K/6GB]).8 Các chú giải bằng tiếng Anh cho các hình ảnh này

được dịch thủ công ra tiếng Việt bởi chuyên gia tiếng Anh.

Các bước triển khai thực nghiệm hệ thống sinh chú giải tiếng việt cho ảnh

• Bước 1: Sử dụng hệ thống Neuraltalk2 để sinh tự động chú giải tiếng Anh

như sau:

• Bước 2: Sử dụng hệ thống NMT để dịch 500 câu chú giải thu được ở Bước

cho 500 hình của tệp kiểm tra.

• Bước 3: Sử dụng mô đun xử lý từ mới mà chúng tôi đề xuất để phát hiện

1 từ tiếng Anh sang tiếng Việt.

và xử lý các từ mới trong các câu tiếng Việt thu được ở Bước 2.

Kết quả thu được sau Bước 3 là 500 câu tiếng Việt chú giải cho 500 hình ảnh

đầu vào.

Để xác định được hiệu suất của kỹ thuật xử lý từ mới, chúng tôi đã tiến hành

8http://cocodataset.org/#download

127

thử nghiệm và so sánh kết quả thu được từ việc áp dụng kỹ thuật xử lý từ mới

với khi chưa áp dụng trên 500 câu tiếng Việt là đầu ra của hệ thống NMT. Kết

Bảng 4.6: Điểm BLEU của hệ thống dịch 500 câu chú giải ảnh từ tiếng Anh sang tiếng Việt sử dụng

kỹ thuật xử lý từ mới

Kích thước kho ngữ liệu

600.000 cặp câu

Mô hình

SMT SMT+UnP NMT NMT+UnP

BLEU

43,74

45,04

56,58

57,78

Kích thước kho ngữ liệu

894.665 cặp câu

Mô hình

SMT SMT+UnP NMT NMT+UnP

BLEU

43,70

44,80

88,96

89,76

quả so sánh được thể hiện trong Bảng 4.6.

• SMT: Hệ thống dịch máy thống kê dựa trên cụm từ.

• SMT+UnP: Hệ thống kết hợp giữa SMT và mô đun xử lý từ mới UnP.

• NMT: Hệ thống dịch máy nơ-ron Anh-Việt.

• NMT+UnP: Hệ thống kết hợp NMT và mô đun xử lý từ mới UnP.

Trong đó:

Bảng 4.6 cho thấy, kỹ thuật xử lý từ mới mà chúng tôi đề xuất cải thiện được

trung bình trên 1,3 điểm BLEU ở các hệ thống thử nghiệm. Kết quả này có thể

khẳng định, từ điển song ngữ mà luận án xây dựng được là có giá trị trong các

ứng dụng.

Bảng 4.7 cho thấy một số kết quả của hệ thống chú giải tiếng Việt cho hình

4.3 Kết luận chương

ảnh.

Như vậy, với cùng một kho ngữ liệu song ngữ được sử dụng để huấn luyện

128

hệ thống dịch máy nơ-ron. Nếu áp dụng Kỹ thuật tiền xử lý câu dài như đã

được trình bày trong mục 4.1.1 sẽ cải thiệt đáng kể chất lượng hệ thống dịch

máy. Bên cạnh đó, việc thu thập xây dựng kho ngữ liệu song ngữ Anh-Việt kích

thước lớn và có chất lượng cũng góp phần nâng cao đáng kể chất lượng của hệ

thống dịch máy. Trong thời gian tiếp theo, chúng tôi nghiên cứu tích hợp kho

ngữ liệu song ngữ từ, cụm từ được khai thác từ các văn bản đơn ngữ vào kho

ngữ liệu để huấn luyện hệ thống dịch máy và nghiên cứu đề xuất phương pháp

thu thập tự động kho ngữ liệu song ngữ Anh-Việt kích thước lớn, đa ngôn ngữ

và có chất lượng để tiếp tục cải tiến và nâng cao chất lượng của hệ thống dịch

máy Việt-Anh, Anh-Việt.

129

Công bố liên quan đến nghiên cứu này: [CT2] [CT6] [CT7]

Một người phụ nữ đứng trên vỉa hè

Một thành phố đông đúc

với đèn giao thông trên nó

Một vài con bò

đang đứng trong một cánh đồng

Một con chim nhỏ đứng trên bãi cỏ

Một người đàn ông và một người phụ nữ

ngồi trên ghế bành

Nhà bếp có bếp và tủ lạnh

Một chiếc bánh sandwich và một đĩa salad

Một con diều đang bay

trên bầu trời một ngày đầy nắng

Một người phụ nữ

nuôi con hươu cao cổ trong vườn thú

Một người đàn ông cưỡi ván

trượt xuống sườn núi

Bảng 4.7: Một số kết quả của hệ thống chú giải hình ảnh bằng tiếng Việt

130

Kết luận

Dịch máy là một lĩnh vực khó trong xử lý ngôn ngữ tự nhiên. Một trong

những yếu tố quyết định chất lượng của các hệ thống dịch máy là chất lượng

và kích thước của tài nguyên ngôn ngữ, cụ thể là các kho văn bản song ngữ có

dóng hàng và các kho từ vựng song ngữ.

Để nâng cao chất lượng các hệ thống dịch máy, hiện nay một số nghiên cứu

tập trung vào việc xây dựng kho ngữ liệu song ngữ kích thước lớn. Hướng tiếp

cận này phù hợp với các cặp ngôn ngữ có nhiều tài nguyên song ngữ. Cặp ngôn

ngữ Việt-Anh hiện nay vẫn còn hạn chế về tài nguyên song ngữ nên để xây dựng

được kho ngữ liệu song ngữ Việt-Anh có kích thước lớn là hết sức khó khăn.

Một hướng tiếp cận cũng có thể giúp nâng cao chất lượng dịch máy đó là

thích ứng miền cho các hệ thống dịch. Đi theo hướng tiếp cận này, luận án tập

trung nghiên cứu và triển khai một số phương pháp xây dựng kho ngữ liệu song

ngữ Việt-Anh theo miền có dóng hàng và các tập từ vựng song ngữ. Các thực

nghiệm trong luận án chủ yếu hướng tới ứng dụng cụ thể là nâng cao chất lượng

dịch máy Việt-Anh trong lĩnh vực du lịch và y tế. Bên cạnh việc xây dựng công

cụ và tài nguyên song ngữ Việt-Anh, luận án đã đề xuất một số kĩ thuật khai

thác kho ngữ liệu song ngữ thu thập được trong việc nâng cao chất lượng hệ

thống dịch máy. Luận án cũng đề xuất triển khai và cải tiến hệ thống dịch máy

Việt-Anh ứng dụng trong chú giải văn bản cho ảnh số.

Trong quá trình triển khai thực hiện các nghiên cứu từ định hướng đã chọn,

• Đề xuất kỹ thuật cải tiến công cụ dóng hàng XAlign cho cặp ngôn ngữ

luận án đã đạt được các kết quả sau:

Việt-Anh và chia sẻ cho cộng đồng nghiên cứu mã nguồn của công cụ cải

tiến viXAlign. Sử dụng công cụ dóng hàng này luận án đã xây dựng được

131

kho ngữ liệu song ngữ có dóng hàng câu gồm trên 20.000 cặp câu miền du

lịch và trên 270.000 cặp câu miền chung Luận án đã chứng tỏ bằng thực

nghiệm rằng việc khai thác các kho ngữ liệu này nâng cao đáng kể chất

• Đề xuất phương pháp trích rút từ và cụm từ song ngữ từ kho ngữ liệu song

lượng dịch máy theo miền du lịch và miền chung.

ngữ và kho ngữ liệu đơn ngữ. Sử dụng các phương pháp này luận án đã xây

dựng được kho ngữ liệu trên 40.000 cặp từ và cụm từ song ngữ, bao gồm:

trên 1.000 cặp cho miền du lịch; trên 600 cặp cho miền y tế; còn lại thuộc

• Đề xuất kỹ thuật tiền xử lý câu dài trong dịch máy nơ-ron cải thiện chất

miền chung.

• Triển khai một phương pháp sinh chú giải tiếng Việt tự động cho hình ảnh

lượng dịch.

dựa vào dịch máy Anh-Việt, đề xuất một kỹ thuật khai thác từ điển để xử

lý các từ mới (unknown words) nhằm nâng cao chất lượng hệ thống dịch.

Bên cạnh các kết quả đã đạt được như đã trình bày ở trên, luận án cũng cho

thấy một số những tồn tại hạn chế cần nghiên cứu khắc phục, đó là: Kho ngữ

liệu song ngữ Việt-Anh mà chúng tôi thu thập được còn hạn chế về kích thước và

hạn chế về số lượng miền; Chưa nghiên cứu được nhiều phương pháp khai thác

kho ngữ liệu song ngữ Việt-Anh hiệu quả cho dịch máy Việt-Anh, Anh-Việt.

Trong thời gian tới, bên cạnh việc nghiên cứu cải tiến hiệu năng dịch máy

thông qua việc khai thác tài nguyên đơn ngữ và song ngữ tổng quát cũng như

theo miền, vấn đề thu thập và khai thác các nguồn tài nguyên đa ngữ (nhiều hơn

một cặp ngôn ngữ) cũng đáng được quan tâm trong việc nâng cao chất lượng

dịch máy. Về mặt kĩ thuật, các vấn đề liên quan tới việc nâng cao chất lượng

biểu diễn từ và biểu diễn ngữ nghĩa đa ngữ hướng tới các hệ thống dịch máy đa

132

ngữ cũng rất cần được quan tâm nghiên cứu.

Danh mục công trình khoa học của

tác giả liên quan đến luận án

[CT1] Nguyễn Tiến Hà, Nguyễn Thị Minh Huyền, Nguyễn Minh Hải (2018),

"Xây dựng kho ngữ liệu du lịch song ngữ Việt - Anh dóng hàng mức câu cho

dịch máy", Tạp chí các công trình nghiên cứu phát triển công nghệ thông tin

và truyền thông Tập V-1, số 39, Bộ Thông tin và Truyền thông, tr. 9-16.

[CT2] Ha Nguyen Tien, Huyen Nguyen Thi Minh (2019), "Long Sentence Pre-

processing in Neural Machine Translation", In Proceedings of the 2019 IEEE-

RIVF International Conference on Computing and Communication Tech-

nologies, DOI: 10.1109/RIVF.2019.8713737, pp. 1-6.

[CT3] Nguyễn Tiến Hà, Nguyễn Thị Minh Huyền (2019), "Xây dựng tự động

từ điển Việt – Anh và ứng dụng trong lĩnh vực du lịch", Kỷ yếu Hội nghị

Quốc gia lần thứ VII về Nghiên cứu cơ bản và ứng dụng Công Nghệ thông

tin (FAIR), tr. 568-576.

[CT4] Ha Nguyen Tien, Quyen Ngo The, Huyen Nguyen Thi Minh and Linh

Ha My (2019), "Rule based English-Vietnamese bilingual terminology ex-

traction from Vietnamese documents", In Proceedings of The Tenth Interna-

tional Symposiumon Information and Communication Technology (SoICT),

133

pp. 56–62.

[CT5] Luan Nghia Pham, Ha Nguyen Tien and Vinh Van Nguyen (2019),

"Grammatical error correction for Vietnamese using Machine Translation",

In Proceedings of 16th International Conference of the Pacific Association

for Computational Linguistics (PACLING), pp. 505-512.

[CT6] Ha Nguyen Tien, Thanh-Ha Do (2020), "Generating Vietnamese Lan-

guage Caption Automatically for Scene Images", 2020 International Con-

ference on Multimedia Analysis and Pattern Recognition (MAPR), IEEE,

doi: 10.1109/MAPR49794.2020.9237773, pp.1-6.

[CT7] Ha Nguyen Tien, Thanh-Ha Do, Van-Anh Nguyen (2020), "Image Cap-

tioning in Vietnamese Language based on Deep Learning Network", Advances

in Computational Collective Intelligence, vol 1287. Springer, Cham, pp.789-

134

800.

Tài liệu tham khảo

Tiếng Việt

[1] Đinh Điền, Lý Ngọc Minh (2015), “Ứng dụng Ngữ liệu Song ngữ Anh-Việt

trong Giảng dạy Ngôn ngữ”, Hội thảo Liên ngành NNH Ứng dụng và Giảng

Tiếng Anh

dạy Ngôn ngữ, tr.559-567.

[2] Ahmet Aker, Fang Feng, and Rob Gaizauskas (2012), “Automatic bilin-

gual phrase extraction from comparable corpora”, Proceedings of The 24th

International Conference on Computational Linguistics (COLING 2012).

[3] Ajay Dubey and Vasudeva Varma (2013), “Generation of bilingual dic-

tionaries using structural properties”, Computacion y Sistemas, Vol.17,

pp. 161–168.

[4] Alberto Simões and Xavier Gómez Guinovart (2009), “Parallel corpus-

based bilingual terminology extraction”, Proceedings of the TIA.

[5] Alexander Patrick Mathews and Lexing Xie and Xuming He (2018), “Sem-

Style: Learning to Generate Stylised Image Captions using Unaligned Text”,

CoRR, abs/1805.07030, arXiv: 1805.07030, url: http://arxiv.org/

135

abs/1805.07030.

[6] Ali Farhadi and Mohsen Hejrati and Sadeghi, Mohammad Amin and Pe-

ter Young and Cyrus Rashtchian and Hockenmaier, Julia Constanze and

Forsyth, David Alexander (2010), “Every picture tells a story: Generat-

ing sentences from images”, English (US), Computer Vision, ECCV 2010

- 11th European Conference on Computer Vision, Proceedings, (PART 4),

pp. 15–29, doi: 10.1007/978-3-642-15561-1_2.

[7] Anna Fariha (2016), “Automatic image captioning using multitask learn-

ing”, 29th Conference on Neural Information Processing Systems (NIPS

2016).

[8] Anna Currey and Kenneth Heafield (2019), “Incorporating Source Syntax

into Transformer-Based Neural Machine Translation”, Proceedings of the

Fourth Conference on Machine Translation (Volume 1: Research Papers),

pp. 24–33, url: http://www.aclweb.org/anthology/W19-5203.

[9] Antonio Lagarda et al. (2009), “Statistical Post-Editing of a Rule-Based

Machine Translation System”, Proceedings of HLT/NAACL, pp. 217–220,

doi: 10.3115/1620853.1620913.

[10] Baobao Chang (2004), “Chinese-English Parallel Corpus Construction and

its Application”, Proceedings of the 18th Pacific Asia Conference on Lan-

guage, Information and Computation, pp. 283–290, doi: http : / / hdl .

handle.net/2065/583, url: https://www.aclweb.org/anthology/Y04-

1030.

[11] Baosheng Yin and Junjun Zuo and Na Ye (2012), “Long sentence parti-

tioning using top-down analysis for machine translation”, 2012 IEEE 2nd

International Conference on Cloud Computing and Intelligence Systems,

03, pp. 1425–1429.

[12] Beáta Bandmann Megyesi, Anna S˚agvall Hein, and Éva Csató Johan-

136

son ((2006)), “Building a Swedish-Turkish Parallel Corpus”, Proceedings

of the Fifth International Conference on Language Resources and Eval-

uation (LREC’06), url: http : / / www . lrec - conf . org / proceedings /

lrec2006/pdf/544_pdf.pdf.

[13] Bernard Vauquois (1968), “A survey of formal grammars and algorithms for

recognition and transformation in mechanical translation”, IFIP Congress

(2), pp. 1114–1122, url: http://dblp.uni-trier.de/db/conf/ifip/

ifip1968-2.html#Vauquois68.

[14] Caroline Lavecchia, Kamel Sma¨ili, and David Langlois (2007), “Building a

bilingual dictionary from movie subtitles based on inter-lingual triggers”,

Translating and the Computer, url: https : / / hal . inria . fr / inria -

00184421.

[15] Chooi-Ling Goh and Eiichiro Sumita (2011), “Splitting Long Input Sen-

tences for Phrase-based Statistical Machine Translation”, Proceedings of

The Association for Natural Language Processing.

[16] Chris Callison-Burch, Miles Osborne, and Philipp Koehn (2006), “Re-

evaluating the Role of Bleu in Machine Translation Research”, 11th Con-

ference of the European Chapter of the Association for Computational Lin-

guistics, url: https://www.aclweb.org/anthology/E06-1032.

[17] Chenhui Chu and Rui Wang (2018), “A Survey of Domain Adaptation for

Neural Machine Translation”, Proceedings of the 27th International Con-

ference on Computational Linguistics, pp. 1304–1319, url: https://www.

aclweb.org/anthology/C18-1111.

[18] Daniel Marcu and Daniel Wong (2002), “A Phrase-Based, Joint Probability

Model for Statistical Machine Translation”, Proceedings of the Conference

on Empirical Methods in Natural Language Processing (EMNLP), pp. 133–

137

139.

[19] Dániel Varga and Péter Halácsy and András Kornai and Nagy Viktor and

Nagy László and Németh László and Tron Viktor (2007), “Parallel corpora

for medium density languages”, Recent Advances in Natural Language Pro-

cessing IV, pp. 247–258.

[20] David Chiang (2005), “A Hierarchical Phrase-Based Model for Statisti-

cal Machine Translation”, Proceedings of the 43rd Annual Meeting of the

Association for Computational Linguistics (ACL’05), pp. 263–270, doi:

10.3115/1219840.1219873, url: https://www.aclweb.org/anthology/

P05-1033.

[21] David Tilman (1997), “Distinguishing between the Effects of Species Di-

versity and Species Composition”, Oikos, no. 1, Vol.80, 185–185.

[22] Deborah A. Coughlin (2003), “Correlating Automated and Human As-

sessments of Machine Translation Quality”, Proceedings of MT Submit

IX, pp. 63–70, url: https://www.microsoft.com/en- us/research/

publication/correlating- automated- and- human- assessments- of-

machine-translation-quality/.

[23] Deryle Lonsdale, Teruko Mitamura, and Eric Nyberg (1994), “Acquisition

of large lexicons for practical knowledge-based MT”, Machine Translation,

Vol.9 (3), pp. 251–283, issn: 1573-0573, doi: 10.1007/BF00980580, url:

https://doi.org/10.1007/BF00980580.

[24] Di Jin and Zhijing Jin and Joey Tianyi Zhou and Peter Szolovits (2020),

“Unsupervised Domain Adaptation for Neural Machine Translation with

Iterative Back Translation”, ArXiv, abs/2001.08140.

[25] Dinh Dien and Hoang Kiem (2004), “Building an Annotated English-

Vietnamese Parallel Corpus for Training Vietnamese-related NLPs”, Pro-

ceedings of the ICEIC : International Conference on Electronics, Informa-

138

tions and Communications International Conference on Electronics, Infor-

mations and Communications (ICEIC), vol. 1 2004.08, pp. 103 –109, doi:

10.15144/MKSJ-35.21.

[26] Zi-Yi Dou et al. (2019), “Unsupervised Domain Adaptation for Neural

Machine Translation with Domain-Aware Feature Embeddings”, arXiv e-

prints, arXiv:1908.10430, arXiv: 1908.10430 [cs.CL].

[27] Dzmitry Bahdanau and Kyunghyun Cho and Yoshua Bengio (2014), “Neu-

ral Machine Translation by Jointly Learning to Align and Translate”, arXiv:1409.0473[cs.CL],

arXiv: 1409.0473v7 [cs.CL].

[28] Els Lefever, Lieve Macken, and Veronique Hoste (2009), “Language-independent

Bilingual Terminology Extraction from a Multilingual Parallel Corpus”,

Proceedings of the 12th Conference of the European Chapter of the Asso-

ciation for Computational Linguistics, pp. 496–504.

[29] Fatiha Sadat (2010), “Exploiting a Multilingual Web-based Encyclopedia

for Bilingual Terminology Extraction”, Proceedings of the 24th Pacific Asia

Conference on Language, Information and Computation, pp. 519–526, url:

https://www.aclweb.org/anthology/Y10-1060.

[30] Peter F. Brown and Stephen A. Della Pietra and Vincent J. Della Pietra

and R. L. Mercer (1993), “The Mathematics of Statistical Machine Trans-

lation: Parameter Estimation”, Computational Linguistics, 19 (2), pp. 263–

311.

[31] Francisco Oliveira and Fai Wong and Iok-Sai Hong (2010), “Systematic

Processing of Long Sentences in Rule Based Portuguese-Chinese Machine

Translation”, Proceedings of The 11th International Conference, CICLing

2010.

[32] Francis Bond and Zhiqiang Chang and Kiyotaka Uchimoto (2008), “Ex-

139

tracting Bilingual Terms from Mainly Monolingual Data”, Proceedings of

the 14th Annual Meeting of The Association for Natural Language Pro-

cessing.

[33] Franz Och and Hermann Ney (2004), “The Alignment Template Approach

to Statistical Machine Translation”, Computational Linguistics, Vol.30, pp. 417–

449, doi: 10.1162/0891201042544884.

[34] Graham Neubig (2017), “Neural Machine Translation and Sequence-to-

sequence Models: A Tutorial”, CoRR, abs/1703.01619, arXiv: 1703.01619,

url: http://arxiv.org/abs/1703.01619.

[35] G. R. Tahir and S. Asghar and N. Masood (2010), “Knowledge Based

Machine Translation”, 2010 International Conference on Information and

Emerging Technologies, pp. 1–5, doi: 10.1109/ICIET.2010.5625695.

[36] Guillaume Klein and Yoon Kim and Yuntian Deng and Jean Senellart and

Alexander M. Rush (2017), “OpenNMT: Open-Source Toolkit for Neural

Machine Translation”, Proceedings of the 55th Annual Meeting of the As-

sociation for Computational Linguistics-System Demonstrations, 67–72.

[37] Suchin Gururangan et al. (2020), “Don’t Stop Pretraining: Adapt Language

Models to Domains and Tasks”, arXiv e-prints, arXiv:2004.10964, arXiv:

2004.10964 [cs.CL].

[38] Hao Fang and Saurabh Gupta and Forrest N. Iandola and Rupesh Kumar

Srivastava and Li Deng and Piotr Dollár and Jianfeng Gao and Xiaodong

He and Margaret Mitchell and John C. Platt and C. Lawrence Zitnick and

Geoffrey Zweig (2014), “From Captions to Visual Concepts and Back”,

CoRR, abs/1411.4952, arXiv: 1411.4952, url: http://arxiv.org/abs/

1411.4952.

[39] Hardik Gourisaria et al. (2019), “Generating Captions for Underwater Im-

ages Using Deep Learning Models”, Conference on Artificial Intelligence:

140

Research, Innovations and its Applications.

[40] Hendra Setiawan et al. (2005), “Phrase-Based Statistical Machine Transla-

tion: A Level of Detail Approach”, Natural Language Processing – IJCNLP

2005, ed. by Robert Dale et al., pp. 576–587.

[41] Holger Schwenk and Guillaume Wenzek and Sergey Edunov and Edouard

Grave and Armand Joulin (2019), “CCMatrix: Mining Billions of High-

Quality Parallel Sentences on the WEB”, ArXiv, abs/1911.04944.

[42] Howard Johnson et al. (2007), “Improving Translation Quality by Discard-

ing Most of the Phrasetable”, Proceedings of the 2007 Joint Conference

on Empirical Methods in Natural Language Processing and Computational

Natural Language Learning (EMNLP-CoNLL), pp. 967–975, url: https:

//www.aclweb.org/anthology/D07-1103.

[43] Al-muzaini, Huda and N., Tasniem and Hafida, Benhidour (2018), “Auto-

matic Arabic image captioning using RNN-LSTM-based language model

and CNN”, International Journal of Advanced Computer Science and Ap-

plications, Vol.9, doi: 10.14569/IJACSA.2018.090610.

[44] Jakob Uszkoreit et al. (2010), “Large Scale Parallel Document Mining for

Machine Translation”, Proceedings of the 23rd International Conference

on Computational Linguistics (Coling 2010), pp. 1101–1109, url: http:

//www.aclweb.org/anthology/C10-1124.

[45] Jean Pouget-Abadie and Dzmitry Bahdanau and Bart van Merrienboer

and Kyunghyun Cho and Yoshua Bengio (2014), “Overcoming the Curse

of Sentence Length for Neural Machine Translation using Automatic Seg-

mentation”, Proceedings of SSST-8, Eighth Workshop on Syntax, Semantics

and Structure in Statistical Translation, 78–85.

[46] Jeff Donahue and Lisa Anne Hendricks and Sergio Guadarrama and Mar-

cus Rohrbach and Subhashini Venugopalan and Kate Saenko and Trevor

141

Darrell (2014), “Long-term Recurrent Convolutional Networks for Visual

Recognition and Description”, CoRR, abs/1411.4389, arXiv: 1411.4389,

url: http://arxiv.org/abs/1411.4389.

[47] Jingshu Liu and Emmanuel Morin and Sebastián Pe˜na Saldarriaga (2018),

“Towards a unified framework for bilingual terminology extraction of single-

word and multi-word terms”, Proceedings of the 27th International Confer-

ence on Computational Linguistics (COLING), pp. 2855–2866.

[48] John Hutchins (2004), “Two Precursors of Machine Translation: Artsrouni

and Trojanskij”, International Journal of Translation, Vol.16(1), 11–31.

[49] John R. Pierce and John B. Carroll (1966), Language and Machines: Com-

puters in Translation and Linguistics, National Academy of Sciences/National

Research Council, USA.

[50] J¨org Tiedemann (2016), “OPUS - Parallel Corpora for Everyone”, English,

Baltic Journal of Modern Computing, Special Issue: Proceedings of the

19th Annual Conference of the European Association of Machine Trans-

lation (EAMT) – Projects/Products Volume: Proceeding volume, p. 384,

issn: 2255-8942.

[51] Junhua Mao and Wei Xu and Yi Yang and Jiang Wang and Alan L. Yuille

(2014), “Explain Images with Multimodal Recurrent Neural Networks”,

ArXiv, abs/1410.1090.

[52] Junjie Hu et al. (2019), “Domain Adaptation of Neural Machine Transla-

tion by Lexicon Induction”, Proceedings of the 57th Annual Meeting of the

Association for Computational Linguistics, pp. 2989–3001, doi: 10.18653/

v1/P19-1286, url: https://www.aclweb.org/anthology/P19-1286.

[53] Junjie Hu and Mengzhou Xia and Graham Neubig and Jaime G. Carbonell

(2019), “Domain Adaptation of Neural Machine Translation by Lexicon

Induction”, CoRR, abs/1906.00376, arXiv: 1906 . 00376, url: http : / /

142

arxiv.org/abs/1906.00376.

[54] Keiji Yasuda and Eiichiro Sumita (2013), “Building a Bilingual Dictionary

from a Japanese-Chinese Patent Corpus”, Proceedings of the 14th Interna-

tional Conference on Computational Linguistics and Intelligent Text Pro-

cessing - Volume 2, pp. 276–284, doi: 10.1007/978-3-642-37256-8_23,

url: http://dx.doi.org/10.1007/978-3-642-37256-8_23.

[55] Kenji Imamura and Eiichiro Sumita (2018), “Multilingual Parallel Corpus

for Global Communication Plan”, Proceedings of the Eleventh International

Conference on Language Resources and Evaluation (LREC-2018).

[56] K. Papineni and S. Roukos and T. Ward and W. J. Zhu (2002), “Bleu: a

method for automatic evaluation of machine translation”, Proc. of the 40th

Annual Meeting of the Association for Computational Linguistics (ACL),

pp. 311–318.

[57] Laurent Romary and Patrice Bonhomme (2000), “Parallel alignment of

structured documents”, Jean Véronis. Parallel Text Processing, Kluwer

Academic Publisher, pp. 233–253.

[58] Le An Ha et al. (2008), “Mutual Bilingual Terminology Extraction”, LREC

2008.

[59] Le Quang Hung and Le Anh Cuong (2010), “Extracting Parallel Texts from

the Web”, Proceeding of The Second International Conference on Knowl-

edge and Systems Engineering, doi: 10.1109/KSE.2010.14.

[60] Lieve Macken and Julia Trushkina and Lidia Rura (2007), “Dutch parallel

corpus: MT corpus and translator’s aid”, Proceedings of Machine Transla-

tion Summit XI, pp. 313–320.

[61] Luong Minh-Thang, Pham Hieu, and Christopher D. Manning (2015),

“Effective Approaches to Attention-based Neural Machine Translation”,

CoRR, abs/1508.04025, arXiv: 1508.04025, url: http://arxiv.org/

143

abs/1508.04025.

[62] Maja Popovi´c and Hermann Ney (2007), “Word Error Rates: Decomposi-

tion over Pos Classes and Applications for Error Analysis”, Proceedings of

the Second Workshop on Statistical Machine Translation, pp. 48–55, url:

http://dl.acm.org/citation.cfm?id=1626355.1626362.

[63] M. Anand Kumar and V. Dhanalakshmi and K. P. Soman and V. Sharmiladevi

(2014), “Improving the Performance of English-Tamil Statistical Machine

Translation System using Source-Side Pre-Processing”, CoRR, abs/1409.8581,

arXiv: 1409.8581, url: http://arxiv.org/abs/1409.8581.

[64] Markus Freitag, Isaac Caswell, and Scott Roy (2019), “APE at Scale and

Its Implications on MT Evaluation Biases”, Proceedings of the Fourth Con-

ference on Machine Translation (Volume 1: Research Papers), pp. 34–44,

url: http://www.aclweb.org/anthology/W19-5204.

[65] Martin Kay and Martin Roscheisen (1993), “Text-Translation Alignment”,

Computational Linguistics, Vol.19 (1), pp. 121–142, url: https://www.

aclweb.org/anthology/J93-1006.

[66] Matthew Snover and Bonnie Dorr and Richard Schwartz and Linnea Mic-

ciulla and John Makhoul (2006), “A study of translation edit rate with tar-

geted human annotation”, Proceedings of Association for Machine Trans-

lation in the Americas, pp. 223–231.

[67] Matt Post, Chris Callison-Burch, and Miles Osborne (2012), “Constructing

Parallel Corpora for Six Indian Languages via Crowdsourcing”, Proceedings

of the Seventh Workshop on Statistical Machine Translation, pp. 154–162,

url: http://oldsite.aclweb.org/anthology-new/W/W12/W12-3152.

pdf.

[68] Michel Simard and Pierre Plamondon (1998), “Bilingual sentence align-

ment: Balancing Robustness and accuracy”, Proceedings of the Conference

144

of the Association for Machine Translation in the Americas, 59–80.

[69] Miguel Gra¸ca et al. (2019), “Generalizing Back-Translation in Neural Ma-

chine Translation”, Proceedings of the Fourth Conference on Machine Trans-

lation (Volume 1: Research Papers), pp. 45–52, url: http://www.aclweb.

org/anthology/W19-5205.

[70] Mihael Arˇcan et al. (2014), “Enhancing Statistical Machine Translation

with Bilingual Terminology in a CAT Environment”, Conference: Associ-

ation for Machine Translation in the Americas (AMTA-2014), doi: 10.

13140/2.1.1019.8404.

[71] Mohammed M.Sakre and Mohammed M.Kouta and Ali M.N.Allam (May,

2016), “Automated construction of Arabic-English parallel corpus”, Arab

World English Journal (AWEJ) Special Issue on Translation, No.5.

[72] Myle Ott and Michael Auli and David Grangier and Marc’Aurelio Ranzato

(2018), “Analyzing Uncertainty in Neural Machine Translation”, ArXiv,

abs/1803.00047.

[73] M¨uller and Meinard (2007), “Dynamic Time Warping”, vol. chapter 4,

pp. 69–84.

[74] Naama Twitto, Noam Ordan, and Shuly Wintner (2015), “Statistical Ma-

chine Translation with Automatic Identification of Translationese”, Pro-

ceedings of the Tenth Workshop on Statistical Machine Translation, pp. 47–

57, url: http://aclweb.org/anthology/W15-3002.

[75] Ngo Quoc Hung and Werner Winiwarter and Bartholom¨aus Wloka (2013),

“EVBCorpus - A Multi-Layer English-Vietnamese Bilingual Corpus for

Studying Tasks in Comparative Linguistics”, Proceedings of the 11th Work-

shop on Asian Language Resources (11th ALR within the IJCNLP2013),

pp. 1–9.

[76] Ngo Quoc-Hung and Werner Winiwarter (2012), “Building an English-

145

Vietnamese Bilingual Corpus for Machine Translation”, Proceedings of the

2012 International Conference on Asian Language Processing, pp. 157–

160.

[77] Nguyen Thị Minh Huyen and Mathias Rossignol (2006), “A language-

independent method for the alignement of parallel corpora”, Proceedings

of 20th Pacific Asia Conference on Language, Information and Computa-

tion (PACLIC), pp. 223–230.

[78] Oriol Vinyals and Alexander Toshev and Samy Bengio and Dumitru Erhan

(2015), “Show and Tell: A Neural Image Caption Generator”, Proceedings

of The 2015 IEEE Conference on Computer Vision and Pattern Recogni-

tion (CVPR), doi: 10.1109/CVPR.2015.7298935, arXiv: 1411.4555v2

[cs.CV].

[79] Peter F. Brown, Jennifer C. Lai, and Robert L. Mercer (1991), “Aligning

Sentences in Parallel Corpora”, Proceedings of the 29th Annual Meeting

on Association for Computational Linguistics, 169–176, doi: 10 . 3115 /

981344.981366, url: https://doi.org/10.3115/981344.981366.

[80] Peter F. Brown et al. (1990), “A Statistical Approach to Machine Trans-

lation”, Comput. Linguist., 16 (2), pp. 79–85, issn: 0891-2017, url: http:

//dl.acm.org/citation.cfm?id=92858.92860.

[81] Pham Ngoc-Quan et al. (2019), “Improving Zero-shot Translation with

Language-Independent Constraints”, Proceedings of the Fourth Conference

on Machine Translation (Volume 1: Research Papers), pp. 13–23, url:

http://www.aclweb.org/anthology/W19-5202.

[82] Philipp Koehn (2002), “Europarl: A Multilingual Corpus for Evaluation of

Machine Translation”, Draft.

[83] Philipp Koehn (2020), Moses Statistical Machine Translation System User

Manual and Code Guide, Statistical Machine Translation, url: http://

146

www.statmt.org/moses/manual/manual.pdf.

[84] Philipp Koehn and Franz Josef Och and Daniel Marcu (2003), “Statistical

phrase-based translation”, Proceedings of HLT-NAACL 2003, pp. 127–133.

[85] Philipp Koehn and Rebecca Knowles (2017), “Six Challenges for Neural

Machine Translation”, CoRR, abs/1706.03872, arXiv: 1706.03872, url:

http://arxiv.org/abs/1706.03872.

[86] Philip Resnik (1998), “Parallel Strands: A Preliminary Investigation into

Mining the Web for Bilingual Text”, Machine Translation and the Informa-

tion Soup, ed. by David Farwell, Laurie Gerber, and Eduard Hovy, pp. 72–

82.

[87] Philip Resnik (1999), “Mining the Web for Bilingual Text”, Proceedings of

the 37th Annual Meeting of the Association for Computational Linguis-

tics, pp. 527–534, doi: 10.3115/1034678.1034757, url: https://www.

aclweb.org/anthology/P99-1068.

[88] Rob Gaizauskas et al. (2015), “Extracting bilingual terms from the Web”,

Terminology. International Journal of Theoretical and Applied Issues in

Specialized Communication, Vol.21, pp. 205–236, doi: 10.1075/term.21.

2.04gai.

[89] Rui Wang et al. (2017), “Sentence Embedding for Neural Machine Trans-

lation Domain Adaptation”, Proceedings of the 55th Annual Meeting of

the Association for Computational Linguistics (Volume 2: Short Papers),

pp. 560–566, doi: 10.18653/v1/P17-2089.

[90] Saba Amsalu (2006), “Data-driven Amharic-English Bilingual Lexicon Ac-

quisition”, Proceedings of the Fifth International Conference on Language

Resources and Evaluation (LREC’06), url: http://www.lrec-conf.org/

147

proceedings/lrec2006/pdf/666_pdf.pdf.

[91] SANJIKA HEWAVITHARANA and Stephan Vogel (2016), “Extracting

parallel phrases from comparable data for machine translation”, Natural

Language Engineering, Vol.22, pp. 549–573, doi: 10.1017/S1351324916000139.

[92] Sara Ebrahim et al. (2015), “English-Arabic Statistical Machine Trans-

lation: State of the Art”, Computational Linguistics and Intelligent Text

Processing, ed. by Alexander Gelbukh, pp. 520–533.

[93] Sergei Nirenburg et al. (2002), “Machine Translation: A Knowledge-Based

Approach”, Morgan Kaufmann Publishers Inc.340 Pine Street, Sixth Floor-

San Francisco CA United States.

[94] Shaohui Kuang and Deyi Xiong (2016), “Automatic Long Sentence Seg-

mentation for Neural Machine Translation”, Proceeding of the 24th Inter-

national Conference on Computer Processing of Oriental Languages, IC-

CPOL 2016, pp. 162–174.

[95] Shengxiang Gao et al. (2018), “A Method to Chinese-Vietnamese Bilingual

Metallurgy Term Extraction Based on a Pivot Language”, Proceedings of

the 6th CCF Conference, Big Data, pp. 3–20, doi: 10.1007/978-981-13-

2922-7_1.

[96] Shuoyang Ding, Hainan Xu, and Philipp Koehn (2019), “Saliency-driven

Word Alignment Interpretation for Neural Machine Translation”, Proceed-

ings of the Fourth Conference on Machine Translation (Volume 1: Research

Papers), pp. 1–12, url: http://www.aclweb.org/anthology/W19-5201.

[97] S. K. Jang and J.S. Chang (1997), “A Class-based Approach to Word

Alignment”, Computational Linguistics, Vol.23(2), pp. 313–343.

[98] Solomon Teferra Abate et al. (2018), “Parallel Corpora for bi-Directional

Statistical Machine Translation for Seven Ethiopian Language Pairs”, Pro-

148

ceedings of the First Workshop on Linguistic Resources for Natural Lan-

guage Processing, pp. 83–90, url: https://www.aclweb.org/anthology/

W18-3812.

[99] Stanley F. Chen (1993), “Aligning Sentences in Bilingual Corpora Using

Lexical Information”, Proceedings of the 31st Annual Meeting on Associa-

tion for Computational Linguistics, 9–16, doi: 10.3115/981574.981576,

url: https://doi.org/10.3115/981574.981576.

[100] Stephan Vogel et al. (2000), “Statistical Methods for Machine Transla-

tion”, Springer, Berlin, Heidelberg, doi: 10 . 1007 / 978 - 3 - 662 - 04230 -

4_27.

[101] Stig-Arne Gr¨onroos, Sami Virpioja, and Mikko Kurimo ((2015)), “Tuning

Phrase-Based Segmented Translation for a Morphologically Complex Tar-

get Language”, Proceedings of the Tenth Workshop on Statistical Machine

Translation, pp. 105–111, url: http : / / aclweb . org / anthology / W15 -

3010.

[102] TAN Min, DUAN Xiangyu, ZHANG Min (2019), “Neural Machine Trans-

lation Domain Adaptation Based on Domain Features”, Journal of Chinese

Information Processing, Vol.33 (7), p. 56, url: http://jcip.cipsc.org.

cn/EN/abstract/article_2798.shtml.

[103] Thomas M. Cover and Joy A. Thomas (1991), Elements of Information

Theory, New York : Wiley, c(cid:13)1991., isbn: 978-0-471-24195-9.

[104] Trieu Hai Long and Nguyen Le Minh (2017), “A Multilingual Parallel

Corpus for Improving Machine Translation on Southeast Asian Languages”,

Machine Translation Summit XVI.

[105] Trieu Hai-Long, Nguyen Phuong-Thai, and Nguyen Le-Minh (2015), “A

New Feature to Improve Moore’s Sentence Alignment Method”, VNU Jour-

149

nal of Science: Comp. Science & Com, Eng. Vol. 31. No. 1, 32–44.

[106] Van Ngoc Sang (2007), “Building Vietnamese -Jrai; Jrai - Vietnamese

dictionary”, Research project and technology, Ministry level, Vietnam.

[107] Van Ngoc Sang, Mohamad Bin Bilal Ali, Noor Dayana Abd Halim (2016),

“Building Cham - Vietnamese Electronic Dictionary”, Journal Pendidikan

Nusantara, ISSN 2289 -9375 (Print). Special Edition, No. 1, pp. 215–223.

[108] V. I. Levenshtein (1966), “Binary Codes Capable of Correcting Deletions,

Insertions and Reversals”, Soviet Physics Doklady, Vol.10, pp. 707–710.

[109] Vincent Vandeghinste et al. (2006), “METIS-II: Machine Translation for

Low Resource Languages”, Proceedings of the Fifth International Confer-

ence on Language Resources and Evaluation (LREC’06).

[110] Warren Weaver (1953), “Recent Contributions to the Mathematical The-

ory of Communication”, ETC: A Review of General Semantics, Vol.10,

No.4, pp. 261–281.

[111] Wei Yang, Jinghui Yan, and Yves Lepage (2016), “Extraction of Bilingual

Technical Terms for Chinese-Japanese Patent Translation”, Proceedings of

the NAACL Student Research Workshop, pp. 81–87, doi: 10.18653/v1/

N16-2012, url: https://www.aclweb.org/anthology/N16-2012.

[112] William A. Gale and Kenneth Ward Church (1991), “A program for Align-

ing sentences in bilingual corpora”, Proceedings of the 29th Annual Meeting

of the Association of Computational Linguistics (ACL).

[113] Wujie Zheng and Wenyu Wang and Dian Liu and Changrong Zhang and

Qinsong Zeng and Yuetang Deng and Wei Yang and Tao Xie (2018),

“Oracle-free Detection of Translation Issue for Neural Machine Transla-

tion”, CoRR, abs/1807.02340.

[114] Xabier Saralegi and I˜naki San Vicente and Antton Gurrutxaga (2008),

150

“Automatic Extraction of Bilingual Terms from Comparable Corpora in

a Popular Science Domain”, Proceeding of the Workshop on Comparable

Corpora, LREC 2008, pp. 27–32.

[115] Yasuhiro Ogawa and Makoto Nakamura and Tomohiro Ohno and Kat-

suhiko Toyama (2018), “Extraction of legal bilingual phrases from the

Japanese Official Gazette, English Edition”, Journal of Information and

Telecommunication, Vol.2 (4), pp. 359–373, doi: 10 . 1080 / 24751839 .

2017 . 1380272, eprint: https : / / doi . org / 10 . 1080 / 24751839 . 2017 .

1380272, url: https://doi.org/10.1080/24751839.2017.1380272.

[116] Yonghui Wu and Mike Schuster and Zhifeng Chen and Quoc V. Le and

Mohammad Norouzi and Wolfgang Macherey and Maxim Krikun and Yuan

Cao and Qin Gao and Klaus Macherey and Jeff Klingner and Apurva Shah

and Melvin Johnson and Xiaobing Liu and (cid:32)Lukasz Kaiser and Stephan

Gouws and Yoshikiyo Kato and Taku Kudo and Hideto Kazawa and Keith

Stevens and George Kurian and Nishant Patil and Wei Wang and Cliff

Young and Jason Smith and Jason Riesa and Alex Rudnick and Oriol

Vinyals and Greg Corrado and Macduff Hughes and Jeffrey Dean (2016),

“Google’s Neural Machine Translation System: Bridging the Gap between

Human and Machine Translation”, CoRR, abs/1609.08144, arXiv: 1609.

08144v2 [cs.CL].

[117] Yorick Wilks (1979), “MACHINE TRANSLATION AND ARTIFICIAL

INTELLIGENCE"”, Translating and the Computer, B.M. Snell (ed.)

[118] Yun-Chuang Chiao et al. (2006), “Evaluation of multilingual text align-

ment systems: the ARCADE II project”, Proceedings of the Fifth Inter-

national Conference on Language Resources and Evaluation (LREC’06),

url: http://www.lrec- conf.org/proceedings/lrec2006/pdf/506_

151

pdf.pdf.

[119] Zi-Yi Dou et al. (2019), “Domain Differential Adaptation for Neural Ma-

chine Translation”, Proceedings of the 3rd Workshop on Neural Generation

152

and Translation (WNGT 2019), pp. 59–69, doi: 10.18653/v1/D19-5606.

Phụ lục

Một số thuật ngữ sử dụng trong xây dựng kho ngữ liệu:

Kho ngữ liệu: Là tập hợp các mảnh ngôn ngữ được chọn lựa và sắp xếp

theo một số tiêu chí ngôn ngữ học rõ ràng để được sử dụng như một mẫu của

ngôn ngữ.

Kho ngữ liệu số: Là kho ngữ liệu được mã hóa theo một chuẩn nhất định

và đồng nhất để có thể khai thác cho các ứng dụng khác nhau.

Kho ngữ liệu song ngữ: Là một tập văn bản được viết bằng hai ngôn ngữ.

Kho ngữ liệu song song đa ngôn ngữ: Là một tập văn bản được viết

bằng nhiều ngôn ngữ.

• Dóng hàng mức văn bản: các văn bản trong kho ngữ liệu được ánh xạ với

Dóng hàng văn bản song ngữ:

• Dóng hàng mức đoạn: các đoạn trong hai văn bản được ánh xạ với nhau,

nhau, tài liệu này là bản dịch của tài liệu kia.

• Dóng hàng mức câu: các câu trong hai văn bản được ánh xạ với nhau, câu

một vài đoạn này sẽ là bản dịch của một vài đoạn kia.

• Dóng hàng mức cụm từ: các cụm từ trong hai văn bản được ánh xạ với

này là bản dịch của câu kia.

• Dóng hàng mức từ: các từ trong hai văn bản được ánh xạ với nhau, từ này

nhau, cụm từ này là bản dịch của cụm từ kia.

1

là bản dịch của từ kia. dóng hàng mức cụm từ là mức dóng hàng chi tiết

2

nhất trong kho ngữ liệu song ngữ.