ĐẠI HỌC QUỐC GIA NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM NGHĨA LUÂN
NGHIÊN CỨU THÍCH ỨNG MIỀN
TRONG DỊCH Y THỐNG ANH - VIỆT
Chuyên ngành: Hệ thống thông tin
số: 9480104.01
TÓM TT LUẬN ÁN TIẾN CÔNG NGHỆ THÔNG TIN
Nội 2022
Công trình được hoàn thành tại
Trường Đại học Công nghệ, Đại học Quốc Gia Nội
Người hướng dẫn khoa học:
1. TS. Nguyễn Văn Vinh
2. TS. Phạm Việt Thắng
Phản biện 1:..............................................................................
Phản biện 2:..............................................................................
Phản biện 3:..............................................................................
Luận án sẽ được bảo v trước Hội đồng cấp Đại học Quốc gia chấm luận án tiến
họp tại...............................................................................
vào hồi........giờ........ngày........tháng........năm........
thể tìm hiểu luận án tại:
- Thư viện Quốc gia Việt Nam
- Trung tâm Thông tin - Thư viện, Đại học Quốc gia Nội
MỤC LỤC
Mục lục ........................................... i
Chương 1. MỞ ĐU 1
MỞ ĐU .......................................... 1
1.1 Đặt vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Mục tiêu của luận án . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.3 Đóng góp chính của luận án . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
Chương 2. KIẾN THỨC SỞ 3
2.1 Tổng quan v dịch y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 Dịch y thống kê . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2.1 sở toán học . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2.2 hình ngôn ngữ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2.3 Dịch y thống kê dựa vào cụm từ . . . . . . . . . . . . . . . . . . . . . . 5
2.3 Dịch y mạng nơ-ron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3.1 Kiến trúc Encoder - Decoder . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3.2 Kiến trúc Transformer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.4 Đánh giá chất lượng dịch y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4.1 Đánh giá dựa vào con người . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4.2 Đánh giá tự động: BLEU . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.5 Thích ứng miền trong dịch y thống kê . . . . . . . . . . . . . . . . . . . . . . 8
2.6 Kết luận chương 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Chương 3. PHƯƠNG PHÁP TINH CHỈNH BẢNG DỊCH CỤM TỪ 9
3.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.2 Các nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.3 Phân loại văn bản . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.3.1 Entropy cực đại cho phân loại văn bản . . . . . . . . . . . . . . . . . . . . 9
3.4 Phương pháp tinh chỉnh bảng dịch cụm từ . . . . . . . . . . . . . . . . . . . . . . 10
3.4.1 Bảng dịch cụm từ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.4.2 Phương pháp tinh chỉnh bảng dịch cụm từ . . . . . . . . . . . . . . . . . 11
3.5 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.5.1 Dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.5.2 Tiền xử . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.5.3 Các thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.5.4 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.6 Kết luận chương 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Chương 4. PHƯƠNG PHÁP SINH TỰ ĐỘNG DỮ LIỆU SONG NGỮ CHO
DỊCH Y 14
4.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.2 Phương pháp dịch ngược . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.3 Phương pháp đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.4 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.4.1 Dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.4.2 Tiền xử . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
i
4.4.3 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.5 Kết luận chương 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Chương 5. CẢI TIẾN CHẤT LƯỢNG CỦA PHƯƠNG PHÁP SINH TỰ ĐỘNG
DỮ LIỆU SONG NGỮ 18
5.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5.2 Phương pháp đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5.3 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5.3.1 Dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
5.3.2 Tiền xử . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
5.3.3 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5.4 Kết luận chương 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Chương 6. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 22
6.1 Các đóng góp của luận án . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
6.2 Hướng phát triển . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
DANH MỤC CÔNG TRÌNH KHOA HỌC 23
ii
Chương 1. MỞ ĐU
1.1. Đặt vấn đề
Ngày nay, nhu cầu trao đổi thông tin giữa các quốc gia, các nền văn hóa ngày càng tăng làm
cho nhu cầu dịch thuật trở nên cần thiết. Quá trình dịch th công bởi con người cho chất lượng
cao nhưng tốc độ chậm, năng suất thấp và chi phí lớn không thể tái sử dụng. Hơn nữa, một
phiên dịch viên giỏi đến đâu cũng không thể dịch tốt được tất cả các lĩnh vực, các ngôn ngữ
khác nhau. vậy, hệ thống dịch tự động bằng y tính cần thiết để trợ giúp cho quá trình
dịch thuật.
Hiện nay nhiều sản phẩm dịch tự động được thương mại và sử dụng phổ biến như (hệ dịch
Google Translate1của Google, Bing Translator 2của Microsoft,...) và mang lại kết quả nổi bật.
Tuy nhiên, các hình dịch y thường dịch sai khi dịch các từ, cụm từ hoặc các câu thuộc
lĩnh vực, ch đề khác với ch đề của các câu được sử dụng huấn luyện hình, dụ các câu
dịch thuộc lĩnh vực thể thao nhưng các câu được sử dụng để đào tạo hình dịch y thuộc
lĩnh vực y tế. Do đó, để đạt được chất lượng dịch cao trong một lĩnh vực nhất định, chúng ta
phải điều chỉnh hình dịch y cho lĩnh vực cụ thể đó. Các nghiên cứu v thích ứng miền
trong dịch y ch yếu theo hai hướng tiếp cận chính (1) các thuật để cải tiến hình và
(2) các thuật để tăng cường, cải tiến chất lượng của dữ liệu huấn luyện.
Hiện nay, nghiên cứu v thích ứng miền trong dịch máy thống kê Anh-Việt vẫn còn một số
tồn tại, thách thức:
Thiếu tài nguyên song ngữ, chưa tận dụng được hết các dạng tài nguyên, dữ liệu song ngữ
miền hạn chế v số lượng, chất lượng.
Các nghiên cứu ch yếu áp dụng cho các cặp ngôn ngữ phổ biến, chưa nhiều nghiên cứu
cho cặp ngôn ngữ Anh-Việt.
Nhằm góp phần giải quyết các vấn đề nêu trên, nghiên cứu sinh đã chọn đề tài "Nghiên cứu
thích ứng miền trong dịch máy thống Anh-Việt".
1.2. Mục tiêu của luận án
Mục tiêu chung: đề xuất các giải pháp để cải tiến chất lượng hệ thống dịch y thống kê với
cặp ngôn ngữ Anh-Việt. Các mục tiêu cụ thể gồm:
Đề xuất được các giải pháp nâng cao chất lượng dịch theo miền của hệ dịch thống kê cho
cặp ngôn ngữ Anh–Việt;
Nghiên cứu đề xuất các phương pháp tăng cường thêm dữ liệu song ngữ để huấn luyện,
cải thiện chất lượng dịch y thống kê;
Nghiên cứu các hệ thống dịch thống kê đã như Moses, dịch y mạng nơ-ron, các
phương pháp tích hợp tri thức ngôn ngữ, đề xuất các phương pháp mới, thực nghiệm.
1https://translate.google.com/
2https://www.bing.com/translator
1