intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Dịch máy mạng neural Anh - Việt theo chủ đề

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:7

35
lượt xem
4
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết trình bày nghiên cứu một phương pháp nhằm tăng chất lượng dịch theo chủ đề với nguồn tài nguyên hạn chế. Việc chọn lọc dữ liệu giàu thông tin trước khi tinh chỉnh một mô hình sẵn có giúp đạt được độ chính xác cao hơn so với việc chọn dữ liệu nghèo thông tin, từ đó giúp tiết kiệm chi phí trong việc dịch bởi con người.

Chủ đề:
Lưu

Nội dung Text: Dịch máy mạng neural Anh - Việt theo chủ đề

  1. Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), TP. HCM, ngày 23-24/12/2021 DOI: 10.15625/vap.2021.0087 DỊCH MÁY MẠNG NEURAL ANH - VIỆT THEO CHỦ ĐỀ Hoàng Trung Chính1, Nguyễn Hồng Bửu Long1, Lương An Vinh2 Khoa Công nghệ Thông tin, Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh 1 2 Khoa Công nghệ Thông tin, Đại học Công nghệ Sài Gòn petruschinh@gmail.com, nhblong@fit.hcmus.edu.vn, vinh.luongan@stu.edu.vn TÓM TẮT: Trong những năm gần đây, dịch máy mạng neural đã và đang được áp dụng vào nhiều lĩnh vực khác nhau và đạt được nhiều thành tựu đáng kể. Trong lĩnh vực dịch máy theo chủ đề, mặc dù dịch máy mạng neural đã đạt được nhiều kết quả cao, tuy nhiên, mô hình vẫn cần được huấn luyện bởi nguồn dữ liệu được dịch bởi con người vốn tốn nhiều chi phí và thời gian. Trong bài báo này, chúng tôi nghiên cứu một phương pháp nhằm tăng chất lượng dịch theo chủ đề với nguồn tài nguyên hạn chế. Việc chọn lọc dữ liệu giàu thông tin trước khi tinh chỉnh một mô hình sẵn có giúp đạt được độ chính xác cao hơn so với việc chọn dữ liệu nghèo thông tin, từ đó giúp tiết kiệm chi phí trong việc dịch bởi con người. Cụ thể hơn, chúng tôi thử nghiệm phương pháp chọn lọc mới và đạt được kết quả tốt hơn từ 0,47 đến 2,31 điểm BLEU trong các bộ ngữ liệu Anh - Việt khác nhau. Từ khóa: Dịch máy, dịch máy mạng neural, dịch máy theo chủ đề. I. GIỚI THIỆU Dịch máy mạng neural (Neural Machine Translation - NMT) là một phương pháp dịch máy rất phổ biến trong những năm gần đây, phương pháp này để đạt được kết quả cao đòi hỏi mô hình cần được huấn luyện trên một lượng dữ liệu song ngữ rất lớn. Chất lượng của bản dịch phụ thuộc rất nhiều vào chất lượng của nguồn dữ liệu huấn luyện thông thường được dịch bởi con người. Việc tìm nguồn dữ liệu song ngữ vốn đã khó với các chủ đề mang tính phổ thông như tin tức, báo chí,… nhưng trong nhiều chủ đề chuyên môn khác, nguồn dữ liệu lại càng khan hiếm đòi hỏi chi phí rất lớn cho việc xây dựng bộ ngữ liệu chất lượng cao. Nhằm giảm bớt chi phí cũng như tăng hiệu quả của các mô hình dịch máy trong các chủ đề đặc thù, một trong những phương pháp phổ biến thường được sử dụng là tinh chỉnh (fine-tune) [1], [2] một mô hình tiền huấn luyện bằng một lượng nhỏ dữ liệu thuộc chủ đề đặc thù. Ví dụ chúng ta có một mô hình dịch máy được huấn luyện từ một triệu cặp câu song ngữ thuộc chủ đề tin tức. Mô hình này sẽ đạt được kết quả rất cao nếu câu cần dịch (input) thuộc cùng chủ đề tin tức, nhưng kết quả có thể rất thấp nếu thuộc một chủ đề đặc thù nào khác như Pháp luật (vốn đã không được huấn luyện trước đó). Do điều kiện hạn chế về tài nguyên (thời gian, tiền bạc,…) nên không có nhiều dữ liệu về các chủ đề đặc thù trên, do đó phương án tinh chỉnh lại mô hình dịch máy chủ đề tin tức bằng một lượng nhỏ dữ liệu thuộc chủ đề khác (ví dụ: Pháp luật) dễ thực thi hơn do có chi phí thấp hơn. Câu hỏi được đặt ra: vậy lượng nhỏ dữ liệu để tinh chỉnh nên được lựa chọn như thế nào để mô hình đạt được kết quả tốt nhất? Trong bài báo này chúng tôi sẽ trình bày một phương pháp nhằm chọn lọc dữ liệu giàu thông tin để tinh chỉnh mô hình dịch máy sẵn có. Chúng tôi thử nghiệm trên cặp ngôn ngữ Anh - Việt của chủ đề Pháp luật và Biến đổi khí hậu. Kết quả cho thấy phương pháp này có thể thực hiện được với chi phí thấp, hiệu quả cải thiện với chất lượng bản dịch tăng 0,47 đến 2,31 điểm BLEU [3]. Bài báo được trình bày với cấu trúc: Phần I giới thiệu chung. Phần II giới thiệu các nghiên cứu liên quan. Trong phần III chúng tôi trình bày phương pháp đề xuất. Phần IV trình bày các thử nghiệm và kết quả. Kết luận và hướng phát triển được tóm tắt trong phần V. II. CÁC NGHIÊN CỨU LIÊN QUAN Trước đây, các nghiên cứu về dịch máy theo chủ đề [4], [5], [6] được thực hiện bằng phương pháp dịch máy thống kê (Statistical Machine Translation - SMT). Trong những năm gần đây, với sự trỗi dậy của phương pháp dịch máy mạng neural, rất nhiều nghiên cứu [7], [8], [9], [10] chỉ ra rằng dịch máy mạng neural đạt được kết quả tối ưu trong nhiều nhiệm vụ liên quan đến dịch thuật. Có khá nhiều bài báo nghiên cứu về đề tài dịch máy mạng neural theo chủ đề. Nghiên cứu [11] đưa ra một phương pháp nhằm chọn ra những cặp câu song ngữ có nội dung gần với chủ đề mong muốn, sau đó tiến hành huấn luyện trên dữ liệu đó. Cách làm này tương đối đơn giản để có được mô hình nhưng đòi hỏi phải huấn luyện từ đầu, không có sự kế thừa từ những mô hình sẵn có. Nhóm tác giả [1] trình bày một phương pháp mang tên “mixed fine tuning” (kết hợp giữa fine tuning và multi domain). Nhóm đã huấn luyện mô hình bằng dữ liệu thuộc lĩnh vực đặc thù và tinh chỉnh mô hình bằng dữ liệu được trộn từ lĩnh vực đặc thù và lĩnh vực khác, để rồi giải quyết được vấn đề quá khớp (over-fitting) trong việc tinh chỉnh. Công bố [12] đề xuất một phương án nhằm chọn lựa dữ liệu giàu thông tin trong lĩnh vực đặc thù nhằm tinh chỉnh mô hình của lĩnh vực khác đã được huấn luyện trước đó. Kết quả chứng minh rằng việc lựa chọn dữ liệu giàu thông tin giúp mô hình đạt được kết quả tốt hơn so với việc chọn lựa dữ liệu một cách ngẫu nhiên.
  2. Hoàng Trung Chính, Nguyễn Hồng Bửu Long, Lương An Vinh 441 Các nghiên cứu trên đa phần áp dụng với những cặp ngôn ngữ phổ biến như Anh - Pháp, Anh - Nhật, Đức - Anh,… Gần đây nhóm tác giả [13] đã trình bày một phương pháp nhằm áp dụng dịch máy mạng neural theo chủ đề với cặp ngôn ngữ Anh - Việt. Nhóm đã dịch các câu tiếng Anh (input) từ miền đặc thù sang các câu tiếng Việt (output) bằng một mô hình được huấn luyện với dữ liệu trong lĩnh vực tổng quan, sau đó input và output được huấn luyện nhằm tạo ra một mô hình có khả năng dịch theo chủ đề đặc thù. Phương pháp này dễ thực hiện, không cần nguồn dữ liệu song ngữ trong lĩnh vực đặc thù nhưng có khả năng đạt kết quả không cao khi các lĩnh vực có sự khác biệt từ vựng quá lớn. III. PHƯƠNG PHÁP ĐỀ XUẤT A. Tổng quan dịch máy mạng neural Cấu trúc một hệ dịch máy mạng neural gồm 2 phần: • Encoder (Mã hóa): nhận thông tin từ câu cần dịch rồi trả về một chuỗi số đại diện (vector). • Decoder (Giải mã): xử lý vector đầu vào và trả về bản dịch của ngôn ngữ đích. Quá trình encoder - decoder được minh họa ở Hình 1. 0.5 0.2 I love cat Encoder -0.1 Decoder Tôi yêu mèo -0.3 0.4 12 Hình 1. Kiến trúc Encoder-Decoder Không giống như phương pháp dịch máy thống kê: tách từng từ hoặc cụm từ, dịch máy mạng neural sử dụng toàn bộ câu khi dịch, do đó lấy được những thông tin liên quan giữa các từ với nhau như loại từ, trật tự từ,… vốn là những đặc trưng của từng ngôn ngữ. Bộ mã hóa và giải mã có thể lựa chọn nhiều kiến trúc mô hình khác nhau, mô hình phổ biến hiện nay được nhiều người sử dụng là kiến trúc Transformer [14]. Tôi yêu mèo Softmax Linear Decoder … Encoder Decoder … Add & Norm Encoder Feedforward Add & Norm Add & Norm Feedforward Multi-Head Attention Add & Norm Add & Norm Multi-Head Attention Masked Multi-Head Positional Encoding Positional Encoding Embedding Embedding I love cat Tôi yêu Hình 2. Kiến trúc mô hình Transformer
  3. 442 DỊCH MÁY MẠNG NEURAL ANH – VIỆT THEO CHỦ ĐỀ B. Tổng quan phương pháp nhúng câu Nhúng câu (Sentence Embeding) là một kỹ thuật cho phép biểu thị toàn bộ câu và thông tin ngữ nghĩa của chúng dưới dạng vector. Điều này giúp máy hiểu ngữ cảnh và các sắc thái khác nhau trong văn bản. Có nhiều phương pháp nhúng câu: sử dụng các phép toán trên vector và ma trận như nghiên cứu [15], [16], [17]; sử dụng mạng neural hồi quy RNN như [18], [19]. Nghiên cứu [20] trình bày về một phương pháp nhúng câu đơn giản mang tên SIF. SIF sử dụng một mô hình có sẵn để ánh xạ câu cần dịch thành các các vector, sau đó tinh chỉnh các vector đó bằng các trọng số lấy từ một kho ngữ liệu không gán nhãn, cuối cùng điều chỉnh chúng với PCA/SVD. Bằng cách đơn giản này, SIF tạo ra các vector từ các mô hình có sẵn một cách nhanh chóng. SBERT (Sentence-BERT) [21] là một phương pháp nhúng câu được tạo ra bằng cách tinh chỉnh mô hình BERT. Để làm điều đó, kiến trúc mạng siamese và triplet được sử dụng nhằm nhằm cập nhật các trọng số của BERT, từ đó tạo ra các vector có ý nghĩa về mặt ngữ nghĩa (những câu có ngữ nghĩa gần nhau sẽ có vector tương ứng gần nhau trong không gian vector). Cả SIF và SBERT đều được chúng tôi sử dụng cho quá trình nhúng câu trong bài báo này. C. Phương pháp đề xuất Nhóm chúng tôi trình bày một phương pháp kế thừa từ [12], áp dụng với cặp ngôn ngữ Anh - Việt. Phương pháp này mô tả như Hình 3, gồm các giai đoạn: Giai đoạn 1: Huấn luyện mô hình tổng quan. Chúng tôi sử dụng một lượng lớn dữ liệu thuộc chủ đề tổng quan để huấn luyện mô hình dịch máy mạng neural, thu được một mô hình (gọi là mô hình tổng quan). Giai đoạn 2: Chọn lọc dữ liệu tinh chỉnh. Đặt giả thiết chúng tôi có sẵn một bộ ngữ liệu đơn ngữ thuộc chủ đề đặc thù, các ngữ liệu này được chọn lọc rồi được dịch sang ngôn ngữ đích bởi con người. Việc chọn lọc là cần thiết bởi vì chi phí để thuê người dịch rất lớn, không thể dịch tất cả câu trong bộ ngữ liệu mà phải chọn lọc ưu tiên để dịch những câu giàu thông tin. Giai đoạn 3: Tinh chỉnh. Dữ liệu thu được trong giai đoạn 2 được dùng để tinh chỉnh mô hình tổng quan, kết quả thu về mô hình đặc thù. Mô hình này cho phép dịch các văn bản thuộc chủ đề đặc thù đạt được chất lượng cao hơn so với mô hình tổng quan. Ngữ liệu song ngữ Ngữ liệu đơn ngữ Chủ đề tổng quan Chủ đề đặc thù 0 0 0 0 0 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑠𝑠𝑑𝑑𝑑𝑑𝑑𝑑 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑠𝑠𝑑𝑑𝑑𝑑𝑑𝑑 ∶ ∶ Dịch bởi ∶ ∶ ∶ con người ∶ ∶ ∶ ∶ ∶ 𝑛𝑛 𝑛𝑛 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑠𝑠𝑑𝑑𝑑𝑑𝑑𝑑 𝑚𝑚 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑚𝑚−𝑗𝑗 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑚𝑚−𝑗𝑗 𝑠𝑠𝑑𝑑𝑑𝑑𝑑𝑑 Chọn lọc Huấn luyện Tinh chỉnh Mô hình Mô hình tổng quan đặc thù Hình 3. Minh họa phương pháp đề xuất Trong [12], nhóm tác giả đã chứng minh được việc chọn lọc dữ liệu tinh chỉnh (giai đoạn 2) giúp đạt được mô hình tốt hơn so với chọn lọc ngẫu nhiên. Vậy nên bài báo này chúng tôi sẽ không đề cập đến chọn lọc ngẫu nhiên, thay vào đó sẽ so sánh phương pháp chọn lọc chúng tôi đề xuất với phương pháp của tác giả. Cụ thể hơn, chúng tôi sử dụng SBERT 1 cho quá trình nhúng câu và so sánh kết quả đạt được với công cụ SIF 2 mà tác giả đã trình bày. 0F 1F 1 https://github.com/UKPLab/sentence-transformers
  4. Hoàng Trung Chính, Nguyễn Hồng Bửu Long, Lương An Vinh 443 Tuy cùng thử nghiệm trên cặp ngôn ngữ Anh - Việt nhưng hướng tiếp cận của chúng tôi và [13] hoàn toàn khác. Nghiên cứu [13] chỉ sử dụng ngữ liệu đơn ngữ để tinh chỉnh mô hình, trong khi đó chúng tôi lựa chọn ngữ liệu song ngữ giàu thông tin cho quá trình tinh chỉnh. IV. THỰC NGHIỆM VÀ KẾT QUẢ A. Dữ liệu Chúng tôi sử dụng bộ ngữ liệu TED thuộc chủ đề tin tức làm ngữ liệu cho chủ đề tổng quan. Bộ ngữ liệu TED được cung cấp bởi CLC 3 là tổng hợp những bài diễn thuyết trên https://www.ted.com. Với chủ đề đặc thù chúng tôi 2F chọn hai bộ ngữ liệu thuộc hai chủ đề Pháp luật (Law) và Biến đổi khí hậu (Climate). Hai bộ ngữ liệu này được chúng tôi xây dựng thủ công từ https://sachsongngu.top. Cả 3 bộ ngữ liệu chúng tôi đều không sử dụng phân đoạn từ Tiếng Việt. Chi tiết thống kê các bộ ngữ liệu được liệt kê trong Bảng 1. Bảng 1. Thống kê các bộ ngữ liệu SỐ TỪ TRUNG BÌNH CÂU 4 SỐ CẶP CÂU CHỦ ĐỀ 3F Tiếng Anh Tiếng Việt TED 82,899 19.6 23.6 Tin tức (chủ đề tổng quan) Law 17,000 22.1 28.6 Pháp luật (chủ đề đặc thù) Climate 400 21.8 30.4 Biến đổi khí hậu (chủ đề đặc thù) Với bộ ngữ liệu TED, chúng tôi chia làm 3 phần với tỉ lệ 8:1:1. Phần để huấn luyện chiếm 80%, 10% cho việc thẩm định (validation), còn lại cho việc kiểm thử (test). Do số cặp câu của hai bộ ngữ liệu Law và Climate khác nhau, vậy nên để công bằng: chúng tôi lấy ngẫu nhiên 400 cặp câu của 2 chủ đề (400 là số cặp câu tối đa bộ ngữ liệu Climate cho phép), sau đó chia theo tỉ lệ 8:2 với 80% cho việc tinh chỉnh, 20% để kiểm thử. B. Thực nghiệm Để huấn luyện và tinh chỉnh các mô hình, chúng tôi sử dụng công cụ OpenNMT 5 [22]. Đây là công cụ mã 4F nguồn mở được rất nhiều các nghiên cứu sử dụng. Mô hình của chúng tôi sử dụng kiến trúc transformer cho cả bộ mã hóa và giải mã. Chi tiết các tham số được liệt kê trong Bảng 2. Bảng 2. Các tham số huấn luyện/tinh chỉnh mô hình THAM SỐ GIÁ TRỊ Layers 6 Heads 8 Learning rate 2 Size of hidden transformer feed-forward 2014 Size of word embedding 512 Batch size 4096 Size of rnn hidden states 512 Word embedding size for src and tgt 512 Dropout 0,1 Maximum batches of words in a sequence to run the generator on in parallel 2 Batch type tokens Normalization method of the gradient tokens Accumulate count 2 Optimization method adam [23] The beta2 parameter used by Adam 0,998 Decay method noam Number of training steps 30000 Toàn bộ quá trình được thực hiện qua 2 giai đoạn: 2 https://github.com/PrincetonML/SIF. 3 Trung tâm Ngôn ngữ học Tính Toán, Trường Đại học Khoa học Tự nhiên Tp.HCM. 4 Ranh giới từ là khoảng trắng giữa các từ. 5 https://opennmt.net.
  5. 444 DỊCH MÁY MẠNG NEURAL ANH – VIỆT THEO CHỦ ĐỀ Giai đoạn 1: Huấn luyện mô hình tổng quan với các tham số trong Bảng 2. Việc huấn luyện được thực hiện bằng NVPA P100 GPU của Google Colab 6. 5F Giai đoạn 2: Chọn lọc dữ liệu tinh chỉnh: Chúng tôi sử dụng lại phương pháp chọn lọc của [12] gồm các bước: - Bước 1: Thực hiện nhúng câu với cả 3 bộ ngữ liệu. Ngoài việc sử dụng công cụ SIF như bài báo gốc, chúng tôi cũng thử nghiệm thêm với SBERT. Với công cụ SIF, mô hình tiền huấn luyện được sử dụng là glove.6B 7, 6F trọng số đếm từ (word count) được lấy từ những bài báo trong bộ ngữ liệu của Wikipedia 8. Với SBERT, 7F chúng tôi sử dụng mô hình tiền huấn luyện stsb-bert-large. - Bước 2: Tính độ tương đồng. Với bộ ngữ liệu thuộc chủ đề tổng quan, chúng tôi tính vector trung bình của tất cả dữ liệu (𝑒𝑠𝑠𝑒𝑓 ), sau đó tính độ tương đồng cosine 𝑒𝑠𝑠𝑒𝑓 với tất cả các câu (𝑠𝑠𝑖 ) của cả 3 bộ ngữ liệu. 𝑠𝑠𝑖 ∙ 𝑒𝑠𝑠𝑒𝑓 Độ tương đồng cosine�𝑠𝑠𝑖 , 𝑒𝑠𝑠𝑒𝑓 � = ‖𝑠𝑠𝑖 ‖ × �𝑒𝑠𝑠𝑒𝑓 � Kết quả phân bố dữ liệu sau khi tính độ tương đồng được biểu diễn trong Hình 4. - Bước 3: Chọn lọc dữ liệu. Tìm ngưỡng 25% và 75% dựa vào sự phân bố của bộ ngữ liệu tổng quan. Sau đó, ứng với mỗi bộ ngữ liệu: chọn ra những câu dưới ngưỡng 25% và trên 75%. Sự lựa chọn này tương đương với việc chọn ra những câu có độ tương đồng gần nhất và xa nhất so với những câu thuộc chủ đề tổng quan. Sau khi lựa chọn, số lượng các câu còn lại được thống kê trong Bảng 3. Hình 4. Ước tính mật độ hạt nhân cho sự phân bố độ tương đồng Cosine giữa các bộ ngữ liệu và eref. Hai đường kẻ nét đứt màu xanh thể hiện tỉ lệ 25% và 75% của phân bố chủ đề tổng quan (TED). Hình bên trái sử dụng SIF, bên phải sử dụng SBERT. SIF tạo ra sự phân bố trong [-1, 1] trong khi các giá trị của SBERT đều thuộc [0, 1] Bảng 3. Thống kê số lượng cặp câu trước và sau khi chọn lọc TRƯỚC KHI SAU KHI TỈ LỆ % CHỌN LỌC CHỌN LỌC (B) (B/A) (A) SIF SBERT SIF SBERT Law 320 118 117 36.8 % 36.6 % Climate 320 120 191 37.5 % 59.7 % Giai đoạn 3: Tinh chỉnh mô hình với những tham số của giai đoạn huấn luyện (giai đoạn 1). C. Kết quả Kết quả thử nghiệm của chúng tôi (Hình 5) chứng tỏ việc lựa chọn dữ liệu bằng SBERT tốt hơn so với SIF. Cụ thể, đối với bộ ngữ liệu Law: SBERT chỉ kém hơn SIF tại 3 điểm là 5 epoch/100 câu, 10 epoch/50 câu và 15 epoch/50 câu, 9 điểm còn lại SBERT đều chứng tỏ vượt trội hơn, trung bình SBERT tăng hơn 0,47 điểm BLEU so với SIF. Với bộ ngữ liệu Climate: Ngoại trừ 2 điểm 5 epoch/50 câu, 20 epoch/100 câu của 2 phương pháp xấp sỉ ngang bằng nhau, tất cả các điểm còn lại của SBERT đều cao hơn, trung bình SBERT tăng 2,31 điểm BLEU so với SIF. 6 https://colab.research.google.com 7 http://downloads.cs.stanford.edu/nlp/data/glove.6B.zip 8 https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles10.xml-p4045403p5399366.bz2
  6. Hoàng Trung Chính, Nguyễn Hồng Bửu Long, Lương An Vinh 445 Hình 5. Điểm BLEU của hai phương pháp sử dụng SIF và SBERT ứng với hai bộ ngữ liệu Law và Climate Trong cả 2 bộ ngữ liệu, điểm BLEU trung bình của mỗi epoch của SBERT đều cao hơn so với SIF. Chi tiết được thống kê trong Bảng 4. Bảng 4. Trung bình điểm BLEU TRUNG BÌNH EPOCH TRUNG BÌNH 5 10 15 20 SIF SBERT SIF SBERT SIF SBERT SIF SBERT SIF SBERT Law 4.35 4.6 3.37 3.65 1.25 1.57 1.09 2.12 2.51 2.98 Climate 13.37 13.83 10.40 13.44 4.16 7.05 5.13 7.95 8.26 10.57 V. KẾT LUẬN Trong bài báo này, chúng tôi sử dụng dịch máy mạng neural vào trong việc dịch theo chủ đề. Bằng cách cải tiến phương pháp sẵn có, chúng tôi chọn lựa dữ liệu giàu thông tin cho việc tinh chỉnh mô hình chủ đề tổng quan để có được mô hình chủ đề đặc thù. Qua các thí nghiệm, chúng tôi đạt được những cải thiện rõ rệt về chất lượng kết quả dịch máy mạng neural theo chủ đề. Trong tương lai, chúng tôi sẽ tiếp tục nghiên cứu để thử nghiệm với chiều dịch Việt - Anh, cũng như mở rộng với những chủ đề khác như chính trị, tôn giáo,… Chúng tôi sẽ bổ sung ngữ cảnh của câu cần dịch để tăng cường chất lượng bản dịch. Ngoài ra chúng tôi cũng sẽ khảo sát thêm về các ngưỡng phân bố dữ liệu khác (10%, 20%, 80%, 90%), thử nghiệm với số lượng epoch lớn hơn, từ đó rút ra mối tương quan giữa điểm BLEU và ngưỡng phân bố, số lượng epoch, chủ đề của dữ liệu. TÀI LIỆU THAM KHẢO [1] Chenhui Chu, Raj Dabre, Sadao Kurohashi, “An empirical comparison of domain adaptation methods for neural machine translation”, Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), 2017. [2] Haoran Xu, Seth Ebner, Mahsa Yarmohammadi, Aaron Steven White, Benjamin Van Durme, Kenton Murray, “Gradual Fine- Tuning for Low-Resource Domain Adaptation”, 2021.
  7. 446 DỊCH MÁY MẠNG NEURAL ANH – VIỆT THEO CHỦ ĐỀ [3] Kishore Papineni, Salim Roukos, Todd Ward, WeiJing Zhu, “BLEU: A method for automatic evaluation of machine translation”, Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, Philadelphia, 2002. [4] Philipp Koehn, Josh Schroeder, “Experiments in domain adaptation for statistical machine translation”, StatMT '07: Proceedings of the Second Workshop on Statistical Machine Translation, 2007. [5] Nicola Ueffing, Gholamreza Haffari, Anoop Sarkar, “Semi-supervised model adaptation for statistical machine translation”, 2008. [6] Nicola Bertoldi, Marcello Federico, “Domain adaptation for statistical machine translation with monolingual resources”, 2009. [7] Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio, “Neural machine translation by jointly learning to align and translate”, 2014. [8] Sébastien Jean, Kyunghyun Cho, Roland Memisevic, Yoshua Bengio, “On using very large target vocabulary for neural machine translation”, 2014. [9] Zhaopeng Tu, Zhengdong Lu, Yang Liu, Xiaohua Liu, Hang Li, “Modeling coverage for neural machine translation”, 2016. [10] Haitao Mi, Zhiguo Wang, Abe Ittycheriah, “Vocabulary manipulation for neural machine translation”, in Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), Berlin, Germany, 2016. [11] Rui Wang, Andrew Finch, Masao Utiyama, Eiichiro Sumita, “Sentence embedding for neural machine translation domain adaptation”, vol. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), p. 560-566, 2017. [12] Marimuthu Kalimuthu, Michael Barz, Daniel Sonntag, “Incremental domain adaptation for neural machine translation in low- resource settings”, Proceedings of the 4th Arabic Natural Language Processing Workshop, 2019. [13] Phạm Nghĩa Luân, Nguyễn Văn Vinh, Nguyễn Huy Hoàng, “Thích ứng miền trong dịch máy nơron cho cặp ngôn ngữ Anh- Việt”, Kỷ yếu Hội nghị Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công Nghệ thông tin (FAIR), 2019. [14] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin, “Attention is all you need”, 2017. [15] Yoshua Bengio, Rejean Ducharme, Pascal Vincent, and Christian Jauvin, “A neural probabilistic language model”, Journal of Machine Learning Research, 2003. [16] Jeff Mitchell and Mirella Lapata, “Vector-based models of semantic composition”, Association for Computational Linguistics, 2018. [17] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S. Corrado, and Jeff Dean, “Distributed representations of words and phrases and their compositionality”, Advances in Neural Information Processing Systems, 2013. [18] Richard Socher, Eric H Huang, Jeffrey Pennin, Christopher D Manning, and Andrew Y Ng, “Dynamic pooling and unfolding recursive autoencoders for paraphrase detection”, Advances in Neural Information Processing Systems, 2011. [19] Richard Socher, Andrej Karpathy, Quoc V Le, Christopher D Manning, and Andrew Y Ng, “Grounded compositional semantics for finding and describing images with sentences”, Transactions of the Association for Computational Linguistics, 2014. [20] Sanjeev Arora, Yingyu Liang, Tengyu Ma, “A simple but tough-to-beat baseline for sentence embeddings”, ICLR, 2017. [21] Nils Reimers, Iryna Gurevych, “Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks”, Conference on Empirical Methods in Natural Language Processing and 9th International Joint Conference on Natural Language Processing, Hong Kong, China, 2019. [22] Guillaume Klein, Yoon Kim, Yuntian Deng, Jean Senellart, Alexander M. Rush, “OpenNMT: open-source toolkit for neural machine translation”, 2017. [23] Diederik P. Kingma, Jimmy Lei Ba, “Adam: A method for stochastic optimization”, 2015. DOMAIN ADAPTATION FOR ENGLISH - VIETNAMESE NEURAL MACHINE TRANSLATION Hoang Trung Chinh, Nguyen Hong Buu Long, Luong An Vinh ABSTRACT: In recent years, neural machine translation has been applied in many different fields and has achieved many remarkable achievements. In domain adaptation, although neural machine translation has achieved many results, the model still needs to be trained by the human-translated data source which is expensive and time-consuming. In this paper, we study a method to increase the quality of domain translation with limited resources. Selecting information-rich data before fine-tuning a pretrained model achieves higher accuracy than selecting information-poor data, which in turn saves costs in manual translation. More specifically, we tested the new selection method and got better results from 0.47 to 2.31 BLEU score in English - Vietnamese corpus.
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2