Dóng hàng tự động mức từ cho song ngữ Anh - Việt sử dụng cách tiếp cận học sâu

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:8

Thêm vào BST

Báo xấu

24
lượt xem 2
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Nghiên cứu đề suất hướng tiếp cận học sâu cho bài “Dóng hàng tự động ở mức từ” ở cặp song ngữ Việt - Anh. Kết quả nghiên cứu là mô hình được huấn luyện trên bộ ngữ liệu song ngữ Việt - Anh 10.000 cặp cậu được dóng hàng thủ công.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Dóng hàng tự động mức từ cho song ngữ Anh - Việt sử dụng cách tiếp cận học sâu

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), TP. HCM, ngày 23-24/12/2021 DOI: 10.15625/vap.2021.0094 DÓNG HÀNG TỰ ĐỘNG MỨC TỪ CHO SONG NGỮ ANH - VIỆT SỬ DỤNG CÁCH TIẾP CẬN HỌC SÂU Lê Hoài Bảo1, Trịnh Vũ Minh Hùng1, Hoàng Khuê1, Lê Thanh Tùng2 1 Khoa Công nghệ thông tin, Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh 2 Công an tỉnh Quảng Bình 1712049@student.hcmus.edu.vn, 17l2005@student.hcmus.edu.vn, hkhue@mso.hcmus.edu.vn, tungleqb@gmail.com TÓM TẮT: Ngày nay với lượng dữ liệu ngôn ngữ (text, voice) khổng lồ từ internet, đặt ra nhiều bài toán về Xử lý ngôn ngữ tự nhiên. Trong đó “Dóng hàng tự động ở mức từ”cho cặp song ngữ. Nó là một trong những bài toán cơ bản, ảnh hưởng trực tiếp đến độ chính xác cũng như hiệu quả, là đầu vào cho các bài toán còn lại như: “Dịch máy tự động; tóm tắt văn bản; gán nhãn từ loại” của các bài toán khác. Tuy nhiên các hướng nghiên cứu “Dóng hàng tự động ở mức từ”cho cặp song ngữ Việt - Anh hầu như không có đột phá nào ngoài sử dụng các thành tựu của máy học thống kê (mô hình IBM model 1-5, và mô hình HMM) có nhiều hạn chế khi áp dụng trong nghiên cứu ngôn ngữ học. Do đó nhóm nghiên cứu đề suất hướng tiếp cận học sâu cho bài “Dóng hàng tự động ở mức từ” ở cặp song ngữ Việt - Anh. Kết quả nghiên cứu là mô hình được huấn luyện trên bộ ngữ liệu song ngữ Việt - Anh 10.000 cặp cậu được dóng hàng thủ công. Chúng tôi hi vọng với mô hình đề xuất sẽ giúp ích cho những nhà ngôn ngữ học cũng có thể dễ dàng sử dụng “học sâu” khi nghiên cứu các đề tài liên quan đến ngôn ngữ học đối chiếu. Từ khóa: Deep learning, Word alignment, Parallel corpus, Web application. I. GIỚI THIỆU Bài toán “Dóng hàng mức từ” cho các cặp song ngữ đang được rất nhiều nhóm nghiên cứu trên thế giới thực hiện. Tuy nhiên, hầu hết các nhóm đều dựa trên cách tiếp cận thống kê với nền tảng là mô hình IBM1-5 và HMM. Gần đây Deep Learning đã được áp dụng rất nhiều vào các bài toán Xử lý ngôn ngữ tự nhiên và cho ra kết quả rất cao, ví dụ như áp dụng mô hình hồi quy Recurrent Neural Network cho bài toán dóng hàng được công bố bởi Tamura, Akihiro và các cộng sự [1]. Tại Việt Nam, bài toán dóng hàng mức từ cho cặp song ngữ Anh - Việt theo cách tiếp cận học sâu chưa được thực hiện. Hầu như để thực hiện nhiệm vụ dóng hàng cho cặp song ngữ bất kì, các nhóm nghiên cứu tại Việt Nam thường sử dụng Giza++ để giải quyết vấn đề trên. Tuy nhiên, Giza++ không cho kết quả cao với bộ ngữ liệu nhỏ (căn cứ vào kết quả thực nghiệm ở Phần IV mục A). Nhận thấy được sự thiếu sót và tầm quan trọng của bài toán được nêu trên, chúng tôi quyết định nghiên cứu mô hình “Dóng hàng tự động mức từ cho cặp song ngữ Anh-Việt theo cách tiếp cận học sâu”. Và công bố bộ ngữ liệu vàng cho cặp song ngữ Anh-Việt bao gồm 10000 cặp câu đã được dóng hàng mức từ. Trong phạm vi bài báo, chúng tôi đề xuất một hướng tiếp cận mới cho bài toán Dóng hàng mức từ cho cặp ngôn ngữ Anh - Việt. Mà ở đó độ chính xác sẽ vượt trội so với các công bố trước đó khi sử dụng các phương pháp thống kê cổ điển. Cấu trúc mô hình:  Dữ liệu đầu vào: một cặp câu song ngữ Anh - Việt, với một câu là ngôn ngữ nguồn và một câu là ngôn ngữ đích.  Dữ liệu đầu ra là cặp câu song ngữ Anh - Việt đã được đánh chỉ số dóng hàng mức từ. Giả sử ta có cặp câu sau, với là các bản dịch của nhau trong đó: , - là danh sách các từ trong câu nguồn. , - là danh sách các từ trong câu đích. Ta có môt danh sách các chỉ số dóng hàng như sau: , - * + Khi đó: * + là liên kết giữa từ thứ trong câu nguồn với với vị trí thứ trong câu đích. II. XÂY DỰNG NGỮ LIỆU A. Lý do xây dựng Ngữ liệu là tham số đầu vào đối với tất cả các mô hình học máy. Do đó việc xây dựng bộ ngữ liệu tốt, sẽ giúp cho việc huấn luyện mô hình đạt kết quả cao.
492 DÒNG HÀNG TỰ ĐỘNG MỨC TỪ CHO SONG NGỮ ANH - VIỆT SỬ DỤNG CÁCH TIẾP CẬN HỌC SÂU B. Các bước xây dựng Hình 1. Sơ đồ các bước xây dựng bộ ngữ liệu vàng Bộ ngữ liệu vàng được xây dựng dựa trên các bước chính sau: Bước 1: Khai thác ngữ liệu từ kho ngữ liệu song song CLC 8L của Trung tâm Ngôn ngữ học Tính toán, Trường Đại học Khoa học Tự nhiên - Đại học Quốc gia TP. HCM. Bước 2: Tiền xử lý ngữ liệu thu thập được ở bước 1. Bước 3: Đánh chỉ số dóng hàng mức từ bán thủ công dựa trên kết quả của GIZA++. Bước 4: Tổng hợp ngữ liệu theo từng cặp câu. C. Quy trình thực hiện chi tiết  Khai thác ngữ liệu Ngữ liệu được lấy từ kho ngữ liệu song song đa ngữ CLC 8L[9] của Trung tâm Ngôn ngữ học Tính toán, Trường Đại học Khoa học Tự nhiên - Đại học Quốc gia TP. HCM. Từ giờ chúng tôi sẽ gọi tắt là bộ ngữ liệu CLC 8L. Bộ ngữ liệu CLC 8L được xây dựng từ dữ liệu mở TED trên 8 ngôn ngữ phổ biến trong top 20 hiện nay: Việt Nam; Anh; Pháp; Trung Quốc (giản thể); Nhật Bản; Hàn Quốc; Đức; Nga. Kho ngữ liệu CLC 8L được tổ chức thành 8 file *.txt tương ứng cho mỗi ngôn ngữ. Trong đó khi lấy ra bất kì 1 câu tại một file txt (ngôn ngữ) bất kì ở 1 dòng bất kì; thì ở dòng tương ứng ở 7 file còn lại (8 ngôn ngữ còn lại) đều là các câu song song về ngữ nghĩa. bộ ngữ liệu CLC 8L có kích thước 57.044 câu cho mỗi ngôn ngữ.  Tiền xử lý ngữ liệu Quá trình tiền xử lý gồm có hai bước: Bước 1: Trích suất ngẫu nhiên 10.000 cặp câu song ngữ anh việt từ bộ ngữ liệu CLC 8L có chiều dài không lớn hơn 100 từ. Được tổ chức thành 2 file: 1 file cho tiếng Anh và 1 file cho tiếng Việt, song song từng cặp được đánh chỉ số tương ứng ở mỗi file. Bước 2: Tách từ bằng công cụ CLC Vietnamese Toolkit v.0.3[3] của Trung tâm Ngôn ngữ học Tính toán, Trường Đại học Khoa học Tự nhiên - Đại học Quốc gia TP. HCM cho 10.000 câu tiếng Việt. Kết quả thu được là hai file có định dạng như sau: File 10.000 câu tiếng Anh
Trịnh Vũ Minh Hùng, Lê Hoài Bảo, Hoàng Khuê, Lê Thanh Tùng 493 File 10.000 câu tiếng Việt  Đánh chỉ số dóng hàng mức từ Từ bộ ngữ liệu sau khi đã được tiền xử lý chúng tôi đánh chỉ số dóng hàng bán tự động lại cho chiều Anh - Việt. Ở giai đoạn này gồm có 2 pha: Pha 1. Làm tự động bằng công cụ GIZA++ để lấy chỉ số dóng hàng. Pha 2. Kiểm tra và hiệu ch chỉ số dóng hàng thủ công tất cả các cặp câu trong bộ ngữ liệu. Trình tự thực hiện gồm có 5 bước (Hình 2): Hình 2. Sơ đồ các bước kiểm duyệt chỉ số dóng hàng Bước 1: Đầu tiên là đưa cho người kiểm duyệt 1 để kiểm duyệt lại. Bước 2: Sau khi người kiểm duyệt ở bước 1 hoàn thành, trích ra ba tập bao gồm: o Tập ngẫu nhiên gồm cặp câu từ phần kiểm duyệt đúng. o Tập ngẫu nhiên gồm cặp câu từ phần kiểm duyệt sai. o Tập ngẫu nhiên gồm cặp câu có cả phần kiểm duyệt đúng và sai. Bước 3: Đưa 3 tập này cho người kiểm duyệt 2 để kiểm tra lại. Bước 4: Sau khi kiểm duyệt xong thì tách những cặp câu đúng ra. Đối với những cặp câu sai sẽ được chỉnh sửa lại và đưa vào bộ ngữ liệu sai để kiểm duyệt lại một lần nữa. Bước 5: Lặp lại bước 2 và 4 đến khi tập ngữ liệu ở bước 2 là rỗng. Kết quả nhận được sau khi thực hiện đánh chỉ số dóng hàng mức từ: Hình 3. Kết quả thu được sau khi đánh chỉ số dóng hàng mức từ
494 DÒNG HÀNG TỰ ĐỘNG MỨC TỪ CHO SONG NGỮ ANH - VIỆT SỬ DỤNG CÁCH TIẾP CẬN HỌC SÂU Tại bước này, chúng tôi tiến hành cài đặt một mã nguồn để đọc tất cả các tệp dữ liệu sau khi xây dựng ở mục 3.1.1.2, và lần lượt chạy qua các cặp câu song ngữ Anh Việt để trích xuất ra dữ liệu cụ thể như sau: Câu tiếng Anh, câu tiếng Việt. Chỉ số dóng hàng Anh - Việt của cặp câu song ngữ. Đưa tất cả những dữ liệu trên về tệp tin theo chuẩn JSON của từng cặp câu song ngữ và lưu trữ lại trong một tệp tin như Hình 4. Bộ ngữ liệu sau khi tổng hợp bao gồm 10.000 câu và sẽ được tách thành hai bộ ngữ liệu như sau: Ngữ liệu vàng huấn luyện: 9.000 cặp câu. Ngữ liệu vàng kiểm thử: 1.000 cặp câu. Hình 4. Kết quả của một cặp câu song ngữ của bộ ngữ liệu vàng sau khi xây dựng III. MÔ HÌNH HUẤN LUYỆN A. Lý do chọn BERT Theo kết quả Akihiro Tamura và cộng sự đã công bố vào năm 2014 [1]. Tác giả sử dụng bộ ngữ liệu gồm 9.000 cặp câu song ngữ Anh - Nhật huấn luyện trên mô hình RNN thuần đã đạt được độ chính xác 53,08% theo F1-score. Đồng thời, chúng tôi cũng cài đặt một mô hình dóng hàng tự động mức từ RNN thuần, dựa trên mô hình của tác giả Akihiro Tamura và các cộng sự. Sau đó chúng tôi huấn luyện mô hình này với bộ ngữ liệu vàng huấn luyện gồm 9000 cặp câu song ngữ Anh - Việt trích từ bộ ngữ liệu vàng đã xây dựng ở mục II, thì đạt được kết quả 20,4% theo F1-score. Qua đó, chúng ta có thể thấy được cả hai mô hình trên đạt một kết quả không cao, do đó chúng tôi đã quyết định ứng dụng BERT vào mô hình dóng hàng của chúng tôi. Cụ thể là dùng mô hình được đào tạo trước BERT-Base, Multilingual Cased với 104 ngôn ngữ, 12 lớp, 768 ẩn, 12 đầu, 110M thông số. Ta có một cặp câu song ngữ Anh - Việt (SE, SV) với chỉ số dóng hàng từng từ như sau: , - là danh sách các từ trong câu tiếng Anh. , - là danh sách các từ trong câu tiếng Việt. , - là các chỉ số dóng hàng Anh - Việt. với là số từ trong câu thỏa điều kiện: Mục tiêu của chúng tôi là xây dựng mô hình để có thể nhận được kết quả dóng hàng từ các cặp câu song ngữ Anh - Việt (SE, SV). Một cái nhìn tổng quan của kiến trúc mô hình sẽ được thể hiện ở Hình 6. Đầu vào của mô hình là các cặp câu song ngữ Anh - Việt. Và đầu ra của mô hình sẽ là mỗi cặp câu ( ) được đánh chỉ số dóng hàng tự động như Hình 5. Một ví dụ về kết quả dóng hàng sau khi thực hiện: Câu tiếng Việt: “Nhưng cái mà bạn cần là một máy_tính thật lớn”. Câu tiếng Anh: “But what you do need is a very big computer”. Kết quả: [1, 2, 0, 3, 5, 6, 7, 10, 8, 9, 11] Hình 5. Kết quả dóng hàng mức từ
Trịnh Vũ Minh Hùng, Lê Hoài Bảo, Hoàng Khuê, Lê Thanh Tùng 495 B. Kiến trúc mô hình Mô hình dóng hàng tự động mức từ được xây dựng với nhiều lớp ẩn khác nhau. Mà ở đó mỗi lớp sẽ có chức năng riêng sao cho kết quả thu được cuối là kết quả dóng hàng mức từ. Hình 6 là mô tả chi tiết các thành phần của mô hình: Hình 6. Kiến trúc mô hình dóng hàng tự động mức từ cho cặp song ngữ Anh - Việt C. Vector hóa ngữ liệu Cần phải vector hóa toàn bộ ngữ liệu cần thiết để dùng cho quá trình huấn luyện cũng như cho quá trình kiểm tra. Ở đây chúng tôi sử dụng BERT tokenizer để hoàn thành việc này. Trong bộ ngữ liệu vàng đã xây dựng ở mục II, đối với từng cặp câu song ngữ Anh - Việt chúng ta có các dữ liệu sau: Cặp câu song ngữ Anh - Việt. Chỉ số dóng hàng. Nhãn từ loại câu tiếng Anh, nhãn từ loại câu tiếng Việt, nhãn Hán - Việt câu tiếng Việt. Đối với các cặp câu song ngữ, dùng BERT tokenizer để thực thiện việc tách token rồi thêm 2 token [CLS], [SEP] vào đầu và cuối mỗi câu để xác định bắt đầu và kết thúc câu. Cuối cùng là thay thế các token bằng ID của chính nó. Đối với các chỉ số dóng hàng cần chuyển đổi về dạng ma trận , với là số từ tiếng Anh, là số từ tiếng Việt, với ( ) là từ và từ có quan hệ dóng hàng ngược thì không có quan hệ dóng hàng. Cuối cùng padding cho ma trận về kích thước . D. Mô hình dóng hàng Chúng tôi ứng dụng BERT vào bài toán dóng hàng tự động cho các cặp câu song ngữ Anh - Việt. Cụ thể ở đây là dùng mô hình được đào tạo trước BERT-Base, Multilingual Cased với 104 ngôn ngữ, 12 lớp, 768 ẩn, 12 đầu, 110 M thông số. Chi tiết các bước huấn luyện của mô hình như sau: Các cặp câu song ngữ Anh - Việt trong ngữ liệu vàng huấn luyện sau khi đã được vector hóa sẽ được dùng làm dữ liệu đầu vào của mô hình.
496 DÒNG HÀNG TỰ ĐỘNG MỨC TỪ CHO SONG NGỮ ANH - VIỆT SỬ DỤNG CÁCH TIẾP CẬN HỌC SÂU Sau đó các dữ liệu đầu vào này được đưa vào BERT. Dữ liệu đầu ra tiếng Anh và tiếng Việt được nối lại với nhau. Cuối cùng là đưa qua. Lớp Hardtanh (hàm kích hoạt) có công thức như sau: ( ) { Lớp cuối cùng là lớp Softmax để đánh giá xác suất phân loại của dữ liệu đầu ra với công thức như sau: ( ⃗) ∑ Nói một cách khái quát, hàm softmax sẽ tính khả năng xuất hiện của một nhãn trong tổng số tất cả các nhãn có thể xuất hiện. Sau đó, xác suất này sẽ được sử dụng để xác định nhãn mục tiêu cho các dữ liệu đầu vào. Cụ thể, hàm softmax biến vector k chiều có các giá trị thực bất kỳ thành vector k chiều có giá trị thực có tổng bằng 1. Giá trị nhập có thể dương, âm, bằng 0 hoặc lớn hơn 1, nhưng hàm softmax sẽ luôn biến chúng thành một giá trị nằm trong khoảng ( -. Như vậy, chúng có thể được gọi là “xác suất”. Nếu một trong các giá trị nhập rất nhỏ hoặc âm, hàm softmax biến chúng thành 1 xác suất nhỏ. Còn nếu một giá trị nhập lớn thì nó sẽ được chuyển thành một xác suất lớn. Nhưng xác suất luôn lớn hơn 0 và nhỏ hơn 1, hoặc bằng IV. CÀI ĐẶT & THỰC NGHIỆM A. Khảo sát độ ổn định của Gizza++ Chúng tôi khảo sát sự tương quan giữa độ chính xác của kết quả dóng hàng với độ lớn giảm dần của bộ ngữ liệu. Bộ ngữ liệu chúng tôi dùng ở đây là bộ ngữ liệu vàng kiểm thử. Bao gồm các thực nghiệm sau: Thực nghiệm 1: Chạy Giza++ với bộ ngữ liệu vàng kiểm thử 1000 cặp cậu song ngữ Anh - Việt. Thực nghiệm 2: Tương tự thực nghiệm 1 nhưng với 100 cặp câu song ngữ Anh - Việt trích từ bộ ngữ liệu vàng kiểm thử. Thực nghiệm 3: Tương tự thực nghiệm 1 nhưng với 10 cặp câu song ngữ Anh - Việt trích từ bộ ngữ liệu vàng kiểm thử. Thực nghiệm 4: Tương tự thực nghiệm 1 nhưng với 1 cặp câu song ngữ Anh - Việt trích từ bộ ngữ liệu vàng kiểm thử. Kết quả của 4 thực nghiệm trên: Bảng 1. Kết quả dóng hàng với GIZA++ ID Testing Data F1-score 1 1000 cặp câu song ngữ Anh-Việt 68,44 2 100 cặp câu song ngữ Anh-Việt 46,23 3 10 cặp câu song ngữ Anh-Việt 12,85 4 1 cặp câu song ngữ Anh-Việt 4,35 Từ Bảng 1, có thể thấy được kích thước của dữ liệu đưa vào ảnh hưởng rất lớn đối với kết quả dóng hàng mức từ của GIZA++. Điều này sẽ khiến cho kết quả của GIZA++ rất không ổn định làm cho việc tích hợp vào các ứng dụng là vô cùng khó khăn. B. Môi trường cài đặt mô hình đề xuất Bảng 2. Môi trường cài đặt mô hình Các thiết lập Môi trường lưu trữ source code huấn luyện mô hình Môi trường lưu trữ dữ liệu đầu vào Google drive Môi trường lưu trữ mô hình output Google Colab runtime GPU Cài đặt package cần thiết transformers
Trịnh Vũ Minh Hùng, Lê Hoài Bảo, Hoàng Khuê, Lê Thanh Tùng 497 C. Ngữ liệu huấn luyện cho mô hình đề xuất Sử dụng bộ ngữ liệu xây dựng ở mục II. D. Phương thức đánh giá: Chúng tôi đánh giá mô hình bằng 3 độ đo sau đây: Recall (R) Precision (P) F1-Score (F1) E. Chi tiết các thực nghiệm Chúng tôi tiến hành thực nghiệm cho ba mô hình: RNN, GIZA++ và mô hình đề xuất. Bao gồm các thực nghiệm như sau: Thực nghiệm 1: Sử dụng RNN thuần, huấn luyện trên “bộ ngữ liệu vàng huấn luyện” và kiểm tra trên “bộ ngữ liệu vàng kiểm thử”. Thực nghiệm 2: Sử dụng GIZA++ với input là “bộ ngữ liệu vàng kiểm thử” (1.000 cặp câu). Thực nghiệm 3: Sử dụng GIZA++ với input là là “bộ ngữ liệu vàng huấn luyện” và “bộ ngữ liệu vàng kiểm thử” (10.000 cặp câu). Thực nghiệm 4: Sử dụng mô hình đề xuất sử dụng Bert, huấn luyện trên “bộ ngữ liệu vàng huấn luyện” và kiểm tra trên “bộ ngữ liệu vàng kiểm thử”. Bảng 3 trình bày các kết quả thực nghiệm trên. F. Kết quả Bảng 3. Kết quả các thực nghiệm ID Mô hình Precision Recall F1-score 1 Mô hình RNN thuần (1.000 cặp câu) - - 20,4 2 Công cụ GIZA++ (1.000 cặp câu) - - 68,44 3 Công cụ GIZA ++ (10.000 cặp câu) - - 80,96 4 Mô hình đề xuất (1.000 cặp câu) 80,43 82,22 81,32 Từ Bảng 3 có thể thấy đối với bài toán dóng hàng mức từ cho cặp song ngữ Anh – Việt thì: Cách tiếp cận theo hướng học sâu cho độ chính xác ổn định hơn cách tiếp cận máy học thống kê. Độ chính xác không còn phụ thuộc vào kích thước cả dữ liệu đầu vào. Mô hình đề suất sử dụng BERT của chúng tôi đã cải thiện độ chính xác so với mô hình RNN thuần. V. KẾT LUẬN A. Đánh giá chung Từ các bảng kết quả trên có thể nhận thấy rằng việc áp dụng phương pháp máy học, học sâu trong việc dóng hàng tự động đạt được những kết quả rất khả quan về khả năng ổn định khi thực nghiệm cũng như độ chính xác được cải tiến. Đây là cơ sở để khẳng định mô hình đề xuất là một phương pháp đúng đắn, có thể ứng dụng và triển khai thực tế trên các nền tảng ứng dụng cho người dùng phổ thông. B. Một số tồn tại của mô hình đề xuất Hiện chúng tôi mới chỉ huấn luyện cho chiều Anh - Việt chưa thực hiện cho chiều Việt - Anh. Bộ ngữ liệu vàng kích thước còn khiêm tốn.
498 DÒNG HÀNG TỰ ĐỘNG MỨC TỪ CHO SONG NGỮ ANH - VIỆT SỬ DỤNG CÁCH TIẾP CẬN HỌC SÂU C. Hướng phát triển Mở rộng ngữ liệu vàng theo tiêu chí đang dạng hóa chủ đề và kích thước. Cải tiến độ chính xác theo hướng tích hợp tri thức tiếng Việt vào mô hình huấn luyện (POS, Hán Việt). Triển khai Website tích hợp mô hình “Dóng hàng tự động mức từ cho cặp song ngữ Anh - Việt” phục vụ cho những nhà ngôn ngữ TÀI LIỆU THAM KHẢO [1] Akihiro Tamura, Akihiro Tamura, Akihiro Tamura, "Recurrent neural networks for word alignment model", Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, p. 1470-1480, 2014. [2] X. S. Vu, "https://forum.machinelearningcoban.com/t/hoc-bieu-dien-ngon-ngu-cho-may-tinh/299", 2018. [3] http://www.clc.hcmus.edu.vn/?page_id=471&lang=en. [4] https://nlp.stanford.edu/software/tagger.shtml. [5] Tomas Mikolov, Quoc V. Le, Ilya Sutskever, "Exploiting similarities among languages for machine translation", 2013. [6] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, "BERT: Pre-training of deep bidirectional transformers for", 2019. [7] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, Jeffrey Dean, "Distributed representations of words and phrases". [8] Nang Yang, "Word alignment modeling with context dependent deep neural network", August 4-9 2013. [9] Hoàng Khuê, Nguyễn Thị Như Điệp, Đinh Điền và Nguyễn Thanh Thủy, Ứng dụng kho ngữ liệu song song đa ngữ trong giảng dạy Tiếng Việt cho người nước ngoài, tại Hội thảo Khoa học Liên trường: “Nghiên cứu giảng dạy Việt Nam học và tiếng Việt năm 2018”, tháng 7 - 2018. AUTOMATIC WORD ALIGNMENT FOR ENGLISH-VIETNAMESE BILINGUALS CORPUS USING A DEEP LEARNING APPROACH Le Hoai Bao, Trinh Vu Minh Hung, Hoang Khuê, Le Thanh Tung ABSTRACT. Recently, there have been enormous volumes of linguistic data (e.g., text, voice, etc.) generated on the Internet, which poses many problems for Natural Language Processing tasks. Word-level automatic alignment for bilingual data is one of the most basic NLP tasks and also the input that affects directly to the accuracy and efficience of other tasks such as machine translation, text summarization, part-of-speech tagging, etc. Nevertheless, there has been no significant innovation in methodological approaches for Vietnamese-English sentence pairs apart from machine learning algorithms like IBM model 1-5 or HMM model which have some limitations in practice. For that reason we propose a deep learning approach for the task of word-level automatic alignment for Vietnamese- English data. The resulting model was trained with a 10,000-Vietnamese-English-sentence-pair-corpus. We hope the proposed model will assist linguists in contrastive linguistic reseach.