Xây dựng tự động từ điển Việt - Anh và ứng dụng trong lĩnh vực du lịch

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:9

Thêm vào BST

Báo xấu

40
lượt xem 4
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Từ điển song ngữ là một dạng tài nguyên ngôn ngữ quan trọng được sử dụng trong nhiều lĩnh vực của xử lý ngôn ngữ tự nhiên, như: dịch máy, tìm kiếm liên ngữ, tra cứu ngữ nghĩa giữa hai ngôn ngữ. Bài viết trình bày một phương pháp xây dựng tự động từ điển song ngữ và ứng dụng phương pháp này để xây dựng tự động từ điển song ngữ Việt - Anh miền du lịch.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Xây dựng tự động từ điển Việt - Anh và ứng dụng trong lĩnh vực du lịch

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Huế, ngày 07-08/6/2019 DOI: 10.15625/vap.2019.00073 XÂY DỰNG TỰ ĐỘNG TỪ ĐIỂN VIỆT - ANH VÀ ỨNG DỤNG TRONG LĨNH VỰC DU LỊCH Nguyễn Tiến Hà1, Nguyễn Thị Minh Huyền2 1,2 Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội tienhapt@gmail.com, huyenntm@hus.edu.vn TÓM TẮT: Từ điển song ngữ là một dạng tài nguyên ngôn ngữ quan trọng được sử dụng trong nhiều lĩnh vực của xử lý ngôn ngữ tự nhiên, như: dịch máy, tìm kiếm liên ngữ, tra cứu ngữ nghĩa giữa hai ngôn ngữ, … Việc xây dựng từ điển có thể được thực hiện nhờ các phương pháp thu thập thủ công và/hoặc khai thác từ nguồn ngữ liệu song ngữ. Trong khi kho ngữ liệu song ngữ có gióng hàng mức câu được mở rộng liên tục nhờ các phương pháp xây dựng bán tự động và tự động, việc tận dụng nguồn tài nguyên này để tự động làm giàu từ điển song ngữ cho phép chúng ta thu được kho từ vựng song ngữ ngày càng giá trị. Trong bài báo này, chúng tôi trình bày một phương pháp xây dựng tự động từ điển song ngữ và ứng dụng phương pháp này để xây dựng tự động từ điển song ngữ Việt - Anh miền du lịch. Từ khóa: Từ điển; Từ điển Anh-Việt; Từ điển song ngữ; Trích rút cụm từ song ngữ; Xây dựng kho ngữ liệu song ngữ; Kho ngữ liệu song ngữ. I. GIỚI THIỆU Từ điển song ngữ là một dạng tài nguyên ngôn ngữ quan trọng được sử dụng trong nhiều lĩnh vực của xử lý ngôn ngữ tự nhiên. Hiện nay các phương pháp xây dựng từ điển song ngữ đều là thủ công hoặc bán tự động và chưa khai thác được kho ngữ liệu song ngữ gióng hàng mức câu được cập nhật, bổ sung mở rộng từng ngày. Các phương pháp xây dựng từ điển song ngữ tiếng Việt với một ngôn ngữ khác đã được đề xuất chủ yếu khai thác tài nguyên từ các cuốn từ điển song ngữ đã được xuất bản, chẳng hạn như trong công trình của Văn Ngọc Sang và cộng sự công bố năm 2007 về xây dựng từ điển song ngữ Việt-Jrai, Jrai-Việt[1] và công trình công bố năm 2014[2] về xây dựng từ điển điện tử Chăm - Việt từ việc khai thác cuốn từ điển Chăm - Việt đã được xuất bản. Các phương pháp đã được đề xuất chưa khai thác được kho ngữ liệu song ngữ gióng hàng mức câu, đồng thời chưa có phương pháp xây dựng tự động. Đặc biệt các phương pháp xây dựng từ điển song ngữ Việt-Anh đã được đề xuất khi được vận dụng vào xây dựng từ điển song ngữ tiếng Việt với một thứ tiếng bất kỳ thì gặp rất nhiều khó khăn [1], [2]. Trong bài báo này, chúng tôi đề xuất một phương pháp xây dựng tự động từ điển song ngữ Việt - Anh, một phương pháp mà có thể áp dụng cho một cặp ngôn ngữ bất kỳ và phương pháp xây dựng tự động từ điển song ngữ Việt - Anh miền du lịch, một phương pháp mà có thể áp dụng xây dựng từ điển cho bất cứ miền dữ liệu nào. Đóng góp của bài báo: 1) Đề xuất phương pháp xây dựng tự động từ điển song ngữ, áp dụng cụ thể cho cặp ngôn ngữ Việt - Anh. 2) Đề xuất phương pháp xây dựng tự động từ điển từ vựng song ngữ chuyên ngành, cụ thể là từ vựng miền văn bản du lịch. Các phần tiếp theo của bài báo là: Mục II trình bày các công trình có liên quan; Mục III trình bày phương pháp xây dựng tự động từ điển song ngữ Việt - Anh; Mục IV trình bày phương pháp xây dựng tự động từ điển song ngữ Việt-Anh trên miền du lịch; Mục V trình bày thực nghiệm và phân tích kết quả; Mục VI trình bày kết luận và hướng nghiên cứu tiếp theo. II. CÁC CÔNG TRÌNH CÓ LIÊN QUAN Xuất phát từ sự cần thiết của từ điển song ngữ, các nhà nghiên cứu đã sớm tìm cách xây dựng nó. Hiện có nhiều công trình nghiên cứu đề xuất các phương pháp xây dựng từ điển song ngữ, chẳng hạn: Saba Amsalu(2006)[4] đã đề xuất phương pháp thu thập từ vựng song ngữ Amharic-Anh hướng dữ liệu sử dụng mô hình thống kê. Các phương pháp thống kê thuần túy của phân bố thuật ngữ được sử dụng như là cơ sở để tìm tương quan giữa các thuật ngữ. Một lược đồ tính điểm cho các cặp từ được tạo lập dựa vào các thuộc tính phân bố của từ. Sau đó dựa vào một giá trị ngưỡng nào đó để trích rút các cặp từ vựng song ngữ.
Nguyễn Tiến Hà, Nguyễn Thị Minh Huyền 569 Lavecchia Caroline , Smaï'li Kamel và Langlois David(2007)[5] đã đề xuất một phương pháp xây dựng từ điển song ngữ từ phụ đề phim. Đầu tiên họ xây dự kho ngữ liệu song ngữ phụ đề phim với 32720 cặp phụ đề được gióng hàng với độ chính xác 94%, sau đó dữ liệu này được đưa vào xây dựng từ điển dựa vào inter-lingual trigger với Inter-lingual trigger là một danh sách bao gồm từ ở ngôn ngữ nguồn và các từ có tương quan nhất ở ngôn ngữ đích. Từ nguồn và n từ đích có tương quan tốt nhất trong Inter-lingual trigger được đưa vào từ điển. Davor Blažekovic, Maja Matetic và Marija Brkic (2009)[6] đã đề xuất một kỹ thuật xây dựng từ điển các thuật ngữ kỹ thuật. Đầu vào là văn bản Croatia trong lĩnh vực kỹ thuật, từ điển được thực hiện như là một cây AVL với cấu trúc dữ liệu được tạo ra bởi các nhà toán học Adelson, Velskii và Landis[3]. một cây nhị phân mà đảm bảo hiệu suất của các thao tác như chèn và tìm kiếm trong khoảng thời gian logarit. Các nút của cây chứa các từ được gán nhãn từ loại. Nhãn từ loại có được bằng cách sử dụng từ điển hình thái Croatia, thông tin từ loại cho phép lọc nhiễu trong tìm kiếm các cụm từ thường hay đi cùng với nhau để đưa vào xây dựng từ điển. Ajay Dubey and Vasudeva Varma(2013)[7] đã đề xuất một phương pháp xây dựng tự động từ điển song ngữ Anh-Hindi từ việc khai thác các thuộc tính cấu trúc của văn bản. Đầu tiên nhóm tác giả xây dựng một từ điển nhỏ sử dụng phương pháp kết hợp từ và phiên âm, sau đó sử dụng từ điển này để tìm ra các mục giống nhau của văn vản trên các ngôn ngữ. Các câu song ngữ được trích rút từ các mục giống nhau này. Tất cả các từ đồng xuất hiện trong các câu song ngữ được trích rút để đưa vào từ điển. Yasuda K, Sumita E. (2013)[8] đã đề xuất một phương pháp xây dựng tự động từ điển song ngữ từ kho ngữ liệu song ngữ liệu song ngữ Nhật - Trung. Phương pháp được đề xuất này sử dụng sự tương đồng về ký tự giữa tiếng Nhật và tiếng Trung. Đầu tiên, trích rút các cặp dịch từ từ kho ngữ liệu song ngữ dựa vào sự tương đồng ký tự, sau đó huấn luyện các bảng cụm từ sử dụng hai công cụ huấn luyện dịch máy thống kê khác nhau, sau đó trích rút các cặp dịch từ chung. Cuối cùng huấn luyện hệ thống dịch máy thống kê sử dụng các cặp dịch từ thu được ở trên để thu được từ điển. Văn Ngọc Sang và cộng sự (2015)[9] đã trình bày một cách tiếp cận mới cho việc xây dựng từ điển điện tử Chăm - Việt xuất phát từ 3 thành phần là dữ liệu, cơ sở dữ liệu và đánh giá. Mô hình ADDIE (Analysis, Design, Develop, Implement, and Evaluate) đã được nhóm tác giả sử dụng trong toàn bộ quá trình tiếp cận. Đầu tiên nhóm thực hiện việc phân tích và thiết kế hệ thống với dữ liệu đầu vào là hai cuốn từ điển Việt-Chăm và Chăm-Việt, sau đó giai đoạn phát triển và thực hiện được tiến hành từng bước như phân tích và thiết kế. Cuối cùng, sản phẩm từ điển điện tử được đánh giá bởi chuyên gia và người sử dụng. Phương pháp xây dựng từ điển Việt - Anh của chúng tôi khác với các phương pháp trên ở các điểm cơ bản sau: - Từ điển được xây dựng dựa trên kho ngữ liệu song ngữ Việt - Anh gióng hàng mức câu. Đây là một lợi thế của phương pháp, vì kho ngữ liệu này hiện đang được các nhóm nghiên cứu thu thập và bổ sung mở rộng từng ngày. - Chúng tôi trích rút từ, cụm từ dựa vào giá trị xác suất, trọng số dịch ở cả hai chiều dịch từ, cụm từ và phương án gióng hàng từ được tính toán nhờ hệ thống Moses. - Việc lấy các cặp từ Việt - Anh để đưa vào từ điển song ngữ Việt-Anh chúng tôi dựa vào nhãn từ loại ở các hai phía tiếng Việt và tiếng Anh. Phương pháp này đơn giản, hiệu quả và có thể áp dụng cho bất kỳ cặp ngôn ngữ nào. Đặc biệt trong bài báo này, chúng tôi cũng trình bày một áp dụng của phương pháp để xây dựng tự động từ điển song ngữ theo miền dữ liệu, một áp dụng có thể thực hiện cho bất kỳ miền dữ liệu nào. III. PHƯƠNG PHÁP XÂY DỰNG TỰ ĐỘNG TỪ ĐIỂN SONG NGỮ VIỆT-ANH III.1. Phương pháp xây dựng tự động từ điển song ngữ Việt-Anh Phương pháp xây dựng tự động từ điển Việt - Anh mà chúng tôi đề xuất sử dụng tài nguyên là kho ngữ liệu song ngữ gióng hàng mức câu được thể hiện trong Hình 1. Đầu tiên, “Câu tiếng Việt” từ “Kho ngữ liệu song ngữ” được “Tách từ và Gán nhãn từ loại”, sau đó chúng tôi viết một chương trình JAVA đơn giản sử dụng đầu vào là tài nguyên này và cho đầu ra là hai kho ngữ liệu: Kho ngữ liệu “Từ tiếng Việt đã gán nhãn” và kho ngữ liệu “Câu tiếng Việt đã gán nhãn”. Tiếp theo, “Câu tiếng Anh” từ “Kho ngữ liệu song ngữ” cũng được “Gán nhãn từ loại” để thu được kho ngữ liệu “Câu tiếng Anh đã gán nhãn”.
570 XÂY DỰNG TỰ ĐỘNG TỪ ĐIỂN VIỆT-ANH VÀ ỨNG DỤNG TRONG LĨNH VỰC DU LỊCH Cuối cùng, kho ngữ liệu “Từ tiếng Việt đã gán nhãn” và “Kho ngữ liệu song ngữ đã gán nhãn”, được đưa vào giải thuật mà mà chúng tôi đề xuất (Giải thuật 1) để “Trích rút từ và cụm từ song ngữ” và ứng với mỗi từ tiếng Việt trích rút được chúng tôi “Trích rút các cặp câu song ngữ chứa từ tiếng Việt” trong “Kho ngữ liệu song ngữ” đưa vào “Từ điển song ngữ Việt-Anh”. Phương pháp xây dựng tự động từ điển song ngữ Việt-Anh mà chúng tôi đề xuất ở đây có thể áp dụng cho một cặp ngôn ngữ bất kỳ bằng việc đưa vào kho ngữ liệu song ngữ có gióng hàng mức câu của cặp ngôn ngữ đó. Kho ngữ liệu song ngữ Câu Câu tiếng Việt tiếng Anh - Tách từ Gán nhãn từ - Gán nhãn từ loại loại Kho ngữ liệu song ngữ đã gán nhãn Từ tiếng Việt Câu tiếng Việt Câu tiếng Anh đã gán nhãn đã gán nhãn đã gán nhãn Trích rút từ và cụm từ song ngữ Từ tiếng Việt Trích rút cặp câu song ngữ chứa Từ điển song từ tiếng Việt ngữ Việt - Anh Hình 1. Phương pháp xây dựng tự động từ điển Việt–Anh III.2. Giải thuật xây dựng từ điển song ngữ Việt-Anh Gọi C(Cv;Ce) là kho ngữ liệu song ngữ Việt-Anh gióng hàng mức câu; Ct(Ctv;Cte) là kho ngữ liệu song ngữ Việt-Anh gióng hàng mức câu đã được gán nhãn từ loại, Ctw là kho ngữ liệu từ tiếng Việt đã được gán nhãn từ loại. Gọi Ta=Mo(Ct) là bảng cụm từ được sinh ra bởi hệ thống huấn luyện Moses1 [10]. Gọi T=Sa(Ta) là bảng cụm từ đầu ra của công cụ SALM2[11] sau khi gỡ bỏ các cặp từ, cụm từ dư thừa trong bảng từ, cụm từ được sinh ra bởi Moses để đảm bảo chất lượng của bảng từ, cụm từ. Gọi v; e; pe; pv; p(v|e); p(e|v); alignve lần lượt là từ tiếng việt đã được gán nhãn từ loại; từ tiếng anh đã được gán nhãn từ loại; cụm từ tiếng việt đã được gán nhãn từ loại có chứa từ tiếng việt v; cụm từ tiếng anh đã được gán nhãn từ loại có chứa từ tiếng anh e; giá trị xác suất dịch e thành v và giá trị xác suất dịch v thành e và phương án gióng hàng từ giữa hai cụm từ. Từ điển song ngữ D bao gồm 2 file Dv và De. Giải thuật xây dựng từ điển song ngữ Việt-Anh được thể hiện trong Giải thuật 1. Input: Kho ngữ liệu từ tiếng Việt đã được gán nhãn từ loại và kho ngữ liệu song ngữ gióng hàng mức câu đã được gán nhãn từ loại. Output: Từ điển song ngữ Việt - Anh. 1 http://www.statmt.org/moses/index.php?n=Main.HomePage 2 https://github.com/moses-smt/salm
Nguyễn Tiến Hà, Nguyễn Thị Minh Huyền 571 Begin While (not EOF(Ctw)) do Get wv in line; While (not EOF(T)) do Get line; Get v; e; pv;pe; p(v|e); p(e|v); alignve in line; If(wv=v)and(p(v|e)max) and (p(e|v)>=0.1) and (v not in Dv)and((v,e) in alignve) then Return v, pv in Dv; Return e, pe in De; While (not EOF(Cv)and not EOF(Ce)) do Get linev in Cv; Get linee in Ce; If (wv in linev) then {Return linev in Dv; Return linee in De;} EndIf; EndWhile; EndIf; EndWhile; End. Giải thuật 1. Giải thuật xây dựng tự động từ điển Việt - Anh. IV. PHƯƠNG PHÁP XÂY DỰNG TỰ ĐỘNG TỪ ĐIỂN SONG NGỮ VIỆT-ANH MIỀN DU LỊCH IV.1. Tần số xuất hiện của 1 từ trong 1 văn bản - Ký hiệu v là một văn bản bất kỳ; ws là một từ bất kỳ trong văn bản v. - Gọi f(w,v) là số lần xuất hiện của từ w trong văn bản v. - Khi đó, tần số xuất hiện của từ w trong văn bản v được tính như sau: tf(w,v)=f(w,v)/max{f(ws,v):ws in v} (1) Trong đó: max{f(ws,v):ws in v} là số lần xuất hiện nhiều nhất của một từ bất kỳ ws trong văn bản v. IV.2. Tần số nghịch của một từ trong tập văn bản - Tính tần số nghịch của một từ trong tập văn bản để giảm giá trị của những từ phổ biến. - Gọi |V| là tổng số văn bản có trong tập V; |{v in V: w in v}|: Số văn bản chứa từ w, với điều kiện w thuộc v. - Khi đó, tần số nghịch của một từ trong tập văn bản được tính bởi công thức: idf(w,V)=log(|V|/1+|{v in V: w in v}|; (2) IV.3. Tìm từ xuất hiện nhiều trong văn bản này và xuất hiện ít trong các văn bản khác Gọi tfidf(w,v,V) là giá trị cho biết mức độ từ, xuất hiện nhiều trong văn bản v, nhưng xuất hiện ít trong các văn bản khác thuộc V. Khi đó tfidf(w,v,V) được tính bởi công thức: tfidf(w,v,V) = tf(w,v)*idf(w,V) (3) IV.4. Phương pháp xây dựng tự động từ điển song ngữ Việt-Anh miền du lịch IV.4.1. Phương pháp xây dựng tự động từ điển song ngữ Việt-Anh miền du lịch
572 XÂY DỰNG TỰ ĐỘNG TỪ ĐIỂN VIỆT-ANH VÀ ỨNG DỤNG TRONG LĨNH VỰC DU LỊCH Phương pháp xây dựng tự động từ điển song ngữ Việt-Anh miền du lịch mà chúng tôi đề xuất được thể hiện trong Hình 2. Đầu tiên, “Câu tiếng Việt” từ “Kho ngữ liệu song ngữ Việt-Anh miền du lịch” và kho ngữ liệu đơn ngữ “Câu tiếng Việt miền chung” được “Tách từ và Gán nhãn từ loại”, sau đó chúng được đưa vào giải thuật “Trích rút từ thuộc miền du lịch” để thu được kho ngữ liệu “Từ tiếng Việt miền du lịch đã gán nhãn”. Giải thuật này được trình bày trong mục IV.4.2. Cuối cùng, đưa kho ngữ liệu “Từ tiếng Việt miền du lịch đã gán nhãn” và “Kho ngữ liệu song ngữ miền du lịch đã gán nhãn” vào Giải thuật 1 để “Trích rút từ và cụm từ song ngữ” và “Trích rút các cặp câu song ngữ chứa từ tiếng Việt” trong “Kho ngữ liệu song ngữ miền du lịch” đưa vào “Từ điển song ngữ Việt-Anh miền du lịch”. Kho ngữ liệu song ngữ miền du lịch Câu tiếng Việt miền Câu Câu chung tiếng Việt tiếng Anh - Tách từ Gán nhãn từ - Gán nhãn từ loại loại Trích rút từ thuộc miền du lịch Kho ngữ liệu song ngữ miền du lịch đã gán nhãn Từ tiếng Việt miền Câu tiếng Việt Câu tiếng Anh du lịch đã gán nhãn đã gán nhãn đã gán nhãn Trích rút từ và cụm từ song ngữ Từ tiếng Việt Trích rút cặp câu Từ điển Việt – song ngữ chứa từ Anh miền du lịch tiếng Việt Hình 2. Phương pháp xây dựng tự động từ điển Việt – Anh miền du lịch Phương pháp xây dựng tự động từ điển song ngữ Việt-Anh miền du lịch mà chúng tôi đề xuất ở đây có thể áp dụng để xây dựng tự động từ điển song ngữ cho một miền bất kỳ bằng việc thay đầu vào của phương pháp này bằng kho ngữ liệu song ngữ có gióng hàng mức câu của miền dữ liệu đó. IV.4.2. Giải thuật trích rút từ thuộc miền du lịch Gọi Ctv là kho ngữ liệu đơn ngữ gồm câu tiếng Việt miền du lịch và Cgv là kho ngữ liệu đơn ngữ các câu tiếng Việt miền chung đã được tách từ và gán nhãn từ loại Gọi wv, ws là các từ tiếng Việt. Giải thuật trích rút từ thuộc miền du lịch như sau: Input: Kho ngữ liệu đơn ngữ câu tiếng Việt đã được gán nhãn từ loại thuộc miền du lịch và miền chung. Output: Các từ thuộc miền du lịch. Begin
Nguyễn Tiến Hà, Nguyễn Thị Minh Huyền 573 While (not EOF(Ctv)) do Get wv in Ctv; tf(wv, Ctv)=f(wv, Ctv)/max{f(ws, Ctv):ws in Ctv }; // Áp dụng công thức (1) idf(wv, Cgv)=log(|Cgv|/(1+|{C in Cgv: wv in C}|)); // Áp dụng công thức (2) tfidf(wv,Ctv, Cgv) = tf(wv,Ctv)*idf(wv, Cgv); // Áp dụng công thức (3) If tfidf(wv,Ctv, Cgv) > 0.5 then { Return wv in file;} Endif; EndWhile; End. Giải thuật 2. Giải thuật trích rút từ tiếng Việt miền du lịch. V. THỰC NGHIỆM VÀ PHÂN TÍCH KẾT QUẢ V.1. Thực nghiệm V.1.1. Kho ngữ liệu song ngữ Việt - Anh gióng hàng mức câu Kho ngữ liệu song ngữ được gióng hàng mức câu là một nguồn tài nguyên ngôn ngữ quan trọng được sử dụng trong nhiều lĩnh vực của xử lý ngôn ngữ tự nhiên: Tìm kiếm xuyên ngữ, dịch máy, xây dựng từ điển song ngữ, … Đã có một số công trình nghiên cứu xây dựng, điển hình là: Đề tài VLSP3 nhánh đề tài xử lý văn bản chia sẻ 100.000 cặp câu song ngữ Việt - Anh. Công trình nghiên cứu của Hồ Bảo Quốc và cộng sự năm 2014 đã xây dựng được kho ngữ liệu 120.000 cặp câu song ngữ Việt - Anh. Công trình của Ngô Quốc Hùng công bố năm 2018 với kho ngữ liệu song ngữ gióng hàng mức câu 2292077 cặp câu song ngữ Việt - Anh4, Công trình của Nguyễn Tiến Hà và cộng sự năm 2018 đã xây dựng được kho ngữ liệu song ngữ Việt-Anh miền du lịch với 12.000 cặp câu [12], … Hiện nay, kho ngữ liệu song ngữ Việt - Anh có gióng hàng mức câu được các nhóm nghiên cứu tiếp tục thu thập và bổ sung ngày một lớn. Trong công trình này chúng tôi sử dụng kho ngữ liệu 100.000 cặp câu song ngữ Việt-Anh của đề tài VLSP và 500389 cặp câu song ngữ Việt-Anh miền chung, 14237 cặp câu song ngữ Việt-Anh miền du lịch là các kho ngữ liệu song ngữ mà chúng tôi thu thập được để làm tài nguyên thực nghiệm phương pháp đề xuất của mình. V.1.2. Tách từ và gán nhãn từ loại tiếng Việt, tiếng Anh Đối với tiếng Việt, có một số công cụ thực hiện tách từ và gán nhãn từ loại đã được công bố và chia sẻ cho cộng đồng nghiên cứu sử dụng với độ chính xác khác cao, trong số đó công cụ tách từ và gán nhãn từ loại văn bản tiếng Việt VncoreNLP5 được viết bởi nhóm tác giả Thành Vũ và cộng sự năm 2018. Công cụ được đánh giá là có độ chính xác hơn hẳn so với các công cụ tách từ và gán nhãn từ loại cho văn bản tiếng Việt. Đối với tiếng Anh, hiện nay có công cụ Stanford tách từ đạt mức độ chính xác khá cao: Công cụ Stanford Log- linear Part-Of-Speech Tagger6 phiên bản đầu tiên được viết bởi tác giả Kristina Toutanova và sau đó là các phiên bản cải tiến của các tác giả Dan Klein, Christopher Manning, William Morgan, Anna Rafferty, Michel Galley, and John Bauer. Trong công trình này, chúng tôi sử dụng công cụ tách từ và gán nhãn từ loại VncoreNLP cho tiếng Việt và công cụ gán nhãn từ loại Stanford Log-linear Part-Of-Speech Tagger cho tiếng Anh. V.2. Kết quả V.2.1. Xây dựng từ điển song ngữ Việt-Anh 3 https://vlsp.hpda.vn/demo/?page=resources 4 https://sites.google.com/a/uit.edu.vn/hungnq/evbcorpus. 5 https://github.com/vncorenlp/VnCoreNLP 6 https://nlp.stanford.edu/software/tagger.shtml#About
574 XÂY DỰNG TỰ ĐỘNG TỪ ĐIỂN VIỆT-ANH VÀ ỨNG DỤNG TRONG LĨNH VỰC DU LỊCH Chúng tôi chạy thực nghiệm trên kho ngữ liệu 600389 cặp câu song ngữ Việt-Anh miền chung. Với 600389 câu tiếng Việt, sau khi tách từ chúng tôi thu được 108040 từ tiếng Việt. Thực hiện phương pháp xây dựng từ điển song ngữ Việt-Anh mà chúng tôi đã đề xuất, chúng tôi thu được 33443 cặp từ song ngữ Việt-Anh. Với mỗi từ tiếng Việt được lưu vào trong từ điển, chúng tôi lựa chọn hai cặp cụm từ và hai cặp câu có chứa từ tiếng Việt đó để lưu vào từ điển nhằm minh họa việc sử dụng từ trong cụm từ và trong câu khi từ được tra. Kết quả được thể hiện trong Bảng 1. Bảng 1. Từ điển song ngữ Việt-Anh trích rút từ kho ngữ liệu gôm 600389 cặp câu song Việt - Anh Kho ngữ liệu Từ tiếng Việt Từ trong từ điển (số cặp câu) (số từ ) (số cặp từ) 600389 108040 33443 V.2.2. Xây dựng từ điển song ngữ Việt-Anh miền du lịch Chúng tôi thực nghiệm trên kho ngữ liệu 14.237 cặp câu song ngữ Việt-Anh miền du lịch và kho ngữ liệu 842423 câu đơn ngữ tiếng Việt miền chung mà chúng tôi thu thập được. Sau khi tách từ câu tiếng Việt và thực hiện trích rút từ miền du lịch theo phương pháp mà chúng tôi đề xuất, chúng tôi thu được 15881 từ tiếng Việt thuộc miền du lịch. Sử dụng phương pháp xây dựng tự động từ điển song ngữ Việt-Anh miền du lịch mà chúng tôi đã đề xuất, chúng tôi thu được từ điển với 1745 từ. kết quả được thể hiện trong Bảng 2. Bảng 2. Từ điển song ngữ Việt-Anh miền du lịch trích rút từ kho ngữ liệu gồm 14.000 cặp câu song Việt - Anh miền du lịch Kho ngữ liệu Từ tiếng Việt Từ trong từ điển (số cặp câu) (số từ ) (số cặp từ) 14237 15881 1745 V.2.3. Đánh giá độ chính xác của từ điển Chúng tôi sử dụng phương pháp chuyên gia để đánh giá mức độ chính xác của từ điển được xây dựng bằng phương pháp mà chúng tôi đề xuất. Cách thực hiện đánh giá như sau: gọi n là số chuyên gia tiếng Anh tham gia đánh giá mức độ chính xác của từ điển, mi (1≤ i ≤ m) là số từ lấy ngẫu nhiên trong từ điển ra để kiểm tra, ki ≤ mi (1≤ i ≤ m) là số từ mà chuyên gia thứ I đánh giá là đúng. Khi đó, độ chính xác của từ điển được tính bởi công thức: ∑ Precision= (4) Chúng tôi lấy ra ngẫu nhiên 1000 từ trong từ điển mà chúng tôi xây dựng được để kiểm tra độ chính xác của phương pháp xây dựng từ điển mà chúng tôi đề xuất. Chúng tôi sử dụng 5 chuyên gia đánh giá, mỗi chuyên gia đánh giá 200 từ lấy ngẫu nhiên. Số từ được 5 chuyên gia đánh giá là đúng lần lượt như sau: 191, 192, 189, 191, 194. Áp dụng công thứ (4) chúng tôi tính được độ chính xác của từ điển là: Precision=95,7% V.3. Phân tích kết quả Từ điển này được xây dựng dựa vào khai thác các câu song ngữ trong kho ngữ liệu song ngữ Việt-Anh có gióng hàng mức câu, nên đã tìm được nhiều tình huống sử dụng từ tiếng Việt khi nó được viết ở tiếng Anh, chúng tôi nhận thấy rằng có một số từ tiếng Việt trong từ điển của chúng tôi đưa ra được nhiều từ biểu diễn trong tiếng Anh hơn một số từ điển khác chẳng hạn: từ “lăng”, tra trong từ điển Việt-Anh VNDIC.NET7 chì tìm được từ tiếng Anh tương ứng là “tomb”. Nhưng tra trong từ điển của chúng tôi thì từ “lăng” được tìm thấy có nghĩa là “tomb” và “mausoleum”. Chúng tôi cũng đã nghiên cứu để tìm ra nguyên nhân dẫn đến sự thiếu chính xác của từ điển được xây dựng bằng phương pháp đề xuất của chúng tôi, chúng tôi nhận thấy rằng: Số các cặp cụm từ chưa chính xác trong từ điển chủ yếu là do lỗi tách từ tiếng Việt, ví dụ từ tiếng Việt “công chúa tiên dung” phần mềm tách từ tách thành 2 từ đó là “công_chúa_tiên” và “dung”, khi đó trong từ điển xuất hiện cặp cụm từ “công_chúa_tiên --> princesses” mà đúng phải là “công_chúa --> princesses”. Chất lượng của từ điển còn bị ảnh hưởng từ chất lượng của kho ngữ liệu song ngữ 7 http://2.vndic.net/
Nguyễn Tiến Hà, Nguyễn Thị Minh Huyền 575 được đưa vào xây dựng từ điển, kho ngữ liệu của chúng tôi thu thập được còn chưa tốt ở những vấn đề chẳng hạn như lỗi chính tả, lỗi dư thừa các dấu, ký hiệu,… ngoài ra chất lượng của từ điển còn chịu ảnh hưởng từ mức độ chính xác của bảng cụm từ được tạo ra từ moses. Từ điển du lịch được xây dựng theo phương pháp mà chúng tôi đề xuất vẫn còn chứa một số từ ngoài miền, do kho ngữ liệu song ngữ miền du lịch của tác giả là nhỏ mà tác giả lại muốn trích rút được số lượng từ nhiều, do đó trong từ điển miền du lịch vẫn còn chứa một vài từ ngoài miền du lịch. VI. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Bài báo đề xuất phương pháp xây dựng tự động từ điển song ngữ Việt - Anh từ kho ngữ liệu song ngữ có gióng hàng mức câu và phương pháp xây dựng tự động từ điển song ngữ Việt-Anh miền du lịch. Các kỹ thuật mà chúng tôi đề xuất là tổng quát, có thể áp dụng để xây dựng tự động từ điển song ngữ cho bất kỳ cặp ngôn ngữ nào và cho bất cứ miền dữ liệu giới hạn nào. Phương pháp mà chúng tôi đề xuất trích rút cặp từ vựng song ngữ để xây dựng từ điển từ kho ngữ liệu song ngữ có gióng hàng câu vẫn còn hạn chế về số lượng từ trích rút được so với khả năng của nó, đặc biệt là chưa trích rút được các cặp cụm từ song ngữ, trong tương lai chúng tôi sẽ tập trung cải tiến kỹ thuật để có thể thu được số lượng cặp từ, cụm từ tương xứng với khả năng của kho ngữ liệu song ngữ có gióng hàng mức câu và nâng cao chất lượng của từ điển thu được. Đặc biệt là triển khai nghiên cứu việc ứng dụng từ điển này vào xử lý các từ mới (unknown word) trong dịch máy nơ-ron Việt-Anh. VII. TÀI LIỆU THAM KHẢO [1] Sang, Van Ngoc, “Building Vietnamese -Jrai; Jrai - Vietnamese dictionary”, Research project and technologt, Ministry level, Vietnam, 2007. [2] Van Ngoc Sang, Mohamad Bin Bilal Ali, Noor Dayana Abd Halim, “Building Cham - Vietnamese Electronic Dictionary”, Jurnal Pendidikan Nusantara, ISSN 2289 -9375 (Print). Special Edition April 2016, No. 1, pp. 215- 223. Published by Jurnal Pendidikan Nusantara, 2014. [3] R. F. Gilberg, B. A. Forouza, “Data Structures: A Pseudocode Approach With C”, Course Technology Press, 1998. [4] Amsalu, Saba, “Data-driven Amharic-English Bilingual Lexicon Acquisition”, Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC’06), Genoa, Italy, 2006. [5] Lavecchia Caroline , Smaï'li Kamel, Langlois David, “Building a bilingual dictionary from movie subtitles based on inter-lingual triggers”, Translating and the Computer, Londres, United Kingdom. (inria-00184421), Nov 2007. [6] Blažeković, Davor and Matetic, Maja and Brkic Bakaric, Marija, “Automatic Building of a Dictionary of Technical Terms and Collocations Based on AVL Tree”, Inproceedings, 2009. [7] Ajay Dubey and Vasudeva Varma, “Generation of Bilingual Dictionaries using Structural Properties”, computacion y Sistemas Vol.17 No.2 pp.161-168 ISSN 1405-5546, 2013. [8] Yasuda K., Sumita E, “Building a Bilingual Dictionary from a Japanese-Chinese Patent Corpus”, In: Gelbukh A. (eds) Computational Linguistics and Intelligent Text Processing. CICLing 2013. Lecture Notes in Computer Science, vol 7817. Springer, Berlin, Heidelberg, 2013. [9] Van, Ngoc Sang and Bilal Ali, Mohamad and Abd. Halim, Noor Dayana, “Building Cham Vietnamese electronic dictionary”, In: 2nd International Education Postgraduate Seminar (IEPS2014), 20-21 Dec, 2015, Johor Bahru, Johor, 2015. [10] Philipp Koehn. MOSES Statistical Machine Translation System User Manual and Code Guide, 2019. [11] H. Johnson, J. Martin, G. Foster and R. Kuhn, “Improving Translation Quality by Discarding Most of the Phrasetable”, In Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), pp. 967-975, 2007 [12] Nguyễn Tiến Hà, Nguyễn Thị Minh Huyền, Nguyễn Minh Hải, “Xây dựng kho ngữ liệu du lịch song ngữ Việt - Anh gióng hàng mức câu cho dịch máy”. Các công trình nghiên cứu phát triển công nghệ thông tin và truyền thông Tập V-1, số 39, Bộ Thông tin và Truyền thông, 11.2018.
576 XÂY DỰNG TỰ ĐỘNG TỪ ĐIỂN VIỆT-ANH VÀ ỨNG DỤNG TRONG LĨNH VỰC DU LỊCH AUTOMATIC BUILDING OF VIETNAMESE-ENGLISH BILINGUAL LEXICAL RESOURCES AND APPLICATION IN TOURIST DOMAIN Nguyen Tien Ha, Nguyen Thi Minh Huyen ABTRACT: Bilingual dictionary is an important resource which is useful in many natural language processing applications such as: machine translation, cross-language information retrieval, find out the meaning of a word in another language,… The construction of a dictionary can be realized by manually acquiring terms and/or extracting terms from bilingual corpora. While sentence-aligned bilingual corpora are continuously growing thanks to semi-automatic or automatic methods, taking advantage of these resources to automatically enrich bilingual dictionaries allows us to acquire increasingly valuable bilingual lexicon. In this paper, we propose a method for automatically building a bilingual lexicon and the application of this method to acquire a Vietnamese-English lexicon in the tourism domain. Keywords: Dictionary; English-Vietnamese dictionary; Bilingual dictionary; Extract bilingual phrases; Building bilingual corpus; Bilingual corpus.