Một cách tiếp cận tích hợp trí thức về ngôn ngữ vào hệ dịch máy thống kê

Chia sẻ: Thi Thi | Ngày: | Loại File: PDF | Số trang:7

Thêm vào BST

Báo xấu

56
lượt xem 2
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mô hình dịch thống kê dựa vào cụm (MHTKC) [6] là một trong những mô hình dịch tự động tốt nhất hiện nay. Tuy nhiên sự hạn chế của mô hình MHTKC là nó xem xét các cụm như là dãy liên tiếp các từ và nó hoàn toàn bỏ qua bất cứ thông tin về ngôn ngữ (thông tin cú pháp, thông tin ngữ nghĩa,…). Để giải quyết vấn đề này, trong bài báo này, chúng tôi tập trung vào nghiên cứu cải tiến mô hình đảo trật tự từ vựng.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Một cách tiếp cận tích hợp trí thức về ngôn ngữ vào hệ dịch máy thống kê

Nguyễn Văn Vinh và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 113(13): 107 - 113 MỘT CÁCH TIẾP CẬN TÍCH HỢP TRÍ THỨC VỀ NGÔN NGỮ VÀO HỆ DỊCH MÁY THỐNG KÊ Nguyễn Văn Vinh1, Lê Thu Trang2,*, Nguyễn Thị Xuân Hương3 2 1 Trường Đại học Công nghệ – ĐH Quốc Gia Hà Nội Trường Đại học Công nghệ thông tin và Truyền thông – ĐH Thái Nguyên 3 Trường Đại học Dân lập Hải Phòng TÓM TẮT Mô hình dịch thống kê dựa vào cụm (MHTKC) [6] là một trong những mô hình dịch tự động tốt nhất hiện nay. Tuy nhiên sự hạn chế của mô hình MHTKC là nó xem xét các cụm như là dãy liên tiếp các từ và nó hoàn toàn bỏ qua bất cứ thông tin về ngôn ngữ (thông tin cú pháp, thông tin ngữ nghĩa,…). Để giải quyết vấn đề này, trong bài báo này, chúng tôi tập trung vào nghiên cứu cải tiến mô hình đảo trật tự từ vựng. Chúng tôi mở rộng mô hình đảo trật tự cụm có phân cấp [2] sử dụng mô hình Maximum Entropy (ME) để đoán hướng và ước lượng xác suất. Với mô hình này, chúng ta có thể tích hợp thông tin giàu tri thức ngôn ngữ vào như các thuộc tính địa phương cũng như là toàn cục. Hơn nữa, xác suất được ước lượng bằng mô hình ME sẽ chính xác và mịn hơn so với ước lượng dựa vào cách tiếp cần tần suất tương đối. Kết quả thử nghiệm với cặp ngôn ngữ Anh-Việt cho thấy cách tiếp cận của chúng tôi tốt hơn so với cách tiếp cận sử dụng mô hình từ vựng phân cấp [2]. Từ khóa: Mô hình dịch thống kê, trí thức về ngôn ngữ. ĐẶT VẤN ĐỀ* Những năm gần đây, sự bùng nổ của cách tiếp cận dịch máy thống kê dựa vào cụm đã tạo ra các sản phẩm thương mại được sử dụng rộng rãi trên thế giới (hệ dịch của google, microsoft, …) [14][15]. Một trong những vấn đề quan trọng của dịch máy thống kê dựa vào cụm liên quan đến việc là làm thế nào để sinh ra thứ tự các từ (cụm) chính xác trong ngôn ngữ đích. Hình 1. Hướng của cụm (M, S, D) cho ví dụ dịch Anh-Việt Để giải quyết vấn đề trên, gần đây, trong [4][5], mô hình đảo trật tự từ vựng (LRMs) đã phát triển để dự đoán hướng của cặp cụm dựa vào cụm đích liền kề. Những mô hình này phân biệt ba hướng của cặp cụm hiện tại theo * Tel: 0925009989 cụm đích phía trước: (1) monotone (M) – cụm nguồn phía trước là liền kề trước cụm nguồn hiện tại, (2) swap (S) – cụm nguồn phía trước là liền kề sau cụm nguồn hiện tại và (3) discontinuous (D) – không phải là S và M. Hình 1 (1) biểu diễn ví dụ mà ở đây mô hình hiệu quả trong việc swap cụm tính từ “nice new” và cụm “house” và cụm “a” là monotone với cụm “This is”. Những mô hình đảo trật tự từ vựng này cho chất lượng tốt hơn so với MHTKC. Tuy nhiên những mô hình này giải quyết đảo trật tự từ của các cụm cạnh nhau, chúng thường thất bại khi cụm từ mà vị trị đảo nằm xa nhau. Ví dụ trong hình 1 (2), hướng của cụm “Tom’s” nên được swap với phần còn lại của cụm danh từ, tuy nhiên LRM đoán hướng là discontinuous (D). Galley and Manning [2] đã mở rộng mô hình LRMs bằng cách đề xuất mô hình đảo cụm phân cấp (HRM). Mô hình này dựa vào cấu trúc phân cấp và có thể giải quyết được trường hợp đảo vị trí của các cụm xa nhau. Ví dụ trong hình 1(2) mô hình của họ có thể giải quyết được cụm liền kề “two” và “blue books” như là một cụm và sự thay thế của “Tom’s” theo cụm này được giải quyết như là swap(S). Tuy nhiên, mô hình của họ cũng có vài nhược điểm như sau: 107 Nguyễn Văn Vinh và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ • Mô hình này ước lượng xác suất dựa vào cách tiếp cận quan hệ tần suất, mà ở đây sẽ chụi ảnh hưởng của vấn đề dữ liệu thưa. Một trong những lý do là hầu hết các ví dụ về cụm chỉ xuất hiện 1 lần trong dữ liệu huấn luyện (96.5% ví dụ về cụm xuất hiện 1 lần trong kho dữ liệu “General”). • Mô hình này không sử dụng bất cứ thông tin về ngôn ngữ. Điều này làm thiếu thông tin ngữ cảnh trong việc dự đoán hướng và ước lượng xác suất của cặp cụm. Chúng tôi tập trung vào nghiên cứu cải tiến mô hình đảo trật tự từ vựng. Chúng tôi mở rộng mô hình đảo trật tự cụm có phân cấp [2] sử dụng mô hình Maximum Entropy (ME) để đoán hướng và ước lượng xác suất . Với mô hình này, chúng ta có thể tích hợp thông tin giàu trí thức ngôn ngữ vào như các thuộc tính địa phương cũng như là toàn cục. Hơn nữa, xác suất được ước lượng bằng mô hình ME sẽ chính xác và mịn hơn so với ước lượng dựa vào cách tiếp cần tần suất tương đối. Kết quả thử nghiệm với cặp ngôn ngữ Anh-Việt cho thấy cách tiếp cận của chúng tôi tốt hơn so với cách tiếp cận sử dụng mô hình từ vựng phân cấp [2]. MỘT SỐ NGHIÊN CỨU LIÊN QUAN Quá trình giải mã trong MHTKC xây dựng câu đích từ trái qua phải. Từ giả thuyết hiện tại, điều quan trọng là phải xác định cụm nguồn nào cần được dịch. Một vài nhà nghiên cứu [11], [4] đã đề xuất mô hình khá mạnh được gọi là mô hình đảo trật tự từ vựng cho việc dự đoán hướng của cụm nguồn như mô tả ở phần trên. LRMs học hướng địa phương (monotonecùng hướng, swap- khác hướng, discontinue không gần nhau) với xác suất của mỗi cặp cụm song ngữ từ dữ liệu huấn luyện. [12][13] ứng dụng mô hình Maximum Entropy cho đảo trật tự cụm. Họ sử dụng ME ước lượng xác suất đảo cụm. Tuy nhiên họ sử dụng các đặc trưng đơn giản và áp dụng vào các mô hình khác của dịch máy. Galley and Manning [2] đã mở rộng mô hình LRMs bằng cách đề xuất mô hình đảo cụm phân cấp (HRM). Mô hình này dựa vào cấu trúc phân cấp và có thể giải quyết được 108 113(13): 107 - 113 trường hợp đảo vị trí của các cụm xa nhau. Tuy nhiên mô hình của họ cũng một số nhược điểm như đã nêu ở phần trên. MÔ HÌNH ĐẢO TRẬT TỰ TỪ VỰNG Để cải tiến mô hình đảo cụm dựa vào khoảng cách, [4] [11] đã đề xuất mô hình đảo trật tự từ vựng. Mô hình sẽ dựa vào quan hệ vị trí với các cụm liền kề của cụm đích từ đó tính xác suất của các cặp cụm tương ứng. Cho một câu nguồn f, mà được dịch thành câu ngôn ngữ đích e. Hệ thống dịch thống kê dựa vào cụm tốt nhất hiện nay là mô hình tuyến tính logarit của xác suất điều kiện Pr(f|e): e x p ∑ i λ i hi ( e , f ) (1) P r( f | e ) = ∑ e ' e x p λ i hi ( e ', f ) Ở đây hi (e, f ) là hàm đặc trưng bất kỳ trên cặp câu (e,f). Tham số λ là trọng số của các hàm đặc trưng hi (e, f ) . Quá trình tìm kiếm giải mã sẽ tìm câu dịch tốt nhất ê thỏa mãn công thức sau:   (2) ê = exp λ h (e, f ) arg max e   ∑ i   i i Các đặc trưng bao gồm trong mô hình đảo trật tự từ vựng đươc tham số hóa như sau: cho trước câu nguồn f, dãy các cụm ngôn ngữ đích e = (e1 ,......., en ) là các giả thuyết hiện tại của quá trình giải mã và gióng hàng cụm a = (a1 ,...., an ) xác định sao cho cụm nguồn f ai tương ứng với cụm dịch của nó là cụm đích ei. Những mô hình ước lượng xác suất của dãy các hướng (o = o1, …, on ) như sau: P r( o | e , f ) = n ∏ i =1 p ( oi | e i , f ai ) trong đó oi nhận các giá trị hướng ∆ = M , S , D . Trong khi tuyển tập các cặp cụm, có thể phân loại chúng thành 3 hướng như sau: • oi = M nếu ai – ai -1 = 1 • oi = S nếu ai – ai -1 = -1 • oi = D nếu (ai – ai -1 ≠ 1 và ai – ai -1 ≠ -1) Trong từng bước của quá trình giải mã, chúng tôi dựa vào cách tiếp cận của Moses mà ở đây Nguyễn Văn Vinh và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ gán cho ba tham số phân biệt (λm, λs, λd ) với ba hàm đặc trưng tương ứng: fm = ∑ i =1 log p ( oi = M |e i , f ai ) n f s = ∑ i =1 log p ( oi = S |e i , f ai ) n f d = ∑ i =1 log p ( oi = D |e i , f ai ) n Để tích hợp p (oi | e i , f ai ) vào công thức (1) trong quá trình giải mã, chúng ta cần tính những giá trị xác suất này. Cách đơn giản để tính là ta dựa vào tần xuất xuất hiện như sau: p (oi | e i , f ai )= C o u n t (oi , e i , f ai ) ∑ 0 C o u n t ( o , e i , f ai ) trong đó Count(x) là số lần xuất hiện của x trong dữ liệu huấn luyện. Chúng tôi tính p (oi | e i , f ai ) dựa vào gióng hàng cụm trước ai-1 của ai. Chúng ta giả sử ai có m gióng hàng cụm trước. Ta có: ∑ Count ( o , e i , f , a ) ∑ ∑ Count ( o , e , f , a ) m p ( oi | e i , f ai ) = k =1 i k i −1 ai m k =1 i 0 k i −1 ai Tuy nhiên, cách tính như trên sẽ gặp một số vấn đề như là dữ liệu thưa vì vậy cách hợp lý là ta sử dụng mô hình Maximum Entropy để tích hợp đặc trưng và tính xác suất như sau: p ( oi | e i , f ai )= exp( ∑ j θ j h j ( oi , e i , f ∑ 0 exp( ∑ j ai θ j h j ( oi , e i , f )) ai )) TÍCH HỢP MÔ HÌNH ĐẢO TRẬT TỰ TỪ VỰNG VÀO HỆ THỐNG DỊCH MÁY DỰA VÀO CỤM SỬ DỤNG MÔ HÌNH MAXIMUM ENTROPY 113(13): 107 - 113 Mô hình Trong phần này chúng tập trung sử dụng thông tin ngữ cảnh để giúp HRM tính xác suất và dự đoán hướng của cụm. Chúng tôi xem hướng của cụm như là bài toán phân lớp: Hướng của cụm (M, S, D) là nhãn. Vì vậy trong quá trình giải mã, cách hiệu quả để giải quyết bài toán phân lớp là cách tiếp cận dựa vào Maximum Entropy: p (oi | e i , f ai ) = exp( ∑ j θ j h j ( oi , e i , f ai )) ∑ 0 exp(∑ j θ j h j ( oi , e i , f ai )) Định nghĩa các đặc trưng 1) Từ chính của cụm (HW). Ví dụ cụm “social sciences”, HW là “sciences” 2) Một phần của chức năng ngữ pháp (POS) của từ chính (TG). Ví dụ cụm “social sciences”, TG là NNS. 3) Nhãn cú pháp của cụm (SL). Ví dụ với cụm “social sciences”, SL là NP 4) Đặc trưng nút mẹ (Parent Features) Nút mẹ của ST trong cây phân tích của câu nguồn. Với cùng cây con của câu nguồn có nút mẹ khác nhau trong ví dụ huấn luyện. Và các đặc trưng này có thể cung cấp thông tin để phân biệt giữa các cây con của câu nguồn. Hình 2a biểu diễn nút mẹ của cây con ST (“social sciences”) là nút VP trong hình thoi. 5) Đặc trưng nút anh em (Sibling Features) Nút anh em của nút gốc ST (“social sciences”). Đặc trưng này xem xét nút anh em (nút VBD trong hình thoi) mà cùng nút mẹ (VP). Được biểu diễn ở hình 2b. Hình 2. Minh họa về một số đặc trưng 109 Nguyễn Văn Vinh và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ Trong quá trình trích trọn đặc trưng, chúng ta phải gán nhãn cho các cặp cụm mà được cho bởi các cụm nguồn và cây phân tích của nó. Sự thực hiện gán nhãn cụm như sau: • Nếu cây con (subtree) ST phủ chính xác cụm p thì chúng ta xác định (HW, TG, SL, PF, SBF) từ cây con trên. • Nếu cây con mà không phủ toàn bộ cụm p (cụm p không là thành phần ngữ pháp) thì ta chọn cây con nhỏ nhất SST mà chứa p. Ta xác định (HW, TG, SL, PF, SBF) từ cây con SST cho cụm p (nếu HW ∉ p, chúng ta chọn từ đầu tiên của cụm p làm HW). Chúng tôi tính p (oi | e i , f ai Để tính toán những xác suất này, mô hình phải xác định các khối liên tiếp M hoặc S mà có thể kết hợp với nhau thành khối phân cấp. Chúng tôi đã sử dụng thuật toán như mô tả trong [2] để tính các xác suất trên. ) dựa vào gióng hàng cụm trước ai-1 của ai. Với mỗi (e i , f ai ) chung ta có m ví dụ của cặp cụm (ei , f ai , aik−1 , ai ) (k = 1, .., m). Mỗi ví dụ của cặp cụm, chúng ta trích trọn đặc trưng dựa vào cây con ST của f ai và f ak i −1 . Chúng tôi sử dụng 2 mẫu của đặc trưng là từng đặc trưng và kết hợp các đặc trưng. Huấn luyện Đầu tiên mỗi cặp cụm, ta trích trọn ví dụ từ mỗi cặp cụm. Thứ hai, chúng ta tính toán p(oi | e i , f ai ) sử dụng mô hình Maximum Entropy. Tất cả các ví dụ của cặp cụm trong mô hình này được trích trọn theo thuật toán trích cụm [10] với độ dài của cụm là 8. Chúng tôi trích trọn đặc trưng như mô tả như ở trên từ các ví dụ của các cặp cụm. Sau đó chúng tôi sử dụng công cụ mã nguồn mở Maximum Entropy để huấn luyện mô hình Maximum Entropy cho mô hình đảo trật tự. Chúng tôi thiết lập số vòng lặp là 100 và tham số ưu tiên Gaussian là 1. Quá trình giải mã Trong quá trình giải mã, chúng ta cần tìm theo ê công thức (2). Chúng tôi phát triển công cụ giải mã cho dịch thống kê dựa vào cụm dưa vào công cụ giải mã Pharaoh [3]. Để tích hợp mô hình HRM vào quá trình giải mã, chúng tôi tính điểm đảo trật tự cụm với mô hình HRM (xác định p (oi | e i , f 110 113(13): 107 - 113 ai ) ). Hình 3. Cụm phân cấp h1 và h2 biểu diễn “may gio” and “khong” có hướng Swap (S). Trong khi h3 biểu diễn “?” có hướng là Monotone (M) Chúng tôi sử dụng một thể hiện của thuật toán phân tích shift-reduce và dựa vào ngăn xếp (Stk) chứa chuỗi xâu nguồn mà đã được dịch. Mỗi lần, quá trình giải mã sẽ thêm khối mới vào giả thuyết dịch hiện thời, nó sẽ chuyển khối ngôn ngữ nguồn vào Stk, sau đó nó lặp đi lặp lại việc kết hợp hai phần tử trên đỉnh của ngăn xếp Stk nếu chúng là liên tiếp nhau. Chúng ta không cần lưu trữ ngôn ngữ đích bởi vì quá trình giải mã thực hiện từ trái qua phải và các khối thành công luôn luôn là liên tiếp nhau theo ngôn ngữ đích. Với ví dụ: Cho ngôn ngữ nguồn tiếng Anh “Do you know what time the film begins?” và câu dịch tương ứng trong tiếng Việt là: “Ban biet bo_phim bat_dau may gio khong ?”. Chúng tôi minh họa các bước của quá trình dịch này. Hình 4 mô tả các bước thực thi của thuật toán này mà kết quả dịch được thể hiện trong hình 3 mà ở đây thực hiện quá trình giải mã của MHTKC và tích hợp mô hình đảo trật tự cụm phân cấp. Cột đầu tiên biểu diễn cụm đích mà quá trình giải mã thực hiện từ trái qua phải. Cột thứ 3 bao gồm các toán tử chuyển- shift (S), kết hợp- reduce (R) và chấp nhận (A) của ngăn xếp Stk. Cột ngăn xếp (Stk) và cột cụm nguồn bao gồm các cận (span) của cụm nguồn (vị trí từ của cụm nguồn trong câu nguồn) mà ở đây Nguyễn Văn Vinh và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ là các thông tin cần thiết để xác định hai khối có liên tiếp nhau hay không. Cột oi biểu diễn nhãn được dự đoán bởi mô hình phân cấp bằng cách so sánh khối hiện tại với khối phân cấp trên đỉnh của Stk. Cụm nguồn Ban Biet bo_phim Source spans [2-2] [3-3] [6-7] Thực hiện S R S Oi bat_dau [8-8] R M may_gio [4-5] R S khong ? [1-1] [9] R,R R,A S M M M D Ngăn xếp (Stk) [2-2] [2-3] [6-7], [2-3] [6-8], [2-3] [2-8] [1-8] Hình 4. Thuật toán phân tích shift - reducefor xác định khối phân cấp với ví dụ trong hình 3 Quá trình giải mã thành công khi đặt vào Stk các cận của cụm nguồn [2-2], [3-3] mà ở đây kết hợp 2 cụm này thành [2-3] và chúng tương ứng có hướng monotone (M). Tiếp theo là khối [6-7] tương ứng là hướng (D) nên ta đặt vào Stk. Tiếp theo, quá trình giải mã sẽ kết hợp khối [8-8] với [6-7] thành [6-8] với hướng M và sau đó kết hợp [4-5] với [6-8] thành [4-8] với hướng S. Và cuối cùng khi quá trình giải mã thực hiện tới cụm “khong”, tương ứng với cận của cụm nguồn [1-1] mà sẽ được kết hợp thành công với [2-8] sinh ra trong ngăn xếp Stk bao gồm [1-8]. Bảng 1. Kho dữ liệu và tập dữ liệu (đơn vị bằng số câu) Sentence Training Dev Test Corpus pairs set set set General 55,341 54,642 200 499 KẾT QUẢ THỬ NGHIỆM Tập dữ liệu Chúng tôi thử nghiệm với cặp ngôn ngữ AnhViệt. Chúng tôi sử dụng kho dữ liệu song ngữ Anh-Việt được tập hợp từ báo mới hàng ngày [10]. Kho dữ liệu này bao gồm 55,341 cặp câu song ngữ, được chia là 3 tập: huấn luyện, tập phát triển và tập thử nghiệm. Tập dữ liệu 113(13): 107 - 113 được mô tả chi tiết trong bảng 1 và thông tin thống kê được mô tả trong bảng 2. Điểm BLEU Chúng tôi thử nghiệm trên PC với bộ vi xử lý Core 2- Duo 2.4 GZ, bộ nhớ 4 GB. Kết quả được thể hiện trên bảng 3. Chúng tôi chạy GIZA++[7] trong kho dữ liệu huấn luyện với cả hai hướng sử dụng các tham số mặc định, và ứng dụng luật “grow-diag-final” [6] để tạo ra gióng hàng từ tương ứng nhiều-nhiều cho mỗi cặp câu Anh-Việt. Về mô hình ngôn ngữ chúng tôi sử dụng công cụ mã nguồn mở SRILM [9]. Về đánh giá chất lượng dịch, chúng tôi sử dụng độ đo BLEU [8] mà được tính bởi công cụ Nist phiên bản 11b. Về phân tích các câu tiếng Anh trong tập huấn luyện, chúng tôi sử dụng một trong bộ phân tích thống kê tốt nhất hiện nay [1]. Sau đó chúng tôi trích trọn đặc trưng của các cặp ví dụ theo phương pháp của chúng tôi mô tả ở trên. Kết quả về chất lượng dịch được mô tả trong bảng 3. Hệ thống baseline là hệ thông dịch thống kê dựa vào cụm thông thường [3]. Thêm vào đó, chúng tôi cũng so sánh hệ thống của chúng tôi với hai hệ thống: (1) hệ thông dịch dựa vào cụm tốt nhất hiện nay – Moses [5] mà ở đây có sử dụng mô hình đảo trật tự từ vựng; (2) hệ thống HRM mà ở đây hệ thống sử dụng mô hình đảo trật tự từ vựng phân cấp [2]. Ở đây chúng tôi cũng đánh giá hệ thống với từng loại đặc trưng bao gồm cả địa phương lẫn toàn cục. Để đánh giá ảnh hưởng của các đặc trựng địa phương và toàn cục, chúng tôi thử nghiệm với 4 hệ thống sử dụng phương pháp trên bao gồm: “HW + TG + SL”, “HW + TG + SL + PF”, “HW + TG + SL + SBF”, HW + TG + SL + PF + SBF (tất cả đặc trưng)”. Điểm BLEU của hệ thống HRM và bốn hệ thống MEM tương ứng là 35.39, 36.14, 36.35, 36.51, 36.76 mà ở đây cải tiến 0.64, 1.39, 1.67, 1.58, 2.01 điểm so với hệ thống Moses. Điểm BLEU của hệ thống “HW + TG + SL” và “HW + TG + SL + PF + SBF” cải tiến 0.75 và 1.37 điểm BLUE so với hệ thống HRM. Bảng 2. Thống kê thông tin về kho dữ liệu Anh – Việt 111