intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Một cách tiếp cận tích hợp trí thức về ngôn ngữ vào hệ dịch máy thống kê

Chia sẻ: Thi Thi | Ngày: | Loại File: PDF | Số trang:7

54
lượt xem
1
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mô hình dịch thống kê dựa vào cụm (MHTKC) [6] là một trong những mô hình dịch tự động tốt nhất hiện nay. Tuy nhiên sự hạn chế của mô hình MHTKC là nó xem xét các cụm như là dãy liên tiếp các từ và nó hoàn toàn bỏ qua bất cứ thông tin về ngôn ngữ (thông tin cú pháp, thông tin ngữ nghĩa,…). Để giải quyết vấn đề này, trong bài báo này, chúng tôi tập trung vào nghiên cứu cải tiến mô hình đảo trật tự từ vựng.

Chủ đề:
Lưu

Nội dung Text: Một cách tiếp cận tích hợp trí thức về ngôn ngữ vào hệ dịch máy thống kê

Nguyễn Văn Vinh và Đtg<br /> <br /> Tạp chí KHOA HỌC & CÔNG NGHỆ<br /> <br /> 113(13): 107 - 113<br /> <br /> MỘT CÁCH TIẾP CẬN TÍCH HỢP TRÍ THỨC VỀ NGÔN NGỮ<br /> VÀO HỆ DỊCH MÁY THỐNG KÊ<br /> Nguyễn Văn Vinh1, Lê Thu Trang2,*, Nguyễn Thị Xuân Hương3<br /> 2<br /> <br /> 1<br /> Trường Đại học Công nghệ – ĐH Quốc Gia Hà Nội<br /> Trường Đại học Công nghệ thông tin và Truyền thông – ĐH Thái Nguyên<br /> 3<br /> Trường Đại học Dân lập Hải Phòng<br /> <br /> TÓM TẮT<br /> Mô hình dịch thống kê dựa vào cụm (MHTKC) [6] là một trong những mô hình dịch tự động tốt nhất<br /> hiện nay. Tuy nhiên sự hạn chế của mô hình MHTKC là nó xem xét các cụm như là dãy liên tiếp các<br /> từ và nó hoàn toàn bỏ qua bất cứ thông tin về ngôn ngữ (thông tin cú pháp, thông tin ngữ nghĩa,…).<br /> Để giải quyết vấn đề này, trong bài báo này, chúng tôi tập trung vào nghiên cứu cải tiến mô hình đảo<br /> trật tự từ vựng. Chúng tôi mở rộng mô hình đảo trật tự cụm có phân cấp [2] sử dụng mô hình<br /> Maximum Entropy (ME) để đoán hướng và ước lượng xác suất. Với mô hình này, chúng ta có thể<br /> tích hợp thông tin giàu tri thức ngôn ngữ vào như các thuộc tính địa phương cũng như là toàn cục.<br /> Hơn nữa, xác suất được ước lượng bằng mô hình ME sẽ chính xác và mịn hơn so với ước lượng dựa<br /> vào cách tiếp cần tần suất tương đối. Kết quả thử nghiệm với cặp ngôn ngữ Anh-Việt cho thấy cách<br /> tiếp cận của chúng tôi tốt hơn so với cách tiếp cận sử dụng mô hình từ vựng phân cấp [2].<br /> Từ khóa: Mô hình dịch thống kê, trí thức về ngôn ngữ.<br /> <br /> ĐẶT VẤN ĐỀ*<br /> Những năm gần đây, sự bùng nổ của cách tiếp<br /> cận dịch máy thống kê dựa vào cụm đã tạo ra<br /> các sản phẩm thương mại được sử dụng rộng<br /> rãi trên thế giới (hệ dịch của google,<br /> microsoft, …) [14][15]. Một trong những vấn<br /> đề quan trọng của dịch máy thống kê dựa vào<br /> cụm liên quan đến việc là làm thế nào để sinh<br /> ra thứ tự các từ (cụm) chính xác trong ngôn<br /> ngữ đích.<br /> <br /> Hình 1. Hướng của cụm (M, S, D) cho ví dụ dịch<br /> Anh-Việt<br /> <br /> Để giải quyết vấn đề trên, gần đây, trong<br /> [4][5], mô hình đảo trật tự từ vựng (LRMs) đã<br /> phát triển để dự đoán hướng của cặp cụm dựa<br /> vào cụm đích liền kề. Những mô hình này<br /> phân biệt ba hướng của cặp cụm hiện tại theo<br /> *<br /> <br /> Tel: 0925009989<br /> <br /> cụm đích phía trước: (1) monotone (M) – cụm<br /> nguồn phía trước là liền kề trước cụm nguồn<br /> hiện tại, (2) swap (S) – cụm nguồn phía trước<br /> là liền kề sau cụm nguồn hiện tại và (3)<br /> discontinuous (D) – không phải là S và M.<br /> Hình 1 (1) biểu diễn ví dụ mà ở đây mô hình<br /> hiệu quả trong việc swap cụm tính từ “nice<br /> new” và cụm “house” và cụm “a” là<br /> monotone với cụm “This is”. Những mô hình<br /> đảo trật tự từ vựng này cho chất lượng tốt hơn<br /> so với MHTKC. Tuy nhiên những mô hình<br /> này giải quyết đảo trật tự từ của các cụm cạnh<br /> nhau, chúng thường thất bại khi cụm từ mà vị<br /> trị đảo nằm xa nhau. Ví dụ trong hình 1 (2),<br /> hướng của cụm “Tom’s” nên được swap với<br /> phần còn lại của cụm danh từ, tuy nhiên LRM<br /> đoán hướng là discontinuous (D).<br /> Galley and Manning [2] đã mở rộng mô hình<br /> LRMs bằng cách đề xuất mô hình đảo cụm<br /> phân cấp (HRM). Mô hình này dựa vào cấu<br /> trúc phân cấp và có thể giải quyết được<br /> trường hợp đảo vị trí của các cụm xa nhau. Ví<br /> dụ trong hình 1(2) mô hình của họ có thể giải<br /> quyết được cụm liền kề “two” và “blue<br /> books” như là một cụm và sự thay thế của<br /> “Tom’s” theo cụm này được giải quyết như là<br /> swap(S). Tuy nhiên, mô hình của họ cũng có<br /> vài nhược điểm như sau:<br /> 107<br /> <br /> Nguyễn Văn Vinh và Đtg<br /> <br /> Tạp chí KHOA HỌC & CÔNG NGHỆ<br /> <br /> • Mô hình này ước lượng xác suất dựa vào<br /> cách tiếp cận quan hệ tần suất, mà ở đây sẽ<br /> chụi ảnh hưởng của vấn đề dữ liệu thưa. Một<br /> trong những lý do là hầu hết các ví dụ về cụm<br /> chỉ xuất hiện 1 lần trong dữ liệu huấn luyện<br /> (96.5% ví dụ về cụm xuất hiện 1 lần trong<br /> kho dữ liệu “General”).<br /> • Mô hình này không sử dụng bất cứ thông tin<br /> về ngôn ngữ. Điều này làm thiếu thông tin<br /> ngữ cảnh trong việc dự đoán hướng và ước<br /> lượng xác suất của cặp cụm.<br /> Chúng tôi tập trung vào nghiên cứu cải tiến<br /> mô hình đảo trật tự từ vựng. Chúng tôi mở<br /> rộng mô hình đảo trật tự cụm có phân cấp [2]<br /> sử dụng mô hình Maximum Entropy (ME) để<br /> đoán hướng và ước lượng xác suất . Với mô<br /> hình này, chúng ta có thể tích hợp thông tin<br /> giàu trí thức ngôn ngữ vào như các thuộc tính<br /> địa phương cũng như là toàn cục. Hơn nữa,<br /> xác suất được ước lượng bằng mô hình ME sẽ<br /> chính xác và mịn hơn so với ước lượng dựa<br /> vào cách tiếp cần tần suất tương đối. Kết quả<br /> thử nghiệm với cặp ngôn ngữ Anh-Việt cho<br /> thấy cách tiếp cận của chúng tôi tốt hơn so<br /> với cách tiếp cận sử dụng mô hình từ vựng<br /> phân cấp [2].<br /> MỘT SỐ NGHIÊN CỨU LIÊN QUAN<br /> Quá trình giải mã trong MHTKC xây dựng câu<br /> đích từ trái qua phải. Từ giả thuyết hiện tại,<br /> điều quan trọng là phải xác định cụm nguồn<br /> nào cần được dịch. Một vài nhà nghiên cứu<br /> [11], [4] đã đề xuất mô hình khá mạnh được<br /> gọi là mô hình đảo trật tự từ vựng cho việc dự<br /> đoán hướng của cụm nguồn như mô tả ở phần<br /> trên. LRMs học hướng địa phương (monotonecùng hướng, swap- khác hướng, discontinue không gần nhau) với xác suất của mỗi cặp cụm<br /> song ngữ từ dữ liệu huấn luyện.<br /> [12][13] ứng dụng mô hình Maximum<br /> Entropy cho đảo trật tự cụm. Họ sử dụng ME<br /> ước lượng xác suất đảo cụm. Tuy nhiên họ sử<br /> dụng các đặc trưng đơn giản và áp dụng vào<br /> các mô hình khác của dịch máy.<br /> Galley and Manning [2] đã mở rộng mô hình<br /> LRMs bằng cách đề xuất mô hình đảo cụm<br /> phân cấp (HRM). Mô hình này dựa vào cấu<br /> trúc phân cấp và có thể giải quyết được<br /> 108<br /> <br /> 113(13): 107 - 113<br /> <br /> trường hợp đảo vị trí của các cụm xa nhau.<br /> Tuy nhiên mô hình của họ cũng một số nhược<br /> điểm như đã nêu ở phần trên.<br /> MÔ HÌNH ĐẢO TRẬT TỰ TỪ VỰNG<br /> Để cải tiến mô hình đảo cụm dựa vào khoảng<br /> cách, [4] [11] đã đề xuất mô hình đảo trật tự<br /> từ vựng. Mô hình sẽ dựa vào quan hệ vị trí<br /> với các cụm liền kề của cụm đích từ đó tính<br /> xác suất của các cặp cụm tương ứng.<br /> Cho một câu nguồn f, mà được dịch thành câu<br /> ngôn ngữ đích e. Hệ thống dịch thống kê dựa<br /> vào cụm tốt nhất hiện nay là mô hình tuyến<br /> tính logarit của xác suất điều kiện Pr(f|e):<br /> e x p ∑ i λ i hi ( e , f )<br /> (1)<br /> P r( f | e ) =<br /> ∑ e ' e x p λ i hi ( e ', f )<br /> Ở đây hi (e, f ) là hàm đặc trưng bất kỳ trên<br /> cặp câu (e,f). Tham số λ là trọng số của các<br /> hàm đặc trưng hi (e, f ) . Quá trình tìm kiếm<br /> giải mã sẽ tìm câu dịch tốt nhất ê thỏa mãn<br /> công thức sau:<br /> <br /> <br /> (2)<br /> ê =<br /> exp<br /> λ h (e, f )<br /> <br /> arg max<br /> e<br /> <br /> <br /> <br /> <br /> ∑<br /> <br /> i<br /> <br /> <br /> <br /> <br /> i<br /> <br /> i<br /> <br /> Các đặc trưng bao gồm trong mô hình đảo trật<br /> tự từ vựng đươc tham số hóa như sau: cho<br /> trước câu nguồn f, dãy các cụm ngôn ngữ<br /> đích e = (e1 ,......., en ) là các giả thuyết hiện<br /> tại của quá trình giải mã và gióng hàng cụm<br /> a = (a1 ,...., an ) xác định sao cho cụm nguồn<br /> <br /> f ai tương ứng với cụm dịch của nó là cụm<br /> đích ei. Những mô hình ước lượng xác suất<br /> của dãy các hướng (o = o1, …, on ) như sau:<br /> <br /> P r( o | e , f ) =<br /> <br /> n<br /> <br /> ∏<br /> i =1<br /> <br /> p ( oi | e i , f<br /> <br /> ai<br /> <br /> )<br /> <br /> trong đó oi nhận các giá trị hướng<br /> ∆ = M , S , D . Trong khi tuyển tập các cặp<br /> cụm, có thể phân loại chúng thành 3 hướng<br /> như sau:<br /> • oi = M nếu ai – ai -1 = 1<br /> • oi = S nếu ai – ai -1 = -1<br /> • oi = D nếu (ai – ai -1 ≠ 1 và ai – ai -1 ≠ -1)<br /> Trong từng bước của quá trình giải mã, chúng<br /> tôi dựa vào cách tiếp cận của Moses mà ở đây<br /> <br /> Nguyễn Văn Vinh và Đtg<br /> <br /> Tạp chí KHOA HỌC & CÔNG NGHỆ<br /> <br /> gán cho ba tham số phân biệt (λm, λs, λd ) với<br /> ba hàm đặc trưng tương ứng:<br /> <br /> fm =<br /> <br /> ∑ i =1 log p ( oi = M |e i , f ai )<br /> n<br /> <br /> f s = ∑ i =1 log p ( oi = S |e i , f ai )<br /> n<br /> <br /> f d = ∑ i =1 log p ( oi = D |e i , f ai )<br /> n<br /> <br /> Để tích hợp p (oi | e i , f<br /> <br /> ai<br /> <br /> ) vào công thức<br /> <br /> (1) trong quá trình giải mã, chúng ta cần tính<br /> những giá trị xác suất này. Cách đơn giản để<br /> tính là ta dựa vào tần xuất xuất hiện như sau:<br /> <br /> p (oi | e i , f<br /> <br /> ai<br /> <br /> )=<br /> <br /> C o u n t (oi , e i , f<br /> <br /> ai )<br /> <br /> ∑ 0 C o u n t ( o , e i , f ai )<br /> <br /> trong đó Count(x) là số lần xuất hiện của x<br /> trong dữ liệu huấn luyện.<br /> Chúng tôi tính p (oi | e i , f<br /> <br /> ai<br /> <br /> ) dựa vào gióng<br /> <br /> hàng cụm trước ai-1 của ai. Chúng ta giả sử ai<br /> có m gióng hàng cụm trước. Ta có:<br /> <br /> ∑ Count ( o , e i , f , a )<br /> ∑ ∑ Count ( o , e , f , a )<br /> m<br /> <br /> p ( oi | e i , f<br /> <br /> ai ) =<br /> <br /> k =1<br /> <br /> i<br /> <br /> k<br /> i −1<br /> <br /> ai<br /> <br /> m<br /> <br /> k =1<br /> <br /> i<br /> <br /> 0<br /> <br /> k<br /> i −1<br /> <br /> ai<br /> <br /> Tuy nhiên, cách tính như trên sẽ gặp một số<br /> vấn đề như là dữ liệu thưa vì vậy cách hợp lý<br /> là ta sử dụng mô hình Maximum Entropy để<br /> tích hợp đặc trưng và tính xác suất như sau:<br /> p ( oi | e i , f<br /> <br /> ai<br /> <br /> )=<br /> <br /> exp( ∑ j θ j h j ( oi , e i , f<br /> <br /> ∑ 0 exp( ∑<br /> <br /> j<br /> <br /> ai<br /> <br /> θ j h j ( oi , e i , f<br /> <br /> ))<br /> ai<br /> <br /> ))<br /> <br /> TÍCH HỢP MÔ HÌNH ĐẢO TRẬT TỰ TỪ<br /> VỰNG VÀO HỆ THỐNG DỊCH MÁY DỰA<br /> VÀO CỤM SỬ DỤNG MÔ HÌNH<br /> MAXIMUM ENTROPY<br /> <br /> 113(13): 107 - 113<br /> <br /> Mô hình<br /> Trong phần này chúng tập trung sử dụng<br /> thông tin ngữ cảnh để giúp HRM tính xác<br /> suất và dự đoán hướng của cụm. Chúng tôi<br /> xem hướng của cụm như là bài toán phân lớp:<br /> Hướng của cụm (M, S, D) là nhãn. Vì vậy<br /> trong quá trình giải mã, cách hiệu quả để giải<br /> quyết bài toán phân lớp là cách tiếp cận dựa<br /> vào Maximum Entropy:<br /> p (oi | e i , f ai ) =<br /> <br /> exp( ∑ j θ j h j ( oi , e i , f ai ))<br /> <br /> ∑ 0 exp(∑<br /> <br /> j<br /> <br /> θ j h j ( oi , e i , f<br /> <br /> ai<br /> <br /> ))<br /> <br /> Định nghĩa các đặc trưng<br /> 1) Từ chính của cụm (HW). Ví dụ cụm<br /> “social sciences”, HW là “sciences”<br /> 2) Một phần của chức năng ngữ pháp (POS)<br /> của từ chính (TG). Ví dụ cụm “social<br /> sciences”, TG là NNS.<br /> 3) Nhãn cú pháp của cụm (SL). Ví dụ với<br /> cụm “social sciences”, SL là NP<br /> 4) Đặc trưng nút mẹ (Parent Features)<br /> Nút mẹ của ST trong cây phân tích của câu<br /> nguồn. Với cùng cây con của câu nguồn có<br /> nút mẹ khác nhau trong ví dụ huấn luyện. Và<br /> các đặc trưng này có thể cung cấp thông tin<br /> để phân biệt giữa các cây con của câu nguồn.<br /> Hình 2a biểu diễn nút mẹ của cây con ST<br /> (“social sciences”) là nút VP trong hình thoi.<br /> 5) Đặc trưng nút anh em (Sibling Features)<br /> Nút anh em của nút gốc ST (“social<br /> sciences”). Đặc trưng này xem xét nút anh em<br /> (nút VBD trong hình thoi) mà cùng nút mẹ<br /> (VP). Được biểu diễn ở hình 2b.<br /> <br /> Hình 2. Minh họa về một số đặc trưng<br /> 109<br /> <br /> Nguyễn Văn Vinh và Đtg<br /> <br /> Tạp chí KHOA HỌC & CÔNG NGHỆ<br /> <br /> Trong quá trình trích trọn đặc trưng, chúng ta<br /> phải gán nhãn cho các cặp cụm mà được cho<br /> bởi các cụm nguồn và cây phân tích của nó.<br /> Sự thực hiện gán nhãn cụm như sau:<br /> • Nếu cây con (subtree) ST phủ chính xác<br /> cụm p thì chúng ta xác định (HW, TG, SL,<br /> PF, SBF) từ cây con trên.<br /> • Nếu cây con mà không phủ toàn bộ cụm p<br /> (cụm p không là thành phần ngữ pháp) thì ta<br /> chọn cây con nhỏ nhất SST mà chứa p. Ta<br /> xác định (HW, TG, SL, PF, SBF) từ cây con<br /> SST cho cụm p (nếu HW ∉ p, chúng ta chọn<br /> từ đầu tiên của cụm p làm HW).<br /> Chúng tôi tính p (oi | e i , f<br /> <br /> ai<br /> <br /> Để tính toán những xác suất này, mô hình<br /> phải xác định các khối liên tiếp M hoặc S mà<br /> có thể kết hợp với nhau thành khối phân cấp.<br /> Chúng tôi đã sử dụng thuật toán như mô tả<br /> trong [2] để tính các xác suất trên.<br /> <br /> ) dựa vào gióng<br /> <br /> hàng cụm trước ai-1 của ai. Với mỗi (e i , f ai )<br /> chung ta có m ví dụ của cặp cụm<br /> <br /> (ei , f ai , aik−1 , ai ) (k = 1, .., m). Mỗi ví dụ<br /> của cặp cụm, chúng ta trích trọn đặc trưng<br /> dựa vào cây con ST của f ai và<br /> <br /> f ak<br /> <br /> i −1<br /> <br /> .<br /> <br /> Chúng tôi sử dụng 2 mẫu của đặc trưng là<br /> từng đặc trưng và kết hợp các đặc trưng.<br /> Huấn luyện<br /> Đầu tiên mỗi cặp cụm, ta trích trọn ví dụ từ<br /> mỗi cặp cụm. Thứ hai, chúng ta tính toán<br /> <br /> p(oi | e i , f ai ) sử dụng mô hình Maximum<br /> Entropy. Tất cả các ví dụ của cặp cụm trong<br /> mô hình này được trích trọn theo thuật toán<br /> trích cụm [10] với độ dài của cụm là 8.<br /> Chúng tôi trích trọn đặc trưng như mô tả như<br /> ở trên từ các ví dụ của các cặp cụm. Sau đó<br /> chúng tôi sử dụng công cụ mã nguồn mở<br /> Maximum Entropy để huấn luyện mô hình<br /> Maximum Entropy cho mô hình đảo trật tự.<br /> Chúng tôi thiết lập số vòng lặp là 100 và tham<br /> số ưu tiên Gaussian là 1.<br /> Quá trình giải mã<br /> Trong quá trình giải mã, chúng ta cần tìm<br /> theo ê công thức (2). Chúng tôi phát triển<br /> công cụ giải mã cho dịch thống kê dựa vào<br /> cụm dưa vào công cụ giải mã Pharaoh [3]. Để<br /> tích hợp mô hình HRM vào quá trình giải mã,<br /> chúng tôi tính điểm đảo trật tự cụm với mô<br /> hình HRM (xác định p (oi | e i , f<br /> 110<br /> <br /> 113(13): 107 - 113<br /> <br /> ai<br /> <br /> ) ).<br /> <br /> Hình 3. Cụm phân cấp h1 và h2 biểu diễn “may<br /> gio” and “khong” có hướng Swap (S). Trong khi<br /> h3 biểu diễn “?” có hướng là Monotone (M)<br /> <br /> Chúng tôi sử dụng một thể hiện của thuật toán<br /> phân tích shift-reduce và dựa vào ngăn xếp<br /> (Stk) chứa chuỗi xâu nguồn mà đã được dịch.<br /> Mỗi lần, quá trình giải mã sẽ thêm khối mới<br /> vào giả thuyết dịch hiện thời, nó sẽ chuyển<br /> khối ngôn ngữ nguồn vào Stk, sau đó nó lặp<br /> đi lặp lại việc kết hợp hai phần tử trên đỉnh<br /> của ngăn xếp Stk nếu chúng là liên tiếp nhau.<br /> Chúng ta không cần lưu trữ ngôn ngữ đích<br /> bởi vì quá trình giải mã thực hiện từ trái qua<br /> phải và các khối thành công luôn luôn là liên<br /> tiếp nhau theo ngôn ngữ đích.<br /> Với ví dụ: Cho ngôn ngữ nguồn tiếng Anh<br /> “Do you know what time the film begins?” và<br /> câu dịch tương ứng trong tiếng Việt là: “Ban<br /> biet bo_phim bat_dau may gio khong ?”.<br /> Chúng tôi minh họa các bước của quá trình<br /> dịch này. Hình 4 mô tả các bước thực thi của<br /> thuật toán này mà kết quả dịch được thể hiện<br /> trong hình 3 mà ở đây thực hiện quá trình giải<br /> mã của MHTKC và tích hợp mô hình đảo trật<br /> tự cụm phân cấp.<br /> Cột đầu tiên biểu diễn cụm đích mà quá trình<br /> giải mã thực hiện từ trái qua phải. Cột thứ 3<br /> bao gồm các toán tử chuyển- shift (S), kết<br /> hợp- reduce (R) và chấp nhận (A) của ngăn<br /> xếp Stk. Cột ngăn xếp (Stk) và cột cụm nguồn<br /> bao gồm các cận (span) của cụm nguồn (vị trí<br /> từ của cụm nguồn trong câu nguồn) mà ở đây<br /> <br /> Nguyễn Văn Vinh và Đtg<br /> <br /> Tạp chí KHOA HỌC & CÔNG NGHỆ<br /> <br /> là các thông tin cần thiết để xác định hai khối<br /> có liên tiếp nhau hay không. Cột oi biểu diễn<br /> nhãn được dự đoán bởi mô hình phân cấp<br /> bằng cách so sánh khối hiện tại với khối phân<br /> cấp trên đỉnh của Stk.<br /> Cụm<br /> nguồn<br /> Ban<br /> Biet<br /> bo_phim<br /> <br /> Source<br /> spans<br /> [2-2]<br /> [3-3]<br /> [6-7]<br /> <br /> Thực<br /> hiện<br /> S<br /> R<br /> S<br /> <br /> Oi<br /> <br /> bat_dau<br /> <br /> [8-8]<br /> <br /> R<br /> <br /> M<br /> <br /> may_gio<br /> <br /> [4-5]<br /> <br /> R<br /> <br /> S<br /> <br /> khong<br /> ?<br /> <br /> [1-1]<br /> [9]<br /> <br /> R,R<br /> R,A<br /> <br /> S<br /> M<br /> <br /> M<br /> M<br /> D<br /> <br /> Ngăn xếp<br /> (Stk)<br /> [2-2]<br /> [2-3]<br /> [6-7],<br /> [2-3]<br /> [6-8],<br /> [2-3]<br /> [2-8]<br /> [1-8]<br /> <br /> Hình 4. Thuật toán phân tích shift - reducefor xác<br /> định khối phân cấp với ví dụ trong hình 3<br /> <br /> Quá trình giải mã thành công khi đặt vào Stk<br /> các cận của cụm nguồn [2-2], [3-3] mà ở đây<br /> kết hợp 2 cụm này thành [2-3] và chúng<br /> tương ứng có hướng monotone (M). Tiếp theo<br /> là khối [6-7] tương ứng là hướng (D) nên ta<br /> đặt vào Stk. Tiếp theo, quá trình giải mã sẽ<br /> kết hợp khối [8-8] với [6-7] thành [6-8] với<br /> hướng M và sau đó kết hợp [4-5] với [6-8]<br /> thành [4-8] với hướng S. Và cuối cùng khi<br /> quá trình giải mã thực hiện tới cụm “khong”,<br /> tương ứng với cận của cụm nguồn [1-1] mà sẽ<br /> được kết hợp thành công với [2-8] sinh ra<br /> trong ngăn xếp Stk bao gồm [1-8].<br /> Bảng 1. Kho dữ liệu và tập dữ liệu<br /> (đơn vị bằng số câu)<br /> Sentence Training Dev Test<br /> Corpus<br /> pairs<br /> set<br /> set<br /> set<br /> General<br /> 55,341<br /> 54,642<br /> 200<br /> 499<br /> <br /> KẾT QUẢ THỬ NGHIỆM<br /> Tập dữ liệu<br /> Chúng tôi thử nghiệm với cặp ngôn ngữ AnhViệt. Chúng tôi sử dụng kho dữ liệu song ngữ<br /> Anh-Việt được tập hợp từ báo mới hàng ngày<br /> [10]. Kho dữ liệu này bao gồm 55,341 cặp<br /> câu song ngữ, được chia là 3 tập: huấn luyện,<br /> tập phát triển và tập thử nghiệm. Tập dữ liệu<br /> <br /> 113(13): 107 - 113<br /> <br /> được mô tả chi tiết trong bảng 1 và thông tin<br /> thống kê được mô tả trong bảng 2.<br /> Điểm BLEU<br /> Chúng tôi thử nghiệm trên PC với bộ vi xử lý<br /> Core 2- Duo 2.4 GZ, bộ nhớ 4 GB. Kết quả<br /> được thể hiện trên bảng 3. Chúng tôi chạy<br /> GIZA++[7] trong kho dữ liệu huấn luyện với<br /> cả hai hướng sử dụng các tham số mặc định,<br /> và ứng dụng luật “grow-diag-final” [6] để tạo<br /> ra gióng hàng từ tương ứng nhiều-nhiều cho<br /> mỗi cặp câu Anh-Việt. Về mô hình ngôn ngữ<br /> chúng tôi sử dụng công cụ mã nguồn mở<br /> SRILM [9]. Về đánh giá chất lượng dịch,<br /> chúng tôi sử dụng độ đo BLEU [8] mà được<br /> tính bởi công cụ Nist phiên bản 11b. Về phân<br /> tích các câu tiếng Anh trong tập huấn luyện,<br /> chúng tôi sử dụng một trong bộ phân tích<br /> thống kê tốt nhất hiện nay [1]. Sau đó chúng<br /> tôi trích trọn đặc trưng của các cặp ví dụ theo<br /> phương pháp của chúng tôi mô tả ở trên.<br /> Kết quả về chất lượng dịch được mô tả trong<br /> bảng 3. Hệ thống baseline là hệ thông dịch<br /> thống kê dựa vào cụm thông thường [3].<br /> Thêm vào đó, chúng tôi cũng so sánh hệ<br /> thống của chúng tôi với hai hệ thống: (1) hệ<br /> thông dịch dựa vào cụm tốt nhất hiện nay –<br /> Moses [5] mà ở đây có sử dụng mô hình đảo<br /> trật tự từ vựng; (2) hệ thống HRM mà ở đây<br /> hệ thống sử dụng mô hình đảo trật tự từ vựng<br /> phân cấp [2]. Ở đây chúng tôi cũng đánh giá<br /> hệ thống với từng loại đặc trưng bao gồm cả<br /> địa phương lẫn toàn cục.<br /> Để đánh giá ảnh hưởng của các đặc trựng địa<br /> phương và toàn cục, chúng tôi thử nghiệm với<br /> 4 hệ thống sử dụng phương pháp trên bao<br /> gồm: “HW + TG + SL”, “HW + TG + SL +<br /> PF”, “HW + TG + SL + SBF”, HW + TG +<br /> SL + PF + SBF (tất cả đặc trưng)”. Điểm<br /> BLEU của hệ thống HRM và bốn hệ thống<br /> MEM tương ứng là 35.39, 36.14, 36.35,<br /> 36.51, 36.76 mà ở đây cải tiến 0.64, 1.39,<br /> 1.67, 1.58, 2.01 điểm so với hệ thống Moses.<br /> Điểm BLEU của hệ thống “HW + TG + SL” và<br /> “HW + TG + SL + PF + SBF” cải tiến 0.75 và<br /> 1.37 điểm BLUE so với hệ thống HRM.<br /> <br /> Bảng 2. Thống kê thông tin về kho dữ liệu Anh – Việt<br /> 111<br /> <br />
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2