intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Ứng dụng xử lý ngôn ngữ tự nhiên trong dịch máy - TS. Nguyễn Chí Hiếu

Chia sẻ: Thảo Lê91 | Ngày: | Loại File: PDF | Số trang:14

125
lượt xem
20
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Ứng dụng xử lý ngôn ngữ tự nhiên trong dịch máy do TS. Nguyễn Chí Hiếu biên soạn trình bày phương pháp cải thiện chất lượng đối sánh từ trong bước tiền xử lý bằng cách chuyển đổi cấu trúc câu nguồn theo trật tự của câu đích để rút trích cụm danh từ song ngữ, đề xuất phương pháp xây dựng bảng từ và cụm từ song ngữ từ ngữ liệu song ngữ với các nét ngữ nghĩa, xác suất xuất hiện và luật chuyển đổi... Mời các bạn cùng tham khảo.

Chủ đề:
Lưu

Nội dung Text: Ứng dụng xử lý ngôn ngữ tự nhiên trong dịch máy - TS. Nguyễn Chí Hiếu

ỨNG DỤNG XỬ LÝ NGÔN NGỮ TỰ NHIÊN<br /> TRONG DỊCH MÁY<br /> TS. Nguyễn Chí Hiếu<br /> Khoa CN Thông tin – Trường ĐH Công nghiệp Tp. HCM<br /> TÓM TẮT<br /> Bài báo này đề xuất một mô hình nhận biết và rút trích tự động cụm danh từ song<br /> ngữ từ ngữ liệu song ngữ Anh-Việt bằng các công cụ nổi tiếng như GIZA++ -2003 [10]<br /> và GATE – 2005 [1]. Bài báo cũng trình bày phương pháp cải thiện chất lượng đối sánh<br /> từ trong bước tiền xử lý bằng cách chuyển đổi cấu trúc câu nguồn theo trật tự của câu<br /> đích để rút trích cụm danh từ song ngữ, đề xuất phương pháp xây dựng bảng từ và cụm<br /> từ song ngữ từ ngữ liệu song ngữ với các nét ngữ nghĩa, xác suất xuất hiện và luật<br /> chuyển đổi [8]. Ngoài ra, các thành phần cơ bản của một hệ thống dịch máy trên cơ sở<br /> cụm từ cũng được trình bày trong bài báo này. Thực nghiệm ban đầu cho kết quả khả<br /> quan.<br /> ABSTRACT<br /> This paper proposes the method Extracting English – Vietnamese Noun Phrases<br /> automatically which is building from Bilingual Corpus by well-known tools as GIZA++ -<br /> 2003 [10], GATE – 2005 [1]. In this method, the paper presents methods to improve the<br /> quality of word alignment in the pre-processing phase of Machine Translation by<br /> transferring sentence structures from the source language to target language and then<br /> using heuristics to extract noun phases. It also proposes the method of building the Phase<br /> and Word tables from Bilingual Corpus including semantics, probability and transfer<br /> rules [8]. The other components of the English – Vietnamese machine translation also<br /> are described in this paper. The result of the experiment was satisfactory.<br /> MỘT SỐ TỪ VIẾT TẮT<br /> NLP: Natural Language Processing<br /> MT: Machine Translation<br /> RBMT: Rule Based Machine Translation<br /> EBMT: Example Based Machine Translation<br /> SMT: Statistical Machine Translation<br /> PBMT: Phrase Based Machine Translation<br /> 1. GIỚI THIỆU<br /> Xử lý ngôn ngữ tự nhiên là một lĩnh vực nghiên cứu nhằm giúp cho các hệ thống<br /> máy tính hiểu và xử lý được ngôn ngữ con người. Dịch máy là một trong những ứng dụng<br /> chính của xử lý ngôn ngữ tự nhiên. Mặc dù dịch máy đã được nghiên cứu và phát triển<br /> hơn 50 năm qua, song vẫn tồn tại nhiều vấn đề cần nghiên cứu. Ở Việt nam, dịch máy đã<br /> được nghiên cứu hơn 20 năm, nhưng các sản phẩm dịch máy hiện tại cho chất lượng dịch<br /> còn nhiều hạn chế [5]. Hiện nay, dịch máy được phân chia thành một số phương pháp<br /> như: dịch máy trên cơ sở luật, dịch máy thống kê và dịch máy trên cơ sở ví dụ [18]. Do<br /> những khác biệt về ngữ hệ, khác biệt về văn hóa và thiếu vắng nguồn tài nguyên, nên các<br /> phương pháp dịch máy hiện hữu thường gặp trở ngại khi áp dụng vào cặp ngôn ngữ Anh<br /> – Việt.<br /> Phương pháp dịch máy trên cơ sở luật cần phải xây dựng hệ thống luật cú pháp,<br /> ngữ nghĩa và phải có một từ điển khá đầy đủ thông tin cho các mục từ như ngữ nghĩa,<br /> ngữ dụng,... Để thực hiện phương pháp dịch máy dựa trên cơ sở luật, người ta cần nhiều<br /> thời gian và tiền bạc nhưng sản phẩm dịch vẫn không đạt độ chính xác như mong đợi.<br /> Dịch máy bằng phương pháp thống kê chưa có nhiều nghiên cứu áp dụng cho cặp Anh –<br /> Việt và kết quả nghiên cứu của N.P.Thai [20] cũng hết sức khiêm tốn. Do sự khác biệt<br /> khá lớn về cấu trúc cú pháp của câu và nguồn ngữ liệu song ngữ chuẩn, nên ảnh hưởng<br /> đến chất lượng đối sánh từ Anh – Việt, mà kết quả của đối sánh từ lại quyết định đến chất<br /> lượng dịch. Hiện nay, đối sánh từ cho cặp Anh – Trung [17] chỉ đạt được độ chính xác<br /> 50% - 60%. Kết quả này có thể tương tự khi áp dụng đối sánh từ cho cặp tiếng Anh –<br /> Việt [20]. Phương pháp dịch máy trên cơ sở ví dụ truyền thống sử dụng các câu mẫu hay<br /> còn gọi là câu ví dụ. Các câu này được lưu trữ trên cơ sở dữ liệu với đầy đủ các thông tin<br /> như cây chú giải, các liên kết giữa các thành phần của hai câu thuộc hai ngôn ngữ.<br /> Phương pháp này cũng cần tập luật cú pháp của các câu ngôn ngữ nguồn để xây dựng cơ<br /> sở dữ liệu cho mẫu câu ví dụ. Sự khác biệt từ sẽ được xác định thông qua từ điển phân<br /> lớp, câu nhập sẽ được phân tích bằng tập luật cú pháp và xác định cặp cây cú pháp của<br /> câu nguồn và câu đích. Một tiếp cận khác với phương pháp dịch máy trên cơ sở ví dụ là<br /> xây dựng ngân hàng mẫu câu ví dụ. Câu nguồn chỉ cần so trùng từng phần với mẫu câu ví<br /> dụ bằng các giải thuật phù hợp (có sử dụng từ đồng nghĩa trong từ điển phân lớp).<br /> Phương pháp này cần khá nhiều thời gian tìm kiếm, xử lý thông tin để so trùng mẫu. Độ<br /> chính xác của phương pháp phụ thuộc vào số mẫu được lưu trữ nhiều hay ít. Trong thực<br /> tế thật khó để có thể lưu trữ đầy đủ các câu mẫu trên cơ sở dữ liệu vì số câu song ngữ<br /> trong kho ngữ liệu là nhiều vô kể. Với hai ngôn ngữ khác biệt như tiếng Anh và tiếng<br /> Việt với nguồn tài nguyên khá nghèo nàn, thì việc xây dựng kho câu mẫu sẽ càng cần<br /> nhiều thời gian và tiền bạc và là công việc của nhiều nhà ngôn ngữ học thực hiện trong<br /> nhiều năm.<br /> Dịch máy dựa trên ngữ liệu đang được áp dụng vào nhiều hệ thống dịch tự động<br /> trong những năm gần đây, việc lấy đúng được cặp ánh xạ đích và nguồn một cách tự<br /> động là một yêu cầu thiết yếu cho các phương pháp dịch dựa trên ngữ liệu. Phương pháp<br /> dịch thống kê hiện tại đang cải thiện được chất lượng dịch bằng các mô hình huấn luyện<br /> không chỉ dựa trên cơ sở các từ đơn mà còn dựa trên các cụm từ. D.Marcu và W.Wong<br /> [7], Kenji Yamada và Kevin Knight [11], P.Koehn, F.J.Och, và D.Marcu, [15, 16] đã cho<br /> kết quả khả quan. Tuy nhiên các cụm từ trong các nghiên cứu này không thực sự là cụm<br /> từ của ngôn ngữ học.<br /> 2. CỤM DANH TỪ TIẾNG VIỆT<br /> Cụm từ tiếng Việt được nhiều nhà ngôn ngữ học trong và ngoài nước quan tâm<br /> nghiên cứu như Nguyễn Tài Cẩn [14], Hồ Lê [9], Nguyễn Kim Thản [13], Diệp Quang<br /> Ban [6] và gần đây nhất là luận văn tiến sĩ của Tuong Hung Nguyen [19].<br /> 2.1 Những công trình nghiên cứu ở nước ngoài<br /> Shum biểu diễn cụm danh từ tiếng Việt cả ở dạng luật sinh và dạng cây như sau:<br /> Nom → NP Mod N → N’ N” Pron: Đại từ<br /> NP → Nu N Dem Npr: Danh từ riêng<br /> NP → Pron Trong đó: N: Danh từ<br /> NP → Npr Nom: Chủ ngữ N’: danh từ phân loại<br /> Nu → PL CL Mod: Bổ ngữ N”: danh từ không phân loại<br /> Nu → Q CL Nu: Số đếm PL: Số nhiều<br /> Nu → Num CL Dem: Chỉ định từ Q: Lượng từ<br /> <br /> Nom (a)<br /> Nom (b)<br /> <br /> <br /> NP Mod<br /> NP Mod<br /> <br /> Nu N Dem<br /> Pron<br /> Npr<br /> PL CL<br /> Q<br /> Num Hình : Cấu trúc cụm danh từ tiếng Việt của Shum [19]<br /> Beatty đưa ra hai khả năng có thể có của cụm danh từ tiếng Việt được biểu diễn<br /> qua cấu trúc cây như sau:<br /> <br /> NP (a) NP (b)<br /> <br /> Num NP NP Dem<br /> <br /> CL N’ N’ AP<br /> Trong đó:<br /> N’ Dem Num N’<br /> AP: Cụm tính từ<br /> N AP CL N<br /> Hình 2: Cấu trúc cụm danh từ tiếng Việt của Beatty [19]<br /> <br /> <br /> Tuy nhiên Beatty đã không xem xét đến các mạo từ (articles : một, những, các), và<br /> từ chỉ xuất cái (cái con mèo này – this cat).<br /> 2.2 Những công trình nghiên cứu trong nước<br /> Nguyễn Tài Cẩn cho rằng cụm danh từ (danh ngữ) gồm có ba phần: phần đầu,<br /> phần trung tâm và phần cuối như sơ đồ sau:<br /> Phần đầu Phần trung tâm Phần sau<br /> Ba người này<br /> Cả hai tỉnh nhỏ ấy<br /> Tất cà những cái chủ trương chính xác đó<br /> Trong thực tế danh ngữ còn có thể xuất hiện cả dưới những dạng chỉ có hai phần:<br /> - Dạng chỉ có phần đầu và phần trung tâm,<br /> Phần đầu Phần trung tâm<br /> Ba bát<br /> - Dạng chỉ có phần trung tâm và phần sau,<br /> Phần trung tâm Phần sau<br /> bát này<br /> - Dạng chỉ có phần đầu và phần sau,<br /> Phần đầu Phần sau<br /> Ba tái<br /> Diệp Quang Ban đưa ra cấu tạo chung của cụm danh từ có ba phần là phần trung<br /> tâm, phần phụ trước và phần phụ sau. Phần trung tâm thường là một danh từ hoặc một<br /> ngữ danh từ. Trong phần phụ trước người ta đã xác định được ba vị trí khác nhau sắp xếp<br /> theo một trật tự nhất định. Ở phần phụ sau thường nhận được hai vị trí có trật tự ổn định.<br /> Phần phụ trước cụm danh từ thường dùng chỉ yếu tố số lượng của sự vật nêu ở trung tâm,<br /> phần phụ sau chủ yếu dùng chỉ yếu tố chất lượng của sự vật nêu ở thành phần trung tâm.<br /> Phần phụ trước (-1, -2, - Phần trung tâm Phần phụ sau (1, 2)<br /> 3) (0)<br /> <br /> Ví dụ 1:<br /> tất cả những cái con mèo đen ấy<br /> -3 -2 -1 0 1 2<br /> <br /> <br /> - vị trí 0 là vị trí của danh từ chính,<br /> - vị trí -1 là vị trí của từ chỉ xuất cái,<br /> - vị trí -2 là vị trí của từ chỉ số lượng, ví dụ: một, hai…; vài, ba, dăm, dăm ba…;<br /> mỗi, từng, mọi..; những, các, một…; mấy,<br /> - vị trí -3 là vị trí của từ chỉ tổng lượng, ví dụ: tất cả, hết thảy, cả…<br /> - vị trí 1 là vị trí của từ nêu đặc trưng miêu tả có thể gặp nhiều loại từ khác nhau<br /> như: danh từ, động từ, tính từ, số từ, đại từ và thời vị từ, ví dụ: phòng tạp chí, phòng đọc,<br /> phòng hẹp, phòng 14, phòng ngoài, phòng (của) chúng tôi, chuyến trước,<br /> - vị trí 2 là vị trí của từ chỉ định, ví dụ: cái máy này, quả táo kia…<br /> Tuong Hung Nguyen phát triển thêm những vấn đề mà Beatty chưa bàn đến và đưa<br /> ra cấu trúc tổng quát của cụm danh từ như hình 3.<br /> DP<br /> Ví dụ 2: Các CÁI con mèo Này<br /> D’ These very cats<br /> <br /> <br /> D DemP<br /> Trong đó:<br /> DP: Determiner Phrase<br /> Các<br /> D: Determiner<br /> DemP: Demonstrative Phrase<br /> NumP i Dem’ NumP: Numeral Phrase<br /> Num: Numeral<br /> Num’ Dem NumP CLP: Classifier Phrase<br /> CL: Classifier<br /> FocP: Focus<br /> Num CLP NP: Noun Phrase<br /> NÀY<br /> this ti<br /> FocP CLP<br /> <br /> <br /> CÁI CL’<br /> <br /> <br /> CL NP<br /> <br /> Hình 3: Cấu trúc cụm danh từ tiếng Việt của<br /> con Mèo Tuong Hung Nguyen<br /> cat<br /> <br /> <br /> <br /> <br /> Qua khảo sát các nghiên cứu về cụm danh từ tiếng Việt chúng ta thấy rằng: cho<br /> đến nay chưa có một định nghĩa chuẩn thống nhất về cách gọi của từ loại cũng như cấu<br /> trúc cụm danh từ tiếng Việt. Trong đặc tả của bài báo này chủ yếu dựa vào các phân tích<br /> của Tuong Hung Nguyen và Nguyễn Tài Cẩn.<br /> 3. DỊCH MÁY TRÊN CƠ SỞ CỤM TỪ<br /> Phương pháp dựa trên cơ sở từ có nhiều hạn chế. Do thiếu thông tin ngữ cảnh khi<br /> xác định xác suất của các từ, nên nghĩa của từ được chọn nhiều lúc không đúng với ngữ<br /> cảnh. Ngữ nghĩa của từ khi dịch lại phụ thuộc vào các từ khác xuất hiện cùng với nó<br /> trong câu, ví dụ cụm từ “to kick the bucket” đồng nghĩa với “to die”, “around the clock”<br /> có nghĩa là “continuously” và “as a matter of fact” mang nghĩa “actually”. Đôi khi ngữ<br /> nghĩa một từ của ngôn ngữ đích không đủ để diễn tả nghĩa một từ trong ngôn ngữ nguồn<br /> và ngược lại. Mô hình dịch song ngữ dựa trên cơ sở từ thì quá trình xác định nghĩa của<br /> câu đích chỉ được thực hiện bởi sự ghép từ và hoán đổi vị trí của từ theo cấu trúc cú pháp.<br /> Trong một số trường hợp người ta cần có thêm các thao tác phụ như chèn thêm từ hoặc<br /> xóa bớt từ. Thực tế các mô hình dịch theo từ không bảo đảm đúng nghĩa cho câu đích là<br /> do nó không có khả năng lưu chứa đủ các luật sinh cho tất cả các câu trong thực tế và các<br /> đặc tả chi tiết các hành vi ngữ nghĩa nhúng trong mỗi luật sinh của từng ngữ cảnh cụ thể.<br /> 3.1 Giải pháp<br /> Để khắc phục những hạn chế đã trình bày ở phần 1, bài báo đề xuất một phương<br /> pháp dịch máy mới với tên gọi là dịch máy dực trên cơ sở cụm từ (Phrase Based Machine<br /> Translation – PBMT). Phương pháp này được xây dựng trên cơ sở sử dụng hai phương<br /> pháp EBMT và SMT với những nét ngữ cảnh trong cơ sở tri thức.<br /> Ví dụ câu: Old men love classical music (Những người đàn ông già thích nhạc cổ<br /> điển).<br /> <br /> <br /> <br /> <br /> Hình 4: Phương pháp PBMT cho câu: Old men love classical music<br /> Qua hai ví dụ trên hình 4, chúng ta thấy rằng nếu các cụm danh từ (Noun Phrase –<br /> NP) song ngữ (như những cây con của các cây cú pháp) được lưu trữ trong kho ngữ liệu,<br /> nó sẽ giúp cho tốc độ dịch và chất lượng dịch máy được cải thiện đáng kể. Những cây<br /> con này được rút trích ra từ kho ngữ liệu (corpus) song ngữ Anh – Việt đã được huấn<br /> luyện trước. Độ chính xác của sản phẩm dịch phụ thuộc nhiều vào kho dữ liệu này và số<br /> lượng mẫu song ngữ mức cụm từ được rút trích được. Điều này có thể thực hiện được<br /> bằng phương pháp PBMT. Nếu NP được coi là một nút (mà không còn phải quan tâm các<br /> thành phần con của cây NP) thì hầu như trật tự từ và cụm từ khác trên cây cú pháp của<br /> hai ngôn ngữ hầu như không có sự thay đổi.<br /> Hình 5: Đối sánh một-nhiều<br /> Để rút trích cụm danh từ tiếng Việt tương ứng với cụm danh từ tiếng Anh trong cặp<br /> câu song ngữ thì vấn đề đối sánh từ có ảnh hưởng quyết định đến việc rút trích. Tuy<br /> nhiên trong thực tế ngôn ngữ luôn tồn tại một số vấn đề trong đối sánh. Ví dụ trên hình 5,<br /> từ “saw” ở vị trí thứ 2 trong câu tiếng Anh được đối sánh với hai từ trong tiếng Việt là từ<br /> “thấy” ở vị trí 4 và từ “quan sát” ở vị trí 10 trong tiếng Việt.<br /> Trong giải thuật đối sánh cụm danh từ cơ sở nguyên thủy của Yarowsky [2], độ<br /> chính xác của việc rút trích phụ thuộc vào độ chính xác của đối sánh từ, nhưng vấn đề tồn<br /> tại là trong quá trình đối sánh từ người ta luôn gặp phải vấn đề chồng chéo và xung đột,<br /> vấn đề “stopword”. Stopword là từ của ngôn ngữ nguồn không được dịch sang ngôn ngữ<br /> đích và ngược lại như ví dụ trên hình 9. Vấn đề biên trái và phải của cụm từ đối sánh<br /> cũng là một vấn đề như hình 6. Để giải quyết vấn đề này, bài báo thực hiện chuyển đổi<br /> trật tự từ câu tiếng Anh theo trật tự từ trong câu tiếng Việt trước khi đối sánh như ví dụ<br /> trên hình 7.<br /> <br /> <br /> <br /> <br /> Hình 6: Đối sánh từ Anh-Việt<br /> Trong thực tế ngôn ngữ, các mô hình đối sánh từ thống kê của Och và Ney [10],<br /> hay mô hình từ điển của Ker và Chang [12] áp dụng cho cặp Anh - Việt còn hạn chế [4].<br /> Nguyên nhân của các hạn chế này là do sự khác biệt về ngữ hệ, ngữ cảnh, ngữ nghĩa của<br /> từ, từ đặc trưng,… Đối sánh điểm neo là một giải pháp cho bài toán này như ví dụ trên<br /> hình 7.<br /> <br /> (a) [I1] like2 [her3 first4 six5 Vietnamese6 dresses7]<br /> <br /> <br /> (b) [Tôi1] thích2 [sáu3 cái áo dài4 Việt Nam5 đầu tiên6 của cô ta7]<br /> <br /> (c) [I1] like2 [six3 dresses4 Vietnamese5 first6 her7 ]<br /> Hình 7: Đối sánh điểm neo<br /> (d) [Tôi1] thích2 [sáu3 cái áo dài4 Việt Nam5 đầu tiên6 của cô ta7]<br /> Trong quá trình dịch máy, việc thêm hay xóa từ trong câu được thực hiện trong quá<br /> trình kiểm tra ngữ nghĩa. Mô hình dịch dựa trên cơ sở từ thường cho độ chính xác rất hạn<br /> chế [5, 20]. Mô hình PBMT khắc phục hạn chế này bằng cách xác định ngữ nghĩa của<br /> cụm từ thay vì ngữ nghĩa của từ, xác định ngữ cảnh và luật chuyển đổi của câu dịch [8].<br /> Mô hình PBMT bao gồm hai giai đoạn chính như mô tả trong mục 3.2.<br /> 3.2 Phương pháp dịch trên cơ sở cụm từ (PBMT)<br /> 3.2.1 Giai đoạn huấn luyện<br /> Trong những năm gần đây, nhiều nhà nghiên cứu quan tâm đến việc rút trích cụm<br /> danh từ song ngữ. Yarowsky [2] phát triển mô hình chiếu để thu nhận mã từ loại, cụm<br /> danh từ cơ sở, tên thực thể và phân tích hình vị của ngôn ngữ đích thông qua ngôn ngữ<br /> nguồn. E.Riloff [3] xây dựng hệ thống rút trích thông tin cho ngôn ngữ mới thông qua mô<br /> hình chiếu. Mô hình của chúng tôi thực hiện trên phương pháp của Yarowsky với một số<br /> cải thiện để khắc phục vấn đề chống chéo, xung đột trong mô hình của chiếu.<br /> • Các bước rút trích cụm danh từ:<br /> Bước 1: Phân tích câu nguồn để xác định các cụm từ,<br /> Bước 2: Gán nhãn mã từ loại (POS: Part-Of-Speech) câu nguồn.<br /> Bước 3: Sắp xếp lại trật tự từ của câu nguồn theo trật tự từ của câu đích.<br /> Bước 4: Đối sánh từ của câu nguồn sau khi đã được sắp xếp với câu đích.<br /> Bước 5: Viết lại luật sinh cho ngôn ngữ nguồn từ ngữ liệu đã đối sánh và gán<br /> nhãn.<br /> Bước 6: Rút trích cụm danh từ hoặc từ Anh – Việt tương ứng.<br /> • Giải thuật trích rút cụm danh từ:<br /> a) Xác định cụm danh từ (NP) đích qua đối sánh từ:<br /> Với mỗi một NP nguồn có vị trí từ j1 tới j2, thì NP đích tương ứng được xác định<br /> bởi imin và imax .<br /> Trong đó:<br /> imin = minj {i = a(j)} (từ nguồn ở vị trí j được đối sánh (align) với từ đích<br /> ở vị trí i)<br /> imax = maxj {i = a(j)}<br /> với j = j1 … j2<br /> b) Mở rộng NP đích theo các quy tắc sau:<br /> b.1 Nếu từ thứ imin – 1 thuộc lớp từ phân loại CL (CL: Classifier) thì imin = imin – 1<br /> b.2 Nếu từ thứ imin – 1 là từ “CÁI” thì imin = imin – 1<br /> b.3 Nếu từ thứ imin – 1 thuộc lớp mạo từ Ar (Ar: Articles) thì imin = imin – 1, Ar =<br /> {một, những, các}<br /> một [- PL; - Definite] : tương ứng với cụm NP tiếng Anh là số ít và không<br /> xác định<br /> những [+PL; - Definite]: tương ứng với cụm NP tiếng Anh là số nhiều và<br /> không xác định<br /> các [+PL; + Definite]: tương ứng với cụm NP tiếng Anh là số nhiều và<br /> xác định<br /> These1 two2 black3 dogs4 (i) (a) These1 yellow2 books3 (i) (b)<br /> <br /> <br /> Two1 dogs2 black3 these4 (ii) Books1 yellow2 these3 (ii)<br /> <br /> <br /> Hai1 CÁI2 con3 chó4 đen5 này6 (iii) CÁC1 CÁI2 cuốn3 sách4 vàng5 này6 (iii)<br /> <br /> Hình 8 : Mở rộng cụm danh từ theo từ đặc trưng<br /> Thay vì đối sánh (i) với (iii) bài báo đối sánh (ii) với (iii), ở ví dụ trên hình 8 (a)<br /> “CÁI2 con3” được lấy thêm tự động cho dù không được đối sánh, ở ví dụ trên hình 8 (b)<br /> “CÁC1 CÁI2 cuốn3” được lấy thêm nhờ các quy tắc b.1, b.2, và b.3. Do đó làm tăng thêm<br /> độ chính xác của đối sánh cụm danh từ.<br /> • Dữ liệu đầu vào là các cặp câu song ngữ<br /> <br /> Anh Việt<br /> <br /> <br /> <br /> <br /> Gằn từ loại và Đối sánh từ trong<br /> phân đoạn câu cặp câu song ngữ Kho ngữ liệu cho<br /> tiếng Anh (GIZA++) dịch máy<br /> (fnTBL|TnT)<br /> <br /> <br /> <br /> <br /> Ánh xạ<br /> Rút trích luật sinh và<br /> Chuyển đổi tạo bảng cụm từ<br /> <br /> Hình 9 : Giai đoạn huấn luyện<br /> Lọc<br /> • Kết quả của quá trình huấn luyện là các bảng:<br /> + Bảng cụm từ (Ps, Rs, Pt, Rt, C, Pr),<br /> + Bảng từ (Ws, Wt, POS, Pr).<br /> Trong đó:<br />  Ps: cụm từ nguồn<br />  Pt: cụm từ đích<br />  Rs: chuỗi luật sinh nguồn<br />  Rt: chuỗi luật sinh đích<br />  C: nét ngữ cảnh<br />  Pr: xác suất<br />  Ws: từ nguồn<br />  Wt: từ đích<br />  POS: từ loại<br /> • Các bước thực hiện:<br />  Gắn nhãn từ loại cho câu tiếng Anh.<br />  Phân tích cú pháp và phân đoạn câu tiếng Anh.<br />  Đối sánh từ.<br />  Tạo bảng cụm từ và bảng từ.<br /> 3.2.2 Giai đoạn áp dụng<br /> Có thể mô tả mô hình dịch đơn giản như sau: đầu tiên câu nhập ở ngôn ngữ<br /> nguồn được gán nhãn từ loại và phân tích cú pháp (giống như cách phân tích để rút ra các<br /> cụm từ). Tiếp theo hệ thống tìm các cụm từ này trong bảng từ để thay thế bằng cụm từ<br /> tương ứng ở ngôn ngữ xuất. Các từ không thuộc bảng cụm từ thì tìm trên bảng từ. Sau đó<br /> thêm một số thao tác chèn và sắp xếp lại nếu cần theo các quy tắc đã xác định trước.<br /> Giải thuật: Mô hình dịch đơn giản trên cơ sở cụm từ Anh – Việt<br /> Nhập: câu tiếng Anh (mà thông tin đã có trong bảng cụm từ hoặc bảng từ).<br /> Xuất: câu tiếng Việt đã được dịch.<br /> Phương pháp:<br /> − Gắn nhãn từ loại cho các từ của câu nhập<br /> − Phân tích cú pháp và phân đoạn câu nhập<br /> − Tìm cụm từ tương ứng trong bảng cụm từ, nếu so trùng cụm từ thì lấy ra cụm từ<br /> tiếng Việt tương ứng. Trong trường hợp không tìm được cụm từ tương ứng thì tìm<br /> từ trong bảng từ và lấy từ tiếng Việt tương ứng. Nếu không tìm thấy thì báo lỗi.<br /> − Sắp xếp lại câu dịch cho phù hợp với cấu trúc cú pháp của câu tiếng Việt<br /> <br /> <br /> <br /> <br /> Câu tiếng Anh<br /> <br /> <br /> Gắn từ loại, phân tích cú<br /> pháp và phân đoạn câu<br /> <br /> <br /> <br /> Câu tiếng Anh đã phân tích Kho ngữ liệu cho<br /> dịch máy<br /> Hình 10 : Giai đoạn ứng dụng<br /> <br /> 4. KẾT QUẢ THỰC NGHIỆM<br /> 4.1 Tiêu chuẩn đánh giá<br /> Bài báo này sử dụng tiêu chuẩn đánh giá của Och và Ney năm 2003 [8] trong đối<br /> sánh từ (WA: Word-Alignment). Och và Ney đưa ra ba tiêu chuẩn để đánh giá chất lượng<br /> WA là Recall, Precision và AER (Alignment Error Rate) theo các công thức sau:<br /> <br /> |A∩S|<br /> Recall = Precision<br /> |A=∩P| AER(S,P,A)<br /> |A∩= 1S -| + |A ∩ P|<br /> |S|<br /> |A| |A|+|S|<br /> Trong đó:<br /> A = {(j, aj) | aj >0}<br /> S : Đối sánh chắc chắn cho các trường hợp đối sánh không nhập nhằng,<br /> P : Có khả năng đối sánh,<br /> Tập các cặp câu lấy để đối sánh bằng tay được lấy ngẫu nhiên từ ngữ liệu huấn<br /> luyện. Để khách quan sẽ có hai người đánh giá với các kết quả tương ứng là S1, S2, P1,<br /> P2 và kết quả tổng hợp S và P được tính theo công thức:<br /> P = P1 ∪ P2 và S = S1 ∩ S2<br /> 4.2 Kết quả<br /> Bài báo sử dụng bộ ngữ liệu bao gồm bộ từ điển bách khoa - Heinemann, 2003<br /> (The Fahasa/Heinemann Illustrated Encyclopedia), Penn Treebank và các câu chuyên<br /> song ngữ.<br /> Kết quả đối sánh từ bằng Giza++<br /> Anh -Anh Anh - Viet<br /> Ngữ liệu Ghi chú<br /> Gốc đảo Gốc Phân đoạn Phân đoạn<br /> danh từ từ và đảo<br /> và tính<br /> từ<br /> Penn Treebank, Tính trực<br /> 1 99,99% 99,1% - - -<br /> 8827 cặp câu tiếp<br /> Encyclopedia,<br /> 2 - - 59,1% 68,3% 79,2% [10]<br /> 6118 cặp câu<br /> Story, 10014 cặp<br /> 3 - - 54,5% 70,5% 84,7% [10]<br /> câu<br /> <br /> 5. KẾT LUẬN<br /> Sử dụng tri thức ngôn ngữ tiếng Việt để sắp xếp trật tự từ cho câu tiếng Anh theo<br /> trật tự từ của câu tiếng Việt trước khi đối sánh từ bằng Giza++ (như đã mô tả trong mục<br /> 3.2) cho kết quả rất khả quan. Việc sắp xếp trật tự từ trong câu tiếng Anh theo tiếng Việt<br /> không những đạt kết quả cao trong đối sánh từ, mà còn cho kết quả cao trong rút trích<br /> cụm danh từ song ngữ Anh-Việt. Tuy nhiên để có sự đánh giá chính xác hơn, mô hình đề<br /> xuất cần thực nghiệm trên bộ ngữ liệu lớn hơn với các ngữ cảnh khác nhau (khoảng<br /> 500.000 cặp câu). Công việc này là bước tiếp theo trong nghiên cứu của chúng tôi trong<br /> thời gian tới. Kết quả của nghiên cứu của bài báo cũng có thể ứng dụng cho các cặp ngôn<br /> ngữ khác, các nghiên cứu và các ứng dụng dựa trên ngữ liệu song ngữ như:<br /> - Ứng dụng trong bài toán rút trích cụm danh từ, cụm động từ, cụm giới từ,…<br /> - Xây dựng các ngữ liệu song ngữ mức cụm từ cho các mô hình dịch máy thống kê,<br /> ví dụ, các mô hình nhận biết tiếng nói,…<br /> <br /> 6. TÀI LIỆU THAM KHẢO<br /> [1] H.Cunningham, D.Maynard, K.Bontcheva and V.Tablan (2002), “GATE: A<br /> framework and graphical development environment for robust NLP tools and<br /> applications” Proceedings of The 40th Anniversary Meeting of the Association<br /> for Computational Linguistics.<br /> [2] David Yarowsky và Grace Ngai, (2001). “Inducing Multilingual POS Taggers and<br /> NP Bracketers via Robust Projection across Aligned Corpora”. Johns Hopkins<br /> University Baltimore, MD 21218, USA.<br /> [3] Ellen Riloff, Charles Schafer and David Yarowsky, “Inducing Information<br /> Extraction Systems for New Languages via Cross-Language Projection”, In<br /> Proceedings of the 19th International Conference on Computational Linguistics<br /> (COLING 2002)<br /> [4] D.Dien, H.Kiem, T.Ngan, X.Quang, Q.Hung, P.Hoi, V.Toan. (2002) “Word<br /> alignment in English – Vietnamese bilingual corpus”, Proceedings of<br /> EALPIIT’02, Hanoi, Vietnam, pp. 3-11.<br /> [5] Đinh Điền (2003), “Mô hình học luật chuyển đổi từ ngữ liệu song ngữ cho hệ dịch<br /> tự động Anh-Việt”, Luận án tiến sĩ, Đại học Quốc gia Tp.HCM.<br /> [6] Diệp Quang Ban, Ngữ Pháp Tiếng Việt, Nhà xuất bản giáo dục, 2004.<br /> [7] D.Marcu and W.Wong, 2002, “A phrase-based, joint probability model for<br /> statistical machine translation”. In Proc, Conf, on Empirical Methods for Natural<br /> Language Processing, pages 133-139, Philadelphia, PA, July.<br /> [8] Hieu Chi Nguyen, Tuoi Thi Phan, Dung Xuan Nguyen (2007), “Learning Transfer<br /> Rules of Base Noun Phrases from Bilingual Corpus”, Proceeding of The 10th<br /> International Oriental COCOSDA 2007 Conference -O-COCOSDA’07, pp.96-<br /> 101.<br /> [9] Hố Lê, Cú pháp tiếng Việt, Nhà xuất bản Khoa học xã hội Hà nội, 1992.<br /> [10] Franz Josef Och, Herman Ney, “A Systematic Comparision of Various Statistical<br /> Alignment Models”. Association for Computational Linguistics, 2003.<br /> [11] Kenji Yamada and Kevin Knight, “A Syntax-based Statistical Translation<br /> Model”, In Proc, of the 39th Annual Meeting of ACL, Nancy, France, 2001.<br /> [12] S.J.Ker and J.S.Chang (1997), “A Class-based Approach to Word Alignment”,<br /> Computational Linguistics, Vol 23, No.2, p.313-343.<br /> [13] Nguyễn Kim Thản, Nghiên cứu ngữ pháp tiếng Việt, NXB Giáo dục, 1997.<br /> [14] Nguyễn Tài Cẩn, Ngữ pháp tiếng Việt, Nhà xuất bản Đại học Quốc gia Hà nội,<br /> 1999.<br /> [15] P.Koehn, F.J.Och, and D.Marcu. “Statistical phrase-based translation”. In Proc, of<br /> the Human Language Technology Conf. (HLT-NAACL), pp.127-133, Edmonton,<br /> Canada, May-June 2003.<br /> [16] Philipp Koehn, “Noun Phrase Translation”, Ph.D. dissertation, University of<br /> Southern California, 2003.<br /> [17] Rebecca Hwa, “Breaking the resource bottleneck for multilingual processing”.<br /> University of Endinburgh IGK Summer School September 6, 2004.<br /> [18] Ruslan Mitkov, Computational Linguistics, The Oxford University Press, First<br /> Published, 2003.<br /> [19] Tuong Hung Nguyen, “The structure of the Vietnamese Noun Phrase”, Ph.D.<br /> dissertation, Boston University Graduate School of Arts and Sciences, 2004.<br /> [20] N.P.Thai and A.Shimazu (2006), “Improving Phrase-Based SMT with Morpho-<br /> Syntactic Analysis and Transformation”, Proceedings of the 7th Conference of the<br /> Association for Machine Translation in the Americas, pages 138-147, Cambridge,<br /> August.<br />
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2