ỨNG DỤNG XỬ LÝ NGÔN NGỮ TỰ NHIÊN<br />
TRONG DỊCH MÁY<br />
TS. Nguyễn Chí Hiếu<br />
Khoa CN Thông tin – Trường ĐH Công nghiệp Tp. HCM<br />
TÓM TẮT<br />
Bài báo này đề xuất một mô hình nhận biết và rút trích tự động cụm danh từ song<br />
ngữ từ ngữ liệu song ngữ Anh-Việt bằng các công cụ nổi tiếng như GIZA++ -2003 [10]<br />
và GATE – 2005 [1]. Bài báo cũng trình bày phương pháp cải thiện chất lượng đối sánh<br />
từ trong bước tiền xử lý bằng cách chuyển đổi cấu trúc câu nguồn theo trật tự của câu<br />
đích để rút trích cụm danh từ song ngữ, đề xuất phương pháp xây dựng bảng từ và cụm<br />
từ song ngữ từ ngữ liệu song ngữ với các nét ngữ nghĩa, xác suất xuất hiện và luật<br />
chuyển đổi [8]. Ngoài ra, các thành phần cơ bản của một hệ thống dịch máy trên cơ sở<br />
cụm từ cũng được trình bày trong bài báo này. Thực nghiệm ban đầu cho kết quả khả<br />
quan.<br />
ABSTRACT<br />
This paper proposes the method Extracting English – Vietnamese Noun Phrases<br />
automatically which is building from Bilingual Corpus by well-known tools as GIZA++ -<br />
2003 [10], GATE – 2005 [1]. In this method, the paper presents methods to improve the<br />
quality of word alignment in the pre-processing phase of Machine Translation by<br />
transferring sentence structures from the source language to target language and then<br />
using heuristics to extract noun phases. It also proposes the method of building the Phase<br />
and Word tables from Bilingual Corpus including semantics, probability and transfer<br />
rules [8]. The other components of the English – Vietnamese machine translation also<br />
are described in this paper. The result of the experiment was satisfactory.<br />
MỘT SỐ TỪ VIẾT TẮT<br />
NLP: Natural Language Processing<br />
MT: Machine Translation<br />
RBMT: Rule Based Machine Translation<br />
EBMT: Example Based Machine Translation<br />
SMT: Statistical Machine Translation<br />
PBMT: Phrase Based Machine Translation<br />
1. GIỚI THIỆU<br />
Xử lý ngôn ngữ tự nhiên là một lĩnh vực nghiên cứu nhằm giúp cho các hệ thống<br />
máy tính hiểu và xử lý được ngôn ngữ con người. Dịch máy là một trong những ứng dụng<br />
chính của xử lý ngôn ngữ tự nhiên. Mặc dù dịch máy đã được nghiên cứu và phát triển<br />
hơn 50 năm qua, song vẫn tồn tại nhiều vấn đề cần nghiên cứu. Ở Việt nam, dịch máy đã<br />
được nghiên cứu hơn 20 năm, nhưng các sản phẩm dịch máy hiện tại cho chất lượng dịch<br />
còn nhiều hạn chế [5]. Hiện nay, dịch máy được phân chia thành một số phương pháp<br />
như: dịch máy trên cơ sở luật, dịch máy thống kê và dịch máy trên cơ sở ví dụ [18]. Do<br />
những khác biệt về ngữ hệ, khác biệt về văn hóa và thiếu vắng nguồn tài nguyên, nên các<br />
phương pháp dịch máy hiện hữu thường gặp trở ngại khi áp dụng vào cặp ngôn ngữ Anh<br />
– Việt.<br />
Phương pháp dịch máy trên cơ sở luật cần phải xây dựng hệ thống luật cú pháp,<br />
ngữ nghĩa và phải có một từ điển khá đầy đủ thông tin cho các mục từ như ngữ nghĩa,<br />
ngữ dụng,... Để thực hiện phương pháp dịch máy dựa trên cơ sở luật, người ta cần nhiều<br />
thời gian và tiền bạc nhưng sản phẩm dịch vẫn không đạt độ chính xác như mong đợi.<br />
Dịch máy bằng phương pháp thống kê chưa có nhiều nghiên cứu áp dụng cho cặp Anh –<br />
Việt và kết quả nghiên cứu của N.P.Thai [20] cũng hết sức khiêm tốn. Do sự khác biệt<br />
khá lớn về cấu trúc cú pháp của câu và nguồn ngữ liệu song ngữ chuẩn, nên ảnh hưởng<br />
đến chất lượng đối sánh từ Anh – Việt, mà kết quả của đối sánh từ lại quyết định đến chất<br />
lượng dịch. Hiện nay, đối sánh từ cho cặp Anh – Trung [17] chỉ đạt được độ chính xác<br />
50% - 60%. Kết quả này có thể tương tự khi áp dụng đối sánh từ cho cặp tiếng Anh –<br />
Việt [20]. Phương pháp dịch máy trên cơ sở ví dụ truyền thống sử dụng các câu mẫu hay<br />
còn gọi là câu ví dụ. Các câu này được lưu trữ trên cơ sở dữ liệu với đầy đủ các thông tin<br />
như cây chú giải, các liên kết giữa các thành phần của hai câu thuộc hai ngôn ngữ.<br />
Phương pháp này cũng cần tập luật cú pháp của các câu ngôn ngữ nguồn để xây dựng cơ<br />
sở dữ liệu cho mẫu câu ví dụ. Sự khác biệt từ sẽ được xác định thông qua từ điển phân<br />
lớp, câu nhập sẽ được phân tích bằng tập luật cú pháp và xác định cặp cây cú pháp của<br />
câu nguồn và câu đích. Một tiếp cận khác với phương pháp dịch máy trên cơ sở ví dụ là<br />
xây dựng ngân hàng mẫu câu ví dụ. Câu nguồn chỉ cần so trùng từng phần với mẫu câu ví<br />
dụ bằng các giải thuật phù hợp (có sử dụng từ đồng nghĩa trong từ điển phân lớp).<br />
Phương pháp này cần khá nhiều thời gian tìm kiếm, xử lý thông tin để so trùng mẫu. Độ<br />
chính xác của phương pháp phụ thuộc vào số mẫu được lưu trữ nhiều hay ít. Trong thực<br />
tế thật khó để có thể lưu trữ đầy đủ các câu mẫu trên cơ sở dữ liệu vì số câu song ngữ<br />
trong kho ngữ liệu là nhiều vô kể. Với hai ngôn ngữ khác biệt như tiếng Anh và tiếng<br />
Việt với nguồn tài nguyên khá nghèo nàn, thì việc xây dựng kho câu mẫu sẽ càng cần<br />
nhiều thời gian và tiền bạc và là công việc của nhiều nhà ngôn ngữ học thực hiện trong<br />
nhiều năm.<br />
Dịch máy dựa trên ngữ liệu đang được áp dụng vào nhiều hệ thống dịch tự động<br />
trong những năm gần đây, việc lấy đúng được cặp ánh xạ đích và nguồn một cách tự<br />
động là một yêu cầu thiết yếu cho các phương pháp dịch dựa trên ngữ liệu. Phương pháp<br />
dịch thống kê hiện tại đang cải thiện được chất lượng dịch bằng các mô hình huấn luyện<br />
không chỉ dựa trên cơ sở các từ đơn mà còn dựa trên các cụm từ. D.Marcu và W.Wong<br />
[7], Kenji Yamada và Kevin Knight [11], P.Koehn, F.J.Och, và D.Marcu, [15, 16] đã cho<br />
kết quả khả quan. Tuy nhiên các cụm từ trong các nghiên cứu này không thực sự là cụm<br />
từ của ngôn ngữ học.<br />
2. CỤM DANH TỪ TIẾNG VIỆT<br />
Cụm từ tiếng Việt được nhiều nhà ngôn ngữ học trong và ngoài nước quan tâm<br />
nghiên cứu như Nguyễn Tài Cẩn [14], Hồ Lê [9], Nguyễn Kim Thản [13], Diệp Quang<br />
Ban [6] và gần đây nhất là luận văn tiến sĩ của Tuong Hung Nguyen [19].<br />
2.1 Những công trình nghiên cứu ở nước ngoài<br />
Shum biểu diễn cụm danh từ tiếng Việt cả ở dạng luật sinh và dạng cây như sau:<br />
Nom → NP Mod N → N’ N” Pron: Đại từ<br />
NP → Nu N Dem Npr: Danh từ riêng<br />
NP → Pron Trong đó: N: Danh từ<br />
NP → Npr Nom: Chủ ngữ N’: danh từ phân loại<br />
Nu → PL CL Mod: Bổ ngữ N”: danh từ không phân loại<br />
Nu → Q CL Nu: Số đếm PL: Số nhiều<br />
Nu → Num CL Dem: Chỉ định từ Q: Lượng từ<br />
<br />
Nom (a)<br />
Nom (b)<br />
<br />
<br />
NP Mod<br />
NP Mod<br />
<br />
Nu N Dem<br />
Pron<br />
Npr<br />
PL CL<br />
Q<br />
Num Hình : Cấu trúc cụm danh từ tiếng Việt của Shum [19]<br />
Beatty đưa ra hai khả năng có thể có của cụm danh từ tiếng Việt được biểu diễn<br />
qua cấu trúc cây như sau:<br />
<br />
NP (a) NP (b)<br />
<br />
Num NP NP Dem<br />
<br />
CL N’ N’ AP<br />
Trong đó:<br />
N’ Dem Num N’<br />
AP: Cụm tính từ<br />
N AP CL N<br />
Hình 2: Cấu trúc cụm danh từ tiếng Việt của Beatty [19]<br />
<br />
<br />
Tuy nhiên Beatty đã không xem xét đến các mạo từ (articles : một, những, các), và<br />
từ chỉ xuất cái (cái con mèo này – this cat).<br />
2.2 Những công trình nghiên cứu trong nước<br />
Nguyễn Tài Cẩn cho rằng cụm danh từ (danh ngữ) gồm có ba phần: phần đầu,<br />
phần trung tâm và phần cuối như sơ đồ sau:<br />
Phần đầu Phần trung tâm Phần sau<br />
Ba người này<br />
Cả hai tỉnh nhỏ ấy<br />
Tất cà những cái chủ trương chính xác đó<br />
Trong thực tế danh ngữ còn có thể xuất hiện cả dưới những dạng chỉ có hai phần:<br />
- Dạng chỉ có phần đầu và phần trung tâm,<br />
Phần đầu Phần trung tâm<br />
Ba bát<br />
- Dạng chỉ có phần trung tâm và phần sau,<br />
Phần trung tâm Phần sau<br />
bát này<br />
- Dạng chỉ có phần đầu và phần sau,<br />
Phần đầu Phần sau<br />
Ba tái<br />
Diệp Quang Ban đưa ra cấu tạo chung của cụm danh từ có ba phần là phần trung<br />
tâm, phần phụ trước và phần phụ sau. Phần trung tâm thường là một danh từ hoặc một<br />
ngữ danh từ. Trong phần phụ trước người ta đã xác định được ba vị trí khác nhau sắp xếp<br />
theo một trật tự nhất định. Ở phần phụ sau thường nhận được hai vị trí có trật tự ổn định.<br />
Phần phụ trước cụm danh từ thường dùng chỉ yếu tố số lượng của sự vật nêu ở trung tâm,<br />
phần phụ sau chủ yếu dùng chỉ yếu tố chất lượng của sự vật nêu ở thành phần trung tâm.<br />
Phần phụ trước (-1, -2, - Phần trung tâm Phần phụ sau (1, 2)<br />
3) (0)<br />
<br />
Ví dụ 1:<br />
tất cả những cái con mèo đen ấy<br />
-3 -2 -1 0 1 2<br />
<br />
<br />
- vị trí 0 là vị trí của danh từ chính,<br />
- vị trí -1 là vị trí của từ chỉ xuất cái,<br />
- vị trí -2 là vị trí của từ chỉ số lượng, ví dụ: một, hai…; vài, ba, dăm, dăm ba…;<br />
mỗi, từng, mọi..; những, các, một…; mấy,<br />
- vị trí -3 là vị trí của từ chỉ tổng lượng, ví dụ: tất cả, hết thảy, cả…<br />
- vị trí 1 là vị trí của từ nêu đặc trưng miêu tả có thể gặp nhiều loại từ khác nhau<br />
như: danh từ, động từ, tính từ, số từ, đại từ và thời vị từ, ví dụ: phòng tạp chí, phòng đọc,<br />
phòng hẹp, phòng 14, phòng ngoài, phòng (của) chúng tôi, chuyến trước,<br />
- vị trí 2 là vị trí của từ chỉ định, ví dụ: cái máy này, quả táo kia…<br />
Tuong Hung Nguyen phát triển thêm những vấn đề mà Beatty chưa bàn đến và đưa<br />
ra cấu trúc tổng quát của cụm danh từ như hình 3.<br />
DP<br />
Ví dụ 2: Các CÁI con mèo Này<br />
D’ These very cats<br />
<br />
<br />
D DemP<br />
Trong đó:<br />
DP: Determiner Phrase<br />
Các<br />
D: Determiner<br />
DemP: Demonstrative Phrase<br />
NumP i Dem’ NumP: Numeral Phrase<br />
Num: Numeral<br />
Num’ Dem NumP CLP: Classifier Phrase<br />
CL: Classifier<br />
FocP: Focus<br />
Num CLP NP: Noun Phrase<br />
NÀY<br />
this ti<br />
FocP CLP<br />
<br />
<br />
CÁI CL’<br />
<br />
<br />
CL NP<br />
<br />
Hình 3: Cấu trúc cụm danh từ tiếng Việt của<br />
con Mèo Tuong Hung Nguyen<br />
cat<br />
<br />
<br />
<br />
<br />
Qua khảo sát các nghiên cứu về cụm danh từ tiếng Việt chúng ta thấy rằng: cho<br />
đến nay chưa có một định nghĩa chuẩn thống nhất về cách gọi của từ loại cũng như cấu<br />
trúc cụm danh từ tiếng Việt. Trong đặc tả của bài báo này chủ yếu dựa vào các phân tích<br />
của Tuong Hung Nguyen và Nguyễn Tài Cẩn.<br />
3. DỊCH MÁY TRÊN CƠ SỞ CỤM TỪ<br />
Phương pháp dựa trên cơ sở từ có nhiều hạn chế. Do thiếu thông tin ngữ cảnh khi<br />
xác định xác suất của các từ, nên nghĩa của từ được chọn nhiều lúc không đúng với ngữ<br />
cảnh. Ngữ nghĩa của từ khi dịch lại phụ thuộc vào các từ khác xuất hiện cùng với nó<br />
trong câu, ví dụ cụm từ “to kick the bucket” đồng nghĩa với “to die”, “around the clock”<br />
có nghĩa là “continuously” và “as a matter of fact” mang nghĩa “actually”. Đôi khi ngữ<br />
nghĩa một từ của ngôn ngữ đích không đủ để diễn tả nghĩa một từ trong ngôn ngữ nguồn<br />
và ngược lại. Mô hình dịch song ngữ dựa trên cơ sở từ thì quá trình xác định nghĩa của<br />
câu đích chỉ được thực hiện bởi sự ghép từ và hoán đổi vị trí của từ theo cấu trúc cú pháp.<br />
Trong một số trường hợp người ta cần có thêm các thao tác phụ như chèn thêm từ hoặc<br />
xóa bớt từ. Thực tế các mô hình dịch theo từ không bảo đảm đúng nghĩa cho câu đích là<br />
do nó không có khả năng lưu chứa đủ các luật sinh cho tất cả các câu trong thực tế và các<br />
đặc tả chi tiết các hành vi ngữ nghĩa nhúng trong mỗi luật sinh của từng ngữ cảnh cụ thể.<br />
3.1 Giải pháp<br />
Để khắc phục những hạn chế đã trình bày ở phần 1, bài báo đề xuất một phương<br />
pháp dịch máy mới với tên gọi là dịch máy dực trên cơ sở cụm từ (Phrase Based Machine<br />
Translation – PBMT). Phương pháp này được xây dựng trên cơ sở sử dụng hai phương<br />
pháp EBMT và SMT với những nét ngữ cảnh trong cơ sở tri thức.<br />
Ví dụ câu: Old men love classical music (Những người đàn ông già thích nhạc cổ<br />
điển).<br />
<br />
<br />
<br />
<br />
Hình 4: Phương pháp PBMT cho câu: Old men love classical music<br />
Qua hai ví dụ trên hình 4, chúng ta thấy rằng nếu các cụm danh từ (Noun Phrase –<br />
NP) song ngữ (như những cây con của các cây cú pháp) được lưu trữ trong kho ngữ liệu,<br />
nó sẽ giúp cho tốc độ dịch và chất lượng dịch máy được cải thiện đáng kể. Những cây<br />
con này được rút trích ra từ kho ngữ liệu (corpus) song ngữ Anh – Việt đã được huấn<br />
luyện trước. Độ chính xác của sản phẩm dịch phụ thuộc nhiều vào kho dữ liệu này và số<br />
lượng mẫu song ngữ mức cụm từ được rút trích được. Điều này có thể thực hiện được<br />
bằng phương pháp PBMT. Nếu NP được coi là một nút (mà không còn phải quan tâm các<br />
thành phần con của cây NP) thì hầu như trật tự từ và cụm từ khác trên cây cú pháp của<br />
hai ngôn ngữ hầu như không có sự thay đổi.<br />
Hình 5: Đối sánh một-nhiều<br />
Để rút trích cụm danh từ tiếng Việt tương ứng với cụm danh từ tiếng Anh trong cặp<br />
câu song ngữ thì vấn đề đối sánh từ có ảnh hưởng quyết định đến việc rút trích. Tuy<br />
nhiên trong thực tế ngôn ngữ luôn tồn tại một số vấn đề trong đối sánh. Ví dụ trên hình 5,<br />
từ “saw” ở vị trí thứ 2 trong câu tiếng Anh được đối sánh với hai từ trong tiếng Việt là từ<br />
“thấy” ở vị trí 4 và từ “quan sát” ở vị trí 10 trong tiếng Việt.<br />
Trong giải thuật đối sánh cụm danh từ cơ sở nguyên thủy của Yarowsky [2], độ<br />
chính xác của việc rút trích phụ thuộc vào độ chính xác của đối sánh từ, nhưng vấn đề tồn<br />
tại là trong quá trình đối sánh từ người ta luôn gặp phải vấn đề chồng chéo và xung đột,<br />
vấn đề “stopword”. Stopword là từ của ngôn ngữ nguồn không được dịch sang ngôn ngữ<br />
đích và ngược lại như ví dụ trên hình 9. Vấn đề biên trái và phải của cụm từ đối sánh<br />
cũng là một vấn đề như hình 6. Để giải quyết vấn đề này, bài báo thực hiện chuyển đổi<br />
trật tự từ câu tiếng Anh theo trật tự từ trong câu tiếng Việt trước khi đối sánh như ví dụ<br />
trên hình 7.<br />
<br />
<br />
<br />
<br />
Hình 6: Đối sánh từ Anh-Việt<br />
Trong thực tế ngôn ngữ, các mô hình đối sánh từ thống kê của Och và Ney [10],<br />
hay mô hình từ điển của Ker và Chang [12] áp dụng cho cặp Anh - Việt còn hạn chế [4].<br />
Nguyên nhân của các hạn chế này là do sự khác biệt về ngữ hệ, ngữ cảnh, ngữ nghĩa của<br />
từ, từ đặc trưng,… Đối sánh điểm neo là một giải pháp cho bài toán này như ví dụ trên<br />
hình 7.<br />
<br />
(a) [I1] like2 [her3 first4 six5 Vietnamese6 dresses7]<br />
<br />
<br />
(b) [Tôi1] thích2 [sáu3 cái áo dài4 Việt Nam5 đầu tiên6 của cô ta7]<br />
<br />
(c) [I1] like2 [six3 dresses4 Vietnamese5 first6 her7 ]<br />
Hình 7: Đối sánh điểm neo<br />
(d) [Tôi1] thích2 [sáu3 cái áo dài4 Việt Nam5 đầu tiên6 của cô ta7]<br />
Trong quá trình dịch máy, việc thêm hay xóa từ trong câu được thực hiện trong quá<br />
trình kiểm tra ngữ nghĩa. Mô hình dịch dựa trên cơ sở từ thường cho độ chính xác rất hạn<br />
chế [5, 20]. Mô hình PBMT khắc phục hạn chế này bằng cách xác định ngữ nghĩa của<br />
cụm từ thay vì ngữ nghĩa của từ, xác định ngữ cảnh và luật chuyển đổi của câu dịch [8].<br />
Mô hình PBMT bao gồm hai giai đoạn chính như mô tả trong mục 3.2.<br />
3.2 Phương pháp dịch trên cơ sở cụm từ (PBMT)<br />
3.2.1 Giai đoạn huấn luyện<br />
Trong những năm gần đây, nhiều nhà nghiên cứu quan tâm đến việc rút trích cụm<br />
danh từ song ngữ. Yarowsky [2] phát triển mô hình chiếu để thu nhận mã từ loại, cụm<br />
danh từ cơ sở, tên thực thể và phân tích hình vị của ngôn ngữ đích thông qua ngôn ngữ<br />
nguồn. E.Riloff [3] xây dựng hệ thống rút trích thông tin cho ngôn ngữ mới thông qua mô<br />
hình chiếu. Mô hình của chúng tôi thực hiện trên phương pháp của Yarowsky với một số<br />
cải thiện để khắc phục vấn đề chống chéo, xung đột trong mô hình của chiếu.<br />
• Các bước rút trích cụm danh từ:<br />
Bước 1: Phân tích câu nguồn để xác định các cụm từ,<br />
Bước 2: Gán nhãn mã từ loại (POS: Part-Of-Speech) câu nguồn.<br />
Bước 3: Sắp xếp lại trật tự từ của câu nguồn theo trật tự từ của câu đích.<br />
Bước 4: Đối sánh từ của câu nguồn sau khi đã được sắp xếp với câu đích.<br />
Bước 5: Viết lại luật sinh cho ngôn ngữ nguồn từ ngữ liệu đã đối sánh và gán<br />
nhãn.<br />
Bước 6: Rút trích cụm danh từ hoặc từ Anh – Việt tương ứng.<br />
• Giải thuật trích rút cụm danh từ:<br />
a) Xác định cụm danh từ (NP) đích qua đối sánh từ:<br />
Với mỗi một NP nguồn có vị trí từ j1 tới j2, thì NP đích tương ứng được xác định<br />
bởi imin và imax .<br />
Trong đó:<br />
imin = minj {i = a(j)} (từ nguồn ở vị trí j được đối sánh (align) với từ đích<br />
ở vị trí i)<br />
imax = maxj {i = a(j)}<br />
với j = j1 … j2<br />
b) Mở rộng NP đích theo các quy tắc sau:<br />
b.1 Nếu từ thứ imin – 1 thuộc lớp từ phân loại CL (CL: Classifier) thì imin = imin – 1<br />
b.2 Nếu từ thứ imin – 1 là từ “CÁI” thì imin = imin – 1<br />
b.3 Nếu từ thứ imin – 1 thuộc lớp mạo từ Ar (Ar: Articles) thì imin = imin – 1, Ar =<br />
{một, những, các}<br />
một [- PL; - Definite] : tương ứng với cụm NP tiếng Anh là số ít và không<br />
xác định<br />
những [+PL; - Definite]: tương ứng với cụm NP tiếng Anh là số nhiều và<br />
không xác định<br />
các [+PL; + Definite]: tương ứng với cụm NP tiếng Anh là số nhiều và<br />
xác định<br />
These1 two2 black3 dogs4 (i) (a) These1 yellow2 books3 (i) (b)<br />
<br />
<br />
Two1 dogs2 black3 these4 (ii) Books1 yellow2 these3 (ii)<br />
<br />
<br />
Hai1 CÁI2 con3 chó4 đen5 này6 (iii) CÁC1 CÁI2 cuốn3 sách4 vàng5 này6 (iii)<br />
<br />
Hình 8 : Mở rộng cụm danh từ theo từ đặc trưng<br />
Thay vì đối sánh (i) với (iii) bài báo đối sánh (ii) với (iii), ở ví dụ trên hình 8 (a)<br />
“CÁI2 con3” được lấy thêm tự động cho dù không được đối sánh, ở ví dụ trên hình 8 (b)<br />
“CÁC1 CÁI2 cuốn3” được lấy thêm nhờ các quy tắc b.1, b.2, và b.3. Do đó làm tăng thêm<br />
độ chính xác của đối sánh cụm danh từ.<br />
• Dữ liệu đầu vào là các cặp câu song ngữ<br />
<br />
Anh Việt<br />
<br />
<br />
<br />
<br />
Gằn từ loại và Đối sánh từ trong<br />
phân đoạn câu cặp câu song ngữ Kho ngữ liệu cho<br />
tiếng Anh (GIZA++) dịch máy<br />
(fnTBL|TnT)<br />
<br />
<br />
<br />
<br />
Ánh xạ<br />
Rút trích luật sinh và<br />
Chuyển đổi tạo bảng cụm từ<br />
<br />
Hình 9 : Giai đoạn huấn luyện<br />
Lọc<br />
• Kết quả của quá trình huấn luyện là các bảng:<br />
+ Bảng cụm từ (Ps, Rs, Pt, Rt, C, Pr),<br />
+ Bảng từ (Ws, Wt, POS, Pr).<br />
Trong đó:<br />
Ps: cụm từ nguồn<br />
Pt: cụm từ đích<br />
Rs: chuỗi luật sinh nguồn<br />
Rt: chuỗi luật sinh đích<br />
C: nét ngữ cảnh<br />
Pr: xác suất<br />
Ws: từ nguồn<br />
Wt: từ đích<br />
POS: từ loại<br />
• Các bước thực hiện:<br />
Gắn nhãn từ loại cho câu tiếng Anh.<br />
Phân tích cú pháp và phân đoạn câu tiếng Anh.<br />
Đối sánh từ.<br />
Tạo bảng cụm từ và bảng từ.<br />
3.2.2 Giai đoạn áp dụng<br />
Có thể mô tả mô hình dịch đơn giản như sau: đầu tiên câu nhập ở ngôn ngữ<br />
nguồn được gán nhãn từ loại và phân tích cú pháp (giống như cách phân tích để rút ra các<br />
cụm từ). Tiếp theo hệ thống tìm các cụm từ này trong bảng từ để thay thế bằng cụm từ<br />
tương ứng ở ngôn ngữ xuất. Các từ không thuộc bảng cụm từ thì tìm trên bảng từ. Sau đó<br />
thêm một số thao tác chèn và sắp xếp lại nếu cần theo các quy tắc đã xác định trước.<br />
Giải thuật: Mô hình dịch đơn giản trên cơ sở cụm từ Anh – Việt<br />
Nhập: câu tiếng Anh (mà thông tin đã có trong bảng cụm từ hoặc bảng từ).<br />
Xuất: câu tiếng Việt đã được dịch.<br />
Phương pháp:<br />
− Gắn nhãn từ loại cho các từ của câu nhập<br />
− Phân tích cú pháp và phân đoạn câu nhập<br />
− Tìm cụm từ tương ứng trong bảng cụm từ, nếu so trùng cụm từ thì lấy ra cụm từ<br />
tiếng Việt tương ứng. Trong trường hợp không tìm được cụm từ tương ứng thì tìm<br />
từ trong bảng từ và lấy từ tiếng Việt tương ứng. Nếu không tìm thấy thì báo lỗi.<br />
− Sắp xếp lại câu dịch cho phù hợp với cấu trúc cú pháp của câu tiếng Việt<br />
<br />
<br />
<br />
<br />
Câu tiếng Anh<br />
<br />
<br />
Gắn từ loại, phân tích cú<br />
pháp và phân đoạn câu<br />
<br />
<br />
<br />
Câu tiếng Anh đã phân tích Kho ngữ liệu cho<br />
dịch máy<br />
Hình 10 : Giai đoạn ứng dụng<br />
<br />
4. KẾT QUẢ THỰC NGHIỆM<br />
4.1 Tiêu chuẩn đánh giá<br />
Bài báo này sử dụng tiêu chuẩn đánh giá của Och và Ney năm 2003 [8] trong đối<br />
sánh từ (WA: Word-Alignment). Och và Ney đưa ra ba tiêu chuẩn để đánh giá chất lượng<br />
WA là Recall, Precision và AER (Alignment Error Rate) theo các công thức sau:<br />
<br />
|A∩S|<br />
Recall = Precision<br />
|A=∩P| AER(S,P,A)<br />
|A∩= 1S -| + |A ∩ P|<br />
|S|<br />
|A| |A|+|S|<br />
Trong đó:<br />
A = {(j, aj) | aj >0}<br />
S : Đối sánh chắc chắn cho các trường hợp đối sánh không nhập nhằng,<br />
P : Có khả năng đối sánh,<br />
Tập các cặp câu lấy để đối sánh bằng tay được lấy ngẫu nhiên từ ngữ liệu huấn<br />
luyện. Để khách quan sẽ có hai người đánh giá với các kết quả tương ứng là S1, S2, P1,<br />
P2 và kết quả tổng hợp S và P được tính theo công thức:<br />
P = P1 ∪ P2 và S = S1 ∩ S2<br />
4.2 Kết quả<br />
Bài báo sử dụng bộ ngữ liệu bao gồm bộ từ điển bách khoa - Heinemann, 2003<br />
(The Fahasa/Heinemann Illustrated Encyclopedia), Penn Treebank và các câu chuyên<br />
song ngữ.<br />
Kết quả đối sánh từ bằng Giza++<br />
Anh -Anh Anh - Viet<br />
Ngữ liệu Ghi chú<br />
Gốc đảo Gốc Phân đoạn Phân đoạn<br />
danh từ từ và đảo<br />
và tính<br />
từ<br />
Penn Treebank, Tính trực<br />
1 99,99% 99,1% - - -<br />
8827 cặp câu tiếp<br />
Encyclopedia,<br />
2 - - 59,1% 68,3% 79,2% [10]<br />
6118 cặp câu<br />
Story, 10014 cặp<br />
3 - - 54,5% 70,5% 84,7% [10]<br />
câu<br />
<br />
5. KẾT LUẬN<br />
Sử dụng tri thức ngôn ngữ tiếng Việt để sắp xếp trật tự từ cho câu tiếng Anh theo<br />
trật tự từ của câu tiếng Việt trước khi đối sánh từ bằng Giza++ (như đã mô tả trong mục<br />
3.2) cho kết quả rất khả quan. Việc sắp xếp trật tự từ trong câu tiếng Anh theo tiếng Việt<br />
không những đạt kết quả cao trong đối sánh từ, mà còn cho kết quả cao trong rút trích<br />
cụm danh từ song ngữ Anh-Việt. Tuy nhiên để có sự đánh giá chính xác hơn, mô hình đề<br />
xuất cần thực nghiệm trên bộ ngữ liệu lớn hơn với các ngữ cảnh khác nhau (khoảng<br />
500.000 cặp câu). Công việc này là bước tiếp theo trong nghiên cứu của chúng tôi trong<br />
thời gian tới. Kết quả của nghiên cứu của bài báo cũng có thể ứng dụng cho các cặp ngôn<br />
ngữ khác, các nghiên cứu và các ứng dụng dựa trên ngữ liệu song ngữ như:<br />
- Ứng dụng trong bài toán rút trích cụm danh từ, cụm động từ, cụm giới từ,…<br />
- Xây dựng các ngữ liệu song ngữ mức cụm từ cho các mô hình dịch máy thống kê,<br />
ví dụ, các mô hình nhận biết tiếng nói,…<br />
<br />
6. TÀI LIỆU THAM KHẢO<br />
[1] H.Cunningham, D.Maynard, K.Bontcheva and V.Tablan (2002), “GATE: A<br />
framework and graphical development environment for robust NLP tools and<br />
applications” Proceedings of The 40th Anniversary Meeting of the Association<br />
for Computational Linguistics.<br />
[2] David Yarowsky và Grace Ngai, (2001). “Inducing Multilingual POS Taggers and<br />
NP Bracketers via Robust Projection across Aligned Corpora”. Johns Hopkins<br />
University Baltimore, MD 21218, USA.<br />
[3] Ellen Riloff, Charles Schafer and David Yarowsky, “Inducing Information<br />
Extraction Systems for New Languages via Cross-Language Projection”, In<br />
Proceedings of the 19th International Conference on Computational Linguistics<br />
(COLING 2002)<br />
[4] D.Dien, H.Kiem, T.Ngan, X.Quang, Q.Hung, P.Hoi, V.Toan. (2002) “Word<br />
alignment in English – Vietnamese bilingual corpus”, Proceedings of<br />
EALPIIT’02, Hanoi, Vietnam, pp. 3-11.<br />
[5] Đinh Điền (2003), “Mô hình học luật chuyển đổi từ ngữ liệu song ngữ cho hệ dịch<br />
tự động Anh-Việt”, Luận án tiến sĩ, Đại học Quốc gia Tp.HCM.<br />
[6] Diệp Quang Ban, Ngữ Pháp Tiếng Việt, Nhà xuất bản giáo dục, 2004.<br />
[7] D.Marcu and W.Wong, 2002, “A phrase-based, joint probability model for<br />
statistical machine translation”. In Proc, Conf, on Empirical Methods for Natural<br />
Language Processing, pages 133-139, Philadelphia, PA, July.<br />
[8] Hieu Chi Nguyen, Tuoi Thi Phan, Dung Xuan Nguyen (2007), “Learning Transfer<br />
Rules of Base Noun Phrases from Bilingual Corpus”, Proceeding of The 10th<br />
International Oriental COCOSDA 2007 Conference -O-COCOSDA’07, pp.96-<br />
101.<br />
[9] Hố Lê, Cú pháp tiếng Việt, Nhà xuất bản Khoa học xã hội Hà nội, 1992.<br />
[10] Franz Josef Och, Herman Ney, “A Systematic Comparision of Various Statistical<br />
Alignment Models”. Association for Computational Linguistics, 2003.<br />
[11] Kenji Yamada and Kevin Knight, “A Syntax-based Statistical Translation<br />
Model”, In Proc, of the 39th Annual Meeting of ACL, Nancy, France, 2001.<br />
[12] S.J.Ker and J.S.Chang (1997), “A Class-based Approach to Word Alignment”,<br />
Computational Linguistics, Vol 23, No.2, p.313-343.<br />
[13] Nguyễn Kim Thản, Nghiên cứu ngữ pháp tiếng Việt, NXB Giáo dục, 1997.<br />
[14] Nguyễn Tài Cẩn, Ngữ pháp tiếng Việt, Nhà xuất bản Đại học Quốc gia Hà nội,<br />
1999.<br />
[15] P.Koehn, F.J.Och, and D.Marcu. “Statistical phrase-based translation”. In Proc, of<br />
the Human Language Technology Conf. (HLT-NAACL), pp.127-133, Edmonton,<br />
Canada, May-June 2003.<br />
[16] Philipp Koehn, “Noun Phrase Translation”, Ph.D. dissertation, University of<br />
Southern California, 2003.<br />
[17] Rebecca Hwa, “Breaking the resource bottleneck for multilingual processing”.<br />
University of Endinburgh IGK Summer School September 6, 2004.<br />
[18] Ruslan Mitkov, Computational Linguistics, The Oxford University Press, First<br />
Published, 2003.<br />
[19] Tuong Hung Nguyen, “The structure of the Vietnamese Noun Phrase”, Ph.D.<br />
dissertation, Boston University Graduate School of Arts and Sciences, 2004.<br />
[20] N.P.Thai and A.Shimazu (2006), “Improving Phrase-Based SMT with Morpho-<br />
Syntactic Analysis and Transformation”, Proceedings of the 7th Conference of the<br />
Association for Machine Translation in the Americas, pages 138-147, Cambridge,<br />
August.<br />