intTypePromotion=1

Luận văn:Nghiên cứu và xây dựng hệ thống dịch tự động Jrai - Việt và Việt - Jrai

Chia sẻ: Nhung Thi | Ngày: | Loại File: PDF | Số trang:26

0
70
lượt xem
5
download

Luận văn:Nghiên cứu và xây dựng hệ thống dịch tự động Jrai - Việt và Việt - Jrai

Mô tả tài liệu
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Trong bài báo này chúng tôi trình bày việc nghiên cứu và xây dựng hệ thống dịch tự động tiếng Việt – Jrai và Jrai – Việt dựa theo phương pháp dịch thống kê. Trong số các phương pháp dịch hiện có, phương pháp dịch thống kê được xem là một hướng phát triển đầy tiềm năng bởi những ưu điểm vượt trội so với các phương pháp dịch khác. Về phần thực nghiệm, chúng tôi đã triển khai thành công một hệ thống dịch thống kê Việt – Jrai và Jrai – Việt dựa trên mã nguồn mở Moses....

Chủ đề:
Lưu

Nội dung Text: Luận văn:Nghiên cứu và xây dựng hệ thống dịch tự động Jrai - Việt và Việt - Jrai

  1. 1 B GIÁO D C VÀ ĐÀO T O Đ I H C ĐÀ N NG Đ TH THU N NGHIÊN C U VÀ XÂY D NG H TH NG D CH T Đ NG JRAI – VI T VÀ VI T – JRAI Chuyên ngành : Khoa h c máy tính Mã s : 60.48.01 TÓM T T LU N VĂN TH C SĨ K THU T Đà N ng - Năm 2012
  2. 2 Công trình ñư c hoàn thành t i Đ I H C ĐÀ N NG Ngư i hư ng d n khoa h c: TS. HUỲNH CÔNG PHÁP Ph n bi n 1 : PGS.TS. LÊ VĂN SƠN Ph n bi n 2 : TS. NGUY N M U HÂN Lu n văn ñư c b o v t i H i ñ ng ch m Lu n văn t t nghi p th c sĩ k thu t h p t i Đ i h c Đà N ng vào ngày 16 tháng 12 năm 2012 Có th tìm hi u lu n văn t i: - Trung tâm Thông tin - H c li u, Đ i h c Đà N ng; - Trung tâm H c li u, Đ i h c Đà N ng;
  3. 3 M Đ U 1. Lý do ch n ñ tài C ng ñ ng các dân t c Vi t Nam có ñ n 54 dân t c anh em và Jrai là m t dân t c có dân s khá ñông, ch ñ ng th hai (sau ngư i Kinh). Ngư i Jrai cư trú trên m t d i ñ t r ng l n, ch y u phân b t nh Gia Lai và ñ ng bào s d ng ti ng Jrai làm ngôn ng giao ti p chính th ng. Tuy nhiên, ti ng Vi t l i là ngôn ng chính ñư c s d ng Vi t Nam, ñi u này d n ñ n vi c chuy n t i ch trương, ñư ng l i c a Đ ng, chính sách, pháp lu t c a Nhà nư c ñ n v i các ñ ng bào dân t c Jrai g p r t nhi u khó khăn. Đ ng bào cũng g p khó khăn trong vi c h c t p và ti p thu tri th c b ng ti ng Vi t. Ngày nay, vào th i ñ i công ngh thông tin bùng n , ñ b o t n và phát huy ñư c b n s c các dân t c, chúng tôi nghĩ ñ n các bi n pháp ñưa ngôn ng Jrai vào máy tính. Do ñó, vi c xây d ng m t h th ng d ch qua l i gi a ti ng Jrai và ti ng Vi t là r t c n thi t. Hi n t i, Trung tâm CNTT-TT S Thông tin và Truy n thông Gia Lai và Công ty TNHH Công ngh thông tin Tu i tr L c Vi t ñã cho ra ñ i ph n m m "T ñi n ñi n t phương ng Jrai - Vi t” cho phép chúng ta tra nghĩa theo t . Tuy nhiên, v i m t tài li u l n mu n d ch t ti ng Jrai sang ti ng Vi t hay ngư c l i thì vi c tra c u t ng t là r t b t c p và m t th i gian. Xu t phát t nhu c u th c t trên, chúng tôi có ý tư ng nghiên c u và xây d ng m t h th ng d ch t ñ ng gi a ti ng Jrai và ti ng Vi t.
  4. 4 Hi n nay, có r t nhi u các phương pháp d ch t ñ ng ñã ñư c s d ng như d ch máy d a trên lu t, d ch máy d a trên ví d m u, d ch máy d a trên xác su t th ng kê, .... Tuy nhiên, d ch máy d a trên phương pháp th ng kê ñang là m t hư ng phát tri n ñ y ti m năng b i nh ng ưu ñi m vư t tr i so v i các phương pháp khác. Thay vì xây d ng các t ñi n, các quy lu t chuy n ñ i b ng tay, h d ch này t ñ ng xây d ng các t ñi n, các quy lu t d a trên k t qu th ng kê có ñư c t các kho ng li u. Chính vì v y, d ch máy d a vào th ng kê có tính kh chuy n cao áp d ng ñư c cho b t kỳ c p ngôn ng nào. V i nh ng ñi u ki n và lý do nêu trên, chúng tôi ch n hư ng nghiên c u v phương pháp d ch máy d a trên xác su t th ng kê ñ xây d ng h th ng d ch t ñ ng Jrai – Vi t và Vi t – Jrai. 2. M c ñích và nhi m v c a ñ tài M c ñích c a ñ tài là t p trung nghiên c u, tìm hi u các phương pháp d ch máy và áp d ng ñ xây d ng h th ng d ch t ñ ng Jrai – Vi t và Vi t – Jrai. Nhi m v c th : - Nghiên c u các văn b n ti ng Jrai. - Nghiên c u t ng quan v các phương pháp d ch máy. - Đ xu t phương pháp d ch máy hi u qu và v n d ng ñ xây d ng h th ng d ch t ñ ng Jrai – Vi t và Vi t – Jrai. - Nghiên c u các phương pháp ñánh giá h d ch t ñ ng. 3. Đ i tư ng và ph m vi nghiên c u Đ i tư ng nghiên c u - Các văn b n văn hóa hóa ti ng Jrai.
  5. 5 - Các ph n m m d ch t ñ ng hi n có. - Các phương pháp d ch t ñ ng. - Các công c ñánh giá d ch t ñ ng Ph m vi nghiên c u - Đ tài t p trung vào nghiên c u v d ch các tài li u d ng văn b n văn hóa ti ng Vi t và ti ng Jrai. 4. Phương pháp nghiên c u - Tìm hi u các h d ch t ñ ng ñã có ñ tìm ra các phương pháp d ch máy mà các h d ch hi n ñang s d ng. - Nghiên c u và ñánh giá các phương pháp d ch máy, nh ng ưu ñi m và nh ng h n ch , sau ñó tìm ra m t phương pháp có hi u qu và ñ xu t áp d ng cho bài toán ñ tài ñ t ra. - Nghiên c u các phương pháp ñánh giá ch t lư ng d ch máy ñ ñánh giá hi u qu d ch cho h th ng ñ tài ñã xây d ng. 5. Ý nghĩa khoa h c và th c ti n c a ñ tài Ý nghĩa khoa h c - Hi u và v n d ng ñư c phương pháp d ch máy th ng kê vào th c ti n. - Xây d ng thành công ph n m m d ch t ñ ng gi a ti ng Jrai và ti ng Vi t Ý nghĩa th c ti n - H th ng d ch máy gi a ti ng Jrai và ti ng Vi t t o ñi u ki n thu n l i cho vi c nghiên c u, h c t p ti ng Jrai.
  6. 6 - Tr giúp cho công tác qu n lý c a cán b ngư i Vi t Jrai 6. C u trúc c a lu n văn Lu n văn ñư c t ch c g m 3 chương chính như sau: CHƯƠNG 1: T NG QUAN V D CH MÁY CHƯƠNG 2: PHÂN TÍCH – THI T K - Đ C T H TH NG D CH MÁY TH NG KÊ CHƯƠNG 3: TRI N KHAI VÀ ĐÁNH GIÁ H TH NG D CH MÁY TH NG KÊ K T LU N VÀ HƯ NG PHÁT TRI N TÀI LI U THAM KH O CHƯƠNG 1: T NG QUAN V D CH MÁY 1.1. KHÁI NI M V D CH MÁY D ch máy hay còn g i là d ch t ñ ng, th c hi n d ch m t ngôn ng này (g i là ngôn ng ngu n) sang m t ho c nhi u ngôn ng khác (g i là ngôn ng ñích) m t cách t ñ ng, không có s can thi p c a con ngư i trong quá trình d ch. 1.2. L CH S D CH MÁY 1.3. M T S D CH V D CH MÁY 1.3.1. Google Trang Web truy c p http://translate.google.com 1.3.2. Microsoft Trang Web truy c p http://www.microsofttranslator.com/ 1.3.3. EVTRAN EVTRAN (English Vietnamese Translator), ph n m m d ch t ñ ng Anh - Vi t.
  7. 7 1.3.4. Vdic Trang Web truy c p http://vdict.com/?autotranslation 1.3.5. L c Vi t Trang Web truy c p http://tratu.vietgle.vn/hoc-tieng- anh/dich-van-ban.html 1.3.6. Yahoo! Trang Web truy c p http://babelfish.yahoo.com 1.4. NH N XÉT V CH T LƯ NG D CH TI NG VI T Các d ch v d ch máy hi n nay nhìn chung là hi u qu d ch chưa cao, m t s d ch v chưa có h tr d ch ti ng Vi t. Do ch t lư ng chưa th t t t nên h u h t các s n ph m d ch t ñ ng ñ u ch mang tính tham kh o, các b n d ch ch cho bi t ñ i ý và nó hoàn toàn có th d ch sai m t ph n ho c toàn b n i dung c t lõi c a văn b n. 1.5. CÁC PHƯƠNG PHÁP D CH MÁY 1.5.1. D ch tr c ti p (Direct MT) 1.5.1.1. Khái ni m H th ng d ch b ng cách thay th nh ng t /ng trong ngôn ng ngu n b ng nh ng t /ng trong ngôn ng ñích m t cách máy móc. 1.5.1.2. Phân tích hình thái Trong ngôn ng h c, phân tích hình thái ngôn ng là xác ñ nh, phân tích và miêu t c u trúc c a hình v (âm ti t) và các ñơn v ý nghĩa khác như t , ph t , t lo i, thanh ñi u, hàm ý. 1.5.2. D ch máy theo chuy n ñ i cú pháp (Syntactic Transfer MT) H th ng d ch b ng cách phân tích (hình thái và cú pháp) câu c a ngôn ng ngu n và sau ñó áp d ng nh ng lu t ngôn ng và
  8. 8 t v ng (g i là quy lu t chuy n ñ i) ñ ánh x thông tin văn ph m t ngôn ng ngu n sang ngôn ng ñích. 1.5.3. D ch máy qua ngôn ng trung gian (Interlingual MT) 1.5.3.1. Khái ni m H th ng d ch qua m t ngôn ng trung gian g i là liên ngôn ng (interlingual). 1.5.3.2. Ngôn ng trung gian UNL (Universal Networking Language) Đây là m t ngôn ng trung gian bi u ñ t riêng cho máy tính, cho phép bi u di n v m t ng nghĩa m c ñơn gi n nh t có th (gi m thi u nh ng r c r i do v n ñ ng nghĩa). 1.5.4. D ch máy d a theo lu t (RBMT: Rule-based MT) Cách ti p c n truy n th ng này d a vào các lu t d n thư ng ñư c xây d ng b ng tay b i các chuyên gia ngôn ng . 1.5.5. D ch máy d a trên ví d (EBMT: Example-based MT) Theo cách ti p c n này, khi h d ch nh n ñư c m t câu ngôn ng ngu n, h th ng s so kh p v i các m u trong kho ng li u song ng ñ xác ñ nh m u nào g n ñúng nh t và ñưa ra thành ph n d ch tương ng c a m u ñó. 1.5.6. D ch máy d a trên cơ s tri th c (KBMT: Knowledge-Based MT) Theo cách d ch này, máy tính ph i ñư c trang b tri th c ngôn ng và tri th c v th gi i th c y như con ngư i. Do ñó, chúng ta ph i xây d ng m t cơ s tri th c kh ng l mà bao trùm ñư c m i tri th c v th gi i th c m i lĩnh v c.
  9. 9 1.5.7. D ch máy d a trên th ng kê (SMT: Statistical-based MT) Cách ti p c n d ch máy d a trên th ng kê ñ xây d ng t ñi n và các quy lu t d ch m t cách t ñ ng. Đ th c hi n ñư c ñi u này, c n có m t kho ng li u song ng r t l n. 1.5.8. D ch máy d a trên ng li u (CBMT: Corpus-Based MT) D a trên cơ s ngôn ng h c và công ngh máy h c ñ có ñư c các b lu t chuy n ñ i nh vào kho ng li u d ng ñơn ng hay song ng . Các lu t này ph i ñư c ñ m b o là chính xác, bao quát, không mâu thu n và d ki m soát hơn so v i các lu t ñư c xây d ng m t cách th công c a các nhà ngôn ng h c. 1.6. NH N XÉT CÁC PHƯƠNG PHÁP D CH MÁY 1.7. CÁC PHƯƠNG PHÁP ĐÁNH GIÁ CH T LƯ NG D CH MÁY 1.7.1. Đánh giá ch quan (Subjective) Do con ngư i tr c ti p ñánh giá theo tính ñ y ñ và ñ trôi ch y c a b n d ch (ñi m s 1 ñ n 5). 1.7.2. Đánh giá khách quan (Objective) 1.7.2.1. BLEU (BiLingual Evaluation Understudy) BLEU ñư c ñ xu t b i IBM t i h i ngh ACL Philadelphie vào tháng 7-2001. Ý tư ng chính c a phương pháp là so sánh k t qu b n d ch t ñ ng b ng máy v i m t b n d ch chu n dùng làm b n ñ i chi u.
  10. 10 1.7.2.2. NIST (National Institute of Standards and Technology) NIST phát tri n d a trên phương pháp BLEU nhưng có m t khác bi t v quan ñi m ñánh giá là vi c ch n l a N-grams và thông tin trên m i n-gram s ñư c s d ng ñ ph c v vi c ñánh giá. NIST ñánh s ñi m cao hơn cho các n-gram ch a nhi u thông tin hơn trong khi ñ i v i BLEU là như nhau n u cùng s t . V i tiêu chu n này, s ñi m cao thì h d ch ñư c xem là t t. CHƯƠNG 2: PHÂN TÍCH –THI T K – Đ C T H TH NG D CH MÁY TH NG KÊ 2.1. PHƯƠNG PHÁP D CH MÁY TH NG KÊ 2.1.1. Lý thuy t xác su t Lý thuy t xác su t ñư c s d ng khi chúng ta ph i x lý các s ki n v i nh ng k t qu không ch c ch n, và có nhi u kh năng có th x y ra. 2.1.1.1. Phân ph i xác su t V m t toán h c, m t phân ph i xác su t là m t hàm ánh x tr v các giá tr gi a 0 và 1. 2.1.1.2. Ư c lư ng phân ph i xác su t Ư c lư ng phân ph i xác su t d ch t v ng b ng cách ñ m s l n xu t hi n c a t , sau ñó l y t l v i t ng s t có trong b ng li u. pf : e → pf ( e) (2.1) pf th a mãn 2 thu c tính: ∑ p f (e ) = 1 (2.2) ∀e : 0 ≤ p f (e) ≤ 1 e (2.3) pf(e) có giá tr cao hơn n u t ti ng Anh e là m t b n d ch thông d ng, giá tr th p n u t ti ng Anh e là b n d ch hi m ñư c s d ng, giá tr 0 n u không có b n d ch tương ng.
  11. 11 2.1.2. Các mô hình d ch máy th ng kê 2.1.2.1. D ch máy th ng kê d a trên cơ s t (Word-based SMT) Các mô hình d ch máy thông kê ban ñ u d a trên ñơn v t , d ch t ng t , có th thêm ho c b t t sau ñó s p x p các t l i thành b n d ch. B n d ch m t c p câu chính là s ánh x các t tương ng gi a 2 ngôn ng thông qua ch c năng liên k t t . Mô hình d ch d a trên ñơn v t không cho k t qu t t trong trư ng h p k t n i 1- nhi u, nhi u-1 ho c nhi u-nhi u. Khi ñó, phân tích d a trên ñơn v c m t ñư c ñ xu t ñ gi i quy t v n ñ này. 2.1.2.2. D ch máy th ng kê d a trên cơ s c m t (Phrase- based SMT) Đây là mô hình d ch máy th ng kê th c thi t t nh t hi n nay. ñây, khái ni m c m t không theo ñ nh nghĩa c a ngôn ng h c mà ñư c sinh ra d a vào các phương pháp th ng kê áp d ng trên ng li u h c. M t chu i các t liên ti p ñư c d ch sang ngôn ng ñích, v i ñ dài c m t ngôn ng ngu n và ñích có th khác nhau. Hình 2.1 minh ho quá trình d ch máy th ng kê d a trên c m t , d ch t ti ng Đ c sang ti ng Anh. natuerlich hat john spass am spiel of couse john has fun with the game Hình 2.1 Ví d v d ch th ng kê d a trên c m t 2.1.2.3. D ch máy d a trên cú pháp (Tree-based SMT) Câu ngôn ng ngu n f ñư c phân tích thành cây cú pháp. Cây cú pháp này s ñư c s p x p l i ñ phù h p v i cú pháp c a câu ngôn ng ñích e. Sau ñó, m t s t m i có th ñư c chèn vào cây
  12. 12 hi n t i cho phù h p hơn v i cú pháp c a ngôn ng ñích. Cu i cùng, các t trong cây cú pháp c a câu ngôn ng ngu n s ñư c d ch sang ngôn ng ñích. 2.2. QUY TRÌNH XÂY D NG H TH NG D CH MÁY TH NG KÊ Koehn mô t m t cách khái quát quá trình d ch th ng kê d a trên c m t như sau: - Câu ngu n ñư c tách thành các c m t - M i c m t ñư c d ch sang ngôn ng ñích. - Các c m t ñã d ch ñư c s p x p theo m t th t phù h p 2.3. CÁC THÀNH PH N C A M T H TH NG D CH MÁY TH NG KÊ M t mô hình d ch máy bao g m 3 thành ph n: - Mô hình ngôn ng : Ph n ánh ñ trôi ch y c a câu d ch và ñư c hu n luy n trên ng li u ñơn ng - Mô hình d ch: Cho bi t xác su t c a câu ngôn ng ngu n là b n d ch t câu ngôn ng ñích và ñư c hu n luy n trên d li u song ng . - B gi i mã: Thu t toán tìm ki m ra b n d ch t t nh t cho câu ngôn ng ngu n. 2.3.1. Mô hình ngôn ng Đây là m t trong nh ng thành ph n quan tr ng c a b t kỳ h th ng d ch máy th ng kê, nó là các phân ph i xác su t trên m t ng li u ñơn ng , dùng ñ ño m c ñ chính xác c a vi c s p x p các t trong b n d ch. 2.3.1.1. Mô hình ngôn ng n-gram Mô hình này d a trên s li u th ng kê v kh năng các t có th ñi theo nhau trong câu.
  13. 13 a. Gi thuy t Markov Trong mô hình ngôn ng n-gram, chúng ta chia quá trình d ñoán câu thành vi c d ñoán t ng t m t. Khi ñó, xác su t xu t hi n c a m t t ch ph thu c vào n t ñ ng li n trư c nó ch không ph i ph thu c vào toàn b dãy t ñ ng trư c nó. M t c m n-gram là m t dãy con g m n ph n t liên ti p c a 1 dãy các ph n t cho trư c. D a vào s ph n t c a 1 c m n-gram, ta có: n = 1 (Unigram), n = 2 (Bigram), n = 3 (Trigram). Ph bi n nh t là mô hình ngôn ng trigram (3-gram), v i gi ñ nh r ng ñ d ñoán m t t ch c n bi t hai t trư c ñó. Đi u này ñòi h i ph i có m t b sưu t p các s li u th ng kê c a chu i 3 t liên ti p. b. Ví d Xét chu i W = "Tôi ñanglàmtoán" p(Tôi ñanglàmtoán) = p(Tôi | ) * p(ñang | Tôi) * p(làm | tôi ñang) * p(toán | ñanglàm) 2.3.1.2. Công th c tính xác su t thô G i C(wi-n+1...wi-1wi) là t n s xu t hi n c a c m wi-n+1...wi- 1wi trong t p văn b n hu n luy n. G i p(wi|wi-n+1...wi-1) là xác su t wi ñi sau c m wi-n+1..wi-2wi-1. Ta có công th c tính xác su t như sau: C ( wi − n +1...wi −1wi ) p ( wi | wi − n +1 ) = ∑ C ( wi−n+1...wi −1w) w (2.17) C ( wi −n +1...wi −1wi ) p( wi | wi − n +1wi −1 ) = (2.18) C ( wi − n +1...wi −1 )
  14. 14 2.3.2. Mô hình d ch Trong mô hình d ch, v n ñ tr ng tâm c a vi c mô hình hoá xác su t d ch p ( f | e) là s ánh x tương ng gi a các t c a câu ngu n v i các t c a câu ñích.. 2.3.2.1. Liên k t t M i t c a ngôn ng ñích ch tương ng v i m t t c a ngôn ng ngu n căn c vào b ng phân ph i xác su t. Hàm liên k t a, v i ánh x m i t ti ng Anh v trí i ñ n t ti ng Đ c v trí j. a: j i (2.19) 1 2 3 4 das Haus ist klein the house is small 1 2 3 4 Hình 2.4 S liên k t 1-1 câu “das Haus ist klein” Bi u di n liên k t t b ng dãy ch s : A = 1, 2, 3, 4. Và ánh x a: {1→1, 2→2, 3→3, 4→4} 1 2 3 4 das Haus ist klitzeklein the house is very small 1 2 3 4 5 Hình 2.6 S liên k t 1-1, 1-nhi u câu “das Haus ist klitzeklein” a : {1 → 1, 2 → 2, 3 → 3, 4 → 4, 5 → 4 } M t s t ñ u ra ti ng Anh có th không có liên quan ñ n b t kỳ t ñ u vào ti ng Đ c nào. Chúng ta s d ng d u hi u NULL như m t t ñ u vào ñ s d ng ñư c ñ y ñ các ch c năng liên k t.
  15. 15 2.3.2.2. D ch d a trên c m t Mô hình d ch d a trên t ch gi i quy t trư ng h p liên k t 1–1, còn mô hình d ch d a trên c m t có th gi i quy t c 2 trư ng h p còn l i là: 1–nhi u, nhi u–1 và nhi u – nhi u, ví d : 1 2 3 4 5 6 7 8 9 The balance was the territory of the aboriginal people Le reste appartenait aux autochtones 1 2 3 4 5 Hình 2.9 S liên k t 1- nhi u câu ti ng Anh và câu ti ng Pháp 1 2 3 4 5 6 The poor don’t have any money Les pauvres sont démunis 1 2 3 4 Hình 2.10 S liên k t nhi u-nhi u câu ti ng Anh và câu ti ng Pháp. Quá trình d ch theo c m t , ñ u vào là các phân ño n theo các c m t c a m t câu. M i m t c m t ñư c d ch sang m t c m t c a ti ng anh, các c m t ñ u ra có th ñư c s p x p l i. Đ tìm ñư c b n d ch t t nh t cho c m t ñích, chúng ta căn c vào b ng phân ph i xác su t c a c m t ñó. a. Xây d ng b ng d ch c m t Xây d ng b ng d ch c m t như sau: Đ u tiên chúng ta t o ra s liên k t t gi a m i c p câu trong b song ng , sau ñó s trích xu t các c p c m t phù h p v i s liên k t t này. b. Trích xu t c m t t s liên k t ngôn ng Chúng ta th c hi n trích xu t c m t t b ng liên k t ngôn ng theo 2 chi u.
  16. 16 2.3.3. B gi i mã B gi i mã trong d ch máy th ng kê v i nhi m v là tìm ra b n d ch t t nh t theo công th c xác su t. Đây là m t nhi m v h t s c khó khăn b i s các l a ch n tăng theo c p s nhân v i m i câu ñ u vào. 2.3.3.1. Các tùy ch n d ch Cho m t xâu các t ñ u vào, s các c m t ñươc d ch có th ñư c áp d ng g i m i m t b n d ch c m t có th là m t l a ch n d ch 2.3.3.2. Thu t toán cơ b n (Core Algorithm) Trong quá trình gi i mã, chúng ta s lưu tr các b n d ch t ng ph n trong m t c u trúc d li u g i là gi thuy t. Gi i mã là làm công vi c m r ng các gi thuy t b ng vi c l a ch n b n d ch cho c m t ti p theo. Tr ng thái kh i t o là không có t ti ng nư c ngoài nào ñư c d ch sang các t ti ng Anh ñư c sinh ra. M t tr ng thái m i ñư c t o ra b ng cách m r ng t ti ng Anh ñ u ra v i m t b n d ch c m t c a các t ñ u vào ti ng nư c ngoài v n chưa ñư c d ch. 2.3.3.3. K t h p l i các gi thuy t (Recombining Hypotheses) Nh m lo i b các gi thuy t mà không th tr thành m t ph n c a b n d ch t t nh t, b ng cách t ch c các gi thuy t vào ngăn x p và lo i b t các trư ng h p x u ngay t s m. 2.3.3.4. Tìm ki m chùm (Beam Search) Gi i mã b ng gi i thu t tham lam, ñ u tiên ph i t o ra m t b n d ch thô và sau ñó t i ưu hóa nó b ng cách áp d ng d n d n các thay ñ i. Đi u này không có nghĩa r ng s ñ m b o tìm th y b n d ch t t nh t, nhưng chúng ta hy v ng s tìm th y nó m t cách ñ y ñ nh t, ho c ít nh t là m t b n d ch là r t g n v i nó.
  17. 17 2.3.3.5. Sinh danh sách n-giá tr t t nh t B gi i mã cung c p cho chúng ta b n d ch t t nh t cho m t ñ u vào theo mô hình. Tuy nhiên, chúng ta cũng có th có ñư c b n d ch t t nh t th 2, b n d ch t t nh t th 3... b ng cách sinh ra m t t p h p các b n d ch ng c cho m i câu ñ u vào. Sau ñó thêm các ñ c trưng ñưu c s d ng ñ tính l i chi phí các b n d ch này. 2.3.4. Kho ng li u Thu t ng “ng li u” ñư c t m d ch t thu t ng ti ng Anh “corpus”, có nghĩa là “kho d li u, kho sưu t p tài li u, ...” “Ng li u” ñây có th xem là nh ng “d li u, c li u c a ngôn ng ”, t c là nh ng ch ng c th c t s d ng ngôn ng . Ng li u song ng là ng li u t n t i dư i 2 ngôn ng và chúng là b n d ch c a nhau. 2.3.5. Mô hình t ng quan m t h th ng d ch máy th ng kê M t h th ng d ch máy th ng kê v i ñ y ñ 3 thành ph n nêu trên có th ñư c mô hình hóa như hình sau: Câu ngôn ng ngu n Ng li u song ng Ti n x lý B gi i mã Mô hình d ch: p(f|e) arg max = p (e) * p( f | e) e Mô hình ngôn ng : p(e) H u x lý Ng li u ñơn ng Câu ngôn ng ñích Hình 2.1 Mô hình d ch máy th ng kê
  18. 18 CHƯƠNG 3: TRI N KHAI VÀ ĐÁNH GIÁ H TH NG D CH MÁY TH NG KÊ 3.1. XÂY D NG KHO NG LI U JRAI – VI T VÀ VI T – JRAI 3.1.1. Ngu i Jrai 3.1.2. Ti ng Jrai Ti ng Jrai là ngôn ng ñư c s d ng b i ngư i Jrai Ch vi t Jrai ñư c hình thành t cu i th k 19, cho nên ch u nh hư ng l n c a ngôn ng phương Tây, vì v y mà h th ng ch vi t Jrai ñư c xây d ng d a trên b ng ch cái Latinh. 3.1.3. B ch cái, h th ng âm, v n ti ng Jrai B ch vi t Jrai ñư c hình thành t 28 ch cái: a, â, b, ẃ, č(ch), d, ñ, e, ê, g, h, i, j, k, l, m, n, ñ(nh), o, ô, ơ, p, r, s, t, u, w, y. D u: D u móc ng a ñ t trên ñ u các nguyên âm (d u trăng). Ví d : lẅ (rơi, r t), djő (ñúng), pĕ (hái), ... 3.1.4. Nhu c u xây d ng kho ng li u Jrai – Vi t Ngày nay, vào th i ñ i công ngh thông tin phát tri n vư t b c, ti ng Jrai cũng ñư c tìm cách ñưa vào máy tính ñ ph c v t t hơn cho vi c h c t p và nghiên c u. Tuy nhiên, các ng d ng m i ch d ng l i vi c so n th o văn b n hay in n tài li u ti ng Jrai. Đ ph c v t t hơn cho h c t p, nghiên c u ti ng Jrai, cũng như vi c ti p thu các tri th c ti ng Vi t, c n vi c xây d ng b ng li u Jrai- Vi t ph c v cho d ch máy th ng kê m t văn b n l n gi a ti ng Vi t và ti ng Jrai. 3.1.5. Thu th p ti ng Jrai Hi n nay, d li u ti ng Jrai ñư c t ng h p g m có: - Cu n t ñi n Vi t-Jrai, Nhà xu t b n Khoa h c xã h i, Hà N i 1977.
  19. 19 - T ñi n ñi n t phương ng Jrai-Vi t do S thông tin và Truy n thông Gia Lai th c hi n năm 2011. Ph n m m t ñi n ñi n t có hơn 9.359 t g m có 3 b t ñi n là Vi t-Jrai; Jrai-Vi t, t ñi n hình nh. - M t s tài li u h c ti ng Jrai. 3.2. TRI N KHAI H TH NG D CH MÁY TH NG KÊ MÃ NGU N M MOSES 3.2.1. Gi i thi u v Moses M t h th ng d ch máy th ng kê cho phép chúng ta t ñ ng hu n luy n các mô hình d ch cho b t kỳ c p ngôn ng nào. Đ u vào là m t b sưu t p văn b n ng li u song ng , s d ng thu t toán tìm ki m hi u qu ñ tìm ra b n d ch v i xác su t cao nh t. Hai thành ph n chính c a Moses: - B chương trình hu n luy n - B gi mã 3.2.2. Vì sao ch n Moses ? Xây d ng m t h th ng d ch máy th ng kê v i ñ y ñ các thành ph n theo ñúng quy trình là r t ph c t p, ñòi h i t n kém nhi u kinh phí và m t nhi u th i gian. Trên th c t , Moses là m t h th ng d ch máy th ng kê mã ngu n m v i s ñóng góp c a chu i các công c hoàn ch nh và hi n ñang ñư c s d ng r ng rãi nh t hi n nay. Moses ñư c s d ng b i các h th ng d ch thu t tr c tuy n, ñư c tri n khai thành công b i các hãng l n như Google và Microsoft. H th ng d ch máy th ng kê Moses ñư c xây d ng hoàn thi n và có h tr t t cho ti ng Vi t. Đ s d ng ñư c Moses, chúng ta ch c n chu n b b d li u song ng c n thi t và cài ñ t h th ng m t cách hoàn ch nh. K t qu có ñư c t h th ng Moses sau ñó ñư c ch nh s a b i con
  20. 20 ngư i s cho ra b n d ch hoàn thi n hơn. Đi u này làm gi m th i gian do ñó gi m chi phí cho b n d ch. 3.2.3. Các công c s d ng Chúng tôi ñã s d ng các b công c và chương trình: - B công c xây d ng mô hình ngôn ng SRILM - B công c liên k t t GIZA++ - B công c d ch máy th ng kê Moses - Các t p l nh chương trình: train-model.perl, clean- corpus-n.perl, lowercase.perl, ... 3.2.3.1. B công c xây d ng mô hình ngôn ng SRILM SRILM là b công c ñ xây d ng và áp d ng các mô hình ngôn ng th ng kê s d ng 2 chương trình chính sau: Ngram-count: Chương trình Ngram-count th ng kê t n s xu t hi n c a các c m N-grams. K t qu c a vi c th ng kê ñư c ghi l i vào m t t p ho c s d ng chúng ñ xây d ng mô hình ngôn ng . Ngram: Áp d ng mô hình ngôn ng ñ tính xác su t c a m t câu, hay ñ sinh các câu ti p theo c a m t văn b n. 3.2.3.2. B công c liên k t t GIZA++ Hi n t i, GIZA++ là b công c liên k t t ph bi n nh t, ñư c s d ng ñ hu n luy n Mô hình IBM 1-5 và Mô hình liên k t t HMM. Gói công c này ch a mã ngu n công c mkcls ñ ư c lư ng giá tr c c ñ i cho m i mô hình. Ng li u song ng ñư c liên k t t c 2 phía, do ñó t n t i 2 liên k t t . N u l y ph n giao hai liên k t t này, chúng ta s có liên k t t v i ñ chính xác cao. Ngư c l i, n u l y ph n h p c a hai liên k t t , chúng ta s có liên k t t v i ñ bao ph cao.
ADSENSE
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2