intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn:Nghiên cứu các công cụ phát triển của UNL và khả năng ứng dụng cho tiếng Việt

Chia sẻ: Nhung Thi | Ngày: | Loại File: PDF | Số trang:26

53
lượt xem
6
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Đã có một vài nguyên nhân mà OMG phát triển UML. Nguyên nhân chính là họ muốn các mô hình UML đủ khả năng phân phối Kiến trúc định hướng Mô hình (Model Driven Architecture) (MDA), có nghĩa rằng UML phải hoạt động hơn là một chú thích định hướng mô hình. Tương tự, chú thích UML 1.x được tập hợp tại các thời điểm sẽ khó khăn để áp dụng vào các ứng dụng lớn hơn. Hơn nữa, các thành phần chú thích cần thiết nâng cấp để tạo các biểu đồ có thể đọc được. (Ví dụ, mô...

Chủ đề:
Lưu

Nội dung Text: Luận văn:Nghiên cứu các công cụ phát triển của UNL và khả năng ứng dụng cho tiếng Việt

  1. -1- B GIÁO D C VÀ ĐÀO T O Đ I H C ĐÀ N NG LÊ VŨ NG C ANH NGHIÊN C U CÁC CÔNG C PHÁT TRI N C A UNL VÀ KH NĂNG NG D NG CHO TI NG VI T Chuyên ngành: KHOA H C MÁY TÍNH Mã s : 60-48-01 TÓM T T LU N VĂN TH C SĨ K THU T Đà N ng - Năm 2011
  2. -2- Công trình ñư c hoàn thành t i Đ I H C ĐÀ N NG Ngư i hư ng d n khoa h c: PGS. TS. Võ Trung Hùng Ph n bi n 1: TS. Nguy n Tr n Qu c Vinh Ph n bi n 2: PGS. TS. Lê M nh Th nh Lu n văn ñư c b o v trư c H i ñ ng ch m Lu n văn t t nghi p Th c sĩ k thu t h p t i Đ i h c Đà N ng vào ngày 10 Tháng 9 Năm 2011. Có th tìm hi u Lu n văn t i: - Trung t m Thông tin - H c li u, Đ i h c Đà N ng - Trung tâm H c li u, Đ i h c Đà N ng
  3. -3- M Đ U 1. Lý do ch n ñ tài Nh ng nghiên c u v d ch t ñ ng ñã cho ra ñ i nhi u công c d ch hi u qu và có th s d ng như Google, AltaVista…. nhi u h th ng ñã ñư c ñưa vào thương m i hóa như Systran, Reverso, Babylon..... Nh ng công c này cho phép t o ra m t "b n d ch nghĩa" - m t b n d ch chưa ñư c hoàn ch nh nhưng giúp chúng ta có th hi u ñư c ý nghĩa c a văn b n g c và c n ph i ch nh s a nhi u ñ ñ t ñ n m t b n d ch hoàn ch nh. Các h th ng d ch t ñ ng cho phép d ch r t nhanh và chi phí th p hơn nhi u so v i d ch b ng con ngư i. Tuy nhiên, nh ng h th ng này ñang ph i ñ i m t v i r t nhi u v n ñ như s ña nghĩa c a t , s nh p nh ng v ng nghĩa, s ph thu c v ng c nh và r t nhi u khó khăn trong s khác bi t v gi i thích các khái ni m. Có m t cách ti p c n khác tránh rơi vào tình tr ng ph c t p c a s ña d ng v ng nghĩa; ñó là d ch b ng cách s d ng m t ngôn ng trung gian (ngôn ng bi u ñ t riêng cho máy tính). Ngôn ng trung gian này cho phép bi u di n v m t ng nghĩa m c ñơn gi n nh t có th (gi m thi u nh ng r c r i do v n ñ ng nghĩa). M t trong nh ng d án ñi theo cách ti p c n này g i là Universal Networking Language (UNL). UNL ñư c ñ xu t và tri n khai th c hi n b i H.Uchida United Nations University, Tokyo, Nh t B n. Đ i v i ti ng Vi t, v n ñ ñ t ra là làm th nào ñ có th phát tri n nhanh nh t h th ng d ch t ñ ng cho ti ng Vi t d a trên nh ng k t qu s n có và UNL là m t trong nh ng kh năng ñ ch n l a theo hư ng này. V n ñ ñ t ra là chúng ta ph i nghiên c u UNL và các b công c c a nó ñ có th phát tri n nhanh nh t h th ng d ch t ñ ng cho ti ng Vi t d a trên nh ng k t qu ñã có. Đư c s g i ý c a PGS. TS. Võ Trung Hùng,
  4. -4- tôi ñã ch n ñ tài: “Nghiên c u các công c phát tri n c a UNL và kh năng ng d ng cho Ti ng Vi t ” 2. M c ñích nghiên c u M c ñích là tìm hi u và trình bày t ng quan v UNL, h th ng ho t ñ ng và các b công c c a UNL. Trên cơ s ñó, chúng tôi ñưa ra kh năng ng d ng cho ti ng Vi t. 3. Đ i tư ng và ph m vi nghiên c u Trong khuôn kh m t lu n văn th c nghi m, chúng tôi ch gi i h n nghiên c u vi c n m v ng t ng quan ngôn ng UNL và các b công c c a nó, gi i thi u t ng quát v các nghiên c u và gi i pháp ñã th c hi n ñ ng d ng UNL cho ti ng Vi t. Trên cơ s ñó, chúng tôi th nghi m và ñ xu t gi i pháp ng d ng các công c phát tri n c a UNL áp d ng cho ti ng Vi t. 4. Phương pháp nghiên c u Trong quá trình th c hi n, chúng tôi s d ng hai phương pháp chính là nghiên c u tài li u và th c nghi m. V i phương pháp ñ u tiên, chúng tôi ti n hành thu th p và nghiên c u các tài li u có liên quan ñ n ñ tài. Phương pháp ti p theo là nghiên c u các công c UNL s n có, ti n hành th nghi m trên các công c UNL s n có và ñ xu t gi i pháp ng d ng cho ti ng Vi t. Cu i cùng là ñánh giá k t qu và nêu hư ng phát tri n c a ñ tài. 5. Ý nghĩa khoa h c và th c ti n c a ñ tài Báo cáo c a ñ tài ñã trình bày t ng quan v UNL, gi i thi u các công c và h th ng h tr UNL, sau ñó th nghi m, ñánh giá và ñ xu t gi i pháp ng d ng các công c phát tri n c a UNL cho ti ng Vi t. K t qu này s t o ti n ñ cho vi c nhanh chóng xây d ng thành công h th ng d ch t ñ ng ña ng cho ti ng Vi t trong tương lai.
  5. -5- 6. C u trúc c a lu n văn Báo cáo lu n văn ñư c t ch c thành ba chương. Chương ñ u chúng tôi gi i thi u ph n nghiên c u t ng quan v UNL và các b công c c a nó. Chương hai là gi i thi u trình bày t ng quan v v các nghiên c u và gi i pháp ñã th c hi n ñ ng d ng UNL cho ti ng Vi t. Chương ba là ti n hành th nghi m trên m t công c h tr UNL, ñánh giá và ñ xu t m t s ng d ng UNL cho Ti ng Vi t, tri n v ng c a ñ tài. Cu i cùng là k t lu n và nêu hư ng phát tri n c a ñ tài. CHƯƠNG 1 T NG QUAN V UNL VÀ CÁC NGHIÊN C U Đ ÁP D NG UNL CHO TI NG VI T Trong chương này, chúng tôi trình bày t ng quan v ngôn ng c a UNL, h th ng UNL và gi i thi u m t s công c phát tri n c a UNL 1.1. T ng quan v ngôn ng UNL 1.1.1. Khái ni m UNL là t vi t t t c a “Universal Networking Language”. Nó là ngôn ng máy tính cho phép máy tính có th truy c p thông tin và tri th c mà không b rào c n ngôn ng . Nó là m t ngôn ng gi có kh năng mô ph ng th gi i ngôn ng t nhiên c a con ngư i trong giao ti p. K t qu là nó cho phép m i ngư i có th bi u di n t t c các tri th c t ngôn ng t nhiên. Nó cũng cho phép máy tính giao ti p, vì th cung c p cho m i ngư i các c u trúc ngôn ng ñ phân b , nh n và hi u thông tin ña ngôn ng . UNL bi u di n thông tin ho c tri th c dư i d ng m ng ng nghĩa v i c u trúc ña ñ th . Khác v i ngôn ng t nhiên, s bi u di n c a UNL là
  6. -6- không nh p nh ng. Trong m ng ña ng nghĩa c a UNL, các nút bi u di n các khái ni m và các c nh bi u di n m i quan h gi a các khái ni m. T khi UNL là ngôn ng c a máy tính, nó có t t c các thành ph n c a ngôn ng t nhiên. UNL bao g m UW - T v ng, Relation - Quan h , Attributes - Thu c tính, and UNL Knowledge Base - Ki n th c cơ b n. Nó t o ra các t bi u di n các khái ni m g i là “Universal Word” g i t t là UW, UW ch a các t v ng c a UNL. Nó liên k t n i v i các t v ng khác t o thành câu. Nh ng liên k t này g i là “relation” - m i quan h , nó ch ñ nh vai trò c a m i t trong câu. Nh ng ng ý c a ngư i nói có th ñư c di n t thông qua “Attribute” - Thu c tính. “UNLKB” cung c p nh ng ñ nh nghĩa ng nghĩa c a t v ng. UNLKB ñ nh nghĩa m i quan h có th có gi a các khái ni m bao g m các quan h phân c p và các k thu t tham chi u d a trên các quan h bao g m l n nhau gi a các khái ni m. Vì th UNLKB cung c p n n t ng ng nghĩa c a UNL ñ ch c ch n nghĩa c a bi u th c UNL là không nh p nh ng. 1.1.2. Bi u th c UNL 1.1.3. Các quan h 1.1.4. T v ng UNL 1.1.5. Phân lo i t v ng UNL 1.1.6. Thu c tính UNL 1.1.7. Bi u th c UNL 1.2. T ng quan v h th ng UNL 1.2.1. Quá trình EnConvertor
  7. -7- 1.2.2. Quá trình DeConvertor 1.2.3. Dictionary - T ñi n 1.3. Các nghiên c u ñ áp d ng cho UNL-ti ng Vi t 1.3.1. Gi i pháp d ch ti ng Vi t thông qua h th ng trung gian h tr UNL Gi i thi u D a vào vi c tìm hi u m t cách có h th ng v khái ni m UNL, h th ng ho t ñ ng c a UNL. Nghiên c u ñã ñ xu t ng d ng UNL cho ti ng Vi t thông qua hai mô hình như sau: Mô hình 1: Chuy n ñ i th công văn b n Ti ng Vi t sang ngôn ng UNL và t ñó s d ng các công c h tr d ch t UNL sang các ngôn ng khác như Ti ng Anh, Ti ng Nga, Ti ng Tây Ban Nha, Ti ng Ý. Ví d : t m t câu ti ng Vi t: “Tôi có th giúp gì cho ông không ?”, ta s chuy n nó sang d ng UNL: agt(help(icl>do).@polity.@interrogative.@entry, I) obj(help(icl>do).@entry.@polity.@interrogative, you) Và t ñây ta có th d ch nó sang nh ng ngôn ng (hi n nay là 15 ngôn ng ) ñã ñư c h tr b i UNL như ti ng Anh, ti ng Pháp, ti ng Nh t,… Phương pháp th c hi n Cách 1: Xây d ng kho d li u các câu Ti ng Vi t - Ti ng Anh - UNL ( ng d ng h th ng ETAP3 ñ chuy n t ti ng Anh sang UNL). Sau ñó s d ng các trang web d ch tr c tuy n ñ d ch các câu UNL sang ngôn ng c n. ( Ví d Ti ng Nga, Nh t).
  8. -8- Cách 2: Chuy n ñ i th công văn b n Ti ng Vi t sang ngôn ng UNL. Mô hình 2: Phát tri n các công c h tr như : + Xây d ng công c h tr quá trình Mã hóa - EnConverter : - Xây d ng t ñi n các t , các lu t văn ph m, t ñi n ñ nh nghĩa các khái ni m cơ b n c a Ti ng Vi t. - Xây d ng các lu t mã hóa, các lu t phân tích t trong câu. - Khi chu i ñ u vào ñư c n p thì EnConverter s ti n hành phân tích các t trong câu, m i t ñư c xem như là m t nút, n p lu t mã hóa và ti n hành ki m tra lu t. Áp d ng lu t mã hóa cho danh sách các nút. Quá trình x lý c a ng d ng lu t là ñ tìm ra lu t thích h p và áp d ng trên danh sách nút ñ t o ch c năng cú pháp và m ng UNL s d ng các nút trong c a s phân tích. N u m t chu i xu t hi n trong c a s , h th ng s xây d ng t ñi n t và áp d ng lu t lên các ph n t t . Trong trư ng h p, n u m t t ñáp ng ñ các ñi u ki n yêu c u cho c a s c a lu t, t này s ñư c l a ch n và ng d ng lu t ti p t c. Quá trình x lý này s ti p t c cho ñ n khi ch c năng cú pháp và m ng UNL ñư c hoàn thành và ch còn l i các ph n t nút trong danh sách nút. - Cu i cùng EnConverter hi n th m ng UNL thành file d li u ñ u ra là quan h nh phân theo ñ nh d ng c a bi u th c UNL. + Xây d ng công c h tr quá trình Gi i mã - DeConverter : G m 3 thành ph n - Thành ph n ñ u tiên dùng ñ chuy n bi u th c UNL thành ñ th . - Thành ph n th hai chuy n ñ th thành m t s cây
  9. -9- - Thành ph n th ba dùng phương pháp ñ quy duy t t trên xu ng qua các ñ nh ñ d ch m i cây con và k t qu là m t câu hoàn ch nh. Nh n xét Đ i v i mô hình 1, theo cách 1 thì ưu ñi m là nhanh chóng ng d ng UNL mà không c n ph i phát tri n b t c công c b sung nào. Nó phù h p v i vi c ph bi n nhanh nh ng d li u cơ b n và thi t y u (hư ng d n du l ch, các m u h i tho i ñơn gi n, qu ng cáo…) ra nhi u th ti ng ñã h tr b i UNL. H n ch là ph i có ñ i ngũ am hi u ngôn ng UNL ñ chuy n nh ng d li u ñang có sang UNL. Đ i v i cách 2, do UNL ñư c xây d ng d a trên t ñi n các t c a ti ng Anh nên ch có m t s ít các t Ti ng Vi t có th ñ nh nghĩa thành t Ti ng Anh ñ máy ch có th hi u t ñ y và ch n t Ti ng Nga thích h p. Do ñó, ñ có th th c hi n ñư c công c có th mã hóa t Ti ng Vi t sang các ngôn ng khác thì ta c n xây d ng b sung các ñ nh nghĩa c a các khái ni m tương ng gi a Ti ng Vi t – Ti ng Anh. Đ i v i mô hình 2: Đ i v i mô hình ng d ng 2, ưu ñi m là t o ra m t h th ng d ch t ñ ng ña ng hoàn ch nh cho ti ng Vi t; ñó là phát tri n các mô-ñun d ch ti ng Vi t - UNL và UNL - ti ng Vi t. Tuy nhiên, v i mô hình này thì c n ph i b ra nhi u công s c ñ nghiên c u, phát tri n d li u t ñi n, ng pháp và các mô-ñun d ch trên cơ s n n t ng ñã có c a UNL 1.3.2. Gi i pháp xây d ng t ñi n UNL-ti ng Vi t Gi i thi u Đ ng d ng nhanh chóng h th ng UNL ph c v d ch ña ng cho ti ng Vi t; nhi m v quan tr ng nh t là tích h p ñư c ti ng Vi t vào UNL.
  10. -10- Đ làm ñư c vi c này, chúng ta c n phát tri n mô-ñun d ch xuôi (ti ng Vi t - UNL) và d ch ngư c (UNL - ti ng Vi t). M i mô-ñun bao g m nhi u công ño n nh khác nhau, trong ñó m t ph n quan tr ng ph c v cho d ch t ñ ng ñ ñưa ra nh ng b n d ch chính xác v n là cơ s d li u t ñi n. Gi i pháp này ñưa ra d a trên vi c nghiên c u c u trúc t ñi n Anh - Vi t theo ñ nh d ng Dict. Hi n nay, www.dict.org ñã xây d ng m t ñ nh d ng t ñi n r t d s d ng, ñ nh d ng này ñã ñư c m t s cá nhân s d ng ñ xây d ng nh ng b t ñi n khá l n. Có nhi u b t ñi n thông d ng ñã ñư c c ng ñ ng phát tri n. Nghiên c u này s d ng b t ñi n Anh - Vi t c a tác gi H Ng c Đ c (http://www.informatik.uni- leipzig.de/~duc/Dict/) ñ trích ph n n i dung ti ng Vi t. V chu n chính t ti ng Vi t v n tuân theo chu n chính t như trong t ñi n Hoàng Phê. V mã ti ng Vi t, tác gi s d ng b mã Unicode. Bên c nh ñó, nghiên c u cũng ñã s d ng t ñi n UNL - FR (hơn 39.000 t ) do nhóm GETA (Groupe d’Etudes pour la Traduction Automatique) xây d ng. Phương pháp th c hi n Qua nghiên c u c u trúc t ñi n UNL-FR và t ñi n Anh-Vi t theo chu n Dict c a tác gi H Ng c Đ c, nghiên c u ñã ñ xu t các bư c xây d ng t ñi n UNL - ti ng Vi t như sau: - L y m t m c t ti ng Pháp trong t ñi n UNL-FR - L y headword và các thu c tính t lo i ñi cùng như CATV, CATN, CATADJ…c a m c t ti ng Pháp ñó. - L y m t m c t trong t ñi n Anh – Vi t
  11. -11- - L y headword m c t ñó và các thu c tính ñi cùng v i như ñ ng t , danh t , tính t ,… - So sánh 2 headword v a l y t 2 t ñi n, n u gi ng nhau thì tùy theo t lo i là danh t , ñ ng t , tính t ,…thì gán nghĩa ti ng Vi t vào n i dung m c t ti ng Pháp tương ng ñư c 1 m c t UNL - ti ng Vi t lưu m c t v a t o vào cơ s d li u t ñi n UNL - ti ng Vi t - Quá trình s l p l i liên t c cho ñ n khi khai thác h t các m c t trong t ñi n UNL-FR. Nh n xét Vi c xây d ng t ñi n UNL - ti ng Vi t b ng phương pháp so sánh các headword d a vào t ñi n UNL-FR và Anh - Vi t ñã t o ñư c m t s lư ng khá l n t v ng (247.763 t ). Nh ng headword trong t ñi n UNL- FR không tìm th y trong t ñi n Anh - Vi t (b ng 1) là 36.85% có th gi i thích b i các nguyên nhân như sau: - H th ng chưa x lý h t c u trúc chi ti t bên trong c a m i m c t trong t ñi n Anh - Vi t. Ví d trong t ñi n UNL-FR có headword là “hurry_up”, nhưng trong t ñi n Anh - Vi t headword ch có “@hurry”, còn “hurry_up” là các chi ti t bên trong c a ñ ng t “hurry”. - T trong Anh - Vi t chưa ñ y ñ ho c chưa khai thác h t các thu c tính n m trong các CAT c a UNL-FR. 1.3.3. Gi i pháp xây d ng môi trư ng c ng tác ñ phát tri n t ñi n UNL-ti ng Vi t Gi i thi u
  12. -12- Gi i pháp ñưa ra là xây d ng môi trư ng c ng tác trao ñ i và chia s ki n th c ñ phát tri n t ñi n UNL - ti ng Vi t, góp ph n vào vi c ñưa ng d ng UNL vào x lý ti ng Vi t. Nhi m v chính là nghiên c u v d ch d ñ ng: các khái ni m, l ch s phát tri n, các phương pháp, nh ng h n ch và m t s ng d ng. Nghiên c u v s d ng ngôn ng tr c (Pivot Language) trong x lý ngôn ng t nhiên, các v n ñ liên quan ñ n t ñi n, tìm hi u chi ti t v UNL và t ñi n trong UNL và nghiên c u v môi trư ng h p tác trên m ng. Phương pháp th c hi n Bư c 1: Thi t k kho d li u Kho d li u ñư c thi t k d a vào file thành l p t nhi u ngu n ch ch a d li u ñã ñư c s p x p theo d ng ñi n t c a phù h p v i c u trúc mà t ch c UNL th gi i s d ng. Kho d li u ñư c thi t k ñ thu n ti n cho vi c báo cáo và phân tích cũng như trích xu t ñ s d ng góp ph n làm n n t ng cho vi c phát tri n các công c d ch t ñ ng v sau. Kho d li u ñư c thi t k m c ñích ñây là t p trung vào vi c lưu gi d li u. Nh ng d li u này s ñư c ki m tra và ñưa vào d li u t ñi n ñ có th s d ng làm n n t ng phát tri n cho các h th ng deconvertor cho Ti ng Vi t. Nghiên c u này ñã ñ xu t gi i pháp xây d ng kho d li u d a vào t ñi n Anh - Vi t theo ñ nh d ng Dict c a tác gi H Ng c Đ c (http://www.informatik.uni-leipzig.de/~duc/Dict/) ñ trích ph n n i dung ti ng Vi t. V chu n chính t ti ng Vi t v n tuân theo chu n chính t như trong t ñi n Hoàng Phê và s d ng b mã Unicode. K t h p v i t ñi n UNL-FR (hơn 39.000 t ) do nhóm GETA xây d ng.
  13. -13- Bư c 2: Xây d ng môi trư ng c ng tác Xây d ng m t website là m t môi trư ng c ng tác ñ phát tri n t ñi n UNL-Ti ng Vi t có ñ y ñ các yêu c u như m t môi trư ng c ng tác th c. Bên c nh ñó h th ng còn ph i ñ m b o tính d qu n lý và trao ñ i gi a các thành viên, tính chia s và d s d ng. Nh n xét H th ng xây d ng t ñi n trên m ng c ng tác giúp nhi u ngư i có th chung s c ñ nhanh chóng xây d ng nên m t cơ s d li u t ñi n UNL- Ti ng Vi t có giá tr . Nó là m t t ñi n m nên mang tính ch t dân ch giúp nhi u tác gi thu c nhi u lĩnh v c chuyên môn khác nhau có th c ng tác v i nhau và ñưa ra nhi u bình lu n h u ích h tr trong vi c l a ch n c p nh t n i dung c a t ñi n sao cho chính xác. Tuy nhiên, vi c xây d ng t ñi n UNL-Ti ng Vi t trên m ng c ng tác cũng g p m t s v n ñ h n ch như vi c ki m soát bài vi t là r t khó, cũng như tính chuyên môn trong s c ng tác viên s không ñ ng ñ u, s khách quan s tùy thu c r t nhi u vào ngư i qu n lý chính, và công tác qu n lý xét duy t trong môi trư ng c ng tác m ng thì r t khó khăn. CHƯƠNG 2 CÁC CÔNG C VÀ H TH NG H TR UNL Trong chương này, chúng tôi s trình bày m t s công c và h th ng h tr UNL. m i công c chúng tôi s trình bày t ng quát và nh n xét kh năng áp d ng cho ti ng Vi t. 2.1. H th ng ETAP- 3
  14. -14- 2.1.1. Gi i thi u ETAP-3 là môi trư ng NLP ña ti n ích mà nó ñư c ñư c hình thành vào năm 1980 và là s n ph m c a Institute for Information Transmission Problems, Russian Academy of Sciences (Apresjan et al. 1992a, b, Boguslavsky 1995). ETAP-3 ñư c trên lý thuy t Ng nghĩa - Văn b n (Meaning - Text) c a Igor' Mel'čuk và the Integral Theory of Language c a Jurij Apresjan. ETAP-3 là ph n m m ch y u ñ ph c v cho môi trư ng nghiên c u ña ng hơn là ph n m m có tính thương m i. Tr ng tâm chính c a vi c nghiên c u v i ETAP-3 là mô hình tính toán c a ngôn ng t nhiên. T t c các ng d ng c a NLP trong ETAP-3 ph n l n d a trên ba giá tr logic và s d ng ngôn ng chu n cho miêu t ña ng , FORET. ETAP-3 có t ch c các ki n th c ngôn ng h c. Nghĩa là d li u ngôn ng (văn ph m và t ñi n) ñư c d a trên khái ni m t ph n m m s d ng ñ x lý chúng. Theo ñó, ki n th c ngôn ng không b phân tán trong mã ph n m m và vì th d hi u, d s d ng và s a ch a. 2.1.2. Các ch c năng c a ETAP-3 Các module chính NLP c a ETAP-3 như sau : H th ng d ch máy (Machine Translation System) Giao di n ngôn ng t nhiên ñ truy v n d li u H th ng di n gi i các câu tương ñương. Công c s a l i cú pháp Công c h tr máy tính h c ngôn ng . UNL Deconverter và Enconverter
  15. -15- Nh ng tính năng quan tr ng nh t c a môi trư ng ETAP-3 và trong các module như sau: Phương pháp d a trên lu t (Rule-Based Approach) Phương pháp phân t ng (Stratificational Approach) Phương pháp k th a (Transfer Approach) S ñ c l p cú pháp (Syntactic Dependencies) Phương pháp t v ng (Lexicalistic Approach) H th ng d ch ph c t p (Multiple Translation) Ngu n tài nguyên c a ngôn ng có th m r ng t i ña. 2.1.3. ETAP-3 và UNL ETAP-3 là h th ng NLP d a trên ngu n tri th c ngôn ng d i dào, nó có th ñư c d dàng m r ng và ng d ng cho các ng d ng khác. Phương pháp c a h th ng ETAP-3 nh m xây d ng c u n i gi a UNL và m t trong nh ng cách bi u di n n i c a ETAP, tên là NormSS (Normalized Syntactic Structure), và theo cách này s liên k t UNL v i các ngôn ng khác dư i d ng bi u di n văn b n. M c bi u di n NormSS là thích h p nh t cho vi c thi t l p phù h p v i UNL, v i bi u th c UNL. T m quan tr ng c a chúng như sau : C bi u th c UNL và NormSS gi v trí trung gian gi a giao di n và vi c bi u di n m c ng nghĩa. Chúng phù h p c m c cú pháp. m c này, nghĩa c a các ph n t t v ng không ñư c phân tích thành g c và m i quan h gi a các phân t t v ng là ñ c l p v i ngôn ng .
  16. -16- Các nút c a c bi u th c UNL và NormSS ñ u là các ph n t nh nh t và không có c u trúc cú pháp Các nút ch a các ñ c ñi m riêng (g i là thu c tính) Các c nh c a c hai c u trúc là c u trúc không ñ i x ng ph thu c. 2.2. Công c CWL Conversion Framework 2.2.1. Gi i thi u CWL Conversion Framework là m t công c cung c p s mã hóa qua l i gi a các lo i ñ nh d ng CWL.unl, CWL.cdl và CWL.rdf. Nó là m t ng d ng web ñ c l p ñư c vi t b ng ngôn ng Java/JSP, DHTML/Ajax và VML. 2.2.2. Các ch c năng chính Phân tích d li u ñ u vào Xây d ng ñ i tư ng ñ th v i các nút ñ ch các ph n t và các cung ch các quan h . Phát sinh ra các hình th c xem khác nhau (UNL, CDL, RDF, Graphical) Các ch c năng cơ b n này ñư c cài ñ t như thư vi n c a Java mà nó có th ñư c s d ng cho các ng d ng khác. 2.2.3. Các ki u hi n th Các ñ i tư ng ñ th ñư c tr v có th hi n th các d ng khác nhau nhưng nhìn chung chúng ph n nh m i quan h tương t như nhau t d li u ñ u vào. + Graph View
  17. -17- + UNL View + CDL (Concept Description Language) View + RDF View 2.3. H th ng Unl Explorer 2.3.1. Gi i thi u UNL Explorer là m t ng d ng cho phép ngư i s d ng ho c các nhà phát tri n xem ho c phát tri n cơ s d li u UNL (UNL Database). UNL Database lưu tr thông tin c a UNL trong ñó thông tin chính là các t v ng UWs (Universal Words). Các t v ng (Uws) ñư c lưu tr trong t ñi n UNL và m i t v ng ñư c miêu t b ng bi u th c UNL. D a trên UNL Database, UNL Explorer cho phép ngư i s d ng tìm ki m thông tin s d ng t v ng UWs ho c t m t ngôn ng t nhiên nào ñó. Nó s hi n th các k t qu trong UNL ho c m t ngôn ng t nhiên mong mu n b ng cách truy c p vào h th ng UNL. H th ng gi i mã (Deconverter) c a UNL s gi i bi u th c thông tin UNL ra m t ngôn ng t nhiên mong mu n. Nó cũng cung c p m t s ch c năng cho các nhà phát tri n thêm ho c s a ñ i thông tin trong UNL Database trong ngôn ng m ñ c a h . Trong trư ng h p này, công c UNL Editor là r t c n thi t ñ t o ra các bi u th c UNL t các ngôn ng t nhiên. Ki n trúc c a UNL Database cho phép phát tri n c a nó s ñư c th c hi n b i nhi u nhà phát tri n t các ngôn ng và n n văn hóa khác nhau.
  18. -18- 2.3.2. C u trúc c a UNL Database UNL Database g m có 2 ph n: UNLKB cung c p nh ng ñ nh nghĩa ng nghĩa c a t v ng và UNL Document ch a n i dung thông tin các tài li u UNL. 2.3.3. C u trúc c a UNL Explorer UNL Explorer có hai ki u là UNL Explorer Editor và UNL Explorer Viewer. 2.3.4. Cài ñ t T t c các t p tin và thư m c ph i ñư c lưu tr trong cùng m t thư m c v i cái tên “C:\UNLExplorer”. N u s d ng m t ñĩa khác, thì tên ñĩa “C” ph i ñư c thay th b i tên ñĩa ñó. Trong trư ng h p này, ph i thay th l i t t c tên ñĩa trong t p tin UNLExpV.ini và UNLExpV.ini. 2.3.5. Ch c năng c a UNL Explorer T p tin chương trình chính c a UNL Explorer là UNLExpE.exe. UNLExpV.exe là m t chương trình ch dành cho ngư i xem. 2.4. Công c Word Dictionary Builder 2.4.1. Gi i thi u Word Dictionary Builder là m t công c ñ t o nên ch m c c a t ñi n t d li u văn b n. Ch m c t ñi n có th ñư c s d ng c 2 quá trình mã hóa và gi i mã. 2.4.2. Cách s d ng và ñ nh d ng t ñi n t văn b n 2.5. Công c UNL PLATFORM
  19. -19- 2.5.1. Gi i thi u UNL Platform là m t UNL d a trên tài li u ña ngôn ng phát tri n ng d ng web. Nó cung c p cho ngư i dùng m t môi trư ng tích h p ñ ngư i dùng có th xây d ng tài li u UNL (UNL Documents) t ngôn ng t nhiên UNL và ngư c l i. UNL Platform tích h p t t c các công c c n thi t c a h th ng UNL và cung c p các ch c năng khác nhau ñ giúp ngư i s d ng trong xây d ng UNL và tài li u ngôn ng ñích. Tùy thu c vào nhu c u và m c ñích c a ngư i s d ng, UNL Platform cung c p nhi u c p ñ khác nhau c a các ch c năng ñ ñáp ng nhu c u. 2.5.2. Đ c ñi m Hi n UNL Platform ch m i h tr cho ti ng Anh và ti ng Nh t, trong tương lai s là ti ng Trung và m t s ti ng khác. 2.6. Công c JIBIKI 2.6.1. Gi i thi u Jibiki là m t môi trư ng chung cho các văn b n tr c tuy n và truy v n t t c các lo i t ñi n: thu t ng , t ñi n song ng , t v ng ña ngôn ng cơ s d li u,…Nó ñã ñư c phát tri n b i Mathieu Mangeot (Université de Savoie, Pháp) và Gilles Sérasset (Université de Grenoble 1, Pháp), hi n nay có thêm s tham gia c a Francis Brunet - Manquat, nhóm GETA c a phòng thí nghi m CLIPS Grenoble, Pháp. Đư c xây d ng b ng công ngh Java và nh ng công c mã ngu n m ñ c quy n. Nó d a trên Enhydra, m t máy ch web ñ ng và Postgres, cơ s d li u quan h . Giao di n hi n nay là b ng ti ng Anh, ti ng Estonia, Pháp, Đ c và Nh t B n. Ngư i dùng cũng có th d dàng thêm m t ngôn
  20. -20- ng m i. M t s thu n l i cho vi c giao ti p gi a các c ng ñ ng ngư i s d ng là di n ñàn, danh sách phân ph i. 2.6.2. So sánh v i các công c khác 2.6.3. M t s d án s d ng Jibiki - Papillon Project - GDEF Project - LexALP Project 2.6.4. M t s ch c năng - Tra c u t ñi n - Qu n lý các nhi m v 2.7. Công c UW GATE 2.7.1. Gi i thi u Công c UW Gate cung c p cho ngư i dùng phương ti n ñ truy c p vào UNL Ontology và t ñi n UW thông qua Internet. S d ng công c UW Gate, ngư i dùng có th tìm ki m nh ng t mong mu n, m i quan h các t , t tương ñương c a ngôn ng t nhiên… Ngư i dùng cũng có th ñ nh nghĩa ho c ñăng ký t m i tương ñương v i ngôn ng t nhiên. T m i ñư c ñưa vào v trí thích h p trên h th ng UW Gate b ng cách làm theo hư ng d n c a UW Gate, ñ chúng có th làm cho các ch c năng trong b n th UNL th c hi n t t hơn.
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2