intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn:Nghiên cứu xây dựng kho dữ liệu song ngữ phục vụ xử lý tiếng Việt

Chia sẻ: Nhung Thi | Ngày: | Loại File: PDF | Số trang:26

120
lượt xem
22
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Tham khảo luận văn - đề án 'luận văn:nghiên cứu xây dựng kho dữ liệu song ngữ phục vụ xử lý tiếng việt', luận văn - báo cáo, thạc sĩ - tiến sĩ - cao học phục vụ nhu cầu học tập, nghiên cứu và làm việc hiệu quả

Chủ đề:
Lưu

Nội dung Text: Luận văn:Nghiên cứu xây dựng kho dữ liệu song ngữ phục vụ xử lý tiếng Việt

  1. B GIÁO D C VÀ ĐÀO T O Đ I H C ĐÀ N NG HOÀNG NHƯ QUỲNH NGHIÊN C U XÂY D NG KHO D LI U SONG NG PH C V X LÝ TI NG VI T CHUYÊN NGÀNH: KHOA H C MÁY TÍNH MÃ S : 60.48.01 TÓM T T LU N VĂN TH C SĨ K THU T ĐÀ N NG - NĂM 2011
  2. Công trình ñư c hoàn thành t i Đ I H C ĐÀ N NG Ngư i hư ng d n khoa h c: PGS.TS. Võ Trung Hùng Ph n bi n 1: GS.TS.Nguy n Thanh Th y Ph n bi n 2: PGS.TS.Tăng T n Chi n Lu n văn s ñư c b o v t i H i ñ ng ch m Lu n văn t t nghi p th c sĩ k thu t h p t i Đ i h c Đà N ng ngày 10 và 11 tháng 8 năm 2011. Có th tìm hi u Lu n văn t i: - Trung tâm Thông tin – H c li u, Đ i h c Đà N ng - Trung tâm H c li u, Đ i h c Đà N ng
  3. -1- M Đ U 1. Lý do ch n ñ tài V i s ra ñ i c a máy tính ñi n t và nh t là môi trư ng k t n i Internet toàn c u ñã t o ra m t lư ng thông tin kh ng l ñ c bi t ña ph n các d li u ñ u là ti ng Anh. Tuy nhiên lư ng thông tin to l n này v n chưa ñư c khai thác h t b i nhi u lý do và m t trong nh ng lý do quan tr ng ñó là rào c n v ngôn ng . V n ñ x lý ngôn ng t nhiên hi n nay r t c n các tài li u song ng , tuy nhiên các tài li u thư ng n m r i rác nhi u nơi dư i nhi u hình th c khác nhau. Do ñó t t c các tài li u x lý ngôn ng t nhiên ñ u d a vào kho d li u song ng ví d như d ch t ñ ng, h c ti ng Anh, khai thác thông tin trên web,…Vì v y ñòi h i m t kho d li u song ng r t l n. Hi n nay trên th gi i có r t nhi u kho d li u song ng như Anh – Pháp, Pháp – Anh, Anh – Hoa,… Tuy nhiên, ñ i v i ti ng Vi t hi n nay chưa có kho d li u song ng nào như v y ñư c công b chính th c và chia s cho ngư i s d ng. V n ñ ñ t ra là làm th nào ñ xây d ng ñư c m t kho d li u song ng Anh – Vi t t các ngu n d li u r i rác. Đ góp ph n gi i quy t v n ñ trên, chúng tôi ñ xu t ñ tài: “Nghiên c u xây d ng kho d li u song ng ph c v x lý ti ng Vi t”. 2. M c tiêu nghiên c u M c tiêu chính mà ñ tài hư ng ñ n là nghiên c u xây d ng kho d li u ch a các c p câu Anh – Vi t t các ngu n tài li u khác nhau như: trang web, t ñi n, sách, văn b n,… dư i nhi u ñ nh d ng khác nhau, như: XML, TXT, DOC,... và nghiên c u các ngu n tài li u như t ñi n L c Vi t, báo ti ng Anh – ti ng Vi t, văn b n song ng Anh –
  4. -2- Vi t,… Đ ñáp ng m c tiêu ñã nêu, ñ tài c n gi i quy t nh ng v n ñ chính sau: tìm hi u v các kho ng li u song song, thu th p các ngu n ng li u song ng Anh – Vi t, nghiên c u các gi i pháp xây d ng kho d li u song ng Anh – Vi t ñ t o ra ñư c m t cơ s d li u ph c v cho vi c h c ti ng Anh, d ch t ñ ng, nghiên c u x lý ngôn ng t nhiên,.... 3. Đ i tư ng và ph m vi nghiên c u Đ i tư ng nghiên c u là các cơ s d li u c a kho d li u song ng , các ngu n tài li u có th xây d ng nên kho d li u song ng . 4. Phương pháp nghiên c u Đ tài s d ng các k thu t tách câu t m t văn b n, bài báo,... Tìm hi u cách xây d ng kho d li u song ng ñ xây d ng kho d li u song ng Anh – Vi t. 5. Ý nghĩa khoa h c và th c ti n c a ñ tài: Kho d li u song ng Anh – Vi t là tài nguyên có giá tr trong vi c t o ra ñư c m t cơ s d li u ph c v cho vi c d y và h c ti ng Anh, d ch t ñ ng, nghiên c u x lý ngôn ng t nhiên,... 6. C u trúc lu n văn Báo cáo c a lu n văn ñư c t ch c thành 3 chương. Chương 1. Nghiên c u t ng quan. Trình bày khái ni m v kho ng li u song ng , các ng d ng c a kho, nghiên c u m t s kho ng li u song ng ñang có trên th gi i; nghiên c u v XML, m t s thu t toán v x lý ngôn ng t nhiên,… Chương 2. Gi i pháp xây d ng kho d li u song ng . Chúng tôi trình bày m t s gi i pháp xây d ng kho ng li u song ng . Chương 3. Phát tri n ng d ng. Trình bày k t qu xây d ng kho d li u t nhi u ngu n d li u khác nhau.
  5. -3- CHƯƠNG 1: NGHIÊN C U T NG QUAN Trong chương này chúng tôi trình bày các v n ñ liên quan ñ n kho d li u song ng , các h cơ s d li u và phương pháp x lý ngôn ng t nhiên áp d ng khi xây d ng các kho d li u song ng . 1.1. Kho d li u song ng 1.1.1. Khái ni m a. Ng li u là nh ng d li u, c li u c a ngôn ng , t c là nh ng ch ng c th c t s d ng ngôn ng . Nh ng ch ng c s d ng ngôn ng này có th là c a ngôn ng nói mà cũng có th là ngôn ng vi t. Trong ñó ng li u t n t i dư i d ng ngôn ng vi t bao g m nhi u hình th c khác nhau như: d ng gi y, d ng ñi n t . Ng li u ch g m các văn b n c a m t ngôn ng g i là ng li u ñơn ng và ng li u c a nhi u ngôn ng g i là ng li u ña ng . b. Kho ng li u là m t t p h p các m nh ngôn ng ñư c ch n l a và s p x p theo m t s tiêu chí ngôn ng h c rõ ràng ñ ñư c s d ng như m t m u ngôn ng . Ho c: Kho ng li u là m t h th ng tham chi u d a trên m t b sưu t p ñi n t c a văn b n bao trong m t ngôn ng nh t ñ nh. c. Kho d li u song ng là m t kho các c p văn b n song ng ñư c trình bày dư i d ng ñi n t , trong ñó có m i ngôn ng là b n d ch c a ngôn ng kia. 1.1.2. ng d ng c a kho d li u song ng 1.1.2.1. ng d ng trong ngôn ng h c – th ng kê Ngôn ng h c - th ng kê là ng d ng phương pháp xác su t - th ng kê vào vi c th ng kê, ño, ñ m các ñ i tư ng trong ngành ngôn ng h c.
  6. -4- 1.1.2.2. ng d ng trong ngôn ng h c so sánh Ngôn ng h c so sánh là so sánh các ñi m tương ñ ng, khác bi t gi a các ngôn ng . Đ so sánh chúng ta c n có các c li u c a các ngôn ng mà chúng ta c n so sánh vì v y vi c thu th p, t ng h p c li u t các ngu n khác nhau là r t c n thi t. 1.1.2.3. ng d ng trong gi ng d y ngo i ng Kho ng li u song ng ñóng vai trò quan tr ng trong vi c làm ngu n ng li u và tài li u sư ph m r t phong phú, làm giàu thêm ki n th c c a h và cũng là công c h u ích trong vi c thi t k giáo trình, s d ng trong vi c d y và h c ngo i ng . 1.1.2.4. ng d ng trong vi c nghiên c u d ch thu t Kho ng li u song song có th giúp phiên d ch ñ tìm ra s tương ñương gi a ngôn ng ngu n và ñích. Chúng cung c p thông tin v t n s c a t , s d ng c th t v ng và cú pháp. Giúp phiên d ch ñ phát tri n các chi n lư c d ch thu t có h th ng các t hay c m t hay câu không có tương ñương tr c ti p b ng ngôn ng ñích. 1.1.3. Nghiên c u m t s kho d li u song ng trên th gi i 1.1.3.1. British National Corpus (BNC) Kho ng li u 100.000.000 t ñư c l y t các m u văn b n t nhi u ngu n. Ph n ngôn ng vi t c a BNC (90%) ñư c l y t các t báo, các t p chí,... Ph n ngôn ng nói (10%) bao g m phiên âm ch vi t c a các cu c h i tho i không chính th c và ngôn ng nói. 1.1.3.2. Canadian Hansard Corpus (Anh – Pháp) Kho ng li u v i 90 tri u t Anh – Pháp, là ng li u song song n i ti ng ñư c trích t các văn b n c a Qu c h i Canada, ñã ñư c xu t b n b ng ngôn ng chính th c t i Canada là ti ng Anh và ti ng Pháp. 1.1.3.3. JENAAD Japanese-English Parallel Corpus (Anh-Nh t) Kho ng li u Japanese - English News Article Alignment Data (JENAAD) ch a 150.000 c p câu. Ngu n g c c a kho ng li u ñư c
  7. -5- l y t Yomiuri Shimbun, m t trong nh ng t p chí qu c gia c a Nh t B n, và t báo ti ng Anh Daily Yomiuri. 1.1.3.4. PKU 863 (Anh - Trung) c a Đ i h c B c Kinh Kho ng li u song song Anh - Trung PKU trong D án 863 c a Vi n Ngôn ng h c Tính toán c a Trư ng ñ i h c Peking. Kho ng li u g m có hơn 200.000 liên k t nh ng c p câu ñư c l y t nh ng văn b n song ng có ch t lư ng (3.066.435 t ti ng Anh và ti ng Trung Qu c), bao g m nhi u th lo i và lĩnh v c. 1.2. M t s k thu t s d ng ñ xây d ng kho d li u song ng 1.2.1. Cơ s d li u 1.2.1.1. T ng quan v XML 1.2.1.2. Thu t ng 1.2.1.3. C u trúc c a m t file XML 1.2.1.4. T o l p m t tài li u XML 1.2.1.5. Nh ng thành ph n c a m t tài li u XML 1.2.1.6. K t Lu n 1.2.2. Thu th p d li u Các kho ng li u song ng hi n nay thư ng ñư c ch n l c t các ngu n tài li u như: báo chí, sách, các website song ng , ng li u ñi n t ,... Tuy v y có m t s h n ch ñó là các ng li u song ng có s n trên m ng Internet ña s ñ u là các b n d ch thoát ý, ho c không d ch 1 - 1. Các ngu n ng li u song ng Anh - Vi t có th thu th p: a. Ngu n t ñi n: trong m i t ñi n, m i m c t , thư ng ch a các ví d hư ng d n s d ng t ñó, và các ví d b ng ti ng Anh này cũng ñư c d ch chính xác (1 - 1) sang ti ng Vi t. b. Ng li u SUSANNE: ñây là ng li u ñi n t ti ng Anh, g m kho ng 128.000 t ñư c rút t ng li u Brown.
  8. -6- c. Ngu n Internet: ñây là ngu n d li u kh ng l , ngu n ng li u này có l i th là chúng ñã t n t i s n dư i d ng ñi n t , nhưng ch có m t s ít các trang Web song ng là ñáp ng ñư c ñúng tiêu chu n. d. Ngu n sách: bao g m các sách d y ti ng Anh, các m u câu ti ng Anh, sách song ng tin h c, khoa h c k thu t,… 1.2.3. X lý ngôn ng t nhiên Song song v i vi c thu th p d li u, v i các ngu n d li u ñ u vào thì c n ph i có m t s công ño n x lý văn b n ñ u vào, phân tích, tách ño n, tách câu,…ñ ñ t ñư c m c ñích. 1.2.3.1. X lý ñ u vào Các văn b n s ñư c làm s ch, xóa nh ng ph n không c n thi t. Các trang web sau khi t i xu ng s ñư c trích rút n i dung trang web. 1.2.3.2. Tách ño n Tách ño n nh m m c ñích tách văn b n thành các ño n và xem văn b n là m t kh i liên t c các câu. 1.2.3.3. Tách câu Trong văn b n ti ng Anh, ti ng Vi t hay m t s ngôn ng khác, thông thư ng ngư i ta dùng d u ch m (.), ch m than (!), ch m h i (?) và m t s d u ch m câu khác ñ nh n bi t k t thúc câu. Tuy nhiên do tính nh p nh ng c a d u báo hi u k t thúc câu nên vi c phân ñ nh ranh gi i không ñơn gi n. Ví d d u ch m có th bi u th cho m t d u th p phân (1,234.567), m t c m t vi t t t (Mr., Dr., GS., TS., …), k t thúc câu văn và m t s trư ng h p như ñ a ch trang web, email…(www.udn.vn ho c abc@udn.vn). D u ch m h i hay d u ch m thang có th xu t hi n trong d u ngo c ñơn, ngo c kép hay cu i câu. 1.3. M t s gi i thu t trong x lý ngôn ng t nhiên 1.3.1. Thu t toán liên k t t 1.3.2. Thu t toán liên k t t b ng l p ng nghĩa ClassAlign 1.3.3. Thu t toán tách câu
  9. -7- CHƯƠNG 2: GI I PHÁP XÂY D NG KHO D LI U SONG NG Trong chương này chúng tôi xin trình bày m t s gi i pháp xây d ng kho d li u song ng . Các gi i pháp ñ xu t bao g m: Xây d ng kho t ngu n d li u t ñi n, t ngu n báo ñi n t , t các kho d li u ñư c xây d ng s n. 2.1. Gi i thi u Trong nhi u năm tr l i ñây, t m quan tr ng kho ng li u song ng ñư c ñánh giá r t cao do ñó vi c xây d ng m t kho ng li u song ng nh m ñáp ng nhu c u v thông tin, v h c t p, d ch thu t,… là r t c n thi t. Hi n nay v i lư ng thông tin trên m ng toàn c u ña ph n là ti ng Anh, t i Vi t Nam s lư ng kho ng li u song song Anh – Vi t không nhi u và không ñư c ph bi n r ng rãi, do ñó trong lu n văn này chúng tôi ñưa ra gi i pháp ñ xây d ng kho ng li u song ng Anh – Vi t ph c v x lý ti ng Vi t nh m ñáp ng nhu c u s d ng kho cho gi ng d y, h c t p ti ng Anh, d ch máy, x lý ngôn ng t nhiên,… 2.2. Mô hình t ng th Ki n trúc t ng th c a h th ng bao g m nh ng thành ph n sau: - B sưu t p d li u: sưu t p các ngu n d li u song ng Anh – Vi t ban ñ u t ebook, văn b n song ng , các trang web song ng , t ñi n,... - Ti n x lý d li u: có th nh p tr c ti p d li u, x lý th công ho c h th ng, chu n hóa d li u trư c khi ñưa vào kho. Vi c chu n hóa d li u là vi c chuy n ñ i ñ nh d ng d li u thành ñ nh d ng tương thích v i m c ñích c a h th ng. - Khai thác d li u: nh ng ng d ng c a d li u song ng sau khi x lý.
  10. -8- Hình 2.1. Mô hình t ng th h th ng 2.3. Xây d ng kho d li u song ng 2.3.1. Các tiêu chí ch n m u ng li u Đ b o ñ m ñư c hi u qu khai thác, ñúng m c tiêu nghiên c u ñã ñ t ra, chúng ta c n áp d ng 4 tiêu chí trong khi xem xét l y m u ng li u song ng Anh-Vi t như sau: a. Chu n ngôn ng : ng li u ti ng Anh cũng như ti ng Vi t ñ u ph i là nh ng câu ñư c xem là chu n m c, nghĩa là ph i ñúng ng pháp và ñư c nhi u ngư i ch p nh n hay nhi u ngư i s d ng. b. Cách d ch 1 – 1: các ng li u song ng Anh-Vi t ph i th c s là b n d ch 1 - 1 c a nhau, không ñư c d ch thoát ý, d ch tóm lư c, d ch tương ñương/ ñ ng nghĩa hay d ch theo ki u gi i thích, di n gi i.
  11. -9- c. Ng li u ph i phù h p v i phong cách và lĩnh v c c a ñ i tư ng nghiên c u: Đ i tư ng nghiên c u c a chúng tôi là các văn b n và các câu thông thư ng. d. Ng li u d ng ñi n t : ngoài 3 tiêu chu n b t bu c trên, chúng ta s ưu tiên ch n nh ng ng li u song ng Anh-Vi t nào mà ñang t n t i dư i d ng ñi n t . 2.3.2. Ch n ngu n d li u và chu n hóa Trong các ngu n tài li u thô ta thư ng th y các câu ví d song ng trong các ngu n ng li u khác nhau thì có hình th c trình bày khác nhau. V í d như: Ho c Hình 2.2. Ví d hình th c trình bày các ngu n d li u khác nhau Đ chu n hoá thành m t d ng, m t tiêu chu n duy nh t. Vi c chu n hoá ng li u g m hai nhi m v chính: 1. Chu n hoá d ng ng li u song ng Anh - Vi t: ñưa v ñúng d ng ñi n t , ñ nh d ng t p tin, mã/font ti ng Vi t, chu n chính t . 2. Liên k t câu (sentence – alignment): phân ng li u thành t ng c p câu song ng Anh - Vi t b ng cách ñánh d u xem ng v i m i câu ti ng Anh, có câu ti ng Vi t nào ñi kèm.
  12. - 10 - 2.3.3. Xây d ng c u trúc kho d li u song ng V m t t ch c lưu tr d li u chúng tôi ch n vi c lưu tr kho trên XML. Có hai gi i pháp ñ lưu tr là lưu tr toàn b d li u (Anh, Vi t) trên cùng m t t p tin ña ng hay lưu tr trên nhi u t p tin: S d ng nhi u t p tin S d ng m t t p tin Ti ng Vi t Ti ng Anh Anh _ Vi t ….. Hình 2.3. Các gi i pháp t ch c CSDL Trong trư ng h p d li u ñư c lưu tr trên nhi u t p tin, m i ngôn ng s ñư c lưu tr trên m t t p tin và có ñư c ñánh s ch m c gi ng nhau. Trong trư ng h p này chúng tôi ch n gi i pháp lưu tr trên nhi u t p tin v i các lý do sau: - Khi c n thi t b sung ngôn ng s d dàng, ta ch c n t o ra m t t p tin d li u ngôn ng mà ta mu n cùng c u trúc s d ng v i các ngôn ng khác và lưu tr song song v i các t p tin khác. - C u trúc c a t p tin không thay ñ i, t t c các t p tin d li u ñ u có cùng m t c u trúc và ñi u này r t có l i khi l p trình ñ khai thác các d li u 2.3.4. Các ngu n d li u thu th p 2.3.4.1. Ngu n T ñi n L c Vi t T ñi n là m t thi t b , công c cho phép lưu tr thông tin mà qua ñó, d a vào m t t , m t c m t ñơn gi n, chúng ta có th tìm ñư c
  13. - 11 - nghĩa gi i thích, các thông tin liên quan m t cách nhanh chóng. Có th phân chia t ñi n thành hai lo i l n: - T ñi n bách khoa. - T ñi n ngôn ng T ñi n m t ngôn ng : Đư c biên so n cho m t ngôn ng c th nào ñó t ng m t, t ng lĩnh v c. Ví d : T ñi n gi i thích T ñi n nhi u ngôn ng : Đư c biên so n trên cơ s ñ i chi u hai hay nhi u ngôn ng . ñây cũng có th g m t ñi n ñ i chi u ph thông như: T ñi n Anh – Vi t, t ñi n toán h c Anh – Vi t, … T ñi n ñi n t là t ñi n ñư c lưu tr và trình bày trên h th ng thông tin ñi n t . Trong ñó có t ñi n L c Vi t là b t ñi n song ng Anh - Vi t ñ u tiên. S lư ng t trong ph n m m này r t l n. V i m i t ñư c tra, chúng s có ñ y ñ thông tin v t lo i, ng nghĩa, cách phát âm . Tương ng v i m i m c t s có các ví d kèm theo khi tra c u t trong t ñi n L c Vi t, các m u câu ví d trong t ñi n L c Vi t là b n d ch 1 - 1 c a nhau, vì v y, các m u câu ñó là m t ngu n d li u chu n ñ xây d ng kho d li u song ng Anh–Vi t c a chúng ta. Ngu n t ñi n L c Vi t ñư c s d ng ñ xây d ng kho d li u song ng Anh – Vi t ñư c th c hi n qua các bư c sau: - Trích n i dung c a các c p câu ví d ng v i m i m c t ; - T o c p kho các c p câu song ng lưu t p tin .Doc; - X lý t o ch m c ñ ñưa vào kho. 2.3.4.2. Ngu n Báo ñi n t VOV News Trên m ng Internet có hàng t trang web, m t s trong ñó là b n d ch c a nhau. Web là m t ngu n d li u tuy t v i ñ xây d ng kho ng li u song song, ít nh t là ñ i v i m t s c p ngôn ng . Tuy nhiên, các th t c ñ ñ nh v các văn b n song song trên Web không ñơn gi n v i nhi u lý do sau: Lư ng d li u quá l n, vi c t ñ ng dò tìm các trang web ch a tài li u song ng là không d dàng. Ngay khi ñã có
  14. - 12 - ñư c trang web song ng , vi c xác ñ nh nh ng trang nào là d ch c a nhau cũng không ñơn gi n do nó ñòi h i nhi u tài nguyên v ngôn ng trong khi nh ng tài nguyên h tr ti ng Vi t còn r t h n ch . M t khó khăn n a là ch t lư ng tài li u d ch trên internet. Các website song ng thư ng ñ t tên tương t nhau. Tên trang web luôn g m có m t chu i con chung ch ra tính song song song c a nh ng trang web, cùng ñi v i m t chu i con khác ñư c s d ng như là c ngôn ng ch ra ngôn ng c a m i tài li u c th . Ví d , m t trang web ti ng Vi t có tên là “vovnews.vn” thì b n d ch ti ng Anh c a nó là “english.vovnews.vn”. Đ xác ñ nh ñư c m t trang web là trang web song ng thì trang ngôn ng chính (trang cha) thư ng có liên k t v i các phiên b n ngôn ng khác. Trong khuôn kh lu n văn này tôi ch n báo ñi n t VOVNews làm ngu n d li u ñ ñưa vào kho d li u song ng Anh – Vi t c n xây d ng. VOVNews cũng là m t trong nh ng trang web có nh ng bài vi t song ng Anh - Vi t là b n d ch c a nhau, tuy nhiên s bài vi t là b n d ch c a nhau là không nhi u. Và m t như c ñi m chung c a trang web song ng ñó là ch d ch ý, không ph i là b n d ch 1 - 1. V i ngu n d li u song ng này các bư c th c hi n bao g m: - Tìm ki m, xác ñ nh m t c p trang là b n d ch c a nhau; - T i các c p trang web v t URL; - X lý d li u trích l y n i dung; - Tách câu; - X lý ñ ñưa vào kho. 2.3.4.3. Ngu n t các kho ng li u ñư c xây d ng s n Ng li u hu n luy n là kho ng li u ñư c xây d ng s n, các kho ng li u này có th là ñơn ng và cũng có th là song ng và t nhi u
  15. - 13 - ngôn ng khác nhau, các kho ng li u ñư c xây d ng s n không không nhi u. Trên th gi i có r t nhi u kho ng li u song ng ho c ñơn ng chia s mi n phí cho c ng ñ ng nghiên c u. Ví d như : kho ng li u song ng song song ñư c xây d ng t s h tr c a d án EuroMatrix, ng li u ti ng Anh SUSANNE là ng li u ñi n t ti ng Anh ñư c xây d ng b i m t nhóm các nhà ngôn ng h c - máy tính, kho ng li u Anh – Pháp Canadian Hansard,… S d ng kho ng li u hu n luy n ñ xây d ng kho ng li u song ng Anh - Vi t c n ph i thông qua m t h th ng d ch t ñ ng ñ d ch t ngôn ng này sang ngôn ng kia. Ki m tra l i n i dung d ch Kho ti ng H th ng Kho ti ng Anh d ch t ñ ng Vi t Hình 2.9. Sơ ñ d ch câu ti ng Anh sang ti ng Vi t Các bư c ñ có ñư c ngu n d li u song ng như sau: - Tìm ki m các kho ng li u có s n; - Xoá b các tags c a XML ho c dòng tr ng (n u có); - Đưa vào h th ng d ch t ñ ng; - Ki m tra l i n i dung ñư c d ch v i s giúp ñ c a ngư i có chuyên môn; - Tách câu; - X lý ñ ñưa vào kho.
  16. - 14 - CHƯƠNG 3: PHÁT TRI N NG D NG Trong chương này chúng tôi xin trình bày m t s k thu t x lý ngu n d li u ban ñ u thu th p ñư c ñ xây d ng kho d li u song ng bao g m: k thu t liên k t câu, k thu t c p nh t d li u s d ng VBA, k thu t trích l c d li u,… chương này cũng nêu rõ quá trình th c hi n trích t ngu n t ñi n L c Vi t, t ngu n báo ñi n t VOVNews, t các kho d li u ñư c xây d ng s n qua các k thu t x lý ñ xây d ng kho d li u song ng . 3.1. Gi i pháp x lý d li u Trong khuôn kh lu n văn này tôi trình bày m t s gi i pháp, k thu t x lý d li u và chuy n ñ i t m t s ñ nh d ng như rtf, pdf,… sang ñ nh d ng XLM . 3.1.1. K thu t liên k t câu tr c tuy n b ng YouAlign YouAlign là m t gi i pháp liên k t tài li u tr c tuy n mi n phí, th truy c p YouAlign ñ a ch : http://youalign.com/. Sau khi ñăng nh p chúng ta có th gióng câu gi a hai văn b n song ng là b n d ch c a nhau. YouAlign cho phép chúng ta download t p tin ñã qua x lý dư i d ng HTML ho c TMX. Ưu ñi m c a YouAlign: - Cho k t qu gióng câu chính xác v i b n d ch c a nó. - Là gi i pháp liên k t tài li u tr c tuy n mi n phí - H tr nhi u ñ nh d ng. - Giao di n thân thi n v i ngư i dùng. Như c ñi m: - Ph i s d ng tr c tuy n. - Tài li u sau khi download v ph i x lý l i cho phù h p. 3.1.2. Công c c p nh t tài li u b ng RTF c a MS Word Microsoft word là ph n m m so n th o văn b n cao c p ch y trong môi trư ng Windows. Word k t h p nhi u tính năng m nh như
  17. - 15 - so n th o, ñ nh d ng, s d ng các b chương trình ti n ích và ph tr giúp t o các văn b n ñ c bi t, macro,... Đ c bi t, ñ lưu tr thông tin v cách ñ nh d ng s d ng nhóm ñ nh d ng cùng m t lúc áp d ng ñ nh d ng style. Ưu ñi m - ng d ng ngay t p tin RTF mà không c n ph i xây d ng ng d ng do v y th i gian tri n khai nhanh. - Vi c không xây d ng ng d ng tra c u CSDL có nhi u ưu ñi m khác như ti t ki m th i gian tìm hi u các c u trúc, các y u t liên quan ñ n vi c t ch c CSDL. Như c ñi m - Kích thư c t p tin RTF l n hơn so v i các d ng t p tin khác như HTML, XML, DBF khi bi u di n cùng m t lư ng thông tin. - Có nhi u khó khăn trong vi c tìm ki m. - Có tính r i r c vì d li u ñư c lưu tr trên nhi u t p tin khác nhau và gi a các m c t không có m i liên h v m t logic. 3.1.3. K thu t c p nh t s d ng các macro K thu t này ñư c s d ng cho vi c c p nh t kho ng li u song ng Anh – Vi t. B ng cách m Visual Basic Editor trong Word có th s d ng VBA vi t hay ñi u ch nh các macro ñ ñ nh nghĩa các ñi u khi n ActiveX và t o ra các ng d ng trong Word. VBA là m t ngôn ng dành cho các macro c a Word, các macro ghi nh n s là m t th t c trong các môñun c a VB hay các ñ án macro. M t s ti n ích ch y u ph c v sưu t p d li u và chèn th , ch m c tương ñương cho các câu Anh-Vi t, chuy n ñ i d ng th c d li u RTF sang XML... Macro Word Đ nh d ng c a Word XML Hình 3.5. Sơ ñ chuy n ñ i t t p tin *. Doc sang t p tin *. XML
  18. - 16 - Ưu ñi m - Macro t ñ ng t o ra m t dãy các l nh mà chúng ta ñã thao tác, ñ nh d ng d li u trong Word và s d ng các macro b t kỳ lúc nào mà không c n ph i kh i ñ ng word. - S d ng Macro ñ xu t các tài li u Word sang MS Excel, MS Access hay XML. - Macro ti t ki m th i gian, công s c và không b sai sót b ng cách th c hi n m t nhóm các l nh. - D li u t v ng ñư c ñ nh d ng theo m t c u trúc nh t ñ nh và không m t ñ nh d ng nguyên thu như trên các t p tin RTF. - Vi c c p nh t d li u th c hi n m t cách d dàng, nhanh chóng và có tính m . - D dàng vi t các câu l nh VB ñi u khi n trên cơ s d li u. Như c ñi m - Khi m t macro ñang th c hi n thì chúng ta không th can thi p gì vào cho t i khi macro hoàn t t. - N u th c hi n m t macro trong tình tr ng sai thì ch c ch n s t n nhi u th i gian ñ th c hi n khôi ph c tr l i tình tr ng ban ñ u. 3.1.4. K thu t trích l c d li u file html Thông tin là m t tài nguyên c n khai thác và Internet gi ng như m t m tài nguyên kh ng l . Vi c khai thác n i dung c a các trang thông tin trên Internet ph c v cho nhi u m c ñích khác nhau, v i website song ng thì n i dung c a c p trang web song ng là b n d ch c a nhau là ngu n d li u phong phú ñ c p nh t kho d li u song ng . M t trang web sau khi ñư c t i v ñ làm ngu n d li u c p nh t kho, ta c n trích l y n i dung c n thi t và ph i làm s ch, bao g m: - Đ c n i dung văn b n ñưa v ñ nh d ng chu i ký t . - H y b dòng tr ng không ñư c hi n th trên HTML. - H y b các kho ng tr ng tab.
  19. - 17 - - H y b các ký t tr ng liên ti p trong HTML. - H y b th HEAD. - H y b t t c JavaScript. - Thay th các ký t ñ c bi t như &, , "… - Ki m tra và thay th ng t dòng () ho c kho n () - Lo i b t t c các th HTML. 3.1.5. M t s ñ nh d ng ñã x lý T p tin Word có ñuôi m r ng .doc và .docx; t p tin Acrobat Reader có ñuôi m r ng .pdf; t p tin html có ñ nh d ng html, htm. 3.2. Trích t t ñi n L c Vi t L c Vi t là b t ñi n song ng Anh - Vi t ph bi n hi n nay. S lư ng các c p câu Anh – Vi t ñi kèm v i m i t trong t ñi n r t l n, ñ ng th i là nh ng c p câu là b n d ch chu n c a nhau, là ngu n d li u phong phú ñ c p nh t kho d li u song ng Anh – Vi t . T ñi n L c Vi t Duy t t ng t Sao chép 1 c p câu T p tin En_Vn.doc Chưa h t m c t Macro Word XML_Vn XML_En Hình 3.9. Sơ ñ quá trình trích t T ñi n L c Vi t
  20. - 18 - Gi i pháp x lý ñưa vào kho d li u song ng : công ño n này chúng tôi s d ng ño n chương trình vi t trên VBA ñ ti n hành chuy n ñ i t p tin *.Doc sang ñ nh d ng XML và thi t l p các ch m c cho các c p câu Anh – Vi t tương ng. Sau khi chuy n ñ i v d ng XML s nh n ñư c k t qu như sau : Qu ñ t thì tròn Anh ta là giáo viên Hình 3.14. K t qu sau khi chuy n ñ i ñ nh d ng t p tin và t o ch m c 3.3. Trích t VOV News Trên World Wide Web t n t i nhi u d li u, ñ tìm ñư c hai trang web là b n d ch c a nhau t c là n i dung c a trang này là b n d ch sang ngôn ng khác c a n i dung trang kia, ta có th s d ng các b máy tìm ki m như Google, Yahoo,… Tuy nhiên khó ñ xác ñ nh ñư c c p trang web là b n d ch c a nhau. Vì v y, trong khuôn kh lu n văn này tôi ch n m t trang web song ng Anh – Vi t VOV News ñ s d ng trong vi c xây d ng kho d li u song ng . Do các trang web song ng thông thư ng ñư c tham chi u l n nhau. Đ xác ñ nh m t c p tin bài Anh – Vi t trên trang VOV, ta d a vào ñư ng d n URL c a tin bài, tương ng v i m i bài vi t ti ng Vi t
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2