Luận văn:Nghiên cứu xây dựng kho dữ liệu song ngữ phục vụ xử lý tiếng Việt
lượt xem 23
download
Tham khảo luận văn - đề án 'luận văn:nghiên cứu xây dựng kho dữ liệu song ngữ phục vụ xử lý tiếng việt', luận văn - báo cáo, thạc sĩ - tiến sĩ - cao học phục vụ nhu cầu học tập, nghiên cứu và làm việc hiệu quả
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Luận văn:Nghiên cứu xây dựng kho dữ liệu song ngữ phục vụ xử lý tiếng Việt
- B GIÁO D C VÀ ĐÀO T O Đ I H C ĐÀ N NG HOÀNG NHƯ QUỲNH NGHIÊN C U XÂY D NG KHO D LI U SONG NG PH C V X LÝ TI NG VI T CHUYÊN NGÀNH: KHOA H C MÁY TÍNH MÃ S : 60.48.01 TÓM T T LU N VĂN TH C SĨ K THU T ĐÀ N NG - NĂM 2011
- Công trình ñư c hoàn thành t i Đ I H C ĐÀ N NG Ngư i hư ng d n khoa h c: PGS.TS. Võ Trung Hùng Ph n bi n 1: GS.TS.Nguy n Thanh Th y Ph n bi n 2: PGS.TS.Tăng T n Chi n Lu n văn s ñư c b o v t i H i ñ ng ch m Lu n văn t t nghi p th c sĩ k thu t h p t i Đ i h c Đà N ng ngày 10 và 11 tháng 8 năm 2011. Có th tìm hi u Lu n văn t i: - Trung tâm Thông tin – H c li u, Đ i h c Đà N ng - Trung tâm H c li u, Đ i h c Đà N ng
- -1- M Đ U 1. Lý do ch n ñ tài V i s ra ñ i c a máy tính ñi n t và nh t là môi trư ng k t n i Internet toàn c u ñã t o ra m t lư ng thông tin kh ng l ñ c bi t ña ph n các d li u ñ u là ti ng Anh. Tuy nhiên lư ng thông tin to l n này v n chưa ñư c khai thác h t b i nhi u lý do và m t trong nh ng lý do quan tr ng ñó là rào c n v ngôn ng . V n ñ x lý ngôn ng t nhiên hi n nay r t c n các tài li u song ng , tuy nhiên các tài li u thư ng n m r i rác nhi u nơi dư i nhi u hình th c khác nhau. Do ñó t t c các tài li u x lý ngôn ng t nhiên ñ u d a vào kho d li u song ng ví d như d ch t ñ ng, h c ti ng Anh, khai thác thông tin trên web,…Vì v y ñòi h i m t kho d li u song ng r t l n. Hi n nay trên th gi i có r t nhi u kho d li u song ng như Anh – Pháp, Pháp – Anh, Anh – Hoa,… Tuy nhiên, ñ i v i ti ng Vi t hi n nay chưa có kho d li u song ng nào như v y ñư c công b chính th c và chia s cho ngư i s d ng. V n ñ ñ t ra là làm th nào ñ xây d ng ñư c m t kho d li u song ng Anh – Vi t t các ngu n d li u r i rác. Đ góp ph n gi i quy t v n ñ trên, chúng tôi ñ xu t ñ tài: “Nghiên c u xây d ng kho d li u song ng ph c v x lý ti ng Vi t”. 2. M c tiêu nghiên c u M c tiêu chính mà ñ tài hư ng ñ n là nghiên c u xây d ng kho d li u ch a các c p câu Anh – Vi t t các ngu n tài li u khác nhau như: trang web, t ñi n, sách, văn b n,… dư i nhi u ñ nh d ng khác nhau, như: XML, TXT, DOC,... và nghiên c u các ngu n tài li u như t ñi n L c Vi t, báo ti ng Anh – ti ng Vi t, văn b n song ng Anh –
- -2- Vi t,… Đ ñáp ng m c tiêu ñã nêu, ñ tài c n gi i quy t nh ng v n ñ chính sau: tìm hi u v các kho ng li u song song, thu th p các ngu n ng li u song ng Anh – Vi t, nghiên c u các gi i pháp xây d ng kho d li u song ng Anh – Vi t ñ t o ra ñư c m t cơ s d li u ph c v cho vi c h c ti ng Anh, d ch t ñ ng, nghiên c u x lý ngôn ng t nhiên,.... 3. Đ i tư ng và ph m vi nghiên c u Đ i tư ng nghiên c u là các cơ s d li u c a kho d li u song ng , các ngu n tài li u có th xây d ng nên kho d li u song ng . 4. Phương pháp nghiên c u Đ tài s d ng các k thu t tách câu t m t văn b n, bài báo,... Tìm hi u cách xây d ng kho d li u song ng ñ xây d ng kho d li u song ng Anh – Vi t. 5. Ý nghĩa khoa h c và th c ti n c a ñ tài: Kho d li u song ng Anh – Vi t là tài nguyên có giá tr trong vi c t o ra ñư c m t cơ s d li u ph c v cho vi c d y và h c ti ng Anh, d ch t ñ ng, nghiên c u x lý ngôn ng t nhiên,... 6. C u trúc lu n văn Báo cáo c a lu n văn ñư c t ch c thành 3 chương. Chương 1. Nghiên c u t ng quan. Trình bày khái ni m v kho ng li u song ng , các ng d ng c a kho, nghiên c u m t s kho ng li u song ng ñang có trên th gi i; nghiên c u v XML, m t s thu t toán v x lý ngôn ng t nhiên,… Chương 2. Gi i pháp xây d ng kho d li u song ng . Chúng tôi trình bày m t s gi i pháp xây d ng kho ng li u song ng . Chương 3. Phát tri n ng d ng. Trình bày k t qu xây d ng kho d li u t nhi u ngu n d li u khác nhau.
- -3- CHƯƠNG 1: NGHIÊN C U T NG QUAN Trong chương này chúng tôi trình bày các v n ñ liên quan ñ n kho d li u song ng , các h cơ s d li u và phương pháp x lý ngôn ng t nhiên áp d ng khi xây d ng các kho d li u song ng . 1.1. Kho d li u song ng 1.1.1. Khái ni m a. Ng li u là nh ng d li u, c li u c a ngôn ng , t c là nh ng ch ng c th c t s d ng ngôn ng . Nh ng ch ng c s d ng ngôn ng này có th là c a ngôn ng nói mà cũng có th là ngôn ng vi t. Trong ñó ng li u t n t i dư i d ng ngôn ng vi t bao g m nhi u hình th c khác nhau như: d ng gi y, d ng ñi n t . Ng li u ch g m các văn b n c a m t ngôn ng g i là ng li u ñơn ng và ng li u c a nhi u ngôn ng g i là ng li u ña ng . b. Kho ng li u là m t t p h p các m nh ngôn ng ñư c ch n l a và s p x p theo m t s tiêu chí ngôn ng h c rõ ràng ñ ñư c s d ng như m t m u ngôn ng . Ho c: Kho ng li u là m t h th ng tham chi u d a trên m t b sưu t p ñi n t c a văn b n bao trong m t ngôn ng nh t ñ nh. c. Kho d li u song ng là m t kho các c p văn b n song ng ñư c trình bày dư i d ng ñi n t , trong ñó có m i ngôn ng là b n d ch c a ngôn ng kia. 1.1.2. ng d ng c a kho d li u song ng 1.1.2.1. ng d ng trong ngôn ng h c – th ng kê Ngôn ng h c - th ng kê là ng d ng phương pháp xác su t - th ng kê vào vi c th ng kê, ño, ñ m các ñ i tư ng trong ngành ngôn ng h c.
- -4- 1.1.2.2. ng d ng trong ngôn ng h c so sánh Ngôn ng h c so sánh là so sánh các ñi m tương ñ ng, khác bi t gi a các ngôn ng . Đ so sánh chúng ta c n có các c li u c a các ngôn ng mà chúng ta c n so sánh vì v y vi c thu th p, t ng h p c li u t các ngu n khác nhau là r t c n thi t. 1.1.2.3. ng d ng trong gi ng d y ngo i ng Kho ng li u song ng ñóng vai trò quan tr ng trong vi c làm ngu n ng li u và tài li u sư ph m r t phong phú, làm giàu thêm ki n th c c a h và cũng là công c h u ích trong vi c thi t k giáo trình, s d ng trong vi c d y và h c ngo i ng . 1.1.2.4. ng d ng trong vi c nghiên c u d ch thu t Kho ng li u song song có th giúp phiên d ch ñ tìm ra s tương ñương gi a ngôn ng ngu n và ñích. Chúng cung c p thông tin v t n s c a t , s d ng c th t v ng và cú pháp. Giúp phiên d ch ñ phát tri n các chi n lư c d ch thu t có h th ng các t hay c m t hay câu không có tương ñương tr c ti p b ng ngôn ng ñích. 1.1.3. Nghiên c u m t s kho d li u song ng trên th gi i 1.1.3.1. British National Corpus (BNC) Kho ng li u 100.000.000 t ñư c l y t các m u văn b n t nhi u ngu n. Ph n ngôn ng vi t c a BNC (90%) ñư c l y t các t báo, các t p chí,... Ph n ngôn ng nói (10%) bao g m phiên âm ch vi t c a các cu c h i tho i không chính th c và ngôn ng nói. 1.1.3.2. Canadian Hansard Corpus (Anh – Pháp) Kho ng li u v i 90 tri u t Anh – Pháp, là ng li u song song n i ti ng ñư c trích t các văn b n c a Qu c h i Canada, ñã ñư c xu t b n b ng ngôn ng chính th c t i Canada là ti ng Anh và ti ng Pháp. 1.1.3.3. JENAAD Japanese-English Parallel Corpus (Anh-Nh t) Kho ng li u Japanese - English News Article Alignment Data (JENAAD) ch a 150.000 c p câu. Ngu n g c c a kho ng li u ñư c
- -5- l y t Yomiuri Shimbun, m t trong nh ng t p chí qu c gia c a Nh t B n, và t báo ti ng Anh Daily Yomiuri. 1.1.3.4. PKU 863 (Anh - Trung) c a Đ i h c B c Kinh Kho ng li u song song Anh - Trung PKU trong D án 863 c a Vi n Ngôn ng h c Tính toán c a Trư ng ñ i h c Peking. Kho ng li u g m có hơn 200.000 liên k t nh ng c p câu ñư c l y t nh ng văn b n song ng có ch t lư ng (3.066.435 t ti ng Anh và ti ng Trung Qu c), bao g m nhi u th lo i và lĩnh v c. 1.2. M t s k thu t s d ng ñ xây d ng kho d li u song ng 1.2.1. Cơ s d li u 1.2.1.1. T ng quan v XML 1.2.1.2. Thu t ng 1.2.1.3. C u trúc c a m t file XML 1.2.1.4. T o l p m t tài li u XML 1.2.1.5. Nh ng thành ph n c a m t tài li u XML 1.2.1.6. K t Lu n 1.2.2. Thu th p d li u Các kho ng li u song ng hi n nay thư ng ñư c ch n l c t các ngu n tài li u như: báo chí, sách, các website song ng , ng li u ñi n t ,... Tuy v y có m t s h n ch ñó là các ng li u song ng có s n trên m ng Internet ña s ñ u là các b n d ch thoát ý, ho c không d ch 1 - 1. Các ngu n ng li u song ng Anh - Vi t có th thu th p: a. Ngu n t ñi n: trong m i t ñi n, m i m c t , thư ng ch a các ví d hư ng d n s d ng t ñó, và các ví d b ng ti ng Anh này cũng ñư c d ch chính xác (1 - 1) sang ti ng Vi t. b. Ng li u SUSANNE: ñây là ng li u ñi n t ti ng Anh, g m kho ng 128.000 t ñư c rút t ng li u Brown.
- -6- c. Ngu n Internet: ñây là ngu n d li u kh ng l , ngu n ng li u này có l i th là chúng ñã t n t i s n dư i d ng ñi n t , nhưng ch có m t s ít các trang Web song ng là ñáp ng ñư c ñúng tiêu chu n. d. Ngu n sách: bao g m các sách d y ti ng Anh, các m u câu ti ng Anh, sách song ng tin h c, khoa h c k thu t,… 1.2.3. X lý ngôn ng t nhiên Song song v i vi c thu th p d li u, v i các ngu n d li u ñ u vào thì c n ph i có m t s công ño n x lý văn b n ñ u vào, phân tích, tách ño n, tách câu,…ñ ñ t ñư c m c ñích. 1.2.3.1. X lý ñ u vào Các văn b n s ñư c làm s ch, xóa nh ng ph n không c n thi t. Các trang web sau khi t i xu ng s ñư c trích rút n i dung trang web. 1.2.3.2. Tách ño n Tách ño n nh m m c ñích tách văn b n thành các ño n và xem văn b n là m t kh i liên t c các câu. 1.2.3.3. Tách câu Trong văn b n ti ng Anh, ti ng Vi t hay m t s ngôn ng khác, thông thư ng ngư i ta dùng d u ch m (.), ch m than (!), ch m h i (?) và m t s d u ch m câu khác ñ nh n bi t k t thúc câu. Tuy nhiên do tính nh p nh ng c a d u báo hi u k t thúc câu nên vi c phân ñ nh ranh gi i không ñơn gi n. Ví d d u ch m có th bi u th cho m t d u th p phân (1,234.567), m t c m t vi t t t (Mr., Dr., GS., TS., …), k t thúc câu văn và m t s trư ng h p như ñ a ch trang web, email…(www.udn.vn ho c abc@udn.vn). D u ch m h i hay d u ch m thang có th xu t hi n trong d u ngo c ñơn, ngo c kép hay cu i câu. 1.3. M t s gi i thu t trong x lý ngôn ng t nhiên 1.3.1. Thu t toán liên k t t 1.3.2. Thu t toán liên k t t b ng l p ng nghĩa ClassAlign 1.3.3. Thu t toán tách câu
- -7- CHƯƠNG 2: GI I PHÁP XÂY D NG KHO D LI U SONG NG Trong chương này chúng tôi xin trình bày m t s gi i pháp xây d ng kho d li u song ng . Các gi i pháp ñ xu t bao g m: Xây d ng kho t ngu n d li u t ñi n, t ngu n báo ñi n t , t các kho d li u ñư c xây d ng s n. 2.1. Gi i thi u Trong nhi u năm tr l i ñây, t m quan tr ng kho ng li u song ng ñư c ñánh giá r t cao do ñó vi c xây d ng m t kho ng li u song ng nh m ñáp ng nhu c u v thông tin, v h c t p, d ch thu t,… là r t c n thi t. Hi n nay v i lư ng thông tin trên m ng toàn c u ña ph n là ti ng Anh, t i Vi t Nam s lư ng kho ng li u song song Anh – Vi t không nhi u và không ñư c ph bi n r ng rãi, do ñó trong lu n văn này chúng tôi ñưa ra gi i pháp ñ xây d ng kho ng li u song ng Anh – Vi t ph c v x lý ti ng Vi t nh m ñáp ng nhu c u s d ng kho cho gi ng d y, h c t p ti ng Anh, d ch máy, x lý ngôn ng t nhiên,… 2.2. Mô hình t ng th Ki n trúc t ng th c a h th ng bao g m nh ng thành ph n sau: - B sưu t p d li u: sưu t p các ngu n d li u song ng Anh – Vi t ban ñ u t ebook, văn b n song ng , các trang web song ng , t ñi n,... - Ti n x lý d li u: có th nh p tr c ti p d li u, x lý th công ho c h th ng, chu n hóa d li u trư c khi ñưa vào kho. Vi c chu n hóa d li u là vi c chuy n ñ i ñ nh d ng d li u thành ñ nh d ng tương thích v i m c ñích c a h th ng. - Khai thác d li u: nh ng ng d ng c a d li u song ng sau khi x lý.
- -8- Hình 2.1. Mô hình t ng th h th ng 2.3. Xây d ng kho d li u song ng 2.3.1. Các tiêu chí ch n m u ng li u Đ b o ñ m ñư c hi u qu khai thác, ñúng m c tiêu nghiên c u ñã ñ t ra, chúng ta c n áp d ng 4 tiêu chí trong khi xem xét l y m u ng li u song ng Anh-Vi t như sau: a. Chu n ngôn ng : ng li u ti ng Anh cũng như ti ng Vi t ñ u ph i là nh ng câu ñư c xem là chu n m c, nghĩa là ph i ñúng ng pháp và ñư c nhi u ngư i ch p nh n hay nhi u ngư i s d ng. b. Cách d ch 1 – 1: các ng li u song ng Anh-Vi t ph i th c s là b n d ch 1 - 1 c a nhau, không ñư c d ch thoát ý, d ch tóm lư c, d ch tương ñương/ ñ ng nghĩa hay d ch theo ki u gi i thích, di n gi i.
- -9- c. Ng li u ph i phù h p v i phong cách và lĩnh v c c a ñ i tư ng nghiên c u: Đ i tư ng nghiên c u c a chúng tôi là các văn b n và các câu thông thư ng. d. Ng li u d ng ñi n t : ngoài 3 tiêu chu n b t bu c trên, chúng ta s ưu tiên ch n nh ng ng li u song ng Anh-Vi t nào mà ñang t n t i dư i d ng ñi n t . 2.3.2. Ch n ngu n d li u và chu n hóa Trong các ngu n tài li u thô ta thư ng th y các câu ví d song ng trong các ngu n ng li u khác nhau thì có hình th c trình bày khác nhau. V í d như: Ho c Hình 2.2. Ví d hình th c trình bày các ngu n d li u khác nhau Đ chu n hoá thành m t d ng, m t tiêu chu n duy nh t. Vi c chu n hoá ng li u g m hai nhi m v chính: 1. Chu n hoá d ng ng li u song ng Anh - Vi t: ñưa v ñúng d ng ñi n t , ñ nh d ng t p tin, mã/font ti ng Vi t, chu n chính t . 2. Liên k t câu (sentence – alignment): phân ng li u thành t ng c p câu song ng Anh - Vi t b ng cách ñánh d u xem ng v i m i câu ti ng Anh, có câu ti ng Vi t nào ñi kèm.
- - 10 - 2.3.3. Xây d ng c u trúc kho d li u song ng V m t t ch c lưu tr d li u chúng tôi ch n vi c lưu tr kho trên XML. Có hai gi i pháp ñ lưu tr là lưu tr toàn b d li u (Anh, Vi t) trên cùng m t t p tin ña ng hay lưu tr trên nhi u t p tin: S d ng nhi u t p tin S d ng m t t p tin Ti ng Vi t Ti ng Anh Anh _ Vi t ….. Hình 2.3. Các gi i pháp t ch c CSDL Trong trư ng h p d li u ñư c lưu tr trên nhi u t p tin, m i ngôn ng s ñư c lưu tr trên m t t p tin và có ñư c ñánh s ch m c gi ng nhau. Trong trư ng h p này chúng tôi ch n gi i pháp lưu tr trên nhi u t p tin v i các lý do sau: - Khi c n thi t b sung ngôn ng s d dàng, ta ch c n t o ra m t t p tin d li u ngôn ng mà ta mu n cùng c u trúc s d ng v i các ngôn ng khác và lưu tr song song v i các t p tin khác. - C u trúc c a t p tin không thay ñ i, t t c các t p tin d li u ñ u có cùng m t c u trúc và ñi u này r t có l i khi l p trình ñ khai thác các d li u 2.3.4. Các ngu n d li u thu th p 2.3.4.1. Ngu n T ñi n L c Vi t T ñi n là m t thi t b , công c cho phép lưu tr thông tin mà qua ñó, d a vào m t t , m t c m t ñơn gi n, chúng ta có th tìm ñư c
- - 11 - nghĩa gi i thích, các thông tin liên quan m t cách nhanh chóng. Có th phân chia t ñi n thành hai lo i l n: - T ñi n bách khoa. - T ñi n ngôn ng T ñi n m t ngôn ng : Đư c biên so n cho m t ngôn ng c th nào ñó t ng m t, t ng lĩnh v c. Ví d : T ñi n gi i thích T ñi n nhi u ngôn ng : Đư c biên so n trên cơ s ñ i chi u hai hay nhi u ngôn ng . ñây cũng có th g m t ñi n ñ i chi u ph thông như: T ñi n Anh – Vi t, t ñi n toán h c Anh – Vi t, … T ñi n ñi n t là t ñi n ñư c lưu tr và trình bày trên h th ng thông tin ñi n t . Trong ñó có t ñi n L c Vi t là b t ñi n song ng Anh - Vi t ñ u tiên. S lư ng t trong ph n m m này r t l n. V i m i t ñư c tra, chúng s có ñ y ñ thông tin v t lo i, ng nghĩa, cách phát âm . Tương ng v i m i m c t s có các ví d kèm theo khi tra c u t trong t ñi n L c Vi t, các m u câu ví d trong t ñi n L c Vi t là b n d ch 1 - 1 c a nhau, vì v y, các m u câu ñó là m t ngu n d li u chu n ñ xây d ng kho d li u song ng Anh–Vi t c a chúng ta. Ngu n t ñi n L c Vi t ñư c s d ng ñ xây d ng kho d li u song ng Anh – Vi t ñư c th c hi n qua các bư c sau: - Trích n i dung c a các c p câu ví d ng v i m i m c t ; - T o c p kho các c p câu song ng lưu t p tin .Doc; - X lý t o ch m c ñ ñưa vào kho. 2.3.4.2. Ngu n Báo ñi n t VOV News Trên m ng Internet có hàng t trang web, m t s trong ñó là b n d ch c a nhau. Web là m t ngu n d li u tuy t v i ñ xây d ng kho ng li u song song, ít nh t là ñ i v i m t s c p ngôn ng . Tuy nhiên, các th t c ñ ñ nh v các văn b n song song trên Web không ñơn gi n v i nhi u lý do sau: Lư ng d li u quá l n, vi c t ñ ng dò tìm các trang web ch a tài li u song ng là không d dàng. Ngay khi ñã có
- - 12 - ñư c trang web song ng , vi c xác ñ nh nh ng trang nào là d ch c a nhau cũng không ñơn gi n do nó ñòi h i nhi u tài nguyên v ngôn ng trong khi nh ng tài nguyên h tr ti ng Vi t còn r t h n ch . M t khó khăn n a là ch t lư ng tài li u d ch trên internet. Các website song ng thư ng ñ t tên tương t nhau. Tên trang web luôn g m có m t chu i con chung ch ra tính song song song c a nh ng trang web, cùng ñi v i m t chu i con khác ñư c s d ng như là c ngôn ng ch ra ngôn ng c a m i tài li u c th . Ví d , m t trang web ti ng Vi t có tên là “vovnews.vn” thì b n d ch ti ng Anh c a nó là “english.vovnews.vn”. Đ xác ñ nh ñư c m t trang web là trang web song ng thì trang ngôn ng chính (trang cha) thư ng có liên k t v i các phiên b n ngôn ng khác. Trong khuôn kh lu n văn này tôi ch n báo ñi n t VOVNews làm ngu n d li u ñ ñưa vào kho d li u song ng Anh – Vi t c n xây d ng. VOVNews cũng là m t trong nh ng trang web có nh ng bài vi t song ng Anh - Vi t là b n d ch c a nhau, tuy nhiên s bài vi t là b n d ch c a nhau là không nhi u. Và m t như c ñi m chung c a trang web song ng ñó là ch d ch ý, không ph i là b n d ch 1 - 1. V i ngu n d li u song ng này các bư c th c hi n bao g m: - Tìm ki m, xác ñ nh m t c p trang là b n d ch c a nhau; - T i các c p trang web v t URL; - X lý d li u trích l y n i dung; - Tách câu; - X lý ñ ñưa vào kho. 2.3.4.3. Ngu n t các kho ng li u ñư c xây d ng s n Ng li u hu n luy n là kho ng li u ñư c xây d ng s n, các kho ng li u này có th là ñơn ng và cũng có th là song ng và t nhi u
- - 13 - ngôn ng khác nhau, các kho ng li u ñư c xây d ng s n không không nhi u. Trên th gi i có r t nhi u kho ng li u song ng ho c ñơn ng chia s mi n phí cho c ng ñ ng nghiên c u. Ví d như : kho ng li u song ng song song ñư c xây d ng t s h tr c a d án EuroMatrix, ng li u ti ng Anh SUSANNE là ng li u ñi n t ti ng Anh ñư c xây d ng b i m t nhóm các nhà ngôn ng h c - máy tính, kho ng li u Anh – Pháp Canadian Hansard,… S d ng kho ng li u hu n luy n ñ xây d ng kho ng li u song ng Anh - Vi t c n ph i thông qua m t h th ng d ch t ñ ng ñ d ch t ngôn ng này sang ngôn ng kia. Ki m tra l i n i dung d ch Kho ti ng H th ng Kho ti ng Anh d ch t ñ ng Vi t Hình 2.9. Sơ ñ d ch câu ti ng Anh sang ti ng Vi t Các bư c ñ có ñư c ngu n d li u song ng như sau: - Tìm ki m các kho ng li u có s n; - Xoá b các tags c a XML ho c dòng tr ng (n u có); - Đưa vào h th ng d ch t ñ ng; - Ki m tra l i n i dung ñư c d ch v i s giúp ñ c a ngư i có chuyên môn; - Tách câu; - X lý ñ ñưa vào kho.
- - 14 - CHƯƠNG 3: PHÁT TRI N NG D NG Trong chương này chúng tôi xin trình bày m t s k thu t x lý ngu n d li u ban ñ u thu th p ñư c ñ xây d ng kho d li u song ng bao g m: k thu t liên k t câu, k thu t c p nh t d li u s d ng VBA, k thu t trích l c d li u,… chương này cũng nêu rõ quá trình th c hi n trích t ngu n t ñi n L c Vi t, t ngu n báo ñi n t VOVNews, t các kho d li u ñư c xây d ng s n qua các k thu t x lý ñ xây d ng kho d li u song ng . 3.1. Gi i pháp x lý d li u Trong khuôn kh lu n văn này tôi trình bày m t s gi i pháp, k thu t x lý d li u và chuy n ñ i t m t s ñ nh d ng như rtf, pdf,… sang ñ nh d ng XLM . 3.1.1. K thu t liên k t câu tr c tuy n b ng YouAlign YouAlign là m t gi i pháp liên k t tài li u tr c tuy n mi n phí, th truy c p YouAlign ñ a ch : http://youalign.com/. Sau khi ñăng nh p chúng ta có th gióng câu gi a hai văn b n song ng là b n d ch c a nhau. YouAlign cho phép chúng ta download t p tin ñã qua x lý dư i d ng HTML ho c TMX. Ưu ñi m c a YouAlign: - Cho k t qu gióng câu chính xác v i b n d ch c a nó. - Là gi i pháp liên k t tài li u tr c tuy n mi n phí - H tr nhi u ñ nh d ng. - Giao di n thân thi n v i ngư i dùng. Như c ñi m: - Ph i s d ng tr c tuy n. - Tài li u sau khi download v ph i x lý l i cho phù h p. 3.1.2. Công c c p nh t tài li u b ng RTF c a MS Word Microsoft word là ph n m m so n th o văn b n cao c p ch y trong môi trư ng Windows. Word k t h p nhi u tính năng m nh như
- - 15 - so n th o, ñ nh d ng, s d ng các b chương trình ti n ích và ph tr giúp t o các văn b n ñ c bi t, macro,... Đ c bi t, ñ lưu tr thông tin v cách ñ nh d ng s d ng nhóm ñ nh d ng cùng m t lúc áp d ng ñ nh d ng style. Ưu ñi m - ng d ng ngay t p tin RTF mà không c n ph i xây d ng ng d ng do v y th i gian tri n khai nhanh. - Vi c không xây d ng ng d ng tra c u CSDL có nhi u ưu ñi m khác như ti t ki m th i gian tìm hi u các c u trúc, các y u t liên quan ñ n vi c t ch c CSDL. Như c ñi m - Kích thư c t p tin RTF l n hơn so v i các d ng t p tin khác như HTML, XML, DBF khi bi u di n cùng m t lư ng thông tin. - Có nhi u khó khăn trong vi c tìm ki m. - Có tính r i r c vì d li u ñư c lưu tr trên nhi u t p tin khác nhau và gi a các m c t không có m i liên h v m t logic. 3.1.3. K thu t c p nh t s d ng các macro K thu t này ñư c s d ng cho vi c c p nh t kho ng li u song ng Anh – Vi t. B ng cách m Visual Basic Editor trong Word có th s d ng VBA vi t hay ñi u ch nh các macro ñ ñ nh nghĩa các ñi u khi n ActiveX và t o ra các ng d ng trong Word. VBA là m t ngôn ng dành cho các macro c a Word, các macro ghi nh n s là m t th t c trong các môñun c a VB hay các ñ án macro. M t s ti n ích ch y u ph c v sưu t p d li u và chèn th , ch m c tương ñương cho các câu Anh-Vi t, chuy n ñ i d ng th c d li u RTF sang XML... Macro Word Đ nh d ng c a Word XML Hình 3.5. Sơ ñ chuy n ñ i t t p tin *. Doc sang t p tin *. XML
- - 16 - Ưu ñi m - Macro t ñ ng t o ra m t dãy các l nh mà chúng ta ñã thao tác, ñ nh d ng d li u trong Word và s d ng các macro b t kỳ lúc nào mà không c n ph i kh i ñ ng word. - S d ng Macro ñ xu t các tài li u Word sang MS Excel, MS Access hay XML. - Macro ti t ki m th i gian, công s c và không b sai sót b ng cách th c hi n m t nhóm các l nh. - D li u t v ng ñư c ñ nh d ng theo m t c u trúc nh t ñ nh và không m t ñ nh d ng nguyên thu như trên các t p tin RTF. - Vi c c p nh t d li u th c hi n m t cách d dàng, nhanh chóng và có tính m . - D dàng vi t các câu l nh VB ñi u khi n trên cơ s d li u. Như c ñi m - Khi m t macro ñang th c hi n thì chúng ta không th can thi p gì vào cho t i khi macro hoàn t t. - N u th c hi n m t macro trong tình tr ng sai thì ch c ch n s t n nhi u th i gian ñ th c hi n khôi ph c tr l i tình tr ng ban ñ u. 3.1.4. K thu t trích l c d li u file html Thông tin là m t tài nguyên c n khai thác và Internet gi ng như m t m tài nguyên kh ng l . Vi c khai thác n i dung c a các trang thông tin trên Internet ph c v cho nhi u m c ñích khác nhau, v i website song ng thì n i dung c a c p trang web song ng là b n d ch c a nhau là ngu n d li u phong phú ñ c p nh t kho d li u song ng . M t trang web sau khi ñư c t i v ñ làm ngu n d li u c p nh t kho, ta c n trích l y n i dung c n thi t và ph i làm s ch, bao g m: - Đ c n i dung văn b n ñưa v ñ nh d ng chu i ký t . - H y b dòng tr ng không ñư c hi n th trên HTML. - H y b các kho ng tr ng tab.
- - 17 - - H y b các ký t tr ng liên ti p trong HTML. - H y b th HEAD. - H y b t t c JavaScript. - Thay th các ký t ñ c bi t như &, , "… - Ki m tra và thay th ng t dòng () ho c kho n () - Lo i b t t c các th HTML. 3.1.5. M t s ñ nh d ng ñã x lý T p tin Word có ñuôi m r ng .doc và .docx; t p tin Acrobat Reader có ñuôi m r ng .pdf; t p tin html có ñ nh d ng html, htm. 3.2. Trích t t ñi n L c Vi t L c Vi t là b t ñi n song ng Anh - Vi t ph bi n hi n nay. S lư ng các c p câu Anh – Vi t ñi kèm v i m i t trong t ñi n r t l n, ñ ng th i là nh ng c p câu là b n d ch chu n c a nhau, là ngu n d li u phong phú ñ c p nh t kho d li u song ng Anh – Vi t . T ñi n L c Vi t Duy t t ng t Sao chép 1 c p câu T p tin En_Vn.doc Chưa h t m c t Macro Word XML_Vn XML_En Hình 3.9. Sơ ñ quá trình trích t T ñi n L c Vi t
- - 18 - Gi i pháp x lý ñưa vào kho d li u song ng : công ño n này chúng tôi s d ng ño n chương trình vi t trên VBA ñ ti n hành chuy n ñ i t p tin *.Doc sang ñ nh d ng XML và thi t l p các ch m c cho các c p câu Anh – Vi t tương ng. Sau khi chuy n ñ i v d ng XML s nh n ñư c k t qu như sau : Qu ñ t thì tròn Anh ta là giáo viên Hình 3.14. K t qu sau khi chuy n ñ i ñ nh d ng t p tin và t o ch m c 3.3. Trích t VOV News Trên World Wide Web t n t i nhi u d li u, ñ tìm ñư c hai trang web là b n d ch c a nhau t c là n i dung c a trang này là b n d ch sang ngôn ng khác c a n i dung trang kia, ta có th s d ng các b máy tìm ki m như Google, Yahoo,… Tuy nhiên khó ñ xác ñ nh ñư c c p trang web là b n d ch c a nhau. Vì v y, trong khuôn kh lu n văn này tôi ch n m t trang web song ng Anh – Vi t VOV News ñ s d ng trong vi c xây d ng kho d li u song ng . Do các trang web song ng thông thư ng ñư c tham chi u l n nhau. Đ xác ñ nh m t c p tin bài Anh – Vi t trên trang VOV, ta d a vào ñư ng d n URL c a tin bài, tương ng v i m i bài vi t ti ng Vi t
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Luận văn : Nghiên cứu, khai thác kho dữ liệu điểm tại trường ĐH SPKT Hưng Yên dựa trên bộ công cụ BI của hệ quản trị CSDL Server 2008
65 p | 214 | 74
-
Tóm tắt luận văn thạc sĩ kỹ thuật: Nghiên cứu xây dựng hệ thống phục vụ tra cứu thông tin khoa học và công nghệ tại tỉnh Bình Định
24 p | 289 | 70
-
Xây dựng chương trình điều khiển hệ thống tự động kiểm tra điều chỉnh nhiệt độ, ẩm độ và thành phần không khí trong kho bảo quản rau tươi
47 p | 173 | 43
-
Luận văn Thạc sĩ Thông tin - Thư viện: Nghiên cứu xây dựng và quản lý nguồn tài nguyên số nội sinh tại Trung tâm Thông tin Khoa học và Công nghệ Quốc gia
126 p | 187 | 37
-
Tóm tắt luận văn thạc sĩ kỹ thuật: Nghiên cứu xây dựng hệ hỗ trợ lập kế hoạch năm học của trường trung học phổ thông
25 p | 233 | 33
-
Luận văn: Nghiên cứu áp dụng cơ chế tổng thầu theo hình thức hợp đồng EPC trong quản lý dự án đầu tư xây dựng công trình nguồn điện
105 p | 101 | 19
-
Tóm tắt Luận văn Thạc sỹ: Nghiên cứu bài toán xây dựng kho dữ liệu và hệ thống hỗ trợ ra quyết định tại Ngân hàng Nông nghiệp và phát triển Nông thôn Việt Nam
24 p | 92 | 16
-
Luận văn Thạc sĩ Công nghệ thực phẩm: Nghiên cứu xây dựng quy trình chế biến nén khô và tinh dầu nén
97 p | 54 | 12
-
Luận văn:Nghiên cứu xây dựng kho công báo điện tử Quảng Nam
13 p | 125 | 8
-
Tóm tắt Luận văn Thạc sĩ Kỹ thuật: Nghiên cứu xây dựng kho ngữ vựng song ngữ Việt - Khmer
26 p | 121 | 8
-
Luận văn Thạc sĩ Quản lý xây dựng: Nhiên cứu giải pháp nâng cao công tác quản lý chất lượng xây dựng công trình tại Công ty trách nhiệm hữu hạn một thành viên Dầu khí thành phố Hồ Chí Minh
122 p | 31 | 8
-
Tóm tắt luận văn Thạc sĩ Luật học: Xây dựng đội ngũ cán bộ, viên chức trong trường Đại học
17 p | 58 | 6
-
Tóm tắt Luận án tiến sĩ: Nghiên cứu xây dựng hệ thống cung ứng than nhập khẩu đường biển cho các nhà máy nhiệt điện Việt Nam
24 p | 60 | 5
-
Luận văn Thạc sĩ Kế toán: Đánh giá tính hữu hiệu của công tác kiểm soát chất lượng kiểm toán dựa trên khuôn khổ Intosai tại Kiểm toán Nhà nước khu vực III
127 p | 10 | 4
-
Luận văn Thạc sĩ Khoa học: Nghiên cứu chế tạo vữa khô trong xây dựng từ bã thải bùn đỏ
86 p | 21 | 3
-
Luận văn Thạc sĩ Khoa học Máy tính: Phương pháp tối ưu đàn kiến dóng hàng hai đồ thị
62 p | 32 | 3
-
Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại Văn phòng tỉnh Quảng Ngãi
91 p | 6 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn