Luận văn:Nghiên cứu phương pháp thu thập tập dữ liệu song song (parallel corpus)Việt-Anh, Việt-Pháp từ các nguồn tài liệu đa ngữ
lượt xem 12
download
Đa ngôn ngữ là từ để chỉ các quốc gia mà có nhiều ngôn ngữ được công nhận trong cùng một quốc gia (ví dụ Canada công nhận tiếng Anh và tiếng Pháp), có một ngôn ngữ được công nhận nhưng các ngôn ngữ khác dùng khá phổ biến (ví dụ Tây Ban Nha công nhận tiếng Tây Ban Nha là ngôn ngữ chính thức nhưng tiếng Catalan, tiếng Basque và tiếng Galica được công nhận là ngôn ngữ chính thức phụ). Cần phân biệt với những ngôn ngữ được sử dụng tại 1 quốc gia nhưng không có địa...
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Luận văn:Nghiên cứu phương pháp thu thập tập dữ liệu song song (parallel corpus)Việt-Anh, Việt-Pháp từ các nguồn tài liệu đa ngữ
- Công trình ñư c hoàn thành t i B GIÁO D C VÀ ĐÀO T O Đ I H C ĐÀ N NG Đ I H C ĐÀ N NG LÊ CÔNG VÕ Ngư i hư ng d n khoa h c: TS. Huỳnh Công Pháp NGHIÊN C U PHƯƠNG PHÁP THU TH P T P Ph n bi n 1: PGS. TS. Đoàn Văn Ban D LI U SONG SONG (PARALLEL CORPUS) Ph n bi n 1: TS. Huỳnh H u Hưng VI T – ANH, VI T – PHÁP T CÁC NGU N TÀI LI U ĐA NG Lu n văn s ñư c b o v trư c H i ñ ng ch m Lu n văn t t nghi p th c sĩ k thu t h p t i Đ i h c Đà Chuyên ngành: KHOA H C MÁY TÍNH N ng ngày 10 tháng 9 năm 2011. Mã s : 60.48.01 LU N VĂN TH C SĨ K THU T Có th tìm hi u lu n văn t i: – Trung tâm Thông tin – H c li u, Đ i h c Đà N ng – Trung tâm H c li u, Đ i h c Đà N ng Đà N ng - Năm 2011
- -1- -2- nhân cơ b n là các h th ng này v n còn thi u t p d li u d ch t ñ ng M Đ U song song có ch t lư ng t t, ñ l n. 1. Lý do ch n ñ tài Hi n nay, t n t i nhi u phương pháp ñ thu th p kho ng li u Trư c s bùng n c a thông tin như hi n nay, nhu c u d ch t song song cho nhi u ngôn ng khác trên th gi i. Tuy nhiên, ñ i v i ñ ng ngày càng l n. Vi c d ch t ñ ng các văn b n, bài báo, t p ti ng Vi t g p nhi u khó khăn trong vi c xây d ng kho ng li u song chí,…(t ngôn ng A sang ngôn ng B ho c nhi u ngôn ng khác) ñ song. Ví d như: Tính nh p nh ng c a ti ng Vi t, s ph c t p c a t ph c v công vi c h c t p, nghiên c u m t cách k p th i, nhanh chóng nhi u âm ti t,… Như v y, chúng tôi có th áp s d ng các phương là m t trong nh ng v n ñ h t s c c p bách. Chính vì v y, bài toán pháp có s n và cái ti n ñ thu th p ñư c kho ng li u song song cho d ch t ñ ng song song gi a các ngôn ng càng có ý nghĩa thi t th c ti ng Vi t. Đó là ch n l a phương pháp thu th p t ngu n tài nguyên hơn bao gi h t. s n có: T các Website ña ng trên Internet. B i vì, Internet có r t Ngày nay, v i s phát tri n c a CNTT, Internet phát tri n m nh nhi u các Website ña ng ch a ti ng Vi t, ti ng Anh, ti ng Pháp,… và ñư c s d ng r ng rãi. Các d ch v d ch thu t ngày càng tr nên Và trong th i gian gi i h n ñ tài, chúng tôi ch ch n các c p ngôn ng ph bi n và không th thi u c a con ngư i thì vi c xây d ng kho d Vi t – Anh, Vi t – Pháp vì ñây là hai ngôn ng ch ñ o trong c ng li u song song (Parallel Corpus) là ñi u c n làm ñ làm cơ s , n n t ng ñ ng ngư i Vi t và tính c p bách c a nó ñ i v i ngư i Vi t. Trong cho h th ng d ch t ñ ng thông minh hơn nh m ph c v cho vi c tương lai, chúng tôi s phát tri n cho các c p ngôn ng khác. d ch các ño n văn b n, các bài báo,… 2. M c ñích nghiên c u Ngoài ra kho d li u song song cũng r t quan tr ng ñ i v i m c M c tiêu mà ñ tài hư ng ñ n là nghiên c u các phương pháp ñích nghiên c u và h c t p như là t o h th ng m u ñ ñánh giá ch t trích l c các câu song song Vi t – Anh, Vi t – Pháp t các Website ña lư ng d ch, ph c v cho vi c h c ngo i ng ,… ng . Đ ng th i ghiên c u các phương pháp và mô hình cho phép con Ngày nay, vi c ñánh giá và phát tri n các h th ng ngôn ng khác ngư i c ng tác ñ c i ti n, s a ñ i,… kho ng li u song song. như: Ti ng Anh, ti ng Ý, ti ng Pháp,… d dàng và ñ t ñư c ch t Thu th p ñư c m t kho ng li u song song Vi t – Anh, Vi t – lư ng cao. B i vì, các ngôn ng này có h th ng kho ng li u song Pháp có ch t lư ng t t t các Website ña ng . Sau ñó xây d ng mô song l n và có ch t lư ng r t cao. Nhưng ñ i v i ti ng Vi t r t khó hình qu n lý và cho phép ngư i dùng tương tác nh m c i ti n h th ng khăn ñ xây d ng m t h th ng kho ng li u song song ch t lư ng t t kho ng li u song song cho viêc d ch t ñ ng. và hi n nay chưa t n t i d ch t ñ ng có ch t lư ng cao. Ví d như GoogleTranslater có h tr ti ng Vi t nhưng có ch t lư ng cũng ch kho ng 20% so v i ch t lư ng c a con ngư i d ch mà thôi. Nguyên
- -3- -4- trình qu n lí cho phép ngư i dùng c ng tác, s a ñ i, c i ti n,... kho 3. Đ i tư ng và ph m vi nghiên c u ng li u song song ngày càng t t hơn. Hi n nay, trên th gi i có r t nhi u kho ng li u song song cho các c p ngôn ng khác nhau. Tuy nhiên, trong khuôn kh lu n văn này 5. Ý nghĩa khoa h c và th c ti n c a ñ tài chúng tôi ch nghiên c u v phương pháp thu th p kho ng li u song Ý nghĩa khoa h c: song Vi t – Anh và Vi t – Pháp và mô hình cho phép con ngư i c ng Góp ph n xây d ng h th ng d ch t ñ ng, nâng cao ch t lư ng tác ñ c i ti n, s a ñ i,… kho ng li u song song ñã thu th p ñư c. h th ng d ch t ñ ng. Có th dùng t p d li u ñó như m t t p d li u Ngày nay, Internet r t quan tr ng và và là m t ph n không th khoa h c ñáng tin c y ñ nh ng ngư i mu n nghiên c u và ng d ng thi u ñ i v i ñ i s ng con ngư i. V i s h i nh p qu c t các công ty, trong vi c d ch t ñ ng song ng có th dùng nó ñ tham kh o và phát các cơ quan, các t ch c,… ñ u có Website riêng ñ ph c v cho vi c tri n. giao ti p và qu ng bá thương hi u. Đ ti n giao ti p và ñưa thương Ý nghĩa th c ti n: hi u c a mình vươn t m qu c t , h u h t ñã xây d ng cho mình m t Xây d ng t p d li u d ch t ñ ng song ng ph c v cho h th ng Website ña ng ñ ñáp ng yêu c u ñó. Nên s lư ng các Website ña d ch t ñ ng ña ng song song và chương trình qu n lý t p d li u ng là r t l n trên Internet. Đó là m t ngu n tài nguyên ña ng c c kỳ song song các ngôn ng . l n chưa ñư c khai thác tri t ñ . Trong lu n văn này chúng tôi ch n Nó có ý nghĩa h t s c thi t th c trong vi c d ch thu t t ñ ng ña ngu n d li u này ñ thu th p và xây d ng kho ng li u song song. ng song song, k t qu c a ñ tài góp ph n ph c v t t hơn cho vi c d ch t ñ ng nhi u ngôn ng . Ngoài ra chúng ta có th s d ng kho 4. Phương pháp nghiên c u ng li u song song này trong vi c d y và h c ngo i ng trong nhà Đ ñáp ng m c tiêu và nhi m v c a ñ tài ñ t ra, tôi áp d ng trư ng. hai phương pháp nghiên c u: Phương pháp lý thuy t: 6. B c c c a lu n văn Trong phương pháp này tôi nghiên c u cơ s lý thuy t v kho ng B c c c a lu n văn g m 3 chương, sau ph n m ñ u là: li u song song, phương pháp phân tích, trích l c d li u t các Chương 1 chúng tôi gi i thi u sơ b nh ng n i dung t ng quan v Website ña ng , phương pháp phân ño n, liên k t k t d li u ñ xây kho ng li u song song và phương pháp thu th p, trích l c d li u t d ng kho ng li u song song. các Website ña ng . Trong ph n này cũng trình bày t ng quan v ñ c Phương pháp th c nghi m: ñi m c a các Website ña ng và phương pháp xác ñ nh các Website ña Xây d ng các module trích l c, phân ño n, liên k t gi a các c p ng . câu song song c a các c p ngôn ng . Đ ng th i xây d ng chương
- -5- -6- Trong chương 2, lu n văn gi i thi u v các bư c xây d ng kho d giao ti p gi a các ngôn ng và cung c p thông tin kinh t , xã h i hi n li u song ng và phương pháp qu n lý kho ng li u song song ñã thu ñ i c n thi t không nh ng ch ñ i v i các qu c gia trên toàn th gi i, th p ñư c, ñi sâu vào vi c xây d ng và ño ñ tương ñ ng v ngôn ng mà còn c n thi t ñ i v i cá nhân m i con ngư i trong ho t ñ ng ñ i c a các câu ñã thu th p ñư c. s ng xã h i c a mình. Trong chương này t p trung nghiên c u phân tích xây d ng ki n Là m t nư c ñang phát tri n, Vi t Nam c n s d ng nhi u công trúc t ng th c a h th ng g m các thành ph n liên quan, cách v n ngh tiên ti n c a th gi i. Trong s các công ngh tiên ti n ñang ñư c hành c a h th ng. T ki n trúc t ng th ñã xây d ng, chúng tôi khai các nư c trên th gi i s d ng nhi u nh t hi n nay có công ngh d ch thi t k các thành ph n ñã phân tích, xây d ng cơ s d li u, ng d ng t ñ ng. Vi c c n thi t s d ng các h th ng d ch t ñ ng ti ng Vi t qu n lý kho ng li u song song ñã ñư c xây d ng. Nam b t ngu n t hàng lo t các nguyên nhân sau ñây: Ph n k t lu n, t ng h p nh ng k t qu nghiên c u chính c a Th nh t: Vi t Nam hi n nay, tăng m nh nhu c u ñ c nhanh ñ lu n văn, ch ra m t s h n ch chưa hoàn thi n. Đ ng th i, lu n văn l y ñư c nhi u thông tin m i, b ích, ñ c bi t là các thông tin v khoa cũng ñ xu t m t s hư ng nghiên c u c th ti p theo c a tác gi . h c, công ngh và kĩ thu t m i t các nư c tiên ti n trên th gi i. Th hai: Trong t t c các trư ng h c và công s c a Vi t Nam CHƯƠNG 1 – CƠ S LÝ THUY T ngày càng ñòi h i s n m v ng ti ng Anh như m t phương ti n c n Trong chương này, chúng tôi ñã trình bày khái quát v cơ s lý thi t trong giao ti p gi a các ngôn ng . thuy t v : H th ng d ch t ñ ng, m t s khái ni m v kho ng li u Th ba: Nhu c u giao lưu b ng nhi u ngo i ng v chuyên ngành song song, t ng quan v m t s kho ng li u song song và m t s khoa h c ngày càng tăng. bư c quan tr ng trong qui trình xây d ng kho ng li u song ng hi n Th tư: S phát tri n c a công ngh máy tính và Internet ñã thúc nay. ñ y nhu c u khai thác thông tin trên nhi u trang Web b ng nhi u ngôn 1.1. H TH NG D CH T Đ NG ng khác nhau. C n th a nh n r ng d ch t ñ ng không th thay th hoàn toàn 1.1.1. Các h th ng d ch t ñ ng vi c d ch thu t ñư c th c hi n b i con ngư i. Tuy nhiên, nh h th ng 1.1.2. S c n thi t c a vi c xây d ng các h th ng d ch t t ñ ng trong chương trình d ch b ng máy, có th nâng cao ñáng k hi u qu lao ñ ng c a ngư i d ch và ch t lư ng c a cán b chuyên ñ ng có h tr ti ng Vi t ngành. Ngày nay, d ch t ñ ng ñã phát tri n ñ n m c có th th c hi n D ch t ñ ng là d ng ñ c bi t trong ho t ñ ng d ch thu t c a biên d ch tr c ti p trên m ng. Tuy v y, trong s các ngôn ng có th d ch t phiên d ch viên. Đ ng th i, d ch t ñ ng là phương ti n ñ c bi t trong ñ ng tr c tuy n, chưa có ti ng Vi t ho c có nhưng ch t lư ng r t th p.
- -7- -8- Rõ ràng r ng trong các ñi u ki n hi n nay, khi ngư i d ch chuyên như không có nhóm nghiên c u nào th c hi n vi c xây d ng kho ng nghi p c n ph i bi t vô vàn các thu t ng c a nhi u chuyên ngành và li u song song t ngu n này. c n ph i thu c r t nhi u tên g i chính xác các ch ng lo i chi ti t, linh V i phát tri n bùng n c a công ngh thông tin và Internet, các ki n, d ng c , cơ c u, các ch t v.v. khác nhau, thì m t phiên d ch viên kho ng li u song song dư i d ng ñi n t hi n ñang t n t i khá phong dù gi i ñ n ñâu cũng không th c p nh t h t ñư c m t lư ng thông tin phú nhi u d ng. Kho ng li u song song ñơn gi n nh t mà chúng ta kh ng l trong n n kinh t toàn c u phát tri n. Lúc này, vi c s d ng có th nh n th y là các lo i truy n song ng , các tài li u và tác ph m d ch t ñ ng ñ tr giúp cho quá trình d ch thu t là t t y u và c n thi t. văn h c nư c ngoài n i ti ng ñư c d ch sang ti ng Vi t. Ngu n ng li u này có th thu th p b ng tay t Internet. 1.2. M T S KHÁI NI M V KHO NG LI U Kho ng li u song song (Parallel Corpus) là m t t p các văn 1.2.1. Kho ng li u (Corpus) b n (tài li u) trong nhi u ngôn ng khác nhau, trong ñó có m t ngôn ng ngu n và m t (ho c nhi u) ngôn ng ñích (ñư c d ch t ngôn ng 1.2.2. Kho ng li u ña ng (Multilingual Corpora) ngu n). 1.2.3. Kho ng li u so sánh (Comparable Corpus) 1.2.5. S liên k t (Alignment) 1.2.4. Kho ng li u song song (Parallel Corpus) 1.3. T NG QUAN V M T S KHO NG LI U SONG Kho ng li u song song là m t thành ph n thi t y u quan tr ng không th thi u. Ch t lư ng c a kho ng li u song song ñóng vai trò NG quy t ñ nh ñ n ch t lư ng ñ u ra c a h d ch. H th ng d ch s không 1.3.1. L ch s hình thành và phát tri n c a kho ng li u th cho k t qu t t n u kho ng li u song song s d ng trong quá trình hu n luy n có ch t lư ng không t t cho dù ñư c áp d ng các phương song song pháp h c máy tiên ti n nh t. 1.3.2. M t s kho ng li u song song trên th gi i Kho ng li u song song có th ñư c thu th p t nhi u ngu n. T ng quát, có th chia các ngu n này thành hai lo i, ngu n ng li u 1.3.3. N i dung c a các kho ng li u d ng gi y vi t và ngu n ng li u d ng ñi n t . Kho ng li u song song 1.3.4. C u trúc c a các kho ng li u d ng gi y vi t có th ñư c tìm th y d dàng trong các sách h c ngo i ng , các sách truy n, tài li u song ng và các t ñi n song ng . Vi c 1.3.5. Các công trình nghiên c u trong nư c v kho ng li u tìm ki m lo i ng li u này ñơn gi n, tuy nhiên quá trình nh p li u vào song song máy tính t n nhi u th i gian và công s c. Do v y trong th c t , g n
- -9- -10- − Có th s d ng kho ng li u song song ñ làm m u ñánh giá 1.4. TÌM HI U M T S BƯ C QUAN TR NG TRONG m t s h th ng, chương trình t ñ ng: h th ng d ch t ñ ng, QUY TRÌNH XÂY D NG KHO NG LI U SONG SONG chương trình h c ngo i ng ,… 1.4.1. Xác ñ nh ngu n tài nguyên ph c v vi c xây d ng kho − Ph c v cho m c ñích nghiên c u v ngôn ng h c, x lý ngôn ng ,… c a các nhà nghiên c u. ng li u song song − Trong lĩnh v c nghiên c u và gi ng d y ngôn ng trong nhà 1.4.2. Liên k t d li u ñã thu th p trư ng hi n nay. Khi Vi t Nam ñã gia nh p WTO nên s c n thi t ph i th c hi n 1.5. T NG K T CHƯƠNG 1 giao lưu ñ trao ñ i thông tin m c ñ giao ti p b ng nhi u ngôn ng CHƯƠNG 2 – Đ XU T PHƯƠNG PHÁP XÂY D NG VÀ trên ph m vi toàn th gi i. Đi u c n thi t trong vi c h i nh p kinh t th gi i là c n có h th ng kho ng li u song song qu c gia. Nh m QU N lÝ KHO NG LI U SONG SONG ph c v các lĩnh v c liên quan ñ n nghiên c u khoa h c, gi ng d y, c p nh t thông tin trong và ngoài nư c v.v. M t khác ngư i phiên d ch 2.1. HI N TR NG NGHIÊN C U V KHO NG LI U chuyên nghi p c n ph i bi t vô vàn các thu t ng c a nhi u chuyên SONG SONG ngành và c n ph i thu c r t nhi u tên g i chính xác các ch ng lo i chi ti t, linh ki n, d ng c , cơ c u, các ch t v.v. khác nhau. Thì m t phiên 2.1.1. T m quan tr ng c a kho ng li u song song d ch viên dù gi i ñ n ñâu cũng không th c p nh t h t ñư c m t lư ng Hi n nay, các kho ng li u song song ñã và ñang ñư c xây d ng thông tin kh ng l ñó. Lúc này, vi c s d ng kho ng li u song song cho nhi u ngôn ng khác nhau trên th gi i nên t m quan tr ng và giá ñ tr giúp cho quá trình d ch thu t là t t y u và c n thi t. tr s d ng c a nó là r t l n. M t khác, kho ng li u song song là m t trong nhưng thành ph n quan tr ng nh t trong lĩnh v c x lý ngôn ng 2.1.2. Hi n tr ng nghiên c u v kho ng li u song song hi n t nhiên và d ch t ñ ng. B i vì, nh các kho ng li u song song này nay chúng ta có th xây d ng ñư c các chương trình quan tr ng trong các lĩnh v c này. Nghiên c u cho th y kho ng li u song song có các ñ c 2.2. PHƯƠNG PHÁP TI P C N ñi m r t quan tr ng ñ i v i khoa h c cũng như ñ i s ng c a con V i vai trò và t m quan tr ng c a kho ng li u song song ñ i v i ngư i: các ng d ng x lý ngôn ng t nhiên, ñ ng th i ñư c thúc ñ y b i − Là thành ph n không th thi u ñ i v i h th ng d ch t ñ ng. vi c thi u cơ s d li u song song Vi t – Anh, Vi t – Pháp cho nhi u nghiên c u khác, lu n văn t p trung vào các công vi c:
- -11- -12- − Tìm hi u, nghiên c u, phát tri n các công ngh trong bài toán Quá trình khai thác d li u t Internet ñ xây d ng h th ng Kho trích l c d li u các câu song song t các Website ña ng cho ng li u song song ñư c th hi n qua sơ ñ hình 2.1. các c p ngôn ng Vi t – Anh, Vi t – Pháp. Download − Xây d ng công c trích l c các c p câu song song trên các Tìm ki m Website ña ng cho các c p ngôn ng Vi t – Anh, Vi t – H tr Pháp. − Có th chia làm hai ti p c n chính là ti p c n d a trên n i dung và ti p c n d a trên c u trúc c a trang Web. Đ i v i ti p c n d a trên n i dung, chúng ta ph i s d ng t ñi n song ng . X u Do vi c t ñi n song ng Vi t – Anh, Vi t – Pháp có quá T t nhi u nh p nh ng, hơn n a do th i gian có h n nên chúng tôi t p trung vào nghiên c u theo ti p c n th hai là d a vào c u trúc văn b n (c u trúc trang Web). Phương pháp ñư c chúng tôi s d ng và phát tri n d a trên nghiên c u [3,5], v i hai ph n: − Xác ñ nh các thu c tính dùng ñ ño ñ tương t gi a hai trang X u HTML − Áp d ng thu t toán h c máy ñ xây d ng mô hình trên t p các T t thu c tính trên. T t X u Đ i v i ph n xác ñ nh các thu c tính ñ ño ñ tương ñ ng gi a hai trang HTML, chúng tôi s s d ng các thu c tính sau: − So sánh ñ tương ñ ng tên file c a trang Web − So sánh ñ tương ñ ng c u trúc URL Xây d ng Parallel − So sánh c u trúc HTML c a c p trang Web Corpus Corpus − Và m t s tiêu chí khác ñ làm gi m th i gian ch y c a h th ng như ngày s a, ngày t o, t l âm ti t, t l chunk. Hình 2.1. Quá trình khai thác d li u và xây d ng kho ng li u song song
- -13- -14- d li u trên Internet r t l n, chúng ta không th dò tìm t ng trang m t. Ý tư ng c a chúng tôi là s d ng m t máy tìm ki m (Search Engine) V y quá trình này g m các bư c như sau: ñ tìm nhanh các trang Web có kh năng ch a tài li u song ng d a Bư c 1: Tìm ki m và phát hi n các Website ña ng Vi t – Anh, vào m t s heuristic quan sát b ng m t. Chúng tôi s d ng các Vi t – Pháp, Vi t – Anh – Pháp và ngư c l i; chúng tôi d a vào hai heuristic trư c trình bày bên dư i. Trong lu n văn này chúng tôi ñưa tiêu chí: ra m t s phương pháp ñ xác ñ nh các trang Web ña ng . − D a vào n i dung liên k t trong trang − D a vào URL c a trang 2.3.1. D a vào n i dung liên k t (link) trong các Website Bư c 2: Download d li u t các trang Web ña ng ñã tìm ñư c 2.3.1.1. Website ti ng Anh có liên k t ñ n trang ti ng Vi t bư c 1 qua s h tr c a công c download: Wget, Teleport pro,... Vi c dùng ph n m m nào ñ download còn tùy vào ñ c ñi m c a t ng 2.3.1.2. Website ti ng Pháp có liên k t ñ n trang ti ng Vi t trang. 2.3.1.3. Website ti ng Vi t có liên k t ñ n trang ti ng Anh ho c Bư c 3: Xác ñ nh các trang là b n d ch c a nhau, ñánh giá ch t lư ng b n d ch c a các c p trang Web và ti n x lý các th HTML, ti ng Pháp khôi ph c các ký t ti ng Vi t, ti ng Pháp chúng ta s ñư c các c p là 2.3.1.4. Website ti ng Vi t có liên k t ñ n trang ti ng Anh và b n d ch c a nhau. Bư c 4: Đánh giá và ti n hành tách ño n các c p b n d ch bư c ti ng Pháp 3, chúng ta thu ñư c là t p d li u các c p d ch c a các ño n. 2.3.2. D a vào URL c a trang Bư c 5: Đánh giá, tách câu và liên k t câu c a các c p ño n d ch bư c 4. Chúng ta thu ñư c là t p các c p câu d ch. Đây chính kho 2.4. BÀI TOÁN KHAI THÁC D LI U SONG SONG T ng li u song song. CÁC WEBSITE ĐA NG Các bư c trên s ñư c chúng tôi làm rõ các ph n sau c a lu n 2.4.1. L c theo c u trúc văn. 2.3. PHÁT HI N CÁC WEBSITE ĐA NG VI T – ANH, 2.4.2. L c theo n i dung VI T – PHÁP 2.4.3. L c theo các ñ c ñi m khác Ph n này trình bày chúng tôi m t s phương pháp phát hi n t 2.4.4. Thu t toán qui ho ch ñ ng ñ ng các trang Web có tài li u song ng Vi t – Anh, Vi t – Pháp. Do
- -15- -16- Anh, Vi t – Pháp) cùng vi t v m t v n ñ (tin t c), nhưng l i dùng 2.5. XÂY D NG KHO D LI U SONG SONG ngôn t khác nhau, t ch c ý khác nhau và th m chí ñưa ra nh ng d n Hi n nay, kho ng li u song song ngày càng ñóng vai trò quan ch ng khác nhau làm cho vi c phát hi n nh ng tài li u th c s song tr ng trong nhi u lĩnh v c như tìm ki m xuyên ng (Cross-language ng (ch t lư ng d ch t t) càng tr nên khó khăn hơn. Information Retrieval), d ch máy (Machine Translation),… Tuy nhiên, T nh ng v n ñ nêu trên, chúng tôi ñã tham kh o các phương nh ng kho ng li u song song này hi n ch có cho m t s c p ngôn pháp xây d ng t ñ ng kho ng li u song song t Internet cho các ng như Anh – Pháp, Anh – Hoa, do vi c xây d ng chúng ñòi h i r t ngôn ng khác và phát tri n phương pháp thu th p kho ng li u song nhi u th i gian và công s c. Hi n chúng ta chưa có kho ng li u song song Vi t – Anh, Vi t – Pháp t ñ ng và bán t ñ ng ñ ph c v cho song Vi t – Anh, Vi t – Pháp nào ñư c công b ñ ph c v cho các nghiên c u trong nư c. Chúng tôi ñã cài ñ t phương pháp c a mình nghiên c u liên quan. thành các Module v i các ch c năng sau: Do vi c xây d ng kho ng li u th công quá t n kém, các nhà − T ñ ng và bán t ñ ng phát hi n các ñ a ch Web có tài li u nghiên c u b t ñ u tìm ki m các phương pháp xây d ng t ñ ng: Khai song ng Vi t – Anh, Vi t – Pháp. thác t Internet. S lư ng các trang Web song ng Vi t – Anh, Vi t – − T ñ ng t i các Website v máy tr m ñ x lí. Pháp trên Internet ngày càng nhi u do các cơ quan, t ch c trong nư c − Liên k t m c văn b n: T i các trang Web t các ñ a ch này có khuynh hư ng t gi i thi u mình, h p tác v i nư c ngoài. Vì v y, v , ti n x lý (lo i b th HTML, các ph n n i dung ph ,…) Internet tr thành m t ngu n cung c p tài li u song ng r t ti m năng và ti n hành dò t ñ ng ñ tìm các c p tài li u là d ch c a và ñã có nhi u công trình nghiên c u v lĩnh v c này. nhau. Tuy nhiên, lư ng d li u l n mà Internet có kh năng cung c p − Liên k t m c câu: V i m i c p tài li u d ch tìm th y, ti n cũng mang l i nhi u khó khăn. Do lư ng d li u quá l n, vi c t ñ ng hành liên k t t ñ ng, ñ có ñư c kho ng li u song song g m dò tìm các trang Web ch a tài li u song ng là không d dàng. Ngay các c p câu tương ng là d ch c a nhau. khi ñã có ñư c trang Web song ng , vi c xác ñ nh nh ng trang nào là − Ph n m m qu n lý kho ng li u song song: Cho phép con d ch c a nhau cũng không ñơn gi n do nó ñòi h i nhi u tài nguyên v ngư i duy t qua các c p câu song song và ch nh s a, thêm b t ngôn ng trong khi nh ng tài nguyên h tr ti ng Vi t còn r t h n ch . n u c n. M t khó khăn n a là ch t lư ng tài li u d ch trên Internet chưa ph i là b n d ch chu n. 2.5.1. Liên k t m c tài li u: Phát hi n các c p tài li u song Do không ñư c ki m soát, ch t lư ng d ch c a tài li u trên ng Internet là r t khác nhau, và không ph i tài li u nào cũng ñư c d ch chu n. Hơn n a, có nhi u tài li u (ví d tài li u tin t c song ng Vi t – 2.5.1.1. T i tài li u
- -17- -18- 2.5.1.2. Ti n x lý 2.5.1.3. Tìm các c p tài li u là d ch c a nhau 2.5.2. Xây d ng kho ng li u song song Tìm ki m web ña ng 2.6. T NG K T CHƯƠNG 2 CHƯƠNG 3 – XÂY D NG VÀ PHÁT TRI N NG D NG T i các webiste ña ng 3.1. XÂY D NG CÁC MODULE THÀNH PH N 3.1.1. Ki n trúc h th ng Ti n x lí Trong chương 2 chúng tôi ñã ñ xu t phương pháp xây d ng và qu n lý kho ng li u song song. Trong chương này chúng tôi s xây XĐ các c p trang song song d ng các Module thành ph n. H th ng ñư c thi t k như Hình 3.1 Tách câu, tách ño n Liên k t HT Parallel qu n lí Corpus Hình 3.1. Quy trình xây d ng các Module Đ u tiên h th ng s tìm ki m các Website ña ng Vi t – Anh, Vi t – Pháp t trên Internet, sau bư c này chúng tôi s ñư c URL c a các trang web. Sau ñó t i d li u t các trang ñã tìm ñư c v máy tính.
- -19- -20- Bư c ti p theo, chúng tôi ti n hành ti n x lý các trang web ñã t i v tác th c s . Bên c nh ñó h th ng còn ph i ñ m b o tính d qu n lý và (lo i b các th HTML) ñ có ñư c d li u là các tài li u chu n. Sau trao ñ i gi a các thành viên, tính chia s và d s d ng. khi có ñư c các tài li u chu n, chúng tôi ti n hành xác ñ nh các tài li u 3.2.1.2. Yêu c u h th ng là b n d ch c a nhau ñ ti n hành tách câu và liên k t câu. Bư c cu i cùng, chúng tôi xây d ng h th ng qu n lý kho ng li u song song bao 3.2.2. Phân tích thi t k h th ng g m các ch c năng: thêm m i, ch nh s a, xóa các câu song song. 3.2.2.1. Xác ñ nh tác nhân và ca s d ng 3.1.2. Thi t k các thành ph n h th ng 3.2.2.2. Ch c năng c a h th ng 3.1.2.1. Xây d ng Module tìm ki m và xác ñ nh các Website ña 3.2.2.3. Mô t các ca s d ng ng 3.2.2.4. Sơ ñ ho t ñ ng 3.1.2.2. T i các Website ña ng 3.2.3. Thi t k cơ s d li u h th ng 3.1.2.3. Ti n x lý 3.3. K T QU 3.1.2.4. Xác ñ nh các c p tài li u là d ch c a nhau 3.3.1. Màn hình trang ch 3.1.2.5. Tách câu 3.1.2.6. Liên k t câu 3.2. XÂY D NG H TH NG QU N LÝ KHO NG LI U SONG SONG Hình 3.38. Màn hình trang ch 3.2.1. Th c tr ng và yêu c u c a h th ng 3.2.1.1. Phân tích th c tr ng 3.3.2. Đăng ký thành viên H th ng c a chúng tôi là m t môi trư ng c ng tác giúp cho c ng 3.3.3. Đăng nh p ñ ng có th phát tri n kho ng li u song song Vi t – Anh, Vi t – Pháp 3.3.4. Truy v n xem d li u nên nó ñòi h i ph i có ñ y ñ các yêu c u như m t môi trư ng c ng
- -21- -22- thêm m i, xóa cũng như bình lu n các câu song song; d dàng tra c u 3.3.5. C p nh t câu song song và ñăng bình lu n h th ng, tìm ki m tr c tuy n trên Website. 3.3.6. Ch c năng qu n tr Chúng tôi xây d ng kho ng li u song song này nh m t o ra m t 3.4. T NG K T CHƯƠNG 3 CSDL m cho phép m i ngư i có th s d ng trong vi c xây d ng h th ng d ch t ñ ng, trong gi ng d y và h c t p nhà trư ng, trong Trong chương này chúng tôi ñã xây d ng các bư c trích l c d vi c nghiên c u và ñánh giá các h th ng x lý ngôn ng . li u t các Website ña ng Vi t – Anh, Vi t – Pháp. Đ c bi t xây d ng ñư c h th ng qu n lý kho ng li u song song. Qua ñó chúng ta th y 2. H N CH kh năng ng d ng c a phương pháp thu th p kho ng li u song song Các Module c a h th ng chưa hoàn toàn t ñ ng, m t s Module t các Website ña ng là hoàn toàn có th ñưa vào th c t . còn c n ph i có s tác ñ ng c a con ngư i. Giao di n h th ng Website qu n lý kho ng li u song song chưa b t m t, chưa ñ p. K T LU N V i thành t u và t c ñ phát tri n công ngh như ngày nay thì 3. HƯ NG PHÁT TRI N C A Đ TÀI vi c ph i vư t qua các rào c n v m t ngôn ng là m t nhu c u thi t T nh ng nghiên c u trên, chúng tôi cũng m nh d n ñ xu t và vi c ng d ng các h th ng d ch t ñ ng trong m i lĩnh v c là t t các hư ng nghiên c u và phát tri n ti p lu n văn trong tương lai như y u. Vi c xây d ng m t kho ng li u song song t các Website ña ng sau: là ñi u r t c n thi t ñ t o ra CSDL cho h th ng d ch t ñ ng cũng Th nh t, xây d ng cho nhi u c p ngôn ng khác trên th gi i. như vi c d y và h c ngo i ng cho m i ñ i tư ng. Th hai, phát tri n, nâng c p giao di n tương tác v i ngư i dùng 1. K T QU Đ T ĐƯ C ñ i v i h th ng qu n lý kho ng li u song song ñ thu n ti n hơn cho ngư i s d ng. V m t lý thuy t: Tôi ñã nghiên c u các phương pháp thu th p Th ba, xây d ng các Module hoàn toàn t ñ ng, n ñ nh. Thêm kho ng li u song song t các Website ña ng . Lu n văn ñã phân tích, các ch c năng m i cho phép nhi u tùy ch n cho các ch c năng. ñ xu t các bư c xây d ng kho ng li u song song t các Website ña Th tư, tích h p các Module vào m t chương trình ñ d s d ng ng . T ñó m ra m t hư ng m i trong vi c khai thác ngu n tài và qu n lý. nguyên ña ng kh ng l t Internet. V công ngh tôi s d ng .NET và SQL Server 2008 ñ làm cơ s phát tri n ng d ng. ---------------------*--------------------- V ng d ng: Thu th p m t s các Website ña ng và t i ñư c m t s lư ng v máy tính. Ngoài ra xây d ng ñư c kho ng li u song song Vi t – Anh, Vi t – Pháp và h th ng qu n lý cho phép c p nh t,
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Tiểu luận: Phương pháp thu thập dữ liệu nghiên cứu thị trường
16 p | 290 | 54
-
Luận văn: Nghiên cứu ảnh hưởng của pH đến sự tạo phức của Fe3+ với axit sunfosalixilic (SSal)
40 p | 281 | 49
-
Luận văn: Nghiên cứu chế tạo kit thử nhanh trong phân tích Urea
114 p | 160 | 26
-
Luận văn: Nghiên cứu sản xuất thử nghiệm sản phẩm giá trị gia tăng từ nguồn nguyên liệu cá Rô phi tạp và thịt tôm vụn – Sản phẩm là “Chạo tôm, cá"
83 p | 178 | 24
-
Luận văn: Khảo sát – Nghiên cứu phương pháp tách Phycocyanin trong tảo Spirulina
0 p | 159 | 21
-
Tóm tắt luận văn Thạc sỹ ngành Khoa học máy tính: Nghiên cứu phương pháp cho bài toán phân cụm và xây dựng hệ thống thử nghiệm
26 p | 129 | 18
-
Tóm tắt luận văn Thạc sĩ Hóa học hữu cơ: Nghiên cứu phương pháp thu hồi protein cá trong nước thải cơ sở chế biến chả cá (surimi) tại Khu công nghiệp Dịch vụ thủy sản Đà Nẵng
26 p | 93 | 16
-
Luận văn: Nghiên cứu xác định Se, As trong mẫu máu và nước tiểu bằng phương pháp hấp thụ nguyên tử sử dụng kĩ thuật hidrua hoá
81 p | 77 | 14
-
Luận án Tiến sĩ Hán Nôm: Nghiên cứu phương pháp viết sử của sử gia Việt Nam qua Bộ quốc sử thời Lê Đại Việt sử ký toàn thư
164 p | 32 | 8
-
Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu phương pháp quản trị rủi ro hướng mục tiêu và thử nghiệm ứng dụng trong xây dựng cổng thông tin điện tử Bộ GTVT
75 p | 49 | 8
-
Luận văn Thạc sĩ Kỹ thuật: Nghiên cứu phương pháp phát hiện thay đổi nội dung bảng kết quả của trang tin xổ số kiến thiết
66 p | 21 | 5
-
Luận văn Thạc sĩ Hóa học: Nghiên cứu phương pháp xác định lượng vết Cu(II) bằng phương pháp chiết điểm mù
80 p | 29 | 4
-
Tóm tắt Luận văn Thạc sĩ Kỹ thuật phần mềm: Phương pháp và công cụ để hỗ trợ kiểm thử phần mềm android
19 p | 73 | 4
-
Luận văn: Nghiên cứu tách thu hồi thuốc nhuộm dư trong nước thải nhuộm bằng màng lọc và khả năng giảm thiểu fouling cho quá trình lọc tách thuốc nhuộm qua màng - Cù Thị Vân Anh
17 p | 97 | 4
-
Luận văn Thạc sĩ Máy tính: Nghiên cứu phương pháp phát hiện tự động Polyp dựa trên lọc Hessian, biến đổi Hough và đặc trưng biên trong ảnh y học
55 p | 21 | 4
-
Luận án Tiến sĩ Kỹ thuật: Nghiên cứu phương pháp cảnh báo lũ quét cho lưu vực nhỏ miền núi và áp dụng thử nghiệm cho 2 lưu vực Nậm Ly và Nà Nhùng tỉnh Hà Giang
144 p | 10 | 4
-
Luận án Tiến sĩ Kỹ thuật: Nghiên cứu phương pháp cảnh báo lũ quét cho lưu vực nhỏ miền núi và áp dụng thử nghiệm cho hai lưu vực Nậm Ly và Nà Nhùng, tỉnh Hà Giang
144 p | 13 | 4
-
Tóm tắt Luận án Tiến sĩ Kỹ thuật: Nghiên cứu phương pháp cảnh báo lũ quét cho lưu vực nhỏ miền núi và áp dụng thử nghiệm cho 2 lưu vực Nậm Ly và Nà Nhùng tỉnh Hà Giang
27 p | 9 | 3
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn