YOMEDIA
ADSENSE
CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT
404
lượt xem 44
download
lượt xem 44
download
Download
Vui lòng tải xuống để xem tài liệu đầy đủ
Văn bản song ngữ (parallel text) là một văn bản được thể hiện ở một ngôn ngữ và bản dịch (translation) của nó ở một ngôn ngữ khác. Để khai thác được tính hữu dụng của nguồn dữ liệu này, việc đầu tiên là tiến hành canh lề (hay đối sánh) văn bản để tìm được bản dịch tương ứng của một đoạn, một câu, một từ trong hai ngôn ngữ.
AMBIENT/
Chủ đề:
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT
- ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA ------oOo------ LÊ NGỌC SƠN CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT Chuyên ngành : Công Nghệ Thông Tin Mã số ngành : 01.02.10 LUẬN VĂN TỐT NGHIỆP TP. HỒ CHÍ MINH, THÁNG 12 NĂM 2006
- CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH Cán bộ hướng dẫn khoa học: Phó Giáo sư, Tiến sĩ PHAN THỊ TƯƠI Cán bộ chấm nhận xét 1: Cán bộ chấm nhận xét 2: Luận văn thạc sĩ được bảo vệ tại: HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA Ngày . . . . . tháng . . . . . năm 2006
- ĐẠI HỌC QUỐC GIA TP. HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự do - Hạnh phúc ------oOo------ ------oOo------ Tp. Hồ Chí Minh, ngày ….. tháng ….. năm 2006 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ và tên học viên : Lê Ngọc Sơn Phái : Nam Nơi sinh : Tiền Giang Ngày sinh : 28/05/1981 : Công Nghệ Thông Tin Chuyên ngành MSHV : 00704179 TÊN ĐỀ TÀI: Canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp I. đặc thù của ngôn ngữ Anh - Việt. NHIỆM VỤ VÀ NỘI DUNG: II. Tìm hiểu các công trình nghiên cứu trước đây về canh lề văn bản song ngữ. Nghiên cứu giải thuật phân đoạn từ, phân đoạn câu, canh lề theo chiều dài câu và LSSA. Ứng dụng các giải thuật này để giải quyết những trường hợp đặc thù trong canh lề văn bản song ngữ Anh - Việt. Xây dựng một kho ngữ liệu (corpus) chứa các cặp câu song ngữ Anh - Việt phân loại theo lĩnh vực. III. NGÀY GIAO NHIỆM VỤ : / / 2006 IV. NGÀY HOÀN THÀNH NHIỆM VỤ : / / 2006 HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN : PGS., TS. Phan Thị Tươi V. CÁN BỘ HƯỚNG DẪN PGS., TS. Phan Thị Tươi Nội dung và đề cương luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành thông qua. Ngày ….. tháng ….. năm 2006 PHÒNG ĐÀO TẠO SAU ĐẠI HỌC KHOA QUẢN LÝ NGÀNH
- LỜI CẢM ƠN Tôi xin được gửi lời cảm ơn chân thành đến: PGS., TS. Phan Thị Tươi đã tận tình chỉ bảo, h ướng d ẫn tôi nghiên c ứu và thực hiện luận văn này. Cám ơn Cô đã theo dõi, hỗ trợ và động viên tôi trong những lúc khó khăn nhất. Các thầy cô của Khoa Công Nghệ Thông Tin trường đại học Bách khoa TP. Hồ Chí Minh đã tận tâm giảng dạy trong suốt quá trình học, trang bị cho tôi những kiến thức nền tảng và khả năng nghiên cứu. Thầy TS. Võ Văn Huy, cô ThS. Huỳnh Ngọc Li ễu, KS. Nguyễn Hoàng Thanh Nhàn, KS. Nguyễn Ngọc Bình Phương, CN. Thái Kim Phụng, các anh chị em trong Trung tâm nghiên cứu và hỗ trợ đào tạo Quản trị doanh nghi ệp (BR&T) đã h ỗ trợ tôi trong suốt thời gian thực hiện luận văn. Gia đình và những bạn bè thân thiết đã luôn động viên khuyến khích tôi h ọc tập và phấn đấu.
- TÓM TẮT Văn bản song ngữ (parallel text) là một văn bản được thể hi ện ở m ột ngôn ngữ và bản dịch (translation) của nó ở một ngôn ngữ khác. Đ ể khai thác đ ược tính hữu dụng của nguồn dữ liệu này, việc đầu tiên là tiến hành canh lề (hay đ ối sánh) văn bản để tìm được bản dịch tương ứng của một đo ạn, m ột câu, một t ừ trong hai ngôn ngữ. Gần đây, canh lề văn bản đã và đang được quan tâm rất nhiều. Nhiều phương pháp và giải thuật được đưa ra, áp dụng, và cũng đạt được những k ết qu ả tương đối chính xác. Tuy nhiên, mỗi cặp ngôn ngữ có những đặc điểm riêng. Vi ệc áp dụng vào canh lề văn bản song ngữ Anh – Vi ệt c ần đ ược đi ều ch ỉnh cho phù hợp với đặc điểm của ngôn ngữ tiếng Việt. Trong đề tài này, tôi xây dựng một qui trình canh l ề m ới, áp d ụng gi ải thu ật canh lề theo chiều dài câu, giải thuật canh lề từ dựa vào từ đi ển và gi ải thuật Longest Sorted Sequence (LSSA). Điểm mới trong luận văn là xử lý m ột tr ường hợp đặc biệt trong dịch thuật cũng rất thường xảy ra là dịch chéo. Khi đó, ch ương trình phải xử lý trường hợp canh lề chéo, mà hầu hết các gi ải thuật trước đây đ ều bỏ qua trường hợp này. Độ chính xác của giải thuật tương đối cao. Nó tạo ra một kho ngữ liệu gồm các cặp câu được canh lề và được phân chia theo lĩnh vực c ủa văn b ản. Ngoài ra, chương trình cũng đánh dấu các điểm tương ứng gi ữa các từ trong câu. Nó sẽ là một tập dữ liệu bổ ích cho dịch máy, tạo tự động từ điển chuyên ngành khi kho ngữ liệu đủ lớn. Trong quyển luận văn này, tôi trình bày chi ti ết các gi ải thu ật sử d ụng và cách hiện thực giải thuật ứng dụng vào canh lề văn bản song ngữ Anh – Việt.
- ABSTRACT Bitext (- parallel text) is a text in one language and its translation in another language. They are available sources of information for bilingual lexicography, machine translation. In order to achieve this, they must be aligned first, i.e. the various pieces of the text must be put into correspondence. Recently, text alignment has been taken interest in very much. Many methods and algorithm have been brought out into open and applied. The result were relatively accurate. However, any pair of languages have their characteristics, the application of Vietnamese- English bittext alignment needs to be adjusted in accordance with the Vietnamese characteristics. In this study, I am constructing a new alignment procedure which applied the algorithm of length- based alignment, dictionary- based word alignment and Longest Sorted Sequence Algorithm (LSSA). The interesting thing in this composition is taking the notice of a commonly special problem- cross translation. Then, the algorithm must solve the cross translation problem which is often bypassed by many previous algorithms. The degree of accuracy is relatively high. It creates a corpus inncluding aligned pairs of sentences and devided in the field of text. In addition, the algorithm will mark map points between words in sentences. It will be an useful data file for machine translation and automically create a specialist dictionary when the data warehouse is large enough. In this composition, I present in detail algorithms using and the realization of applied algorithms in Vietnamese- English bitext alignment.
- MỤC LỤC Giới thiệu.........................................................................................................................1 1. Bối cảnh thực hiện luận văn:...................................................................................1 2. Thực trạng – Vấn đề:............................................................................................... 1 3. Hướng giải quyết vấn đề:........................................................................................2 4. Mục tiêu của luận văn:..............................................................................................2 5. Đóng góp của luận văn:.............................................................................................2 6. Hướng phát triển:......................................................................................................5 7. Cấu trúc của luận văn: Luận văn chia làm 7 phần.................................................. 5 Các công trình nghiên cứu liên quan............................................................................7 1. Phương pháp canh lề văn bản dựa vào chiều dài câu:.............................................7 1.1 Phương pháp của William A.Gale và Kenneth W.Church [16]:................... 8 1.2 Phương pháp của Peter F.Brown [17]:.......................................................... 9 2. Phương pháp canh lề dựa vào từ vựng:................................................................. 10 2.1 Phương pháp của Michel Simard, George F. Foster, Pierre Isabelle [15]:. .10 2.2 Phương pháp của Martin Kay và Martin Roscheisen [11]:......................... 11 2.3 Phương pháp của nhóm tác giả Akshar Bharati, Sriram V, Vamshi Krishna A, Rajev Sangal, Sushma Bendre [9]:................................................................ 12 2.4 Phương pháp của Seonho Kim, Juntae Yoon, Dong-Yul Ra [6]:................13 2.5 Phương pháp của Antonio Ribeiro, Gabriel Lopes và Joao Mexia:[8]. ......14 2.6 Phương pháp của Tiago Ildefonso and Gabtiel Pereira Lopes[1]:...............16 3. Kết hợp các phương pháp:......................................................................................16 3.1 Phương pháp của nhóm tác giả Thomas C.Chuang, Jian-Cheng Wu, Tracy Lin, Wen_Chie Shei, and Jason S.Chang:[2]......................................................16 3.2 Phương pháp của Stanley F.Chen:[14].......................................................17 3.3 Phương pháp canh lề theo giải thuật SIMR và GSA. Nghiên cứu của tác giả I. Dan Melamed [10] :..................................................................................18 4. Nghiên cứu của các tác giả trong nước:.................................................................20 4.1 Nghiên cứu của tác giả Lê Hoài Nhân (2004):............................................20
- 4.2 Nghiên cứu của tác giả Trần Giang Sơn (2005) [3]: Canh lề văn bản Anh- Việt dựa trên giải thuật SIMR và GSA............................................................ 21 Phần 3 ..........................................................................................................................22 Cơ sở lý thuyết..............................................................................................................22 1. Các định nghĩa:.........................................................................................................22 1.1 Phép canh lề:................................................................................................ 22 1.2 Phép canh lề chéo.........................................................................................23 2. Đánh giá mức độ chính xác của phép canh lề........................................................24 3. Hệ số Dice (D):....................................................................................................... 24 4. Xác suất có điều kiện:............................................................................................ 24 5. Phân tích hồi qui tuyến tính:................................................................................... 25 Phân tích giải thuật......................................................................................................28 1. Giải thuật Stemming:..............................................................................................28 2. Giải thuật phân đoạn câu:.......................................................................................32 3. Giải thuật canh lề văn bản theo chiều dài câu [16]:..............................................34 3.1 Khung lập trình động (A Dynamic Programming Framework):.................35 3.2 Thuật toán lập trình động (A Dynamic Programming Algorithm):............37 4. Phương pháp canh lề sử dụng dãy giới hạn (Confidence Bands Algorithm - CBA) [8]:................................................................................................................................38 5. Phương pháp canh lề sử dụng “chuỗi được sắp xếp dài nhất” (Longest Sorted Sequence Algorithm - LSSA) [1]:................................................................................40 6. So sánh phương pháp LSSA với CBA:...................................................................42 7. Những khó khăn gặp phải khi áp dụng SIRM (Smooth Injective Map Recognizer) và GSA [10]................................................................................................................. 46 8. Giải thuật giải quyết canh lề chéo (sử dụng trong luận văn):..............................51 Hiện thực........................................................................................................................53 1. Stemming: Dùng giải thuật Porter.......................................................................... 55 2. Xác định từ ghép tiếng Việt và cụm từ tiếng Anh:...............................................56 3. Phân đoạn câu:.........................................................................................................58
- 4. Canh lề câu theo chiều dài câu:...............................................................................59 5. Kiểm tra tính hợp lệ của phép canh lề...................................................................63 6. Canh lề chéo:........................................................................................................... 66 7. Canh lề từ:...............................................................................................................67 8. Phân loại văn bản:...................................................................................................69 Kết quả thực nghiệm..................................................................................................70 1. Giới thiệu chương trình:......................................................................................... 70 2. Kết quả sau bước canh lề câu (Bước 1):...............................................................71 3. Kết quả sau bước canh lề chéo (Bước 2):............................................................. 76 4. Kết quả canh lề từ:................................................................................................. 77 5. Các chức năng khác:................................................................................................80 5.1 Lưu kết quả canh lề:................................................................................... 80 5.2 Mở lại một qui trình canh lề:...................................................................... 81 5.3 Chạy từng bước giải thuật:.........................................................................81 Kết luận..........................................................................................................................82 1. Tổng kết:................................................................................................................. 82 2. Hướng mở rộng và phát triển đề tài:..................................................................... 84 2.1 Hoàn chỉnh luận văn:................................................................................... 84 2.2 Phát triển theo hướng nghiên cứu:..............................................................84 2.3 Phát triển theo hướng ứng dụng:................................................................ 84 BẢNG ĐỐI CHIẾU CÁC THUẬT NGỮ ANH - VIỆT............................ 86 BẢNG ĐỐI CHIẾU CÁC THUẬT NGỮ VIỆT - ANH............................ 88 TÀI LIỆU THAM KHẢO...........................................................................90
- DANH MỤC HÌNH Hình 2-1 Ví dụ trong mô hình (1) của phương pháp [6].......................................13 Hình 2-2 Ví dụ trong mô hình (2) của phương pháp [6].......................................13 Hình 2-3 Biểu đồ khoảng cách trong phương pháp [8] ........................................14 Hình 2-4 Dãy giới hạn (CB) trong phương pháp [8]..............................................15 Hình 2-5 Không gian văn bản song ngữ....................................................................19 Hình 3-6 Canh lề chéo trong văn bản song ngữ......................................................23 Hình 4-7 Đồ thị tương quan chiều dài giữa tiếng Anh và tiếng Đức................35 Hình 4-8 Đường thẳng hồi qui tuyến tính...............................................................39 Hình 4-9 Biểu đồ khoảng cách...................................................................................39 Hình 4-10 Dãy giới hạn (CB).......................................................................................40 Hình 4-11. Kết quả thu được khi sử dụng CBA....................................................43 Hình 4-12. Kết quả thu được khi sử dụng LSSA...................................................43 Hình 4-13. Tính khoảng cách trong CBA..................................................................44 Hình 4-14. Kết quả canh lề sử dụng CBA...............................................................44 Hình 4-15. Kết quả canh lề sử dụng CBA...............................................................44 Hình 4-16. Kết quả canh lề dùng CBA.....................................................................45 Hình 4-17. Kết quả canh lề dùng LSSA...................................................................45
- Hình 4-18. Quá trình tạo điểm và mở rộng hình chữ nhật tìm kiếm................48 Hình 4-19. Phát hiện những đoạn canh lề sót trong giải thuật SIRM...............49 Hình 4-20. Sự biến đổi độ nghiêng cục bộ trong giải thuật SIRM....................50 Hình 5-21 Sơ đồ khối cho quá trình canh lề...........................................................54 Hình 5-22. Cấu trúc CSDL từ điển song ngữ Anh-Việt........................................55 Hình 5-23. Từ điển từ ghép tiếng Việt.....................................................................56 Hình 5-24. Từ điển cụm từ tiếng Anh......................................................................57 Hình 5-25. Danh sách từ viết tắt trong tiếng Anh..................................................59 Hình 5-26. Tương quan chiều dài câu Anh-Việt....................................................61 Hình 5-27. Kết quả canh lề câu theo chiều dài câu...............................................63 Hình 5-28. Danh sách Stopwords.................................................................................65 Hình 6-29. Giao diện chính của chương trình.........................................................70 Hình 6-30. Giao diện hiển thị kết quả.....................................................................80
- DANH MỤC BẢNG Bảng 2-1 Kết quả canh lề của giải thuật [14]........................................................11 Bảng 2-2 Kết quả canh lề của phương pháp [6]...................................................14 Bảng 2-3. Thống kê tần suất xuất hiện các ký hiệu trong phương pháp [2]...17 Bảng 2-4. Kết quả của phương pháp [2].................................................................17 Bảng 4-5. Giá trị các vector trong LSSA...................................................................42 Bảng 5-6. Tỷ lệ của các từ đơn, từ ghép đôi, từ ghép ba, từ ghép bốn.............60 Bảng 5-7. Tỷ lệ giữa số từ tiếng Việt và số từ tiếng Anh..................................61 Bảng 5-8. Xác suất của các phép canh lề theo [16].................................................62 Bảng 5-9. Xác suất của các phép canh lề Anh-Việt...............................................62 Bảng 5-10. Đánh giá trọng số các điểm tương ứng...............................................64 Bảng 5-11. Thống kê γ trung bình theo chiều dài block.......................................66 Bảng 6-12. Kết quả canh lề câu trong luận văn.....................................................72 Bảng 6-13. Phát hiện các phép canh lề 1-2..............................................................72 Bảng 6-14. Phát hiện các phép canh lề 1-2, 2-1......................................................73 Bảng 6-15. Ví dụ trường hợp phân đoạn câu sai, nhưng canh lề đúng.............74 Bảng 6-16. Canh lề 1-0 được xác định trong canh lề 2-1.....................................75 Bảng 6-17. Một ví dụ canh lề câu sai do xuất hiện dịch chéo câu......................76
- Bảng 6-18. Ví dụ minh họa - Kết quả canh lề chéo..............................................77 Bảng 6-19. Ví dụ kết quả canh lề từ sau khi áp dụng LSSA..............................78 Bảng 6-20. Ví dụ kết quả canh lề chéo cụm từ.....................................................79
- Canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ Anh – Việt GVHD: PGS., TS. Phan Thị Tươi HV: Lê Ngọc Sơn Phần 1 Giới thiệu Văn bản song ngữ (bitext/ bilingual text/ parallel text) là m ột văn bản đ ược thể hiện ở một ngôn ngữ và bản dịch (translation) của nó ở một ngôn ngữ khác. Văn bản song ngữ thường được sử dụng trong các tài liệu hành chính, pháp luật, tạp chí… Bối cảnh thực hiện luận văn: 1. Hiện nay, văn bản song ngữ tồn tại với một số lượng lớn, và chất lượng dịch thuật của nó rất cao. Để tận dụng được lợi ích c ủa nh ững văn b ản lo ại này, việc đầu tiên là tiến hành canh lề (hay đối sánh) văn bản (text alignment), t ức là tìm ra được sự tương ứng giữa các đoạn, câu trong hai ngôn ngữ của văn bản. Điều này có ý nghĩa rất quan trọng, nó chuyển nguồn d ữ li ệu này thành ngu ồn tri thức hữu ích. Bởi vì đó là bước đầu tiên và bắt buộc trong việc xây d ựng các kho ngữ liệu song ngữ. Nó không chỉ hỗ trợ cho việc xây dựng từ đi ển song ngữ, d ịch máy, mà nó còn hỗ trợ cho nhiều lĩnh vực khác như gi ải quyết nh ập nh ằng c ủa t ừ, rút trích thông tin… Ngoài ra, canh lề văn bản còn là m ột công c ụ h ữu ích đ ể tr ợ giúp cho người làm công tác phiên dịch. Gần đây, canh lề văn bản đã và đang được quan tâm rất nhiều. Nhiều phương pháp và giải thuật được đưa ra, áp dụng, và cũng đ ạt đ ược nh ững k ết qu ả tương đối chính xác. Trong đó phương pháp dựa vào thống kê chi ếm ưu th ế so v ới những phương pháp khác. Tuy nhiên, kết quả phụ thuộc rất lớn vào tính tương đồng giữa 2 ngôn ngữ. Hai ngôn ngữ có cùng họ thì kết quả canh lề rất cao. Thực trạng – Vấn đề: 2. Nội dung của đề tài này là canh lề văn bản Anh - Việt. Đây là 2 ngôn ng ữ có nhiều đặc điểm khác nhau nên việc ứng dụng những công trình nghiên c ứu Trang 1
- Canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ Anh – Việt GVHD: PGS., TS. Phan Thị Tươi HV: Lê Ngọc Sơn trước đó cần có sự hiệu chỉnh cho phù hợp với đặc đi ểm c ủa ti ếng Vi ệt. M ột s ố tác giả trong nước cũng đã có những nghiên cứu về vấn đề này. Các gi ải thu ật được áp dụng gồm phương pháp canh lề dựa vào chiều dài câu và ph ương pháp canh lề dựa vào từ vựng. Giải thuật SIRM và GSA là sự kết hợp ưu đi ểm của 2 xu hướng canh lề dựa vào chiều dài câu và dựa vào từ vựng. Tuy nhiên, các nghiên cứu này dừng lại ở mức canh lề câu, và bỏ qua yếu tố dịch chéo (các đo ạn, câu trong ngôn ngữ thứ hai không theo thứ tự tương ứmg với câu và đo ạn trong ngôn ngữ thứ nhất). Hướng giải quyết vấn đề: 3. Để khắc phục những vấn đề trên, tôi đã tham khảo các công trình nghiên cứu mà các tác giả trong và ngoài n ước đã thực hi ện, ti ến hành tìm hi ểu nh ững ưu, khuyết điểm của các phương pháp này, và khả năng áp dụng vào canh lề văn bản Anh – Việt. Tổng hợp những kiến thức đó, trên cơ sở kế thừa và cải ti ến, tôi đ ưa ra một qui trình canh lề mới, và hiện thực ý tưởng của mình. Qui trình bao gồm các giải thuật: xác định từ ghép tiếng Việt, cụm từ tiếng Anh dựa vào từ điển, phân đoạn văn bản, phân đoạn câu, canh lề câu dựa vào chi ều dài câu (s ố l ượng t ừ), giải thuật canh lề theo chuỗi được sắp xếp dài nhất LSS (Longest Sorted Sequence). 4. Mục tiêu của luận văn: Nghiên cứu giải thuật canh lề dựa vào chiều dài câu, giải thuật LSSA. Xây dựng qui trình canh lề mới, nhằm xác định phép canh lề chéo trong canh lề văn bản song ngữ Anh - Việt. Xử lý một số ngoại lệ trong ngôn ngữ Anh – Việt và trong dịch thuật. Tạo kho dữ liệu gồm các cặp câu Anh – Việt, phân theo lĩnh vực. Đóng góp của luận văn: 5. Các phương pháp canh lề văn bản song ngữ trước đây th ường b ỏ qua m ột số ngoại lệ trong ngôn ngữ và trong dịch thuật, ví dụ như phân đo ạn không t ương ứng, dấu chấm trong từ viết tắt không phải là dấu kết thúc câu, tr ường h ợp canh lề chéo, hay trường hợp chuyển đổi từ loại (danh từ, động từ,…) trong d ịch thu ật. Trang 2
- Canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ Anh – Việt GVHD: PGS., TS. Phan Thị Tươi HV: Lê Ngọc Sơn Điều này làm cho kết quả canh lề không thể chấp nhận đ ược khi gặp nh ững trường hợp đặc biệt, thường xảy ra trong văn bản song ngữ Anh –Vi ệt. Ngoài ra, một cụm từ, một thành ngữ khi tách ra thành từng t ừ hoàn toàn không có ý nghĩa, trong tiếng Anh cũng như trong tiếng Việt. Trường hợp đặc bi ệt và ph ổ bi ến nh ất là từ ghép tiếng Việt. Để giải quyết những vấn đề nêu trên, trong luận văn đưa ra những giải pháp tương ứng: Trước hết, chương trình sử dụng phương pháp canh lề theo chiều dài câu để canh lề đoạn (paragraph), và canh lề câu (sentence). Chi ều dài câu đ ược tính theo số lượng từ đơn có trong câu. Mô hình lập trình động đ ược sử d ụng m ột cách hợp lý và hiệu quả. Để xác định chính xác vị trí kết thúc câu (quá trình phân đo ạn câu), chương trình tập hợp những qui luật, kết hợp với thống kê danh sách từ viết tắt. Giai đoạn canh lề câu được trình bày trong mục 5.3, 5.4, phần hiện thực. Tiếp theo, chương trình nhận dạng cụm từ tiếng Anh và từ ghép ti ếng Vi ệt dựa vào danh sách thống kê cụm từ tiếng Anh và từ đi ển từ ghép ti ếng Vi ệt. Đây là giai đoạn phân đoạn từ (trình bày trong mục 5.2, phần hiện thực). Đây cũng là bước chuẩn bị cho giải thuật canh lề từ. Để tăng độ tin cậy trong bước canh lề câu, chương trình kiểm tra lại b ằng cách tính độ tương tự của hai câu đã được canh lề. Mức độ tương tự của câu được tính dựa trên những cặp từ giống nhau trong câu, hay khi bi ểu di ễn trong không gian văn bản song ngữ, nó là điểm tương ứng thật sự. N ếu độ tương t ự th ấp h ơn giới hạn cho phép, chương trình bắt buộc phải tạo một tổ h ợp canh l ề m ới cho những cặp câu chưa được chấp nhận này, và chọn ra cách canh l ề t ối ưu. Đây là giai đoạn canh lề chéo (phạm vi là các câu trong cùng một đoạn), được trình bày trong mục 5.5, 5.6, phần hiện thực. Xử lý canh lề chéo có được các nhà nghiên cứu nói đến nhưng chưa được hiện thực. Đây là một đóng góp của luận văn. Chương trình có thể được cải tiến để canh lề chéo cho các câu trong toàn văn bản. Trang 3
- Canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ Anh – Việt GVHD: PGS., TS. Phan Thị Tươi HV: Lê Ngọc Sơn Để canh lề từ chính xác và mịn nhất (chi tiết nhất), chương trình có s ử dụng giải thuật Porter để cắt lấy gốc từ tiếng Anh (stemming). Với nh ận xét là không phải lúc nào một danh từ tiếng Anh cũng được dịch thành m ột danh t ừ ti ếng Việt, một động từ tiếng Anh được dịch thành m ột động từ ti ếng Vi ệt. Vi ệc stemming giúp cho việc nhận dạng các cặp từ gi ống nhau đ ược đ ầy đ ủ h ơn. Đây là một điểm mới khi áp dụng vào canh lề từ Anh – Việt. Trong quá trình canh lề từ, chương trình cũng loại ra những điểm tương ứng ngẫu nhiên b ằng cách l ọc b ỏ những từ không có giá trị canh lề (stopword). Ngoài ra, gi ải thu ật LSSA cũng nh ận dạng được những đoạn canh lề chéo sao cho chuỗi các từ canh lề là dài nhất. Ý tưởng và chi tiết giải thuật LSSA trình bày trong m ục 4.5, ph ần phân tích gi ải thuật và mục 5.7, phần hiện thực. Việc áp dụng các giải thuật này vào ngôn ngữ tiếng Vi ệt đã được điều chỉnh và cải tiến cho phù hợp với đặc điểm của tiếng Vi ệt, và một số ngo ại l ệ của ngôn ngữ. Độ chính xác của giải thuật còn phụ thuộc vào vi ệc thu th ập m ột kho dữ liệu ban đầu, ví dụ như từ điển song ngữ, danh sách từ ghép ti ếng Vi ệt, cụm từ tiếng Anh, từ viết tắt, từ không có giá trị canh lề (stopwords). Ngoài ra, nó còn phụ thuộc rất lớn vào các thông số của hệ thống, mà các thông số này c ần được điều chỉnh sau quá trình thực nghiệm. Để chạy kiểm nghiệm chương trình, các văn bản được sử dụng thuộc 2 lĩnh vực: (1)Kinh tế: các văn b ản c ủa đ ại s ứ quán Hoa Kỳ tại Hà Nội (website: http://usinfo.state.gov/products/pubs/oecon/ và http://usembassy.state.gov/posts/vn1/) và (2)Tin học: sưu tập từ nhiều nguồn khác nhau trên mạng Internet. Điều này tạo sự thuận lợi vì một số văn b ản này đã đ ược tác giả Trần Giang Sơn tổng hợp và thử nghiệm, tạo nên tính chính xác khi nh ận xét đánh giá kết quả của giải thuật. Ngoài ra, vi ệc tập hợp các văn b ản t ừ nhi ều nguồn khác nhau tạo nên tính đa dạng các ngoại lệ trong dịch thuật. Tổng kết lại, luận văn đã phân tích một số điểm yếu còn tồn tại trong các giải thuật trước đây (trình bày trong phần 4 – Phân tích giải thuật) và đưa ra hướng khắc phục. Điểm mới trong luận văn là xử lý một trường hợp đặc biệt trong d ịch thuật rất thường xảy ra là dịch chéo. Khi đó, chương trình ph ải xử lý tr ường h ợp canh lề chéo, mà hầu hết các giải thuật trước đây đều bỏ qua trường h ợp này. Bên Trang 4
- Canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ Anh – Việt GVHD: PGS., TS. Phan Thị Tươi HV: Lê Ngọc Sơn cạnh đó, chương trình cũng áp dụng giải thuật LSSA, lần đầu áp d ụng vào canh l ề từ cho văn bản Anh – Việt. Mặc dù giải thuật này chưa thật sự phù hợp, nhưng cũng giúp chúng ta rút ra được một kinh nghiệm khi nghiên cứu về canh lề. Ngoài ra, mục tiêu của chương trình là ứng dụng canh lề văn bản song ng ữ vào các mục đích khác. Đó là xây dựng một kho ngữ li ệu gồm 10.000 c ặp câu đã được canh lề phân loại theo lĩnh vực với độ chính xác 98% và đánh dấu những điểm mốc canh lề trong câu (lưu trữ trong hệ quản trị cơ sở dữ liệu Microsoft SQL Server 2000 rất dễ tìm kiếm và truy xuất). Nó sẽ là một tập d ữ li ệu b ổ ích cho dịch máy, tạo tự động từ điển chuyên ngành khi kho ngữ liệu đủ lớn và mang tính đại diện. Chương trình thiết kế dễ tìm hiểu và sử dụng, hiển thị kết quả rõ ràng. Kết quả khá chính xác (98%). Chương trình nhận dạng 70% phép canh lề chéo. Đ ộ hoàn toàn của giải thuật canh lề là 100%. Chương trình xác định kho ảng 4 đi ểm tương ứng cho một câu có chiều dài trung bình là 10 từ. Kết quả chi tiết thể hiện ở các bảng thống kê trong phần 6 - Kết quả thực nghiệm. 6. Hướng phát triển: Hoàn chỉnh ứng dụng: Cải tiến giải thuật phân đoạn câu, chạy thử nghiệm và cập nhật các thông số hệ thống. Thu thập các văn bản song ngữ thuộc nhiều lĩnh vực, canh lề và lưu lại để mở rộng kho ngữ liệu. Phân loại lĩnh vực của văn bản tự động, cập nhật cụm từ tiếng Vi ệt và tiếng Anh (collocation) tự động theo mô hình n-grams, xây dựng từ điển chuyên ngành. Ứng dụng thực tế vào quản lý kho tri thức tại trung tâm BR&T (trình bày rõ ở phần kết luận). Cấu trúc của luận văn: Luận văn chia làm 7 phần 7. Phần 1. Giới thiệu Phần này giới thiệu chung về bối cảnh, mục tiêu, hướng th ực hi ện lu ận văn, một số đóng góp của luận văn. Trang 5
- Canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ Anh – Việt GVHD: PGS., TS. Phan Thị Tươi HV: Lê Ngọc Sơn Phần 2. Các công trình nghiên cứu liên quan Trình bày một số công trình nghiên cứu về canh lề văn bản song ngữ trên thế giới và trong nước. Phần 3. Cơ sở lý thuyết Trình bày một số định nghĩa, các công thức toán học, m ột số h ệ s ố đánh giá phép canh lề, và các lý thuyết xác suất có liên quan. Phần 4. Phân tích giải thuật Các giải thuật sẽ sử dụng trong luận văn sẽ được trình bày chi ti ết trong phần này. Bên cạnh đó phần này cũng đưa ra lý do chọn lựa gi ải thu ật áp dụng trong luận văn thông qua một số phân tích và so sánh. Phần 5. Hiện thực Trình bày chi tiết cách hiện thực các giải thuật trong chương trình. Phần 6. Kết quả thực nghiệm Kết quả chạy thực nghiệm chương trình sẽ được trình bày trong phần này. Phần 7. Kết luận Tổng kết lại toàn bộ quá trình thực hiện luận văn, những cái đã th ực hi ện, những điểm còn yếu. Và phần này cũng trình bày m ột số hướng phát tri ển và ứng dụng, - Bảng thuật ngữ tiếng Anh và tiếng Việt được sử dụng trong quyển lu ận văn. - Danh mục sách và các báo cáo khoa học đã tham khảo để thực hiện đề tài. - Phụ lục A: Hướng dẫn sử dụng chương trình canh lề văn bản song ngữ Anh-Việt - Phụ lục B: Cài đặt và phục hồi Cơ sở dữ liệu SQL Server Trang 6
- Canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ Anh – Việt GVHD: PGS., TS. Phan Thị Tươi HV: Lê Ngọc Sơn Phần 2 Các công trình nghiên cứu liên quan Phần này trình bày một số công trình nghiên c ứu về canh lề văn bản song ngữ trên thế giới và trong nước. Các phương pháp được áp dụng chủ yếu phân vào các loại sau: Phương pháp canh lề văn bản dựa vào chiều dài câu: 1. Phương pháp canh lề văn bản dựa vào chiều dài câu là m ột trong nh ững phương pháp xuất hiện tương đối sớm. Phương pháp này không quan tâm đến yếu tố từ vựng trong văn bản mà chỉ quan tâm đến chiều dài của câu trong văn bản. Ý tưởng chính của phương pháp này là: các câu ngắn thường được dịch thành những câu ngắn, các câu dài thường được dịch thành những câu dài. Chi ều dài c ủa câu có thể được tính bằng số lượng từ hoặc số lượng kí tự trong câu. Trong phương pháp này, để canh lề chính xác, văn bản cần được canh lề theo đoạn trước. Có thể thực hiện công đoạn này theo phương pháp thủ công bằng tay. Nếu văn bản không được phân đoạn trước, giải thuật cũng có thể canh lề nhưng độ chính xác thấp hơn, và thời gian thực thi lâu hơn. Ph ương pháp này t ỏ ra hữu hiệu đối với cặp ngôn ngữ cùng họ, ví dụ như Anh-Pháp. Nh ưng l ại kém chính xác đối với những cặp ngôn ngữ khác họ, ví d ụ như Anh-Nh ật, Anh-Hoa, Anh-Việt. Lợi điểm của phương pháp này là đơn giản. Phương pháp này có thể áp dụng cho văn bản ngắn với độ chính xác khá cao, trong khi ph ương pháp d ựa vào từ vựng không thể canh lề cho những văn bản ngắn, vì số lần xu ất hi ện c ủa các từ trong văn bản không đủ lớn để xác định các cặp từ tương ứng về nghĩa. Trong phương pháp canh lề dựa vào chiều dài câu, có hai cách xác đ ịnh chiều dài câu: tính chiều dài câu dựa trên số lượng ký tự, và tính chi ều dài câu d ựa Trang 7
ADSENSE
CÓ THỂ BẠN MUỐN DOWNLOAD
Thêm tài liệu vào bộ sưu tập có sẵn:
Báo xấu
LAVA
AANETWORK
TRỢ GIÚP
HỖ TRỢ KHÁCH HÀNG
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn