intTypePromotion=1
ADSENSE

Luận án tiến sĩ Kỹ thuật: Sử dụng ngôn ngữ trục trong dịch đa ngữ

Chia sẻ: Tỉ Thành | Ngày: | Loại File: PDF | Số trang:187

11
lượt xem
2
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục tiêu chung của luận án "Sử dụng ngôn ngữ trục trong dịch đa ngữ" là nghiên cứu và thử nghiệm hệ thống dịch tự động đa ngữ có thể áp dụng cho tiếng Việt và các ngôn ngữ của các dân tộc ít người ở Việt Nam.

Chủ đề:
Lưu

Nội dung Text: Luận án tiến sĩ Kỹ thuật: Sử dụng ngôn ngữ trục trong dịch đa ngữ

  1. BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG PHAN THỊ LỆ THUYỀN SỬ DỤNG NGÔN NGỮ TRỤC TRONG DỊCH ĐA NGỮ LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng 2018
  2. BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG PHAN THỊ LỆ THUYỀN SỬ DỤNG NGÔN NGỮ TRỤC TRONG DỊCH ĐA NGỮ Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số : 62 48 01 01 LUẬN ÁN TIẾN SĨ KỸ THUẬT Người hướng dẫn khoa học: PGS.TS. Võ Trung Hùng Đà Nẵng 2018
  3. LỜI CAM ĐOAN Tôi cam đoan đây là kết quả nghiên cứu của riêng tôi. Các nội dung và kết quả nghiên cứu được trình bày trong Luận án là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Tác giả NCS. Phan Thị Lệ Thuyền
  4. LỜI CẢM ƠN - Trước tiên, tác giả xin gửi lời cảm ơn đến Ban Đào tạo - Đại học Đà Nẵng, Khoa Công nghệ Thông tin, Phòng Đào tạo Trường Đại học Bách khoa - Đại học Đà Nẵng đã tạo điều kiện thuật lợi trong thời gian học tập và nghiên cứu. Tác giả muốn tri ân đến các Thầy Cô giáo Khoa Công nghệ Thông tin Trường Đại học Bách khoa - Đại học Đà Nẵng, đặc biệt là thầy Võ Trung Hùng đã tận tình giúp đỡ tác giả từ những bước đi đầu tiên hình thành ý tưởng, cũng như trong suốt quá trình nghiên cứu. Thầy luôn ủng hộ, động viên và tạo điều kiện tốt nhất để tác giả hoàn thành luận án. Tác giả nhận thấy sự trưởng thành sau những năm được học tập và nghiên cứu dưới sự hướng dẫn của Thầy. Tác giả chân thành cảm ơn các chuyên gia, các nhà ngôn ngữ học (PGS.TS Nguyễn Ngọc Chinh, TS. Nguyễn Quý Thành) đã dành thời gian để hỗ trợ tác giả nghiên cứu về mặt ngôn ngữ học, kiểm tra, đánh giá các kết quả dịch tự động và so sánh chất lượng dịch các hệ thống. Sự giúp đỡ của các nhà ngôn ngữ học đã giúp ích rất nhiều trong suốt quá trình nghiên cứu và hoàn thành báo cáo luận án này. Tác giả xin gửi lời cảm ơn chân thành tới các anh chị NCS của Khoa Công nghệ Thông tin Trường Đại học Bách khoa - Đại học Đà Nẵng, những người thân và bạn bè luôn bên cạnh động viên, hỗ trợ về mặt tinh thần để tác giả vượt qua khó khăn và hoàn thành tốt luận án.
  5. MỤC LỤC DANH MỤC HÌNH VẼ ................................................................................................... iv DANH MỤC BẢNG ................................................................................................... vii MỞ ĐẦU ....................................................................................................................... 1 Chương 1. TỔNG QUAN VỀ DỊCH MÁY VÀ NGÔN NGỮ UNL ........................ 7 1.1. Một số khái niệm sử dụng trong luận án ............................................................. 7 1.2. Một số hướng tiếp cận trong dịch tự động .......................................................... 9 1.2.1. Dịch máy dựa trên luật .............................................................................. 10 1.2.2. Dịch máy dựa trên ngữ liệu ....................................................................... 12 1.2.3. Phương pháp dịch kết hợp ......................................................................... 14 1.2.4. Đánh giá .................................................................................................... 15 1.3. Dịch đa ngữ ....................................................................................................... 16 1.4. Vấn đề dịch tự động cho tiếng Việt................................................................... 20 1.5. Tổng quan về UNL ............................................................................................ 22 1.5.1. Giới thiệu ................................................................................................... 22 1.5.2. Ngôn ngữ UNL ........................................................................................... 22 1.5.3. Hệ thống UNL ............................................................................................ 29 1.5.4. Một số kết quả nghiên cứu liên quan ......................................................... 31 1.5.5. Ứng dụng UNL làm ngôn ngữ trục trong hệ thống dịch đa ngữ ............... 33 1.6. Tiểu kết chương................................................................................................. 35 Chương 2. ĐỀ XUẤT MÔ HÌNH DỊCH TIẾNG VIỆT - UNL ............................. 37 2.1. Đặt vấn đề.......................................................................................................... 37 2.2. Ngữ pháp tiếng Việt .......................................................................................... 39 2.3. Đề xuất mô hình dịch ........................................................................................ 41 -i-
  6. 2.3.1. Công cụ EnCoVie....................................................................................... 42 2.3.2. Công cụ DeCoVie ...................................................................................... 45 2.3.3. Từ điển trong UNL ..................................................................................... 46 2.3.4. Luật ngữ pháp trong UNL ......................................................................... 49 2.4. Một số vấn đề cần xử lý cho tiếng Việt............................................................. 56 2.5. Tiểu kết chương................................................................................................. 58 Chương 3. GIẢI PHÁP XÂY DỰNG TỪ ĐIỂN VÀ LUẬT .................................. 60 3.1. Giải pháp xây dựng từ điển tiếng Việt - UNL................................................... 60 3.2. Giải pháp xây dựng luật ngữ pháp .................................................................... 69 3.2.1. Xây dựng luật mã hóa ................................................................................ 69 3.2.2. Xây dựng luật giải mã ................................................................................ 83 3.3. Tiểu kết chương................................................................................................. 94 Chương 4. THỬ NGHIỆM VÀ ĐÁNH GIÁ ............................................................ 96 4.1. Xây dựng công cụ EnCoVie và DeCoVie ......................................................... 96 4.1.1. Xây dựng công cụ EnCoVie ....................................................................... 96 4.1.2. Xây dựng công cụ DeCoVie ....................................................................... 99 4.2. Thử nghiệm và đánh giá .................................................................................. 114 4.2.1. Từ điển tiếng Việt – UNL ......................................................................... 114 4.2.2. Dịch đa ngữ qua ngôn ngữ trục UNL ...................................................... 115 4.3. Tiểu kết chương............................................................................................... 122 KẾT L ẬN ............................................................................................................... 123 TÀI LIỆ THAM KHẢO ....................................................................................... 128 PHỤ LỤC .................................................................................................................. 137 -ii-
  7. ANH MỤC CÁC TỪ VIẾT T T LGW Left Generation Window Cửa sổ tạo ra bên trái LW Left Window Cửa sổ trái RGW Right Generation Window Cửa sổ tạo ra bên phải RW Right Window Cửa sổ phải UNL Universal Networking Language Ngôn ngữ mạng dùng chung UNLKB Universal Networking Language Cơ sở tri thức của ngôn ngữ Knowledge Base mạng dùng chung UW Universal Word Từ vựng chung -iii-
  8. ANH MỤC HÌNH VẼ Hình . . Sơ đồ hệ thống dịch trực tiếp [13].............................................................11 Hình . . Sơ đồ hệ thống dịch chuyển đổi [13] ........................................................11 Hình . . Sơ đồ hệ thống dịch qua ngôn ngữ trung gian [13]...................................12 Hình . . Sơ đồ hệ thống dịch dựa trên ví dụ [13]....................................................13 Hình . . Sơ đồ hệ thống dịch dựa trên thống kê [13] ..............................................14 Hình . . Kết hợp phương pháp dịch dựa trên luật và thống kê [13] .......................14 Hình . . Mô hình dịch máy dựa trên luật ................................................................15 Hình . . Dịch trực tiếp giữa các cặp ngôn ngữ trong dịch đa ngữ ..........................16 Hình . . ịch qua ngôn ngữ trục trong dịch đa ngữ ...............................................17 Hình . . Mô hình đánh giá dịch trực tiếp và dịch qua ngôn ngữ trung gian ........17 Hình . . Biểu diễn câu tiếng Anh sang UNL ........................................................28 Hình . . Biểu diễn biểu thức UNL dưới dạng đồ thị .............................................29 Hình . . Cơ chế chuyển đổi của hệ thống UNL ....................................................29 Hình . . Hệ thống UNL14 ......................................................................................30 Hình . . Quá trình chuyển đổi dữ liệu trong dự án UNL – EOLSS [15] ..............33 Hình . . Hệ thống UNL cho các ngôn ngữ ...........................................................34 Hình . . Dịch qua ngôn ngữ trục UNL..................................................................34 Hình . . Mô hình dịch tiếng Việt – UNL ................................................................42 Hình . . Sơ đồ chuyển đổi của công cụ EnCoVie ...................................................43 Hình . . Danh sách các nút trong Node-list ............................................................43 Hình . . Sơ đồ liên kết các Headword ....................................................................44 -iv-
  9. Hình . . Sơ đồ mã hóa câu tiếng Việt sang UNL ....................................................44 Hình . . Sơ đồ chuyển đổi của công cụ DeCoVie ..................................................45 Hình . . Mối quan hệ nhị phân giữa hai từ vựng ....................................................45 Hình . . Sơ đồ mã hóa biểu thức UNL sang câu tiếng Việt ....................................46 Hình . . Trạng thái cuối cùng của Node-list ...........................................................46 Hình . . Sử dụng UW để tìm HeadWord trong quá trình giải mã ........................48 Hình . . Thay đổi Node-list và cửa sổ phân tích bởi luật “+”...............................51 Hình . . Thay đổi Node-list và cửa sổ phân tích bởi luật “-” ..............................52 Hình . . Thay đổi Node-list và cửa sổ phân tích bởi luật “”...............................53 Hình . . Thay đổi Node-list và cửa sổ phân tích bởi luật “:” ................................54 Hình . . Luật chèn phải một nút từ Node vào Node-list .......................................54 Hình . . Luật chèn trái một nút từ Node vào Node-list ........................................55 Hình . . Luật xóa nút phải một nút từ Node-list ...................................................56 Hình . . Luật xóa nút trái một nút từ Node-list.....................................................56 Hình . . Mô-đun xử lý câu tiếng Việt đầu vào [9] ...............................................58 Hình . . Luật ngữ pháp chuyển đổi tiếng Việt sang biểu thức UNL ......................69 Hình . . Đồ thị biểu diễn biểu thức UNL ...............................................................83 Hình . . Mối tương quan giữa hai ngôn ngữ tiếng Việt và UNL ...........................83 Hình . . Sắp xếp trật tự các từ câu đầu ra tiếng Việt .............................................84 Hình . . Sắp xếp trật tự các từ câu đầu ra tiếng Việt .............................................84 Hình . . Đồ thị UNL biểu diễn cho biểu thức có một nút con ...............................84 Hình . . Đồ thị UNL biểu diễn cho biểu thức có nhiều nút con ............................86 -v-
  10. Hình . . Đồ thị UNL biểu diễn biểu thức chứa nút kết hợp trường hợp 1 .............88 Hình . . Đồ thị UNL biểu diễn biểu thức chứa nút kết hợp trường hợp 2 .............89 Hình . . Đồ thị UNL biểu diễn biểu thức chứa nút kết hợp trường hợp 3 ...........92 Hình . . Đồ thị biểu diễn biểu thức UNL .............................................................100 Hình . . Đồ thị biểu diễn biểu thức UNL chứa một hay nhiều nút con ...............106 Hình . . Đồ thị biểu diễn biểu thức UNL chứa nút kết hợp .................................112 Hình . . Hệ thống dịch đa ngữ dựa vào UNL ......................................................118 Hình . . Biểu đồ chất lượng dịch qua UNL và dịch trực tiếp ..............................120 -vi-
  11. ANH MỤC BẢNG Bảng . . Kết quả đánh giá qua tiếng Pháp .............................................................19 Bảng . . Kết quả đánh giá qua tiếng Đức ...............................................................19 Bảng . . Tỷ lệ giống/khác giữa 2 bản dịch máy.....................................................20 Bảng . . Các quan hệ được định nghĩa trong UNL [66] .........................................24 Bảng . . Các thuộc tính được định nghĩa trong UNL [66] .....................................25 Bảng . . Mô tả hình thức bảng trong biểu thức UNL [66]......................................27 Bảng . . Tỷ lệ giống/khác giữa dịch qua UNL và tiếng Anh .................................38 Bảng . . Các mô hình câu đơn [ ] ........................................................................40 Bảng . . Tập nhãn từ loại trong từ điển cho tiếng Việt [9] .....................................48 Bảng . . Tập nhãn từ loại con trong từ điển cho tiếng Việt [9] ..............................49 Bảng . . Số mục từ tiếng Việt – UNL thu được với giải pháp thứ nhất ...............115 Bảng . . Một số ví dụ câu không khớp ở máy chủ tiếng Anh .............................118 Bảng . . Tỷ lệ thay đổi giữa dịch qua UNL và trực tiếp .......................................119 -vii-
  12. MỞ ĐẦ 1. L chọn ề ài Cùng với sự phát triển của công nghệ, con người đã tạo ra một lượng thông tin khổng lồ trên mạng Internet được cung cấp từ hàng triệu Website trên khắp thế giới. Nhưng chúng ta không thể khai thác hết thông tin bởi nhiều lý do và một trong những lý do quan trọng nhất là rào cản về ngôn ngữ. Vấn đề đặt ra là làm thế nào để mọi người trên thế giới có thể khai thác hết nguồn thông tin trên Internet mà không bị hạn chế bởi ngôn ngữ? Hiện có hai giải pháp chính để giải quyết vấn đề này: thứ nhất là phát triển các hệ thống, các ứng dụng, các nguồn dữ liệu đa ngữ để người sử dụng có thể lựa chọn ngôn ngữ mà họ muốn khi sử dụng; thứ hai là ứng dụng các phần mềm dịch tự động để dịch các giao diện, nội dung từ ngôn ngữ hiện có sang ngôn ngữ mà người sử dụng chọn lựa. Hiện có nhiều hệ thống dịch đa ngữ được xây dựng với nhiều hướng tiếp cận khác nhau và chất lượng bản dịch ngày càng được cải thiện. Tuy nhiên, đầu ra bản dịch của các hệ thống này hầu hết chỉ mang tính tham khảo vì chưa thể hiện hết ý nghĩa, văn phong của câu nguồn. Hơn nữa trên thế giới hiện đang sử dụng hơn 5. ngôn ngữ có chữ viết, việc phát triển một hệ thống dịch đa ngữ cho từng cặp ngôn ngữ là vô cùng khó khăn và nhất là những ngôn ngữ có số lượng người dùng ít1. Một trong những hướng tiếp cận mới trong dịch đa ngữ đang được quan tâm là sử dụng ngôn ngữ trục để dịch, hướng tiếp cận này giảm chi phí xây dựng phần mềm từ (n*(n-1)) xuống còn (2*n) và giải quyết các cặp ngôn ngữ thiếu tài nguyên hoặc không tương đồng cấu trúc ngữ pháp [13]. Văn phạm câu nguồn trong phương pháp dịch qua ngôn ngữ trục được phân tích và biểu diễn qua một ngôn ngữ khác gọi là ngôn ngữ trung gian và sau đó sử 1 https://en.wikipedia.org/ (2015) 1
  13. dụng văn phạm của ngôn ngữ đích để dịch từ ngôn ngữ trung gian này. Ưu điểm của phương pháp này là chỉ cần phân tích ngôn ngữ nguồn để chuyển sang ngôn ngữ trung gian và ngược lại. Ngoài ra, trong hệ thống dịch đa ngữ, chúng ta dễ dàng bổ sung ngôn ngữ mới này vào hệ thống nhưng nhược điểm là làm thế nào tìm ra một ngôn ngữ mà có thể biểu diễn tất cả thông tin mọi ngôn ngữ tự nhiên và không nhập nhằng về ngữ nghĩa. Trong những năm gần đây, nhiều ngôn ngữ tự nhiên có kho ngữ liệu song ngữ lớn (như tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp,…) được lựa chọn làm ngôn ngữ trung gian trong dịch tự động hoặc xây dựng kho ngữ liệu song ngữ [6][55]. Tuy nhiên với phương pháp dịch hai lần thông qua ngôn ngữ thứ ba, chất lượng bản dịch không cao vì không khử được tính nhập nhằng của từ loại trong ngôn ngữ tự nhiên [6]. Đến nay, hướng tiếp cận này thường sử dụng cho các cặp ngôn ngữ không tương đồng về cấu trúc ngữ pháp hoặc khan hiếm nguồn tài nguyên dữ liệu. Hiện nay có một ngôn ngữ được xây dựng cho dịch máy dựa vào phương pháp trung gian gọi là UNL, ngôn ngữ này cho phép người sử dụng có thể biểu diễn tất cả các tri thức của mọi ngôn ngữ tự nhiên trên máy tính mà không bị nhập nhằng về ngữ nghĩa. UNL bao gồm các thành phần như một ngôn ngữ tự nhiên: từ vựng (UW), quan hệ (relation), thuộc tính (attributes) và cơ sở tri thức ngôn ngữ (UNLKB). Trong UNL, liên kết giữa các từ vựng dựa trên quan hệ ngữ nghĩa và gắn các thuộc tính để miêu tả khía cạnh của người nói. Mục đích ra đời của UNL là cung cấp cho người sử dụng Internet khả năng truy cập vào các trang web bằng ngôn ngữ của họ. Hệ thống dịch tự động đa ngữ bao gồm nhiều máy chủ ngôn ngữ khác nhau được dịch thông qua ngôn ngữ trục là UNL. Mỗi máy chủ ngôn ngữ sẽ đảm nhận hai chức năng, đó là dịch một văn bản từ ngôn ngữ nguồn sang ngôn ngữ UNL gọi là quá trình mã hóa và dịch ngược lại sang ngôn ngữ đích gọi là quá trình giải mã. Đến nay, nhiều ngôn ngữ trên thế giới đã tích hợp vào nền tảng UNL tạo thành một hệ thống dịch đa ngữ như: tiếng Nga, tiếng Anh, tiếng Nhật, tiếng Trung, tiếng Tây Ban Nha,… Vấn đề đặt ra là làm thế 2
  14. nào để tích hợp máy chủ tiếng Việt vào nền tảng UNL trong khi nó chưa được triển khai? Xuất phát từ nhu cầu thực tiễn trên, tác giả đã chọn “Sử ụng ngôn ngữ rục r ng ịch a ngữ” làm đề tài nghiên cứu của luận án tiến sỹ kỹ thuật nhằm đóng góp cho sự phát triển dịch tự động. Đặc biệt, kết quả nghiên cứu của luận án mở ra một hướng nghiên cứu mới cho dịch tự động giữa tiếng Việt với các ngôn ngữ khác và là cơ hội phát triển một hệ thống dịch tự động đa ngữ đối với các ngôn ngữ ở Việt Nam như: tiếng Việt, Chăm, Ba-na, Ê-đê, Jrai,… 2. Mục iêu nghiên cứu Mục tiêu chung của luận án là nghiên cứu và thử nghiệm hệ thống dịch tự động đa ngữ có thể áp dụng cho tiếng Việt và các ngôn ngữ của các dân tộc ít người ở Việt Nam. Mục tiêu cụ thể của luận án gồm: - Đề xuất hướng tiếp cận mới trong dịch tự động đa ngữ cho tiếng Việt dựa trên ngôn ngữ trục. - Xây dựng và thử nghiệm hệ thống dịch tự động đa ngữ cho tiếng Việt dựa trên ngôn ngữ trục UNL và hệ thống UNL sẵn có. - Đề xuất hướng mở rộng hệ thống dịch tự động đa ngữ hiện có cho các ngôn ngữ của các dân tộc ít người tại Việt Nam. 3. Đối ượng và phạm vi nghiên cứu ựa trên mục tiêu, đối tượng nghiên cứu của luận án gồm: - Các hướng tiếp cận trong dịch tự động; - Các vấn đề dịch tự động cho tiếng Việt; - Ứng dụng UNL trong dịch tự động. Phạm vi nghiên cứu trong luận án gồm: - Hướng tiếp cận dựa trên ngôn ngữ trục UNL trong dịch tự động; - Cấu trúc ngữ pháp câu tiếng Việt và biểu thức UNL; 3
  15. - Hệ thống dịch đa ngữ cho tiếng Việt và UNL; - Giải pháp dịch tự động giữa tiếng Việt và UNL. 4. Nội ung nghiên cứu Để đạt được mục tiêu đề ra, nội dung nghiên cứu của luận án gồm: - Nghiên cứu một số phương pháp dịch tự động; - Nghiên cứu ứng dụng UNL trong dịch tự động; - Nghiên cứu các hướng tiếp cận trong dịch tự động cho tiếng Việt; - Đề xuất giải pháp dịch đa ngữ cho tiếng Việt dựa vào UNL; - Xây dựng hệ thống thử nghiệm dịch tự động Việt – UNL. 5. Phương pháp nghiên cứu Các phương pháp nghiên cứu trong luận án được sử dụng gồm: - Phương pháp lý thuyết: Phân tích các tài liệu sẵn có từ các nguồn tài liệu liên quan đến đề tài. Nghiên cứu tài liệu về các hướng tiếp cận trong dịch tự động, các hệ thống dịch đa ngữ, các giải pháp dịch thông qua ngôn ngữ trung gian, nghiên cứu về UNL và các công cụ ứng dụng. Trên cơ sở nghiên cứu, tác giả hệ thống hóa thành cơ sở lý luận để nghiên cứu và đề xuất hướng giải quyết của luận án. - Phương pháp thực nghiệm: Nghiên cứu đánh giá thực nghiệm từng mô hình ứng dụng UNL cho tiếng Việt, từ đó so sánh, đánh giá với mô hình, phương pháp được đề xuất. - Phương pháp chuyên gia: Lấy ý kiến các chuyên gia về kết quả của các bản dịch và ý kiến của người sử dụng. 6. Đóng góp chính của luận án Đóng góp chính của luận án bao gồm: 1) Đề xuất được giải pháp để tích hợp tiếng Việt vào hệ thống UNL. Hệ thống UNL đã được nghiên cứu và phát triển trên năm (từ 1996) và đã hỗ trợ dịch tự động cho hơn 4 ngôn ngữ. Tuy nhiên, việc nghiên cứu để tích hợp tiếng 4
  16. Việt vào hệ thống UNL chưa được triển khai. Luận án đã nghiên cứu một cách hệ thống về ngôn ngữ và UNL; để trên cơ sở đó đề xuất được mô hình tổng thể và các giải pháp liên quan để tích hợp tiếng Việt vào UNL. Việc tích hợp này có ý nghĩa quan trọng vì chỉ cần tích hợp được tiếng Việt vào hệ thống UNL thì chúng ta có thể dịch tự động từ tiếng Việt sang tất cả các ngôn ngữ khác đã có trên hệ thống UNL và ngược lại. 2) Đề xuất giải pháp và xây dựng thành công từ điển tiếng Việt – UNL. Từ điển là cơ sở của bất kỳ hệ thống dịch tự động nào và việc xây dựng thành công từ điển tiếng Việt – UNL là một đóng góp quan trọng để tích hợp tiếng Việt vào hệ thống UNL. Luận án đã nghiên cứu đặc điểm của từ điển trong UNL và các từ điển sẵn có của tiếng Việt để từ đó xây dựng từ điển Việt – UNL với 235. mục từ. 3) Đề xuất giải pháp và xây dựng tập luật mã hoá (phục vụ dịch tiếng Việt sang UNL) và tập luật giải mã (phục vụ dịch từ UNL sang tiếng Việt). Trên cơ nghiên cứu các luật trong hệ thống UNL và một số công cụ liên quan, luận án đã đề xuất giải pháp cải tiến và xây dựng các luật phục vụ quá trình dịch tự động giữa tiếng Việt và UNL. Đã xây dựng được 32 luật mã hoá cho một số cấu trúc câu tiếng Việt để dịch sang biểu thức UNL và luật giải mã cho chiều dịch ngược lại. 4) Đề xuất giải pháp và xây dựng 2 công cụ: EnCoVie là chương trình dịch tự động từ tiếng Việt sang UNL và DeCoVie là chương trình dịch tự động từ UNL sang tiếng Việt. Đây là chương trình để dịch tự động dựa trên từ điển và các tập luật được xây dựng. Những đóng góp này có ý nghĩa về mặt khoa học là mở ra một hướng nghiên cứu mới về dịch tự động cho tiếng Việt bên cạnh những phương pháp đã có. Về mặt thực tiễn là xây dựng bộ từ điển, các tập luật và hai chương trình dịch. Đây là tiền đề để tiếp tục hoàn thiện hệ thống dịch UNL – tiếng Việt và phục vụ cho các nghiên cứu sau này trong lĩnh vực dịch tự động. 7. Bố cục luận án Ngoài các nội dung như: mở đầu, kết luận, hướng phát triển, tài liệu tham 5
  17. khảo và phụ lục, luận án được tổ chức thành chương: Chương 1: Tổng quan về dịch máy và ngôn ngữ UNL. Trình bày các kết quả nghiên cứu liên quan đến dịch tự động, các hệ thống dịch đa ngữ cho tiếng Việt, đánh giá chất lượng dịch giữa phương pháp dịch trung gian và dịch trực tiếp các cặp dịch. Ngoài ra nội dung chương cũng trình bày kết quả nghiên cứu về ngôn ngữ UNL, một số thành tựu liên quan UNL và ứng dụng UNL làm ngôn ngữ trục trong hệ thống dịch đa ngữ. Chương 2: Đề xuất mô hình dịch tiếng Việt - UNL. Trình bày kết quả thử nghiệm dịch tự động cho tiếng Việt dựa vào UNL trên các công cụ có sẵn. Đề xuất mô hình dịch cho tiếng Việt và UNL dựa trên lý thuyết hệ thống UNL và các công cụ dịch tự động UNL đã được thử nghiệm cho các ngôn ngữ khác và tiếng Việt. Chương 3: Xây dựng từ điển và tập luật. Trình bày các giải pháp xây dựng bộ từ điển tiếng Việt – UNL, xây dựng tập luật mã hóa và giải mã cho hai công cụ EnCoVie và DeCoVie. Chương 4: Thử nghiệm và đánh giá. Xây dựng hai công cụ chuyển đổi câu tiếng Việt sang UNL và ngược lại. Trình bày các kết quả thử nghiệm và đánh giá về các nội dung: xây dựng bộ từ điển tiếng Việt – UNL, chuyển đổi của hai công cụ EnCoVie và DeCoVie, hệ thống dịch đa ngữ qua ngôn ngữ trục UNL (gồm ba ngôn ngữ tự nhiên trong hệ thống: tiếng Việt, tiếng Anh và tiếng Nga). 6
  18. Chương 1. TỔNG Q AN VỀ ỊCH MÁY VÀ NGÔN NGỮ NL Trong chương này tác giả trình bày các kết quả nghiên cứu tổng quan liên quan đến dịch tự động, một số phương pháp dịch tự động, các hệ thống dịch đa ngữ và một số vấn đề trong dịch tự động cho tiếng Việt. Ngoài ra, chương này giới thiệu tổng quan về UNL, các kết quả nghiên cứu và ứng dụng UNL làm ngôn ngữ trục trong hệ thống dịch đa ngữ. Trên cơ sở đó, tác giả đề xuất một hướng tiếp cận mới ứng dụng UNL trong dịch tự động đa ngữ cho tiếng Việt. 1.1. Một số khái niệm sử dụng trong luận án Dịch máy (Machine translation): Quá trình dịch tự động từ một ngôn ngữ nguồn (Source language) sang ngôn ngữ đích (Target language) mà không có sự can thiệp của con người trong quá trình dịch [13]. Ví dụ, khi dịch từ tiếng Việt (văn bản hay lời nói) sang tiếng Anh chúng ta chỉ cần sử dụng một công cụ để dịch. Dịch song ngữ (Bilingual translation): Quá trình dịch một hoặc hai chiều giữa hai ngôn ngữ với nhau2. Ví dụ, trong một hệ thống chúng ta dịch từ tiếng Việt sang tiếng Anh và có thể dịch ngược lại. Dịch đa ngữ (Multilanguage translation): Quá trình dịch từ một ngôn ngữ sang nhiều ngôn ngữ khác [74]. Ví dụ, sử dụng một công cụ để dịch từ tiếng Việt sang nhiều tiếng khác: tiếng Anh, tiếng Pháp, tiếng Nga ... Dịch qua ngôn ngữ trung gian (Interlingual translation): Là quá trình dịch từ ngôn ngữ nguồn sang ngôn ngữ đích nhưng qua một ngôn ngữ thứ ba làm ngôn ngữ trung gian để chuyển tiếp giữa hai ngôn ngữ [13]. Ví dụ, cần dịch văn bản từ ngôn ngữ A sang ngôn ngữ B, chúng ta dịch ngôn ngữ A sang ngôn ngữ P và từ ngôn ngữ P tiếp tục dịch sang ngôn ngữ B. Ngôn ngữ P trong trường hợp này được gọi là ngôn ngữ trung gian. 2 https://en.wikipedia.org/ (2015) 7
  19. Ngôn ngữ trục (Pivot language): Một ngôn ngữ (có thể là nhân tạo hoặc ngôn ngữ tự nhiên) được sử dụng như là ngôn ngữ trung gian để dịch giữa các ngôn ngữ với nhau trong một hệ thống dịch thì được gọi là ngôn ngữ trục2. Ví dụ, có ba ngôn ngữ tham gia vào hệ thống dịch, các cặp ngôn ngữ không dịch trực tiếp với nhau mà được dịch thông qua một ngôn ngữ trung gian: ngôn ngữ thứ nhất dịch sang ngôn ngữ làm trung gian, từ ngôn ngữ trung gian này sẽ dịch sang hai ngôn ngữ thứ hai, thứ ba. Từ điển (Dictionary): Từ điển là nơi cung cấp thông tin hoặc giải thích một sự vật hay hiện tượng một cách ngắn gọn và chính xác nhất [73]. Từ điển chứa danh sách các từ, ngữ được sắp xếp theo thứ tự ABC. Ngoài ra, đôi khi từ điển còn chứa các thông tin về cách phát âm, chú ý ngữ pháp, dạng biến thể của từ, cách sử dụng hay câu ví dụ. Từ điển song ngữ (Bilingual dictionary): Dùng để dịch các từ hoặc cụm từ của ngôn ngữ này sang ngôn ngữ khác3. Từ điển song ngữ có thể là từ điển một chiều hoặc hai chiều. Luật ngữ pháp (Grammar rule): Bao gồm toàn bộ các quy tắc, quy luật kết hợp để tạo nên các cụm từ, câu của ngôn ngữ [13]. Ví dụ, trong tiếng Việt sắp xếp trật tự từ sẽ có nghĩa khác nhau: “sữa bò” và “bò sữa”. Phân tích cú pháp nông (Shallow parsing): Quá trình phân tích cú pháp (Syntactic) hoặc mối quan hệ ngữ pháp (Grammatical relations) giữa các thành phần trong câu [13]. Ví dụ, câu tiếng Việt “tôi đi học” được phân tích cú pháp nông như sau: [tôi]pp[đivt [họcnt]]vp. Phân tích cú pháp sâu (Deep parsing): Quá trình phân tích và xác định ngữ nghĩa (Semantic analyzer) của một ngôn ngữ [13]. Ví dụ, trong tiếng Việt từ “đường kính” nghĩa có thể là “chất ngọt dùng để pha làm đồ uống” hoặc “đoạn thẳng đi qua tâm và nối hai điểm của đường tròn, của mặt cầu”. 3 https://en.wikipedia.org/ (2015) 8
  20. Ngôn ngữ UNL (Universal Networking Language): Là ngôn ngữ nhân tạo có các thành phần tương ứng như các ngôn ngữ tự nhiên. Mục đích ra đời của UNL là biểu diễn tất cả các thông tin tri thức của mọi ngôn ngữ tự nhiên trong máy tính [52]. Mã hóa (Encode): Quá trình dịch tự động từ một ngôn ngữ tự nhiên sang ngôn ngữ UNL [64]. Ví dụ, dịch một câu tiếng Anh sang ngôn ngữ UNL. Giải mã (Decode): Quá trình dịch tự động từ ngôn ngữ UNL sang một ngôn ngữ tự nhiên [65]. Ví dụ, dịch một biểu thức UNL sang tiếng Anh. Máy chủ ngôn ngữ (Language server): Sử dụng để chuyển đổi giữa ngôn ngữ tự nhiên và UNL4. Một máy chủ ngôn ngữ gồm hai thành phần cốt lõi là EnConverter và DeConverter. EnConverter dùng để chuyển đổi một văn bản được viết trong ngôn ngữ tự nhiên sang một văn bản được viết trong ngôn ngữ UNL còn DeConverter chuyển đổi ngược lại của EnConverter. Hệ thống UNL (UNL System): Một hệ thống UNL bao gồm ba thành phần chính: tài nguyên ngôn ngữ, phần mềm xử lý tài nguyên ngôn ngữ và các công cụ hỗ trợ để duy trì, vận hành phần mềm xử lý ngôn ngữ hoặc phát triển tài nguyên ngôn ngữ4. Tài nguyên ngôn ngữ gồm các kiến thức về khái niệm, mối quan hệ giữa các khái niệm, từ điển, các luật ngữ pháp. Các công cụ hỗ trợ như tạo ra biểu thức UNL, kiểm tra biểu thức UNL, giữ liên kết giữa từ điển và ngôn ngữ tự nhiên. Công cụ EnCoVie (Encode Converter for Vietnamese): ùng để chuyển đổi một câu được viết trong tiếng Việt sang dạng văn bản tương đương được viết trong ngôn ngữ UNL. Công cụ DeCoVie (Decode Converter for Vietnamese): ùng để chuyển đổi văn bản được viết trong ngôn ngữ UNL sang một câu tương đương được viết trong tiếng Việt. 1.2. Một số hướng tiếp cận trong dịch tự ộng Trong tiếng Anh khoảng cách trắng là dấu hiệu nhận diện ranh giới giữa các 4 http://www.undl.org/(2015) 9
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2