Luận án Tiến sĩ Kỹ thuật: Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt
lượt xem 4
download
Luận án Tiến sĩ Kỹ thuật "Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt" trình bày các nội dung chính sau: Tổng quan về dịch tự động và chất lượng dịch tự động tiếng Việt hiện nay; Giải pháp cải tiến chất lượng dịch tự động tiếng Việt.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Luận án Tiến sĩ Kỹ thuật: Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt
- ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN VĂN BÌNH NGHIÊN CỨU GIẢI PHÁP CẢI TIẾN CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng, 12/2021
- ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN VĂN BÌNH NGHIÊN CỨU GIẢI PHÁP CẢI TIẾN CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT Chuyên ngành: Khoa học máy tính Mã số: 9480101 LUẬN ÁN TIẾN SĨ KỸ THUẬT Người hướng dẫn khoa học: 1. PGS.TS. Huỳnh Công Pháp 2. GS. Vincent Berment Đà Nẵng, 12/2021
- 3 LỜI CAM ĐOAN Tôi tên là Nguyễn Văn Bình. Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện. Các nội dung và kết quả nghiên cứu được trình bày trong Luận án là trung thực và mọi tham khảo đều được trích dẫn, chỉ rõ nguồn tham khảo theo đúng quy định. Tác giả Nguyễn Văn Bình
- 4 MỤC LỤC LỜI CAM ĐOAN .................................................................................................. 3 MỤC LỤC.............................................................................................................. 4 DANH MỤC CÁC TỪ VIẾT TẮT ....................................................................... 7 DANH MỤC BẢNG BIỂU .................................................................................... 8 DANH MỤC HÌNH VẼ ....................................................................................... 10 MỞ ĐẦU .............................................................................................................. 13 1. Đặt vấn đề................................................................................................. 13 2. Mục tiêu nghiên cứu ................................................................................. 14 3. Đối tượng và phạm vi nghiên cứu ............................................................. 14 4. Phương pháp nghiên cứu........................................................................... 15 5. Bố cục của luận án .................................................................................... 15 6. Đóng góp chính của luận án ...................................................................... 16 TỔNG QUAN VỀ DỊCH TỰ ĐỘNG VÀ CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT HIỆN NAY ................................................................ 19 1.1. Giới thiệu .................................................................................................. 19 1.2. Nghiên cứu tổng quan về dịch tự động, kho ngữ liệu, các phương pháp cải tiến và đánh giá chất lượng dịch tự động ......................................................... 21 Các phương pháp dịch tự động ..................................................... 21 Kho ngữ liệu trong dịch tự động ................................................... 28 Đánh giá chất lượng hệ thống dịch tự động .................................. 33 1.3. Các nghiên cứu liên quan đến xây dựng và cải tiến chất lượng dịch tự động tiếng Việt ........................................................................................................ 43 Nghiên cứu xây dựng hệ thống dịch và đánh giá chất lượng dịch . 43 Nghiên cứu xây dựng và cải tiến kho ngữ liệu tiếng Việt ............. 45 1.4. Thực trạng chất lượng dịch tự động tiếng Việt .......................................... 48 1.5. Kết luận Chương 1 .................................................................................... 52
- 5 GIẢI PHÁP CẢI TIẾN CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT..................................................................................................................... 53 2.1. Giới thiệu .................................................................................................. 53 2.2. Đánh giá chất lượng các hệ thống dịch tự động tiếng Việt ........................ 54 Tổ chức đánh giá .......................................................................... 55 Nhận xét, đánh giá ....................................................................... 60 Đề xuất giải pháp đánh giá chất lượng dựa trên quá trình hiệu đính bản dịch.......................................................................................... 61 2.3. Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào kho ngữ liệu lớn ..... 69 Tổng quan .................................................................................... 69 Các nghiên cứu liên quan đến cải tiến chất lượng kho ngữ liệu .... 70 Giải pháp nâng cao chất lượng kho ngữ liệu ................................. 71 Đánh giá vai trò của kho ngữ liệu đối với kết quả hệ thống dịch... 87 2.4. Giải pháp cải tiến chất lượng dịch tiếng Việt dựa vào mô hình máy học mạng nơ ron .................................................................................................... 91 Tổng quan .................................................................................... 91 Giải pháp cải tiến chất lượng dịch tiếng Việt bằng mô hình học máy mạng nơ ron .................................................................................. 91 Kết quả xây dựng hệ thống dịch ................................................. 102 Giải pháp xây dựng hệ thống dịch ngữ nghĩa.............................. 104 2.5. Kết luận Chương 2 .................................................................................. 109 HỆ THỐNG DỊCH TỰ ĐỘNG ANH-VIỆT VIKI TRANSLATOR ............................................................................................................................ 111 3.1. Giới thiệu ................................................................................................ 111 3.2. Xây dựng kho ngữ liệu............................................................................ 112 Quy trình các bước triển khai ..................................................... 112 Xây dựng kho ngữ liệu song ngữ số lượng lớn ........................... 113 Xây dựng công cụ hỗ trợ mở rộng ngôn ngữ và ngữ nghĩa ......... 117
- 6 Xây dựng kho ngữ liệu ontology ................................................ 118 3.3. Kết quả thực nghiệm xây dựng ứng dụng dịch Anh – Việt lĩnh vực văn bản pháp luật (VIKI Translator) ........................................................................... 122 Quy trình các bước triển khai ..................................................... 122 Tổ chức huấn luyện mô hình và điều chỉnh tham số mô hình...... 122 Xây dựng các mô đun của hệ thống dịch .................................... 124 3.4. Đánh giá kết quả ..................................................................................... 125 Kết quả thực nghiệm .................................................................. 125 Đánh giá của người dùng............................................................ 128 3.5. Kết luận Chương 3 .................................................................................. 130 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN......................................................... 131 1. Kết luận .................................................................................................. 131 2. Hướng phát triển ..................................................................................... 132 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ................... 133 TÀI LIỆU THAM KHẢO ................................................................................. 135
- 7 DANH MỤC CÁC TỪ VIẾT TẮT Thuật ngữ Tiếng Anh Tiếng Việt Automatic Language Processing Ủy ban cố vấn xử lý ngôn ngữ ALPAC Advisory Committee tự động Chỉ số đánh giá chất lượng bản BLEU BiLingual Evaluation Understudy dịch BLEU CBOW Continuous Bag of Words Mô hình túi từ liên tục Example Based Machine Dịch máy dựa trên ví dụ EBMT Translation Google Neural Machine Hệ thống dịch tự động sử dụng GNMT Translation mạng nơ ron của Google Chỉ số lỗi khi dịch bởi con HTER Human Translation Error Rate người National Institute of Standards and Chỉ số đánh giá chất lượng bản NIST Technology dịch NIST NMT Neural Network Translation Dịch máy sử dụng mạng nơ ron POS Part of Speech Phân loại từ vựng RNN Recurrent Neural Networks Mạng nơ ron tái phát SMT Statistical Machine Translation Dịch máy thống kê TBL Transformation-Based Learning Dịch máy chuyển đổi TER Translation Edit Rate Chỉ số đo lỗi bản dịch WER Word Error Rate Chỉ số tỉ lệ lỗi theo từ Workshop on Statistical Machine Hội thảo về dịch máy thống kê WMT Translation
- 8 DANH MỤC BẢNG BIỂU Bảng 1.1. Chi tiết kho ngữ liệu EuroMatrix ........................................................... 30 Bảng 1.2. Tổng hợp một số kho ngữ liệu ............................................................... 31 Bảng 1.3. Bảng các thang đo tương ứng với mức độ đầy đủ và trôi chảy ............... 36 Bảng 1.4. Mô phỏng kết quả đánh giá bằng hình thức xếp hạng ............................ 37 Bảng 1.5. Đánh giá chất lượng dịch Anh – Việt từ hệ thống dịch dựa trên MOSES .............................................................................................................................. 43 Bảng 1.6. So sánh kết quả dịch sử dụng MOSES và hệ thống Google, Microsoft .. 44 Bảng 1.7. Kết quả đánh giá trên tập dữ liệu TED tst2015 của IWSLT 2015........... 44 Bảng 1.8. Đánh giá chất lượng hệ thống dịch sử dụng ngôn ngữ trung gian ........... 45 Bảng 1.9. Ví dụ về một số câu hệ thống dịch sai nghĩa .......................................... 50 Bảng 2.1. Thông tin về dữ liệu phục vụ đánh giá ................................................... 55 Bảng 2.2. Đánh giá kết quả dịch từ tiếng Anh sang tiếng Việt ............................... 57 Bảng 2.3. Đánh giá kết quả dịch từ tiếng Việt sang tiếng Anh ............................... 57 Bảng 2.4. Kết quả đánh giá bằng phương pháp chủ quan ....................................... 59 Bảng 2.5. Trung bình các chỉ số trên 5 bộ dữ liệu .................................................. 67 Bảng 2.6. Kết quả sau khi hiệu chỉnh bản dịch....................................................... 67 Bảng 2.7. Bảng tóm tắt đặc trưng các kho ngữ liệu phổ biến ................................. 72 Bảng 2.8. Số liệu kho ngữ liệu sử dụng để đánh giá sự ảnh hưởng đến chất lượng. 89 Bảng 2.9. Chất lượng các mô hình dịch nhận được ................................................ 90 Bảng 2.10. Mô tả dữ liệu phục vụ xây dựng hệ thống dịch .................................. 103 Bảng 2.11. So sánh chất lượng hệ thống dịch theo các phương pháp khác nhau... 104 Bảng 3.1. Thống kê số lượng câu trong kho ngữ liệu đã được xây dựng .............. 114 Bảng 3.2. Tổng hợp quy mô kho ngữ liệu của một số công bố ............................. 115
- 9 Bảng 3.3. Kết quả đánh giá và so sánh chất lượng hệ thống dịch Anh-Việt.......... 125 Bảng 3.4. So sánh điểm BLEU đạt được ở một số nghiên cứu xây dựng hệ thống dịch tiếng Việt............................................................................................................. 126 Bảng 3.5. So sánh số lượng câu dịch đúng ........................................................... 127 Bảng 3.6. Ví dụ về các câu, thuật ngữ mà hệ thống VIKI Translator đã dịch đúng ............................................................................................................................ 127
- 10 DANH MỤC HÌNH VẼ Hình 1.1. Tổng quan bài toán dịch tự động ............................................................ 19 Hình 1.2. Mô hình tổng quát của phương pháp dịch dựa trên ví dụ ........................ 22 Hình 1.3. Mô hình hóa phương pháp dịch thống kê ............................................... 25 Hình 1.4. Một ánh xạ giữa các factor trong ngôn ngữ nguồn và ngôn ngữ đích ...... 27 Hình 1.5. Tích hợp thêm các lớp thông tin về lemma, POS vào dữ liệu huấn luyện27 Hình 1.6. Giao diện của phần mềm dịch EV-Shuttle và Cồ Việt ............................ 49 Hình 2.1. Hai yếu tố then chốt của hệ thống dịch tự động: Dữ liệu và Phương pháp dịch ....................................................................................................................... 53 Hình 2.2. Quy trình tổ chức đánh giá chất lượng dịch tiếng Việt............................ 55 Hình 2.3. Chương trình hỗ trợ trích xuất kết quả dịch từ các hệ thống ................... 56 Hình 2.4. Biểu đồ so sánh kết quả đánh giá bằng phương pháp chủ quan............... 60 Hình 2.5. Chương trình tính chỉ số Tpe và Ope thông qua quá trình hiệu đính.......... 64 Hình 2.6. Sơ đồ quy trình kết hợp hậu xử lý với đánh giá chất lượng hệ thống dịch .............................................................................................................................. 65 Hình 2.7. Sự tương đồng giữa Tpe, Ope và ED, WER.............................................. 68 Hình 2.8. Chỉ số BLEU, NIST trước và sau khi hiệu chỉnh .................................... 69 Hình 2.9. Quan hệ giữa các dạng dữ liệu của các kho ngữ liệu .............................. 72 Hình 2.10. Định dạng chuẩn biểu diễn kho ngữ liệu .............................................. 74 Hình 2.11. Giải pháp chuyển đổi các kho ngữ liệu ................................................. 77 Hình 2.12. Giải pháp mở rộng ngôn ngữ cho kho ngữ liệu ..................................... 77 Hình 2.13. Giải pháp thêm dữ liệu vào kho ngữ liệu .............................................. 79 Hình 2.14. Hệ thống nhận dạng và phân loại thực thể danh từ riêng từ kho ngữ liệu .............................................................................................................................. 84
- 11 Hình 2.15. Trích nội dung tập tin từ điển khi sử dụng mô hình dịch thống kê và dịch sử dụng mạng nơ ron ............................................................................................. 85 Hình 2.16. Kết quả xác định ranh giới từ tiếng Việt ............................................... 87 Hình 2.17. Quy trình đánh giá sự ảnh hưởng của số lượng kho ngữ liệu đến chất lượng bản dịch ................................................................................................................. 89 Hình 2.18. So sánh tương quan giữa số lượng kho ngữ liệu và chất lượng hệ thống dịch ....................................................................................................................... 90 Hình 2.19. Mô hình dịch tự động sử dụng mạng nơ ron ......................................... 92 Hình 2.20. Nguyên tắc hoạt động của mạng RNN ................................................. 93 Hình 2.21. Minh họa bộ mã hóa – giải mã ............................................................. 94 Hình 2.22. Minh họa mô hình seq2seq dùng attention trong bài toán dịch máy [57] .............................................................................................................................. 95 Hình 2.23. Mô hình CBOW và Skip-gram trình bày tại [63] .................................. 98 Hình 2.24. Kiến trúc Bộ Mã hóa và Bộ Giải mã .................................................... 99 Hình 2.25. Quá trình mã hóa câu nguồn để tạo véc tơ ngữ nghĩa ......................... 100 Hình 2.26. Minh họa Bộ Giảm mã thực hiện các bước dịch một câu.................... 101 Hình 2.27. Quá trình giải mã tái tạo câu được dịch .............................................. 102 Hình 2.28. Tích hợp cơ chế attention trong Bộ Giải mã ....................................... 102 Hình 2.29. Mô hình hệ thống dịch ngữ nghĩa ....................................................... 107 Hình 2.30. Giao diện hệ thống dịch ngữ nghĩa ..................................................... 109 Hình 3.1. Quy trình triển khai thực nghiệm hệ thống dịch Anh - Việt .................. 112 Hình 3.2. Sơ đồ trình tự các bước xây dựng kho ngữ liệu .................................... 112 Hình 3.3. Môi trường cho phép mở rộng kho ngữ liệu ......................................... 118 Hình 3.4. Phân cấp các lớp và thuộc tính các lớp ................................................. 119 Hình 3.5. Minh họa phân lớp dữ liệu ................................................................... 120
- 12 Hình 3.6. Mô tả ngữ nghĩa của kho ngữ liệu ........................................................ 121 Hình 3.7. Sơ đồ trình tự các bước xây dựng hệ thống dịch ................................... 122 Hình 3.8. Mô hình tổ chức của hệ thống website dịch tự động ............................. 124 Hình 3.9. Giao diện hệ thống dịch tự động VIKI Translator ................................ 128 Hình 3.10. Biểu đồ số lượng người sử dụng hàng tháng (Nguồn: Google Analytics) ............................................................................................................................ 129 Hình 3.11. Thống kê tổng số người dùng (Nguồn: Google Analytics).................. 130 Hình 3.12. Thống kê số lượng liên kết (Nguồn: ahrefs.com) ................................ 130
- 13 MỞ ĐẦU 1. Đặt vấn đề Nhu cầu trao đổi thông tin giữa các quốc gia, các nền văn hóa, giữa mỗi người trong xã hội hiện đại ngày càng tăng làm cho việc dịch thuật trở nên quan trọng và cần thiết. Dịch thuật sử dụng con người là công việc thủ công, tuy chất lượng cao nhưng tốc độ chậm, năng suất thấp và giá thành cao mà không thể tái sử dụng. Trong khi đó, một phiên dịch viên dù giỏi đến đâu cũng không thể cập nhật hết được một lượng thông tin khổng lồ trong nền kinh tế toàn cầu đang phát triển như vũ bão. Vì vậy, sử dụng hệ thống dịch tự động bằng máy tính để trợ giúp cho quá trình dịch thuật là cần thiết. Dịch tự động bằng máy tính nếu cho kết quả dịch tốt sẽ mang lại hiệu quả với chi phí bỏ ra ít, có thể dịch nhanh với khối lượng tài liệu lớn thuộc các lĩnh vực chuyên môn khác nhau. Khi đó các hệ dịch máy sẽ trở thành công cụ giúp con người tiếp cận kho tri thức khổng lồ viết bằng các ngôn ngữ khác nhau. Những chương trình máy tính đầu tiên thực hiện công việc dịch tự động đã được các nhà khoa học trên thế giới nghiên cứu và phát triển từ giữa thế kỷ 20 [1]. Đối với dịch tự động từ tiếng Việt sang các ngôn ngữ khác, đã có nhiều nghiên cứu và các sản phẩm ứng dụng được nhiều người dùng quan tâm và sử dụng, điển hình là hệ thống dịch của Google, Microsoft, EVTran [2]… Các hệ thống này cho phép dịch tự động văn bản với một cặp ngôn ngữ đã chọn trước, ví dụ dịch từ tiếng Anh sang tiếng Việt hoặc ngược lại. Khi sử dụng một hệ thống dịch tự động, người dùng quan tâm đến chất lượng của bản dịch. Tuy nhiên hiện nay chất lượng dịch tự động của giữa các cặp ngôn ngữ ít phổ biến (low-resource) khá thấp [3], kể cả dịch từ tiếng Việt sang tiếng Anh và các ngôn ngữ khác, nên kết quả dịch chủ yếu để tham khảo, nắm đại ý của văn bản. Trong một số trường hợp, bản dịch làm cho người đọc hiểu sai nội dung một phần hoặc toàn bộ nội dung chính của văn bản. Các hệ thống dịch tự động mặc dù đã được sử dụng rộng rãi nhưng cũng cần có nhiều cải tiến mới có thể mang lại kết quả dịch có chất lượng hơn, giúp cho người đọc hiểu được văn bản cần dịch.
- 14 Chính vì vậy, cần thiết phải có những đánh giá về mặt khoa học để có những số liệu cụ thể minh chứng cho chất lượng của các hệ thống dịch tiếng Việt, từ đó phân tích và đề xuất các giải pháp nhằm nâng cao chất lượng của dịch tự động tiếng Việt, giúp các hệ thống dịch tự động cho các kết quả dịch chính xác hơn, trở thành công cụ hiệu quả giúp cho người dùng hiểu được các văn bản tiếng nước ngoài mà không phải tốn thời gian tra từ điển. Các kết quả dịch cũng có thể trở thành bản dịch tham khảo hỗ trợ có hiệu quả trong công tác dịch thuật. Nhằm góp phần giải quyết các vấn đề nêu trên, nghiên cứu sinh đã chọn đề tài “Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt” làm nội dung nghiên cứu luận án Tiến sỹ kỹ thuật của mình. 2. Mục tiêu nghiên cứu Mục tiêu chung của nghiên cứu là đề xuất được các giải pháp cụ thể nhằm cải tiến chất lượng của các hệ thống dịch tiếng Việt nói chung, trong đó phân tích cụ thể cho bài toán dịch tự động giữa cặp ngôn ngữ Việt – Anh. Các mục tiêu cụ thể gồm: - Đánh giá được thực trạng của các hệ thống dịch tự động tiếng Việt đang hoạt động hiện nay; - Đề xuất được các giải pháp nhằm nâng cao chất lượng của hệ thống dịch giữa cặp ngôn ngữ Anh – Việt; - Xây dựng được hệ thống dịch tự động Anh – Việt trong lĩnh vực cụ thể là văn bản quy phạm pháp luật. 3. Đối tượng và phạm vi nghiên cứu Đối tượng nghiên cứu của luận án gồm: - Các phương pháp đánh giá chất lượng hệ thống dịch tự động - Kho ngữ liệu sử dụng để huấn luyện và xây dựng mô hình dịch tự động - Các phương pháp dịch tự động - Các hệ thống dịch tự động tiếng Việt đang hoạt động hiện nay
- 15 Với các mục tiêu và đối tượng nghiên cứu mô tả trên, phạm vi nghiên cứu của luận án giới hạn ở một số nội dung sau: - Tập trung nghiên cứu, đánh giá các hệ thống dịch tự động phổ biến hiện nay, đề xuất giải pháp cải tiến chất lượng dịch tự động đối với cặp ngôn ngữ tiếng Việt – tiếng Anh. - Xây dựng ứng dụng thực nghiệm dịch tự động từ tiếng Anh sang tiếng Việt và ngược lại ở một lĩnh vực hẹp là lĩnh vực văn bản quy phạm pháp luật. - Triển khai ứng dụng trên nền tảng website nhằm thuận tiện truy cập đối với người dùng. 4. Phương pháp nghiên cứu - Phương pháp lý thuyết: Nghiên cứu các tài liệu có liên quan đến các nội dung về đặc trưng của ngôn ngữ tiếng Việt, biểu diễn và lưu trữ văn bản bản, trích rút văn bản, phương pháp đánh giá, phương pháp xây dựng kho ngữ liệu, các phương pháp dịch máy, học máy sử dụng mạng nơ ron, xử lý dữ liệu. - Phương pháp thực nghiệm: Trên cơ sở kết quả nghiên cứu liên quan, triển khai thực nghiệm đánh giá các hệ thống dịch tự động, triển khai xây dựng kho ngữ liệu lớn phục vụ hệ thống dịch, cải tiến chất lượng kho ngữ liệu, xây dựng và huấn luyện mô hình dịch cho cặp ngôn ngữ Anh – Việt. 5. Bố cục của luận án Trên cơ sở các mục tiêu của nghiên cứu đã đề ra và giới hạn đối tượng, phạm vi nghiên cứu, nhằm đảm bảo tính hợp lý và trình tự nghiên cứu đã thực hiện trong thời gian triển khai nghiên cứu, luận án được tổ chức thành ba chương và phần mở đầu, kết luận, cụ thể như sau: Chương 1. Tổng quan về dịch tự động và chất lượng dịch tự động tiếng Việt hiện nay. Chương này trình bày tổng quan các vấn đề được triển khai nghiên cứu trong luận án, bao gồm các khái niệm cơ bản trong lĩnh vực dịch tự động, các phương pháp dịch, kho ngữ liệu dùng trong dịch tự động, các phương pháp đánh giá chất lượng hệ thống dịch và các nghiên cứu tổng quan của vấn đề cải tiến chất lượng dịch tự động. Nội dung chương này cũng giới thiệu các hệ thống dịch tiếng Việt hiện nay
- 16 và đánh giá khái quát chất lượng của hệ thống, phân tích các khía cạnh cần nghiên cứu và tổ chức thực nghiệm nhằm cải tiến chất lượng của hệ thống dịch, tập trung đến vấn đề quan trọng nhất là cải tiến kho ngữ liệu và áp dụng phương pháp dịch phù hợp. Chương 2. Giải pháp cải tiến chất lượng dịch tự động tiếng Việt. Trên cơ sở các phương pháp đánh giá chất lượng hệ thống dịch tiếng Việt đã được nghiên cứu, bao gồm phương pháp đánh giá chủ quan và khách quan, Chương 2 trình bày quy trình đánh giá và xây dựng kịch bản đánh giá chất lượng của một số hệ thống dịch tự động Anh - Việt phổ biến nhất hiện nay. Từ thực trạng chất lượng dịch nhận được luận án đề xuất một số giải pháp nhằm cải tiến chất lượng của các kho ngữ liệu tiếng Việt ở khía cạnh số lượng và chất lượng, sau đó triển khai thực nghiệm một số giải pháp cải tiến và tiến hành xây dựng kho ngữ liệu lớn phục vụ việc huấn luyện các mô hình dịch tiếng Việt chất lượng tốt. Về phương pháp dịch, luận án đề xuất áp dụng mô hình dịch mạng nơ ron cho cặp ngôn ngữ Anh – Việt để ứng dụng những ưu điểm nổi bật của phương pháp học máy sử dụng mạng nơ ron. Đồng thời, đề xuất giải pháp để triển khai hệ thống dịch ngữ nghĩa dựa trên ngữ cảnh, giúp cho các hệ thống dịch có thể cung cấp thêm nhiều tầng ngữ nghĩa cho người dùng để hiểu được toàn vẹn nội dung văn bản. Chương 3. Thực nghiệm và đánh giá kết quả. Từ các giải pháp đề xuất ở Chương 2, nội dung Chương 3 triển khai các bước thực nghiệm xây dựng kho ngữ liệu lớn và xây dựng mô hình dịch máy mạng nơ ron cho cặp ngôn ngữ Anh – Việt, sau đó xây dựng hệ thống dịch lĩnh vực văn bản quy phạm pháp luật VIKI Translator và triển khai trên môi trường Internet để cung cấp dịch vụ cho người dùng thực tế, qua đó đánh giá hiệu quả của hệ thống dịch và các phương pháp đã đề xuất. 6. Đóng góp chính của luận án Luận án có 05 đóng góp chính sau đây liên quan đến giải pháp cải tiến chất lượng dịch tự động tiếng Việt: (1) Triển khai đánh giá chất lượng của các hệ thống dịch tự động tiếng Việt đang hoạt động một cách đầy đủ và chi tiết, từ đó công bố các số liệu khoa học minh
- 17 chứng chất lượng dịch tự động tiếng Việt. Các bước thực hiện gồm: xây dựng bộ dữ liệu đánh giá đầy đủ, tin cậy; lập trình ứng dụng hỗ trợ đánh giá; tổ chức đánh giá theo cả phương pháp chủ quan (đánh giá tự động thông qua các chỉ số BLEU, NIST) và khách quan (do con người thực hiện); thu nhận số liệu và phân tích, đánh giá. Từ quá trình triển khai đánh giá này, luận án cũng đề xuất giải pháp đánh giá chất lượng hệ thống dịch thông qua quá trình hậu xử lý nhằm giúp tiết kiệm thời gian và nguồn lực tổ chức đánh giá. Kết quả đóng góp này được thể hiện ở công trình số (2,6) (2) Đề xuất được giải pháp cải tiến chất lượng dịch tiếng Việt thông qua cải tiến kho ngữ liệu. Luận án đã nghiên cứu và minh chứng được một trong những tác nhân quan quan trọng ảnh hưởng đến chất lượng dịch tự động của các hệ thống dịch đó là kho ngữ liệu. Do đó, luận án đã tập trung đề xuất và triển khai các giải pháp khác nhau để cải tiến kho ngữ liệu bao gồm cả khía cạnh chất lượng và khối lượng. Các giải pháp cụ thể đó là mở rộng và hợp nhất kho ngữ liệu; giải pháp xây dựng kho ngữ liệu lớn; giải pháp xác định danh từ riêng bằng cách kết hợp thuật toán Maximum Matching và phân tích mối quan hệ giữa các thành tố văn bản; giải pháp xác định ranh giới từ ghép tiếng Việt từ mô hình phân phối từ và cụm từ trong văn bản. Giải pháp cải tiến chất lượng dịch tiếng Việt bằng cách cải tiến kho ngữ liệu đã được triển khai cài đặt, thử nghiệm và đánh giá đã cho kết quả chất lượng dịch được cải tiến rõ nét, thể hiện ở các công trình (1,4,5,8,9). (3) Đề xuất giải pháp cải tiến chất lượng dịch tiếng Việt bằng phương pháp dịch trí tuệ nhân tạo, áp dụng mô hình học máy mạng nơ ron. Đây được xem như giải pháp mới, tốt nhất tại thời điểm nghiên cứu và đề xuất (năm 2017) để cải tiến chất lượng dịch tự động nói chung, nhất là dịch tự động tiếng Việt. Giải pháp áp dụng mạng nơ ron mà luận án đề xuất cho phép dịch toàn bộ câu cùng lúc thay vì dịch theo cụm từ như phương pháp dịch máy thống kê. Phương pháp mạng nơ ron ưu việt hơn tất cả các phương pháp trước đó vì có thể hiểu được cả ngữ nghĩa của câu thay vì dịch dựa trên bộ nhớ dịch các cụm từ. Giải pháp này đã được luận án đề xuất, triển khai, cài đặt thử nghiệm và đã cho ra kết quả dịch có chất lượng tốt hơn nhiều so với các phương pháp khác và với các hệ thống dịch tự động tiếng Việt đang hoạt động hiện nay đối với lĩnh vực hẹp được thử nghiệm, thể hiện tại công trình (3,7).
- 18 (4) Đề xuất giải pháp mới để xây dựng hệ thống dịch tự động hướng ngữ nghĩa. Luận án đề xuất mô hình và giải pháp xây dựng hệ thống dịch tự động hướng ngữ nghĩa dựa theo ngữ cảnh thông qua cải tiến mô hình dịch sử dụng mạng nơ ron kết hợp với kho ngữ liệu lớn đã được làm giàu ngữ nghĩa. Bằng giải pháp này, kết quả dịch được hệ thống xử lý ngữ nghĩa trước khi hiển thị cho người dùng, từ đó biểu diễn thêm các tầng ngữ nghĩa khác giúp cho bản dịch có đầy đủ thông tin và người đọc có thể hiểu toàn vẹn ý nghĩa của bản dịch. Kết quả đóng góp này được thể hiện ở công trình số (10,11) (5) Đóng góp về mặt thực nghiệm và sản phẩm sử dụng thực tế: xây dựng, triển khai thực nghiệm được hệ thống dịch tự động Anh –Việt VIKI Translator, cho kết quả thử nghiệm chất lượng dịch tiếng Việt lĩnh vực hẹp (văn bản quy phạm pháp luật) tốt hơn so với các hệ thống dịch tiếng Việt đang hoạt động. Hệ thống dịch đã cung cấp cho người dùng thông qua môi trường Internet tại địa chỉ https://vikitranslator.com, đã có hơn 1.500.000 lượt người dùng trên trang web, hơn 30.000 lượt tải và cài đặt phần mềm, nhận được đánh tích cực từ phía người dùng với điểm số trung bình trên 4,5/5,0 từ Google Play và Chrome Extensions. Có hơn 30 bài viết từ các blog, trang web khác viết bài đánh giá và hướng dẫn sử dụng, với 582.561 liên kết về trang chủ của hệ thống. Bên cạnh đó, một kết quả quan trọng khác có ý nghĩa thực tế và đóng góp về mặt thực nghiệm mà luận án đã xây dựng được đó là kho ngữ liệu lớn và có chất lượng tốt các cặp ngôn ngữ Anh – Việt với hơn 1.479.000 cặp câu song ngữ (phần lớn thuộc lĩnh vực văn bản quy phạm pháp luật).
- 19 TỔNG QUAN VỀ DỊCH TỰ ĐỘNG VÀ CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT HIỆN NAY 1.1. Giới thiệu Theo định nghĩa của từ điển Cambridge, dịch tự động hay còn gọi là dịch máy (tiếng Anh: machine translation, thường được viết tắt trong tiếng Anh là: MT) là quá trình chuyển đổi văn bản từ ngôn ngữ này sang ngôn ngữ khác bằng máy tính. Theo mô tả tại [4], thuật ngữ dịch tự động được dùng để chỉ các hệ thống máy tính chịu trách nhiệm tạo ra các bản dịch và tự động hóa toàn bộ quá trình dịch, có thể có hoặc không có sự hỗ trợ của con người. Dịch tự động (MT) khác với phương pháp dịch CAT (Computer-Aided Translation), trong đó người dịch sẽ sử dụng một phần mềm máy tính để hỗ trợ cho việc dịch thuật nhằm tăng hiệu quả của quá trình dịch thuật và tiết kiệm thời gian. Trong các nghiên cứu về lĩnh vực dịch tự động, văn bản đầu vào cần dịch được gọi là văn bản nguồn (được viết bằng ngôn ngữ nguồn) và văn bản đã được máy tính dịch gọi là văn bản đích (được viết bằng ngôn ngữ đích). Tổng quan về bài toán dịch tự động có thể mô tả trong Hình 1.1. Âm thanh Văn Bộ máy Văn Hình ảnh Chuyển bản dịch tự bản nguồn đổi sang động đích âm thanh, Tín hiệu hình ảnh, tín hiệu Văn bản Dữ liệu đầu vào Kết quả dịch Hình 1.1. Tổng quan bài toán dịch tự động Mục tiêu lý tưởng của các hệ thống dịch là tạo ra được các bản dịch chất lượng cao, có thể sử dụng và thay thế cho công việc dịch thuật thủ công của con người. Tuy
- 20 nhiên, trên thực tế kết quả dịch cần phải được chỉnh sửa lại. Quá trình chỉnh sửa kết quả dịch của các hệ thống dịch tự động được gọi là quá trình hiệu đính bản dịch (post- edited). Xây dựng và ứng dụng các hệ thống dịch tự động là xu thế tất yếu hiện nay, vì các hệ thống này sẽ giúp cho việc dịch thuật giữa các ngôn ngữ trở nên dễ dàng, nhanh chóng và tiết kiệm. Tính đến năm 2021, sau 15 năm triển khai, hệ thống Google Translate đã hỗ trợ dịch tự động 109 ngôn ngữ, cung cấp dịch vụ cho hàng triệu người sử dụng mỗi ngày. Trong khi đó, Microsoft Translator cũng là hệ thống dịch tự động được nhiều người sử dụng và hỗ trợ 90 ngôn ngữ. Một số sản phẩm phục vụ dịch tự động giữa tiếng Việt với các ngôn ngữ khác cũng được nghiên cứu như phần mềm EVTtran (EV-Shuttle), công cụ dịch văn bản của Lạc Việt, Vdict. Bên cạnh tính năng dịch trực tiếp văn bản còn có nhiều dịch vụ cung cấp ứng dụng khác có sử dụng kết quả của hệ thống dịch: dịch toàn bộ trang web, dịch nội dung email, nhận dạng văn bản trên hình ảnh và dịch, nhận dạng giọng nói và dịch sang ngôn ngữ khác. Nguyên tắc chung của các hệ thống này là xử lý dữ liệu đầu vào (hình ảnh, âm thanh, ký hiệu…) thành văn bản nguồn, sau đó gọi các hàm API của các hệ thống dịch để đưa văn bản nguồn vào và lấy kết quả dịch, từ đó chuyển đổi thành dữ liệu đầu ra phù hợp. Như thể hiện ở Hình 1.1, dữ liệu đầu vào của một hệ thống dịch thuật thông thường biểu diễn ở dạng văn bản. Các dữ liệu khác như hình ảnh, âm thanh… sẽ được nhận dạng và chuyển đổi sang dữ liệu văn bản trước khi đưa vào hệ thống dịch. Tương tự, kết quả dịch là một văn bản và có thể sẽ được chuyển đổi sang các định dạng khác (như âm thanh, lời nói) để hiển thị cho người dùng. Bộ máy dịch tự động là một chương trình máy tính có nhiệm vụ tiếp nhận văn bản ở ngôn ngữ nguồn, sau đó bằng các thuật toán của mình để đưa ra dự đoán kết quả dịch ở ngôn ngữ đích. Các thuật toán ở bài toán dịch tự động hoạt động trên cơ sở tổng hợp và xử lý tri thức từ ngôn ngữ tự nhiên, chẳng hạn thông qua từ điển, các cặp câu dịch mẫu; các luật ngữ pháp; thống kê từ ngữ, mô hình ngôn ngữ…
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Tóm tắt Luận án Tiến sĩ Kỹ thuật: Tích hợp GIS và kỹ thuật tối ưu hóa đa mục tiêu mở để hỗ trợ quy hoạch sử dụng đất nông nghiệp
30 p | 178 | 27
-
Tóm tắt Luận án Tiến sĩ Kỹ thuật: Nghiên cứu lựa chọn một số thông số hợp lý của giá khung thủy lực di động dùng trong khai thác than hầm lò có góc dốc đến 25 độ vùng Quảng Ninh
27 p | 201 | 24
-
Luận án Tiến sĩ Kỹ thuật: Thuật toán ước lượng các tham số của tín hiệu trong hệ thống thông tin vô tuyến
125 p | 125 | 11
-
Tóm tắt Luận án Tiến sĩ Kỹ thuật: Nghiên cứu tác động của quá trình đô thị hóa đến cơ cấu sử dụng đất nông nghiệp khu vực Đông Anh - Hà Nội
27 p | 140 | 10
-
Tóm tắt Luận án Tiến sĩ Kỹ thuật: Nghiên cứu định lượng kháng sinh Erythromycin trong tôm, cá bằng kỹ thuật sóng vuông quét nhanh trên cực giọt chậm và khả năng đào thải
27 p | 155 | 8
-
Tóm tắt luận án Tiến sĩ Kỹ thuật: Nghiên cứu ứng dụng công nghệ trắc địa hiện đại trong xây dựng và khai thác đường ô tô ở Việt Nam
24 p | 166 | 7
-
Luận án Tiến sĩ Kỹ thuật ô tô: Nghiên cứu chế độ cháy do nén hỗn hợp đồng nhất (HCCI) sử dụng nhiên liệu n-heptan/ethanol/diesel
178 p | 13 | 6
-
Luận án Tiến sĩ Kỹ thuật năng lượng: Nghiên cứu mô hình dự báo ngắn hạn công suất phát của nhà máy điện mặt trời sử dụng mạng nơ ron hồi quy
120 p | 12 | 6
-
Luận án Tiến sĩ Kỹ thuật xây dựng công trình giao thông: Nghiên cứu ứng xử cơ học của vật liệu và kết cấu áo đường mềm dưới tác dụng của tải trọng động trong điều kiện Việt Nam
162 p | 14 | 6
-
Luận án Tiến sĩ Kỹ thuật điều khiển và tự động hóa: Nghiên cứu giải pháp nâng cao an toàn thông tin trong các hệ thống điều khiển công nghiệp
145 p | 12 | 5
-
Tóm tắt Luận án Tiến sĩ Kỹ thuật: Nghiên cứu và phát triển một số kỹ thuật che giấu thông tin nhạy cảm trong khai phá hữu ích cao
26 p | 10 | 4
-
Luận án Tiến sĩ Kỹ thuật: Nghiên cứu tối ưu hóa một số thông số công nghệ và bôi trơn tối thiểu khi phay mặt phẳng hợp kim Ti-6Al-4V
228 p | 8 | 4
-
Luận án Tiến sĩ Kỹ thuật ô tô: Nghiên cứu áp dụng công nghệ dầu từ trường trong hệ thống phanh bổ trợ ô tô
202 p | 8 | 3
-
Luận án Tiến sĩ Kỹ thuật điều khiển và tự động hóa: Nghiên cứu thiết kế hệ điều khiển ổ từ dọc trục có xét ảnh hưởng dòng xoáy
161 p | 9 | 2
-
Luận án Tiến sĩ Kỹ thuật hóa học: Nghiên cứu tổng hợp một số hợp chất furan và axit levulinic từ phế liệu gỗ keo tai tượng
119 p | 9 | 2
-
Tóm tắt Luận án Tiến sĩ Kỹ thuật viễn thông: Nghiên cứu giải pháp kỹ thuật định vị thiết bị di động thế hệ thứ tư và ứng dụng cho công tác an ninh
27 p | 4 | 1
-
Luận án Tiến sĩ Kỹ thuật ô tô: Nghiên cứu điều khiển hệ thống động lực nhằm cải thiện hiệu quả sử dụng năng lượng cho ô tô điện
150 p | 7 | 1
-
Luận án Tiến sĩ Kỹ thuật: Nghiên cứu ứng dụng lý thuyết độ tin cậy phân tích ổn định hệ vỏ hầm thủy điện và môi trường đất đá xung quanh
157 p | 8 | 1
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn