intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận án Tiến sĩ Công nghệ thông tin: Mô hình văn phạm liên kết tiếng Việt

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:186

26
lượt xem
7
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Đề tài này nghiên cứu lý thuyết cấu trúc diễn ngôn và giải thuật phân đoạn diễn ngôn mức câu để phân tách câu ghép thành các mệnh đề. Đề xuất các kết nối lớn cho các mệnh đề trên cơ sở các quan hệ diễn ngôn để cho ra phân tích tổng thể của câu ghép. Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Luận án Tiến sĩ Công nghệ thông tin: Mô hình văn phạm liên kết tiếng Việt

  1. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGUYỄN THỊ THU HƯƠNG MÔ HÌNH VĂN PHẠM LIÊN KẾT TIẾNG VIỆT Chuyên ngành: Khoa học máy tính Mã số: 62.48.01.01 LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Người hướng dẫn khoa học: GS. TS. NGUYỄN THÚC HẢI GS.TS. NGUYỄN THANH THỦY Hà Nội - Năm 2013
  2. LỜI CẢM ƠN Trước khi trình bày nội dung nghiên cứu của luận án, tôi xin bày tỏ sự biết ơn chân thành đến hai thầy hướng dẫn, GS.TS. Nguyễn Thúc Hải, GS.TS. Nguyễn Thanh Thủy, những người thầy kính mến đã không chỉ tận tình hướng dẫn giúp đỡ mà còn động viên tôi rất nhiều để tôi hoàn thành luận án này. Xin chân thành cảm ơn các đồng nghiệp tại Bộ môn Khoa học Máy tính và Viện Công nghệ thông tin và Truyền thông, Đại học Bách khoa Hà Nội, đã hỗ trợ và chia sẻ cùng tôi trong công việc, giúp đỡ tôi rất nhiều trong những lúc khó khăn. Tôi xin chân thành cảm ơn PGS.TS. Lương Chi Mai, PGS.TS. Lê Thanh Hương, PGS. TS. Nguyễn Thị Kim Anh, PGS. TS. Đặng Văn Chuyết, TS Nguyễn Văn Vinh, TS Nguyễn Thị Minh Huyền đã giúp đỡ và đóng góp rât nhiều ý kiến quý báu cho luận án. Tôi xin chân thành cảm ơn các nhà ngôn ngữ học: PGS.TS Phạm Văn Tình, PGS.TS Nguyễn Chí Hòa, Vũ Xuân Lương, Đào Văn Hùng đã hỗ trợ tôi rất nhiệt tình khi tìm hiểu các đặc trưng của tiếng Việt. Xin chân thành cảm ơn các cựu sinh viên Lê Văn Chương, Phạm Nguyễn Quang Anh, Luyện Thanh Đạt, Lê Ngọc Minh đã giúp đỡ tôi trong quá trình thử nghiệm mô hình liên kết. Xin chân thành cảm ơn nhóm nghiên cứu VLSP, đặc biệt là GS.TS Hồ Tú Bảo và TS. Nguyễn Phương Thái đã cung cấp bộ ngữ liệu tiếng Việt để tôi thực hiện các thử nghiệm. Xin bày tỏ lòng biết ơn sâu sắc đến chồng và các con yêu dấu cùng mọi người trong gia đình đã là nguồn động viên về tinh thần rất quan trọng để tôi hoàn thành công trình của mình. Hà Nội ngày 20 tháng 3 năm 2012 Tác giả luận án Nguyễn Thị Thu Hương
  3. LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả trong luận án là trung thực và chưa từng được công bố trong bất kỳ công trình nào khác. Tác giả luận án Nguyễn Thị Thu Hương
  4. MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .......................................................4 DANH MỤC CÁC HÌNH VẼ ..........................................................................................5 DANH MỤC BẢNG BIỂU ..............................................................................................8 DANH MỤC CÁC KẾT NỐI QUAN TRỌNG ...............................................................9 MỞ ĐẦU ........................................................................................................................11 CHƯƠNG 1 TỔNG QUAN VỀ CÁC MÔ HÌNH VĂN PHẠM CHO NGÔN NGỮ TỰ NHIÊN ...........................................................................................................20 1.1. Cách tiếp cận cấu trúc và văn phạm phi ngữ cảnh ....................................... 20 1.1.1. Văn phạm phi ngữ cảnh biểu diễn ngôn ngữ tự nhiên ............................... 20 1.1.2. Văn phạm phi ngữ cảnh xác suất ....................................................... 23 1.1.3.Văn phạm phi ngữ cảnh xác suất từ vựng hóa..................................... 26 1.1.4. Văn phạm kết nối cây ........................................................................ 27 1.2. Tiếp cận qua cấu trúc nét và văn phạm hợp nhất ......................................... 28 1.3. Cách tiếp cận phụ thuộc .............................................................................. 29 1.3.1. Một số khái niệm............................................................................... 29 1.3.2.Tính chất của cây phụ thuộc ............................................................... 32 1.4. Văn phạm liên kết ....................................................................................... 34 1.4.1. Khái niệm văn phạm liên kết ............................................................. 34 1.4.2. Các định nghĩa hình thức về văn phạm liên kết.................................. 38 1.5. Kết luận ...................................................................................................... 40 CHƯƠNG 2 MÔ HÌNH VĂN PHẠM LIÊN KẾT TIẾNG VIỆT.............................43 2.1.Văn phạm liên kết cho tiếng Việt ................................................................. 43 2.1.1. Cấu trúc từ điển liên kết .................................................................... 43 2.1.2. Xây dựng liên kết cho danh từ ........................................................... 47 2.1.3. Các liên kết cho động từ .................................................................... 55 2.1.4. Các liên kết cho tính từ ...................................................................... 60 2.1.5. Liên kết các mệnh đề trong câu ghép đơn giản .................................. 61 2.2. Mở rộng từ điển văn phạm liên kết ............................................................. 64 2.2.1. Giải thuật mở rộng từ điển................................................................. 66 1
  5. 2.2.2. Ứng dụng giải thuật mở rộng từ điển tiếng Việt................................. 67 2.2. Kết luận ................................................................................................... 68 CHƯƠNG 3 PHÂN TÍCH CÚ PHÁP TRÊN VĂN PHẠM LIÊN KẾT ...................70 3.1. Bộ phân tích cú pháp liên kết ..................................................................... 70 3.1.1. Giải thuật phân tích cú pháp .............................................................. 70 3.1.2. Lược tỉa ............................................................................................. 72 3.1.3. Kết quả thử nghiệm phân tích câu đơn và câu ghép đơn giản............. 74 3.2. Phân tích cú pháp cho câu ghép .................................................................. 77 3.2.1. Xây dựng cây diễn ngôn .................................................................... 81 3.2.2. Giải thuật phân tích cú pháp câu ghép ............................................... 90 3.2.3. Tìm từ để kết nối mệnh đề ................................................................. 91 3.2.4. Kết quả thử nghiệm phân tích câu ghép ............................................. 93 3.2.5. Độ phức tạp tính toán ........................................................................ 96 3.3.Khử nhập nhằng ........................................................................................... 96 3.3.1. Khử nhập nhằng thành phần .............................................................. 97 3.3.2. Khử nhập nhằng liên hợp ................................................................ 103 3.4. Kết luận .................................................................................................... 107 CHƯƠNG 4 HỆ THỐNG DỊCH MÁY SỬ DỤNG DẠNG TUYỂN CÓ CHÚ GIẢI .............................................................................................................. 109 4.1. Tổng quan về dịch máy ............................................................................. 109 4.1.1.Tình hình phát triển dịch máy ở Việt Nam........................................ 109 4.1.2. Phương pháp đánh giá chất lượng dịch máy .................................... 111 4.2. Khác biệt ngôn ngữ Việt - Anh ................................................................. 112 4.2.1. Khác biệt hình thái .......................................................................... 112 4.2.2. Khác biệt về trật tự từ ...................................................................... 115 4.3. Hệ thống dịch máy sử dụng dạng tuyển có chú giải ............................... 116 4.3.1.Tìm nghĩa từ trong từ điển ADJ ........................................................ 118 4.3.2.Xây dựng bộ luật dịch ...................................................................... 119 4.3.3.Hoàn thiện câu dịch .......................................................................... 125 4.3.4.Kết quả thử nghiệm với bộ dịch dựa trên dạng tuyển có chú giải ...... 126 2
  6. 4.4. Kết luận ................................................................................................... 130 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ................................................................... 133 Tóm tắt ............................................................................................................ 133 Các đóng góp chính của luận án....................................................................... 133 Về mặt khoa học ....................................................................................... 133 Về mặt thực tiễn ........................................................................................ 134 Hạn chế và hướng phát triển ............................................................................ 135 CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ .......................................................................... 136 TÀI LIỆU THAM KHẢO ........................................................................................... 137 TIẾNG VIỆT ................................................................................................... 137 TIẾNG ANH ................................................................................................... 139 TIẾNG NGA ................................................................................................... 147 CÁC WEBSITE .............................................................................................. 147 PHỤ LỤC 1: CHI TIẾT CÁC CÔNG THỨC CHỦ YẾU TRONG LIÊN KẾT TIẾNG VIỆT ............................................................................................................................. 148 PHỤ LỤC 2: KẾT QUẢ PHÂN TÍCH LIÊN KẾT CỦA MỘT SỐ CÂU ĐƠN VÀ CÂU GHÉP HAI MỆNH ĐỀ....................................................................................... 166 PHỤ LỤC 3: MỘT SỐ LUẬT DỊCH ĐIỂN HÌNH .................................................... 174 1. Luật xác định thuộc tính .............................................................................. 174 2. Luật dịch cụm từ .......................................................................................... 175 3. Luật chuyển đổi cấu trúc .............................................................................. 178 PHỤ LỤC 4: SO SÁNH KẾT QUẢ DỊCH MỘT SỐ MẪU CÂU .............................. 179 3
  7. DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT HMM Hidden Markov Model: Mô hình Markov ẩn BNF Backus Naur Form: Công thức siêu ngữ Backus ADJ Annotated Disjunct: Dạng tuyển có chú giải RST Rhetorical Structure Tree: Cây cấu trúc diễn ngôn CCR Chunks/Constituents/Relation SVO Subject-Verb-Object: Trật tự câu theo kiểu chủ ngữ- động từ- bổ ngữ SVM Support Vector Machine: Máy vectơ hỗ trợ CRF Conditional Random Fields: Trường ngẫu nhiên có điều kiện EDU Elementary Discourse Unit: Đơn vị diễn ngôn nguyên tố HPSG Head driven Phrase Structure Grammar: Văn phạm cấu trúc đoạn hướng trung tâm EBNF Extended Backus Naur Form: Công thức siêu ngữ Backus mở rộng 4
  8. DANH MỤC CÁC HÌNH VẼ Hình 1.1. Cây ngữ cấu của câu “Tôi thích chân gà”. ............................................. 21 Hình 1.2. Hai cây ngữ cấu của câu “Họ sẽ không chuyển hàng xuống thuyền vào ngày mai”. ............................................................................................................. 22 Hình 1.3. Văn phạm phi ngữ cảnh xác suất và cây ngữ cấu của câu “Last week IBM bought Lotus” ........................................................................................................ 27 Hình 1.4. Phân tích câu “John loves a woman” trong một mô hình văn phạm phụ thuộc ...................................................................................................................... 31 Hình 1.5. Đồ thị phụ thuộc của câu “Economic news had little effect on financial market” ................................................................................................................. 32 Hình 1.6. Câu đúng ngữ pháp “Tại sao cậu không tới” .......................................... 35 Hình 1.7. Kết nối lớn của từ “và” ......................................................................... 37 Hình1.8. Chu trình trong phân tích câu.................................................................. 38 Hình 1.9. Nút liên kết ............................................................................................ 39 Hình 2.1. Cấu trúc danh ngữ với đầy đủ các thành tố ............................................ 48 Hình 2.2. Liên kết trong cụm từ “những cái bàn” .................................................. 51 Hình 2.4. Liên kết trong cụm từ “cái bàn bằng gỗ” ............................................... 53 Hình 2.3. Liên kết trong cụm từ “cái giường lò xo”. ............................................. 53 Hình 2.5. Liên kết trong cụm từ “cái bàn của tôi” ................................................. 54 Hình 2.6. Hai cách liên kết cho cụm từ “cái bàn bằng gỗ của tôi”......................... 54 Hình 2.7. Các liên kết xoay quanh danh từ trung tâm “ghế” ................................. 55 Hình 2.8. Thành tố phụ đi trước mọi động từ ........................................................ 56 Hình 2.9. Liên kết trong cụm từ “vẫn đang làm” .................................................. 57 Hình 2.10. Liên kết trong cụm từ “không hay đọc sách này” ................................ 57 5
  9. Hình 2.11. Liên kết trong cụm từ “đang rất sợ” .................................................... 59 Hình 2.12. Liên kết trong cụm từ “ sâu hai ngàn mét”........................................... 61 Hình 2.13. Liên kết câu ghép hai mệnh đề với liên từ ở giữa ................................. 62 Hình 2.14. Liên kết của câu ghép hai mệnh đề với liên từ ở đầu và dấu phảy ........ 63 Hình 2.15. Liên kết trong câu ghép với liên từ có mặt trong cả hai mệnh đề.......... 63 Hình 2.16. Một đoạn trong từ điển văn phạm liên kết ............................................ 64 Hình 2.17. Ánh xạ trực cảm .................................................................................. 67 Hình 2.18. Quy trình xây dựng từ điển văn phạm liên kết tiếng Việt ..................... 69 Hình 3.1. Giải thuật phân tích ............................................................................... 70 Hình 3.2. Lời giải cục bộ ....................................................................................... 70 Hình 3.3. Giải thuật phân tích cú pháp liên kết ...................................................... 71 Hình 3.4.Hàm COUNT cho số phân tích của câu. ................................................ 71 Hình 3.5. Cây cho công thức (NN- &{NN+}) or ({PqNt-} & {NN+}) .................. 73 Hình 3.6. Số lượng dạng tuyển sau lược tỉa và lược tỉa mạnh ................................ 74 Hình 3.7. Kêt quả phân tích liên kết của câu “Chúng tôi muốn giành các danh hiệu” ..................................................................................................................... 75 Hình 3.8. Kêt quả phân tích liên kết của câu “Mỗi một mùa trắng tay đều khó nuốt trôi” ....................................................................................................................... 75 Hình 3.9. Kết quả phân tích liên kết của câu “Phần lớn bọ ngựa ăn côn trùng” ... 76 Hình 3.10. Cây phân tích diễn ngôn của câu “[trời mưa rất to vàA1] [gió rất mạnh nênB1] [tôi phải nghỉ học,C1] [mẹ tôi phải nghỉ làm.D1]” ......................................... 80 Hình 3.11. Giải thuật phân đoạn diễn ngôn (có khử nhập nhằng) .......................... 85 Hình 3.12. Hàm isClause....................................................................................... 87 Hình 3.13. Các dạng cây cấu trúc diễn ngôn.......................................................... 89 Hình 3.14. Giải thuật phân tích cú pháp cho câu ghép ........................................... 90 6
  10. Hình 3.15. Hàm Insert_Link_From_RST_Tree ...................................................... 91 Hình 3.16. Minh họa cách lưu trữ phân tích liên kết của câu “Tôi mua một bông hoa” ....................................................................................................................... 92 Hình 3.17. Phân tích câu “Tôi mua một bông hoa” ................................................ 92 Hình 3.18. Phân tích cụm từ “một cái bút rất tốt”.................................................. 93 Hình 3.19. Kết quả phân tích câu “Trời mưa rất to và gió rất mạnh nên tôi phải nghỉ học, mẹ tôi phải nghỉ làm” ............................................................................. 94 Hình 3.20. Hai phân tích của câu “Tôi mua một bông hoa” .................................. 98 Hình 3.21. Giải thuật kiểu Viterbi để dự đoán phân tích có xác suất cao nhất ........ 99 Hình 3.22. Mô tả cách tính xác suất PrO ⊲ left(L, W, l ⊳, ⊲ leftd) ..................... 101 Hình 3.23. Minh họa mối liên kết để tính O .............................................. 102 Hình 3.24. Phân tích câu “Tôi thích bánh và kẹo, anh thích rượu và bia” ........... 105 Hình 3.25. Một phân tích với kết nối F cho từ “và” ............................................. 106 Hình 3.26. Kết nối G nối nhiều dấu phảy và từ “và”............................................ 107 Hình 4.1.Sắp xếp lại trật tự từ ............................................................................. 115 Hình 4.2. Kiến trúc của hệ dịch dựa trên dạng tuyển có chú giải ......................... 118 Hình 4.3. Thay đổi trật tự từ cho bản dịch câu “Cô gái nhỏ rất xinh” .................. 122 Hình 4.4. Quá trình dịch câu “Báo săn là loại động vật nhanh nhất thế giới” ...... 128 Hình 4.5. So sánh điểm BLEU của các hệ thống .............................................. 129 7
  11. DANH MỤC BẢNG BIỂU Bảng 1.1. Ví dụ của một từ điển ............................................................................ 34 Bảng 2.1.Các loại từ tiếng Việt.............................................................................. 45 Bảng 2.2. Các tiểu loại từ tiếng Việt ...................................................................... 45 Bảng 3.1. Chi tiết bộ ngữ liệu mẫu cho bộ phân tích cú pháp liên kết .................... 76 Bảng 3.2. Kết quả phân tích liên kết cho các tập mẫu ............................................ 76 Bảng 3.3. Kết quả thử nghiệm bộ phân tích diễn ngôn (chưa kết hợp phân tích cú pháp) ..................................................................................................................... 79 Bảng 3.4. Các biểu thức chính quy biểu diễn một số dấu hiệu diễn ngôn tiềm tàng81 Bảng 3.5. Hành động ứng với một số dấu hiệu diễn ngôn ...................................... 82 Bảng 3.6. Chi tiết tập mẫu câu ghép ...................................................................... 94 Bảng 3.7. Kết quả phân tích các tập mẫu câu ghép ................................................ 95 Bảng 4.1. Những khác biệt quan trọng về hình thái giữa tiếng Việt và tiếng Anh 113 Bảng 4.2. Đại từ xưng hô tiếng Anh .................................................................... 114 Bảng 4.3. Đại từ xưng hô tiếng Việt .................................................................... 114 Bảng 4.4. So sánh kết quả các hệ thống dịch ....................................................... 129 8
  12. DANH MỤC CÁC KẾT NỐI QUAN TRỌNG CLI Kết nối chỉ chất liệu (ẩn giới từ). DI Kết nối động từ “đi” với động từ khác. DpN Kết nối định từ chỉ số nhiều với danh từ. DpNt Kết nối định từ chỉ số nhiều với danh từ cụ thể. DsN Kết nối định từ chỉ số ít với danh từ. DT_LA Kết nối danh từ, đại từ xưng hô với động từ quan hệ “là”. ĐT_XONG Kết nối một động từ và động từ “xong”. EoPp Kết nối giới từ “của” với đại từ xưng hô. EpNt Kết nối giới từ chỉ vị trí và danh từ cụ thể. EsNt Kết nối danh từ cụ thể và giới từ phạm vi. LA_DT Kết nối động từ “là” với danh từ. McNu Kết nối số từ và danh từ chỉ đơn vị. NcNt1 Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ người. NcNt2 Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ động vật. NcNt3 Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ thực vât. NcNt4 Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ đồ dùng, vật dụng. NcNt5 Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ hiện tượng. NcNt6 Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ khái niệm. NEo Kết nối danh từ và giới từ chỉ sở hữu. NN Kết nối danh từ và danh từ, có thể thể hiện quan hệ về nội dung, địa điểm… NtEm Kết nối danh từ cụ thể và giới từ chỉ chất liệu. NtEs Kết nối giới từ phạm vi và danh từ cụ thể. NtPd Kết nối danh từ cụ thể với đại từ chỉ định. NuNt Kết nối danh từ chỉ đơn vị và danh từ cụ thể. NHAT_DT Kết nối từ “nhất” với danh từ đứng sau. O Kết nối động từ và bổ ngữ trực tiếp. RcV Kết nối động từ với phụ từ so sánh. RfA Kết nối phụ từ thời gian (tương lai) và tính từ. RfVt Kết nối định từ chỉ thì tương lai và động từ. RfVt Kết nối động từ với phụ từ thời gian (tương lai). 9
  13. RhA Kết nối phụ từ thời gian (hiện tại hoàn thành) và tính từ. RhV Kết nối phụ từ thời gian (hiện tại hoàn thành) và động từ. RmV Kết nối động từ với phụ từ mệnh lệnh. RnV Kết nối phủ định từ và động từ. RnV1 Kết nối động từ với phụ từ phủ định. RpA Kết nối phụ từ thời gian (quá khứ) và tính từ. RpV Kết nối động từ với phụ từ thời gian (quá khứ). RpVt Kết nối định từ chỉ thì quá khứ và động từ. RtA Kết nối phụ từ thời gian (hiện tại) và tính từ. RtV Kết nối động từ với phụ từ thời gian (hiện tại). SA Kết nối danh từ, đại từ xưng hô với tính từ. SA Kết nối danh từ và tính từ. SH Kết nối giới từ sở hữu và danh từ chỉ chủ sở hữu. SHA Kết nối hai danh từ chỉ quan hệ sở hữu ẩn. SS_NHAT Kết nối tính từ với từ “nhất”. SV Kết nối danh từ, đại từ xưng hô làm chủ ngữ với động từ. THS Kết nối các từ để hỏi đứng sau động từ và động từ. THT Kết nối các từ để hỏi đứng trước động từ và động từ. VmVt Kết nối động từ tình thái và động từ cụ thể. VtAp Kết nối ngoại động từ và tính từ chỉ tính chất. VtEp Kết nối ngoại động từ và giới từ vị trí. VtVs Kết nối động từ ngoại động và động từ trạng thái. 10
  14. MỞ ĐẦU Xử lý ngôn ngữ tự nhiên trên máy tính là một trong những bài toán khó của công nghệ thông tin. Nghiên cứu về xử lý ngôn ngữ tự nhiên đã được khởi động từ những năm 40 của thế kỷ 20, ngay sau khi xuất hiện máy tính điện tử. Dù được bắt đầu muộn hơn, xử lý tiếng Việt đã phát triển rất mạnh mẽ trong những năm gần đây do sự bùng nổ thông tin trên mạng Internet với hàng loạt yêu cầu tìm kiếm, dịch thuật tài liệu, quảng bá thông tin, đào tạo, hội thảo từ xa... Số nhà nghiên cứu theo đuổi lĩnh vực này tăng lên nhanh chóng, tiếp cận theo cả hai hướng lớn: xử lý tiếng nói và xử lý văn bản. Do phạm vi của đề tài, luận án chỉ đề cập đến một số vấn đề liên quan trong nhánh xử lý văn bản. Phân tích cú pháp là khâu quan trọng để giải quyết nhiều vấn đề khác, do vậy các bộ phân tích cú pháp tiếng Việt đã được xây dựng từ rất sớm. Đầu tiên là những bộ phân tích cú pháp dựa trên văn phạm phi ngữ cảnh với các phương pháp truyền thống: bộ phân tích cú pháp theo phương pháp CYK của Lê Thanh Hương và các đồng nghiệp [12], các bộ phân tích cú pháp theo phương pháp Earley của Phan Thị Tươi [27], Nguyễn Gia Định và các đồng nghiệp [5]. Để giải quyết vấn đề nhập nhằng, nhóm Lê Thanh Hương đã sử dụng văn phạm phi ngữ cảnh từ vựng hóa kết hợp xác suất [22], văn phạm cấu trúc đoạn hướng trung tâm[15]. Nhiều mô hình văn phạm khác cũng được xây dựng cho tiếng Việt với để mở rộng lớp ngôn ngữ được biểu diễn: văn phạm kết nối cây từ vựng hóa do Nguyễn Thị Minh Huyền và các đồng nghiệp xây dựng [20], [101] cho phép biểu diễn lớp ngôn ngữ cảm ngữ cảnh, cấu trúc nét và văn phạm hợp nhất được nhóm Trần Ngọc Tuấn sử dụng [26], [122], [123] cho phép biểu diễn lớp ngôn ngữ lớn nhất theo phân cấp của Chomsky[63]: lớp ngôn ngữ loại 0. Dịch tự động là lĩnh vực khó nhưng lại có khả năng ứng dụng thực tế rất lớn. Hiện nay các nhà nghiên cứu Việt Nam đã thử nghiệm một số hệ thống dịch tự động dựa trên các hướng tiếp cận khác nhau. Có thể kể đến VCLEVT của Trường Đại học Khoa hoc Tự nhiên ĐHQG TP Hồ Chí Minh với tiếp cận BTL - học luật chuyển đổi từ ngữ liệu song ngữ [3]. Hệ dịch đầu tiên của Việt Nam được thương mại hóa là EVtran - VEtran của Nacentech theo cách tiếp cận dựa trên luật [10]. Một hệ thống dịch khác đạt chất lượng khá tốt là hệ thống Vietgle chuyên dịch Anh - Việt của Lạc Việt. Ngoài ra còn có các hệ dịch máy khác như hệ LVT của Đại học Công nghệ ĐHQG Hà Nội [93], hệ dịch máy thống kê Việt - Anh sử dụng phân tích cú pháp có xác suất của Trường Đại học Bách khoa thành phố Hồ Chí Minh [124]. Cũng không thể không nhắc đến hệ thống dịch Google Translate 11
  15. theo hướng tiếp cận thống kê với kho ngữ liệu khổng lồ của Google. Nhìn chung, các sản phẩm dịch tự động chủ yếu theo hướng Anh - Việt. Số lượng và chất lượng của các hệ thống dịch Việt - Anh còn hạn chế. Về khai thác văn bản trên Internet, nhiều nhà nghiên cứu Việt Nam quan tâm đến các lĩnh vực biểu diễn văn bản như Hồ Tú Bảo [29],[33]; khai phá web, web ngữ nghĩa như Cao Hoàng Trụ [117], Hồ Tú Bảo[63]; tóm tắt văn bản như Lê Thanh Hương [66], nhóm Hà Thành Lê [15]... Tuy nhiên, không có nhiều nghiên cứu được thực hiện trên văn bản tiếng Việt như hệ thống tóm tắt văn bản của nhóm Hà Thành Lê [15], hệ thống rút trích nội dung trang web tiếng Việt của nhóm Đỗ Phúc [19]. Do đặc điểm về cấu tạo từ, phân tách và gán nhãn từ là giai đoạn tiền xử lý bắt buộc trong các hệ thống xử lý tiếng Việt. Công cụ phân tách từ vnTokenizer đã được Nguyễn Thị Minh Huyền, Lê Hồng Phương và các đồng nghiệp phát triển, sử dụng ôtô mat hữu hạn kết hợp phân tích biểu thức chính quy để xác định các chuỗi từ [102]. Trường hợp nhập nhằng được giải quyết bằng thuật toán trực cảm (heuristic), ưu tiên cách phân tách cho kết quả chứa những từ có độ dài lớn nhất. Phương pháp này đạt độ chính xác cao với bộ ngữ liệu mẫu (trên 98,5%) [116]. Bộ tách từ JVnSegmenter của nhóm Phan Xuân Hiếu [121] sử dụng công nghệ CRF và SVM cũng cho kết quả 94%. Ngoài ra có thể kể đến bộ tách từ của Lê An Hà [60] tính xác suất và độ hợp lý cực đại (maximum likelihood). Bài toán gán nhãn từ loại thường được giải quyết cùng bài toán tách từ. Cùng với bộ JVnSegmenter, các tác giả của nó xây dựng bộ gán nhãn từ JVnTagger sử dung CRF và entropy cực đại [7]. Bộ vnTokennizer cũng đi kèm với vnQTAG [13]. Một số nghiên cứu của các tác giả Việt Nam cũng tập trung vào khử nhập nhằng nghĩa từ như Lê Anh Cường [45], [46], Đinh Điền [48]. Các bộ ngữ liệu là tài nguyên hết sức quan trọng trong xử lý tiếng Việt. Các đề tài cấp nhà nước KC.01-03, KC.01.01/06-10 đã thu thập được một kho ngữ liệu tiếng Việt lấy từ các bài báo điện tử. Hiện nay, bộ ngữ liệu 1 triệu âm tiết đã tách từ, 10.000 câu được gán nhãn từ loại, treebank tiếng Việt với 10.000 phân tích câu đã được xây dựng. Đây cũng là những đóng góp rất lớn, tạo thuận lợi đáng kể cho những nghiên cứu về xử lý tiếng Việt tự động. Về ngữ liệu song ngữ: kho ngữ liệu của các sách báo song ngữ cũng rất đáng kể. tuy nhiên kho ngữ liệu đó khó hỗ trợ cho xử lý tự động, do chưa thực hiện những thao tác tiền xử lý như gióng hàng mức câu, mức từ. Ngữ liệu song ngữ Anh -Việt điện tử (có dịch 1-1, có gán nhãn ngôn ngữ) phổ biến có kho ngữ liệu song ngữ Anh -Việt EVC của Cao Hoàng 12
  16. Trụ là công trình công bố chính thức đầu tiên ở trong nước[24], [25], kho ngữ liệu song ngữ của nhóm Đinh Điền được công bố đầu tiên ở ngoài nước [47]. Đã có công trình nghiên cứu chi tiết về xây dựng và khai thác kho ngữ liệu song ngữ Anh - Việt có gán nhãn ngôn ngữ của Đinh Điền [48]. Cũng có những kết quả khác về xây dựng kho ngữ liệu cho xử lý văn bản của nhóm Nguyễn Thị Minh Huyền [36], [37], Phan Huy Khánh [73]. Đề tài KC.01.01/06-10 đã thu thập được 100.000 câu song ngữ Anh - Việt gióng hàng mức câu, trong đó có 20.000 câu thuộc lĩnh vực tin học và 80.000 câu thuộc các lĩnh vực kinh tế, xã hội. Ngữ liệu song ngữ Việt - Anh còn nghèo nàn, chưa có những bộ ngữ liệu mẫu đáng kể. Một số từ điển điện tử đã được xây dựng, chủ yếu là để phục vụ tra cứu trên máy tính, tuy nhiên phần lớn các từ điển này chưa dùng được trong xử lý tự động. Đáng kể nhất là bộ từ điển tiếng Việt của đề tài KC.01.01/06-10 [16] được xây dựng trên mô hình LMF với ba gói: hình thái, cú pháp, ngữ nghĩa. Bộ từ điển thể hiện khá toàn diện các thông tin liên quan đến từ pháp và cú pháp. Một số từ điển song ngữ được cung cấp miễn phí như từ điển Anh - Việt của đề tài KC.01.01/06-10 gồm gần 60.000 mục từ, từ điển Việt - Anh cũng do đề tài nói trên cung cấp gồm hơn 11.000 mục từ, bộ từ điển Anh - Việt của Hồ Ngọc Đức bao gồm 110.000 mục từ, từ điển Việt - Anh gồm 23.000 mục từ. Trên đây là một phần của bức tranh về tình hình nghiên cứu xử lý tự động văn bản tiếng Việt với sự phát triển đáng kể trong thời gian vừa qua. Nếu so với tiếng Anh, các ngôn ngữ châu Âu, hay tiếng Trung, Nhật, Hàn, có thể thấy nguồn tài nguyên phục vụ cho xử lý tiếng Việt còn nghèo nàn. Cho dù hiện nay đã có sự lấn át của các phương pháp học máy, thống kê, rất ít nghiên cứu tách rời hoàn toàn các mô hình biểu diễn cú pháp. Việc tham khảo cấu trúc cú pháp của văn bản nguồn cũng như văn bản đích xuất hiện trong các hệ thống dịch của nhóm Đinh Điền [3], nhóm Đại học Bách khoa thành phố Hồ Chí Minh [124], nhóm nghiên cứu tại JAIST [115]. Sử dụng phương pháp học thống kê kết hợp biểu diễn cú pháp sẽ cho những sản phẩm có chất lượng tốt hơn hẳn, chẳng hạn trong lĩnh vực dịch máy [115]. Như vậy vấn đề biểu diễn cú pháp vẫn là vấn đề hết sức quan trọng trong xử lý tiếng Việt. Mô hình văn phạm phi ngữ cảnh là mô hình phổ biến nhất để biểu diễn cú pháp tiếng Việt và phân tích cú pháp theo những phương pháp nổi tiếng CYK, Earley [12], [27], [5]. Mô hình này cũng được sử dụng cho một số hệ thống dịch máy [124]. Việc phân chia từ thành các lớp mà không quan tâm đến những đặc điểm từ vựng của văn phạm ngữ cấu cổ điển có thể làm cho bộ phân tích cú pháp chấp nhận nhiều câu không 13
  17. bao giờ được sử dụng trong thực tế, ví dụ câu tiếng Việt “Tôi mua hai thóc”. Câu này, không tồn tại trong tiếng Việt vì từ “thóc” trong không bao giờ đi trực tiếp sau số từ. Hiện tượng này cũng rất phổ biến trong các ngôn ngữ khác. Xu hướng từ vựng hóa các văn phạm được nhiều nhà nghiên cứu quan tâm. Nhiều mô hình văn phạm từ vựng hóa đã được xây dựng cho ngôn ngữ tự nhiên như văn phạm phi ngữ cảnh từ vựng hóa,văn phạm chức năng từ vựng hóa, văn phạm cấu trúc đoạn hướng trung tâm, văn phạm kết nối cây từ vựng hóa, văn phạm phạm trù tổ hợp, văn phạm liên kết... Hiện nay, xu hướng từ vựng hóa cũng đã ảnh hưởng tới các văn phạm tiếng Việt. Các mô hình văn phạm phi ngữ cảnh từ vựng hóa kết hợp xác suất [22], văn phạm kết nối cây từ vựng hóa [20] đã được phát triển cho tiếng Việt. Tuy nhiên chỉ có một số ít các văn phạm như văn phạm phạm trù tổ hợp, văn phạm liên kết là hoàn toàn từ vựng hóa, tức là tồn tại những luật riêng cho từng mục từ [112]. Mô hình hoàn toàn từ vựng hóa cho phép đặc tả nhiều ngoại lệ về cú pháp và từ pháp của tiếng Việt. Tập ký hiệu không kết thúc có kích cỡ lớn làm cho phân tích câu trong văn phạm phi ngữ cảnh trở nên phức tạp. Do vậy khi sử dụng cây phân tích cho những mục đích khác như dịch máy, sinh ngôn ngữ cần nhiều bước xử lý theo các mức phân cấp trong cây. Hơn nữa, muốn tìm mối liên hệ giữa hai từ trong câu theo mô hình phi ngữ cảnh, phải vượt qua một khoảng cách không nhỏ, thậm chí lần theo các mối nối đến tận nút gốc với chi phí thời gian khá lớn. Trong tiếng Việt, với nhiều trường hợp, quan hệ giữa các từ lại cực kỳ quan trọng vì nó có thể cho biết thông tin về số của danh từ, thì, thể của động từ, hay nhiều loại quan hệ khác như quan hệ sở hữu, quan hệ về chất liệu ... Cách tiếp cận phụ thuộc hiện nay là xu hướng nổi trội để biểu diễn cú pháp. Ưu điểm đầu tiên của văn phạm phụ thuộc là không có tập ký hiệu không kết thúc. Cây phụ thuộc thể hiện mối quan hệ trực tiếp giữa các từ trong câu, đơn giản hơn rất nhiều so với cây ngữ cấu. Khi sử dụng các quan hệ phụ thuộc có gán nhãn, mô hình phụ thuộc mã hóa trực tiếp cấu trúc vị ngữ - bổ ngữ . Do vậy có thể dịch (hiểu) riêng từng đoạn trong câu. Mô hình văn phạm phụ thuộc không xạ ảnh (non projective) có đặc điểm là cấu trúc phụ thuộc độc lập với trật tự từ, rất thích hợp với các ngôn ngữ có trật tự từ tự do. Tất nhiên mô hình văn phạm phụ thuộc vẫn tỏ ra hiệu quả cho các ngôn ngữ có trật tự từ khá chặt chẽ. Chính vì vậy, các bộ phân tích cú pháp xây dựng trên mô hình phụ thuộc được phát triển cho hầu hết các ngôn ngữ phổ biến trên thế giới, khởi đầu là các bộ phân tích cú pháp tiếng Anh của Collins [44], bộ phân tích cú pháp phụ thuộc của đại học Stanford. Các bộ phân tích cú pháp phụ thuộc cho các ngôn ngữ khác: tiếng Pháp của Candito [39], [40], tiếng 14
  18. Nga của nhóm Bogulavsky [98], tiếng Trung Quốc của Lai Bong Yeung Tom, Changning Huang [118], tiếng Nhật của Matsumoto và các đồng nghiệp [99], [125], tiếng Hàn của So Young Kwon [78] đã được xây dựng. Nhiều ngôn ngữ Đông Nam Á cũng được phân tích cú pháp theo hướng phụ thuộc như tiếng Indonesia với bộ phân tích cú pháp của Kamayani và Purwarianti [72], tiếng Thái Lan với bộ phân tích cú pháp của Tongchim [119], tiếng Tagalog (Philippines) với bộ phân tích của Maguilimotan và Matsumoto [85]. Mô hình văn phạm phụ thuộc cũng rất hữu hiệu cho những ứng dụng như tóm tắt văn bản [91], [108], rút trích thông tin [42], dịch máy [49], [55]... Vai trò quan trọng của mô hình phụ thuộc là rõ ràng. Tuy nhiên mô hình văn phạm phụ thuộc có những điểm khó về mặt ngôn ngữ học. Theo Nguyễn Tài Cẩn [2] còn nhiều tranh luận về sự phụ thuộc giữa các yếu tố trong câu tiếng Việt, chẳng hạn một số đối tượng có thể đóng vai trò phụ về cú pháp, nhưng lại đóng vai trò chính về từ pháp hay vai trò trung tâm của danh ngữ, động ngữ thuộc về đối tượng nào cũng còn nhiều quan điểm khác nhau. Do vậy, dù được nhắc đến trong một số tài liệu như [6], chưa có công trình nào về văn phạm phụ thuộc được công bố trong lĩnh vực ngôn ngữ học. Tiếng Việt có một bộ phân tích cú pháp phụ thuộc theo mô hình đồ thị [17] nhưng khó phát triển hơn nữa, do chưa có một hệ thống văn phạm phụ thuộc đầy đủ. Với mong muốn tiếp cận với mô hình văn phạm dạng phụ thuộc nhưng thiên về từ pháp, luận án đã chọn cho đề tài của mình một mô hình theo hướng phụ thuộc nhưng hoàn toàn từ vựng hóa: mô hình văn phạm liên kết. Văn phạm liên kết là mô hình do D.Sleator và D. Temperley đưa ra [111], cho phép mỗi từ có một số mối liên hệ với các từ ở bên trái hoặc bên phải, thỏa mãn các yêu cầu về tính phẳng, tính liên thông, tính thỏa mãn, tính thứ tự và tính loại trừ. Văn phạm liên kết là văn phạm theo cách tiếp cận phụ thuộc, thể hiện ở những điểm sau: 1. Phân tích liên kết không chứa ký hiệu không kết thúc, thậm chí cấu trúc còn đơn giản hơn cây phụ thuộc. Có thể coi phân tích liên kết như một danh sách tuyến tính với mỗi nút chứa không quá 3 mối liên hệ với nút khác. Ngân hàng phân tích vì thế đơn giản hơn ngân hàng cây ngữ cấu. Nhiều cơ sở dữ liệu được thiết lập từ các ngân hàng phân tích lớn như ngân hàng dữ liệu đa phương tiện [128]. Phân tích liên kết được sử dụng phổ biến cho những ứng dụng khác như trích chọn thông tin [84], [106], [110], dịch máy [35], hỏi đáp tự động [95], [105]... Nhiều bộ phân tích cú pháp cho các ngôn ngữ khác nhau được xây dựng trên mô hình văn phạm liên kết cho tiếng Anh[111], tiếng Nga [132], tiếng Đức [76], tiếng Thổ Nhĩ Kỳ [68]... 15
  19. 2. Văn phạm liên kết cũng có khả năng biểu diễn trực tiếp mối liên hệ giữa các từ không nhất thiết liền kề. Do vậy, văn pham liên kết cũng cho phép một trật tự từ tương đối tự do, chẳng hạn tập các kết nối của câu “Tôi hôm nay rất mệt” và câu “Hôm nay tôi rất mệt” không khác nhau. Phân tích hai câu nói trên chỉ khác nhau ở thứ tự các liên kết. Tất nhiên, theo Schneider [109], do mô hình văn phạm liên kết đòi hỏi tính phẳng nên không linh hoạt như văn phạm phụ thuộc khi biểu diễn sự phụ thuộc giữa các thành phần không liền kề (long distance dependency) trong câu. Điều này có thể chấp nhận được với tiếng Việt, vì nói chung, câu tiếng Việt tuân theo trật tự SVO, cấu trúc danh ngữ, động ngữ, tính ngữ nói chung cố định, số thành phần có vị trí thay đổi tùy ý không nhiều. 3. Văn phạm liên kết có thể biểu diễn mối liên hệ ngữ nghĩa. Việc biểu diễn liên hệ ngữ nghĩa dễ dàng hơn văn phạm phụ thuộc vì phân tích câu trong văn phạm liên kết có thể chứa chu trình. 4. Việc phân biệt các thành phần chính - phụ trong câu trở nên phức tạp hơn vì liên kết không định hướng như phụ thuộc. Do vậy, với một số bài toán, chẳng hạn tóm tắt văn bản, mô hình văn phạm liên kết không thuận tiện bằng văn phạm phụ thuộc. Tuy nhiên trong nhiều lĩnh vực như biểu diễn tri thức, dịch máy…, văn phạm liên kết lại rất hiệu quả. 5. Văn phạm liên kết không đòi hỏi quan hệ cai trị - phụ thuộc nên có thể dễ dàng gộp các phân tích các mệnh đề thành phần thành một phân tích lớn, làm cho việc phân tích câu ghép nhiều mệnh đề dễ dàng hơn. 6. Văn phạm liên kết là một trong rất ít mô hình hoàn toàn từ vựng hóa, do vậy có thể biểu diễn mối liên hệ từ pháp, chi tiết hơn nhiều so với văn phạm phụ thuộc, văn phạm ngữ cấu (quan hệ chỉ định nghĩa đến loại từ). Đặc điểm này cho phép biểu diễn nhiều hiện tượng trong tiếng Việt. Ví dụ, những động từ chỉ động tác có phương hướng như “chạy”, “mang”, “mở”,”đậy” mới có thể kết hợp với các thành tố phụ chỉ hướng: “ra”, “vào”, “lên”, “xuống”. Liên kết DR được thiết lập giữa các loại từ nói trên mà không tồn tại với bất cứ loại từ nào khác. 7. Liên kết có thể dùng để biểu diễn tri thức [53], liên kết cũng rất gần với đồ thị khái niệm nên có thể chuyển từ liên kết sang đồ thị khái niệm dễ dàng [131]. Phân tích liên kết cũng được sử dụng để trích chọn thông tin [50], [52], [90], [97], đặc biệt là thông tin ngữ nghĩa [82]. 16
  20. 8. Liên kết có nhãn nên biểu diễn trực tiếp mối liên hệ vị ngữ - bổ ngữ và các mối liên hệ khác, tạo thuận lợi cho việc dịch sang ngôn ngữ có biến đổi hình thái, tốt hơn những mô hình mà quan hệ phụ thuộc không được gán nhãn (theo Zamin [129]). Qua khảo cứu và thử nghiệm bước đầu, luận án rút ra một số nhận xét: 1. Từ trước đến nay, cách phổ biến nhất để biểu diễn cú pháp tiếng Việt là thông qua mô hình văn phạm ngữ cấu (phi ngữ cảnh) với cây ngữ cấu. Tuy nhiên tiếng Việt có những đặc điểm riêng mà cấu trúc này không dễ biểu diễn: ẩn giới từ sở hữu, chuyển loại từ, sự kết hợp số từ và các danh từ chỉ đơn vị… Những đặc điểm này có thể được biểu diễn một cách linh hoạt và đơn giản qua mô hình liên kết. Đặc biệt khi giải quyết bài toán dịch từ tiếng Việt sang ngôn ngữ khác, việc phát hiện được mối quan hệ trực tiếp giữa các từ cho khả năng chuyển đổi sang cấu trúc của ngôn ngữ đích với chất lượng cao. 2. Phân tích câu theo mô hình liên kết rất gần với suy nghĩ của con người, do vậy có thể hỗ trợ hiệu quả cho những học viên tiếng Việt khi tìm hiểu cú pháp và đặt câu. Kết quả phân tích liên kết của câu lại đơn giản hơn nhiều so với cây ngữ cấu. Tuy là một đồ thị, nhưng phân tích liên kết gần như một danh sách tuyên tính của các từ, mỗi từ có mối liên hệ với không quá 3 từ khác. Điều đó cho phép tra cứu ngân hàng phân tích dễ dàng hơn treebank, tạo thuận lợi cho các hướng tiếp cận theo phương pháp thống kê. 3. Do sự phức tạp của cấu trúc câu ghép và câu phức, không nhiều nghiên cứu về phân tích cú pháp tự động quan tâm đến loại câu này, đặc biệt là trong tiếng Việt. Mô hình văn phạm liên kết cho một cách liên kết các mệnh đề dựa trên kết nối lớn, tạo khả năng phân tích và xử lý câu ghép, câu phức một cách hiệu quả. 4. Hiện nay do tiếng Việt chưa có nhiều tài nguyên phục vụ cho bài toán dịch máy, nên các hệ thống dịch máy chủ yếu theo hướng Anh - Việt và làm theo hướng tiếp cận dựa trên luật. Do mô hình văn phạm liên kết biểu diễn một cách mềm dẻo nhiều hiện tượng cú pháp của tiếng Việt và việc chuyển đổi liên kết cú pháp sang ngôn ngữ khác khá dễ dàng, có thể sử dụng nó để xây dựng một hệ thống dịch máy Việt – Anh dựa trên luật xử lý dễ dàng nhiều khác biệt giữa ngôn ngữ nguồn và ngôn ngữ đích, hỗ trợ tốt nhiều yêu cầu dịch thuật trong thực tế. Hệ thống này có thể tích hợp với những hệ thống theo các hướng tiếp cận khác như trên nền ví dụ, thống kê để tạo ra những bản dịch có chất lượng tốt: trôi chảy và đúng về cú pháp cũng như từ pháp. 17
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2