BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
NGUYỄN THỊ THU HƯƠNG
MÔ HÌNH
VĂN PHẠM LIÊN KẾT TIẾNG VIỆT
Chuyên ngành: Khoa học máy tính
Mã số: 62.48.01.01
LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN
Người hướng dẫn khoa học:
GS. TS. NGUYỄN THÚC HẢI
GS.TS. NGUYỄN THANH THỦY
Hà Nội - Năm 2013
LỜI CẢM ƠN
Trước khi trình bày nội dung nghiên cứu của luận án, tôi xin bày tỏ sự biết ơn chân thành
đến hai thầy hướng dẫn, GS.TS. Nguyễn Thúc Hải, GS.TS. Nguyễn Thanh Thủy, những người
thầy kính mến đã không chỉ tận tình hướng dẫn giúp đỡ mà còn động viên tôi rất nhiều để tôi
hoàn thành luận án này.
Xin chân thành cảm ơn các đồng nghiệp tại Bộ môn Khoa học Máy tính và Viện Công
nghệ thông tin và Truyền thông, Đại học Bách khoa Hà Nội, đã hỗ trợ và chia sẻ cùng tôi trong
công việc, giúp đỡ tôi rất nhiều trong những lúc khó khăn.
Tôi xin chân thành cảm ơn PGS.TS. Lương Chi Mai, PGS.TS. Lê Thanh Hương, PGS.
TS. Nguyễn Thị Kim Anh, PGS. TS. Đặng Văn Chuyết, TS Nguyễn Văn Vinh, TS Nguyễn Thị
Minh Huyền đã giúp đỡ và đóng góp rât nhiều ý kiến quý báu cho luận án.
Tôi xin chân thành cảm ơn các nhà ngôn ngữ học: PGS.TS Phạm Văn Tình, PGS.TS
Nguyễn Chí Hòa, Vũ Xuân Lương, Đào Văn Hùng đã hỗ trợ tôi rất nhiệt tình khi tìm hiểu các
đặc trưng của tiếng Việt.
Xin chân thành cảm ơn các cựu sinh viên Lê Văn Chương, Phạm Nguyễn Quang Anh,
Luyện Thanh Đạt, Lê Ngọc Minh đã giúp đỡ tôi trong quá trình thử nghiệm mô hình liên kết.
Xin chân thành cảm ơn nhóm nghiên cứu VLSP, đặc biệt là GS.TS Hồ Tú Bảo và TS.
Nguyễn Phương Thái đã cung cấp bộ ngữ liệu tiếng Việt để tôi thực hiện các thử nghiệm.
Xin bày tỏ lòng biết ơn sâu sắc đến chồng và các con yêu dấu cùng mọi người trong gia
đình đã là nguồn động viên về tinh thần rất quan trọng để tôi hoàn thành công trình của mình.
Hà Nội ngày 20 tháng 3 năm 2012
Tác giả luận án
Nguyễn Thị Thu Hương
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả
trong luận án là trung thực và chưa từng được công bố trong bất kỳ công trình nào
khác.
Tác giả luận án
Nguyễn Thị Thu Hương
MỤC LỤC
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .......................................................4
DANH MỤC CÁC HÌNH VẼ ..........................................................................................5
DANH MỤC BẢNG BIỂU ..............................................................................................8
DANH MỤC CÁC KẾT NỐI QUAN TRỌNG ...............................................................9
MỞ ĐẦU ........................................................................................................................ 11
CHƯƠNG 1 TỔNG QUAN VỀ CÁC MÔ HÌNH VĂN PHẠM CHO NGÔN
1.1. Cách tiếp cận cấu trúc và văn phạm phi ngữ cảnh ....................................... 20
1.1.1. Văn phạm phi ngữ cảnh biểu diễn ngôn ngữ tự nhiên ............................... 20
1.1.2. Văn phạm phi ngữ cảnh xác suất ....................................................... 23
1.1.3.Văn phạm phi ngữ cảnh xác suất từ vựng hóa ..................................... 26
1.1.4. Văn phạm kết nối cây ........................................................................ 27
1.2. Tiếp cận qua cấu trúc nét và văn phạm hợp nhất ......................................... 28
1.3. Cách tiếp cận phụ thuộc .............................................................................. 29
1.3.1. Một số khái niệm ............................................................................... 29
1.3.2.Tính chất của cây phụ thuộc ............................................................... 32
1.4. Văn phạm liên kết ....................................................................................... 34
1.4.1. Khái niệm văn phạm liên kết ............................................................. 34
1.4.2. Các định nghĩa hình thức về văn phạm liên kết .................................. 38
1.5. Kết luận ...................................................................................................... 40
NGỮ TỰ NHIÊN ........................................................................................................... 20
2.1.Văn phạm liên kết cho tiếng Việt ................................................................. 43
2.1.1. Cấu trúc từ điển liên kết .................................................................... 43
2.1.2. Xây dựng liên kết cho danh từ ........................................................... 47
2.1.3. Các liên kết cho động từ .................................................................... 55
2.1.4. Các liên kết cho tính từ ...................................................................... 60
2.1.5. Liên kết các mệnh đề trong câu ghép đơn giản .................................. 61
2.2. Mở rộng từ điển văn phạm liên kết ............................................................. 64
2.2.1. Giải thuật mở rộng từ điển ................................................................. 66
1
CHƯƠNG 2 MÔ HÌNH VĂN PHẠM LIÊN KẾT TIẾNG VIỆT............................. 43
2.2.2. Ứng dụng giải thuật mở rộng từ điển tiếng Việt ................................. 67
2.2. Kết luận ................................................................................................... 68
3.1. Bộ phân tích cú pháp liên kết ..................................................................... 70
3.1.1. Giải thuật phân tích cú pháp .............................................................. 70
3.1.2. Lược tỉa ............................................................................................. 72
3.1.3. Kết quả thử nghiệm phân tích câu đơn và câu ghép đơn giản ............. 74
3.2. Phân tích cú pháp cho câu ghép .................................................................. 77
3.2.1. Xây dựng cây diễn ngôn .................................................................... 81
3.2.2. Giải thuật phân tích cú pháp câu ghép ............................................... 90
3.2.3. Tìm từ để kết nối mệnh đề ................................................................. 91
3.2.4. Kết quả thử nghiệm phân tích câu ghép ............................................. 93
3.2.5. Độ phức tạp tính toán ........................................................................ 96
3.3.Khử nhập nhằng ........................................................................................... 96
3.3.1. Khử nhập nhằng thành phần .............................................................. 97
3.3.2. Khử nhập nhằng liên hợp ................................................................ 103
3.4. Kết luận .................................................................................................... 107
CHƯƠNG 3 PHÂN TÍCH CÚ PHÁP TRÊN VĂN PHẠM LIÊN KẾT ................... 70
CHƯƠNG 4 HỆ THỐNG DỊCH MÁY SỬ DỤNG DẠNG TUYỂN CÓ CHÚ GIẢI
4.1. Tổng quan về dịch máy ............................................................................. 109
4.1.1.Tình hình phát triển dịch máy ở Việt Nam ........................................ 109
4.1.2. Phương pháp đánh giá chất lượng dịch máy .................................... 111
4.2. Khác biệt ngôn ngữ Việt - Anh ................................................................. 112
4.2.1. Khác biệt hình thái .......................................................................... 112
4.2.2. Khác biệt về trật tự từ ...................................................................... 115
4.3. Hệ thống dịch máy sử dụng dạng tuyển có chú giải ............................... 116
4.3.1.Tìm nghĩa từ trong từ điển ADJ ........................................................ 118
4.3.2.Xây dựng bộ luật dịch ...................................................................... 119
4.3.3.Hoàn thiện câu dịch .......................................................................... 125
4.3.4.Kết quả thử nghiệm với bộ dịch dựa trên dạng tuyển có chú giải ...... 126
2
.............................................................................................................. 109
4.4. Kết luận ................................................................................................... 130
Tóm tắt ............................................................................................................ 133
Các đóng góp chính của luận án....................................................................... 133
Về mặt khoa học ....................................................................................... 133
Về mặt thực tiễn ........................................................................................ 134
Hạn chế và hướng phát triển ............................................................................ 135
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ................................................................... 133
CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ .......................................................................... 136
TIẾNG VIỆT ................................................................................................... 137
TIẾNG ANH ................................................................................................... 139
TIẾNG NGA ................................................................................................... 147
CÁC WEBSITE .............................................................................................. 147
TÀI LIỆU THAM KHẢO ........................................................................................... 137
PHỤ LỤC 1: CHI TIẾT CÁC CÔNG THỨC CHỦ YẾU TRONG LIÊN KẾT TIẾNG
VIỆT ............................................................................................................................. 148
PHỤ LỤC 2: KẾT QUẢ PHÂN TÍCH LIÊN KẾT CỦA MỘT SỐ CÂU ĐƠN VÀ
CÂU GHÉP HAI MỆNH ĐỀ ....................................................................................... 166
1. Luật xác định thuộc tính .............................................................................. 174
2. Luật dịch cụm từ .......................................................................................... 175
3. Luật chuyển đổi cấu trúc .............................................................................. 178
PHỤ LỤC 3: MỘT SỐ LUẬT DỊCH ĐIỂN HÌNH .................................................... 174
3
PHỤ LỤC 4: SO SÁNH KẾT QUẢ DỊCH MỘT SỐ MẪU CÂU .............................. 179
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
HMM Hidden Markov Model: Mô hình Markov ẩn
BNF
Backus Naur Form: Công thức siêu ngữ Backus
ADJ
Annotated Disjunct: Dạng tuyển có chú giải
RST
Rhetorical Structure Tree: Cây cấu trúc diễn ngôn
CCR
Chunks/Constituents/Relation
SVO
Subject-Verb-Object: Trật tự câu theo kiểu chủ ngữ- động từ- bổ ngữ
SVM
Support Vector Machine: Máy vectơ hỗ trợ
CRF
Conditional Random Fields: Trường ngẫu nhiên có điều kiện
EDU
Elementary Discourse Unit: Đơn vị diễn ngôn nguyên tố
HPSG Head driven Phrase Structure Grammar: Văn phạm cấu trúc đoạn hướng trung tâm
EBNF Extended Backus Naur Form: Công thức siêu ngữ Backus mở rộng
4
DANH MỤC CÁC HÌNH VẼ
Hình 1.1. Cây ngữ cấu của câu “Tôi thích chân gà”. ............................................. 21
Hình 1.2. Hai cây ngữ cấu của câu “Họ sẽ không chuyển hàng xuống thuyền vào
ngày mai”. ............................................................................................................. 22
Hình 1.3. Văn phạm phi ngữ cảnh xác suất và cây ngữ cấu của câu “Last week IBM
bought Lotus” ........................................................................................................ 27
Hình 1.4. Phân tích câu “John loves a woman” trong một mô hình văn phạm phụ
thuộc ...................................................................................................................... 31
Hình 1.5. Đồ thị phụ thuộc của câu “Economic news had little effect on financial
market” ................................................................................................................. 32
Hình 1.6. Câu đúng ngữ pháp “Tại sao cậu không tới” .......................................... 35
Hình 1.7. Kết nối lớn của từ “và” ......................................................................... 37
Hình1.8. Chu trình trong phân tích câu .................................................................. 38
Hình 1.9. Nút liên kết ............................................................................................ 39
Hình 2.1. Cấu trúc danh ngữ với đầy đủ các thành tố ............................................ 48
Hình 2.2. Liên kết trong cụm từ “những cái bàn” .................................................. 51
Hình 2.4. Liên kết trong cụm từ “cái bàn bằng gỗ” ............................................... 53
Hình 2.3. Liên kết trong cụm từ “cái giường lò xo”. ............................................. 53
Hình 2.5. Liên kết trong cụm từ “cái bàn của tôi” ................................................. 54
Hình 2.6. Hai cách liên kết cho cụm từ “cái bàn bằng gỗ của tôi” ......................... 54
Hình 2.7. Các liên kết xoay quanh danh từ trung tâm “ghế” ................................. 55
Hình 2.8. Thành tố phụ đi trước mọi động từ ........................................................ 56
Hình 2.9. Liên kết trong cụm từ “vẫn đang làm” .................................................. 57
Hình 2.10. Liên kết trong cụm từ “không hay đọc sách này” ................................ 57
5
Hình 2.11. Liên kết trong cụm từ “đang rất sợ” .................................................... 59
Hình 2.12. Liên kết trong cụm từ “ sâu hai ngàn mét”........................................... 61
Hình 2.13. Liên kết câu ghép hai mệnh đề với liên từ ở giữa ................................. 62
Hình 2.14. Liên kết của câu ghép hai mệnh đề với liên từ ở đầu và dấu phảy ........ 63
Hình 2.15. Liên kết trong câu ghép với liên từ có mặt trong cả hai mệnh đề .......... 63
Hình 2.16. Một đoạn trong từ điển văn phạm liên kết ............................................ 64
Hình 2.17. Ánh xạ trực cảm .................................................................................. 67
Hình 2.18. Quy trình xây dựng từ điển văn phạm liên kết tiếng Việt ..................... 69
Hình 3.1. Giải thuật phân tích ............................................................................... 70
Hình 3.2. Lời giải cục bộ ....................................................................................... 70
Hình 3.3. Giải thuật phân tích cú pháp liên kết ...................................................... 71
Hình 3.4.Hàm COUNT cho số phân tích của câu. ................................................ 71
Hình 3.5. Cây cho công thức (NN- &{NN+}) or ({PqNt-} & {NN+}) .................. 73
Hình 3.6. Số lượng dạng tuyển sau lược tỉa và lược tỉa mạnh ................................ 74
Hình 3.7. Kêt quả phân tích liên kết của câu “Chúng tôi muốn giành các danh
hiệu” ..................................................................................................................... 75
Hình 3.8. Kêt quả phân tích liên kết của câu “Mỗi một mùa trắng tay đều khó nuốt
trôi” ....................................................................................................................... 75
Hình 3.9. Kết quả phân tích liên kết của câu “Phần lớn bọ ngựa ăn côn trùng” ... 76
Hình 3.10. Cây phân tích diễn ngôn của câu “[trời mưa rất to vàA1] [gió rất mạnh nênB1] [tôi phải nghỉ học,C1] [mẹ tôi phải nghỉ làm.D1]” ......................................... 80
Hình 3.11. Giải thuật phân đoạn diễn ngôn (có khử nhập nhằng) .......................... 85
Hình 3.12. Hàm isClause ....................................................................................... 87
Hình 3.13. Các dạng cây cấu trúc diễn ngôn .......................................................... 89
Hình 3.14. Giải thuật phân tích cú pháp cho câu ghép ........................................... 90
6
Hình 3.15. Hàm Insert_Link_From_RST_Tree ...................................................... 91
Hình 3.16. Minh họa cách lưu trữ phân tích liên kết của câu “Tôi mua một bông
hoa” ....................................................................................................................... 92
Hình 3.17. Phân tích câu “Tôi mua một bông hoa” ................................................ 92
Hình 3.18. Phân tích cụm từ “một cái bút rất tốt”.................................................. 93
Hình 3.19. Kết quả phân tích câu “Trời mưa rất to và gió rất mạnh nên tôi phải
nghỉ học, mẹ tôi phải nghỉ làm” ............................................................................. 94
Hình 3.20. Hai phân tích của câu “Tôi mua một bông hoa” .................................. 98
Hình 3.21. Giải thuật kiểu Viterbi để dự đoán phân tích có xác suất cao nhất ........ 99
Hình 3.22. Mô tả cách tính xác suất
..................... 101
PrO ⊲ left(L, W, l ⊳, ⊲ leftd)
Hình 3.23. Minh họa mối liên kết để tính
.............................................. 102
(cid:16)(cid:17)O(cid:18)(cid:19)(cid:20)(cid:21)
Hình 3.24. Phân tích câu “Tôi thích bánh và kẹo, anh thích rượu và bia” ........... 105
Hình 3.25. Một phân tích với kết nối F cho từ “và” ............................................. 106
Hình 3.26. Kết nối G nối nhiều dấu phảy và từ “và”............................................ 107
Hình 4.1.Sắp xếp lại trật tự từ ............................................................................. 115
Hình 4.2. Kiến trúc của hệ dịch dựa trên dạng tuyển có chú giải ......................... 118
Hình 4.3. Thay đổi trật tự từ cho bản dịch câu “Cô gái nhỏ rất xinh” .................. 122
Hình 4.4. Quá trình dịch câu “Báo săn là loại động vật nhanh nhất thế giới” ...... 128
Hình 4.5. So sánh điểm BLEU của các hệ thống .............................................. 129
7
DANH MỤC BẢNG BIỂU
Bảng 1.1. Ví dụ của một từ điển ............................................................................ 34
Bảng 2.1.Các loại từ tiếng Việt .............................................................................. 45
Bảng 2.2. Các tiểu loại từ tiếng Việt ...................................................................... 45
Bảng 3.1. Chi tiết bộ ngữ liệu mẫu cho bộ phân tích cú pháp liên kết .................... 76
Bảng 3.2. Kết quả phân tích liên kết cho các tập mẫu ............................................ 76
Bảng 3.3. Kết quả thử nghiệm bộ phân tích diễn ngôn (chưa kết hợp phân tích cú
pháp) ..................................................................................................................... 79
Bảng 3.4. Các biểu thức chính quy biểu diễn một số dấu hiệu diễn ngôn tiềm tàng81
Bảng 3.5. Hành động ứng với một số dấu hiệu diễn ngôn ...................................... 82
Bảng 3.6. Chi tiết tập mẫu câu ghép ...................................................................... 94
Bảng 3.7. Kết quả phân tích các tập mẫu câu ghép ................................................ 95
Bảng 4.1. Những khác biệt quan trọng về hình thái giữa tiếng Việt và tiếng Anh 113
Bảng 4.2. Đại từ xưng hô tiếng Anh .................................................................... 114
Bảng 4.3. Đại từ xưng hô tiếng Việt .................................................................... 114
Bảng 4.4. So sánh kết quả các hệ thống dịch ....................................................... 129
8
DANH MỤC CÁC KẾT NỐI QUAN TRỌNG
Kết nối chỉ chất liệu (ẩn giới từ). CLI
Kết nối động từ “đi” với động từ khác. DI
Kết nối định từ chỉ số nhiều với danh từ. DpN
Kết nối định từ chỉ số nhiều với danh từ cụ thể. DpNt
Kết nối định từ chỉ số ít với danh từ. DsN
DT_LA Kết nối danh từ, đại từ xưng hô với động từ quan hệ “là”.
ĐT_XONG Kết nối một động từ và động từ “xong”.
Kết nối giới từ “của” với đại từ xưng hô. EoPp
Kết nối giới từ chỉ vị trí và danh từ cụ thể. EpNt
Kết nối danh từ cụ thể và giới từ phạm vi. EsNt
LA_DT Kết nối động từ “là” với danh từ.
Kết nối số từ và danh từ chỉ đơn vị. McNu
Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ người. NcNt1
Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ động vật. NcNt2
Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ thực vât. NcNt3
Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ đồ dùng, vật dụng. NcNt4
Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ hiện tượng. NcNt5
Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ khái niệm. NcNt6
Kết nối danh từ và giới từ chỉ sở hữu. NEo
Kết nối danh từ và danh từ, có thể thể hiện quan hệ về nội dung, địa điểm… NN
Kết nối danh từ cụ thể và giới từ chỉ chất liệu. NtEm
Kết nối giới từ phạm vi và danh từ cụ thể. NtEs
Kết nối danh từ cụ thể với đại từ chỉ định. NtPd
Kết nối danh từ chỉ đơn vị và danh từ cụ thể. NuNt
NHAT_DT Kết nối từ “nhất” với danh từ đứng sau.
Kết nối động từ và bổ ngữ trực tiếp. O
Kết nối động từ với phụ từ so sánh. RcV
Kết nối phụ từ thời gian (tương lai) và tính từ. RfA
Kết nối định từ chỉ thì tương lai và động từ. RfVt
9
Kết nối động từ với phụ từ thời gian (tương lai). RfVt
Kết nối phụ từ thời gian (hiện tại hoàn thành) và tính từ. RhA
Kết nối phụ từ thời gian (hiện tại hoàn thành) và động từ. RhV
Kết nối động từ với phụ từ mệnh lệnh. RmV
Kết nối phủ định từ và động từ. RnV
Kết nối động từ với phụ từ phủ định. RnV1
Kết nối phụ từ thời gian (quá khứ) và tính từ. RpA
Kết nối động từ với phụ từ thời gian (quá khứ). RpV
Kết nối định từ chỉ thì quá khứ và động từ. RpVt
Kết nối phụ từ thời gian (hiện tại) và tính từ. RtA
Kết nối động từ với phụ từ thời gian (hiện tại). RtV
Kết nối danh từ, đại từ xưng hô với tính từ. SA
Kết nối danh từ và tính từ. SA
Kết nối giới từ sở hữu và danh từ chỉ chủ sở hữu. SH
Kết nối hai danh từ chỉ quan hệ sở hữu ẩn. SHA
SS_NHAT Kết nối tính từ với từ “nhất”.
Kết nối danh từ, đại từ xưng hô làm chủ ngữ với động từ. SV
Kết nối các từ để hỏi đứng sau động từ và động từ. THS
Kết nối các từ để hỏi đứng trước động từ và động từ. THT
Kết nối động từ tình thái và động từ cụ thể. VmVt
Kết nối ngoại động từ và tính từ chỉ tính chất. VtAp
Kết nối ngoại động từ và giới từ vị trí. VtEp
10
Kết nối động từ ngoại động và động từ trạng thái. VtVs
MỞ ĐẦU
Xử lý ngôn ngữ tự nhiên trên máy tính là một trong những bài toán khó của công nghệ
thông tin. Nghiên cứu về xử lý ngôn ngữ tự nhiên đã được khởi động từ những năm 40 của
thế kỷ 20, ngay sau khi xuất hiện máy tính điện tử. Dù được bắt đầu muộn hơn, xử lý tiếng
Việt đã phát triển rất mạnh mẽ trong những năm gần đây do sự bùng nổ thông tin trên
mạng Internet với hàng loạt yêu cầu tìm kiếm, dịch thuật tài liệu, quảng bá thông tin, đào
tạo, hội thảo từ xa... Số nhà nghiên cứu theo đuổi lĩnh vực này tăng lên nhanh chóng, tiếp
cận theo cả hai hướng lớn: xử lý tiếng nói và xử lý văn bản. Do phạm vi của đề tài, luận án
chỉ đề cập đến một số vấn đề liên quan trong nhánh xử lý văn bản.
Phân tích cú pháp là khâu quan trọng để giải quyết nhiều vấn đề khác, do vậy các bộ
phân tích cú pháp tiếng Việt đã được xây dựng từ rất sớm. Đầu tiên là những bộ phân tích
cú pháp dựa trên văn phạm phi ngữ cảnh với các phương pháp truyền thống: bộ phân tích
cú pháp theo phương pháp CYK của Lê Thanh Hương và các đồng nghiệp [12], các bộ
phân tích cú pháp theo phương pháp Earley của Phan Thị Tươi [27], Nguyễn Gia Định và
các đồng nghiệp [5]. Để giải quyết vấn đề nhập nhằng, nhóm Lê Thanh Hương đã sử dụng
văn phạm phi ngữ cảnh từ vựng hóa kết hợp xác suất [22], văn phạm cấu trúc đoạn hướng
trung tâm[15]. Nhiều mô hình văn phạm khác cũng được xây dựng cho tiếng Việt với để
mở rộng lớp ngôn ngữ được biểu diễn: văn phạm kết nối cây từ vựng hóa do Nguyễn Thị
Minh Huyền và các đồng nghiệp xây dựng [20], [101] cho phép biểu diễn lớp ngôn ngữ
cảm ngữ cảnh, cấu trúc nét và văn phạm hợp nhất được nhóm Trần Ngọc Tuấn sử dụng
[26], [122], [123] cho phép biểu diễn lớp ngôn ngữ lớn nhất theo phân cấp của
Chomsky[63]: lớp ngôn ngữ loại 0.
Dịch tự động là lĩnh vực khó nhưng lại có khả năng ứng dụng thực tế rất lớn. Hiện nay
các nhà nghiên cứu Việt Nam đã thử nghiệm một số hệ thống dịch tự động dựa trên các
hướng tiếp cận khác nhau. Có thể kể đến VCLEVT của Trường Đại học Khoa hoc Tự
nhiên ĐHQG TP Hồ Chí Minh với tiếp cận BTL - học luật chuyển đổi từ ngữ liệu song
ngữ [3]. Hệ dịch đầu tiên của Việt Nam được thương mại hóa là EVtran - VEtran của
Nacentech theo cách tiếp cận dựa trên luật [10]. Một hệ thống dịch khác đạt chất lượng khá
tốt là hệ thống Vietgle chuyên dịch Anh - Việt của Lạc Việt. Ngoài ra còn có các hệ dịch
máy khác như hệ LVT của Đại học Công nghệ ĐHQG Hà Nội [93], hệ dịch máy thống kê
Việt - Anh sử dụng phân tích cú pháp có xác suất của Trường Đại học Bách khoa thành
11
phố Hồ Chí Minh [124]. Cũng không thể không nhắc đến hệ thống dịch Google Translate
theo hướng tiếp cận thống kê với kho ngữ liệu khổng lồ của Google. Nhìn chung, các sản
phẩm dịch tự động chủ yếu theo hướng Anh - Việt. Số lượng và chất lượng của các hệ
thống dịch Việt - Anh còn hạn chế.
Về khai thác văn bản trên Internet, nhiều nhà nghiên cứu Việt Nam quan tâm đến các
lĩnh vực biểu diễn văn bản như Hồ Tú Bảo [29],[33]; khai phá web, web ngữ nghĩa như
Cao Hoàng Trụ [117], Hồ Tú Bảo[63]; tóm tắt văn bản như Lê Thanh Hương [66], nhóm
Hà Thành Lê [15]... Tuy nhiên, không có nhiều nghiên cứu được thực hiện trên văn bản
tiếng Việt như hệ thống tóm tắt văn bản của nhóm Hà Thành Lê [15], hệ thống rút trích nội
dung trang web tiếng Việt của nhóm Đỗ Phúc [19].
Do đặc điểm về cấu tạo từ, phân tách và gán nhãn từ là giai đoạn tiền xử lý bắt buộc
trong các hệ thống xử lý tiếng Việt. Công cụ phân tách từ vnTokenizer đã được Nguyễn
Thị Minh Huyền, Lê Hồng Phương và các đồng nghiệp phát triển, sử dụng ôtô mat hữu
hạn kết hợp phân tích biểu thức chính quy để xác định các chuỗi từ [102]. Trường hợp
nhập nhằng được giải quyết bằng thuật toán trực cảm (heuristic), ưu tiên cách phân tách
cho kết quả chứa những từ có độ dài lớn nhất. Phương pháp này đạt độ chính xác cao với
bộ ngữ liệu mẫu (trên 98,5%) [116]. Bộ tách từ JVnSegmenter của nhóm Phan Xuân Hiếu
[121] sử dụng công nghệ CRF và SVM cũng cho kết quả 94%. Ngoài ra có thể kể đến bộ
tách từ của Lê An Hà [60] tính xác suất và độ hợp lý cực đại (maximum likelihood). Bài
toán gán nhãn từ loại thường được giải quyết cùng bài toán tách từ. Cùng với bộ
JVnSegmenter, các tác giả của nó xây dựng bộ gán nhãn từ JVnTagger sử dung CRF và
entropy cực đại [7]. Bộ vnTokennizer cũng đi kèm với vnQTAG [13]. Một số nghiên cứu
của các tác giả Việt Nam cũng tập trung vào khử nhập nhằng nghĩa từ như Lê Anh Cường
[45], [46], Đinh Điền [48].
Các bộ ngữ liệu là tài nguyên hết sức quan trọng trong xử lý tiếng Việt. Các đề tài cấp
nhà nước KC.01-03, KC.01.01/06-10 đã thu thập được một kho ngữ liệu tiếng Việt lấy từ
các bài báo điện tử. Hiện nay, bộ ngữ liệu 1 triệu âm tiết đã tách từ, 10.000 câu được gán
nhãn từ loại, treebank tiếng Việt với 10.000 phân tích câu đã được xây dựng. Đây cũng là
những đóng góp rất lớn, tạo thuận lợi đáng kể cho những nghiên cứu về xử lý tiếng Việt tự
động.
Về ngữ liệu song ngữ: kho ngữ liệu của các sách báo song ngữ cũng rất đáng kể. tuy
nhiên kho ngữ liệu đó khó hỗ trợ cho xử lý tự động, do chưa thực hiện những thao tác tiền
xử lý như gióng hàng mức câu, mức từ. Ngữ liệu song ngữ Anh -Việt điện tử (có dịch 1-1,
12
có gán nhãn ngôn ngữ) phổ biến có kho ngữ liệu song ngữ Anh -Việt EVC của Cao Hoàng
Trụ là công trình công bố chính thức đầu tiên ở trong nước[24], [25], kho ngữ liệu song
ngữ của nhóm Đinh Điền được công bố đầu tiên ở ngoài nước [47]. Đã có công trình
nghiên cứu chi tiết về xây dựng và khai thác kho ngữ liệu song ngữ Anh - Việt có gán nhãn
ngôn ngữ của Đinh Điền [48]. Cũng có những kết quả khác về xây dựng kho ngữ liệu cho
xử lý văn bản của nhóm Nguyễn Thị Minh Huyền [36], [37], Phan Huy Khánh [73]. Đề tài
KC.01.01/06-10 đã thu thập được 100.000 câu song ngữ Anh - Việt gióng hàng mức câu,
trong đó có 20.000 câu thuộc lĩnh vực tin học và 80.000 câu thuộc các lĩnh vực kinh tế, xã
hội. Ngữ liệu song ngữ Việt - Anh còn nghèo nàn, chưa có những bộ ngữ liệu mẫu đáng
kể.
Một số từ điển điện tử đã được xây dựng, chủ yếu là để phục vụ tra cứu trên máy tính,
tuy nhiên phần lớn các từ điển này chưa dùng được trong xử lý tự động. Đáng kể nhất là bộ
từ điển tiếng Việt của đề tài KC.01.01/06-10 [16] được xây dựng trên mô hình LMF với ba
gói: hình thái, cú pháp, ngữ nghĩa. Bộ từ điển thể hiện khá toàn diện các thông tin liên
quan đến từ pháp và cú pháp. Một số từ điển song ngữ được cung cấp miễn phí như từ
điển Anh - Việt của đề tài KC.01.01/06-10 gồm gần 60.000 mục từ, từ điển Việt - Anh
cũng do đề tài nói trên cung cấp gồm hơn 11.000 mục từ, bộ từ điển Anh - Việt của Hồ
Ngọc Đức bao gồm 110.000 mục từ, từ điển Việt - Anh gồm 23.000 mục từ.
Trên đây là một phần của bức tranh về tình hình nghiên cứu xử lý tự động văn bản tiếng
Việt với sự phát triển đáng kể trong thời gian vừa qua. Nếu so với tiếng Anh, các ngôn ngữ
châu Âu, hay tiếng Trung, Nhật, Hàn, có thể thấy nguồn tài nguyên phục vụ cho xử lý
tiếng Việt còn nghèo nàn. Cho dù hiện nay đã có sự lấn át của các phương pháp học máy,
thống kê, rất ít nghiên cứu tách rời hoàn toàn các mô hình biểu diễn cú pháp. Việc tham
khảo cấu trúc cú pháp của văn bản nguồn cũng như văn bản đích xuất hiện trong các hệ
thống dịch của nhóm Đinh Điền [3], nhóm Đại học Bách khoa thành phố Hồ Chí Minh
[124], nhóm nghiên cứu tại JAIST [115]. Sử dụng phương pháp học thống kê kết hợp biểu
diễn cú pháp sẽ cho những sản phẩm có chất lượng tốt hơn hẳn, chẳng hạn trong lĩnh vực
dịch máy [115]. Như vậy vấn đề biểu diễn cú pháp vẫn là vấn đề hết sức quan trọng trong
xử lý tiếng Việt.
Mô hình văn phạm phi ngữ cảnh là mô hình phổ biến nhất để biểu diễn cú pháp tiếng
Việt và phân tích cú pháp theo những phương pháp nổi tiếng CYK, Earley [12], [27], [5].
Mô hình này cũng được sử dụng cho một số hệ thống dịch máy [124].
Việc phân chia từ thành các lớp mà không quan tâm đến những đặc điểm từ vựng của
13
văn phạm ngữ cấu cổ điển có thể làm cho bộ phân tích cú pháp chấp nhận nhiều câu không
bao giờ được sử dụng trong thực tế, ví dụ câu tiếng Việt “Tôi mua hai thóc”. Câu này,
không tồn tại trong tiếng Việt vì từ “thóc” trong không bao giờ đi trực tiếp sau số từ. Hiện
tượng này cũng rất phổ biến trong các ngôn ngữ khác. Xu hướng từ vựng hóa các văn
phạm được nhiều nhà nghiên cứu quan tâm. Nhiều mô hình văn phạm từ vựng hóa đã được
xây dựng cho ngôn ngữ tự nhiên như văn phạm phi ngữ cảnh từ vựng hóa,văn phạm chức
năng từ vựng hóa, văn phạm cấu trúc đoạn hướng trung tâm, văn phạm kết nối cây từ vựng
hóa, văn phạm phạm trù tổ hợp, văn phạm liên kết... Hiện nay, xu hướng từ vựng hóa cũng
đã ảnh hưởng tới các văn phạm tiếng Việt. Các mô hình văn phạm phi ngữ cảnh từ vựng
hóa kết hợp xác suất [22], văn phạm kết nối cây từ vựng hóa [20] đã được phát triển cho
tiếng Việt. Tuy nhiên chỉ có một số ít các văn phạm như văn phạm phạm trù tổ hợp, văn
phạm liên kết là hoàn toàn từ vựng hóa, tức là tồn tại những luật riêng cho từng mục từ
[112]. Mô hình hoàn toàn từ vựng hóa cho phép đặc tả nhiều ngoại lệ về cú pháp và từ
pháp của tiếng Việt.
Tập ký hiệu không kết thúc có kích cỡ lớn làm cho phân tích câu trong văn phạm phi
ngữ cảnh trở nên phức tạp. Do vậy khi sử dụng cây phân tích cho những mục đích khác
như dịch máy, sinh ngôn ngữ cần nhiều bước xử lý theo các mức phân cấp trong cây. Hơn
nữa, muốn tìm mối liên hệ giữa hai từ trong câu theo mô hình phi ngữ cảnh, phải vượt qua
một khoảng cách không nhỏ, thậm chí lần theo các mối nối đến tận nút gốc với chi phí thời
gian khá lớn. Trong tiếng Việt, với nhiều trường hợp, quan hệ giữa các từ lại cực kỳ quan
trọng vì nó có thể cho biết thông tin về số của danh từ, thì, thể của động từ, hay nhiều loại
quan hệ khác như quan hệ sở hữu, quan hệ về chất liệu ...
Cách tiếp cận phụ thuộc hiện nay là xu hướng nổi trội để biểu diễn cú pháp. Ưu điểm
đầu tiên của văn phạm phụ thuộc là không có tập ký hiệu không kết thúc. Cây phụ thuộc
thể hiện mối quan hệ trực tiếp giữa các từ trong câu, đơn giản hơn rất nhiều so với cây ngữ
cấu. Khi sử dụng các quan hệ phụ thuộc có gán nhãn, mô hình phụ thuộc mã hóa trực tiếp
cấu trúc vị ngữ - bổ ngữ . Do vậy có thể dịch (hiểu) riêng từng đoạn trong câu.
Mô hình văn phạm phụ thuộc không xạ ảnh (non projective) có đặc điểm là cấu trúc phụ
thuộc độc lập với trật tự từ, rất thích hợp với các ngôn ngữ có trật tự từ tự do. Tất nhiên mô
hình văn phạm phụ thuộc vẫn tỏ ra hiệu quả cho các ngôn ngữ có trật tự từ khá chặt chẽ.
Chính vì vậy, các bộ phân tích cú pháp xây dựng trên mô hình phụ thuộc được phát triển
cho hầu hết các ngôn ngữ phổ biến trên thế giới, khởi đầu là các bộ phân tích cú pháp tiếng
Anh của Collins [44], bộ phân tích cú pháp phụ thuộc của đại học Stanford. Các bộ phân
14
tích cú pháp phụ thuộc cho các ngôn ngữ khác: tiếng Pháp của Candito [39], [40], tiếng
Nga của nhóm Bogulavsky [98], tiếng Trung Quốc của Lai Bong Yeung Tom, Changning
Huang [118], tiếng Nhật của Matsumoto và các đồng nghiệp [99], [125], tiếng Hàn của So
Young Kwon [78] đã được xây dựng. Nhiều ngôn ngữ Đông Nam Á cũng được phân tích
cú pháp theo hướng phụ thuộc như tiếng Indonesia với bộ phân tích cú pháp của Kamayani
và Purwarianti [72], tiếng Thái Lan với bộ phân tích cú pháp của Tongchim [119], tiếng
Tagalog (Philippines) với bộ phân tích của Maguilimotan và Matsumoto [85]. Mô hình văn
phạm phụ thuộc cũng rất hữu hiệu cho những ứng dụng như tóm tắt văn bản [91], [108],
rút trích thông tin [42], dịch máy [49], [55]...
Vai trò quan trọng của mô hình phụ thuộc là rõ ràng. Tuy nhiên mô hình văn phạm phụ
thuộc có những điểm khó về mặt ngôn ngữ học. Theo Nguyễn Tài Cẩn [2] còn nhiều tranh
luận về sự phụ thuộc giữa các yếu tố trong câu tiếng Việt, chẳng hạn một số đối tượng có
thể đóng vai trò phụ về cú pháp, nhưng lại đóng vai trò chính về từ pháp hay vai trò trung
tâm của danh ngữ, động ngữ thuộc về đối tượng nào cũng còn nhiều quan điểm khác nhau.
Do vậy, dù được nhắc đến trong một số tài liệu như [6], chưa có công trình nào về văn
phạm phụ thuộc được công bố trong lĩnh vực ngôn ngữ học. Tiếng Việt có một bộ phân
tích cú pháp phụ thuộc theo mô hình đồ thị [17] nhưng khó phát triển hơn nữa, do chưa có
một hệ thống văn phạm phụ thuộc đầy đủ. Với mong muốn tiếp cận với mô hình văn phạm
dạng phụ thuộc nhưng thiên về từ pháp, luận án đã chọn cho đề tài của mình một mô hình
theo hướng phụ thuộc nhưng hoàn toàn từ vựng hóa: mô hình văn phạm liên kết.
Văn phạm liên kết là mô hình do D.Sleator và D. Temperley đưa ra [111], cho phép mỗi
từ có một số mối liên hệ với các từ ở bên trái hoặc bên phải, thỏa mãn các yêu cầu về tính
phẳng, tính liên thông, tính thỏa mãn, tính thứ tự và tính loại trừ. Văn phạm liên kết là văn
phạm theo cách tiếp cận phụ thuộc, thể hiện ở những điểm sau:
1. Phân tích liên kết không chứa ký hiệu không kết thúc, thậm chí cấu trúc còn đơn giản
hơn cây phụ thuộc. Có thể coi phân tích liên kết như một danh sách tuyến tính với mỗi
nút chứa không quá 3 mối liên hệ với nút khác. Ngân hàng phân tích vì thế đơn giản
hơn ngân hàng cây ngữ cấu. Nhiều cơ sở dữ liệu được thiết lập từ các ngân hàng phân
tích lớn như ngân hàng dữ liệu đa phương tiện [128]. Phân tích liên kết được sử dụng
phổ biến cho những ứng dụng khác như trích chọn thông tin [84], [106], [110], dịch
máy [35], hỏi đáp tự động [95], [105]... Nhiều bộ phân tích cú pháp cho các ngôn ngữ
khác nhau được xây dựng trên mô hình văn phạm liên kết cho tiếng Anh[111], tiếng
15
Nga [132], tiếng Đức [76], tiếng Thổ Nhĩ Kỳ [68]...
2. Văn phạm liên kết cũng có khả năng biểu diễn trực tiếp mối liên hệ giữa các từ không
nhất thiết liền kề. Do vậy, văn pham liên kết cũng cho phép một trật tự từ tương đối tự
do, chẳng hạn tập các kết nối của câu “Tôi hôm nay rất mệt” và câu “Hôm nay tôi rất
mệt” không khác nhau. Phân tích hai câu nói trên chỉ khác nhau ở thứ tự các liên kết.
Tất nhiên, theo Schneider [109], do mô hình văn phạm liên kết đòi hỏi tính phẳng nên
không linh hoạt như văn phạm phụ thuộc khi biểu diễn sự phụ thuộc giữa các thành
phần không liền kề (long distance dependency) trong câu. Điều này có thể chấp nhận
được với tiếng Việt, vì nói chung, câu tiếng Việt tuân theo trật tự SVO, cấu trúc danh
ngữ, động ngữ, tính ngữ nói chung cố định, số thành phần có vị trí thay đổi tùy ý không
nhiều.
3. Văn phạm liên kết có thể biểu diễn mối liên hệ ngữ nghĩa. Việc biểu diễn liên hệ ngữ
nghĩa dễ dàng hơn văn phạm phụ thuộc vì phân tích câu trong văn phạm liên kết có thể
chứa chu trình.
4. Việc phân biệt các thành phần chính - phụ trong câu trở nên phức tạp hơn vì liên kết
không định hướng như phụ thuộc. Do vậy, với một số bài toán, chẳng hạn tóm tắt văn
bản, mô hình văn phạm liên kết không thuận tiện bằng văn phạm phụ thuộc. Tuy nhiên
trong nhiều lĩnh vực như biểu diễn tri thức, dịch máy…, văn phạm liên kết lại rất hiệu
quả.
5. Văn phạm liên kết không đòi hỏi quan hệ cai trị - phụ thuộc nên có thể dễ dàng gộp các
phân tích các mệnh đề thành phần thành một phân tích lớn, làm cho việc phân tích câu
ghép nhiều mệnh đề dễ dàng hơn.
6. Văn phạm liên kết là một trong rất ít mô hình hoàn toàn từ vựng hóa, do vậy có thể
biểu diễn mối liên hệ từ pháp, chi tiết hơn nhiều so với văn phạm phụ thuộc, văn phạm
ngữ cấu (quan hệ chỉ định nghĩa đến loại từ). Đặc điểm này cho phép biểu diễn nhiều
hiện tượng trong tiếng Việt. Ví dụ, những động từ chỉ động tác có phương hướng như
“chạy”, “mang”, “mở”,”đậy” mới có thể kết hợp với các thành tố phụ chỉ hướng:
“ra”, “vào”, “lên”, “xuống”. Liên kết DR được thiết lập giữa các loại từ nói trên mà
không tồn tại với bất cứ loại từ nào khác.
7. Liên kết có thể dùng để biểu diễn tri thức [53], liên kết cũng rất gần với đồ thị khái
niệm nên có thể chuyển từ liên kết sang đồ thị khái niệm dễ dàng [131]. Phân tích liên
kết cũng được sử dụng để trích chọn thông tin [50], [52], [90], [97], đặc biệt là thông
16
tin ngữ nghĩa [82].
8. Liên kết có nhãn nên biểu diễn trực tiếp mối liên hệ vị ngữ - bổ ngữ và các mối liên hệ
khác, tạo thuận lợi cho việc dịch sang ngôn ngữ có biến đổi hình thái, tốt hơn những
mô hình mà quan hệ phụ thuộc không được gán nhãn (theo Zamin [129]).
Qua khảo cứu và thử nghiệm bước đầu, luận án rút ra một số nhận xét:
1. Từ trước đến nay, cách phổ biến nhất để biểu diễn cú pháp tiếng Việt là thông qua mô
hình văn phạm ngữ cấu (phi ngữ cảnh) với cây ngữ cấu. Tuy nhiên tiếng Việt có những
đặc điểm riêng mà cấu trúc này không dễ biểu diễn: ẩn giới từ sở hữu, chuyển loại từ,
sự kết hợp số từ và các danh từ chỉ đơn vị… Những đặc điểm này có thể được biểu
diễn một cách linh hoạt và đơn giản qua mô hình liên kết. Đặc biệt khi giải quyết bài
toán dịch từ tiếng Việt sang ngôn ngữ khác, việc phát hiện được mối quan hệ trực tiếp
giữa các từ cho khả năng chuyển đổi sang cấu trúc của ngôn ngữ đích với chất lượng
cao.
2. Phân tích câu theo mô hình liên kết rất gần với suy nghĩ của con người, do vậy có thể
hỗ trợ hiệu quả cho những học viên tiếng Việt khi tìm hiểu cú pháp và đặt câu. Kết quả
phân tích liên kết của câu lại đơn giản hơn nhiều so với cây ngữ cấu. Tuy là một đồ thị,
nhưng phân tích liên kết gần như một danh sách tuyên tính của các từ, mỗi từ có mối
liên hệ với không quá 3 từ khác. Điều đó cho phép tra cứu ngân hàng phân tích dễ dàng
hơn treebank, tạo thuận lợi cho các hướng tiếp cận theo phương pháp thống kê.
3. Do sự phức tạp của cấu trúc câu ghép và câu phức, không nhiều nghiên cứu về phân
tích cú pháp tự động quan tâm đến loại câu này, đặc biệt là trong tiếng Việt. Mô hình
văn phạm liên kết cho một cách liên kết các mệnh đề dựa trên kết nối lớn, tạo khả năng
phân tích và xử lý câu ghép, câu phức một cách hiệu quả.
4. Hiện nay do tiếng Việt chưa có nhiều tài nguyên phục vụ cho bài toán dịch máy, nên
các hệ thống dịch máy chủ yếu theo hướng Anh - Việt và làm theo hướng tiếp cận dựa
trên luật. Do mô hình văn phạm liên kết biểu diễn một cách mềm dẻo nhiều hiện tượng
cú pháp của tiếng Việt và việc chuyển đổi liên kết cú pháp sang ngôn ngữ khác khá dễ
dàng, có thể sử dụng nó để xây dựng một hệ thống dịch máy Việt – Anh dựa trên luật
xử lý dễ dàng nhiều khác biệt giữa ngôn ngữ nguồn và ngôn ngữ đích, hỗ trợ tốt nhiều
yêu cầu dịch thuật trong thực tế. Hệ thống này có thể tích hợp với những hệ thống theo
các hướng tiếp cận khác như trên nền ví dụ, thống kê để tạo ra những bản dịch có chất
17
lượng tốt: trôi chảy và đúng về cú pháp cũng như từ pháp.
Từ đó, luận án xác định mục tiêu tập trung vào việc nghiên cứu, xây dựng một mô hình
văn phạm liên kết tiếng Việt với những đặc điểm sau:
1. Dựa trên mô hình văn phạm liên kết được Sleator và Temperley đưa ra [111].
2. Dựa trên các đặc điểm cú pháp và từ pháp tiếng Việt.
3. Có thể sử dụng để phân tích cú pháp tiếng Việt theo phương pháp phân tích liên kết.
Phạm vi của bộ phân tích cú pháp là câu đơn cũng như câu ghép bao gồm nhiều mệnh
đề đẳng lập và phụ thuộc.
4. Có thể ứng dụng để giải quyết bài toán dịch máy Việt - Anh.
5. Tạo ra các sản phẩm phục vụ công việc nghiên cứu: từ điển liên kết, từ điển song ngữ
với dạng tuyển có chú giải.
Để làm được điều đó, cần thiết phải thực hiện nhiều nội dung nghiên cứu cốt lõi như:
Các hướng tiếp cận để biểu diễn cú pháp (đặc biệt là hướng tiếp cận phụ thuộc), mô hình
văn phạm liên kết và mối liên hệ với mô hình văn phạm phụ thuộc, các mô hình văn phạm
liên kết đã được xây dựng cho tiếng Anh, tiếng Nga và một số ngôn ngữ khác. Bộ phân
tích cú pháp tiếng Anh và các giải thuật phân tách mệnh đề của câu ghép là những vấn đề
mà luận án nghiên cứu để xây dựng bộ phân tích liên kết tiếng Việt. Để minh họa cho khả
năng biểu diễn của mô hình văn phạm liên kết tiếng Việt, luận án đi vào tìm hiểu các hệ
thống dịch để xây dựng bộ dịch máy sử dụng văn phạm liên kết.
Trong khuôn khổ của luận án, công việc sẽ được giới hạn trong phạm vi :
1. Xây dựng mô hình liên kết để biểu diễn cú pháp tiếng Việt. Bộ từ điển liên kết của
tiếng Việt được xây dựng có tính chất thử nghiệm, bao quát được những hiện tượng cú
pháp cơ bản nhất và một số trường hợp cá biệt thường gặp trong thực tế.
2. Bộ phân tích cú pháp liên kết tiếng Việt cũng phải qua những giai đoạn tiền xử lý như
bất cứ bộ phân tích cú pháp nào khác. Theo cách tiếp cận này, bộ phân tích cú pháp
không gán nhãn từ trước khi phân tích cú pháp, nhưng không thể bỏ qua giai đoạn tách
từ. Luận án đã sử dụng bộ tách từ vnTokenizer của TS. Lê Hồng Phương, được cung
cấp miễn phí trên mạng.
3. Nghiên cứu mô hình văn phạm liên kết xác suất để khử nhập nhằng trong phân tích cú
pháp.Luận án giới hạn phạm vi làm việc là thử nghiệm các giải thuật được đề xuất.
4. Nghiên cứu lý thuyết cấu trúc diễn ngôn và giải thuật phân đoạn diễn ngôn mức câu để
phân tách câu ghép thành các mệnh đề. Đề xuất các kết nối lớn cho các mệnh đề trên
18
cơ sở các quan hệ diễn ngôn để cho ra phân tích tổng thể của câu ghép.
5. Việc xây dựng hệ thống dịch Việt - Anh dựa trên dạng tuyển có chú giải là một minh
họa cho việc ứng dụng mô hình văn phạm liên kết tiếng Việt. Hệ thống này được thử
nghiệm trên bộ ngữ liệu gồm các mẫu câu trong chương trình tiếng Việt cơ bản và nâng
cao để dạy cho người nước ngoài của khoa Việt nam học và tiếng Việt, Trường Đại học
Khoa học Xã hội và Nhân văn, Đại học Quốc gia Hà Nội [18].
Luận án được chia làm 4 chương và 4 phụ lục như sau:
Chương 1: Tổng quan về các mô hình văn phạm cho ngôn ngữ tự nhiên giới
thiệu các mô hình văn phạm để mô tả cú pháp của ngôn ngữ tự nhiên và mối quan hệ của
mô hình văn phạm liên kết với các mô hình văn phạm khác.
Kết quả nghiên cứu của nghiên cứu sinh liên quan đến luận án được trình bày trong
các chương 2,3,4.
Chương 2: Mô hình văn phạm liên kết tiếng Việt đưa ra chi tiết về hệ thống văn
phạm liên kết tiếng Việt đã được nghiên cứu sinh xây dựng.
Chương 3: Phân tích cú pháp trên văn phạm liên kết mô tả bộ phân tích cú pháp
liên kết, hướng giải quyết vấn đề phân tích cú pháp cho câu ghép, vấn đề nhập nhằng cú
pháp và hướng giải quyết.
Chương 4: Hệ thống dịch dựa trên dạng tuyển có chú giải thể hiện việc thử
nghiệm mô hình văn phạm liên kết trong bài toán dịch máy Việt - Anh.
Kết luận và hướng phát triển.
Phần phụ lục bao gồm 4 phụ lục:
Phụ lục 1: Công thức liên kết cho các tiểu loại từ tiếng Việt.
Phụ lục 2: Kết quả phân tích cú pháp một số mẫu câu đơn và câu ghép hai mệnh đề.
Phụ lục 3: Một số luật điển hình trong tập luật dịch Việt - Anh.
19
Phụ lục 4: So sánh kết quả dịch một số mẫu câu.
CHƯƠNG 1
TỔNG QUAN VỀ CÁC MÔ HÌNH VĂN PHẠM
CHO NGÔN NGỮ TỰ NHIÊN
Theo Jurafsky [70], quan hệ văn phạm là cách hình thức hóa những tư tưởng của văn
phạm truyền thống như chủ ngữ hay bổ ngữ và những mối quan hệ khác. Nhiều mô hình
văn phạm đã được đưa ra theo các hướng tiếp cận: cấu trúc (constituency), quan hệ văn
phạm (grammar relation), phân loại con (subcategorization) hay phụ thuộc (dependency).
Hai hướng tiếp cận phổ biến nhất hiện nay là cấu trúc và phụ thuộc. Chương này sẽ giới
thiệu các mô hình văn phạm phổ biến và vị trí của văn phạm liên kết trong hệ thống các mô
hình văn phạm đó.
1.1. Cách tiếp cận cấu trúc và văn phạm phi ngữ cảnh
Vấn đề đầu tiên đặt ra khi mô tả các quy tắc cú pháp là biểu diễn được các quy luật để
nhóm các từ lại thành câu. Nếu ngữ pháp tiếng Việt [28] quy định câu phải chứa một nòng
cốt (đơn hoặc ghép), nòng cốt đơn phải chứa chủ ngữ, vị ngữ với chủ ngữ luôn đi trước vị
ngữ, thì vấn đề mô tả quy tắc cú pháp sẽ chuyển thành vấn đề tạo lập các cấu trúc
(constituent) và đưa ra các quy tắc về vị trí của các cấu trúc.
Mô hình cho phép nghiên cứu việc tạo lập các cấu trúc một cách đệ quy chính là mô
hình văn phạm phi ngữ cảnh. Mô hình hình thức này tương đương với dạng chuẩn BNF
(Backus Naur Form) của ngôn ngữ lập trình.
1.1.1. Văn phạm phi ngữ cảnh biểu diễn ngôn ngữ tự nhiên
Văn phạm phi ngữ cảnh bao gồm một tập các luật hay sản xuất, mỗi luật biểu diễn cách
thức mà các ký hiệu của ngôn ngữ được nhóm lại rồi sắp theo thứ tự và một tập từ vựng
bao gồm các từ và ký hiệu.
Ví dụ: Một tập sản xuất của văn phạm phi ngữ cảnh tiếng Việt với ý nghĩa của các ký
hiệu không kết thúc: S - câu, NP - danh ngữ, VP - động ngữ, N - danh từ, V - động từ, P -
đại từ.
S → NP VP NP → P
20
NP → N P VP → V NP
Tập sản xuất này có thể mô tả cấu trúc cú pháp của câu “Tôi yêu mẹ tôi” với đại từ
“tôi”, danh từ “mẹ” và động từ “yêu”.
Một cách hình thức, có thể mô tả văn phạm phi ngữ cảnh như sau:
Định nghĩa 1.1. [70] Văn phạm phi ngữ cảnh là bộ 4 G = (N, Σ, R, S), trong đó:
N: tập ký hiệu không kết thúc (biến).
Σ: tập ký hiệu kết thúc (không giao với N).
R: tập luật, hay tập sản xuất dạng A → β, A là ký hiệu không kết thúc, β là xâu gồm
hữu hạn ký hiệu trên tập vô hạn (Σ ∪ N)* (tập tất cả các xâu trên bảng chữ Σ ∪ N).
S: ký hiệu đầu.
Trong mô hình văn phạm phi ngữ cảnh, bài toán phân tích cú pháp là bài toán tìm ra cây
ngữ cấu cho câu đưa vào. Mỗi nút của cây ngữ cấu có nhãn là một ký hiệu không kết thúc
• Thứ tự tuyến tính của các từ trong câu.
• Tên các phạm trù cú pháp của các từ và nhóm từ.
• Cấu trúc phân cấp của các phạm trù cú pháp.
biểu diễn một cấu trúc. Theo [56], cây ngữ cấu thể hiện những thông tin sau về cú pháp:
Các bộ phân tích cú pháp theo mô hình văn phạm phi ngữ cảnh cổ điển chủ yếu theo hai
phương pháp CYK (Cocke – Younger - Kasami) và Earley. Đã có những bộ phân tích cú
pháp tiếng Việt được xây dựng theo phương pháp CYK [12], Earley [5], [27] với những
cải tiến thích hợp.
Trong hình 1.1 là cây ngữ cấu cho câu “Tôi thích chân gà”. Cây ngữ cấu này nếu không
tính nhãn của các nút lá, thì giống hệt cây ngữ cấu của câu “Tôi thích áo lụa”, tuy nhiên,
nếu đem dịch sang tiếng Anh, hai câu này phải dịch khác hẳn nhau. Quan hệ giữa danh từ
chỉ bộ phận cơ thể động vật và danh từ chỉ động vật là quan hệ sở hữu, do vậy “chân gà”
phải hiểu là “chân của gà”, trong khi quan hệ giữa “áo” và “lụa” lại là quan hệ về mặt
chất liệu “áo bằng lụa”. Mô hình phi ngữ cảnh chưa thể hiện được mối liên hệ này.
21
Hình 1.1. Cây ngữ cấu của câu “Tôi thích chân gà”.
Vấn đề nhập nhằng là một trong những vấn đề phức tạp nhất mà các bộ phân tích cú
pháp phải giải quyết. Theo [70], trong giai đoạn phân tích cú pháp, vấn đề nhập nhằng
hướng về cấu trúc (structural ambiguity). Giả thiết ta chỉ xét câu đơn, tức là câu chỉ có một
nòng cốt và bỏ qua vấn đề nhập nhằng từ loại. Vấn đề nhập nhằng cấu trúc xảy ra khi một
câu có nhiều hơn một cây phân tích. Trong hình 1.2 là hai cây ngữ cấu khác nhau cho câu
“Họ sẽ không chuyển hàng xuống thuyền vào ngày mai” (câu ví dụ trong [20]) với văn
phạm phi ngữ cảnh
S → NP VP
NP → P
VP → R VP | R R V N PP PP PP-TMP | VP PP | V NP PP
PP → E NP
PP-TMP →E NP
Ý nghĩa của các ký hiệu: S - câu, NP - danh ngữ, VP- động ngữ, PP - giới ngữ, N -
danh từ, V - động từ, P - đại từ, R - phụ từ, E - giới từ, PP-TMP - giới ngữ chỉ thời gian.
Hình 1.2. Hai cây ngữ cấu của câu “Họ sẽ không chuyển hàng xuống thuyền vào ngày mai”.
22
Một trong những cách tiếp cận đầu tiên để giải quyết vấn đề nhập nhằng khi phân tích
cú pháp trên mô hình văn phạm phi ngữ cảnh là mô hình văn phạm phi ngữ cảnh xác suất
(Probabilistic Context Free Grammar).
1.1.2. Văn phạm phi ngữ cảnh xác suất
Trong mô hình văn phạm phi ngữ cảnh xác suất, mỗi luật được gắn thêm một xác suất
cho thấy luật đó có thường xuyên được sử dụng trong các cây ngữ cấu hay không.
Định nghĩa 1.2. [70] Văn phạm phi ngữ cảnh xác suất là bộ bốn
N: tập ký hiệu không kết thúc (biến).
Σ: tập ký hiệu kết thúc (không giao với N).
R: tập luật, hay tập sản xuất dạng A → β | p |, trong đó A là ký hiệu không kết thúc, β là
xâu gồm hữu hạn ký hiệu trên tập vô hạn (Σ ∪ N)*, p là số trong đoạn [0,1] biểu thị xác
suất Pr ( β | A ).
S: ký hiệu đầu.
Xác suất của một cây ngữ cấu là tích các xác suất của n luật được sử dụng để mở rộng n
(cid:31)
Pr (T, S) = (cid:26) Pr (RHS(cid:29)|LHS(cid:29))
(cid:29) !
nút trong của nó:
LHSi và RHSi là vế trái và vế phải của sản xuất được dùng cho nút thứ i của cây ngữ
cấu.
T"(S) =
argmax
’(.*.+ ,(cid:29)-./(’) Pr (T | S) = argmax
’(.*.+ ,(cid:29)-./(’)
Pr (T, S) Pr (S)
= argmax
’(.*.+ ,(cid:29)-./(’) Pr (T)
’(.*.+ ,(cid:29)-./(’) Pr (T, S) = argmax
Cây được chọn là cây có xác suất lớn nhất [41]
Biểu thức T.s.t.S = yield(T) yêu cầu tính trên tất cả các cây ngữ cấu T có kết quả là câu S.
Trong trường hợp lý tưởng, nếu có một treebank đủ lớn, có thể tính xác suất của mỗi
luật theo công thức:
→ β → β Count(A ) = Pr ( | A) = Count(A) β →γ ) ) Count(A γ ∑ Count(A Vấn đề là khi bắt đầu công việc, treebank chưa có hoặc chưa đủ lớn. Do vậy cần chọn
một bộ ngữ liệu, phân tích các câu của nó để bổ sung dần vào ngân hàng cây và tính ra các
23
xác suất nói trên. Ta lại đối mặt với vấn đề khác, khi một câu có thể có nhiều phân tích:
phân tích nào sẽ được chọn? Việc giải quyết vấn đề nhập nhằng lại rơi vào tình thế “con gà
và quả trứng”.
Vấn đề nói trên được giải quyết bởi giải thuật trong - ngoài (Inside - Outside Algorithm)
do Baker đề xuất năm 1979 cho văn phạm phi ngữ cảnh [81]. Đây thực chất là biến thể của
giải thuật tiến - lùi của mô hình Markov ẩn (Hidden Markov Model - HMM). Giải thuật
cho phép tính xác suất trong và xác suất ngoài cho câu vào S theo cách đệ quy.
Mô hình Markov ẩn được Manning và Schütze [87] giới thiệu, quan tâm đến dãy các
thực quan sát O1,..., Om sản sinh bởi các luật Ni → NjNk và Ni → wj. Trong đó Oi,
i = 1, m chất là các ký hiệu kết thúc (từ) w1,..., wm của xâu đưa vào.
Theo mô hình HMM, ma trận tham số của văn phạm phi ngữ cảnh xác suất là α [i, j, k]
α [i, j, k] = Pr ( Ni → NjNk | G )
β [i, r] = Pr ( Ni→ r | G )
và β [i, r] với:
Để có thể xây dựng ma trận tham số như trên, văn phạm phi ngữ cảnh được giả thiết là
ở dạng chuẩn Chomsky. Điều này không làm giảm tính tổng quát của mô hình, vì theo
[63], mọi văn phạm phi ngữ cảnh có thể chuyển về dạng chuẩn Chomsky. Ràng buộc sau
α
β
ớ
ọ
?,@
>
∑
8i, j, k; + ∑
8i, r; = 1 v
i m
i i
là bắt buộc cho các tham số :
Ràng buộc này (liên quan đến ký hiệu không kết thúc thứ i trong văn phạm) cho thấy
mọi khả năng áp dụng sản xuất mà vế trái là ký hiệu không kết thúc thứ i chỉ có thể sinh ra
hoặc hai ký hiệu không kết thúc hoặc một ký hiệu kết thúc (do văn phạm ở dạng chuẩn
Chomsky).
Dưới đây là quy ước về ký hiệu theo [87]: • Tập ký hiệu không kết thúc của văn phạm được ký hiệu là { N1,..., Nn }. Ký hiệu đầu
• Tập ký hiệu kết thúc của văn phạm là {w1, ..., wV}.
• Câu được phân tích w1... wm.
• wpq là bộ phận của câu cần phân tích từ từ thứ p đến từ thứ q.
•
là N1 .
? NBC
• αj (p, q) là xác suất ngoài.
• βj (p, q) là xác suất trong.
24
là ký hiệu không kết thúc Nj sinh ra dãy các từ ở vị trí từ p đến q trong câu.
Xác suất trong βj (p, q) là xác suất để ký hiệu không kết thúc thứ j (Nj) sinh ra quan sát
G )
βj ( p, q ) = Pr ( wpq |
? NBC
,
(dãy các từ) wp,... .wq. Một cách hình thức,
Xác suất ngoài αj (p, q) là xác suất để xuất phát từ ký hiệu đầu N1 sinh ra ký hiệu không
? NBC
αj ( p, q ) = Pr ( w1(p-1),
, w(q+1)m | G )
? NBC
kết thúc và các từ của xâu đưa vào nằm ngoài wp,... , wq. Một cách hình thức, ta có :
Xác suất trong và xác suất ngoài là cơ sở để xây dựng giải thuật liên quan đến hai vấn
đề chính trong phân tích cú pháp theo mô hình xác suất, đó là:
1. Đoán nhận (Recognition): Tính xác suất để ký hiệu đầu N1 sinh ra dãy quan sát O
trong văn phạm G. Như vậy, với giải thuật trong (Inside Algorithm), xác suất để một câu
∗
Pr ( w1m | G ) = Pr ( N1
w1m | G ) = β1 ( 1, m )
⇒ Xác suất nói trên là xác suất đúng của câu, tức là tổng xác suất của các phân tích. Để
có m từ w1... wm đúng (được sản sinh bởi văn phạm G) là:
giải quyết vấn đề nhập nhằng cần tìm ra phân tích có xác suất lớn nhất trong số các phân
tích. Vấn đề này được giải quyết bằng giải thuật kiểu Viterbi trong mô hình HMM. Tương
tự như giải thuật tính xác suất trong nhưng giài thuật này tìm giá trị lớn nhất thay cho tính
tổng. Trong [87] đã trình bày toàn bộ giải thuật kiểu Viterbi để tìm ra cây cú pháp tốt nhất
cho câu w1... .wm.
2. Huấn luyện (Training): Sau khi tìm được phân tích tốt nhất cho câu đưa vào, bộ
phân tích cú pháp cần tiếp tục với giai đoạn huấn luyện. Bài toán huấn luyện có thể mô tả
như sau: xác định lại xác suất của tập luật trong văn phạm G khi đã cho dãy huấn luyện
gồm các câu s1, s2,..., sn. Vấn đề huấn luyện cho văn phạm phi ngữ cảnh xác suất đã được
trình bày trong [87].
• Không mô hình hóa được sự phụ thuộc giữa các cấu trúc trên cây cú pháp do xác suất
Theo [70], văn phạm phi ngữ cảnh xác suất có những nhược điểm sau:
• Thiếu thông tin về từ vựng: Thông tin cú pháp có thể liên quan đến những từ đặc biệt
của mỗi luật được tính toán hoàn toàn độc lập với nhau.
nào đó nhưng mô hình phi ngữ cảnh lại không mô tả được. Do vậy dẫn đến nhập nhằng
25
trong xử lý liên hợp (coordination), loại con (subcategory), sử dụng giới từ.
1.1.3.Văn phạm phi ngữ cảnh xác suất từ vựng hóa
Văn phạm phi ngữ cảnh xác suất từ vựng hóa không chỉ thể hiện cấu trúc của các ngữ
mà còn cho biết mối liên hệ giữa các từ. Trong văn phạm phi ngữ cảnh xác suất từ vựng
hóa (Lexicalized Probabilistic Context Free Grammar), mỗi ký hiệu không kết thúc sẽ
được viết dưới dạng A(x), x = w, t)với A là nhãn của cấu trúc. Số ký hiệu không kết thúc
( sẽ tăng rất mạnh, nhiều nhất tới |ν| × |τ| lần, |ν| là số lượng từ trong từ vựng và |τ| là số
lượng từ loại của ngôn ngữ.
Luật của văn phạm phi ngữ cảnh xác suất từ vựng hóa có dạng:
1. Luật nội tại:
P (h) → Ln(ln)...L1(l1) H(h) R1(r1) ... Rm(rm) (1.1)
Trong đó, h là cặp từ / nhãn từ loại. H là con chính của luật, sẽ thừa kế cặp từ / nhãn từ
loại của nút cha P. Thành phần Ln (ln) ... L1(l1) bổ nghĩa cho H ở bên trái và thành phần
R1(r1)... Rm(rm) bổ nghĩa cho H ở bên phải (n hoặc m có thể bằng 0). Dãy bên trái và bên
phải được mở rộng bởi ký hiệu STOP. Do vậy Ln+1 = Rm+1 = STOP.
2. Luật từ vựng:
P (h) → w, P là một từ nhãn loại, h là cặp (w, t) (1.2)
Hình 1.3. dưới đây minh họa một văn phạm phi ngữ cảnh xác suất từ vựng hóa [43].
Khi tính xác suất cho từng sản xuất, việc thêm thông tin từ vựng làm cho mẫu số trở nên
vô cùng lớn, xác suất gần như bằng 0.
Để tránh số lượng tham số quá lớn, trong mô hình được Collins [43] đưa ra, xác suất
của luật nội tại được tính dựa theo luật chuỗi xác suất.
Xác suất sinh ra một đối tượng bổ nghĩa có thể phụ thuộc vào một hàm bất kỳ của các
đối tượng bổ nghĩa trước đó, lĩnh vực của từ trung tâm hay từ trung tâm. Do vậy, khoảng
cách được [43] bổ sung vào giả thiết về tính độc lập của các từ bổ nghĩa.
Mô hình này cũng đã được nhóm Lê Thanh Hương [22] sử dụng để xây dựng bộ phân
tích cú pháp tiếng Việt với nhận xét “Trong tiếng Việt các thành phần biên của các ngữ
phụ thuộc vào thành phần bên cạnh nó nhiều hơn là phụ thuộc vào thành phần trung tâm”.
Trong [22] đã đưa ra công thức tính xác suất luật cho các thành phần biên không có xuất
hiện của khoảng cách và đề xuất công thức tính xác suất cho luật có thêm giá trị xác suất
26
kết nối các từ ở hai bên thành phần chính của vế phải.
Tập luật (sản xuất)
Các luật nội tại
TOP →→→→ S(bought, VBD)
S(bought, VBD →→→→ NP(week, NN) NP(IBM, NNP) VP(bought, VBD)
NP(week, NN →→→→ JJ(Last, JJ) NN(week,NN)
NP(IBM, NNP) →→→→ NNP(IBM, NNP)
VP(bought, VBD) →→→→ VBD(bought,VBD) NP(Lotus,NNP)
NP(Lotus, NNP) →→→→ NNP(Lotus, NNP)
Các luật từ vựng
JJ(last, JJ) →→→→ last
NP(week, NN) →→→→ week
NNP(IBM, NNP) →→→→ IBM
VBD(bought,VBD) →→→→ bought
NP(Lotus, NNP) →→→→ Lotus
Cây ngữ cấu cho câu”Last week IBM bought Lotus”
Hình 1.3. Văn phạm phi ngữ cảnh xác suất và cây ngữ cấu của câu “Last week IBM bought Lotus”
1.1.4. Văn phạm kết nối cây
Với sự ra đời của các treebank, các thao tác viết lại trên văn phạm có thể không diễn ra
trên xâu nữa mà thực hiện trên cây ngữ cấu.
Phần tử cơ sở của văn phạm kết nối cây (Tree Adjoining Grammar - TAG) là cây cơ
27
bản [69]. Các cây cơ bản được kết hợp với nhau qua hai thao tác viết lại là kết hợp và thay
thế. Cây trung gian sinh ra khi áp dụng các phép thế và kết nối được gọi là các cây phân
tích.
Cây phân tích đầy đủ là cây phân tích trong đó mọi nút lá đều có nhãn là ký hiệu kết
thúc. Việc phân tích cú pháp cho một câu có thể hiểu là: xuất phát từ một cây cơ bản có
gốc là tiên đề, tìm một cây phân tích đầy đủ có các nút lá tương ứng với dãy các từ trong
câu.
Văn phạm TAG được từ vựng hóa trở thành LTAG (Lexicalized Tree Adjoining
Grammar). Đây cũng là một dạng văn phạm hoàn toàn từ vựng hóa. Mỗi cây cơ bản đều
có ít nhất một nút lá gắn với một đơn vị từ vựng gọi là từ neo. Ngoài ra, văn phạm còn
thỏa mãn các điều kiện sau:
1. Mỗi cây khởi tạo của LTAG biểu diễn các thành phần của một từ neo (thành phần
đối bổ nghĩa cho từ neo).
2. Các cây cơ bản là cực tiểu: cây khởi tạo phải có từ neo là từ trung tâm của một
thành phần chính trong câu và chứa tất cả các thành phần đối bắt buộc của từ neo [20].
Văn phạm kết nối cây cũng đã được xây dựng cho tiếng Việt trong [22] bằng cách rút
trích từ treebank tiếng Việt. Về khả năng biểu diễn ngôn ngữ, văn phạm kết nối cây có khả
năng biểu diễn ngôn ngữ cảm ngữ cảnh. Hướng tiếp cận này có hiệu quả khi treebank tiếng
Việt đủ lớn.
1.2. Tiếp cận qua cấu trúc nét và văn phạm hợp nhất
Văn phạm hợp nhất được xây dựng trên cơ sở hợp nhất các cấu trúc nét (feature). Cấu
trúc nét được biểu diễn thông qua ma trận giá trị thuộc tính (Attribute Value Matrix -
L
E
Nét 1 Giá trị1 Nét 2 Giá trị2 … . . . Nét n Giá trị n
AVM) có dạng:
Chẳng hạn một cấu trúc danh ngữ trong tiếng Anh mô tả các nét của một danh ngữ:
Loại - danh ngữ, Số - Ít, Ngôi - 3 như sau:
S M CAT NP NUMBER SG PERSON 3 Cấu trúc nét được định nghĩa là ánh xạ F→ VF, F là tập nét , VF là tập giá trị có thể gán
28
cho các nét.
Ví dụ nêu trên là một cấu trúc nét trên tập nét F = { CAT, NUMBER, PERSON }, tập
giá trị VF = { NP, SG, 3 }.
Văn phạm gia tố chứa những luật gia tố dạng A → X1...Xn với A là tên cấu trúc nét cha,
X1, ...Xn là các cấu trúc nét con.
Luật trong văn phạm gia tố được biểu diễn qua cấu trúc nét có chứa biến, nhờ đó có thể
áp dụng luật cho nhiều tình huống khác nhau. Chẳng hạn luật gia tố cho cụm danh từ đơn
giản:
(NP NUMBER ?n) → (ART NUMBER ?n) (N NUMBER ?n )
biểu diễn sự thống nhất về số của mạo từ và danh từ.
Nếu nét có thể biểu diễn dưới dạng đồ thị nét thì có thể hợp nhất các đồ thị nét thành
một đồ thị lớn. Đó là thành phần chính của văn phạm hợp nhất.
Văn phạm hợp nhất là công cụ có thể biểu diễn lớp ngôn ngữ loại 0 là lớp ngôn ngữ lớn
nhất theo phân cấp của Chomsky [63]. Theo nhóm Trần Ngọc Tuấn [26], sử dụng văn
phạm hợp nhất có thể giải quyết một số hiện tượng trong tiếng Việt như hiện tượng liên kết
của một số từ. Các từ chỉ có thể kết hợp với nhau khi có thể tạo ra một liên hợp hợp nhất
các nét của chúng. Ví dụ, từ “quyển” với nét SHAPE: vuông/mỏng chỉ liên kết với những
đối tượng có cùng mô tả nét SHAPE, chẳng hạn “sách”. Tuy nhiên, việc mô tả chi tiết cho
hầu hết các hiện tượng của ngữ pháp tiếng Việt để xây dựng một bộ phân tích cụ thể là quá
phức tạp. Các tác giả của [26] mới chỉ xử lý trên tập con các danh ngữ tiếng Việt.
1.3. Cách tiếp cận phụ thuộc
1.3.1. Một số khái niệm
Văn phạm phụ thuộc có khởi đầu từ ngôn ngữ Ấn độ cổ Panini, mô hình hiện đại được
Lucien Tesnière giới thiệu [75]. Nghiên cứu về văn phạm phụ thuộc phát triển mạnh trên
các ngôn ngữ Slavơ [92], Thổ Nhĩ Kỳ do thể hiện được đặc tính tự do của trật tự từ.
Điểm quan trọng trong mô hình văn phạm phụ thuộc là quan hệ bất đối xứng gọi là
quan hệ phụ thuộc (hay phụ thuộc - dependency). Quan hệ phụ thuộc xảy ra giữa một từ
phụ thuộc (dependent) và một từ khác mà nó phụ thuộc vào gọi là từ trung tâm (head).
29
Văn phạm phụ thuộc sử dụng hai bảng chữ: tập ký hiệu kết thúc và tập ký hiệu bổ trợ
Mỗi phần tử của tập ký hiệu kết thúc là một đơn vị cú pháp nhỏ nhất (đơn vị nguyên tố),
ví dụ hình vị (trong các ngôn ngữ có biến đổi hình thái), cách phát âm hay từ ... Phát ngôn
được coi như một xâu các nguyên tố của của tập ký hiệu kết thúc.
Tập ký hiệu bổ trợ là tập các tên kiểu xuất hiện của các ký hiệu kết thúc. Ký hiệu bổ trợ
không được phép nhập nhằng; mỗi ký hiệu có những thuộc tính cú pháp cố định.
Có nhiều mô hình khác nhau của văn phạm phụ thuộc. Mô hình đầu tiên được mô tả
hình thức bởi Hays [62] và Gaifman [57].
Định nghĩa 1.3. [57]
Văn phạm phụ thuộc là bộ bốn thành phần DG = ( L, C, F, R ), trong đó
L: Tập ký hiệu kết thúc (terminal alphabet).
C: Tập ký hiệu bổ trợ (auxiliary alphabet).
F: L → C hàm gán (assignment function).
R: Tập các luật phụ thuộc thuộc một trong ba dạng dưới đây:
1. Xi(Xj1, Xj2,... ,*, ..., Xjn),trong đó Xi là từ trung tâm, Xj1, Xj2,..., Xjn là các từ phụ
thuộc, n là một số. Thứ tự của các từ trong luật 1 là thứ tự xuất hiện trong câu (có thể
có từ xen giữa các từ được nói đến trong luật). Dấu * đánh dấu vị trí từ trung tâm khi
đứng cùng các từ phụ thuộc của nó trong phát ngôn.
2. Xi (*), chỉ ra rằng ký hiệu kết thúc ứng với Xi có thể xuất hiện mà không có từ phụ
thuộc.
3. *(Xi), chỉ ra rằng đơn vị ứng với Xi có thể xuất hiện mà không có từ trung tâm. Đối
tượng này là trung tâm của phát ngôn mà nó xuất hiện.
Ví dụ:
Văn phạm DG = ( L, C, F, R )
L = { John, loves, a, woman }
C = { N, V, Det }
F: John → N, woman → N, loves → V, a → Det
R bao gồm các luật :
1. *(V) 4. N(*)
2. V(N, *, N) 5. Det(*)
30
3. N(Det, *)
Thông thường, một từ ROOT được thêm vào để dễ dàng xử lý những đối tượng như V.
Câu “John loves a woman” có thể được biểu diễn dưới dạng cây như trong hình 1.4 dưới
đây:
Hình 1.4. Phân tích câu “John loves a woman” trong một mô hình văn phạm phụ thuộc
Liên quan đến văn phạm phụ thuộc có một số khái niệm và tính chất quan trọng sẽ được
trình bày dưới đây.
Các định nghĩa dưới đây được trích từ [75]
Định nghĩa 1.4.
Câu là dãy các từ tố (từ) biểu diễn bởi S = w0w1...wn
Để đơn giản, giả thiết dãy w1,...wn là dãy của các từ khác nhau,ví dụ trong câu “Mary
saw John and Fred saw Susan”, hai thể hiện khác nhau của từ “saw” được coi là phân biệt.
Định nghĩa1.5.
Giả sử R = { r1, ... , rm } là tập hữu hạn các kiểu quan hệ phụ thuộc có thể diễn ra giữa
hai từ trong một câu. Kiểu quan hệ r ∈ R được gọi là nhãn của cung,
Định nghĩa 1.6.
Đồ thị phụ thuộc G = (V, A) là đồ thị định hướng bao gồm tập đỉnh V và tập cung A
• V ⊆ { w0, w1, ... wn }.
• A ⊆ V× R × V.
• Nếu (wi, r, wj) ∈ A thì (wi. r’,wj) ∉A với mọi r’≠ r.
sao cho với câu S = w0w1...wn và tập nhãn R, những khẳng định sau là đúng:
Ví dụ: Đồ thị phụ thuộc của câu “ Economic news had little effect on financial market”
31
trong hình 1.5.
Hình 1.5. Đồ thị phụ thuộc của câu
“Economic news had little effect on financial market”
G = (V, A)
V = VS = { ROOT, Economic, news, had, little, effect, on , financial, markets }
A = { (ROOT, PRED, had), (had, SBJ, news), (had, OBJ, effect), (had, PU,.), (news,
ATT, Economic), (effect, ATT, little), (effect, ATT, on), (on, PC, market), (market, ATT,
financial) }
Định nghĩa phụ thuộc (wi, r, wj) không phải là duy nhất mà có sự khác biệt qua các hệ
thống lý thuyết ngôn ngữ khác nhau.
Định nghĩa 1.7.
Đồ thị phụ thuộc đúng G = (V, A) của câu vào S và tập quan hệ phụ thuộc R là đồ thị
phụ thuộc có dạng cây, có hướng xuất phát từ nút w0 và có tập nút khung.
V = VS. Ta gọi đồ thị phụ thuộc này là cây phụ thuộc.
Ký hiệu tập tất cả các đồ thị phụ thuộc đúng của câu S với tập quan hệ phụ thuộc R là
GS. Có thể coi đây là mô hình phụ thuộc một tầng.
Các mô hình phụ thuộc theo trường phái Praha [109] cho phép phụ thuộc theo nhiều
tầng, do vậy có thể mô hình hóa các thông tin ngữ nghĩa hay hình thái mà vẫn đảm bảo
tính chất của cây phụ thuộc.
1.3.2.Tính chất của cây phụ thuộc
Sau đây là các tính chất của cây phụ thuộc, kết quả phân tích câu theo mô hình phụ
thuộc. Các tính chất này phản ánh đặc trưng của mô hình phụ thuộc nguyên bản của
Tesnière [82].
Cây phụ thuộc G = (V, A) luôn thỏa các tính chất sau:
1. Tính chất gốc: Nút gốc ROOT không phụ thuộc nút nào.
32
2. Tính chất khung: Trên toàn bộ các từ của câu: V = VS.
3. Liên thông: Cây phụ thuộc là đồ thị liên thông yếu.
4. Một từ trung tâm (single head): mỗi từ phụ thuộc chỉ có một từ trung tâm duy nhất.
5. Không chu trình: Đồ thị phu thuộc là liên thông
• Mỗi cung trong cây là xạ ảnh nếu có một con đường từ từ trung tâm tới mọi từ nằm giữa
6. Tính chất về số cung: Đồ thị phụ thuộc G = (V, A) thỏa mãn tính chất:|A| = |V| - 1 7. Tính xạ ảnh (projective)
• Cây phụ thuộc G = (V, A) là cây phụ thuộc xạ ảnh nếu :
o
hai điểm đầu của cung.
o
Nó là cây phụ thuộc
Mọi (wi, r, wj) ∈ A có tính xạ ảnh
• Cây phụ thuộc xạ ảnh thỏa mãn tính phẳng nếu có thể vẽ tất cả các cung của cây ở phần
Ngược lại G là cây phụ thuộc không xạ ảnh
không gian trên của câu mà không có cung nào cắt nhau.
So sánh văn phạm phụ thuộc và văn phạm phi ngữ cảnh
Trong [57], [62] đã chứng minh rằng văn phạm phụ thuộc là tương đương yếu với văn
phạm phi ngữ cảnh.
Khác biệt cơ bản giữa văn phạm phụ thuộc và văn phạm phi ngữ cảnh là cấu trúc phụ
thuộc thể hiện mối quan hệ trung tâm – phụ thuộc giữa các từ, phân lớp bởi các lĩnh vực
theo chức năng như là chủ ngữ hay bổ ngữ, trong khi biểu diễn kiểu phi ngữ cảnh nhóm từ
thành các ngữ và phân lớp theo lĩnh vực cấu trúc như danh ngữ, động ngữ.
Tuy nhiên, với cùng một câu, cây phụ thuộc đơn giản hơn cây ngữ cấu rất nhiều do nó
chỉ chứa số lượng nút bằng số từ trong câu +1.
Văn phạm phụ thuộc rất thích hợp cho các ngôn ngữ có trật tự từ tự do, vì nhiều mô
hình phụ thuộc không đòi hỏi tính xạ ảnh. Việc văn phạm phụ thuộc biểu diễn được sự phụ
thuộc về hình thái từ (giống, số, cách...) cũng là một lý do thuyết phục cho khẳng định trên.
Văn phạm phụ thuộc có thể biểu diễn các thông tin ngữ nghĩa nếu sử dụng các mô hình
mở rộng. Theo Fox [55], mô hình phụ thuộc rất thuận lợi cho bài toán dịch máy do có độ
đo crossing nhỏ.
Ngược lại mô hình phụ thuộc lại khó giải quyết bài toán sinh ngôn ngữ vì trong trường
hợp tổng quát, khó có thể tổ hợp các cây phụ thuộc lại thành một cây phụ thuộc lớn hơn.
Mô hình phụ thuộc cổ điển không giải quyết được vấn đề liên hợp (coordination) do
33
tính chất một từ trung tâm của các mối quan hệ phụ thuộc. Để giải quyết vấn đề này cần sử
dụng một số dạng mở rộng của văn phạm phụ thuộc như văn phạm phạm trù phụ thuộc
(Dependency Categorical Grammar) [103], hay sự phụ thuộc với nhiều từ trung tâm theo
mô hình văn phạm từ (Word Grammar) của Hudson [65], [114].
1.4. Văn phạm liên kết
1.4.1. Khái niệm văn phạm liên kết
Mô hình văn phạm liên kết được Sleator và Temperley [111] đưa ra năm 1991. Đến nay
mô hình này đã được phát triển và sử dụng trên nhiều lĩnh vực khác nhau vì nó đã đặc tả
được nhiều hiện tượng của tiếng Anh cũng như nhiều ngôn ngữ khác. Bộ phân tích liên kết
tiếng Anh cho phép phân tích nhiều câu dài, câu ghép. Kết quả phân tích liên kết được sử
dụng phổ biến trong các hệ thống cho phép rút trích thông tin, dịch máy và sinh ngôn ngữ.
Một văn phạm liên kết bao gồm một tập các từ (có thể coi như tập các ký hiệu kết thúc
của văn phạm), mỗi từ có một yêu cầu liên kết. Một dãy các từ là một câu đúng nếu tồn
tại một cách để vẽ các cung (liên kết) giữa các từ sao cho thoả mãn các điều kiện sau:
1. Tính phẳng (planarity): các liên kết không giao nhau (khi được vẽ phía trên các từ).
2. Tính liên thông (connectivity): các liên kết có khả năng kết nối tất cả các từ trong câu
với nhau.
3. Tính thoả mãn (satisfaction): các liên kết thoả mãn các yêu cầu liên kết của mỗi từ
trong câu
4. Tính loại trừ: không có hai liên kết có thể kết nối cùng một cặp từ.
Các yêu cầu liên kết của mỗi từ được chứa trong một từ điển. Từ điển được biểu diễn
dưới dạng máy tính có thể đọc được. Trong bảng 1.1 dưới đây là ví dụ của một từ điển liên
kết mini:
Bảng 1.1. Ví dụ của một từ điển
Từ Công thức
tại sao cậu không tới THT+ SV+ RnV+ (RnV- or()) &(SV-)&(THT- or ())
Trong từ điển, mỗi từ có với một công thức liên kết. Với dạng của công thức liên kết
34
như vậy cần thêm yêu cầu thứ 5 như sau:
5. Tính thứ tự: Khi các kết nối của một công thức được duyệt từ trái qua phải, các từ
mà nó kết nối tới tiến từ gần ra xa.
Đồ thị trong hình 1.6 chỉ ra các yêu cầu liên kết được thoả mãn trong câu hỏi “Tại sao
cậu không tới?”.
Hình 1.6. Câu đúng ngữ pháp “Tại sao cậu không tới”
Việc sử dụng các công thức để biểu diễn một từ điển văn phạm liên kết là gần gũi với
các hiện tượng của ngôn ngữ tự nhiên, nhưng lại cồng kềnh cho việc mô tả giải thuật phân
tích liên kết. Trong [111] đã giới thiệu một cách khác để biểu diễn văn phạm liên kết gọi là
dạng tuyển (disjunct).
Mỗi từ của văn phạm có một tập các dạng tuyển liên hệ với nó. Mỗi dạng tuyển tương
ứng với một cách thoả mãn các yêu cầu liên kết của một từ. Một dạng tuyển bao gồm hai
danh sách có thứ tự của các tên kết nối: danh sách bên trái và danh sách bên phải. Danh
sách bên trái bao gồm các kết nối mà nối về phía bên trái của từ hiện tại (các kết nối kết
thúc bởi - trong công thức liên kết), và danh sách bên phải chứa các kết nối mà nối về phía
bên phải của từ hiện tại (các kết nối kết thúc bởi + trong công thức liên kết). Một dạng
tuyển được ký hiệu:
((L1, L2,…, Lm) (Rn, Rn-1,…, R1))
trong đó L1, L2,…, Lm là các kết nối về phía trái và Rn, Rn-1,…, R1 là các kết nối về phía
phải. Số lượng các kết nối trong từng danh sách có thể bằng 0. Dấu + hoặc dấu – theo sau
có thể loại bỏ khỏi tên của kết nối khi sử dụng dạng tuyển, vì hướng được ngầm định trong
dạng tuyển.
Để thoả mãn các yêu cầu liên kết của một từ, một trong các dạng tuyển của nó phải
được thoả mãn. Để thoả mãn một dạng tuyển, tất cả các liên kết của nó phải được thoả
mãn bởi các kết nối thích hợp. Các từ mà L1, L2, … liên kết tới đứng bên trái của từ hiện
tại, và giảm đơn điệu về khoảng cách tính từ từ hiện tại. Các từ mà R1, R2, … liên kết tới
35
đứng bên phải của từ hiện tại, và tăng đơn điệu về khoảng cách tính từ từ hiện tại.
Dạng tuyển là công cụ tương đương với công thức. Mỗi công thức tương ứng với một
tập các dạng tuyển. Ví dụ, công thức (A- or ( )) & D- & (B+ or ( )) & (O- or S+) được nêu
trong [111] tương ứng với 8 dạng tuyển sau:
((A,D) (S,B))
((A,D,O) (B))
((A,D) (S))
((A,D,O) ( ))
((D) (S,B))
((D,O) (B))
((D) (S))
((D,O) ( ))
Khi phân tích câu, bộ phân tích liên kết sẽ chuyển công thức trong từ điển thành các
dạng tuyển tương ứng và tìm ra tổ hợp các dạng tuyển thỏa mãn các yêu cầu nói trên, nếu
câu đúng cú pháp.
Dạng tuyển con của một dạng tuyển được xây dựng bằng cách xoá đi một hoặc nhiều
kết nối ở đầu và cuối trong hai danh sách kết nối của dạng tuyển đó.
Ví dụ, Các dạng tuyển con khác rỗng của dạng tuyển ((O)(EoPp)) của danh từ cụ thể
tiếng Việt (“anh”, “chị”, “bố”, “mẹ”...) là: ((O) (EoPp)), ((O) ( )), (( ) (EoPp)).
Kết nối lớn (fat connector) là một kết nối nhưng không chỉ liên kết các từ mà liên kết
các cụm từ. Vì vậy, có thể hiểu dạng tuyển chứa kết nối lớn gồm hai danh sách trái và phải,
mỗi danh sách chứa một dạng tuyển con.
Ví dụ, Kết nối <(O) (EoPp)> là kết nối lớn. Nó có thể là thành phần của dạng tuyển nào
đó, chẳng hạn (( )(<(O) (EoPp)>))
Trong ví dụ ở hình 1.7, kết nối F = <(O) (EoPp)> nối tới cụm từ bao gồm từ “và”, từ
“anh” và từ “chị”. Hai từ “anh” và “chị” cùng có chung dạng tuyển là ((O) (EoPp)). Kết
nối lớn được dùng để nối các thành phần có cùng chức năng trong câu, tránh làm các liên
kết giao nhau. Dạng tuyển cho từ “và” sẽ trở thành ((F, O)(EoPp, F)). Chú ý rằng, trong từ
điển, từ “và” không có dạng tuyển ((O)(EoPp)) mà dạng tuyển đó thuộc về từ “anh” và từ
“chị”. Vì kết nối lớn F được xác lập giữa từ “và” với các từ “anh”, “chị” nên từ “và” đã
đóng vai trò của cả từ “anh” và từ “chị”. Những vấn đề cụ thể về ứng dụng của kết nối lớn
36
sẽ được nói đến ở mục 3.3.
Hình 1.7. Kết nối lớn của từ “và”
Văn phạm liên kết được xếp vào dòng phụ thuộc [70], vì mô hình cũng biểu diễn mối
liên hệ giữa các từ trong câu. Tuy nhiên văn phạm liên kết có nhiều điểm khác biệt.
Liên kết không định hướng: Văn phạm liên kết không có khái niệm “cai trị”, “phụ
thuộc”. Các kết nối không định hướng, hai từ liên kết với nhau là bình đẳng. Mô hình này
chỉ quan tâm đến hướng của liên kết là trái hay phải. Đây là điểm khác nhau cơ bản giữa
văn phạm phụ thuộc và văn phạm liên kết.
Liên kết có nhãn: Nếu trong văn phạm phụ thuộc, các quan hệ phụ thuộc không nhất
thiết có nhãn thì các liên kết trong văn phạm liên kết bắt buộc phải có nhãn.
Trong văn phạm phụ thuộc, tính phụ thuộc là hiện hữu và từ trung tâm bắt buộc phải
có. Điều đó giả thiết rằng từ sự tồn tại của từ phụ thuộc A có thể kết luận sự tồn tại của từ
trung tâm B. Văn phạm liên kết cho phép liên kết có thể xuất hiện hoặc không. Điều đó
cho khả năng phân biệt giữa thành phần bắt buộc và thành phần tùy chọn trong cú pháp của
ngôn ngữ.
Khái niệm từ trung tâm, khái niệm hết sức quan trọng của mô hình phụ thuộc và nhiều
văn phạm ngữ cấu khác như HPSG [104] hay lý thuyết X-bar, vẫn còn có nhiều tranh cãi.
Văn phạm liên kết không dùng khái niệm này và đã thành công ở mức độ cú pháp.Tuy
nhiên, Schneider [109] cho rằng có thể gặp phải một số khó khăn khi phân tích ngữ nghĩa
mà không đặc tả hướng phụ thuộc.
Các luật của văn phạm chứa thông tin về trật tự từ, tức là về việc các từ liên hệ xuất hiện
trước hay sau từ được mô tả tại một lối vào trong từ vựng, phù hợp với xu hướng từ vựng
hóa của phần lớn các văn phạm hiện nay, phù hợp với các ngôn ngữ mà trật tự từ là quan
trọng. Đó cũng là lý do văn phạm liên kết có tính phẳng.
Không giống như trong văn phạm phụ thuộc, một đồ thị biểu diễn phân tích trong văn
phạm liên kết có thể có chu trình, ví dụ khi phân tích câu với đại từ quan hệ như trong hình
37
1.8. dưới đây:
Hình1.8. Chu trình trong phân tích câu
Trong hình 1.8, liên kết gây ra chu trình chính là Bp. Đây chính là một dạng liên kết ngữ
nghĩa cho thấy từ được đại diện bởi “who” chính là “elephant”.
Nhờ cho phép chu trình, văn phạm liên kết có thể biểu diễn đồng thời thông tin cú pháp
và ngữ nghĩa trong các liên kết, trong khi thông tin ngữ nghĩa trong văn phạm phụ thuộc
thường được biểu diễn ở tầng khác so với tầng cú pháp (Văn phạm phụ thuộc đa tầng
[109])
Văn phạm phụ thuộc và văn phạm liên kết còn khác nhau ở mối liên hệ giữa các từ
không liền kề. Tính phẳng của liên kết, tương tự tính phẳng trong văn phạm phụ thuộc, đòi
hỏi các cung biểu diễn liên kết trong một câu không giao nhau khi vẽ trên các từ. Với yêu
cầu tính phẳng, một số quan hệ từ không lân cận có thể không biểu diễn được trong mô
hình văn phạm liên kết. Ví dụ, trong câu “Cái áo này, dù rất đắt, tôi vẫn mua”, sau khi vẽ
liên kết giữa danh từ “áo” với tính từ “đắt” và động từ “mua”, sẽ không thể vẽ liên kết giữa
từ “dù” với dấu phảy mà vẫn đảm bảo tính phẳng. Tồn tại những văn phạm phụ thuộc
không có tính xạ ảnh, nhưng tính phẳng là bắt buộc trong văn phạm liên kết. Rất may,
những câu như trong ví dụ trên không thường gặp trong thực tế.
1.4.2. Các định nghĩa hình thức về văn phạm liên kết
Qua mô tả phi hình thức được nói đến ở phần trên, ta có thể đi đến mô tả văn phạm liên
kết và các khái niệm liên quan một cách hình thức (theo [34]). Những khái niệm sau dẫn
1.4.2.1.Mạng liên kết
đến định nghĩa của văn phạm liên kết.
Theo như mô tả ở trên, một mạng liên kết (link net) sẽ biểu diễn phân tích của một cụm
từ nào đó theo văn phạm liên kết. Có thể hình dung mạng liên kết là một đồ thị với các
đỉnh có nhãn là các từ, còn các cung có nhãn là các kiểu kết nối. Đồ thị của mạng liên kết
là một đồ thị phẳng, liên thông, với tất cả các đỉnh được sắp thứ tự trên biên của đồ thị.
38
Quan hệ E là đối xứng nếu và chỉ nếu (x,y) ∈ E ⇔ (y, x) ∈ E
Quan hệ E là phản phản xạ nếu và chỉ nếu (x, x) ∉ E.
Định nghĩa 1.8. [34]
Giả sử Σ là một bảng chữ và Pr là tập các kiểu nguyên thủy, (ν, ≤) là một tập sắp thứ tự
hoàn toàn,
Mạng liên kết là một cấu trúc (V, w, E, t), trong đó:
1. Tập đỉnhV ⊆ ν là tập con hữu hạn không rỗng của ν, ký hiệu là (v1,... vn),
n = | V | và v1 < ... < vn;
2. w: V → Σ ánh xạ mỗi đỉnh với một từ;
3. Tập cung E ⊆ V × V là tập con đối xứng và phản phản xạ của V×V;
4. t: E → Pr ánh xạ mỗi cung tới một kiểu nguyên thủy;
5. Các cung không giao nhau: nếu (a, b) ∈ E và (c, d) ∈ E sao cho a < b và c < d thì
không xảy ra a < c < b < d hay c < a < d < b;
6. Đồ thị (V, E) là liên thông.
Tập tất cả các mạng liên kết trên Σ được ký hiệu là NPr(Σ)
Định nghĩa 1.9. Kết quả (yield) của mạng liên kết [34]
yield(N) = w(v1)... .w(vn) ∈ Σ+.
Kết quả của một mạng liên kết N = ((v1,... .vn), w, E, t) là :
1.4.2.2. Nút liên kết
Kết quả của mạng liên kết chính là một cụm từ đúng cú pháp liên kết.
Nút liên kết là khái niệm hình thức của dạng tuyển.
Định nghĩa1.10. Tập các nút liên kết trên Pr, ký hiệu Tp là tập các cặp hai danh sách
hữu hạn của Pr. Mỗi nút liên kết X có một danh sách trái các cổng ký hiệu là tn- ... t1- và
một danh sách phải các cổng ký hiệu là t1+ ... tm+. [34]
39
Hình 1.9. Nút liên kết
Với mỗi đỉnh v của mạng liên kết N = (V, w, E, t), tập các cung liên quan đến v có thể
chia thành một danh sách trái (xn,v)... (x1,v) và một danh sách phải (v,y1)... (v,ym), trong đó
xn < xn-1 < ... < x1 < v < y1... < ym-1 < ym. Do vậy, v liên hệ với nút liên kết node(v) =
1.4.2.3.Văn phạm liên kết
t(xn,v)-... t(x1,v)- t(v,y1)+. .. t(v,ym)+
Định nghĩa 1.11. [34] Cho Σ là một bảng chữ. Văn phạm liên kết là cấu trúc G = (Σ, I) với I: Σ → Pf(Tp) (ký
hiệu Pf(X) là tập tất cả các tập con của X).
Định nghĩa 1.12.
Mạng liên kết ((v1, ... .vn), w, E, t) được sản sinh bởi G nếu và chỉ nếu G: w(vi) → t(vi)
với mọi i, 0 ≤ i ≤ n.
Định nghĩa 1.13. Câu c1...cn ∈ Σ+ được sản sinh bởi văn phạm liên kết G nếu và chỉ nếu tồn tại mạng liên
kết N sao cho c1, ..., cn = yield (N) và N được sản sinh bởi G.
Định nghĩa 1.14.
Ngôn ngữ sản sinh bởi văn phạm liên kết G, ký hiệu LΣ+(G) là tập tất cả các câu sản
sinh bởi G.
1.5. Kết luận
So sánh các mô hình văn pham nói trên, có thể thấy mô hình văn phạm phi ngữ cảnh cổ
điển còn có một số hạn chế với cây ngữ cấu phức tạp, khó biểu diễn quan hệ giữa thành
phần không liền kề cũng như nhiều hiện tượng cá biệt trong từng ngôn ngữ. Một dạng văn
phạm dựa trên hướng tiếp cận phi ngữ cảnh là văn phạm kết nối cây lại đòi hỏi ngân hàng
cây rất lớn, hiện nay chưa có điều kiện xây dựng ở Việt Nam. Cách tiếp cận qua nét có khả
năng biểu diễn lớp ngôn ngữ rộng, nhưng xây dựng được hệ thống nét đòi hỏi rất nhiều
công sức và kiến thức sâu rộng về tiếng Việt.
Như đã phân tích ở mục 1.3, phân tích câu theo mô hình phụ thuộc có nhiều lợi thế. Đó
là lý do các bộ phân tích phụ thuộc đã được xây dựng cho nhiều ngôn ngữ. Đầu tiên là
ngôn ngữ có trật tự từ tự do như tiếng Nga [98], tiếng Thổ Nhĩ Kỳ, tiếng Phần Lan [109].
Tuy nhiên, điều đó không có nghĩa là mô hình phụ thuộc chỉ thích hợp cho các ngôn ngữ
40
có trật tự từ tự do. Phân tích cú pháp phụ thuộc cũng đã thành công trong tiếng Anh [44],
Pháp [39], [40] và nhiều thứ tiếng châu Âu khác. Phân tích cú pháp phụ thuộc cũng được
chú ý cho nhiều ngôn ngữ châu Á: Nhật [99], [125], Hàn [74], [78], Trung Quốc [118],
Indonesia [72], Thái Lan[119], Philippines [85].
Mô hình văn phạm phụ thuộc rất khó xây dựng nếu chưa có những nghiên cứu cơ bản
về ngôn ngữ học. Ví dụ, theo [2], còn có nhiều tranh cãi về thành phần trong danh ngữ:
Trong tiếng Việt, có những trường hợp yếu tố chính về ngữ pháp thì lại đóng vai trò phụ về
từ pháp trong khi yếu tố chính về từ pháp lại đóng vai trò phụ về ngữ pháp.
Ví dụ: Xét hai câu
a. Lúc ấy thì nó mới 6 tuổi
b. Lúc Cách mạng Tháng 8 bùng nổ thì nó mới 6 tuổi
Với cùng vị trí, cùng cấu trúc, danh từ “lúc” đóng vai trò chính ở câu trên nhưng lại
đóng vai trò phụ ở câu dưới. Hơn nữa, trong cấu trúc danh ngữ chỉ có danh từ là thành
phần chính hay thành phần chính có thể chứa từ khác ngoài danh từ? Như vậy vấn đề thành
phần nào phụ thuộc thành phần nào còn chưa có câu trả lời chính xác.
Hiện nay mới có một bộ phân tích cú pháp phụ thuộc tiếng Việt được Nguyễn Lê Minh
và các đồng nghiệp xây dựng [17]. Bộ phân tích cú pháp này được xây dựng bằng phương
pháp MST, tức là chuyển bài toán tìm cây phụ thuộc về bài toán tìm cây khung lớn nhất
trong một đồ thị, trên một kho ngữ liệu gồm 450 câu tiếng Việt được gán nhãn và phân tích
bằng tay. Như vậy chưa có một văn phạm phụ thuộc thực sự được xây dựng cho tiếng Việt.
Luận án đã quyết định chọn mô hình văn phạm liên kết vì những lý do sau:
1. Văn phạm liên kết cũng là một dạng của văn phạm phụ thuộc. Tuy nhiên do liên kết chỉ
quan tâm đến hướng mà không xác định đối tượng nào phụ thuộc nên các mối liên kết
có thể suy ra từ quy tắc ngữ pháp dễ dàng hơn.
2. Có thể biểu diễn thông tin ngữ nghĩa thông qua những liên kết của văn phạm liên kết,
do vậy có nhiều khả năng mở rộng nghiên cứu trên mô hình này.
3. Về khả năng biểu diễn ngôn ngữ, Sleator và Temperley [111] đã chứng minh mọi văn
phạm liên kết là đều có văn phạm phi ngữ cảnh tương đương và ngược lại, tức là hai
mô hình lý thuyết này đều cùng biểu diễn lớp ngôn ngữ phi ngữ cảnh. Theo
Jurafsky[70], những ngôn ngữ tự nhiên nằm ngoài lớp ngôn ngữ phi ngữ cảnh như
ngôn ngữ sao chép (copying language) chứa những câu rất đặc biệt, hiếm gặp trong
thực tế. Những ngôn ngữ này không thuộc phạm vi luận án quan tâm.
4. Nói chung trật tự từ là quan trọng trong tiếng Việt. Ví dụ trong [2], Nguyễn Tài Cẩn đã
41
viết “trong danh ngữ tiếng Việt không có loại định tố nào có trật tự tự do, khi thì ở
trước, khi thì ở sau”, định tố ở đầu và định tố ở cuối danh ngữ có một số đặc điểm khác
nhau một cách cơ bản. Cấu trúc của các loại đoản ngữ khác cũng tương tự như vậy.
Chỉ số ít những thành phần trong câu có vị trí linh hoạt, chẳng hạn như các từ chỉ thời
gian (“hôm qua”, “tối nay”... ). Như vậy mô hình liên kết đặc biệt nhấn mạnh vị trí
trước sau của các thành tố trong câu là phù hợp cho tiếng Việt.
5. Phần lớn các ngôn ngữ của vùng Đông Nam Á là các ngôn ngữ “nghèo tài nguyên”, bộ
ngữ liệu mẫu của các ngôn ngữ này đều nhỏ, do vậy nhiều hệ thống dịch máy vẫn dùng
phương pháp dịch trên luật, ngoài ra bộ luật cú pháp cũng rất hữu hiệu để nâng cao
chất lượng dịch cho các phương pháp khác. Với đặc điểm hoàn toàn từ vựng hóa, mô
hình liên kết cho phép chỉnh sửa, hoàn thiện bản dịch khá tốt.
6. Tiếp tục liên quan đến bài toán dịch máy, trong tiếng Việt, khi chuyển sang thì quá
khứ, tương lai... động từ chính không biến đổi hình thái mà được ghép thêm các phụ từ
chỉ thì. Do vậy khi dịch câu tiếng Việt sang ngôn ngữ biến đổi hình thái mạnh mẽ, cần
phát hiện thì thông qua các phụ từ này. Ví dụ câu “Tôi đang học”, khi dịch sang tiếng
Anh, thì của động từ “học” là hiện tại tiếp diễn. Tuy nhiên nếu xét câu “Hôm qua, anh
ấy đến khi tôi đang học” động từ “đến” phải chia ở thì quá khứ, động từ “học” phải
chia ở thì quá khứ tiếp diễn. Những mối liên hệ này có thể biểu diễn trong mô hình
dịch thông qua các liên kết giữa từ “hôm qua” với các động từ. Tương tự như vậy, cách
xưng hô trong tiếng Việt rất phức tạp. Nhiều cụm từ như “anh ấy”, “bọn chúng”,
“chúng tớ”, “các bạn ấy” đóng vai trò như đại từ xưng hô, khi chuyển sang ngôn ngữ
khác thường phải dịch thành đại từ xưng hô. Các bộ từ điển của văn phạm liên kết chấp
nhận các công thức cho cụm từ và công thức chỉ dành riêng cho một hoặc một số từ
nên cho khả năng xử lý nhiều biệt lệ của tiếng Việt một cách linh hoạt.
Sau khi nghiên cứu và rút ra những đặc điểm của mô hình ngôn ngữ này, luận án sẽ tập
• Bài toán phân tích cú pháp. Đây là bài toán bắt buộc phải làm khi xây dựng mô
trung giải quyết các bài toán sau:
• Bài toán dịch máy. Mô hình văn phạm liên kết biểu diễn được nhiều đặc điểm khác
hình biểu diễn cú pháp mới.
biệt của tiếng Việt mà khi chuyển sang ngôn ngữ khác cần thực hiện nhiều biến đổi.
Do vậy, luận án chọn bài toán dịch Việt - Anh nhằm tận dụng khả năng biểu diễn
42
mối liên hệ trực tiếp giữa các từ của mô hình văn phạm liên kết.
CHƯƠNG 2
MÔ HÌNH VĂN PHẠM LIÊN KẾT TIẾNG VIỆT
2.1.Văn phạm liên kết cho tiếng Việt
Từ định nghĩa hình thức của văn phạm liên kết, có thể thấy công việc quan trọng nhất
khi xây dựng văn pham chính là ánh xạ các từ với các nút liên kết.
Nếu đơn vị nguyên tố khi phân tích cú pháp của một số ngôn ngữ là hình vị thì đơn vị
đó trong tiếng Việt lại là từ. Theo tài liệu của Ủy ban Khoa học Xã hội [28], mỗi từ trong
tiếng Việt có thể gồm nhiều hình vị. Việc phát hiện giới hạn từ trong văn bản được thực
hiện nhờ bộ tách từ tự động.
Tiếng Việt có những đặc điểm khác biệt với các ngôn ngữ khác, như trong ngữ nghĩa,
không có các ý nghĩa thuộc phạm trù hình thái (giống, số, cách); trong hoạt động tạo câu,
các mối liên hệ ngữ pháp không biểu hiện ở sự biến hình mà biểu hiện bằng trật tự từ [16].
Kết nối của văn phạm liên kết hoàn toàn có thể biểu diễn các mối liên hệ này.
Liên kết xuất hiện khi các từ được tổ hợp lại. Theo Nguyễn Tài Cẩn [2], có ba loại tổ
hợp chính: liên hợp, mệnh đề và đoản ngữ. Liên hợp và mệnh đề sẽ được xét đến khi thực
hiện những bước phân tích cú pháp phức tạp và sẽ được nhắc đến ở chương sau. Đoản ngữ
(ngữ - phrase) là những tổ hợp gồm một trung tâm nối liền với các thành tố phụ bằng quan
hệ chính phụ [2]. Tùy theo kiểu của trung tâm, đoản ngữ được chia thành danh ngữ, động
ngữ hay tính ngữ. Các quan hệ liên kết sẽ được xây dựng căn cứ vào cấu trúc của các đoản
ngữ. Ngoài ra một số quan hệ không được biểu diễn qua quan hệ từ, ví dụ “mẹ tôi”, “áo
anh”, là các cụm hai danh từ đi cạnh nhau, danh từ thứ hai sẽ chỉ chủ sở hữu của danh từ
thứ nhất. Đây là một trong nhiều hiện tượng đặc biệt của cú pháp tiếng Việt. Việc thể hiện
được các mối liên hệ này sẽ hỗ trợ đắc lực cho hệ thống dịch máy với ngôn ngữ nguồn là
tiếng Việt.
Toàn bộ các trường hợp liên kết sẽ được lưu trữ lại trong từ điển văn phạm liên kết
2.1.1. Cấu trúc từ điển liên kết
Hệ thống từ điển văn phạm liên kết tiếng Anh được xây dựng bởi Sleator và Temperley,
theo [111]. Năm 2003, Szolovits thêm vào hàng loạt các từ trong lĩnh vực y học [113]. Từ
43
2008 đến 2011, từ điển được cập nhật bởi Linas Vepstas, thêm các quan hệ cho mệnh đề,
Mike Ross cũng mới thêm vào một số mục mới chủ yếu liên quan đến các mệnh đề phụ với
các từ “than” và các từ liên kết dạng “wh”[137].
Hệ thống được chia làm 12 mục lớn với 7 mục dành cho các loại từ tiếng Anh: danh từ,
• Các dạng số.
•
từ hạn định, đại từ, động từ, tính từ, phó từ và giới từ. Ngoài ra có các mục:
•
Từ chỉ thời gian, địa danh.
•
Liên từ, từ để hỏi.
• Dấu câu, các từ khác.
Từ so sánh.
Để tổ chức lưu trữ dễ dàng, [111] đã đưa ra ký pháp để tạo thành công thức biểu diễn
các luật liên kết, đó là:
Chiều của liên kết:
Dấu “+” nằm sau tên kết nối chỉ liên kết với từ nằm bên phải,
Dấu “-” nằm sau tên kết nối chỉ liên kết với từ nằm bên trái,
Toán tử :
& xảy ra đồng thời cả hai liên kết thành phần.
or xảy ra một trong hai, hoặc cả hai liên kết thành phần.
xor chỉ chọn một trong hai liên kết thành phần. Toán tử này do luận án thêm vào bộ
phân tích cú pháp tiếng Việt để xử lý trường hợp cho phép chọn chỉ một trong hai cách
liên kết, ví dụ liên kết với từ “đẹp”có thể là “rất đẹp” hoặc “đẹp tuyệt vời” nhưng
không thể là “rất đẹp tuyệt vời”.
{C}: C có thể xuất hiện hoặc không.
@C: Nhiều thể hiện của kết nối loại C có thể cùng xuất hiện, ví dụ trong đoản ngữ
“the cute red hat”, hai tính từ “cute”, “red”, đều bổ nghĩa cho danh từ “hat”.
Macro: Cho phép định nghĩa một số “macro” để viết các công thức ngắn gọn và dễ hiểu
hơn, ví dụ một macro định nghĩa mệnh đề:
: {({@COd-} & (C- or )) or ({@CO-} & (Wd- &
{CC+})) or [Rn-]};
Trong những công thức tiếp sau, mọi xuất hiện của biểu thức ở vế phải được thay bằng
.
Từ điển liên kết tiếng Việt cũng có cấu trúc tương tự như từ điển liên kết tiếng Anh
nghĩa là mỗi công thức được thiết lập cho các từ cùng loại. Theo [16], từ tiếng Việt được
44
chia thành các loại như trong bảng 2.1. dưới đây:
Bảng 2.1.Các loại từ tiếng Việt
STT
Mã loại
Tên loại
N
danh từ
1
V
động từ
2
A
tính từ
3
M
số từ
4
P
đại từ
5
R
phụ từ
6
E
giới từ
7
C
liên từ
8
I
trợ từ
9
O
cảm từ
10
D
định từ
11
Z
yếu tố từ (bất, vô…)
12
X
không xác định
13
Các loại từ lại được chia thành tiểu loại. Trong bảng 2.2 dưới đây là các tiểu loại dựa
trên phân cấp của [16] có bổ sung số tiểu loại đáp ứng các yêu cầu phân biệt về liên kết khi
dịch theo hệ thống dịch máy của luận án.
Bảng 2.2. Các tiểu loại từ tiếng Việt
STT
Ký hiệu
Mã loại
Tên tiểu loại
Np
1
danh từ riêng
N
Nc
2
danh từ đơn thể
N
Ng
3
danh từ tổng thể
N
Na
4
danh từ trừu tượng
N
Ns
5
danh từ chỉ loại
N
Nu
6
danh từ đơn vị
N
Nl
7
danh từ vị trí
N
Vi
8
động từ nội động
V
V
Vt
9
động từ ngoại động
V
Vs
10
động từ trạng thái
Vm
11
động từ tình thái
V
45
STT
Ký hiệu
Mã loại
Tên tiểu loại
Vr
12
động từ quan hệ
V
Ap
13
tính từ tính chất
A
Ar
14
tính từ quan hệ
A
Ao
15
tính từ tượng thanh
A
Ai
16
tính từ tượng hình
A
Mc
17
số từ số lượng
M
Mo
18
số từ thứ tự
M
Pp
19
đại từ xưng hô
P
Pd
20
đại từ chỉ định
P
Pq
21
đại từ số lượng
P
Pi
22
đại từ nghi vấn
P
Rt
23
phụ từ thời gian hiện tại
R
Rp
24
phụ từ thời gian quá khứ
R
Rf
25
phụ từ thời gian tương lai
R
Rl
26
phụ từ mức độ
R
Rc
27
phụ từ so sánh
R
Ra
28
phụ từ khẳng định
R
Rn
29
phụ từ phủ định
R
Rs
30
phụ từ chỉ phạm vi
R
Es
31
giới từ phạm vi
E
Ep
32
giới từ vị trí
E
Eo
33
giới từ sở hữu
E
Em
34
giới từ chất liệu
E
Eg
36
giới từ mục đích
E
Cs
37
liên từ chính phụ
C
Cc
38
liên từ liên hợp
C
I
39
trợ từ
I
O
40
cảm từ
O
Dp
41
Dp
định từ số lượng
Dp
42
định từ chỉ số nhiều
D
Ds
43
định từ chỉ số ít
D
Z
44
yếu tố từ (bất, vô…)
Z
X
45
không xác định
X
Mỗi tiểu loại từ tuân theo những luật cú pháp riêng nên có những công thức liên kết
46
riêng. Tuy nhiên việc chia thành các tiểu loại cũng chưa đủ để xây dựng các công thức liên
kết vì chính các từ trong cùng một tiểu loại cũng có thể có cách thức liên kết khác nhau.
Luận án đã xây dựng từ điển dựa theo phân loại trong [16] (mức tiểu tiểu loại).
Chi tiết về các liên kết điển hình được trình bày trong phụ lục.
2.1.2. Xây dựng liên kết cho danh từ
Danh từ là loại từ xuất hiện với tần suất lớn nhất trong các câu. Trong [2] đã nêu một số
đặc điểm liên quan đến việc kết nối các từ khi phân chia danh từ thành các tiểu loại:
• Danh từ biệt loại là danh từ chỉ người, danh từ chỉ đồ đạc, danh từ chỉ động thực vật,
Danh từ biệt loại và không biệt loại
danh từ chỉ một số khái niệm trừu tượng. Danh từ loại này có kết hợp với đơn vị tự
• Danh từ không biệt loại chỉ chất liệu kết hợp với danh từ chỉ đơn vị quy ước như”tấn”,
nhiên (“cái”,”con”, “bức”...)
“cân”...
• Danh từ trực tiếp đếm được: một số danh từ cụ thể , danh từ chỉ đơn vị tiền tệ, hành
Danh từ đếm được và không đếm được
• Danh từ không trực tiếp đếm được: Không có liên hệ trực tiếp với số từ mà qua đơn vị
chính, tổ chức… (ví dụ: “ba đồng”, “hai cơ quan”).
tự nhiên, ví dụ danh từ chỉ động vật, thực vật... (ví dụ: “ba bông hồng”, “bốn con
mèo”)
• Danh từ chỉ xuất được kết hợp được với từ “cái”, ví dụ từ “xã”- “cái xã này”.
• Danh từ không chỉ xuất được kết hợp với từ “cái” phải thông qua đơn vị khác, ví dụ
Danh từ chỉ xuất được và danh từ không chỉ xuất được
“sinh viên”, phải nói “cái anh sinh viên này”.
Để xây dựng bộ từ điển tiếng Việt, [16] đã có cách phân loại thích hợp với xử lý tự
động nên luận án đã theo cách làm của [16]. Theo đó, các tiểu loại danh từ được phân chia
thành các nhóm nhỏ hơn, mỗi loại này có thể có những mối liên kết riêng thể hiện những
hiện tượng đã được nêu trong [2]. Từ điển của luận án được xây dựng theo phân loại này
có thêm những ngoại lệ: một số mục được nhập lại thành một, đồng thời thêm một số mục
47
khác. Chi tiết về liên kết của từng loại từ được trình bày trong phần phụ lục.
2.1.2.1. Liên kết của danh từ đóng vai trò chủ ngữ, bổ ngữ
Vai trò quan trọng nhất của danh từ là làm chủ ngữ. Về vị ngữ, trong tiếng Việt các loại
vị ngữ thường gặp nhất là động từ (đặc biệt động từ quan hệ “là”) và tính từ . Như vậy,
chắc chắn các kết nối SV+, SA+, DT_LA+ có ở tất cả các loại danh từ, trừ danh chỉ loại và
một số nhóm danh từ chỉ đơn vị. Danh từ cũng là đối tượng trực tiếp và gián tiếp của hành
động nên nói chung các loại danh từ có kết nối O- (bổ ngữ trực tiếp) và IO- (bổ ngữ gián
tiếp) với động từ, LA_DT- với động từ quan hệ “là” Chi tiết về các công thức liên kết xem
2.1.2.2. Xây dựng liên kết dựa trên cấu trúc danh ngữ
trong phần phụ lục.
Xem xét cấu trúc của danh ngữ, có thể tìm ra được các mối liên hệ mà trong đó danh từ
đóng vai trò trung tâm. Nguyễn Chí Hòa [8] cho rằng chỉ có một danh từ là trung tâm của
danh ngữ, tuy nhiên Nguyễn Tài Cẩn [2] lại chọn phương án hai từ trung tâm. Dù sao, điều
đó cũng không ảnh hưởng đến số lượng các mối liên hệ. Ở trường hợp đầy đủ nhất, một
danh ngữ có thể có cấu trúc như hình 2.1. dưới đây (theo [8]):
Trung
-3
-2
-1
1
2
3
4
5
tâm
Hình 2.1. Cấu trúc danh ngữ với đầy đủ các thành tố
Trên sơ đồ cấu trúc đó, xét hai loại: thành tố phụ đứng trước và thành tố phụ đứng sau
danh từ.
• Vị trí trước thứ nhất (đánh số -3) được dành cho thành tố phụ có tác dụng bổ sung
a. Thành tố phụ đứng trước danh từ
cho danh từ trung tâm ý nghĩa về số lượng, về toàn bộ một sự vật, cụ thể gồm các
loại từ sau:
- Đại từ chỉ lượng, ví dụ “tất thảy”, “tất cả”, “toàn bộ”, “toàn”, “một số”.
• Vị trí trước thứ hai (-2) dành cho các danh từ chỉ lượng (từ chỉ số ít, số nhiều, số từ
- Danh từ trừu tượng mang ý nghĩa toàn bộ: “toàn thể”
số lượng) như :
- Định từ chỉ số nhiều: “những”, “các”,”mọi”,”vài”, “mấy”, định từ chỉ số ít
48
“mỗi”, “từng”...
• Vị trí trước thứ ba (-1): đây chính là vị trí mà [2] xếp vào thành phần trung tâm,
- Số từ số lượng: bằng chữ: “một”, “hai”..., bằng số: 1269
dành cho:
- Các danh từ chỉ loại: Danh từ chỉ loại “con”, “cái”, “cuốn”... được phân chia
vào loại liên kết với 6 tiểu tiểu loại của danh từ cụ thể .
- Các danh từ chỉ đơn vị: [16] chia danh từ chỉ đơn vị thành 4 loại đơn vị đo
lường và hai loại khác: hành chính tổ chức và tần suất.
Sau đây là mô tả dạng kết nối cho vị trí trước danh từ: (cid:1) Kết nối cho thành phần phụ thứ ba (-1)
Thành phần phụ thứ ba có thể là danh từ chỉ loại hoặc danh từ chỉ đơn vị. Chỉ khi danh
từ trung tâm là danh từ riêng hoặc danh từ cụ thể mới xuất hiện thành phần phụ thứ ba. Xét
hai trường hợp cho hai loại danh từ ở vị trí thành phần phụ thứ ba:
Danh từ chỉ loại: Danh từ chỉ loại lại gồm nhiều tập hợp, mỗi tập hợp chỉ đi với một số
danh từ. Ví dụ “cuốn”, “chiếc” chỉ đi với đồ vật, “chú”, “thằng” chỉ đi với danh từ chỉ
người. Để đảm bảo tính chính xác của phân tích liên kết, luận án đưa ra các loại kết nối
khác nhau cho từng loại danh từ có thể kết hợp danh từ chỉ loại.
Danh từ riêng chỉ tên người có kết nối NcN1- tới các danh từ chỉ loại liên quan đến
người như: “cô”, “chú”, “đứa”...
Ví dụ: Các cụm từ “bà Clinton”, “chú Cuội” chứa liên kết NcN1 giữa danh từ chỉ loại
và tên riêng.
Danh từ riêng chỉ tên tác phẩm có kết nối NcN4- tới các danh từ chỉ loại về vật.
Ví dụ: Cụm từ “quyển Kinh Thánh” có chứa liên kết NcN4 giữa từ “quyển” và từ “Kinh
Thánh”.
Danh từ cụ thể: Tùy loại danh từ mà xác định các kiểu liên kết khác nhau với danh từ
chỉ loại, ví dụ “thằng”, “đứa” đi với danh từ chỉ người, trong khi “tia” lại đi với danh
từ chỉ hiện tượng. Việc chia thành 6 loại liên kết đảm bảo thể hiện chính xác cách dùng
• Người: NcNt1-
• Động vật: NcNt2-
• Thực vât: NcNt3-
• Đồ dùng, vật dụng : NcNt4-
• Hiện tượng: NcNt5-
• Khái niệm: NcNt6-
49
tiếng Việt:
Một số danh từ không phải chỉ loại nhưng được dùng như danh từ chỉ loại cũng có
những kết nối như trên, ví dụ “nàng”, “đức”...
Danh từ chỉ đơn vị: Danh từ chỉ đơn vị thường đi kèm số từ. Trong [16] đã phân chia
danh từ chỉ đơn vị thành 6 tiểu loại nhưng chỉ có 4 tiểu loại: đo lường khoa học chính xác,
đo lường dân gian, thời gian , tiền tệlà luôn đi kèm số từ ở bên trái và danh từ ở bên phải,
ví dụ “2 kg thóc”.
• Thêm cho danh từ kết nối NuNt-.
• Thêm cho danh từ chỉ đơn vị công thức McNu- & {NuNt+}. Công thức này đòi hỏi
Công thức liên kết cho loại danh từ chỉ đơn vị này được xây dựng như sau:
dạng của cụm từ là
• Thêm cho số từ liên kết McNu+.
hoặc “hai mét”.
Hai tiểu loại danh từ chỉ đơn vị khác là đơn vị hành chính, tổ chức (“phường”, “xã”….)
và đơn vị tần suất (“lần”, “phiên”, “mẻ”...) không xuất hiện ở vị trí thành phần phụ thứ ba.
(cid:1) Kết nối cho thành phần phụ thứ hai (-2)
Danh từ riêng chỉ tên đồ vật, danh từ cụ thể chỉ người, động vật, thực vật, đồ dùng vật
• DpN: Kết nối định từ chỉ số nhiều với danh từ.
• DsN: Kết nối định từ chỉ số ít với danh từ.
dụng có kết nối tới thành tố phụ chỉ số ít hay số nhiều. Các liên kết sau đã được xây dựng:
Tương tự, vị trí này cũng dành cho số từ chỉ số lượng (Mc). Liên kết chỉ tồn tại giữa số
từ và danh từ cụ thể được đặt tên là McNt.
Ở vị trí này cần xây dựng những liên kết cụ thể chỉ rõ trường hợp nào đi kèm danh từ
chỉ loại hay số từ, trường hợp nào không.
Ví dụ, tiếng Việt luôn nói “những con chó” mà không bao giờ nói “những chó”. Tuy
nhiên lại có thể nói “những sinh viên “ hay “những bạn sinh viên” đều được. Do vậy cần
xây dựng liên kết cho từng trường hợp cụ thể.
Công thức cho danh từ chỉ người:{DpNt- or McNt-} & {NcN1-} cho phép chấp nhận
các cụm từ sau: “cậu sinh viên”, “các anh sinh viên”, “5 sinh viên”, “sinh viên”.
Công thức cho danh từ chỉ động vật lại có những khác biệt. Danh từ loại này không thể
thiếu danh từ chỉ loại đi kèm khi đi vói số từ hay định từ chỉ số lượng . Luận án đã đề xuất
công thức cho danh từ chỉ động vật, thực vật:
(NcN2- or NcN3-) & {DpNt- or McNt-}
50
Công thức cho danh từ chỉ đồ vât, vật dụng cũng tương tự như với danh từ chỉ người:
{NcN4-} & {DpNt- or McNt-}
Như vậy, các cụm từ sau được đoán nhận: “những cái bàn”, “từng cái ghế”. Các liên
kết trong cụm từ “những cái bàn” được thể hiện trong hình 2.2.
Hình 2.2. Liên kết trong cụm từ “những cái bàn”
Tuy nhiên, cụm từ “những bàn”, “một vài ghế” vẫn được dùng thường xuyên trong
tiếng Việt và các công thức cũng thỏa mãn điều này Những cụm từ sau sẽ không được
đoán nhận: “các ba cái bàn”, “mọi bốn cái ghế”.
(cid:1) Kết nối cho thành phần phụ thứ nhất (-3)
Vị trí này liên quan đến một số loại từ:giới từ chỉ số lượng (“tất cả”. “hết thảy”...),
định từ chỉ số lượng (“toàn bộ”, “hầu hết”, “đa số”...). Trong một vài trường hợp, từ loại
khác cũng ở vị trí này, ví dụ, “toàn thể” là danh từ trừu tượng. Kết nối được xây dựng là
DqNt-. Khi có thêm liên kết với vị trí -3, các công thức liên kết cần được xem lại như sau:
Trong tiếng Việt, người ta nói “toàn thể các em học sinh”, “toàn thể các học sinh”,
thậm chí “toàn thể học sinh”, “toàn thể 3000 học sinh” nhưng lại không tồn tại câu “ toàn
thể em học sinh”. Như vậy với danh từ chỉ người, ta có công thức liên kết:
{NcNt1-} &(DpNt- &DqNt- or McNt-&DqNt-)
Tương tự như vậy, danh từ chỉ động vật có công thức:
{NcNt2- or NcNt3-} (DpNt- & DqNt- or McNt- &DqNt-&)
Danh từ chỉ đồ vật:
{NcNt3-}&(DpNt- &DqNt- or McNt-& DqNt-)
Danh từ chỉ chất, tác phẩm, cấu kiện, danh từ tổng thể, một số danh từ trừu tượng: DqN-
b. Thành tố phụ đứng sau danh từ
Các thành tố phụ đứng sau cũng tuân theo những niêm luật chặt chẽ. Luận án lần lượt
51
xét các thành tố phụ theo vị trí xuất hiện.
(cid:1) Thành phần sau danh từ thứ nhất (1)
Theo [2], khi danh từ đứng ở vị trí thứ nhất sau danh từ trung tâm, có thể xảy ra các
trường hợp sau:
i. Nêu tên một sự vật làm đặc trưng cho sự vật ở trung tâm.
• Quan hệ sở hữu ẩn (không có từ “của”). Quan hệ này xảy ra ở những trường hợp:
ii. Nêu tên một sự vật có quan hệ với sự vật ở trung tâm , cụ thể là:
- Danh từ trung tâm và danh từ đứng sau đều chỉ người: “con anh”, “vợ người”
- Danh từ trung tâm chỉ: bộ phận cơ thể (người | động vật | thực vật), danh từ đứng
sau chỉ người | động vật | thực vật:”mắt em”, “đuôi công”, “tai mèo”
- Danh từ trung tâm chỉ vật dụng, danh từ (đại từ) đứng sau chỉ người: “áo anh”,
“quần tôi”
- Danh từ trung tâm chỉ bộ phận đồ vật, danh từ đứng sau chỉ đồ vật: “chân bàn”,
“vành mũ”, “bánh xe”...
Với cấu trúc nói trên, danh từ đứng sau có kết nối SHA-, danh từ trung tâm có kết nối
SHA+. Vị trí thứ nhất chứa hai hoặc nhiều danh từ liên tiếp, hợp với danh từ trung tâm tạo
thành bộ 3, 4 danh từ liên tiếp, ví dụ : “vợ chồng con cái bác gấu”. Trong cấu trúc này
danh từ đứng cuối sẽ là danh từ chỉ người, có kết nối SHA-, dãy danh từ đứng trên (chỉ có
•••• Quan hệ về mặt chất liệu (không có từ “bằng”): “sân gạch”, “nhà gỗ”. Loại quan
một số cá thể) có kết nối SHA+.
hệ này xảy ra khi danh từ đứng sau chỉ chất liệu. Danh từ trung tâm trong quan hệ này
•••• Quan hệ hướng nội dung, đề mục, ví dụ “đường lối quân sự”, “quan điểm triết học”
có liên kết CLI+.
xảy ra khi danh từ đứng sau là danh từ trừu tượng chỉ thuật ngữ chuyên ngành: NN+.
•••• Quan hệ so sánh, ví dụ, “mặt trái xoan”. Quan hệ này chỉ xảy ra cho một số trường
Danh từ đứng sau có kết nối NN-.
•••• Quan hệ địa điểm, vị trí, ..., ví dụ “biệt thự ngoại thành” xảy ra khi danh từ trung
hợp cá biệt: NS+.
tâm chỉ công trình, danh từ đứng sau chỉ địa điểm. Danh từ trung tâm có quan hệ NN+,
danh từ đứng sau có quan hệ NN-.
Ví dụ
bàn, giường, lò xo: NN- or ({NcNt4-} & {DpNt- or McNt-} & {PqNt}& {NN+}).
52
Luật này cho phép tránh trường hợp nhập nhằng khi các thành phần phụ đứng trước và
sau của danh từ thứ nhất được là bổ nghĩa cho danh từ phụ đứng sau (như trong ví dụ trên,
từ “cái” không được liên kết với “lò xo”).
Hình 2.3. cho thấy các liên kết cho cụm từ “cái giường lò xo”.
Hình 2.3. Liên kết trong cụm từ “cái giường lò xo”.
Vị trí thứ nhất sau danh từ trung tâm cũng có thể đanh cho tính từ bổ nghĩa. Đóng vai
trò này thường là loại tính từ chỉ tính chất đôi khi cũng dùng tính từ tượng thanh, tượng
hình. Liên kết SA được dùng trongg trường hợp này.
(cid:1) Thành phần sau danh từ thứ ba (3)
Thành phần phụ này kết hợp với danh từ cụ thể ở trung tâm qua giới từ chỉ chất liệu
“bằng”, ”từ” hoặc giới từ phạm vi “về” theo dạng: N1 + bằng / về + N2. Với trường hợp
•••• Danh từ có thêm kết nối NtEm+ và NtEs+.
•••• Giới từ chỉ chất liệu “bằng”, “từ” có kết nối CH+ .
này, ta xây dựng luật như sau:
Để kết nối các quan hệ từ này với danh từ phụ đứng sau, dùng liên kết đặt tên là CH-
(Chỉ liên kết với danh từ cụ thể chỉ chất liệu).
bằng, từ: NtEm- &CH+
Giới từ phạm vi “về” có kết nối NtEs. Kết nối với danh từ đứng sau qua EsNt+
về: NtEs- & EsNt+.
Danh từ chỉ chất liệu có thêm kết nối CH-.
Một số loại danh từ khác có thêm kết nối EsNt-.
Hình 2.4 mô tả các liên kết trong cụm từ “cái bàn bằng gỗ” với danh từ chỉ chất liệu
“gỗ” ở vị trí thứ ba.
Hình 2.4. Liên kết trong cụm từ “cái bàn bằng gỗ”
(cid:1) Thành phần sau danh từ chỉ sở hữu hiện (vị trí 3 hoặc 4)
Thành phần phụ này kết hợp với trung tâm bằng giới từ sở hữu “của”, “ở”: N1 + của/ở
+ N2. Danh từ và đại từ xưng hô thêm kết nối SH-.
Quan hệ từ “của”, “ở” có kết nối SH+ và NEo-
Danh từ thêm quan hệ NEo+
Hình 2.5. Liên kết trong cụm từ “cái bàn của tôi”
Với trường hợp cả hai thành phần phụ thứ 3 và 4 cùng xuất hiện, có thể xảy ra sự nhập
nhằng như ở hình 2.6. Ở trường hợp thứ nhất từ “của” bổ nghĩa cho “gỗ”, và ở trường hợp
thứ hai từ “của” bổ nghĩa cho “bàn”. Đây là một cụm từ nhập nhằng cả về cú pháp và ngữ
nghĩa. Cả hai phân tích này đều đúng. Phân tích nào được chọn phụ thuộc vào ngữ cảnh.
Hình 2.6. Hai cách liên kết cho cụm từ “cái bàn bằng gỗ của tôi”
(cid:1) Thành phần đại từ chỉ định sau danh từ (vị trí 2 hoặc 4)
- Danh từ có kết nối NtPd+.
- Đại từ chỉ định có kết nối NtPd-.
54
Ví dụ, trong câu “những cái ghế này rất đẹp” ở hình 2.7 dưới đây
Hình 2.7. Các liên kết xoay quanh danh từ trung tâm “ghế”
c. Liên kết danh từ với giới từ
Liên kết được xác lập từ giới từ tới danh từ (có thể là trung tâm của danh ngữ), ví dụ
với cụm từ “mua cá cho cái con mèo lười này”, giới từ “cho” phải có liên hệ với danh từ
“mèo”. Tên của liên kết là EN+ cho giới từ, EN- cho danh từ.
2.1.3. Các liên kết cho động từ
Liên kết cho động từ được xây dựng theo cách tương tự như liên kết với với danh từ.
Dựa trên cấu trúc của động ngữ, các liên kết cũng được chia thành hai loại: liên kết với từ
2.1.3.1. Động từ đóng vai trò vị từ
đứng bên trái và liên kết với từ đứng bên phải động từ chính.
Nếu danh từ và đại từ xưng hô đóng vai trò chủ ngữ có liên kết SV+ tới vị từ là động từ
(thành phần chính của vị ngữ) thì động từ có liên kết SV- tới chủ ngữ.
Ngoài ra, riêng động từ quan hệ là ”là” có liên kết DT_LA- tới chủ ngữ.
Động từ cũng có quan hệ với từ để hỏi. Giống như từ điển liên kết tiếng Anh, từ để hỏi
liên kết với động từ chính của câu. Tùy theo loại từ để hỏi thường đứng đầu câu hay cuối
câu mà liên kết của động từ là THT hay THS. Khi từ để hỏi đã xuất hiện ở bên trái động từ,
sẽ không thể xuất hiện từ để hỏi khác ở bên phải. Công thức cho động từ thể hiện điều này:
THT- or THS+.
Liên kết của từ để hỏi:
tại sao, vì sao, ai: THT+
ở đâu, thế nào, phải không, gì: THS-
Một số từ khác có thể đứng ở vị trí trước và sau:
khi nào, bao giờ: THT+ or THS-
55
2.1.3.2. Xây dựng liên kết dựa trên cấu trúc động ngữ
Tương tự như danh từ, theo Nguyễn Tài Cẩn [2], còn có nhứng ý kiến khác nhau về
thành phần chính của động ngữ, đặc biệt trong trường hợp hai động từ đi liền nhau như
“muốn ăn”. Luận án chọn động từ đứng trước theo quan điểm của [2]. Như vậy việc xác
định các liên kết của động từ dựa trên cấu trúc động ngữ được chia thành hai nhánh chính:
liên kết động từ chính với thành tố phụ đứng trước và với thành tố phụ đứng sau (có thể là
động từ khác).
(cid:1) Liên kết với thành tố phụ đứng trước động từ
• Phụ từ so sánh Rc (“cũng”, “đều”, “vẫn”, “cứ”, “còn”, “mãi”... ). Các từ trong nội bộ
Vị trí trước động từ chủ yếu được dành cho các loại phụ từ sau:
• Phụ từ phủ định Rn (ví dụ: “không”, “chẳng”, “chưa”...), khẳng định Ra (ví dụ: “nhất
nhóm lại có thể kết hợp với nhau, ví dụ “cũng vẫn cứ”.
• Phụ từ chỉ thời gian: quá khứ, hiện tại, tương lai.
định”).
Các phụ từ này đi được với mọi loại động từ.
Theo tổng kết của Nguyễn Tài Cẩn [2], vị trí trước động từ của các phụ từ này có thể
tổng kết trong sơ đồ của hình 2.8 như sau:
Phụ từ chỉ thời gian (Rt, Rp, Phụ từ phủ định(Rn): Phụ từ so sánh (Rc): đều, Rf): từng, đã, đang, sẽ không, chẳng, chưa cũng, vẫn, cứ Phụ từ mệnh lệnh (Rm): đừng, chớ
Hình 2.8. Thành tố phụ đi trước mọi động từ
Liên kết được xác lập theo sơ đồ trên cho động từ:
{RnV-} &(({RtV- or RpV- or RfV-} & {@RcV-} ) or (RmV-))
• Phụ từ so sánh: RcV+
• Phụ từ phủ định: RnV1+
• Phụ từ mệnh lệnh: RmV2+
• Phụ từ thời gian (quá khứ): RpV+
• Phụ từ thời gian (hiện tại): RtV+
• Phụ từ thời gian (tương lai): RfV+
56
Liên kết được xác định cho các phụ từ tương ứng:
Ví dụ:Liên kết của cụm từ “vẫn đang làm” trong hình 2.9.
Hình 2.9. Liên kết trong cụm từ “vẫn đang làm”
• Phụ từ chỉ phạm vi (tiểu loại Rs, ví dụ “chỉ”): Phụ từ loại này có thể đi sau phụ từ so
Ngoài ra, một số loại phụ từ khác cũng có khả năng kết hợp với tất cả các động từ:
sánh hay phụ từ thời gian tương lai.
- Công thức liên kết cho động từ: RsV- &{RcV- or RfV-}
• Phụ từ chỉ tần suất (tiểu loại Rq, ví dụ “thường”, “hay”, “năng”): Phụ từ loại này có
- Công thức liên kết chophụ từ chỉ phạm vi: RsV+
thể đi trước phụ từ chỉ phạm vi, hay đi sau phụ từ so sánh. Riêng phụ từ phủ định có thể
đi trước hoặc sau phụ từ chỉ tần suất. Mỗi vị trí mang một ý nghĩa khác nhau.
Các từ thuộc nhóm này có thể kết hợp với nhau trong nội bộ nhóm, ví dụ “thường hay”
Công thức liên kết cho động từ: {RcV-or RnV-} & @RqV- & {RsV- or RnV-}
Ví dụ: Các liên kết cho cụm từ “không hay đọc sách này” được mô tả trong hình 2.10
dưới đây:
• Phụ từ khẳng định (tiểu loại Ra, ví dụ “nhất định”): Khác với phụ từ phủ định, phụ từ
Hình 2.10. Liên kết trong cụm từ “không hay đọc sách này”
khẳng định lại đi trước phụ từ chỉ thời gian nếu cả hai cùng bổ nghĩa cho một động từ.
Công thức liên kết cho động từ: {RaV-}&{RtV- or RpV- or RfV-}
57
Công thức liên kết cho phụ từ: RaV+
(cid:1)(cid:1)(cid:1)(cid:1) Liên kết với thành tố phụ đứng sau động từ
Liên kết với danh từ (danh ngữ) tồn tại khi danh từ (danh ngữ) ở dạng bổ ngữ trực tiếp
hoặc gián tiếp. Dù bổ ngữ trực tiếp là danh từ hay danh ngữ, mối liên hệ vẫn được xác lập
cho danh từ. Danh từ là đối tượng trực tiếp của hành động liên kết với động từ qua kết nối
O+. Dù đối tượng gián tiếp của hành động thường liên hệ với động từ thông qua một giới
từ, cũng có một số trường hợp liên hệ giứa danh từ và động từ là trực tiếp. Ví dụ trong câu
“tôi tặng mẹ bông hoa”, “mẹ” là đối tượng trực tiếp trong khi “hoa” là đối tượng gián tiếp.
Liên kết được xây dựng giữa “tặng” và “hoa” là IO+.
(cid:1)(cid:1)(cid:1)(cid:1) Liên kết với giới từ :
Theo [2] cấu trúc phần cuối động ngữ, tức là phần đi sau động từ liên quan đến nhiều
• Giới từ chỉ đối tượng tiếp nhận, mục đích, mục tiêu phục vụ: “cho”, ví dụ “tặng cho
loại giới từ, cụ thể trong các trường hợp sau:
em”, “mua cho con”. Trong từ điển không đề xuất một tiểu từ loại cho giới từ “cho” mà
dành cho từ này một công thức:
#giới từ chỉ đối tượng tiếp nhận, mục đich, mục tiêu phục vụ
cho: [e] CHO-
Một số động từ sẽ có quan hệ CHO+: “tặng”, “mua”, “bán”, “cống hiến”, “đóng
góp”...
Công thức được xây dựng chỉ liên quan đến các động từ có liên hệ với giới từ này như
• Đối tượng bị mất mát, tổn thất (“của”, ví dụ “vay của bạn”): liên hệ này chỉ có với một
“mua”, “bán”, “biếu”, “tặng”...
số động từ như “vay”, “mượn”,” “vay mượn”, những động từ này sẽ được dành một
mục riêng và thêm công thức: DT-CUA+
Từ “của” thêm công thức DT-CUA- & EoNt+. Công thức này đảm bảo từ “của” đi sau
• Một số thành tố phụ là giới từ khác như
động từ luôn phải đi trước một danh từ
- Thành tố phụ chỉ phương diện (“về”).
- Thành tố phụ chỉ nơi chốn (“ở”).
- Thành tố phụ chỉ phương tiện, công cụ, chất liệu (“bằng”).
- Thành tố phụ chỉ kẻ hay sự vật cùng tham dự trong hành động (“với”).
58
- Thành tố phụ chỉ điều đem ra so sánh (“như”).
liên kết với động từ thông qua kết nối VE. Không phải động từ nào cũng có liên kết này.
•••• Liên kết giữa động từ và động từ : tồn tại liên kết giữa động từ ngoại động và một số
Chi tiết được giới thiệu trong phần phụ lục.
loại động từ khác:
Động từ ngoại động: VtVs+
•••• Liên kết giữa động từ và tính từ: Đây là liên kết quan trọng vì liên quan đến sự khác biệt
Động từ trạng thái: VtVs-
giữa tiếng Việt và nhiều ngôn ngữ khác. Tính từ tiếng Việt có cùng một hình thái khi đi
với danh từ và động từ, nhưng khi dịch sang ngôn ngữ khác như tiếng Anh, tính từ lại
biến đổi thành phó từ. Tên liên kết là VA. Liên kết VA- có với tính từ chỉ tính chất, tính
từ tượng hình, tượng thanh. Liên kết VA+ có ở hầu hết các loại động từ, chi tiết xem
phần phụ lục. (cid:1) Một số ngoại lệ
Một số động từ trạng thái (“yêu”, “nhớ”... ) và động từ tình thái (“mong”, “muốn”...)
có thêm kết nối với phụ từ chỉ mức độ (“rất”, “hơi”, “khá” ở bên trái hoặc “lắm”, “quá”
ở bên phải) qua các liên kết RlVm-, RlVs- và VmRl+, VsRl+.
Phụ từ chỉ mức độ có liên kết: RlVm+, RlVs+, VmRl-, VsRl-.
Ví dụ: Các liên kết của cụm từ “đang rất sợ” được mô tả trong hình 2.11
Hình 2.11. Liên kết trong cụm từ “đang rất sợ”
Liên kết của động từ “đi”, “xong”: Động từ “đi” trong tiếng Việt thường đi kèm với
động từ khácnhư: “đi học”, “đi chơi”, “ đi mua sắm”... Khi dịch sang tiếng Anh sẽ có
những biến đổi đặc biệt. Tương tự như vậy động từ “xong” đi kèm động từ khác, khi dịch
sang tiếng Anh sẽ chuyển sang thì hiện tại hoàn thành. Do vậy các động từ này được đưa
vào những mục riêng trong từ điển.
đi: DI+
59
học, làm, bơi, câu, chơi, mua sắm: DI-
Tương tự, động từ “xong” liên kết với động từ ngoại động như “làm”, “học”,
“cày”...với liên kết ĐT_XONG+. Động từ “xong” có liên kết ĐT_XONG-
2.1.4. Các liên kết cho tính từ
2.1.4.1 Liên kết cho tính từ làm vị ngữ
Theo [16], tính từ được chia thành 4 tiểu loại: tính từ chỉ tính chất, tính từ quan hệ, tính
từ tượng thanh và tính từ tượng hình. Cũng theo [16], trong các loại tính từ này chỉ có tính
từ chỉ tính chất là có thể đóng vai trò vị từ trực tiếp. Do vậy, loại tính từ này có kết nối
SA-. Trong trường hợp tính từ bổ nghĩa cho danh từ làm chủ ngữ, liên kết SA vẫn được
dùng. Khi phân tích một mệnh đề có cả liên kết SA và SV hay DT_LA, vị từ sẽ được chọn
là động từ .
Tính từ chỉ tính chất cũng có kết nối THT- or THS+ đến các từ để hỏi giống như động
từ.
Tương tự, chỉ có loại tính từ này đi sau phụ tố chỉ mức độ. Tuy nhiên, có một số loại
phụ tố không được dùng khi trước tính từ đã dùng phụ tố chỉ mức độ. Công thức liên kết
2.1.4.2. Xây dựng liên kết dựa trên cấu trúc tính ngữ
sẽ được xây dựng ở cuối mục này.
Xét về cấu trúc của tính ngữ, tất cả các tiểu loại tính từ đều có thể đóng vai trò chính tố
[28]. Liên kết được suy ra từ cấu trúc của các thành phần đứng trước hoặc sau chính tố
(cid:1)(cid:1)(cid:1)(cid:1) Thành tố phụ đứng trước tính từ
Theo [28], trước chính tố có thể có những loại phụ tố thời gian, mức độ, phủ định,
khẳng định, mệnh lệnh. Các phụ tố này được xây dựng từ các loại phụ từ tương ứng. Như
vậy tính từ sẽ có thêm các công thức liên kết sau:
{RtA- or RhA- or RpA- or RfA-} & @RcA-
RcA- & RmA-
{RnA-}& RaA-
Các phụ từ có liên kết bên phải tương ứng như RtA+, RhA+, RpA+, RfA+,
60
RnA+, RmA+, RcA+, RaA+.
(cid:1) Thành tố phụ đứng sau tính từ
Ở vị trí này có thể là những phụ tố do chính tố yêu cầu.
Phụ tố chỉ phạm vi: Phụ tố chỉ phạm vi chỉ đi kèm với tính từ chỉ tính chất. Phụ tố này
có thể là danh từ, động từ hoặc tính từ.
• Đi ngay sau tính từ, ví dụ “giàu kinh nghiệm”. Liên kết là AN.
• Đi kèm liên từ (“trong”) hoặc giới từ (“về”). Đây là những trường hợp đặc biệt với các
Nếu phụ tố là danh từ, có thể xảy ra hai trường hợp:
liên kết ApC, ApE
Phụ tố chỉ số lượng: liên quan đến đo lường, tính toán hay tiêu chuẩn đo lường tính toán
do danh từ đảm nhiệm. Liên kết được xác lập giữa tính từ và danh từ chỉ đơn vị đo: ApNt.
Ví dụ, liên kết trong cụm từ “sâu hai ngàn mét” được thể hiện trong hình 2.12 dưới đây
Phụ tố so sánh: Phụ tố này do tính từ so sánh đảm nhiệm. Ví dụ “đẹp hơn tiên”. Liên
kết giữa “đẹp” và “hơn” là liên kết ApAr.
Phụ tố miêu tả. Khi ấy hai tính từ đi liền nhau: “đẹp lộng lẫy”, “rộng thênh thang”...
Tính từ trước chỉ tính chất, tính từ sau thuộc tiểu loại quan hệ (tiểu tiểu loại so sánh)
Phụ tố này không xuất hiện cùng phụ tố chỉ mức độ ở bên trái hay phụ tố chỉ số lượng ở
bên phải, ví dụ không thể nói “rất rộng thênh thang”, “cao lênh khênh hai mét”
Hình 2.12. Liên kết trong cụm từ “ sâu hai ngàn mét”
Do vậy công thức liên kết trong trường hợp này cho chính tố là:
(RlAp- xor ApRl+) or (RlAp- xor ApAr+) or (ApAr+ xor ApNt+)
Tương tự như vậy, loại phụ tố chỉ mức độ có thể đi sau tính từ như “hết sức”, “vô cùng”
2.1.5. Liên kết các mệnh đề trong câu ghép đơn giản
Với những câu ghép gồm nhiều mệnh đề, cần phân tách để phân tích riêng từng mệnh
đề rồi kết hợp lại. Tuy nhiên với loại câu ghép hai mệnh đề, có thể sử dụng liên kết cho
61
chính các liên từ và các thành phần trong câu. Nòng cốt của câu ghép trong tiếng Việt được
chia thành hai loại: chính phụ và song song [28]. Việc xây dựng liên kết cho nòng cốt
ghép chính phụ đơn giản hơn. Các liên từ như: “bởi vì”, “nhưng”, “tuy nhiên” ... đều có kết
nối CL+ để nối đến mệnh đề đứng sau nó. Công thức liên kết của chúng như sau:
tuy nhiên, nhưng, nên, cho nên, bởi vì, vì: CL+
Kết nối CL được kết nối đến thành phần vị ngữ trong câu. Lý do để kết nối liên từ tới
thành phần vị ngữ mà không phải là thành phần chủ ngữ vì các mệnh đề sau liên từ đôi khi
không có chủ ngữ. Do đó các động từ và tính từ được thêm kết nối CL-.
Hầu hết các liên từ có thể đứng giữa hai mệnh đề. Để kết nối các liên từ này với mệnh
đề đứng trước, luận án thêm kết nối EV- cho các liên từ này. Cũng như kết nối CL+, kết
nối EV- sẽ kết nối với thành phần vị ngữ của mệnh đề đứng trước.
tuy nhiên, nhưng, nên, cho nên, bởi vì, vì: CL+ & EV-
Hình 2.13 dưới đây cho thấy một câu ghép hai mệnh đề chỉ hứa một liên từ “nhưng” .
Liên từ này liên kết với động từ “thích” của mệnh đề chính về bên trái với liên kết EV- và
với tính từ “đắt” ở bên phải với liên kết CL+
Hình 2.13. Liên kết câu ghép hai mệnh đề với liên từ ở giữa
Một số liên từ (“bởi vì”, “vì”, “sau khi”,…) còn có thể đứng đầu mệnh đề thứ nhất. Lúc
này ta dùng liên kết CO+ thay thế cho liên kết EV- để kết nối liên từ với mệnh đề thứ hai
(ta vẫn giữ kết nối CL+ để kết nối tới mệnh đề ngay sau liên từ). Ngoài ra còn có thể có
dấu phẩy đứng giữa hai mệnh đề. Để kết nối tới dấu phảy này các liên từ còn có thêm kết
nối PH+ và kết nối này là tuỳ chọn.
bởi vì, vì, dù: CL+ & {PH+} & (EV- or CO+)
62
Trong hình 2.14 là ví dụ một câu với liên từ đưng đầu mệnh đề thứ nhất, dấu phảy phân
cách hai mệnh đề. Phân tích cho thấy câu là đúng cú pháp. Ngoài những liên kết với danh
từ, động từ, tính từ, còn có các liên kết với liên từ “vì” và dấu phảy. Đó là các liên kết CO,
CL, PH, trong đó CO, CL liên kết liên từ “vì” với vị từ của hai mệnh đề, còn liên kết PH
nối liên từ “vì” với dấu phảy.
Hình 2.14. Liên kết của câu ghép hai mệnh đề với liên từ ở đầu và dấu phảy
Tương tự, với trường hợp câu ghép có cả liên từ ở đầu của hai mệnh đề (bởi vì … nên
…, mặc dù … tuy nhiên …), là những cặp liên từ có mối quan hệ với nhau. Trường hợp
này xử lý như sau: nối hai liên từ lại bằng liên kết QHT. Liên từ đứng đầu câu có kết nối
QHT+, liên từ đứng đầu mệnh đề hai có kết nối QHT-. Các liên từ vẫn kết nối với mệnh đề
sau nó bằng kết nối CL+.
Kết hợp với các kết nối đã xây dựng trên, ta có :
tuy nhiên, nhưng, nên, cho nên, bởi vì, vì: CL+ & (EV- or QHT-)
bởi vì, vì, dù: CL+ & {PH+} & (EV- or (CO+ or QHT+))
63
Hình 2.15. Liên kết trong câu ghép với liên từ có mặt trong cả hai mệnh đề
Trong hình 2.15, câu chứa hai liên từ có quan hệ với nhau “bởi vì” và “nên”. Liên kết
nối chúng là QHT.
Khi phân tích câu ghép theo giải thuật được nêu trong chương 3, bộ phân tích có thể lựa
chọn có hoặc không phân tích riêng từng mệnh đề với loại câu này.
2.2. Mở rộng từ điển văn phạm liên kết
Khởi đầu, một bộ từ điển với hơn 150 công thức lớn và hơn 1000 mục từ đã được luận
án xây dựng theo cách thủ công. Các từ xuất hiện trong từ điển được chia thành nhóm,
mỗi nhóm chứa cùng một loại từ, với cùng yêu cầu liên kết như trong hình 2.16 dưới đây:
Hình 2.16. Một đoạn trong từ điển văn phạm liên kết
Vì mô hình văn phạm liên kết lần đầu tiên được áp dụng để phân tích cú pháp tiếng
Việt, mọi công thức liên kết là do luận án đề xuất, bộ từ điển đầu tiên chỉ bó hẹp trong
những đoạn văn bản thử nghiệm. Để bộ phân tích có thể làm việc hiệu quả trên văn bản
tiếng Việt bất kỳ, luận án đã nghiên cứu mở rộng bộ từ điển văn phạm liên kết cho tiếng
Việt.
Trong toàn bộ các tài liệu được công bố trên website về văn phạm liên kết chỉ có hai tài
liệu đề cập đến xây dựng từ điển. Đó là bài báo của về xây dựng văn phạm liên kết tiếng
Nga của Protassov [132] và bài báo của Szolovits [113]. Phương pháp của [132] cho phép
tìm trong một bộ ngữ liệu lớn tiếng Nga để lọc ra những từ cần thiết cho một công thức
nào đó. Ví dụ, tìm các động từ đòi hỏi tạo cách (cách 5) bằng cách tìm tất cả các động từ
mà đi sau nó là một danh từ ở cách 5. Điều này dễ dàng hơn tiếng Việt rất nhiều vì động từ
cũng như danh từ cách 5 trong tiếng Nga có thể phân biệt nhờ hậu tố. Do vậy luận án đã
64
theo phương pháp của Szolovits sử dụng để thêm dần các từ lấy từ một hệ thống từ vựng
của y khoa vào từ điển văn phạm liên kết. Hệ thống từ vựng đó là UMLS Specialist
Lexicon chứa 235.197 mục từ (trong đó có 75.121 cụm từ ngắn - nói chung các cụm từ
cũng được xử lý như từ).
Mỗi mục từ của Specialist gồm các thông tin sau:
1. Từ loại (part of speech).
2. Sự phù hợp / mã biến tố (agreement / inflection code). Đại từ nhân xưng ngôi thứ
nhất, hai và ba, số ít và số nhiều, thì và phủ định (cho động từ, động từ khuyết thiếu và trợ
động từ); danh từ đếm được và không đếm được và các từ hạn định (determiner).
3. Bổ ngữ (complements). Một hệ thống phức tạp để mô tả các kiểu bổ ngữ cho động từ,
danh từ và tính từ, bao gồm các kiểu mẫu khác nhau của bổ ngữ, giới từ ...
4. Vị trí và biến thể (position and modification types) cho các kiểu tính từ và phó từ.
5. Đặc trưng khác.
Luận án đã sử dụng bộ từ điển gồm trên 40.000 từ tiếng Việt của đề tài KC 01.01/06-10
với thiết kế gồm các mô tả sau:
1. Hình thái (một hay nhiều hình vị)
2. Cú pháp
a. Loại từ
b. Loại con
c. Mẫu của động từ
3. Ngữ nghĩa
a. Ràng buộc logic
i. Ý nghĩa của loại
ii. Từ đông nghĩa
iii. Từ trái nghĩa
b. Ràng buộc ngữ nghĩa
i. Thành tố phụ
ii. Bổ ngữ trực tiếp
4. Định nghĩa (mô tả nghĩa của từ)
5. Ví dụ (một hoặc một số câu ví dụ mẫu sử dụng từ được mô tả)
Luận án xây dựng bộ từ điển văn phạm liên kết gồm trên 40.000 mục từ dựa trên giải
thuật mở rộng của [113] với cách đánh giá tính phân biệt được dựa trên các thông tin trong
65
từ điển tiếng Việt.
2.2.1. Giải thuật mở rộng từ điển
2.2.1.1 Ý tưởng của giải thuật
Szolovits [113] giả sử rằng w là một từ của từ vựng nguồn mà thông tin chưa được biết
trong từ vựng đích. Nếu có một từ x trong từ vựng nguồn là không phân biệt
(indiscernible) với w và nếu x có một định nghĩa từ vựng trong từ vựng đích thì gán định
nghĩa của x cho w là hợp lý.
Từ vựng nguồn được nói tới ở đây là các từ xuất hiện trong UMLS Specialist Lexicon,
còn từ vựng đích là từ vựng LP (Link grammar Parser), có cấu trúc tương tự như từ điển
văn phạm liên kết của luận án. Hai từ trong tử vựng nguồn là không phân biệt nếu chúng
2.2.1.2. Hình thức hóa ánh xạ
có cùng mô tả từ vựng.
Giả sử W là tập các nghĩa từ (từ - từ loại) trong từ vựng nguồn và V là tập các nghĩa từ
trong từ vựng đích.
Với mỗi w∈W, giả sử Xw= { x | x không phân biệt với w trong từ vựng nguồn }. Định
nghĩa
ν ν ⊥ công thức của trong từ vựng đích nếu định nghĩa được d (cid:20)(T) = U nếu ngược lại
Dw = { f(x) | x ∈ Xw, f(x) ≠ ⊥ } (Tập các định nghĩa trong từ vựng đích của các nghĩa
không phân biệt với w trong từ vựng nguồn).
Mục đích của giải thuật là liên hệ w với một trong các định nghĩa của Dw. Vấn đề đặt ra
là phải lựa chọn định nghĩa thích hợp nhất trong Dw.
Gọi I(d) = { v | f(v) = d } (tập định nghĩa trong từ vựng đích chia sẻ mô tả từ vựng d).
Với mỗi d ∈ , tính số nghĩa từ chung giữa I(d) và Xw và chọn định nghĩa cho giao lớn
ef nhất:
∈
.
jk || lh ∩ n(o)||
g(h) = argmaxi
66
Hình 2.17. chỉ ra sơ đồ cho giải thuật ánh xạ theo [113].
Hình 2.17. Ánh xạ trực cảm
2.2.2. Ứng dụng giải thuật mở rộng từ điển tiếng Việt
Với thông tin hạn chế của bộ từ điển tiếng Việt, luận án cũng định nghĩa hai nghĩa là
• Cùng loại từ (danh, động từ...)
• Cùng loại con
• Có cùng mẫu câu (với động từ)
không phân biệt nếu và chỉ nếu chúng có mô tả từ vựng hoàn toàn giống nhau như sau :
Dựa trên phương pháp trực cảm, quá trình mở rộng từ điển văn phạm liên kết như sau:
1. Duyệt lần lượt bộ dữ liệu từ điển tiếng Việt.Với mỗi từ tìm tập các từ không phân biệt
với nó.
2. Tìm trong tập hợp các từ không phân biệt đó những từ đã được định nghĩa trong bộ dữ
liệu từ điển văn phạm liên kết rồi đưa ra những công thức của các từ đó.
3. Duyệt từng công thức trong từ điển văn phạm liên kết hiện hành, công thức nào có số
lượng các từ không phân biệt được với từ cần định nghĩa lớn nhất thì công thức đó được
gán cho từ cần định nghĩa, và được thêm vào văn phạm.
Việc sử dụng giải thuật heuristic để xây dựng từ điển đã cho kết quả tốt với những loại
từ cơ bản: danh từ cụ thể, nội động từ, ngoại động từ, tính từ tính chất. Với những loại từ
khác, đặc biệt là từ chưa phân loại (loại “X”), cần chỉnh lại vị trí bằng tay. Ngoài ra còn
• Một từ có thể thuộc nhiều loại từ khác nhau. Cách giải quyết của luận án là đưa mỗi
phát sinh một số vấn đề khác:
nghĩa vào một mục khác nhau trong từ điển văn phạm liên kết. Điều đó sẽ dẫn đến
xuất hiện nhiều phân tích hơn cho mỗi câu do bộ phân tích liên kết xác định sai công
67
thức. Phần khử nhập nhằng của luận án sẽ giải quyết vấn đề này.
• Việc xác định từ không phân biệt đến tận loại con gây ra lỗi với loại phụ từ như
“đã”, “đang” vì trong từ điển tiếng Việt, chúng được xếp chung một mục nhưng
• Giống như [111], bộ phân tích bỏ qua các cảm từ, ví dụ “a ha”, “à ra thế”
trong từ điển tiếng liên kết, hai từ đó thuộc hai loại con khác nhau.
Sau khi có được bộ từ điển “thô”, công việc hiệu chỉnh bằng tay được thực hiện để
đưa ra một bộ từ điển văn phạm liên kết hoàn chỉnh.
2.2. Kết luận
Tóm lại, để xây dựng từ điển, luận án đã thực hiện qua các giai đoạn chính:
• Nghiên cứu bộ từ điển liên kết tiếng Anh, tìm ra những công thức liên kết có thể sử
1. Xây dựng các công thức liên kết
• Nghiên cứu ngữ pháp và từ pháp tiếng Việt để xây dựng các công thức liên kết cho
dụng cho tiếng Việt và bổ sung vào từ điển liên kết.
một số từ điển hình.
• Xem xét văn bản mẫu, lần lượt từng từ. Tra cứu từ điển liên kết để tìm xem từ đang
2. Gán công thức liên kết cho từ
xét đã tương ứng với công thức liên kết nào chưa, nếu chưa, thêm từ và công thức
• Duyệt từ điển tiếng Việt, gán mỗi từ cho một công thức trong từ điển theo giải
mới vào từ điển một cách thủ công.
thuật của Szolovits với định nghĩa các từ không phân biệt riêng cho tiếng Việt. Quy
• Quy trình xây dựng từ điển văn phạm liên kết tiếng Việt được mô tả trong hình
trình xây dựng từ điển có thể mô tả trong hình 2.18.
2.18.
Sau quá trình xây dựng và thử nghiệm, luận án đã xây dựng được một từ điển văn
phạm liên kết với trên 150 công thức lớn (mỗi công thức lớn bao gồm một hoặc nhiều
công thức con liên kết với nhau qua toán tử or hoặc xor) và 77 loại kết nối cho tất cả
các loại từ trong tiếng Việt. Để có được từ điển này, luận án đã tổng kết từ nhiều tài
liệu về ngữ pháp tiếng Việt, tham khảo cách xây dựng từ điển sử dụng trên máy tính
của nhiều nhóm nghiên cứu: VLSP, Hồ Ngọc Đức, Vdict... Từ điển của luận án đã đáp
ứng được yêu cầu phân tích các cấu trúc cơ bản và một số ngoại lệ thường gặp của
68
tiếng Việt.
Hình 2.18. Quy trình xây dựng từ điển văn phạm liên kết tiếng Việt
Do được xây dựng trong một thời gian ngắn (2009 - 2012), còn nhiều ngoại lệ của tiếng
Việt mà từ điển chưa bao quát hết được. So sánh với số lượng trên 1000 công thức lớn của
từ điển liên kết tiếng Anh sau 21 năm (1991 - 2012) liên tục cập nhật các ngoại lệ, số
lượng công thức của từ điển liên kết tiếng Việt còn nhỏ bé. Để phát triển thành một từ điển
đầy đủ, chắc chắn cần thử nghiệm bộ phân tích với bộ ngữ liệu thật rộng lớn và sự hỗ trợ
69
từ các nhà ngôn ngữ học.
CHƯƠNG 3
PHÂN TÍCH CÚ PHÁP TRÊN VĂN PHẠM LIÊN KẾT
3.1. Bộ phân tích cú pháp liên kết
3.1.1. Giải thuật phân tích cú pháp
Giải thuật phân tích câu trong văn phạm liên kết được [111] đưa ra dựa trên phương
pháp quy hoạch động. Giải thuật tìm cách xây dựng một phân tích liên kết theo phương
pháp từ trên xuống đảm bảo các tiêu chuẩn đã được nêu trong chương trước.
Khởi đầu, mục đích của giải thuật là tìm cách liên kết giữa từ đầu (từ thứ 0) và từ cuối
(từ thứ n). Thật ra các từ trong câu được đánh số từ 0 đến n-1. Từ thứ n là một từ “ảo” với
dạng tuyển (NIL)(NIL).
Một dạng tuyển d của từ nào đó sẽ có các con trỏ trỏ tới hai danh sách các kết nối. Các
con trỏ này được ký hiệu là left[d] và right[d]. Nếu c là một kết nối, thì next[c] ký hiệu kết
nối tiếp sau c trong danh sách của nó. Trường next của con trỏ cuối cùng trong danh sách
có giá trị bằng NIL. Hình 3.1 dưới đây mô tả hoạt động của bộ phân tích sau khi xem xét
kết nối l’ trên từ L và một kết nối r’ trên từ R. l là next[l’] và r là next[r’].
Hình 3.1. Giải thuật phân tích
Việc mở rộng lời giải cục bộ cho vùng nằm giữa L và R được thực hiện bằng cách xem
xét lần lượt các từ W trong phạm vi giữa L và R được mô tả trong hình 3.2 dưới đây.
70
Hình 3.2. Lời giải cục bộ
Dưới đây là giải thuật phân tích cú pháp của [111]. Hàm COUNT cho tổng số các
phương án có thể tạo ra kết nối.
PARSE t ← 0 for each dạng tuyển d của từ 0 do if left [d] = NIL then t ← t + COUNT(0, n, right [d], NIL) return t
Hình 3.3. Giải thuật phân tích cú pháp liên kết
Hàm COUNT [111] được mô tả như trong hình 3.4.dưới đây:
COUNT(L, R, l, r)
if L = R + 1
then if l = NIL and r = NIL
then return 1
else return 0
else total ← 0
for W ← L + 1 to R - 1
do for each dạng tuyển d của từ W
do if l ≠ NIL and left[d] ≠ NIL and MATCH(l,left[d])
then leftcount ← COUNT(L, W, next[l], next[left[d]])
else leftcount ← 0
if right[d] ≠ NIL and r ≠ NIL and MATCH(right[d],r))
then rightcount ← COUNT(W, R, next[right[d], next[r])
else rightcount ← 0
total ← total + leftcount * rightcount
if leftcount > 0
then total ← total + leftcount *COUNT(W, R, right[d], r)
if (rightcount > 0 and l = NIL
then total ← total + rightcount * COUNT(L, W, l, left[d])
return total
Hình 3.4.Hàm COUNT cho số phân tích của câu.
Hàm COUNT nhận các đầu vào là hai từ L và R và một cặp hai con trỏ tới các danh
sách kết nối: l trỏ đến một kết nối thuộc danh sách bên phải của một dạng tuyển của L và r
trỏ đến một kết nối thuộc danh sách bên trái của một dạng tuyển của R. COUNT trả ra một
số, đó là số cách vẽ các kết nối các từ từ L đến từ R, với các kết nối thuộc danh sách trỏ
71
bởi l và r.
Kết quả tính được của hàm COUNT tại mỗi lần được gọi được chứa vào một mảng
băm (ngay trước khi trả về). Trong lần sau, kết quả tính được ở lần trước được tra trong bảng băm. Vì có bảng băm lưu lại kết quả, chi phí thời gian chạy là O(c2d) với d là số các
dạng tuyển và c là số các kết nối. Với một văn phạm xác định, d = O(n) và c = O(n), vậy thời gian chạy là O(n3).
3.1.2. Lược tỉa
Với các công thức được trình bày ở chương 3, để bao quát các hiện tượng cú pháp tiếng
Việt, số lượng dạng tuyển phải xét là rất lớn. Tuy nhiên phần lớn các dạng tuyển là không
được sử dụng vì chúng chứa các kết nối không khớp với một kết nối nào của một từ nào
trong câu. Cụ thể, giả sử một từ W có dạng tuyển d với kết nối C ở danh sách bên phải.
Nếu không có từ nào bên phải W có một kết nối bên trái khớp với C, thì dạng tuyển d
không thể nằm trong một phân tích đúng nào. Do đó, dạng tuyển này có thể xoá mà không
làm thay đổi kết quả phân tích liên kết. Việc xoá dạng tuyển đó được gọi là bước lược tỉa
[111].
Quá trình lược tỉa được chia làm hai bước: lược tỉa và lược tỉa mạnh.
Lược tỉa
Duyệt tuần tự qua các từ trong câu lần lượt từ trái qua phải rồi từ phải qua trái và cứ tiếp
tục như vậy đến khi không loại bỏ được dạng tuyển nào nữa.
Giả sử từ thứ m trong câu đang được xét. Tập S các kết nối thuộc danh sách phải trong
dạng tuyển của các từ thứ 1,…, m – 1 được lưu trữ trong một bảng băm, với hàm băm sử
dụng các chữ cái viết hoa ban đầu của tên kết nối. Do vậy sẽ tiết kiệm được nhiều thời gian
tìm kiếm kết nối khớp với nó.
Thực tế quá trình phân tích cú pháp được [111] cho thấy chưa bao giờ cần nhiều hơn
năm lần duyệt để kết thúc quá trình lược tỉa.
Lược tỉa mạnh
Gọi một kết nối là nông nếu nó là kết nối đầu tiên trong danh sách các kết nối của nó.
Ngược lại kết nối là sâu. Lược tỉa mạnh dựa trên những tiêu chí sau:
1. Tiêu chí từ gần nhất phải được thoả mãn cho cả hai kết nối tạo thành liên kết.
72
2. Không thể có liên kết giữa hai kết nối sâu.
3. Hai kết nối của một liên kết giữa hai từ cạnh nhau phải là kết nối cuối cùng trong
danh sách của chúng.
4. Hai kết nối của một liên kết giữa hai từ không cạnh nhau không thể đồng thời là kết
nối cuối cùng trong danh sách của chúng (Trừ trường hợp kết nối lớn).
Lược tỉa trên cây biểu thức
Dù theo [111], sau khi xây dựng tất cả các dạng tuyển mới bắt đầu lược tỉa, luận án đã
chọn cách làm của các bộ phân tích liên kết tiếng Anh [137], đó là xây dựng cây biểu diễn
công thức liên kết của mỗi từ, sau đó lược tỉa trên cây trước khi xây dựng các dạng tuyển.
Cách xử lý này cho phép thực hiện nhanh hơn rất nhiều so với cách thức được giới thiệu
trong [111].
Nếu coi tên kết nối là các toán hạng, các phép &, or, xor là các toán tử thì công thức liên
kết có cấu trúc giống biểu thức số học ({X} được chuyển thành X or()). Hình 3.5.dưới đây
mô tả một cây biểu diễn công thức liên kết:
Hình 3.5. Cây cho công thức (NN- &{NN+}) or ({PqNt-} & {NN+})
Khi duyệt liên kết của các từ để lược tỉa như đã giới thiệu ở chương 4, nếu thấy một kết
• Nếu một nút con của nút nhãn “&” bị xóa thì xóa bỏ nút đó.
• Nếu nút nhãn “or” “xor” không còn nút con thì loại bỏ nút đó.
nối không khớp với kết nối nào ở bên phải, ta sẽ loại các nút ở cây theo các luật sau:
Ngoài ra cần áp dụng ba luật sau một cách tuần tự.
73
1. Nếu có nhiều hơn một nút nhãn “( )” là nút con của nút nào đó thì chỉ giữ lại một nút.
2. Nếu nút nhãn “&” có nhiều hơn một nút con trong đó có nút nhãn “( )” thì nó sẽ bị loại
bỏ khỏi cây.
3. Nếu một nút có nhãn “&” hoặc “or” , “xor” chỉ chứa một nút con thì thay nhãn của nó
bằng nhãn của nút con.
Tất nhiên quy trình vẫn thực hiện theo thứ tự trái → phải rồi phải → trái v.v… Kết quả
nhận được giống như kết quả của hai bước lược tỉa và lược tỉa mạnh nhưng tốc độ thực
hiện nhanh hơn nhiều.
Hiệu quả lược tỉa trong tiếng Việt
Do tiếng Việt không biến đổi hình thái, thì, thể, số ... đều được thể hiện bằng cách thêm
từ nên số dạng tuyển ban đầu của mỗi từ, đặc biệt là danh từ và động từ lớn hơn nhiều so
với tiếng Anh. Tuy nhiên các giải thuật lược tỉa đạt hiệu quả rất tốt: sau hai quá trình lược
tỉa và lược tỉa mạnh, số lượng dạng tuyển chỉ còn tương đương tiếng Anh, và cũng không
có câu nào trong tập ví dụ của luận án cần đến 5 lần lược tỉa.
Hình 3.6. Số lượng dạng tuyển sau lược tỉa và lược tỉa mạnh
Trong hình 3.6. là hình ảnh kết quả lược tỉa do bộ phân tích thực hiện với câu “chúng
tôi muốn giành các danh hiệu”.
3.1.3. Kết quả thử nghiệm phân tích câu đơn và câu ghép đơn giản
Bộ phân tích cú pháp liên kết được xây dựng bằng Java, làm việc trên môi trường
Windows. Để thử nghiệm bộ phân tích cú pháp theo mô hình [111], luận án đã thu thập
200 câu, điển hình cho các dạng khác nhau từ các bài báo trên mạng Internet về một số
chủ đề: hội thoại tiếng Việt, khoa học thường thức, thể thao, du lịch. Dưới đây là kết quả
74
thực hiện chương trình với câu “Chúng tôi muốn giành các danh hiệu”
Hình 3.7. Kêt quả phân tích liên kết của câu “Chúng tôi muốn giành các danh hiệu”
Một số câu có thể không phân tích được đầy đủ, một phần của nó cũng được phân tích.
Ví dụ trong hình 3.8. là phân tích cho câu “Mỗi một mùa trắng tay đều khó nuốt trôi”.
Câu này là câu bị động nhưng ẩn từ. Những liên kết xây dựng được vẫn được hiển thị dù
kết quả là câu sai cú pháp.
Hình 3.8. Kêt quả phân tích liên kết của câu “Mỗi một mùa trắng tay đều khó nuốt trôi”
Để đánh giá kết quả phân tích, khi chưa có bộ ngữ liệu mẫu, 200 câu mẫu được phân
tích và chỉnh sửa bằng tay và lưu trữ thành ngân hàng phân tích. Với câu “Phần lớn bọ
75
ngựa ăn côn trùng” và kết quả phân tích trong hình 3.9 dưới đây:
Hình 3.9. Kết quả phân tích liên kết của câu “Phần lớn bọ ngựa ăn côn trùng”
Kết quả phân tích được lưu trữ lại dưới dạng tương tự như trong [94]:
Công việc này đòi hỏi khá nhiều công sức, đặc biệt với những câu trong các bài báo
viết, do vậy, luận án mới chỉ tạo lập được bộ ngữ liệu nhỏ. Chi tiết về bộ ngữ liệu như sau:
Bảng 3.1. Chi tiết bộ ngữ liệu mẫu cho bộ phân tích cú pháp liên kết
Số từ trung
STT
Chủ đề
Số câu
bình/câu
1
Hội thoại tiếng Việt
50
7.6
2
Thể thao
50
12.7
3
Khoa học thường thức
50
8.7
4
Du lịch
50
10.5
Tổng cộng
200
Theo [94]. bộ phân tích cú pháp được đánh giá theo các tiêu chí:
Độ phủ (recall) là tỷ số giữa số lượng các thành phần/cấu trúc/quan hệ
(chunks/constituents/relations - CCR) do bộ phân tích cú pháp trả ra phù hợp với CCR mẫu
và tổng số lượng các CCR trong tập mẫu có chú giải.
Độ chính xác (precision) là tỷ lệ giữa số lượng các CCR phù hợp do bộ phân tích cú
pháp trả ra và tổng số CCR nhận được từ bộ phân tích cú pháp. CCR ở đây chính là các
liên kết. Kết quả đạt được như trong bảng 3.2 dưới đây
Bảng 3.2. Kết quả phân tích liên kết cho các tập mẫu
Tập mẫu
Độ chính xác
Độ phủ
1
25.7%
45.1%
2
15.6%
28.4%
3
18.5%
33.5%
4
20.8%
30.2%
Trung bình
20.1%
34.3%
Trong số các tập mẫu này, tập câu hội thoại đạt được độ chính xác cao nhất vì chứa
những mẫu câu cơ bản của tiếng Việt, dễ dàng thỏa mãn các kết nối của cú pháp liên kết.
76
Tập mẫu về khoa học thường thức đạt tỷ lệ cao thứ hai vì nói chung các câu được dịch từ
văn bản nước ngoài, cấu trúc câu khá đơn giản. Tập mẫu về du lịch lấy từ một số quảng
cáo tour du lịch do người Việt viết nhưng cấu trúc cũng dễ hiểu, dễ phân tích. Trong các
tập mẫu, tập mẫu câu thể thao, chủ yếu cũng là dịch từ tiếng Anh, nhưng văn phong khá
trúc trắc, nhiều câu có sự hoán đổi thứ tự hoặc thiếu một số bộ phận nên kết quả đạt thấp
nhất.
Có thể thấy những dạng câu phân tích không thành công là những câu ghép hoặc những
câu đơn có sự thay đổi vị trí các thành phần hay có một số thành phần ẩn.
3.2. Phân tích cú pháp cho câu ghép
Việc phân tích cú pháp câu nhiều nòng cốt phức tạp hơn nhiều so với câu đơn. Với
những loại câu gồm hai nòng cốt trở lên, tiếng Anh phân loại theo mối quan hệ giữa hai
mệnh đề. Nếu mối quan hệ là song song (dùng các liên từ “and”, “or”, “not only… but
also”. . .), câu được gọi là “câu ghép” (compound sentence). Nếu các mối liên hệ có tính
chất chính-phụ (dùng các liên từ “if”, “then”, “because”... ), câu được gọi là “câu phức
hợp” (complex sentence). Câu ghép phức hợp (complex-compound sentence) phức tạp hơn
nhiều khi chứa ít nhất hai mệnh đề song song và ít nhất một mệnh đề phụ. Phân loại câu
tiếng Việt có chút khác biệt so với tiếng Anh. Diệp Quang Ban [1] phân biệt câu ghép là
câu chứa từ hai nòng cốt trở lên, trong đó không nòng cốt nào bao nòng cốt khác và câu
phức chứa hai nòng cốt trở lên nhưng tồn tại một nòng cốt bao các nòng cốt còn lại. Ví dụ,
câu “Tôi đang đứng chờ xe thì một cậu bạn chạy đến” được xếp vào loại câu ghép trong
khi câu “Con mèo tôi mua chạy mất rồi” được xếp vào loại câu phức. Việc phân định ranh
giới mệnh đề trong câu phức có thể đòi hỏi một bộ ngữ liệu lớn với phương pháp học máy
nên chưa được đề cập đến trong luận án.
Theo quan điểm của Diệp Quang Ban [1], Nguyễn Chí Hòa [9], Trần Ngọc Thêm [23],
mệnh đề là đơn vị nhỏ nhất (nguyên tố) của văn bản, câu ghép được xây dựng nên từ các
“khối”, mỗi “khối” là một mệnh đề. Nòng cốt ghép có thể là song song với hai hay nhiều
vế, cũng có thể là qua lại (chính phụ) với đúng hai vế [23], [28]. Những kết luận này hoàn
toàn phù hợp với lý thuyết cấu trúc diễn ngôn.
Đối với mô hình văn phạm phi ngữ cảnh truyền thống, mệnh đề phụ trong câu ghép có
thể được sản sinh từ ký hiệu không kết thúc đặc biệt SBAR của văn phạm. Với một tập luật
rất lớn, việc nhập nhằng về giới hạn của mệnh đề rất thường xảy ra. Cũng do tập ký hiệu
77
không kết thúc lớn, cây phân tích cho câu ghép nhiều mệnh đề rất phức tạp. Điều đó sẽ ảnh
hưởng đến tốc độ và kết quả của các xử lý khác như phân loại văn bản, tóm tắt văn bản,
dịch máy - những bài toán xử lý dựa trên cấu trúc cú pháp của câu.
Các bộ phân tích cú pháp theo mô hình phụ thuộc chia câu ghép, câu phức thành các
mệnh đề, phân tích cú pháp riêng từng mệnh đề rồi tìm mối quan hệ phụ thuộc giữa các
mệnh đề để đưa ra phân tích tổng thể. Nhiều nghiên cứu về phân tích cú pháp câu ghép,
câu phức trên văn phạm phụ thuộc tập trung vào dạng câu ghép, câu phức chính - phụ như
của nhóm Ohno [99] , nhóm Utsuro [125] cho tiếng Nhật, Sang Soo Kim [74] cho tiếng
Hàn. Quan hệ phụ thuộc giữa mệnh đề chính và mệnh đề phụ được xác định bởi các nhà
ngôn ngữ học. Tuy nhiên không phải mô hình văn phạm phụ thuộc nào cũng cho phép thể
hiện mối liên hệ giữa các mệnh đề, đặc biệt với câu ghép song song. Nhiều mở rộng của
mô hình phụ thuộc đã được xây dựng như trong [65], [75] để biểu diễn cấu trúc của câu
nhiều nòng cốt, tuy nhiên những biểu diễn đó trở nên khá phức tạp.
Vấn đề phân tích câu ghép cũng đã được Sleator và Temperley [111] đề cập đến. Điểm
đặc biệt của bộ phân tích cú pháp liên kết là có thể phân tích một số dạng câu ghép chính
phụ thông qua một số liên kết đặc biệt như CO (liên kết giữa thành phần gợi mở và chủ
ngữ của mệnh đề đứng sau), CC (liên kết các mệnh đề với liên từ kết hợp)... được xác lập
cho các liên từ như “because”, “although”, “but”... Bộ phân tích cú pháp của luận án
(được nói đến ở mục trước) cũng nhận được kết quả tương tự cho tiếng Việt. Tuy nhiên với
loại câu ghép có nhiều mệnh đề, quan hệ phức tạp như “Nếu cán bộ, công chức được
tuyển dụng lại vào làm việc ở cơ quan, đơn vị cũ, thì thời gian thực tế học tập theo chương
trình đào tạo (ghi trên chứng chỉ hoặc bằng đào tạo được cấp) được tính vào thời gian xét
nâng bậc lương thường xuyên”, bộ phân tích cú pháp liên kết không thực hiện được. Đó là
vì các yêu cầu kết nối không chỉ ra được quan hệ giữa giữa các mệnh đề trong câu. Hơn
nữa, việc chỉ sử dụng liên kết đơn thuần của liên từ sẽ đòi hỏi thời gian tính toán rất lớn.
Nếu phân tích riêng từng mệnh đề của câu ghép rồi tổ hợp lại thành một phân tích tổng thể,
những vấn đề nói trên có thể giải quyết được.
Lý thuyết cấu trúc diễn ngôn (Rhetorical Structure Theory) do Mann và Thompson
[86] đưa ra, cho phép biểu diễn mối liên hệ giữa các thành phần trong một văn bản dưới
dạng cây với lá là các mệnh đề. Điểm mấu chốt của lý thuyết cấu trúc diễn ngôn là những
tiên đề về cấu trúc văn bản được Marcu nêu ra trong [89]:
Mọi văn bản có thể phân chia thành một dãy không giao nhau của các đơn vị văn bản
nguyên tố và một cây cấu trúc diễn ngôn được liên hệ với văn bản thỏa mãn các điều kiện
78
sau:
• Tồn tại ánh xạ 1-1 giữa các lá của cây và các đơn vị văn bản nguyên tố
• Cây tuân theo một tập ràng buộc có thể suy ra từ ngữ nghĩa và thực tế sử dụng các
đơn vị nguyên tố cũng như các quan hệ giữa các đơn vị đó.Từ các ràng buộc có thể
suy ra mối quan hệ diễn ngôn giữa các đơn vị văn bản có kích thước khác nhau.
• Quan hệ được sử dụng để nối các đơn vị văn bản được chia thành hai loại: đẳng
lập và phụ thuộc cú pháp.
Nghiên cứu về cấu trúc diễn ngôn của văn bản tiếng Việt cũng được nhiều nhà ngôn
ngữ học nổi tiếng quan tâm. Luận án đã sử dụng các kết quả về ngôn ngữ học của Nguyễn
Chí Hòa [9], Trần Ngọc Thêm [23] để xây dựng bộ phân tích diễn ngôn cho văn bản tiếng
Việt. Với bộ ngữ liệu thử nghiệm gồm 5 bài báo trên các website www.vnn.vn,
www.vnexpress.net, www.dantri.com.vn đã được các chuyên gia ngôn ngữ phân tích, độ
chính xác đạt được như sau:
Bảng 3.3. Kết quả thử nghiệm bộ phân tích diễn ngôn (chưa kết hợp phân tích cú pháp)
Văn bản
Số mệnh
Số đơn vị
Tỷ lệ %
Số đoạn
Số câu
Số quan hệ
test
đề
nguyên tố
đúng
1
11
29
54
46
64.27%
52
2
8
21
21
25
58.43%
37
3
5
12
30
19
62.78%
29
4
10
32
50
37
59.20%
40
5
1
3
6
6
95.09%
15
Tính trên toàn văn bản (bao gồm cả mức câu, đoạn, mục), bộ phân tích diễn ngôn cho
độ chính xác là 63%. Ở mức câu, độ chính xác đạt được xấp xỉ 80%. Xuất phát từ đặc điểm
của câu ghép tiếng Việt là hầu hết các giới hạn mệnh đề có thể phát hiện nhờ dấu hiệu diễn
ngôn kết hợp với một số đặc trưng cú pháp, luận án đã cải tiến giải thuật phân đoạn diễn
ngôn ở mức câu để tách câu ghép thành các mệnh đề, sau đó xây dựng cây diễn ngôn của
câu. Các mệnh đề sẽ được phân tích cú pháp riêng và quan hệ diễn ngôn giữa các mệnh đề
sẽ được chuyên thành các kết nối lớn trong văn phạm liên kết thành một phân tích hoàn
chỉnh cho toàn bộ câu. Điều này là khả thi vì đối với mô hình văn phạm liên kết, yêu cầu
về liên kết chỉ xác định hướng liên kết, nên không cần những đánh giá quá phức tạp về
quan hệ phụ thuộc. Do phạm vi phân tích là câu ghép nên giới hạn của các mệnh đề khá rõ
ràng. Luận án đã sử dụng tên của 18 mối quan hệ diễn ngôn giữa các mệnh đề được [1] và
79
[9] nêu ra làm tên kết nối. Các kết nối này mang tính chất kết nối lớn vì chúng liên kết các
cụm từ với nhau. Chúng được xây dựng giữa các cặp mệnh đề dựa theo cây diễn ngôn của
câu. Hình 3.10 cho thấy cây diễn ngôn của câu “Trời mưa rất to và gió rất mạnh nên tôi
phải nghỉ học, mẹ tôi phải nghỉ làm”. Câu này có 4 mệnh đề ký hiệu A1, B1, C1, D1. Các
quan hệ diễn ngôn: nguyên nhân, kết hợp, liệt kê được chuyển thành kết nối. Kết nối giữa
• Mỗi kết nối phải nối hai từ
• Phân tích liên kết của câu phải thỏa mãn các tính chất của văn phạm liên kết: tính
các mệnh đề vẫn phải thỏa mãn các yêu cầu sau:
•
phẳng, tính liên thông, tinh thứ tự cũng như tính thỏa mãn, tính loại trừ.
Hình 3.10. Cây phân tích diễn ngôn của câu “[trời mưa rất to vàA1]
[gió rất mạnh nênB1] [tôi phải nghỉ học,C1] [mẹ tôi phải nghỉ làm.D1]”
Để đảm bảo tính phẳng, nghĩa là các liên kết không được giao nhau khi vẽ bên trên các
từ, cần chọn ra trong mỗi mệnh đề một từ đại diện để liên kết. Mỗi từ trong mệnh đề sẽ
được gắn với một trọng số (bậc). Từ có trọng số nhỏ nhất ứng với liên kết cao nhất sẽ được
chọn đại diện cho mệnh đề.
• Phân đoạn diễn ngôn
• Phân tích cú pháp cho từng mệnh đề, thêm các liên kết nhận được vào liên kết tổng
Như vậy, quá trình phân tích cú pháp cho câu ghép cần qua những bước sau:
• Xây dựng cây phân tích diễn ngôn cho câu.
• Duyệt cây phân tích diễn ngôn theo thứ tự sau, thêm các kết nối ứng với từng quan
thể.
80
hệ diễn ngôn.
3.2.1. Xây dựng cây diễn ngôn
3.2.1.1.Phân đoạn diễn ngôn
Đoạn văn bản nhỏ nhất mà giữa chúng tồn tại các quan hệ diễn ngôn được gọi là Đơn vị
diễn ngôn nguyên tố (Elementary Discourse Units - EDU). EDU có thể là một mệnh đề
hoặc tựa mệnh đề.
Luận án cải tiến giải thuật của Marcu [89] để phân đoạn diễn ngôn. Dấu hiệu để phân
chia văn bản thành các đoạn nguyên tố về cơ bản khá giống với tiếng Anh. Bảng 3.3. dưới
đây cho phép xác định các dấu hiệu diễn ngôn tiềm tàng trong văn bản cần phân tích.
Bảng 3.4. Các biểu thức chính quy biểu diễn một số dấu hiệu diễn ngôn tiềm tàng
Dấu hiệu Mặc dù Bởi vì Nhưng Mặt khác Còn DẤU_PHẨY MỞ_NGOẶC ĐÓNG_NGOẶC GẠCH_NGANG HẾT_CÂU
Cách nhận biết [\s\t\n]Mặc dù(\s|\t|\n] [\s\t\n]bởi vì(\s|\t|n) [,][\s\t\n]nhưng(\s|\t|\n) [,][\s\t\n]mặt khác(\s|\t|\n) [\s\t\n][,] còn (\s|\t|\n) ,[\s|\t|\n) [,][\s\t\n]+( )(\s|\t|\n) [,][\s\t\n]+--(\s|\t|\n) (“.”)|(“?”)|(“!”)
Giải thuật phân đoạn diễn ngôn [89] cho phép đọc toàn bộ các dấu hiệu diễn ngôn của
văn bản, mỗi dấu hiệu tương ứng với một trong 10 hành động NOTHING, NORMAL,
NORMAL_THEN_COMMA, COMMA, END, MATCH_PAREN, COMMA_PAREN,
MATCH_DASH, SET_AND, SET_OR. Sau đây là mô tả của một số hành động thường
• Hành động NOTHING ra lệnh cho bộ phân tích xử lý cụm từ gợi ý được xét như là một
gặp nhất:
từ đơn. Điều đó có nghĩa là không có giới hạn đơn vị văn bản nào được xác lập khi một
• Hành động NORMAL ra lệnh cho bộ phân tích thêm một giới hạn văn bản ngay trước
cụm từ gợi ý với những hành động đó được xử lý.
xuất hiện của dấu hiệu. Các dấu hiệu văn bản tương ứng với biên giới giữa các đơn vị
• Hành động COMMA ra lệnh cho bộ phân tích thêm một giới hạn văn bản ngay sau
văn bản nguyên tố.
xuất hiện của dấu phảy đầu tiên của xâu vào. Nếu dấu phảy đầu tiên có “và” hoặc
81
“hoặc” đi ngay sau, biên của văn bản được đặt sau xuất hiện của dấu phảy tiếp sau.
Nếu không tìm thấy dấu phảy nào trước khi kết thúc câu, một giới hạn văn bản được
• Hành động NORMAL_THEN_COMMA ra lệnh cho bộ phân tích thêm một giới hạn
thiết lập tại điểm cuối của câu.
văn bản ngay trước xuất hiện của dấu hiệu và một giới hạn văn bản khác ngay sau xuất
hiện của dấu phảy đầu tiên trên văn bản vào. Nếu dấu phảy đầu tiên được nối tiếp bởi
“và” hoặc “hoặc “, việc xử lý cũng như trong hành động COMMA.
Dựa trên giải thuật của Marcu [89], luận án phân đoạn văn bản tiếng Việt với các hành
động: COMMA, NORMAL, NOTHING, NORMAL_THEN_COMMA, END, SET_
AND, SET_OR, MATCH_PAREN, COMMA_PAREN, MATCH_DASH, PH.
Sau khi đã xây dựng được bộ phân tích cú pháp trên văn phạm liên kết cho câu đơn,
luận án đã sử dụng công cụ này để giải quyết triệt để hơn vấn đề nhập nhằng với từ “và”.
Bảng 3.5 dưới đây đưa ra một số dấu hiệu diễn ngôn phổ biến trong tiếng Việt và hành
động xử lý tương ứng cho dấu hiệu diễn ngôn đó. Trong một số trường hợp, hành động xử
lý của dấu hiệu sẽ không được dùng đến khi dấu hiệu được xử lý bởi hành động dấu hiệu
diễn ngôn đi trước, chẳng hạn trong câu “Mặc dù nó không có tiền, nó cư tiêu xài hoang
phí”, dấu phảy được xử lý bởi hành động COMMA của dấu hiệu “mặc dù”.
Bảng 3.5. Hành động ứng với một số dấu hiệu diễn ngôn
Dấu hiệu mặc dù bởi vì nhưng và vì nên Dấu phẩy Mở ngoặc Đóng ngoặc Gạch ngang Hết câu
Vị trí B (Đầu câu) B M (Giữa câu) M B M M M E (Cuối câu) B E
Hành động COMMA DUAL NORMAL NORMAL_THEN_COMMA DUAL NORMAL PH MATCH_PAREN NOTHING MATCH_DASH NOTHING
Hành động NORMAL_THEN_COMMA, được liên hệ với từ “và”.Tư tưởng xử lý của
luận án khi bộ phân đoạn diễn ngôn gặp từ “và” như sau:
Đọc dấu hiệu tiếp theo. Thêm một giới hạn văn bản sau dấu hiệu tiếp theo. Nếu câu
được đọc hết, dấu hiệu biên của văn bản được đặt ở cuối câu. Tiến hành phân tích bằng văn
82
phạm liên kết với cụm từ trước và sau từ “và”.
Nếu cả hai cụm từ nhận được: từ đầu văn bản đang xét đến trước từ “và” và từ đứng sau
từ “và” đến trước dấu hệu diễn ngôn tiếp theo đều là các mệnh đề thì từ “và” có vai trò
diễn ngôn trong câu. Thêm một giới hạn văn bản sau dấu hiệu “và”.Ngược lại từ “và” là
liên từ các thành phần câu nên bỏ qua.
Xử lý của hành động NORMAL_THEN_COMMA, hành động gắn với từ “và” như
trong giải thuật được nêu sau này.
Dấu phảy cần xử lý phức tạp hơn.Trong [89], dấu phảy do bộ phân tích diễn ngôn xử lý
trong hai hành động COMMA và NORMAL_THEN_COMMA xử lý, các trường hợp khác
bị bỏ qua. Nay luận án xử lý thêm một số trường hợp khác. Khi gặp dấu phảy, dù cụm từ
đang xét là mệnh đề đúng cú pháp, chưa chắc giới hạn văn bản đã được thêm ngay sau dấu
phảy. Cần xem xét xem dấu hiệu ở sau cụm đó có là dấu phảy không. Nếu là dấu phảy thì
giới hạn văn bản sẽ được điền sau dấu hiệu đầu tiên khác dấu phảy. Ví dụ trong câu”tôi
mua nhiêu đồ chơi, bánh, kẹo để con tôi tặng các bạn”, giới hạn văn bản phải được thêm
vào sau từ “kẹo” thay vì thêm sau từ “đồ chơi”, dù cụm từ “tôi mua nhiều đồ chơi” đã là
một mệnh đề hoàn chỉnh. Công việc này được thực hiện bởi hành động PH gắn với dấu
phảy.
Dưới đây là toàn bộ giải thuật phân đoạn diễn ngôn. Đầu vào của giải thuật bao gồm câu
cần phân tích và mảng các dấu hiệu diễn ngôn trong câu. Đầu ra của giải thuật là câu đưa
vào được điền thêm các cặp [] để chỉ giới hạn của mệnh đề. Trong giải thuật này, luận án
đã chỉnh sửa hành động NORMAL_THEN_COMMA và thêm hành động PH để xử lý
nhập nhằng với “và”, “hoặc” và dấu phảy. Những xử lý khác theo [89].
Vào: Câu S Mảng của n dấu hiệu diễn ngôn tiềm tàng có thế xuất hiện trong S: marker[n] Ra: Các đơn vị tựa mệnh đề của S Phương pháp: //Những đoạn in nghiêng là xử lý do luận án đề xuất { status := nil; clauses := nil; parentheticals := nil; currClauseStart := 1; currParentStart := 1; for i from 1 to n // Xử lý trường hợp có lưu lại status { if MATCH_PAREN ∈∈∈∈ status if markerTextEqual(i,”)”) { parentheticals:= parentheticals ∪∪∪∪ textFromTo(currParentStart,offset(i)); status := status \ {MATCH_PAREN};
currParentStart := -1; continue;
83
currClauseStart := i-1; setDiscourse(i-1,yes);setDiscourse(i,yes); parentheticals := nil; status := status \ {SET_AND};
} if MATCH_DASH ∈∈∈∈ status if makerTextEqual(i,”-”) { parentheticals := parentheticals ∪∪∪∪ textFromTo(currParentstart,offset(i)); status := status \ {MATCH_DASH}; currParentStart := -1; continue; } if COMMA_PAREN ∈∈∈∈ status if markerTextEqual(i,”,”) && NextAdjacentMarkerisNotAnd()&& NextAdjacentMarkerIsNotOr() { parentheticals := parentheticals ∪∪∪∪ textFromTo(currParentStart,offset(i)); status := status \ {COMMA_PAREN}; currParentStart := -1; continue; } if COMMA ∈∈∈∈ status^markerTextEqual(i,”,”) ^ NextAdjacentMarkerisNotAnd()^ NextAdjacentMarkerIsNotOr() { clauses := clauses ∪∪∪∪ textFromTo(currClauseStart,offset(i),parentheticals); currClauseStart := i; status := status \ {COMMA}; parentheticals := nil; currParentStart := -1; continue; } if SET_AND ∈∈∈∈ status if markerAdjacent(i-1,i) ^ currClauseStart < i-1 { clauses:= clauses ∪∪∪∪textFromTo(currClauseStart,offset(i-1),parentheticals); } if SET_OR ∈∈∈∈ status if markerAdjacent(i-1,i) ^ currClauseStart < i-1 { clauses:=clauses ∪∪∪∪textFromTo(currClausesStart,offset(i-1),parentheticals); currClausesStart := i-1; setDiscourse(i-1,yes); setDiscourse(i,yes); parenthethicals := nil; status := status\{SET_OR}; } if NORMAL_THEN_COMMA ∈∈∈∈ status if not markerTextEqual(i,”,”) {clauses:=clauses ∪∪∪∪ textFromTo(currClauseStart, offset(i), parentheticals); status:= status\{NORMAL_THEN_COMMA} parentheticals := nil; currParentStart := -1;} if PH ∈∈∈∈ status ^ not markerTextEqual(i,”,”) {if not markerTextEqual(i,”và”) if (isClause(textFromTo(offset(i), offset(i+1)) { clauses:=clauses ∪∪∪∪ textFromTo(currClauseStart, offset(i),parentheticals); currClauseStart:=i+1; } else { clauses:=clauses ∪∪∪∪ textFromTo(currClauseStart, offset(i),parentheticals); status:=status\{PH};
84
} } swithch getActionType(i)) case DUAL: if markerAdjcent(i-1,i) { status := status ∪∪∪∪ {DAU_PHAY}; setDiscourse(i-1,yes);setDiscourse(i,yes); } else { clauses := clauses ∪∪∪∪ textFromTo(currClauseStart,offset(i),parentheticals); currClausesStart := offset(i); parentheticals := nil; setDiscourse(i,yes); } case NORMAL: clauses := clauses ∪∪∪∪ textFromTo(currClauseStart, offset(i), parentheticals); currClauseStart := offset(i); parentheticals := nil; setDiscourse(i,yes); case COMMA: if markerAdjacent(i-1.i) {setDiscourse(i-1,yes);setDiscourse(i,yes);status := status ∪∪∪∪ {COMMA};} case NORMAL_THEN_COMMA if isClause(textFromTo(currClauseStart,offset(i))^ isClause(textFromTo(offset(i), offset(i+1)) {clauses:= clauses ∪∪∪∪ textFromTo(currClauseStart,offset(i),parentheticals); status := status ∪∪∪∪ {getActionType(i)}; currClauseStart := offset(i);parentheticals := nil; setDiscourse(i,yes); } case PH: if isClause(textFromTo(currClauseStart, offset(i))^ isClause(textFromTo(offset(i),offset(i+1)) {clauses:= clauses ∪∪∪∪ textFromTo(currClauseStart,offset(i),parentheticals); clauses:= clauses ∪∪∪∪ textFromTo(offset(i)+1,offset(i+1),parentheticals); } else status:= status ∪∪∪∪ {getActionType(i)}; case NOTHING: if signalsRhetoricalRelations(i) setDiscourse(i,yes); case MATCH_PAREN,COMMA_PAREN,MATCH_DASH: status := status ∪∪∪∪ {getActionType(i)}; currParentStart := offset(i); case SET_AND, SET_OR: if status is neither MATCH_PAREN nor MATCH_DASH status := status ∪∪∪∪ {getActionType(i)}; } finishUpParentheticalsAndClauses(); End For
85
Hình 3.11. Giải thuật phân đoạn diễn ngôn (có khử nhập nhằng)
• Biến status ghi lại tập hợp những dấu hiệu đã được xử lý từ trước nhưng có thể vẫn
Giải thích ý nghĩa các đối tượng dùng trong giải thuật:
còn ảnh hưởng đến việc xác định ranh giới các mệnh đề và những EDU trong dấu
• Biến parentheticals ghi lại tập hợp những đơn vị trong dấu ngoặc đơn gắn liền với một
ngoặc đơn. Ban đầu, giá trị của biến đặt bằng NIL.
• Biến clauses ghi lại tất cả những EDU trong câu đang xét, trừ những EDU trong ngoặc
mệnh đề cho trước. Ban đầu, giá trị của biến bằng NIL.
• Biến currParentStart (Điểm bắt đầu ngoặc đơn) ghi lại vị trí của điểm bắt đầu đơn vị
đơn. Ban đầu, giá trị của biến bằng NIL.
trong dấu ngoặc đơn. Ban đầu, giá trị của nó được đặt là -1, nghĩa là chưa có đơn vị
• Biến currClauseStart (Điểm bắt đầu mệnh đề) ghi lại vị trí mà EDU đang xét bắt đầu.
trong dẫu ngoặc đơn nào được tìm thấy.
• Hàm dấu hiệu textEqual(i, s) có giá trị true nếu cụm từ dấu hiệu thứ i trong mảng dấu
Ban đầu, giá trị của nó là 1- vì EDU đầu tiên của câu bắt đầu tại offset 1.
• Hàm offset(i) trả về vị trí của từ gợi ý thứ i của mảng marker[n] trong câu s.offset phụ
hiệu diến ngôn là s. Ngược lại, hàm có giá trị false.
thuộc vào tham số “vị trí” của từ gợi ý. Nếu giá trị vị trí là B, hàm trả về giá trị là vị trí
• Hàm textFromTo(i, j) trả về giá trị EDU ở giữa offset i và j trong câu S.
• Hàm textFromTo(i, j, parentheticals) trả về giá trị là đơn vị văn bản ở giữa offset i và j
cụm từ gợi ý bắt đầu. Nếu giá trị của nó là E, hàm trả về vị trí cụm từ gợi ý kết thúc.
trong câu S có lưu thêm thông tin về những đơn vị trong ngoặc. Tập những đơn vị
• Hàm setDiscourse(i, yes) đặt giá trị cờ có-chức-năng-diễn-ngôn của dấu hiệu diễn ngôn
trong ngoặc được lưu trong biến parentheticals.
• Hàm getActionType(i) có giá trị là hành động của dấu hiệu diễn ngôn thứ i trong câu S.
• Hàm signalsRhetoricalRelations(i) (Có dấu hiệu có mối quan hệ diễn ngôn) có giá trị
thứ i là “yes”, cho thấy dấu hiệu thứ i có chức năng diễn ngôn.
• Hàm finishUpParentheticalsAndClauses() lưu lại những đoạn văn bản chưa xác định
true nếu từ gợi ý thứ i có vai trò diễn ngôn trong câu.
• Hàm isClause(s) do luận án đề xuất sẽ thực hiện phân tích đoạn văn bản đưa vào bằng
được là EDU sau khi xử lý mảng những dấu hiệu diễn ngôn tiềm tàng của câu.
văn phạm liên kết và trả ra kết quả đúng nếu đoạn văn đúng cú pháp liên kết đồng thời
86
có chứa nòng cốt (chứa ít nhất một trong ba liên kết SV, DT_LA và SA).
boolean isClause (s) {linkage lnk;int n;connection c; n=NumberOfWord(s) if (PARSE(s,lnk)!=0) //s đúng cú pháp {for(i=1;i<=n;i++)
for each c in lnk.linklist(i) {if(c.type=“SV” or c.type=“DT_LA” or c.type=“SA”)//s chứa nòng cốt {return true; break;} } return false;
}
return false;//s sai cú pháp
}
Hình 3.12. Hàm isClause
Ví dụ: Với câu S là “Trời mưa rất to và gió rất mạnh nên tôi phải nghỉ học, mẹ tôi phải
nghỉ làm”, mảng marker[4] có giá trị các phần tử là “và”, “nên”, dấu phảy và kết thúc câu.
Từ “và” được gắn với hành động NORMAL_THEN_COMMA. Trong xử lý của giải thuật
ở hình 3.11, giá trị hàm isClause với các cụm từ “trời mưa rất to” và “gió rất mạnh” đều là
true nên tập mệnh đề Clauses được thêm mệnh đề “trời mưa rất to và” và
NORMAL_THEN_COMMA được lưu lại trong status. Khi xử lý đến dấu hiệu “nên” với
hành động NORMAL, mệnh đề “gió rất mạnh nên” được thêm vào Clauses, status rỗng.
Khi gặp dấu phảy, vì hàm isClause với cụm từ “tôi phải nghỉ học,” và cụm từ sau dấu
phảy “mẹ tôi phải nghỉ làm” đều cho giá trị true nên hai mệnh đề này được thêm vào
Clauses. Dấu hiệu kết thúc câu ứng với hành động NOTHING nên không thêm mệnh đề
mới vào Clauses. Kết quả phân tích diễn ngôn khi thử nghiệm được trình bày trong hình
3.19.
Tìm quan hệ diễn ngôn với những đơn vị không xuất hiện dấu hiệu diễn ngôn
Với những đơn vị không xuất hiện dấu hiệu diễn ngôn, dựa trên đặc điểm của tiếng
Việt, luận án dùng giải thuật tìm các từ cùng xuất hiện được Marcu [89] đề xuất. Khi ấy,
các quan hệ diễn ngôn sẽ được gán là Kết nối hoặc Liệt kê.
Xây dựng cây diễn ngôn
Để có thể xây dựng được một cây cấu trúc văn bản hợp pháp, phải chọn từ những quan
hệ tìm được ra bộ các quan hệ tạo thành một cấu trúc văn bản hợp pháp. luận án xây dựng
cây cấu trúc văn bản hợp pháp nhờ phương pháp proof-theoretic[89], sử dụng các phép
biến đổi để quy dẫn về cấu trúc hợp pháp.
Phương pháp proof - theoretic sinh ra tất cả các tập cây cấu trúc hợp pháp, với mỗi tập
có các thông số: Hạt nhân hay Vệ tinh, lá hay là gốc, tên quan hệ và các thành phần của
87
cây. Mỗi cây được mô tả với cấu trúc Tree (status, type, promotion, left, right), trong đó:
•
•
status: mô tả trạng thái của nút, là Hạt nhân (N) hoặc Vệ tinh (S).
• promotion:Tập các giá trị từ 1 đến n là số hiệu của các mệnh đề nổi bật nhất trong
type: tên của quan hệ diễn ngôn.
cây. Mệnh đề nổi bật nhất là mệnh đề đóng vai trò quan trọng nhất trong đoạn văn
•
bản được biểu diễn bởi nút đang xét.
•
left: mô tả của cây con trái.
right: mô tả của cây con phải.
Nút lá có thể được mô tả dưới dạng cây bằng cách gán cho giá trị Left và Right bằng
NULL và type là LEAF.
Theo [89], phương pháp proof-theoretic cho phép xây dựng nên cấu trúc văn bản từ 14
tiên đề. Dưới đây là ví dụ một tiên đề:
[S(l, b, Tree1(Hạt nhân, type1, p1, left1, right1), rr1) ^
S(b+1, h, Tree2(Hạt nhân, type2, p2, left2, right2), rr2) ^
rhel_rel(name, n1, n2) ∈∈∈∈ rr1∩∩∩∩ rr2^ n1∈∈∈∈ p1 ^ n2∈∈∈∈ p2^ paratactic(name)] (cid:2)(cid:2)(cid:2)(cid:2) S(l, h, Tree(Hạt nhân, name, p1 ∪∪∪∪ p2, Tree1(…), Tree2(…), rr1∩∩∩∩ rr2 \
{rhel_rel(name, l, n1, n2)})
Tiên đề này có nghĩa:
• Đoạn văn bản kéo dài từ đơn vị l tới đơn vị b được biểu diễn bằng cây cấu trúc Tree1
Nếu
• Đoạn văn bản kéo dài từ đơn vị b+1 tới đơn vị h được biểu diễn bằng cây Tree2 có tập
với tập quan hệ diễn ngôn rr1
• Tồn tại quan hệ diễn ngôn rhel_rel(name, n1, n2) giữa đoạn n1 là một trong các đoạn nổi
quan hệ diễn ngôn rr2.
• Quan hệ diễn ngôn rhel_rel (name, n1, n2) có thể mở rộng trên cả đoạn [l, b] và đoạn
bật của đoạn [l, b] với đoạn n2 là một trong các đoạn nổi bật của [b+1, h].
•
[b+1, h]
• Quan hệ name nói trên là đẳng lập (paratactic).
rhel_rel(name, n1, n2) ∈ rr1∩ rr2
• Có thể tổ hợp đoạn [l, b] và đoạn [b+1, h] thành đoạn lớn hơn [l, h] có trạng thái là hạt
Thì
nhân, kiểu quan hệ name, tập nổi bật là p1 ∪ p2 (p1là tập nổi bật của[l, b], p2 là tập nổi
• Tập quan hệ hiện nay sẽ là rr1∩ rr2 \ {rhel_rel(name, l, n1, n2)
88
bật của[b+1, h]), có 2 cây con là tree1 và tree2.
Lựa chọn cây diễn ngôn
Tương tự tiếng Anh, tiếng Việt là ngôn ngữ có cách viết từ trái sang phải, phát ngôn
trong tiếng Việt có xu hướng để mệnh đề quan trọng trước. Do vậy, luận án đã theo cách
h((cid:21)(cid:17)(cid:19)(cid:19))
ế
ú
ệ
à
à
ú
á
ế
ượ
ạ
rℎ (cid:18)
(cid:21) ℎu
s r
0 r
(cid:21) (cid:18)
r
đánh giá cây diễn ngôn của Marcu trong [89] thiên về cây lệch trái theo tiêu chuẩn sau:
= p
s rw
r ℎ h((cid:18)(cid:19)(cid:20)(cid:21)v(cid:20)((cid:21)(cid:17)(cid:19)(cid:19)) + h((cid:17)uwℎ(cid:21)v(cid:20)((cid:21)(cid:17)(cid:19)(cid:19)) + o(cid:19)x(cid:21)ℎy(cid:17)uwℎ(cid:21)v(cid:20)((cid:21)(cid:17)(cid:19)(cid:19))z − o(cid:19)x(cid:21)ℎy(cid:18)(cid:19)(cid:20)(cid:21)v(cid:20)((cid:21)(cid:17)(cid:19)(cid:19))zr u | (cid:18) Trong hình 3.13 dưới đây là ví dụ về các loại cây diễn ngôn. Cây lệch trái có giá trị 1 là
d
Cây cân bằng với w = 0.
Cây lệch trái với w = 1
Cây lệch phải với w = -1
giá trị lớn nhất. Điều đó thể hiện sự ưu tiên cây lệch trái.
89
Hình 3.13. Các dạng cây cấu trúc diễn ngôn
3.2.2. Giải thuật phân tích cú pháp câu ghép
Luận án đã đề xuất giải thuật tổng thể để phân tích cú pháp cho câu ghép biểu diễn dưới
dạng một dãy các từ như sau:
Vào: Câu tiếng Việt s đã tách từ Ra: Kết quả phân tích câu bao gồm danh sách các kết nối Phương pháp: U [N] := Discourse_Segment(s);// U chứa các đơn vị diễn ngôn của câu s root := RS_Parse(); // Cây phân tích diễn ngôn của s có gốc là root for i:=1 to N if Is_Unit (U[i]) { Parse(U[i],LinkTemp); Lnk.Add LinkTemp; } Insert_Link_From_RST_Tree(root); After_Insert();
Hình 3.14. Giải thuật phân tích cú pháp cho câu ghép
• Biến Lnk chứa toàn bộ liên kết cho cả câu ghép. Biến LinkTemp chứa các liên kết cho
Trong giải thuật này,
• Hàm Discourse_Segment thực hiện phân đoạn diễn ngôn cho câu s.
• Hàm RS_Parse cho phép dựng cây phân tích diễn ngôn của câu .
• Hàm Is_Unit trả về giá trị true nếu đơn vị diễn ngôn được xem xét chứa từ hai từ trở
từng mệnh đề.
• Hàm Parse là hàm phân tích cú pháp, trả 1 nếu câu đúng cú pháp, 0 nếu ngược lại. Kết
lên.
quả được lưu trong lnk. lnk có cấu trúc như hình 3.16. Mỗi danh sách ứng với mỗi từ là
• Hàm After_Insert cho phép xử lý và tạo liên kết với các mệnh đề phụ trạng ngữ: “hôm
một linklist
• Hàm Insert_Link_From_RST_Tree thực hiện việc duyệt cây diễn ngôn của câu, thêm
qua”,”trong khi đó”...
các liên kết ứng với từng quan hệ diễn ngôn.
Hình 3.15 dưới đây trình bày hàm Insert_Link_From_RST_Tree do luận án đề xuất.
• Thuộc tính promotion cho biết phạm vi của quan hệ diễn ngôn liên quan đến mệnh đề
Trong hàm này,
• Biến FirstWord trả về thứ tự của từ đại diện cho mệnh đề thứ nhất, LastWord trả về
nào trong câu.
90
thứ tự của từ đại diện cho mệnh đề thứ hai.
• Biến FirstMarker chứa dấu hiệu diễn ngôn ở đầu đoạn văn bản được mô tả bởi một cây
con của cây cấu trúc diễn ngôn, MidMarker chứa dấu hiệu diễn ngôn nằm ở giữa đoạn
văn bản của cây con của cây cấu trúc diễn ngôn. Hai từ đó cần được xác định bởi các
hàm FindFirstMarker và FindMiddleMarker vì tùy từng xử lý, giải thuật phân tích diễn
• Hàm Represent trả về từ đại diện cho mệnh đề được xét.
• Thuộc tính IndexOfRepWord trả về số thứ tự của từ đại diện tại nút trong của cây cấu
ngôn có thể để dấu hiệu diễn ngôn ở đầu hay cuối đơn vị diễn ngôn nguyên tố.
• Hàm InsertLink cho phép thêm một mối liên hệ vào Linkage.
trúc diễn ngôn.
if(IsLeaf(node.RightChild)
{FirstWord = node.LeftChild.IndexOfRepWord;
LastWord = node.RightChild. IndexOfRepWord; }
Insert_Link_From_RST_Tree (node) { if(IsLeaft(node) ) return; InsertLinkFromRSTree(node.LeftChild); InsertLinkFromRSTree(node.RightChild); if (!IsLeaf(node)) if (IsLeaf(node.LeftChild) ) { FirstWord = Represent (node.LeftChild.promotion) LastWord = Represent (node.RightChild.promotion) } else { FirstWord = Represent (node.LeftChild.promotion); LastWord = node.RightChild. IndexOfRepWord; } else if (IsLeaf(node.RightChild)) LastWord = Represent (node.RightChild.promotion); } else {FirstWord = node.LeftChild. IndexOfRepWord; FirstMarker = FindFirstMarker (node); MidMarker = FindMiddleMarker (node); InsertLink(node, FirstWord, LastWord, FirstMarker, MidMarker, node.Action); } }
Hình 3.15. Hàm Insert_Link_From_RST_Tree
3.2.3. Tìm từ để kết nối mệnh đề
Nếu trong mô hình văn phạm phụ thuộc, từ đại diện cho mệnh đề chính là từ trung tâm
91
của mệnh đề thì trong mô hình văn phạm liên kết, cần phải chọn từ đại diện cho mệnh đề.
Bậc của kết nối Việc chọn từ đại diện cho mệnh đề phải đảm bảo cầu về tính phẳng của
liên kết. Sau khi phân tích cú pháp cho các mệnh đề, các kết nối được lưu trữ lại dưới dạng
danh sách liên kết.
Hình 3.16 dưới đây thể hiện cấu trúc lưu trữ phân tích liên kết của câu “Tôi mua một
bông hoa”. 1, 2...5 là số thứ tự của từ. Mỗi từ có một danh sách liên kết các kết nối với các
từ nằm bên phải nó. Thông tin về mỗi kết nối bao gồm (kiểu, đích, bậc). Ví dụ (SV, 2, 0 )
chỉ liên kết của từ đầu tiên (“tôi”) và từ thứ hai (“mua”).
Các liên kết sau khi được vẽ lên trên của mỗi từ sẽ được gán một giá trị gọi là bậc của
liên kết. Do yêu cầu của bài toán đặt ra từ được chọn phải đảm bảo khi ta thêm các liên kết
khác của các liên từ với nó thì các liên kết cũ và liên kết mới không được giao nhau. Vì
vậy từ được chọn ở đây là từ có bậc thấp nhất tương ứng với từ có liên kết được vẽ bên
trên cùng.
Hình 3.16. Minh họa cách lưu trữ phân tích liên kết của câu “Tôi mua một bông hoa”
Bậc của liên kết được tính như sau:
Theo giải thuật phân tích cú pháp, liên kết được vẽ đầu tiên sẽ có bậc 0. Đó là liên kết
SV và O. Sau đó, trong quá trình thực hiện giải thuật phân tích trong [111] một cách đệ
quy với các từ bên trái và bên phải từ được xét, bậc của McN và McNt3 là 1. Nếu câu này
đóng vai trò mệnh đề trong liên kết với mệnh đề khác, thì kết nối được chọn để liên kết sẽ
là kết nối trên cùng, tức là kết nối bậc 0 (trong ví dụ ở hình 3.17. là SV hoặc O).
Hình 3.17. Phân tích câu “Tôi mua một bông hoa”
Một ví dụ khác, phân tích câu “Nếu tôi có nhiều thời gian, tôi đã ở Nghệ An và thành
phố Hồ Chí Minh”. Khi chọn từ đại diện cho mệnh đề “tôi đã ở Nghệ An và thành phố Hồ
Chí Minh”, liên kết có bậc cao nhất là liên kết SV giữa “tôi” và “ở”. Liên kết này có bậc 0
trong khi các liên kết khác có bậc 1, 2...
Từ được chọn có thể là “tôi” hoặc “ở”. Việc làm này sẽ đảm bảo được tính phẳng vì nếu
vẽ liên kết từ mệnh đề trước với từ “đã” hay từ “Nghệ An” thì không có cách nào để vẽ các
liên kết đó không giao nhau.
Chọn từ để liên kết
Sau khi tìm được kết nối thích hợp với các từ ứng viên nằm bên trái và bên phải của kết
nối, vấn đề đặt ra chọn từ bên trái hay bên phải. Tiêu chí luận án đưa ra là chọn từ quan
trọng hơn. Với những mối quan hệ như McNt, RlAp... từ được chọn là từ bên phải (danh
từ), còn với kết nối SV, SA thì từ được chọn là từ bên trái (danh từ). Thông tin về từ bên
trái hay bên phải được chọn sẽ được lưu trữ theo mỗi loại kết nối. Trong ví dụ ở hình 3.10.
dưới đây chỉ ra phân tích cụm từ “một cái bút rất tốt”.
Hình 3.18. Phân tích cụm từ “một cái bút rất tốt”
Do liên kết giữa từ “một” và từ “bút” là McNt nên từ có mức độ ưu tiên cao hơn là từ
“bút”.Từ được chọn phải là từ “bút”.
3.2.4. Kết quả thử nghiệm phân tích câu ghép
Bộ phân tích cú pháp câu ghép được phát triển từ bộ phân tích liên kết cho câu đơn và
câu ghép hai mệnh đề, sử dụng ngôn ngữ Java làm việc trong môi trường Windows. Hình
dưới đây mô tả kết quả phân tích cú pháp cho câu ghép “Trời mưa rất to và gió rất mạnh
nên tôi phải nghỉ học, mẹ tôi phải nghỉ làm” gồm 4 mệnh đề với các quan hệ diễn ngôn đã
93
được biểu diễn trong hình 3.19.
Hình 3.19. Kết quả phân tích câu “Trời mưa rất to và gió rất mạnh nên tôi phải nghỉ
học, mẹ tôi phải nghỉ làm”
Để kiểm chứng cho giải thuật phân tích câu ghép, luận án đã tạo bộ mẫu gồm 100 câu
ghép đã phân tích và chú giải, chi tiết như trong bảng 2. Nguồn dữ liệu được chọn từ các
bài báo và tập mẫu câu trên mạng:
http://www.mediafire.com/?6ajt9btbrtxidr9
http://www.vietnamtourism.com/v_pages/tourist/destination.asp?mt=8420&uid=533
http://dantri.com.vn/c26/s26-484690/barcelona-mu-giac-mo-noi-thien-duong.htm
Bảng 3.6. Chi tiết tập mẫu câu ghép
Số lượng
Số từ trung bình
STT
Tập mẫu
câu
trong câu
Ngữ liệu tiếng Việt phổ quát (Hồ Quốc Bảo)
50
9.7
1
Thể thao
25
11.5
2
Du lịch
25
12.5
3
Kết quả phân tích tập mẫu thể hiện ở bảng 3.6 cho thấy kết quả đạt được cao hơn hẳn
94
so với bộ phân tích cũ:
Tập mẫu
1
Độ chính xác (bộ PT cũ) 42.5%
Độ phủ (bộ PT cũ) 35.7%
Độ chính xác (bộ PT mới) 75.1%
Độ phủ (bộ PT mới) 65.7%
2
9.5%
6.1%
33.5%
21.6%
3
28.3%
20.5%
47.4%
58.5%
Bảng 3.7. Kết quả phân tích các tập mẫu câu ghép (đã khử nhập nhằng)
Trong số các bộ ngữ liệu được dùng trong giai đoạn này, bộ ngữ liệu tiếng Việt phổ
quát (thật ra là phần tiếng Việt trong bộ ngữ liệu Anh - Việt tổng quát, chủ yếu chứa các
câu ghép hai mệnh đề và khá giống nhau nên tỷ lệ câu phân tích diễn ngôn đúng là 100%,
ngoài ra cấu trúc từng mệnh đề cũng khá đơn giản. Ngữ liệu về du lịch cũng gồm những
câu trong các bài giới thiệu quảng bá du lịch, nhiều câu có trên 3 mệnh đề nhưng cấu trúc
vẫn theo đúng luật cú pháp. Bộ ngữ liệu về thể thao với nhiều dạng thức đặc biệt của câu
ghép vẫn đạt tỷ lệ thấp nhất.
Bộ phân tích cú pháp liên kết của luận án đã đạt được kết quả khá tốt trên những câu
ghép gồm nhiều mệnh đề, không bao nhau, có thể xuất hiện những đoạn giải thích với cặp
ngoặc hoặc dấu gạch ngang (-). Tuy nhiên, vẫn còn một số dạng câu ghép mà bộ phân tích
• Câu ghép thiếu liên từ, ví dụ”Dù chết tao cũng không theo”. Câu này xuất hiện dưới
của luận án chưa xử lý được. Dưới đây là ví dụ của những loại câu đó:
dạng câu đơn nhưng thực ra lại là câu ghép, không có từ liên kết lại ẩn chủ ngữ
• Tồn tại những vị ngữ phức tạp, ví dụ “Để cho đỡ buồn tẻ, công chúa thường lấy một
“tao” ở mệnh đề đầu.
quả cầu bằng vàng tung lên để bắt chơi”, câu này không có dấu phảy trước động từ
• Quá nhiều mệnh đề, nhiều thành phần liên hợp, trong đó một số mệnh đề ẩn chủ
“tung” nên liên hệ giữa động từ “lấy” và động từ “tung” là không xác định được.
ngữ, ví dụ “Ta thường tới bữa quên ăn, nửa đêm vỗ gối, ruột đau như cắt, nước mắt
đầm đìa; chỉ giận chưa thể xả thịt, lột da, ăn gan, uống máu quân thù; dẫu cho trăm
thân ta phơi ngoài nội cỏ, nghìn thây ta bọc trong da ngựa, cũng nguyện xin làm”
Luận án chưa thử nghiệm trên câu phức là dạng câu có từ hai cụm chủ vị trở lên nhưng
có một cụm bao các cụm còn lại, ví dụ “cái áo hôm qua cậu mua rất đẹp” có hai cụm chủ
vị “cậu mua” “cái áo đẹp” , cụm “cái áo đẹp” bao cụm còn lại. Thật ra, một số trường
95
hợp đã có thể phân tích với bộ phân tích câu ghép của chúng tôi, như câu “Nó bảo rằng nó
không đi nữa”.Tuy nhiên một số trường hợp cần dùng phương pháp học máy để nhận ra
giới hạn mệnh đề.
3.2.5. Độ phức tạp tính toán
Theo Sleator [111], chi phí thời gian của giải thuật phân tích liên kết (khi chưa lược tỉa) là với một văn phạm xác định là O(n3) với n là độ dài câu (số từ trong câu), chi phí này
cũng tương đương với chi phí thời gian của các giải thuật phân tích sử dụng văn phạm phi
ngữ cảnh. Khi phân tích cú pháp ngôn ngữ tự nhiên, n không lớn nên phần lớn chi phí thời
gian là do việc tìm kiếm các luật phù hợp trong văn phạm. Nếu xét cả kích thước văn phạm thì giải thuật phân tích liên kết có chi phí O(n3m), m là số dạng tuyển trung bình của các
từ trong câu. Trong khi đó, độ phức tạp của các giải thuật CYK và Earley cho văn phạm phi ngữ cảnh theo Jurafsky [70] là O(n3|G|), |G| là số sản xuất của văn phạm phi ngữ cảnh.
Chi phí thời gian chủ yếu chính là do giai đoạn lược tỉa. Trong tiếng Việt, do từ không
biến đổi hình thái nên mỗi từ phải có nhiều mối liên hệ với các từ chỉ thì, thể, số..., Số
lượng dạng tuyển trung bình (chưa lược tỉa) của mỗi từ khoảng 10.000. Từ [111] có thể
thấy giải thuật lược tỉa có chi phí O(nm).
Nếu quá trình phân đoạn diễn ngôn chia câu thành k mệnh đề, độ dài trung bình mỗi mệnh đề còn n/k, chi phí thời gian trung bình sẽ giảm k2 lần. Chi phí phân đoạn diễn ngôn
là O(n), chi phí duyệt cây diễn ngôn là cây nhị phân gồm k/2 nút lá (không duyệt nút lá)
ứng với k mệnh đề không quá O(k).Như vậy k càng lớn, chi phí thời gian sẽ càng nhỏ. Tuy
nhiên nếu k bằng 1 thì chi phí sẽ lớn hơn chi phí phân tích câu đơn.
Thực nghiệm với tập câu mẫu thứ nhất ở bảng 3.5, cho thấy thời gian để phân tích tập
mẫu theo kiểu liên kết liên từ là 296.153 mili giây, trong khi thời gian phân tích câu đó
bằng cách phân tích riêng từng mệnh đề là 217.324 mili giây, giảm đáng kể so với phân
tích kiểu liên kết liên từ.
3.3.Khử nhập nhằng
Như đã trình bày ở chương 2, Jurafsky [70] nêu ra hai vấn đề chủ yếu trong nhập
nhằng cú pháp: nhập nhằng thành phần và nhập nhằng liên hợp. Nhập nhằng thành phần
(attachment ambiguation) xảy ra khi một cấu trúc có thể tham gia các bộ phận khác nhau
trên cây phân tích, tạo ra những phân tích khác nhau. Nhập nhằng liên hợp (cordination
96
ambiguation) xảy ra khi gặp những cụm từ liên kết với nhau bằng liên từ liên hợp “và”,
“hoặc”, “hay”...Nhập nhằng địa phương (local ambiguation) cũng được tính đến khi một
từ có thể nhận các nhãn từ loại khác nhau. Vấn đề nhập nhằng địa phương của mô hình liên
kết một phần đã được giải quyết trong quá trình phân tích cú pháp. Khác với các mô hình
khác, từ không được gán nhãn trước khi phân tích cú pháp mà được gán nhãn dựa trên liên
kết mà nó tham gia. Một từ có nhiều nghĩa sẽ xuất hiện trong những công thức khác nhau,
tuy nhiên chỉ những tổ hợp các từ và nhãn thỏa các yêu cầu liên kết mới được chấp nhận.
Do vậy số lượng phân tích liên kết của mỗi câu nhỏ hơn đáng kể so với số lượng cây cú
pháp của mô hình phi ngữ cảnh.
Trong phần này nói đến việc giải quyêt vấn đề nhập nhằng thành phần và nhập nhằng
liên hợp. Đối với nhập nhằng thành phần, luận án đã chọn cách tiếp cận của Lafferty và
đồng nghiệp [79] với mô tả chung về một mô hình xác suất trigram. Từ mô tả này, luận án
phải xây dựng giải thuật khử nhập nhằng cho ứng dụng của mình.
3.3.1. Khử nhập nhằng thành phần
Vấn đề nhập nhằng thành phần xảy ra khi một câu có nhiều hơn một phân tích liên kết.
Câu đươc xét ở đây là câu đơn. Nếu là câu ghép, sau khi phân tách thành mệnh đề, mới
giải quyết vấn đề nhập nhằng.
Theo mô hình trigram [79], việc khử nhập nhằng không phải là tính xác suất của mỗi
phân tích, tìm ra câu có xác suất lớn nhất, mà là sử dụng mô hình Markov ẩn (HMM) dự
• Tìm câu có xác suất lớn nhất theo giải thuật kiểu Viterbi.
• Cập nhật lại xác suất của các sản xuất.
3.3.1.1. Giải thuật kiểu Viterbi để tìm phân tích tốt nhất
đoán câu có xác suất lớn nhất. Hai vấn đề chính cần giải quyết phục vụ mục đích này là:
Trong [79] đã giới thiệu mô hình xác suất cho văn phạm liên kết tương tự như mô hình
đã được mô tả ở mục 1.1.2. cho văn phạm phi ngữ cảnh. Nếu trong văn phạm phi ngữ
cảnh, thao tác cơ bản là viết lại thì trong văn phạm liên kết, thao tác cơ bản lại là tìm liên
kết. Đối tượng tương đương với sản xuất của văn phạm phi ngữ cảnh trong văn phạm liên
kết là liên kết. Mỗi liên kết phụ thuộc vào hai kết nối: kết nối phải và kết nối trái cùng tên
Pr ( W, d, O | L, R, l, r ) (3.1)
97
nối hai từ L và R . Như vậy tham số của văn phạm liên kết là:
O có thể nhận các giá trị →, ←, ↔ thể hiện hướng liên kết. Có thể hiểu là: cho từ L có
kết nối phải là l và từ R có kết nối trái r, tham số là xác suất của sự kiện: tồn tại từ W nằm
giữa L và R, dạng tuyển d của W liên kết được với L hoặc R hoặc cả hai. Xác suất (3.1)
Pr ( W, d, O | L, R, l, r ) =
Pr (W | L, R, l, r ) × Pr ( d | W, L, R, l, r ) × Pr ( O | d, t, p, q, l, r ) (3.2)
phân rã thành:
Vì ta đang xét đến các xác suất điều kiện trên một tập sự kiện quá lớn cho một văn
phạm với từ vựng của ngôn ngữ tự nhiên, trên thực tế không thể ước lượng được xác suất
Pr ( W, d, O | L, R, l, r ) ≈ Pr (W | L, R, l, r ) × Pr (d | W, l, r ) × Pr (O | d, l, r ) (3.3)
này. Do vậy nó cần được xấp xỉ bằng công thức [79]:
Pr ( S, L ) = Pr ( W0, d0 ) ∏ Pr ( W, d, O | L, R, l, r )
Xác suất của một phân tích liên kết (linkage) là tích của xác suất của mọi liên kết trong nó. Bây giờ cần biểu diễn phân tích liên kết L bởi một tập các liên kết L = {(W, d, O, L, R, l, r)} cùng với dạng tuyển đầu tiên d0. Xác suất của L là:
Ví dụ: Một văn phạm liên kết xác suất có lưu trữ các tham số sau (Từ thứ n là từ “giả”
Pr ( tôi, ( ) ( SV ) ) = 0.7
Pr ( mua, (SV)(O), ← | tôi, Wn , SV, NIL) = 0.06
Pr ( hoa, ( O, NcNt3 )( ), ← | mua, Wn , O, NIL) = 0.03
Pr ( bông, (McN)(NcNt3), → | mua, hoa, NIL, NcNt3) = 0.05
Pr ( một, ( )(McN), → | mua, bông, NIL, McN) = 0.06
Pr ( bông, (O, McN)(NcNt3), ↔ | mua, Wn , O, NIL) = 0.00001
Pr ( hoa, (NcNt3)( ) ← | bông, Wn, NcNt3, NIL) = 0.07 (3.4) Giả sử câu “Tôi mua một bông hoa” có hai phân tích L1 và L2 như trong hình 3.20 dưới
Wn được dùng trong phân tích theo giải thuật trong hình 3.4):
đây:
Hình 3.20. Hai phân tích của câu “Tôi mua một bông hoa”
Xác suất cho phân tích L1 (hình 3.20 (A)) là:
Pr (L1) = Pr ( 0, ( )( SV ) ) × Pr ( 1, (SV)(O), ← | 0, 5 , SV, NIL ) ×
Pr ( 4, ( O, NcNt3 )( ), ← | 1, n, O, NIL ) ×
Pr ( 3, (McN)(NcNt3), → | 1, 4, NIL, NcNt3 ) ×
Pr ( 2, ( )(McN), → | 1, 3, NIL, McN )
= 0.7 * 0.06 * 0.03 * 0.05 * 0.06
= 3.78E-5
Trong khi xác suất của phân tích L2 (hình 3.20. (B)) là:
Pr (L2) = Pr ( 0, ( )( SV ) ) × Pr ( 1, (SV)(O), ← | 0, 5 , SV, NIL ) ×
Pr ( bông, (O, McN)(NcNt3), ↔ | mua, Wn , O, NIL ) ×
Pr ( một, ( )(McN), → | mua, bông, NIL, McN ) ×
Pr ( hoa, (NcNt3)( ) ← | bông, Wn, NcNt3, NIL )
= 0.7 × 0.06 × 0.00001 × 0.06 × 0,7
= 2E-8 Nếu phải chọn một trong hai phân tích thì L1 sẽ được chọn.
Trong [79] chỉ đưa ra mô hình xác suất cho văn phạm liên kết với xác suất trong và xác
suất ngoài tương tự xác suất tiến và xác suất lùi trong mô hình HMM. Luận án đã đề xuất
giải thuật kiểu Viterbi cho mô hình văn phạm liên kết.
Khởi tạo: δlr(p,p+1) =
U
1 nếu l = r = NIL 0 nếu ngược lại
d
Quy nạp:
[P(W, d, ← |L, R, l, r)δl⊳,⊲left[d](L, W)δright[d],r(L, R),
δlr(L, R) = max L < < d∈D(W) (cid:127) ~
δ
δ
P(W, d, ↔ |L, R, l, r)
.⊳,⊲.-(cid:129)*8/;(L, W) δ δ
(cid:130)(cid:29)(cid:131)(cid:132)*8/;⊳,⊲(cid:130)(W, R),
P(W, d, → | L, R, l, r)
(cid:130)(cid:29)(cid:131)(cid:132)*8/;⊳,⊲(cid:130)(W, R);
.,.-(cid:129)*8/;(L, W)
Ghi lại vết các từ và dạng tuyển tương ứng:
δ
δ
ψ
.(cid:130)(L, R) = argmax
8P(t, d, ← |L, R, l, r)
*,/
(cid:130)(cid:29)(cid:131)(cid:132)*8/;,(cid:130)(W, Rz, δ
.⊳,⊲.-(cid:129)*8/;yL, W) δ
P(W, d, ↔ |L, R, l, r)
.⊳,⊲.-(cid:129)*8/;(L, W) δ
δ
(cid:130)(cid:29)(cid:131)(cid:132)*8/;⊳,⊲(cid:130)(W, R),
(cid:130)(cid:29)(cid:131)(cid:132)*8/;⊳,⊲(cid:130)(W, R);
.,.-(cid:129)*8/;(L, W)
P(W, d, → |L, R, l, r)
Kết thúc và tìm lại con đường bằng cách đọc ngược biến ψψψψ
P(L)= maxd∈D(0) P(W0, d) δright[d],NIL(0, m) Thêm W0 và d vào phân tích
99
Hình 3.21. Giải thuật kiểu Viterbi để dự đoán phân tích có xác suất cao nhất
3.3.1.2. Giải thuật huấn luyện
Như đã trình bày ở chương 1 với văn phạm phi ngữ cảnh, các xác suất đóng vai trò tham
số ban đầu có thể được sinh ngẫu nhiên, sau đó được cập nhật lại mỗi khi có một câu mới
được phân tích và thêm vào bộ ngữ liệu. Giải thuật huấn luyện do [79] đưa ra nhằm tính lại
giá trị tham số sau khi đã xử lý câu đưa vào. Cũng như văn phạm phi ngữ cảnh, giải thuật
này dựa vào hai tham số là xác suất trong và xác suất ngoài.
Xác suất trong PrI ( L, R, l, r ) là xác suất mà các từ từ L đến R có thể liên kết với nhau
sao cho các kết nối l và r được thỏa mãn.
Xác suất ngoài Pro ( L, R, l, r ) là xác suất mà các từ ngoài phạm vi từ L đến R có thể
liên kết với nhau sao cho các yêu cầu kết nối ngoài l và r được thỏa mãn.
Pr(cid:135)(L, R, l, r) =
←
∈
(cid:139)(cid:140)(cid:138)(cid:140)(cid:141)
/
(cid:137)((cid:138))
∑
∑
8 Pr( W, d,
| L, R, l, r) ×d
Pr(cid:135)( L, W, l ⊳, ⊲ left8d; ) × Pr(cid:135)(W, R, right8d;, r)
+ Pr ( W, d, ↔ |L, R, l, r) × Pr(cid:135)( L, W, l ⊳, ⊲ left8d; ) × Pr(cid:135)( W, R, right8d; ⊳, ⊲ r )
+ Pr ( W, d, →| L, R, l, r) × Pr(cid:135)( L, W, l, left8d; ) × Pr(cid:135) ( W, R, right8d; ⊳, ⊲ r)
Xác suất trong được tính một cách đệ quy theo các quan hệ:
Theo giải thuật phân tích cú pháp ở hình 3.4, rõ ràng PI ( wi, wi+1, NIL, NIL ) = 1 với
0 ≤ i ≤ n-1.
Ví dụ, Với văn phạm liên kết và câu “Tôi mua một bông hoa” được nói ở trên,
PrI ( 1, 4, NIL, NcNt3 ) = Pr (3, (McN)(NcNt3),→ | 1, 4, NIL, NcNt3 ) ×
PrI ( 1, 3, NIL, McN ) × PrI ( 3, 4, NIL, NIL )
với giá trị các xác suất được cho trong (3.1) :
PrI ( 1, 3, NIL, McN) = Pr (2, ( )(McN), → | 1, 3, NIL, McN) ×
PrI (1, 2, NIL,NIL) × PrI (2, 3, NIL, NIL)
= 0.06 × 1 × 1 = 0.06
Pr ( 3, (McN)(NcNt3),→ | 1, 4, NIL, NcNt3 ) = 0.05
do vậy, PrI ( mua, hoa, NIL, NcNt3) = 0.05 × 0.06 = 0.003 (3.5)
Xác suất ngoài PrO được tính một cách đệ quy: ban đầu, với mỗi d ∈ D(W0) có left[d] =
PrO ( 0, n, right[d], NIL ) = Pr ( W0, d )
⊳
⊲
L, R, l, r ) +
L, R, l, r ) +
L, R, l, r )+
L, R, l, r )
PrO ( L, R, l, r ) =
(cid:130)(cid:29)(cid:131)(cid:132)*
(cid:130)(cid:29)(cid:131)(cid:132)*
.-(cid:129)*
.-(cid:129)*
Pr(cid:142)
(
Pr(cid:143)
(
Pr(cid:143)
(
Pr(cid:143)
(
NIL, đặt
Xác suất được cộng dồn cho 4 trường hợp có thể xảy ra tại bước trước (khi ấy R và L
100
còn đóng vai trò của W):
⊲.-(cid:129)*
: Ở bước trước, có liên kết được xác lập về bên phải. Tồn tại các kết nối đứng
Pr(cid:142) trước l và left[d] trong các dạng tuyển của L và W.
.-(cid:129)*
: Liên kết được xác lập về bên trái ( L với W) qua các kết nối l và left[d],
Pr(cid:142) không tồn tại kết nối đứng trước l và left[d].
(cid:130)(cid:29)(cid:131)(cid:132)*⊳
: Ở bước trước, liên kết được xác lập về bên trái. Tồn tại các kết nối đứng
Pr(cid:142) trước right[d] và r trong các dạng tuyển của W và R.
(cid:130)(cid:29)(cid:131)(cid:132)*
: Liên kết không được xác lập về bên phải (W với R) giữa right[d] và r.
Pr(cid:142) Dưới đây là mô tả chi tiết về các xác suất nói trên theo [79]
⊲.-(cid:129)*
Xác suất dạng Quay trở về bước trước (W đóng vai trò của R, l đóng vai trò
Pr(cid:142) : ⊳ của l, left[d] đóng vai trò của r). Công thức tính theo [79] như sau:
left[d]) = ∑
(L, R, l, r) ×
R>
∑ PrO r
PrO
~
⊳, ⊲
[Pr(W, d, ← | L, R, l, r) × PrI (W, R, right [d], r) + Pr(W, d, ↔ | L, R, l, r) × PrI (W, R, right[d]⊳, ⊲ r)]
⊲ ⊲left (L, W, l
(cid:130)(cid:29)(cid:131)(cid:132)*⊳
Tương tự, ta có công thức tính cho
⊳(W, R, right[d] ⊳, ⊲ r) =
(L, R, l, r) ×
(cid:130)(cid:29)(cid:131)(cid:132)*
(cid:139)(cid:140)(cid:138)
∑
∑ Pr(cid:142) .
Pr(cid:142) [Pr(W, d, → | L, R, l, r) × PrI(L, W, l, left [d]) + Pr(W, d, ↔ | L, R, l, r ) × PrI (L, W, l⊳, ⊲ left[d] )]
Pr(cid:142)
⊲.-(cid:129)*
Hình 3.22. Mô tả cách tính xác suất
.-(cid:129)*
Pr(cid:142) (L, W, l ⊳, ⊲ left8d;) Xác suất dạng được tính theo công thức:
⊲
O (L, R, l, r) × Pr (W, d, → | L, R, l, r) × PrI (W, R, right[d] ⊳
.-(cid:129)*
(cid:141)(cid:145)(cid:138)
∑
Pr(cid:142)
(
∑ Pr(cid:130)
,
r)
101
Pr(cid:142) L, W, l, left[d]) =
(cid:146)(cid:147)(cid:148)(cid:149)
Hình 3.23. Minh họa mối liên kết để tính
(cid:150)(cid:151)(cid:152)(cid:153)(cid:149)
(cid:16)(cid:17)(cid:142) Tương tự ta có công thức tính
[
]
W, R, right[d], r) =
⊲
O ( L, R, l, r) Pr ( W, d, ← | L, R, l, r ) PrI( L, W, l⊳
(cid:139)(cid:140)(cid:138)
∑
,
left
d
)
Pr(cid:142)
∑ Pr(cid:130)
(cid:16)(cid:17)(cid:142)
(cid:130)(cid:29)(cid:131)(cid:132)* ( Ví dụ:
(1, 5, O, NIL)
PrO(1, 5, O, NIL) =
(cid:130)(cid:29)(cid:131)(cid:132)*
Pr(cid:142)
= PrO (0, 5, SV, NIL) × Pr (1, (SV)(O), ← | 0, n, SV, NIL) × PrI(0, 1, NIL, NIL)
Trong đó:
Pr ( 1, (SV)(O), ← | 0, Wn,SV,NIL) = 0.06, theo (3.1)
PrI ( 0, 1, NIL, NIL ) =1
PrO ( 0, 5, SV, NIL ) = Pr ( 0, ( )(SV) ) = 0.7
Như vậy,
PrO ( 1, 5, SV, NIL ) = 0.7 × 0.06 × 1 = 0.042
Vấn đề còn lại là cập nhật lại xác suất Pr ( W, d, O | L, R, l, r ). Theo (3.3) để tính xác
suất này, cần tính các xác suất Pr ( W | L, R, l, r ), Pr ( d | W, l, r ), Pr ( O | d, l, r ) với
Pr ( O | d, l, r ) = Pr (← | d, l, r ) + Pr (→ | d, l, r ) + Pr (↔ | d, l, r ).
Các công thức sau để tính lại các xác suất Pr (W | L, R, l, r ), Pr ( d | W, l, r ), Pr (← | d,
Pr (W | L, R, l, r ) = Count ( W, L, R, l, r ) / Count (L, R, l, r )
Pr (d | W, l, r ) = Count (d, W, l, r ) / Count ( W, l, r)
Pr (← | d, l, r ) = Count (←, d, l, r ) / Count (d, l, r )
Pr (→ | d, l, r ) = Count (→, d, l, r ) / Count (d, l, r )
Pr (↔ | d, l, r ) = Count (↔, d, l, r ) / Count (d, l, r ).
l, r ), Pr (↔ | d, l, r ), Pr (→ | d, l, r ) :
102
Theo [79], Các số đếm được tính trong các công thức từ (3.6) đến (3.9) dưới đây :
×
×
×
(cid:155)!
/∈(cid:137)((cid:138))
∑
Count(W, L, R, l, r) = Pr(cid:154)(L, R, l, r)
Pr(d|W, l, r)
Pr (S) ×
Pr(W|L, R, l, r) ×
{Pr(← |d, l, r)
Pr(cid:135)(W, R, right8d;, r) +
Pr(cid:135)(L, W, l ⊳, ⊲ left8d; ×
×
Pr(→ |d, l, r)
Pr(cid:135)(W, R, right8d; ⊳, ⊲ r) +
Pr(cid:135)(L, W, l, left8d; ×
×
Pr(↔ |d, l, r)
Pr(cid:135)(W, R, right8d; ⊳, ⊲ r)(cid:158) (3.6)
Pr(cid:135)(L, W, l ⊳, ⊲ left8d; ×
×
×
(cid:155)!
(cid:139),(cid:141)
∑ Pr(cid:154)(L, R, l, r)
Count(d, W, l, r) = Pr (S)
Pr(W|L, R, l, r)
Pr(d|W, l, r)
×
×
{Pr(← |d, l, r)
Pr(cid:135)(W, R, right8d;, r) +
Pr(cid:135)(L, W, l ⊳, ⊲ left8d; ×
×
Pr(→ |d, l, r)
Pr(cid:135)(W, R, right8d; ⊳, ⊲ r) +
Pr(cid:135)(L, W, l, left8d; ×
×
Pr(↔ |d, l, r)
Pr(cid:135)(L, W, l ⊳, ⊲ left8d;
Pr(cid:135)(W, R, right8d; ⊳, ⊲ r)(cid:158) (3.7)
×
(cid:155)!
∑
Pr(cid:142)(L, R, l, r)
Count(←, d, l, r) = (Pr (S))
Pr(W|L, R, l, r)Pr(d|W, l, r) ×
×
(cid:139),(cid:138),(cid:141) ×
Pr(← | d, l, r)
Pr(cid:135)(L, W, l ⊳, ⊲ left8d;
Pr(cid:135)(W, R, right8d;, r)
×
×
(cid:155)!
(cid:139),(cid:138),(cid:141)
∑
Count(→, d, l, r) = Pr (S)
Pr(W|L, R, l, r)
Pr(d|W, l, r) ×
Pr(cid:142)(L, R, l, r)
(3.8)
−
×
×
Pr(→ |d, l, r) Pr(cid:135)(L, W, l, left8d;Pr(cid:135)(W, R, right8d; ⊳, ⊲ r) (↔, d, l ,r)
×
!
∑
Count
= Pr
Pr(cid:142)(L, R, l, r)
(cid:139),(cid:138),(cid:141) ×
Pr(W|L, R, l, r) ×
(S) ←
⊳
⊲
Pr(d|W, l, r) ⊲
⊳
|d, l, r)
Pr(
Pr(cid:135)(L, W, l
,
left8d;
Pr(cid:135)(W, R, right8d;
,
r) (3.10)
(3.9)
×
∈
/
(cid:137)((cid:138))
∑
8match(l, left8d;)
Count(L, W, l ⊳, ⊲ left8d;)
Count(L, R, l, r) = ∑ (cid:139)(cid:140)(cid:138)(cid:140)¡ ×
×
×
Count(L, W, l, left8d;)
Count(W, R, right8d; ⊳, ⊲ r)
+ match(l, left8d;) ×
match(right8d;, r) ×
×
Count(W, R, right8d;, r);
Count(L, W, l ⊲ left8d;)
match(right8d;, r)
+ δ£(cid:135)(cid:139)(l) với δ là hàm nhận giá trị 1 nếu l = NIL, 0 nếu ngược lại, match nhận giá trị 1 nếu hai kết
Giá trị count(L, R, l, r) được tính trong giải thuật phân tích:
nối khớp nhau, 0 nếu ngược lại. Chú ý match(c,NIL) = match(NIL,c) = 0.
/⁄∈(cid:137)((cid:138)⁄)
Pr (W(cid:143), d)Pr(cid:135)
Pr(S) = ∑
(0, N, right8d;, NIL) Các giá trị Count (L, R, l, r), Count(W, l, r) và Count(d, l, r) được tính trực tiếp theo các
Giá trị Pr (S) được nêu trong các công thức trên được tính theo công thức sau:
kết nối và dạng tuyển xuất hiện trong bộ ngữ liệu.
3.3.2. Khử nhập nhằng liên hợp
Nhập nhằng liên hợp là hiện tượng nhập nhằng liên quan đến các cụm từ có vai trò
tương đương trong câu. Như đã nêu trong [70], từ “và” đóng một vai trò đặc biệt khi phân
tích một câu trên mô hình văn phạm liên kết vì nó có thể chứa kết nối thông thường cũng
103
như kết nối lớn.
Theo lý thuyết cấu trúc diễn ngôn, bản thân từ “và” cũng là một dấu hiệu diễn ngôn. Do
vậy cần phân biệt trường hợp từ “và” là dấu hiệu diễn ngôn và từ “và” chỉ nối hai từ hoặc
hai cụm từ đơn giản mà không phải hai mệnh đề.
Trong [66], Lê Thanh Hương cũng đề cập đến vấn đề nhập nhằng khi phân đoạn diễn
ngôn, trong đó một từ có thể đóng vai trò dấu hiệu diễn ngôn cũng như vai trò khác, với ví
dụ rõ ràng nhất là từ “and” trong tiếng Anh. Việc kiểm tra từ “and” có là dấu hiệu diễn
ngôn hay không được thực hiện bằng cách kiểm tra xem câu có còn đúng cú pháp hay
không khi loại bỏ từ đó. Ví dụ câu “Mary borrowed that book from our library, and she
returned it this morning”. Nhận xét này có thể cho ra kết quả thuyết phục trong tiếng Anh,
khi từ “and” là dấu hiệu diễn ngôn thường đi sau dấu phảy và các danh từ thường đi kèm
với mạo từ. Từ “và” trong tiếng Việt cũng có vai trò tương tự khi nó đóng vai trò liên từ.
Tuy nhiên trong tiếng Việt, từ “và” thường không đi kèm dấu phảy như “tôi học và anh
ngủ”. Hơn nữa, khi loại bỏ từ “và” trong cụm hai danh từ “nàng và công chúa” có thể dẫn
đến một cụm từ hoàn toàn đúng “nàng công chúa”, không thể làm câu sai cú pháp.
Nếu một dấu hiệu diễn ngôn được tìm thấy ngay sau sự xuất hiện của “và” và nếu biên
trái của đơn vị nguyên tố được tìm thấy ở bên trái của “và” thì một đơn vị nguyên tố mới
được xác định mà biên phải của đơn vị nguyên tố đó ở ngay trước “và”. Trong trường hợp
như vậy, “và” được xét có chức năng diễn ngôn.
Chẳng hạn với câu “Mặc dù trời mưa lớn và mặc dù mọi người đều ngăn cản, nó cứ đi”,
kết quả phân đoạn diễn ngôn sẽ là [Mặc dù trời mưa lớn] [và mặc dù mọi người đều ngăn
cản,] [nó cứ đi.]. Trong câu này từ “và” có vai trò diễn ngôn vì đứng ngay trước từ “mặc
dù” là dấu hiệu của quan hệ nhượng bộ.
Ngoài trường hợp nói trên, bộ phân tích nông trong[89] và bỏ qua mọi từ “và” khác với
hành động NOTHING
Nhận thấy trong cú pháp tiếng Việt, chủ ngữ có thủa mệnh đề xuất hiện trong câu ghép
chủ yếu là danh ngữ, vị ngữ chủ yếu là động ngữ hoặc tính ngữ. Có những loại nòng cốt
khác, chẳng hạn chủ ngữ là một động từ, tuy nhiên Luận án đề xuất giải thuật xử lý theo ý
tưởng sau:
Một cụm từ trong câu ghép là mệnh đề đúng nếu trong phân tích của nó bằng văn
104
phạm liên kết tồn tại ít nhất một liên kết SV (liên kết giữa chủ ngữ và động từ), liên kết SA
(liên kết chủ ngữ với tính từ) hoặc tổ hợp hai liên kết DT_LA và LA_DT (liên kết của từ
“là”)
Luận án đã giải quyết vấn đề nhập nhằng bằng cách phân tích cú pháp cụm từ xuất hiện
trước và sau từ “và”. Nếu cả hai cụm từ đó đúng cú pháp thì từ “và” đóng vai trò diễn
ngôn. Ngược lại nó đóng vai trò liên hợp. Điều đó được thể hiện ở giải thuật trong hình
3.11 và kết quả thực hiện phân tích câu “Tôi thích bánh và kẹo, anh thích rượu và bia”
trong hình 3.24.
Hình 3.24. Phân tích câu “Tôi thích bánh và kẹo, anh thích rượu và bia”
Khi phân tích cụm từ “Tôi đã ở Nghệ An và thành phố Hồ Chí Minh”, cụm từ “tôi đã ở
Nghệ An” là một mệnh đề, tuy nhiên cụm từ “thành phố Hồ Chí Minh” không phải là mệnh
đề nên từ “và” không là dấu hiệu diễn ngôn.
Với các bộ ngữ liệu mẫu được sử dụng cho bộ phân tích cú pháp câu ghép, việc khử
nhập nhằng liên hợp cải thiện rõ rệt kết quả phân tích diễn ngôn. So sánh kết quả phân tích
diễn ngôn có và không khử nhập nhằng được trình bày trong bảng 3.8 dưới đây.
Bộ đầu
Số lượng
Số
Số mệnh đề phân tích
Số mệnh đề phân tích đúng
vào
câu ghép
mệnh đề
(không khử nhập nhằng)
(có khử nhập nhằng)
50
87
62 (71.26%)
87 (100%)
1
25
62
27 (43.54%)
36 (58.06%)
2
25
56
33 (58.92%)
41(73.21%)
3
Bảng 3.8. So sánh kết quả phân tích diễn ngôn
Tỷ lệ mệnh đề phân tích đúng sau khi khử nhập nhằng tăng lên nhiều hay ít phụ thuộc
105
tần suất xuất hiện các từ gợi ý có thể gây nhập nhằng. Kết quả không đúng khi khử nhập
nhằng liên quan đến từ “và”, “hoặc”, dấu phảy chủ yếu do các mệnh đề chứa cụm danh từ
- tính từ. Cụm danh từ - tính từ có thể là nòng cốt nhưng cũng có thể chỉ là một danh ngữ
đóng vai trò chủ ngữ. Ví dụ trong câu “Sa Pa là “vương quốc” của hoa trái, đào hoa, đào
vàng to, đào vàng nhỏ, mận hậu, mận tím, mận tam hoa, hoa lay dơn, hoa mận, hoa lê, hoa
đào, hoa cúc, hoa hồng…đặc biệt là hoa bất tử sống mãi với thời gian”, dấu phảy gây nên
sự nhập nhằng. Các cụm từ như “đào vàng to”, “đào vàng nhỏ, “mận tím” được phân
tách thành những mệnh đề riêng biệt trong khi thực tế chúng chỉ là các danh ngữ đóng vai
trò minh chứng cho khẳng định trước từ “như”.
Khi đóng vai trò liên hợp, từ “và” sẽ có các kết nối sao cho nó đóng vai của từng phần
tử trong danh sách của nó. Dạng tuyển của từ “và” có kết nối lớn F. Kết nối F trỏ về hai
phía của từ “và”, ngoài ra, các kết nối của từ “và” là dạng mở rộng của F , tức là các kết
nối ban đầu của F. Điều này giúp từ “và” kết nối hai phần từ trong danh sách “và” lại với
nhau, đồng thời đóng vai các phần tử đó trong câu như đã trình bày trong chương 1.
Khi ứng dụng trên bộ phân tích cú pháp liên kết, kết quả nhận được như trong hình
3.25.
Hình 3.25. Một phân tích với kết nối F cho từ “và”
Tuy nhiên điều này lại có thể dẫn tới kết nối: . Dù văn phạm liên kết cho
phép chu trình, liên kết này không thể hiện mối liên hệ thực sự trong câu.
Để loại bỏ liên kết này, [111] thêm một số thông tin cho kết nối lớn và sửa lại điều kiện
khớp nhau của các kết nối. Mỗi kết nối được gắn thêm một quyền ưu tiên là 0, 1 và 2. Các
kết nối thông thường (không phải là kết nối lớn) có quyền ưu tiên là 0. Kết nối lớn trên từ
có quyền ưu tiên là 1, và kết nối lớn trên từ “và” có quyền ưu tiên là 2. Để hai kết nối
khớp với nhau, trước tiên chúng phải khớp với nhau theo tiêu chí bình thường, và quyền ưu
tiên của chúng phải tương thích: 0 tương thích với 0; 1 tương thích với 2; 2 tương thích với
106
1. Không có quyền ưu tiên nào tương thích nữa.
Phương pháp luận án áp dụng đã giải quyết khá hiệu quả một số trường hợp với từ “và”
trên thực tế. Tuy nhiên còn một số hiện tượng với từ “và” và được xử lý theo [111]
Trường hợp hay gặp nhất là danh sách có nhiều hơn hai phần tử, khi đó các phần tử
trong danh sách “và” được ngăn cách bằng dấu phảy. Ví dụ “ông, bà, bố và mẹ”. Khi ấy ,
dấu phảy sẽ có dạng tuyển (( G2 ) ( G1 , G2 )). Ở đây, chỉ số dưới biểu thị quyền ưu tiên của
kết nối.
Hình 3.26. Kết nối G nối nhiều dấu phảy và từ “và”
Trong ví dụ ở hình 3.26, dấu phảy thứ hai đã dùng dạng tuyển đó để kết nối với dấu
phảy thứ nhất qua kết nối G (ưu tiên 2, vì kết nối G của dấu phảy thứ nhất đã có ưu tiên 1),
sau đó kết nối G với ưu tiên 1 được dùng để kết nối dấu phảy thứ hai với từ “bố”, và kết
nối G với ưu tiên 2 được dùng để kết nối dấu phảy thứ hai với từ “và” (Kết nối G với ưu
tiên 1 đã dùng để kết nối từ “và” với từ “mẹ”).
3.4. Kết luận
Bài toán phân tích cú pháp là bài toán cốt yếu cần giải quyết khi xây dựng một mô hình
cú pháp mới. Với mô hình văn phạm liên kết được xây dựng cho tiếng Việt, bộ phân tích
• Phân tích cú pháp cho câu đơn.
• Phân tích cú pháp cho câu ghép với nhiều mệnh đề.
• Giải quyết khá trọn vẹn vấn đề nhập nhằng liên hợp.
• Thử nghiệm giải thuật khử nhập nhằng thành phần.
cú pháp liên kết của luận án đã giải quyết được các vấn đề sau:
Kết quả thực nghiệm của các giải thuật phân tích cú pháp là chấp nhận được. Tuy
nhiên, do sự phức tạp của ngôn ngữ tự nhiên cũng như hạn chế về thời gian, luận án chưa
giải quyết các vấn đề sau:
1. Phân tích cú pháp những loại câu mà một số thành phần có vị trí tùy ý. Bản chất
của văn phạm liên kết là văn phạm kiểu phụ thuộc nên vấn đề này không quá khó
khăn, tuy một số trường hợp có thể vi phạm tính phẳng.
2. Phân tích cú pháp cho những loại câu ghép không có liên từ. Vấn đề này cũng có
triển vọng giải quyết được. Khi kết luận một câu không đúng cú pháp, bộ phân tích
đã đưa ra được tất cả phân tích có thể của mọi cụm từ trong câu. Việc vi phạm tính
liên thông của phân tích có thể là dấu hiệu của liên từ còn thiếu. Để giải quyết trọn
vẹn vấn đề này cần phải có nhưng nghiên cứu sâu sắc hơn về ngôn ngữ cũng như
bộ ngữ liệu lớn.
3. Phân tích cú pháp cho câu phức. Đây cũng là vấn đề rất khó với các ngôn ngữ khác
và đỏi hỏi sử dụng các phương pháp thống kê để tìm ra giới hạn của mệnh đề. Hy
vọng vấn đề này sẽ được giải quyêt trong tương lai, khi đã xây dựng được bộ ngữ
liệu đủ lớn.
Một hướng phát triển khác cũng được quan tâm là tích hợp những mối liên kết về
ngữ nghĩa trong văn phạm liên kết tiếng Việt. Điều này là khả thi với mô hình văn
phạm liên kết cho phép biểu diễn phân tích câu bằng đồ thị liên kết có chu trình, tuy
108
nhiên đây cũng là vấn đề lớn, đòi hỏi đầu tư nhiều thời gian.
CHƯƠNG 4
HỆ THỐNG DỊCH MÁY
SỬ DỤNG DẠNG TUYỂN CÓ CHÚ GIẢI
4.1. Tổng quan về dịch máy
4.1.1.Tình hình phát triển dịch máy ở Việt Nam
Dịch máy là lĩnh vực đang rất được quan tâm của CNTT do nhu cầu chuyển ngữ một
số lượng lớn văn bản trong thời gian nhanh nhất. Theo Đinh Điền [3], các hướng tiếp cận
• Tiếp cận dựa trên luật: là hướng tiếp cận của nhiều hệ dịch liên quan đến tiếng Việt.
chính của dịch máy như sau:
Hướng này đạt hiệu quả khi dịch trong quy mô nhỏ, tuy nhiên, công sức xây dựng
• Tiếp cận thống kê: Khó đạt chất lượng cao đặc biệt khi bộ ngữ liệu có hạn. Khó
các hệ chuyển đổi rất lớn.
• Tiếp cận trên cơ sở tri thức: đòi hỏi “hiểu” toàn bộ văn bản, rất khó đạt được điều
theo dõi kết quả trung gian để can thiệp.
• Tiếp cận trên ví dụ: đơn giản về mặt lý thuyết, có thể cho chất lượng cao nếu văn
đó.
• Tiếp cận dựa trên ngữ liệu: khi có bộ ngữ liệu lớn, dùng phương pháp học máy rút
bản đơn giản, cấu trúc lặp đi lặp lại.
• Ngoài ra, một phương pháp lai giữa các phương pháp kể trên là lựa chọn của nhiều
ra quy luật ngôn ngữ. Dễ cập nhật những thay đổi, mở rộng của ngôn ngữ.
hệ thống dịch.
• Hệ thống EVtran-Vetran của Nacentech do TS Lê Khánh Hùng chủ trì [10].
• Hệ thống Vietgle của Lạc Việt.
• Hệ thống dịch Việt - Anh do PGS Phan Thị Tươi chủ trì [124].
• Hệ thống dịch Anh - Việt EVTS do PGS Hồ Sĩ Đàm chủ trì [93].
• Hệ thống dịch các tài liệu tin học của Đại học Khoa học Tự nhiên - ĐHQG TP Hồ
Hiện nay ở Việt nam đã xuất hiện một số hệ thống dịch máy như:
• Một số hệ thống dịch do các nhà nghiên cứu Việt Nam tại JAIST [115].
• Hệ thống Google Translation.
109
Chí Minh [3].
• Hệ thống dịch Anh - Việt dựa trên việc học luật chuyển đôi từ ngữ liệu song ngữ
của PGS Đinh Điền [3].
Các hệ thống kể trên chủ yếu là hệ thống dịch Anh - Việt để tận dụng nguồn tài nguyên
ngôn ngữ phong phú của tiếng Anh. Số lượng hệ thống dịch Việt - Anh là rất nhỏ: hệ thống
VEtran, Google Translation, một số hệ thống thử nghiệm của Đại học Bách khoa thành
phố Hồ Chí Minh, JAIST…Trong số đó, hai hệ thống được phổ biến rộng rãi là hệ thống
dịch của Google theo cách tiếp cận thống kê, hệ thống VEtran theo cách tiếp cận dựa trên
luật.
Sự khác biệt giữa tiếng Việt và tiếng Anh là sự khác biệt giữa một ngôn ngữ phương
đông và một ngôn ngữ phương Tây, tập trung ở một số lĩnh vực chính: hình thái, trật tự từ,
quan hệ phụ thuộc không liền kề (long distance dependency). Văn phạm liên kết, do tính từ
vựng hóa hoàn toàn, có khả năng thể hiện tốt sự phụ thuộc về hình thái (theo Schneider
[109]). Trật tự từ cũng có thể được phát hiện từ liên kết giữa các từ. Một số quan hệ giữa
các từ không liền kề có thể được biểu diễn bởi các liên kết, một số ít khác không thể biểu
diễn do vi phạm điều kiện về tính phẳng.
Sau khi xây dựng mô hình văn phạm liên kết tiếng Việt, luận án thử nghiệm mô hình
dịch máy như một minh chứng về khả năng biểu diễn các đặc trưng tiếng Việt của mô
hình.
Mô hình văn phạm liên kết đã được ứng dụng để xây dựng các hệ thống dịch từ tiếng
Anh sang các ngôn ngữ châu Âu như: tiếng Đức [135], Nga [134], Thổ Nhĩ Kỳ [133] hay
Sanskrit - một ngôn ngữ của Ấn độ [71] dựa trên việc chuyển đổi tương ứng các liên kết
giữa hai ngôn ngữ (riêng hệ thống dịch Anh-Nga có kết hợp thống kê). Các hệ thống đó đã
đáp ứng khá tốt những biến đổi về hình thái như thì, thể, giống, số, cách. Tuy nhiên, khi
ngôn ngữ nguồn và ngôn ngữ đích có sự khác biệt lớn về cú pháp và từ pháp, khó có thể
đưa ra những bản dịch có chất lượng. Đó cũng là lý do các hệ thống nói trên chỉ dừng ở
mức thử nghiệm cho một tập câu nhỏ. Một hệ thống dịch khác dựa trên văn phạm liên kết
là hệ thống dịch của đại học Petronas, Malaysia [29], [30], [129] dịch từ tiếng Anh sang
tiếng Indonesia. Hệ thống cho phép tra nghĩa từ, biến đổi cú pháp thông qua dạng tuyển có
chú giải (Annotated Disjunct - ADJ). Hệ thống đã cho kết quả dịch khá tốt sang tiếng
Indonesia - một ngôn ngữ Đông Nam Á cũng chưa có được nguồn tài nguyên phong phú
để xử lý tự động như tiếng Việt.
Hệ thống dịch của luận án đã chọn công cụ ADJ. Mỗi ADJ thực chất chứa: một từ của
110
ngôn ngữ nguồn, dạng tuyển của nó và nghĩa tương ứng của từ trong ngôn ngữ đích khi đi
với dạng tuyển đã cho. Từ điển ADJ cho phép xác định nghĩa chính xác của từ theo cấu
trúc liên kết trong câu.
Xây dựng bộ luật chuyển đổi cú pháp là công việc bắt buộc cho mỗi hệ thống dịch dựa
trên luật. Với hai vấn đề chính được nhóm Nguyễn Phương Thái [115] đề cập là khác biệt
về hình thái và trật tự từ, mô hình văn phạm liên kết tỏ ra rất có ưu thế để biến đổi hình
thái từ, trong khi biến đổi trật tự từ cũng khá dễ dàng do cấu trúc của phân tích liên kết khá
đơn giản.
4.1.2. Phương pháp đánh giá chất lượng dịch máy
Đánh giá chất lượng dịch máy là vấn đề khó. Ngay cả khi bản dịch được con người
đánh giá cũng còn có nhiều ý kiến khác nhau về chất lượng. Đối với dịch máy tự động, cần
đưa ra những tiêu chí để lượng hóa độ chính xác của bản dịch. Hai tiêu chí sau đây được
• Độ tương ứng (adequacy): Lượng thông tin của bản dịch tham chiếu có trong bản
hầu hết các phương pháp đánh giá tự động quan tâm:
• Độ trôi chảy (fluency): Bản dịch có thể hiện đúng những cấu trúc thường dùng
dịch được đánh giá.
trong tự nhiên của ngôn ngứ đích không.
Các hướng tiếp cận chính dể tự động đánh giá chất lượng bản dịch, đó là: dựa trên độ
chính xác (BLEU, NIST) [51], dựa trên độ phủ (METEOR), dựa trên đánh giá khoảng cách
Levenshtein, dựa trên tỷ lệ lỗi...
Phương pháp BLEU (BiLingual Evaluation Understudy) do Papineni [100] đề xuất. Đây
là phương pháp sử dụng trung bình có trọng số của các phép so sánh cụm từ có chiều dài
thay đổi của bản dịch đang xét với bản dịch tham khảo, kết hợp với việc đánh giá độ dài
bản dịch. BLEU được sử dụng phổ biến nhất để đánh giá chất lượng dịch máy ở trong và
ngoài nước. Luận án đã chọn độ đo BLEU để đánh giá chất lượng bản dịch. Điểm BLEU
£
BLEU = BP. exp (ƒ w(cid:31)log p(cid:31))
(cid:31) !
được tính theo công thức:
hay theo thang loga
111
:
£
logBLEU = min(1 −
, 0) + ƒ w(cid:31)
logp(cid:31)
r c
(cid:31) !
Trong đó, BP là điểm phạt dịch ngắn (brevity penalty) được tính theo công thức:
1 nếu c > (cid:17) !(cid:155)(cid:130)/“ e nếu c ≤ r
BP = U c là độ dài bản dịch đang xét, r là độ dài bản dịch tham chiếu.
d
pn là tỷ lệ n-gram phù hợp giữa bản dịch đang xét và bản dịch tham chiếu, được tính
›∈{›‹(cid:31)/(cid:29)/‹*-((cid:158)
(cid:31)(cid:155)(cid:131)(cid:130)‹>∈›
p(cid:31) =
∑ ›fl∈{›‹(cid:31)/(cid:29)/‹*-((cid:158)
∑
Count“.(cid:29)B(n − gram) Count“.(cid:29)B(n − gram′)
∑ (cid:31)(cid:155)(cid:131)(cid:130)‹>fl∈›fl ∑ Ở đây n-gram liên quan đến bản dịch đang xét, còn n-gram’ liên quan đến bản dịch tham
theo công thức sau:
chiếu.
4.2. Khác biệt ngôn ngữ Việt - Anh
Có nhiều điểm khác biệt về hình thái từ giữa hai ngôn ngữ Việt – Anh. Tuy nhiên
không phải mọi sự khác biệt có thể xử lý trong hệ dịch máy. Với mô hình văn phạm liên
kết, có thể xây dựng tập luật đọc được bằng máy một cách khá đơn giản để vượt qua hầu
hết những khác biệt đó. Trước khi đi vào chi tiết, luận án điểm lại những khác biệt cơ bản
giữa hai ngôn ngữ Việt – Anh.
4.2.1. Khác biệt hình thái
Dù có nhiều nét tương đồng với tiếng Anh như tuân theo cùng trật tự câu SVO, sự khác
biệt giữa tiếng Việt và tiếng Anh là rất lớn. Theo phân loại về ngôn ngữ của Stankevich
được nhắc đến trong [21], tiếng Việt được xếp vào loại ngôn ngữ phân tích (đơn) hay còn
gọi là loại hình phi hình thái với đặc điểm: trong hoạt động ngôn ngữ, từ không biến đổi
hình thái, ý nghĩa ngữ pháp nằm ở ngoài từ (theo Đinh Điền [4]). Tiếng Anh thuộc loại
ngôn ngữ tổng hợp, có biến đổi hình thái, tuy các quy tắc biến đổi hình thái không chặt chẽ
như tiếng Nga hay tiếng Pháp. Bảng 4.1. dưới đây cho thấy những khác biệt chủ yếu về
112
hình thái giữa tiếng Việt và tiếng Anh.
Bảng 4.1. Những khác biệt quan trọng về hình thái giữa tiếng Việt và tiếng Anh
Mô tả
Đặc điểm trong câu tiếng Việt Kết nối
Cần biến đổi trong tiếng Anh
Danh từ số nhiều
Từ chỉ số nhiều(nhiều, một vài,
DpNt
+”s”, một số
từ đặc biệt, ví dụ
một số, số từ...)+danh từ
McNt
automaton → automata
Số từ (khác “một”,1)
Động từ thì hiện
Không thay đổi hình thái
SV+
Thêm “s” khi chủ ngữ là danh từ hoặc
tại
đại từ xưng hô ngôi thứ ba số ít
Động từ thì quá
Từ chỉ thì quá khứ (đã, từng..
VtRp
Infinitive + “ed”. một số động từ đặc
khứ
.)+động từ
biệt, ví dụ sing → sang
Động từ + “rồi”
Động từ thì hiện
{“đang”,”hiện” } +động từ
RtVt
“tobe” + Infinitive + “ing”
tại tiếp diễn
Động từ thì hiện
{Từ chỉ quá khứ} + động từ +
XONG
“have”,”has” + Past Participle
tại hoàn thành
“xong”
So sánh bằng
tính từ + “như”+
Ap-NHU,
“as”+adjective+”as”, object pronoun
NHU-Pp
So sánh
Tính từ + “hơn”
TT_SS1
Comparative adjective+”than”+ object
hơn kém
Động từ+Tính từ +”hơn”
pronoun
Comparative
adverb+”than”+ object
pronoun
So sánh cấp cao
Tính từ +”nhất”
TT_SS2
“the” + superlative adjective
nhất
“the” + superlative adverb
Sở hữu
“của”, “thuộc về” + danh từ ,đại
EoNt
+”’s”, cũng có thể + “of” + object
từ; hai danh từ thuộc một số
SHA
pronoun
Possessive
adjective,possessive
loại đi liền nhau
pronoun, noun in possessive form
Danh từ chỉ chất
“bằng”,”từ” + danh từ chỉ chất
CH
Chuyển
sang
tính
từ
tương ứng
liệu
liệu
NtEm
(rock→rocky)
Danh từ+danh từ chỉ chất liệu
Tính từ làm vị
SA
Động từ “to be”+ adjective
ngữ
Sự khôn ngoan, việc xây dựng
SU
Đánh dấu xóa các từ này trongbản dịch
Tính từ, động từ
tiếng Anh
đứng sau “sự”,”
việc”
Danh từ chỉ loại
Đi kèm danh từ cụ thể
McNc-&
Xóa các từ này nếu số từ đi kèm khác
NcNt+
“một”,”1”
Ngược lại dịch sang mạo từ tiếng Anh
“the”, “a”
113
Ngoài những khác biệt về hình thái trên, còn những khác biệt của một số loại từ đặc
biệt. Những khác biệt này đòi hỏi xử lý trong quá trình dịch Việt - Anh
Đại từ xưng hô
Việc sử dụng đại từ xưng hô trong tiếng Việt rất phức tạp. Khi dịch sang ngôn ngữ khác
đòi hỏi nhiều luật để bao quát hết các trường hợp. Bảng 4.2. dưới đây liệt kê các đại từ
tiếng Anh được sử dụng ở các trường hợp khác nhau.
Số ít
Số nhiều
Chủ cách
Tân cách
Chủ cách
Tân cách
we
us
Ngôi thứ nhất
I
me
you
you
Ngôi thứ hai
you
you
Giống
he
him
đực
Ngôi
her
Giống cái
she
thứ
they
them
ba
Giống
it
it
trung
Bảng 4.2. Đại từ xưng hô tiếng Anh
Có thể thấy số lượng đại từ xưng hô trong tiếng Anh là khá nhỏ, lại liên hệ chặt chẽ với
cấu trúc ngữ pháp. Đại từ xưng hô tiếng Việt và những cụm từ có chức năng như đại từ
xưng hô được liệt kê trong bảng 4.3.
Ngôi thứ nhất
tôi, tao, tớ, mình, ta
Ngôi thứ hai
anh, cậu, bạn, ấy, chị,ngươi, mày, bay, khanh
Giống
nó, hắn, y
Số ít
đực
Ngôi thứ
Giống cái
nó, cô, cổ, thị
ba
Giống
nó
trung
Ngôi thứ nhất
chúng tôi, chúng ta, chúng tớ, chúng mình
các cậu, các anh, các cô, các bác, chúng mày,
Số nhiều
Ngôi thứ hai
các ngươi, các khanh, bọn bay, bọn mày
Ngôi thứ ba
họ, chúng, chúng nó, bọn họ
114
Bảng 4.3. Đại từ xưng hô tiếng Việt
Bảng trên đây được tổng kết theo [1], [2], [8], [28]. Do sự phong phú của tiếng Việt,
một đại từ xưng hô tiếng Anh có thể tương ứng với khá nhiều đại từ xưng hô tiếng Việt, ví
dụ đại từ “they” tiếng Anh có thể là bản dịch của “các anh ấy”, “các cô ấy”, “chúng nó”,
“bọn chúng”, “chúng”, “bọn nó”, “họ”. Không phải tất cả các từ này đều xuất hiện trong
từ điển tiếng Việt như những mục từ riêng biệt. Trong hầu hết các từ điển không có từ “cô
ấy”, “các cậu”, được hiểu là những cụm từ.
Động từ “đi”
Trong tiếng Việt, động từ đi có thể dùng với động từ khác như “đi học”, “đi chơi”, “đi
bơi”... Khi dịch sang tiếng Anh, phần lớn động từ đứng sau động từ “đi” được thay thế
bằng danh động từ, ví dụ: “ đi bơi” – “go swimming”, “đi mua sắm” – “go shopping”…tuy
nhiên cũng có những ngoại lệ như “đi học” – “go to school”, “đi chơi” – “go out”.
4.2.2. Khác biệt về trật tự từ
Tiếng Việt và tiếng Anh chủ yếu có những khác biệt sau về trật tự từ:
Trật tự trong cụm danh từ - tính từ
Trong tiếng Anh, tính từ luôn đứng trước danh từ trong khi với tiếng tiếng Việt danh từ
lại đứng trước tính từ (trừ một số ngoại lệ như trong cụm từ “nghèo tài nguyên”với kết nối
AN). Dưới đây là hình ảnh minh họa việc sắp xếp lại thứ tự từ:
Hình 4.1.Sắp xếp lại trật tự từ
Khi dịch câu “tôi mua chiếc ví đỏ”, kết quả trả ra cần là “I buy the red wallet”. Ở kết
quả, từ “red” (tính từ) đứng trước “wallet” (danh từ). Điều này là kết quả của việc từ “ví” ở
vị trí thứ 4 trong câu nguồn đã được ánh xạ thành từ “wallet” ở vị trí thứ 5 trong câu đích,
trong khi từ “đỏ” ở vị trí thứ 5 trong câu nguồn thì được ánh xạ thành từ “red” ở vị trí thứ
4 trong câu đích. Việc thay đổi trật tự cho cụm hai, ba tính từ đi sau danh từ cũng tương tự
115
như vậy.
Trật tự câu nghi vấn, câu nghi vấn – phủ định:
Dạng câu hỏi thường dùng nhất trong tiếng Việt liên quan đến từ (cụm từ) để hỏi, ví
dụ “tại sao”, “ai”, “như thế nào”. Các từ này thường ở đầu hoặc cuối câu. Trong dạng câu
hỏi “wh” tiếng Anh, từ để hỏi luôn luôn đứng trước. Do vậy cần biến đổi trật tự từ, cũng
như thêm trợ động từ ...thích hợp.
Trật tự từ không lân cận
Trật tự từ không lân cận là sự phụ thuộc được xác lập giữa các từ cách nhau một
khoảng nhất định. Phụ thuộc dạng này có thể do “khoảng trống” (gap) tạo nên bởi sự thay
đổi vị trí của từ nào đó, ví dụ “Quà cưới cho cô dâu, tôi đã gửi rồi”, hay trong các câu
ghép, câu phức với nhiều mệnh đề như “Cái áo tôi mua hôm qua rất đẹp”. Khi dịch sang
tiếng Anh, để đảm bảo nghĩa của câu, thường phải thay đổi vị trí của từ, nhưng sự thay đổi
vị trí cho loại câu này khó có thể biểu diễn một cách đơn giản bằng những luật dịch. Việc
phân tích cũng như dịch loại câu này đòi hỏi những phương pháp thống kê, học máy với
những bộ ngữ liệu lớn mà chúng tôi chưa có điều kiện xây dựng.
4.3. Hệ thống dịch máy sử dụng dạng tuyển có chú giải
Khi dịch máy với cấu trúc hai ngôn ngữ nguồn - đích khác nhau, những vấn đề sau
• Tìm nghĩa chính xác của từ - giải quyết nhập nhằng nghĩa từ và từ loại.
• Khắc phục sự khác biệt về hình thái của hai ngôn ngữ.
• Khắc phục sự khác biệt về trật tự từ.
luôn luôn được đặt ra:
Những vấn đề này đòi hỏi phân tích cú pháp mới giải quyết được trọn vẹn. Do văn
phạm liên kết thể hiện mối liên kết trực tiếp giữa các từ với nhau, các xử lý nói trên được
thực hiện dễ dàng hơn.
Dạng tuyển có chú giải
Dạng tuyển có chú giải (Annotated Disjunct, viết tắt là ADJ) lưu trữ nghĩa của một từ
khi đi với dạng tuyển nào đó. Ví dụ, từ “cô” với dạng tuyển ((O) (NtPd)) sẽ có nghĩa là
“her”, trong khi đi với dạng tuyển (( )(NtPd,SV)) có nghĩa là “she”, hay khi đi với dạng
tuyển (( )(SHA)) từ đó lại có nghĩa là “aunt” (liên kết SHA là sở hữu ẩn, dùng liên kết các
cụm từ như “cô tôi”).
Dạng tuyển có chú giải là một tổ hợp bao gồm (
116
trong đó dạng tuyển thuộc về từ nguồn. Từ đích là nghĩa của từ nguồn trong ngôn ngữ đích
khi đi với dạng tuyển tương ứng. Trong hệ thống dịch Việt - Anh, các dạng tuyển có chú
giải của câu “tôi yêu cô ấy” sẽ là:
(tôi, I,(()(SV)))
(yêu, love, ((SV)(O)))
(cô, her, ((O)(NtPd)))
(ấy,!,((NPd)()))
Dấu ! chỉ ra từ sẽ bị xóa khi dịch.
Như đã trình bày ở chương đầu, bộ phân tích cú pháp liên kết không sử dụng bộ gán
nhãn từ loại. Từ loại được phát hiện thông qua các liên kết của nó. Do vậy, không chỉ tránh
được sai sót về loại từ mà còn tìm ra được nghĩa chính xác hơn cho từ.
Để xây dựng bộ dịch dựa trên dạng tuyển có chú giải, ba vấn đề quan trọng nhất phải
giải quyết là:
1. Tìm nghĩa từ
2. Chuyển đổi cấu trúc câu
3. Hoàn thiện bản dịch
Hình 4.2. dưới đây mô tả kiến trúc của hệ dịch Việt - Anh dựa trên dạng tuyển có chú giải.
• Phần tiền xử lý thực hiện tách từ cho câu đưa vào. Hệ thống sử dụng bộ tách từ
Hệ thống gồm 3 phần chính:
• Phần phân tích thực hiện phân tích cú pháp bằng bộ phân tích cú pháp liên kết. Trong
vnTokenizer.
khỏang thời gian có hạn, luận án không đề cập vấn đề dịch câu ghép nên kết quả nhận
được từ bộ phân tích cú pháp là một phân tích liên kết của câu đơn hoặc câu ghép hai
mệnh đề. Qua phân tích các liên kết tìm được, hệ thống xác định các thuộc tính liên
• Phần tổng hợp cho phép tạo ra bản dịch bao gồm:
quan đến ngôi, số, thì, thể...
- Dịch một số cụm từ đặc biệt: “đi học”, “bọn chúng nó”...
- Tra nghĩa từ theo dạng tuyển trong từ điển ADJ.
- Thay đổi hình thái từ dựa trên các thuộc tính tìm được (hiện thực hóa).
- Tìm phương án dịch tổng thể tốt nhất.
Ngoài bộ phân tích cú pháp, từ điển ADJ và tập luật dịch là những thành phần quan
trọng nhất của hệ thống dịch. Những thành phần khác như danh mục động từ bất quy tắc,
từ điển thành ngữ, bộ ngữ liệu tiếng Anh cũng hỗ trợ đắc lực cho hệ thống dịch để tạo ra
117
những bản dịch chất lượng tốt.
Hình 4.2. Kiến trúc của hệ dịch dựa trên dạng tuyển có chú giải
4.3.1.Tìm nghĩa từ trong từ điển ADJ
Từ điển ADJ sẽ tập hợp tất cả các ADJ của ngôn ngữ. Về nguyên tắc, từ điển ADJ phải
bao gồm các bộ ba: từ, dạng tuyển và nghĩa của từ trong tiếng Anh khi sử dụng với dạng
tuyển tương ứng. Tuy nhiên, số dạng tuyển của mỗi từ là rất lớn. Khi từ điển song ngữ đã
gồm gần 100.000 mục từ, mỗi mục từ đó lại được gắn với mọi dạng tuyển của từ nguồn,
kích cỡ của từ điển ADJ sẽ vô cùng lớn. Luận án đã chỉnh sửa từ điển văn phạm liên kết
hướng tới công thức chỉ thể hiện một cách sử dụng của từ.
Như vậy, với cấu trúc tương tự như từ điển văn phạm liên kết, từ điển ADJ có thêm
nghĩa tiếng Anh của từ bên cạnh công thức, và từ điển ADJ có thể thay thế từ điển văn
phạm liên kết trong giai đoạn phân tích cú pháp.
118
Dưới đây là ví dụ một đoạn trích trong từ điển ADJ:
bởi_vì,vì because: (GT_DT+ or CL+) & {PH+} & (EV- or (CO+ or QHT+))
sở_dĩ !
là_do,là_vì because
rằng that: R- & CL+
/verb.transitive.trans: ((({TĐT1-} & {TĐT2_1-} & {RpVt- or RtVt- or
RfVt- or RhVt-} & {TĐT4-}) or TT_ĐT- or ({TT_ĐT-} & TĐT5-)) & {SV- or
ĐT_ĐT- or THI_ĐT- or LT_ĐT- or BI-} & {ĐT_XONG+} & {O+} & {ĐT_TT+} &
{ĐT_GT+} & {ĐT_LT+} & {THT- or THS+} & ({EV+} & {SDT5- or CL-} & {CO-}))
or ({SV-} & BI-)
Trong từ điển ADJ, mục /verb.transitive.trans là mục chứa công thức liên kết của các
động từ ngoại động (trừ một số ngoại lệ có công thức liên kết riêng) nên được liên kết với
một tệp chỉ nghĩa của từng động từ với công thức liên kết đã nêu. Sau đây là nội dung của
những dòng đầu tiên trong tệp:
a_dua ape
a_dua flatter
a_dua follow
a_dua jawn_upon
a_tòng act_as_an_accomplice_to
a_tòng imitate
am_hiểu know_well
am_hiểu realize
Xâu rỗng trong từ điển được biểu diễn bằng dấu ”!”.
4.3.2.Xây dựng bộ luật dịch
Như đã trình bày trong sơ đồ dịch của hệ thống ở hình 4.2, hệ thống dịch cần sử dụng
ba tập luật liên quan đến các công việc khác nhau: phát hiện thuộc tính, dịch cụm từ,
chuyển đổi cấu trúc. Dưới đây là mô tả chi tiết các luật điển hình và văn phạm phi ngữ
cảnh sinh ra bộ luật.
Trong các luật, ký hiệu W1, W2, W3 đại diện cho các từ, D1, D2, D3 chỉ dãy các tên kết
nối thuộc danh sách trái hay phải của một dạng tuyển nào đó.
Luật phát hiện thuộc tính
Thuộc tính ở đây là những thông tin cần được lưu trữ lại cho mỗi từ để biến đổi hình
thái thích hợp, ví dụ, số nhiều của danh từ, thì, thể của động từ, ngôi của đại từ, loại cấu
trúc so sánh (so sánh ngang bằng, so sánh hơn kém, so sánh bậc nhất). Dưới đây là một số
119
ví dụ về luật phát hiện thuộc tính.
• Luật phát hiện thuộc tính về số nhiều của danh từ. Căn cứ vào kết nối DpNt của những
định từ chỉ số nhiều “những”, “các”,”số đông” có thể đưa giá trị PLURAL vào thuộc
tính của danh từ liên kết với chúng:
W1(D1)(DpNt) W2(DpNt)(D2) → W1’W2’(number = PLURAL) (4.1)
• Luật phát hiện thuộc tính thì của động từ. Thì của động từ được thể hiện bằng các liên
kết với các phụ từ chỉ thì. Thì quá khứ được thể hiện qua các liên kết RpVt, RpVs, thì
tương lai RfVt, RfVs, tiếp diễn RcVt, RcVc, hoàn thành RhVt, RhVc. Các liên kết của
thời quá khứ hay tương lai xuất hiện trong phân tích sẽ được xử lý theo các luật nhằm
xác định thuộc tính tense cho động từ. Với những thì phức tạp hơn như các thì tiếp diễn
hay hoàn thành, không chỉ biến đổi hình thái động từ mà còn thêm từ khác như “to
be”, “to have”, do vậy thuộc tính được xác định giá trị là thuộc tính form.
W1(D1)(RpVt) W2(RpVt)(D2)→
(4.2)
W1’W2’(tense = PAST)
W1(D1)(RfVt) *(RfVt)(D2) →
W1’W2’(tense = FUTURE) (4.3)
W1(D1)(RtVt) W2(RtVt)(D2) →
W1’W2’(tense = PRESENT) (4.4)
W1(D1)(RhVt) W2(RhVt)(D2) →
W1’W2’(tense = PRESENT_PARTICIPLE) (4.5)
• Luật xác định ngôi của đại từ xưng hô: đối với đại từ xưng hô thì không cần căn cứ
vào liên kết vì trong tiếng Việt số lượng đại từ xưng hô là khá nhỏ, do vậy luật căn cứ
vào chính giá trị từ và loại của từ để xác định ngôi:
tôi[p]→ I(person = FIRST) (4.6)
anh[p]→ you (person = SECOND) (4.7)
nó[p]→ he (person = THIRD) (4.8)
Ký hiệu [p] trong luât thể hiện loại của từ đứng ngay bên trái. Thông tin này có trong
từ điển liên kết.
Sau khi xác định được ngôi của đại từ xưng hô, thuộc tính về ngôi phải được lan truyền
cho động từ để chia đúng ngôi, đặc biệt là động từ “là” vì động từ “to be” tương ứng chia
khác nhau ở tất cả các ngôi thể hiện qua các luật sau:
W1(D1)(SV) W2(SV)(D2)
→ W1’W2’(person = W1’.person) (4.9)
Động từ “là”
W1(D1)(DT_LA) W2(DT_LA)(D2)
→ W1’W2’(person = W1’.person) (4.10)
120
Luật dịch cụm từ
Dịch cụm từ sang đại từ xưng hô tiếng Anh
Cách xưng hô trong tiếng Việt rất phức tạp. Ngay cả các bộ từ điển cũng có những
quan điểm khác nhau về từ loại của những cụm từ có tính chất xưng hô. Ví dụ “chúng tôi”,
“chúng ta” xuất hiện với vai trò đại từ xưng hô, tuy nhiên những đối tượng cùng nghĩa
“bọn tôi”, “chúng tớ” với hầu hết các từ điển lại được coi là cụm gồm hai từ. Tất cả
những từ đã nói đều chỉ được dịch sang tiếng Anh là “we”. Cũng như vậy, “cô ấy “ luôn
được coi là cụm gồm danh từ “cô” và đại từ chỉ định “ấy”,”ta”, hay danh từ “nàng”. Mối
liên hệ của từ “cô” thông qua liên kết NtPd+ và SV+ cho phép dịch “cô ấy” thành “she” ,
còn NtPd+ và O- hay EpNt cho phép dịch “cô ấy” thành “her”:
cô(D1)(NtPd,SV) W2(NtPd)(D2) → she W2’ (4.11)
W1(D1)(EpNt) cô(EpNt)(NtPd) W2(NtPd)(D2) → W1’ her (4.12)
Sau đó, tất nhiên cũng cần những luật để gán thông tin về ngôi cho động từ tương ứng.
Rõ ràng việc dịch từng từ không thể cho những bản dịch có chất lượng cao vì bất cứ
ngôn ngữ nào cũng có những cụm từ mà khi tách rời từng từ sẽ vô nghĩa hoặc mang nghĩa
khác hẳn. Đối với những cụm từ là thành ngữ cần sử dụng từ điển thành ngữ. Luật chỉ
được xác lập cho những cụm từ có cấu trúc cụ thểm thường được sử dụng trong tiếng Việt.
Cụm từ với từ “đi”
Từ “đi” đóng một vai trò khá đặc biệt khi dịch Việt - Anh. Trong tiếng Việt, từ “đi “ có
thể kết hợp với một số động từ thường, như “đi bơi”, “đi mua sắm”, “đi học”, “đi chơi”.
Hiện tượng này đã được thể hiện trong từ điển liên kết với liên kết DI cho động từ “đi” và
một số động từ khác. Trong nhiều trường hợp, công thức dịch sẽ là go + verb + ing (go
swimming, go fishing... )
đi(D1)(DI) W2(DI)(D2) →
go W2’(form = PRESENT_PARTICIPLE) (4.13)
Một số ngoại lệ : “đi học” --> “go to school”, “đi chơi”-->“go out”, “đi ngủ” --> “go to
bed” đã được thể hiện qua những luật dịch riêng:
đi(D1)(DI) học(DI)(D2) → go to school[n] (4.14)
đi(D1)(DI) làm(DI)(D2) → go to work[n] (4.15)
Luật dịch quan hệ sở hữu
Quan hệ sở hữu trong tiếng Việt có thể rõ ràng thông qua giới từ “của” (đôi khi là danh
từ “nhà”, ví dụ “lợn nhà tôi”). Các luật dịch sẽ chuyển đại từ đi sau giới từ “của” sang
121
tính từ sở hữu, danh từ sang sở hữu cách.
Ví dụ
của()(EoPp) tôi(EoPp)() → my (4.16)
của ()(EoPp) anh(EoPp)() → his (4.17)
Trong tiếng Việt còn có quan hệ sở hữu ẩn (không có từ “của”). Khi phân tích câu có
quan hệ sở hữu ẩn, cần những luật dịch thể hiện quan hệ đó, ví dụ:
W1(D1)(SHA) tôi(SHA)(D2)→ my W1’ (4.18)
W1(D1)(SHA) nàng(SHA)(D2)→ her W1’ (4.19)
Luật thay đổi trật tự từ
Việc hoán đổi vị trí các từ và cụm từ cần chú ý tới tính đúng cú pháp của câu đích. Khi
hai từ có liên kết trong câu nguồn thì liên kết đó vẫn cần bảo tồn trong câu đích, trừ trường
hợp có từ bị loại bỏ. Sau khi thực hiện hoán đổi vị trí, các từ trong câu đích cũng cần phải
tạo thành câu đúng cú pháp liên kết, đặc biệt là tính phẳng. Khi hai từ đổi vị trí cho nhau,
liên kết giữa chúng ở câu đích sẽ đổi chiều, kết nối trong dạng tuyển tương ứng sẽ chuyển
từ danh sách bên trái của dạng tuyển sang danh sách bên phải hoặc ngược lại. Để các liên
kết trong câu đích không cắt nhau, các từ nằm trong khoảng giữa hai từ cũng cần di chuyển
thích hợp. Xét các bước dịch trong hình 4.3.
Dòng thứ hai trong hình chỉ nghĩa tiếng Anh tương ứng của các từ ở dòng thứ nhất. Nếu
các từ “girl”, “little” và “pretty” đổi vị trí, liên kết giữa chúng cũng sẽ đổi chiều, dạng
tuyển thay đổi. Do vậy không chỉ có hai từ đổi vị trí mà phải đổi vị trí hai cụm từ “very
pretty” với các từ “little” và “girl” do có liên kết RlAp giữa “very” và “pretty”, liên kết SA
giữa “girl” với “little” và “pretty”. Việc đổi chỗ không ảnh hưởng tới tính phẳng của phân
tích nên ta nhận được kết quả cuối cùng ở dòng thứ 3.
122
Hình 4.3. Thay đổi trật tự từ cho bản dịch câu “Cô gái nhỏ rất xinh”
Luật đổi vị trí danh từ - tính từ
Sau đây là một số luật cho phép thay đổi vị trí giữa tính từ bổ nghĩa cho danh từ và tính
từ bổ nghĩa cho tính từ khác. Trong tiếng Việt thường chỉ có đến 2 tính từ bổ nghĩa cho
một danh từ (không phân cách bằng dấu phảy).
W1(D1)(ApAp) W2(ApAp)(D2) → W2’ W1’ (4.20)
W1(D1)(SA SA) W2(SA)(D2) W3(SA)() → W3’ W2’ W1’ (4.21)
W1(D1)(SA) W2(SA)(D2) → W2’ W1’ (4.22)
Luật dịch cấu trúc phủ định
Các từ chỉ ra cấu trúc phủ định là các phụ từ phủ định “không”, “chẳng”, “chưa”...
(loại từ là Rn). Kết nối giữa loại từ này với động từ là RnV. Khi dịch cấu trúc này cần chú
ý đến việc chia động từ phù hợp với thì của động từ ở câu nguồn (từ “chưa” tương ứng thì
hiện tại hoàn thành, các từ khác dịch sang thời hiện tại:
W1(D1)(SV) chưa(D2)(RnV) W3(RnV SV)(D3) ->
W1’(D1’)(D2’) have(number = W3. number, person = W3. person)[v](D2’)
(N _PP_) not(N)(D3’) W3’(negative = FALSE)(_PP_)(D4’) (4.23)
Luật dịch cấu trúc nghi vấn
Trong tiếng Việt có một số từ (cụm từ) để hỏi như “tại sao”, “khi nào”... Từ để hỏi có
thể đúng đầu hoặc cuối câu. Nhận biêt cấu trúc này thông qua kết nối THT (từ hỏi đứng
đầu câu) hoặc THS (từ hỏi đứng cuối câu). Khi dịch sang tiếng Anh với các động từ thông
thường (không phải động từ “to be”) cần thêm trợ động từ vào giữa từ để hỏi và chủ ngữ.
Ví dụ luật dưới đây cho phép dịch câu hỏi với từ để hỏi đứng đầu câu và phủ định từ
W1()(THT) W2(D2)(SV) W3()(RnV) W4(RnV SV THT)() →
W1’do(number = W4.number,person = W4.person,tense = 4.tense,
contracted-negation = TRUE)[v]()(_I_) W2 W4(_I_)() (4.24)
Cú pháp của luật dịch
Luận án đã đưa ra một văn phạm phi ngữ cảnh để biểu diễn các luật ở dạng máy đọc
được. Cú pháp được mô tả bằng EBNF như sau:
::=
::= “ :”
::= +
::= “-->“ | “__>“
::= *
::=
::= “*” |
123
::= “(““)” “(“ “)”
::= ()*
::= [][:][]
::= “(“ ()+”)”
::= “$” []
::= []
Các đối tượng sau được tiền xử lý và coi như ký hiệu kết thúc:
Vế trái
Vế trái của luật gồm một số từ và các dạng tuyển để liên kết các từ đó với nhau. Có
một chút khác biệt giữa dạng tuyển của các từ và dạng tuyển được mô tả trong luật. Dạng
tuyển trong luật chỉ nêu những kết nối mà luật sẽ xử lý. Trước và sau các kết nối này trong
dạng tuyển của từng từ có thể có các kết nối khác.Chẳng hạn, dạng tuyển ( )(SA, SA) xuất
hiên trong luật nghĩa là luật sẽ xử lý hai kết nối liên tiếp có tên SA trong danh sách phải và
không xử lý kết nối nào trong danh sách trái.
Ví dụ: Vế trái sau đây mô tả cụm từ “đi học”. Cụm này gồm từ “đi” và từ “học” Hai từ
liên kết với nhau bằng liên kết DI
đi(SV)(DI) học(DI)()
Trong khi đó, vế trái
anh(O)(NtPd) *(NtPd)()
mô tả cụm từ bao gồm từ “anh” và một từ bất kỳ có liên kết NtPd về bên trái (“ấy”.
“ta”,”đó”). Cụm này sẽ nằm ở vế trái của luật xác định nghĩa tiếng Anh là “him”
Vế phải
Vế phải liệt kê xâu sẽ được dùng để thay thế vào vế trái, có thể chứa những đối tượng
•
sau:
• Lời gọi hàm với cấu trúc
$i (i = 1, 2, 3…) nghĩa của từ đứng thứ i ở vế trái.
Bốn hàm sau được sử dụng trong các luật:
set-string (word, new-string) Thay từ word bằng xâu mới new-string.
124
set-feature (word, name, value) Thiết lập giá trị value cho thuộc tính chỉ bởi name.
copy-feature(word, name, ref ) Chép giá trị thuộc tính chỉ bởi name của từ word sang
thuộc tính name của từ chỉ bởi ref .
remove-feature (word, name) Xóa thuộc tính có tên name của từ chỉ bởi word.
Bộ luật xây dựng theo văn phạm nói trên được lưu trữ trong tệp XML với cấu trúc như
sau:
rule>
< !−− luat trong nhom −−>
... rule>
... rule>
excludes=“ past,future”> ... rule>
... rule>
rules>
• Ký hiệu ... chỉ nội dung của luật, có thể viết trên nhiều dòng.
• Thuộc tính requires chứa tập các luật cần thực hiện trước luật đang xét
• Thuộc tính excludes ngăn cản việc thực hiện luật đang xét nếu một trong các luật trong
Trong tập luật này,
danh sách sau từ khóa excludes đã được thực hiện
Luật được đọc từ tệp XML, phân tích và xử lý tự động theo văn phạm. Với cú pháp khá
đơn giản, người sử dụng có thể dễ dàng thêm luật mới.
Các luật chính được liệt kê trong phụ lục 4.
4.3.3.Hoàn thiện câu dịch
Sau khi đã phát hiện thuộc tính, di chuyển vị trí, biến đổi hình thái thích hợp, còn một
•••• Hiện tượng chuyển loại từ:
số vấn đề cần thực hiện để tạo ra bản dịch có chất lượng tốt. Đó là:
- Danh từ có vai trò tính từ. Khi dịch sang tiếng Anh cần chuyển thành tính từ,
ví dụ “huy chương vàng” , vàng ở đây là từ chỉ chất liệu với liên kết CH, cần
chuyển sang tính từ tương ứng.
- Tính từ hay động từ đi sau “sự”, “việc” làm chuyển loại cả cụm từ thành danh
125
từ.
•••• Tính từ bổ nghĩa cho động từ: Tiếng Việt không có phó từ, nhưng sang tiếng Anh
•••• Loại bỏ danh từ chỉ loại.
cần dịch thành phó từ.
Luận án đã xây dựng tập luật bao trùm được các hiện tượng này
Lựa chọn nghĩa từ: Dù đã qua nhiều công đoạn khử nhập nhằng trong quá trình phân
tích cú pháp, đến đây ta vẫn có thể gặp hiện tượng nhập nhằng về nghĩa từ, đó là khi một
từ tiếng Việt tương ứng với nhiều nghĩa tiếng Anh khác nhau. Chẳng hạn từ “làm” có thể
mang nghĩa “make” hay “manufacture” (Lưu ý là từ “làm” với nghĩa tương ứng “work”
gắn với một công thức khác so với từ “làm” mang hai nghĩa trên).
Như vậy, dù chỉ có một phân tích liên kết duy nhất được chọn, vẫn có thể có nhiều bản
dịch tương ứng với nhiều tổ hợp nghĩa khác nhau của các từ. Vấn đề ở đây là chọn ra tổ
hợp “trôi chảy” nhất, tức là cách thức hay được người bản ngữ sử dụng nhất. Luận án đã
giải quyết bằng cách dùng bộ ngữ liệu tiếng Anh và tính xác suất để chọn bản dịch tốt nhất.
Bộ ngữ liệu được chọn là COCA rút gọn (chỉ chứa những n-gram xuất hiện ba lần trở lên)
[136].
¶
Câu S với các từ w1, w2,. . .wnđược chọn dựa theo tiêu chí sau:
(f(cid:176),f–,..f†) ·log ((cid:16)(h!) + ƒ (cid:18)(cid:181)w(cid:16)(h(cid:151)
(f(cid:176),f–,..f†) (cid:16)(‡) = max
argmax
(cid:151) •
|h(cid:151)(cid:155)!)‚
4.3.4.Kết quả thử nghiệm với bộ dịch dựa trên dạng tuyển có chú giải
Như đã giới hạn phạm vi quan tâm ngay từ đầu, việc thử nghiệm hệ thống dịch với
ADJ là để minh họa khả năng biểu diễn của văn phạm liên kết tiếng Việt, còn phải hoàn
thiện nhiều để trở thành một công cụ dịch phổ biến. Tuy nhiên, đề xây dựng bộ ngữ liệu
thử nghiệm cũng là một khó khăn. Hiện chưa có bộ ngữ liệu chuẩn cho dịch Việt - Anh
nên chúng tôi đã tự xây dựng bộ ngữ liệu riêng cho mình.
Hệ thống dịch được xây dựng bằng công cụ Java để tích hợp với các bộ phân tích cú
pháp. Bộ ngữ liệu gồm 336 câu thu thập từ sách dạy tiếng Việt cho người nước ngoài trình
độ nâng cao [18]. Ưu điểm của tập mẫu này là chúng được viết bởi các giáo sư về tiếng
Việt và bản dịch tiếng Anh đã được hiệu đính cẩn thận. Dưới đây là ví dụ minh họa hoạt
động của hệ thống dich xử lý một số mẫu câu:
1.”Mẹ tôi là một bác_sĩ giỏi”
Kết quả phân tích cú pháp:
126
# +----DT_LA----+------LA_DT------+
# +--SHA--+ | +----McN---+---SA--+
# | | | | | |
# Mẹ.n tôi.p là.v một bác_sĩ.n giỏi.a
Các dạng tuyển tìm được cho mỗi từ là:
mẹ: ()(SHA DT_LA)
tôi: (SHA)()
là: (DT_LA)(LA_DT)
một: ()(McN)
bác sĩ: (McN LA_DT)(SA)
giỏi: (SA)()
• Luật xác định ngôi cho danh từ “mẹ”.
• Luật dịch quan hệ sở hữu ẩn.
• Luật chuyển đổi thứ tự giữa nghĩa của danh từ “bác sĩ” và tính từ “giỏi” .
Để dịch câu này, các luật sau đã được áp dụng
Bản dịch được hệ thống của luận án và hệ thống Google đưa ra là giống nhau:
My mother is a good doctor
Kết quả dịch với VEtran:
My mother is a jurisprudent physician.
Kết quả dịch của ba hệ thống không có sự khác biệt lớn. Hệ thống của luận án và
Google có sự đối chiếu với ngữ liệu mẫu khi chọn từ nên đưa ra bản dịch “good doctor”
trong khi VEtran dùng cụm từ “jurisprudent physician” về nghĩa trong từ điển Việt - Anh
không khác biệt nhưng không sát nghĩa thực tế.
2. “Báo_săn là loài động_vật nhanh nhất thế_giới”
Kết quả phân tích cú pháp
# +-----LA_DT-----+
# +-DT_LA-+ +---ĐV--+--SA-+-TT_SS+---NHAT_DTv--+
# | | | | | | |
# Báo_săn.n là.v loài động_vật.n nhanh.a nhất thế_giới.n
Các dạng tuyển nhận được:
báo săn: ()(DT_LA)
là: (DT_LA)(LA_DT)
loài: ()(ĐV)
động vật: (ĐV LA_DT)(SA)
nhanh: (SA)(TT_SS)
nhất: (TT_SS)(NHAT_DT)
thế giới: (NHAT_DTv)()
127
Quá trình dịch thông qua nhiều luật được mô tả trong hình 4.4 dưới đây:
Hình 4.4. Quá trình dịch câu “Báo săn là loại động vật nhanh nhất thế giới”
Kết quả thực hiện của hệ thống dịch ADJ
Cheetah is the quickest animal world
Kết quả thu được với VEtran:
Cheetah is world' s fast animal the kind.
Kết quả do Google đưa ra:
Alert hunt is the world's fastest animal
Cả ba bản dịch đều có những hạn chế. Bản dịch của ADJ đã không phát hiện được quan
hệ sở hữu của từ “thế giới” trong khi bản dịch của VEtrans dịch được quan hệ đó nhưng
lại không dịch được tính từ so sánh cấp cao nhất và dịch sai từ “loài”. Bản dịch của
Google dịch rất tốt cụm từ “nhanh nhất thế giới” nhưng lại gặp lỗi ở từ “báo săn”.
So sánh trên toàn thể bộ ngữ liệu, có thể thấy với những cụm từ thường dùng, Google
cho kết quả “thực” hơn. Tuy nhiên kết quả của hệ thống dịch của luận án và VEtran thường
đúng về cú pháp và hình thái hơn, trong đó hệ thống dịch của luận án có phần “trôi chảy”
hơn, do mối liên kết được xác lập đến từng từ cá biệt. Rõ ràng việc kết hợp các phương
pháp khác nhau sẽ nâng chất lượng của bản dịch lên cao hơn.
Hiện nay, do chưa có một bộ ngữ liệu đủ lớn để giải quyết triệt để vấn đề nhập nhằng
trong phân tích cú pháp, độ chính xác của bộ phân tích cú pháp còn chưa cao. Đối với bộ
ngữ liệu 336 câu hội thoại, còn nhiều cụm ở dạng văn nói, chưa có trong ngữ liệu toàn các
câu văn viết, nên kết quả trả về của bộ phân tích cú pháp còn thấp (độ chính xác
(precision): 22.7%, độ phủ (recall): 28.8%, độ đo F-score: 0.28). Nếu dùng nguyên dạng
kết quả của bộ phân tích cú pháp, có thể không đánh giá chính xác chất lượng của hệ thống
dịch. Để nghiên cứu một cách tổ một cách tổng thể về ảnh hưởng của các thành phần tron ần trong hệ thống
đến chất lượng dịch, luận án đ đã thử nghiệm trên 2 hệ thống sau:
ADJ1: Cho phép loại bỏ bớt n ại bỏ bớt những sai sót có thể có trong quá trình phân tíc ình phân tích cú pháp
bằng cách xác định một số ràng àng buộc để chọn chính xác phân tích của câu, cụ của câu, cụ thể là báo
trước một số cặp từ chắc chắn x chắc chắn xuất hiện liên kết. Đây cũng là kỹ thuật được d ợc dùng trong
[94] để hạn chế số phân tích đ phân tích đưa ra. Câu đưa vào đã chỉnh kết quả tách từ. Độ ả tách từ. Độ chính xác
của bộ phân tích cú pháp cho AD pháp cho ADJ1 là 80.2%, độ phủ 81.4%, F-score 0.81.
ADJ2: Không cho phép ràng b o phép ràng buộc và tách từ.
Dù bộ ngữ liệu còn nhỏ, lu luận án đã sử dụng phương pháp BLEU [100] với th ới tham số n =
2, 3, 4, 5 để so sánh với kết quả với kết quả đạt được của VETran và Google. Kết quả nhậ ết quả nhận được thể
hiện trong bảng 4.4.
Bảng ảng 4.4. So sánh kết quả các hệ thống dịch
Google
Goog VEtran ADJ1 ADJ2
0.169816 0.209987 0.263627 0.157450
0.1698 2
0.133085 0.140612 0.181787 0.091807
0.1330 3
0.109895 0.096798 0.127502 0.056950
0.1098 4
0.090472 0.069292 0.091302 0.036461
0.0904 5
Biểu đồ trong hình 4.5 cho ph cho phép so sánh điểm BLEU của các hệ thống dịch n thống dịch nói trên của
luận án với hai hệ thống dịch Vi Việt - Anh phổ biến là Google Translation và VEtr ation và VEtrans.
Hình 4. .5. So sánh điểm BLEU của các hệ thống
Vấn đề nhập nhằng khi áp dụ khi áp dụng luật
Đây là vấn đề mà tất cả các hệ ất cả các hệ thống dịch dựa trên luật phải quan tâm xử lý. n tâm xử lý. Tuy nhiên,
với những quy định chặt chẽ của chặt chẽ của mô hình văn phạm liên kết, xác suất xảy ra nhậ ất xảy ra nhập nhằng là
rất nhỏ. Đó là vì những lý do sau ng lý do sau:
1. Tập luật dịch của hệ thống bao gồm ba tập con . Thứ tự áp dụng luật như trên sơ đồ ở
hình 4.2 là: xác định thuộc tính→ dịch cụm từ→ chuyển đổi cấu trúc. Sự nhập nhằng
khi áp dụng luật( nếu có) chỉ có thể xảy ra trong từng tập con. Tuy nhiên, với văn phạm
liên kết, luật chỉ được sử dụng khi thỏa mãn cả hai yếu tố:
- Từ đang xét xuất hiện trong luật
- Tất cả các mối liên kết của từ được nêu trong luât phải thỏa mãn.
2. Ngoài ra, thuộc tính exclude của một số luật (đã mô tả ở trên) cũng góp phần khử nhập
nhằng. Do vậy, khi phân tích cú pháp của câu đã xác định, rất khó xảy ra việc nhập
nhằng khi áp dụng luật. Trong ba tập luật của hệ thống, chưa có luật nào có thể gây
nhập nhằng trong lúc lựa chọn. Sự nhập nhằng chủ yếu xảy ra khi phân tích, chẳng hạn
với hai câu “tôi bán hoa rất nhanh” và “tôi bán hoa rất tươi” có thể dẫn đến nhầm lẫn
khi không có dấu hiệu nào cho thấy tính từ chỉ tính chất bổ nghĩa cho từ “hoa” hay từ
“bán”. Tuy nhiên khi đã xác định phân tích, nếu là:
# +----SV----+ +--------SA--------+
# + +----O---+ +---RlAp--+
# | | | | |
# Tôi.p bán.v hoa.n rất.r tươi.a
thì luật về thay đổi trật tự từ được áp dụng. Nếu phân tích được chọn là:
# +-----------VtAp------------+
# +----SV---+----O---+ +---RlAp--+
# | | | | |
# Tôi.p bán.v hoa.n rất.r nhanh.a
thì luật về chuyển loại nghĩa của từ “nhanh” sang phó từ tiếng Anh lại được áp dụng.
4.4. Kết luận
Hệ thống dịch sử dụng dạng tuyển có chú giải được xây dựng với mục đích minh họa
cho khả năng biểu diễn tiếng Việt của văn phạm liên kết. Tuy vậy, nếu đánh giá như một
hệ thống dịch, kết quả nhận được cũng rất đáng chú ý: với kết quả tốt của bộ tách từ và
phân tích cú pháp, hệ thống đạt kết quả nhỉnh hơn một chút so với Google và VEtran. Chú
ý rằng, để đạt kết quả này, bộ luật dịch của hệ thống chưa có tới 300 luật, ít hơn rất nhiều
130
so với VEtran và cũng không cần sử dụng bộ ngữ liệu song ngữ. Dù mới là thử nghiệm
trên bộ ngữ liệu nhỏ, có thể thấy khả năng sử dụng mô hình văn phạm liên kết cho bài toán
dịch máy là rất có triển vọng.
Tuy đã đạt được kết quả nhất định trong dịch máy Việt – Anh, hệ thống vẫn còn những
• Dịch câu có cấu trúc liên hợp (coordination) sử dụng kết nối lớn, ví dụ, cụm từ tiếng
vấn đề chưa giải quyết được:
Việt trong [4]“một sinh viên khoẻ mạnh, cao và tử tế”. Việc dịch loại câu này đòi hỏi
một phân tích cú pháp chính xác, chỉ có được khi khử nhập nhằng liên hợp trong câu
• Dịch câu ghép và câu phức: Câu ghép và câu phức chứa từ hai nòng cốt trở lên, trong
chứa từ “và “ và dấu phảy.
đó câu phức có chứa một nòng cốt bao các nòng cốt còn lại [1].Trong tập ngữ liệu mẫu,
đã có một số câu ghép 2 mệnh đề, tuy nhiên chất lượng dịch các câu này chưa được tốt.
Có thể thấy việc xử lý các loại câu ghép là khả thi vì chúng tôi đã xây dựng được bộ
phân tích cú pháp xử lý khá tốt trường hợp nhập nhằng liên hợp và phân tích câu ghép
với nhiều mệnh đề.
Việc nhận biết giới hạn các mệnh đề trong câu phức, cũng như các thành phần cụm chủ
vị đôi khi đòi hỏi thiết lập một liên kết giữa các từ không liền kề. Các xử lý để phân tách
mệnh đề hay giải quyến vấn đề nhập nhằng về cụm trạng từ hiện nay đều theo hướng tiếp
cận học máy trên tập ngữ liệu lớn. Hệ thống sẽ tiếp tục được phát triển theo hướng này khi
đã xây dựng được bộ ngữ liệu mẫu đủ lớn.
Một vấn đề khác cũng gây khó khăn trong xử lý: dịch cụm từ dạng n - 1 (n từ tiếng
Việt sang 1 từ tiếng Anh). Ngoài những cụm từ rất phổ biến mà luận án đã xử lý, cần đến
sự hỗ trợ của từ điển thành ngữ và bộ ngữ liệu mẫu song ngữ.
Với đặc điểm hoàn toàn từ vựng hóa của văn phạm liên kết, bộ luật dịch của hệ thống
thể hiện được những đặc điểm hết sức riêng và cá biệt của ngôn ngữ nguồn và ngôn ngữ
đích. Công việc này chắc chắn cần những hiểu biết sâu về cú pháp, từ pháp của cả hai ngôn
ngữ. Bộ luật dịch có thể thay đổi hoàn toàn nếu thay đổi cặp ngôn ngữ nguồn – đích, nghĩa
là khó có thể sử dụng cho cặp ngôn ngữ khác. Tuy nhiên, để mở rộng hệ thống dịch, có thể
quan tâm đến công cụ cho phép các nhà ngôn ngữ định nghĩa các quy tắc cú pháp [31].
Nếu theo hướng tiếp cận này, việc phân tích cú pháp theo biểu đồ (chart parsing) từ văn
phạm liên kết cũng dễ hơn so với các mô hình khác vì phân tích liên kết thực chất đã có
dạng biểu đồ. Như vậy có thể tính đến khả năng mở rộng hệ thống dịch cho các cặp ngôn
131
ngữ khác.
Như đã trình bày, do chưa đủ tài nguyên để xây dựng một hệ thống dịch máy thật hoàn
thiện, hệ thống dịch máy của luận án nhằm mục đích minh họa khả năng biểu diễn tiếng
Việt của văn phạm liên kết. Tuy nhiên, với chất lượng dịch khá thuyết phục, việc kết hợp
mô hình dịch này với hệ thống dịch theo cách tiếp cận thống kê chắc chắn sẽ nâng cao
được chất lượng bản dịch do có thể kết hợp sự trôi chảy của phương pháp thống kê với sự
chính xác của những biến đổi hình thái và cú pháp. Một trong những minh chứng cho điều
đó là sự kết hợp phân tích liên kết để hoàn chỉnh bản dịch ở hệ dịch máy trên nền ví dụ. Tỷ
lệ câu dịch hoàn toàn đúng với câu mẫu đã tăng khá nhiều. Kết hợp giữa cách tiếp cận
132
thống kê và văn phạm liên kết là hướng phát triển của hệ thống trong thời gian tới.
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Tóm tắt
Luận án hướng tới xây dựng một mô hình mới để biểu diễn cú pháp tiếng Việt. Mô
hình này theo hướng tiếp cận phổ biến hiện nay: hướng tiếp cận phụ thuộc và từ vựng hóa.
Để xây dựng mô hình liên kết mà không có sự hỗ trợ của những nghiên cứu về ngôn
ngữ học, luận án đã phải nghiên cứu và tổng hợp các kiến thức về cú pháp tiếng Việt, rút ra
những đặc trưng về liên kết từ và các cấu trúc, tham khảo ý kiến của các nhà ngôn ngữ học
để có một mô hình liên kết chấp nhận được cho tiếng Việt.
Nhằm thử nghiệm và minh chứng cho những ưu việt của mô hình biểu diễn cú pháp
liên kết, luận án đã xây dựng bộ phân tích cú pháp liên kết. Kết quả đạt được với câu đơn
và câu ghép là khả quan, không kém các mô hình truyền thống, tuy nhiên việc lưu trữ và
tìm kiếm phân tích lại đơn giản hơn rất nhiều.
Tiếng Việt là ngôn ngữ châu Á, có những đặc điểm rất khác biệt so với các ngôn ngữ
châu Âu, đặc biệt là về biến đổi hình thái. Tận dụng khả năng biểu diễn thông tin hình thái
của văn phạm liên kết, luận án đã thử nghiệm hệ thống dịch với công cụ của văn phạm liên
kết là dạng tuyển có chú giải. Kết quả thử nghiệm ban đầu là chấp nhận được cho tập ngữ
liệu nhỏ.
Các đóng góp chính của luận án
Về mặt khoa học
Lần đầu tiên mô hình văn phạm liên kết được xây dựng cho tiếng Việt, một mô hình
kiểu phụ thuộc, rất linh hoạt và có nhiều ứng dụng thực tế. Văn phạm liên kết đã biểu diễn
được một cách linh hoạt rất nhiều hiện tương trong tiếng Việt mà theo hiểu biết của mình
chúng tôi chưa thấy các mô hình khác xử lý.
Bộ phân tích cú pháp tiếng Việt cho một biểu diễn cú pháp rất nhỏ gọn, tạo thuận lợi
cho việc xây dựng ngân hàng phân tích liên kết. Việc phân tích được các câu ghép ở nhiều
dạng khác nhau cho khả năng ứng dụng tốt cho các công việc khác, chẳng hạn như tạo
những bản dịch chất lượng cao.
Cụ thể, luận án đã có những đóng góp sau đây:
133
1. Xây dựng một mô hình liên kết cho tiếng Việt ở mức cú pháp
2. Hoàn thành bộ từ điển liên kết với 40.000 mục từ, hơn 150 công thức và 77 loại kết
nối.
3. Xây dựng thử nghiệm bộ phân tích cú pháp tiếng Việt ở mức câu đơn.
4. Đề xuất giải thuật kiểu Viterbi để khử nhập nhằng thành phần theo mô hình 3-
gram.
5. Cải tiến giải thuật phân tích diễn ngôn ở mức câu kết hợp với phân tích liên kết.
Xây dựng giải thuật phân tích cú pháp cho câu ghép và giải quyết được các vấn đề
sau:
a. Phân tích cú pháp liên kết cho các câu ghép gồm nhiều mệnh đề với nhiều
loại quan hệ diễn ngôn phức tạp.
b. Phát triển việc giải quyết vấn đề nhập nhằng liên hợp: giải quyết nhập
nhằng khi từ “và”, dấu phảy đóng vai trò dấu hiệu diễn ngôn và vai trò liên
từ.
6. Xây dựng mô hình dịch máy tự động Việt - Anh dựa trên dạng tuyển có chú giải.
7. Xây dựng từ điển ADJ Việt - Anh với kích cỡ tương đương như từ điển văn phạm
liên kết.
8. Xây dựng tập luật dịch Việt - Anh với khoảng 300 luật dịch.
9. Xây dựng và thử nghiệm hệ thống dịch máy Việt - Anh dựa trên dạng tuyển có chú
giải. Hệ thống cho kết quả chấp nhận được với tập mẫu câu tiếng Việt cơ bản và
nâng cao.
Đây hoàn toàn là những kết quả mới vì mô hình văn phạm liên kết chưa từng được xây
dựng cho tiếng Việt. Việc phân tích câu ghép nhiều mệnh đề bằng văn phạm liên kết chưa
được giải quyết trên ngôn ngữ nào. Mô hình dịch dựa trên dạng tuyển có chú giải dù đã
được sử dụng dịch Anh – Indonesia nhưng khi ứng dụng cho hệ dịch Việt - Anh đã được
xây dựng hoàn toàn mới, thể hiện những đặc trưng quan trọng của tiếng Việt và khắc phục
được sự khác biệt lớn về cú pháp giữa hai ngôn ngữ.
Về mặt thực tiễn
1. Mô hình văn phạm liên kết xây dựng cách phân tích cú pháp mới cho tiếng Việt.
2. Hệ thống từ điển sẽ hỗ trợ tốt cho những người muốn tiếp cận vấn đề theo mô hình
này.
3. Ngân hàng phân tích liên kết tạo khả năng cho những nghiên cứu theo mô hình liên kết.
134
với cách tiếp cận thống kê.
4. Hỗ trợ việc quảng bá thông tin về du lịch, văn hóa xã hội ra thế giới.
5. Hỗ trợ tốt cho việc giảng dạy tiếng Việt.
6. Kết quả phân tích cú pháp rất dễ hiểu và gần gũi với ý tưởng của người học, đặc biệt là
những người không theo chuyên ngành ngôn ngữ học.
7. Bộ dịch cho chất lượng tốt trên tập mẫu câu nhỏ (Thích hợp với chương trình tiếng
Việt cơ bản và nâng cao).
Hạn chế và hướng phát triển
Bộ phân tích cú pháp đã làm việc khá hiệu quả với lớp câu đơn và câu ghép. Tuy nhiên
luận án chưa mô hình hóa được liên kết trong trường hợp câu phức, khi các mệnh đề có
phần bao trùm lên nhau và giao nhau, ví dụ câu “Cái quạt mà cậu cho tôi hôm qua chạy rất
tốt”. Luận án mới chỉ xử lý được trường hợp mệnh đề trạng ngữ ở đầu câu, chưa phân tích
được với một số trường hợp mệnh đề trạng ngữ ở những vị trí khác.
Sau khi đã có bộ phân tích cú pháp, việc xây dựng cơ sở dữ liệu đa phương tiện các
phân tích liên kết có thể trợ giúp một cách hữu hiệu cho người học tiếng Việt trong việc
tìm hiểu những cấu trúc cú pháp của tiếng Việt.
Bộ ngữ liệu mẫu cũng như ngân hàng phân tích cần được mở rộng hơn để có những
đánh giá chính xác và toàn diện hơn.
Nếu có được ngân hàng câu song ngữ Việt - Anh cũng như bộ từ điển Việt - Anh đầy
đủ hơn, có thể chỉnh sửa từ điển ADJ để khử nhập nhằng nghĩa tốt hơn.
Hệ thống dịch với ADJ hoàn toàn trên luật đã hoạt động khá hiệu quả. Do hạn chế về
thời gian, luận án mới thực hiện dịch trên các câu đơn và câu ghép hai mệnh đề. Với hệ
thống phân tích câu ghép đã có, việc dịch câu ghép nhiều mệnh đề là hoàn toàn khả thi.
Ngoài ra, nếu kết hợp được với một hệ thống dịch thống kê, hệ thống này sẽ tham gia quá
trình tinh chỉnh bản dịch và chắc chắn sẽ cho những bản dịch có chất lượng tốt hơn nhiều.
Luận án đã bước đầu thử nghiệm trên một hệ thống có tính chất tương tự là hệ thống dịch
135
trên nền ví dụ, đạt được kết quả khả quan.
CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ
1. Nguyễn Thị Thu Hương, Lê Văn Chương (2008) Phân tích diễn ngôn cho văn bản
tiếng Việt. Kỷ yếu Hội thảo khoa học quốc gia lần thứ tư về nghiên cứu, phát triển và
2. Nguyen Thi Thu Huong, Pham Nguyen Quang Anh (2011) A Link Grammar for
ứng dụng công nghệ thông tin và truyền thông ICT- rda 8/2008, trang 227-234.
Vietnamese. Journal on Information and Communicationn Technology, 8/2011, pp
27-38.
3. Nguyễn Thị Thu Hương, Nguyễn Thúc Hải, Nguyễn Thanh Thủy (2012) Kết hợp phân
đoạn diễn ngôn với bộ phân tích cú pháp liên kết để phân tích cú pháp câu ghép nhiều
mệnh đề tiếng Việt. Tạp chí Tin học và Điều khiển học, Tập 28, Số 4, 2012, trang 297-
309.
4. Nguyễn Thị Thu Hương, Lê Ngọc Minh (2012) Ứng dụng văn phạm liên kết trong
dịch máy Việt - Anh. Chuyên san Các Công trình Nghiên cứu, Phát triển và Ứng dụng
Công nghệ Thông tin và Truyền thông, tạp chí Công nghệ Thông tin và Truyền thông
136
tập V-1 số 8(28) 12/2012, trang 44 - 56.
TÀI LIỆU THAM KHẢO
TIẾNG VIỆT
[1] Diệp Quang Ban (1989) Ngữ pháp tiếng Việt. NXB Giáo dục.
[2] Nguyễn Tài Cẩn (1996) Ngữ pháp tiếng Việt (Tiếng - Từ ghép - Đoản ngữ). NXB Đại học
quốc gia Hà Nội.
[3] Đinh Điền (2002) Dịch tự động Anh - Việt dựa trên việc học luật chuyển đổi từ ngữ liệu
song ngữ. Luận án Tiến sĩ, ĐHKHTN- ĐHQG TP Hồ Chí Minh.
[4] Đinh Điền (2011) So-sánh trật-tự từ của định-ngữ giữa tiếng Anh và tiếng Việt. Tập san
Khoa học xã hội và nhân văn- Đại học Khoa học Xã hội và Nhân văn Thành phố Hồ Chí
Minh, trang 69-80
[5] Nguyễn Gia Định, Trần Thanh Lương, Lê Viết Mẫn (2004) Một số cải tiến giải thuật
Earley cho việc phân tích cú pháp trong xử lý ngôn ngữ tự nhiên. Tạp chí khoa học Đại
học Huế, số 25/2004, trang 43-52.
[6] Cao Xuân Hạo (2006) Tiếng Việt sơ thảo ngữ pháp chức năng. NXB Khoa học Xã hội.
[7] Phan Xuân Hiếu (2009).JVnTagger, công cụ gán nhãn từ loại dựa trên Conditional
Random Field và Maximum Entropy. Báo cáo SP8.3, Đề tài KC.01.01/06-10
[8] Nguyễn Chí Hòa (2004) Ngữ pháp tiếng Việt thực hành. NXB Đại học quốc gia Hà Nội
[9] Nguyễn Chí Hòa (2005) Các phương tiện liên kết và tổ chức văn bản. NXB Đại học Quốc
gia Hà Nội
[10] Lê Khánh Hùng (2004) Nghiên cứu xây dựng thử nghiệm phần mềm dịch tự động Việt-
Anh. Báo cáo tổng kết đề tài nhánh cấp nhà nước KC-01-03
[11] Lê Khánh Hùng (2003) Một phương pháp dịch máy liên ngữ. Kỷ yếu Hội thảo Khoa học
Quốc gia lần thứ nhất về Nghiên cứu, Phát triển và Ứng dụng CNTT&TT, Hà nội, 2003
[12] Lê Thanh Hương, Phạm Hồng Quang, Nguyễn Thanh Thuỷ (2000) Một cách tiếp cận
trong việc tự động phân tích cú pháp văn bản tiếng Việt. Tạp chí Tin học và Điều khiển
học 4/2000
[13] Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương(2003) Sử dụng bộ gán
nhãn từ vựng QTAG cho văn bản tiếng Việt. Kỷ yếu Hội nghị Quốc gia về Nghiên cứu,
Phát triển và Ứng dụng Công nghệ Thông tin và Truyền thông ICT-rda’03, Hanoi, trang
137
271-280
[14] Đỗ Bá Lâm, Lê Thanh Hương (2008) Xây dựng hệ thống phân tích cú pháp tiếng Việt sử
dụng văn phạm HPSG. Kỷ yếu hội thảo ICT- rda 8/2008, trang 235-242
[15] Hà Thành Lê, Lương Chi Mai, Huỳnh Quyết Thắng, Định Thị Phương Thu (2006) Kết
hợp các phương pháp chọn câu quan trọng xây dựng ứng dụng tóm tắt văn bản tiếng Việt,
Kỷ yếu hội thảo “Một số vấn đề chọn lọc của công nghệ thông tin”, 2006, trang 413-421
[16] Vũ Xuân Lương, Nguyễn Thị Minh Huyền(2009) SP7.2 - Từ điển tiếng Việt dùng cho xử
lý ngôn ngữ tự nhiên (quyển 2)
[17] Nguyễn Lê Minh, Hoàng Thị Điệp, Trần Mạnh Kế (2008) Nghiên cứu luật hiệu chỉnh kết
quả dùng phương pháp MST phân tích cú pháp phụ thuộc tiếng Việt. Kỷ yếu hội thảo ICT-
rda 8/2008 trang 258-267
[18] Nguyễn Thiện Nam (1998) Tiếng Việt nâng cao cho người nước ngoài. NXB Giáo dục
[19] Đỗ Phúc, Hồ Anh Thư (2005) Rút trích và tóm tắt nội dung trang web tiếng Việt. Kỷ yếu
hội thảo khoa học quốc gia lần thứ hai “Nghiên cứu cơ bản và ứng dụng công nghệ thông
tin” - TP Hồ Chí Minh, 2005, trang 317-328
[20] Lê Hồng Phương, Nguyễn Thị Minh Huyền, Nguyễn Phương Thái, Phan Thị Hà (2010)
Trích rút tự động văn phạm LTAG cho tiếng Việt. Tạp chí Tin học và Điều khiển số
2/2010.
[21] Stankevich N.V. (1982) Các loại hình ngôn ngữ. NXB Đại học và Trung học chuyên
nghiệp,
[22] Nguyễn Quốc Thế, Lê Thanh Hương (2007) Phân tích cú pháp tiếng Việt sử dụng văn
phạm phi ngữ cảnh từ vựng hóa kết hợp xác suất. Kỷ yếu hội thảo FAIR, Nha Trang, Việt
nam, 9-10/8/2007
[23] Trần Ngọc Thêm (1999) Hệ thống liên kết văn bản tiếng Việt. NXB Giáo dục
[24] Cao Hoàng Trụ (2002) Ứng dụng ngữ liệu song ngữ Anh-Việt điện tử trong ngành ngôn
ngữ học so sánh. Tạp chí Ngôn ngữ, 2002(3), tr. 49-58
[25] Cao Hoàng Trụ (2005) Xây dựng và khai thác kho ngữ liệu song ngữ Anh-Việt điện tử.
Luận án tiến sĩ ngôn ngữ học so sánh, ĐH Khoa học Xã hội & Nhân văn – ĐHQG TP
HCM.
[26] Trần Ngọc Tuấn, Phan Thị Tươi (2006) Phân tích cụm danh từ tiếng Việt sử dụng văn
phạm hợp nhất. Tạp chí Bưu chính viễn thông và Công nghệ thông tin.
[27] Phan Thị Tươi (2002) Cải tiến một số giải thuật phân tích cú pháp trong xử lý ngôn ngữ
138
tự nhiên. Tạp chí Tin học và Điều khiến học, 3/2002.
[28] Ủy ban Khoa học xã hội Viêt Nam (1983) Ngữ pháp tiếng Việt. NXB Khoa học xã hội
Hà Nội.
TIẾNG ANH
[29] T.B. Adji, B. Baharudin, N. Zamin (2007) Annotated Disjunct in Link Grammar for
Machine Translation. International Conference on Intelligent and Advanced Systems 2007,
pp 205-208.
[30] T.B. Adji, B, Baharudin, N. Zamin (2007) Building Transfer Rules using Annotated
Disjunct: An Approach for Machine Translation, The 8th Student Conference on Research
and Development, December 2007, Malaysia.
[31] J.W. Amtrup, K. Mergerdoomian, R. Zajac (1999) Rapid Development of Translation
Tool. Proceedings of Machine Translation Summit, 1999, p 385-389.
[32] H. T. Bao, S. Kawasaki , N. N. Binh (2002) Cluster-based Information Retrieval with a
Tolerance Rough Set Model. International Journal of Fuzzy Logic and Intelligent Systems,
Vol. 2, No. 1, pp. 26-32, 2002.
[33] H. T. Bao, N. N. Binh (2002) Nonhierarchical Document Clustering by a Tolerance
Rough Set Model. International Journal of Intelligent Systems, John Wiley & Sons, Vol.
17, No. 2, pp. 199-212, 2002.
[34] D. Béchet (2003) k-Valued Link Grammars are Learnable from Strings. Proceedings of
Formal Grammar, Vienna, Austria, pp. 9-18.
[35] A. Bharati, D. M. Sharma, Sukhada (2009) Adapting Link Grammar Parser (LGP) to
Paninian Framework Mapping of Parser Relations for Indian Languages. National
Seminar on Computer Science and its Applications in Traditional Shastras (CSATS'09).
[36] N. T. Bon, N. T. M. Huyen, R. Laurent, V. X. Luong (2004) Developing tools and
building linguistic resources for Vietnamese morpho-syntactic processing. Proceedings of
the 4th International Conference on Language Ressources and Evaluation (LREC04),
Lisbon.
[37] N. T. Bon, N. T. M. Huyen, R. Laurent, V. X. Luong (2004) Lexical descriptions for
Vietnamese language processing. Proceedings of the Asian Language Resources
Workshop (ALR-04), IJC-NLP 2004, Hainan, China.
139
[38] Harry Bunt, Paola Melo, Joakim Nivre (2010) Trends in Parsing Technology. Springer.
[39] Marie Candito , Benoît Crabbé, Pascal Denis (2010) Statistical French dependency
parsing: treebank conversion and first results. Seventh International Conference on
Language Resources and Evaluation - LREC 2010, La Valletta, Malta.
[40] Marie Candito, Joakim Nivre, Pascal Denis, Enrique Henestroza Anguiano (2009)
Benchmarking of Statistical Dependency Parsers for French. NODALIDA 2009
Conference Proceedings, pp. 166–173.
[41] E.Charniak (1997) Statistical parsing with a context - free grammar and word statistics.
Proceeding of AAAI, 1997.
[42] Yuchang Cheng, Masayuki Asahara, Yuji Matsumoto (2007) Temporal Relation
Identification Using Dependency Parsed Tree. Proceedings of the 4th International
Workshop on Sementic Evaluations (SemEval-2007), pp. 245-248.
[43] M. Collins (2003). Head-Driven Statistical Models for Natural Language Parsing.
Computational Linguistics Vol 29(4), pp 589-637.
[44] M. A. Covington (2001) A Fundamental Algorithm for Dependency Parsing. In
Proceedings of the 39th Annual ACM Southeast Conference, pp. 95-102.
[45] L. A. Cuong, H. V. Nam, A. Shimazu (2005) An Evidential Reasoning Approach to
Weighted Combination of Classifiers for Word Sense Disambiguation. International
Conference on Machine Learning and Data Mining in Pattern Recognition, MLDM 2005,
Leipzig, Germany, pp. 516-525.
[46] L. A. Cuong, H. V. Nam, A. Shimazu (2005) Combining Classifiers with Multi-
representation of Context in Word Sense Disambiguation, 9th Pacific-Asia Conference,
PAKDD, Hanoi, Vietnam, May 18-20, pp. 262-268.
[47] Dien D. Building an Annotated English-Vietnamese parallel corpus. MKS (Mon-Khmer
Studies): A Journal of Southeast Asian Linguistics and Languages, Vol.35 pp. 21-36.
[48] Dien D.(2002) Building a training corpus for Word Sense Disambiguation in the
English-to-Vietnamese Machine Translation. Proceedings of Workshop on Machine
Translation in Asia, COLING-02, Taiwan, 9/2002, pp.26-32.
[49] Yuan Ding, Martha Palmer (2005)Machine Translation using Probabilistic Synchronuos
Dependency Insertion Grammars. Proceedings of the 43rd Annual Meeting of the ACL,
Ann Arbor, June 2005, pp 541-548.
[50] Jing Ding, Daniel Berleant, Jun Xu, & Andy W. Fulmer. 2003. Extracting Biochemical
Interactions from MEDLINE Using a Link Grammar Parser. 15th IEEE International
140
Conference on Tools with Artificial Intelligence (ICTAI'03).
[51] George Doddington (2002) Automatic Evaluation of Machine Translation Quality Using
N-gram Co-Occurrence Statistics Proceedings of the Second International Conference on
Human Language Technology Research, pp138-145.
[52] P. Dumrong, J. Gould, G. Lee, L. Nicholson, K. Gao, P.Beling (2003) The Quantification
of Unstructured Information and its Use in Predictive Modeling. Proceedings of the 2003
Systems and Information Engineering Design Symposium.
[53] D. Rajesh Duthie & Rajendra Akerkar (2002) Knowledge Representation in KRIS Using
Link Grammar Parser.
[54] E. Fong and D. Wu (1995) Learning Restricted Probabilistic Link Grammars. IJCAII
Workshop on New Approaches to Learning for Natural Language Processing, August,
1995, Montreal, Canada, pp 49-56.
[55] Heidi J. Fox (2002) Phrasal Cohesion and Statistical Machine Translation. Proceedings
of the Conference on Empirical Methods in Natural Language Processing (EMNLP),
Philadelphia, July 2002, pp 304-311.
[56] V.Fromkin , R.Rodman, N.Hayams, (2010) An Introduction to Language (9th ed.).
Boston, MA: Thomson Wadsworth.
[57] H.Gaifman (1965) Dependency systems and phrase-structure systems. Informationand
Control 8(3).
[58] Filip Ginter, Sampo Pyysalo, Jorma Boberg, Tapio Salakoski (2006) Regular
Approximation of Link Grammar. FinTAL 2006, LNAI 4139, pp. 564–575.
[59] Dennis Grinberg, John Lafferty, Daniel Sleator (1995) A Robust Parsing Algorithm for
Link Grammars. CMU-CS, pp 95-125, August 1995.
[60] L. A. Ha.(2003) A Method for Word Segmentation in Vietnamese. In Proceedings of the
International Conferenceon Corpus Linguistics, Lancaster, UK.
[61] J¨org Hakenberg, Ill´es Solt, Domonkos Tikk, Luis Tari,Astrid Rheinl¨ander, Quang
Long Nguyen, Graciela Gonzalez, and Ulf Leser (2009) Molecular event extraction from
Link Grammar parse trees. Proceedings of the Workshop on Current Trends in Biomedical
Natural Language Processing: Shared Task, pp 86-94.
[62] D.G.Hays (1964) Dependency Grammar: A Formalism and some Observation Rand.
[63] L. M. Hoang, H. T. Bao, N. Yoshiteru (2005) Detecting Emerging Trends from Scientific
Corpora. International Journal of Knowledge and Systems Science, Vol. 2, No. 2, 2005,
141
pp. 53-59.
[64] J. E. Hopcroft, R.Motwani, J. D. Ullmann (2001) Introduction to Automata Theory,
Languages and Computation. Addison Wesley.
[65] R. Hudson (2010) Introduction to Word Grammar. Cambridge University Press.
[66] Le Thanh Huong (2004) Automatic Discourse Structure Generation Using Rhetorical
Structure Theory. Ph.D. dissertation, Middlesex University, U.K.
[67] Iyer R., Ostendorf. Modelling Long Distance Dependency in Language: topic mixture
and Dynamic Case Model, Speech and Audio Processing, IEEE Transactions on, Jan.1999,
pp. 30-39.
[68] Ozlem Istek (2006) A Link Grammar for Turkish. MSc.Thesis.
[69] A. K. Joshi, Y.Schabes (1990) Parsing with Tree Adjoining grammars. In “Current
Issues in Parsing Technologies”, Kluwer Accademic Publishers.
[70] D. Jurafsky, J. H. Martin (2009) Speech and Language Processing: An Introduction to
Natural Language Processing, Speech Recognition, and Computational Linguistics. 2nd
edition. Prentice-Hall.
[71] Kadambini K, Rama Sree R.J., Rama Krishnamacharyulu K.V. (2008) An English-
Sanskrit Machine Translation Using Link Parser.In Proceedings of National Seminar,
Tirupati, 2008.
[72] M.Kamayani, A. Purwarianti (2011) Dependency parsing for Indonesian, proceeding of
ICEEI, Bangdung,2011.
[73] P. H. Khanh (2000) Good Spelling of Vietnamese Texts, one aspect of CL in Vietnam.
Proceeding of ACL-2000, 38th Conference, HongKong, pp. 593-594.
[74] Sang-Soo Kim, Seong-Bae Park, and Sang-Jo Lee (2007) Resolving Dependency
Ambiguity ofSubordinate Clauses using Support Vector Machines. World Academy of
Science, Engineering and Technology 25/ 2007.
[75] S.Kübler, R.McDonald, J. Nivre (2009) Dependency Parsing, Morgan & Claypool.
[76] Sandra Kubler. Learning a Lexicalized Grammar for German. In D.M.W. Powers (ed.)
NemLaP3/CoNLL98: New Methods in Language Processing and Computational Natural
Language Learning, ACL, pp 11-18.
[77] M.Kuhlmann (2010) Depependency Structures and Lexicalized Grammar. An Algebraic
Approach. Springer.
[78] So Young Kwon (2006) KORPAR: A Rule Based Dependency Parser for Korean
142
implemented in PROLOG, Phd. thesis.
[79] John Lafferty, Daniel Sleator, Davy Temperley. Grammatical Trigrams: A Probabilistic
Model of Link Grammar. AAAI Technical Report FS-92-04, 1992.
[80] John Lafferty, Andrew McCallum, Fernando Pereira (2001) Conditional Random Fields:
Probabilistic Models for Segmenting and Labeling Sequence Data. ICML '01 Proceedings
of the Eighteenth International Conference on Machine Learning , pp 282 - 289.
[81] K.Lari, S. J. Young (1990) The estimation of Stochastic Context Free Grammar Using
the Inside-Outside Algorithm. Computer Speech and Language No 4,1990, pp 35-56.
[82] Jianming Li, Lei Zhang and Yong Yu. (2001) Learning to Generate Semantic Annotation
for Domain Specific Sentences. Workshop on Knowledge Markup and Semantic
Annotation at the 1st International Conference on Knowledge Capture (K-CAP 2001) ,
October, 2001, Victoria, B.C., Canada.
[83] Chin-Yew Lin, Franz Josef Och (2004) Automatic Evaluation of Machine Translation
Quality Using Longest Common Subsequence and Skip-Bigram Statistics.Proceedings ò the
42nd Annual Metting on Asociation for Computational Linguistics (ACL 04), Stroudsburg,
PA, USA.
[84] Harsha V. Madhyastha, N. Balakrishnan, & K. R. Ramakrishnan (2003) Event
Information Extraction Using Link Grammar. 13th International WorkShop on Research
Issues in Data Engineering: Multi-lingual Information Management (RIDE'03).
[85] Erlyn Maguilimotan, Yuji Matsumoto (2011) Dependency-based Analysis for Tagalog
Sentences. Proceedings of the 25th Pacific Asia Conference on Language, Information and
Computation,Singapore 2011, pp 343-352.
[86] William Mann, Sandra Thompson (1988) Rhetorical Structure Theory. Toward a
Functional Theory of Text Organization. Text, 8(3): 243-281.
[87] C.D.Manning, H.Schűtze (1999) Foundation of Statistical Natural Language Processing.
The MIT Press.
[88] Daniel Marcu (2000) The Theory and Practice of Discourse Parsing and Summarization.
Cambridge, MA: The MIT Press.
[89] Daniel Marcu (1997) The Rhetorical Parsing, Summarization and Generation of Natural
Language Texts. PhD Thesis, University of Toronto (1997).
[90] I. Marshall, E. Safar (2001) Extraction of Semantic Representations from Syntactic CMU
Link Grammar linkages. Recent Advances in Natural Language Processing (RANLP),
143
Tzigov Chark Bulgaria, Sept 2001, pp.154-159.
[91] Yuji Matsumoto, Takashi Miyata, Tadashi Nomoto, Takenobu Tokunaga, Makoto
Takeda, Masaharu Obayashi (2000) Document Analysis and Summarization Workbench.
38th Annual Meeting of the Association for Computational Linguistics, Demonstration
Notes, pp. 22-23.
[92] I.Mel’čuk(1988) Dependency Syntax: Theory and Practice. State University of New
York Press.
[93] N.L. Minh, N. P. Thai, L. A. Cuong, N. V. Vinh, P.H. Nguyen, H. S. Dam (2003) LVT:
An English-Vietnamese Machine Translation System. Hội nghị quốc gia lần thứ nhất về
Nghiên cứu Cơ bản và Ứng dụng trong Công nghệ Thông tin FAIR’03, Hanoi, 10.2003.
[94] D. Molla , B. Hutchinson (2003) Intrinsic versus Extrinsic Evaluations of Parsing
Systems, Proceedings of EACL Workshop on Evaluation Initiatives in Natural Language
Processing.
[95] D. Molla, R. Schwitter, M. Hess, & R. Fournier (2002) ExtrAns, an Answer Extraction
System. T.A.L., special issue on Information Retrieval oriented Natural Language
Processing, pp. 495-522.
[96] Erwan Moreau (2004) Partial Learning Using Link Grammars Data. In Proceedings of
ICGI 2004, pp 211-222.
[97] Yuichi Nakamura, Takeo Kanade. 1997. Semantic Analysis for Video Contents
Extraction: Spotting by Association in News Video. Proceedings of the Fifth ACM
International Conference on Multimedia, 393-401.
[98] Joakim Nivre, Igor M. Boguslavsky, Leonid L. Iomdin(2008) Parsing the SynTagRus
treebank of Russian. Proceedings of the 22nd International Conference on Computational
Linguistics – (COLING '08) Volume 1, pp. 641-648.
[99] Tomohiro Ohno, Shigeki Matsubara, Hideki Kashioka, Takehiko Maruyama, Hideki
Tanaka, 2006, Dependency Parsing of Japanese Monologue Using Clause Boundaries.
Languages Resources and Evaluation, Springer.
[100] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu (2002) BLEU: a
Method for Automatic Evaluation of Machine Translation. Proceedings of the 40th Annual
Meeting of the Association for Computational Linguistics (ACL), Philadelphia, July 2002,
pp. 311-318.
[101] L. H. Phuong, N.T.M.Huyen, A. Roussanaly, L. Romary (2006) A Lexicalized Tree
Adjoining Grammar for Vietnamese. Proceedings of the 5th International Conference on
144
Language Resources and Evaluation, Genoa, Italia, 2006.
[102] L. H. Phuong , N.T.M.Huyen ,A. Roussanaly , H. T. Vinh (2008) A hybrid approach to
word segmentation of Vietnamese texts. Proceedings of the 2nd International Conference
on Language and Automata Theory and Applications, LATA 2008, Springer LNCS 5196,
Tarra pp. 240-249.
[103] M.Pickering , G.Barry (1993) Dependency Categorical Grammar and Coordination,
Linguistics 31, pp. 855-902.
[104] C. J.Pollard, , I. A.Sag (1994) Head-driven phrase structure grammar, University of
Chicago Press.
[105] Sampo Pyysalo, Filip Ginter, Tapio Pahikkala,Jorma Boberg, Jouni JÄarvinen, Tapio
Salakoski (2004) Analysis of Link Grammar on Biomedical Dependency Corpus Targeted
at Protein-Protein Interactions. In Proceedings of the international Workshop on Natural
Language Processing in Biomedicine and its Applications, pp. 15-21.
[106] Fabio Rinaldi, Michael Hess, Diego Molla, Rolf Schwitter, James Dowdall, Gerold
Schneider, and Rachel Fournier (2002) Answer Extraction in Technical Domains.
CICLing-2002, Mexico City, February, 2002, pp. 17-23.
[107] I. A. Sag (1982) Coordination, Extraction, and Generalized Phrase Structure Grammar
Linguistic Inquiry The MIT Press.
[108] D.Sakhare, Raikumar (2011) Dependency Grammar Feature Based Noun Phrase
Extraction for Text Summarization International. Journal of Computer Trends and
Technology- volume2, Issue1- 2011, pp. 64-67.
[109] Gerold Schneider (1998) A Linguistic Comparison of Constituency, Dependency and
Link Grammar.MSc Thesis, University of Zurich, July, 1998.
[110] R. A. Abul Seoud, N. H. Solouma, A.M. Youssef, Y. M. Kadah (2006) Extraction of
Protein Interaction Information from Unstructured Text Using a Link Grammar Parser.
Proceeding of Cairo International Biomedical Engineering conference 2006, pp. 70-75.
[111] Daniel D.K. Sleator, Davy Temperley (1991) Parsing English with Link Grammar.
CMU-CS, pp. 91-196, October 1991.
[112] B. Srinivas, D. Egedi, C. Doran ,T. Becker (1994) Lexicalization and Grammar
Development. Proceedings of KONVENS ’94, Vienna, Austria, September 1994, pp. 310-
319.
[113] P.Szolovits (2003) Adding a Medical Lexicon to an English Parser. Proceeedings of
145
AMIA 2003 Annual Symposium, pp. 639-643.
[114] D.Temperley (2005) The Dependency Structure of Coordinate Phrase: A Corpus
Approach. Journal of Psycholinguistic Research,Vol 34, No. 6, November 2005, pp 577-
601.
[115] Nguyen Phuong Thai, Akira Shimazu (2006) Improving Phrase-Based SMTwith
Morpho-Syntactic Analysis and Transformation, Proceedings of the 7th Conference of the
Association for Machine Translation in the Americas, p 138-147, Cambridge, 8/ 2006.
[116] D. Q. Thang, L. H. Phuong, N.T. M. Huyen ,N. C. Tu , M. Rossignol, V. X. Luong
(2008) Word segmentation of Vietnamese texts: a comparison of approaches. Proceedings
of the 6th Language Resources and Evaluation Conference LREC 2008, Marrakech
(Morocco), 2008.
[117] Q.T.Tho, S.C. Hui, A.C.M.Fong, C. H. Tru (2006) Automatic Fuzzy Ontology
Generation for Semantic Web. IEEE Transactions on Knowledge and Data Engineering, pp
842 – 856.
[118] Lai Bong Yeung Tom, Changning Huang (1994). Dependency grammar and the
parsing of Chinese sentences. Proceedings of the 1994 Joint Conference of 8th ACLIC and
2nd PaFoCol.
[119] Shisanu Tongchim, Randolf Altemeyer,Virach Sornlerlamvanich, Hitoshi Isahara
(2008) A Dependency Parser for Thai. Proceedings of the 6th Language Resources and
Evaluation Conference LREC 2008, Marrakech (Morocco), 2008, pp 136-139.
[120] C. H. Tru (2002) A Formalism for Representing and Reasoning with Linguistic
Information. International Journal of Uncertainty, Fuzziness and Knowledge-Based
Systems, 10 (3), pp. 281-307.
[121] Cam-Tu Nguyen, Trung-Kien Nguyen, Xuan-Hieu Phan, Le-Minh Nguyen, Quang-
Thuy Ha (2006) Vietnamese Word Segmentation with CRFs and SVMs: An Investigation.
Proceedings of PACLIC20, Wuhan, China, Nov.2006, pp. 215-222.
[122] T.N. Tuan, P. T. Tuoi (2004) Unification grammar in a semantic approach for
Vietnamese compound noun parsing. In Proceedings of the Asian Fuzzy Systems Society
Conference, December 15-17, 2004, Ha Noi, Vietnam, pp. 17-20.
[123] T.N. Tuan, P.T. Tuoi (2004) Featured Grammar in Vietnamese Language Processing.
Kỷ yếu Hội nghị Quốc gia về Nghiên cứu, Phát triển và Ứng dụng Công nghệ Thông tin và
146
Truyền thông ICT.rda ’04, 17-18/9/ 2004, Hà Nội.
[124] Tran Ngoc Tuan, Phan Thi Tuoi (2006) Syntax-based SMT Model in Adaption to
Vietnamese-English Translation. Poster of the 4th International Conference on Computing
and Communication Technologies (RIVF).
[125] Takehito Utsuro, Shigeyuki Nishiokayama, Masakazu Fujio, Yuji Matsumoto (2000)
Analyzing Dependencies of Japanese Surbodinate Clauses based on Statistics of Scope
Embedding Preference. Proc. 1st NAACL, pp 110-117.
[126] Peter Venable (2001) Lynx:Building a Statistical Parser from a Rule-Based Parser. In
Proceedings of the NAACL.
[127] Peter Venable (2004) Modeling Syntax for Parsing and Translation. PhD Dissertation,
Carnegie-Mellon University.
[128] Ying-HongWang, Chih-HaoLin (2004) A Multimedia Database Supports English
Distance Learning. Information Sciences-Informatics and Computer Science, pp.189-208.
[129] N. Zamin (2009) Information Extraction Using Link Grammar, csie, vol. 5, 2009
pp.149-153, WRI World Congress on Computer Science and Information Engineering
[130] N. Zamin and B., Baharudin and T.B., Adji (2008) Applying link grammar formalism in
the development of English-Indonesian machine translation system. Proceedings of the 9th
AISC International Conference, the 15th Calculemas Symposium, and the 7th International
MKM Conference on Intelligent Computer Mathematics, pp. 17-23.
[131] Lei Zhang and Yong Yu. (2001) Learning to Generate CGs from Domain Specific
Sentences. In The Proceedings of the 9th International Conference on Conceptual
Structures, LNAI 2120, July 30-August 3, 2001, Stanford, CA, USA, pp 44-57.
TIẾNG NGA
[132] Сергей Протасов (2005) Преимущества грамматики связей для Русского языка.
Международная конференция “диалог 2005”.
CÁC WEBSITE
[133] http://www.fen.bilkent.edu.tr/~aykutlu/ceviri
[134] http://statmt.ru
[135] http://www.link.cs.cmu.edu/link/trans-explanation.html
[136] http://corpus.byu.edu/coca/
147
[137] http://www.abisource.com/projects/link-grammar/
PHỤ LỤC
PHỤ LỤC 1: CHI TIẾT CÁC CÔNG THỨC CHỦ YẾU
TRONG LIÊN KẾT TIẾNG VIỆT
Trong phụ lục chúng tôi giải thích kèm theo ví dụ các liên kết quan trọng trong
tiếng Việt. Việc phân chia từ thành tiểu loại dựa theo [16]. Để phân chia nhỏ hơn,
thành các tiểu tiểu loại, luận án tham khảo cách chia trong [16], đồng thời thêm vào
nhiều tiểu tiểu loại xuất phát từ nhu cầu phân tích liên kết và dịch máy với dạng
tuyển có chú giải. Liên kết của một số loại từ đơn giản như định từ, giới từ đã trình
bày chi tiết trong luận án sẽ không được nhắc lại trong phụ lục này.
148
Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết
1.Tên người Danh từ riêng Tên người: Giáng Kiều SA+ Mai đẹp
nàng Giáng Kiều, chú Cuội, đức Phật Proper Noun (Np) Tên nhân vật siêu nhiên: NcN1-
Cuội, Phật,... Nguyễn Du viết SV+
tặng Mai IO-
2. Tên tổ chức Mặt trận Tổ quốc Việt NpEp- ở Trường Đại học Bách khoa
Nam, Trường Đại học NNp- cơ quan Mặt trận Tổ quốc Việt Nam
Bách khoa... Trường Đại học Bách khoa đạt (thành SV+
tích)
tặng trường Đại học Bách khoa (sách) IO-
ở Cổ Loa Cổ Loa, Việt Nam, Hỏa EpN 3. Tên địa danh, thiên
thể trên Hỏa Tinh Tinh SV+
Việt Nam là (đất nước anh hùng) DT_LA+
nhân dân Việt Nam NNp
4. Tên sự kiện Cách mạng tháng Tám, NcN6- cuộc Cách mạng tháng Tám
Cách mạng tháng Mười EsN trước Cách mạng tháng Mười
sự kiện Cách mạng tháng Tám NNp
Cách mạng tháng Tám thành công SV+
149
5. Tên tác phẩm Truyện Kiều, Kinh NcN4- quyển Kinh Thánh,cuốn Truyện Kiều
Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết
Thánh Cách mạng Tháng tám thành công SV+
6. Tên động vật con Nhân Sư Nhân Sư, Xích Thố NcN2-
Xích Thố ăn (cỏ) SV+
Nhân Sư là (nhân vật huyền thoại) DT_LA+
(ngựa) Bạch Long (rất) hay SA+
tượng Nhân Sư SH-
Nhân Sư Ai Cập SH+
ngựa Xích Thố NNp-
7. Tên đồ vật Lada, Granit, Penicillin {PqN-} & {DpN-}& NcN4- tất cả những chiếc Lada, những chiếc
Lada, chiếc Lada
xe Lada, thuốc Penicillin NNp-
NcN4- & NPd+ chiếc Lada ấy
(chiếc) Lada chạy (chầm chậm) SV+
xeLada NuNp-
1. Người bố cô giáo, chữ bác sĩ Danh từ cụ thể ông, bà, nam, nữ, nô tì, SH+, SH-
toàn bộ các em học sinh, toàn bộ các học Concrete Noun phi công {PqNt-} & {DpNt- or McNc-
nhân vật siêu nhiên: phù }&{NcN4-}& {NPd+} sinh, nhứng học sinh, tất cả học sinh, tất (Nt)
150
thủy, ma, thần linh cả ba em học sinh ấy
Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết
công nhân nhà máy NN+
công nhân vận hánh (máy) SV+
(người) công nhân chăm chỉ SA+
công nhân Việt nam NtNp+
(tôi ) tặng em bé (sách) IO-
2. Động vật NtNp+ chuột Mickey thú: chó, mèo, cá voi
chim: gà, bồ câu {PqN-} & {DpNt- or McNt- tất cả những con mèo, tất cả những con
}& NcN2- & {NtPd+} mèo ấy cá: trắm, mè, thu
tai thỏ, sừng trâu SH- lưỡng cư: ếch, nhái
SV+ gà chạy bò sát: rắn, thằn lằn
mèo con NtAp+ côn trùng: kiến, gián
(lâu đài) của rồng EoNt+ thân mềm: ngao, bào ngư
giáp xác: tôm, cua, ghẹ
động vật hư cấu: rồng, ma
gà
vi sinh vật: virus, vi
khuẩn, vi trùng
3. Thực vật cây thân gỗ: lim, đa {NcN3-}& {DpN-} (những) bông lúa
151
cây bụi: cúc tần, duối SV+ rau cải được trồng
Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết
lúa xanh mướt cây thân leo: tơ hồng NtAp+
yến cải bẹ cây thân cỏ: lau, cói NuN-
rau bí, dây tơ hồng, quả chuối, giàn bầu rau, củ: cải bẹ, bầu, bí NtNt
cải bẹ là... . DT_LA+
O- mua cải cúc
(hai) cân đậu hạt : đậu, lạc, vừng NuNt4- 4. Lương thực, thực
phẩm nói chung quả đậu, củ sắn, cây vừng lương thực: thóc lúa, ngô, NtNt
gạo là lương thực khoai ... DT_LA+
mua ngô O-
SA+ mùa này, lúa thật xanh tốt
5. Đồ dùng, vật dụng vật dụng gia đình:bàn, NcN4-& {DpN-}&{PqNt-} tất cả những cái bàn ấy
ghế, ba lô, đồng hồ, điện &{ NtPd+}
thoại CH+ bàn gỗ
NtEm- bàn bằng (gỗ)
SV+ chiếc bàn gỗ thật chắc chắn.
O- sản xuất
EsNt trên bàn
152
dụng cụ thiết bị: búa, {PqNt-}&{McNt-}&{NcNt-} một cái búa, một búa, một cái búa,tất cả
Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết
kìm, cày, bừa, cuốc, McNt- ba (cái) kìm
trên đe dưới búa xẻng... EsNt-
búa đóng đinh SV+
xẻng to NtAp +
tất cả những cái vòi nước ấy phụ tùng, phụ kiện: van, NcN4-& {DpN-}&{PqNt-}
vòi nước, lò xo &{ NtPd+}
giường lò xo NN+ or NN-
hai chiếc xích McNt- & NcN4-
O- mua lò xo
con búp bê,quả bóng bay đồ chơi: búp bê, bóng bay NcNt
búp bê nhỏ SA+
búp bê đi chơi SV+
máy móc: máy nổ, máy máy bơm khỏe SA+
bơm NcN4- & {DpN-}&{PqNt-} toàn bộ hai mươi chiếc máy bơm ấy
&{ NtPd+}
153
sản xuất máy bơm O-
Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết
nhạc cụ: đàn, sáo, trống, NuNt chiếc đàn, cây sáo,cây đàn
trống Paranưng, đàn Piano kèn NtNp
đàn trở thành (nguồn vui) SV+
cây đàn kỳ diệu SA+
đập vỡ cây đàn, làm trống, yêu thích đàn O-
tiếng đàn, SH-
NuNt- & SH+ cây đàn sinh viên
trang phục: quần áo, giày {McNu}& NuNt hai bộ quần áo
dép O- sắm sửa quần áo
trang sức: nhẫn, vòng, NuNt- chiếc nhẫn
NN+ or NN- nhẫn kim cương, hộp nhẫn
DT_LA+ nhẫn là (đồ nữ trang)
O- bán nhẫn
đống rơm, bó rạ vật dụng khác: củi, đóm, NaNt-
củi cháy điếu, rơm rạ SV+
6. Chất phấn gây dị ứng mĩ phẩm: son, phấn, SV+
154
xoa phấn O-
Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết
cao hổ cốt là (thuốc bổ) thuốc men: ký ninh, cao DT_LA+
mua ký ninh hổ cốt O-
NtVu+ thuốc an thai
{PqNt-} & {DpN-}& NcN4- toàn bộ những lọ cao hổ cốt
&{ NtPd+}
chất gây nghiện: thuốc DT_LA+ thuốc phiện là (chất gây nghiện)
phiện, bạch phiến,… ma túy (rất) độc hại SA+
nguyên vật liệu: lụa, xi áo lụa, nền xi măng, bàn gỗ CH-
măng, mực EmNt+
chất rắn: gỗ, đá, sắt, ... . CH- bàn gỗ
bằng gỗ EmNt+
chất lỏng: bia, cồn, dầu {McNt- & NuN-} (bốn) lít bia
hỏa, dầu ăn
chất khí: gas, hydro, oxy NuN- (10) kg gas, (hai) bình gas
chất thải: phân, rác rưởi. . NN thùng phân
7. Tác phẩm tranh, ảnh, tác phẩm, vở NtAp tác phẩm nổi tiếng
kịch vở kịch được công diễn
155
vở kịch thành công
Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết
8. Cấu kiện xây dựng bê tông, thanh dầm, xà. . SH+ xà nhà
O trộn bê tông
9. Công trình xây dựng cầu, đường, quảng SH- dầm cầu
trường, nhà hát
máy bay, ô tô SH- lốp ô tô
10. Phương tiện giao
thông
Vũ khí máy bay tiêm kích, khu SH- xích xe tăng
trục, xe tăng
Vật nói chung thanh, que, xiên CH+ thanh tre
Bộ phận cơ thể người SH+ Tay em bé
cơ thể động vật
bộ phận thực vật
bộ phận của vật
bộ phận tác phẩm
Vũ trụ: sao, hành tinh NtNp Sao Kim
NtAp bão mạnh Hiện tượng tự nhiên:
bão, mưa, sấm NtAo sấm chớp àm ầm
SV+ bão đến
156
Nc5Nt cơn bão
Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết
Đất đai: ruộng, vườn, ngoài ruộng EpNt- đồi ruộng là tài sản DT_LA+
vườn rộng SA+
thửa ruộng, mảnh vườn NcNt
Vùng có nước: sông, hồ dưới sông EpNt-
sông là . . . DT_LA+
sông rộng SA+
lên thiên đàng Nơi tưởng tượng: thiên EpNt
ở địa ngục đầng, địa ngục...
địa ngục trần gian NN
chuyện nhà cửa Danh từ tổng thể Chỉ những vật khác nhà cửa, thầy trò, chim NtNg
săn băt chim muông General Noun nhau về loại nhưng muông, nhân dân, quân O-
nhân dân (Ng) thường đi kèm với nhau đội ... SV+
nhân dân Việt Nam thành một tập hợp hoàn NgNp+
chỉnh mang ý nghĩa
khái quát
Danh từ trừu Khái niệm, thuật ngữ, Khái niệm được khái SHA+ tư tưởng Hồ Chí Minh
157
tượng chuyên ngành quát hóa trong tư duy: NaNa khoa học vật lý
Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết
Abstract Noun tật, tư tưởng, khoa học, NaNc sự kiện Cách mạng Tháng tám
(Na) cuộc sống, sự kiện
chưc vụ: bí thư, thủ NaNu+ chủ tịch phường
tướng, chủ tịch. .
tiếng đàn âm thanh: tiếng, giọng SHA+
bệnh tật: lao, ung thư DT_LA+ lao là bệnh truyền nhiễm
bệnh lao {NaNa+}
chơi cờ trò chơi: cờ, cờ vua O-
DT_LA- cờ là trò chơi hấp dẫn
Đơn vị sự vật tồn tại Danh từ chỉ loại người: người, tên, chú, NcN1+ thằng trộm
thành từng loại đơn lẻ Classified Noun thằng, đứa, đức . . hai con (ngựa McNc-
(Nc) con gà NcN2+ động vật: con, cái. .
bông hồng thực vật: bông, đóa, hạt. . NcNt3+
quyển sách vật: cái,con, tòa, căn, NcNt4+
cuốn, quyển...
hiện tượng: tiếng, tia, NcNt5+ tia chớp, mũi dao, tia hy vọng
dòng, mũi
158
khái niệm: cuộc, sự, nỗi , NcNt6+ cuộc Cách mạng Tháng tám
Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết
niềm... NcVs nỗi buồn
NcAp niềm vui
thứ NcMc+ thứ năm
NcNt+ bầy chim, tốp công nhân bầy ,đàn, toán, tốp, Đơn vị sự vật cùng loại
buồng(cau) tồn tại thành một tập
cột(khói), bộ, chồng, hợp
nắm, ngụm ...
Đo lường khoa học kg, ha, cân,ram... McNu-&{NuNt4} hai kg thóc
chính xác
Đo lường dân gian ca, thùng, đấu, bơ, xe McNu-&NuNt4+ ba cân bí
Thời gian bầy, đàn McN- ba ngày
Tiền tệ hào, đồng, xu, đô la McN- ba hào, hai đô la Danh từ chỉ đơn vị Hành chính, tổ chức làng, phường, huyện, NaNu- chủ tịch phường Unit Noun (Nu) quận, tỉnh, thành phố, xí NtNu- công nhân nhà máy
nghiệp, câu lạc bộ SV+ phường đã xây dựng
đóng góp cho phường
phiên họp, cú đấm Tần suất lần, phiên, mẻ, cú, tuần NuV+
159
(hương) NuN+ mẻ lưới
Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết
ViAp gió thổi mạnh hoạt động: không đòi thở, ngồi, đứng, nằm, động từ nội động
ViEp+ nằm trên (giường) hỏi bổ ngữ ngủ, thức, (máy) nổ, (còi) (Vi)
rúc, (gió) thổi SV- & {RtVi- or RpVi- or cháu sẽ ngủ, bé ngủ rồi, tôi ngủ Không dùng ở thể
RfVi- or RpVi+} bị động tâm sinh lý: không đòi khóc, cười, kêu , ... . /
hỏi bổ ngữ
động từ ngoại hành động: đòi hỏi bổ cắt (cỏ), bổ (củi), xé, SV- & O+- &{VtEp} công nhân xẻ gỗ
động (Vt) ngữ chỉ đói tượng bị tác chặt, gieo, ươm tôi gieo mạ trên (sân)
động SV- & O+- &{Vt A-} nó cắt cỏ (rất) nhanh
VmVt- (mạ đã )được gieo
tạo tác: đòi hỏi thực từ viết(báo), vẽ, đẽo, gọt, SV- & O+- &{Vt A-} tôi gọt bút chì
biểu hiện đối tượng tạc, phát minh, sáng chế tôi gọt bút chì cẩn thận
được tạo ra. SV- & VmVt- đèn điện được sáng chế
trao nhận: đòi hỏi 2 bổ cho, gửi, tặng, biếu, báo, SV- & IO+ & O + tôi tặng em bé sách
ngữ trực tiếp và bổ thông báo, nhận SV- & O+ & VtEg+ & EgNt+ tôi tặng sách cho em bé
ngữ gián tiếp SV- &VmVt- & O+ em bé được tặng sách
tôi bảo nó đi học sai, bảo, khiến, hướng SV- & IO+ & VtVt cầu khiến: đòi hỏi bổ
thủ trướng yêu cầu nhân viên tắt đèn dẫn, cân nhắc, đề bạt SV- & IO+ & VtVt+ ngữ trực tiếp và « nội
160
anh ấy được đề bạt làm (quản đốc) SV-&VmVt- &VtVs+ dung sai khiến »
Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết
tôi làm vỡ bát gây khiến làm(cho, vỡ), khiến SV- & VtVs+ & O+
tôi làm bát vỡ (cho), bẻ(gãy) SV- & O+ & VtVs+
bát đã bị vỡ rồi SV- &{Rt Vt- or RpVt- or
RfVt-} & {VmVt- }&
{RpVt+}
tác động: đòi hỏi bỗ kéo, đẩy, xô. ép, SV- &{Rt Vt or RpVt or tôi đặt quyển sách lên bàn, tôi đang đặt
ngữ trực tiếp và /hoặc nghiêng, đặt... RfVt}& O+ quyển sách lên bàn, tôi đặt quyển sách
đích của hành động &VtEs+&{RpVt+} lên bàn rồi.
SV- &VtEs+ & O+ tôi đạt lên bàn quyển sách
SV-& {O+} &(VtN+ tôi ép con ăn, bố mẹ ép anh cưới vợ
orVtPp+) ép làm việc
tôi đang trèo lên (núi) chuyển động chạy, bò, lăn,... SV- &{Rt Vt -or RpVt- or
RfVt-} & {VtEp+}&{RpVt+}
, SV-& {Rt Vt -or RpVt- or
RfVt-} & VtEm
nó về bằng xe máy, SV-& {Rt Vt -or RpVt- or
RfVt-} & CH+
SV- & {Rt Vt or RpVt or tàu đã rời ga, khách đã vào nhà
161
RfVt} & O+
Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết
tôi đang đi lên (núi) SV- &{Rt Vt -or RpVt- or đi
RfVt-} & {VtEp+}&{RpVt+} (động từ này có cách
tôi đi học, tôi đang đi chơi (riêng động SV- & {Rt Vt -or RpVt- or dùng đặc biệt trong tiếng
từ « đi ») RfVt-} & ĐI+ Việt: đi học, đi bơi, đi
chơi. . .)
hành vi cướp, giật, ăn cắp ... SV- & (O+) nó cướp tiền
SV- &EmNu doanh nghiệp thanh toán bằng đô la
tư duy học, hiểu, nghe, nói ... . SV- &{Rt Vt or RpVt or tôi học ngoại ngữ, tôi đã được học ngoại
RfVt} &VmVt-& O+ ngữ
tập nói, học đánh (đàn) VtVt
tôi đã học xong rôi SV- &
tin tưởng bạn bè VsN+ động từ trạng thái 1.tâm lý tình cảm tò mò, tin tưởng, nghi
tin tưởng ở tương lai VsE+ (Vs) ngờ
tôi buồn, tôi rất buồn, tôi xấu hổ lắm SV- &{RlVt- or RlVt+} yêu, ghét, buồn, thương,
giận dữ
yêu thích, ngưỡng mộ,
ghê tởm. .
162
2.tồn tại SV-&{Rt Vt -or RpVt- or tôi còn hai ngàn đồng, nó đã mất người còn, có, mất
Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết
RfVt-}& O+ yêu
3.biến hóa hóa (thành), nảy(mầm), SV- & {VsVs+}& O+ sâu đã hóa thành bướm
phát sinh, thay đổi,
4.tiêu hao ốm, mệt,tiêu hao, chết, Sv-&{VsN+}
mất
5.tiếp nhận ăn, hưởng thụ O+ hưởng thụ cuộc sống
ăn đòn , ăn đạn(rất ít dùng ở dạng Vt)
6.bắt đầu, tiếp diễn bắt đầu, tiếp tục, thôi, kết SV-&{Rt Vt -or RpVt- or thằng bé đã bắt đầu tập đi
thúc, dừng... RfVt-}&VsVt+
7.ngưng nghỉ ngưng, dừng, dứt, SV-& {Rt Vt -or RpVt- or nó đã ngừng tranh cãi
RfVt-}& VsV+
8.quan hệ là, làm DT_LA- rau cải là...
9.sở hữu thuộc VsN ngôi nhà thuộc khuôn viên lâu đài
động từ tình thái 1.đánh giá nên, cần phải,, xem, thấy SV-& (VmVt+ or VmVi) bạn nên mua kẹo
(Vm)
163
2.ý chí toan, định, dám, nỡ, SV- & VmVt+ ông quyêt đi buôn
Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết
quyết
3.mong muốn ước, mơ chỉ mong RsVm-
mong, muốn rất mong RlVm-
4.phụ thuộc bị ,được, mắc, đành chịu VmVt
SV+
động từ phụ(Vu) động từ không có khả ái quốc, du mục, an thai, NVu- thuốc an thai, dân du mục
năng làm vị ngữ trong đình sản bị đình bản VmVu-
câu giải khát để giải khát CVu-
xong học xong, làm xong VVu
nàng đẹp tốt, đẹp, xấu, thông SA- &ApNu+ tính từ chỉ tính Chỉ tính chất của sự
minh, nhiệt tình ApAr+ chất (Ap) vật, có thể kèm phụ từ nàng rất đẹp
chỉ mức độ vực sâu hai mươi mét
Chỉ những tính chất sự
vật bao hàm giá trị về
lượng
tính từ quan hệ chỉ sự phụ thuộc hoặc chung, riêng, nội, ngoại, của chung, bà nội
(Ar) tác động qua lại tư hữu, riêng tư
164
quan hệ so sánh bằng, hơn, kém, giống, ApAr- NAr- đẹp hơn, ba giờ hơn
Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết
khác... . ArN+ hơn mười người
ArE khác vơi, giống như
ngày mùa thóc hơn
tính từ quan hệ được xem trong danh từ quân đội nhân dân
chuyển loại từ danh từ.
tính từ tượng thanh không độc lập làm vị từ leng keng, kẽo kẹt, loảng VA chuông kêu leng keng
(Ao) xoảng... xô chậu va loảng xoảng
tính từ tượng hình không độc lập làm vị từ lom khom, còm nhom, VA cúi lom khom
(Ai) lênh khênh, trùng trục, ApAi
lũn cũn...
đại từ chỉ định đấy, đấy, đó, kia, ấy , McN cô giáo ấy
(Pd) này, nay, bây giờ,bấy McNt+ ngay bây giờ
giờ, thế, vậy...
giới từ phạm vi về, trên, dưới, trong, NtEm+ &EmVt
(Es) ngoài
ở, tại giới từ vị trí EpN ở Hà Nội, ở trường
(Ep)
165
của Giới từ chỉ sở hữu EoNt+ của cô giáo
Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết
EoPp+ của tôi (Eo)
giới từ chỉ chất bằng Nt5Em-& EmNt6+ bàn bằng gỗ
NgEm-& EmNt6+ liệu (Em) quần áo bằng lụa
VtEm-& EmNt6+ nhà lợp bằng tôn
PHỤ LỤC 2: KẾT QUẢ PHÂN TÍCH LIÊN KẾT CỦA MỘT SỐ CÂU ĐƠN
VÀ CÂU GHÉP HAI MỆNH ĐỀ
# Đây là kết quả do bộ phân tích cú pháp liên kết (chưa xử lý câu ghép) đưa ra cho 50 câu đầu trong tập ngữ liệu
mẫu của hệ thống dịch Việt - Anh sử dụng ADJ. Với độ chính xác của bộ phân tích cú pháp khoảng 80%, một số liên kết
trong câu có thể không đúng.
# +-----DT_LA----+
# +---SHA--+ +-ĐT_TT-+
# | | | |
# Tên.n tôi.v là.v Hoa.a
# +----DT_LA----+------LA_DT------+
# +--SHA--+ | +----McN---+-SA-+
# | | | | | |
# Mẹ.n tôi.p là.v một bác_sĩ.n giỏi.a
# +-----------ĐT_GT-----------+
# +---------O--------+ |
# | +------McN------+ |
# +---SV--+ | +--ĐV--+ +--LT_ĐT-+ĐT_GT+--GT_DT--+
# | | | | | | | | |
# tôi.p cần.v một quyển sách.n để đọc.v ở nhà.n
166
# +------PqNt------+------SA-----+
# | +----DpNt---+ +-TT_TT+-TT_ĐT-+
# | | | | | |
# Tất_cả mọi thành_viên.n phải.a đi.a họp.v
# +-----O-----+----SDT4---+
# +----SV--+-ĐT_ĐTi+-ĐT_TT-+--TT_ĐT-+ +--ĐV-+--CH--+ +--GT_DT-+
# | | | | | | | | | |
# tôi.p có_thể cho.v cô.a mượn.v cái áo.n len.n của tôi.p
# +------SV-----+
# +-NtPd-+ +---CL---+-ĐT_ĐT-+
# | | | | |
# Cô.p ấy cảm_thấy.v muốn.v khóc.v
# +------SDT5-----+ +------O-----+
# +----O---+--SDT1--+ +--ĐT_ĐTi--+---O--+ +-SA-+
# | | | | | | | |
# tôi.v không.n bao_giờ.n nên nghe.v lời.n anh.p ta.a
# +-----GT_DT----+
# +----SV--+---O--+--SDT5-+ĐT_GT+ +--ĐV--+-NtPd+
# | | | | | | | |
# tôi.p thách.v anh.p nhảy.v qua cái tường.n kia
# +-------SV-----+
# +--SDT2--+ +-ĐT_ĐT+-ĐT_TT-+-TT_ĐT-+---O---+-NtPd+
# | | | | | | | |
# Anh ta.a muốn.v tôi.v đi.a với.v cô.p ấy
# +--------O--------+
# +--ĐT_TT-+-TT_ĐT+ +----McN---+
# | | | | |
# tôi.v được.a tặng một món_quà.n
167
# +------------SV----------+ +------GT_DT------+
# +--DpNt--+-SA-+ +--TT_ĐT-+-ĐT_GT+ +--DpNt--+-SA-+
# | | | | | | | | |
# Những lỗi_lầm.n lớn.a thường.a kết_cấu.v từ những lỗi_lầm.n nhỏ.a
# +------O------+
# +-NcN2-+--SV--+ +-NcN2-+--CH-+
# | | | | | |
# Con ngựa.n đá.v con ngựa.n đá.n
# +---SV--+-ĐT_GT+--GT_DT-+---NN--+--NN-+
# | | | | | |
# Kiến bò.v lên đĩa.n thịt.n bò.n
# +---------SA---------+
# +----SDT2----+ +TT_SS+---SS_DT---+
# | | | | |
# Sự khôn_ngoan.a có_giá.a hơn châu_ngọc.n
# +-----LA_DT-----+
# +-DT_LA-+ +---ĐV--+--SA-+-TT_SS+---NHAT_DTv--+
# | | | | | | |
# Báo_săn.n là.v loài động_vật.n nhanh.a nhất thế_giới.n
# +-----THT-----+
# | +--SV--+--ĐT_ĐTi--+---O--+
# | | | | |
# Sao anh.p dám đánh.v tôi.p
# +----------------SV----------------+
# +--------SHA-------+ |
# +---F--+---F--+ | +--TĐT2_2-+-ĐT_ĐT+----O---+
# | | | | | | | |
# bố.n và mẹ.n tôi.p rất.a thích.v xem.v phim.n
168
# +-----SV----+------------ĐT_TT------------+
# +-NtPd-+ +---F--+---F--+ +--TTT2_2-+
# | | | | | | |
# anh.p ấy đá_bóng.v và bơi.v rất.a giỏi.a
# +-------SA------+
# +-SA-+ +-CC0-+-CCTt-+--CCPt-+
# | | | | | |
# cô.p bé.a càng lớn.a càng xinh.a
# +-----SV-----+--------------O-------------+
# +--SHA--+ +-ĐT_GT+--GT_DT-+ +--ĐV--+
# | | | | | | |
# bố.n tôi.p đưa.v cho tôi.p quyển sách.n
# +-----SV----+--------O--------+
# +-NtPd-+ | +----CC0d---+--CCTd-+----CCPd---+
# | | | | | | |
# anh.p ấy biết.v cả tiếng_Việt.n lẫn tiếng_Pháp.n
# +----SV-----+--------O--------+
# +-NtPd-+ | +----CC0d---+--CCTd-+----CCPd---+
# | | | | | | |
# anh.p ấy biết.v cả tiếng_Việt.n cả tiếng_Pháp.n
# +------------------O-----------------+
# +---SV--+----O----+--SDT1-+-F-+---F---+ |
# | | | | | | |
# anh.p có.v từ_điển.n Việt - Anh.p không.n
# +-CHỨ+
# | |
# Có.v chứ
169
# +---------CL---------+
# | +-----SV----+-------O------+
# +--TĐT2_1-+ +-NtPd-+ +---O---+ |
# | | | | | | |
# Không biết.v máy_tính.n này có.v tốt.n không.n
# +--TT_ĐT-+-LA_ĐT-+-CHỨ+
# | | | |
# Tất_nhiên.a là.v nhớ.v chứ
# +--------XH--------+
# +-------SV-------+------CHỨ------+ |
# | +--TĐT4-+---O--+-NtPd+ | |
# | | | | | | |
# Bác cũng quen.v cô.n ấy chứ ạ
# +---DT_LA--+ +---------VTd---------+
# +-NtPd-+ +--LA_DT-+--NNp-+ +---CHỨ2---+---VPd--+---NNp--+
# | | | | | | | | |
# anh.p ấy là.v người.n Nhật chứ không_phải người.n Hàn_Quốc
# +---DT_LA--+------------VTl------------+
# +-NtPd-+ +---LA_DT--+ +---CHỨ2--+--VPl-+----LA_TT---+
# | | | | | | | |
# Máy.n ấy là.v máy_giặt.n chứ đâu_phải là.v máy_điều_hòa.a
# +--------------------------XH--------------------------+
# +-------------------------XH------------------------+ |
# +---------------------ĐT_TT---------------------+ | |
# +------------------SV-----------------+--------------ĐT_GTt-------------+ | | |
# +--CC0d--+-CCTd+--CCPd-+---NN--+ +--TT_ĐT--+ĐT_GT+---GT_DT---+ +---McN--+-TT_TTt-+ | | |
# | | | | | | | | | | | | | | |
# Cả cháu.n cả nhà.n cháu.n đều.a chuyển.v vào Vũng_Tàu.n một năm.n nay.a rồi bác ạ
170
# +-------XH-------+
# +------XH-----+ |
# +------SV----+--ĐT_TT-+ | |
# | | | | |
# Bộ_Kế_hoạch_và_Đầu_tư ở.v đâu.a hở em
# +--------XH-------+
# +----------SV--------+----ĐT_TT----+ |
# +--ĐV-+-SDT4-+--GT_DT-+ +--ĐT_TT-+ | |
# | | | | | | | |
# Cái túi.n của tao.p ở.v đâu.a rồi hở
# +---------------SA--------------+
# | +----------CC0----------+----------CCTt----------+-----------CCPt----------+
# +-NtPd-+ +-KHÔNG_NHỮNG-+ +---F--+-----F----+ +-MÀ_CÒN-+ +---TTT2_2--+--TT_TT-+
# | | | | | | | | | | | |
# Anh.p ấy không những thông_minh.a , học_giỏi.a mà còn rất.a khiêm_tốn.a nữa.a
# +--------------EV--------------+---------------CL--------------+
# +-----------ĐT_TT----------+ | +---------GT_ĐTt--------+
# +--------ĐT_GTt-------+ | | | +-----TT_ĐT-----+
# +-ĐT_GT+--GT_DT-+ | | | | | +-TT_ĐT+
# | | | | | | | | | |
# Nghe_nói.v về anh.p lâu.n rồi mà hôm_nay.n mới.a được.a gặp.v
# +---------SV-------+-------XH-------+
# | +--TĐT2_1-+----O---+-NtPd+ |
# | | | | | |
# Anh không biết.v chuyện.n ấy à
# +---------GT_ĐTt---------+-------CL-------+
# | +--------SV------+ +-----SV---+
# | | +--TT_ĐT-+ +-NtPd-+ +-----O----+
# | | | | | | | |
# Hôm_nay.n tôi.p mới.a biết.v anh.p ấy là.v thầy_giáo.n
171
# +----------ĐT_LA----------+
# +----SV--+-ĐT_GT+--GT_DT-+-NtPd+ +-LA_TT-+-XH-+
# | | | | | | | |
# Anh mua.v với giá.n ấy là.v đắt.a đấy
# +-----SV---+-----CL-----+--------ĐT_GTv-------+
# +-NtPd-+ | +---SV--+----ĐI----+ +--SAv-+--NNp--+
# | | | | | | | | |
# Anh.p ấy rủ.v tôi.p đi.v du_lịch.v đồng_bằng.n sông.n Cửu_Long
# +------CL-----+--------EV--------+------CL------+---------ĐT_TT---------+
# +-GT_DT-+ +-----O-----+ | +---SV--+-ĐT_XONG-+ +-TT_TT-+
# | | | | | | | | | |
# Trong lúc.n học.v tiếng_Việt.n , tôi.p học.v được nhiều.a điều.a
# +------------------------CL-----------------------+
# +----EV----+ +-------------------SV------------------+
# +--TĐT2_1-+---O--+ | +---SHA--+ +-SAt-+-SA-+-TT_ĐT+
# | | | | | | | | | |
# Không hiểu.v sao.n , sức_khỏe.n mình.p càng.n ngày.n càng.a xuống
# +----------QHT----------+------------CL------------+
# +--------CL--------+ | +---------SV-------+
# | +--SA-+ | | +--TĐT2_1--+--ĐT_TT-+
# | | | | | | | |
# Vì thời_tiết.n xấu.a nên máy_bay.n không hạ_cánh.v được.a
# +---------------CL---------------+
# +-----------------QHT-----------------+ +-----------SA----------+
# +------CL------+--------O-------+ | | +--------TTT4-------+
# | +---SV--+ +--DpNtm-+ | | | +---TTT2_1--+
# | | | | | | | | | |
# Dù nó.p có.v nhiều tiền.n nhưng nó.p vẫn không hạnh_phúc.a
172
# +------------DT_LA-----------+
# +---------SDT5---------+ |
# | +-------SV------+ |
# +--ĐV-+ | +-TT_ĐT+ +-LA_DT-+-SH--+-NtPd+
# | | | | | | | | |
# Cuốn sách.n anh.p đang.a đọc.v là.v của.n cô.p ấy
# +----------SDT5----------+
# +--------SV------+--------O-------+ +-----SV----+
# | +--RpV-+ +---ĐV---+---MA---+ +-NtPd-+ |
# | | | | | | | | |
# Tôi đã đọc.v cuốn tiểu_thuyết.n mà anh.p ấy viết.v
# +--------------------QHT--------------------+
# +-------------CL-------------+ +--------------------CL-------------------+
# | +----------SV--------+ | +----------------SV--------------+
# | +-SDT4-+--GT_DT-+ +----O---+ | +---F--+----F----+ +--RpV-+
# | | | | | | | | | | | |
# Sở_dĩ nhà_máy.n của Loan hết.v việc.n là_do thiết_bị.n và phụ_tùng.n đã hết.v
# +-------------CL-------------+ +-----------CL-----------+
# +------PH-----+ +---EV---+ +--------SV-------+ +-------ĐT_TT-------+
# +--GT_DT--+ | +--SA-+-STT-+ | | +--TĐT2_1-+--CL--+---O---+--NN-+ |
# | | | | | | | | | | | | | |
# Ở chợ.n , quần_bò.n nhiều.a quá , tôi.p không biết.v chọn.v loại.n nào.n cả.a
# +------------GT_ĐTt------------+---------------------ĐT_TT--------------------+
# | +--------SV-------+-------O-------+----SDT4---+ |
# +-TT_TTt+ | +--TĐT2_1-+-ĐT_XONG+ +---NN--+ +--GT_DT-+-NtPd+ |
# | | | | | | | | | | | |
# Lâu.n rồi tôi.p không nhận.v được tin_tức.n gì.n của cô.n ấy cả.a
# +---------SV-------+-------------ĐT_TT-------------+
# | +--TĐT2_1-+---O--+-SDT4+--GT_DT-+-NtPd+ |
# | | | | | | | |
# Tôi chưa hiểu.v gì.n về cô.n ấy cả.a
173
PHỤ LỤC 3: MỘT SỐ LUẬT DỊCH ĐIỂN HÌNH
Phụ lục 3 trình bày dạng lưu trữ thực sự trong tệp văn bản của các luật được nêu ở
chương 4. Do vậy hình thức trình bày có sự khác biệt. Trong bộ luật này,
Ký hiệu * chỉ từ bất kỳ
() chỉ dãy bất kỳ các kết nối.
Ký hiệu $1 chỉ vị trí của từ trong cụm từ có thể áp dụng luật.
Ví dụ:
*()(DT_THI)*(DT_THI)(THI_ĐT)*(THI_ĐT)()-->$1$2:copy-feature($3,number,$1)
Có nghĩa là nếu từ thứ nhất trong một cụm từ có kết nối DT_THI với từ thứ hai, trong
khi từ thứ hai có kết nối THI_ĐT với từ thứ ba thì sao chép thuộc tính number của từ thứ
nhất sang từ thứ ba.
Chẳng hạn trong cụm từ “tôi thì học” thỏa các kết nối trên, sao thông tin về số từ đại từ
“tôi” sang động từ “học”
1. Luật xác định thuộc tính
*()(DpNt) *(DpNt)() --> $1 :set-feature($2, number, PLURAL)
*()(VT DT_THI) *(VT)() *(DT_THI)(THI_ĐT) *(THI_ĐT)() --> $1 $2 $3 :set-
feature($4, number, PLURAL)
*()(CC0) *(CC0)(DT_THI) *(DT_THI)(THI_ĐT) *(THI_ĐT)() --> $1 $2 $3 :set-
feature($4, number, PLURAL)
*()(DT_THI) *(DT_THI)(THI_ĐT) *(THI_ĐT)() --> $1 $2 :copy-feature($3, number,
$1)
*()(VT SV) *(VT)() *(SV)() --> $1 $2 :set-feature($3, number, PLURAL)
*()(CC0) *(CC0)(SV) *(SV)() --> $1 $2 :set-feature($3, number, PLURAL)
*()(SV) *(SV)() --> $1 :copy-feature($2, number, $1)
*()(VT DT_LA) *(VT)() *(DT_LA)() --> $1 $2 :set-feature($3, number, PLURAL)
*()(CC0) *(CC0)(DT_LA) *(DT_LA)() --> $1 $2 :set-feature($3, number, PLURAL)
*()(DT_LA) *(DT_LA)() --> $1 :copy-feature($2, number, $1)
*()(TĐT2_1) *(TĐT2_1)() --> $1 :set-feature($2, negated, TRUE)
*()(RpV) *(RpV)() --> $1 :set-feature($2, tense, PAST)
*()(RfV) *(RfV)() --> $1 :set-feature($2, tense, FUTURE)
*()(RhV) *(RhV)() --> $1 :set-feature($2, form, PRESENT_PARTICIPLE)
chưa()(TĐT2_1) *(TĐT2_1)() --> $1 :set-feature($2, form, PAST_PARTICIPLE)
*()(TĐT3h) *(TĐT3h)() --> $1 :set-feature($2, form, PAST_PARTICIPLE)
*()(ĐT_XONG) *(ĐT_XONG)() --> :set-feature($1, form, PAST_PARTICIPLE) $2
174
*()(VT SA) *(VT)() *(SA)() --> $1 $2 :set-feature($3, number, PLURAL)
*()(CC0) *(CC0)(SA) *(SA)() --> $1 $2 :set-feature($3, number, PLURAL)
*()(SA) *(SA)() --> $1 :copy-feature($2, number, $1)
*()(TTT2_1) *(TTT2_1)() --> $1 :set-feature($2, negated, TRUE)
*()(RpA) *(RpA)() --> $1 :set-feature($2, tense, PAST)
*()(RfA) *(RfA)() --> $1 :set-feature($2, tense, FUTURE)
*()(RhA) *(RhA)() --> $1 :set-feature($2, form, PRESENT_PARTICIPLE)
*()(TTT3h) *(TTT3h)() --> $1 :set-feature($2, form, PAST_PARTICIPLE)
tôi[p]()() --> :set-feature($1, person, FIRST)
mình[p]()() --> :set-feature($1, person, FIRST)
bọ[p]()() --> :set-feature($1, person, FIRST)
tớ[p]()() --> :set-feature($1, person, FIRST)
bạn[p]()() --> :set-feature($1, person, SECOND)
cô[p]()() --> :set-feature($1, person, THIRD)
*()(SV) *(SV)() --> $1 :copy-feature($2, person, $1)
*()(DT_LA) *(DT_LA)() --> $1 :copy-feature($2, person, $1)
*()(TT_SS) hơn(TT_SS)() --> :set-feature($1, is_comparative, TRUE) $2
*()(TT_SS) nhất(TT_SS)() --> :set-feature($1, is_superlative, TRUE) $2
*()(VTg) *(VTg)(VPg) *(VPg)() -> $1 $2 :copy-feature(:copy-feature(:copy-feature
(:copy-feature(:copy-feature( $3, number, $1), person, $1), tense, $1),
negated, $1), form, $1)
*()(VTt) *(VTt)(VPt) *(VPt)() -> $1 $2 :copy-feature(:copy-feature( $3,
is_comparative, $1), is_superlative, $1)
2. Luật dịch cụm từ
tháng()(SDT1) giêng(SDT1)() -> :set-string($1, January)
tháng()(SDT1) một(SDT1)() -> :set-string($1, January)
tháng()(SDT1) mười(SDT1)(ST_ST) hai(ST_ST)() -> :set-string($1, December)
tháng()(SDT1) chạp(SDT1)() -> :set-string($1, December)
kết_cấu()(ĐT_GT) từ(ĐT_GT)() --> :set-string($1, compose) :set-string($2, of)
nhìn()(ĐT_GT) *(ĐT_GT)() --> :set-string($1, look) :set-string($2, at)
chạy()(ĐT_GT) khỏi(ĐT_GT)() --> :set-string($1, run) :set-string($2, away) from
mua()(ĐT_GT O) cho(ĐT_GT)(GT_DT) *(GT_DT)() *(O)() --> $1 $3 $4
đưa()(ĐT_GT O) cho(ĐT_GT)(GT_DT) *(GT_DT)() *(O)() --> $1 $3 $4
ở()(GT_DT) đây(GT_DT)() --> here
ở()(GT_DT) đó(GT_DT)() --> there
làm[v]()(O ĐT_TT) *(O)() *(ĐT_TT)() -> :set-string($1, make) $2 $3
*()(TDT2m) *(TDT2m)(SA) *(SA)() -> $1 of $2 $3
*()(TDT2m) *(TDT2m)(SDT4) *(SDT4)() -> $1 of $2 $3
của()(GT_DT) *()(TDT2p) tôi(TDT2p GT_DT)() --> :set-string($1, our)
của()(GT_DT) tôi(GT_DT)() --> :set-string($1, my)
175
của()(GT_DT) cô(GT_DT)() --> :set-string($1, her)
*()(SDT4) của(SDT4)(GT_DT) *(GT_DT)() --> $3 's $1
*()(SHA) *()(TDT2p) tôi(TDT2p SHA)() --> $1 :set-string($2, our)
*()(SHA) *()(TDT2p) minh(TDT2p SHA)() --> $1 :set-string($2, our)
*()(SHA) *()(TDT2p) cô(TDT2p SHA)() --> $1 :set-string($2, their)
*()(GT_DT) *()(TDT2p) cô(TDT2p GT_DT)(NtPd) *(NtPd)() --> $1 :set-string($2,
them)
*()(GT_DT) *()(TDT2p) bạn(TDT2p GT_DT)(NtPd) *(NtPd)() --> $1 :set-string($2,
you)
*()(GT_DT) *()(TDT2p) nó(TDT2p GT_DT)(NtPd) *(NtPd)() --> $1 :set-string($2,
them)
*()(GT_DT) *()(TDT2p) họ(TDT2p GT_DT)(NtPd) *(NtPd)() --> $1 :set-string($2,
them)
*()(GT_DT) cô(GT_DT)(NtPd) *(NtPd)() --> $1 :set-string($2, her)
*()(GT_DT) nàng(GT_DT)(NtPd) *(NtPd)() --> $1 :set-string($2, her)
*()(GT_DT) chàng(GT_DT)(NtPd) *(NtPd)() --> $1 :set-string($2, him)
*()(GT_DT) bạn(GT_DT)(NtPd) *(NtPd)() --> $1 :set-string($2, you)
*()(GT_DT) họ(GT_DT)(NtPd) *(NtPd)() --> $1 :set-string($2, them)
*()(O) *()(TDT2p) cô(TDT2p O)(NtPd) *(NtPd)() --> $1 :set-string($2, them)
*()(O) *()(TDT2p) nàng(TDT2p O)(NtPd) *(NtPd)() --> $1 :set-string($2, them)
*()(O) *()(TDT2p) anh(TDT2p O)(NtPd) *(NtPd)() --> $1 :set-string($2, them)
*()(O) *()(TDT2p) ông(TDT2p O)(NtPd) *(NtPd)() --> $1 :set-string($2, them)
*()(O) *()(TDT2p) thằng(TDT2p O)(NtPd) *(NtPd)() --> $1 :set-string($2, them)
*()(O) *()(TDT2p) chàng(TDT2p O)(NtPd) *(NtPd)() --> $1 :set-string($2, them)
*()(O) *()(TDT2p) bạn(TDT2p O)(NtPd) *(NtPd)() --> $1 :set-string($2, you)
*()(O) *()(TDT2p) nó(TDT2p O)(NtPd) *(NtPd)() --> $1 :set-string($2, them)
*()(O) *()(TDT2p) họ(TDT2p O)(NtPd) *(NtPd)() --> $1 :set-string($2, them)
*()(O) cô(O)(NtPd) *(NtPd)() --> $1 :set-string($2, her)
*()(O) nàng(O)(NtPd) *(NtPd)() --> $1 :set-string($2, her)
*()(O) anh(O)(NtPd) *(NtPd)() --> $1 :set-string($2, him)
*()(O) ông(O)(NtPd) *(NtPd)() --> $1 :set-string($2, him)
*()(O) thằng(O)(NtPd) *(NtPd)() --> $1 :set-string($2, him)
*()(O) chàng(O)(NtPd) *(NtPd)() --> $1 :set-string($2, him)
*()(O) bạn(O)(NtPd) *(NtPd)() --> $1 :set-string($2, you)
*()(O) nó(O)(NtPd) *(NtPd)() --> $1 :set-string($2, it)
*()(O) họ(O)(NtPd) *(NtPd)() --> $1 :set-string($2, them)
cô()(NtPd) *(NtPd)() --> :set-string($1, she)
chị()(NtPd) *(NtPd)() --> :set-string($1, she)
nàng()(SDT6) *(SDT6)() --> :set-string($1, she)
bà()(SDT6) *(SDT6)() --> :set-string($1, she)
anh()(SDT6) *(SDT6)() --> :set-string($1, he)
thằng()(NtPd) *(NtPd)() --> :set-string($1, he)
176
chàng()(NtPd) *(NtPd)() --> :set-string($1, he)
ông()(NtPd) *(NtPd)() --> :set-string($1, he)
lão()(NtPd) *(NtPd)() --> :set-string($1, he)
bạn()(NtPd) *(NtPd)() --> :set-string($1, you)
nó()(NtPd) *(NtPd)() --> :set-string($1, it)
họ()(NtPd) *(NtPd)() --> :set-string($1, they)
*()(TDT2p) tôi(TDT2p)() --> :set-string($1, we)
*()(TDT2p) ta(TDT2p)() --> :set-string($1, we)
*()(TDT2p) minh(TDT2p)() --> :set-string($1, we)
*()(TDT2p) cô(TDT2p)() --> :set-string($1, they)
*()(TDT2p) bà(TDT2p)() --> :set-string($1, they)
*()(TDT2p) anh(TDT2p)() --> :set-string($1, they)
*()(TDT2p) ông(TDT2p)() --> :set-string($1, they)
*()(TDT2p) hắn(TDT2p)() --> :set-string($1, they)
*()(TDT2p) chàng(TDT2p)() --> :set-string($1, they)
*()(TDT2p) bạn(TDT2p)() --> :set-string($1, you)
*()(TDT2p) cậu(TDT2p)() --> :set-string($1, you)
*()(TDT2p) nó(TDT2p)() --> :set-string($1, they)
*()(TDT2p) họ(TDT2p)() --> :set-string($1, they)
thịt()(SDT1) bò(SDT1)() --> :set-string($1, beef)
thịt()(SDT1) lợn(SDT1)() --> :set-string($1, pork)
thịt()(SDT1) gà(SDT1)() --> :set-string($1, chicken)
đi()(ĐI) học(ĐI)() --> :set-string($1, go)()(_TO_) to(_TO_)(_I_) school[n](_I_)()
đi()(ĐI) làm(ĐI)() --> :set-string($1, go)()(_TO_) to(_TO_)(_I_) workl[n](_I_)()
đi()(ĐI) chơi(ĐI)() --> :set-string($1, go) out
đi()(ĐI) *(ĐI)() --> :set-string($1, go) :set-feature($2,form,PRESENT_PARTICIPLE)
cả()(CC0) *(CC0)(CCT) lẫn(CCT)(CCP) *(CCP)() --> both $2 and $4
cả()(CC0) *(CC0)(CCT) cả(CCT)(CCP) *(CCP)() --> both $2 and $4
cả()(CC0) *(CC0)(CCT) và(CCT)(CCP) *(CCP)() --> both $2 and $4
vừa()(CC0) *(CC0)(CCTt) vừa(CCTt)(CCPt) *(CCPt)() --> both $2 and $4
vừa()(CC0) *(CC0)(CCTg) vừa(CCTg)(CCPg) *(CCPg)() --> $2 while :set-feature($4,
form, PRESENT_PARTICIPLE)
*()(ĐT_ĐTp) *(ĐT_ĐTp)() --> $1 :set-feature($2, form, PRESENT_PARTICIPLE)
*()(ĐT_ĐTi) *(ĐT_ĐTi)() -> $1 :set-feature($2, form, BARE_INFINITIVE)
*()(ĐT_ĐT) *(ĐT_ĐT)()-->$1 to()(_TO_):set-eature($2,form,BARE_INFINITIVE)(_TO_)()
*()(TT_SS) hơn(TT_SS)() --> $1()(_MVt_) than(_MVt_)()
sắp()() --> :set-string($1, be)()(_P_) about(_P_)(_TO_) to(_TO_)()
sắp_sửa()() --> :set-string($1, be)()(_P_) about(_P_)(_TO_) to(_TO_)()
đầu_hàng()() --> :set-string($1, give)()(_IDL_) up(_IDL_)()
*()(LA_DT) người(LA_DT)(DT\_TTv) *(DT\_TTv)() -> $1 from $3
177
*()(THT)*()(SV)*()(TĐT2_1) *(TĐT2_1 SV THT)()-->$1 :set-feature(:copy-
feature(:copy-feature(:copy-feature(do, number, $4), person, $4), tense, $4),
contracted-negation,TRUE)[v]()(_I_)$2:set-feature($4,form,BARE_INFINITIVE)(_I_)()
*()(THT) *()(SV) *(SV THT)() --> $1 :copy-feature(:copy-feature(:copy-feature(
do, number, $3), person, $3), tense, $3)[v]()(_I_)$2 :set-feature($3,form,
INFINITIVE)(_I_)()
*()(SV) có(SV)(ĐT_TT O) *(ĐT_TT)() không(O)() ->:copy-feature(:copy-
feature(:copy-feature(be, number, $2), person, $2), tense, $2)[v]()(_SI_ _Pa_)
$1(_SI_)() $3(_Pa_)()
*()(SV) có(SV)(CÓ CK) *[v](CÓ)() không(CK)() ->:copy-feature(:copy-feature(:copy-
feature(do, number, $2), person, $2), tense, $2)[v]()(_SI_ _I_) $1(_SI_)()
:set-feature($3, form, BARE_INFINITIVE)(_I_)()
*()(SV) có(SV)(OO) *(O)() không(O)() ->:copy-feature(:copy-feature(:copy-feature(
do, number, $2), person, $2), tense, $2)[v]()(_SIp_)$1(_SIp_)(_Ifd_)have(_Ifd_)
(_Os_) $3(_Os_)()
*()(SV) chưa()(TĐT2_1) *(TĐT2_1 SV)() ->$1()() :copy-feature(:copy-feature(have,
number, $3), person, $3)[v]()(N _PP_)not(N)() :remove-feature($3,negated)(_PP_)()
*()(SV) *()(RfV) *()(TĐT2_1) *(TĐT2_1 RfV SV)() -> $1 $2 $3 $4
*()(SV) *()(RpV) *()(TĐT2_1) *(TĐT2_1 RpV SV)() --> $1 $2 $3 $4
*()(SV) *()(TĐT2_1) *(TĐT2_1 SV)() --> $1()() :copy-feature(:copy-feature(do,
number, $3), person, $3)[v]()(_PP_)$2 $3(_PP_)()
3. Luật chuyển đổi cấu trúc
*()(DT_LA) *()(TĐT2_1) *(TĐT2_1 DT_LA)() --> $1 $3 $2
*()(TT_TT) *(TT_TT)() --> $2 $1
*()(SA SA) *(SA)() *(SA)() --> $3 $2 $1
*()(SA) *(SA)() --> $2 $1
*()(ĐT_TT) *(ĐT_TT)() --> $2 $1
*()(SHA) *(SHA)() --> $2 $1
*()(SDT1)*(SDT1)(VT)*(VT)(VP)*(VP)(VT)*(VT)(VP)*(VP)()-->$2 $3 $4 $5 $6 $1
*()(SDT1) *(SDT1)(VT) *(VT)(VP) *(VP)() --> $2 $3 $4 $1
*()(SDT1) *(SDT1)() --> $2 $1
*()(NtPd) *(NtPd)() --> $2 $1
*()(STT) *(STT)() --> $2 $1
*()(SỰ) *(SỰ)() --> $2
*()(RpV) *(RpV)() --> $2 $1
178
PHỤ LỤC 4: SO SÁNH KẾT QUẢ DỊCH MỘT SỐ MẪU CÂU
Sentence 1 (1): Tên tôi là Hoa
--> My name is bloom.
VEtran: My Name is Flower.
Google: My name is United.
Sentence 2 (2): Mẹ tôi là một bác_sĩ giỏi.
--> My mother is a good doctor.
VEtran: My mother is a jurisprudent physician.
Google: My mother is a good doctor.
Sentence 3 (3): tôi cần một quyển sách để đọc ở nhà.
--> Need me a book sets reading at home.
VEtran: I need a tomes to read keep indoors.
Google: I need a book to read at home.
Sentence 4 (4): Tất_cả mọi thành_viên phải đi họp.
--> All every members must go convening.
VEtran: All All members must go to meet.
Google: All members have to go to meetings.
Sentence 5 (5): tôi có_thể cho cô mượn cái áo len của tôi.
--> I could give borrow my wool shirt.
VEtran: I can lend miss my sweater.
Google: I can let her borrow my sweater.
Sentence 6 (6): Cô ấy cảm_thấy muốn khóc.
--> She feels wanting to cry.
VEtran: She feel like cry.
Google: She felt like crying.
Sentence 7 (7): tôi không bao_giờ nên nghe lời anh ta.
--> when not me ought to hear word.
VEtran: I never ought to obey him.
Google: I never heard him.
Sentence 8 (8): tôi thách anh nhảy qua cái tường kia
--> I defy him dances last that wall.
VEtran: I am challenged you overleaps that mural one.
Google: I challenge him to jump over the wall there.
Sentence 9 (9): Anh ta muốn tôi đi với cô ấy.
--> He wants me departs for her.
VEtran: He is wished I go with her.
Google: He wanted me to go with her.
Sentence 10 (10): tôi yêu cô ấy bằng cả trái_tim mình.
--> I love her by all my heart.
VEtran: I love her by a whole body heart.
Google: I love her with all my heart.
179
Sentence 11 (11): tôi biết tất_cả về cô ta.
--> I know all about her.
VEtran: I know all about who boil down me.
Google: I know all about her.
Sentence 12 (12): Ông ta chịu_đau rất can_đảm.
--> he very courageous suffers.
VEtran: ông we bears aching is very manly.
Google: Pain he was very courageous.
Sentence 13 (13): Anh ấy muốn chị ấy tới.
--> he wants she comes.
VEtran: He is wished she is next.
Google: He wanted her to.
Sentence 14 (14): tôi được tặng một món_quà.
--> I am presented a gift.
VEtran: I am giftted a gift.
Google: I was given a gift.
Sentence 15 (15): Những lỗi_lầm lớn thường kết_cấu từ những lỗi_lầm nhỏ.
--> big mistakes usually compose of young mistakes.
VEtran: Big lapses often frame from little lapses.
Google: The big mistake is often small structures from mistakes.
Sentence 16 (16): Con ngựa đá con ngựa đá.
--> horse kicks rocky horse.
VEtran: The horse stone horse kick.
Google: Horse stone horse.
Sentence 17 (17): Kiến bò lên đĩa thịt bò.
--> ant creeps up beef dish.
VEtran: Beef disc rise the ox the Emmet.
Google: Ants onto beef.
Sentence 18 (18): Sự khôn_ngoan có_giá hơn châu_ngọc.
--> wise is valuabler than jewel.
VEtran: Something precious more priced advisability.
Google: Valuable than wisdom pearls.
Sentence 19 (19): Báo_săn là loài động_vật nhanh nhất thế_giới.
--> cheetah is the quickest animal world.
VEtran: Cheetah is world' s fast animal the kind.
Google: Alert hunt is the world's fastest animal.
Sentence 20 (20): Sao anh dám đánh tôi.
--> why does you dare beat me.
VEtran: My britannic Asteroid dare whipped.
Google: How dare you hit me.
Sentence 21 (21): bố và mẹ tôi rất thích xem phim.
--> my father and mother very likes to watch film.
VEtran: I and my mother like to look up film very much.
Google: My parents love to watch movies.
180
Sentence 22 (22): anh ấy đá_bóng và bơi rất giỏi.
--> he very well plays football and swims.
VEtran: he kicked is shaded and very jurisprudent swimming.
Google:he's very good football and pool.
Sentence 23 (23): cô bé càng lớn càng xinh.
--> the more big is little nipper pretty.
VEtran: more more nice-looking big little miss.
Google:the bigger the beautiful girl.
Sentence 24 (24): bố tôi đưa cho tôi quyển sách.
--> my father takes give me book.
VEtran: tome my father give to med.
Google:My father gave me a book.
Sentence 25 (25): anh ấy biết cả tiếng_Việt cả tiếng_Pháp.
--> he knows both Vietnamese and French.
VEtran: he know a whole french Vietnamese too.
Google:he knows both English French.
Sentence 26 (26): anh có từ_điển Việt - Anh không
--> do you have Vietnamese - English dictionary
You has Vietnamese dictionary- You neither
you have dictionary English - I do not
Sentence 27 (27): Có chứ!
--> has!
VEtran: There is final particle!
Google: Yeah!
Sentence 28 (28): Không biết máy_tính này có tốt không.
--> not know this computer well has not.
VEtran: Know this computer had well Neither.
Google: Do not know this computer is good.
Sentence 29 (29): Tất_nhiên là nhớ chứ!
--> naturally is!
VEtran: Of course it be final particle remembrance!
Google: Of course, remember!
Sentence 30 (30): Bác cũng quen cô ấy chứ ạ?
--> also knows her?
VEtran: Do You who also get used to her ạ?
Google: Physicians also go after the letter A?
Sentence 31(31): anh ấy là người Nhật chứ không_phải người Hàn_Quốc.
--> he is Japanese person not Korean individual.
VEtran: he is Japanese isn' t Korea person.
Google: He is Japanese, not Korean.
Sentence 32 (32): Máy ấy là máy_giặt chứ đâu_phải là máy_điều_hòa.
--> that machine is washing-machine not conditioner is.
VEtran: That Machine is washer final particle definitely not is
conditioner.
Google: Where was the washing machine rather than air conditioning.
181
Sentence 33 (33): Cả cháu cả nhà cháu đều chuyển vào Vũng_Tàu một năm nay
rồi bác ạ.
--> both niece and nephew house after transfer into Vung Tau one year.
VEtran: A whole grandchild everybody in the house grandchild these a
years roadstead roll-in then refuse ạ.
Google: Both her whole family she moved to Vung Tau for a year then North
Asia.
Sentence 34 (34): Bộ_Kế_hoạch_và_Đầu_tư ở đâu hở em.
--> Ministry of Planning and Investment where is.
VEtran: Younger sister where uncovered Ministry of Planning and
Investment.
Google: Ministry of Planning and Investment in the open where you.
Sentence 35 (35): Anh ấy không những thông_minh , học_giỏi mà còn rất
khiêm_tốn nữa.
--> He is not only intelligent , good but also still very much more
modest.
VEtran: He not only wit, do well in school but also plenty humility as
well.
Google: He's not only smart, good student but also very modest.
Sentence 36 (36): Nghe_nói về anh lâu rồi mà hôm_nay mới được gặp
--> Then hears about him long that today new finding.
VEtran: Hear tell of you then long-term that new today is met.
Google: Heard about him for a long time today to meet new.
Sentence 37 (37): Anh không biết chuyện ấy à.
--> Does not know that story.
VEtran: You is unaware That tale.
Google: Do not you know that.
Sentence 38 (38): Hôm_nay tôi mới biết anh ấy là thầy_giáo.
--> Today I fresh realized he is teacher.
VEtran: Today I newly know he is instructor.
Google: Today I know that he is a teacher.
Sentence 39 (39): Anh mua với giá ấy là đắt đấy.
--> You gets for that cost is costly there.
VEtran: You bought with That cost be dearly there.
Google: You're purchase price was expensive.
Sentence 40 (40): Anh ấy rủ tôi đi du_lịch đồng_bằng sông Cửu_Long.
--> He asks me go touring Cuu Long river delta.
VEtran: He hangs I tour the Mekong river champaign.
Google: He invites me to travel to the Mekong Delta.
Sentence 41 (41): Trong lúc học tiếng_Việt , tôi học được nhiều điều.
--> For while studying Vietnamese , I thing studied many.
VEtran: During who learn Vietnamese, I learn talkativeness.
Google: While learning English, I learned a lot.
Sentence 42 (42): Không hiểu sao , sức_khỏe mình càng ngày càng xuống.
--> Not comprehend star , my strength the more day nipper go down.
VEtran: Non- comprehension is stellar, health i more and more go down to.
Google: Somehow, his health is increasingly down.
182
Sentence 43 (43): Vì thời_tiết xấu nên máy_bay không hạ_cánh được.
--> As bad weather so plane does not land.
VEtran: For dirty weather ought to plane landed.
Google: Because of bad weather, the plane not landing.
Sentence 44 (44): Dù nó có nhiều tiền nhưng nó vẫn không hạnh_phúc.
--> Whether it has some moneys but still not happy it.
VEtran: Even if it is moneyed but it still whoes isn't blisstul.
Google: Although it has a lot of money but it is still not happy.
Sentence 45 (45): Cuốn sách anh đang đọc là của cô ấy.
--> Book you are reading is property that.
VEtran: Wind you is reading book is hers.
Google: The book he was reading her.
Sentence 46 (46): Tôi đã đọc cuốn tiểu_thuyết mà anh ấy viết.
--> I read fiction that he writes.
VEtran: I readed novel that he writes.
Google: I have read the novel that he wrote.
Sentence 47 (47): Sở_dĩ nhà_máy của Loan hết việc là_do thiết_bị và
phụ_tùng đã hết.
--> Loan's factory expires job because equipment and accessories
finished.
VEtran: That's why be owing to plant and accessary finis Phoenix's
factory ended.
Google: The reason Taiwan factory all is due to equipment and spare parts
of all.
Sentence 48 (48): Ở chợ , quần_bò nhiều quá , tôi không biết chọn loại
nào cả.
--> At market, too much jeans , I do not know all choosing which sort.
VEtran: ở my bazaar, trousers who crept much whopping, is unaware which
kind to choose is all together.
Google: At the market, many jeans too, I do not know how to select all.
Sentence 49 (49): Lâu rồi tôi không nhận được tin_tức gì của cô ấy cả.
--> After long I do not all accept her anything news.
VEtran: Long then I don' t receive news hers is all together.
Google: Long time since I received news of her whole.
Sentence 50 (50): Tôi chưa hiểu gì về cô ấy cả.
--> I have not all understood anything about her.
VEtran: Not already My That what comprehension about her is all together.
Google: I do not know anything about her.
183
excludes=“ past,future”> ... rule>
... rule>
rules>
• Ký hiệu ... chỉ nội dung của luật, có thể viết trên nhiều dòng.
• Thuộc tính requires chứa tập các luật cần thực hiện trước luật đang xét
• Thuộc tính excludes ngăn cản việc thực hiện luật đang xét nếu một trong các luật trong
Trong tập luật này,
danh sách sau từ khóa excludes đã được thực hiện
Luật được đọc từ tệp XML, phân tích và xử lý tự động theo văn phạm. Với cú pháp khá
đơn giản, người sử dụng có thể dễ dàng thêm luật mới.
Các luật chính được liệt kê trong phụ lục 4.
4.3.3.Hoàn thiện câu dịch
Sau khi đã phát hiện thuộc tính, di chuyển vị trí, biến đổi hình thái thích hợp, còn một
•••• Hiện tượng chuyển loại từ:
số vấn đề cần thực hiện để tạo ra bản dịch có chất lượng tốt. Đó là:
- Danh từ có vai trò tính từ. Khi dịch sang tiếng Anh cần chuyển thành tính từ,
ví dụ “huy chương vàng” , vàng ở đây là từ chỉ chất liệu với liên kết CH, cần
chuyển sang tính từ tương ứng.
- Tính từ hay động từ đi sau “sự”, “việc” làm chuyển loại cả cụm từ thành danh
125
từ.
•••• Tính từ bổ nghĩa cho động từ: Tiếng Việt không có phó từ, nhưng sang tiếng Anh
•••• Loại bỏ danh từ chỉ loại.
cần dịch thành phó từ.
Luận án đã xây dựng tập luật bao trùm được các hiện tượng này
Lựa chọn nghĩa từ: Dù đã qua nhiều công đoạn khử nhập nhằng trong quá trình phân
tích cú pháp, đến đây ta vẫn có thể gặp hiện tượng nhập nhằng về nghĩa từ, đó là khi một
từ tiếng Việt tương ứng với nhiều nghĩa tiếng Anh khác nhau. Chẳng hạn từ “làm” có thể
mang nghĩa “make” hay “manufacture” (Lưu ý là từ “làm” với nghĩa tương ứng “work”
gắn với một công thức khác so với từ “làm” mang hai nghĩa trên).
Như vậy, dù chỉ có một phân tích liên kết duy nhất được chọn, vẫn có thể có nhiều bản
dịch tương ứng với nhiều tổ hợp nghĩa khác nhau của các từ. Vấn đề ở đây là chọn ra tổ
hợp “trôi chảy” nhất, tức là cách thức hay được người bản ngữ sử dụng nhất. Luận án đã
giải quyết bằng cách dùng bộ ngữ liệu tiếng Anh và tính xác suất để chọn bản dịch tốt nhất.
Bộ ngữ liệu được chọn là COCA rút gọn (chỉ chứa những n-gram xuất hiện ba lần trở lên)
[136].
¶
Câu S với các từ w1, w2,. . .wnđược chọn dựa theo tiêu chí sau:
(f(cid:176),f–,..f†) ·log ((cid:16)(h!) + ƒ (cid:18)(cid:181)w(cid:16)(h(cid:151)
(f(cid:176),f–,..f†) (cid:16)(‡) = max argmax
(cid:151) •
|h(cid:151)(cid:155)!)‚
4.3.4.Kết quả thử nghiệm với bộ dịch dựa trên dạng tuyển có chú giải
Như đã giới hạn phạm vi quan tâm ngay từ đầu, việc thử nghiệm hệ thống dịch với
ADJ là để minh họa khả năng biểu diễn của văn phạm liên kết tiếng Việt, còn phải hoàn
thiện nhiều để trở thành một công cụ dịch phổ biến. Tuy nhiên, đề xây dựng bộ ngữ liệu
thử nghiệm cũng là một khó khăn. Hiện chưa có bộ ngữ liệu chuẩn cho dịch Việt - Anh
nên chúng tôi đã tự xây dựng bộ ngữ liệu riêng cho mình.
Hệ thống dịch được xây dựng bằng công cụ Java để tích hợp với các bộ phân tích cú
pháp. Bộ ngữ liệu gồm 336 câu thu thập từ sách dạy tiếng Việt cho người nước ngoài trình
độ nâng cao [18]. Ưu điểm của tập mẫu này là chúng được viết bởi các giáo sư về tiếng
Việt và bản dịch tiếng Anh đã được hiệu đính cẩn thận. Dưới đây là ví dụ minh họa hoạt
động của hệ thống dich xử lý một số mẫu câu:
1.”Mẹ tôi là một bác_sĩ giỏi”
Kết quả phân tích cú pháp:
126
# +----DT_LA----+------LA_DT------+ # +--SHA--+ | +----McN---+---SA--+ # | | | | | | # Mẹ.n tôi.p là.v một bác_sĩ.n giỏi.a Các dạng tuyển tìm được cho mỗi từ là:
mẹ: ()(SHA DT_LA)
tôi: (SHA)()
là: (DT_LA)(LA_DT)
một: ()(McN)
bác sĩ: (McN LA_DT)(SA)
giỏi: (SA)()
• Luật xác định ngôi cho danh từ “mẹ”.
• Luật dịch quan hệ sở hữu ẩn.
• Luật chuyển đổi thứ tự giữa nghĩa của danh từ “bác sĩ” và tính từ “giỏi” .
Để dịch câu này, các luật sau đã được áp dụng
Bản dịch được hệ thống của luận án và hệ thống Google đưa ra là giống nhau:
My mother is a good doctor
Kết quả dịch với VEtran:
My mother is a jurisprudent physician.
Kết quả dịch của ba hệ thống không có sự khác biệt lớn. Hệ thống của luận án và
Google có sự đối chiếu với ngữ liệu mẫu khi chọn từ nên đưa ra bản dịch “good doctor”
trong khi VEtran dùng cụm từ “jurisprudent physician” về nghĩa trong từ điển Việt - Anh
không khác biệt nhưng không sát nghĩa thực tế.
2. “Báo_săn là loài động_vật nhanh nhất thế_giới”
Kết quả phân tích cú pháp
# +-----LA_DT-----+
# +-DT_LA-+ +---ĐV--+--SA-+-TT_SS+---NHAT_DTv--+
# | | | | | | |
# Báo_săn.n là.v loài động_vật.n nhanh.a nhất thế_giới.n
Các dạng tuyển nhận được:
báo săn: ()(DT_LA)
là: (DT_LA)(LA_DT)
loài: ()(ĐV)
động vật: (ĐV LA_DT)(SA)
nhanh: (SA)(TT_SS)
nhất: (TT_SS)(NHAT_DT)
thế giới: (NHAT_DTv)()
127
Quá trình dịch thông qua nhiều luật được mô tả trong hình 4.4 dưới đây:
Hình 4.4. Quá trình dịch câu “Báo săn là loại động vật nhanh nhất thế giới”
Kết quả thực hiện của hệ thống dịch ADJ
Cheetah is the quickest animal world
Kết quả thu được với VEtran:
Cheetah is world' s fast animal the kind.
Kết quả do Google đưa ra:
Alert hunt is the world's fastest animal
Cả ba bản dịch đều có những hạn chế. Bản dịch của ADJ đã không phát hiện được quan
hệ sở hữu của từ “thế giới” trong khi bản dịch của VEtrans dịch được quan hệ đó nhưng
lại không dịch được tính từ so sánh cấp cao nhất và dịch sai từ “loài”. Bản dịch của
Google dịch rất tốt cụm từ “nhanh nhất thế giới” nhưng lại gặp lỗi ở từ “báo săn”.
So sánh trên toàn thể bộ ngữ liệu, có thể thấy với những cụm từ thường dùng, Google
cho kết quả “thực” hơn. Tuy nhiên kết quả của hệ thống dịch của luận án và VEtran thường
đúng về cú pháp và hình thái hơn, trong đó hệ thống dịch của luận án có phần “trôi chảy”
hơn, do mối liên kết được xác lập đến từng từ cá biệt. Rõ ràng việc kết hợp các phương
pháp khác nhau sẽ nâng chất lượng của bản dịch lên cao hơn.
Hiện nay, do chưa có một bộ ngữ liệu đủ lớn để giải quyết triệt để vấn đề nhập nhằng
trong phân tích cú pháp, độ chính xác của bộ phân tích cú pháp còn chưa cao. Đối với bộ
ngữ liệu 336 câu hội thoại, còn nhiều cụm ở dạng văn nói, chưa có trong ngữ liệu toàn các
câu văn viết, nên kết quả trả về của bộ phân tích cú pháp còn thấp (độ chính xác
(precision): 22.7%, độ phủ (recall): 28.8%, độ đo F-score: 0.28). Nếu dùng nguyên dạng
kết quả của bộ phân tích cú pháp, có thể không đánh giá chính xác chất lượng của hệ thống
dịch. Để nghiên cứu một cách tổ một cách tổng thể về ảnh hưởng của các thành phần tron ần trong hệ thống
đến chất lượng dịch, luận án đ đã thử nghiệm trên 2 hệ thống sau:
ADJ1: Cho phép loại bỏ bớt n ại bỏ bớt những sai sót có thể có trong quá trình phân tíc ình phân tích cú pháp
bằng cách xác định một số ràng àng buộc để chọn chính xác phân tích của câu, cụ của câu, cụ thể là báo
trước một số cặp từ chắc chắn x chắc chắn xuất hiện liên kết. Đây cũng là kỹ thuật được d ợc dùng trong
[94] để hạn chế số phân tích đ phân tích đưa ra. Câu đưa vào đã chỉnh kết quả tách từ. Độ ả tách từ. Độ chính xác
của bộ phân tích cú pháp cho AD pháp cho ADJ1 là 80.2%, độ phủ 81.4%, F-score 0.81.
ADJ2: Không cho phép ràng b o phép ràng buộc và tách từ.
Dù bộ ngữ liệu còn nhỏ, lu luận án đã sử dụng phương pháp BLEU [100] với th ới tham số n =
2, 3, 4, 5 để so sánh với kết quả với kết quả đạt được của VETran và Google. Kết quả nhậ ết quả nhận được thể
hiện trong bảng 4.4.
Bảng ảng 4.4. So sánh kết quả các hệ thống dịch
Google Goog VEtran ADJ1 ADJ2
0.169816 0.209987 0.263627 0.157450 0.1698 2
0.133085 0.140612 0.181787 0.091807 0.1330 3
0.109895 0.096798 0.127502 0.056950 0.1098 4
0.090472 0.069292 0.091302 0.036461 0.0904 5
Biểu đồ trong hình 4.5 cho ph cho phép so sánh điểm BLEU của các hệ thống dịch n thống dịch nói trên của
luận án với hai hệ thống dịch Vi Việt - Anh phổ biến là Google Translation và VEtr ation và VEtrans.
Hình 4. .5. So sánh điểm BLEU của các hệ thống
Vấn đề nhập nhằng khi áp dụ khi áp dụng luật
Đây là vấn đề mà tất cả các hệ ất cả các hệ thống dịch dựa trên luật phải quan tâm xử lý. n tâm xử lý. Tuy nhiên,
với những quy định chặt chẽ của chặt chẽ của mô hình văn phạm liên kết, xác suất xảy ra nhậ ất xảy ra nhập nhằng là
rất nhỏ. Đó là vì những lý do sau ng lý do sau:
1. Tập luật dịch của hệ thống bao gồm ba tập con . Thứ tự áp dụng luật như trên sơ đồ ở
hình 4.2 là: xác định thuộc tính→ dịch cụm từ→ chuyển đổi cấu trúc. Sự nhập nhằng
khi áp dụng luật( nếu có) chỉ có thể xảy ra trong từng tập con. Tuy nhiên, với văn phạm
liên kết, luật chỉ được sử dụng khi thỏa mãn cả hai yếu tố:
- Từ đang xét xuất hiện trong luật
- Tất cả các mối liên kết của từ được nêu trong luât phải thỏa mãn.
2. Ngoài ra, thuộc tính exclude của một số luật (đã mô tả ở trên) cũng góp phần khử nhập
nhằng. Do vậy, khi phân tích cú pháp của câu đã xác định, rất khó xảy ra việc nhập
nhằng khi áp dụng luật. Trong ba tập luật của hệ thống, chưa có luật nào có thể gây
nhập nhằng trong lúc lựa chọn. Sự nhập nhằng chủ yếu xảy ra khi phân tích, chẳng hạn
với hai câu “tôi bán hoa rất nhanh” và “tôi bán hoa rất tươi” có thể dẫn đến nhầm lẫn
khi không có dấu hiệu nào cho thấy tính từ chỉ tính chất bổ nghĩa cho từ “hoa” hay từ
“bán”. Tuy nhiên khi đã xác định phân tích, nếu là:
# +----SV----+ +--------SA--------+ # + +----O---+ +---RlAp--+ # | | | | | # Tôi.p bán.v hoa.n rất.r tươi.a
thì luật về thay đổi trật tự từ được áp dụng. Nếu phân tích được chọn là:
# +-----------VtAp------------+ # +----SV---+----O---+ +---RlAp--+ # | | | | | # Tôi.p bán.v hoa.n rất.r nhanh.a thì luật về chuyển loại nghĩa của từ “nhanh” sang phó từ tiếng Anh lại được áp dụng.
4.4. Kết luận
Hệ thống dịch sử dụng dạng tuyển có chú giải được xây dựng với mục đích minh họa
cho khả năng biểu diễn tiếng Việt của văn phạm liên kết. Tuy vậy, nếu đánh giá như một
hệ thống dịch, kết quả nhận được cũng rất đáng chú ý: với kết quả tốt của bộ tách từ và
phân tích cú pháp, hệ thống đạt kết quả nhỉnh hơn một chút so với Google và VEtran. Chú
ý rằng, để đạt kết quả này, bộ luật dịch của hệ thống chưa có tới 300 luật, ít hơn rất nhiều
130
so với VEtran và cũng không cần sử dụng bộ ngữ liệu song ngữ. Dù mới là thử nghiệm
trên bộ ngữ liệu nhỏ, có thể thấy khả năng sử dụng mô hình văn phạm liên kết cho bài toán
dịch máy là rất có triển vọng.
Tuy đã đạt được kết quả nhất định trong dịch máy Việt – Anh, hệ thống vẫn còn những
• Dịch câu có cấu trúc liên hợp (coordination) sử dụng kết nối lớn, ví dụ, cụm từ tiếng
vấn đề chưa giải quyết được:
Việt trong [4]“một sinh viên khoẻ mạnh, cao và tử tế”. Việc dịch loại câu này đòi hỏi
một phân tích cú pháp chính xác, chỉ có được khi khử nhập nhằng liên hợp trong câu
• Dịch câu ghép và câu phức: Câu ghép và câu phức chứa từ hai nòng cốt trở lên, trong
chứa từ “và “ và dấu phảy.
đó câu phức có chứa một nòng cốt bao các nòng cốt còn lại [1].Trong tập ngữ liệu mẫu,
đã có một số câu ghép 2 mệnh đề, tuy nhiên chất lượng dịch các câu này chưa được tốt.
Có thể thấy việc xử lý các loại câu ghép là khả thi vì chúng tôi đã xây dựng được bộ
phân tích cú pháp xử lý khá tốt trường hợp nhập nhằng liên hợp và phân tích câu ghép
với nhiều mệnh đề.
Việc nhận biết giới hạn các mệnh đề trong câu phức, cũng như các thành phần cụm chủ
vị đôi khi đòi hỏi thiết lập một liên kết giữa các từ không liền kề. Các xử lý để phân tách
mệnh đề hay giải quyến vấn đề nhập nhằng về cụm trạng từ hiện nay đều theo hướng tiếp
cận học máy trên tập ngữ liệu lớn. Hệ thống sẽ tiếp tục được phát triển theo hướng này khi
đã xây dựng được bộ ngữ liệu mẫu đủ lớn.
Một vấn đề khác cũng gây khó khăn trong xử lý: dịch cụm từ dạng n - 1 (n từ tiếng
Việt sang 1 từ tiếng Anh). Ngoài những cụm từ rất phổ biến mà luận án đã xử lý, cần đến
sự hỗ trợ của từ điển thành ngữ và bộ ngữ liệu mẫu song ngữ.
Với đặc điểm hoàn toàn từ vựng hóa của văn phạm liên kết, bộ luật dịch của hệ thống
thể hiện được những đặc điểm hết sức riêng và cá biệt của ngôn ngữ nguồn và ngôn ngữ
đích. Công việc này chắc chắn cần những hiểu biết sâu về cú pháp, từ pháp của cả hai ngôn
ngữ. Bộ luật dịch có thể thay đổi hoàn toàn nếu thay đổi cặp ngôn ngữ nguồn – đích, nghĩa
là khó có thể sử dụng cho cặp ngôn ngữ khác. Tuy nhiên, để mở rộng hệ thống dịch, có thể
quan tâm đến công cụ cho phép các nhà ngôn ngữ định nghĩa các quy tắc cú pháp [31].
Nếu theo hướng tiếp cận này, việc phân tích cú pháp theo biểu đồ (chart parsing) từ văn
phạm liên kết cũng dễ hơn so với các mô hình khác vì phân tích liên kết thực chất đã có
dạng biểu đồ. Như vậy có thể tính đến khả năng mở rộng hệ thống dịch cho các cặp ngôn
131
ngữ khác.
Như đã trình bày, do chưa đủ tài nguyên để xây dựng một hệ thống dịch máy thật hoàn
thiện, hệ thống dịch máy của luận án nhằm mục đích minh họa khả năng biểu diễn tiếng
Việt của văn phạm liên kết. Tuy nhiên, với chất lượng dịch khá thuyết phục, việc kết hợp
mô hình dịch này với hệ thống dịch theo cách tiếp cận thống kê chắc chắn sẽ nâng cao
được chất lượng bản dịch do có thể kết hợp sự trôi chảy của phương pháp thống kê với sự
chính xác của những biến đổi hình thái và cú pháp. Một trong những minh chứng cho điều
đó là sự kết hợp phân tích liên kết để hoàn chỉnh bản dịch ở hệ dịch máy trên nền ví dụ. Tỷ
lệ câu dịch hoàn toàn đúng với câu mẫu đã tăng khá nhiều. Kết hợp giữa cách tiếp cận
132
thống kê và văn phạm liên kết là hướng phát triển của hệ thống trong thời gian tới.
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Tóm tắt
Luận án hướng tới xây dựng một mô hình mới để biểu diễn cú pháp tiếng Việt. Mô
hình này theo hướng tiếp cận phổ biến hiện nay: hướng tiếp cận phụ thuộc và từ vựng hóa.
Để xây dựng mô hình liên kết mà không có sự hỗ trợ của những nghiên cứu về ngôn
ngữ học, luận án đã phải nghiên cứu và tổng hợp các kiến thức về cú pháp tiếng Việt, rút ra
những đặc trưng về liên kết từ và các cấu trúc, tham khảo ý kiến của các nhà ngôn ngữ học
để có một mô hình liên kết chấp nhận được cho tiếng Việt.
Nhằm thử nghiệm và minh chứng cho những ưu việt của mô hình biểu diễn cú pháp
liên kết, luận án đã xây dựng bộ phân tích cú pháp liên kết. Kết quả đạt được với câu đơn
và câu ghép là khả quan, không kém các mô hình truyền thống, tuy nhiên việc lưu trữ và
tìm kiếm phân tích lại đơn giản hơn rất nhiều.
Tiếng Việt là ngôn ngữ châu Á, có những đặc điểm rất khác biệt so với các ngôn ngữ
châu Âu, đặc biệt là về biến đổi hình thái. Tận dụng khả năng biểu diễn thông tin hình thái
của văn phạm liên kết, luận án đã thử nghiệm hệ thống dịch với công cụ của văn phạm liên
kết là dạng tuyển có chú giải. Kết quả thử nghiệm ban đầu là chấp nhận được cho tập ngữ
liệu nhỏ.
Các đóng góp chính của luận án
Về mặt khoa học
Lần đầu tiên mô hình văn phạm liên kết được xây dựng cho tiếng Việt, một mô hình
kiểu phụ thuộc, rất linh hoạt và có nhiều ứng dụng thực tế. Văn phạm liên kết đã biểu diễn
được một cách linh hoạt rất nhiều hiện tương trong tiếng Việt mà theo hiểu biết của mình
chúng tôi chưa thấy các mô hình khác xử lý.
Bộ phân tích cú pháp tiếng Việt cho một biểu diễn cú pháp rất nhỏ gọn, tạo thuận lợi
cho việc xây dựng ngân hàng phân tích liên kết. Việc phân tích được các câu ghép ở nhiều
dạng khác nhau cho khả năng ứng dụng tốt cho các công việc khác, chẳng hạn như tạo
những bản dịch chất lượng cao.
Cụ thể, luận án đã có những đóng góp sau đây:
133
1. Xây dựng một mô hình liên kết cho tiếng Việt ở mức cú pháp
2. Hoàn thành bộ từ điển liên kết với 40.000 mục từ, hơn 150 công thức và 77 loại kết
nối.
3. Xây dựng thử nghiệm bộ phân tích cú pháp tiếng Việt ở mức câu đơn.
4. Đề xuất giải thuật kiểu Viterbi để khử nhập nhằng thành phần theo mô hình 3-
gram.
5. Cải tiến giải thuật phân tích diễn ngôn ở mức câu kết hợp với phân tích liên kết.
Xây dựng giải thuật phân tích cú pháp cho câu ghép và giải quyết được các vấn đề
sau:
a. Phân tích cú pháp liên kết cho các câu ghép gồm nhiều mệnh đề với nhiều
loại quan hệ diễn ngôn phức tạp.
b. Phát triển việc giải quyết vấn đề nhập nhằng liên hợp: giải quyết nhập
nhằng khi từ “và”, dấu phảy đóng vai trò dấu hiệu diễn ngôn và vai trò liên
từ.
6. Xây dựng mô hình dịch máy tự động Việt - Anh dựa trên dạng tuyển có chú giải.
7. Xây dựng từ điển ADJ Việt - Anh với kích cỡ tương đương như từ điển văn phạm
liên kết.
8. Xây dựng tập luật dịch Việt - Anh với khoảng 300 luật dịch.
9. Xây dựng và thử nghiệm hệ thống dịch máy Việt - Anh dựa trên dạng tuyển có chú
giải. Hệ thống cho kết quả chấp nhận được với tập mẫu câu tiếng Việt cơ bản và
nâng cao.
Đây hoàn toàn là những kết quả mới vì mô hình văn phạm liên kết chưa từng được xây
dựng cho tiếng Việt. Việc phân tích câu ghép nhiều mệnh đề bằng văn phạm liên kết chưa
được giải quyết trên ngôn ngữ nào. Mô hình dịch dựa trên dạng tuyển có chú giải dù đã
được sử dụng dịch Anh – Indonesia nhưng khi ứng dụng cho hệ dịch Việt - Anh đã được
xây dựng hoàn toàn mới, thể hiện những đặc trưng quan trọng của tiếng Việt và khắc phục
được sự khác biệt lớn về cú pháp giữa hai ngôn ngữ.
Về mặt thực tiễn
1. Mô hình văn phạm liên kết xây dựng cách phân tích cú pháp mới cho tiếng Việt.
2. Hệ thống từ điển sẽ hỗ trợ tốt cho những người muốn tiếp cận vấn đề theo mô hình
này.
3. Ngân hàng phân tích liên kết tạo khả năng cho những nghiên cứu theo mô hình liên kết.
134
với cách tiếp cận thống kê.
4. Hỗ trợ việc quảng bá thông tin về du lịch, văn hóa xã hội ra thế giới.
5. Hỗ trợ tốt cho việc giảng dạy tiếng Việt.
6. Kết quả phân tích cú pháp rất dễ hiểu và gần gũi với ý tưởng của người học, đặc biệt là
những người không theo chuyên ngành ngôn ngữ học.
7. Bộ dịch cho chất lượng tốt trên tập mẫu câu nhỏ (Thích hợp với chương trình tiếng
Việt cơ bản và nâng cao).
Hạn chế và hướng phát triển
Bộ phân tích cú pháp đã làm việc khá hiệu quả với lớp câu đơn và câu ghép. Tuy nhiên
luận án chưa mô hình hóa được liên kết trong trường hợp câu phức, khi các mệnh đề có
phần bao trùm lên nhau và giao nhau, ví dụ câu “Cái quạt mà cậu cho tôi hôm qua chạy rất
tốt”. Luận án mới chỉ xử lý được trường hợp mệnh đề trạng ngữ ở đầu câu, chưa phân tích
được với một số trường hợp mệnh đề trạng ngữ ở những vị trí khác.
Sau khi đã có bộ phân tích cú pháp, việc xây dựng cơ sở dữ liệu đa phương tiện các
phân tích liên kết có thể trợ giúp một cách hữu hiệu cho người học tiếng Việt trong việc
tìm hiểu những cấu trúc cú pháp của tiếng Việt.
Bộ ngữ liệu mẫu cũng như ngân hàng phân tích cần được mở rộng hơn để có những
đánh giá chính xác và toàn diện hơn.
Nếu có được ngân hàng câu song ngữ Việt - Anh cũng như bộ từ điển Việt - Anh đầy
đủ hơn, có thể chỉnh sửa từ điển ADJ để khử nhập nhằng nghĩa tốt hơn.
Hệ thống dịch với ADJ hoàn toàn trên luật đã hoạt động khá hiệu quả. Do hạn chế về
thời gian, luận án mới thực hiện dịch trên các câu đơn và câu ghép hai mệnh đề. Với hệ
thống phân tích câu ghép đã có, việc dịch câu ghép nhiều mệnh đề là hoàn toàn khả thi.
Ngoài ra, nếu kết hợp được với một hệ thống dịch thống kê, hệ thống này sẽ tham gia quá
trình tinh chỉnh bản dịch và chắc chắn sẽ cho những bản dịch có chất lượng tốt hơn nhiều.
Luận án đã bước đầu thử nghiệm trên một hệ thống có tính chất tương tự là hệ thống dịch
135
trên nền ví dụ, đạt được kết quả khả quan.
CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ
1. Nguyễn Thị Thu Hương, Lê Văn Chương (2008) Phân tích diễn ngôn cho văn bản
tiếng Việt. Kỷ yếu Hội thảo khoa học quốc gia lần thứ tư về nghiên cứu, phát triển và
2. Nguyen Thi Thu Huong, Pham Nguyen Quang Anh (2011) A Link Grammar for
ứng dụng công nghệ thông tin và truyền thông ICT- rda 8/2008, trang 227-234.
Vietnamese. Journal on Information and Communicationn Technology, 8/2011, pp
27-38.
3. Nguyễn Thị Thu Hương, Nguyễn Thúc Hải, Nguyễn Thanh Thủy (2012) Kết hợp phân
đoạn diễn ngôn với bộ phân tích cú pháp liên kết để phân tích cú pháp câu ghép nhiều
mệnh đề tiếng Việt. Tạp chí Tin học và Điều khiển học, Tập 28, Số 4, 2012, trang 297-
309.
4. Nguyễn Thị Thu Hương, Lê Ngọc Minh (2012) Ứng dụng văn phạm liên kết trong
dịch máy Việt - Anh. Chuyên san Các Công trình Nghiên cứu, Phát triển và Ứng dụng
Công nghệ Thông tin và Truyền thông, tạp chí Công nghệ Thông tin và Truyền thông
136
tập V-1 số 8(28) 12/2012, trang 44 - 56.
TÀI LIỆU THAM KHẢO
TIẾNG VIỆT
[1] Diệp Quang Ban (1989) Ngữ pháp tiếng Việt. NXB Giáo dục.
[2] Nguyễn Tài Cẩn (1996) Ngữ pháp tiếng Việt (Tiếng - Từ ghép - Đoản ngữ). NXB Đại học
quốc gia Hà Nội.
[3] Đinh Điền (2002) Dịch tự động Anh - Việt dựa trên việc học luật chuyển đổi từ ngữ liệu
song ngữ. Luận án Tiến sĩ, ĐHKHTN- ĐHQG TP Hồ Chí Minh.
[4] Đinh Điền (2011) So-sánh trật-tự từ của định-ngữ giữa tiếng Anh và tiếng Việt. Tập san
Khoa học xã hội và nhân văn- Đại học Khoa học Xã hội và Nhân văn Thành phố Hồ Chí
Minh, trang 69-80
[5] Nguyễn Gia Định, Trần Thanh Lương, Lê Viết Mẫn (2004) Một số cải tiến giải thuật
Earley cho việc phân tích cú pháp trong xử lý ngôn ngữ tự nhiên. Tạp chí khoa học Đại
học Huế, số 25/2004, trang 43-52.
[6] Cao Xuân Hạo (2006) Tiếng Việt sơ thảo ngữ pháp chức năng. NXB Khoa học Xã hội.
[7] Phan Xuân Hiếu (2009).JVnTagger, công cụ gán nhãn từ loại dựa trên Conditional
Random Field và Maximum Entropy. Báo cáo SP8.3, Đề tài KC.01.01/06-10
[8] Nguyễn Chí Hòa (2004) Ngữ pháp tiếng Việt thực hành. NXB Đại học quốc gia Hà Nội
[9] Nguyễn Chí Hòa (2005) Các phương tiện liên kết và tổ chức văn bản. NXB Đại học Quốc
gia Hà Nội
[10] Lê Khánh Hùng (2004) Nghiên cứu xây dựng thử nghiệm phần mềm dịch tự động Việt-
Anh. Báo cáo tổng kết đề tài nhánh cấp nhà nước KC-01-03
[11] Lê Khánh Hùng (2003) Một phương pháp dịch máy liên ngữ. Kỷ yếu Hội thảo Khoa học
Quốc gia lần thứ nhất về Nghiên cứu, Phát triển và Ứng dụng CNTT&TT, Hà nội, 2003
[12] Lê Thanh Hương, Phạm Hồng Quang, Nguyễn Thanh Thuỷ (2000) Một cách tiếp cận
trong việc tự động phân tích cú pháp văn bản tiếng Việt. Tạp chí Tin học và Điều khiển
học 4/2000
[13] Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương(2003) Sử dụng bộ gán
nhãn từ vựng QTAG cho văn bản tiếng Việt. Kỷ yếu Hội nghị Quốc gia về Nghiên cứu,
Phát triển và Ứng dụng Công nghệ Thông tin và Truyền thông ICT-rda’03, Hanoi, trang
137
271-280
[14] Đỗ Bá Lâm, Lê Thanh Hương (2008) Xây dựng hệ thống phân tích cú pháp tiếng Việt sử
dụng văn phạm HPSG. Kỷ yếu hội thảo ICT- rda 8/2008, trang 235-242
[15] Hà Thành Lê, Lương Chi Mai, Huỳnh Quyết Thắng, Định Thị Phương Thu (2006) Kết
hợp các phương pháp chọn câu quan trọng xây dựng ứng dụng tóm tắt văn bản tiếng Việt,
Kỷ yếu hội thảo “Một số vấn đề chọn lọc của công nghệ thông tin”, 2006, trang 413-421
[16] Vũ Xuân Lương, Nguyễn Thị Minh Huyền(2009) SP7.2 - Từ điển tiếng Việt dùng cho xử
lý ngôn ngữ tự nhiên (quyển 2)
[17] Nguyễn Lê Minh, Hoàng Thị Điệp, Trần Mạnh Kế (2008) Nghiên cứu luật hiệu chỉnh kết
quả dùng phương pháp MST phân tích cú pháp phụ thuộc tiếng Việt. Kỷ yếu hội thảo ICT-
rda 8/2008 trang 258-267
[18] Nguyễn Thiện Nam (1998) Tiếng Việt nâng cao cho người nước ngoài. NXB Giáo dục
[19] Đỗ Phúc, Hồ Anh Thư (2005) Rút trích và tóm tắt nội dung trang web tiếng Việt. Kỷ yếu
hội thảo khoa học quốc gia lần thứ hai “Nghiên cứu cơ bản và ứng dụng công nghệ thông
tin” - TP Hồ Chí Minh, 2005, trang 317-328
[20] Lê Hồng Phương, Nguyễn Thị Minh Huyền, Nguyễn Phương Thái, Phan Thị Hà (2010)
Trích rút tự động văn phạm LTAG cho tiếng Việt. Tạp chí Tin học và Điều khiển số
2/2010.
[21] Stankevich N.V. (1982) Các loại hình ngôn ngữ. NXB Đại học và Trung học chuyên
nghiệp,
[22] Nguyễn Quốc Thế, Lê Thanh Hương (2007) Phân tích cú pháp tiếng Việt sử dụng văn
phạm phi ngữ cảnh từ vựng hóa kết hợp xác suất. Kỷ yếu hội thảo FAIR, Nha Trang, Việt
nam, 9-10/8/2007
[23] Trần Ngọc Thêm (1999) Hệ thống liên kết văn bản tiếng Việt. NXB Giáo dục
[24] Cao Hoàng Trụ (2002) Ứng dụng ngữ liệu song ngữ Anh-Việt điện tử trong ngành ngôn
ngữ học so sánh. Tạp chí Ngôn ngữ, 2002(3), tr. 49-58
[25] Cao Hoàng Trụ (2005) Xây dựng và khai thác kho ngữ liệu song ngữ Anh-Việt điện tử.
Luận án tiến sĩ ngôn ngữ học so sánh, ĐH Khoa học Xã hội & Nhân văn – ĐHQG TP
HCM.
[26] Trần Ngọc Tuấn, Phan Thị Tươi (2006) Phân tích cụm danh từ tiếng Việt sử dụng văn
phạm hợp nhất. Tạp chí Bưu chính viễn thông và Công nghệ thông tin.
[27] Phan Thị Tươi (2002) Cải tiến một số giải thuật phân tích cú pháp trong xử lý ngôn ngữ
138
tự nhiên. Tạp chí Tin học và Điều khiến học, 3/2002.
[28] Ủy ban Khoa học xã hội Viêt Nam (1983) Ngữ pháp tiếng Việt. NXB Khoa học xã hội
Hà Nội.
TIẾNG ANH
[29] T.B. Adji, B. Baharudin, N. Zamin (2007) Annotated Disjunct in Link Grammar for
Machine Translation. International Conference on Intelligent and Advanced Systems 2007,
pp 205-208.
[30] T.B. Adji, B, Baharudin, N. Zamin (2007) Building Transfer Rules using Annotated Disjunct: An Approach for Machine Translation, The 8th Student Conference on Research
and Development, December 2007, Malaysia.
[31] J.W. Amtrup, K. Mergerdoomian, R. Zajac (1999) Rapid Development of Translation
Tool. Proceedings of Machine Translation Summit, 1999, p 385-389.
[32] H. T. Bao, S. Kawasaki , N. N. Binh (2002) Cluster-based Information Retrieval with a
Tolerance Rough Set Model. International Journal of Fuzzy Logic and Intelligent Systems,
Vol. 2, No. 1, pp. 26-32, 2002.
[33] H. T. Bao, N. N. Binh (2002) Nonhierarchical Document Clustering by a Tolerance
Rough Set Model. International Journal of Intelligent Systems, John Wiley & Sons, Vol.
17, No. 2, pp. 199-212, 2002.
[34] D. Béchet (2003) k-Valued Link Grammars are Learnable from Strings. Proceedings of
Formal Grammar, Vienna, Austria, pp. 9-18.
[35] A. Bharati, D. M. Sharma, Sukhada (2009) Adapting Link Grammar Parser (LGP) to
Paninian Framework Mapping of Parser Relations for Indian Languages. National
Seminar on Computer Science and its Applications in Traditional Shastras (CSATS'09).
[36] N. T. Bon, N. T. M. Huyen, R. Laurent, V. X. Luong (2004) Developing tools and
building linguistic resources for Vietnamese morpho-syntactic processing. Proceedings of
the 4th International Conference on Language Ressources and Evaluation (LREC04),
Lisbon.
[37] N. T. Bon, N. T. M. Huyen, R. Laurent, V. X. Luong (2004) Lexical descriptions for
Vietnamese language processing. Proceedings of the Asian Language Resources
Workshop (ALR-04), IJC-NLP 2004, Hainan, China.
139
[38] Harry Bunt, Paola Melo, Joakim Nivre (2010) Trends in Parsing Technology. Springer.
[39] Marie Candito , Benoît Crabbé, Pascal Denis (2010) Statistical French dependency
parsing: treebank conversion and first results. Seventh International Conference on
Language Resources and Evaluation - LREC 2010, La Valletta, Malta.
[40] Marie Candito, Joakim Nivre, Pascal Denis, Enrique Henestroza Anguiano (2009)
Benchmarking of Statistical Dependency Parsers for French. NODALIDA 2009
Conference Proceedings, pp. 166–173.
[41] E.Charniak (1997) Statistical parsing with a context - free grammar and word statistics.
Proceeding of AAAI, 1997.
[42] Yuchang Cheng, Masayuki Asahara, Yuji Matsumoto (2007) Temporal Relation
Identification Using Dependency Parsed Tree. Proceedings of the 4th International
Workshop on Sementic Evaluations (SemEval-2007), pp. 245-248.
[43] M. Collins (2003). Head-Driven Statistical Models for Natural Language Parsing.
Computational Linguistics Vol 29(4), pp 589-637.
[44] M. A. Covington (2001) A Fundamental Algorithm for Dependency Parsing. In
Proceedings of the 39th Annual ACM Southeast Conference, pp. 95-102.
[45] L. A. Cuong, H. V. Nam, A. Shimazu (2005) An Evidential Reasoning Approach to
Weighted Combination of Classifiers for Word Sense Disambiguation. International
Conference on Machine Learning and Data Mining in Pattern Recognition, MLDM 2005,
Leipzig, Germany, pp. 516-525.
[46] L. A. Cuong, H. V. Nam, A. Shimazu (2005) Combining Classifiers with Multi-
representation of Context in Word Sense Disambiguation, 9th Pacific-Asia Conference,
PAKDD, Hanoi, Vietnam, May 18-20, pp. 262-268.
[47] Dien D. Building an Annotated English-Vietnamese parallel corpus. MKS (Mon-Khmer
Studies): A Journal of Southeast Asian Linguistics and Languages, Vol.35 pp. 21-36.
[48] Dien D.(2002) Building a training corpus for Word Sense Disambiguation in the
English-to-Vietnamese Machine Translation. Proceedings of Workshop on Machine
Translation in Asia, COLING-02, Taiwan, 9/2002, pp.26-32.
[49] Yuan Ding, Martha Palmer (2005)Machine Translation using Probabilistic Synchronuos
Dependency Insertion Grammars. Proceedings of the 43rd Annual Meeting of the ACL,
Ann Arbor, June 2005, pp 541-548.
[50] Jing Ding, Daniel Berleant, Jun Xu, & Andy W. Fulmer. 2003. Extracting Biochemical
Interactions from MEDLINE Using a Link Grammar Parser. 15th IEEE International
140
Conference on Tools with Artificial Intelligence (ICTAI'03).
[51] George Doddington (2002) Automatic Evaluation of Machine Translation Quality Using
N-gram Co-Occurrence Statistics Proceedings of the Second International Conference on
Human Language Technology Research, pp138-145.
[52] P. Dumrong, J. Gould, G. Lee, L. Nicholson, K. Gao, P.Beling (2003) The Quantification
of Unstructured Information and its Use in Predictive Modeling. Proceedings of the 2003
Systems and Information Engineering Design Symposium.
[53] D. Rajesh Duthie & Rajendra Akerkar (2002) Knowledge Representation in KRIS Using
Link Grammar Parser.
[54] E. Fong and D. Wu (1995) Learning Restricted Probabilistic Link Grammars. IJCAII
Workshop on New Approaches to Learning for Natural Language Processing, August,
1995, Montreal, Canada, pp 49-56.
[55] Heidi J. Fox (2002) Phrasal Cohesion and Statistical Machine Translation. Proceedings
of the Conference on Empirical Methods in Natural Language Processing (EMNLP),
Philadelphia, July 2002, pp 304-311.
[56] V.Fromkin , R.Rodman, N.Hayams, (2010) An Introduction to Language (9th ed.).
Boston, MA: Thomson Wadsworth.
[57] H.Gaifman (1965) Dependency systems and phrase-structure systems. Informationand
Control 8(3).
[58] Filip Ginter, Sampo Pyysalo, Jorma Boberg, Tapio Salakoski (2006) Regular
Approximation of Link Grammar. FinTAL 2006, LNAI 4139, pp. 564–575.
[59] Dennis Grinberg, John Lafferty, Daniel Sleator (1995) A Robust Parsing Algorithm for
Link Grammars. CMU-CS, pp 95-125, August 1995.
[60] L. A. Ha.(2003) A Method for Word Segmentation in Vietnamese. In Proceedings of the
International Conferenceon Corpus Linguistics, Lancaster, UK.
[61] J¨org Hakenberg, Ill´es Solt, Domonkos Tikk, Luis Tari,Astrid Rheinl¨ander, Quang
Long Nguyen, Graciela Gonzalez, and Ulf Leser (2009) Molecular event extraction from
Link Grammar parse trees. Proceedings of the Workshop on Current Trends in Biomedical
Natural Language Processing: Shared Task, pp 86-94.
[62] D.G.Hays (1964) Dependency Grammar: A Formalism and some Observation Rand.
[63] L. M. Hoang, H. T. Bao, N. Yoshiteru (2005) Detecting Emerging Trends from Scientific
Corpora. International Journal of Knowledge and Systems Science, Vol. 2, No. 2, 2005,
141
pp. 53-59.
[64] J. E. Hopcroft, R.Motwani, J. D. Ullmann (2001) Introduction to Automata Theory,
Languages and Computation. Addison Wesley.
[65] R. Hudson (2010) Introduction to Word Grammar. Cambridge University Press.
[66] Le Thanh Huong (2004) Automatic Discourse Structure Generation Using Rhetorical
Structure Theory. Ph.D. dissertation, Middlesex University, U.K.
[67] Iyer R., Ostendorf. Modelling Long Distance Dependency in Language: topic mixture
and Dynamic Case Model, Speech and Audio Processing, IEEE Transactions on, Jan.1999,
pp. 30-39.
[68] Ozlem Istek (2006) A Link Grammar for Turkish. MSc.Thesis.
[69] A. K. Joshi, Y.Schabes (1990) Parsing with Tree Adjoining grammars. In “Current
Issues in Parsing Technologies”, Kluwer Accademic Publishers.
[70] D. Jurafsky, J. H. Martin (2009) Speech and Language Processing: An Introduction to
Natural Language Processing, Speech Recognition, and Computational Linguistics. 2nd
edition. Prentice-Hall.
[71] Kadambini K, Rama Sree R.J., Rama Krishnamacharyulu K.V. (2008) An English-
Sanskrit Machine Translation Using Link Parser.In Proceedings of National Seminar,
Tirupati, 2008.
[72] M.Kamayani, A. Purwarianti (2011) Dependency parsing for Indonesian, proceeding of
ICEEI, Bangdung,2011.
[73] P. H. Khanh (2000) Good Spelling of Vietnamese Texts, one aspect of CL in Vietnam.
Proceeding of ACL-2000, 38th Conference, HongKong, pp. 593-594.
[74] Sang-Soo Kim, Seong-Bae Park, and Sang-Jo Lee (2007) Resolving Dependency
Ambiguity ofSubordinate Clauses using Support Vector Machines. World Academy of
Science, Engineering and Technology 25/ 2007.
[75] S.Kübler, R.McDonald, J. Nivre (2009) Dependency Parsing, Morgan & Claypool.
[76] Sandra Kubler. Learning a Lexicalized Grammar for German. In D.M.W. Powers (ed.)
NemLaP3/CoNLL98: New Methods in Language Processing and Computational Natural
Language Learning, ACL, pp 11-18.
[77] M.Kuhlmann (2010) Depependency Structures and Lexicalized Grammar. An Algebraic
Approach. Springer.
[78] So Young Kwon (2006) KORPAR: A Rule Based Dependency Parser for Korean
142
implemented in PROLOG, Phd. thesis.
[79] John Lafferty, Daniel Sleator, Davy Temperley. Grammatical Trigrams: A Probabilistic
Model of Link Grammar. AAAI Technical Report FS-92-04, 1992.
[80] John Lafferty, Andrew McCallum, Fernando Pereira (2001) Conditional Random Fields:
Probabilistic Models for Segmenting and Labeling Sequence Data. ICML '01 Proceedings
of the Eighteenth International Conference on Machine Learning , pp 282 - 289.
[81] K.Lari, S. J. Young (1990) The estimation of Stochastic Context Free Grammar Using
the Inside-Outside Algorithm. Computer Speech and Language No 4,1990, pp 35-56.
[82] Jianming Li, Lei Zhang and Yong Yu. (2001) Learning to Generate Semantic Annotation
for Domain Specific Sentences. Workshop on Knowledge Markup and Semantic
Annotation at the 1st International Conference on Knowledge Capture (K-CAP 2001) ,
October, 2001, Victoria, B.C., Canada.
[83] Chin-Yew Lin, Franz Josef Och (2004) Automatic Evaluation of Machine Translation
Quality Using Longest Common Subsequence and Skip-Bigram Statistics.Proceedings ò the
42nd Annual Metting on Asociation for Computational Linguistics (ACL 04), Stroudsburg,
PA, USA.
[84] Harsha V. Madhyastha, N. Balakrishnan, & K. R. Ramakrishnan (2003) Event
Information Extraction Using Link Grammar. 13th International WorkShop on Research
Issues in Data Engineering: Multi-lingual Information Management (RIDE'03).
[85] Erlyn Maguilimotan, Yuji Matsumoto (2011) Dependency-based Analysis for Tagalog
Sentences. Proceedings of the 25th Pacific Asia Conference on Language, Information and
Computation,Singapore 2011, pp 343-352.
[86] William Mann, Sandra Thompson (1988) Rhetorical Structure Theory. Toward a
Functional Theory of Text Organization. Text, 8(3): 243-281.
[87] C.D.Manning, H.Schűtze (1999) Foundation of Statistical Natural Language Processing.
The MIT Press.
[88] Daniel Marcu (2000) The Theory and Practice of Discourse Parsing and Summarization.
Cambridge, MA: The MIT Press.
[89] Daniel Marcu (1997) The Rhetorical Parsing, Summarization and Generation of Natural
Language Texts. PhD Thesis, University of Toronto (1997).
[90] I. Marshall, E. Safar (2001) Extraction of Semantic Representations from Syntactic CMU
Link Grammar linkages. Recent Advances in Natural Language Processing (RANLP),
143
Tzigov Chark Bulgaria, Sept 2001, pp.154-159.
[91] Yuji Matsumoto, Takashi Miyata, Tadashi Nomoto, Takenobu Tokunaga, Makoto
Takeda, Masaharu Obayashi (2000) Document Analysis and Summarization Workbench.
38th Annual Meeting of the Association for Computational Linguistics, Demonstration
Notes, pp. 22-23.
[92] I.Mel’čuk(1988) Dependency Syntax: Theory and Practice. State University of New
York Press.
[93] N.L. Minh, N. P. Thai, L. A. Cuong, N. V. Vinh, P.H. Nguyen, H. S. Dam (2003) LVT:
An English-Vietnamese Machine Translation System. Hội nghị quốc gia lần thứ nhất về
Nghiên cứu Cơ bản và Ứng dụng trong Công nghệ Thông tin FAIR’03, Hanoi, 10.2003.
[94] D. Molla , B. Hutchinson (2003) Intrinsic versus Extrinsic Evaluations of Parsing
Systems, Proceedings of EACL Workshop on Evaluation Initiatives in Natural Language
Processing.
[95] D. Molla, R. Schwitter, M. Hess, & R. Fournier (2002) ExtrAns, an Answer Extraction
System. T.A.L., special issue on Information Retrieval oriented Natural Language
Processing, pp. 495-522.
[96] Erwan Moreau (2004) Partial Learning Using Link Grammars Data. In Proceedings of
ICGI 2004, pp 211-222.
[97] Yuichi Nakamura, Takeo Kanade. 1997. Semantic Analysis for Video Contents
Extraction: Spotting by Association in News Video. Proceedings of the Fifth ACM
International Conference on Multimedia, 393-401.
[98] Joakim Nivre, Igor M. Boguslavsky, Leonid L. Iomdin(2008) Parsing the SynTagRus
treebank of Russian. Proceedings of the 22nd International Conference on Computational
Linguistics – (COLING '08) Volume 1, pp. 641-648.
[99] Tomohiro Ohno, Shigeki Matsubara, Hideki Kashioka, Takehiko Maruyama, Hideki
Tanaka, 2006, Dependency Parsing of Japanese Monologue Using Clause Boundaries.
Languages Resources and Evaluation, Springer.
[100] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu (2002) BLEU: a
Method for Automatic Evaluation of Machine Translation. Proceedings of the 40th Annual
Meeting of the Association for Computational Linguistics (ACL), Philadelphia, July 2002,
pp. 311-318.
[101] L. H. Phuong, N.T.M.Huyen, A. Roussanaly, L. Romary (2006) A Lexicalized Tree
Adjoining Grammar for Vietnamese. Proceedings of the 5th International Conference on
144
Language Resources and Evaluation, Genoa, Italia, 2006.
[102] L. H. Phuong , N.T.M.Huyen ,A. Roussanaly , H. T. Vinh (2008) A hybrid approach to
word segmentation of Vietnamese texts. Proceedings of the 2nd International Conference
on Language and Automata Theory and Applications, LATA 2008, Springer LNCS 5196,
Tarra pp. 240-249.
[103] M.Pickering , G.Barry (1993) Dependency Categorical Grammar and Coordination,
Linguistics 31, pp. 855-902.
[104] C. J.Pollard, , I. A.Sag (1994) Head-driven phrase structure grammar, University of
Chicago Press.
[105] Sampo Pyysalo, Filip Ginter, Tapio Pahikkala,Jorma Boberg, Jouni JÄarvinen, Tapio
Salakoski (2004) Analysis of Link Grammar on Biomedical Dependency Corpus Targeted
at Protein-Protein Interactions. In Proceedings of the international Workshop on Natural
Language Processing in Biomedicine and its Applications, pp. 15-21.
[106] Fabio Rinaldi, Michael Hess, Diego Molla, Rolf Schwitter, James Dowdall, Gerold
Schneider, and Rachel Fournier (2002) Answer Extraction in Technical Domains.
CICLing-2002, Mexico City, February, 2002, pp. 17-23.
[107] I. A. Sag (1982) Coordination, Extraction, and Generalized Phrase Structure Grammar
Linguistic Inquiry The MIT Press.
[108] D.Sakhare, Raikumar (2011) Dependency Grammar Feature Based Noun Phrase
Extraction for Text Summarization International. Journal of Computer Trends and
Technology- volume2, Issue1- 2011, pp. 64-67.
[109] Gerold Schneider (1998) A Linguistic Comparison of Constituency, Dependency and
Link Grammar.MSc Thesis, University of Zurich, July, 1998.
[110] R. A. Abul Seoud, N. H. Solouma, A.M. Youssef, Y. M. Kadah (2006) Extraction of
Protein Interaction Information from Unstructured Text Using a Link Grammar Parser.
Proceeding of Cairo International Biomedical Engineering conference 2006, pp. 70-75.
[111] Daniel D.K. Sleator, Davy Temperley (1991) Parsing English with Link Grammar.
CMU-CS, pp. 91-196, October 1991.
[112] B. Srinivas, D. Egedi, C. Doran ,T. Becker (1994) Lexicalization and Grammar
Development. Proceedings of KONVENS ’94, Vienna, Austria, September 1994, pp. 310-
319.
[113] P.Szolovits (2003) Adding a Medical Lexicon to an English Parser. Proceeedings of
145
AMIA 2003 Annual Symposium, pp. 639-643.
[114] D.Temperley (2005) The Dependency Structure of Coordinate Phrase: A Corpus
Approach. Journal of Psycholinguistic Research,Vol 34, No. 6, November 2005, pp 577-
601.
[115] Nguyen Phuong Thai, Akira Shimazu (2006) Improving Phrase-Based SMTwith
Morpho-Syntactic Analysis and Transformation, Proceedings of the 7th Conference of the
Association for Machine Translation in the Americas, p 138-147, Cambridge, 8/ 2006.
[116] D. Q. Thang, L. H. Phuong, N.T. M. Huyen ,N. C. Tu , M. Rossignol, V. X. Luong
(2008) Word segmentation of Vietnamese texts: a comparison of approaches. Proceedings
of the 6th Language Resources and Evaluation Conference LREC 2008, Marrakech
(Morocco), 2008.
[117] Q.T.Tho, S.C. Hui, A.C.M.Fong, C. H. Tru (2006) Automatic Fuzzy Ontology
Generation for Semantic Web. IEEE Transactions on Knowledge and Data Engineering, pp
842 – 856.
[118] Lai Bong Yeung Tom, Changning Huang (1994). Dependency grammar and the parsing of Chinese sentences. Proceedings of the 1994 Joint Conference of 8th ACLIC and 2nd PaFoCol.
[119] Shisanu Tongchim, Randolf Altemeyer,Virach Sornlerlamvanich, Hitoshi Isahara
(2008) A Dependency Parser for Thai. Proceedings of the 6th Language Resources and
Evaluation Conference LREC 2008, Marrakech (Morocco), 2008, pp 136-139.
[120] C. H. Tru (2002) A Formalism for Representing and Reasoning with Linguistic
Information. International Journal of Uncertainty, Fuzziness and Knowledge-Based
Systems, 10 (3), pp. 281-307.
[121] Cam-Tu Nguyen, Trung-Kien Nguyen, Xuan-Hieu Phan, Le-Minh Nguyen, Quang-
Thuy Ha (2006) Vietnamese Word Segmentation with CRFs and SVMs: An Investigation.
Proceedings of PACLIC20, Wuhan, China, Nov.2006, pp. 215-222.
[122] T.N. Tuan, P. T. Tuoi (2004) Unification grammar in a semantic approach for
Vietnamese compound noun parsing. In Proceedings of the Asian Fuzzy Systems Society
Conference, December 15-17, 2004, Ha Noi, Vietnam, pp. 17-20.
[123] T.N. Tuan, P.T. Tuoi (2004) Featured Grammar in Vietnamese Language Processing.
Kỷ yếu Hội nghị Quốc gia về Nghiên cứu, Phát triển và Ứng dụng Công nghệ Thông tin và
146
Truyền thông ICT.rda ’04, 17-18/9/ 2004, Hà Nội.
[124] Tran Ngoc Tuan, Phan Thi Tuoi (2006) Syntax-based SMT Model in Adaption to
Vietnamese-English Translation. Poster of the 4th International Conference on Computing
and Communication Technologies (RIVF).
[125] Takehito Utsuro, Shigeyuki Nishiokayama, Masakazu Fujio, Yuji Matsumoto (2000)
Analyzing Dependencies of Japanese Surbodinate Clauses based on Statistics of Scope
Embedding Preference. Proc. 1st NAACL, pp 110-117.
[126] Peter Venable (2001) Lynx:Building a Statistical Parser from a Rule-Based Parser. In
Proceedings of the NAACL.
[127] Peter Venable (2004) Modeling Syntax for Parsing and Translation. PhD Dissertation,
Carnegie-Mellon University.
[128] Ying-HongWang, Chih-HaoLin (2004) A Multimedia Database Supports English
Distance Learning. Information Sciences-Informatics and Computer Science, pp.189-208.
[129] N. Zamin (2009) Information Extraction Using Link Grammar, csie, vol. 5, 2009
pp.149-153, WRI World Congress on Computer Science and Information Engineering
[130] N. Zamin and B., Baharudin and T.B., Adji (2008) Applying link grammar formalism in
the development of English-Indonesian machine translation system. Proceedings of the 9th
AISC International Conference, the 15th Calculemas Symposium, and the 7th International
MKM Conference on Intelligent Computer Mathematics, pp. 17-23.
[131] Lei Zhang and Yong Yu. (2001) Learning to Generate CGs from Domain Specific
Sentences. In The Proceedings of the 9th International Conference on Conceptual
Structures, LNAI 2120, July 30-August 3, 2001, Stanford, CA, USA, pp 44-57.
TIẾNG NGA
[132] Сергей Протасов (2005) Преимущества грамматики связей для Русского языка.
Международная конференция “диалог 2005”.
CÁC WEBSITE
[133] http://www.fen.bilkent.edu.tr/~aykutlu/ceviri
[134] http://statmt.ru
[135] http://www.link.cs.cmu.edu/link/trans-explanation.html
[136] http://corpus.byu.edu/coca/
147
[137] http://www.abisource.com/projects/link-grammar/
PHỤ LỤC
PHỤ LỤC 1: CHI TIẾT CÁC CÔNG THỨC CHỦ YẾU
TRONG LIÊN KẾT TIẾNG VIỆT
Trong phụ lục chúng tôi giải thích kèm theo ví dụ các liên kết quan trọng trong
tiếng Việt. Việc phân chia từ thành tiểu loại dựa theo [16]. Để phân chia nhỏ hơn,
thành các tiểu tiểu loại, luận án tham khảo cách chia trong [16], đồng thời thêm vào
nhiều tiểu tiểu loại xuất phát từ nhu cầu phân tích liên kết và dịch máy với dạng
tuyển có chú giải. Liên kết của một số loại từ đơn giản như định từ, giới từ đã trình
bày chi tiết trong luận án sẽ không được nhắc lại trong phụ lục này.
148
Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết
1.Tên người Danh từ riêng Tên người: Giáng Kiều SA+ Mai đẹp
nàng Giáng Kiều, chú Cuội, đức Phật Proper Noun (Np) Tên nhân vật siêu nhiên: NcN1-
Cuội, Phật,... Nguyễn Du viết SV+
tặng Mai IO-
2. Tên tổ chức Mặt trận Tổ quốc Việt NpEp- ở Trường Đại học Bách khoa
Nam, Trường Đại học NNp- cơ quan Mặt trận Tổ quốc Việt Nam
Bách khoa... Trường Đại học Bách khoa đạt (thành SV+
tích)
tặng trường Đại học Bách khoa (sách) IO-
ở Cổ Loa Cổ Loa, Việt Nam, Hỏa EpN 3. Tên địa danh, thiên thể trên Hỏa Tinh Tinh SV+
Việt Nam là (đất nước anh hùng) DT_LA+
nhân dân Việt Nam NNp
4. Tên sự kiện Cách mạng tháng Tám, NcN6- cuộc Cách mạng tháng Tám
Cách mạng tháng Mười EsN trước Cách mạng tháng Mười
sự kiện Cách mạng tháng Tám NNp
Cách mạng tháng Tám thành công SV+
149
5. Tên tác phẩm Truyện Kiều, Kinh NcN4- quyển Kinh Thánh,cuốn Truyện Kiều
Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết
Thánh Cách mạng Tháng tám thành công SV+
6. Tên động vật con Nhân Sư Nhân Sư, Xích Thố NcN2-
Xích Thố ăn (cỏ) SV+
Nhân Sư là (nhân vật huyền thoại) DT_LA+
(ngựa) Bạch Long (rất) hay SA+
tượng Nhân Sư SH-
Nhân Sư Ai Cập SH+
ngựa Xích Thố NNp-
7. Tên đồ vật Lada, Granit, Penicillin {PqN-} & {DpN-}& NcN4- tất cả những chiếc Lada, những chiếc
Lada, chiếc Lada
xe Lada, thuốc Penicillin NNp-
NcN4- & NPd+ chiếc Lada ấy
(chiếc) Lada chạy (chầm chậm) SV+
xeLada NuNp-
1. Người bố cô giáo, chữ bác sĩ Danh từ cụ thể ông, bà, nam, nữ, nô tì, SH+, SH-
toàn bộ các em học sinh, toàn bộ các học Concrete Noun phi công {PqNt-} & {DpNt- or McNc-
nhân vật siêu nhiên: phù }&{NcN4-}& {NPd+} sinh, nhứng học sinh, tất cả học sinh, tất (Nt)
150
thủy, ma, thần linh cả ba em học sinh ấy
Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết
công nhân nhà máy NN+
công nhân vận hánh (máy) SV+
(người) công nhân chăm chỉ SA+
công nhân Việt nam NtNp+
(tôi ) tặng em bé (sách) IO-
2. Động vật NtNp+ chuột Mickey thú: chó, mèo, cá voi
chim: gà, bồ câu {PqN-} & {DpNt- or McNt- tất cả những con mèo, tất cả những con
}& NcN2- & {NtPd+} mèo ấy cá: trắm, mè, thu
tai thỏ, sừng trâu SH- lưỡng cư: ếch, nhái
SV+ gà chạy bò sát: rắn, thằn lằn
mèo con NtAp+ côn trùng: kiến, gián
(lâu đài) của rồng EoNt+ thân mềm: ngao, bào ngư
giáp xác: tôm, cua, ghẹ
động vật hư cấu: rồng, ma
gà
vi sinh vật: virus, vi
khuẩn, vi trùng
3. Thực vật cây thân gỗ: lim, đa {NcN3-}& {DpN-} (những) bông lúa
151
cây bụi: cúc tần, duối SV+ rau cải được trồng
Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết
lúa xanh mướt cây thân leo: tơ hồng NtAp+
yến cải bẹ cây thân cỏ: lau, cói NuN-
rau bí, dây tơ hồng, quả chuối, giàn bầu rau, củ: cải bẹ, bầu, bí NtNt
cải bẹ là... . DT_LA+
O- mua cải cúc
(hai) cân đậu hạt : đậu, lạc, vừng NuNt4- 4. Lương thực, thực phẩm nói chung quả đậu, củ sắn, cây vừng lương thực: thóc lúa, ngô, NtNt
gạo là lương thực khoai ... DT_LA+
mua ngô O-
SA+ mùa này, lúa thật xanh tốt
5. Đồ dùng, vật dụng vật dụng gia đình:bàn, NcN4-& {DpN-}&{PqNt-} tất cả những cái bàn ấy
ghế, ba lô, đồng hồ, điện &{ NtPd+}
thoại CH+ bàn gỗ
NtEm- bàn bằng (gỗ)
SV+ chiếc bàn gỗ thật chắc chắn.
O- sản xuất
EsNt trên bàn
152
dụng cụ thiết bị: búa, {PqNt-}&{McNt-}&{NcNt-} một cái búa, một búa, một cái búa,tất cả
Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết
kìm, cày, bừa, cuốc, McNt- ba (cái) kìm
trên đe dưới búa xẻng... EsNt-
búa đóng đinh SV+
xẻng to NtAp +
tất cả những cái vòi nước ấy phụ tùng, phụ kiện: van, NcN4-& {DpN-}&{PqNt-}
vòi nước, lò xo &{ NtPd+}
giường lò xo NN+ or NN-
hai chiếc xích McNt- & NcN4-
O- mua lò xo
con búp bê,quả bóng bay đồ chơi: búp bê, bóng bay NcNt
búp bê nhỏ SA+
búp bê đi chơi SV+
máy móc: máy nổ, máy máy bơm khỏe SA+
bơm NcN4- & {DpN-}&{PqNt-} toàn bộ hai mươi chiếc máy bơm ấy
&{ NtPd+}
153
sản xuất máy bơm O-
Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết
nhạc cụ: đàn, sáo, trống, NuNt chiếc đàn, cây sáo,cây đàn
trống Paranưng, đàn Piano kèn NtNp
đàn trở thành (nguồn vui) SV+
cây đàn kỳ diệu SA+
đập vỡ cây đàn, làm trống, yêu thích đàn O-
tiếng đàn, SH-
NuNt- & SH+ cây đàn sinh viên
trang phục: quần áo, giày {McNu}& NuNt hai bộ quần áo
dép O- sắm sửa quần áo
trang sức: nhẫn, vòng, NuNt- chiếc nhẫn
NN+ or NN- nhẫn kim cương, hộp nhẫn
DT_LA+ nhẫn là (đồ nữ trang)
O- bán nhẫn
đống rơm, bó rạ vật dụng khác: củi, đóm, NaNt-
củi cháy điếu, rơm rạ SV+
6. Chất phấn gây dị ứng mĩ phẩm: son, phấn, SV+
154
xoa phấn O-
Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết
cao hổ cốt là (thuốc bổ) thuốc men: ký ninh, cao DT_LA+
mua ký ninh hổ cốt O-
NtVu+ thuốc an thai
{PqNt-} & {DpN-}& NcN4- toàn bộ những lọ cao hổ cốt
&{ NtPd+}
chất gây nghiện: thuốc DT_LA+ thuốc phiện là (chất gây nghiện)
phiện, bạch phiến,… ma túy (rất) độc hại SA+
nguyên vật liệu: lụa, xi áo lụa, nền xi măng, bàn gỗ CH-
măng, mực EmNt+
chất rắn: gỗ, đá, sắt, ... . CH- bàn gỗ
bằng gỗ EmNt+
chất lỏng: bia, cồn, dầu {McNt- & NuN-} (bốn) lít bia
hỏa, dầu ăn
chất khí: gas, hydro, oxy NuN- (10) kg gas, (hai) bình gas
chất thải: phân, rác rưởi. . NN thùng phân
7. Tác phẩm tranh, ảnh, tác phẩm, vở NtAp tác phẩm nổi tiếng
kịch vở kịch được công diễn
155
vở kịch thành công
Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết
8. Cấu kiện xây dựng bê tông, thanh dầm, xà. . SH+ xà nhà
O trộn bê tông
9. Công trình xây dựng cầu, đường, quảng SH- dầm cầu
trường, nhà hát
máy bay, ô tô SH- lốp ô tô
10. Phương tiện giao thông Vũ khí máy bay tiêm kích, khu SH- xích xe tăng
trục, xe tăng
Vật nói chung thanh, que, xiên CH+ thanh tre
Bộ phận cơ thể người SH+ Tay em bé
cơ thể động vật
bộ phận thực vật
bộ phận của vật
bộ phận tác phẩm
Vũ trụ: sao, hành tinh NtNp Sao Kim
NtAp bão mạnh Hiện tượng tự nhiên: bão, mưa, sấm NtAo sấm chớp àm ầm
SV+ bão đến
156
Nc5Nt cơn bão
Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết
Đất đai: ruộng, vườn, ngoài ruộng EpNt- đồi ruộng là tài sản DT_LA+
vườn rộng SA+
thửa ruộng, mảnh vườn NcNt
Vùng có nước: sông, hồ dưới sông EpNt-
sông là . . . DT_LA+
sông rộng SA+
lên thiên đàng Nơi tưởng tượng: thiên EpNt
ở địa ngục đầng, địa ngục...
địa ngục trần gian NN
chuyện nhà cửa Danh từ tổng thể Chỉ những vật khác nhà cửa, thầy trò, chim NtNg
săn băt chim muông General Noun nhau về loại nhưng muông, nhân dân, quân O-
nhân dân (Ng) thường đi kèm với nhau đội ... SV+
nhân dân Việt Nam thành một tập hợp hoàn NgNp+
chỉnh mang ý nghĩa
khái quát
Danh từ trừu Khái niệm, thuật ngữ, Khái niệm được khái SHA+ tư tưởng Hồ Chí Minh
157
tượng chuyên ngành quát hóa trong tư duy: NaNa khoa học vật lý
Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết
Abstract Noun tật, tư tưởng, khoa học, NaNc sự kiện Cách mạng Tháng tám
(Na) cuộc sống, sự kiện
chưc vụ: bí thư, thủ NaNu+ chủ tịch phường
tướng, chủ tịch. .
tiếng đàn âm thanh: tiếng, giọng SHA+
bệnh tật: lao, ung thư DT_LA+ lao là bệnh truyền nhiễm
bệnh lao {NaNa+}
chơi cờ trò chơi: cờ, cờ vua O-
DT_LA- cờ là trò chơi hấp dẫn
Đơn vị sự vật tồn tại Danh từ chỉ loại người: người, tên, chú, NcN1+ thằng trộm
thành từng loại đơn lẻ Classified Noun thằng, đứa, đức . . hai con (ngựa McNc-
(Nc) con gà NcN2+ động vật: con, cái. .
bông hồng thực vật: bông, đóa, hạt. . NcNt3+
quyển sách vật: cái,con, tòa, căn, NcNt4+
cuốn, quyển...
hiện tượng: tiếng, tia, NcNt5+ tia chớp, mũi dao, tia hy vọng
dòng, mũi
158
khái niệm: cuộc, sự, nỗi , NcNt6+ cuộc Cách mạng Tháng tám
Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết
niềm... NcVs nỗi buồn
NcAp niềm vui
thứ NcMc+ thứ năm
NcNt+ bầy chim, tốp công nhân bầy ,đàn, toán, tốp, Đơn vị sự vật cùng loại
buồng(cau) tồn tại thành một tập
cột(khói), bộ, chồng, hợp
nắm, ngụm ...
Đo lường khoa học kg, ha, cân,ram... McNu-&{NuNt4} hai kg thóc
chính xác
Đo lường dân gian ca, thùng, đấu, bơ, xe McNu-&NuNt4+ ba cân bí
Thời gian bầy, đàn McN- ba ngày
Tiền tệ hào, đồng, xu, đô la McN- ba hào, hai đô la Danh từ chỉ đơn vị Hành chính, tổ chức làng, phường, huyện, NaNu- chủ tịch phường Unit Noun (Nu) quận, tỉnh, thành phố, xí NtNu- công nhân nhà máy
nghiệp, câu lạc bộ SV+ phường đã xây dựng
đóng góp cho phường
phiên họp, cú đấm Tần suất lần, phiên, mẻ, cú, tuần NuV+
159
(hương) NuN+ mẻ lưới
Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết
ViAp gió thổi mạnh hoạt động: không đòi thở, ngồi, đứng, nằm, động từ nội động
ViEp+ nằm trên (giường) hỏi bổ ngữ ngủ, thức, (máy) nổ, (còi) (Vi)
rúc, (gió) thổi SV- & {RtVi- or RpVi- or cháu sẽ ngủ, bé ngủ rồi, tôi ngủ Không dùng ở thể
RfVi- or RpVi+} bị động tâm sinh lý: không đòi khóc, cười, kêu , ... . /
hỏi bổ ngữ
động từ ngoại hành động: đòi hỏi bổ cắt (cỏ), bổ (củi), xé, SV- & O+- &{VtEp} công nhân xẻ gỗ
động (Vt) ngữ chỉ đói tượng bị tác chặt, gieo, ươm tôi gieo mạ trên (sân)
động SV- & O+- &{Vt A-} nó cắt cỏ (rất) nhanh
VmVt- (mạ đã )được gieo
tạo tác: đòi hỏi thực từ viết(báo), vẽ, đẽo, gọt, SV- & O+- &{Vt A-} tôi gọt bút chì
biểu hiện đối tượng tạc, phát minh, sáng chế tôi gọt bút chì cẩn thận
được tạo ra. SV- & VmVt- đèn điện được sáng chế
trao nhận: đòi hỏi 2 bổ cho, gửi, tặng, biếu, báo, SV- & IO+ & O + tôi tặng em bé sách
ngữ trực tiếp và bổ thông báo, nhận SV- & O+ & VtEg+ & EgNt+ tôi tặng sách cho em bé
ngữ gián tiếp SV- &VmVt- & O+ em bé được tặng sách
tôi bảo nó đi học sai, bảo, khiến, hướng SV- & IO+ & VtVt cầu khiến: đòi hỏi bổ
thủ trướng yêu cầu nhân viên tắt đèn dẫn, cân nhắc, đề bạt SV- & IO+ & VtVt+ ngữ trực tiếp và « nội
160
anh ấy được đề bạt làm (quản đốc) SV-&VmVt- &VtVs+ dung sai khiến »
Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết
tôi làm vỡ bát gây khiến làm(cho, vỡ), khiến SV- & VtVs+ & O+
tôi làm bát vỡ (cho), bẻ(gãy) SV- & O+ & VtVs+
bát đã bị vỡ rồi SV- &{Rt Vt- or RpVt- or
RfVt-} & {VmVt- }&
{RpVt+}
tác động: đòi hỏi bỗ kéo, đẩy, xô. ép, SV- &{Rt Vt or RpVt or tôi đặt quyển sách lên bàn, tôi đang đặt
ngữ trực tiếp và /hoặc nghiêng, đặt... RfVt}& O+ quyển sách lên bàn, tôi đặt quyển sách
đích của hành động &VtEs+&{RpVt+} lên bàn rồi.
SV- &VtEs+ & O+ tôi đạt lên bàn quyển sách
SV-& {O+} &(VtN+ tôi ép con ăn, bố mẹ ép anh cưới vợ
orVtPp+) ép làm việc
tôi đang trèo lên (núi) chuyển động chạy, bò, lăn,... SV- &{Rt Vt -or RpVt- or
RfVt-} & {VtEp+}&{RpVt+}
, SV-& {Rt Vt -or RpVt- or
RfVt-} & VtEm
nó về bằng xe máy, SV-& {Rt Vt -or RpVt- or
RfVt-} & CH+
SV- & {Rt Vt or RpVt or tàu đã rời ga, khách đã vào nhà
161
RfVt} & O+
Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết
tôi đang đi lên (núi) SV- &{Rt Vt -or RpVt- or đi
RfVt-} & {VtEp+}&{RpVt+} (động từ này có cách
tôi đi học, tôi đang đi chơi (riêng động SV- & {Rt Vt -or RpVt- or dùng đặc biệt trong tiếng
từ « đi ») RfVt-} & ĐI+ Việt: đi học, đi bơi, đi
chơi. . .)
hành vi cướp, giật, ăn cắp ... SV- & (O+) nó cướp tiền
SV- &EmNu doanh nghiệp thanh toán bằng đô la
tư duy học, hiểu, nghe, nói ... . SV- &{Rt Vt or RpVt or tôi học ngoại ngữ, tôi đã được học ngoại
RfVt} &VmVt-& O+ ngữ
tập nói, học đánh (đàn) VtVt
tôi đã học xong rôi SV- &
tin tưởng bạn bè VsN+ động từ trạng thái 1.tâm lý tình cảm tò mò, tin tưởng, nghi
tin tưởng ở tương lai VsE+ (Vs) ngờ
tôi buồn, tôi rất buồn, tôi xấu hổ lắm SV- &{RlVt- or RlVt+} yêu, ghét, buồn, thương,
giận dữ
yêu thích, ngưỡng mộ,
ghê tởm. .
162
2.tồn tại SV-&{Rt Vt -or RpVt- or tôi còn hai ngàn đồng, nó đã mất người còn, có, mất
Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết
RfVt-}& O+ yêu
3.biến hóa hóa (thành), nảy(mầm), SV- & {VsVs+}& O+ sâu đã hóa thành bướm
phát sinh, thay đổi,
4.tiêu hao ốm, mệt,tiêu hao, chết, Sv-&{VsN+}
mất
5.tiếp nhận ăn, hưởng thụ O+ hưởng thụ cuộc sống
ăn đòn , ăn đạn(rất ít dùng ở dạng Vt)
6.bắt đầu, tiếp diễn bắt đầu, tiếp tục, thôi, kết SV-&{Rt Vt -or RpVt- or thằng bé đã bắt đầu tập đi
thúc, dừng... RfVt-}&VsVt+
7.ngưng nghỉ ngưng, dừng, dứt, SV-& {Rt Vt -or RpVt- or nó đã ngừng tranh cãi
RfVt-}& VsV+
8.quan hệ là, làm DT_LA- rau cải là...
9.sở hữu thuộc VsN ngôi nhà thuộc khuôn viên lâu đài
động từ tình thái 1.đánh giá nên, cần phải,, xem, thấy SV-& (VmVt+ or VmVi) bạn nên mua kẹo
(Vm)
163
2.ý chí toan, định, dám, nỡ, SV- & VmVt+ ông quyêt đi buôn
Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết
quyết
3.mong muốn ước, mơ chỉ mong RsVm-
mong, muốn rất mong RlVm-
4.phụ thuộc bị ,được, mắc, đành chịu VmVt
SV+
động từ phụ(Vu) động từ không có khả ái quốc, du mục, an thai, NVu- thuốc an thai, dân du mục
năng làm vị ngữ trong đình sản bị đình bản VmVu-
câu giải khát để giải khát CVu-
xong học xong, làm xong VVu
nàng đẹp tốt, đẹp, xấu, thông SA- &ApNu+ tính từ chỉ tính Chỉ tính chất của sự
minh, nhiệt tình ApAr+ chất (Ap) vật, có thể kèm phụ từ nàng rất đẹp
chỉ mức độ vực sâu hai mươi mét
Chỉ những tính chất sự
vật bao hàm giá trị về
lượng
tính từ quan hệ chỉ sự phụ thuộc hoặc chung, riêng, nội, ngoại, của chung, bà nội
(Ar) tác động qua lại tư hữu, riêng tư
164
quan hệ so sánh bằng, hơn, kém, giống, ApAr- NAr- đẹp hơn, ba giờ hơn
Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết
khác... . ArN+ hơn mười người
ArE khác vơi, giống như
ngày mùa thóc hơn
tính từ quan hệ được xem trong danh từ quân đội nhân dân
chuyển loại từ danh từ.
tính từ tượng thanh không độc lập làm vị từ leng keng, kẽo kẹt, loảng VA chuông kêu leng keng
(Ao) xoảng... xô chậu va loảng xoảng
tính từ tượng hình không độc lập làm vị từ lom khom, còm nhom, VA cúi lom khom
(Ai) lênh khênh, trùng trục, ApAi
lũn cũn...
đại từ chỉ định đấy, đấy, đó, kia, ấy , McN cô giáo ấy
(Pd) này, nay, bây giờ,bấy McNt+ ngay bây giờ
giờ, thế, vậy...
giới từ phạm vi về, trên, dưới, trong, NtEm+ &EmVt
(Es) ngoài
ở, tại giới từ vị trí EpN ở Hà Nội, ở trường
(Ep)
165
của Giới từ chỉ sở hữu EoNt+ của cô giáo
Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết
EoPp+ của tôi (Eo)
giới từ chỉ chất bằng Nt5Em-& EmNt6+ bàn bằng gỗ
NgEm-& EmNt6+ liệu (Em) quần áo bằng lụa
VtEm-& EmNt6+ nhà lợp bằng tôn
PHỤ LỤC 2: KẾT QUẢ PHÂN TÍCH LIÊN KẾT CỦA MỘT SỐ CÂU ĐƠN
VÀ CÂU GHÉP HAI MỆNH ĐỀ
# Đây là kết quả do bộ phân tích cú pháp liên kết (chưa xử lý câu ghép) đưa ra cho 50 câu đầu trong tập ngữ liệu mẫu của hệ thống dịch Việt - Anh sử dụng ADJ. Với độ chính xác của bộ phân tích cú pháp khoảng 80%, một số liên kết trong câu có thể không đúng.
# +-----DT_LA----+ # +---SHA--+ +-ĐT_TT-+ # | | | | # Tên.n tôi.v là.v Hoa.a # +----DT_LA----+------LA_DT------+ # +--SHA--+ | +----McN---+-SA-+ # | | | | | | # Mẹ.n tôi.p là.v một bác_sĩ.n giỏi.a # +-----------ĐT_GT-----------+ # +---------O--------+ | # | +------McN------+ | # +---SV--+ | +--ĐV--+ +--LT_ĐT-+ĐT_GT+--GT_DT--+ # | | | | | | | | | # tôi.p cần.v một quyển sách.n để đọc.v ở nhà.n
166
# +------PqNt------+------SA-----+ # | +----DpNt---+ +-TT_TT+-TT_ĐT-+ # | | | | | | # Tất_cả mọi thành_viên.n phải.a đi.a họp.v # +-----O-----+----SDT4---+ # +----SV--+-ĐT_ĐTi+-ĐT_TT-+--TT_ĐT-+ +--ĐV-+--CH--+ +--GT_DT-+ # | | | | | | | | | | # tôi.p có_thể cho.v cô.a mượn.v cái áo.n len.n của tôi.p # +------SV-----+ # +-NtPd-+ +---CL---+-ĐT_ĐT-+ # | | | | | # Cô.p ấy cảm_thấy.v muốn.v khóc.v # +------SDT5-----+ +------O-----+ # +----O---+--SDT1--+ +--ĐT_ĐTi--+---O--+ +-SA-+ # | | | | | | | | # tôi.v không.n bao_giờ.n nên nghe.v lời.n anh.p ta.a # +-----GT_DT----+ # +----SV--+---O--+--SDT5-+ĐT_GT+ +--ĐV--+-NtPd+ # | | | | | | | | # tôi.p thách.v anh.p nhảy.v qua cái tường.n kia # +-------SV-----+ # +--SDT2--+ +-ĐT_ĐT+-ĐT_TT-+-TT_ĐT-+---O---+-NtPd+ # | | | | | | | | # Anh ta.a muốn.v tôi.v đi.a với.v cô.p ấy # +--------O--------+ # +--ĐT_TT-+-TT_ĐT+ +----McN---+ # | | | | | # tôi.v được.a tặng một món_quà.n
167
# +------------SV----------+ +------GT_DT------+ # +--DpNt--+-SA-+ +--TT_ĐT-+-ĐT_GT+ +--DpNt--+-SA-+ # | | | | | | | | | # Những lỗi_lầm.n lớn.a thường.a kết_cấu.v từ những lỗi_lầm.n nhỏ.a # +------O------+ # +-NcN2-+--SV--+ +-NcN2-+--CH-+ # | | | | | | # Con ngựa.n đá.v con ngựa.n đá.n # +---SV--+-ĐT_GT+--GT_DT-+---NN--+--NN-+ # | | | | | | # Kiến bò.v lên đĩa.n thịt.n bò.n # +---------SA---------+ # +----SDT2----+ +TT_SS+---SS_DT---+ # | | | | | # Sự khôn_ngoan.a có_giá.a hơn châu_ngọc.n # +-----LA_DT-----+ # +-DT_LA-+ +---ĐV--+--SA-+-TT_SS+---NHAT_DTv--+ # | | | | | | | # Báo_săn.n là.v loài động_vật.n nhanh.a nhất thế_giới.n # +-----THT-----+ # | +--SV--+--ĐT_ĐTi--+---O--+ # | | | | | # Sao anh.p dám đánh.v tôi.p # +----------------SV----------------+ # +--------SHA-------+ | # +---F--+---F--+ | +--TĐT2_2-+-ĐT_ĐT+----O---+ # | | | | | | | | # bố.n và mẹ.n tôi.p rất.a thích.v xem.v phim.n
168
# +-----SV----+------------ĐT_TT------------+ # +-NtPd-+ +---F--+---F--+ +--TTT2_2-+ # | | | | | | | # anh.p ấy đá_bóng.v và bơi.v rất.a giỏi.a # +-------SA------+ # +-SA-+ +-CC0-+-CCTt-+--CCPt-+ # | | | | | | # cô.p bé.a càng lớn.a càng xinh.a # +-----SV-----+--------------O-------------+ # +--SHA--+ +-ĐT_GT+--GT_DT-+ +--ĐV--+ # | | | | | | | # bố.n tôi.p đưa.v cho tôi.p quyển sách.n
# +-----SV----+--------O--------+ # +-NtPd-+ | +----CC0d---+--CCTd-+----CCPd---+ # | | | | | | | # anh.p ấy biết.v cả tiếng_Việt.n lẫn tiếng_Pháp.n # +----SV-----+--------O--------+ # +-NtPd-+ | +----CC0d---+--CCTd-+----CCPd---+ # | | | | | | | # anh.p ấy biết.v cả tiếng_Việt.n cả tiếng_Pháp.n # +------------------O-----------------+ # +---SV--+----O----+--SDT1-+-F-+---F---+ | # | | | | | | | # anh.p có.v từ_điển.n Việt - Anh.p không.n # +-CHỨ+ # | | # Có.v chứ
169
# +---------CL---------+ # | +-----SV----+-------O------+ # +--TĐT2_1-+ +-NtPd-+ +---O---+ | # | | | | | | | # Không biết.v máy_tính.n này có.v tốt.n không.n # +--TT_ĐT-+-LA_ĐT-+-CHỨ+ # | | | | # Tất_nhiên.a là.v nhớ.v chứ # +--------XH--------+ # +-------SV-------+------CHỨ------+ | # | +--TĐT4-+---O--+-NtPd+ | | # | | | | | | | # Bác cũng quen.v cô.n ấy chứ ạ # +---DT_LA--+ +---------VTd---------+ # +-NtPd-+ +--LA_DT-+--NNp-+ +---CHỨ2---+---VPd--+---NNp--+ # | | | | | | | | | # anh.p ấy là.v người.n Nhật chứ không_phải người.n Hàn_Quốc # +---DT_LA--+------------VTl------------+ # +-NtPd-+ +---LA_DT--+ +---CHỨ2--+--VPl-+----LA_TT---+ # | | | | | | | | # Máy.n ấy là.v máy_giặt.n chứ đâu_phải là.v máy_điều_hòa.a # +--------------------------XH--------------------------+ # +-------------------------XH------------------------+ | # +---------------------ĐT_TT---------------------+ | | # +------------------SV-----------------+--------------ĐT_GTt-------------+ | | | # +--CC0d--+-CCTd+--CCPd-+---NN--+ +--TT_ĐT--+ĐT_GT+---GT_DT---+ +---McN--+-TT_TTt-+ | | | # | | | | | | | | | | | | | | | # Cả cháu.n cả nhà.n cháu.n đều.a chuyển.v vào Vũng_Tàu.n một năm.n nay.a rồi bác ạ
170
# +-------XH-------+ # +------XH-----+ | # +------SV----+--ĐT_TT-+ | | # | | | | | # Bộ_Kế_hoạch_và_Đầu_tư ở.v đâu.a hở em # +--------XH-------+ # +----------SV--------+----ĐT_TT----+ | # +--ĐV-+-SDT4-+--GT_DT-+ +--ĐT_TT-+ | | # | | | | | | | | # Cái túi.n của tao.p ở.v đâu.a rồi hở # +---------------SA--------------+ # | +----------CC0----------+----------CCTt----------+-----------CCPt----------+ # +-NtPd-+ +-KHÔNG_NHỮNG-+ +---F--+-----F----+ +-MÀ_CÒN-+ +---TTT2_2--+--TT_TT-+ # | | | | | | | | | | | | # Anh.p ấy không những thông_minh.a , học_giỏi.a mà còn rất.a khiêm_tốn.a nữa.a # +--------------EV--------------+---------------CL--------------+ # +-----------ĐT_TT----------+ | +---------GT_ĐTt--------+ # +--------ĐT_GTt-------+ | | | +-----TT_ĐT-----+ # +-ĐT_GT+--GT_DT-+ | | | | | +-TT_ĐT+ # | | | | | | | | | | # Nghe_nói.v về anh.p lâu.n rồi mà hôm_nay.n mới.a được.a gặp.v # +---------SV-------+-------XH-------+ # | +--TĐT2_1-+----O---+-NtPd+ | # | | | | | | # Anh không biết.v chuyện.n ấy à # +---------GT_ĐTt---------+-------CL-------+ # | +--------SV------+ +-----SV---+ # | | +--TT_ĐT-+ +-NtPd-+ +-----O----+ # | | | | | | | | # Hôm_nay.n tôi.p mới.a biết.v anh.p ấy là.v thầy_giáo.n
171
# +----------ĐT_LA----------+ # +----SV--+-ĐT_GT+--GT_DT-+-NtPd+ +-LA_TT-+-XH-+ # | | | | | | | | # Anh mua.v với giá.n ấy là.v đắt.a đấy # +-----SV---+-----CL-----+--------ĐT_GTv-------+ # +-NtPd-+ | +---SV--+----ĐI----+ +--SAv-+--NNp--+ # | | | | | | | | | # Anh.p ấy rủ.v tôi.p đi.v du_lịch.v đồng_bằng.n sông.n Cửu_Long # +------CL-----+--------EV--------+------CL------+---------ĐT_TT---------+ # +-GT_DT-+ +-----O-----+ | +---SV--+-ĐT_XONG-+ +-TT_TT-+ # | | | | | | | | | | # Trong lúc.n học.v tiếng_Việt.n , tôi.p học.v được nhiều.a điều.a # +------------------------CL-----------------------+ # +----EV----+ +-------------------SV------------------+ # +--TĐT2_1-+---O--+ | +---SHA--+ +-SAt-+-SA-+-TT_ĐT+ # | | | | | | | | | | # Không hiểu.v sao.n , sức_khỏe.n mình.p càng.n ngày.n càng.a xuống # +----------QHT----------+------------CL------------+ # +--------CL--------+ | +---------SV-------+ # | +--SA-+ | | +--TĐT2_1--+--ĐT_TT-+ # | | | | | | | | # Vì thời_tiết.n xấu.a nên máy_bay.n không hạ_cánh.v được.a # +---------------CL---------------+ # +-----------------QHT-----------------+ +-----------SA----------+ # +------CL------+--------O-------+ | | +--------TTT4-------+ # | +---SV--+ +--DpNtm-+ | | | +---TTT2_1--+ # | | | | | | | | | | # Dù nó.p có.v nhiều tiền.n nhưng nó.p vẫn không hạnh_phúc.a
172
# +------------DT_LA-----------+ # +---------SDT5---------+ | # | +-------SV------+ | # +--ĐV-+ | +-TT_ĐT+ +-LA_DT-+-SH--+-NtPd+ # | | | | | | | | | # Cuốn sách.n anh.p đang.a đọc.v là.v của.n cô.p ấy # +----------SDT5----------+ # +--------SV------+--------O-------+ +-----SV----+ # | +--RpV-+ +---ĐV---+---MA---+ +-NtPd-+ | # | | | | | | | | | # Tôi đã đọc.v cuốn tiểu_thuyết.n mà anh.p ấy viết.v # +--------------------QHT--------------------+ # +-------------CL-------------+ +--------------------CL-------------------+ # | +----------SV--------+ | +----------------SV--------------+ # | +-SDT4-+--GT_DT-+ +----O---+ | +---F--+----F----+ +--RpV-+ # | | | | | | | | | | | | # Sở_dĩ nhà_máy.n của Loan hết.v việc.n là_do thiết_bị.n và phụ_tùng.n đã hết.v # +-------------CL-------------+ +-----------CL-----------+ # +------PH-----+ +---EV---+ +--------SV-------+ +-------ĐT_TT-------+ # +--GT_DT--+ | +--SA-+-STT-+ | | +--TĐT2_1-+--CL--+---O---+--NN-+ | # | | | | | | | | | | | | | | # Ở chợ.n , quần_bò.n nhiều.a quá , tôi.p không biết.v chọn.v loại.n nào.n cả.a # +------------GT_ĐTt------------+---------------------ĐT_TT--------------------+ # | +--------SV-------+-------O-------+----SDT4---+ | # +-TT_TTt+ | +--TĐT2_1-+-ĐT_XONG+ +---NN--+ +--GT_DT-+-NtPd+ | # | | | | | | | | | | | | # Lâu.n rồi tôi.p không nhận.v được tin_tức.n gì.n của cô.n ấy cả.a # +---------SV-------+-------------ĐT_TT-------------+ # | +--TĐT2_1-+---O--+-SDT4+--GT_DT-+-NtPd+ | # | | | | | | | | # Tôi chưa hiểu.v gì.n về cô.n ấy cả.a
173
PHỤ LỤC 3: MỘT SỐ LUẬT DỊCH ĐIỂN HÌNH
Phụ lục 3 trình bày dạng lưu trữ thực sự trong tệp văn bản của các luật được nêu ở
chương 4. Do vậy hình thức trình bày có sự khác biệt. Trong bộ luật này,
Ký hiệu * chỉ từ bất kỳ
() chỉ dãy bất kỳ các kết nối.
Ký hiệu $1 chỉ vị trí của từ trong cụm từ có thể áp dụng luật.
Ví dụ:
*()(DT_THI)*(DT_THI)(THI_ĐT)*(THI_ĐT)()-->$1$2:copy-feature($3,number,$1)
Có nghĩa là nếu từ thứ nhất trong một cụm từ có kết nối DT_THI với từ thứ hai, trong
khi từ thứ hai có kết nối THI_ĐT với từ thứ ba thì sao chép thuộc tính number của từ thứ
nhất sang từ thứ ba.
Chẳng hạn trong cụm từ “tôi thì học” thỏa các kết nối trên, sao thông tin về số từ đại từ
“tôi” sang động từ “học”
1. Luật xác định thuộc tính
*()(DpNt) *(DpNt)() --> $1 :set-feature($2, number, PLURAL)
*()(VT DT_THI) *(VT)() *(DT_THI)(THI_ĐT) *(THI_ĐT)() --> $1 $2 $3 :set-
feature($4, number, PLURAL)
*()(CC0) *(CC0)(DT_THI) *(DT_THI)(THI_ĐT) *(THI_ĐT)() --> $1 $2 $3 :set-
feature($4, number, PLURAL)
*()(DT_THI) *(DT_THI)(THI_ĐT) *(THI_ĐT)() --> $1 $2 :copy-feature($3, number,
$1)
*()(VT SV) *(VT)() *(SV)() --> $1 $2 :set-feature($3, number, PLURAL)
*()(CC0) *(CC0)(SV) *(SV)() --> $1 $2 :set-feature($3, number, PLURAL)
*()(SV) *(SV)() --> $1 :copy-feature($2, number, $1)
*()(VT DT_LA) *(VT)() *(DT_LA)() --> $1 $2 :set-feature($3, number, PLURAL)
*()(CC0) *(CC0)(DT_LA) *(DT_LA)() --> $1 $2 :set-feature($3, number, PLURAL)
*()(DT_LA) *(DT_LA)() --> $1 :copy-feature($2, number, $1)
*()(TĐT2_1) *(TĐT2_1)() --> $1 :set-feature($2, negated, TRUE)
*()(RpV) *(RpV)() --> $1 :set-feature($2, tense, PAST)
*()(RfV) *(RfV)() --> $1 :set-feature($2, tense, FUTURE)
*()(RhV) *(RhV)() --> $1 :set-feature($2, form, PRESENT_PARTICIPLE)
chưa()(TĐT2_1) *(TĐT2_1)() --> $1 :set-feature($2, form, PAST_PARTICIPLE)
*()(TĐT3h) *(TĐT3h)() --> $1 :set-feature($2, form, PAST_PARTICIPLE)
*()(ĐT_XONG) *(ĐT_XONG)() --> :set-feature($1, form, PAST_PARTICIPLE) $2
174
*()(VT SA) *(VT)() *(SA)() --> $1 $2 :set-feature($3, number, PLURAL)
*()(CC0) *(CC0)(SA) *(SA)() --> $1 $2 :set-feature($3, number, PLURAL)
*()(SA) *(SA)() --> $1 :copy-feature($2, number, $1)
*()(TTT2_1) *(TTT2_1)() --> $1 :set-feature($2, negated, TRUE)
*()(RpA) *(RpA)() --> $1 :set-feature($2, tense, PAST)
*()(RfA) *(RfA)() --> $1 :set-feature($2, tense, FUTURE)
*()(RhA) *(RhA)() --> $1 :set-feature($2, form, PRESENT_PARTICIPLE)
*()(TTT3h) *(TTT3h)() --> $1 :set-feature($2, form, PAST_PARTICIPLE)
tôi[p]()() --> :set-feature($1, person, FIRST)
mình[p]()() --> :set-feature($1, person, FIRST)
bọ[p]()() --> :set-feature($1, person, FIRST)
tớ[p]()() --> :set-feature($1, person, FIRST)
bạn[p]()() --> :set-feature($1, person, SECOND)
cô[p]()() --> :set-feature($1, person, THIRD)
*()(SV) *(SV)() --> $1 :copy-feature($2, person, $1)
*()(DT_LA) *(DT_LA)() --> $1 :copy-feature($2, person, $1)
*()(TT_SS) hơn(TT_SS)() --> :set-feature($1, is_comparative, TRUE) $2
*()(TT_SS) nhất(TT_SS)() --> :set-feature($1, is_superlative, TRUE) $2
*()(VTg) *(VTg)(VPg) *(VPg)() -> $1 $2 :copy-feature(:copy-feature(:copy-feature
(:copy-feature(:copy-feature( $3, number, $1), person, $1), tense, $1),
negated, $1), form, $1)
*()(VTt) *(VTt)(VPt) *(VPt)() -> $1 $2 :copy-feature(:copy-feature( $3,
is_comparative, $1), is_superlative, $1)
2. Luật dịch cụm từ
tháng()(SDT1) giêng(SDT1)() -> :set-string($1, January)
tháng()(SDT1) một(SDT1)() -> :set-string($1, January)
tháng()(SDT1) mười(SDT1)(ST_ST) hai(ST_ST)() -> :set-string($1, December)
tháng()(SDT1) chạp(SDT1)() -> :set-string($1, December)
kết_cấu()(ĐT_GT) từ(ĐT_GT)() --> :set-string($1, compose) :set-string($2, of)
nhìn()(ĐT_GT) *(ĐT_GT)() --> :set-string($1, look) :set-string($2, at)
chạy()(ĐT_GT) khỏi(ĐT_GT)() --> :set-string($1, run) :set-string($2, away) from
mua()(ĐT_GT O) cho(ĐT_GT)(GT_DT) *(GT_DT)() *(O)() --> $1 $3 $4
đưa()(ĐT_GT O) cho(ĐT_GT)(GT_DT) *(GT_DT)() *(O)() --> $1 $3 $4
ở()(GT_DT) đây(GT_DT)() --> here
ở()(GT_DT) đó(GT_DT)() --> there
làm[v]()(O ĐT_TT) *(O)() *(ĐT_TT)() -> :set-string($1, make) $2 $3
*()(TDT2m) *(TDT2m)(SA) *(SA)() -> $1 of $2 $3
*()(TDT2m) *(TDT2m)(SDT4) *(SDT4)() -> $1 of $2 $3
của()(GT_DT) *()(TDT2p) tôi(TDT2p GT_DT)() --> :set-string($1, our)
của()(GT_DT) tôi(GT_DT)() --> :set-string($1, my)
175
của()(GT_DT) cô(GT_DT)() --> :set-string($1, her)
*()(SDT4) của(SDT4)(GT_DT) *(GT_DT)() --> $3 's $1
*()(SHA) *()(TDT2p) tôi(TDT2p SHA)() --> $1 :set-string($2, our)
*()(SHA) *()(TDT2p) minh(TDT2p SHA)() --> $1 :set-string($2, our)
*()(SHA) *()(TDT2p) cô(TDT2p SHA)() --> $1 :set-string($2, their)
*()(GT_DT) *()(TDT2p) cô(TDT2p GT_DT)(NtPd) *(NtPd)() --> $1 :set-string($2,
them)
*()(GT_DT) *()(TDT2p) bạn(TDT2p GT_DT)(NtPd) *(NtPd)() --> $1 :set-string($2,
you)
*()(GT_DT) *()(TDT2p) nó(TDT2p GT_DT)(NtPd) *(NtPd)() --> $1 :set-string($2,
them)
*()(GT_DT) *()(TDT2p) họ(TDT2p GT_DT)(NtPd) *(NtPd)() --> $1 :set-string($2,
them)
*()(GT_DT) cô(GT_DT)(NtPd) *(NtPd)() --> $1 :set-string($2, her)
*()(GT_DT) nàng(GT_DT)(NtPd) *(NtPd)() --> $1 :set-string($2, her)
*()(GT_DT) chàng(GT_DT)(NtPd) *(NtPd)() --> $1 :set-string($2, him)
*()(GT_DT) bạn(GT_DT)(NtPd) *(NtPd)() --> $1 :set-string($2, you)
*()(GT_DT) họ(GT_DT)(NtPd) *(NtPd)() --> $1 :set-string($2, them)
*()(O) *()(TDT2p) cô(TDT2p O)(NtPd) *(NtPd)() --> $1 :set-string($2, them)
*()(O) *()(TDT2p) nàng(TDT2p O)(NtPd) *(NtPd)() --> $1 :set-string($2, them)
*()(O) *()(TDT2p) anh(TDT2p O)(NtPd) *(NtPd)() --> $1 :set-string($2, them)
*()(O) *()(TDT2p) ông(TDT2p O)(NtPd) *(NtPd)() --> $1 :set-string($2, them)
*()(O) *()(TDT2p) thằng(TDT2p O)(NtPd) *(NtPd)() --> $1 :set-string($2, them)
*()(O) *()(TDT2p) chàng(TDT2p O)(NtPd) *(NtPd)() --> $1 :set-string($2, them)
*()(O) *()(TDT2p) bạn(TDT2p O)(NtPd) *(NtPd)() --> $1 :set-string($2, you)
*()(O) *()(TDT2p) nó(TDT2p O)(NtPd) *(NtPd)() --> $1 :set-string($2, them)
*()(O) *()(TDT2p) họ(TDT2p O)(NtPd) *(NtPd)() --> $1 :set-string($2, them)
*()(O) cô(O)(NtPd) *(NtPd)() --> $1 :set-string($2, her)
*()(O) nàng(O)(NtPd) *(NtPd)() --> $1 :set-string($2, her)
*()(O) anh(O)(NtPd) *(NtPd)() --> $1 :set-string($2, him)
*()(O) ông(O)(NtPd) *(NtPd)() --> $1 :set-string($2, him)
*()(O) thằng(O)(NtPd) *(NtPd)() --> $1 :set-string($2, him)
*()(O) chàng(O)(NtPd) *(NtPd)() --> $1 :set-string($2, him)
*()(O) bạn(O)(NtPd) *(NtPd)() --> $1 :set-string($2, you)
*()(O) nó(O)(NtPd) *(NtPd)() --> $1 :set-string($2, it)
*()(O) họ(O)(NtPd) *(NtPd)() --> $1 :set-string($2, them)
cô()(NtPd) *(NtPd)() --> :set-string($1, she)
chị()(NtPd) *(NtPd)() --> :set-string($1, she)
nàng()(SDT6) *(SDT6)() --> :set-string($1, she)
bà()(SDT6) *(SDT6)() --> :set-string($1, she)
anh()(SDT6) *(SDT6)() --> :set-string($1, he)
thằng()(NtPd) *(NtPd)() --> :set-string($1, he)
176
chàng()(NtPd) *(NtPd)() --> :set-string($1, he)
ông()(NtPd) *(NtPd)() --> :set-string($1, he)
lão()(NtPd) *(NtPd)() --> :set-string($1, he)
bạn()(NtPd) *(NtPd)() --> :set-string($1, you)
nó()(NtPd) *(NtPd)() --> :set-string($1, it)
họ()(NtPd) *(NtPd)() --> :set-string($1, they)
*()(TDT2p) tôi(TDT2p)() --> :set-string($1, we)
*()(TDT2p) ta(TDT2p)() --> :set-string($1, we)
*()(TDT2p) minh(TDT2p)() --> :set-string($1, we)
*()(TDT2p) cô(TDT2p)() --> :set-string($1, they)
*()(TDT2p) bà(TDT2p)() --> :set-string($1, they)
*()(TDT2p) anh(TDT2p)() --> :set-string($1, they)
*()(TDT2p) ông(TDT2p)() --> :set-string($1, they)
*()(TDT2p) hắn(TDT2p)() --> :set-string($1, they)
*()(TDT2p) chàng(TDT2p)() --> :set-string($1, they)
*()(TDT2p) bạn(TDT2p)() --> :set-string($1, you)
*()(TDT2p) cậu(TDT2p)() --> :set-string($1, you)
*()(TDT2p) nó(TDT2p)() --> :set-string($1, they)
*()(TDT2p) họ(TDT2p)() --> :set-string($1, they)
thịt()(SDT1) bò(SDT1)() --> :set-string($1, beef)
thịt()(SDT1) lợn(SDT1)() --> :set-string($1, pork)
thịt()(SDT1) gà(SDT1)() --> :set-string($1, chicken)
đi()(ĐI) học(ĐI)() --> :set-string($1, go)()(_TO_) to(_TO_)(_I_) school[n](_I_)()
đi()(ĐI) làm(ĐI)() --> :set-string($1, go)()(_TO_) to(_TO_)(_I_) workl[n](_I_)()
đi()(ĐI) chơi(ĐI)() --> :set-string($1, go) out
đi()(ĐI) *(ĐI)() --> :set-string($1, go) :set-feature($2,form,PRESENT_PARTICIPLE)
cả()(CC0) *(CC0)(CCT) lẫn(CCT)(CCP) *(CCP)() --> both $2 and $4
cả()(CC0) *(CC0)(CCT) cả(CCT)(CCP) *(CCP)() --> both $2 and $4
cả()(CC0) *(CC0)(CCT) và(CCT)(CCP) *(CCP)() --> both $2 and $4
vừa()(CC0) *(CC0)(CCTt) vừa(CCTt)(CCPt) *(CCPt)() --> both $2 and $4
vừa()(CC0) *(CC0)(CCTg) vừa(CCTg)(CCPg) *(CCPg)() --> $2 while :set-feature($4,
form, PRESENT_PARTICIPLE)
*()(ĐT_ĐTp) *(ĐT_ĐTp)() --> $1 :set-feature($2, form, PRESENT_PARTICIPLE)
*()(ĐT_ĐTi) *(ĐT_ĐTi)() -> $1 :set-feature($2, form, BARE_INFINITIVE)
*()(ĐT_ĐT) *(ĐT_ĐT)()-->$1 to()(_TO_):set-eature($2,form,BARE_INFINITIVE)(_TO_)()
*()(TT_SS) hơn(TT_SS)() --> $1()(_MVt_) than(_MVt_)()
sắp()() --> :set-string($1, be)()(_P_) about(_P_)(_TO_) to(_TO_)()
sắp_sửa()() --> :set-string($1, be)()(_P_) about(_P_)(_TO_) to(_TO_)()
đầu_hàng()() --> :set-string($1, give)()(_IDL_) up(_IDL_)()
*()(LA_DT) người(LA_DT)(DT\_TTv) *(DT\_TTv)() -> $1 from $3
177
*()(THT)*()(SV)*()(TĐT2_1) *(TĐT2_1 SV THT)()-->$1 :set-feature(:copy-
feature(:copy-feature(:copy-feature(do, number, $4), person, $4), tense, $4),
contracted-negation,TRUE)[v]()(_I_)$2:set-feature($4,form,BARE_INFINITIVE)(_I_)()
*()(THT) *()(SV) *(SV THT)() --> $1 :copy-feature(:copy-feature(:copy-feature(
do, number, $3), person, $3), tense, $3)[v]()(_I_)$2 :set-feature($3,form,
INFINITIVE)(_I_)()
*()(SV) có(SV)(ĐT_TT O) *(ĐT_TT)() không(O)() ->:copy-feature(:copy-
feature(:copy-feature(be, number, $2), person, $2), tense, $2)[v]()(_SI_ _Pa_)
$1(_SI_)() $3(_Pa_)()
*()(SV) có(SV)(CÓ CK) *[v](CÓ)() không(CK)() ->:copy-feature(:copy-feature(:copy-
feature(do, number, $2), person, $2), tense, $2)[v]()(_SI_ _I_) $1(_SI_)()
:set-feature($3, form, BARE_INFINITIVE)(_I_)()
*()(SV) có(SV)(OO) *(O)() không(O)() ->:copy-feature(:copy-feature(:copy-feature(
do, number, $2), person, $2), tense, $2)[v]()(_SIp_)$1(_SIp_)(_Ifd_)have(_Ifd_)
(_Os_) $3(_Os_)()
*()(SV) chưa()(TĐT2_1) *(TĐT2_1 SV)() ->$1()() :copy-feature(:copy-feature(have,
number, $3), person, $3)[v]()(N _PP_)not(N)() :remove-feature($3,negated)(_PP_)()
*()(SV) *()(RfV) *()(TĐT2_1) *(TĐT2_1 RfV SV)() -> $1 $2 $3 $4
*()(SV) *()(RpV) *()(TĐT2_1) *(TĐT2_1 RpV SV)() --> $1 $2 $3 $4
*()(SV) *()(TĐT2_1) *(TĐT2_1 SV)() --> $1()() :copy-feature(:copy-feature(do,
number, $3), person, $3)[v]()(_PP_)$2 $3(_PP_)()
3. Luật chuyển đổi cấu trúc
*()(DT_LA) *()(TĐT2_1) *(TĐT2_1 DT_LA)() --> $1 $3 $2
*()(TT_TT) *(TT_TT)() --> $2 $1
*()(SA SA) *(SA)() *(SA)() --> $3 $2 $1
*()(SA) *(SA)() --> $2 $1
*()(ĐT_TT) *(ĐT_TT)() --> $2 $1
*()(SHA) *(SHA)() --> $2 $1
*()(SDT1)*(SDT1)(VT)*(VT)(VP)*(VP)(VT)*(VT)(VP)*(VP)()-->$2 $3 $4 $5 $6 $1
*()(SDT1) *(SDT1)(VT) *(VT)(VP) *(VP)() --> $2 $3 $4 $1
*()(SDT1) *(SDT1)() --> $2 $1
*()(NtPd) *(NtPd)() --> $2 $1
*()(STT) *(STT)() --> $2 $1
*()(SỰ) *(SỰ)() --> $2
*()(RpV) *(RpV)() --> $2 $1
178
PHỤ LỤC 4: SO SÁNH KẾT QUẢ DỊCH MỘT SỐ MẪU CÂU
Sentence 1 (1): Tên tôi là Hoa --> My name is bloom. VEtran: My Name is Flower. Google: My name is United. Sentence 2 (2): Mẹ tôi là một bác_sĩ giỏi. --> My mother is a good doctor. VEtran: My mother is a jurisprudent physician. Google: My mother is a good doctor. Sentence 3 (3): tôi cần một quyển sách để đọc ở nhà. --> Need me a book sets reading at home. VEtran: I need a tomes to read keep indoors. Google: I need a book to read at home. Sentence 4 (4): Tất_cả mọi thành_viên phải đi họp. --> All every members must go convening. VEtran: All All members must go to meet. Google: All members have to go to meetings. Sentence 5 (5): tôi có_thể cho cô mượn cái áo len của tôi. --> I could give borrow my wool shirt. VEtran: I can lend miss my sweater. Google: I can let her borrow my sweater. Sentence 6 (6): Cô ấy cảm_thấy muốn khóc. --> She feels wanting to cry. VEtran: She feel like cry. Google: She felt like crying. Sentence 7 (7): tôi không bao_giờ nên nghe lời anh ta. --> when not me ought to hear word. VEtran: I never ought to obey him. Google: I never heard him. Sentence 8 (8): tôi thách anh nhảy qua cái tường kia --> I defy him dances last that wall. VEtran: I am challenged you overleaps that mural one. Google: I challenge him to jump over the wall there. Sentence 9 (9): Anh ta muốn tôi đi với cô ấy. --> He wants me departs for her. VEtran: He is wished I go with her. Google: He wanted me to go with her. Sentence 10 (10): tôi yêu cô ấy bằng cả trái_tim mình. --> I love her by all my heart. VEtran: I love her by a whole body heart. Google: I love her with all my heart.
179
Sentence 11 (11): tôi biết tất_cả về cô ta. --> I know all about her. VEtran: I know all about who boil down me. Google: I know all about her. Sentence 12 (12): Ông ta chịu_đau rất can_đảm. --> he very courageous suffers. VEtran: ông we bears aching is very manly. Google: Pain he was very courageous. Sentence 13 (13): Anh ấy muốn chị ấy tới. --> he wants she comes. VEtran: He is wished she is next. Google: He wanted her to. Sentence 14 (14): tôi được tặng một món_quà. --> I am presented a gift. VEtran: I am giftted a gift. Google: I was given a gift. Sentence 15 (15): Những lỗi_lầm lớn thường kết_cấu từ những lỗi_lầm nhỏ. --> big mistakes usually compose of young mistakes. VEtran: Big lapses often frame from little lapses. Google: The big mistake is often small structures from mistakes. Sentence 16 (16): Con ngựa đá con ngựa đá. --> horse kicks rocky horse. VEtran: The horse stone horse kick. Google: Horse stone horse. Sentence 17 (17): Kiến bò lên đĩa thịt bò. --> ant creeps up beef dish. VEtran: Beef disc rise the ox the Emmet. Google: Ants onto beef. Sentence 18 (18): Sự khôn_ngoan có_giá hơn châu_ngọc. --> wise is valuabler than jewel. VEtran: Something precious more priced advisability. Google: Valuable than wisdom pearls. Sentence 19 (19): Báo_săn là loài động_vật nhanh nhất thế_giới. --> cheetah is the quickest animal world. VEtran: Cheetah is world' s fast animal the kind. Google: Alert hunt is the world's fastest animal. Sentence 20 (20): Sao anh dám đánh tôi. --> why does you dare beat me. VEtran: My britannic Asteroid dare whipped. Google: How dare you hit me. Sentence 21 (21): bố và mẹ tôi rất thích xem phim. --> my father and mother very likes to watch film. VEtran: I and my mother like to look up film very much. Google: My parents love to watch movies.
180
Sentence 22 (22): anh ấy đá_bóng và bơi rất giỏi. --> he very well plays football and swims. VEtran: he kicked is shaded and very jurisprudent swimming. Google:he's very good football and pool. Sentence 23 (23): cô bé càng lớn càng xinh. --> the more big is little nipper pretty. VEtran: more more nice-looking big little miss. Google:the bigger the beautiful girl. Sentence 24 (24): bố tôi đưa cho tôi quyển sách. --> my father takes give me book. VEtran: tome my father give to med. Google:My father gave me a book. Sentence 25 (25): anh ấy biết cả tiếng_Việt cả tiếng_Pháp. --> he knows both Vietnamese and French. VEtran: he know a whole french Vietnamese too. Google:he knows both English French. Sentence 26 (26): anh có từ_điển Việt - Anh không --> do you have Vietnamese - English dictionary You has Vietnamese dictionary- You neither you have dictionary English - I do not Sentence 27 (27): Có chứ! --> has! VEtran: There is final particle! Google: Yeah! Sentence 28 (28): Không biết máy_tính này có tốt không. --> not know this computer well has not. VEtran: Know this computer had well Neither. Google: Do not know this computer is good. Sentence 29 (29): Tất_nhiên là nhớ chứ! --> naturally is! VEtran: Of course it be final particle remembrance! Google: Of course, remember! Sentence 30 (30): Bác cũng quen cô ấy chứ ạ? --> also knows her? VEtran: Do You who also get used to her ạ? Google: Physicians also go after the letter A? Sentence 31(31): anh ấy là người Nhật chứ không_phải người Hàn_Quốc. --> he is Japanese person not Korean individual. VEtran: he is Japanese isn' t Korea person. Google: He is Japanese, not Korean. Sentence 32 (32): Máy ấy là máy_giặt chứ đâu_phải là máy_điều_hòa. --> that machine is washing-machine not conditioner is. VEtran: That Machine is washer final particle definitely not is conditioner. Google: Where was the washing machine rather than air conditioning.
181
Sentence 33 (33): Cả cháu cả nhà cháu đều chuyển vào Vũng_Tàu một năm nay rồi bác ạ. --> both niece and nephew house after transfer into Vung Tau one year. VEtran: A whole grandchild everybody in the house grandchild these a years roadstead roll-in then refuse ạ. Google: Both her whole family she moved to Vung Tau for a year then North Asia. Sentence 34 (34): Bộ_Kế_hoạch_và_Đầu_tư ở đâu hở em. --> Ministry of Planning and Investment where is. VEtran: Younger sister where uncovered Ministry of Planning and Investment. Google: Ministry of Planning and Investment in the open where you. Sentence 35 (35): Anh ấy không những thông_minh , học_giỏi mà còn rất khiêm_tốn nữa. --> He is not only intelligent , good but also still very much more modest. VEtran: He not only wit, do well in school but also plenty humility as well. Google: He's not only smart, good student but also very modest. Sentence 36 (36): Nghe_nói về anh lâu rồi mà hôm_nay mới được gặp --> Then hears about him long that today new finding. VEtran: Hear tell of you then long-term that new today is met. Google: Heard about him for a long time today to meet new. Sentence 37 (37): Anh không biết chuyện ấy à. --> Does not know that story. VEtran: You is unaware That tale. Google: Do not you know that. Sentence 38 (38): Hôm_nay tôi mới biết anh ấy là thầy_giáo. --> Today I fresh realized he is teacher. VEtran: Today I newly know he is instructor. Google: Today I know that he is a teacher. Sentence 39 (39): Anh mua với giá ấy là đắt đấy. --> You gets for that cost is costly there. VEtran: You bought with That cost be dearly there. Google: You're purchase price was expensive. Sentence 40 (40): Anh ấy rủ tôi đi du_lịch đồng_bằng sông Cửu_Long. --> He asks me go touring Cuu Long river delta. VEtran: He hangs I tour the Mekong river champaign. Google: He invites me to travel to the Mekong Delta. Sentence 41 (41): Trong lúc học tiếng_Việt , tôi học được nhiều điều. --> For while studying Vietnamese , I thing studied many. VEtran: During who learn Vietnamese, I learn talkativeness. Google: While learning English, I learned a lot. Sentence 42 (42): Không hiểu sao , sức_khỏe mình càng ngày càng xuống. --> Not comprehend star , my strength the more day nipper go down. VEtran: Non- comprehension is stellar, health i more and more go down to. Google: Somehow, his health is increasingly down.
182
Sentence 43 (43): Vì thời_tiết xấu nên máy_bay không hạ_cánh được. --> As bad weather so plane does not land. VEtran: For dirty weather ought to plane landed. Google: Because of bad weather, the plane not landing. Sentence 44 (44): Dù nó có nhiều tiền nhưng nó vẫn không hạnh_phúc. --> Whether it has some moneys but still not happy it. VEtran: Even if it is moneyed but it still whoes isn't blisstul. Google: Although it has a lot of money but it is still not happy. Sentence 45 (45): Cuốn sách anh đang đọc là của cô ấy. --> Book you are reading is property that. VEtran: Wind you is reading book is hers. Google: The book he was reading her. Sentence 46 (46): Tôi đã đọc cuốn tiểu_thuyết mà anh ấy viết. --> I read fiction that he writes. VEtran: I readed novel that he writes. Google: I have read the novel that he wrote. Sentence 47 (47): Sở_dĩ nhà_máy của Loan hết việc là_do thiết_bị và phụ_tùng đã hết. --> Loan's factory expires job because equipment and accessories finished. VEtran: That's why be owing to plant and accessary finis Phoenix's factory ended. Google: The reason Taiwan factory all is due to equipment and spare parts of all. Sentence 48 (48): Ở chợ , quần_bò nhiều quá , tôi không biết chọn loại nào cả. --> At market, too much jeans , I do not know all choosing which sort. VEtran: ở my bazaar, trousers who crept much whopping, is unaware which kind to choose is all together. Google: At the market, many jeans too, I do not know how to select all. Sentence 49 (49): Lâu rồi tôi không nhận được tin_tức gì của cô ấy cả. --> After long I do not all accept her anything news. VEtran: Long then I don' t receive news hers is all together. Google: Long time since I received news of her whole. Sentence 50 (50): Tôi chưa hiểu gì về cô ấy cả. --> I have not all understood anything about her. VEtran: Not already My That what comprehension about her is all together. Google: I do not know anything about her.
183