Luận án Tiến sĩ Công nghệ thông tin: Mô hình văn phạm liên kết tiếng Việt

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

NGUYỄN THỊ THU HƯƠNG

MÔ HÌNH

VĂN PHẠM LIÊN KẾT TIẾNG VIỆT

Chuyên ngành: Khoa học máy tính

Mã số: 62.48.01.01

LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

Người hướng dẫn khoa học:

GS. TS. NGUYỄN THÚC HẢI

GS.TS. NGUYỄN THANH THỦY

Hà Nội - Năm 2013

LỜI CẢM ƠN

Trước khi trình bày nội dung nghiên cứu của luận án, tôi xin bày tỏ sự biết ơn chân thành

đến hai thầy hướng dẫn, GS.TS. Nguyễn Thúc Hải, GS.TS. Nguyễn Thanh Thủy, những người

thầy kính mến đã không chỉ tận tình hướng dẫn giúp đỡ mà còn động viên tôi rất nhiều để tôi

hoàn thành luận án này.

Xin chân thành cảm ơn các đồng nghiệp tại Bộ môn Khoa học Máy tính và Viện Công

nghệ thông tin và Truyền thông, Đại học Bách khoa Hà Nội, đã hỗ trợ và chia sẻ cùng tôi trong

công việc, giúp đỡ tôi rất nhiều trong những lúc khó khăn.

Tôi xin chân thành cảm ơn PGS.TS. Lương Chi Mai, PGS.TS. Lê Thanh Hương, PGS.

TS. Nguyễn Thị Kim Anh, PGS. TS. Đặng Văn Chuyết, TS Nguyễn Văn Vinh, TS Nguyễn Thị

Minh Huyền đã giúp đỡ và đóng góp rât nhiều ý kiến quý báu cho luận án.

Tôi xin chân thành cảm ơn các nhà ngôn ngữ học: PGS.TS Phạm Văn Tình, PGS.TS

Nguyễn Chí Hòa, Vũ Xuân Lương, Đào Văn Hùng đã hỗ trợ tôi rất nhiệt tình khi tìm hiểu các

đặc trưng của tiếng Việt.

Xin chân thành cảm ơn các cựu sinh viên Lê Văn Chương, Phạm Nguyễn Quang Anh,

Luyện Thanh Đạt, Lê Ngọc Minh đã giúp đỡ tôi trong quá trình thử nghiệm mô hình liên kết.

Xin chân thành cảm ơn nhóm nghiên cứu VLSP, đặc biệt là GS.TS Hồ Tú Bảo và TS.

Nguyễn Phương Thái đã cung cấp bộ ngữ liệu tiếng Việt để tôi thực hiện các thử nghiệm.

Xin bày tỏ lòng biết ơn sâu sắc đến chồng và các con yêu dấu cùng mọi người trong gia

đình đã là nguồn động viên về tinh thần rất quan trọng để tôi hoàn thành công trình của mình.

Hà Nội ngày 20 tháng 3 năm 2012

Tác giả luận án

Nguyễn Thị Thu Hương

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả

trong luận án là trung thực và chưa từng được công bố trong bất kỳ công trình nào

khác.

Tác giả luận án

Nguyễn Thị Thu Hương

MỤC LỤC

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .......................................................4

DANH MỤC CÁC HÌNH VẼ ..........................................................................................5

DANH MỤC BẢNG BIỂU ..............................................................................................8

DANH MỤC CÁC KẾT NỐI QUAN TRỌNG ...............................................................9

MỞ ĐẦU ........................................................................................................................ 11

CHƯƠNG 1 TỔNG QUAN VỀ CÁC MÔ HÌNH VĂN PHẠM CHO NGÔN

1.1. Cách tiếp cận cấu trúc và văn phạm phi ngữ cảnh ....................................... 20

1.1.1. Văn phạm phi ngữ cảnh biểu diễn ngôn ngữ tự nhiên ............................... 20

1.1.2. Văn phạm phi ngữ cảnh xác suất ....................................................... 23

1.1.3.Văn phạm phi ngữ cảnh xác suất từ vựng hóa ..................................... 26

1.1.4. Văn phạm kết nối cây ........................................................................ 27

1.2. Tiếp cận qua cấu trúc nét và văn phạm hợp nhất ......................................... 28

1.3. Cách tiếp cận phụ thuộc .............................................................................. 29

1.3.1. Một số khái niệm ............................................................................... 29

1.3.2.Tính chất của cây phụ thuộc ............................................................... 32

1.4. Văn phạm liên kết ....................................................................................... 34

1.4.1. Khái niệm văn phạm liên kết ............................................................. 34

1.4.2. Các định nghĩa hình thức về văn phạm liên kết .................................. 38

1.5. Kết luận ...................................................................................................... 40

NGỮ TỰ NHIÊN ........................................................................................................... 20

2.1.Văn phạm liên kết cho tiếng Việt ................................................................. 43

2.1.1. Cấu trúc từ điển liên kết .................................................................... 43

2.1.2. Xây dựng liên kết cho danh từ ........................................................... 47

2.1.3. Các liên kết cho động từ .................................................................... 55

2.1.4. Các liên kết cho tính từ ...................................................................... 60

2.1.5. Liên kết các mệnh đề trong câu ghép đơn giản .................................. 61

2.2. Mở rộng từ điển văn phạm liên kết ............................................................. 64

2.2.1. Giải thuật mở rộng từ điển ................................................................. 66

CHƯƠNG 2 MÔ HÌNH VĂN PHẠM LIÊN KẾT TIẾNG VIỆT............................. 43

2.2.2. Ứng dụng giải thuật mở rộng từ điển tiếng Việt ................................. 67

2.2. Kết luận ................................................................................................... 68

3.1. Bộ phân tích cú pháp liên kết ..................................................................... 70

3.1.1. Giải thuật phân tích cú pháp .............................................................. 70

3.1.2. Lược tỉa ............................................................................................. 72

3.1.3. Kết quả thử nghiệm phân tích câu đơn và câu ghép đơn giản ............. 74

3.2. Phân tích cú pháp cho câu ghép .................................................................. 77

3.2.1. Xây dựng cây diễn ngôn .................................................................... 81

3.2.2. Giải thuật phân tích cú pháp câu ghép ............................................... 90

3.2.3. Tìm từ để kết nối mệnh đề ................................................................. 91

3.2.4. Kết quả thử nghiệm phân tích câu ghép ............................................. 93

3.2.5. Độ phức tạp tính toán ........................................................................ 96

3.3.Khử nhập nhằng ........................................................................................... 96

3.3.1. Khử nhập nhằng thành phần .............................................................. 97

3.3.2. Khử nhập nhằng liên hợp ................................................................ 103

3.4. Kết luận .................................................................................................... 107

CHƯƠNG 3 PHÂN TÍCH CÚ PHÁP TRÊN VĂN PHẠM LIÊN KẾT ................... 70

CHƯƠNG 4 HỆ THỐNG DỊCH MÁY SỬ DỤNG DẠNG TUYỂN CÓ CHÚ GIẢI

4.1. Tổng quan về dịch máy ............................................................................. 109

4.1.1.Tình hình phát triển dịch máy ở Việt Nam ........................................ 109

4.1.2. Phương pháp đánh giá chất lượng dịch máy .................................... 111

4.2. Khác biệt ngôn ngữ Việt - Anh ................................................................. 112

4.2.1. Khác biệt hình thái .......................................................................... 112

4.2.2. Khác biệt về trật tự từ ...................................................................... 115

4.3. Hệ thống dịch máy sử dụng dạng tuyển có chú giải ............................... 116

4.3.1.Tìm nghĩa từ trong từ điển ADJ ........................................................ 118

4.3.2.Xây dựng bộ luật dịch ...................................................................... 119

4.3.3.Hoàn thiện câu dịch .......................................................................... 125

4.3.4.Kết quả thử nghiệm với bộ dịch dựa trên dạng tuyển có chú giải ...... 126

.............................................................................................................. 109

4.4. Kết luận ................................................................................................... 130

Tóm tắt ............................................................................................................ 133

Các đóng góp chính của luận án....................................................................... 133

Về mặt khoa học ....................................................................................... 133

Về mặt thực tiễn ........................................................................................ 134

Hạn chế và hướng phát triển ............................................................................ 135

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ................................................................... 133

CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ .......................................................................... 136

TIẾNG VIỆT ................................................................................................... 137

TIẾNG ANH ................................................................................................... 139

TIẾNG NGA ................................................................................................... 147

CÁC WEBSITE .............................................................................................. 147

TÀI LIỆU THAM KHẢO ........................................................................................... 137

PHỤ LỤC 1: CHI TIẾT CÁC CÔNG THỨC CHỦ YẾU TRONG LIÊN KẾT TIẾNG

VIỆT ............................................................................................................................. 148

PHỤ LỤC 2: KẾT QUẢ PHÂN TÍCH LIÊN KẾT CỦA MỘT SỐ CÂU ĐƠN VÀ

CÂU GHÉP HAI MỆNH ĐỀ ....................................................................................... 166

1. Luật xác định thuộc tính .............................................................................. 174

2. Luật dịch cụm từ .......................................................................................... 175

3. Luật chuyển đổi cấu trúc .............................................................................. 178

PHỤ LỤC 3: MỘT SỐ LUẬT DỊCH ĐIỂN HÌNH .................................................... 174

PHỤ LỤC 4: SO SÁNH KẾT QUẢ DỊCH MỘT SỐ MẪU CÂU .............................. 179

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

HMM Hidden Markov Model: Mô hình Markov ẩn

BNF

Backus Naur Form: Công thức siêu ngữ Backus

ADJ

Annotated Disjunct: Dạng tuyển có chú giải

RST

Rhetorical Structure Tree: Cây cấu trúc diễn ngôn

CCR

Chunks/Constituents/Relation

SVO

Subject-Verb-Object: Trật tự câu theo kiểu chủ ngữ- động từ- bổ ngữ

SVM

Support Vector Machine: Máy vectơ hỗ trợ

CRF

Conditional Random Fields: Trường ngẫu nhiên có điều kiện

EDU

Elementary Discourse Unit: Đơn vị diễn ngôn nguyên tố

HPSG Head driven Phrase Structure Grammar: Văn phạm cấu trúc đoạn hướng trung tâm

EBNF Extended Backus Naur Form: Công thức siêu ngữ Backus mở rộng

DANH MỤC CÁC HÌNH VẼ

Hình 1.1. Cây ngữ cấu của câu “Tôi thích chân gà”. ............................................. 21

Hình 1.2. Hai cây ngữ cấu của câu “Họ sẽ không chuyển hàng xuống thuyền vào

ngày mai”. ............................................................................................................. 22

Hình 1.3. Văn phạm phi ngữ cảnh xác suất và cây ngữ cấu của câu “Last week IBM

bought Lotus” ........................................................................................................ 27

Hình 1.4. Phân tích câu “John loves a woman” trong một mô hình văn phạm phụ

thuộc ...................................................................................................................... 31

Hình 1.5. Đồ thị phụ thuộc của câu “Economic news had little effect on financial

market” ................................................................................................................. 32

Hình 1.6. Câu đúng ngữ pháp “Tại sao cậu không tới” .......................................... 35

Hình 1.7. Kết nối lớn của từ “và” ......................................................................... 37

Hình1.8. Chu trình trong phân tích câu .................................................................. 38

Hình 1.9. Nút liên kết ............................................................................................ 39

Hình 2.1. Cấu trúc danh ngữ với đầy đủ các thành tố ............................................ 48

Hình 2.2. Liên kết trong cụm từ “những cái bàn” .................................................. 51

Hình 2.4. Liên kết trong cụm từ “cái bàn bằng gỗ” ............................................... 53

Hình 2.3. Liên kết trong cụm từ “cái giường lò xo”. ............................................. 53

Hình 2.5. Liên kết trong cụm từ “cái bàn của tôi” ................................................. 54

Hình 2.6. Hai cách liên kết cho cụm từ “cái bàn bằng gỗ của tôi” ......................... 54

Hình 2.7. Các liên kết xoay quanh danh từ trung tâm “ghế” ................................. 55

Hình 2.8. Thành tố phụ đi trước mọi động từ ........................................................ 56

Hình 2.9. Liên kết trong cụm từ “vẫn đang làm” .................................................. 57

Hình 2.10. Liên kết trong cụm từ “không hay đọc sách này” ................................ 57

Hình 2.11. Liên kết trong cụm từ “đang rất sợ” .................................................... 59

Hình 2.12. Liên kết trong cụm từ “ sâu hai ngàn mét”........................................... 61

Hình 2.13. Liên kết câu ghép hai mệnh đề với liên từ ở giữa ................................. 62

Hình 2.14. Liên kết của câu ghép hai mệnh đề với liên từ ở đầu và dấu phảy ........ 63

Hình 2.15. Liên kết trong câu ghép với liên từ có mặt trong cả hai mệnh đề .......... 63

Hình 2.16. Một đoạn trong từ điển văn phạm liên kết ............................................ 64

Hình 2.17. Ánh xạ trực cảm .................................................................................. 67

Hình 2.18. Quy trình xây dựng từ điển văn phạm liên kết tiếng Việt ..................... 69

Hình 3.1. Giải thuật phân tích ............................................................................... 70

Hình 3.2. Lời giải cục bộ ....................................................................................... 70

Hình 3.3. Giải thuật phân tích cú pháp liên kết ...................................................... 71

Hình 3.4.Hàm COUNT cho số phân tích của câu. ................................................ 71

Hình 3.5. Cây cho công thức (NN- &{NN+}) or ({PqNt-} & {NN+}) .................. 73

Hình 3.6. Số lượng dạng tuyển sau lược tỉa và lược tỉa mạnh ................................ 74

Hình 3.7. Kêt quả phân tích liên kết của câu “Chúng tôi muốn giành các danh

hiệu” ..................................................................................................................... 75

Hình 3.8. Kêt quả phân tích liên kết của câu “Mỗi một mùa trắng tay đều khó nuốt

trôi” ....................................................................................................................... 75

Hình 3.9. Kết quả phân tích liên kết của câu “Phần lớn bọ ngựa ăn côn trùng” ... 76

Hình 3.10. Cây phân tích diễn ngôn của câu “[trời mưa rất to vàA1] [gió rất mạnh nênB1] [tôi phải nghỉ học,C1] [mẹ tôi phải nghỉ làm.D1]” ......................................... 80

Hình 3.11. Giải thuật phân đoạn diễn ngôn (có khử nhập nhằng) .......................... 85

Hình 3.12. Hàm isClause ....................................................................................... 87

Hình 3.13. Các dạng cây cấu trúc diễn ngôn .......................................................... 89

Hình 3.14. Giải thuật phân tích cú pháp cho câu ghép ........................................... 90

Hình 3.15. Hàm Insert_Link_From_RST_Tree ...................................................... 91

Hình 3.16. Minh họa cách lưu trữ phân tích liên kết của câu “Tôi mua một bông

hoa” ....................................................................................................................... 92

Hình 3.17. Phân tích câu “Tôi mua một bông hoa” ................................................ 92

Hình 3.18. Phân tích cụm từ “một cái bút rất tốt”.................................................. 93

Hình 3.19. Kết quả phân tích câu “Trời mưa rất to và gió rất mạnh nên tôi phải

nghỉ học, mẹ tôi phải nghỉ làm” ............................................................................. 94

Hình 3.20. Hai phân tích của câu “Tôi mua một bông hoa” .................................. 98

Hình 3.21. Giải thuật kiểu Viterbi để dự đoán phân tích có xác suất cao nhất ........ 99

Hình 3.22. Mô tả cách tính xác suất

..................... 101

PrO ⊲ left(L, W, l ⊳, ⊲ leftd)

Hình 3.23. Minh họa mối liên kết để tính

.............................................. 102

(cid:16)(cid:17)O(cid:18)(cid:19)(cid:20)(cid:21)

Hình 3.24. Phân tích câu “Tôi thích bánh và kẹo, anh thích rượu và bia” ........... 105

Hình 3.25. Một phân tích với kết nối F cho từ “và” ............................................. 106

Hình 3.26. Kết nối G nối nhiều dấu phảy và từ “và”............................................ 107

Hình 4.1.Sắp xếp lại trật tự từ ............................................................................. 115

Hình 4.2. Kiến trúc của hệ dịch dựa trên dạng tuyển có chú giải ......................... 118

Hình 4.3. Thay đổi trật tự từ cho bản dịch câu “Cô gái nhỏ rất xinh” .................. 122

Hình 4.4. Quá trình dịch câu “Báo săn là loại động vật nhanh nhất thế giới” ...... 128

Hình 4.5. So sánh điểm BLEU của các hệ thống .............................................. 129

DANH MỤC BẢNG BIỂU

Bảng 1.1. Ví dụ của một từ điển ............................................................................ 34

Bảng 2.1.Các loại từ tiếng Việt .............................................................................. 45

Bảng 2.2. Các tiểu loại từ tiếng Việt ...................................................................... 45

Bảng 3.1. Chi tiết bộ ngữ liệu mẫu cho bộ phân tích cú pháp liên kết .................... 76

Bảng 3.2. Kết quả phân tích liên kết cho các tập mẫu ............................................ 76

Bảng 3.3. Kết quả thử nghiệm bộ phân tích diễn ngôn (chưa kết hợp phân tích cú

pháp) ..................................................................................................................... 79

Bảng 3.4. Các biểu thức chính quy biểu diễn một số dấu hiệu diễn ngôn tiềm tàng81

Bảng 3.5. Hành động ứng với một số dấu hiệu diễn ngôn ...................................... 82

Bảng 3.6. Chi tiết tập mẫu câu ghép ...................................................................... 94

Bảng 3.7. Kết quả phân tích các tập mẫu câu ghép ................................................ 95

Bảng 4.1. Những khác biệt quan trọng về hình thái giữa tiếng Việt và tiếng Anh 113

Bảng 4.2. Đại từ xưng hô tiếng Anh .................................................................... 114

Bảng 4.3. Đại từ xưng hô tiếng Việt .................................................................... 114

Bảng 4.4. So sánh kết quả các hệ thống dịch ....................................................... 129

DANH MỤC CÁC KẾT NỐI QUAN TRỌNG

Kết nối chỉ chất liệu (ẩn giới từ). CLI

Kết nối động từ “đi” với động từ khác. DI

Kết nối định từ chỉ số nhiều với danh từ. DpN

Kết nối định từ chỉ số nhiều với danh từ cụ thể. DpNt

Kết nối định từ chỉ số ít với danh từ. DsN

DT_LA Kết nối danh từ, đại từ xưng hô với động từ quan hệ “là”.

ĐT_XONG Kết nối một động từ và động từ “xong”.

Kết nối giới từ “của” với đại từ xưng hô. EoPp

Kết nối giới từ chỉ vị trí và danh từ cụ thể. EpNt

Kết nối danh từ cụ thể và giới từ phạm vi. EsNt

LA_DT Kết nối động từ “là” với danh từ.

Kết nối số từ và danh từ chỉ đơn vị. McNu

Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ người. NcNt1

Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ động vật. NcNt2

Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ thực vât. NcNt3

Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ đồ dùng, vật dụng. NcNt4

Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ hiện tượng. NcNt5

Kết nối giữa danh từ chỉ loại với danh từ cụ thể chỉ khái niệm. NcNt6

Kết nối danh từ và giới từ chỉ sở hữu. NEo

Kết nối danh từ và danh từ, có thể thể hiện quan hệ về nội dung, địa điểm… NN

Kết nối danh từ cụ thể và giới từ chỉ chất liệu. NtEm

Kết nối giới từ phạm vi và danh từ cụ thể. NtEs

Kết nối danh từ cụ thể với đại từ chỉ định. NtPd

Kết nối danh từ chỉ đơn vị và danh từ cụ thể. NuNt

NHAT_DT Kết nối từ “nhất” với danh từ đứng sau.

Kết nối động từ và bổ ngữ trực tiếp. O

Kết nối động từ với phụ từ so sánh. RcV

Kết nối phụ từ thời gian (tương lai) và tính từ. RfA

Kết nối định từ chỉ thì tương lai và động từ. RfVt

Kết nối động từ với phụ từ thời gian (tương lai). RfVt

Kết nối phụ từ thời gian (hiện tại hoàn thành) và tính từ. RhA

Kết nối phụ từ thời gian (hiện tại hoàn thành) và động từ. RhV

Kết nối động từ với phụ từ mệnh lệnh. RmV

Kết nối phủ định từ và động từ. RnV

Kết nối động từ với phụ từ phủ định. RnV1

Kết nối phụ từ thời gian (quá khứ) và tính từ. RpA

Kết nối động từ với phụ từ thời gian (quá khứ). RpV

Kết nối định từ chỉ thì quá khứ và động từ. RpVt

Kết nối phụ từ thời gian (hiện tại) và tính từ. RtA

Kết nối động từ với phụ từ thời gian (hiện tại). RtV

Kết nối danh từ, đại từ xưng hô với tính từ. SA

Kết nối danh từ và tính từ. SA

Kết nối giới từ sở hữu và danh từ chỉ chủ sở hữu. SH

Kết nối hai danh từ chỉ quan hệ sở hữu ẩn. SHA

SS_NHAT Kết nối tính từ với từ “nhất”.

Kết nối danh từ, đại từ xưng hô làm chủ ngữ với động từ. SV

Kết nối các từ để hỏi đứng sau động từ và động từ. THS

Kết nối các từ để hỏi đứng trước động từ và động từ. THT

Kết nối động từ tình thái và động từ cụ thể. VmVt

Kết nối ngoại động từ và tính từ chỉ tính chất. VtAp

Kết nối ngoại động từ và giới từ vị trí. VtEp

Kết nối động từ ngoại động và động từ trạng thái. VtVs

MỞ ĐẦU

Xử lý ngôn ngữ tự nhiên trên máy tính là một trong những bài toán khó của công nghệ

thông tin. Nghiên cứu về xử lý ngôn ngữ tự nhiên đã được khởi động từ những năm 40 của

thế kỷ 20, ngay sau khi xuất hiện máy tính điện tử. Dù được bắt đầu muộn hơn, xử lý tiếng

Việt đã phát triển rất mạnh mẽ trong những năm gần đây do sự bùng nổ thông tin trên

mạng Internet với hàng loạt yêu cầu tìm kiếm, dịch thuật tài liệu, quảng bá thông tin, đào

tạo, hội thảo từ xa... Số nhà nghiên cứu theo đuổi lĩnh vực này tăng lên nhanh chóng, tiếp

cận theo cả hai hướng lớn: xử lý tiếng nói và xử lý văn bản. Do phạm vi của đề tài, luận án

chỉ đề cập đến một số vấn đề liên quan trong nhánh xử lý văn bản.

Phân tích cú pháp là khâu quan trọng để giải quyết nhiều vấn đề khác, do vậy các bộ

phân tích cú pháp tiếng Việt đã được xây dựng từ rất sớm. Đầu tiên là những bộ phân tích

cú pháp dựa trên văn phạm phi ngữ cảnh với các phương pháp truyền thống: bộ phân tích

cú pháp theo phương pháp CYK của Lê Thanh Hương và các đồng nghiệp [12], các bộ

phân tích cú pháp theo phương pháp Earley của Phan Thị Tươi [27], Nguyễn Gia Định và

các đồng nghiệp [5]. Để giải quyết vấn đề nhập nhằng, nhóm Lê Thanh Hương đã sử dụng

văn phạm phi ngữ cảnh từ vựng hóa kết hợp xác suất [22], văn phạm cấu trúc đoạn hướng

trung tâm[15]. Nhiều mô hình văn phạm khác cũng được xây dựng cho tiếng Việt với để

mở rộng lớp ngôn ngữ được biểu diễn: văn phạm kết nối cây từ vựng hóa do Nguyễn Thị

Minh Huyền và các đồng nghiệp xây dựng [20], [101] cho phép biểu diễn lớp ngôn ngữ

cảm ngữ cảnh, cấu trúc nét và văn phạm hợp nhất được nhóm Trần Ngọc Tuấn sử dụng

[26], [122], [123] cho phép biểu diễn lớp ngôn ngữ lớn nhất theo phân cấp của

Chomsky[63]: lớp ngôn ngữ loại 0.

Dịch tự động là lĩnh vực khó nhưng lại có khả năng ứng dụng thực tế rất lớn. Hiện nay

các nhà nghiên cứu Việt Nam đã thử nghiệm một số hệ thống dịch tự động dựa trên các

hướng tiếp cận khác nhau. Có thể kể đến VCLEVT của Trường Đại học Khoa hoc Tự

nhiên ĐHQG TP Hồ Chí Minh với tiếp cận BTL - học luật chuyển đổi từ ngữ liệu song

ngữ [3]. Hệ dịch đầu tiên của Việt Nam được thương mại hóa là EVtran - VEtran của

Nacentech theo cách tiếp cận dựa trên luật [10]. Một hệ thống dịch khác đạt chất lượng khá

tốt là hệ thống Vietgle chuyên dịch Anh - Việt của Lạc Việt. Ngoài ra còn có các hệ dịch

máy khác như hệ LVT của Đại học Công nghệ ĐHQG Hà Nội [93], hệ dịch máy thống kê

Việt - Anh sử dụng phân tích cú pháp có xác suất của Trường Đại học Bách khoa thành

phố Hồ Chí Minh [124]. Cũng không thể không nhắc đến hệ thống dịch Google Translate

theo hướng tiếp cận thống kê với kho ngữ liệu khổng lồ của Google. Nhìn chung, các sản

phẩm dịch tự động chủ yếu theo hướng Anh - Việt. Số lượng và chất lượng của các hệ

thống dịch Việt - Anh còn hạn chế.

Về khai thác văn bản trên Internet, nhiều nhà nghiên cứu Việt Nam quan tâm đến các

lĩnh vực biểu diễn văn bản như Hồ Tú Bảo [29],[33]; khai phá web, web ngữ nghĩa như

Cao Hoàng Trụ [117], Hồ Tú Bảo[63]; tóm tắt văn bản như Lê Thanh Hương [66], nhóm

Hà Thành Lê [15]... Tuy nhiên, không có nhiều nghiên cứu được thực hiện trên văn bản

tiếng Việt như hệ thống tóm tắt văn bản của nhóm Hà Thành Lê [15], hệ thống rút trích nội

dung trang web tiếng Việt của nhóm Đỗ Phúc [19].

Do đặc điểm về cấu tạo từ, phân tách và gán nhãn từ là giai đoạn tiền xử lý bắt buộc

trong các hệ thống xử lý tiếng Việt. Công cụ phân tách từ vnTokenizer đã được Nguyễn

Thị Minh Huyền, Lê Hồng Phương và các đồng nghiệp phát triển, sử dụng ôtô mat hữu

hạn kết hợp phân tích biểu thức chính quy để xác định các chuỗi từ [102]. Trường hợp

nhập nhằng được giải quyết bằng thuật toán trực cảm (heuristic), ưu tiên cách phân tách

cho kết quả chứa những từ có độ dài lớn nhất. Phương pháp này đạt độ chính xác cao với

bộ ngữ liệu mẫu (trên 98,5%) [116]. Bộ tách từ JVnSegmenter của nhóm Phan Xuân Hiếu

[121] sử dụng công nghệ CRF và SVM cũng cho kết quả 94%. Ngoài ra có thể kể đến bộ

tách từ của Lê An Hà [60] tính xác suất và độ hợp lý cực đại (maximum likelihood). Bài

toán gán nhãn từ loại thường được giải quyết cùng bài toán tách từ. Cùng với bộ

JVnSegmenter, các tác giả của nó xây dựng bộ gán nhãn từ JVnTagger sử dung CRF và

entropy cực đại [7]. Bộ vnTokennizer cũng đi kèm với vnQTAG [13]. Một số nghiên cứu

của các tác giả Việt Nam cũng tập trung vào khử nhập nhằng nghĩa từ như Lê Anh Cường

[45], [46], Đinh Điền [48].

Các bộ ngữ liệu là tài nguyên hết sức quan trọng trong xử lý tiếng Việt. Các đề tài cấp

nhà nước KC.01-03, KC.01.01/06-10 đã thu thập được một kho ngữ liệu tiếng Việt lấy từ

các bài báo điện tử. Hiện nay, bộ ngữ liệu 1 triệu âm tiết đã tách từ, 10.000 câu được gán

nhãn từ loại, treebank tiếng Việt với 10.000 phân tích câu đã được xây dựng. Đây cũng là

những đóng góp rất lớn, tạo thuận lợi đáng kể cho những nghiên cứu về xử lý tiếng Việt tự

động.

Về ngữ liệu song ngữ: kho ngữ liệu của các sách báo song ngữ cũng rất đáng kể. tuy

nhiên kho ngữ liệu đó khó hỗ trợ cho xử lý tự động, do chưa thực hiện những thao tác tiền

xử lý như gióng hàng mức câu, mức từ. Ngữ liệu song ngữ Anh -Việt điện tử (có dịch 1-1,

có gán nhãn ngôn ngữ) phổ biến có kho ngữ liệu song ngữ Anh -Việt EVC của Cao Hoàng

Trụ là công trình công bố chính thức đầu tiên ở trong nước[24], [25], kho ngữ liệu song

ngữ của nhóm Đinh Điền được công bố đầu tiên ở ngoài nước [47]. Đã có công trình

nghiên cứu chi tiết về xây dựng và khai thác kho ngữ liệu song ngữ Anh - Việt có gán nhãn

ngôn ngữ của Đinh Điền [48]. Cũng có những kết quả khác về xây dựng kho ngữ liệu cho

xử lý văn bản của nhóm Nguyễn Thị Minh Huyền [36], [37], Phan Huy Khánh [73]. Đề tài

KC.01.01/06-10 đã thu thập được 100.000 câu song ngữ Anh - Việt gióng hàng mức câu,

trong đó có 20.000 câu thuộc lĩnh vực tin học và 80.000 câu thuộc các lĩnh vực kinh tế, xã

hội. Ngữ liệu song ngữ Việt - Anh còn nghèo nàn, chưa có những bộ ngữ liệu mẫu đáng

kể.

Một số từ điển điện tử đã được xây dựng, chủ yếu là để phục vụ tra cứu trên máy tính,

tuy nhiên phần lớn các từ điển này chưa dùng được trong xử lý tự động. Đáng kể nhất là bộ

từ điển tiếng Việt của đề tài KC.01.01/06-10 [16] được xây dựng trên mô hình LMF với ba

gói: hình thái, cú pháp, ngữ nghĩa. Bộ từ điển thể hiện khá toàn diện các thông tin liên

quan đến từ pháp và cú pháp. Một số từ điển song ngữ được cung cấp miễn phí như từ

điển Anh - Việt của đề tài KC.01.01/06-10 gồm gần 60.000 mục từ, từ điển Việt - Anh

cũng do đề tài nói trên cung cấp gồm hơn 11.000 mục từ, bộ từ điển Anh - Việt của Hồ

Ngọc Đức bao gồm 110.000 mục từ, từ điển Việt - Anh gồm 23.000 mục từ.

Trên đây là một phần của bức tranh về tình hình nghiên cứu xử lý tự động văn bản tiếng

Việt với sự phát triển đáng kể trong thời gian vừa qua. Nếu so với tiếng Anh, các ngôn ngữ

châu Âu, hay tiếng Trung, Nhật, Hàn, có thể thấy nguồn tài nguyên phục vụ cho xử lý

tiếng Việt còn nghèo nàn. Cho dù hiện nay đã có sự lấn át của các phương pháp học máy,

thống kê, rất ít nghiên cứu tách rời hoàn toàn các mô hình biểu diễn cú pháp. Việc tham

khảo cấu trúc cú pháp của văn bản nguồn cũng như văn bản đích xuất hiện trong các hệ

thống dịch của nhóm Đinh Điền [3], nhóm Đại học Bách khoa thành phố Hồ Chí Minh

[124], nhóm nghiên cứu tại JAIST [115]. Sử dụng phương pháp học thống kê kết hợp biểu

diễn cú pháp sẽ cho những sản phẩm có chất lượng tốt hơn hẳn, chẳng hạn trong lĩnh vực

dịch máy [115]. Như vậy vấn đề biểu diễn cú pháp vẫn là vấn đề hết sức quan trọng trong

xử lý tiếng Việt.

Mô hình văn phạm phi ngữ cảnh là mô hình phổ biến nhất để biểu diễn cú pháp tiếng

Việt và phân tích cú pháp theo những phương pháp nổi tiếng CYK, Earley [12], [27], [5].

Mô hình này cũng được sử dụng cho một số hệ thống dịch máy [124].

Việc phân chia từ thành các lớp mà không quan tâm đến những đặc điểm từ vựng của

văn phạm ngữ cấu cổ điển có thể làm cho bộ phân tích cú pháp chấp nhận nhiều câu không

bao giờ được sử dụng trong thực tế, ví dụ câu tiếng Việt “Tôi mua hai thóc”. Câu này,

không tồn tại trong tiếng Việt vì từ “thóc” trong không bao giờ đi trực tiếp sau số từ. Hiện

tượng này cũng rất phổ biến trong các ngôn ngữ khác. Xu hướng từ vựng hóa các văn

phạm được nhiều nhà nghiên cứu quan tâm. Nhiều mô hình văn phạm từ vựng hóa đã được

xây dựng cho ngôn ngữ tự nhiên như văn phạm phi ngữ cảnh từ vựng hóa,văn phạm chức

năng từ vựng hóa, văn phạm cấu trúc đoạn hướng trung tâm, văn phạm kết nối cây từ vựng

hóa, văn phạm phạm trù tổ hợp, văn phạm liên kết... Hiện nay, xu hướng từ vựng hóa cũng

đã ảnh hưởng tới các văn phạm tiếng Việt. Các mô hình văn phạm phi ngữ cảnh từ vựng

hóa kết hợp xác suất [22], văn phạm kết nối cây từ vựng hóa [20] đã được phát triển cho

tiếng Việt. Tuy nhiên chỉ có một số ít các văn phạm như văn phạm phạm trù tổ hợp, văn

phạm liên kết là hoàn toàn từ vựng hóa, tức là tồn tại những luật riêng cho từng mục từ

[112]. Mô hình hoàn toàn từ vựng hóa cho phép đặc tả nhiều ngoại lệ về cú pháp và từ

pháp của tiếng Việt.

Tập ký hiệu không kết thúc có kích cỡ lớn làm cho phân tích câu trong văn phạm phi

ngữ cảnh trở nên phức tạp. Do vậy khi sử dụng cây phân tích cho những mục đích khác

như dịch máy, sinh ngôn ngữ cần nhiều bước xử lý theo các mức phân cấp trong cây. Hơn

nữa, muốn tìm mối liên hệ giữa hai từ trong câu theo mô hình phi ngữ cảnh, phải vượt qua

một khoảng cách không nhỏ, thậm chí lần theo các mối nối đến tận nút gốc với chi phí thời

gian khá lớn. Trong tiếng Việt, với nhiều trường hợp, quan hệ giữa các từ lại cực kỳ quan

trọng vì nó có thể cho biết thông tin về số của danh từ, thì, thể của động từ, hay nhiều loại

quan hệ khác như quan hệ sở hữu, quan hệ về chất liệu ...

Cách tiếp cận phụ thuộc hiện nay là xu hướng nổi trội để biểu diễn cú pháp. Ưu điểm

đầu tiên của văn phạm phụ thuộc là không có tập ký hiệu không kết thúc. Cây phụ thuộc

thể hiện mối quan hệ trực tiếp giữa các từ trong câu, đơn giản hơn rất nhiều so với cây ngữ

cấu. Khi sử dụng các quan hệ phụ thuộc có gán nhãn, mô hình phụ thuộc mã hóa trực tiếp

cấu trúc vị ngữ - bổ ngữ . Do vậy có thể dịch (hiểu) riêng từng đoạn trong câu.

Mô hình văn phạm phụ thuộc không xạ ảnh (non projective) có đặc điểm là cấu trúc phụ

thuộc độc lập với trật tự từ, rất thích hợp với các ngôn ngữ có trật tự từ tự do. Tất nhiên mô

hình văn phạm phụ thuộc vẫn tỏ ra hiệu quả cho các ngôn ngữ có trật tự từ khá chặt chẽ.

Chính vì vậy, các bộ phân tích cú pháp xây dựng trên mô hình phụ thuộc được phát triển

cho hầu hết các ngôn ngữ phổ biến trên thế giới, khởi đầu là các bộ phân tích cú pháp tiếng

Anh của Collins [44], bộ phân tích cú pháp phụ thuộc của đại học Stanford. Các bộ phân

tích cú pháp phụ thuộc cho các ngôn ngữ khác: tiếng Pháp của Candito [39], [40], tiếng

Nga của nhóm Bogulavsky [98], tiếng Trung Quốc của Lai Bong Yeung Tom, Changning

Huang [118], tiếng Nhật của Matsumoto và các đồng nghiệp [99], [125], tiếng Hàn của So

Young Kwon [78] đã được xây dựng. Nhiều ngôn ngữ Đông Nam Á cũng được phân tích

cú pháp theo hướng phụ thuộc như tiếng Indonesia với bộ phân tích cú pháp của Kamayani

và Purwarianti [72], tiếng Thái Lan với bộ phân tích cú pháp của Tongchim [119], tiếng

Tagalog (Philippines) với bộ phân tích của Maguilimotan và Matsumoto [85]. Mô hình văn

phạm phụ thuộc cũng rất hữu hiệu cho những ứng dụng như tóm tắt văn bản [91], [108],

rút trích thông tin [42], dịch máy [49], [55]...

Vai trò quan trọng của mô hình phụ thuộc là rõ ràng. Tuy nhiên mô hình văn phạm phụ

thuộc có những điểm khó về mặt ngôn ngữ học. Theo Nguyễn Tài Cẩn [2] còn nhiều tranh

luận về sự phụ thuộc giữa các yếu tố trong câu tiếng Việt, chẳng hạn một số đối tượng có

thể đóng vai trò phụ về cú pháp, nhưng lại đóng vai trò chính về từ pháp hay vai trò trung

tâm của danh ngữ, động ngữ thuộc về đối tượng nào cũng còn nhiều quan điểm khác nhau.

Do vậy, dù được nhắc đến trong một số tài liệu như [6], chưa có công trình nào về văn

phạm phụ thuộc được công bố trong lĩnh vực ngôn ngữ học. Tiếng Việt có một bộ phân

tích cú pháp phụ thuộc theo mô hình đồ thị [17] nhưng khó phát triển hơn nữa, do chưa có

một hệ thống văn phạm phụ thuộc đầy đủ. Với mong muốn tiếp cận với mô hình văn phạm

dạng phụ thuộc nhưng thiên về từ pháp, luận án đã chọn cho đề tài của mình một mô hình

theo hướng phụ thuộc nhưng hoàn toàn từ vựng hóa: mô hình văn phạm liên kết.

Văn phạm liên kết là mô hình do D.Sleator và D. Temperley đưa ra [111], cho phép mỗi

từ có một số mối liên hệ với các từ ở bên trái hoặc bên phải, thỏa mãn các yêu cầu về tính

phẳng, tính liên thông, tính thỏa mãn, tính thứ tự và tính loại trừ. Văn phạm liên kết là văn

phạm theo cách tiếp cận phụ thuộc, thể hiện ở những điểm sau:

1. Phân tích liên kết không chứa ký hiệu không kết thúc, thậm chí cấu trúc còn đơn giản

hơn cây phụ thuộc. Có thể coi phân tích liên kết như một danh sách tuyến tính với mỗi

nút chứa không quá 3 mối liên hệ với nút khác. Ngân hàng phân tích vì thế đơn giản

hơn ngân hàng cây ngữ cấu. Nhiều cơ sở dữ liệu được thiết lập từ các ngân hàng phân

tích lớn như ngân hàng dữ liệu đa phương tiện [128]. Phân tích liên kết được sử dụng

phổ biến cho những ứng dụng khác như trích chọn thông tin [84], [106], [110], dịch

máy [35], hỏi đáp tự động [95], [105]... Nhiều bộ phân tích cú pháp cho các ngôn ngữ

khác nhau được xây dựng trên mô hình văn phạm liên kết cho tiếng Anh[111], tiếng

Nga [132], tiếng Đức [76], tiếng Thổ Nhĩ Kỳ [68]...

2. Văn phạm liên kết cũng có khả năng biểu diễn trực tiếp mối liên hệ giữa các từ không

nhất thiết liền kề. Do vậy, văn pham liên kết cũng cho phép một trật tự từ tương đối tự

do, chẳng hạn tập các kết nối của câu “Tôi hôm nay rất mệt” và câu “Hôm nay tôi rất

mệt” không khác nhau. Phân tích hai câu nói trên chỉ khác nhau ở thứ tự các liên kết.

Tất nhiên, theo Schneider [109], do mô hình văn phạm liên kết đòi hỏi tính phẳng nên

không linh hoạt như văn phạm phụ thuộc khi biểu diễn sự phụ thuộc giữa các thành

phần không liền kề (long distance dependency) trong câu. Điều này có thể chấp nhận

được với tiếng Việt, vì nói chung, câu tiếng Việt tuân theo trật tự SVO, cấu trúc danh

ngữ, động ngữ, tính ngữ nói chung cố định, số thành phần có vị trí thay đổi tùy ý không

nhiều.

3. Văn phạm liên kết có thể biểu diễn mối liên hệ ngữ nghĩa. Việc biểu diễn liên hệ ngữ

nghĩa dễ dàng hơn văn phạm phụ thuộc vì phân tích câu trong văn phạm liên kết có thể

chứa chu trình.

4. Việc phân biệt các thành phần chính - phụ trong câu trở nên phức tạp hơn vì liên kết

không định hướng như phụ thuộc. Do vậy, với một số bài toán, chẳng hạn tóm tắt văn

bản, mô hình văn phạm liên kết không thuận tiện bằng văn phạm phụ thuộc. Tuy nhiên

trong nhiều lĩnh vực như biểu diễn tri thức, dịch máy…, văn phạm liên kết lại rất hiệu

quả.

5. Văn phạm liên kết không đòi hỏi quan hệ cai trị - phụ thuộc nên có thể dễ dàng gộp các

phân tích các mệnh đề thành phần thành một phân tích lớn, làm cho việc phân tích câu

ghép nhiều mệnh đề dễ dàng hơn.

6. Văn phạm liên kết là một trong rất ít mô hình hoàn toàn từ vựng hóa, do vậy có thể

biểu diễn mối liên hệ từ pháp, chi tiết hơn nhiều so với văn phạm phụ thuộc, văn phạm

ngữ cấu (quan hệ chỉ định nghĩa đến loại từ). Đặc điểm này cho phép biểu diễn nhiều

hiện tượng trong tiếng Việt. Ví dụ, những động từ chỉ động tác có phương hướng như

“chạy”, “mang”, “mở”,”đậy” mới có thể kết hợp với các thành tố phụ chỉ hướng:

“ra”, “vào”, “lên”, “xuống”. Liên kết DR được thiết lập giữa các loại từ nói trên mà

không tồn tại với bất cứ loại từ nào khác.

7. Liên kết có thể dùng để biểu diễn tri thức [53], liên kết cũng rất gần với đồ thị khái

niệm nên có thể chuyển từ liên kết sang đồ thị khái niệm dễ dàng [131]. Phân tích liên

kết cũng được sử dụng để trích chọn thông tin [50], [52], [90], [97], đặc biệt là thông

tin ngữ nghĩa [82].

8. Liên kết có nhãn nên biểu diễn trực tiếp mối liên hệ vị ngữ - bổ ngữ và các mối liên hệ

khác, tạo thuận lợi cho việc dịch sang ngôn ngữ có biến đổi hình thái, tốt hơn những

mô hình mà quan hệ phụ thuộc không được gán nhãn (theo Zamin [129]).

Qua khảo cứu và thử nghiệm bước đầu, luận án rút ra một số nhận xét:

1. Từ trước đến nay, cách phổ biến nhất để biểu diễn cú pháp tiếng Việt là thông qua mô

hình văn phạm ngữ cấu (phi ngữ cảnh) với cây ngữ cấu. Tuy nhiên tiếng Việt có những

đặc điểm riêng mà cấu trúc này không dễ biểu diễn: ẩn giới từ sở hữu, chuyển loại từ,

sự kết hợp số từ và các danh từ chỉ đơn vị… Những đặc điểm này có thể được biểu

diễn một cách linh hoạt và đơn giản qua mô hình liên kết. Đặc biệt khi giải quyết bài

toán dịch từ tiếng Việt sang ngôn ngữ khác, việc phát hiện được mối quan hệ trực tiếp

giữa các từ cho khả năng chuyển đổi sang cấu trúc của ngôn ngữ đích với chất lượng

cao.

2. Phân tích câu theo mô hình liên kết rất gần với suy nghĩ của con người, do vậy có thể

hỗ trợ hiệu quả cho những học viên tiếng Việt khi tìm hiểu cú pháp và đặt câu. Kết quả

phân tích liên kết của câu lại đơn giản hơn nhiều so với cây ngữ cấu. Tuy là một đồ thị,

nhưng phân tích liên kết gần như một danh sách tuyên tính của các từ, mỗi từ có mối

liên hệ với không quá 3 từ khác. Điều đó cho phép tra cứu ngân hàng phân tích dễ dàng

hơn treebank, tạo thuận lợi cho các hướng tiếp cận theo phương pháp thống kê.

3. Do sự phức tạp của cấu trúc câu ghép và câu phức, không nhiều nghiên cứu về phân

tích cú pháp tự động quan tâm đến loại câu này, đặc biệt là trong tiếng Việt. Mô hình

văn phạm liên kết cho một cách liên kết các mệnh đề dựa trên kết nối lớn, tạo khả năng

phân tích và xử lý câu ghép, câu phức một cách hiệu quả.

4. Hiện nay do tiếng Việt chưa có nhiều tài nguyên phục vụ cho bài toán dịch máy, nên

các hệ thống dịch máy chủ yếu theo hướng Anh - Việt và làm theo hướng tiếp cận dựa

trên luật. Do mô hình văn phạm liên kết biểu diễn một cách mềm dẻo nhiều hiện tượng

cú pháp của tiếng Việt và việc chuyển đổi liên kết cú pháp sang ngôn ngữ khác khá dễ

dàng, có thể sử dụng nó để xây dựng một hệ thống dịch máy Việt – Anh dựa trên luật

xử lý dễ dàng nhiều khác biệt giữa ngôn ngữ nguồn và ngôn ngữ đích, hỗ trợ tốt nhiều

yêu cầu dịch thuật trong thực tế. Hệ thống này có thể tích hợp với những hệ thống theo

các hướng tiếp cận khác như trên nền ví dụ, thống kê để tạo ra những bản dịch có chất

lượng tốt: trôi chảy và đúng về cú pháp cũng như từ pháp.

Từ đó, luận án xác định mục tiêu tập trung vào việc nghiên cứu, xây dựng một mô hình

văn phạm liên kết tiếng Việt với những đặc điểm sau:

1. Dựa trên mô hình văn phạm liên kết được Sleator và Temperley đưa ra [111].

2. Dựa trên các đặc điểm cú pháp và từ pháp tiếng Việt.

3. Có thể sử dụng để phân tích cú pháp tiếng Việt theo phương pháp phân tích liên kết.

Phạm vi của bộ phân tích cú pháp là câu đơn cũng như câu ghép bao gồm nhiều mệnh

đề đẳng lập và phụ thuộc.

4. Có thể ứng dụng để giải quyết bài toán dịch máy Việt - Anh.

5. Tạo ra các sản phẩm phục vụ công việc nghiên cứu: từ điển liên kết, từ điển song ngữ

với dạng tuyển có chú giải.

Để làm được điều đó, cần thiết phải thực hiện nhiều nội dung nghiên cứu cốt lõi như:

Các hướng tiếp cận để biểu diễn cú pháp (đặc biệt là hướng tiếp cận phụ thuộc), mô hình

văn phạm liên kết và mối liên hệ với mô hình văn phạm phụ thuộc, các mô hình văn phạm

liên kết đã được xây dựng cho tiếng Anh, tiếng Nga và một số ngôn ngữ khác. Bộ phân

tích cú pháp tiếng Anh và các giải thuật phân tách mệnh đề của câu ghép là những vấn đề

mà luận án nghiên cứu để xây dựng bộ phân tích liên kết tiếng Việt. Để minh họa cho khả

năng biểu diễn của mô hình văn phạm liên kết tiếng Việt, luận án đi vào tìm hiểu các hệ

thống dịch để xây dựng bộ dịch máy sử dụng văn phạm liên kết.

Trong khuôn khổ của luận án, công việc sẽ được giới hạn trong phạm vi :

1. Xây dựng mô hình liên kết để biểu diễn cú pháp tiếng Việt. Bộ từ điển liên kết của

tiếng Việt được xây dựng có tính chất thử nghiệm, bao quát được những hiện tượng cú

pháp cơ bản nhất và một số trường hợp cá biệt thường gặp trong thực tế.

2. Bộ phân tích cú pháp liên kết tiếng Việt cũng phải qua những giai đoạn tiền xử lý như

bất cứ bộ phân tích cú pháp nào khác. Theo cách tiếp cận này, bộ phân tích cú pháp

không gán nhãn từ trước khi phân tích cú pháp, nhưng không thể bỏ qua giai đoạn tách

từ. Luận án đã sử dụng bộ tách từ vnTokenizer của TS. Lê Hồng Phương, được cung

cấp miễn phí trên mạng.

3. Nghiên cứu mô hình văn phạm liên kết xác suất để khử nhập nhằng trong phân tích cú

pháp.Luận án giới hạn phạm vi làm việc là thử nghiệm các giải thuật được đề xuất.

4. Nghiên cứu lý thuyết cấu trúc diễn ngôn và giải thuật phân đoạn diễn ngôn mức câu để

phân tách câu ghép thành các mệnh đề. Đề xuất các kết nối lớn cho các mệnh đề trên

cơ sở các quan hệ diễn ngôn để cho ra phân tích tổng thể của câu ghép.

5. Việc xây dựng hệ thống dịch Việt - Anh dựa trên dạng tuyển có chú giải là một minh

họa cho việc ứng dụng mô hình văn phạm liên kết tiếng Việt. Hệ thống này được thử

nghiệm trên bộ ngữ liệu gồm các mẫu câu trong chương trình tiếng Việt cơ bản và nâng

cao để dạy cho người nước ngoài của khoa Việt nam học và tiếng Việt, Trường Đại học

Khoa học Xã hội và Nhân văn, Đại học Quốc gia Hà Nội [18].

Luận án được chia làm 4 chương và 4 phụ lục như sau:

Chương 1: Tổng quan về các mô hình văn phạm cho ngôn ngữ tự nhiên giới

thiệu các mô hình văn phạm để mô tả cú pháp của ngôn ngữ tự nhiên và mối quan hệ của

mô hình văn phạm liên kết với các mô hình văn phạm khác.

Kết quả nghiên cứu của nghiên cứu sinh liên quan đến luận án được trình bày trong

các chương 2,3,4.

Chương 2: Mô hình văn phạm liên kết tiếng Việt đưa ra chi tiết về hệ thống văn

phạm liên kết tiếng Việt đã được nghiên cứu sinh xây dựng.

Chương 3: Phân tích cú pháp trên văn phạm liên kết mô tả bộ phân tích cú pháp

liên kết, hướng giải quyết vấn đề phân tích cú pháp cho câu ghép, vấn đề nhập nhằng cú

pháp và hướng giải quyết.

Chương 4: Hệ thống dịch dựa trên dạng tuyển có chú giải thể hiện việc thử

nghiệm mô hình văn phạm liên kết trong bài toán dịch máy Việt - Anh.

Kết luận và hướng phát triển.

Phần phụ lục bao gồm 4 phụ lục:

Phụ lục 1: Công thức liên kết cho các tiểu loại từ tiếng Việt.

Phụ lục 2: Kết quả phân tích cú pháp một số mẫu câu đơn và câu ghép hai mệnh đề.

Phụ lục 3: Một số luật điển hình trong tập luật dịch Việt - Anh.

Phụ lục 4: So sánh kết quả dịch một số mẫu câu.

CHƯƠNG 1

TỔNG QUAN VỀ CÁC MÔ HÌNH VĂN PHẠM

CHO NGÔN NGỮ TỰ NHIÊN

Theo Jurafsky [70], quan hệ văn phạm là cách hình thức hóa những tư tưởng của văn

phạm truyền thống như chủ ngữ hay bổ ngữ và những mối quan hệ khác. Nhiều mô hình

văn phạm đã được đưa ra theo các hướng tiếp cận: cấu trúc (constituency), quan hệ văn

phạm (grammar relation), phân loại con (subcategorization) hay phụ thuộc (dependency).

Hai hướng tiếp cận phổ biến nhất hiện nay là cấu trúc và phụ thuộc. Chương này sẽ giới

thiệu các mô hình văn phạm phổ biến và vị trí của văn phạm liên kết trong hệ thống các mô

hình văn phạm đó.

1.1. Cách tiếp cận cấu trúc và văn phạm phi ngữ cảnh

Vấn đề đầu tiên đặt ra khi mô tả các quy tắc cú pháp là biểu diễn được các quy luật để

nhóm các từ lại thành câu. Nếu ngữ pháp tiếng Việt [28] quy định câu phải chứa một nòng

cốt (đơn hoặc ghép), nòng cốt đơn phải chứa chủ ngữ, vị ngữ với chủ ngữ luôn đi trước vị

ngữ, thì vấn đề mô tả quy tắc cú pháp sẽ chuyển thành vấn đề tạo lập các cấu trúc

(constituent) và đưa ra các quy tắc về vị trí của các cấu trúc.

Mô hình cho phép nghiên cứu việc tạo lập các cấu trúc một cách đệ quy chính là mô

hình văn phạm phi ngữ cảnh. Mô hình hình thức này tương đương với dạng chuẩn BNF

(Backus Naur Form) của ngôn ngữ lập trình.

1.1.1. Văn phạm phi ngữ cảnh biểu diễn ngôn ngữ tự nhiên

Văn phạm phi ngữ cảnh bao gồm một tập các luật hay sản xuất, mỗi luật biểu diễn cách

thức mà các ký hiệu của ngôn ngữ được nhóm lại rồi sắp theo thứ tự và một tập từ vựng

bao gồm các từ và ký hiệu.

Ví dụ: Một tập sản xuất của văn phạm phi ngữ cảnh tiếng Việt với ý nghĩa của các ký

hiệu không kết thúc: S - câu, NP - danh ngữ, VP - động ngữ, N - danh từ, V - động từ, P -

đại từ.

S → NP VP NP → P

NP → N P VP → V NP

Tập sản xuất này có thể mô tả cấu trúc cú pháp của câu “Tôi yêu mẹ tôi” với đại từ

“tôi”, danh từ “mẹ” và động từ “yêu”.

Một cách hình thức, có thể mô tả văn phạm phi ngữ cảnh như sau:

Định nghĩa 1.1. [70] Văn phạm phi ngữ cảnh là bộ 4 G = (N, Σ, R, S), trong đó:

N: tập ký hiệu không kết thúc (biến).

Σ: tập ký hiệu kết thúc (không giao với N).

R: tập luật, hay tập sản xuất dạng A → β, A là ký hiệu không kết thúc, β là xâu gồm

hữu hạn ký hiệu trên tập vô hạn (Σ ∪ N)* (tập tất cả các xâu trên bảng chữ Σ ∪ N).

S: ký hiệu đầu.

Trong mô hình văn phạm phi ngữ cảnh, bài toán phân tích cú pháp là bài toán tìm ra cây

ngữ cấu cho câu đưa vào. Mỗi nút của cây ngữ cấu có nhãn là một ký hiệu không kết thúc

• Thứ tự tuyến tính của các từ trong câu.

• Tên các phạm trù cú pháp của các từ và nhóm từ.

• Cấu trúc phân cấp của các phạm trù cú pháp.

biểu diễn một cấu trúc. Theo [56], cây ngữ cấu thể hiện những thông tin sau về cú pháp:

Các bộ phân tích cú pháp theo mô hình văn phạm phi ngữ cảnh cổ điển chủ yếu theo hai

phương pháp CYK (Cocke – Younger - Kasami) và Earley. Đã có những bộ phân tích cú

pháp tiếng Việt được xây dựng theo phương pháp CYK [12], Earley [5], [27] với những

cải tiến thích hợp.

Trong hình 1.1 là cây ngữ cấu cho câu “Tôi thích chân gà”. Cây ngữ cấu này nếu không

tính nhãn của các nút lá, thì giống hệt cây ngữ cấu của câu “Tôi thích áo lụa”, tuy nhiên,

nếu đem dịch sang tiếng Anh, hai câu này phải dịch khác hẳn nhau. Quan hệ giữa danh từ

chỉ bộ phận cơ thể động vật và danh từ chỉ động vật là quan hệ sở hữu, do vậy “chân gà”

phải hiểu là “chân của gà”, trong khi quan hệ giữa “áo” và “lụa” lại là quan hệ về mặt

chất liệu “áo bằng lụa”. Mô hình phi ngữ cảnh chưa thể hiện được mối liên hệ này.

Hình 1.1. Cây ngữ cấu của câu “Tôi thích chân gà”.

Vấn đề nhập nhằng là một trong những vấn đề phức tạp nhất mà các bộ phân tích cú

pháp phải giải quyết. Theo [70], trong giai đoạn phân tích cú pháp, vấn đề nhập nhằng

hướng về cấu trúc (structural ambiguity). Giả thiết ta chỉ xét câu đơn, tức là câu chỉ có một

nòng cốt và bỏ qua vấn đề nhập nhằng từ loại. Vấn đề nhập nhằng cấu trúc xảy ra khi một

câu có nhiều hơn một cây phân tích. Trong hình 1.2 là hai cây ngữ cấu khác nhau cho câu

“Họ sẽ không chuyển hàng xuống thuyền vào ngày mai” (câu ví dụ trong [20]) với văn

phạm phi ngữ cảnh

S → NP VP

NP → P

VP → R VP | R R V N PP PP PP-TMP | VP PP | V NP PP

PP → E NP

PP-TMP →E NP

Ý nghĩa của các ký hiệu: S - câu, NP - danh ngữ, VP- động ngữ, PP - giới ngữ, N -

danh từ, V - động từ, P - đại từ, R - phụ từ, E - giới từ, PP-TMP - giới ngữ chỉ thời gian.

Hình 1.2. Hai cây ngữ cấu của câu “Họ sẽ không chuyển hàng xuống thuyền vào ngày mai”.

Một trong những cách tiếp cận đầu tiên để giải quyết vấn đề nhập nhằng khi phân tích

cú pháp trên mô hình văn phạm phi ngữ cảnh là mô hình văn phạm phi ngữ cảnh xác suất

(Probabilistic Context Free Grammar).

1.1.2. Văn phạm phi ngữ cảnh xác suất

Trong mô hình văn phạm phi ngữ cảnh xác suất, mỗi luật được gắn thêm một xác suất

cho thấy luật đó có thường xuyên được sử dụng trong các cây ngữ cấu hay không.

Định nghĩa 1.2. [70] Văn phạm phi ngữ cảnh xác suất là bộ bốn

N: tập ký hiệu không kết thúc (biến).

Σ: tập ký hiệu kết thúc (không giao với N).

R: tập luật, hay tập sản xuất dạng A → β | p |, trong đó A là ký hiệu không kết thúc, β là

xâu gồm hữu hạn ký hiệu trên tập vô hạn (Σ ∪ N)*, p là số trong đoạn [0,1] biểu thị xác

suất Pr ( β | A ).

S: ký hiệu đầu.

Xác suất của một cây ngữ cấu là tích các xác suất của n luật được sử dụng để mở rộng n

(cid:31)

Pr (T, S) = (cid:26) Pr (RHS(cid:29)|LHS(cid:29))

(cid:29) !

nút trong của nó:

LHSi và RHSi là vế trái và vế phải của sản xuất được dùng cho nút thứ i của cây ngữ

cấu.

T"(S) =

argmax

’(.*.+ ,(cid:29)-./(’) Pr (T | S) = argmax

’(.*.+ ,(cid:29)-./(’)

Pr (T, S) Pr (S)

= argmax

’(.*.+ ,(cid:29)-./(’) Pr (T)

’(.*.+ ,(cid:29)-./(’) Pr (T, S) = argmax

Cây được chọn là cây có xác suất lớn nhất [41]

Biểu thức T.s.t.S = yield(T) yêu cầu tính trên tất cả các cây ngữ cấu T có kết quả là câu S.

Trong trường hợp lý tưởng, nếu có một treebank đủ lớn, có thể tính xác suất của mỗi

luật theo công thức:

→ β → β Count(A ) = Pr ( | A) = Count(A) β →γ ) ) Count(A γ ∑ Count(A Vấn đề là khi bắt đầu công việc, treebank chưa có hoặc chưa đủ lớn. Do vậy cần chọn

một bộ ngữ liệu, phân tích các câu của nó để bổ sung dần vào ngân hàng cây và tính ra các

xác suất nói trên. Ta lại đối mặt với vấn đề khác, khi một câu có thể có nhiều phân tích:

phân tích nào sẽ được chọn? Việc giải quyết vấn đề nhập nhằng lại rơi vào tình thế “con gà

và quả trứng”.

Vấn đề nói trên được giải quyết bởi giải thuật trong - ngoài (Inside - Outside Algorithm)

do Baker đề xuất năm 1979 cho văn phạm phi ngữ cảnh [81]. Đây thực chất là biến thể của

giải thuật tiến - lùi của mô hình Markov ẩn (Hidden Markov Model - HMM). Giải thuật

cho phép tính xác suất trong và xác suất ngoài cho câu vào S theo cách đệ quy.

Mô hình Markov ẩn được Manning và Schütze [87] giới thiệu, quan tâm đến dãy các

thực quan sát O1,..., Om sản sinh bởi các luật Ni → NjNk và Ni → wj. Trong đó Oi,

i = 1, m chất là các ký hiệu kết thúc (từ) w1,..., wm của xâu đưa vào.

Theo mô hình HMM, ma trận tham số của văn phạm phi ngữ cảnh xác suất là α [i, j, k]

α [i, j, k] = Pr ( Ni → NjNk | G )

β [i, r] = Pr ( Ni→ r | G )

và β [i, r] với:

Để có thể xây dựng ma trận tham số như trên, văn phạm phi ngữ cảnh được giả thiết là

ở dạng chuẩn Chomsky. Điều này không làm giảm tính tổng quát của mô hình, vì theo

[63], mọi văn phạm phi ngữ cảnh có thể chuyển về dạng chuẩn Chomsky. Ràng buộc sau

ớ

ọ

?,@

∑

8i, j, k; + ∑

8i, r; = 1 v

i m

i i

là bắt buộc cho các tham số :

Ràng buộc này (liên quan đến ký hiệu không kết thúc thứ i trong văn phạm) cho thấy

mọi khả năng áp dụng sản xuất mà vế trái là ký hiệu không kết thúc thứ i chỉ có thể sinh ra

hoặc hai ký hiệu không kết thúc hoặc một ký hiệu kết thúc (do văn phạm ở dạng chuẩn

Chomsky).

Dưới đây là quy ước về ký hiệu theo [87]: • Tập ký hiệu không kết thúc của văn phạm được ký hiệu là { N1,..., Nn }. Ký hiệu đầu

• Tập ký hiệu kết thúc của văn phạm là {w1, ..., wV}.

• Câu được phân tích w1... wm.

• wpq là bộ phận của câu cần phân tích từ từ thứ p đến từ thứ q.

•

là N1 .

? NBC

• αj (p, q) là xác suất ngoài.

• βj (p, q) là xác suất trong.

là ký hiệu không kết thúc Nj sinh ra dãy các từ ở vị trí từ p đến q trong câu.

Xác suất trong βj (p, q) là xác suất để ký hiệu không kết thúc thứ j (Nj) sinh ra quan sát

G )

βj ( p, q ) = Pr ( wpq |

? NBC

(dãy các từ) wp,... .wq. Một cách hình thức,

Xác suất ngoài αj (p, q) là xác suất để xuất phát từ ký hiệu đầu N1 sinh ra ký hiệu không

? NBC

αj ( p, q ) = Pr ( w1(p-1),

, w(q+1)m | G )

? NBC

kết thúc và các từ của xâu đưa vào nằm ngoài wp,... , wq. Một cách hình thức, ta có :

Xác suất trong và xác suất ngoài là cơ sở để xây dựng giải thuật liên quan đến hai vấn

đề chính trong phân tích cú pháp theo mô hình xác suất, đó là:

1. Đoán nhận (Recognition): Tính xác suất để ký hiệu đầu N1 sinh ra dãy quan sát O

trong văn phạm G. Như vậy, với giải thuật trong (Inside Algorithm), xác suất để một câu

∗

Pr ( w1m | G ) = Pr ( N1

w1m | G ) = β1 ( 1, m )

⇒ Xác suất nói trên là xác suất đúng của câu, tức là tổng xác suất của các phân tích. Để

có m từ w1... wm đúng (được sản sinh bởi văn phạm G) là:

giải quyết vấn đề nhập nhằng cần tìm ra phân tích có xác suất lớn nhất trong số các phân

tích. Vấn đề này được giải quyết bằng giải thuật kiểu Viterbi trong mô hình HMM. Tương

tự như giải thuật tính xác suất trong nhưng giài thuật này tìm giá trị lớn nhất thay cho tính

tổng. Trong [87] đã trình bày toàn bộ giải thuật kiểu Viterbi để tìm ra cây cú pháp tốt nhất

cho câu w1... .wm.

2. Huấn luyện (Training): Sau khi tìm được phân tích tốt nhất cho câu đưa vào, bộ

phân tích cú pháp cần tiếp tục với giai đoạn huấn luyện. Bài toán huấn luyện có thể mô tả

như sau: xác định lại xác suất của tập luật trong văn phạm G khi đã cho dãy huấn luyện

gồm các câu s1, s2,..., sn. Vấn đề huấn luyện cho văn phạm phi ngữ cảnh xác suất đã được

trình bày trong [87].

• Không mô hình hóa được sự phụ thuộc giữa các cấu trúc trên cây cú pháp do xác suất

Theo [70], văn phạm phi ngữ cảnh xác suất có những nhược điểm sau:

• Thiếu thông tin về từ vựng: Thông tin cú pháp có thể liên quan đến những từ đặc biệt

của mỗi luật được tính toán hoàn toàn độc lập với nhau.

nào đó nhưng mô hình phi ngữ cảnh lại không mô tả được. Do vậy dẫn đến nhập nhằng

trong xử lý liên hợp (coordination), loại con (subcategory), sử dụng giới từ.

1.1.3.Văn phạm phi ngữ cảnh xác suất từ vựng hóa

Văn phạm phi ngữ cảnh xác suất từ vựng hóa không chỉ thể hiện cấu trúc của các ngữ

mà còn cho biết mối liên hệ giữa các từ. Trong văn phạm phi ngữ cảnh xác suất từ vựng

hóa (Lexicalized Probabilistic Context Free Grammar), mỗi ký hiệu không kết thúc sẽ

được viết dưới dạng A(x), x = w, t)với A là nhãn của cấu trúc. Số ký hiệu không kết thúc

( sẽ tăng rất mạnh, nhiều nhất tới |ν| × |τ| lần, |ν| là số lượng từ trong từ vựng và |τ| là số

lượng từ loại của ngôn ngữ.

Luật của văn phạm phi ngữ cảnh xác suất từ vựng hóa có dạng:

1. Luật nội tại:

P (h) → Ln(ln)...L1(l1) H(h) R1(r1) ... Rm(rm) (1.1)

Trong đó, h là cặp từ / nhãn từ loại. H là con chính của luật, sẽ thừa kế cặp từ / nhãn từ

loại của nút cha P. Thành phần Ln (ln) ... L1(l1) bổ nghĩa cho H ở bên trái và thành phần

R1(r1)... Rm(rm) bổ nghĩa cho H ở bên phải (n hoặc m có thể bằng 0). Dãy bên trái và bên

phải được mở rộng bởi ký hiệu STOP. Do vậy Ln+1 = Rm+1 = STOP.

2. Luật từ vựng:

P (h) → w, P là một từ nhãn loại, h là cặp (w, t) (1.2)

Hình 1.3. dưới đây minh họa một văn phạm phi ngữ cảnh xác suất từ vựng hóa [43].

Khi tính xác suất cho từng sản xuất, việc thêm thông tin từ vựng làm cho mẫu số trở nên

vô cùng lớn, xác suất gần như bằng 0.

Để tránh số lượng tham số quá lớn, trong mô hình được Collins [43] đưa ra, xác suất

của luật nội tại được tính dựa theo luật chuỗi xác suất.

Xác suất sinh ra một đối tượng bổ nghĩa có thể phụ thuộc vào một hàm bất kỳ của các

đối tượng bổ nghĩa trước đó, lĩnh vực của từ trung tâm hay từ trung tâm. Do vậy, khoảng

cách được [43] bổ sung vào giả thiết về tính độc lập của các từ bổ nghĩa.

Mô hình này cũng đã được nhóm Lê Thanh Hương [22] sử dụng để xây dựng bộ phân

tích cú pháp tiếng Việt với nhận xét “Trong tiếng Việt các thành phần biên của các ngữ

phụ thuộc vào thành phần bên cạnh nó nhiều hơn là phụ thuộc vào thành phần trung tâm”.

Trong [22] đã đưa ra công thức tính xác suất luật cho các thành phần biên không có xuất

hiện của khoảng cách và đề xuất công thức tính xác suất cho luật có thêm giá trị xác suất

kết nối các từ ở hai bên thành phần chính của vế phải.

Tập luật (sản xuất)

Các luật nội tại

TOP →→→→ S(bought, VBD)

S(bought, VBD →→→→ NP(week, NN) NP(IBM, NNP) VP(bought, VBD)

NP(week, NN →→→→ JJ(Last, JJ) NN(week,NN)

NP(IBM, NNP) →→→→ NNP(IBM, NNP)

VP(bought, VBD) →→→→ VBD(bought,VBD) NP(Lotus,NNP)

NP(Lotus, NNP) →→→→ NNP(Lotus, NNP)

Các luật từ vựng

JJ(last, JJ) →→→→ last

NP(week, NN) →→→→ week

NNP(IBM, NNP) →→→→ IBM

VBD(bought,VBD) →→→→ bought

NP(Lotus, NNP) →→→→ Lotus

Cây ngữ cấu cho câu”Last week IBM bought Lotus”

Hình 1.3. Văn phạm phi ngữ cảnh xác suất và cây ngữ cấu của câu “Last week IBM bought Lotus”

1.1.4. Văn phạm kết nối cây

Với sự ra đời của các treebank, các thao tác viết lại trên văn phạm có thể không diễn ra

trên xâu nữa mà thực hiện trên cây ngữ cấu.

Phần tử cơ sở của văn phạm kết nối cây (Tree Adjoining Grammar - TAG) là cây cơ

bản [69]. Các cây cơ bản được kết hợp với nhau qua hai thao tác viết lại là kết hợp và thay

thế. Cây trung gian sinh ra khi áp dụng các phép thế và kết nối được gọi là các cây phân

tích.

Cây phân tích đầy đủ là cây phân tích trong đó mọi nút lá đều có nhãn là ký hiệu kết

thúc. Việc phân tích cú pháp cho một câu có thể hiểu là: xuất phát từ một cây cơ bản có

gốc là tiên đề, tìm một cây phân tích đầy đủ có các nút lá tương ứng với dãy các từ trong

câu.

Văn phạm TAG được từ vựng hóa trở thành LTAG (Lexicalized Tree Adjoining

Grammar). Đây cũng là một dạng văn phạm hoàn toàn từ vựng hóa. Mỗi cây cơ bản đều

có ít nhất một nút lá gắn với một đơn vị từ vựng gọi là từ neo. Ngoài ra, văn phạm còn

thỏa mãn các điều kiện sau:

1. Mỗi cây khởi tạo của LTAG biểu diễn các thành phần của một từ neo (thành phần

đối bổ nghĩa cho từ neo).

2. Các cây cơ bản là cực tiểu: cây khởi tạo phải có từ neo là từ trung tâm của một

thành phần chính trong câu và chứa tất cả các thành phần đối bắt buộc của từ neo [20].

Văn phạm kết nối cây cũng đã được xây dựng cho tiếng Việt trong [22] bằng cách rút

trích từ treebank tiếng Việt. Về khả năng biểu diễn ngôn ngữ, văn phạm kết nối cây có khả

năng biểu diễn ngôn ngữ cảm ngữ cảnh. Hướng tiếp cận này có hiệu quả khi treebank tiếng

Việt đủ lớn.

1.2. Tiếp cận qua cấu trúc nét và văn phạm hợp nhất

Văn phạm hợp nhất được xây dựng trên cơ sở hợp nhất các cấu trúc nét (feature). Cấu

trúc nét được biểu diễn thông qua ma trận giá trị thuộc tính (Attribute Value Matrix -

Nét 1 Giá trị1 Nét 2 Giá trị2 … . . . Nét n Giá trị n

AVM) có dạng:

Chẳng hạn một cấu trúc danh ngữ trong tiếng Anh mô tả các nét của một danh ngữ:

Loại - danh ngữ, Số - Ít, Ngôi - 3 như sau:

S M CAT NP NUMBER SG PERSON 3 Cấu trúc nét được định nghĩa là ánh xạ F→ VF, F là tập nét , VF là tập giá trị có thể gán

cho các nét.

Ví dụ nêu trên là một cấu trúc nét trên tập nét F = { CAT, NUMBER, PERSON }, tập

giá trị VF = { NP, SG, 3 }.

Văn phạm gia tố chứa những luật gia tố dạng A → X1...Xn với A là tên cấu trúc nét cha,

X1, ...Xn là các cấu trúc nét con.

Luật trong văn phạm gia tố được biểu diễn qua cấu trúc nét có chứa biến, nhờ đó có thể

áp dụng luật cho nhiều tình huống khác nhau. Chẳng hạn luật gia tố cho cụm danh từ đơn

giản:

(NP NUMBER ?n) → (ART NUMBER ?n) (N NUMBER ?n )

biểu diễn sự thống nhất về số của mạo từ và danh từ.

Nếu nét có thể biểu diễn dưới dạng đồ thị nét thì có thể hợp nhất các đồ thị nét thành

một đồ thị lớn. Đó là thành phần chính của văn phạm hợp nhất.

Văn phạm hợp nhất là công cụ có thể biểu diễn lớp ngôn ngữ loại 0 là lớp ngôn ngữ lớn

nhất theo phân cấp của Chomsky [63]. Theo nhóm Trần Ngọc Tuấn [26], sử dụng văn

phạm hợp nhất có thể giải quyết một số hiện tượng trong tiếng Việt như hiện tượng liên kết

của một số từ. Các từ chỉ có thể kết hợp với nhau khi có thể tạo ra một liên hợp hợp nhất

các nét của chúng. Ví dụ, từ “quyển” với nét SHAPE: vuông/mỏng chỉ liên kết với những

đối tượng có cùng mô tả nét SHAPE, chẳng hạn “sách”. Tuy nhiên, việc mô tả chi tiết cho

hầu hết các hiện tượng của ngữ pháp tiếng Việt để xây dựng một bộ phân tích cụ thể là quá

phức tạp. Các tác giả của [26] mới chỉ xử lý trên tập con các danh ngữ tiếng Việt.

1.3. Cách tiếp cận phụ thuộc

1.3.1. Một số khái niệm

Văn phạm phụ thuộc có khởi đầu từ ngôn ngữ Ấn độ cổ Panini, mô hình hiện đại được

Lucien Tesnière giới thiệu [75]. Nghiên cứu về văn phạm phụ thuộc phát triển mạnh trên

các ngôn ngữ Slavơ [92], Thổ Nhĩ Kỳ do thể hiện được đặc tính tự do của trật tự từ.

Điểm quan trọng trong mô hình văn phạm phụ thuộc là quan hệ bất đối xứng gọi là

quan hệ phụ thuộc (hay phụ thuộc - dependency). Quan hệ phụ thuộc xảy ra giữa một từ

phụ thuộc (dependent) và một từ khác mà nó phụ thuộc vào gọi là từ trung tâm (head).

Văn phạm phụ thuộc sử dụng hai bảng chữ: tập ký hiệu kết thúc và tập ký hiệu bổ trợ

Mỗi phần tử của tập ký hiệu kết thúc là một đơn vị cú pháp nhỏ nhất (đơn vị nguyên tố),

ví dụ hình vị (trong các ngôn ngữ có biến đổi hình thái), cách phát âm hay từ ... Phát ngôn

được coi như một xâu các nguyên tố của của tập ký hiệu kết thúc.

Tập ký hiệu bổ trợ là tập các tên kiểu xuất hiện của các ký hiệu kết thúc. Ký hiệu bổ trợ

không được phép nhập nhằng; mỗi ký hiệu có những thuộc tính cú pháp cố định.

Có nhiều mô hình khác nhau của văn phạm phụ thuộc. Mô hình đầu tiên được mô tả

hình thức bởi Hays [62] và Gaifman [57].

Định nghĩa 1.3. [57]

Văn phạm phụ thuộc là bộ bốn thành phần DG = ( L, C, F, R ), trong đó

L: Tập ký hiệu kết thúc (terminal alphabet).

C: Tập ký hiệu bổ trợ (auxiliary alphabet).

F: L → C hàm gán (assignment function).

R: Tập các luật phụ thuộc thuộc một trong ba dạng dưới đây:

1. Xi(Xj1, Xj2,... ,*, ..., Xjn),trong đó Xi là từ trung tâm, Xj1, Xj2,..., Xjn là các từ phụ

thuộc, n là một số. Thứ tự của các từ trong luật 1 là thứ tự xuất hiện trong câu (có thể

có từ xen giữa các từ được nói đến trong luật). Dấu * đánh dấu vị trí từ trung tâm khi

đứng cùng các từ phụ thuộc của nó trong phát ngôn.

2. Xi (*), chỉ ra rằng ký hiệu kết thúc ứng với Xi có thể xuất hiện mà không có từ phụ

thuộc.

3. *(Xi), chỉ ra rằng đơn vị ứng với Xi có thể xuất hiện mà không có từ trung tâm. Đối

tượng này là trung tâm của phát ngôn mà nó xuất hiện.

Ví dụ:

Văn phạm DG = ( L, C, F, R )

L = { John, loves, a, woman }

C = { N, V, Det }

F: John → N, woman → N, loves → V, a → Det

R bao gồm các luật :

1. *(V) 4. N(*)

2. V(N, *, N) 5. Det(*)

3. N(Det, *)

Thông thường, một từ ROOT được thêm vào để dễ dàng xử lý những đối tượng như V.

Câu “John loves a woman” có thể được biểu diễn dưới dạng cây như trong hình 1.4 dưới

đây:

Hình 1.4. Phân tích câu “John loves a woman” trong một mô hình văn phạm phụ thuộc

Liên quan đến văn phạm phụ thuộc có một số khái niệm và tính chất quan trọng sẽ được

trình bày dưới đây.

Các định nghĩa dưới đây được trích từ [75]

Định nghĩa 1.4.

Câu là dãy các từ tố (từ) biểu diễn bởi S = w0w1...wn

Để đơn giản, giả thiết dãy w1,...wn là dãy của các từ khác nhau,ví dụ trong câu “Mary

saw John and Fred saw Susan”, hai thể hiện khác nhau của từ “saw” được coi là phân biệt.

Định nghĩa1.5.

Giả sử R = { r1, ... , rm } là tập hữu hạn các kiểu quan hệ phụ thuộc có thể diễn ra giữa

hai từ trong một câu. Kiểu quan hệ r ∈ R được gọi là nhãn của cung,

Định nghĩa 1.6.

Đồ thị phụ thuộc G = (V, A) là đồ thị định hướng bao gồm tập đỉnh V và tập cung A

• V ⊆ { w0, w1, ... wn }.

• A ⊆ V× R × V.

• Nếu (wi, r, wj) ∈ A thì (wi. r’,wj) ∉A với mọi r’≠ r.

sao cho với câu S = w0w1...wn và tập nhãn R, những khẳng định sau là đúng:

Ví dụ: Đồ thị phụ thuộc của câu “ Economic news had little effect on financial market”

trong hình 1.5.

Hình 1.5. Đồ thị phụ thuộc của câu

“Economic news had little effect on financial market”

G = (V, A)

V = VS = { ROOT, Economic, news, had, little, effect, on , financial, markets }

A = { (ROOT, PRED, had), (had, SBJ, news), (had, OBJ, effect), (had, PU,.), (news,

ATT, Economic), (effect, ATT, little), (effect, ATT, on), (on, PC, market), (market, ATT,

financial) }

Định nghĩa phụ thuộc (wi, r, wj) không phải là duy nhất mà có sự khác biệt qua các hệ

thống lý thuyết ngôn ngữ khác nhau.

Định nghĩa 1.7.

Đồ thị phụ thuộc đúng G = (V, A) của câu vào S và tập quan hệ phụ thuộc R là đồ thị

phụ thuộc có dạng cây, có hướng xuất phát từ nút w0 và có tập nút khung.

V = VS. Ta gọi đồ thị phụ thuộc này là cây phụ thuộc.

Ký hiệu tập tất cả các đồ thị phụ thuộc đúng của câu S với tập quan hệ phụ thuộc R là

GS. Có thể coi đây là mô hình phụ thuộc một tầng.

Các mô hình phụ thuộc theo trường phái Praha [109] cho phép phụ thuộc theo nhiều

tầng, do vậy có thể mô hình hóa các thông tin ngữ nghĩa hay hình thái mà vẫn đảm bảo

tính chất của cây phụ thuộc.

1.3.2.Tính chất của cây phụ thuộc

Sau đây là các tính chất của cây phụ thuộc, kết quả phân tích câu theo mô hình phụ

thuộc. Các tính chất này phản ánh đặc trưng của mô hình phụ thuộc nguyên bản của

Tesnière [82].

Cây phụ thuộc G = (V, A) luôn thỏa các tính chất sau:

1. Tính chất gốc: Nút gốc ROOT không phụ thuộc nút nào.

2. Tính chất khung: Trên toàn bộ các từ của câu: V = VS.

3. Liên thông: Cây phụ thuộc là đồ thị liên thông yếu.

4. Một từ trung tâm (single head): mỗi từ phụ thuộc chỉ có một từ trung tâm duy nhất.

5. Không chu trình: Đồ thị phu thuộc là liên thông

• Mỗi cung trong cây là xạ ảnh nếu có một con đường từ từ trung tâm tới mọi từ nằm giữa

6. Tính chất về số cung: Đồ thị phụ thuộc G = (V, A) thỏa mãn tính chất:|A| = |V| - 1 7. Tính xạ ảnh (projective)

• Cây phụ thuộc G = (V, A) là cây phụ thuộc xạ ảnh nếu :

hai điểm đầu của cung.

Nó là cây phụ thuộc

Mọi (wi, r, wj) ∈ A có tính xạ ảnh

• Cây phụ thuộc xạ ảnh thỏa mãn tính phẳng nếu có thể vẽ tất cả các cung của cây ở phần

Ngược lại G là cây phụ thuộc không xạ ảnh

không gian trên của câu mà không có cung nào cắt nhau.

So sánh văn phạm phụ thuộc và văn phạm phi ngữ cảnh

Trong [57], [62] đã chứng minh rằng văn phạm phụ thuộc là tương đương yếu với văn

phạm phi ngữ cảnh.

Khác biệt cơ bản giữa văn phạm phụ thuộc và văn phạm phi ngữ cảnh là cấu trúc phụ

thuộc thể hiện mối quan hệ trung tâm – phụ thuộc giữa các từ, phân lớp bởi các lĩnh vực

theo chức năng như là chủ ngữ hay bổ ngữ, trong khi biểu diễn kiểu phi ngữ cảnh nhóm từ

thành các ngữ và phân lớp theo lĩnh vực cấu trúc như danh ngữ, động ngữ.

Tuy nhiên, với cùng một câu, cây phụ thuộc đơn giản hơn cây ngữ cấu rất nhiều do nó

chỉ chứa số lượng nút bằng số từ trong câu +1.

Văn phạm phụ thuộc rất thích hợp cho các ngôn ngữ có trật tự từ tự do, vì nhiều mô

hình phụ thuộc không đòi hỏi tính xạ ảnh. Việc văn phạm phụ thuộc biểu diễn được sự phụ

thuộc về hình thái từ (giống, số, cách...) cũng là một lý do thuyết phục cho khẳng định trên.

Văn phạm phụ thuộc có thể biểu diễn các thông tin ngữ nghĩa nếu sử dụng các mô hình

mở rộng. Theo Fox [55], mô hình phụ thuộc rất thuận lợi cho bài toán dịch máy do có độ

đo crossing nhỏ.

Ngược lại mô hình phụ thuộc lại khó giải quyết bài toán sinh ngôn ngữ vì trong trường

hợp tổng quát, khó có thể tổ hợp các cây phụ thuộc lại thành một cây phụ thuộc lớn hơn.

Mô hình phụ thuộc cổ điển không giải quyết được vấn đề liên hợp (coordination) do

tính chất một từ trung tâm của các mối quan hệ phụ thuộc. Để giải quyết vấn đề này cần sử

dụng một số dạng mở rộng của văn phạm phụ thuộc như văn phạm phạm trù phụ thuộc

(Dependency Categorical Grammar) [103], hay sự phụ thuộc với nhiều từ trung tâm theo

mô hình văn phạm từ (Word Grammar) của Hudson [65], [114].

1.4. Văn phạm liên kết

1.4.1. Khái niệm văn phạm liên kết

Mô hình văn phạm liên kết được Sleator và Temperley [111] đưa ra năm 1991. Đến nay

mô hình này đã được phát triển và sử dụng trên nhiều lĩnh vực khác nhau vì nó đã đặc tả

được nhiều hiện tượng của tiếng Anh cũng như nhiều ngôn ngữ khác. Bộ phân tích liên kết

tiếng Anh cho phép phân tích nhiều câu dài, câu ghép. Kết quả phân tích liên kết được sử

dụng phổ biến trong các hệ thống cho phép rút trích thông tin, dịch máy và sinh ngôn ngữ.

Một văn phạm liên kết bao gồm một tập các từ (có thể coi như tập các ký hiệu kết thúc

của văn phạm), mỗi từ có một yêu cầu liên kết. Một dãy các từ là một câu đúng nếu tồn

tại một cách để vẽ các cung (liên kết) giữa các từ sao cho thoả mãn các điều kiện sau:

1. Tính phẳng (planarity): các liên kết không giao nhau (khi được vẽ phía trên các từ).

2. Tính liên thông (connectivity): các liên kết có khả năng kết nối tất cả các từ trong câu

với nhau.

3. Tính thoả mãn (satisfaction): các liên kết thoả mãn các yêu cầu liên kết của mỗi từ

trong câu

4. Tính loại trừ: không có hai liên kết có thể kết nối cùng một cặp từ.

Các yêu cầu liên kết của mỗi từ được chứa trong một từ điển. Từ điển được biểu diễn

dưới dạng máy tính có thể đọc được. Trong bảng 1.1 dưới đây là ví dụ của một từ điển liên

kết mini:

Bảng 1.1. Ví dụ của một từ điển

Từ Công thức

tại sao cậu không tới THT+ SV+ RnV+ (RnV- or()) &(SV-)&(THT- or ())

Trong từ điển, mỗi từ có với một công thức liên kết. Với dạng của công thức liên kết

như vậy cần thêm yêu cầu thứ 5 như sau:

5. Tính thứ tự: Khi các kết nối của một công thức được duyệt từ trái qua phải, các từ

mà nó kết nối tới tiến từ gần ra xa.

Đồ thị trong hình 1.6 chỉ ra các yêu cầu liên kết được thoả mãn trong câu hỏi “Tại sao

cậu không tới?”.

Hình 1.6. Câu đúng ngữ pháp “Tại sao cậu không tới”

Việc sử dụng các công thức để biểu diễn một từ điển văn phạm liên kết là gần gũi với

các hiện tượng của ngôn ngữ tự nhiên, nhưng lại cồng kềnh cho việc mô tả giải thuật phân

tích liên kết. Trong [111] đã giới thiệu một cách khác để biểu diễn văn phạm liên kết gọi là

dạng tuyển (disjunct).

Mỗi từ của văn phạm có một tập các dạng tuyển liên hệ với nó. Mỗi dạng tuyển tương

ứng với một cách thoả mãn các yêu cầu liên kết của một từ. Một dạng tuyển bao gồm hai

danh sách có thứ tự của các tên kết nối: danh sách bên trái và danh sách bên phải. Danh

sách bên trái bao gồm các kết nối mà nối về phía bên trái của từ hiện tại (các kết nối kết

thúc bởi - trong công thức liên kết), và danh sách bên phải chứa các kết nối mà nối về phía

bên phải của từ hiện tại (các kết nối kết thúc bởi + trong công thức liên kết). Một dạng

tuyển được ký hiệu:

((L1, L2,…, Lm) (Rn, Rn-1,…, R1))

trong đó L1, L2,…, Lm là các kết nối về phía trái và Rn, Rn-1,…, R1 là các kết nối về phía

phải. Số lượng các kết nối trong từng danh sách có thể bằng 0. Dấu + hoặc dấu – theo sau

có thể loại bỏ khỏi tên của kết nối khi sử dụng dạng tuyển, vì hướng được ngầm định trong

dạng tuyển.

Để thoả mãn các yêu cầu liên kết của một từ, một trong các dạng tuyển của nó phải

được thoả mãn. Để thoả mãn một dạng tuyển, tất cả các liên kết của nó phải được thoả

mãn bởi các kết nối thích hợp. Các từ mà L1, L2, … liên kết tới đứng bên trái của từ hiện

tại, và giảm đơn điệu về khoảng cách tính từ từ hiện tại. Các từ mà R1, R2, … liên kết tới

đứng bên phải của từ hiện tại, và tăng đơn điệu về khoảng cách tính từ từ hiện tại.

Dạng tuyển là công cụ tương đương với công thức. Mỗi công thức tương ứng với một

tập các dạng tuyển. Ví dụ, công thức (A- or ( )) & D- & (B+ or ( )) & (O- or S+) được nêu

trong [111] tương ứng với 8 dạng tuyển sau:

((A,D) (S,B))

((A,D,O) (B))

((A,D) (S))

((A,D,O) ( ))

((D) (S,B))

((D,O) (B))

((D) (S))

((D,O) ( ))

Khi phân tích câu, bộ phân tích liên kết sẽ chuyển công thức trong từ điển thành các

dạng tuyển tương ứng và tìm ra tổ hợp các dạng tuyển thỏa mãn các yêu cầu nói trên, nếu

câu đúng cú pháp.

Dạng tuyển con của một dạng tuyển được xây dựng bằng cách xoá đi một hoặc nhiều

kết nối ở đầu và cuối trong hai danh sách kết nối của dạng tuyển đó.

Ví dụ, Các dạng tuyển con khác rỗng của dạng tuyển ((O)(EoPp)) của danh từ cụ thể

tiếng Việt (“anh”, “chị”, “bố”, “mẹ”...) là: ((O) (EoPp)), ((O) ( )), (( ) (EoPp)).

Kết nối lớn (fat connector) là một kết nối nhưng không chỉ liên kết các từ mà liên kết

các cụm từ. Vì vậy, có thể hiểu dạng tuyển chứa kết nối lớn gồm hai danh sách trái và phải,

mỗi danh sách chứa một dạng tuyển con.

Ví dụ, Kết nối <(O) (EoPp)> là kết nối lớn. Nó có thể là thành phần của dạng tuyển nào

đó, chẳng hạn (( )(<(O) (EoPp)>))

Trong ví dụ ở hình 1.7, kết nối F = <(O) (EoPp)> nối tới cụm từ bao gồm từ “và”, từ

“anh” và từ “chị”. Hai từ “anh” và “chị” cùng có chung dạng tuyển là ((O) (EoPp)). Kết

nối lớn được dùng để nối các thành phần có cùng chức năng trong câu, tránh làm các liên

kết giao nhau. Dạng tuyển cho từ “và” sẽ trở thành ((F, O)(EoPp, F)). Chú ý rằng, trong từ

điển, từ “và” không có dạng tuyển ((O)(EoPp)) mà dạng tuyển đó thuộc về từ “anh” và từ

“chị”. Vì kết nối lớn F được xác lập giữa từ “và” với các từ “anh”, “chị” nên từ “và” đã

đóng vai trò của cả từ “anh” và từ “chị”. Những vấn đề cụ thể về ứng dụng của kết nối lớn

sẽ được nói đến ở mục 3.3.

Hình 1.7. Kết nối lớn của từ “và”

Văn phạm liên kết được xếp vào dòng phụ thuộc [70], vì mô hình cũng biểu diễn mối

liên hệ giữa các từ trong câu. Tuy nhiên văn phạm liên kết có nhiều điểm khác biệt.

Liên kết không định hướng: Văn phạm liên kết không có khái niệm “cai trị”, “phụ

thuộc”. Các kết nối không định hướng, hai từ liên kết với nhau là bình đẳng. Mô hình này

chỉ quan tâm đến hướng của liên kết là trái hay phải. Đây là điểm khác nhau cơ bản giữa

văn phạm phụ thuộc và văn phạm liên kết.

Liên kết có nhãn: Nếu trong văn phạm phụ thuộc, các quan hệ phụ thuộc không nhất

thiết có nhãn thì các liên kết trong văn phạm liên kết bắt buộc phải có nhãn.

Trong văn phạm phụ thuộc, tính phụ thuộc là hiện hữu và từ trung tâm bắt buộc phải

có. Điều đó giả thiết rằng từ sự tồn tại của từ phụ thuộc A có thể kết luận sự tồn tại của từ

trung tâm B. Văn phạm liên kết cho phép liên kết có thể xuất hiện hoặc không. Điều đó

cho khả năng phân biệt giữa thành phần bắt buộc và thành phần tùy chọn trong cú pháp của

ngôn ngữ.

Khái niệm từ trung tâm, khái niệm hết sức quan trọng của mô hình phụ thuộc và nhiều

văn phạm ngữ cấu khác như HPSG [104] hay lý thuyết X-bar, vẫn còn có nhiều tranh cãi.

Văn phạm liên kết không dùng khái niệm này và đã thành công ở mức độ cú pháp.Tuy

nhiên, Schneider [109] cho rằng có thể gặp phải một số khó khăn khi phân tích ngữ nghĩa

mà không đặc tả hướng phụ thuộc.

Các luật của văn phạm chứa thông tin về trật tự từ, tức là về việc các từ liên hệ xuất hiện

trước hay sau từ được mô tả tại một lối vào trong từ vựng, phù hợp với xu hướng từ vựng

hóa của phần lớn các văn phạm hiện nay, phù hợp với các ngôn ngữ mà trật tự từ là quan

trọng. Đó cũng là lý do văn phạm liên kết có tính phẳng.

Không giống như trong văn phạm phụ thuộc, một đồ thị biểu diễn phân tích trong văn

phạm liên kết có thể có chu trình, ví dụ khi phân tích câu với đại từ quan hệ như trong hình

1.8. dưới đây:

Hình1.8. Chu trình trong phân tích câu

Trong hình 1.8, liên kết gây ra chu trình chính là Bp. Đây chính là một dạng liên kết ngữ

nghĩa cho thấy từ được đại diện bởi “who” chính là “elephant”.

Nhờ cho phép chu trình, văn phạm liên kết có thể biểu diễn đồng thời thông tin cú pháp

và ngữ nghĩa trong các liên kết, trong khi thông tin ngữ nghĩa trong văn phạm phụ thuộc

thường được biểu diễn ở tầng khác so với tầng cú pháp (Văn phạm phụ thuộc đa tầng

[109])

Văn phạm phụ thuộc và văn phạm liên kết còn khác nhau ở mối liên hệ giữa các từ

không liền kề. Tính phẳng của liên kết, tương tự tính phẳng trong văn phạm phụ thuộc, đòi

hỏi các cung biểu diễn liên kết trong một câu không giao nhau khi vẽ trên các từ. Với yêu

cầu tính phẳng, một số quan hệ từ không lân cận có thể không biểu diễn được trong mô

hình văn phạm liên kết. Ví dụ, trong câu “Cái áo này, dù rất đắt, tôi vẫn mua”, sau khi vẽ

liên kết giữa danh từ “áo” với tính từ “đắt” và động từ “mua”, sẽ không thể vẽ liên kết giữa

từ “dù” với dấu phảy mà vẫn đảm bảo tính phẳng. Tồn tại những văn phạm phụ thuộc

không có tính xạ ảnh, nhưng tính phẳng là bắt buộc trong văn phạm liên kết. Rất may,

những câu như trong ví dụ trên không thường gặp trong thực tế.

1.4.2. Các định nghĩa hình thức về văn phạm liên kết

Qua mô tả phi hình thức được nói đến ở phần trên, ta có thể đi đến mô tả văn phạm liên

kết và các khái niệm liên quan một cách hình thức (theo [34]). Những khái niệm sau dẫn

1.4.2.1.Mạng liên kết

đến định nghĩa của văn phạm liên kết.

Theo như mô tả ở trên, một mạng liên kết (link net) sẽ biểu diễn phân tích của một cụm

từ nào đó theo văn phạm liên kết. Có thể hình dung mạng liên kết là một đồ thị với các

đỉnh có nhãn là các từ, còn các cung có nhãn là các kiểu kết nối. Đồ thị của mạng liên kết

là một đồ thị phẳng, liên thông, với tất cả các đỉnh được sắp thứ tự trên biên của đồ thị.

Quan hệ E là đối xứng nếu và chỉ nếu (x,y) ∈ E ⇔ (y, x) ∈ E

Quan hệ E là phản phản xạ nếu và chỉ nếu (x, x) ∉ E.

Định nghĩa 1.8. [34]

Giả sử Σ là một bảng chữ và Pr là tập các kiểu nguyên thủy, (ν, ≤) là một tập sắp thứ tự

hoàn toàn,

Mạng liên kết là một cấu trúc (V, w, E, t), trong đó:

1. Tập đỉnhV ⊆ ν là tập con hữu hạn không rỗng của ν, ký hiệu là (v1,... vn),

n = | V | và v1 < ... < vn;

2. w: V → Σ ánh xạ mỗi đỉnh với một từ;

3. Tập cung E ⊆ V × V là tập con đối xứng và phản phản xạ của V×V;

4. t: E → Pr ánh xạ mỗi cung tới một kiểu nguyên thủy;

5. Các cung không giao nhau: nếu (a, b) ∈ E và (c, d) ∈ E sao cho a < b và c < d thì

không xảy ra a < c < b < d hay c < a < d < b;

6. Đồ thị (V, E) là liên thông.

Tập tất cả các mạng liên kết trên Σ được ký hiệu là NPr(Σ)

Định nghĩa 1.9. Kết quả (yield) của mạng liên kết [34]

yield(N) = w(v1)... .w(vn) ∈ Σ+.

Kết quả của một mạng liên kết N = ((v1,... .vn), w, E, t) là :

1.4.2.2. Nút liên kết

Kết quả của mạng liên kết chính là một cụm từ đúng cú pháp liên kết.

Nút liên kết là khái niệm hình thức của dạng tuyển.

Định nghĩa1.10. Tập các nút liên kết trên Pr, ký hiệu Tp là tập các cặp hai danh sách

hữu hạn của Pr. Mỗi nút liên kết X có một danh sách trái các cổng ký hiệu là tn- ... t1- và

một danh sách phải các cổng ký hiệu là t1+ ... tm+. [34]

Hình 1.9. Nút liên kết

Với mỗi đỉnh v của mạng liên kết N = (V, w, E, t), tập các cung liên quan đến v có thể

chia thành một danh sách trái (xn,v)... (x1,v) và một danh sách phải (v,y1)... (v,ym), trong đó

xn < xn-1 < ... < x1 < v < y1... < ym-1 < ym. Do vậy, v liên hệ với nút liên kết node(v) =

1.4.2.3.Văn phạm liên kết

t(xn,v)-... t(x1,v)- t(v,y1)+. .. t(v,ym)+

Định nghĩa 1.11. [34] Cho Σ là một bảng chữ. Văn phạm liên kết là cấu trúc G = (Σ, I) với I: Σ → Pf(Tp) (ký

hiệu Pf(X) là tập tất cả các tập con của X).

Định nghĩa 1.12.

Mạng liên kết ((v1, ... .vn), w, E, t) được sản sinh bởi G nếu và chỉ nếu G: w(vi) → t(vi)

với mọi i, 0 ≤ i ≤ n.

Định nghĩa 1.13. Câu c1...cn ∈ Σ+ được sản sinh bởi văn phạm liên kết G nếu và chỉ nếu tồn tại mạng liên

kết N sao cho c1, ..., cn = yield (N) và N được sản sinh bởi G.

Định nghĩa 1.14.

Ngôn ngữ sản sinh bởi văn phạm liên kết G, ký hiệu LΣ+(G) là tập tất cả các câu sản

sinh bởi G.

1.5. Kết luận

So sánh các mô hình văn pham nói trên, có thể thấy mô hình văn phạm phi ngữ cảnh cổ

điển còn có một số hạn chế với cây ngữ cấu phức tạp, khó biểu diễn quan hệ giữa thành

phần không liền kề cũng như nhiều hiện tượng cá biệt trong từng ngôn ngữ. Một dạng văn

phạm dựa trên hướng tiếp cận phi ngữ cảnh là văn phạm kết nối cây lại đòi hỏi ngân hàng

cây rất lớn, hiện nay chưa có điều kiện xây dựng ở Việt Nam. Cách tiếp cận qua nét có khả

năng biểu diễn lớp ngôn ngữ rộng, nhưng xây dựng được hệ thống nét đòi hỏi rất nhiều

công sức và kiến thức sâu rộng về tiếng Việt.

Như đã phân tích ở mục 1.3, phân tích câu theo mô hình phụ thuộc có nhiều lợi thế. Đó

là lý do các bộ phân tích phụ thuộc đã được xây dựng cho nhiều ngôn ngữ. Đầu tiên là

ngôn ngữ có trật tự từ tự do như tiếng Nga [98], tiếng Thổ Nhĩ Kỳ, tiếng Phần Lan [109].

Tuy nhiên, điều đó không có nghĩa là mô hình phụ thuộc chỉ thích hợp cho các ngôn ngữ

có trật tự từ tự do. Phân tích cú pháp phụ thuộc cũng đã thành công trong tiếng Anh [44],

Pháp [39], [40] và nhiều thứ tiếng châu Âu khác. Phân tích cú pháp phụ thuộc cũng được

chú ý cho nhiều ngôn ngữ châu Á: Nhật [99], [125], Hàn [74], [78], Trung Quốc [118],

Indonesia [72], Thái Lan[119], Philippines [85].

Mô hình văn phạm phụ thuộc rất khó xây dựng nếu chưa có những nghiên cứu cơ bản

về ngôn ngữ học. Ví dụ, theo [2], còn có nhiều tranh cãi về thành phần trong danh ngữ:

Trong tiếng Việt, có những trường hợp yếu tố chính về ngữ pháp thì lại đóng vai trò phụ về

từ pháp trong khi yếu tố chính về từ pháp lại đóng vai trò phụ về ngữ pháp.

Ví dụ: Xét hai câu

a. Lúc ấy thì nó mới 6 tuổi

b. Lúc Cách mạng Tháng 8 bùng nổ thì nó mới 6 tuổi

Với cùng vị trí, cùng cấu trúc, danh từ “lúc” đóng vai trò chính ở câu trên nhưng lại

đóng vai trò phụ ở câu dưới. Hơn nữa, trong cấu trúc danh ngữ chỉ có danh từ là thành

phần chính hay thành phần chính có thể chứa từ khác ngoài danh từ? Như vậy vấn đề thành

phần nào phụ thuộc thành phần nào còn chưa có câu trả lời chính xác.

Hiện nay mới có một bộ phân tích cú pháp phụ thuộc tiếng Việt được Nguyễn Lê Minh

và các đồng nghiệp xây dựng [17]. Bộ phân tích cú pháp này được xây dựng bằng phương

pháp MST, tức là chuyển bài toán tìm cây phụ thuộc về bài toán tìm cây khung lớn nhất

trong một đồ thị, trên một kho ngữ liệu gồm 450 câu tiếng Việt được gán nhãn và phân tích

bằng tay. Như vậy chưa có một văn phạm phụ thuộc thực sự được xây dựng cho tiếng Việt.

Luận án đã quyết định chọn mô hình văn phạm liên kết vì những lý do sau:

1. Văn phạm liên kết cũng là một dạng của văn phạm phụ thuộc. Tuy nhiên do liên kết chỉ

quan tâm đến hướng mà không xác định đối tượng nào phụ thuộc nên các mối liên kết

có thể suy ra từ quy tắc ngữ pháp dễ dàng hơn.

2. Có thể biểu diễn thông tin ngữ nghĩa thông qua những liên kết của văn phạm liên kết,

do vậy có nhiều khả năng mở rộng nghiên cứu trên mô hình này.

3. Về khả năng biểu diễn ngôn ngữ, Sleator và Temperley [111] đã chứng minh mọi văn

phạm liên kết là đều có văn phạm phi ngữ cảnh tương đương và ngược lại, tức là hai

mô hình lý thuyết này đều cùng biểu diễn lớp ngôn ngữ phi ngữ cảnh. Theo

Jurafsky[70], những ngôn ngữ tự nhiên nằm ngoài lớp ngôn ngữ phi ngữ cảnh như

ngôn ngữ sao chép (copying language) chứa những câu rất đặc biệt, hiếm gặp trong

thực tế. Những ngôn ngữ này không thuộc phạm vi luận án quan tâm.

4. Nói chung trật tự từ là quan trọng trong tiếng Việt. Ví dụ trong [2], Nguyễn Tài Cẩn đã

viết “trong danh ngữ tiếng Việt không có loại định tố nào có trật tự tự do, khi thì ở

trước, khi thì ở sau”, định tố ở đầu và định tố ở cuối danh ngữ có một số đặc điểm khác

nhau một cách cơ bản. Cấu trúc của các loại đoản ngữ khác cũng tương tự như vậy.

Chỉ số ít những thành phần trong câu có vị trí linh hoạt, chẳng hạn như các từ chỉ thời

gian (“hôm qua”, “tối nay”... ). Như vậy mô hình liên kết đặc biệt nhấn mạnh vị trí

trước sau của các thành tố trong câu là phù hợp cho tiếng Việt.

5. Phần lớn các ngôn ngữ của vùng Đông Nam Á là các ngôn ngữ “nghèo tài nguyên”, bộ

ngữ liệu mẫu của các ngôn ngữ này đều nhỏ, do vậy nhiều hệ thống dịch máy vẫn dùng

phương pháp dịch trên luật, ngoài ra bộ luật cú pháp cũng rất hữu hiệu để nâng cao

chất lượng dịch cho các phương pháp khác. Với đặc điểm hoàn toàn từ vựng hóa, mô

hình liên kết cho phép chỉnh sửa, hoàn thiện bản dịch khá tốt.

6. Tiếp tục liên quan đến bài toán dịch máy, trong tiếng Việt, khi chuyển sang thì quá

khứ, tương lai... động từ chính không biến đổi hình thái mà được ghép thêm các phụ từ

chỉ thì. Do vậy khi dịch câu tiếng Việt sang ngôn ngữ biến đổi hình thái mạnh mẽ, cần

phát hiện thì thông qua các phụ từ này. Ví dụ câu “Tôi đang học”, khi dịch sang tiếng

Anh, thì của động từ “học” là hiện tại tiếp diễn. Tuy nhiên nếu xét câu “Hôm qua, anh

ấy đến khi tôi đang học” động từ “đến” phải chia ở thì quá khứ, động từ “học” phải

chia ở thì quá khứ tiếp diễn. Những mối liên hệ này có thể biểu diễn trong mô hình

dịch thông qua các liên kết giữa từ “hôm qua” với các động từ. Tương tự như vậy, cách

xưng hô trong tiếng Việt rất phức tạp. Nhiều cụm từ như “anh ấy”, “bọn chúng”,

“chúng tớ”, “các bạn ấy” đóng vai trò như đại từ xưng hô, khi chuyển sang ngôn ngữ

khác thường phải dịch thành đại từ xưng hô. Các bộ từ điển của văn phạm liên kết chấp

nhận các công thức cho cụm từ và công thức chỉ dành riêng cho một hoặc một số từ

nên cho khả năng xử lý nhiều biệt lệ của tiếng Việt một cách linh hoạt.

Sau khi nghiên cứu và rút ra những đặc điểm của mô hình ngôn ngữ này, luận án sẽ tập

• Bài toán phân tích cú pháp. Đây là bài toán bắt buộc phải làm khi xây dựng mô

trung giải quyết các bài toán sau:

• Bài toán dịch máy. Mô hình văn phạm liên kết biểu diễn được nhiều đặc điểm khác

hình biểu diễn cú pháp mới.

biệt của tiếng Việt mà khi chuyển sang ngôn ngữ khác cần thực hiện nhiều biến đổi.

Do vậy, luận án chọn bài toán dịch Việt - Anh nhằm tận dụng khả năng biểu diễn

mối liên hệ trực tiếp giữa các từ của mô hình văn phạm liên kết.

CHƯƠNG 2

MÔ HÌNH VĂN PHẠM LIÊN KẾT TIẾNG VIỆT

2.1.Văn phạm liên kết cho tiếng Việt

Từ định nghĩa hình thức của văn phạm liên kết, có thể thấy công việc quan trọng nhất

khi xây dựng văn pham chính là ánh xạ các từ với các nút liên kết.

Nếu đơn vị nguyên tố khi phân tích cú pháp của một số ngôn ngữ là hình vị thì đơn vị

đó trong tiếng Việt lại là từ. Theo tài liệu của Ủy ban Khoa học Xã hội [28], mỗi từ trong

tiếng Việt có thể gồm nhiều hình vị. Việc phát hiện giới hạn từ trong văn bản được thực

hiện nhờ bộ tách từ tự động.

Tiếng Việt có những đặc điểm khác biệt với các ngôn ngữ khác, như trong ngữ nghĩa,

không có các ý nghĩa thuộc phạm trù hình thái (giống, số, cách); trong hoạt động tạo câu,

các mối liên hệ ngữ pháp không biểu hiện ở sự biến hình mà biểu hiện bằng trật tự từ [16].

Kết nối của văn phạm liên kết hoàn toàn có thể biểu diễn các mối liên hệ này.

Liên kết xuất hiện khi các từ được tổ hợp lại. Theo Nguyễn Tài Cẩn [2], có ba loại tổ

hợp chính: liên hợp, mệnh đề và đoản ngữ. Liên hợp và mệnh đề sẽ được xét đến khi thực

hiện những bước phân tích cú pháp phức tạp và sẽ được nhắc đến ở chương sau. Đoản ngữ

(ngữ - phrase) là những tổ hợp gồm một trung tâm nối liền với các thành tố phụ bằng quan

hệ chính phụ [2]. Tùy theo kiểu của trung tâm, đoản ngữ được chia thành danh ngữ, động

ngữ hay tính ngữ. Các quan hệ liên kết sẽ được xây dựng căn cứ vào cấu trúc của các đoản

ngữ. Ngoài ra một số quan hệ không được biểu diễn qua quan hệ từ, ví dụ “mẹ tôi”, “áo

anh”, là các cụm hai danh từ đi cạnh nhau, danh từ thứ hai sẽ chỉ chủ sở hữu của danh từ

thứ nhất. Đây là một trong nhiều hiện tượng đặc biệt của cú pháp tiếng Việt. Việc thể hiện

được các mối liên hệ này sẽ hỗ trợ đắc lực cho hệ thống dịch máy với ngôn ngữ nguồn là

tiếng Việt.

Toàn bộ các trường hợp liên kết sẽ được lưu trữ lại trong từ điển văn phạm liên kết

2.1.1. Cấu trúc từ điển liên kết

Hệ thống từ điển văn phạm liên kết tiếng Anh được xây dựng bởi Sleator và Temperley,

theo [111]. Năm 2003, Szolovits thêm vào hàng loạt các từ trong lĩnh vực y học [113]. Từ

2008 đến 2011, từ điển được cập nhật bởi Linas Vepstas, thêm các quan hệ cho mệnh đề,

Mike Ross cũng mới thêm vào một số mục mới chủ yếu liên quan đến các mệnh đề phụ với

các từ “than” và các từ liên kết dạng “wh”[137].

Hệ thống được chia làm 12 mục lớn với 7 mục dành cho các loại từ tiếng Anh: danh từ,

• Các dạng số.

•

từ hạn định, đại từ, động từ, tính từ, phó từ và giới từ. Ngoài ra có các mục:

•

Từ chỉ thời gian, địa danh.

•

Liên từ, từ để hỏi.

• Dấu câu, các từ khác.

Từ so sánh.

Để tổ chức lưu trữ dễ dàng, [111] đã đưa ra ký pháp để tạo thành công thức biểu diễn

các luật liên kết, đó là:

Chiều của liên kết:

Dấu “+” nằm sau tên kết nối chỉ liên kết với từ nằm bên phải,

Dấu “-” nằm sau tên kết nối chỉ liên kết với từ nằm bên trái,

Toán tử :

& xảy ra đồng thời cả hai liên kết thành phần.

or xảy ra một trong hai, hoặc cả hai liên kết thành phần.

xor chỉ chọn một trong hai liên kết thành phần. Toán tử này do luận án thêm vào bộ

phân tích cú pháp tiếng Việt để xử lý trường hợp cho phép chọn chỉ một trong hai cách

liên kết, ví dụ liên kết với từ “đẹp”có thể là “rất đẹp” hoặc “đẹp tuyệt vời” nhưng

không thể là “rất đẹp tuyệt vời”.

{C}: C có thể xuất hiện hoặc không.

@C: Nhiều thể hiện của kết nối loại C có thể cùng xuất hiện, ví dụ trong đoản ngữ

“the cute red hat”, hai tính từ “cute”, “red”, đều bổ nghĩa cho danh từ “hat”.

Macro: Cho phép định nghĩa một số “macro” để viết các công thức ngắn gọn và dễ hiểu

hơn, ví dụ một macro định nghĩa mệnh đề:

: {({@COd-} & (C- or )) or ({@CO-} & (Wd- &

{CC+})) or [Rn-]};

Trong những công thức tiếp sau, mọi xuất hiện của biểu thức ở vế phải được thay bằng

.

Từ điển liên kết tiếng Việt cũng có cấu trúc tương tự như từ điển liên kết tiếng Anh

nghĩa là mỗi công thức được thiết lập cho các từ cùng loại. Theo [16], từ tiếng Việt được

chia thành các loại như trong bảng 2.1. dưới đây:

Bảng 2.1.Các loại từ tiếng Việt

STT

Mã loại

Tên loại

danh từ

động từ

tính từ

số từ

đại từ

phụ từ

giới từ

liên từ

trợ từ

cảm từ

định từ

yếu tố từ (bất, vô…)

không xác định

Các loại từ lại được chia thành tiểu loại. Trong bảng 2.2 dưới đây là các tiểu loại dựa

trên phân cấp của [16] có bổ sung số tiểu loại đáp ứng các yêu cầu phân biệt về liên kết khi

dịch theo hệ thống dịch máy của luận án.

Bảng 2.2. Các tiểu loại từ tiếng Việt

STT

Ký hiệu

Mã loại

Tên tiểu loại

danh từ riêng

danh từ đơn thể

danh từ tổng thể

danh từ trừu tượng

danh từ chỉ loại

danh từ đơn vị

danh từ vị trí

động từ nội động

động từ ngoại động

động từ trạng thái

động từ tình thái

STT

Ký hiệu

Mã loại

Tên tiểu loại

động từ quan hệ

tính từ tính chất

tính từ quan hệ

tính từ tượng thanh

tính từ tượng hình

số từ số lượng

số từ thứ tự

đại từ xưng hô

đại từ chỉ định

đại từ số lượng

đại từ nghi vấn

phụ từ thời gian hiện tại

phụ từ thời gian quá khứ

phụ từ thời gian tương lai

phụ từ mức độ

phụ từ so sánh

phụ từ khẳng định

phụ từ phủ định

phụ từ chỉ phạm vi

giới từ phạm vi

giới từ vị trí

giới từ sở hữu

giới từ chất liệu

giới từ mục đích

liên từ chính phụ

liên từ liên hợp

trợ từ

cảm từ

định từ số lượng

định từ chỉ số nhiều

định từ chỉ số ít

yếu tố từ (bất, vô…)

không xác định

Mỗi tiểu loại từ tuân theo những luật cú pháp riêng nên có những công thức liên kết

riêng. Tuy nhiên việc chia thành các tiểu loại cũng chưa đủ để xây dựng các công thức liên

kết vì chính các từ trong cùng một tiểu loại cũng có thể có cách thức liên kết khác nhau.

Luận án đã xây dựng từ điển dựa theo phân loại trong [16] (mức tiểu tiểu loại).

Chi tiết về các liên kết điển hình được trình bày trong phụ lục.

2.1.2. Xây dựng liên kết cho danh từ

Danh từ là loại từ xuất hiện với tần suất lớn nhất trong các câu. Trong [2] đã nêu một số

đặc điểm liên quan đến việc kết nối các từ khi phân chia danh từ thành các tiểu loại:

• Danh từ biệt loại là danh từ chỉ người, danh từ chỉ đồ đạc, danh từ chỉ động thực vật,

Danh từ biệt loại và không biệt loại

danh từ chỉ một số khái niệm trừu tượng. Danh từ loại này có kết hợp với đơn vị tự

• Danh từ không biệt loại chỉ chất liệu kết hợp với danh từ chỉ đơn vị quy ước như”tấn”,

nhiên (“cái”,”con”, “bức”...)

“cân”...

• Danh từ trực tiếp đếm được: một số danh từ cụ thể , danh từ chỉ đơn vị tiền tệ, hành

Danh từ đếm được và không đếm được

• Danh từ không trực tiếp đếm được: Không có liên hệ trực tiếp với số từ mà qua đơn vị

chính, tổ chức… (ví dụ: “ba đồng”, “hai cơ quan”).

tự nhiên, ví dụ danh từ chỉ động vật, thực vật... (ví dụ: “ba bông hồng”, “bốn con

mèo”)

• Danh từ chỉ xuất được kết hợp được với từ “cái”, ví dụ từ “xã”- “cái xã này”.

• Danh từ không chỉ xuất được kết hợp với từ “cái” phải thông qua đơn vị khác, ví dụ

Danh từ chỉ xuất được và danh từ không chỉ xuất được

“sinh viên”, phải nói “cái anh sinh viên này”.

Để xây dựng bộ từ điển tiếng Việt, [16] đã có cách phân loại thích hợp với xử lý tự

động nên luận án đã theo cách làm của [16]. Theo đó, các tiểu loại danh từ được phân chia

thành các nhóm nhỏ hơn, mỗi loại này có thể có những mối liên kết riêng thể hiện những

hiện tượng đã được nêu trong [2]. Từ điển của luận án được xây dựng theo phân loại này

có thêm những ngoại lệ: một số mục được nhập lại thành một, đồng thời thêm một số mục

khác. Chi tiết về liên kết của từng loại từ được trình bày trong phần phụ lục.

2.1.2.1. Liên kết của danh từ đóng vai trò chủ ngữ, bổ ngữ

Vai trò quan trọng nhất của danh từ là làm chủ ngữ. Về vị ngữ, trong tiếng Việt các loại

vị ngữ thường gặp nhất là động từ (đặc biệt động từ quan hệ “là”) và tính từ . Như vậy,

chắc chắn các kết nối SV+, SA+, DT_LA+ có ở tất cả các loại danh từ, trừ danh chỉ loại và

một số nhóm danh từ chỉ đơn vị. Danh từ cũng là đối tượng trực tiếp và gián tiếp của hành

động nên nói chung các loại danh từ có kết nối O- (bổ ngữ trực tiếp) và IO- (bổ ngữ gián

tiếp) với động từ, LA_DT- với động từ quan hệ “là” Chi tiết về các công thức liên kết xem

2.1.2.2. Xây dựng liên kết dựa trên cấu trúc danh ngữ

trong phần phụ lục.

Xem xét cấu trúc của danh ngữ, có thể tìm ra được các mối liên hệ mà trong đó danh từ

đóng vai trò trung tâm. Nguyễn Chí Hòa [8] cho rằng chỉ có một danh từ là trung tâm của

danh ngữ, tuy nhiên Nguyễn Tài Cẩn [2] lại chọn phương án hai từ trung tâm. Dù sao, điều

đó cũng không ảnh hưởng đến số lượng các mối liên hệ. Ở trường hợp đầy đủ nhất, một

danh ngữ có thể có cấu trúc như hình 2.1. dưới đây (theo [8]):

Trung

-3

-2

-1

1

2

3

4

5 tâm

Hình 2.1. Cấu trúc danh ngữ với đầy đủ các thành tố

Trên sơ đồ cấu trúc đó, xét hai loại: thành tố phụ đứng trước và thành tố phụ đứng sau

danh từ.

• Vị trí trước thứ nhất (đánh số -3) được dành cho thành tố phụ có tác dụng bổ sung

a. Thành tố phụ đứng trước danh từ

cho danh từ trung tâm ý nghĩa về số lượng, về toàn bộ một sự vật, cụ thể gồm các

loại từ sau:

- Đại từ chỉ lượng, ví dụ “tất thảy”, “tất cả”, “toàn bộ”, “toàn”, “một số”.

• Vị trí trước thứ hai (-2) dành cho các danh từ chỉ lượng (từ chỉ số ít, số nhiều, số từ

- Danh từ trừu tượng mang ý nghĩa toàn bộ: “toàn thể”

số lượng) như :

- Định từ chỉ số nhiều: “những”, “các”,”mọi”,”vài”, “mấy”, định từ chỉ số ít

“mỗi”, “từng”...

• Vị trí trước thứ ba (-1): đây chính là vị trí mà [2] xếp vào thành phần trung tâm,

- Số từ số lượng: bằng chữ: “một”, “hai”..., bằng số: 1269

dành cho:

- Các danh từ chỉ loại: Danh từ chỉ loại “con”, “cái”, “cuốn”... được phân chia

vào loại liên kết với 6 tiểu tiểu loại của danh từ cụ thể .

- Các danh từ chỉ đơn vị: [16] chia danh từ chỉ đơn vị thành 4 loại đơn vị đo

lường và hai loại khác: hành chính tổ chức và tần suất.

Sau đây là mô tả dạng kết nối cho vị trí trước danh từ: (cid:1) Kết nối cho thành phần phụ thứ ba (-1)

Thành phần phụ thứ ba có thể là danh từ chỉ loại hoặc danh từ chỉ đơn vị. Chỉ khi danh

từ trung tâm là danh từ riêng hoặc danh từ cụ thể mới xuất hiện thành phần phụ thứ ba. Xét

hai trường hợp cho hai loại danh từ ở vị trí thành phần phụ thứ ba:

Danh từ chỉ loại: Danh từ chỉ loại lại gồm nhiều tập hợp, mỗi tập hợp chỉ đi với một số

danh từ. Ví dụ “cuốn”, “chiếc” chỉ đi với đồ vật, “chú”, “thằng” chỉ đi với danh từ chỉ

người. Để đảm bảo tính chính xác của phân tích liên kết, luận án đưa ra các loại kết nối

khác nhau cho từng loại danh từ có thể kết hợp danh từ chỉ loại.

Danh từ riêng chỉ tên người có kết nối NcN1- tới các danh từ chỉ loại liên quan đến

người như: “cô”, “chú”, “đứa”...

Ví dụ: Các cụm từ “bà Clinton”, “chú Cuội” chứa liên kết NcN1 giữa danh từ chỉ loại

và tên riêng.

Danh từ riêng chỉ tên tác phẩm có kết nối NcN4- tới các danh từ chỉ loại về vật.

Ví dụ: Cụm từ “quyển Kinh Thánh” có chứa liên kết NcN4 giữa từ “quyển” và từ “Kinh

Thánh”.

Danh từ cụ thể: Tùy loại danh từ mà xác định các kiểu liên kết khác nhau với danh từ

chỉ loại, ví dụ “thằng”, “đứa” đi với danh từ chỉ người, trong khi “tia” lại đi với danh

từ chỉ hiện tượng. Việc chia thành 6 loại liên kết đảm bảo thể hiện chính xác cách dùng

• Người: NcNt1-

• Động vật: NcNt2-

• Thực vât: NcNt3-

• Đồ dùng, vật dụng : NcNt4-

• Hiện tượng: NcNt5-

• Khái niệm: NcNt6-

tiếng Việt:

Một số danh từ không phải chỉ loại nhưng được dùng như danh từ chỉ loại cũng có

những kết nối như trên, ví dụ “nàng”, “đức”...

Danh từ chỉ đơn vị: Danh từ chỉ đơn vị thường đi kèm số từ. Trong [16] đã phân chia

danh từ chỉ đơn vị thành 6 tiểu loại nhưng chỉ có 4 tiểu loại: đo lường khoa học chính xác,

đo lường dân gian, thời gian , tiền tệlà luôn đi kèm số từ ở bên trái và danh từ ở bên phải,

ví dụ “2 kg thóc”.

• Thêm cho danh từ kết nối NuNt-.

• Thêm cho danh từ chỉ đơn vị công thức McNu- & {NuNt+}. Công thức này đòi hỏi

Công thức liên kết cho loại danh từ chỉ đơn vị này được xây dựng như sau:

dạng của cụm từ là , chẳng hạn “hai mét vải”

• Thêm cho số từ liên kết McNu+.

hoặc “hai mét”.

Hai tiểu loại danh từ chỉ đơn vị khác là đơn vị hành chính, tổ chức (“phường”, “xã”….)

và đơn vị tần suất (“lần”, “phiên”, “mẻ”...) không xuất hiện ở vị trí thành phần phụ thứ ba.

(cid:1) Kết nối cho thành phần phụ thứ hai (-2)

Danh từ riêng chỉ tên đồ vật, danh từ cụ thể chỉ người, động vật, thực vật, đồ dùng vật

• DpN: Kết nối định từ chỉ số nhiều với danh từ.

• DsN: Kết nối định từ chỉ số ít với danh từ.

dụng có kết nối tới thành tố phụ chỉ số ít hay số nhiều. Các liên kết sau đã được xây dựng:

Tương tự, vị trí này cũng dành cho số từ chỉ số lượng (Mc). Liên kết chỉ tồn tại giữa số

từ và danh từ cụ thể được đặt tên là McNt.

Ở vị trí này cần xây dựng những liên kết cụ thể chỉ rõ trường hợp nào đi kèm danh từ

chỉ loại hay số từ, trường hợp nào không.

Ví dụ, tiếng Việt luôn nói “những con chó” mà không bao giờ nói “những chó”. Tuy

nhiên lại có thể nói “những sinh viên “ hay “những bạn sinh viên” đều được. Do vậy cần

xây dựng liên kết cho từng trường hợp cụ thể.

Công thức cho danh từ chỉ người:{DpNt- or McNt-} & {NcN1-} cho phép chấp nhận

các cụm từ sau: “cậu sinh viên”, “các anh sinh viên”, “5 sinh viên”, “sinh viên”.

Công thức cho danh từ chỉ động vật lại có những khác biệt. Danh từ loại này không thể

thiếu danh từ chỉ loại đi kèm khi đi vói số từ hay định từ chỉ số lượng . Luận án đã đề xuất

công thức cho danh từ chỉ động vật, thực vật:

(NcN2- or NcN3-) & {DpNt- or McNt-}

Công thức cho danh từ chỉ đồ vât, vật dụng cũng tương tự như với danh từ chỉ người:

{NcN4-} & {DpNt- or McNt-}

Như vậy, các cụm từ sau được đoán nhận: “những cái bàn”, “từng cái ghế”. Các liên

kết trong cụm từ “những cái bàn” được thể hiện trong hình 2.2.

Hình 2.2. Liên kết trong cụm từ “những cái bàn”

Tuy nhiên, cụm từ “những bàn”, “một vài ghế” vẫn được dùng thường xuyên trong

tiếng Việt và các công thức cũng thỏa mãn điều này Những cụm từ sau sẽ không được

đoán nhận: “các ba cái bàn”, “mọi bốn cái ghế”.

(cid:1) Kết nối cho thành phần phụ thứ nhất (-3)

Vị trí này liên quan đến một số loại từ:giới từ chỉ số lượng (“tất cả”. “hết thảy”...),

định từ chỉ số lượng (“toàn bộ”, “hầu hết”, “đa số”...). Trong một vài trường hợp, từ loại

khác cũng ở vị trí này, ví dụ, “toàn thể” là danh từ trừu tượng. Kết nối được xây dựng là

DqNt-. Khi có thêm liên kết với vị trí -3, các công thức liên kết cần được xem lại như sau:

Trong tiếng Việt, người ta nói “toàn thể các em học sinh”, “toàn thể các học sinh”,

thậm chí “toàn thể học sinh”, “toàn thể 3000 học sinh” nhưng lại không tồn tại câu “ toàn

thể em học sinh”. Như vậy với danh từ chỉ người, ta có công thức liên kết:

{NcNt1-} &(DpNt- &DqNt- or McNt-&DqNt-)

Tương tự như vậy, danh từ chỉ động vật có công thức:

{NcNt2- or NcNt3-} (DpNt- & DqNt- or McNt- &DqNt-&)

Danh từ chỉ đồ vật:

{NcNt3-}&(DpNt- &DqNt- or McNt-& DqNt-)

Danh từ chỉ chất, tác phẩm, cấu kiện, danh từ tổng thể, một số danh từ trừu tượng: DqN-

b. Thành tố phụ đứng sau danh từ

Các thành tố phụ đứng sau cũng tuân theo những niêm luật chặt chẽ. Luận án lần lượt

xét các thành tố phụ theo vị trí xuất hiện.

(cid:1) Thành phần sau danh từ thứ nhất (1)

Theo [2], khi danh từ đứng ở vị trí thứ nhất sau danh từ trung tâm, có thể xảy ra các

trường hợp sau:

i. Nêu tên một sự vật làm đặc trưng cho sự vật ở trung tâm.

• Quan hệ sở hữu ẩn (không có từ “của”). Quan hệ này xảy ra ở những trường hợp:

ii. Nêu tên một sự vật có quan hệ với sự vật ở trung tâm , cụ thể là:

- Danh từ trung tâm và danh từ đứng sau đều chỉ người: “con anh”, “vợ người”

- Danh từ trung tâm chỉ: bộ phận cơ thể (người | động vật | thực vật), danh từ đứng

sau chỉ người | động vật | thực vật:”mắt em”, “đuôi công”, “tai mèo”

- Danh từ trung tâm chỉ vật dụng, danh từ (đại từ) đứng sau chỉ người: “áo anh”,

“quần tôi”

- Danh từ trung tâm chỉ bộ phận đồ vật, danh từ đứng sau chỉ đồ vật: “chân bàn”,

“vành mũ”, “bánh xe”...

Với cấu trúc nói trên, danh từ đứng sau có kết nối SHA-, danh từ trung tâm có kết nối

SHA+. Vị trí thứ nhất chứa hai hoặc nhiều danh từ liên tiếp, hợp với danh từ trung tâm tạo

thành bộ 3, 4 danh từ liên tiếp, ví dụ : “vợ chồng con cái bác gấu”. Trong cấu trúc này

danh từ đứng cuối sẽ là danh từ chỉ người, có kết nối SHA-, dãy danh từ đứng trên (chỉ có

•••• Quan hệ về mặt chất liệu (không có từ “bằng”): “sân gạch”, “nhà gỗ”. Loại quan

một số cá thể) có kết nối SHA+.

hệ này xảy ra khi danh từ đứng sau chỉ chất liệu. Danh từ trung tâm trong quan hệ này

•••• Quan hệ hướng nội dung, đề mục, ví dụ “đường lối quân sự”, “quan điểm triết học”

có liên kết CLI+.

xảy ra khi danh từ đứng sau là danh từ trừu tượng chỉ thuật ngữ chuyên ngành: NN+.

•••• Quan hệ so sánh, ví dụ, “mặt trái xoan”. Quan hệ này chỉ xảy ra cho một số trường

Danh từ đứng sau có kết nối NN-.

•••• Quan hệ địa điểm, vị trí, ..., ví dụ “biệt thự ngoại thành” xảy ra khi danh từ trung

hợp cá biệt: NS+.

tâm chỉ công trình, danh từ đứng sau chỉ địa điểm. Danh từ trung tâm có quan hệ NN+,

danh từ đứng sau có quan hệ NN-.

Ví dụ

bàn, giường, lò xo: NN- or ({NcNt4-} & {DpNt- or McNt-} & {PqNt}& {NN+}).

Luật này cho phép tránh trường hợp nhập nhằng khi các thành phần phụ đứng trước và

sau của danh từ thứ nhất được là bổ nghĩa cho danh từ phụ đứng sau (như trong ví dụ trên,

từ “cái” không được liên kết với “lò xo”).

Hình 2.3. cho thấy các liên kết cho cụm từ “cái giường lò xo”.

Hình 2.3. Liên kết trong cụm từ “cái giường lò xo”.

Vị trí thứ nhất sau danh từ trung tâm cũng có thể đanh cho tính từ bổ nghĩa. Đóng vai

trò này thường là loại tính từ chỉ tính chất đôi khi cũng dùng tính từ tượng thanh, tượng

hình. Liên kết SA được dùng trongg trường hợp này.

(cid:1) Thành phần sau danh từ thứ ba (3)

Thành phần phụ này kết hợp với danh từ cụ thể ở trung tâm qua giới từ chỉ chất liệu

“bằng”, ”từ” hoặc giới từ phạm vi “về” theo dạng: N1 + bằng / về + N2. Với trường hợp

•••• Danh từ có thêm kết nối NtEm+ và NtEs+.

•••• Giới từ chỉ chất liệu “bằng”, “từ” có kết nối CH+ .

này, ta xây dựng luật như sau:

Để kết nối các quan hệ từ này với danh từ phụ đứng sau, dùng liên kết đặt tên là CH-

(Chỉ liên kết với danh từ cụ thể chỉ chất liệu).

bằng, từ: NtEm- &CH+

Giới từ phạm vi “về” có kết nối NtEs. Kết nối với danh từ đứng sau qua EsNt+

về: NtEs- & EsNt+.

Danh từ chỉ chất liệu có thêm kết nối CH-.

Một số loại danh từ khác có thêm kết nối EsNt-.

Hình 2.4 mô tả các liên kết trong cụm từ “cái bàn bằng gỗ” với danh từ chỉ chất liệu

“gỗ” ở vị trí thứ ba.

Hình 2.4. Liên kết trong cụm từ “cái bàn bằng gỗ”

(cid:1) Thành phần sau danh từ chỉ sở hữu hiện (vị trí 3 hoặc 4)

Thành phần phụ này kết hợp với trung tâm bằng giới từ sở hữu “của”, “ở”: N1 + của/ở

+ N2. Danh từ và đại từ xưng hô thêm kết nối SH-.

Quan hệ từ “của”, “ở” có kết nối SH+ và NEo-

Danh từ thêm quan hệ NEo+

Hình 2.5. Liên kết trong cụm từ “cái bàn của tôi”

Với trường hợp cả hai thành phần phụ thứ 3 và 4 cùng xuất hiện, có thể xảy ra sự nhập

nhằng như ở hình 2.6. Ở trường hợp thứ nhất từ “của” bổ nghĩa cho “gỗ”, và ở trường hợp

thứ hai từ “của” bổ nghĩa cho “bàn”. Đây là một cụm từ nhập nhằng cả về cú pháp và ngữ

nghĩa. Cả hai phân tích này đều đúng. Phân tích nào được chọn phụ thuộc vào ngữ cảnh.

Hình 2.6. Hai cách liên kết cho cụm từ “cái bàn bằng gỗ của tôi”

(cid:1) Thành phần đại từ chỉ định sau danh từ (vị trí 2 hoặc 4)

- Danh từ có kết nối NtPd+.

- Đại từ chỉ định có kết nối NtPd-.

Ví dụ, trong câu “những cái ghế này rất đẹp” ở hình 2.7 dưới đây

Hình 2.7. Các liên kết xoay quanh danh từ trung tâm “ghế”

c. Liên kết danh từ với giới từ

Liên kết được xác lập từ giới từ tới danh từ (có thể là trung tâm của danh ngữ), ví dụ

với cụm từ “mua cá cho cái con mèo lười này”, giới từ “cho” phải có liên hệ với danh từ

“mèo”. Tên của liên kết là EN+ cho giới từ, EN- cho danh từ.

2.1.3. Các liên kết cho động từ

Liên kết cho động từ được xây dựng theo cách tương tự như liên kết với với danh từ.

Dựa trên cấu trúc của động ngữ, các liên kết cũng được chia thành hai loại: liên kết với từ

2.1.3.1. Động từ đóng vai trò vị từ

đứng bên trái và liên kết với từ đứng bên phải động từ chính.

Nếu danh từ và đại từ xưng hô đóng vai trò chủ ngữ có liên kết SV+ tới vị từ là động từ

(thành phần chính của vị ngữ) thì động từ có liên kết SV- tới chủ ngữ.

Ngoài ra, riêng động từ quan hệ là ”là” có liên kết DT_LA- tới chủ ngữ.

Động từ cũng có quan hệ với từ để hỏi. Giống như từ điển liên kết tiếng Anh, từ để hỏi

liên kết với động từ chính của câu. Tùy theo loại từ để hỏi thường đứng đầu câu hay cuối

câu mà liên kết của động từ là THT hay THS. Khi từ để hỏi đã xuất hiện ở bên trái động từ,

sẽ không thể xuất hiện từ để hỏi khác ở bên phải. Công thức cho động từ thể hiện điều này:

THT- or THS+.

Liên kết của từ để hỏi:

tại sao, vì sao, ai: THT+

ở đâu, thế nào, phải không, gì: THS-

Một số từ khác có thể đứng ở vị trí trước và sau:

khi nào, bao giờ: THT+ or THS-

2.1.3.2. Xây dựng liên kết dựa trên cấu trúc động ngữ

Tương tự như danh từ, theo Nguyễn Tài Cẩn [2], còn có nhứng ý kiến khác nhau về

thành phần chính của động ngữ, đặc biệt trong trường hợp hai động từ đi liền nhau như

“muốn ăn”. Luận án chọn động từ đứng trước theo quan điểm của [2]. Như vậy việc xác

định các liên kết của động từ dựa trên cấu trúc động ngữ được chia thành hai nhánh chính:

liên kết động từ chính với thành tố phụ đứng trước và với thành tố phụ đứng sau (có thể là

động từ khác).

(cid:1) Liên kết với thành tố phụ đứng trước động từ

• Phụ từ so sánh Rc (“cũng”, “đều”, “vẫn”, “cứ”, “còn”, “mãi”... ). Các từ trong nội bộ

Vị trí trước động từ chủ yếu được dành cho các loại phụ từ sau:

• Phụ từ phủ định Rn (ví dụ: “không”, “chẳng”, “chưa”...), khẳng định Ra (ví dụ: “nhất

nhóm lại có thể kết hợp với nhau, ví dụ “cũng vẫn cứ”.

• Phụ từ chỉ thời gian: quá khứ, hiện tại, tương lai.

định”).

Các phụ từ này đi được với mọi loại động từ.

Theo tổng kết của Nguyễn Tài Cẩn [2], vị trí trước động từ của các phụ từ này có thể

tổng kết trong sơ đồ của hình 2.8 như sau:

Phụ từ chỉ thời gian (Rt, Rp, Phụ từ phủ định(Rn): Phụ từ so sánh (Rc): đều, Rf): từng, đã, đang, sẽ không, chẳng, chưa cũng, vẫn, cứ Phụ từ mệnh lệnh (Rm): đừng, chớ

Hình 2.8. Thành tố phụ đi trước mọi động từ

Liên kết được xác lập theo sơ đồ trên cho động từ:

{RnV-} &(({RtV- or RpV- or RfV-} & {@RcV-} ) or (RmV-))

• Phụ từ so sánh: RcV+

• Phụ từ phủ định: RnV1+

• Phụ từ mệnh lệnh: RmV2+

• Phụ từ thời gian (quá khứ): RpV+

• Phụ từ thời gian (hiện tại): RtV+

• Phụ từ thời gian (tương lai): RfV+

Liên kết được xác định cho các phụ từ tương ứng:

Ví dụ:Liên kết của cụm từ “vẫn đang làm” trong hình 2.9.

Hình 2.9. Liên kết trong cụm từ “vẫn đang làm”

• Phụ từ chỉ phạm vi (tiểu loại Rs, ví dụ “chỉ”): Phụ từ loại này có thể đi sau phụ từ so

Ngoài ra, một số loại phụ từ khác cũng có khả năng kết hợp với tất cả các động từ:

sánh hay phụ từ thời gian tương lai.

- Công thức liên kết cho động từ: RsV- &{RcV- or RfV-}

• Phụ từ chỉ tần suất (tiểu loại Rq, ví dụ “thường”, “hay”, “năng”): Phụ từ loại này có

- Công thức liên kết chophụ từ chỉ phạm vi: RsV+

thể đi trước phụ từ chỉ phạm vi, hay đi sau phụ từ so sánh. Riêng phụ từ phủ định có thể

đi trước hoặc sau phụ từ chỉ tần suất. Mỗi vị trí mang một ý nghĩa khác nhau.

Các từ thuộc nhóm này có thể kết hợp với nhau trong nội bộ nhóm, ví dụ “thường hay”

Công thức liên kết cho động từ: {RcV-or RnV-} & @RqV- & {RsV- or RnV-}

Ví dụ: Các liên kết cho cụm từ “không hay đọc sách này” được mô tả trong hình 2.10

dưới đây:

• Phụ từ khẳng định (tiểu loại Ra, ví dụ “nhất định”): Khác với phụ từ phủ định, phụ từ

Hình 2.10. Liên kết trong cụm từ “không hay đọc sách này”

khẳng định lại đi trước phụ từ chỉ thời gian nếu cả hai cùng bổ nghĩa cho một động từ.

Công thức liên kết cho động từ: {RaV-}&{RtV- or RpV- or RfV-}

Công thức liên kết cho phụ từ: RaV+

(cid:1)(cid:1)(cid:1)(cid:1) Liên kết với thành tố phụ đứng sau động từ

Liên kết với danh từ (danh ngữ) tồn tại khi danh từ (danh ngữ) ở dạng bổ ngữ trực tiếp

hoặc gián tiếp. Dù bổ ngữ trực tiếp là danh từ hay danh ngữ, mối liên hệ vẫn được xác lập

cho danh từ. Danh từ là đối tượng trực tiếp của hành động liên kết với động từ qua kết nối

O+. Dù đối tượng gián tiếp của hành động thường liên hệ với động từ thông qua một giới

từ, cũng có một số trường hợp liên hệ giứa danh từ và động từ là trực tiếp. Ví dụ trong câu

“tôi tặng mẹ bông hoa”, “mẹ” là đối tượng trực tiếp trong khi “hoa” là đối tượng gián tiếp.

Liên kết được xây dựng giữa “tặng” và “hoa” là IO+.

(cid:1)(cid:1)(cid:1)(cid:1) Liên kết với giới từ :

Theo [2] cấu trúc phần cuối động ngữ, tức là phần đi sau động từ liên quan đến nhiều

• Giới từ chỉ đối tượng tiếp nhận, mục đích, mục tiêu phục vụ: “cho”, ví dụ “tặng cho

loại giới từ, cụ thể trong các trường hợp sau:

em”, “mua cho con”. Trong từ điển không đề xuất một tiểu từ loại cho giới từ “cho” mà

dành cho từ này một công thức:

#giới từ chỉ đối tượng tiếp nhận, mục đich, mục tiêu phục vụ

cho: [e] CHO-

Một số động từ sẽ có quan hệ CHO+: “tặng”, “mua”, “bán”, “cống hiến”, “đóng

góp”...

Công thức được xây dựng chỉ liên quan đến các động từ có liên hệ với giới từ này như

• Đối tượng bị mất mát, tổn thất (“của”, ví dụ “vay của bạn”): liên hệ này chỉ có với một

“mua”, “bán”, “biếu”, “tặng”...

số động từ như “vay”, “mượn”,” “vay mượn”, những động từ này sẽ được dành một

mục riêng và thêm công thức: DT-CUA+

Từ “của” thêm công thức DT-CUA- & EoNt+. Công thức này đảm bảo từ “của” đi sau

• Một số thành tố phụ là giới từ khác như

động từ luôn phải đi trước một danh từ

- Thành tố phụ chỉ phương diện (“về”).

- Thành tố phụ chỉ nơi chốn (“ở”).

- Thành tố phụ chỉ phương tiện, công cụ, chất liệu (“bằng”).

- Thành tố phụ chỉ kẻ hay sự vật cùng tham dự trong hành động (“với”).

- Thành tố phụ chỉ điều đem ra so sánh (“như”).

liên kết với động từ thông qua kết nối VE. Không phải động từ nào cũng có liên kết này.

•••• Liên kết giữa động từ và động từ : tồn tại liên kết giữa động từ ngoại động và một số

Chi tiết được giới thiệu trong phần phụ lục.

loại động từ khác:

Động từ ngoại động: VtVs+

•••• Liên kết giữa động từ và tính từ: Đây là liên kết quan trọng vì liên quan đến sự khác biệt

Động từ trạng thái: VtVs-

giữa tiếng Việt và nhiều ngôn ngữ khác. Tính từ tiếng Việt có cùng một hình thái khi đi

với danh từ và động từ, nhưng khi dịch sang ngôn ngữ khác như tiếng Anh, tính từ lại

biến đổi thành phó từ. Tên liên kết là VA. Liên kết VA- có với tính từ chỉ tính chất, tính

từ tượng hình, tượng thanh. Liên kết VA+ có ở hầu hết các loại động từ, chi tiết xem

phần phụ lục. (cid:1) Một số ngoại lệ

Một số động từ trạng thái (“yêu”, “nhớ”... ) và động từ tình thái (“mong”, “muốn”...)

có thêm kết nối với phụ từ chỉ mức độ (“rất”, “hơi”, “khá” ở bên trái hoặc “lắm”, “quá”

ở bên phải) qua các liên kết RlVm-, RlVs- và VmRl+, VsRl+.

Phụ từ chỉ mức độ có liên kết: RlVm+, RlVs+, VmRl-, VsRl-.

Ví dụ: Các liên kết của cụm từ “đang rất sợ” được mô tả trong hình 2.11

Hình 2.11. Liên kết trong cụm từ “đang rất sợ”

Liên kết của động từ “đi”, “xong”: Động từ “đi” trong tiếng Việt thường đi kèm với

động từ khácnhư: “đi học”, “đi chơi”, “ đi mua sắm”... Khi dịch sang tiếng Anh sẽ có

những biến đổi đặc biệt. Tương tự như vậy động từ “xong” đi kèm động từ khác, khi dịch

sang tiếng Anh sẽ chuyển sang thì hiện tại hoàn thành. Do vậy các động từ này được đưa

vào những mục riêng trong từ điển.

đi: DI+

học, làm, bơi, câu, chơi, mua sắm: DI-

Tương tự, động từ “xong” liên kết với động từ ngoại động như “làm”, “học”,

“cày”...với liên kết ĐT_XONG+. Động từ “xong” có liên kết ĐT_XONG-

2.1.4. Các liên kết cho tính từ

2.1.4.1 Liên kết cho tính từ làm vị ngữ

Theo [16], tính từ được chia thành 4 tiểu loại: tính từ chỉ tính chất, tính từ quan hệ, tính

từ tượng thanh và tính từ tượng hình. Cũng theo [16], trong các loại tính từ này chỉ có tính

từ chỉ tính chất là có thể đóng vai trò vị từ trực tiếp. Do vậy, loại tính từ này có kết nối

SA-. Trong trường hợp tính từ bổ nghĩa cho danh từ làm chủ ngữ, liên kết SA vẫn được

dùng. Khi phân tích một mệnh đề có cả liên kết SA và SV hay DT_LA, vị từ sẽ được chọn

là động từ .

Tính từ chỉ tính chất cũng có kết nối THT- or THS+ đến các từ để hỏi giống như động

từ.

Tương tự, chỉ có loại tính từ này đi sau phụ tố chỉ mức độ. Tuy nhiên, có một số loại

phụ tố không được dùng khi trước tính từ đã dùng phụ tố chỉ mức độ. Công thức liên kết

2.1.4.2. Xây dựng liên kết dựa trên cấu trúc tính ngữ

sẽ được xây dựng ở cuối mục này.

Xét về cấu trúc của tính ngữ, tất cả các tiểu loại tính từ đều có thể đóng vai trò chính tố

[28]. Liên kết được suy ra từ cấu trúc của các thành phần đứng trước hoặc sau chính tố

(cid:1)(cid:1)(cid:1)(cid:1) Thành tố phụ đứng trước tính từ

Theo [28], trước chính tố có thể có những loại phụ tố thời gian, mức độ, phủ định,

khẳng định, mệnh lệnh. Các phụ tố này được xây dựng từ các loại phụ từ tương ứng. Như

vậy tính từ sẽ có thêm các công thức liên kết sau:

{RtA- or RhA- or RpA- or RfA-} & @RcA-

RcA- & RmA-

{RnA-}& RaA-

Các phụ từ có liên kết bên phải tương ứng như RtA+, RhA+, RpA+, RfA+,

RnA+, RmA+, RcA+, RaA+.

(cid:1) Thành tố phụ đứng sau tính từ

Ở vị trí này có thể là những phụ tố do chính tố yêu cầu.

Phụ tố chỉ phạm vi: Phụ tố chỉ phạm vi chỉ đi kèm với tính từ chỉ tính chất. Phụ tố này

có thể là danh từ, động từ hoặc tính từ.

• Đi ngay sau tính từ, ví dụ “giàu kinh nghiệm”. Liên kết là AN.

• Đi kèm liên từ (“trong”) hoặc giới từ (“về”). Đây là những trường hợp đặc biệt với các

Nếu phụ tố là danh từ, có thể xảy ra hai trường hợp:

liên kết ApC, ApE

Phụ tố chỉ số lượng: liên quan đến đo lường, tính toán hay tiêu chuẩn đo lường tính toán

do danh từ đảm nhiệm. Liên kết được xác lập giữa tính từ và danh từ chỉ đơn vị đo: ApNt.

Ví dụ, liên kết trong cụm từ “sâu hai ngàn mét” được thể hiện trong hình 2.12 dưới đây

Phụ tố so sánh: Phụ tố này do tính từ so sánh đảm nhiệm. Ví dụ “đẹp hơn tiên”. Liên

kết giữa “đẹp” và “hơn” là liên kết ApAr.

Phụ tố miêu tả. Khi ấy hai tính từ đi liền nhau: “đẹp lộng lẫy”, “rộng thênh thang”...

Tính từ trước chỉ tính chất, tính từ sau thuộc tiểu loại quan hệ (tiểu tiểu loại so sánh)

Phụ tố này không xuất hiện cùng phụ tố chỉ mức độ ở bên trái hay phụ tố chỉ số lượng ở

bên phải, ví dụ không thể nói “rất rộng thênh thang”, “cao lênh khênh hai mét”

Hình 2.12. Liên kết trong cụm từ “ sâu hai ngàn mét”

Do vậy công thức liên kết trong trường hợp này cho chính tố là:

(RlAp- xor ApRl+) or (RlAp- xor ApAr+) or (ApAr+ xor ApNt+)

Tương tự như vậy, loại phụ tố chỉ mức độ có thể đi sau tính từ như “hết sức”, “vô cùng”

2.1.5. Liên kết các mệnh đề trong câu ghép đơn giản

Với những câu ghép gồm nhiều mệnh đề, cần phân tách để phân tích riêng từng mệnh

đề rồi kết hợp lại. Tuy nhiên với loại câu ghép hai mệnh đề, có thể sử dụng liên kết cho

chính các liên từ và các thành phần trong câu. Nòng cốt của câu ghép trong tiếng Việt được

chia thành hai loại: chính phụ và song song [28]. Việc xây dựng liên kết cho nòng cốt

ghép chính phụ đơn giản hơn. Các liên từ như: “bởi vì”, “nhưng”, “tuy nhiên” ... đều có kết

nối CL+ để nối đến mệnh đề đứng sau nó. Công thức liên kết của chúng như sau:

tuy nhiên, nhưng, nên, cho nên, bởi vì, vì: CL+

Kết nối CL được kết nối đến thành phần vị ngữ trong câu. Lý do để kết nối liên từ tới

thành phần vị ngữ mà không phải là thành phần chủ ngữ vì các mệnh đề sau liên từ đôi khi

không có chủ ngữ. Do đó các động từ và tính từ được thêm kết nối CL-.

Hầu hết các liên từ có thể đứng giữa hai mệnh đề. Để kết nối các liên từ này với mệnh

đề đứng trước, luận án thêm kết nối EV- cho các liên từ này. Cũng như kết nối CL+, kết

nối EV- sẽ kết nối với thành phần vị ngữ của mệnh đề đứng trước.

tuy nhiên, nhưng, nên, cho nên, bởi vì, vì: CL+ & EV-

Hình 2.13 dưới đây cho thấy một câu ghép hai mệnh đề chỉ hứa một liên từ “nhưng” .

Liên từ này liên kết với động từ “thích” của mệnh đề chính về bên trái với liên kết EV- và

với tính từ “đắt” ở bên phải với liên kết CL+

Hình 2.13. Liên kết câu ghép hai mệnh đề với liên từ ở giữa

Một số liên từ (“bởi vì”, “vì”, “sau khi”,…) còn có thể đứng đầu mệnh đề thứ nhất. Lúc

này ta dùng liên kết CO+ thay thế cho liên kết EV- để kết nối liên từ với mệnh đề thứ hai

(ta vẫn giữ kết nối CL+ để kết nối tới mệnh đề ngay sau liên từ). Ngoài ra còn có thể có

dấu phẩy đứng giữa hai mệnh đề. Để kết nối tới dấu phảy này các liên từ còn có thêm kết

nối PH+ và kết nối này là tuỳ chọn.

bởi vì, vì, dù: CL+ & {PH+} & (EV- or CO+)

Trong hình 2.14 là ví dụ một câu với liên từ đưng đầu mệnh đề thứ nhất, dấu phảy phân

cách hai mệnh đề. Phân tích cho thấy câu là đúng cú pháp. Ngoài những liên kết với danh

từ, động từ, tính từ, còn có các liên kết với liên từ “vì” và dấu phảy. Đó là các liên kết CO,

CL, PH, trong đó CO, CL liên kết liên từ “vì” với vị từ của hai mệnh đề, còn liên kết PH

nối liên từ “vì” với dấu phảy.

Hình 2.14. Liên kết của câu ghép hai mệnh đề với liên từ ở đầu và dấu phảy

Tương tự, với trường hợp câu ghép có cả liên từ ở đầu của hai mệnh đề (bởi vì … nên

…, mặc dù … tuy nhiên …), là những cặp liên từ có mối quan hệ với nhau. Trường hợp

này xử lý như sau: nối hai liên từ lại bằng liên kết QHT. Liên từ đứng đầu câu có kết nối

QHT+, liên từ đứng đầu mệnh đề hai có kết nối QHT-. Các liên từ vẫn kết nối với mệnh đề

sau nó bằng kết nối CL+.

Kết hợp với các kết nối đã xây dựng trên, ta có :

tuy nhiên, nhưng, nên, cho nên, bởi vì, vì: CL+ & (EV- or QHT-)

bởi vì, vì, dù: CL+ & {PH+} & (EV- or (CO+ or QHT+))

Hình 2.15. Liên kết trong câu ghép với liên từ có mặt trong cả hai mệnh đề

Trong hình 2.15, câu chứa hai liên từ có quan hệ với nhau “bởi vì” và “nên”. Liên kết

nối chúng là QHT.

Khi phân tích câu ghép theo giải thuật được nêu trong chương 3, bộ phân tích có thể lựa

chọn có hoặc không phân tích riêng từng mệnh đề với loại câu này.

2.2. Mở rộng từ điển văn phạm liên kết

Khởi đầu, một bộ từ điển với hơn 150 công thức lớn và hơn 1000 mục từ đã được luận

án xây dựng theo cách thủ công. Các từ xuất hiện trong từ điển được chia thành nhóm,

mỗi nhóm chứa cùng một loại từ, với cùng yêu cầu liên kết như trong hình 2.16 dưới đây:

Hình 2.16. Một đoạn trong từ điển văn phạm liên kết

Vì mô hình văn phạm liên kết lần đầu tiên được áp dụng để phân tích cú pháp tiếng

Việt, mọi công thức liên kết là do luận án đề xuất, bộ từ điển đầu tiên chỉ bó hẹp trong

những đoạn văn bản thử nghiệm. Để bộ phân tích có thể làm việc hiệu quả trên văn bản

tiếng Việt bất kỳ, luận án đã nghiên cứu mở rộng bộ từ điển văn phạm liên kết cho tiếng

Việt.

Trong toàn bộ các tài liệu được công bố trên website về văn phạm liên kết chỉ có hai tài

liệu đề cập đến xây dựng từ điển. Đó là bài báo của về xây dựng văn phạm liên kết tiếng

Nga của Protassov [132] và bài báo của Szolovits [113]. Phương pháp của [132] cho phép

tìm trong một bộ ngữ liệu lớn tiếng Nga để lọc ra những từ cần thiết cho một công thức

nào đó. Ví dụ, tìm các động từ đòi hỏi tạo cách (cách 5) bằng cách tìm tất cả các động từ

mà đi sau nó là một danh từ ở cách 5. Điều này dễ dàng hơn tiếng Việt rất nhiều vì động từ

cũng như danh từ cách 5 trong tiếng Nga có thể phân biệt nhờ hậu tố. Do vậy luận án đã

theo phương pháp của Szolovits sử dụng để thêm dần các từ lấy từ một hệ thống từ vựng

của y khoa vào từ điển văn phạm liên kết. Hệ thống từ vựng đó là UMLS Specialist

Lexicon chứa 235.197 mục từ (trong đó có 75.121 cụm từ ngắn - nói chung các cụm từ

cũng được xử lý như từ).

Mỗi mục từ của Specialist gồm các thông tin sau:

1. Từ loại (part of speech).

2. Sự phù hợp / mã biến tố (agreement / inflection code). Đại từ nhân xưng ngôi thứ

nhất, hai và ba, số ít và số nhiều, thì và phủ định (cho động từ, động từ khuyết thiếu và trợ

động từ); danh từ đếm được và không đếm được và các từ hạn định (determiner).

3. Bổ ngữ (complements). Một hệ thống phức tạp để mô tả các kiểu bổ ngữ cho động từ,

danh từ và tính từ, bao gồm các kiểu mẫu khác nhau của bổ ngữ, giới từ ...

4. Vị trí và biến thể (position and modification types) cho các kiểu tính từ và phó từ.

5. Đặc trưng khác.

Luận án đã sử dụng bộ từ điển gồm trên 40.000 từ tiếng Việt của đề tài KC 01.01/06-10

với thiết kế gồm các mô tả sau:

1. Hình thái (một hay nhiều hình vị)

2. Cú pháp

a. Loại từ

b. Loại con

c. Mẫu của động từ

3. Ngữ nghĩa

a. Ràng buộc logic

i. Ý nghĩa của loại

ii. Từ đông nghĩa

iii. Từ trái nghĩa

b. Ràng buộc ngữ nghĩa

i. Thành tố phụ

ii. Bổ ngữ trực tiếp

4. Định nghĩa (mô tả nghĩa của từ)

5. Ví dụ (một hoặc một số câu ví dụ mẫu sử dụng từ được mô tả)

Luận án xây dựng bộ từ điển văn phạm liên kết gồm trên 40.000 mục từ dựa trên giải

thuật mở rộng của [113] với cách đánh giá tính phân biệt được dựa trên các thông tin trong

từ điển tiếng Việt.

2.2.1. Giải thuật mở rộng từ điển

2.2.1.1 Ý tưởng của giải thuật

Szolovits [113] giả sử rằng w là một từ của từ vựng nguồn mà thông tin chưa được biết

trong từ vựng đích. Nếu có một từ x trong từ vựng nguồn là không phân biệt

(indiscernible) với w và nếu x có một định nghĩa từ vựng trong từ vựng đích thì gán định

nghĩa của x cho w là hợp lý.

Từ vựng nguồn được nói tới ở đây là các từ xuất hiện trong UMLS Specialist Lexicon,

còn từ vựng đích là từ vựng LP (Link grammar Parser), có cấu trúc tương tự như từ điển

văn phạm liên kết của luận án. Hai từ trong tử vựng nguồn là không phân biệt nếu chúng

2.2.1.2. Hình thức hóa ánh xạ

có cùng mô tả từ vựng.

Giả sử W là tập các nghĩa từ (từ - từ loại) trong từ vựng nguồn và V là tập các nghĩa từ

trong từ vựng đích.

Với mỗi w∈W, giả sử Xw= { x | x không phân biệt với w trong từ vựng nguồn }. Định

nghĩa

ν ν ⊥ công thức của trong từ vựng đích nếu định nghĩa được d (cid:20)(T) = U nếu ngược lại

Dw = { f(x) | x ∈ Xw, f(x) ≠ ⊥ } (Tập các định nghĩa trong từ vựng đích của các nghĩa

không phân biệt với w trong từ vựng nguồn).

Mục đích của giải thuật là liên hệ w với một trong các định nghĩa của Dw. Vấn đề đặt ra

là phải lựa chọn định nghĩa thích hợp nhất trong Dw.

Gọi I(d) = { v | f(v) = d } (tập định nghĩa trong từ vựng đích chia sẻ mô tả từ vựng d).

Với mỗi d ∈ , tính số nghĩa từ chung giữa I(d) và Xw và chọn định nghĩa cho giao lớn

ef nhất:

∈

jk || lh ∩ n(o)||

g(h) = argmaxi

Hình 2.17. chỉ ra sơ đồ cho giải thuật ánh xạ theo [113].

Hình 2.17. Ánh xạ trực cảm

2.2.2. Ứng dụng giải thuật mở rộng từ điển tiếng Việt

Với thông tin hạn chế của bộ từ điển tiếng Việt, luận án cũng định nghĩa hai nghĩa là

• Cùng loại từ (danh, động từ...)

• Cùng loại con

• Có cùng mẫu câu (với động từ)

không phân biệt nếu và chỉ nếu chúng có mô tả từ vựng hoàn toàn giống nhau như sau :

Dựa trên phương pháp trực cảm, quá trình mở rộng từ điển văn phạm liên kết như sau:

1. Duyệt lần lượt bộ dữ liệu từ điển tiếng Việt.Với mỗi từ tìm tập các từ không phân biệt

với nó.

2. Tìm trong tập hợp các từ không phân biệt đó những từ đã được định nghĩa trong bộ dữ

liệu từ điển văn phạm liên kết rồi đưa ra những công thức của các từ đó.

3. Duyệt từng công thức trong từ điển văn phạm liên kết hiện hành, công thức nào có số

lượng các từ không phân biệt được với từ cần định nghĩa lớn nhất thì công thức đó được

gán cho từ cần định nghĩa, và được thêm vào văn phạm.

Việc sử dụng giải thuật heuristic để xây dựng từ điển đã cho kết quả tốt với những loại

từ cơ bản: danh từ cụ thể, nội động từ, ngoại động từ, tính từ tính chất. Với những loại từ

khác, đặc biệt là từ chưa phân loại (loại “X”), cần chỉnh lại vị trí bằng tay. Ngoài ra còn

• Một từ có thể thuộc nhiều loại từ khác nhau. Cách giải quyết của luận án là đưa mỗi

phát sinh một số vấn đề khác:

nghĩa vào một mục khác nhau trong từ điển văn phạm liên kết. Điều đó sẽ dẫn đến

xuất hiện nhiều phân tích hơn cho mỗi câu do bộ phân tích liên kết xác định sai công

thức. Phần khử nhập nhằng của luận án sẽ giải quyết vấn đề này.

• Việc xác định từ không phân biệt đến tận loại con gây ra lỗi với loại phụ từ như

“đã”, “đang” vì trong từ điển tiếng Việt, chúng được xếp chung một mục nhưng

• Giống như [111], bộ phân tích bỏ qua các cảm từ, ví dụ “a ha”, “à ra thế”

trong từ điển tiếng liên kết, hai từ đó thuộc hai loại con khác nhau.

Sau khi có được bộ từ điển “thô”, công việc hiệu chỉnh bằng tay được thực hiện để

đưa ra một bộ từ điển văn phạm liên kết hoàn chỉnh.

2.2. Kết luận

Tóm lại, để xây dựng từ điển, luận án đã thực hiện qua các giai đoạn chính:

• Nghiên cứu bộ từ điển liên kết tiếng Anh, tìm ra những công thức liên kết có thể sử

1. Xây dựng các công thức liên kết

• Nghiên cứu ngữ pháp và từ pháp tiếng Việt để xây dựng các công thức liên kết cho

dụng cho tiếng Việt và bổ sung vào từ điển liên kết.

một số từ điển hình.

• Xem xét văn bản mẫu, lần lượt từng từ. Tra cứu từ điển liên kết để tìm xem từ đang

2. Gán công thức liên kết cho từ

xét đã tương ứng với công thức liên kết nào chưa, nếu chưa, thêm từ và công thức

• Duyệt từ điển tiếng Việt, gán mỗi từ cho một công thức trong từ điển theo giải

mới vào từ điển một cách thủ công.

thuật của Szolovits với định nghĩa các từ không phân biệt riêng cho tiếng Việt. Quy

• Quy trình xây dựng từ điển văn phạm liên kết tiếng Việt được mô tả trong hình

trình xây dựng từ điển có thể mô tả trong hình 2.18.

2.18.

Sau quá trình xây dựng và thử nghiệm, luận án đã xây dựng được một từ điển văn

phạm liên kết với trên 150 công thức lớn (mỗi công thức lớn bao gồm một hoặc nhiều

công thức con liên kết với nhau qua toán tử or hoặc xor) và 77 loại kết nối cho tất cả

các loại từ trong tiếng Việt. Để có được từ điển này, luận án đã tổng kết từ nhiều tài

liệu về ngữ pháp tiếng Việt, tham khảo cách xây dựng từ điển sử dụng trên máy tính

của nhiều nhóm nghiên cứu: VLSP, Hồ Ngọc Đức, Vdict... Từ điển của luận án đã đáp

ứng được yêu cầu phân tích các cấu trúc cơ bản và một số ngoại lệ thường gặp của

tiếng Việt.

Hình 2.18. Quy trình xây dựng từ điển văn phạm liên kết tiếng Việt

Do được xây dựng trong một thời gian ngắn (2009 - 2012), còn nhiều ngoại lệ của tiếng

Việt mà từ điển chưa bao quát hết được. So sánh với số lượng trên 1000 công thức lớn của

từ điển liên kết tiếng Anh sau 21 năm (1991 - 2012) liên tục cập nhật các ngoại lệ, số

lượng công thức của từ điển liên kết tiếng Việt còn nhỏ bé. Để phát triển thành một từ điển

đầy đủ, chắc chắn cần thử nghiệm bộ phân tích với bộ ngữ liệu thật rộng lớn và sự hỗ trợ

từ các nhà ngôn ngữ học.

CHƯƠNG 3

PHÂN TÍCH CÚ PHÁP TRÊN VĂN PHẠM LIÊN KẾT

3.1. Bộ phân tích cú pháp liên kết

3.1.1. Giải thuật phân tích cú pháp

Giải thuật phân tích câu trong văn phạm liên kết được [111] đưa ra dựa trên phương

pháp quy hoạch động. Giải thuật tìm cách xây dựng một phân tích liên kết theo phương

pháp từ trên xuống đảm bảo các tiêu chuẩn đã được nêu trong chương trước.

Khởi đầu, mục đích của giải thuật là tìm cách liên kết giữa từ đầu (từ thứ 0) và từ cuối

(từ thứ n). Thật ra các từ trong câu được đánh số từ 0 đến n-1. Từ thứ n là một từ “ảo” với

dạng tuyển (NIL)(NIL).

Một dạng tuyển d của từ nào đó sẽ có các con trỏ trỏ tới hai danh sách các kết nối. Các

con trỏ này được ký hiệu là left[d] và right[d]. Nếu c là một kết nối, thì next[c] ký hiệu kết

nối tiếp sau c trong danh sách của nó. Trường next của con trỏ cuối cùng trong danh sách

có giá trị bằng NIL. Hình 3.1 dưới đây mô tả hoạt động của bộ phân tích sau khi xem xét

kết nối l’ trên từ L và một kết nối r’ trên từ R. l là next[l’] và r là next[r’].

Hình 3.1. Giải thuật phân tích

Việc mở rộng lời giải cục bộ cho vùng nằm giữa L và R được thực hiện bằng cách xem

xét lần lượt các từ W trong phạm vi giữa L và R được mô tả trong hình 3.2 dưới đây.

Hình 3.2. Lời giải cục bộ

Dưới đây là giải thuật phân tích cú pháp của [111]. Hàm COUNT cho tổng số các

phương án có thể tạo ra kết nối.

PARSE t ← 0 for each dạng tuyển d của từ 0 do if left [d] = NIL then t ← t + COUNT(0, n, right [d], NIL) return t

Hình 3.3. Giải thuật phân tích cú pháp liên kết

Hàm COUNT [111] được mô tả như trong hình 3.4.dưới đây:

COUNT(L, R, l, r)

if L = R + 1

then if l = NIL and r = NIL

then return 1

else return 0

else total ← 0

for W ← L + 1 to R - 1

do for each dạng tuyển d của từ W

do if l ≠ NIL and left[d] ≠ NIL and MATCH(l,left[d])

then leftcount ← COUNT(L, W, next[l], next[left[d]])

else leftcount ← 0

if right[d] ≠ NIL and r ≠ NIL and MATCH(right[d],r))

then rightcount ← COUNT(W, R, next[right[d], next[r])

else rightcount ← 0

total ← total + leftcount * rightcount

if leftcount > 0

then total ← total + leftcount *COUNT(W, R, right[d], r)

if (rightcount > 0 and l = NIL

then total ← total + rightcount * COUNT(L, W, l, left[d])

return total

Hình 3.4.Hàm COUNT cho số phân tích của câu.

Hàm COUNT nhận các đầu vào là hai từ L và R và một cặp hai con trỏ tới các danh

sách kết nối: l trỏ đến một kết nối thuộc danh sách bên phải của một dạng tuyển của L và r

trỏ đến một kết nối thuộc danh sách bên trái của một dạng tuyển của R. COUNT trả ra một

số, đó là số cách vẽ các kết nối các từ từ L đến từ R, với các kết nối thuộc danh sách trỏ

bởi l và r.

Kết quả tính được của hàm COUNT tại mỗi lần được gọi được chứa vào một mảng

băm (ngay trước khi trả về). Trong lần sau, kết quả tính được ở lần trước được tra trong bảng băm. Vì có bảng băm lưu lại kết quả, chi phí thời gian chạy là O(c2d) với d là số các

dạng tuyển và c là số các kết nối. Với một văn phạm xác định, d = O(n) và c = O(n), vậy thời gian chạy là O(n3).

3.1.2. Lược tỉa

Với các công thức được trình bày ở chương 3, để bao quát các hiện tượng cú pháp tiếng

Việt, số lượng dạng tuyển phải xét là rất lớn. Tuy nhiên phần lớn các dạng tuyển là không

được sử dụng vì chúng chứa các kết nối không khớp với một kết nối nào của một từ nào

trong câu. Cụ thể, giả sử một từ W có dạng tuyển d với kết nối C ở danh sách bên phải.

Nếu không có từ nào bên phải W có một kết nối bên trái khớp với C, thì dạng tuyển d

không thể nằm trong một phân tích đúng nào. Do đó, dạng tuyển này có thể xoá mà không

làm thay đổi kết quả phân tích liên kết. Việc xoá dạng tuyển đó được gọi là bước lược tỉa

[111].

Quá trình lược tỉa được chia làm hai bước: lược tỉa và lược tỉa mạnh.

Lược tỉa

Duyệt tuần tự qua các từ trong câu lần lượt từ trái qua phải rồi từ phải qua trái và cứ tiếp

tục như vậy đến khi không loại bỏ được dạng tuyển nào nữa.

Giả sử từ thứ m trong câu đang được xét. Tập S các kết nối thuộc danh sách phải trong

dạng tuyển của các từ thứ 1,…, m – 1 được lưu trữ trong một bảng băm, với hàm băm sử

dụng các chữ cái viết hoa ban đầu của tên kết nối. Do vậy sẽ tiết kiệm được nhiều thời gian

tìm kiếm kết nối khớp với nó.

Thực tế quá trình phân tích cú pháp được [111] cho thấy chưa bao giờ cần nhiều hơn

năm lần duyệt để kết thúc quá trình lược tỉa.

Lược tỉa mạnh

Gọi một kết nối là nông nếu nó là kết nối đầu tiên trong danh sách các kết nối của nó.

Ngược lại kết nối là sâu. Lược tỉa mạnh dựa trên những tiêu chí sau:

1. Tiêu chí từ gần nhất phải được thoả mãn cho cả hai kết nối tạo thành liên kết.

2. Không thể có liên kết giữa hai kết nối sâu.

3. Hai kết nối của một liên kết giữa hai từ cạnh nhau phải là kết nối cuối cùng trong

danh sách của chúng.

4. Hai kết nối của một liên kết giữa hai từ không cạnh nhau không thể đồng thời là kết

nối cuối cùng trong danh sách của chúng (Trừ trường hợp kết nối lớn).

Lược tỉa trên cây biểu thức

Dù theo [111], sau khi xây dựng tất cả các dạng tuyển mới bắt đầu lược tỉa, luận án đã

chọn cách làm của các bộ phân tích liên kết tiếng Anh [137], đó là xây dựng cây biểu diễn

công thức liên kết của mỗi từ, sau đó lược tỉa trên cây trước khi xây dựng các dạng tuyển.

Cách xử lý này cho phép thực hiện nhanh hơn rất nhiều so với cách thức được giới thiệu

trong [111].

Nếu coi tên kết nối là các toán hạng, các phép &, or, xor là các toán tử thì công thức liên

kết có cấu trúc giống biểu thức số học ({X} được chuyển thành X or()). Hình 3.5.dưới đây

mô tả một cây biểu diễn công thức liên kết:

Hình 3.5. Cây cho công thức (NN- &{NN+}) or ({PqNt-} & {NN+})

Khi duyệt liên kết của các từ để lược tỉa như đã giới thiệu ở chương 4, nếu thấy một kết

• Nếu một nút con của nút nhãn “&” bị xóa thì xóa bỏ nút đó.

• Nếu nút nhãn “or” “xor” không còn nút con thì loại bỏ nút đó.

nối không khớp với kết nối nào ở bên phải, ta sẽ loại các nút ở cây theo các luật sau:

Ngoài ra cần áp dụng ba luật sau một cách tuần tự.

1. Nếu có nhiều hơn một nút nhãn “( )” là nút con của nút nào đó thì chỉ giữ lại một nút.

2. Nếu nút nhãn “&” có nhiều hơn một nút con trong đó có nút nhãn “( )” thì nó sẽ bị loại

bỏ khỏi cây.

3. Nếu một nút có nhãn “&” hoặc “or” , “xor” chỉ chứa một nút con thì thay nhãn của nó

bằng nhãn của nút con.

Tất nhiên quy trình vẫn thực hiện theo thứ tự trái → phải rồi phải → trái v.v… Kết quả

nhận được giống như kết quả của hai bước lược tỉa và lược tỉa mạnh nhưng tốc độ thực

hiện nhanh hơn nhiều.

Hiệu quả lược tỉa trong tiếng Việt

Do tiếng Việt không biến đổi hình thái, thì, thể, số ... đều được thể hiện bằng cách thêm

từ nên số dạng tuyển ban đầu của mỗi từ, đặc biệt là danh từ và động từ lớn hơn nhiều so

với tiếng Anh. Tuy nhiên các giải thuật lược tỉa đạt hiệu quả rất tốt: sau hai quá trình lược

tỉa và lược tỉa mạnh, số lượng dạng tuyển chỉ còn tương đương tiếng Anh, và cũng không

có câu nào trong tập ví dụ của luận án cần đến 5 lần lược tỉa.

Hình 3.6. Số lượng dạng tuyển sau lược tỉa và lược tỉa mạnh

Trong hình 3.6. là hình ảnh kết quả lược tỉa do bộ phân tích thực hiện với câu “chúng

tôi muốn giành các danh hiệu”.

3.1.3. Kết quả thử nghiệm phân tích câu đơn và câu ghép đơn giản

Bộ phân tích cú pháp liên kết được xây dựng bằng Java, làm việc trên môi trường

Windows. Để thử nghiệm bộ phân tích cú pháp theo mô hình [111], luận án đã thu thập

200 câu, điển hình cho các dạng khác nhau từ các bài báo trên mạng Internet về một số

chủ đề: hội thoại tiếng Việt, khoa học thường thức, thể thao, du lịch. Dưới đây là kết quả

thực hiện chương trình với câu “Chúng tôi muốn giành các danh hiệu”

Hình 3.7. Kêt quả phân tích liên kết của câu “Chúng tôi muốn giành các danh hiệu”

Một số câu có thể không phân tích được đầy đủ, một phần của nó cũng được phân tích.

Ví dụ trong hình 3.8. là phân tích cho câu “Mỗi một mùa trắng tay đều khó nuốt trôi”.

Câu này là câu bị động nhưng ẩn từ. Những liên kết xây dựng được vẫn được hiển thị dù

kết quả là câu sai cú pháp.

Hình 3.8. Kêt quả phân tích liên kết của câu “Mỗi một mùa trắng tay đều khó nuốt trôi”

Để đánh giá kết quả phân tích, khi chưa có bộ ngữ liệu mẫu, 200 câu mẫu được phân

tích và chỉnh sửa bằng tay và lưu trữ thành ngân hàng phân tích. Với câu “Phần lớn bọ

ngựa ăn côn trùng” và kết quả phân tích trong hình 3.9 dưới đây:

Hình 3.9. Kết quả phân tích liên kết của câu “Phần lớn bọ ngựa ăn côn trùng”

Kết quả phân tích được lưu trữ lại dưới dạng tương tự như trong [94]:

Công việc này đòi hỏi khá nhiều công sức, đặc biệt với những câu trong các bài báo

viết, do vậy, luận án mới chỉ tạo lập được bộ ngữ liệu nhỏ. Chi tiết về bộ ngữ liệu như sau:

Bảng 3.1. Chi tiết bộ ngữ liệu mẫu cho bộ phân tích cú pháp liên kết

Số từ trung

STT

Chủ đề

Số câu

bình/câu

Hội thoại tiếng Việt

7.6

Thể thao

12.7

Khoa học thường thức

8.7

Du lịch

10.5

Tổng cộng

200

Theo [94]. bộ phân tích cú pháp được đánh giá theo các tiêu chí:

Độ phủ (recall) là tỷ số giữa số lượng các thành phần/cấu trúc/quan hệ

(chunks/constituents/relations - CCR) do bộ phân tích cú pháp trả ra phù hợp với CCR mẫu

và tổng số lượng các CCR trong tập mẫu có chú giải.

Độ chính xác (precision) là tỷ lệ giữa số lượng các CCR phù hợp do bộ phân tích cú

pháp trả ra và tổng số CCR nhận được từ bộ phân tích cú pháp. CCR ở đây chính là các

liên kết. Kết quả đạt được như trong bảng 3.2 dưới đây

Bảng 3.2. Kết quả phân tích liên kết cho các tập mẫu

Tập mẫu

Độ chính xác

Độ phủ

25.7%

45.1%

15.6%

28.4%

18.5%

33.5%

20.8%

30.2%

Trung bình

20.1%

34.3%

Trong số các tập mẫu này, tập câu hội thoại đạt được độ chính xác cao nhất vì chứa

những mẫu câu cơ bản của tiếng Việt, dễ dàng thỏa mãn các kết nối của cú pháp liên kết.

Tập mẫu về khoa học thường thức đạt tỷ lệ cao thứ hai vì nói chung các câu được dịch từ

văn bản nước ngoài, cấu trúc câu khá đơn giản. Tập mẫu về du lịch lấy từ một số quảng

cáo tour du lịch do người Việt viết nhưng cấu trúc cũng dễ hiểu, dễ phân tích. Trong các

tập mẫu, tập mẫu câu thể thao, chủ yếu cũng là dịch từ tiếng Anh, nhưng văn phong khá

trúc trắc, nhiều câu có sự hoán đổi thứ tự hoặc thiếu một số bộ phận nên kết quả đạt thấp

nhất.

Có thể thấy những dạng câu phân tích không thành công là những câu ghép hoặc những

câu đơn có sự thay đổi vị trí các thành phần hay có một số thành phần ẩn.

3.2. Phân tích cú pháp cho câu ghép

Việc phân tích cú pháp câu nhiều nòng cốt phức tạp hơn nhiều so với câu đơn. Với

những loại câu gồm hai nòng cốt trở lên, tiếng Anh phân loại theo mối quan hệ giữa hai

mệnh đề. Nếu mối quan hệ là song song (dùng các liên từ “and”, “or”, “not only… but

also”. . .), câu được gọi là “câu ghép” (compound sentence). Nếu các mối liên hệ có tính

chất chính-phụ (dùng các liên từ “if”, “then”, “because”... ), câu được gọi là “câu phức

hợp” (complex sentence). Câu ghép phức hợp (complex-compound sentence) phức tạp hơn

nhiều khi chứa ít nhất hai mệnh đề song song và ít nhất một mệnh đề phụ. Phân loại câu

tiếng Việt có chút khác biệt so với tiếng Anh. Diệp Quang Ban [1] phân biệt câu ghép là

câu chứa từ hai nòng cốt trở lên, trong đó không nòng cốt nào bao nòng cốt khác và câu

phức chứa hai nòng cốt trở lên nhưng tồn tại một nòng cốt bao các nòng cốt còn lại. Ví dụ,

câu “Tôi đang đứng chờ xe thì một cậu bạn chạy đến” được xếp vào loại câu ghép trong

khi câu “Con mèo tôi mua chạy mất rồi” được xếp vào loại câu phức. Việc phân định ranh

giới mệnh đề trong câu phức có thể đòi hỏi một bộ ngữ liệu lớn với phương pháp học máy

nên chưa được đề cập đến trong luận án.

Theo quan điểm của Diệp Quang Ban [1], Nguyễn Chí Hòa [9], Trần Ngọc Thêm [23],

mệnh đề là đơn vị nhỏ nhất (nguyên tố) của văn bản, câu ghép được xây dựng nên từ các

“khối”, mỗi “khối” là một mệnh đề. Nòng cốt ghép có thể là song song với hai hay nhiều

vế, cũng có thể là qua lại (chính phụ) với đúng hai vế [23], [28]. Những kết luận này hoàn

toàn phù hợp với lý thuyết cấu trúc diễn ngôn.

Đối với mô hình văn phạm phi ngữ cảnh truyền thống, mệnh đề phụ trong câu ghép có

thể được sản sinh từ ký hiệu không kết thúc đặc biệt SBAR của văn phạm. Với một tập luật

rất lớn, việc nhập nhằng về giới hạn của mệnh đề rất thường xảy ra. Cũng do tập ký hiệu

không kết thúc lớn, cây phân tích cho câu ghép nhiều mệnh đề rất phức tạp. Điều đó sẽ ảnh

hưởng đến tốc độ và kết quả của các xử lý khác như phân loại văn bản, tóm tắt văn bản,

dịch máy - những bài toán xử lý dựa trên cấu trúc cú pháp của câu.

Các bộ phân tích cú pháp theo mô hình phụ thuộc chia câu ghép, câu phức thành các

mệnh đề, phân tích cú pháp riêng từng mệnh đề rồi tìm mối quan hệ phụ thuộc giữa các

mệnh đề để đưa ra phân tích tổng thể. Nhiều nghiên cứu về phân tích cú pháp câu ghép,

câu phức trên văn phạm phụ thuộc tập trung vào dạng câu ghép, câu phức chính - phụ như

của nhóm Ohno [99] , nhóm Utsuro [125] cho tiếng Nhật, Sang Soo Kim [74] cho tiếng

Hàn. Quan hệ phụ thuộc giữa mệnh đề chính và mệnh đề phụ được xác định bởi các nhà

ngôn ngữ học. Tuy nhiên không phải mô hình văn phạm phụ thuộc nào cũng cho phép thể

hiện mối liên hệ giữa các mệnh đề, đặc biệt với câu ghép song song. Nhiều mở rộng của

mô hình phụ thuộc đã được xây dựng như trong [65], [75] để biểu diễn cấu trúc của câu

nhiều nòng cốt, tuy nhiên những biểu diễn đó trở nên khá phức tạp.

Vấn đề phân tích câu ghép cũng đã được Sleator và Temperley [111] đề cập đến. Điểm

đặc biệt của bộ phân tích cú pháp liên kết là có thể phân tích một số dạng câu ghép chính

phụ thông qua một số liên kết đặc biệt như CO (liên kết giữa thành phần gợi mở và chủ

ngữ của mệnh đề đứng sau), CC (liên kết các mệnh đề với liên từ kết hợp)... được xác lập

cho các liên từ như “because”, “although”, “but”... Bộ phân tích cú pháp của luận án

(được nói đến ở mục trước) cũng nhận được kết quả tương tự cho tiếng Việt. Tuy nhiên với

loại câu ghép có nhiều mệnh đề, quan hệ phức tạp như “Nếu cán bộ, công chức được

tuyển dụng lại vào làm việc ở cơ quan, đơn vị cũ, thì thời gian thực tế học tập theo chương

trình đào tạo (ghi trên chứng chỉ hoặc bằng đào tạo được cấp) được tính vào thời gian xét

nâng bậc lương thường xuyên”, bộ phân tích cú pháp liên kết không thực hiện được. Đó là

vì các yêu cầu kết nối không chỉ ra được quan hệ giữa giữa các mệnh đề trong câu. Hơn

nữa, việc chỉ sử dụng liên kết đơn thuần của liên từ sẽ đòi hỏi thời gian tính toán rất lớn.

Nếu phân tích riêng từng mệnh đề của câu ghép rồi tổ hợp lại thành một phân tích tổng thể,

những vấn đề nói trên có thể giải quyết được.

Lý thuyết cấu trúc diễn ngôn (Rhetorical Structure Theory) do Mann và Thompson

[86] đưa ra, cho phép biểu diễn mối liên hệ giữa các thành phần trong một văn bản dưới

dạng cây với lá là các mệnh đề. Điểm mấu chốt của lý thuyết cấu trúc diễn ngôn là những

tiên đề về cấu trúc văn bản được Marcu nêu ra trong [89]:

Mọi văn bản có thể phân chia thành một dãy không giao nhau của các đơn vị văn bản

nguyên tố và một cây cấu trúc diễn ngôn được liên hệ với văn bản thỏa mãn các điều kiện

• Tồn tại ánh xạ 1-1 giữa các lá của cây và các đơn vị văn bản nguyên tố

• Cây tuân theo một tập ràng buộc có thể suy ra từ ngữ nghĩa và thực tế sử dụng các

đơn vị nguyên tố cũng như các quan hệ giữa các đơn vị đó.Từ các ràng buộc có thể

suy ra mối quan hệ diễn ngôn giữa các đơn vị văn bản có kích thước khác nhau.

• Quan hệ được sử dụng để nối các đơn vị văn bản được chia thành hai loại: đẳng

lập và phụ thuộc cú pháp.

Nghiên cứu về cấu trúc diễn ngôn của văn bản tiếng Việt cũng được nhiều nhà ngôn

ngữ học nổi tiếng quan tâm. Luận án đã sử dụng các kết quả về ngôn ngữ học của Nguyễn

Chí Hòa [9], Trần Ngọc Thêm [23] để xây dựng bộ phân tích diễn ngôn cho văn bản tiếng

Việt. Với bộ ngữ liệu thử nghiệm gồm 5 bài báo trên các website www.vnn.vn,

www.vnexpress.net, www.dantri.com.vn đã được các chuyên gia ngôn ngữ phân tích, độ

chính xác đạt được như sau:

Bảng 3.3. Kết quả thử nghiệm bộ phân tích diễn ngôn (chưa kết hợp phân tích cú pháp)

Văn bản

Số mệnh

Số đơn vị

Tỷ lệ %

Số đoạn

Số câu

Số quan hệ

test

đề

nguyên tố

đúng

64.27%

58.43%

62.78%

59.20%

95.09%

Tính trên toàn văn bản (bao gồm cả mức câu, đoạn, mục), bộ phân tích diễn ngôn cho

độ chính xác là 63%. Ở mức câu, độ chính xác đạt được xấp xỉ 80%. Xuất phát từ đặc điểm

của câu ghép tiếng Việt là hầu hết các giới hạn mệnh đề có thể phát hiện nhờ dấu hiệu diễn

ngôn kết hợp với một số đặc trưng cú pháp, luận án đã cải tiến giải thuật phân đoạn diễn

ngôn ở mức câu để tách câu ghép thành các mệnh đề, sau đó xây dựng cây diễn ngôn của

câu. Các mệnh đề sẽ được phân tích cú pháp riêng và quan hệ diễn ngôn giữa các mệnh đề

sẽ được chuyên thành các kết nối lớn trong văn phạm liên kết thành một phân tích hoàn

chỉnh cho toàn bộ câu. Điều này là khả thi vì đối với mô hình văn phạm liên kết, yêu cầu

về liên kết chỉ xác định hướng liên kết, nên không cần những đánh giá quá phức tạp về

quan hệ phụ thuộc. Do phạm vi phân tích là câu ghép nên giới hạn của các mệnh đề khá rõ

ràng. Luận án đã sử dụng tên của 18 mối quan hệ diễn ngôn giữa các mệnh đề được [1] và

[9] nêu ra làm tên kết nối. Các kết nối này mang tính chất kết nối lớn vì chúng liên kết các

cụm từ với nhau. Chúng được xây dựng giữa các cặp mệnh đề dựa theo cây diễn ngôn của

câu. Hình 3.10 cho thấy cây diễn ngôn của câu “Trời mưa rất to và gió rất mạnh nên tôi

phải nghỉ học, mẹ tôi phải nghỉ làm”. Câu này có 4 mệnh đề ký hiệu A1, B1, C1, D1. Các

quan hệ diễn ngôn: nguyên nhân, kết hợp, liệt kê được chuyển thành kết nối. Kết nối giữa

• Mỗi kết nối phải nối hai từ

• Phân tích liên kết của câu phải thỏa mãn các tính chất của văn phạm liên kết: tính

các mệnh đề vẫn phải thỏa mãn các yêu cầu sau:

•

phẳng, tính liên thông, tinh thứ tự cũng như tính thỏa mãn, tính loại trừ.

Hình 3.10. Cây phân tích diễn ngôn của câu “[trời mưa rất to vàA1]

[gió rất mạnh nênB1] [tôi phải nghỉ học,C1] [mẹ tôi phải nghỉ làm.D1]”

Để đảm bảo tính phẳng, nghĩa là các liên kết không được giao nhau khi vẽ bên trên các

từ, cần chọn ra trong mỗi mệnh đề một từ đại diện để liên kết. Mỗi từ trong mệnh đề sẽ

được gắn với một trọng số (bậc). Từ có trọng số nhỏ nhất ứng với liên kết cao nhất sẽ được

chọn đại diện cho mệnh đề.

• Phân đoạn diễn ngôn

• Phân tích cú pháp cho từng mệnh đề, thêm các liên kết nhận được vào liên kết tổng

Như vậy, quá trình phân tích cú pháp cho câu ghép cần qua những bước sau:

• Xây dựng cây phân tích diễn ngôn cho câu.

• Duyệt cây phân tích diễn ngôn theo thứ tự sau, thêm các kết nối ứng với từng quan

thể.

hệ diễn ngôn.

3.2.1. Xây dựng cây diễn ngôn

3.2.1.1.Phân đoạn diễn ngôn

Đoạn văn bản nhỏ nhất mà giữa chúng tồn tại các quan hệ diễn ngôn được gọi là Đơn vị

diễn ngôn nguyên tố (Elementary Discourse Units - EDU). EDU có thể là một mệnh đề

hoặc tựa mệnh đề.

Luận án cải tiến giải thuật của Marcu [89] để phân đoạn diễn ngôn. Dấu hiệu để phân

chia văn bản thành các đoạn nguyên tố về cơ bản khá giống với tiếng Anh. Bảng 3.3. dưới

đây cho phép xác định các dấu hiệu diễn ngôn tiềm tàng trong văn bản cần phân tích.

Bảng 3.4. Các biểu thức chính quy biểu diễn một số dấu hiệu diễn ngôn tiềm tàng

Dấu hiệu Mặc dù Bởi vì Nhưng Mặt khác Còn DẤU_PHẨY MỞ_NGOẶC ĐÓNG_NGOẶC GẠCH_NGANG HẾT_CÂU

Cách nhận biết [\s\t\n]Mặc dù(\s|\t|\n] [\s\t\n]bởi vì(\s|\t|n) [,][\s\t\n]nhưng(\s|\t|\n) [,][\s\t\n]mặt khác(\s|\t|\n) [\s\t\n][,] còn (\s|\t|\n) ,[\s|\t|\n) [,][\s\t\n]+( )(\s|\t|\n) [,][\s\t\n]+--(\s|\t|\n) (“.”)|(“?”)|(“!”)

Giải thuật phân đoạn diễn ngôn [89] cho phép đọc toàn bộ các dấu hiệu diễn ngôn của

văn bản, mỗi dấu hiệu tương ứng với một trong 10 hành động NOTHING, NORMAL,

NORMAL_THEN_COMMA, COMMA, END, MATCH_PAREN, COMMA_PAREN,

MATCH_DASH, SET_AND, SET_OR. Sau đây là mô tả của một số hành động thường

• Hành động NOTHING ra lệnh cho bộ phân tích xử lý cụm từ gợi ý được xét như là một

gặp nhất:

từ đơn. Điều đó có nghĩa là không có giới hạn đơn vị văn bản nào được xác lập khi một

• Hành động NORMAL ra lệnh cho bộ phân tích thêm một giới hạn văn bản ngay trước

cụm từ gợi ý với những hành động đó được xử lý.

xuất hiện của dấu hiệu. Các dấu hiệu văn bản tương ứng với biên giới giữa các đơn vị

• Hành động COMMA ra lệnh cho bộ phân tích thêm một giới hạn văn bản ngay sau

văn bản nguyên tố.

xuất hiện của dấu phảy đầu tiên của xâu vào. Nếu dấu phảy đầu tiên có “và” hoặc

“hoặc” đi ngay sau, biên của văn bản được đặt sau xuất hiện của dấu phảy tiếp sau.

Nếu không tìm thấy dấu phảy nào trước khi kết thúc câu, một giới hạn văn bản được

• Hành động NORMAL_THEN_COMMA ra lệnh cho bộ phân tích thêm một giới hạn

thiết lập tại điểm cuối của câu.

văn bản ngay trước xuất hiện của dấu hiệu và một giới hạn văn bản khác ngay sau xuất

hiện của dấu phảy đầu tiên trên văn bản vào. Nếu dấu phảy đầu tiên được nối tiếp bởi

“và” hoặc “hoặc “, việc xử lý cũng như trong hành động COMMA.

Dựa trên giải thuật của Marcu [89], luận án phân đoạn văn bản tiếng Việt với các hành

động: COMMA, NORMAL, NOTHING, NORMAL_THEN_COMMA, END, SET_

AND, SET_OR, MATCH_PAREN, COMMA_PAREN, MATCH_DASH, PH.

Sau khi đã xây dựng được bộ phân tích cú pháp trên văn phạm liên kết cho câu đơn,

luận án đã sử dụng công cụ này để giải quyết triệt để hơn vấn đề nhập nhằng với từ “và”.

Bảng 3.5 dưới đây đưa ra một số dấu hiệu diễn ngôn phổ biến trong tiếng Việt và hành

động xử lý tương ứng cho dấu hiệu diễn ngôn đó. Trong một số trường hợp, hành động xử

lý của dấu hiệu sẽ không được dùng đến khi dấu hiệu được xử lý bởi hành động dấu hiệu

diễn ngôn đi trước, chẳng hạn trong câu “Mặc dù nó không có tiền, nó cư tiêu xài hoang

phí”, dấu phảy được xử lý bởi hành động COMMA của dấu hiệu “mặc dù”.

Bảng 3.5. Hành động ứng với một số dấu hiệu diễn ngôn

Dấu hiệu mặc dù bởi vì nhưng và vì nên Dấu phẩy Mở ngoặc Đóng ngoặc Gạch ngang Hết câu

Vị trí B (Đầu câu) B M (Giữa câu) M B M M M E (Cuối câu) B E

Hành động COMMA DUAL NORMAL NORMAL_THEN_COMMA DUAL NORMAL PH MATCH_PAREN NOTHING MATCH_DASH NOTHING

Hành động NORMAL_THEN_COMMA, được liên hệ với từ “và”.Tư tưởng xử lý của

luận án khi bộ phân đoạn diễn ngôn gặp từ “và” như sau:

Đọc dấu hiệu tiếp theo. Thêm một giới hạn văn bản sau dấu hiệu tiếp theo. Nếu câu

được đọc hết, dấu hiệu biên của văn bản được đặt ở cuối câu. Tiến hành phân tích bằng văn

phạm liên kết với cụm từ trước và sau từ “và”.

Nếu cả hai cụm từ nhận được: từ đầu văn bản đang xét đến trước từ “và” và từ đứng sau

từ “và” đến trước dấu hệu diễn ngôn tiếp theo đều là các mệnh đề thì từ “và” có vai trò

diễn ngôn trong câu. Thêm một giới hạn văn bản sau dấu hiệu “và”.Ngược lại từ “và” là

liên từ các thành phần câu nên bỏ qua.

Xử lý của hành động NORMAL_THEN_COMMA, hành động gắn với từ “và” như

trong giải thuật được nêu sau này.

Dấu phảy cần xử lý phức tạp hơn.Trong [89], dấu phảy do bộ phân tích diễn ngôn xử lý

trong hai hành động COMMA và NORMAL_THEN_COMMA xử lý, các trường hợp khác

bị bỏ qua. Nay luận án xử lý thêm một số trường hợp khác. Khi gặp dấu phảy, dù cụm từ

đang xét là mệnh đề đúng cú pháp, chưa chắc giới hạn văn bản đã được thêm ngay sau dấu

phảy. Cần xem xét xem dấu hiệu ở sau cụm đó có là dấu phảy không. Nếu là dấu phảy thì

giới hạn văn bản sẽ được điền sau dấu hiệu đầu tiên khác dấu phảy. Ví dụ trong câu”tôi

mua nhiêu đồ chơi, bánh, kẹo để con tôi tặng các bạn”, giới hạn văn bản phải được thêm

vào sau từ “kẹo” thay vì thêm sau từ “đồ chơi”, dù cụm từ “tôi mua nhiều đồ chơi” đã là

một mệnh đề hoàn chỉnh. Công việc này được thực hiện bởi hành động PH gắn với dấu

phảy.

Dưới đây là toàn bộ giải thuật phân đoạn diễn ngôn. Đầu vào của giải thuật bao gồm câu

cần phân tích và mảng các dấu hiệu diễn ngôn trong câu. Đầu ra của giải thuật là câu đưa

vào được điền thêm các cặp [] để chỉ giới hạn của mệnh đề. Trong giải thuật này, luận án

đã chỉnh sửa hành động NORMAL_THEN_COMMA và thêm hành động PH để xử lý

nhập nhằng với “và”, “hoặc” và dấu phảy. Những xử lý khác theo [89].

Vào: Câu S Mảng của n dấu hiệu diễn ngôn tiềm tàng có thế xuất hiện trong S: marker[n] Ra: Các đơn vị tựa mệnh đề của S Phương pháp: //Những đoạn in nghiêng là xử lý do luận án đề xuất { status := nil; clauses := nil; parentheticals := nil; currClauseStart := 1; currParentStart := 1; for i from 1 to n // Xử lý trường hợp có lưu lại status { if MATCH_PAREN ∈∈∈∈ status if markerTextEqual(i,”)”) { parentheticals:= parentheticals ∪∪∪∪ textFromTo(currParentStart,offset(i)); status := status \ {MATCH_PAREN};

currParentStart := -1; continue;

currClauseStart := i-1; setDiscourse(i-1,yes);setDiscourse(i,yes); parentheticals := nil; status := status \ {SET_AND};

} if MATCH_DASH ∈∈∈∈ status if makerTextEqual(i,”-”) { parentheticals := parentheticals ∪∪∪∪ textFromTo(currParentstart,offset(i)); status := status \ {MATCH_DASH}; currParentStart := -1; continue; } if COMMA_PAREN ∈∈∈∈ status if markerTextEqual(i,”,”) && NextAdjacentMarkerisNotAnd()&& NextAdjacentMarkerIsNotOr() { parentheticals := parentheticals ∪∪∪∪ textFromTo(currParentStart,offset(i)); status := status \ {COMMA_PAREN}; currParentStart := -1; continue; } if COMMA ∈∈∈∈ status^markerTextEqual(i,”,”) ^ NextAdjacentMarkerisNotAnd()^ NextAdjacentMarkerIsNotOr() { clauses := clauses ∪∪∪∪ textFromTo(currClauseStart,offset(i),parentheticals); currClauseStart := i; status := status \ {COMMA}; parentheticals := nil; currParentStart := -1; continue; } if SET_AND ∈∈∈∈ status if markerAdjacent(i-1,i) ^ currClauseStart < i-1 { clauses:= clauses ∪∪∪∪textFromTo(currClauseStart,offset(i-1),parentheticals); } if SET_OR ∈∈∈∈ status if markerAdjacent(i-1,i) ^ currClauseStart < i-1 { clauses:=clauses ∪∪∪∪textFromTo(currClausesStart,offset(i-1),parentheticals); currClausesStart := i-1; setDiscourse(i-1,yes); setDiscourse(i,yes); parenthethicals := nil; status := status\{SET_OR}; } if NORMAL_THEN_COMMA ∈∈∈∈ status if not markerTextEqual(i,”,”) {clauses:=clauses ∪∪∪∪ textFromTo(currClauseStart, offset(i), parentheticals); status:= status\{NORMAL_THEN_COMMA} parentheticals := nil; currParentStart := -1;} if PH ∈∈∈∈ status ^ not markerTextEqual(i,”,”) {if not markerTextEqual(i,”và”) if (isClause(textFromTo(offset(i), offset(i+1)) { clauses:=clauses ∪∪∪∪ textFromTo(currClauseStart, offset(i),parentheticals); currClauseStart:=i+1; } else { clauses:=clauses ∪∪∪∪ textFromTo(currClauseStart, offset(i),parentheticals); status:=status\{PH};

} } swithch getActionType(i)) case DUAL: if markerAdjcent(i-1,i) { status := status ∪∪∪∪ {DAU_PHAY}; setDiscourse(i-1,yes);setDiscourse(i,yes); } else { clauses := clauses ∪∪∪∪ textFromTo(currClauseStart,offset(i),parentheticals); currClausesStart := offset(i); parentheticals := nil; setDiscourse(i,yes); } case NORMAL: clauses := clauses ∪∪∪∪ textFromTo(currClauseStart, offset(i), parentheticals); currClauseStart := offset(i); parentheticals := nil; setDiscourse(i,yes); case COMMA: if markerAdjacent(i-1.i) {setDiscourse(i-1,yes);setDiscourse(i,yes);status := status ∪∪∪∪ {COMMA};} case NORMAL_THEN_COMMA if isClause(textFromTo(currClauseStart,offset(i))^ isClause(textFromTo(offset(i), offset(i+1)) {clauses:= clauses ∪∪∪∪ textFromTo(currClauseStart,offset(i),parentheticals); status := status ∪∪∪∪ {getActionType(i)}; currClauseStart := offset(i);parentheticals := nil; setDiscourse(i,yes); } case PH: if isClause(textFromTo(currClauseStart, offset(i))^ isClause(textFromTo(offset(i),offset(i+1)) {clauses:= clauses ∪∪∪∪ textFromTo(currClauseStart,offset(i),parentheticals); clauses:= clauses ∪∪∪∪ textFromTo(offset(i)+1,offset(i+1),parentheticals); } else status:= status ∪∪∪∪ {getActionType(i)}; case NOTHING: if signalsRhetoricalRelations(i) setDiscourse(i,yes); case MATCH_PAREN,COMMA_PAREN,MATCH_DASH: status := status ∪∪∪∪ {getActionType(i)}; currParentStart := offset(i); case SET_AND, SET_OR: if status is neither MATCH_PAREN nor MATCH_DASH status := status ∪∪∪∪ {getActionType(i)}; } finishUpParentheticalsAndClauses(); End For

Hình 3.11. Giải thuật phân đoạn diễn ngôn (có khử nhập nhằng)

• Biến status ghi lại tập hợp những dấu hiệu đã được xử lý từ trước nhưng có thể vẫn

Giải thích ý nghĩa các đối tượng dùng trong giải thuật:

còn ảnh hưởng đến việc xác định ranh giới các mệnh đề và những EDU trong dấu

• Biến parentheticals ghi lại tập hợp những đơn vị trong dấu ngoặc đơn gắn liền với một

ngoặc đơn. Ban đầu, giá trị của biến đặt bằng NIL.

• Biến clauses ghi lại tất cả những EDU trong câu đang xét, trừ những EDU trong ngoặc

mệnh đề cho trước. Ban đầu, giá trị của biến bằng NIL.

• Biến currParentStart (Điểm bắt đầu ngoặc đơn) ghi lại vị trí của điểm bắt đầu đơn vị

đơn. Ban đầu, giá trị của biến bằng NIL.

trong dấu ngoặc đơn. Ban đầu, giá trị của nó được đặt là -1, nghĩa là chưa có đơn vị

• Biến currClauseStart (Điểm bắt đầu mệnh đề) ghi lại vị trí mà EDU đang xét bắt đầu.

trong dẫu ngoặc đơn nào được tìm thấy.

• Hàm dấu hiệu textEqual(i, s) có giá trị true nếu cụm từ dấu hiệu thứ i trong mảng dấu

Ban đầu, giá trị của nó là 1- vì EDU đầu tiên của câu bắt đầu tại offset 1.

• Hàm offset(i) trả về vị trí của từ gợi ý thứ i của mảng marker[n] trong câu s.offset phụ

hiệu diến ngôn là s. Ngược lại, hàm có giá trị false.

thuộc vào tham số “vị trí” của từ gợi ý. Nếu giá trị vị trí là B, hàm trả về giá trị là vị trí

• Hàm textFromTo(i, j) trả về giá trị EDU ở giữa offset i và j trong câu S.

• Hàm textFromTo(i, j, parentheticals) trả về giá trị là đơn vị văn bản ở giữa offset i và j

cụm từ gợi ý bắt đầu. Nếu giá trị của nó là E, hàm trả về vị trí cụm từ gợi ý kết thúc.

trong câu S có lưu thêm thông tin về những đơn vị trong ngoặc. Tập những đơn vị

• Hàm setDiscourse(i, yes) đặt giá trị cờ có-chức-năng-diễn-ngôn của dấu hiệu diễn ngôn

trong ngoặc được lưu trong biến parentheticals.

• Hàm getActionType(i) có giá trị là hành động của dấu hiệu diễn ngôn thứ i trong câu S.

• Hàm signalsRhetoricalRelations(i) (Có dấu hiệu có mối quan hệ diễn ngôn) có giá trị

thứ i là “yes”, cho thấy dấu hiệu thứ i có chức năng diễn ngôn.

• Hàm finishUpParentheticalsAndClauses() lưu lại những đoạn văn bản chưa xác định

true nếu từ gợi ý thứ i có vai trò diễn ngôn trong câu.

• Hàm isClause(s) do luận án đề xuất sẽ thực hiện phân tích đoạn văn bản đưa vào bằng

được là EDU sau khi xử lý mảng những dấu hiệu diễn ngôn tiềm tàng của câu.

văn phạm liên kết và trả ra kết quả đúng nếu đoạn văn đúng cú pháp liên kết đồng thời

có chứa nòng cốt (chứa ít nhất một trong ba liên kết SV, DT_LA và SA).

boolean isClause (s) {linkage lnk;int n;connection c; n=NumberOfWord(s) if (PARSE(s,lnk)!=0) //s đúng cú pháp {for(i=1;i<=n;i++)

for each c in lnk.linklist(i) {if(c.type=“SV” or c.type=“DT_LA” or c.type=“SA”)//s chứa nòng cốt {return true; break;} } return false;

}

return false;//s sai cú pháp

}

Hình 3.12. Hàm isClause

Ví dụ: Với câu S là “Trời mưa rất to và gió rất mạnh nên tôi phải nghỉ học, mẹ tôi phải

nghỉ làm”, mảng marker[4] có giá trị các phần tử là “và”, “nên”, dấu phảy và kết thúc câu.

Từ “và” được gắn với hành động NORMAL_THEN_COMMA. Trong xử lý của giải thuật

ở hình 3.11, giá trị hàm isClause với các cụm từ “trời mưa rất to” và “gió rất mạnh” đều là

true nên tập mệnh đề Clauses được thêm mệnh đề “trời mưa rất to và” và

NORMAL_THEN_COMMA được lưu lại trong status. Khi xử lý đến dấu hiệu “nên” với

hành động NORMAL, mệnh đề “gió rất mạnh nên” được thêm vào Clauses, status rỗng.

Khi gặp dấu phảy, vì hàm isClause với cụm từ “tôi phải nghỉ học,” và cụm từ sau dấu

phảy “mẹ tôi phải nghỉ làm” đều cho giá trị true nên hai mệnh đề này được thêm vào

Clauses. Dấu hiệu kết thúc câu ứng với hành động NOTHING nên không thêm mệnh đề

mới vào Clauses. Kết quả phân tích diễn ngôn khi thử nghiệm được trình bày trong hình

3.19.

Tìm quan hệ diễn ngôn với những đơn vị không xuất hiện dấu hiệu diễn ngôn

Với những đơn vị không xuất hiện dấu hiệu diễn ngôn, dựa trên đặc điểm của tiếng

Việt, luận án dùng giải thuật tìm các từ cùng xuất hiện được Marcu [89] đề xuất. Khi ấy,

các quan hệ diễn ngôn sẽ được gán là Kết nối hoặc Liệt kê.

Xây dựng cây diễn ngôn

Để có thể xây dựng được một cây cấu trúc văn bản hợp pháp, phải chọn từ những quan

hệ tìm được ra bộ các quan hệ tạo thành một cấu trúc văn bản hợp pháp. luận án xây dựng

cây cấu trúc văn bản hợp pháp nhờ phương pháp proof-theoretic[89], sử dụng các phép

biến đổi để quy dẫn về cấu trúc hợp pháp.

Phương pháp proof - theoretic sinh ra tất cả các tập cây cấu trúc hợp pháp, với mỗi tập

có các thông số: Hạt nhân hay Vệ tinh, lá hay là gốc, tên quan hệ và các thành phần của

cây. Mỗi cây được mô tả với cấu trúc Tree (status, type, promotion, left, right), trong đó:

•

status: mô tả trạng thái của nút, là Hạt nhân (N) hoặc Vệ tinh (S).

• promotion:Tập các giá trị từ 1 đến n là số hiệu của các mệnh đề nổi bật nhất trong

type: tên của quan hệ diễn ngôn.

cây. Mệnh đề nổi bật nhất là mệnh đề đóng vai trò quan trọng nhất trong đoạn văn

•

bản được biểu diễn bởi nút đang xét.

•

left: mô tả của cây con trái.

right: mô tả của cây con phải.

Nút lá có thể được mô tả dưới dạng cây bằng cách gán cho giá trị Left và Right bằng

NULL và type là LEAF.

Theo [89], phương pháp proof-theoretic cho phép xây dựng nên cấu trúc văn bản từ 14

tiên đề. Dưới đây là ví dụ một tiên đề:

[S(l, b, Tree1(Hạt nhân, type1, p1, left1, right1), rr1) ^

S(b+1, h, Tree2(Hạt nhân, type2, p2, left2, right2), rr2) ^

rhel_rel(name, n1, n2) ∈∈∈∈ rr1∩∩∩∩ rr2^ n1∈∈∈∈ p1 ^ n2∈∈∈∈ p2^ paratactic(name)] (cid:2)(cid:2)(cid:2)(cid:2) S(l, h, Tree(Hạt nhân, name, p1 ∪∪∪∪ p2, Tree1(…), Tree2(…), rr1∩∩∩∩ rr2 \

{rhel_rel(name, l, n1, n2)})

Tiên đề này có nghĩa:

• Đoạn văn bản kéo dài từ đơn vị l tới đơn vị b được biểu diễn bằng cây cấu trúc Tree1

Nếu

• Đoạn văn bản kéo dài từ đơn vị b+1 tới đơn vị h được biểu diễn bằng cây Tree2 có tập

với tập quan hệ diễn ngôn rr1

• Tồn tại quan hệ diễn ngôn rhel_rel(name, n1, n2) giữa đoạn n1 là một trong các đoạn nổi

quan hệ diễn ngôn rr2.

• Quan hệ diễn ngôn rhel_rel (name, n1, n2) có thể mở rộng trên cả đoạn [l, b] và đoạn

bật của đoạn [l, b] với đoạn n2 là một trong các đoạn nổi bật của [b+1, h].

•

[b+1, h]

• Quan hệ name nói trên là đẳng lập (paratactic).

rhel_rel(name, n1, n2) ∈ rr1∩ rr2

• Có thể tổ hợp đoạn [l, b] và đoạn [b+1, h] thành đoạn lớn hơn [l, h] có trạng thái là hạt

Thì

nhân, kiểu quan hệ name, tập nổi bật là p1 ∪ p2 (p1là tập nổi bật của[l, b], p2 là tập nổi

• Tập quan hệ hiện nay sẽ là rr1∩ rr2 \ {rhel_rel(name, l, n1, n2)

bật của[b+1, h]), có 2 cây con là tree1 và tree2.

Lựa chọn cây diễn ngôn

Tương tự tiếng Anh, tiếng Việt là ngôn ngữ có cách viết từ trái sang phải, phát ngôn

trong tiếng Việt có xu hướng để mệnh đề quan trọng trước. Do vậy, luận án đã theo cách

h((cid:21)(cid:17)(cid:19)(cid:19))

ế

ệ

ế

ượ

ạ

rℎ (cid:18)

(cid:21) ℎu

s r

0 r

(cid:21) (cid:18)

đánh giá cây diễn ngôn của Marcu trong [89] thiên về cây lệch trái theo tiêu chuẩn sau:

= p

s rw

r ℎ h((cid:18)(cid:19)(cid:20)(cid:21)v(cid:20)((cid:21)(cid:17)(cid:19)(cid:19)) + h((cid:17)uwℎ(cid:21)v(cid:20)((cid:21)(cid:17)(cid:19)(cid:19)) + o(cid:19)x(cid:21)ℎy(cid:17)uwℎ(cid:21)v(cid:20)((cid:21)(cid:17)(cid:19)(cid:19))z − o(cid:19)x(cid:21)ℎy(cid:18)(cid:19)(cid:20)(cid:21)v(cid:20)((cid:21)(cid:17)(cid:19)(cid:19))zr u | (cid:18) Trong hình 3.13 dưới đây là ví dụ về các loại cây diễn ngôn. Cây lệch trái có giá trị 1 là

Cây cân bằng với w = 0.

Cây lệch trái với w = 1

Cây lệch phải với w = -1

giá trị lớn nhất. Điều đó thể hiện sự ưu tiên cây lệch trái.

Hình 3.13. Các dạng cây cấu trúc diễn ngôn

3.2.2. Giải thuật phân tích cú pháp câu ghép

Luận án đã đề xuất giải thuật tổng thể để phân tích cú pháp cho câu ghép biểu diễn dưới

dạng một dãy các từ như sau:

Vào: Câu tiếng Việt s đã tách từ Ra: Kết quả phân tích câu bao gồm danh sách các kết nối Phương pháp: U [N] := Discourse_Segment(s);// U chứa các đơn vị diễn ngôn của câu s root := RS_Parse(); // Cây phân tích diễn ngôn của s có gốc là root for i:=1 to N if Is_Unit (U[i]) { Parse(U[i],LinkTemp); Lnk.Add LinkTemp; } Insert_Link_From_RST_Tree(root); After_Insert();

Hình 3.14. Giải thuật phân tích cú pháp cho câu ghép

• Biến Lnk chứa toàn bộ liên kết cho cả câu ghép. Biến LinkTemp chứa các liên kết cho

Trong giải thuật này,

• Hàm Discourse_Segment thực hiện phân đoạn diễn ngôn cho câu s.

• Hàm RS_Parse cho phép dựng cây phân tích diễn ngôn của câu .

• Hàm Is_Unit trả về giá trị true nếu đơn vị diễn ngôn được xem xét chứa từ hai từ trở

từng mệnh đề.

• Hàm Parse là hàm phân tích cú pháp, trả 1 nếu câu đúng cú pháp, 0 nếu ngược lại. Kết

lên.

quả được lưu trong lnk. lnk có cấu trúc như hình 3.16. Mỗi danh sách ứng với mỗi từ là

• Hàm After_Insert cho phép xử lý và tạo liên kết với các mệnh đề phụ trạng ngữ: “hôm

một linklist

• Hàm Insert_Link_From_RST_Tree thực hiện việc duyệt cây diễn ngôn của câu, thêm

qua”,”trong khi đó”...

các liên kết ứng với từng quan hệ diễn ngôn.

Hình 3.15 dưới đây trình bày hàm Insert_Link_From_RST_Tree do luận án đề xuất.

• Thuộc tính promotion cho biết phạm vi của quan hệ diễn ngôn liên quan đến mệnh đề

Trong hàm này,

• Biến FirstWord trả về thứ tự của từ đại diện cho mệnh đề thứ nhất, LastWord trả về

nào trong câu.

thứ tự của từ đại diện cho mệnh đề thứ hai.

• Biến FirstMarker chứa dấu hiệu diễn ngôn ở đầu đoạn văn bản được mô tả bởi một cây

con của cây cấu trúc diễn ngôn, MidMarker chứa dấu hiệu diễn ngôn nằm ở giữa đoạn

văn bản của cây con của cây cấu trúc diễn ngôn. Hai từ đó cần được xác định bởi các

hàm FindFirstMarker và FindMiddleMarker vì tùy từng xử lý, giải thuật phân tích diễn

• Hàm Represent trả về từ đại diện cho mệnh đề được xét.

• Thuộc tính IndexOfRepWord trả về số thứ tự của từ đại diện tại nút trong của cây cấu

ngôn có thể để dấu hiệu diễn ngôn ở đầu hay cuối đơn vị diễn ngôn nguyên tố.

• Hàm InsertLink cho phép thêm một mối liên hệ vào Linkage.

trúc diễn ngôn.

if(IsLeaf(node.RightChild)

{FirstWord = node.LeftChild.IndexOfRepWord;

LastWord = node.RightChild. IndexOfRepWord; }

Insert_Link_From_RST_Tree (node) { if(IsLeaft(node) ) return; InsertLinkFromRSTree(node.LeftChild); InsertLinkFromRSTree(node.RightChild); if (!IsLeaf(node)) if (IsLeaf(node.LeftChild) ) { FirstWord = Represent (node.LeftChild.promotion) LastWord = Represent (node.RightChild.promotion) } else { FirstWord = Represent (node.LeftChild.promotion); LastWord = node.RightChild. IndexOfRepWord; } else if (IsLeaf(node.RightChild)) LastWord = Represent (node.RightChild.promotion); } else {FirstWord = node.LeftChild. IndexOfRepWord; FirstMarker = FindFirstMarker (node); MidMarker = FindMiddleMarker (node); InsertLink(node, FirstWord, LastWord, FirstMarker, MidMarker, node.Action); } }

Hình 3.15. Hàm Insert_Link_From_RST_Tree

3.2.3. Tìm từ để kết nối mệnh đề

Nếu trong mô hình văn phạm phụ thuộc, từ đại diện cho mệnh đề chính là từ trung tâm

của mệnh đề thì trong mô hình văn phạm liên kết, cần phải chọn từ đại diện cho mệnh đề.

Bậc của kết nối Việc chọn từ đại diện cho mệnh đề phải đảm bảo cầu về tính phẳng của

liên kết. Sau khi phân tích cú pháp cho các mệnh đề, các kết nối được lưu trữ lại dưới dạng

danh sách liên kết.

Hình 3.16 dưới đây thể hiện cấu trúc lưu trữ phân tích liên kết của câu “Tôi mua một

bông hoa”. 1, 2...5 là số thứ tự của từ. Mỗi từ có một danh sách liên kết các kết nối với các

từ nằm bên phải nó. Thông tin về mỗi kết nối bao gồm (kiểu, đích, bậc). Ví dụ (SV, 2, 0 )

chỉ liên kết của từ đầu tiên (“tôi”) và từ thứ hai (“mua”).

Các liên kết sau khi được vẽ lên trên của mỗi từ sẽ được gán một giá trị gọi là bậc của

liên kết. Do yêu cầu của bài toán đặt ra từ được chọn phải đảm bảo khi ta thêm các liên kết

khác của các liên từ với nó thì các liên kết cũ và liên kết mới không được giao nhau. Vì

vậy từ được chọn ở đây là từ có bậc thấp nhất tương ứng với từ có liên kết được vẽ bên

trên cùng.

Hình 3.16. Minh họa cách lưu trữ phân tích liên kết của câu “Tôi mua một bông hoa”

Bậc của liên kết được tính như sau:

Theo giải thuật phân tích cú pháp, liên kết được vẽ đầu tiên sẽ có bậc 0. Đó là liên kết

SV và O. Sau đó, trong quá trình thực hiện giải thuật phân tích trong [111] một cách đệ

quy với các từ bên trái và bên phải từ được xét, bậc của McN và McNt3 là 1. Nếu câu này

đóng vai trò mệnh đề trong liên kết với mệnh đề khác, thì kết nối được chọn để liên kết sẽ

là kết nối trên cùng, tức là kết nối bậc 0 (trong ví dụ ở hình 3.17. là SV hoặc O).

Hình 3.17. Phân tích câu “Tôi mua một bông hoa”

Một ví dụ khác, phân tích câu “Nếu tôi có nhiều thời gian, tôi đã ở Nghệ An và thành

phố Hồ Chí Minh”. Khi chọn từ đại diện cho mệnh đề “tôi đã ở Nghệ An và thành phố Hồ

Chí Minh”, liên kết có bậc cao nhất là liên kết SV giữa “tôi” và “ở”. Liên kết này có bậc 0

trong khi các liên kết khác có bậc 1, 2...

Từ được chọn có thể là “tôi” hoặc “ở”. Việc làm này sẽ đảm bảo được tính phẳng vì nếu

vẽ liên kết từ mệnh đề trước với từ “đã” hay từ “Nghệ An” thì không có cách nào để vẽ các

liên kết đó không giao nhau.

Chọn từ để liên kết

Sau khi tìm được kết nối thích hợp với các từ ứng viên nằm bên trái và bên phải của kết

nối, vấn đề đặt ra chọn từ bên trái hay bên phải. Tiêu chí luận án đưa ra là chọn từ quan

trọng hơn. Với những mối quan hệ như McNt, RlAp... từ được chọn là từ bên phải (danh

từ), còn với kết nối SV, SA thì từ được chọn là từ bên trái (danh từ). Thông tin về từ bên

trái hay bên phải được chọn sẽ được lưu trữ theo mỗi loại kết nối. Trong ví dụ ở hình 3.10.

dưới đây chỉ ra phân tích cụm từ “một cái bút rất tốt”.

Hình 3.18. Phân tích cụm từ “một cái bút rất tốt”

Do liên kết giữa từ “một” và từ “bút” là McNt nên từ có mức độ ưu tiên cao hơn là từ

“bút”.Từ được chọn phải là từ “bút”.

3.2.4. Kết quả thử nghiệm phân tích câu ghép

Bộ phân tích cú pháp câu ghép được phát triển từ bộ phân tích liên kết cho câu đơn và

câu ghép hai mệnh đề, sử dụng ngôn ngữ Java làm việc trong môi trường Windows. Hình

dưới đây mô tả kết quả phân tích cú pháp cho câu ghép “Trời mưa rất to và gió rất mạnh

nên tôi phải nghỉ học, mẹ tôi phải nghỉ làm” gồm 4 mệnh đề với các quan hệ diễn ngôn đã

được biểu diễn trong hình 3.19.

Hình 3.19. Kết quả phân tích câu “Trời mưa rất to và gió rất mạnh nên tôi phải nghỉ

học, mẹ tôi phải nghỉ làm”

Để kiểm chứng cho giải thuật phân tích câu ghép, luận án đã tạo bộ mẫu gồm 100 câu

ghép đã phân tích và chú giải, chi tiết như trong bảng 2. Nguồn dữ liệu được chọn từ các

bài báo và tập mẫu câu trên mạng:

http://www.mediafire.com/?6ajt9btbrtxidr9

http://www.vietnamtourism.com/v_pages/tourist/destination.asp?mt=8420&uid=533

http://dantri.com.vn/c26/s26-484690/barcelona-mu-giac-mo-noi-thien-duong.htm

Bảng 3.6. Chi tiết tập mẫu câu ghép

Số lượng

Số từ trung bình

STT

Tập mẫu

câu

trong câu

Ngữ liệu tiếng Việt phổ quát (Hồ Quốc Bảo)

9.7

Thể thao

11.5

Du lịch

12.5

Kết quả phân tích tập mẫu thể hiện ở bảng 3.6 cho thấy kết quả đạt được cao hơn hẳn

so với bộ phân tích cũ:

Tập mẫu

Độ chính xác (bộ PT cũ) 42.5%

Độ phủ (bộ PT cũ) 35.7%

Độ chính xác (bộ PT mới) 75.1%

Độ phủ (bộ PT mới) 65.7%

9.5%

6.1%

33.5%

21.6%

28.3%

20.5%

47.4%

58.5%

Bảng 3.7. Kết quả phân tích các tập mẫu câu ghép (đã khử nhập nhằng)

Trong số các bộ ngữ liệu được dùng trong giai đoạn này, bộ ngữ liệu tiếng Việt phổ

quát (thật ra là phần tiếng Việt trong bộ ngữ liệu Anh - Việt tổng quát, chủ yếu chứa các

câu ghép hai mệnh đề và khá giống nhau nên tỷ lệ câu phân tích diễn ngôn đúng là 100%,

ngoài ra cấu trúc từng mệnh đề cũng khá đơn giản. Ngữ liệu về du lịch cũng gồm những

câu trong các bài giới thiệu quảng bá du lịch, nhiều câu có trên 3 mệnh đề nhưng cấu trúc

vẫn theo đúng luật cú pháp. Bộ ngữ liệu về thể thao với nhiều dạng thức đặc biệt của câu

ghép vẫn đạt tỷ lệ thấp nhất.

Bộ phân tích cú pháp liên kết của luận án đã đạt được kết quả khá tốt trên những câu

ghép gồm nhiều mệnh đề, không bao nhau, có thể xuất hiện những đoạn giải thích với cặp

ngoặc hoặc dấu gạch ngang (-). Tuy nhiên, vẫn còn một số dạng câu ghép mà bộ phân tích

• Câu ghép thiếu liên từ, ví dụ”Dù chết tao cũng không theo”. Câu này xuất hiện dưới

của luận án chưa xử lý được. Dưới đây là ví dụ của những loại câu đó:

dạng câu đơn nhưng thực ra lại là câu ghép, không có từ liên kết lại ẩn chủ ngữ

• Tồn tại những vị ngữ phức tạp, ví dụ “Để cho đỡ buồn tẻ, công chúa thường lấy một

“tao” ở mệnh đề đầu.

quả cầu bằng vàng tung lên để bắt chơi”, câu này không có dấu phảy trước động từ

• Quá nhiều mệnh đề, nhiều thành phần liên hợp, trong đó một số mệnh đề ẩn chủ

“tung” nên liên hệ giữa động từ “lấy” và động từ “tung” là không xác định được.

ngữ, ví dụ “Ta thường tới bữa quên ăn, nửa đêm vỗ gối, ruột đau như cắt, nước mắt

đầm đìa; chỉ giận chưa thể xả thịt, lột da, ăn gan, uống máu quân thù; dẫu cho trăm

thân ta phơi ngoài nội cỏ, nghìn thây ta bọc trong da ngựa, cũng nguyện xin làm”

Luận án chưa thử nghiệm trên câu phức là dạng câu có từ hai cụm chủ vị trở lên nhưng

có một cụm bao các cụm còn lại, ví dụ “cái áo hôm qua cậu mua rất đẹp” có hai cụm chủ

vị “cậu mua” “cái áo đẹp” , cụm “cái áo đẹp” bao cụm còn lại. Thật ra, một số trường

hợp đã có thể phân tích với bộ phân tích câu ghép của chúng tôi, như câu “Nó bảo rằng nó

không đi nữa”.Tuy nhiên một số trường hợp cần dùng phương pháp học máy để nhận ra

giới hạn mệnh đề.

3.2.5. Độ phức tạp tính toán

Theo Sleator [111], chi phí thời gian của giải thuật phân tích liên kết (khi chưa lược tỉa) là với một văn phạm xác định là O(n3) với n là độ dài câu (số từ trong câu), chi phí này

cũng tương đương với chi phí thời gian của các giải thuật phân tích sử dụng văn phạm phi

ngữ cảnh. Khi phân tích cú pháp ngôn ngữ tự nhiên, n không lớn nên phần lớn chi phí thời

gian là do việc tìm kiếm các luật phù hợp trong văn phạm. Nếu xét cả kích thước văn phạm thì giải thuật phân tích liên kết có chi phí O(n3m), m là số dạng tuyển trung bình của các

từ trong câu. Trong khi đó, độ phức tạp của các giải thuật CYK và Earley cho văn phạm phi ngữ cảnh theo Jurafsky [70] là O(n3|G|), |G| là số sản xuất của văn phạm phi ngữ cảnh.

Chi phí thời gian chủ yếu chính là do giai đoạn lược tỉa. Trong tiếng Việt, do từ không

biến đổi hình thái nên mỗi từ phải có nhiều mối liên hệ với các từ chỉ thì, thể, số..., Số

lượng dạng tuyển trung bình (chưa lược tỉa) của mỗi từ khoảng 10.000. Từ [111] có thể

thấy giải thuật lược tỉa có chi phí O(nm).

Nếu quá trình phân đoạn diễn ngôn chia câu thành k mệnh đề, độ dài trung bình mỗi mệnh đề còn n/k, chi phí thời gian trung bình sẽ giảm k2 lần. Chi phí phân đoạn diễn ngôn

là O(n), chi phí duyệt cây diễn ngôn là cây nhị phân gồm k/2 nút lá (không duyệt nút lá)

ứng với k mệnh đề không quá O(k).Như vậy k càng lớn, chi phí thời gian sẽ càng nhỏ. Tuy

nhiên nếu k bằng 1 thì chi phí sẽ lớn hơn chi phí phân tích câu đơn.

Thực nghiệm với tập câu mẫu thứ nhất ở bảng 3.5, cho thấy thời gian để phân tích tập

mẫu theo kiểu liên kết liên từ là 296.153 mili giây, trong khi thời gian phân tích câu đó

bằng cách phân tích riêng từng mệnh đề là 217.324 mili giây, giảm đáng kể so với phân

tích kiểu liên kết liên từ.

3.3.Khử nhập nhằng

Như đã trình bày ở chương 2, Jurafsky [70] nêu ra hai vấn đề chủ yếu trong nhập

nhằng cú pháp: nhập nhằng thành phần và nhập nhằng liên hợp. Nhập nhằng thành phần

(attachment ambiguation) xảy ra khi một cấu trúc có thể tham gia các bộ phận khác nhau

trên cây phân tích, tạo ra những phân tích khác nhau. Nhập nhằng liên hợp (cordination

ambiguation) xảy ra khi gặp những cụm từ liên kết với nhau bằng liên từ liên hợp “và”,

“hoặc”, “hay”...Nhập nhằng địa phương (local ambiguation) cũng được tính đến khi một

từ có thể nhận các nhãn từ loại khác nhau. Vấn đề nhập nhằng địa phương của mô hình liên

kết một phần đã được giải quyết trong quá trình phân tích cú pháp. Khác với các mô hình

khác, từ không được gán nhãn trước khi phân tích cú pháp mà được gán nhãn dựa trên liên

kết mà nó tham gia. Một từ có nhiều nghĩa sẽ xuất hiện trong những công thức khác nhau,

tuy nhiên chỉ những tổ hợp các từ và nhãn thỏa các yêu cầu liên kết mới được chấp nhận.

Do vậy số lượng phân tích liên kết của mỗi câu nhỏ hơn đáng kể so với số lượng cây cú

pháp của mô hình phi ngữ cảnh.

Trong phần này nói đến việc giải quyêt vấn đề nhập nhằng thành phần và nhập nhằng

liên hợp. Đối với nhập nhằng thành phần, luận án đã chọn cách tiếp cận của Lafferty và

đồng nghiệp [79] với mô tả chung về một mô hình xác suất trigram. Từ mô tả này, luận án

phải xây dựng giải thuật khử nhập nhằng cho ứng dụng của mình.

3.3.1. Khử nhập nhằng thành phần

Vấn đề nhập nhằng thành phần xảy ra khi một câu có nhiều hơn một phân tích liên kết.

Câu đươc xét ở đây là câu đơn. Nếu là câu ghép, sau khi phân tách thành mệnh đề, mới

giải quyết vấn đề nhập nhằng.

Theo mô hình trigram [79], việc khử nhập nhằng không phải là tính xác suất của mỗi

phân tích, tìm ra câu có xác suất lớn nhất, mà là sử dụng mô hình Markov ẩn (HMM) dự

• Tìm câu có xác suất lớn nhất theo giải thuật kiểu Viterbi.

• Cập nhật lại xác suất của các sản xuất.

3.3.1.1. Giải thuật kiểu Viterbi để tìm phân tích tốt nhất

đoán câu có xác suất lớn nhất. Hai vấn đề chính cần giải quyết phục vụ mục đích này là:

Trong [79] đã giới thiệu mô hình xác suất cho văn phạm liên kết tương tự như mô hình

đã được mô tả ở mục 1.1.2. cho văn phạm phi ngữ cảnh. Nếu trong văn phạm phi ngữ

cảnh, thao tác cơ bản là viết lại thì trong văn phạm liên kết, thao tác cơ bản lại là tìm liên

kết. Đối tượng tương đương với sản xuất của văn phạm phi ngữ cảnh trong văn phạm liên

kết là liên kết. Mỗi liên kết phụ thuộc vào hai kết nối: kết nối phải và kết nối trái cùng tên

Pr ( W, d, O | L, R, l, r ) (3.1)

nối hai từ L và R . Như vậy tham số của văn phạm liên kết là:

O có thể nhận các giá trị →, ←, ↔ thể hiện hướng liên kết. Có thể hiểu là: cho từ L có

kết nối phải là l và từ R có kết nối trái r, tham số là xác suất của sự kiện: tồn tại từ W nằm

giữa L và R, dạng tuyển d của W liên kết được với L hoặc R hoặc cả hai. Xác suất (3.1)

Pr ( W, d, O | L, R, l, r ) =

Pr (W | L, R, l, r ) × Pr ( d | W, L, R, l, r ) × Pr ( O | d, t, p, q, l, r ) (3.2)

phân rã thành:

Vì ta đang xét đến các xác suất điều kiện trên một tập sự kiện quá lớn cho một văn

phạm với từ vựng của ngôn ngữ tự nhiên, trên thực tế không thể ước lượng được xác suất

Pr ( W, d, O | L, R, l, r ) ≈ Pr (W | L, R, l, r ) × Pr (d | W, l, r ) × Pr (O | d, l, r ) (3.3)

này. Do vậy nó cần được xấp xỉ bằng công thức [79]:

Pr ( S, L ) = Pr ( W0, d0 ) ∏ Pr ( W, d, O | L, R, l, r )

Xác suất của một phân tích liên kết (linkage) là tích của xác suất của mọi liên kết trong nó. Bây giờ cần biểu diễn phân tích liên kết L bởi một tập các liên kết L = {(W, d, O, L, R, l, r)} cùng với dạng tuyển đầu tiên d0. Xác suất của L là:

Ví dụ: Một văn phạm liên kết xác suất có lưu trữ các tham số sau (Từ thứ n là từ “giả”

Pr ( tôi, ( ) ( SV ) ) = 0.7

Pr ( mua, (SV)(O), ← | tôi, Wn , SV, NIL) = 0.06

Pr ( hoa, ( O, NcNt3 )( ), ← | mua, Wn , O, NIL) = 0.03

Pr ( bông, (McN)(NcNt3), → | mua, hoa, NIL, NcNt3) = 0.05

Pr ( một, ( )(McN), → | mua, bông, NIL, McN) = 0.06

Pr ( bông, (O, McN)(NcNt3), ↔ | mua, Wn , O, NIL) = 0.00001

Pr ( hoa, (NcNt3)( ) ← | bông, Wn, NcNt3, NIL) = 0.07 (3.4) Giả sử câu “Tôi mua một bông hoa” có hai phân tích L1 và L2 như trong hình 3.20 dưới

Wn được dùng trong phân tích theo giải thuật trong hình 3.4):

đây:

Hình 3.20. Hai phân tích của câu “Tôi mua một bông hoa”

Xác suất cho phân tích L1 (hình 3.20 (A)) là:

Pr (L1) = Pr ( 0, ( )( SV ) ) × Pr ( 1, (SV)(O), ← | 0, 5 , SV, NIL ) ×

Pr ( 4, ( O, NcNt3 )( ), ← | 1, n, O, NIL ) ×

Pr ( 3, (McN)(NcNt3), → | 1, 4, NIL, NcNt3 ) ×

Pr ( 2, ( )(McN), → | 1, 3, NIL, McN )

= 0.7 * 0.06 * 0.03 * 0.05 * 0.06

= 3.78E-5

Trong khi xác suất của phân tích L2 (hình 3.20. (B)) là:

Pr (L2) = Pr ( 0, ( )( SV ) ) × Pr ( 1, (SV)(O), ← | 0, 5 , SV, NIL ) ×

Pr ( bông, (O, McN)(NcNt3), ↔ | mua, Wn , O, NIL ) ×

Pr ( một, ( )(McN), → | mua, bông, NIL, McN ) ×

Pr ( hoa, (NcNt3)( ) ← | bông, Wn, NcNt3, NIL )

= 0.7 × 0.06 × 0.00001 × 0.06 × 0,7

= 2E-8 Nếu phải chọn một trong hai phân tích thì L1 sẽ được chọn.

Trong [79] chỉ đưa ra mô hình xác suất cho văn phạm liên kết với xác suất trong và xác

suất ngoài tương tự xác suất tiến và xác suất lùi trong mô hình HMM. Luận án đã đề xuất

giải thuật kiểu Viterbi cho mô hình văn phạm liên kết.

Khởi tạo: δlr(p,p+1) =

1 nếu l = r = NIL 0 nếu ngược lại

Quy nạp:

[P(W, d, ← |L, R, l, r)δl⊳,⊲left[d](L, W)δright[d],r(L, R),

δlr(L, R) = max L < < d∈D(W) (cid:127) ~

P(W, d, ↔ |L, R, l, r)

.⊳,⊲.-(cid:129)*8/;(L, W) δ δ

(cid:130)(cid:29)(cid:131)(cid:132)*8/;⊳,⊲(cid:130)(W, R),

P(W, d, → | L, R, l, r)

(cid:130)(cid:29)(cid:131)(cid:132)*8/;⊳,⊲(cid:130)(W, R);

.,.-(cid:129)*8/;(L, W)

Ghi lại vết các từ và dạng tuyển tương ứng:

.(cid:130)(L, R) = argmax

8P(t, d, ← |L, R, l, r)

*,/

(cid:130)(cid:29)(cid:131)(cid:132)*8/;,(cid:130)(W, Rz, δ

.⊳,⊲.-(cid:129)*8/;yL, W) δ

P(W, d, ↔ |L, R, l, r)

.⊳,⊲.-(cid:129)*8/;(L, W) δ

(cid:130)(cid:29)(cid:131)(cid:132)*8/;⊳,⊲(cid:130)(W, R),

(cid:130)(cid:29)(cid:131)(cid:132)*8/;⊳,⊲(cid:130)(W, R);

.,.-(cid:129)*8/;(L, W)

P(W, d, → |L, R, l, r)

Kết thúc và tìm lại con đường bằng cách đọc ngược biến ψψψψ

P(L)= maxd∈D(0) P(W0, d) δright[d],NIL(0, m) Thêm W0 và d vào phân tích

Hình 3.21. Giải thuật kiểu Viterbi để dự đoán phân tích có xác suất cao nhất

3.3.1.2. Giải thuật huấn luyện

Như đã trình bày ở chương 1 với văn phạm phi ngữ cảnh, các xác suất đóng vai trò tham

số ban đầu có thể được sinh ngẫu nhiên, sau đó được cập nhật lại mỗi khi có một câu mới

được phân tích và thêm vào bộ ngữ liệu. Giải thuật huấn luyện do [79] đưa ra nhằm tính lại

giá trị tham số sau khi đã xử lý câu đưa vào. Cũng như văn phạm phi ngữ cảnh, giải thuật

này dựa vào hai tham số là xác suất trong và xác suất ngoài.

Xác suất trong PrI ( L, R, l, r ) là xác suất mà các từ từ L đến R có thể liên kết với nhau

sao cho các kết nối l và r được thỏa mãn.

Xác suất ngoài Pro ( L, R, l, r ) là xác suất mà các từ ngoài phạm vi từ L đến R có thể

liên kết với nhau sao cho các yêu cầu kết nối ngoài l và r được thỏa mãn.

Pr(cid:135)(L, R, l, r) =

←

∈

(cid:139)(cid:140)(cid:138)(cid:140)(cid:141)

(cid:137)((cid:138))

∑

8 Pr( W, d,

| L, R, l, r) ×d

Pr(cid:135)( L, W, l ⊳, ⊲ left8d; ) × Pr(cid:135)(W, R, right8d;, r)

+ Pr ( W, d, ↔ |L, R, l, r) × Pr(cid:135)( L, W, l ⊳, ⊲ left8d; ) × Pr(cid:135)( W, R, right8d; ⊳, ⊲ r )

+ Pr ( W, d, →| L, R, l, r) × Pr(cid:135)( L, W, l, left8d; ) × Pr(cid:135) ( W, R, right8d; ⊳, ⊲ r)

Xác suất trong được tính một cách đệ quy theo các quan hệ:

Theo giải thuật phân tích cú pháp ở hình 3.4, rõ ràng PI ( wi, wi+1, NIL, NIL ) = 1 với

0 ≤ i ≤ n-1.

Ví dụ, Với văn phạm liên kết và câu “Tôi mua một bông hoa” được nói ở trên,

PrI ( 1, 4, NIL, NcNt3 ) = Pr (3, (McN)(NcNt3),→ | 1, 4, NIL, NcNt3 ) ×

PrI ( 1, 3, NIL, McN ) × PrI ( 3, 4, NIL, NIL )

với giá trị các xác suất được cho trong (3.1) :

PrI ( 1, 3, NIL, McN) = Pr (2, ( )(McN), → | 1, 3, NIL, McN) ×

PrI (1, 2, NIL,NIL) × PrI (2, 3, NIL, NIL)

= 0.06 × 1 × 1 = 0.06

Pr ( 3, (McN)(NcNt3),→ | 1, 4, NIL, NcNt3 ) = 0.05

do vậy, PrI ( mua, hoa, NIL, NcNt3) = 0.05 × 0.06 = 0.003 (3.5)

Xác suất ngoài PrO được tính một cách đệ quy: ban đầu, với mỗi d ∈ D(W0) có left[d] =

PrO ( 0, n, right[d], NIL ) = Pr ( W0, d )

⊳

⊲

L, R, l, r ) +

L, R, l, r )+

L, R, l, r )

PrO ( L, R, l, r ) =

(cid:130)(cid:29)(cid:131)(cid:132)*

.-(cid:129)*

Pr(cid:142)

(

Pr(cid:143)

(

Pr(cid:143)

(

Pr(cid:143)

(

NIL, đặt

Xác suất được cộng dồn cho 4 trường hợp có thể xảy ra tại bước trước (khi ấy R và L

100

còn đóng vai trò của W):

⊲.-(cid:129)*

: Ở bước trước, có liên kết được xác lập về bên phải. Tồn tại các kết nối đứng

Pr(cid:142) trước l và left[d] trong các dạng tuyển của L và W.

.-(cid:129)*

: Liên kết được xác lập về bên trái ( L với W) qua các kết nối l và left[d],

Pr(cid:142) không tồn tại kết nối đứng trước l và left[d].

(cid:130)(cid:29)(cid:131)(cid:132)*⊳

: Ở bước trước, liên kết được xác lập về bên trái. Tồn tại các kết nối đứng

Pr(cid:142) trước right[d] và r trong các dạng tuyển của W và R.

(cid:130)(cid:29)(cid:131)(cid:132)*

: Liên kết không được xác lập về bên phải (W với R) giữa right[d] và r.

Pr(cid:142) Dưới đây là mô tả chi tiết về các xác suất nói trên theo [79]

⊲.-(cid:129)*

Xác suất dạng Quay trở về bước trước (W đóng vai trò của R, l đóng vai trò

Pr(cid:142) : ⊳ của l, left[d] đóng vai trò của r). Công thức tính theo [79] như sau:

left[d]) = ∑

(L, R, l, r) ×

∑ PrO r

PrO

⊳, ⊲

[Pr(W, d, ← | L, R, l, r) × PrI (W, R, right [d], r) + Pr(W, d, ↔ | L, R, l, r) × PrI (W, R, right[d]⊳, ⊲ r)]

⊲ ⊲left (L, W, l

(cid:130)(cid:29)(cid:131)(cid:132)*⊳

Tương tự, ta có công thức tính cho

⊳(W, R, right[d] ⊳, ⊲ r) =

(L, R, l, r) ×

(cid:130)(cid:29)(cid:131)(cid:132)*

(cid:139)(cid:140)(cid:138)

∑

∑ Pr(cid:142) .

Pr(cid:142) [Pr(W, d, → | L, R, l, r) × PrI(L, W, l, left [d]) + Pr(W, d, ↔ | L, R, l, r ) × PrI (L, W, l⊳, ⊲ left[d] )]

Pr(cid:142)

⊲.-(cid:129)*

Hình 3.22. Mô tả cách tính xác suất

.-(cid:129)*

Pr(cid:142) (L, W, l ⊳, ⊲ left8d;) Xác suất dạng được tính theo công thức:

⊲

O (L, R, l, r) × Pr (W, d, → | L, R, l, r) × PrI (W, R, right[d] ⊳

.-(cid:129)*

(cid:141)(cid:145)(cid:138)

∑

Pr(cid:142)

(

∑ Pr(cid:130)

101

Pr(cid:142) L, W, l, left[d]) =

(cid:146)(cid:147)(cid:148)(cid:149)

Hình 3.23. Minh họa mối liên kết để tính

(cid:150)(cid:151)(cid:152)(cid:153)(cid:149)

(cid:16)(cid:17)(cid:142) Tương tự ta có công thức tính

[

]

W, R, right[d], r) =

⊲

O ( L, R, l, r) Pr ( W, d, ← | L, R, l, r ) PrI( L, W, l⊳

(cid:139)(cid:140)(cid:138)

∑

left

)

Pr(cid:142)

∑ Pr(cid:130)

(cid:16)(cid:17)(cid:142)

(cid:130)(cid:29)(cid:131)(cid:132)* ( Ví dụ:

(1, 5, O, NIL)

PrO(1, 5, O, NIL) =

(cid:130)(cid:29)(cid:131)(cid:132)*

Pr(cid:142)

= PrO (0, 5, SV, NIL) × Pr (1, (SV)(O), ← | 0, n, SV, NIL) × PrI(0, 1, NIL, NIL)

Trong đó:

Pr ( 1, (SV)(O), ← | 0, Wn,SV,NIL) = 0.06, theo (3.1)

PrI ( 0, 1, NIL, NIL ) =1

PrO ( 0, 5, SV, NIL ) = Pr ( 0, ( )(SV) ) = 0.7

Như vậy,

PrO ( 1, 5, SV, NIL ) = 0.7 × 0.06 × 1 = 0.042

Vấn đề còn lại là cập nhật lại xác suất Pr ( W, d, O | L, R, l, r ). Theo (3.3) để tính xác

suất này, cần tính các xác suất Pr ( W | L, R, l, r ), Pr ( d | W, l, r ), Pr ( O | d, l, r ) với

Pr ( O | d, l, r ) = Pr (← | d, l, r ) + Pr (→ | d, l, r ) + Pr (↔ | d, l, r ).

Các công thức sau để tính lại các xác suất Pr (W | L, R, l, r ), Pr ( d | W, l, r ), Pr (← | d,

Pr (W | L, R, l, r ) = Count ( W, L, R, l, r ) / Count (L, R, l, r )

Pr (d | W, l, r ) = Count (d, W, l, r ) / Count ( W, l, r)

Pr (← | d, l, r ) = Count (←, d, l, r ) / Count (d, l, r )

Pr (→ | d, l, r ) = Count (→, d, l, r ) / Count (d, l, r )

Pr (↔ | d, l, r ) = Count (↔, d, l, r ) / Count (d, l, r ).

l, r ), Pr (↔ | d, l, r ), Pr (→ | d, l, r ) :

102

Theo [79], Các số đếm được tính trong các công thức từ (3.6) đến (3.9) dưới đây :

(cid:155)!

/∈(cid:137)((cid:138))

∑

Count(W, L, R, l, r) = Pr(cid:154)(L, R, l, r)

Pr(d|W, l, r)

Pr (S) ×

Pr(W|L, R, l, r) ×

{Pr(← |d, l, r)

Pr(cid:135)(W, R, right8d;, r) +

Pr(cid:135)(L, W, l ⊳, ⊲ left8d; ×

Pr(→ |d, l, r)

Pr(cid:135)(W, R, right8d; ⊳, ⊲ r) +

Pr(cid:135)(L, W, l, left8d; ×

Pr(↔ |d, l, r)

Pr(cid:135)(W, R, right8d; ⊳, ⊲ r)(cid:158) (3.6)

Pr(cid:135)(L, W, l ⊳, ⊲ left8d; ×

(cid:155)!

(cid:139),(cid:141)

∑ Pr(cid:154)(L, R, l, r)

Count(d, W, l, r) = Pr (S)

Pr(W|L, R, l, r)

Pr(d|W, l, r)

{Pr(← |d, l, r)

Pr(cid:135)(W, R, right8d;, r) +

Pr(cid:135)(L, W, l ⊳, ⊲ left8d; ×

Pr(→ |d, l, r)

Pr(cid:135)(W, R, right8d; ⊳, ⊲ r) +

Pr(cid:135)(L, W, l, left8d; ×

Pr(↔ |d, l, r)

Pr(cid:135)(L, W, l ⊳, ⊲ left8d;

Pr(cid:135)(W, R, right8d; ⊳, ⊲ r)(cid:158) (3.7)

(cid:155)!

∑

Pr(cid:142)(L, R, l, r)

Count(←, d, l, r) = (Pr (S))

Pr(W|L, R, l, r)Pr(d|W, l, r) ×

(cid:139),(cid:138),(cid:141) ×

Pr(← | d, l, r)

Pr(cid:135)(L, W, l ⊳, ⊲ left8d;

Pr(cid:135)(W, R, right8d;, r)

(cid:155)!

(cid:139),(cid:138),(cid:141)

∑

Count(→, d, l, r) = Pr (S)

Pr(W|L, R, l, r)

Pr(d|W, l, r) ×

Pr(cid:142)(L, R, l, r)

(3.8)

−

Pr(→ |d, l, r) Pr(cid:135)(L, W, l, left8d;Pr(cid:135)(W, R, right8d; ⊳, ⊲ r) (↔, d, l ,r)

∑

Count

= Pr

Pr(cid:142)(L, R, l, r)

(cid:139),(cid:138),(cid:141) ×

Pr(W|L, R, l, r) ×

(S) ←

⊳

⊲

Pr(d|W, l, r) ⊲

⊳

|d, l, r)

Pr(

Pr(cid:135)(L, W, l

left8d;

Pr(cid:135)(W, R, right8d;

r) (3.10)

(3.9)

∈

(cid:137)((cid:138))

∑

8match(l, left8d;)

Count(L, W, l ⊳, ⊲ left8d;)

Count(L, R, l, r) = ∑ (cid:139)(cid:140)(cid:138)(cid:140)¡ ×

Count(L, W, l, left8d;)

Count(W, R, right8d; ⊳, ⊲ r)

+ match(l, left8d;) ×

match(right8d;, r) ×

Count(W, R, right8d;, r);

Count(L, W, l ⊲ left8d;)

match(right8d;, r)

+ δ£(cid:135)(cid:139)(l) với δ là hàm nhận giá trị 1 nếu l = NIL, 0 nếu ngược lại, match nhận giá trị 1 nếu hai kết

Giá trị count(L, R, l, r) được tính trong giải thuật phân tích:

nối khớp nhau, 0 nếu ngược lại. Chú ý match(c,NIL) = match(NIL,c) = 0.

/⁄∈(cid:137)((cid:138)⁄)

Pr (W(cid:143), d)Pr(cid:135)

Pr(S) = ∑

(0, N, right8d;, NIL) Các giá trị Count (L, R, l, r), Count(W, l, r) và Count(d, l, r) được tính trực tiếp theo các

Giá trị Pr (S) được nêu trong các công thức trên được tính theo công thức sau:

kết nối và dạng tuyển xuất hiện trong bộ ngữ liệu.

3.3.2. Khử nhập nhằng liên hợp

Nhập nhằng liên hợp là hiện tượng nhập nhằng liên quan đến các cụm từ có vai trò

tương đương trong câu. Như đã nêu trong [70], từ “và” đóng một vai trò đặc biệt khi phân

tích một câu trên mô hình văn phạm liên kết vì nó có thể chứa kết nối thông thường cũng

103

như kết nối lớn.

Theo lý thuyết cấu trúc diễn ngôn, bản thân từ “và” cũng là một dấu hiệu diễn ngôn. Do

vậy cần phân biệt trường hợp từ “và” là dấu hiệu diễn ngôn và từ “và” chỉ nối hai từ hoặc

hai cụm từ đơn giản mà không phải hai mệnh đề.

Trong [66], Lê Thanh Hương cũng đề cập đến vấn đề nhập nhằng khi phân đoạn diễn

ngôn, trong đó một từ có thể đóng vai trò dấu hiệu diễn ngôn cũng như vai trò khác, với ví

dụ rõ ràng nhất là từ “and” trong tiếng Anh. Việc kiểm tra từ “and” có là dấu hiệu diễn

ngôn hay không được thực hiện bằng cách kiểm tra xem câu có còn đúng cú pháp hay

không khi loại bỏ từ đó. Ví dụ câu “Mary borrowed that book from our library, and she

returned it this morning”. Nhận xét này có thể cho ra kết quả thuyết phục trong tiếng Anh,

khi từ “and” là dấu hiệu diễn ngôn thường đi sau dấu phảy và các danh từ thường đi kèm

với mạo từ. Từ “và” trong tiếng Việt cũng có vai trò tương tự khi nó đóng vai trò liên từ.

Tuy nhiên trong tiếng Việt, từ “và” thường không đi kèm dấu phảy như “tôi học và anh

ngủ”. Hơn nữa, khi loại bỏ từ “và” trong cụm hai danh từ “nàng và công chúa” có thể dẫn

đến một cụm từ hoàn toàn đúng “nàng công chúa”, không thể làm câu sai cú pháp.

Nếu một dấu hiệu diễn ngôn được tìm thấy ngay sau sự xuất hiện của “và” và nếu biên

trái của đơn vị nguyên tố được tìm thấy ở bên trái của “và” thì một đơn vị nguyên tố mới

được xác định mà biên phải của đơn vị nguyên tố đó ở ngay trước “và”. Trong trường hợp

như vậy, “và” được xét có chức năng diễn ngôn.

Chẳng hạn với câu “Mặc dù trời mưa lớn và mặc dù mọi người đều ngăn cản, nó cứ đi”,

kết quả phân đoạn diễn ngôn sẽ là [Mặc dù trời mưa lớn] [và mặc dù mọi người đều ngăn

cản,] [nó cứ đi.]. Trong câu này từ “và” có vai trò diễn ngôn vì đứng ngay trước từ “mặc

dù” là dấu hiệu của quan hệ nhượng bộ.

Ngoài trường hợp nói trên, bộ phân tích nông trong[89] và bỏ qua mọi từ “và” khác với

hành động NOTHING

Nhận thấy trong cú pháp tiếng Việt, chủ ngữ có thủa mệnh đề xuất hiện trong câu ghép

chủ yếu là danh ngữ, vị ngữ chủ yếu là động ngữ hoặc tính ngữ. Có những loại nòng cốt

khác, chẳng hạn chủ ngữ là một động từ, tuy nhiên Luận án đề xuất giải thuật xử lý theo ý

tưởng sau:

Một cụm từ trong câu ghép là mệnh đề đúng nếu trong phân tích của nó bằng văn

104

phạm liên kết tồn tại ít nhất một liên kết SV (liên kết giữa chủ ngữ và động từ), liên kết SA

(liên kết chủ ngữ với tính từ) hoặc tổ hợp hai liên kết DT_LA và LA_DT (liên kết của từ

“là”)

Luận án đã giải quyết vấn đề nhập nhằng bằng cách phân tích cú pháp cụm từ xuất hiện

trước và sau từ “và”. Nếu cả hai cụm từ đó đúng cú pháp thì từ “và” đóng vai trò diễn

ngôn. Ngược lại nó đóng vai trò liên hợp. Điều đó được thể hiện ở giải thuật trong hình

3.11 và kết quả thực hiện phân tích câu “Tôi thích bánh và kẹo, anh thích rượu và bia”

trong hình 3.24.

Hình 3.24. Phân tích câu “Tôi thích bánh và kẹo, anh thích rượu và bia”

Khi phân tích cụm từ “Tôi đã ở Nghệ An và thành phố Hồ Chí Minh”, cụm từ “tôi đã ở

Nghệ An” là một mệnh đề, tuy nhiên cụm từ “thành phố Hồ Chí Minh” không phải là mệnh

đề nên từ “và” không là dấu hiệu diễn ngôn.

Với các bộ ngữ liệu mẫu được sử dụng cho bộ phân tích cú pháp câu ghép, việc khử

nhập nhằng liên hợp cải thiện rõ rệt kết quả phân tích diễn ngôn. So sánh kết quả phân tích

diễn ngôn có và không khử nhập nhằng được trình bày trong bảng 3.8 dưới đây.

Bộ đầu

Số lượng

Số

Số mệnh đề phân tích

Số mệnh đề phân tích đúng

vào

câu ghép

mệnh đề

(không khử nhập nhằng)

(có khử nhập nhằng)

62 (71.26%)

87 (100%)

27 (43.54%)

36 (58.06%)

33 (58.92%)

41(73.21%)

Bảng 3.8. So sánh kết quả phân tích diễn ngôn

Tỷ lệ mệnh đề phân tích đúng sau khi khử nhập nhằng tăng lên nhiều hay ít phụ thuộc

105

tần suất xuất hiện các từ gợi ý có thể gây nhập nhằng. Kết quả không đúng khi khử nhập

nhằng liên quan đến từ “và”, “hoặc”, dấu phảy chủ yếu do các mệnh đề chứa cụm danh từ

- tính từ. Cụm danh từ - tính từ có thể là nòng cốt nhưng cũng có thể chỉ là một danh ngữ

đóng vai trò chủ ngữ. Ví dụ trong câu “Sa Pa là “vương quốc” của hoa trái, đào hoa, đào

vàng to, đào vàng nhỏ, mận hậu, mận tím, mận tam hoa, hoa lay dơn, hoa mận, hoa lê, hoa

đào, hoa cúc, hoa hồng…đặc biệt là hoa bất tử sống mãi với thời gian”, dấu phảy gây nên

sự nhập nhằng. Các cụm từ như “đào vàng to”, “đào vàng nhỏ, “mận tím” được phân

tách thành những mệnh đề riêng biệt trong khi thực tế chúng chỉ là các danh ngữ đóng vai

trò minh chứng cho khẳng định trước từ “như”.

Khi đóng vai trò liên hợp, từ “và” sẽ có các kết nối sao cho nó đóng vai của từng phần

tử trong danh sách của nó. Dạng tuyển của từ “và” có kết nối lớn F. Kết nối F trỏ về hai

phía của từ “và”, ngoài ra, các kết nối của từ “và” là dạng mở rộng của F , tức là các kết

nối ban đầu của F. Điều này giúp từ “và” kết nối hai phần từ trong danh sách “và” lại với

nhau, đồng thời đóng vai các phần tử đó trong câu như đã trình bày trong chương 1.

Khi ứng dụng trên bộ phân tích cú pháp liên kết, kết quả nhận được như trong hình

3.25.

Hình 3.25. Một phân tích với kết nối F cho từ “và”

Tuy nhiên điều này lại có thể dẫn tới kết nối: . Dù văn phạm liên kết cho

phép chu trình, liên kết này không thể hiện mối liên hệ thực sự trong câu.

Để loại bỏ liên kết này, [111] thêm một số thông tin cho kết nối lớn và sửa lại điều kiện

khớp nhau của các kết nối. Mỗi kết nối được gắn thêm một quyền ưu tiên là 0, 1 và 2. Các

kết nối thông thường (không phải là kết nối lớn) có quyền ưu tiên là 0. Kết nối lớn trên từ

có quyền ưu tiên là 1, và kết nối lớn trên từ “và” có quyền ưu tiên là 2. Để hai kết nối

khớp với nhau, trước tiên chúng phải khớp với nhau theo tiêu chí bình thường, và quyền ưu

tiên của chúng phải tương thích: 0 tương thích với 0; 1 tương thích với 2; 2 tương thích với

106

1. Không có quyền ưu tiên nào tương thích nữa.

Phương pháp luận án áp dụng đã giải quyết khá hiệu quả một số trường hợp với từ “và”

trên thực tế. Tuy nhiên còn một số hiện tượng với từ “và” và được xử lý theo [111]

Trường hợp hay gặp nhất là danh sách có nhiều hơn hai phần tử, khi đó các phần tử

trong danh sách “và” được ngăn cách bằng dấu phảy. Ví dụ “ông, bà, bố và mẹ”. Khi ấy ,

dấu phảy sẽ có dạng tuyển (( G2 ) ( G1 , G2 )). Ở đây, chỉ số dưới biểu thị quyền ưu tiên của

kết nối.

Hình 3.26. Kết nối G nối nhiều dấu phảy và từ “và”

Trong ví dụ ở hình 3.26, dấu phảy thứ hai đã dùng dạng tuyển đó để kết nối với dấu

phảy thứ nhất qua kết nối G (ưu tiên 2, vì kết nối G của dấu phảy thứ nhất đã có ưu tiên 1),

sau đó kết nối G với ưu tiên 1 được dùng để kết nối dấu phảy thứ hai với từ “bố”, và kết

nối G với ưu tiên 2 được dùng để kết nối dấu phảy thứ hai với từ “và” (Kết nối G với ưu

tiên 1 đã dùng để kết nối từ “và” với từ “mẹ”).

3.4. Kết luận

Bài toán phân tích cú pháp là bài toán cốt yếu cần giải quyết khi xây dựng một mô hình

cú pháp mới. Với mô hình văn phạm liên kết được xây dựng cho tiếng Việt, bộ phân tích

• Phân tích cú pháp cho câu đơn.

• Phân tích cú pháp cho câu ghép với nhiều mệnh đề.

• Giải quyết khá trọn vẹn vấn đề nhập nhằng liên hợp.

• Thử nghiệm giải thuật khử nhập nhằng thành phần.

cú pháp liên kết của luận án đã giải quyết được các vấn đề sau:

Kết quả thực nghiệm của các giải thuật phân tích cú pháp là chấp nhận được. Tuy

nhiên, do sự phức tạp của ngôn ngữ tự nhiên cũng như hạn chế về thời gian, luận án chưa

giải quyết các vấn đề sau:

1. Phân tích cú pháp những loại câu mà một số thành phần có vị trí tùy ý. Bản chất

của văn phạm liên kết là văn phạm kiểu phụ thuộc nên vấn đề này không quá khó

khăn, tuy một số trường hợp có thể vi phạm tính phẳng.

2. Phân tích cú pháp cho những loại câu ghép không có liên từ. Vấn đề này cũng có

triển vọng giải quyết được. Khi kết luận một câu không đúng cú pháp, bộ phân tích

đã đưa ra được tất cả phân tích có thể của mọi cụm từ trong câu. Việc vi phạm tính

liên thông của phân tích có thể là dấu hiệu của liên từ còn thiếu. Để giải quyết trọn

vẹn vấn đề này cần phải có nhưng nghiên cứu sâu sắc hơn về ngôn ngữ cũng như

bộ ngữ liệu lớn.

3. Phân tích cú pháp cho câu phức. Đây cũng là vấn đề rất khó với các ngôn ngữ khác

và đỏi hỏi sử dụng các phương pháp thống kê để tìm ra giới hạn của mệnh đề. Hy

vọng vấn đề này sẽ được giải quyêt trong tương lai, khi đã xây dựng được bộ ngữ

liệu đủ lớn.

Một hướng phát triển khác cũng được quan tâm là tích hợp những mối liên kết về

ngữ nghĩa trong văn phạm liên kết tiếng Việt. Điều này là khả thi với mô hình văn

phạm liên kết cho phép biểu diễn phân tích câu bằng đồ thị liên kết có chu trình, tuy

108

nhiên đây cũng là vấn đề lớn, đòi hỏi đầu tư nhiều thời gian.

CHƯƠNG 4

HỆ THỐNG DỊCH MÁY

SỬ DỤNG DẠNG TUYỂN CÓ CHÚ GIẢI

4.1. Tổng quan về dịch máy

4.1.1.Tình hình phát triển dịch máy ở Việt Nam

Dịch máy là lĩnh vực đang rất được quan tâm của CNTT do nhu cầu chuyển ngữ một

số lượng lớn văn bản trong thời gian nhanh nhất. Theo Đinh Điền [3], các hướng tiếp cận

• Tiếp cận dựa trên luật: là hướng tiếp cận của nhiều hệ dịch liên quan đến tiếng Việt.

chính của dịch máy như sau:

Hướng này đạt hiệu quả khi dịch trong quy mô nhỏ, tuy nhiên, công sức xây dựng

• Tiếp cận thống kê: Khó đạt chất lượng cao đặc biệt khi bộ ngữ liệu có hạn. Khó

các hệ chuyển đổi rất lớn.

• Tiếp cận trên cơ sở tri thức: đòi hỏi “hiểu” toàn bộ văn bản, rất khó đạt được điều

theo dõi kết quả trung gian để can thiệp.

• Tiếp cận trên ví dụ: đơn giản về mặt lý thuyết, có thể cho chất lượng cao nếu văn

đó.

• Tiếp cận dựa trên ngữ liệu: khi có bộ ngữ liệu lớn, dùng phương pháp học máy rút

bản đơn giản, cấu trúc lặp đi lặp lại.

• Ngoài ra, một phương pháp lai giữa các phương pháp kể trên là lựa chọn của nhiều

ra quy luật ngôn ngữ. Dễ cập nhật những thay đổi, mở rộng của ngôn ngữ.

hệ thống dịch.

• Hệ thống EVtran-Vetran của Nacentech do TS Lê Khánh Hùng chủ trì [10].

• Hệ thống Vietgle của Lạc Việt.

• Hệ thống dịch Việt - Anh do PGS Phan Thị Tươi chủ trì [124].

• Hệ thống dịch Anh - Việt EVTS do PGS Hồ Sĩ Đàm chủ trì [93].

• Hệ thống dịch các tài liệu tin học của Đại học Khoa học Tự nhiên - ĐHQG TP Hồ

Hiện nay ở Việt nam đã xuất hiện một số hệ thống dịch máy như:

• Một số hệ thống dịch do các nhà nghiên cứu Việt Nam tại JAIST [115].

• Hệ thống Google Translation.

109

Chí Minh [3].

• Hệ thống dịch Anh - Việt dựa trên việc học luật chuyển đôi từ ngữ liệu song ngữ

của PGS Đinh Điền [3].

Các hệ thống kể trên chủ yếu là hệ thống dịch Anh - Việt để tận dụng nguồn tài nguyên

ngôn ngữ phong phú của tiếng Anh. Số lượng hệ thống dịch Việt - Anh là rất nhỏ: hệ thống

VEtran, Google Translation, một số hệ thống thử nghiệm của Đại học Bách khoa thành

phố Hồ Chí Minh, JAIST…Trong số đó, hai hệ thống được phổ biến rộng rãi là hệ thống

dịch của Google theo cách tiếp cận thống kê, hệ thống VEtran theo cách tiếp cận dựa trên

luật.

Sự khác biệt giữa tiếng Việt và tiếng Anh là sự khác biệt giữa một ngôn ngữ phương

đông và một ngôn ngữ phương Tây, tập trung ở một số lĩnh vực chính: hình thái, trật tự từ,

quan hệ phụ thuộc không liền kề (long distance dependency). Văn phạm liên kết, do tính từ

vựng hóa hoàn toàn, có khả năng thể hiện tốt sự phụ thuộc về hình thái (theo Schneider

[109]). Trật tự từ cũng có thể được phát hiện từ liên kết giữa các từ. Một số quan hệ giữa

các từ không liền kề có thể được biểu diễn bởi các liên kết, một số ít khác không thể biểu

diễn do vi phạm điều kiện về tính phẳng.

Sau khi xây dựng mô hình văn phạm liên kết tiếng Việt, luận án thử nghiệm mô hình

dịch máy như một minh chứng về khả năng biểu diễn các đặc trưng tiếng Việt của mô

hình.

Mô hình văn phạm liên kết đã được ứng dụng để xây dựng các hệ thống dịch từ tiếng

Anh sang các ngôn ngữ châu Âu như: tiếng Đức [135], Nga [134], Thổ Nhĩ Kỳ [133] hay

Sanskrit - một ngôn ngữ của Ấn độ [71] dựa trên việc chuyển đổi tương ứng các liên kết

giữa hai ngôn ngữ (riêng hệ thống dịch Anh-Nga có kết hợp thống kê). Các hệ thống đó đã

đáp ứng khá tốt những biến đổi về hình thái như thì, thể, giống, số, cách. Tuy nhiên, khi

ngôn ngữ nguồn và ngôn ngữ đích có sự khác biệt lớn về cú pháp và từ pháp, khó có thể

đưa ra những bản dịch có chất lượng. Đó cũng là lý do các hệ thống nói trên chỉ dừng ở

mức thử nghiệm cho một tập câu nhỏ. Một hệ thống dịch khác dựa trên văn phạm liên kết

là hệ thống dịch của đại học Petronas, Malaysia [29], [30], [129] dịch từ tiếng Anh sang

tiếng Indonesia. Hệ thống cho phép tra nghĩa từ, biến đổi cú pháp thông qua dạng tuyển có

chú giải (Annotated Disjunct - ADJ). Hệ thống đã cho kết quả dịch khá tốt sang tiếng

Indonesia - một ngôn ngữ Đông Nam Á cũng chưa có được nguồn tài nguyên phong phú

để xử lý tự động như tiếng Việt.

Hệ thống dịch của luận án đã chọn công cụ ADJ. Mỗi ADJ thực chất chứa: một từ của

110

ngôn ngữ nguồn, dạng tuyển của nó và nghĩa tương ứng của từ trong ngôn ngữ đích khi đi

với dạng tuyển đã cho. Từ điển ADJ cho phép xác định nghĩa chính xác của từ theo cấu

trúc liên kết trong câu.

Xây dựng bộ luật chuyển đổi cú pháp là công việc bắt buộc cho mỗi hệ thống dịch dựa

trên luật. Với hai vấn đề chính được nhóm Nguyễn Phương Thái [115] đề cập là khác biệt

về hình thái và trật tự từ, mô hình văn phạm liên kết tỏ ra rất có ưu thế để biến đổi hình

thái từ, trong khi biến đổi trật tự từ cũng khá dễ dàng do cấu trúc của phân tích liên kết khá

đơn giản.

4.1.2. Phương pháp đánh giá chất lượng dịch máy

Đánh giá chất lượng dịch máy là vấn đề khó. Ngay cả khi bản dịch được con người

đánh giá cũng còn có nhiều ý kiến khác nhau về chất lượng. Đối với dịch máy tự động, cần

đưa ra những tiêu chí để lượng hóa độ chính xác của bản dịch. Hai tiêu chí sau đây được

• Độ tương ứng (adequacy): Lượng thông tin của bản dịch tham chiếu có trong bản

hầu hết các phương pháp đánh giá tự động quan tâm:

• Độ trôi chảy (fluency): Bản dịch có thể hiện đúng những cấu trúc thường dùng

dịch được đánh giá.

trong tự nhiên của ngôn ngứ đích không.

Các hướng tiếp cận chính dể tự động đánh giá chất lượng bản dịch, đó là: dựa trên độ

chính xác (BLEU, NIST) [51], dựa trên độ phủ (METEOR), dựa trên đánh giá khoảng cách

Levenshtein, dựa trên tỷ lệ lỗi...

Phương pháp BLEU (BiLingual Evaluation Understudy) do Papineni [100] đề xuất. Đây

là phương pháp sử dụng trung bình có trọng số của các phép so sánh cụm từ có chiều dài

thay đổi của bản dịch đang xét với bản dịch tham khảo, kết hợp với việc đánh giá độ dài

bản dịch. BLEU được sử dụng phổ biến nhất để đánh giá chất lượng dịch máy ở trong và

ngoài nước. Luận án đã chọn độ đo BLEU để đánh giá chất lượng bản dịch. Điểm BLEU

BLEU = BP. exp (ƒ w(cid:31)log p(cid:31))

(cid:31) !

được tính theo công thức:

hay theo thang loga

111

logBLEU = min(1 −

, 0) + ƒ w(cid:31)

logp(cid:31)

r c

(cid:31) !

Trong đó, BP là điểm phạt dịch ngắn (brevity penalty) được tính theo công thức:

1 nếu c > (cid:17) !(cid:155)(cid:130)/“ e nếu c ≤ r

BP = U c là độ dài bản dịch đang xét, r là độ dài bản dịch tham chiếu.

pn là tỷ lệ n-gram phù hợp giữa bản dịch đang xét và bản dịch tham chiếu, được tính

›∈{›‹(cid:31)/(cid:29)/‹*-((cid:158)

(cid:31)(cid:155)(cid:131)(cid:130)‹>∈›

p(cid:31) =

∑ ›ﬂ∈{›‹(cid:31)/(cid:29)/‹*-((cid:158)

∑

Count“.(cid:29)B(n − gram) Count“.(cid:29)B(n − gram′)

∑ (cid:31)(cid:155)(cid:131)(cid:130)‹>ﬂ∈›ﬂ ∑ Ở đây n-gram liên quan đến bản dịch đang xét, còn n-gram’ liên quan đến bản dịch tham

theo công thức sau:

chiếu.

4.2. Khác biệt ngôn ngữ Việt - Anh

Có nhiều điểm khác biệt về hình thái từ giữa hai ngôn ngữ Việt – Anh. Tuy nhiên

không phải mọi sự khác biệt có thể xử lý trong hệ dịch máy. Với mô hình văn phạm liên

kết, có thể xây dựng tập luật đọc được bằng máy một cách khá đơn giản để vượt qua hầu

hết những khác biệt đó. Trước khi đi vào chi tiết, luận án điểm lại những khác biệt cơ bản

giữa hai ngôn ngữ Việt – Anh.

4.2.1. Khác biệt hình thái

Dù có nhiều nét tương đồng với tiếng Anh như tuân theo cùng trật tự câu SVO, sự khác

biệt giữa tiếng Việt và tiếng Anh là rất lớn. Theo phân loại về ngôn ngữ của Stankevich

được nhắc đến trong [21], tiếng Việt được xếp vào loại ngôn ngữ phân tích (đơn) hay còn

gọi là loại hình phi hình thái với đặc điểm: trong hoạt động ngôn ngữ, từ không biến đổi

hình thái, ý nghĩa ngữ pháp nằm ở ngoài từ (theo Đinh Điền [4]). Tiếng Anh thuộc loại

ngôn ngữ tổng hợp, có biến đổi hình thái, tuy các quy tắc biến đổi hình thái không chặt chẽ

như tiếng Nga hay tiếng Pháp. Bảng 4.1. dưới đây cho thấy những khác biệt chủ yếu về

112

hình thái giữa tiếng Việt và tiếng Anh.

Bảng 4.1. Những khác biệt quan trọng về hình thái giữa tiếng Việt và tiếng Anh

Mô tả

Đặc điểm trong câu tiếng Việt Kết nối

Cần biến đổi trong tiếng Anh

Danh từ số nhiều

Từ chỉ số nhiều(nhiều, một vài,

DpNt

+”s”, một số

từ đặc biệt, ví dụ

một số, số từ...)+danh từ

McNt

automaton → automata

Số từ (khác “một”,1)

Động từ thì hiện

Không thay đổi hình thái

SV+

Thêm “s” khi chủ ngữ là danh từ hoặc

tại

đại từ xưng hô ngôi thứ ba số ít

Động từ thì quá

Từ chỉ thì quá khứ (đã, từng..

VtRp

Infinitive + “ed”. một số động từ đặc

khứ

.)+động từ

biệt, ví dụ sing → sang

Động từ + “rồi”

Động từ thì hiện

{“đang”,”hiện” } +động từ

RtVt

“tobe” + Infinitive + “ing”

tại tiếp diễn

Động từ thì hiện

{Từ chỉ quá khứ} + động từ +

XONG

“have”,”has” + Past Participle

tại hoàn thành

“xong”

So sánh bằng

tính từ + “như”+

Ap-NHU,

“as”+adjective+”as”, object pronoun

NHU-Pp

So sánh

Tính từ + “hơn”

TT_SS1

Comparative adjective+”than”+ object

hơn kém

Động từ+Tính từ +”hơn”

pronoun

Comparative

adverb+”than”+ object

pronoun

So sánh cấp cao

Tính từ +”nhất”

TT_SS2

“the” + superlative adjective

nhất

“the” + superlative adverb

Sở hữu

“của”, “thuộc về” + danh từ ,đại

EoNt

+”’s”, cũng có thể + “of” + object

từ; hai danh từ thuộc một số

SHA

pronoun

Possessive

adjective,possessive

loại đi liền nhau

pronoun, noun in possessive form

Danh từ chỉ chất

“bằng”,”từ” + danh từ chỉ chất

Chuyển

sang

tính

từ

tương ứng

liệu

NtEm

(rock→rocky)

Danh từ+danh từ chỉ chất liệu

Tính từ làm vị

Động từ “to be”+ adjective

ngữ

Sự khôn ngoan, việc xây dựng

Đánh dấu xóa các từ này trongbản dịch

Tính từ, động từ

tiếng Anh

đứng sau “sự”,”

việc”

Danh từ chỉ loại

Đi kèm danh từ cụ thể

McNc-&

Xóa các từ này nếu số từ đi kèm khác

NcNt+

“một”,”1”

Ngược lại dịch sang mạo từ tiếng Anh

“the”, “a”

113

Ngoài những khác biệt về hình thái trên, còn những khác biệt của một số loại từ đặc

biệt. Những khác biệt này đòi hỏi xử lý trong quá trình dịch Việt - Anh

Đại từ xưng hô

Việc sử dụng đại từ xưng hô trong tiếng Việt rất phức tạp. Khi dịch sang ngôn ngữ khác

đòi hỏi nhiều luật để bao quát hết các trường hợp. Bảng 4.2. dưới đây liệt kê các đại từ

tiếng Anh được sử dụng ở các trường hợp khác nhau.

Số ít

Số nhiều

Chủ cách

Tân cách

Chủ cách

Tân cách

Ngôi thứ nhất

you

Ngôi thứ hai

you

Giống

him

đực

Ngôi

her

Giống cái

she

thứ

they

them

Giống

trung

Bảng 4.2. Đại từ xưng hô tiếng Anh

Có thể thấy số lượng đại từ xưng hô trong tiếng Anh là khá nhỏ, lại liên hệ chặt chẽ với

cấu trúc ngữ pháp. Đại từ xưng hô tiếng Việt và những cụm từ có chức năng như đại từ

xưng hô được liệt kê trong bảng 4.3.

Ngôi thứ nhất

tôi, tao, tớ, mình, ta

Ngôi thứ hai

anh, cậu, bạn, ấy, chị,ngươi, mày, bay, khanh

Giống

nó, hắn, y

Số ít

đực

Ngôi thứ

Giống cái

nó, cô, cổ, thị

Giống

nó

trung

Ngôi thứ nhất

chúng tôi, chúng ta, chúng tớ, chúng mình

các cậu, các anh, các cô, các bác, chúng mày,

Số nhiều

Ngôi thứ hai

các ngươi, các khanh, bọn bay, bọn mày

Ngôi thứ ba

họ, chúng, chúng nó, bọn họ

114

Bảng 4.3. Đại từ xưng hô tiếng Việt

Bảng trên đây được tổng kết theo [1], [2], [8], [28]. Do sự phong phú của tiếng Việt,

một đại từ xưng hô tiếng Anh có thể tương ứng với khá nhiều đại từ xưng hô tiếng Việt, ví

dụ đại từ “they” tiếng Anh có thể là bản dịch của “các anh ấy”, “các cô ấy”, “chúng nó”,

“bọn chúng”, “chúng”, “bọn nó”, “họ”. Không phải tất cả các từ này đều xuất hiện trong

từ điển tiếng Việt như những mục từ riêng biệt. Trong hầu hết các từ điển không có từ “cô

ấy”, “các cậu”, được hiểu là những cụm từ.

Động từ “đi”

Trong tiếng Việt, động từ đi có thể dùng với động từ khác như “đi học”, “đi chơi”, “đi

bơi”... Khi dịch sang tiếng Anh, phần lớn động từ đứng sau động từ “đi” được thay thế

bằng danh động từ, ví dụ: “ đi bơi” – “go swimming”, “đi mua sắm” – “go shopping”…tuy

nhiên cũng có những ngoại lệ như “đi học” – “go to school”, “đi chơi” – “go out”.

4.2.2. Khác biệt về trật tự từ

Tiếng Việt và tiếng Anh chủ yếu có những khác biệt sau về trật tự từ:

Trật tự trong cụm danh từ - tính từ

Trong tiếng Anh, tính từ luôn đứng trước danh từ trong khi với tiếng tiếng Việt danh từ

lại đứng trước tính từ (trừ một số ngoại lệ như trong cụm từ “nghèo tài nguyên”với kết nối

AN). Dưới đây là hình ảnh minh họa việc sắp xếp lại thứ tự từ:

Hình 4.1.Sắp xếp lại trật tự từ

Khi dịch câu “tôi mua chiếc ví đỏ”, kết quả trả ra cần là “I buy the red wallet”. Ở kết

quả, từ “red” (tính từ) đứng trước “wallet” (danh từ). Điều này là kết quả của việc từ “ví” ở

vị trí thứ 4 trong câu nguồn đã được ánh xạ thành từ “wallet” ở vị trí thứ 5 trong câu đích,

trong khi từ “đỏ” ở vị trí thứ 5 trong câu nguồn thì được ánh xạ thành từ “red” ở vị trí thứ

4 trong câu đích. Việc thay đổi trật tự cho cụm hai, ba tính từ đi sau danh từ cũng tương tự

115

như vậy.

Trật tự câu nghi vấn, câu nghi vấn – phủ định:

Dạng câu hỏi thường dùng nhất trong tiếng Việt liên quan đến từ (cụm từ) để hỏi, ví

dụ “tại sao”, “ai”, “như thế nào”. Các từ này thường ở đầu hoặc cuối câu. Trong dạng câu

hỏi “wh” tiếng Anh, từ để hỏi luôn luôn đứng trước. Do vậy cần biến đổi trật tự từ, cũng

như thêm trợ động từ ...thích hợp.

Trật tự từ không lân cận

Trật tự từ không lân cận là sự phụ thuộc được xác lập giữa các từ cách nhau một

khoảng nhất định. Phụ thuộc dạng này có thể do “khoảng trống” (gap) tạo nên bởi sự thay

đổi vị trí của từ nào đó, ví dụ “Quà cưới cho cô dâu, tôi đã gửi rồi”, hay trong các câu

ghép, câu phức với nhiều mệnh đề như “Cái áo tôi mua hôm qua rất đẹp”. Khi dịch sang

tiếng Anh, để đảm bảo nghĩa của câu, thường phải thay đổi vị trí của từ, nhưng sự thay đổi

vị trí cho loại câu này khó có thể biểu diễn một cách đơn giản bằng những luật dịch. Việc

phân tích cũng như dịch loại câu này đòi hỏi những phương pháp thống kê, học máy với

những bộ ngữ liệu lớn mà chúng tôi chưa có điều kiện xây dựng.

4.3. Hệ thống dịch máy sử dụng dạng tuyển có chú giải

Khi dịch máy với cấu trúc hai ngôn ngữ nguồn - đích khác nhau, những vấn đề sau

• Tìm nghĩa chính xác của từ - giải quyết nhập nhằng nghĩa từ và từ loại.

• Khắc phục sự khác biệt về hình thái của hai ngôn ngữ.

• Khắc phục sự khác biệt về trật tự từ.

luôn luôn được đặt ra:

Những vấn đề này đòi hỏi phân tích cú pháp mới giải quyết được trọn vẹn. Do văn

phạm liên kết thể hiện mối liên kết trực tiếp giữa các từ với nhau, các xử lý nói trên được

thực hiện dễ dàng hơn.

Dạng tuyển có chú giải

Dạng tuyển có chú giải (Annotated Disjunct, viết tắt là ADJ) lưu trữ nghĩa của một từ

khi đi với dạng tuyển nào đó. Ví dụ, từ “cô” với dạng tuyển ((O) (NtPd)) sẽ có nghĩa là

“her”, trong khi đi với dạng tuyển (( )(NtPd,SV)) có nghĩa là “she”, hay khi đi với dạng

tuyển (( )(SHA)) từ đó lại có nghĩa là “aunt” (liên kết SHA là sở hữu ẩn, dùng liên kết các

cụm từ như “cô tôi”).

Dạng tuyển có chú giải là một tổ hợp bao gồm (, , )

116

trong đó dạng tuyển thuộc về từ nguồn. Từ đích là nghĩa của từ nguồn trong ngôn ngữ đích

khi đi với dạng tuyển tương ứng. Trong hệ thống dịch Việt - Anh, các dạng tuyển có chú

giải của câu “tôi yêu cô ấy” sẽ là:

(tôi, I,(()(SV)))

(yêu, love, ((SV)(O)))

(cô, her, ((O)(NtPd)))

(ấy,!,((NPd)()))

Dấu ! chỉ ra từ sẽ bị xóa khi dịch.

Như đã trình bày ở chương đầu, bộ phân tích cú pháp liên kết không sử dụng bộ gán

nhãn từ loại. Từ loại được phát hiện thông qua các liên kết của nó. Do vậy, không chỉ tránh

được sai sót về loại từ mà còn tìm ra được nghĩa chính xác hơn cho từ.

Để xây dựng bộ dịch dựa trên dạng tuyển có chú giải, ba vấn đề quan trọng nhất phải

giải quyết là:

1. Tìm nghĩa từ

2. Chuyển đổi cấu trúc câu

3. Hoàn thiện bản dịch

Hình 4.2. dưới đây mô tả kiến trúc của hệ dịch Việt - Anh dựa trên dạng tuyển có chú giải.

• Phần tiền xử lý thực hiện tách từ cho câu đưa vào. Hệ thống sử dụng bộ tách từ

Hệ thống gồm 3 phần chính:

• Phần phân tích thực hiện phân tích cú pháp bằng bộ phân tích cú pháp liên kết. Trong

vnTokenizer.

khỏang thời gian có hạn, luận án không đề cập vấn đề dịch câu ghép nên kết quả nhận

được từ bộ phân tích cú pháp là một phân tích liên kết của câu đơn hoặc câu ghép hai

mệnh đề. Qua phân tích các liên kết tìm được, hệ thống xác định các thuộc tính liên

• Phần tổng hợp cho phép tạo ra bản dịch bao gồm:

quan đến ngôi, số, thì, thể...

- Dịch một số cụm từ đặc biệt: “đi học”, “bọn chúng nó”...

- Tra nghĩa từ theo dạng tuyển trong từ điển ADJ.

- Thay đổi hình thái từ dựa trên các thuộc tính tìm được (hiện thực hóa).

- Tìm phương án dịch tổng thể tốt nhất.

Ngoài bộ phân tích cú pháp, từ điển ADJ và tập luật dịch là những thành phần quan

trọng nhất của hệ thống dịch. Những thành phần khác như danh mục động từ bất quy tắc,

từ điển thành ngữ, bộ ngữ liệu tiếng Anh cũng hỗ trợ đắc lực cho hệ thống dịch để tạo ra

117

những bản dịch chất lượng tốt.

Hình 4.2. Kiến trúc của hệ dịch dựa trên dạng tuyển có chú giải

4.3.1.Tìm nghĩa từ trong từ điển ADJ

Từ điển ADJ sẽ tập hợp tất cả các ADJ của ngôn ngữ. Về nguyên tắc, từ điển ADJ phải

bao gồm các bộ ba: từ, dạng tuyển và nghĩa của từ trong tiếng Anh khi sử dụng với dạng

tuyển tương ứng. Tuy nhiên, số dạng tuyển của mỗi từ là rất lớn. Khi từ điển song ngữ đã

gồm gần 100.000 mục từ, mỗi mục từ đó lại được gắn với mọi dạng tuyển của từ nguồn,

kích cỡ của từ điển ADJ sẽ vô cùng lớn. Luận án đã chỉnh sửa từ điển văn phạm liên kết

hướng tới công thức chỉ thể hiện một cách sử dụng của từ.

Như vậy, với cấu trúc tương tự như từ điển văn phạm liên kết, từ điển ADJ có thêm

nghĩa tiếng Anh của từ bên cạnh công thức, và từ điển ADJ có thể thay thế từ điển văn

phạm liên kết trong giai đoạn phân tích cú pháp.

118

Dưới đây là ví dụ một đoạn trích trong từ điển ADJ:

bởi_vì,vì because: (GT_DT+ or CL+) & {PH+} & (EV- or (CO+ or QHT+))

sở_dĩ !

là_do,là_vì because

rằng that: R- & CL+

/verb.transitive.trans: ((({TĐT1-} & {TĐT2_1-} & {RpVt- or RtVt- or

RfVt- or RhVt-} & {TĐT4-}) or TT_ĐT- or ({TT_ĐT-} & TĐT5-)) & {SV- or

ĐT_ĐT- or THI_ĐT- or LT_ĐT- or BI-} & {ĐT_XONG+} & {O+} & {ĐT_TT+} &

{ĐT_GT+} & {ĐT_LT+} & {THT- or THS+} & ({EV+} & {SDT5- or CL-} & {CO-}))

or ({SV-} & BI-)

Trong từ điển ADJ, mục /verb.transitive.trans là mục chứa công thức liên kết của các

động từ ngoại động (trừ một số ngoại lệ có công thức liên kết riêng) nên được liên kết với

một tệp chỉ nghĩa của từng động từ với công thức liên kết đã nêu. Sau đây là nội dung của

những dòng đầu tiên trong tệp:

a_dua ape

a_dua flatter

a_dua follow

a_dua jawn_upon

a_tòng act_as_an_accomplice_to

a_tòng imitate

am_hiểu know_well

am_hiểu realize

Xâu rỗng trong từ điển được biểu diễn bằng dấu ”!”.

4.3.2.Xây dựng bộ luật dịch

Như đã trình bày trong sơ đồ dịch của hệ thống ở hình 4.2, hệ thống dịch cần sử dụng

ba tập luật liên quan đến các công việc khác nhau: phát hiện thuộc tính, dịch cụm từ,

chuyển đổi cấu trúc. Dưới đây là mô tả chi tiết các luật điển hình và văn phạm phi ngữ

cảnh sinh ra bộ luật.

Trong các luật, ký hiệu W1, W2, W3 đại diện cho các từ, D1, D2, D3 chỉ dãy các tên kết

nối thuộc danh sách trái hay phải của một dạng tuyển nào đó.

Luật phát hiện thuộc tính

Thuộc tính ở đây là những thông tin cần được lưu trữ lại cho mỗi từ để biến đổi hình

thái thích hợp, ví dụ, số nhiều của danh từ, thì, thể của động từ, ngôi của đại từ, loại cấu

trúc so sánh (so sánh ngang bằng, so sánh hơn kém, so sánh bậc nhất). Dưới đây là một số

119

ví dụ về luật phát hiện thuộc tính.

• Luật phát hiện thuộc tính về số nhiều của danh từ. Căn cứ vào kết nối DpNt của những

định từ chỉ số nhiều “những”, “các”,”số đông” có thể đưa giá trị PLURAL vào thuộc

tính của danh từ liên kết với chúng:

W1(D1)(DpNt) W2(DpNt)(D2) → W1’W2’(number = PLURAL) (4.1)

• Luật phát hiện thuộc tính thì của động từ. Thì của động từ được thể hiện bằng các liên

kết với các phụ từ chỉ thì. Thì quá khứ được thể hiện qua các liên kết RpVt, RpVs, thì

tương lai RfVt, RfVs, tiếp diễn RcVt, RcVc, hoàn thành RhVt, RhVc. Các liên kết của

thời quá khứ hay tương lai xuất hiện trong phân tích sẽ được xử lý theo các luật nhằm

xác định thuộc tính tense cho động từ. Với những thì phức tạp hơn như các thì tiếp diễn

hay hoàn thành, không chỉ biến đổi hình thái động từ mà còn thêm từ khác như “to

be”, “to have”, do vậy thuộc tính được xác định giá trị là thuộc tính form.

W1(D1)(RpVt) W2(RpVt)(D2)→

(4.2)

W1’W2’(tense = PAST)

W1(D1)(RfVt) *(RfVt)(D2) →

W1’W2’(tense = FUTURE) (4.3)

W1(D1)(RtVt) W2(RtVt)(D2) →

W1’W2’(tense = PRESENT) (4.4)

W1(D1)(RhVt) W2(RhVt)(D2) →

W1’W2’(tense = PRESENT_PARTICIPLE) (4.5)

• Luật xác định ngôi của đại từ xưng hô: đối với đại từ xưng hô thì không cần căn cứ

vào liên kết vì trong tiếng Việt số lượng đại từ xưng hô là khá nhỏ, do vậy luật căn cứ

vào chính giá trị từ và loại của từ để xác định ngôi:

tôi[p]→ I(person = FIRST) (4.6)

anh[p]→ you (person = SECOND) (4.7)

nó[p]→ he (person = THIRD) (4.8)

Ký hiệu [p] trong luât thể hiện loại của từ đứng ngay bên trái. Thông tin này có trong

từ điển liên kết.

Sau khi xác định được ngôi của đại từ xưng hô, thuộc tính về ngôi phải được lan truyền

cho động từ để chia đúng ngôi, đặc biệt là động từ “là” vì động từ “to be” tương ứng chia

khác nhau ở tất cả các ngôi thể hiện qua các luật sau:

W1(D1)(SV) W2(SV)(D2)

→ W1’W2’(person = W1’.person) (4.9)

Động từ “là”

W1(D1)(DT_LA) W2(DT_LA)(D2)

→ W1’W2’(person = W1’.person) (4.10)

120

Luật dịch cụm từ

Dịch cụm từ sang đại từ xưng hô tiếng Anh

Cách xưng hô trong tiếng Việt rất phức tạp. Ngay cả các bộ từ điển cũng có những

quan điểm khác nhau về từ loại của những cụm từ có tính chất xưng hô. Ví dụ “chúng tôi”,

“chúng ta” xuất hiện với vai trò đại từ xưng hô, tuy nhiên những đối tượng cùng nghĩa

“bọn tôi”, “chúng tớ” với hầu hết các từ điển lại được coi là cụm gồm hai từ. Tất cả

những từ đã nói đều chỉ được dịch sang tiếng Anh là “we”. Cũng như vậy, “cô ấy “ luôn

được coi là cụm gồm danh từ “cô” và đại từ chỉ định “ấy”,”ta”, hay danh từ “nàng”. Mối

liên hệ của từ “cô” thông qua liên kết NtPd+ và SV+ cho phép dịch “cô ấy” thành “she” ,

còn NtPd+ và O- hay EpNt cho phép dịch “cô ấy” thành “her”:

cô(D1)(NtPd,SV) W2(NtPd)(D2) → she W2’ (4.11)

W1(D1)(EpNt) cô(EpNt)(NtPd) W2(NtPd)(D2) → W1’ her (4.12)

Sau đó, tất nhiên cũng cần những luật để gán thông tin về ngôi cho động từ tương ứng.

Rõ ràng việc dịch từng từ không thể cho những bản dịch có chất lượng cao vì bất cứ

ngôn ngữ nào cũng có những cụm từ mà khi tách rời từng từ sẽ vô nghĩa hoặc mang nghĩa

khác hẳn. Đối với những cụm từ là thành ngữ cần sử dụng từ điển thành ngữ. Luật chỉ

được xác lập cho những cụm từ có cấu trúc cụ thểm thường được sử dụng trong tiếng Việt.

Cụm từ với từ “đi”

Từ “đi” đóng một vai trò khá đặc biệt khi dịch Việt - Anh. Trong tiếng Việt, từ “đi “ có

thể kết hợp với một số động từ thường, như “đi bơi”, “đi mua sắm”, “đi học”, “đi chơi”.

Hiện tượng này đã được thể hiện trong từ điển liên kết với liên kết DI cho động từ “đi” và

một số động từ khác. Trong nhiều trường hợp, công thức dịch sẽ là go + verb + ing (go

swimming, go fishing... )

đi(D1)(DI) W2(DI)(D2) →

go W2’(form = PRESENT_PARTICIPLE) (4.13)

Một số ngoại lệ : “đi học” --> “go to school”, “đi chơi”-->“go out”, “đi ngủ” --> “go to

bed” đã được thể hiện qua những luật dịch riêng:

đi(D1)(DI) học(DI)(D2) → go to school[n] (4.14)

đi(D1)(DI) làm(DI)(D2) → go to work[n] (4.15)

Luật dịch quan hệ sở hữu

Quan hệ sở hữu trong tiếng Việt có thể rõ ràng thông qua giới từ “của” (đôi khi là danh

từ “nhà”, ví dụ “lợn nhà tôi”). Các luật dịch sẽ chuyển đại từ đi sau giới từ “của” sang

121

tính từ sở hữu, danh từ sang sở hữu cách.

Ví dụ

của()(EoPp) tôi(EoPp)() → my (4.16)

của ()(EoPp) anh(EoPp)() → his (4.17)

Trong tiếng Việt còn có quan hệ sở hữu ẩn (không có từ “của”). Khi phân tích câu có

quan hệ sở hữu ẩn, cần những luật dịch thể hiện quan hệ đó, ví dụ:

W1(D1)(SHA) tôi(SHA)(D2)→ my W1’ (4.18)

W1(D1)(SHA) nàng(SHA)(D2)→ her W1’ (4.19)

Luật thay đổi trật tự từ

Việc hoán đổi vị trí các từ và cụm từ cần chú ý tới tính đúng cú pháp của câu đích. Khi

hai từ có liên kết trong câu nguồn thì liên kết đó vẫn cần bảo tồn trong câu đích, trừ trường

hợp có từ bị loại bỏ. Sau khi thực hiện hoán đổi vị trí, các từ trong câu đích cũng cần phải

tạo thành câu đúng cú pháp liên kết, đặc biệt là tính phẳng. Khi hai từ đổi vị trí cho nhau,

liên kết giữa chúng ở câu đích sẽ đổi chiều, kết nối trong dạng tuyển tương ứng sẽ chuyển

từ danh sách bên trái của dạng tuyển sang danh sách bên phải hoặc ngược lại. Để các liên

kết trong câu đích không cắt nhau, các từ nằm trong khoảng giữa hai từ cũng cần di chuyển

thích hợp. Xét các bước dịch trong hình 4.3.

Dòng thứ hai trong hình chỉ nghĩa tiếng Anh tương ứng của các từ ở dòng thứ nhất. Nếu

các từ “girl”, “little” và “pretty” đổi vị trí, liên kết giữa chúng cũng sẽ đổi chiều, dạng

tuyển thay đổi. Do vậy không chỉ có hai từ đổi vị trí mà phải đổi vị trí hai cụm từ “very

pretty” với các từ “little” và “girl” do có liên kết RlAp giữa “very” và “pretty”, liên kết SA

giữa “girl” với “little” và “pretty”. Việc đổi chỗ không ảnh hưởng tới tính phẳng của phân

tích nên ta nhận được kết quả cuối cùng ở dòng thứ 3.

122

Hình 4.3. Thay đổi trật tự từ cho bản dịch câu “Cô gái nhỏ rất xinh”

Luật đổi vị trí danh từ - tính từ

Sau đây là một số luật cho phép thay đổi vị trí giữa tính từ bổ nghĩa cho danh từ và tính

từ bổ nghĩa cho tính từ khác. Trong tiếng Việt thường chỉ có đến 2 tính từ bổ nghĩa cho

một danh từ (không phân cách bằng dấu phảy).

W1(D1)(ApAp) W2(ApAp)(D2) → W2’ W1’ (4.20)

W1(D1)(SA SA) W2(SA)(D2) W3(SA)() → W3’ W2’ W1’ (4.21)

W1(D1)(SA) W2(SA)(D2) → W2’ W1’ (4.22)

Luật dịch cấu trúc phủ định

Các từ chỉ ra cấu trúc phủ định là các phụ từ phủ định “không”, “chẳng”, “chưa”...

(loại từ là Rn). Kết nối giữa loại từ này với động từ là RnV. Khi dịch cấu trúc này cần chú

ý đến việc chia động từ phù hợp với thì của động từ ở câu nguồn (từ “chưa” tương ứng thì

hiện tại hoàn thành, các từ khác dịch sang thời hiện tại:

W1(D1)(SV) chưa(D2)(RnV) W3(RnV SV)(D3) ->

W1’(D1’)(D2’) have(number = W3. number, person = W3. person)[v](D2’)

(N _PP_) not(N)(D3’) W3’(negative = FALSE)(_PP_)(D4’) (4.23)

Luật dịch cấu trúc nghi vấn

Trong tiếng Việt có một số từ (cụm từ) để hỏi như “tại sao”, “khi nào”... Từ để hỏi có

thể đúng đầu hoặc cuối câu. Nhận biêt cấu trúc này thông qua kết nối THT (từ hỏi đứng

đầu câu) hoặc THS (từ hỏi đứng cuối câu). Khi dịch sang tiếng Anh với các động từ thông

thường (không phải động từ “to be”) cần thêm trợ động từ vào giữa từ để hỏi và chủ ngữ.

Ví dụ luật dưới đây cho phép dịch câu hỏi với từ để hỏi đứng đầu câu và phủ định từ

W1()(THT) W2(D2)(SV) W3()(RnV) W4(RnV SV THT)() →

W1’do(number = W4.number,person = W4.person,tense = 4.tense,

contracted-negation = TRUE)[v]()(_I_) W2 W4(_I_)() (4.24)

Cú pháp của luật dịch

Luận án đã đưa ra một văn phạm phi ngữ cảnh để biểu diễn các luật ở dạng máy đọc

được. Cú pháp được mô tả bằng EBNF như sau:

::=

::= “ :”

::= +

::= “-->“ | “__>“

::= *

::=

::= “*” |

123

::= “(““)” “(“ “)”

::= ()*

::= [][:][]

::= “(“ ()+”)”

::= “$” []

::= []

Các đối tượng sau được tiền xử lý và coi như ký hiệu kết thúc:

: Tên tự đặt cho luật hay hàm

: từ

: số tự nhiên

Vế trái

Vế trái của luật gồm một số từ và các dạng tuyển để liên kết các từ đó với nhau. Có

một chút khác biệt giữa dạng tuyển của các từ và dạng tuyển được mô tả trong luật. Dạng

tuyển trong luật chỉ nêu những kết nối mà luật sẽ xử lý. Trước và sau các kết nối này trong

dạng tuyển của từng từ có thể có các kết nối khác.Chẳng hạn, dạng tuyển ( )(SA, SA) xuất

hiên trong luật nghĩa là luật sẽ xử lý hai kết nối liên tiếp có tên SA trong danh sách phải và

không xử lý kết nối nào trong danh sách trái.

Ví dụ: Vế trái sau đây mô tả cụm từ “đi học”. Cụm này gồm từ “đi” và từ “học” Hai từ

liên kết với nhau bằng liên kết DI

đi(SV)(DI) học(DI)()

Trong khi đó, vế trái

anh(O)(NtPd) *(NtPd)()

mô tả cụm từ bao gồm từ “anh” và một từ bất kỳ có liên kết NtPd về bên trái (“ấy”.

“ta”,”đó”). Cụm này sẽ nằm ở vế trái của luật xác định nghĩa tiếng Anh là “him”

Vế phải

Vế phải liệt kê xâu sẽ được dùng để thay thế vào vế trái, có thể chứa những đối tượng

•

• Lời gọi hàm với cấu trúc ().

$i (i = 1, 2, 3…) nghĩa của từ đứng thứ i ở vế trái.

Bốn hàm sau được sử dụng trong các luật:

set-string (word, new-string) Thay từ word bằng xâu mới new-string.

124

set-feature (word, name, value) Thiết lập giá trị value cho thuộc tính chỉ bởi name.

copy-feature(word, name, ref ) Chép giá trị thuộc tính chỉ bởi name của từ word sang

thuộc tính name của từ chỉ bởi ref .

remove-feature (word, name) Xóa thuộc tính có tên name của từ chỉ bởi word.

Bộ luật xây dựng theo văn phạm nói trên được lưu trữ trong tệp XML với cấu trúc như

...

excludes=“ past,future”> ...

...

• Ký hiệu ... chỉ nội dung của luật, có thể viết trên nhiều dòng.

• Thuộc tính requires chứa tập các luật cần thực hiện trước luật đang xét

• Thuộc tính excludes ngăn cản việc thực hiện luật đang xét nếu một trong các luật trong

Trong tập luật này,

danh sách sau từ khóa excludes đã được thực hiện

Luật được đọc từ tệp XML, phân tích và xử lý tự động theo văn phạm. Với cú pháp khá

đơn giản, người sử dụng có thể dễ dàng thêm luật mới.

Các luật chính được liệt kê trong phụ lục 4.

4.3.3.Hoàn thiện câu dịch

Sau khi đã phát hiện thuộc tính, di chuyển vị trí, biến đổi hình thái thích hợp, còn một

•••• Hiện tượng chuyển loại từ:

số vấn đề cần thực hiện để tạo ra bản dịch có chất lượng tốt. Đó là:

- Danh từ có vai trò tính từ. Khi dịch sang tiếng Anh cần chuyển thành tính từ,

ví dụ “huy chương vàng” , vàng ở đây là từ chỉ chất liệu với liên kết CH, cần

chuyển sang tính từ tương ứng.

- Tính từ hay động từ đi sau “sự”, “việc” làm chuyển loại cả cụm từ thành danh

125

từ.

•••• Tính từ bổ nghĩa cho động từ: Tiếng Việt không có phó từ, nhưng sang tiếng Anh

•••• Loại bỏ danh từ chỉ loại.

cần dịch thành phó từ.

Luận án đã xây dựng tập luật bao trùm được các hiện tượng này

Lựa chọn nghĩa từ: Dù đã qua nhiều công đoạn khử nhập nhằng trong quá trình phân

tích cú pháp, đến đây ta vẫn có thể gặp hiện tượng nhập nhằng về nghĩa từ, đó là khi một

từ tiếng Việt tương ứng với nhiều nghĩa tiếng Anh khác nhau. Chẳng hạn từ “làm” có thể

mang nghĩa “make” hay “manufacture” (Lưu ý là từ “làm” với nghĩa tương ứng “work”

gắn với một công thức khác so với từ “làm” mang hai nghĩa trên).

Như vậy, dù chỉ có một phân tích liên kết duy nhất được chọn, vẫn có thể có nhiều bản

dịch tương ứng với nhiều tổ hợp nghĩa khác nhau của các từ. Vấn đề ở đây là chọn ra tổ

hợp “trôi chảy” nhất, tức là cách thức hay được người bản ngữ sử dụng nhất. Luận án đã

giải quyết bằng cách dùng bộ ngữ liệu tiếng Anh và tính xác suất để chọn bản dịch tốt nhất.

Bộ ngữ liệu được chọn là COCA rút gọn (chỉ chứa những n-gram xuất hiện ba lần trở lên)

[136].

¶

Câu S với các từ w1, w2,. . .wnđược chọn dựa theo tiêu chí sau:

(f(cid:176),f–,..f†) ·log ((cid:16)(h!) + ƒ (cid:18)(cid:181)w(cid:16)(h(cid:151)

(f(cid:176),f–,..f†) (cid:16)(‡) = max argmax

(cid:151) •

|h(cid:151)(cid:155)!)‚

4.3.4.Kết quả thử nghiệm với bộ dịch dựa trên dạng tuyển có chú giải

Như đã giới hạn phạm vi quan tâm ngay từ đầu, việc thử nghiệm hệ thống dịch với

ADJ là để minh họa khả năng biểu diễn của văn phạm liên kết tiếng Việt, còn phải hoàn

thiện nhiều để trở thành một công cụ dịch phổ biến. Tuy nhiên, đề xây dựng bộ ngữ liệu

thử nghiệm cũng là một khó khăn. Hiện chưa có bộ ngữ liệu chuẩn cho dịch Việt - Anh

nên chúng tôi đã tự xây dựng bộ ngữ liệu riêng cho mình.

Hệ thống dịch được xây dựng bằng công cụ Java để tích hợp với các bộ phân tích cú

pháp. Bộ ngữ liệu gồm 336 câu thu thập từ sách dạy tiếng Việt cho người nước ngoài trình

độ nâng cao [18]. Ưu điểm của tập mẫu này là chúng được viết bởi các giáo sư về tiếng

Việt và bản dịch tiếng Anh đã được hiệu đính cẩn thận. Dưới đây là ví dụ minh họa hoạt

động của hệ thống dich xử lý một số mẫu câu:

1.”Mẹ tôi là một bác_sĩ giỏi”

Kết quả phân tích cú pháp:

126

# +----DT_LA----+------LA_DT------+ # +--SHA--+ | +----McN---+---SA--+ # | | | | | | # Mẹ.n tôi.p là.v một bác_sĩ.n giỏi.a Các dạng tuyển tìm được cho mỗi từ là:

mẹ: ()(SHA DT_LA)

tôi: (SHA)()

là: (DT_LA)(LA_DT)

một: ()(McN)

bác sĩ: (McN LA_DT)(SA)

giỏi: (SA)()

• Luật xác định ngôi cho danh từ “mẹ”.

• Luật dịch quan hệ sở hữu ẩn.

• Luật chuyển đổi thứ tự giữa nghĩa của danh từ “bác sĩ” và tính từ “giỏi” .

Để dịch câu này, các luật sau đã được áp dụng

Bản dịch được hệ thống của luận án và hệ thống Google đưa ra là giống nhau:

My mother is a good doctor

Kết quả dịch với VEtran:

My mother is a jurisprudent physician.

Kết quả dịch của ba hệ thống không có sự khác biệt lớn. Hệ thống của luận án và

Google có sự đối chiếu với ngữ liệu mẫu khi chọn từ nên đưa ra bản dịch “good doctor”

trong khi VEtran dùng cụm từ “jurisprudent physician” về nghĩa trong từ điển Việt - Anh

không khác biệt nhưng không sát nghĩa thực tế.

2. “Báo_săn là loài động_vật nhanh nhất thế_giới”

Kết quả phân tích cú pháp

# +-----LA_DT-----+

# +-DT_LA-+ +---ĐV--+--SA-+-TT_SS+---NHAT_DTv--+

# | | | | | | |

# Báo_săn.n là.v loài động_vật.n nhanh.a nhất thế_giới.n

Các dạng tuyển nhận được:

báo săn: ()(DT_LA)

là: (DT_LA)(LA_DT)

loài: ()(ĐV)

động vật: (ĐV LA_DT)(SA)

nhanh: (SA)(TT_SS)

nhất: (TT_SS)(NHAT_DT)

thế giới: (NHAT_DTv)()

127

Quá trình dịch thông qua nhiều luật được mô tả trong hình 4.4 dưới đây:

Hình 4.4. Quá trình dịch câu “Báo săn là loại động vật nhanh nhất thế giới”

Kết quả thực hiện của hệ thống dịch ADJ

Cheetah is the quickest animal world

Kết quả thu được với VEtran:

Cheetah is world' s fast animal the kind.

Kết quả do Google đưa ra:

Alert hunt is the world's fastest animal

Cả ba bản dịch đều có những hạn chế. Bản dịch của ADJ đã không phát hiện được quan

hệ sở hữu của từ “thế giới” trong khi bản dịch của VEtrans dịch được quan hệ đó nhưng

lại không dịch được tính từ so sánh cấp cao nhất và dịch sai từ “loài”. Bản dịch của

Google dịch rất tốt cụm từ “nhanh nhất thế giới” nhưng lại gặp lỗi ở từ “báo săn”.

So sánh trên toàn thể bộ ngữ liệu, có thể thấy với những cụm từ thường dùng, Google

cho kết quả “thực” hơn. Tuy nhiên kết quả của hệ thống dịch của luận án và VEtran thường

đúng về cú pháp và hình thái hơn, trong đó hệ thống dịch của luận án có phần “trôi chảy”

hơn, do mối liên kết được xác lập đến từng từ cá biệt. Rõ ràng việc kết hợp các phương

pháp khác nhau sẽ nâng chất lượng của bản dịch lên cao hơn.

Hiện nay, do chưa có một bộ ngữ liệu đủ lớn để giải quyết triệt để vấn đề nhập nhằng

trong phân tích cú pháp, độ chính xác của bộ phân tích cú pháp còn chưa cao. Đối với bộ

ngữ liệu 336 câu hội thoại, còn nhiều cụm ở dạng văn nói, chưa có trong ngữ liệu toàn các

câu văn viết, nên kết quả trả về của bộ phân tích cú pháp còn thấp (độ chính xác

(precision): 22.7%, độ phủ (recall): 28.8%, độ đo F-score: 0.28). Nếu dùng nguyên dạng

kết quả của bộ phân tích cú pháp, có thể không đánh giá chính xác chất lượng của hệ thống

dịch. Để nghiên cứu một cách tổ một cách tổng thể về ảnh hưởng của các thành phần tron ần trong hệ thống

đến chất lượng dịch, luận án đ đã thử nghiệm trên 2 hệ thống sau:

ADJ1: Cho phép loại bỏ bớt n ại bỏ bớt những sai sót có thể có trong quá trình phân tíc ình phân tích cú pháp

bằng cách xác định một số ràng àng buộc để chọn chính xác phân tích của câu, cụ của câu, cụ thể là báo

trước một số cặp từ chắc chắn x chắc chắn xuất hiện liên kết. Đây cũng là kỹ thuật được d ợc dùng trong

[94] để hạn chế số phân tích đ phân tích đưa ra. Câu đưa vào đã chỉnh kết quả tách từ. Độ ả tách từ. Độ chính xác

của bộ phân tích cú pháp cho AD pháp cho ADJ1 là 80.2%, độ phủ 81.4%, F-score 0.81.

ADJ2: Không cho phép ràng b o phép ràng buộc và tách từ.

Dù bộ ngữ liệu còn nhỏ, lu luận án đã sử dụng phương pháp BLEU [100] với th ới tham số n =

2, 3, 4, 5 để so sánh với kết quả với kết quả đạt được của VETran và Google. Kết quả nhậ ết quả nhận được thể

hiện trong bảng 4.4.

Bảng ảng 4.4. So sánh kết quả các hệ thống dịch

Google Goog VEtran ADJ1 ADJ2

0.169816 0.209987 0.263627 0.157450 0.1698 2

0.133085 0.140612 0.181787 0.091807 0.1330 3

0.109895 0.096798 0.127502 0.056950 0.1098 4

0.090472 0.069292 0.091302 0.036461 0.0904 5

Biểu đồ trong hình 4.5 cho ph cho phép so sánh điểm BLEU của các hệ thống dịch n thống dịch nói trên của

luận án với hai hệ thống dịch Vi Việt - Anh phổ biến là Google Translation và VEtr ation và VEtrans.

Hình 4. .5. So sánh điểm BLEU của các hệ thống

Vấn đề nhập nhằng khi áp dụ khi áp dụng luật

Đây là vấn đề mà tất cả các hệ ất cả các hệ thống dịch dựa trên luật phải quan tâm xử lý. n tâm xử lý. Tuy nhiên,

với những quy định chặt chẽ của chặt chẽ của mô hình văn phạm liên kết, xác suất xảy ra nhậ ất xảy ra nhập nhằng là

rất nhỏ. Đó là vì những lý do sau ng lý do sau:

1. Tập luật dịch của hệ thống bao gồm ba tập con . Thứ tự áp dụng luật như trên sơ đồ ở

hình 4.2 là: xác định thuộc tính→ dịch cụm từ→ chuyển đổi cấu trúc. Sự nhập nhằng

khi áp dụng luật( nếu có) chỉ có thể xảy ra trong từng tập con. Tuy nhiên, với văn phạm

liên kết, luật chỉ được sử dụng khi thỏa mãn cả hai yếu tố:

- Từ đang xét xuất hiện trong luật

- Tất cả các mối liên kết của từ được nêu trong luât phải thỏa mãn.

2. Ngoài ra, thuộc tính exclude của một số luật (đã mô tả ở trên) cũng góp phần khử nhập

nhằng. Do vậy, khi phân tích cú pháp của câu đã xác định, rất khó xảy ra việc nhập

nhằng khi áp dụng luật. Trong ba tập luật của hệ thống, chưa có luật nào có thể gây

nhập nhằng trong lúc lựa chọn. Sự nhập nhằng chủ yếu xảy ra khi phân tích, chẳng hạn

với hai câu “tôi bán hoa rất nhanh” và “tôi bán hoa rất tươi” có thể dẫn đến nhầm lẫn

khi không có dấu hiệu nào cho thấy tính từ chỉ tính chất bổ nghĩa cho từ “hoa” hay từ

“bán”. Tuy nhiên khi đã xác định phân tích, nếu là:

# +----SV----+ +--------SA--------+ # + +----O---+ +---RlAp--+ # | | | | | # Tôi.p bán.v hoa.n rất.r tươi.a

thì luật về thay đổi trật tự từ được áp dụng. Nếu phân tích được chọn là:

# +-----------VtAp------------+ # +----SV---+----O---+ +---RlAp--+ # | | | | | # Tôi.p bán.v hoa.n rất.r nhanh.a thì luật về chuyển loại nghĩa của từ “nhanh” sang phó từ tiếng Anh lại được áp dụng.

4.4. Kết luận

Hệ thống dịch sử dụng dạng tuyển có chú giải được xây dựng với mục đích minh họa

cho khả năng biểu diễn tiếng Việt của văn phạm liên kết. Tuy vậy, nếu đánh giá như một

hệ thống dịch, kết quả nhận được cũng rất đáng chú ý: với kết quả tốt của bộ tách từ và

phân tích cú pháp, hệ thống đạt kết quả nhỉnh hơn một chút so với Google và VEtran. Chú

ý rằng, để đạt kết quả này, bộ luật dịch của hệ thống chưa có tới 300 luật, ít hơn rất nhiều

130

so với VEtran và cũng không cần sử dụng bộ ngữ liệu song ngữ. Dù mới là thử nghiệm

trên bộ ngữ liệu nhỏ, có thể thấy khả năng sử dụng mô hình văn phạm liên kết cho bài toán

dịch máy là rất có triển vọng.

Tuy đã đạt được kết quả nhất định trong dịch máy Việt – Anh, hệ thống vẫn còn những

• Dịch câu có cấu trúc liên hợp (coordination) sử dụng kết nối lớn, ví dụ, cụm từ tiếng

vấn đề chưa giải quyết được:

Việt trong [4]“một sinh viên khoẻ mạnh, cao và tử tế”. Việc dịch loại câu này đòi hỏi

một phân tích cú pháp chính xác, chỉ có được khi khử nhập nhằng liên hợp trong câu

• Dịch câu ghép và câu phức: Câu ghép và câu phức chứa từ hai nòng cốt trở lên, trong

chứa từ “và “ và dấu phảy.

đó câu phức có chứa một nòng cốt bao các nòng cốt còn lại [1].Trong tập ngữ liệu mẫu,

đã có một số câu ghép 2 mệnh đề, tuy nhiên chất lượng dịch các câu này chưa được tốt.

Có thể thấy việc xử lý các loại câu ghép là khả thi vì chúng tôi đã xây dựng được bộ

phân tích cú pháp xử lý khá tốt trường hợp nhập nhằng liên hợp và phân tích câu ghép

với nhiều mệnh đề.

Việc nhận biết giới hạn các mệnh đề trong câu phức, cũng như các thành phần cụm chủ

vị đôi khi đòi hỏi thiết lập một liên kết giữa các từ không liền kề. Các xử lý để phân tách

mệnh đề hay giải quyến vấn đề nhập nhằng về cụm trạng từ hiện nay đều theo hướng tiếp

cận học máy trên tập ngữ liệu lớn. Hệ thống sẽ tiếp tục được phát triển theo hướng này khi

đã xây dựng được bộ ngữ liệu mẫu đủ lớn.

Một vấn đề khác cũng gây khó khăn trong xử lý: dịch cụm từ dạng n - 1 (n từ tiếng

Việt sang 1 từ tiếng Anh). Ngoài những cụm từ rất phổ biến mà luận án đã xử lý, cần đến

sự hỗ trợ của từ điển thành ngữ và bộ ngữ liệu mẫu song ngữ.

Với đặc điểm hoàn toàn từ vựng hóa của văn phạm liên kết, bộ luật dịch của hệ thống

thể hiện được những đặc điểm hết sức riêng và cá biệt của ngôn ngữ nguồn và ngôn ngữ

đích. Công việc này chắc chắn cần những hiểu biết sâu về cú pháp, từ pháp của cả hai ngôn

ngữ. Bộ luật dịch có thể thay đổi hoàn toàn nếu thay đổi cặp ngôn ngữ nguồn – đích, nghĩa

là khó có thể sử dụng cho cặp ngôn ngữ khác. Tuy nhiên, để mở rộng hệ thống dịch, có thể

quan tâm đến công cụ cho phép các nhà ngôn ngữ định nghĩa các quy tắc cú pháp [31].

Nếu theo hướng tiếp cận này, việc phân tích cú pháp theo biểu đồ (chart parsing) từ văn

phạm liên kết cũng dễ hơn so với các mô hình khác vì phân tích liên kết thực chất đã có

dạng biểu đồ. Như vậy có thể tính đến khả năng mở rộng hệ thống dịch cho các cặp ngôn

131

ngữ khác.

Như đã trình bày, do chưa đủ tài nguyên để xây dựng một hệ thống dịch máy thật hoàn

thiện, hệ thống dịch máy của luận án nhằm mục đích minh họa khả năng biểu diễn tiếng

Việt của văn phạm liên kết. Tuy nhiên, với chất lượng dịch khá thuyết phục, việc kết hợp

mô hình dịch này với hệ thống dịch theo cách tiếp cận thống kê chắc chắn sẽ nâng cao

được chất lượng bản dịch do có thể kết hợp sự trôi chảy của phương pháp thống kê với sự

chính xác của những biến đổi hình thái và cú pháp. Một trong những minh chứng cho điều

đó là sự kết hợp phân tích liên kết để hoàn chỉnh bản dịch ở hệ dịch máy trên nền ví dụ. Tỷ

lệ câu dịch hoàn toàn đúng với câu mẫu đã tăng khá nhiều. Kết hợp giữa cách tiếp cận

132

thống kê và văn phạm liên kết là hướng phát triển của hệ thống trong thời gian tới.

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Tóm tắt

Luận án hướng tới xây dựng một mô hình mới để biểu diễn cú pháp tiếng Việt. Mô

hình này theo hướng tiếp cận phổ biến hiện nay: hướng tiếp cận phụ thuộc và từ vựng hóa.

Để xây dựng mô hình liên kết mà không có sự hỗ trợ của những nghiên cứu về ngôn

ngữ học, luận án đã phải nghiên cứu và tổng hợp các kiến thức về cú pháp tiếng Việt, rút ra

những đặc trưng về liên kết từ và các cấu trúc, tham khảo ý kiến của các nhà ngôn ngữ học

để có một mô hình liên kết chấp nhận được cho tiếng Việt.

Nhằm thử nghiệm và minh chứng cho những ưu việt của mô hình biểu diễn cú pháp

liên kết, luận án đã xây dựng bộ phân tích cú pháp liên kết. Kết quả đạt được với câu đơn

và câu ghép là khả quan, không kém các mô hình truyền thống, tuy nhiên việc lưu trữ và

tìm kiếm phân tích lại đơn giản hơn rất nhiều.

Tiếng Việt là ngôn ngữ châu Á, có những đặc điểm rất khác biệt so với các ngôn ngữ

châu Âu, đặc biệt là về biến đổi hình thái. Tận dụng khả năng biểu diễn thông tin hình thái

của văn phạm liên kết, luận án đã thử nghiệm hệ thống dịch với công cụ của văn phạm liên

kết là dạng tuyển có chú giải. Kết quả thử nghiệm ban đầu là chấp nhận được cho tập ngữ

liệu nhỏ.

Các đóng góp chính của luận án

Về mặt khoa học

Lần đầu tiên mô hình văn phạm liên kết được xây dựng cho tiếng Việt, một mô hình

kiểu phụ thuộc, rất linh hoạt và có nhiều ứng dụng thực tế. Văn phạm liên kết đã biểu diễn

được một cách linh hoạt rất nhiều hiện tương trong tiếng Việt mà theo hiểu biết của mình

chúng tôi chưa thấy các mô hình khác xử lý.

Bộ phân tích cú pháp tiếng Việt cho một biểu diễn cú pháp rất nhỏ gọn, tạo thuận lợi

cho việc xây dựng ngân hàng phân tích liên kết. Việc phân tích được các câu ghép ở nhiều

dạng khác nhau cho khả năng ứng dụng tốt cho các công việc khác, chẳng hạn như tạo

những bản dịch chất lượng cao.

Cụ thể, luận án đã có những đóng góp sau đây:

133

1. Xây dựng một mô hình liên kết cho tiếng Việt ở mức cú pháp

2. Hoàn thành bộ từ điển liên kết với 40.000 mục từ, hơn 150 công thức và 77 loại kết

nối.

3. Xây dựng thử nghiệm bộ phân tích cú pháp tiếng Việt ở mức câu đơn.

4. Đề xuất giải thuật kiểu Viterbi để khử nhập nhằng thành phần theo mô hình 3-

gram.

5. Cải tiến giải thuật phân tích diễn ngôn ở mức câu kết hợp với phân tích liên kết.

Xây dựng giải thuật phân tích cú pháp cho câu ghép và giải quyết được các vấn đề

sau:

a. Phân tích cú pháp liên kết cho các câu ghép gồm nhiều mệnh đề với nhiều

loại quan hệ diễn ngôn phức tạp.

b. Phát triển việc giải quyết vấn đề nhập nhằng liên hợp: giải quyết nhập

nhằng khi từ “và”, dấu phảy đóng vai trò dấu hiệu diễn ngôn và vai trò liên

từ.

6. Xây dựng mô hình dịch máy tự động Việt - Anh dựa trên dạng tuyển có chú giải.

7. Xây dựng từ điển ADJ Việt - Anh với kích cỡ tương đương như từ điển văn phạm

liên kết.

8. Xây dựng tập luật dịch Việt - Anh với khoảng 300 luật dịch.

9. Xây dựng và thử nghiệm hệ thống dịch máy Việt - Anh dựa trên dạng tuyển có chú

giải. Hệ thống cho kết quả chấp nhận được với tập mẫu câu tiếng Việt cơ bản và

nâng cao.

Đây hoàn toàn là những kết quả mới vì mô hình văn phạm liên kết chưa từng được xây

dựng cho tiếng Việt. Việc phân tích câu ghép nhiều mệnh đề bằng văn phạm liên kết chưa

được giải quyết trên ngôn ngữ nào. Mô hình dịch dựa trên dạng tuyển có chú giải dù đã

được sử dụng dịch Anh – Indonesia nhưng khi ứng dụng cho hệ dịch Việt - Anh đã được

xây dựng hoàn toàn mới, thể hiện những đặc trưng quan trọng của tiếng Việt và khắc phục

được sự khác biệt lớn về cú pháp giữa hai ngôn ngữ.

Về mặt thực tiễn

1. Mô hình văn phạm liên kết xây dựng cách phân tích cú pháp mới cho tiếng Việt.

2. Hệ thống từ điển sẽ hỗ trợ tốt cho những người muốn tiếp cận vấn đề theo mô hình

này.

3. Ngân hàng phân tích liên kết tạo khả năng cho những nghiên cứu theo mô hình liên kết.

134

với cách tiếp cận thống kê.

4. Hỗ trợ việc quảng bá thông tin về du lịch, văn hóa xã hội ra thế giới.

5. Hỗ trợ tốt cho việc giảng dạy tiếng Việt.

6. Kết quả phân tích cú pháp rất dễ hiểu và gần gũi với ý tưởng của người học, đặc biệt là

những người không theo chuyên ngành ngôn ngữ học.

7. Bộ dịch cho chất lượng tốt trên tập mẫu câu nhỏ (Thích hợp với chương trình tiếng

Việt cơ bản và nâng cao).

Hạn chế và hướng phát triển

Bộ phân tích cú pháp đã làm việc khá hiệu quả với lớp câu đơn và câu ghép. Tuy nhiên

luận án chưa mô hình hóa được liên kết trong trường hợp câu phức, khi các mệnh đề có

phần bao trùm lên nhau và giao nhau, ví dụ câu “Cái quạt mà cậu cho tôi hôm qua chạy rất

tốt”. Luận án mới chỉ xử lý được trường hợp mệnh đề trạng ngữ ở đầu câu, chưa phân tích

được với một số trường hợp mệnh đề trạng ngữ ở những vị trí khác.

Sau khi đã có bộ phân tích cú pháp, việc xây dựng cơ sở dữ liệu đa phương tiện các

phân tích liên kết có thể trợ giúp một cách hữu hiệu cho người học tiếng Việt trong việc

tìm hiểu những cấu trúc cú pháp của tiếng Việt.

Bộ ngữ liệu mẫu cũng như ngân hàng phân tích cần được mở rộng hơn để có những

đánh giá chính xác và toàn diện hơn.

Nếu có được ngân hàng câu song ngữ Việt - Anh cũng như bộ từ điển Việt - Anh đầy

đủ hơn, có thể chỉnh sửa từ điển ADJ để khử nhập nhằng nghĩa tốt hơn.

Hệ thống dịch với ADJ hoàn toàn trên luật đã hoạt động khá hiệu quả. Do hạn chế về

thời gian, luận án mới thực hiện dịch trên các câu đơn và câu ghép hai mệnh đề. Với hệ

thống phân tích câu ghép đã có, việc dịch câu ghép nhiều mệnh đề là hoàn toàn khả thi.

Ngoài ra, nếu kết hợp được với một hệ thống dịch thống kê, hệ thống này sẽ tham gia quá

trình tinh chỉnh bản dịch và chắc chắn sẽ cho những bản dịch có chất lượng tốt hơn nhiều.

Luận án đã bước đầu thử nghiệm trên một hệ thống có tính chất tương tự là hệ thống dịch

135

trên nền ví dụ, đạt được kết quả khả quan.

CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ

1. Nguyễn Thị Thu Hương, Lê Văn Chương (2008) Phân tích diễn ngôn cho văn bản

tiếng Việt. Kỷ yếu Hội thảo khoa học quốc gia lần thứ tư về nghiên cứu, phát triển và

2. Nguyen Thi Thu Huong, Pham Nguyen Quang Anh (2011) A Link Grammar for

ứng dụng công nghệ thông tin và truyền thông ICT- rda 8/2008, trang 227-234.

Vietnamese. Journal on Information and Communicationn Technology, 8/2011, pp

27-38.

3. Nguyễn Thị Thu Hương, Nguyễn Thúc Hải, Nguyễn Thanh Thủy (2012) Kết hợp phân

đoạn diễn ngôn với bộ phân tích cú pháp liên kết để phân tích cú pháp câu ghép nhiều

mệnh đề tiếng Việt. Tạp chí Tin học và Điều khiển học, Tập 28, Số 4, 2012, trang 297-

309.

4. Nguyễn Thị Thu Hương, Lê Ngọc Minh (2012) Ứng dụng văn phạm liên kết trong

dịch máy Việt - Anh. Chuyên san Các Công trình Nghiên cứu, Phát triển và Ứng dụng

Công nghệ Thông tin và Truyền thông, tạp chí Công nghệ Thông tin và Truyền thông

136

tập V-1 số 8(28) 12/2012, trang 44 - 56.

TÀI LIỆU THAM KHẢO

TIẾNG VIỆT

[1] Diệp Quang Ban (1989) Ngữ pháp tiếng Việt. NXB Giáo dục.

[2] Nguyễn Tài Cẩn (1996) Ngữ pháp tiếng Việt (Tiếng - Từ ghép - Đoản ngữ). NXB Đại học

quốc gia Hà Nội.

[3] Đinh Điền (2002) Dịch tự động Anh - Việt dựa trên việc học luật chuyển đổi từ ngữ liệu

song ngữ. Luận án Tiến sĩ, ĐHKHTN- ĐHQG TP Hồ Chí Minh.

[4] Đinh Điền (2011) So-sánh trật-tự từ của định-ngữ giữa tiếng Anh và tiếng Việt. Tập san

Khoa học xã hội và nhân văn- Đại học Khoa học Xã hội và Nhân văn Thành phố Hồ Chí

Minh, trang 69-80

[5] Nguyễn Gia Định, Trần Thanh Lương, Lê Viết Mẫn (2004) Một số cải tiến giải thuật

Earley cho việc phân tích cú pháp trong xử lý ngôn ngữ tự nhiên. Tạp chí khoa học Đại

học Huế, số 25/2004, trang 43-52.

[6] Cao Xuân Hạo (2006) Tiếng Việt sơ thảo ngữ pháp chức năng. NXB Khoa học Xã hội.

[7] Phan Xuân Hiếu (2009).JVnTagger, công cụ gán nhãn từ loại dựa trên Conditional

Random Field và Maximum Entropy. Báo cáo SP8.3, Đề tài KC.01.01/06-10

[8] Nguyễn Chí Hòa (2004) Ngữ pháp tiếng Việt thực hành. NXB Đại học quốc gia Hà Nội

[9] Nguyễn Chí Hòa (2005) Các phương tiện liên kết và tổ chức văn bản. NXB Đại học Quốc

gia Hà Nội

[10] Lê Khánh Hùng (2004) Nghiên cứu xây dựng thử nghiệm phần mềm dịch tự động Việt-

Anh. Báo cáo tổng kết đề tài nhánh cấp nhà nước KC-01-03

[11] Lê Khánh Hùng (2003) Một phương pháp dịch máy liên ngữ. Kỷ yếu Hội thảo Khoa học

Quốc gia lần thứ nhất về Nghiên cứu, Phát triển và Ứng dụng CNTT&TT, Hà nội, 2003

[12] Lê Thanh Hương, Phạm Hồng Quang, Nguyễn Thanh Thuỷ (2000) Một cách tiếp cận

trong việc tự động phân tích cú pháp văn bản tiếng Việt. Tạp chí Tin học và Điều khiển

học 4/2000

[13] Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương(2003) Sử dụng bộ gán

nhãn từ vựng QTAG cho văn bản tiếng Việt. Kỷ yếu Hội nghị Quốc gia về Nghiên cứu,

Phát triển và Ứng dụng Công nghệ Thông tin và Truyền thông ICT-rda’03, Hanoi, trang

137

271-280

[14] Đỗ Bá Lâm, Lê Thanh Hương (2008) Xây dựng hệ thống phân tích cú pháp tiếng Việt sử

dụng văn phạm HPSG. Kỷ yếu hội thảo ICT- rda 8/2008, trang 235-242

[15] Hà Thành Lê, Lương Chi Mai, Huỳnh Quyết Thắng, Định Thị Phương Thu (2006) Kết

hợp các phương pháp chọn câu quan trọng xây dựng ứng dụng tóm tắt văn bản tiếng Việt,

Kỷ yếu hội thảo “Một số vấn đề chọn lọc của công nghệ thông tin”, 2006, trang 413-421

[16] Vũ Xuân Lương, Nguyễn Thị Minh Huyền(2009) SP7.2 - Từ điển tiếng Việt dùng cho xử

lý ngôn ngữ tự nhiên (quyển 2)

[17] Nguyễn Lê Minh, Hoàng Thị Điệp, Trần Mạnh Kế (2008) Nghiên cứu luật hiệu chỉnh kết

quả dùng phương pháp MST phân tích cú pháp phụ thuộc tiếng Việt. Kỷ yếu hội thảo ICT-

rda 8/2008 trang 258-267

[18] Nguyễn Thiện Nam (1998) Tiếng Việt nâng cao cho người nước ngoài. NXB Giáo dục

[19] Đỗ Phúc, Hồ Anh Thư (2005) Rút trích và tóm tắt nội dung trang web tiếng Việt. Kỷ yếu

hội thảo khoa học quốc gia lần thứ hai “Nghiên cứu cơ bản và ứng dụng công nghệ thông

tin” - TP Hồ Chí Minh, 2005, trang 317-328

[20] Lê Hồng Phương, Nguyễn Thị Minh Huyền, Nguyễn Phương Thái, Phan Thị Hà (2010)

Trích rút tự động văn phạm LTAG cho tiếng Việt. Tạp chí Tin học và Điều khiển số

2/2010.

[21] Stankevich N.V. (1982) Các loại hình ngôn ngữ. NXB Đại học và Trung học chuyên

nghiệp,

[22] Nguyễn Quốc Thế, Lê Thanh Hương (2007) Phân tích cú pháp tiếng Việt sử dụng văn

phạm phi ngữ cảnh từ vựng hóa kết hợp xác suất. Kỷ yếu hội thảo FAIR, Nha Trang, Việt

nam, 9-10/8/2007

[23] Trần Ngọc Thêm (1999) Hệ thống liên kết văn bản tiếng Việt. NXB Giáo dục

[24] Cao Hoàng Trụ (2002) Ứng dụng ngữ liệu song ngữ Anh-Việt điện tử trong ngành ngôn

ngữ học so sánh. Tạp chí Ngôn ngữ, 2002(3), tr. 49-58

[25] Cao Hoàng Trụ (2005) Xây dựng và khai thác kho ngữ liệu song ngữ Anh-Việt điện tử.

Luận án tiến sĩ ngôn ngữ học so sánh, ĐH Khoa học Xã hội & Nhân văn – ĐHQG TP

HCM.

[26] Trần Ngọc Tuấn, Phan Thị Tươi (2006) Phân tích cụm danh từ tiếng Việt sử dụng văn

phạm hợp nhất. Tạp chí Bưu chính viễn thông và Công nghệ thông tin.

[27] Phan Thị Tươi (2002) Cải tiến một số giải thuật phân tích cú pháp trong xử lý ngôn ngữ

138

tự nhiên. Tạp chí Tin học và Điều khiến học, 3/2002.

[28] Ủy ban Khoa học xã hội Viêt Nam (1983) Ngữ pháp tiếng Việt. NXB Khoa học xã hội

Hà Nội.

TIẾNG ANH

[29] T.B. Adji, B. Baharudin, N. Zamin (2007) Annotated Disjunct in Link Grammar for

Machine Translation. International Conference on Intelligent and Advanced Systems 2007,

pp 205-208.

[30] T.B. Adji, B, Baharudin, N. Zamin (2007) Building Transfer Rules using Annotated Disjunct: An Approach for Machine Translation, The 8th Student Conference on Research

and Development, December 2007, Malaysia.

[31] J.W. Amtrup, K. Mergerdoomian, R. Zajac (1999) Rapid Development of Translation

Tool. Proceedings of Machine Translation Summit, 1999, p 385-389.

[32] H. T. Bao, S. Kawasaki , N. N. Binh (2002) Cluster-based Information Retrieval with a

Tolerance Rough Set Model. International Journal of Fuzzy Logic and Intelligent Systems,

Vol. 2, No. 1, pp. 26-32, 2002.

[33] H. T. Bao, N. N. Binh (2002) Nonhierarchical Document Clustering by a Tolerance

Rough Set Model. International Journal of Intelligent Systems, John Wiley & Sons, Vol.

17, No. 2, pp. 199-212, 2002.

[34] D. Béchet (2003) k-Valued Link Grammars are Learnable from Strings. Proceedings of

Formal Grammar, Vienna, Austria, pp. 9-18.

[35] A. Bharati, D. M. Sharma, Sukhada (2009) Adapting Link Grammar Parser (LGP) to

Paninian Framework Mapping of Parser Relations for Indian Languages. National

Seminar on Computer Science and its Applications in Traditional Shastras (CSATS'09).

[36] N. T. Bon, N. T. M. Huyen, R. Laurent, V. X. Luong (2004) Developing tools and

building linguistic resources for Vietnamese morpho-syntactic processing. Proceedings of

the 4th International Conference on Language Ressources and Evaluation (LREC04),

Lisbon.

[37] N. T. Bon, N. T. M. Huyen, R. Laurent, V. X. Luong (2004) Lexical descriptions for

Vietnamese language processing. Proceedings of the Asian Language Resources

Workshop (ALR-04), IJC-NLP 2004, Hainan, China.

139

[38] Harry Bunt, Paola Melo, Joakim Nivre (2010) Trends in Parsing Technology. Springer.

[39] Marie Candito , Benoît Crabbé, Pascal Denis (2010) Statistical French dependency

parsing: treebank conversion and first results. Seventh International Conference on

Language Resources and Evaluation - LREC 2010, La Valletta, Malta.

[40] Marie Candito, Joakim Nivre, Pascal Denis, Enrique Henestroza Anguiano (2009)

Benchmarking of Statistical Dependency Parsers for French. NODALIDA 2009

Conference Proceedings, pp. 166–173.

[41] E.Charniak (1997) Statistical parsing with a context - free grammar and word statistics.

Proceeding of AAAI, 1997.

[42] Yuchang Cheng, Masayuki Asahara, Yuji Matsumoto (2007) Temporal Relation

Identification Using Dependency Parsed Tree. Proceedings of the 4th International

Workshop on Sementic Evaluations (SemEval-2007), pp. 245-248.

[43] M. Collins (2003). Head-Driven Statistical Models for Natural Language Parsing.

Computational Linguistics Vol 29(4), pp 589-637.

[44] M. A. Covington (2001) A Fundamental Algorithm for Dependency Parsing. In

Proceedings of the 39th Annual ACM Southeast Conference, pp. 95-102.

[45] L. A. Cuong, H. V. Nam, A. Shimazu (2005) An Evidential Reasoning Approach to

Weighted Combination of Classifiers for Word Sense Disambiguation. International

Conference on Machine Learning and Data Mining in Pattern Recognition, MLDM 2005,

Leipzig, Germany, pp. 516-525.

[46] L. A. Cuong, H. V. Nam, A. Shimazu (2005) Combining Classifiers with Multi-

representation of Context in Word Sense Disambiguation, 9th Pacific-Asia Conference,

PAKDD, Hanoi, Vietnam, May 18-20, pp. 262-268.

[47] Dien D. Building an Annotated English-Vietnamese parallel corpus. MKS (Mon-Khmer

Studies): A Journal of Southeast Asian Linguistics and Languages, Vol.35 pp. 21-36.

[48] Dien D.(2002) Building a training corpus for Word Sense Disambiguation in the

English-to-Vietnamese Machine Translation. Proceedings of Workshop on Machine

Translation in Asia, COLING-02, Taiwan, 9/2002, pp.26-32.

[49] Yuan Ding, Martha Palmer (2005)Machine Translation using Probabilistic Synchronuos

Dependency Insertion Grammars. Proceedings of the 43rd Annual Meeting of the ACL,

Ann Arbor, June 2005, pp 541-548.

[50] Jing Ding, Daniel Berleant, Jun Xu, & Andy W. Fulmer. 2003. Extracting Biochemical

Interactions from MEDLINE Using a Link Grammar Parser. 15th IEEE International

140

Conference on Tools with Artificial Intelligence (ICTAI'03).

[51] George Doddington (2002) Automatic Evaluation of Machine Translation Quality Using

N-gram Co-Occurrence Statistics Proceedings of the Second International Conference on

Human Language Technology Research, pp138-145.

[52] P. Dumrong, J. Gould, G. Lee, L. Nicholson, K. Gao, P.Beling (2003) The Quantification

of Unstructured Information and its Use in Predictive Modeling. Proceedings of the 2003

Systems and Information Engineering Design Symposium.

[53] D. Rajesh Duthie & Rajendra Akerkar (2002) Knowledge Representation in KRIS Using

Link Grammar Parser.

[54] E. Fong and D. Wu (1995) Learning Restricted Probabilistic Link Grammars. IJCAII

Workshop on New Approaches to Learning for Natural Language Processing, August,

1995, Montreal, Canada, pp 49-56.

[55] Heidi J. Fox (2002) Phrasal Cohesion and Statistical Machine Translation. Proceedings

of the Conference on Empirical Methods in Natural Language Processing (EMNLP),

Philadelphia, July 2002, pp 304-311.

[56] V.Fromkin , R.Rodman, N.Hayams, (2010) An Introduction to Language (9th ed.).

Boston, MA: Thomson Wadsworth.

[57] H.Gaifman (1965) Dependency systems and phrase-structure systems. Informationand

Control 8(3).

[58] Filip Ginter, Sampo Pyysalo, Jorma Boberg, Tapio Salakoski (2006) Regular

Approximation of Link Grammar. FinTAL 2006, LNAI 4139, pp. 564–575.

[59] Dennis Grinberg, John Lafferty, Daniel Sleator (1995) A Robust Parsing Algorithm for

Link Grammars. CMU-CS, pp 95-125, August 1995.

[60] L. A. Ha.(2003) A Method for Word Segmentation in Vietnamese. In Proceedings of the

International Conferenceon Corpus Linguistics, Lancaster, UK.

[61] J¨org Hakenberg, Ill´es Solt, Domonkos Tikk, Luis Tari,Astrid Rheinl¨ander, Quang

Long Nguyen, Graciela Gonzalez, and Ulf Leser (2009) Molecular event extraction from

Link Grammar parse trees. Proceedings of the Workshop on Current Trends in Biomedical

Natural Language Processing: Shared Task, pp 86-94.

[62] D.G.Hays (1964) Dependency Grammar: A Formalism and some Observation Rand.

[63] L. M. Hoang, H. T. Bao, N. Yoshiteru (2005) Detecting Emerging Trends from Scientific

Corpora. International Journal of Knowledge and Systems Science, Vol. 2, No. 2, 2005,

141

pp. 53-59.

[64] J. E. Hopcroft, R.Motwani, J. D. Ullmann (2001) Introduction to Automata Theory,

Languages and Computation. Addison Wesley.

[65] R. Hudson (2010) Introduction to Word Grammar. Cambridge University Press.

[66] Le Thanh Huong (2004) Automatic Discourse Structure Generation Using Rhetorical

Structure Theory. Ph.D. dissertation, Middlesex University, U.K.

[67] Iyer R., Ostendorf. Modelling Long Distance Dependency in Language: topic mixture

and Dynamic Case Model, Speech and Audio Processing, IEEE Transactions on, Jan.1999,

pp. 30-39.

[68] Ozlem Istek (2006) A Link Grammar for Turkish. MSc.Thesis.

[69] A. K. Joshi, Y.Schabes (1990) Parsing with Tree Adjoining grammars. In “Current

Issues in Parsing Technologies”, Kluwer Accademic Publishers.

[70] D. Jurafsky, J. H. Martin (2009) Speech and Language Processing: An Introduction to

Natural Language Processing, Speech Recognition, and Computational Linguistics. 2nd

edition. Prentice-Hall.

[71] Kadambini K, Rama Sree R.J., Rama Krishnamacharyulu K.V. (2008) An English-

Sanskrit Machine Translation Using Link Parser.In Proceedings of National Seminar,

Tirupati, 2008.

[72] M.Kamayani, A. Purwarianti (2011) Dependency parsing for Indonesian, proceeding of

ICEEI, Bangdung,2011.

[73] P. H. Khanh (2000) Good Spelling of Vietnamese Texts, one aspect of CL in Vietnam.

Proceeding of ACL-2000, 38th Conference, HongKong, pp. 593-594.

[74] Sang-Soo Kim, Seong-Bae Park, and Sang-Jo Lee (2007) Resolving Dependency

Ambiguity ofSubordinate Clauses using Support Vector Machines. World Academy of

Science, Engineering and Technology 25/ 2007.

[75] S.Kübler, R.McDonald, J. Nivre (2009) Dependency Parsing, Morgan & Claypool.

[76] Sandra Kubler. Learning a Lexicalized Grammar for German. In D.M.W. Powers (ed.)

NemLaP3/CoNLL98: New Methods in Language Processing and Computational Natural

Language Learning, ACL, pp 11-18.

[77] M.Kuhlmann (2010) Depependency Structures and Lexicalized Grammar. An Algebraic

Approach. Springer.

[78] So Young Kwon (2006) KORPAR: A Rule Based Dependency Parser for Korean

142

implemented in PROLOG, Phd. thesis.

[79] John Lafferty, Daniel Sleator, Davy Temperley. Grammatical Trigrams: A Probabilistic

Model of Link Grammar. AAAI Technical Report FS-92-04, 1992.

[80] John Lafferty, Andrew McCallum, Fernando Pereira (2001) Conditional Random Fields:

Probabilistic Models for Segmenting and Labeling Sequence Data. ICML '01 Proceedings

of the Eighteenth International Conference on Machine Learning , pp 282 - 289.

[81] K.Lari, S. J. Young (1990) The estimation of Stochastic Context Free Grammar Using

the Inside-Outside Algorithm. Computer Speech and Language No 4,1990, pp 35-56.

[82] Jianming Li, Lei Zhang and Yong Yu. (2001) Learning to Generate Semantic Annotation

for Domain Specific Sentences. Workshop on Knowledge Markup and Semantic

Annotation at the 1st International Conference on Knowledge Capture (K-CAP 2001) ,

October, 2001, Victoria, B.C., Canada.

[83] Chin-Yew Lin, Franz Josef Och (2004) Automatic Evaluation of Machine Translation

Quality Using Longest Common Subsequence and Skip-Bigram Statistics.Proceedings ò the

42nd Annual Metting on Asociation for Computational Linguistics (ACL 04), Stroudsburg,

PA, USA.

[84] Harsha V. Madhyastha, N. Balakrishnan, & K. R. Ramakrishnan (2003) Event

Information Extraction Using Link Grammar. 13th International WorkShop on Research

Issues in Data Engineering: Multi-lingual Information Management (RIDE'03).

[85] Erlyn Maguilimotan, Yuji Matsumoto (2011) Dependency-based Analysis for Tagalog

Sentences. Proceedings of the 25th Pacific Asia Conference on Language, Information and

Computation,Singapore 2011, pp 343-352.

[86] William Mann, Sandra Thompson (1988) Rhetorical Structure Theory. Toward a

Functional Theory of Text Organization. Text, 8(3): 243-281.

[87] C.D.Manning, H.Schűtze (1999) Foundation of Statistical Natural Language Processing.

The MIT Press.

[88] Daniel Marcu (2000) The Theory and Practice of Discourse Parsing and Summarization.

Cambridge, MA: The MIT Press.

[89] Daniel Marcu (1997) The Rhetorical Parsing, Summarization and Generation of Natural

Language Texts. PhD Thesis, University of Toronto (1997).

[90] I. Marshall, E. Safar (2001) Extraction of Semantic Representations from Syntactic CMU

Link Grammar linkages. Recent Advances in Natural Language Processing (RANLP),

143

Tzigov Chark Bulgaria, Sept 2001, pp.154-159.

[91] Yuji Matsumoto, Takashi Miyata, Tadashi Nomoto, Takenobu Tokunaga, Makoto

Takeda, Masaharu Obayashi (2000) Document Analysis and Summarization Workbench.

38th Annual Meeting of the Association for Computational Linguistics, Demonstration

Notes, pp. 22-23.

[92] I.Mel’čuk(1988) Dependency Syntax: Theory and Practice. State University of New

York Press.

[93] N.L. Minh, N. P. Thai, L. A. Cuong, N. V. Vinh, P.H. Nguyen, H. S. Dam (2003) LVT:

An English-Vietnamese Machine Translation System. Hội nghị quốc gia lần thứ nhất về

Nghiên cứu Cơ bản và Ứng dụng trong Công nghệ Thông tin FAIR’03, Hanoi, 10.2003.

[94] D. Molla , B. Hutchinson (2003) Intrinsic versus Extrinsic Evaluations of Parsing

Systems, Proceedings of EACL Workshop on Evaluation Initiatives in Natural Language

Processing.

[95] D. Molla, R. Schwitter, M. Hess, & R. Fournier (2002) ExtrAns, an Answer Extraction

System. T.A.L., special issue on Information Retrieval oriented Natural Language

Processing, pp. 495-522.

[96] Erwan Moreau (2004) Partial Learning Using Link Grammars Data. In Proceedings of

ICGI 2004, pp 211-222.

[97] Yuichi Nakamura, Takeo Kanade. 1997. Semantic Analysis for Video Contents

Extraction: Spotting by Association in News Video. Proceedings of the Fifth ACM

International Conference on Multimedia, 393-401.

[98] Joakim Nivre, Igor M. Boguslavsky, Leonid L. Iomdin(2008) Parsing the SynTagRus

treebank of Russian. Proceedings of the 22nd International Conference on Computational

Linguistics – (COLING '08) Volume 1, pp. 641-648.

[99] Tomohiro Ohno, Shigeki Matsubara, Hideki Kashioka, Takehiko Maruyama, Hideki

Tanaka, 2006, Dependency Parsing of Japanese Monologue Using Clause Boundaries.

Languages Resources and Evaluation, Springer.

[100] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu (2002) BLEU: a

Method for Automatic Evaluation of Machine Translation. Proceedings of the 40th Annual

Meeting of the Association for Computational Linguistics (ACL), Philadelphia, July 2002,

pp. 311-318.

[101] L. H. Phuong, N.T.M.Huyen, A. Roussanaly, L. Romary (2006) A Lexicalized Tree

Adjoining Grammar for Vietnamese. Proceedings of the 5th International Conference on

144

Language Resources and Evaluation, Genoa, Italia, 2006.

[102] L. H. Phuong , N.T.M.Huyen ,A. Roussanaly , H. T. Vinh (2008) A hybrid approach to

word segmentation of Vietnamese texts. Proceedings of the 2nd International Conference

on Language and Automata Theory and Applications, LATA 2008, Springer LNCS 5196,

Tarra pp. 240-249.

[103] M.Pickering , G.Barry (1993) Dependency Categorical Grammar and Coordination,

Linguistics 31, pp. 855-902.

[104] C. J.Pollard, , I. A.Sag (1994) Head-driven phrase structure grammar, University of

Chicago Press.

[105] Sampo Pyysalo, Filip Ginter, Tapio Pahikkala,Jorma Boberg, Jouni JÄarvinen, Tapio

Salakoski (2004) Analysis of Link Grammar on Biomedical Dependency Corpus Targeted

at Protein-Protein Interactions. In Proceedings of the international Workshop on Natural

Language Processing in Biomedicine and its Applications, pp. 15-21.

[106] Fabio Rinaldi, Michael Hess, Diego Molla, Rolf Schwitter, James Dowdall, Gerold

Schneider, and Rachel Fournier (2002) Answer Extraction in Technical Domains.

CICLing-2002, Mexico City, February, 2002, pp. 17-23.

[107] I. A. Sag (1982) Coordination, Extraction, and Generalized Phrase Structure Grammar

Linguistic Inquiry The MIT Press.

[108] D.Sakhare, Raikumar (2011) Dependency Grammar Feature Based Noun Phrase

Extraction for Text Summarization International. Journal of Computer Trends and

Technology- volume2, Issue1- 2011, pp. 64-67.

[109] Gerold Schneider (1998) A Linguistic Comparison of Constituency, Dependency and

Link Grammar.MSc Thesis, University of Zurich, July, 1998.

[110] R. A. Abul Seoud, N. H. Solouma, A.M. Youssef, Y. M. Kadah (2006) Extraction of

Protein Interaction Information from Unstructured Text Using a Link Grammar Parser.

Proceeding of Cairo International Biomedical Engineering conference 2006, pp. 70-75.

[111] Daniel D.K. Sleator, Davy Temperley (1991) Parsing English with Link Grammar.

CMU-CS, pp. 91-196, October 1991.

[112] B. Srinivas, D. Egedi, C. Doran ,T. Becker (1994) Lexicalization and Grammar

Development. Proceedings of KONVENS ’94, Vienna, Austria, September 1994, pp. 310-

319.

[113] P.Szolovits (2003) Adding a Medical Lexicon to an English Parser. Proceeedings of

145

AMIA 2003 Annual Symposium, pp. 639-643.

[114] D.Temperley (2005) The Dependency Structure of Coordinate Phrase: A Corpus

Approach. Journal of Psycholinguistic Research,Vol 34, No. 6, November 2005, pp 577-

601.

[115] Nguyen Phuong Thai, Akira Shimazu (2006) Improving Phrase-Based SMTwith

Morpho-Syntactic Analysis and Transformation, Proceedings of the 7th Conference of the

Association for Machine Translation in the Americas, p 138-147, Cambridge, 8/ 2006.

[116] D. Q. Thang, L. H. Phuong, N.T. M. Huyen ,N. C. Tu , M. Rossignol, V. X. Luong

(2008) Word segmentation of Vietnamese texts: a comparison of approaches. Proceedings

of the 6th Language Resources and Evaluation Conference LREC 2008, Marrakech

(Morocco), 2008.

[117] Q.T.Tho, S.C. Hui, A.C.M.Fong, C. H. Tru (2006) Automatic Fuzzy Ontology

Generation for Semantic Web. IEEE Transactions on Knowledge and Data Engineering, pp

842 – 856.

[118] Lai Bong Yeung Tom, Changning Huang (1994). Dependency grammar and the parsing of Chinese sentences. Proceedings of the 1994 Joint Conference of 8th ACLIC and 2nd PaFoCol.

[119] Shisanu Tongchim, Randolf Altemeyer,Virach Sornlerlamvanich, Hitoshi Isahara

(2008) A Dependency Parser for Thai. Proceedings of the 6th Language Resources and

Evaluation Conference LREC 2008, Marrakech (Morocco), 2008, pp 136-139.

[120] C. H. Tru (2002) A Formalism for Representing and Reasoning with Linguistic

Information. International Journal of Uncertainty, Fuzziness and Knowledge-Based

Systems, 10 (3), pp. 281-307.

[121] Cam-Tu Nguyen, Trung-Kien Nguyen, Xuan-Hieu Phan, Le-Minh Nguyen, Quang-

Thuy Ha (2006) Vietnamese Word Segmentation with CRFs and SVMs: An Investigation.

Proceedings of PACLIC20, Wuhan, China, Nov.2006, pp. 215-222.

[122] T.N. Tuan, P. T. Tuoi (2004) Unification grammar in a semantic approach for

Vietnamese compound noun parsing. In Proceedings of the Asian Fuzzy Systems Society

Conference, December 15-17, 2004, Ha Noi, Vietnam, pp. 17-20.

[123] T.N. Tuan, P.T. Tuoi (2004) Featured Grammar in Vietnamese Language Processing.

Kỷ yếu Hội nghị Quốc gia về Nghiên cứu, Phát triển và Ứng dụng Công nghệ Thông tin và

146

Truyền thông ICT.rda ’04, 17-18/9/ 2004, Hà Nội.

[124] Tran Ngoc Tuan, Phan Thi Tuoi (2006) Syntax-based SMT Model in Adaption to

Vietnamese-English Translation. Poster of the 4th International Conference on Computing

and Communication Technologies (RIVF).

[125] Takehito Utsuro, Shigeyuki Nishiokayama, Masakazu Fujio, Yuji Matsumoto (2000)

Analyzing Dependencies of Japanese Surbodinate Clauses based on Statistics of Scope

Embedding Preference. Proc. 1st NAACL, pp 110-117.

[126] Peter Venable (2001) Lynx:Building a Statistical Parser from a Rule-Based Parser. In

Proceedings of the NAACL.

[127] Peter Venable (2004) Modeling Syntax for Parsing and Translation. PhD Dissertation,

Carnegie-Mellon University.

[128] Ying-HongWang, Chih-HaoLin (2004) A Multimedia Database Supports English

Distance Learning. Information Sciences-Informatics and Computer Science, pp.189-208.

[129] N. Zamin (2009) Information Extraction Using Link Grammar, csie, vol. 5, 2009

pp.149-153, WRI World Congress on Computer Science and Information Engineering

[130] N. Zamin and B., Baharudin and T.B., Adji (2008) Applying link grammar formalism in

the development of English-Indonesian machine translation system. Proceedings of the 9th

AISC International Conference, the 15th Calculemas Symposium, and the 7th International

MKM Conference on Intelligent Computer Mathematics, pp. 17-23.

[131] Lei Zhang and Yong Yu. (2001) Learning to Generate CGs from Domain Specific

Sentences. In The Proceedings of the 9th International Conference on Conceptual

Structures, LNAI 2120, July 30-August 3, 2001, Stanford, CA, USA, pp 44-57.

TIẾNG NGA

[132] Сергей Протасов (2005) Преимущества грамматики связей для Русского языка.

Международная конференция “диалог 2005”.

CÁC WEBSITE

[133] http://www.fen.bilkent.edu.tr/~aykutlu/ceviri

[134] http://statmt.ru

[135] http://www.link.cs.cmu.edu/link/trans-explanation.html

[136] http://corpus.byu.edu/coca/

147

[137] http://www.abisource.com/projects/link-grammar/

PHỤ LỤC

PHỤ LỤC 1: CHI TIẾT CÁC CÔNG THỨC CHỦ YẾU

TRONG LIÊN KẾT TIẾNG VIỆT

Trong phụ lục chúng tôi giải thích kèm theo ví dụ các liên kết quan trọng trong

tiếng Việt. Việc phân chia từ thành tiểu loại dựa theo [16]. Để phân chia nhỏ hơn,

thành các tiểu tiểu loại, luận án tham khảo cách chia trong [16], đồng thời thêm vào

nhiều tiểu tiểu loại xuất phát từ nhu cầu phân tích liên kết và dịch máy với dạng

tuyển có chú giải. Liên kết của một số loại từ đơn giản như định từ, giới từ đã trình

bày chi tiết trong luận án sẽ không được nhắc lại trong phụ lục này.

148

Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết

1.Tên người Danh từ riêng Tên người: Giáng Kiều SA+ Mai đẹp

nàng Giáng Kiều, chú Cuội, đức Phật Proper Noun (Np) Tên nhân vật siêu nhiên: NcN1-

Cuội, Phật,... Nguyễn Du viết SV+

tặng Mai IO-

2. Tên tổ chức Mặt trận Tổ quốc Việt NpEp- ở Trường Đại học Bách khoa

Nam, Trường Đại học NNp- cơ quan Mặt trận Tổ quốc Việt Nam

Bách khoa... Trường Đại học Bách khoa đạt (thành SV+

tích)

tặng trường Đại học Bách khoa (sách) IO-

ở Cổ Loa Cổ Loa, Việt Nam, Hỏa EpN 3. Tên địa danh, thiên thể trên Hỏa Tinh Tinh SV+

Việt Nam là (đất nước anh hùng) DT_LA+

nhân dân Việt Nam NNp

4. Tên sự kiện Cách mạng tháng Tám, NcN6- cuộc Cách mạng tháng Tám

Cách mạng tháng Mười EsN trước Cách mạng tháng Mười

sự kiện Cách mạng tháng Tám NNp

Cách mạng tháng Tám thành công SV+

149

5. Tên tác phẩm Truyện Kiều, Kinh NcN4- quyển Kinh Thánh,cuốn Truyện Kiều

Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết

Thánh Cách mạng Tháng tám thành công SV+

6. Tên động vật con Nhân Sư Nhân Sư, Xích Thố NcN2-

Xích Thố ăn (cỏ) SV+

Nhân Sư là (nhân vật huyền thoại) DT_LA+

(ngựa) Bạch Long (rất) hay SA+

tượng Nhân Sư SH-

Nhân Sư Ai Cập SH+

ngựa Xích Thố NNp-

7. Tên đồ vật Lada, Granit, Penicillin {PqN-} & {DpN-}& NcN4- tất cả những chiếc Lada, những chiếc

Lada, chiếc Lada

xe Lada, thuốc Penicillin NNp-

NcN4- & NPd+ chiếc Lada ấy

(chiếc) Lada chạy (chầm chậm) SV+

xeLada NuNp-

1. Người bố cô giáo, chữ bác sĩ Danh từ cụ thể ông, bà, nam, nữ, nô tì, SH+, SH-

toàn bộ các em học sinh, toàn bộ các học Concrete Noun phi công {PqNt-} & {DpNt- or McNc-

nhân vật siêu nhiên: phù }&{NcN4-}& {NPd+} sinh, nhứng học sinh, tất cả học sinh, tất (Nt)

150

thủy, ma, thần linh cả ba em học sinh ấy

Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết

công nhân nhà máy NN+

công nhân vận hánh (máy) SV+

(người) công nhân chăm chỉ SA+

công nhân Việt nam NtNp+

(tôi ) tặng em bé (sách) IO-

2. Động vật NtNp+ chuột Mickey thú: chó, mèo, cá voi

chim: gà, bồ câu {PqN-} & {DpNt- or McNt- tất cả những con mèo, tất cả những con

}& NcN2- & {NtPd+} mèo ấy cá: trắm, mè, thu

tai thỏ, sừng trâu SH- lưỡng cư: ếch, nhái

SV+ gà chạy bò sát: rắn, thằn lằn

mèo con NtAp+ côn trùng: kiến, gián

(lâu đài) của rồng EoNt+ thân mềm: ngao, bào ngư

giáp xác: tôm, cua, ghẹ

động vật hư cấu: rồng, ma

gà

vi sinh vật: virus, vi

khuẩn, vi trùng

3. Thực vật cây thân gỗ: lim, đa {NcN3-}& {DpN-} (những) bông lúa

151

cây bụi: cúc tần, duối SV+ rau cải được trồng

Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết

lúa xanh mướt cây thân leo: tơ hồng NtAp+

yến cải bẹ cây thân cỏ: lau, cói NuN-

rau bí, dây tơ hồng, quả chuối, giàn bầu rau, củ: cải bẹ, bầu, bí NtNt

cải bẹ là... . DT_LA+

O- mua cải cúc

(hai) cân đậu hạt : đậu, lạc, vừng NuNt4- 4. Lương thực, thực phẩm nói chung quả đậu, củ sắn, cây vừng lương thực: thóc lúa, ngô, NtNt

gạo là lương thực khoai ... DT_LA+

mua ngô O-

SA+ mùa này, lúa thật xanh tốt

5. Đồ dùng, vật dụng vật dụng gia đình:bàn, NcN4-& {DpN-}&{PqNt-} tất cả những cái bàn ấy

ghế, ba lô, đồng hồ, điện &{ NtPd+}

thoại CH+ bàn gỗ

NtEm- bàn bằng (gỗ)

SV+ chiếc bàn gỗ thật chắc chắn.

O- sản xuất

EsNt trên bàn

152

dụng cụ thiết bị: búa, {PqNt-}&{McNt-}&{NcNt-} một cái búa, một búa, một cái búa,tất cả

Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết

kìm, cày, bừa, cuốc, McNt- ba (cái) kìm

trên đe dưới búa xẻng... EsNt-

búa đóng đinh SV+

xẻng to NtAp +

tất cả những cái vòi nước ấy phụ tùng, phụ kiện: van, NcN4-& {DpN-}&{PqNt-}

vòi nước, lò xo &{ NtPd+}

giường lò xo NN+ or NN-

hai chiếc xích McNt- & NcN4-

O- mua lò xo

con búp bê,quả bóng bay đồ chơi: búp bê, bóng bay NcNt

búp bê nhỏ SA+

búp bê đi chơi SV+

máy móc: máy nổ, máy máy bơm khỏe SA+

bơm NcN4- & {DpN-}&{PqNt-} toàn bộ hai mươi chiếc máy bơm ấy

&{ NtPd+}

153

sản xuất máy bơm O-

Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết

nhạc cụ: đàn, sáo, trống, NuNt chiếc đàn, cây sáo,cây đàn

trống Paranưng, đàn Piano kèn NtNp

đàn trở thành (nguồn vui) SV+

cây đàn kỳ diệu SA+

đập vỡ cây đàn, làm trống, yêu thích đàn O-

tiếng đàn, SH-

NuNt- & SH+ cây đàn sinh viên

trang phục: quần áo, giày {McNu}& NuNt hai bộ quần áo

dép O- sắm sửa quần áo

trang sức: nhẫn, vòng, NuNt- chiếc nhẫn

NN+ or NN- nhẫn kim cương, hộp nhẫn

DT_LA+ nhẫn là (đồ nữ trang)

O- bán nhẫn

đống rơm, bó rạ vật dụng khác: củi, đóm, NaNt-

củi cháy điếu, rơm rạ SV+

6. Chất phấn gây dị ứng mĩ phẩm: son, phấn, SV+

154

xoa phấn O-

Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết

cao hổ cốt là (thuốc bổ) thuốc men: ký ninh, cao DT_LA+

mua ký ninh hổ cốt O-

NtVu+ thuốc an thai

{PqNt-} & {DpN-}& NcN4- toàn bộ những lọ cao hổ cốt

&{ NtPd+}

chất gây nghiện: thuốc DT_LA+ thuốc phiện là (chất gây nghiện)

phiện, bạch phiến,… ma túy (rất) độc hại SA+

nguyên vật liệu: lụa, xi áo lụa, nền xi măng, bàn gỗ CH-

măng, mực EmNt+

chất rắn: gỗ, đá, sắt, ... . CH- bàn gỗ

bằng gỗ EmNt+

chất lỏng: bia, cồn, dầu {McNt- & NuN-} (bốn) lít bia

hỏa, dầu ăn

chất khí: gas, hydro, oxy NuN- (10) kg gas, (hai) bình gas

chất thải: phân, rác rưởi. . NN thùng phân

7. Tác phẩm tranh, ảnh, tác phẩm, vở NtAp tác phẩm nổi tiếng

kịch vở kịch được công diễn

155

vở kịch thành công

Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết

8. Cấu kiện xây dựng bê tông, thanh dầm, xà. . SH+ xà nhà

O trộn bê tông

9. Công trình xây dựng cầu, đường, quảng SH- dầm cầu

trường, nhà hát

máy bay, ô tô SH- lốp ô tô

10. Phương tiện giao thông Vũ khí máy bay tiêm kích, khu SH- xích xe tăng

trục, xe tăng

Vật nói chung thanh, que, xiên CH+ thanh tre

Bộ phận cơ thể người SH+ Tay em bé

cơ thể động vật

bộ phận thực vật

bộ phận của vật

bộ phận tác phẩm

Vũ trụ: sao, hành tinh NtNp Sao Kim

NtAp bão mạnh Hiện tượng tự nhiên: bão, mưa, sấm NtAo sấm chớp àm ầm

SV+ bão đến

156

Nc5Nt cơn bão

Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết

Đất đai: ruộng, vườn, ngoài ruộng EpNt- đồi ruộng là tài sản DT_LA+

vườn rộng SA+

thửa ruộng, mảnh vườn NcNt

Vùng có nước: sông, hồ dưới sông EpNt-

sông là . . . DT_LA+

sông rộng SA+

lên thiên đàng Nơi tưởng tượng: thiên EpNt

ở địa ngục đầng, địa ngục...

địa ngục trần gian NN

chuyện nhà cửa Danh từ tổng thể Chỉ những vật khác nhà cửa, thầy trò, chim NtNg

săn băt chim muông General Noun nhau về loại nhưng muông, nhân dân, quân O-

nhân dân (Ng) thường đi kèm với nhau đội ... SV+

nhân dân Việt Nam thành một tập hợp hoàn NgNp+

chỉnh mang ý nghĩa

khái quát

Danh từ trừu Khái niệm, thuật ngữ, Khái niệm được khái SHA+ tư tưởng Hồ Chí Minh

157

tượng chuyên ngành quát hóa trong tư duy: NaNa khoa học vật lý

Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết

Abstract Noun tật, tư tưởng, khoa học, NaNc sự kiện Cách mạng Tháng tám

(Na) cuộc sống, sự kiện

chưc vụ: bí thư, thủ NaNu+ chủ tịch phường

tướng, chủ tịch. .

tiếng đàn âm thanh: tiếng, giọng SHA+

bệnh tật: lao, ung thư DT_LA+ lao là bệnh truyền nhiễm

bệnh lao {NaNa+}

chơi cờ trò chơi: cờ, cờ vua O-

DT_LA- cờ là trò chơi hấp dẫn

Đơn vị sự vật tồn tại Danh từ chỉ loại người: người, tên, chú, NcN1+ thằng trộm

thành từng loại đơn lẻ Classified Noun thằng, đứa, đức . . hai con (ngựa McNc-

(Nc) con gà NcN2+ động vật: con, cái. .

bông hồng thực vật: bông, đóa, hạt. . NcNt3+

quyển sách vật: cái,con, tòa, căn, NcNt4+

cuốn, quyển...

hiện tượng: tiếng, tia, NcNt5+ tia chớp, mũi dao, tia hy vọng

dòng, mũi

158

khái niệm: cuộc, sự, nỗi , NcNt6+ cuộc Cách mạng Tháng tám

Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết

niềm... NcVs nỗi buồn

NcAp niềm vui

thứ NcMc+ thứ năm

NcNt+ bầy chim, tốp công nhân bầy ,đàn, toán, tốp, Đơn vị sự vật cùng loại

buồng(cau) tồn tại thành một tập

cột(khói), bộ, chồng, hợp

nắm, ngụm ...

Đo lường khoa học kg, ha, cân,ram... McNu-&{NuNt4} hai kg thóc

chính xác

Đo lường dân gian ca, thùng, đấu, bơ, xe McNu-&NuNt4+ ba cân bí

Thời gian bầy, đàn McN- ba ngày

Tiền tệ hào, đồng, xu, đô la McN- ba hào, hai đô la Danh từ chỉ đơn vị Hành chính, tổ chức làng, phường, huyện, NaNu- chủ tịch phường Unit Noun (Nu) quận, tỉnh, thành phố, xí NtNu- công nhân nhà máy

nghiệp, câu lạc bộ SV+ phường đã xây dựng

đóng góp cho phường

phiên họp, cú đấm Tần suất lần, phiên, mẻ, cú, tuần NuV+

159

(hương) NuN+ mẻ lưới

Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết

ViAp gió thổi mạnh hoạt động: không đòi thở, ngồi, đứng, nằm, động từ nội động

ViEp+ nằm trên (giường) hỏi bổ ngữ ngủ, thức, (máy) nổ, (còi) (Vi)

rúc, (gió) thổi SV- & {RtVi- or RpVi- or cháu sẽ ngủ, bé ngủ rồi, tôi ngủ Không dùng ở thể

RfVi- or RpVi+} bị động tâm sinh lý: không đòi khóc, cười, kêu , ... . /

hỏi bổ ngữ

động từ ngoại hành động: đòi hỏi bổ cắt (cỏ), bổ (củi), xé, SV- & O+- &{VtEp} công nhân xẻ gỗ

động (Vt) ngữ chỉ đói tượng bị tác chặt, gieo, ươm tôi gieo mạ trên (sân)

động SV- & O+- &{Vt A-} nó cắt cỏ (rất) nhanh

VmVt- (mạ đã )được gieo

tạo tác: đòi hỏi thực từ viết(báo), vẽ, đẽo, gọt, SV- & O+- &{Vt A-} tôi gọt bút chì

biểu hiện đối tượng tạc, phát minh, sáng chế tôi gọt bút chì cẩn thận

được tạo ra. SV- & VmVt- đèn điện được sáng chế

trao nhận: đòi hỏi 2 bổ cho, gửi, tặng, biếu, báo, SV- & IO+ & O + tôi tặng em bé sách

ngữ trực tiếp và bổ thông báo, nhận SV- & O+ & VtEg+ & EgNt+ tôi tặng sách cho em bé

ngữ gián tiếp SV- &VmVt- & O+ em bé được tặng sách

tôi bảo nó đi học sai, bảo, khiến, hướng SV- & IO+ & VtVt cầu khiến: đòi hỏi bổ

thủ trướng yêu cầu nhân viên tắt đèn dẫn, cân nhắc, đề bạt SV- & IO+ & VtVt+ ngữ trực tiếp và « nội

160

anh ấy được đề bạt làm (quản đốc) SV-&VmVt- &VtVs+ dung sai khiến »

Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết

tôi làm vỡ bát gây khiến làm(cho, vỡ), khiến SV- & VtVs+ & O+

tôi làm bát vỡ (cho), bẻ(gãy) SV- & O+ & VtVs+

bát đã bị vỡ rồi SV- &{Rt Vt- or RpVt- or

RfVt-} & {VmVt- }&

{RpVt+}

tác động: đòi hỏi bỗ kéo, đẩy, xô. ép, SV- &{Rt Vt or RpVt or tôi đặt quyển sách lên bàn, tôi đang đặt

ngữ trực tiếp và /hoặc nghiêng, đặt... RfVt}& O+ quyển sách lên bàn, tôi đặt quyển sách

đích của hành động &VtEs+&{RpVt+} lên bàn rồi.

SV- &VtEs+ & O+ tôi đạt lên bàn quyển sách

SV-& {O+} &(VtN+ tôi ép con ăn, bố mẹ ép anh cưới vợ

orVtPp+) ép làm việc

tôi đang trèo lên (núi) chuyển động chạy, bò, lăn,... SV- &{Rt Vt -or RpVt- or

RfVt-} & {VtEp+}&{RpVt+}

, SV-& {Rt Vt -or RpVt- or

RfVt-} & VtEm

nó về bằng xe máy, SV-& {Rt Vt -or RpVt- or

RfVt-} & CH+

SV- & {Rt Vt or RpVt or tàu đã rời ga, khách đã vào nhà

161

RfVt} & O+

Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết

tôi đang đi lên (núi) SV- &{Rt Vt -or RpVt- or đi

RfVt-} & {VtEp+}&{RpVt+} (động từ này có cách

tôi đi học, tôi đang đi chơi (riêng động SV- & {Rt Vt -or RpVt- or dùng đặc biệt trong tiếng

từ « đi ») RfVt-} & ĐI+ Việt: đi học, đi bơi, đi

chơi. . .)

hành vi cướp, giật, ăn cắp ... SV- & (O+) nó cướp tiền

SV- &EmNu doanh nghiệp thanh toán bằng đô la

tư duy học, hiểu, nghe, nói ... . SV- &{Rt Vt or RpVt or tôi học ngoại ngữ, tôi đã được học ngoại

RfVt} &VmVt-& O+ ngữ

tập nói, học đánh (đàn) VtVt

tôi đã học xong rôi SV- &

tin tưởng bạn bè VsN+ động từ trạng thái 1.tâm lý tình cảm tò mò, tin tưởng, nghi

tin tưởng ở tương lai VsE+ (Vs) ngờ

tôi buồn, tôi rất buồn, tôi xấu hổ lắm SV- &{RlVt- or RlVt+} yêu, ghét, buồn, thương,

giận dữ

yêu thích, ngưỡng mộ,

ghê tởm. .

162

2.tồn tại SV-&{Rt Vt -or RpVt- or tôi còn hai ngàn đồng, nó đã mất người còn, có, mất

Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết

RfVt-}& O+ yêu

3.biến hóa hóa (thành), nảy(mầm), SV- & {VsVs+}& O+ sâu đã hóa thành bướm

phát sinh, thay đổi,

4.tiêu hao ốm, mệt,tiêu hao, chết, Sv-&{VsN+}

mất

5.tiếp nhận ăn, hưởng thụ O+ hưởng thụ cuộc sống

ăn đòn , ăn đạn(rất ít dùng ở dạng Vt)

6.bắt đầu, tiếp diễn bắt đầu, tiếp tục, thôi, kết SV-&{Rt Vt -or RpVt- or thằng bé đã bắt đầu tập đi

thúc, dừng... RfVt-}&VsVt+

7.ngưng nghỉ ngưng, dừng, dứt, SV-& {Rt Vt -or RpVt- or nó đã ngừng tranh cãi

RfVt-}& VsV+

8.quan hệ là, làm DT_LA- rau cải là...

9.sở hữu thuộc VsN ngôi nhà thuộc khuôn viên lâu đài

động từ tình thái 1.đánh giá nên, cần phải,, xem, thấy SV-& (VmVt+ or VmVi) bạn nên mua kẹo

(Vm)

163

2.ý chí toan, định, dám, nỡ, SV- & VmVt+ ông quyêt đi buôn

Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết

quyết

3.mong muốn ước, mơ chỉ mong RsVm-

mong, muốn rất mong RlVm-

4.phụ thuộc bị ,được, mắc, đành chịu VmVt

SV+

động từ phụ(Vu) động từ không có khả ái quốc, du mục, an thai, NVu- thuốc an thai, dân du mục

năng làm vị ngữ trong đình sản bị đình bản VmVu-

câu giải khát để giải khát CVu-

xong học xong, làm xong VVu

nàng đẹp tốt, đẹp, xấu, thông SA- &ApNu+ tính từ chỉ tính Chỉ tính chất của sự

minh, nhiệt tình ApAr+ chất (Ap) vật, có thể kèm phụ từ nàng rất đẹp

chỉ mức độ vực sâu hai mươi mét

Chỉ những tính chất sự

vật bao hàm giá trị về

lượng

tính từ quan hệ chỉ sự phụ thuộc hoặc chung, riêng, nội, ngoại, của chung, bà nội

(Ar) tác động qua lại tư hữu, riêng tư

164

quan hệ so sánh bằng, hơn, kém, giống, ApAr- NAr- đẹp hơn, ba giờ hơn

Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết

khác... . ArN+ hơn mười người

ArE khác vơi, giống như

ngày mùa thóc hơn

tính từ quan hệ được xem trong danh từ quân đội nhân dân

chuyển loại từ danh từ.

tính từ tượng thanh không độc lập làm vị từ leng keng, kẽo kẹt, loảng VA chuông kêu leng keng

(Ao) xoảng... xô chậu va loảng xoảng

tính từ tượng hình không độc lập làm vị từ lom khom, còm nhom, VA cúi lom khom

(Ai) lênh khênh, trùng trục, ApAi

lũn cũn...

đại từ chỉ định đấy, đấy, đó, kia, ấy , McN cô giáo ấy

(Pd) này, nay, bây giờ,bấy McNt+ ngay bây giờ

giờ, thế, vậy...

giới từ phạm vi về, trên, dưới, trong, NtEm+ &EmVt

(Es) ngoài

ở, tại giới từ vị trí EpN ở Hà Nội, ở trường

(Ep)

165

của Giới từ chỉ sở hữu EoNt+ của cô giáo

Tiểu từ loại Đặc điểm phân loại Ví dụ từ Tên liên kết Ví dụ liên kết

EoPp+ của tôi (Eo)

giới từ chỉ chất bằng Nt5Em-& EmNt6+ bàn bằng gỗ

NgEm-& EmNt6+ liệu (Em) quần áo bằng lụa

VtEm-& EmNt6+ nhà lợp bằng tôn

PHỤ LỤC 2: KẾT QUẢ PHÂN TÍCH LIÊN KẾT CỦA MỘT SỐ CÂU ĐƠN

VÀ CÂU GHÉP HAI MỆNH ĐỀ

# Đây là kết quả do bộ phân tích cú pháp liên kết (chưa xử lý câu ghép) đưa ra cho 50 câu đầu trong tập ngữ liệu mẫu của hệ thống dịch Việt - Anh sử dụng ADJ. Với độ chính xác của bộ phân tích cú pháp khoảng 80%, một số liên kết trong câu có thể không đúng.

# +-----DT_LA----+ # +---SHA--+ +-ĐT_TT-+ # | | | | # Tên.n tôi.v là.v Hoa.a # +----DT_LA----+------LA_DT------+ # +--SHA--+ | +----McN---+-SA-+ # | | | | | | # Mẹ.n tôi.p là.v một bác_sĩ.n giỏi.a # +-----------ĐT_GT-----------+ # +---------O--------+ | # | +------McN------+ | # +---SV--+ | +--ĐV--+ +--LT_ĐT-+ĐT_GT+--GT_DT--+ # | | | | | | | | | # tôi.p cần.v một quyển sách.n để đọc.v ở nhà.n

166

# +------PqNt------+------SA-----+ # | +----DpNt---+ +-TT_TT+-TT_ĐT-+ # | | | | | | # Tất_cả mọi thành_viên.n phải.a đi.a họp.v # +-----O-----+----SDT4---+ # +----SV--+-ĐT_ĐTi+-ĐT_TT-+--TT_ĐT-+ +--ĐV-+--CH--+ +--GT_DT-+ # | | | | | | | | | | # tôi.p có_thể cho.v cô.a mượn.v cái áo.n len.n của tôi.p # +------SV-----+ # +-NtPd-+ +---CL---+-ĐT_ĐT-+ # | | | | | # Cô.p ấy cảm_thấy.v muốn.v khóc.v # +------SDT5-----+ +------O-----+ # +----O---+--SDT1--+ +--ĐT_ĐTi--+---O--+ +-SA-+ # | | | | | | | | # tôi.v không.n bao_giờ.n nên nghe.v lời.n anh.p ta.a # +-----GT_DT----+ # +----SV--+---O--+--SDT5-+ĐT_GT+ +--ĐV--+-NtPd+ # | | | | | | | | # tôi.p thách.v anh.p nhảy.v qua cái tường.n kia # +-------SV-----+ # +--SDT2--+ +-ĐT_ĐT+-ĐT_TT-+-TT_ĐT-+---O---+-NtPd+ # | | | | | | | | # Anh ta.a muốn.v tôi.v đi.a với.v cô.p ấy # +--------O--------+ # +--ĐT_TT-+-TT_ĐT+ +----McN---+ # | | | | | # tôi.v được.a tặng một món_quà.n

167

# +------------SV----------+ +------GT_DT------+ # +--DpNt--+-SA-+ +--TT_ĐT-+-ĐT_GT+ +--DpNt--+-SA-+ # | | | | | | | | | # Những lỗi_lầm.n lớn.a thường.a kết_cấu.v từ những lỗi_lầm.n nhỏ.a # +------O------+ # +-NcN2-+--SV--+ +-NcN2-+--CH-+ # | | | | | | # Con ngựa.n đá.v con ngựa.n đá.n # +---SV--+-ĐT_GT+--GT_DT-+---NN--+--NN-+ # | | | | | | # Kiến bò.v lên đĩa.n thịt.n bò.n # +---------SA---------+ # +----SDT2----+ +TT_SS+---SS_DT---+ # | | | | | # Sự khôn_ngoan.a có_giá.a hơn châu_ngọc.n # +-----LA_DT-----+ # +-DT_LA-+ +---ĐV--+--SA-+-TT_SS+---NHAT_DTv--+ # | | | | | | | # Báo_săn.n là.v loài động_vật.n nhanh.a nhất thế_giới.n # +-----THT-----+ # | +--SV--+--ĐT_ĐTi--+---O--+ # | | | | | # Sao anh.p dám đánh.v tôi.p # +----------------SV----------------+ # +--------SHA-------+ | # +---F--+---F--+ | +--TĐT2_2-+-ĐT_ĐT+----O---+ # | | | | | | | | # bố.n và mẹ.n tôi.p rất.a thích.v xem.v phim.n

168

# +-----SV----+------------ĐT_TT------------+ # +-NtPd-+ +---F--+---F--+ +--TTT2_2-+ # | | | | | | | # anh.p ấy đá_bóng.v và bơi.v rất.a giỏi.a # +-------SA------+ # +-SA-+ +-CC0-+-CCTt-+--CCPt-+ # | | | | | | # cô.p bé.a càng lớn.a càng xinh.a # +-----SV-----+--------------O-------------+ # +--SHA--+ +-ĐT_GT+--GT_DT-+ +--ĐV--+ # | | | | | | | # bố.n tôi.p đưa.v cho tôi.p quyển sách.n

# +-----SV----+--------O--------+ # +-NtPd-+ | +----CC0d---+--CCTd-+----CCPd---+ # | | | | | | | # anh.p ấy biết.v cả tiếng_Việt.n lẫn tiếng_Pháp.n # +----SV-----+--------O--------+ # +-NtPd-+ | +----CC0d---+--CCTd-+----CCPd---+ # | | | | | | | # anh.p ấy biết.v cả tiếng_Việt.n cả tiếng_Pháp.n # +------------------O-----------------+ # +---SV--+----O----+--SDT1-+-F-+---F---+ | # | | | | | | | # anh.p có.v từ_điển.n Việt - Anh.p không.n # +-CHỨ+ # | | # Có.v chứ

169

# +---------CL---------+ # | +-----SV----+-------O------+ # +--TĐT2_1-+ +-NtPd-+ +---O---+ | # | | | | | | | # Không biết.v máy_tính.n này có.v tốt.n không.n # +--TT_ĐT-+-LA_ĐT-+-CHỨ+ # | | | | # Tất_nhiên.a là.v nhớ.v chứ # +--------XH--------+ # +-------SV-------+------CHỨ------+ | # | +--TĐT4-+---O--+-NtPd+ | | # | | | | | | | # Bác cũng quen.v cô.n ấy chứ ạ # +---DT_LA--+ +---------VTd---------+ # +-NtPd-+ +--LA_DT-+--NNp-+ +---CHỨ2---+---VPd--+---NNp--+ # | | | | | | | | | # anh.p ấy là.v người.n Nhật chứ không_phải người.n Hàn_Quốc # +---DT_LA--+------------VTl------------+ # +-NtPd-+ +---LA_DT--+ +---CHỨ2--+--VPl-+----LA_TT---+ # | | | | | | | | # Máy.n ấy là.v máy_giặt.n chứ đâu_phải là.v máy_điều_hòa.a # +--------------------------XH--------------------------+ # +-------------------------XH------------------------+ | # +---------------------ĐT_TT---------------------+ | | # +------------------SV-----------------+--------------ĐT_GTt-------------+ | | | # +--CC0d--+-CCTd+--CCPd-+---NN--+ +--TT_ĐT--+ĐT_GT+---GT_DT---+ +---McN--+-TT_TTt-+ | | | # | | | | | | | | | | | | | | | # Cả cháu.n cả nhà.n cháu.n đều.a chuyển.v vào Vũng_Tàu.n một năm.n nay.a rồi bác ạ

170

# +-------XH-------+ # +------XH-----+ | # +------SV----+--ĐT_TT-+ | | # | | | | | # Bộ_Kế_hoạch_và_Đầu_tư ở.v đâu.a hở em # +--------XH-------+ # +----------SV--------+----ĐT_TT----+ | # +--ĐV-+-SDT4-+--GT_DT-+ +--ĐT_TT-+ | | # | | | | | | | | # Cái túi.n của tao.p ở.v đâu.a rồi hở # +---------------SA--------------+ # | +----------CC0----------+----------CCTt----------+-----------CCPt----------+ # +-NtPd-+ +-KHÔNG_NHỮNG-+ +---F--+-----F----+ +-MÀ_CÒN-+ +---TTT2_2--+--TT_TT-+ # | | | | | | | | | | | | # Anh.p ấy không những thông_minh.a , học_giỏi.a mà còn rất.a khiêm_tốn.a nữa.a # +--------------EV--------------+---------------CL--------------+ # +-----------ĐT_TT----------+ | +---------GT_ĐTt--------+ # +--------ĐT_GTt-------+ | | | +-----TT_ĐT-----+ # +-ĐT_GT+--GT_DT-+ | | | | | +-TT_ĐT+ # | | | | | | | | | | # Nghe_nói.v về anh.p lâu.n rồi mà hôm_nay.n mới.a được.a gặp.v # +---------SV-------+-------XH-------+ # | +--TĐT2_1-+----O---+-NtPd+ | # | | | | | | # Anh không biết.v chuyện.n ấy à # +---------GT_ĐTt---------+-------CL-------+ # | +--------SV------+ +-----SV---+ # | | +--TT_ĐT-+ +-NtPd-+ +-----O----+ # | | | | | | | | # Hôm_nay.n tôi.p mới.a biết.v anh.p ấy là.v thầy_giáo.n

171

# +----------ĐT_LA----------+ # +----SV--+-ĐT_GT+--GT_DT-+-NtPd+ +-LA_TT-+-XH-+ # | | | | | | | | # Anh mua.v với giá.n ấy là.v đắt.a đấy # +-----SV---+-----CL-----+--------ĐT_GTv-------+ # +-NtPd-+ | +---SV--+----ĐI----+ +--SAv-+--NNp--+ # | | | | | | | | | # Anh.p ấy rủ.v tôi.p đi.v du_lịch.v đồng_bằng.n sông.n Cửu_Long # +------CL-----+--------EV--------+------CL------+---------ĐT_TT---------+ # +-GT_DT-+ +-----O-----+ | +---SV--+-ĐT_XONG-+ +-TT_TT-+ # | | | | | | | | | | # Trong lúc.n học.v tiếng_Việt.n , tôi.p học.v được nhiều.a điều.a # +------------------------CL-----------------------+ # +----EV----+ +-------------------SV------------------+ # +--TĐT2_1-+---O--+ | +---SHA--+ +-SAt-+-SA-+-TT_ĐT+ # | | | | | | | | | | # Không hiểu.v sao.n , sức_khỏe.n mình.p càng.n ngày.n càng.a xuống # +----------QHT----------+------------CL------------+ # +--------CL--------+ | +---------SV-------+ # | +--SA-+ | | +--TĐT2_1--+--ĐT_TT-+ # | | | | | | | | # Vì thời_tiết.n xấu.a nên máy_bay.n không hạ_cánh.v được.a # +---------------CL---------------+ # +-----------------QHT-----------------+ +-----------SA----------+ # +------CL------+--------O-------+ | | +--------TTT4-------+ # | +---SV--+ +--DpNtm-+ | | | +---TTT2_1--+ # | | | | | | | | | | # Dù nó.p có.v nhiều tiền.n nhưng nó.p vẫn không hạnh_phúc.a

172

# +------------DT_LA-----------+ # +---------SDT5---------+ | # | +-------SV------+ | # +--ĐV-+ | +-TT_ĐT+ +-LA_DT-+-SH--+-NtPd+ # | | | | | | | | | # Cuốn sách.n anh.p đang.a đọc.v là.v của.n cô.p ấy # +----------SDT5----------+ # +--------SV------+--------O-------+ +-----SV----+ # | +--RpV-+ +---ĐV---+---MA---+ +-NtPd-+ | # | | | | | | | | | # Tôi đã đọc.v cuốn tiểu_thuyết.n mà anh.p ấy viết.v # +--------------------QHT--------------------+ # +-------------CL-------------+ +--------------------CL-------------------+ # | +----------SV--------+ | +----------------SV--------------+ # | +-SDT4-+--GT_DT-+ +----O---+ | +---F--+----F----+ +--RpV-+ # | | | | | | | | | | | | # Sở_dĩ nhà_máy.n của Loan hết.v việc.n là_do thiết_bị.n và phụ_tùng.n đã hết.v # +-------------CL-------------+ +-----------CL-----------+ # +------PH-----+ +---EV---+ +--------SV-------+ +-------ĐT_TT-------+ # +--GT_DT--+ | +--SA-+-STT-+ | | +--TĐT2_1-+--CL--+---O---+--NN-+ | # | | | | | | | | | | | | | | # Ở chợ.n , quần_bò.n nhiều.a quá , tôi.p không biết.v chọn.v loại.n nào.n cả.a # +------------GT_ĐTt------------+---------------------ĐT_TT--------------------+ # | +--------SV-------+-------O-------+----SDT4---+ | # +-TT_TTt+ | +--TĐT2_1-+-ĐT_XONG+ +---NN--+ +--GT_DT-+-NtPd+ | # | | | | | | | | | | | | # Lâu.n rồi tôi.p không nhận.v được tin_tức.n gì.n của cô.n ấy cả.a # +---------SV-------+-------------ĐT_TT-------------+ # | +--TĐT2_1-+---O--+-SDT4+--GT_DT-+-NtPd+ | # | | | | | | | | # Tôi chưa hiểu.v gì.n về cô.n ấy cả.a

173

PHỤ LỤC 3: MỘT SỐ LUẬT DỊCH ĐIỂN HÌNH

Phụ lục 3 trình bày dạng lưu trữ thực sự trong tệp văn bản của các luật được nêu ở

chương 4. Do vậy hình thức trình bày có sự khác biệt. Trong bộ luật này,

Ký hiệu * chỉ từ bất kỳ

() chỉ dãy bất kỳ các kết nối.

Ký hiệu $1 chỉ vị trí của từ trong cụm từ có thể áp dụng luật.

Ví dụ:

()(DT_THI)(DT_THI)(THI_ĐT)(THI_ĐT)()-->$1$2:copy-feature($3,number,$1)

Có nghĩa là nếu từ thứ nhất trong một cụm từ có kết nối DT_THI với từ thứ hai, trong

khi từ thứ hai có kết nối THI_ĐT với từ thứ ba thì sao chép thuộc tính number của từ thứ

nhất sang từ thứ ba.

Chẳng hạn trong cụm từ “tôi thì học” thỏa các kết nối trên, sao thông tin về số từ đại từ

“tôi” sang động từ “học”

1. Luật xác định thuộc tính

()(DpNt) (DpNt)() --> $1 :set-feature($2, number, PLURAL)

()(VT DT_THI) (VT)() (DT_THI)(THI_ĐT) (THI_ĐT)() --> $1 $2 $3 :set-

feature($4, number, PLURAL)

()(CC0) (CC0)(DT_THI) (DT_THI)(THI_ĐT) (THI_ĐT)() --> $1 $2 $3 :set-

feature($4, number, PLURAL)

()(DT_THI) (DT_THI)(THI_ĐT) (THI_ĐT)() --> $1 $2 :copy-feature($3, number,

$1)

()(VT SV) (VT)() (SV)() --> $1 $2 :set-feature($3, number, PLURAL)

()(CC0) (CC0)(SV) (SV)() --> $1 $2 :set-feature($3, number, PLURAL)

()(SV) (SV)() --> $1 :copy-feature($2, number, $1)

()(VT DT_LA) (VT)() (DT_LA)() --> $1 $2 :set-feature($3, number, PLURAL)

()(CC0) (CC0)(DT_LA) (DT_LA)() --> $1 $2 :set-feature($3, number, PLURAL)

()(DT_LA) (DT_LA)() --> $1 :copy-feature($2, number, $1)

()(TĐT2_1) (TĐT2_1)() --> $1 :set-feature($2, negated, TRUE)

()(RpV) (RpV)() --> $1 :set-feature($2, tense, PAST)

()(RfV) (RfV)() --> $1 :set-feature($2, tense, FUTURE)

()(RhV) (RhV)() --> $1 :set-feature($2, form, PRESENT_PARTICIPLE)

chưa()(TĐT2_1) (TĐT2_1)() --> $1 :set-feature($2, form, PAST_PARTICIPLE)

()(TĐT3h) (TĐT3h)() --> $1 :set-feature($2, form, PAST_PARTICIPLE)

()(ĐT_XONG) (ĐT_XONG)() --> :set-feature($1, form, PAST_PARTICIPLE) $2

174

()(VT SA) (VT)() (SA)() --> $1 $2 :set-feature($3, number, PLURAL)

()(CC0) (CC0)(SA) (SA)() --> $1 $2 :set-feature($3, number, PLURAL)

()(SA) (SA)() --> $1 :copy-feature($2, number, $1)

()(TTT2_1) (TTT2_1)() --> $1 :set-feature($2, negated, TRUE)

()(RpA) (RpA)() --> $1 :set-feature($2, tense, PAST)

()(RfA) (RfA)() --> $1 :set-feature($2, tense, FUTURE)

()(RhA) (RhA)() --> $1 :set-feature($2, form, PRESENT_PARTICIPLE)

()(TTT3h) (TTT3h)() --> $1 :set-feature($2, form, PAST_PARTICIPLE)

tôi[p]()() --> :set-feature($1, person, FIRST)

mình[p]()() --> :set-feature($1, person, FIRST)

bọ[p]()() --> :set-feature($1, person, FIRST)

tớ[p]()() --> :set-feature($1, person, FIRST)

bạn[p]()() --> :set-feature($1, person, SECOND)

cô[p]()() --> :set-feature($1, person, THIRD)

()(SV) (SV)() --> $1 :copy-feature($2, person, $1)

()(DT_LA) (DT_LA)() --> $1 :copy-feature($2, person, $1)

()(TT_SS) hơn(TT_SS)() --> :set-feature($1, is_comparative, TRUE) $2

()(TT_SS) nhất(TT_SS)() --> :set-feature($1, is_superlative, TRUE) $2

()(VTg) (VTg)(VPg) (VPg)() -> $1 $2 :copy-feature(:copy-feature(:copy-feature

(:copy-feature(:copy-feature( $3, number, $1), person, $1), tense, $1),

negated, $1), form, $1)

()(VTt) (VTt)(VPt) (VPt)() -> $1 $2 :copy-feature(:copy-feature( $3,

is_comparative, $1), is_superlative, $1)

2. Luật dịch cụm từ

tháng()(SDT1) giêng(SDT1)() -> :set-string($1, January)

tháng()(SDT1) một(SDT1)() -> :set-string($1, January)

tháng()(SDT1) mười(SDT1)(ST_ST) hai(ST_ST)() -> :set-string($1, December)

tháng()(SDT1) chạp(SDT1)() -> :set-string($1, December)

kết_cấu()(ĐT_GT) từ(ĐT_GT)() --> :set-string($1, compose) :set-string($2, of)

nhìn()(ĐT_GT) (ĐT_GT)() --> :set-string($1, look) :set-string($2, at)

chạy()(ĐT_GT) khỏi(ĐT_GT)() --> :set-string($1, run) :set-string($2, away) from

mua()(ĐT_GT O) cho(ĐT_GT)(GT_DT) (GT_DT)() (O)() --> $1 $3 $4

đưa()(ĐT_GT O) cho(ĐT_GT)(GT_DT) (GT_DT)() (O)() --> $1 $3 $4

ở()(GT_DT) đây(GT_DT)() --> here

ở()(GT_DT) đó(GT_DT)() --> there

làm[v]()(O ĐT_TT) (O)() (ĐT_TT)() -> :set-string($1, make) $2 $3

()(TDT2m) (TDT2m)(SA) (SA)() -> $1 of $2 $3

()(TDT2m) (TDT2m)(SDT4) (SDT4)() -> $1 of $2 $3

của()(GT_DT) ()(TDT2p) tôi(TDT2p GT_DT)() --> :set-string($1, our)

của()(GT_DT) tôi(GT_DT)() --> :set-string($1, my)

175

của()(GT_DT) cô(GT_DT)() --> :set-string($1, her)

()(SDT4) của(SDT4)(GT_DT) (GT_DT)() --> $3 's $1

()(SHA) ()(TDT2p) tôi(TDT2p SHA)() --> $1 :set-string($2, our)

()(SHA) ()(TDT2p) minh(TDT2p SHA)() --> $1 :set-string($2, our)

()(SHA) ()(TDT2p) cô(TDT2p SHA)() --> $1 :set-string($2, their)

()(GT_DT) ()(TDT2p) cô(TDT2p GT_DT)(NtPd) (NtPd)() --> $1 :set-string($2,

them)

()(GT_DT) ()(TDT2p) bạn(TDT2p GT_DT)(NtPd) (NtPd)() --> $1 :set-string($2,

you)

()(GT_DT) ()(TDT2p) nó(TDT2p GT_DT)(NtPd) (NtPd)() --> $1 :set-string($2,

them)

()(GT_DT) ()(TDT2p) họ(TDT2p GT_DT)(NtPd) (NtPd)() --> $1 :set-string($2,

them)

()(GT_DT) cô(GT_DT)(NtPd) (NtPd)() --> $1 :set-string($2, her)

()(GT_DT) nàng(GT_DT)(NtPd) (NtPd)() --> $1 :set-string($2, her)

()(GT_DT) chàng(GT_DT)(NtPd) (NtPd)() --> $1 :set-string($2, him)

()(GT_DT) bạn(GT_DT)(NtPd) (NtPd)() --> $1 :set-string($2, you)

()(GT_DT) họ(GT_DT)(NtPd) (NtPd)() --> $1 :set-string($2, them)

()(O) ()(TDT2p) cô(TDT2p O)(NtPd) (NtPd)() --> $1 :set-string($2, them)

()(O) ()(TDT2p) nàng(TDT2p O)(NtPd) (NtPd)() --> $1 :set-string($2, them)

()(O) ()(TDT2p) anh(TDT2p O)(NtPd) (NtPd)() --> $1 :set-string($2, them)

()(O) ()(TDT2p) ông(TDT2p O)(NtPd) (NtPd)() --> $1 :set-string($2, them)

()(O) ()(TDT2p) thằng(TDT2p O)(NtPd) (NtPd)() --> $1 :set-string($2, them)

()(O) ()(TDT2p) chàng(TDT2p O)(NtPd) (NtPd)() --> $1 :set-string($2, them)

()(O) ()(TDT2p) bạn(TDT2p O)(NtPd) (NtPd)() --> $1 :set-string($2, you)

()(O) ()(TDT2p) nó(TDT2p O)(NtPd) (NtPd)() --> $1 :set-string($2, them)

()(O) ()(TDT2p) họ(TDT2p O)(NtPd) (NtPd)() --> $1 :set-string($2, them)

()(O) cô(O)(NtPd) (NtPd)() --> $1 :set-string($2, her)

()(O) nàng(O)(NtPd) (NtPd)() --> $1 :set-string($2, her)

()(O) anh(O)(NtPd) (NtPd)() --> $1 :set-string($2, him)

()(O) ông(O)(NtPd) (NtPd)() --> $1 :set-string($2, him)

()(O) thằng(O)(NtPd) (NtPd)() --> $1 :set-string($2, him)

()(O) chàng(O)(NtPd) (NtPd)() --> $1 :set-string($2, him)

()(O) bạn(O)(NtPd) (NtPd)() --> $1 :set-string($2, you)

()(O) nó(O)(NtPd) (NtPd)() --> $1 :set-string($2, it)

()(O) họ(O)(NtPd) (NtPd)() --> $1 :set-string($2, them)

cô()(NtPd) (NtPd)() --> :set-string($1, she)

chị()(NtPd) (NtPd)() --> :set-string($1, she)

nàng()(SDT6) (SDT6)() --> :set-string($1, she)

bà()(SDT6) (SDT6)() --> :set-string($1, she)

anh()(SDT6) (SDT6)() --> :set-string($1, he)

thằng()(NtPd) (NtPd)() --> :set-string($1, he)

176

chàng()(NtPd) (NtPd)() --> :set-string($1, he)

ông()(NtPd) (NtPd)() --> :set-string($1, he)

lão()(NtPd) (NtPd)() --> :set-string($1, he)

bạn()(NtPd) (NtPd)() --> :set-string($1, you)

nó()(NtPd) (NtPd)() --> :set-string($1, it)

họ()(NtPd) (NtPd)() --> :set-string($1, they)

()(TDT2p) tôi(TDT2p)() --> :set-string($1, we)

()(TDT2p) ta(TDT2p)() --> :set-string($1, we)

()(TDT2p) minh(TDT2p)() --> :set-string($1, we)

()(TDT2p) cô(TDT2p)() --> :set-string($1, they)

()(TDT2p) bà(TDT2p)() --> :set-string($1, they)

()(TDT2p) anh(TDT2p)() --> :set-string($1, they)

()(TDT2p) ông(TDT2p)() --> :set-string($1, they)

()(TDT2p) hắn(TDT2p)() --> :set-string($1, they)

()(TDT2p) chàng(TDT2p)() --> :set-string($1, they)

()(TDT2p) bạn(TDT2p)() --> :set-string($1, you)

()(TDT2p) cậu(TDT2p)() --> :set-string($1, you)

()(TDT2p) nó(TDT2p)() --> :set-string($1, they)

()(TDT2p) họ(TDT2p)() --> :set-string($1, they)

thịt()(SDT1) bò(SDT1)() --> :set-string($1, beef)

thịt()(SDT1) lợn(SDT1)() --> :set-string($1, pork)

thịt()(SDT1) gà(SDT1)() --> :set-string($1, chicken)

đi()(ĐI) học(ĐI)() --> :set-string($1, go)()(_TO_) to(_TO_)(_I_) school[n](_I_)()

đi()(ĐI) làm(ĐI)() --> :set-string($1, go)()(_TO_) to(_TO_)(_I_) workl[n](_I_)()

đi()(ĐI) chơi(ĐI)() --> :set-string($1, go) out

đi()(ĐI) (ĐI)() --> :set-string($1, go) :set-feature($2,form,PRESENT_PARTICIPLE)

cả()(CC0) (CC0)(CCT) lẫn(CCT)(CCP) (CCP)() --> both $2 and $4

cả()(CC0) (CC0)(CCT) cả(CCT)(CCP) (CCP)() --> both $2 and $4

cả()(CC0) (CC0)(CCT) và(CCT)(CCP) (CCP)() --> both $2 and $4

vừa()(CC0) (CC0)(CCTt) vừa(CCTt)(CCPt) (CCPt)() --> both $2 and $4

vừa()(CC0) (CC0)(CCTg) vừa(CCTg)(CCPg) (CCPg)() --> $2 while :set-feature($4,

form, PRESENT_PARTICIPLE)

()(ĐT_ĐTp) (ĐT_ĐTp)() --> $1 :set-feature($2, form, PRESENT_PARTICIPLE)

()(ĐT_ĐTi) (ĐT_ĐTi)() -> $1 :set-feature($2, form, BARE_INFINITIVE)

()(ĐT_ĐT) (ĐT_ĐT)()-->$1 to()(_TO_):set-eature($2,form,BARE_INFINITIVE)(_TO_)()

()(TT_SS) hơn(TT_SS)() --> $1()(_MVt_) than(_MVt_)()

sắp()() --> :set-string($1, be)()(_P_) about(_P_)(_TO_) to(_TO_)()

sắp_sửa()() --> :set-string($1, be)()(_P_) about(_P_)(_TO_) to(_TO_)()

đầu_hàng()() --> :set-string($1, give)()(_IDL_) up(_IDL_)()

()(LA_DT) người(LA_DT)(DT\_TTv) (DT\_TTv)() -> $1 from $3

177

()(THT)()(SV)()(TĐT2_1) (TĐT2_1 SV THT)()-->$1 :set-feature(:copy-

feature(:copy-feature(:copy-feature(do, number, $4), person, $4), tense, $4),

contracted-negation,TRUE)[v]()(_I_)$2:set-feature($4,form,BARE_INFINITIVE)(_I_)()

()(THT) ()(SV) (SV THT)() --> $1 :copy-feature(:copy-feature(:copy-feature(

do, number, $3), person, $3), tense, $3)[v]()(_I_)$2 :set-feature($3,form,

INFINITIVE)(_I_)()

()(SV) có(SV)(ĐT_TT O) (ĐT_TT)() không(O)() ->:copy-feature(:copy-

feature(:copy-feature(be, number, $2), person, $2), tense, $2)[v]()(_SI_ _Pa_)

$1(_SI_)() $3(_Pa_)()

()(SV) có(SV)(CÓ CK) [v](CÓ)() không(CK)() ->:copy-feature(:copy-feature(:copy-

feature(do, number, $2), person, $2), tense, $2)[v]()(_SI_ _I_) $1(_SI_)()

:set-feature($3, form, BARE_INFINITIVE)(_I_)()

()(SV) có(SV)(OO) (O)() không(O)() ->:copy-feature(:copy-feature(:copy-feature(

do, number, $2), person, $2), tense, $2)[v]()(_SIp_)$1(_SIp_)(_Ifd_)have(_Ifd_)

(_Os_) $3(_Os_)()

()(SV) chưa()(TĐT2_1) (TĐT2_1 SV)() ->$1()() :copy-feature(:copy-feature(have,

number, $3), person, $3)[v]()(N _PP_)not(N)() :remove-feature($3,negated)(_PP_)()

()(SV) ()(RfV) ()(TĐT2_1) (TĐT2_1 RfV SV)() -> $1 $2 $3 $4

()(SV) ()(RpV) ()(TĐT2_1) (TĐT2_1 RpV SV)() --> $1 $2 $3 $4

()(SV) ()(TĐT2_1) (TĐT2_1 SV)() --> $1()() :copy-feature(:copy-feature(do,

number, $3), person, $3)[v]()(_PP_)$2 $3(_PP_)()

3. Luật chuyển đổi cấu trúc

()(DT_LA) ()(TĐT2_1) (TĐT2_1 DT_LA)() --> $1 $3 $2

()(TT_TT) (TT_TT)() --> $2 $1

()(SA SA) (SA)() (SA)() --> $3 $2 $1

()(SA) (SA)() --> $2 $1

()(ĐT_TT) (ĐT_TT)() --> $2 $1

()(SHA) (SHA)() --> $2 $1

()(SDT1)(SDT1)(VT)(VT)(VP)(VP)(VT)(VT)(VP)(VP)()-->$2 $3 $4 $5 $6 $1

()(SDT1) (SDT1)(VT) (VT)(VP) (VP)() --> $2 $3 $4 $1

()(SDT1) (SDT1)() --> $2 $1

()(NtPd) (NtPd)() --> $2 $1

()(STT) (STT)() --> $2 $1

()(SỰ) (SỰ)() --> $2

()(RpV) *(RpV)() --> $2 $1

178

PHỤ LỤC 4: SO SÁNH KẾT QUẢ DỊCH MỘT SỐ MẪU CÂU

Sentence 1 (1): Tên tôi là Hoa --> My name is bloom. VEtran: My Name is Flower. Google: My name is United. Sentence 2 (2): Mẹ tôi là một bác_sĩ giỏi. --> My mother is a good doctor. VEtran: My mother is a jurisprudent physician. Google: My mother is a good doctor. Sentence 3 (3): tôi cần một quyển sách để đọc ở nhà. --> Need me a book sets reading at home. VEtran: I need a tomes to read keep indoors. Google: I need a book to read at home. Sentence 4 (4): Tất_cả mọi thành_viên phải đi họp. --> All every members must go convening. VEtran: All All members must go to meet. Google: All members have to go to meetings. Sentence 5 (5): tôi có_thể cho cô mượn cái áo len của tôi. --> I could give borrow my wool shirt. VEtran: I can lend miss my sweater. Google: I can let her borrow my sweater. Sentence 6 (6): Cô ấy cảm_thấy muốn khóc. --> She feels wanting to cry. VEtran: She feel like cry. Google: She felt like crying. Sentence 7 (7): tôi không bao_giờ nên nghe lời anh ta. --> when not me ought to hear word. VEtran: I never ought to obey him. Google: I never heard him. Sentence 8 (8): tôi thách anh nhảy qua cái tường kia --> I defy him dances last that wall. VEtran: I am challenged you overleaps that mural one. Google: I challenge him to jump over the wall there. Sentence 9 (9): Anh ta muốn tôi đi với cô ấy. --> He wants me departs for her. VEtran: He is wished I go with her. Google: He wanted me to go with her. Sentence 10 (10): tôi yêu cô ấy bằng cả trái_tim mình. --> I love her by all my heart. VEtran: I love her by a whole body heart. Google: I love her with all my heart.

179

Sentence 11 (11): tôi biết tất_cả về cô ta. --> I know all about her. VEtran: I know all about who boil down me. Google: I know all about her. Sentence 12 (12): Ông ta chịu_đau rất can_đảm. --> he very courageous suffers. VEtran: ông we bears aching is very manly. Google: Pain he was very courageous. Sentence 13 (13): Anh ấy muốn chị ấy tới. --> he wants she comes. VEtran: He is wished she is next. Google: He wanted her to. Sentence 14 (14): tôi được tặng một món_quà. --> I am presented a gift. VEtran: I am giftted a gift. Google: I was given a gift. Sentence 15 (15): Những lỗi_lầm lớn thường kết_cấu từ những lỗi_lầm nhỏ. --> big mistakes usually compose of young mistakes. VEtran: Big lapses often frame from little lapses. Google: The big mistake is often small structures from mistakes. Sentence 16 (16): Con ngựa đá con ngựa đá. --> horse kicks rocky horse. VEtran: The horse stone horse kick. Google: Horse stone horse. Sentence 17 (17): Kiến bò lên đĩa thịt bò. --> ant creeps up beef dish. VEtran: Beef disc rise the ox the Emmet. Google: Ants onto beef. Sentence 18 (18): Sự khôn_ngoan có_giá hơn châu_ngọc. --> wise is valuabler than jewel. VEtran: Something precious more priced advisability. Google: Valuable than wisdom pearls. Sentence 19 (19): Báo_săn là loài động_vật nhanh nhất thế_giới. --> cheetah is the quickest animal world. VEtran: Cheetah is world' s fast animal the kind. Google: Alert hunt is the world's fastest animal. Sentence 20 (20): Sao anh dám đánh tôi. --> why does you dare beat me. VEtran: My britannic Asteroid dare whipped. Google: How dare you hit me. Sentence 21 (21): bố và mẹ tôi rất thích xem phim. --> my father and mother very likes to watch film. VEtran: I and my mother like to look up film very much. Google: My parents love to watch movies.

180

Sentence 22 (22): anh ấy đá_bóng và bơi rất giỏi. --> he very well plays football and swims. VEtran: he kicked is shaded and very jurisprudent swimming. Google:he's very good football and pool. Sentence 23 (23): cô bé càng lớn càng xinh. --> the more big is little nipper pretty. VEtran: more more nice-looking big little miss. Google:the bigger the beautiful girl. Sentence 24 (24): bố tôi đưa cho tôi quyển sách. --> my father takes give me book. VEtran: tome my father give to med. Google:My father gave me a book. Sentence 25 (25): anh ấy biết cả tiếng_Việt cả tiếng_Pháp. --> he knows both Vietnamese and French. VEtran: he know a whole french Vietnamese too. Google:he knows both English French. Sentence 26 (26): anh có từ_điển Việt - Anh không --> do you have Vietnamese - English dictionary You has Vietnamese dictionary- You neither you have dictionary English - I do not Sentence 27 (27): Có chứ! --> has! VEtran: There is final particle! Google: Yeah! Sentence 28 (28): Không biết máy_tính này có tốt không. --> not know this computer well has not. VEtran: Know this computer had well Neither. Google: Do not know this computer is good. Sentence 29 (29): Tất_nhiên là nhớ chứ! --> naturally is! VEtran: Of course it be final particle remembrance! Google: Of course, remember! Sentence 30 (30): Bác cũng quen cô ấy chứ ạ? --> also knows her? VEtran: Do You who also get used to her ạ? Google: Physicians also go after the letter A? Sentence 31(31): anh ấy là người Nhật chứ không_phải người Hàn_Quốc. --> he is Japanese person not Korean individual. VEtran: he is Japanese isn' t Korea person. Google: He is Japanese, not Korean. Sentence 32 (32): Máy ấy là máy_giặt chứ đâu_phải là máy_điều_hòa. --> that machine is washing-machine not conditioner is. VEtran: That Machine is washer final particle definitely not is conditioner. Google: Where was the washing machine rather than air conditioning.

181

Sentence 33 (33): Cả cháu cả nhà cháu đều chuyển vào Vũng_Tàu một năm nay rồi bác ạ. --> both niece and nephew house after transfer into Vung Tau one year. VEtran: A whole grandchild everybody in the house grandchild these a years roadstead roll-in then refuse ạ. Google: Both her whole family she moved to Vung Tau for a year then North Asia. Sentence 34 (34): Bộ_Kế_hoạch_và_Đầu_tư ở đâu hở em. --> Ministry of Planning and Investment where is. VEtran: Younger sister where uncovered Ministry of Planning and Investment. Google: Ministry of Planning and Investment in the open where you. Sentence 35 (35): Anh ấy không những thông_minh , học_giỏi mà còn rất khiêm_tốn nữa. --> He is not only intelligent , good but also still very much more modest. VEtran: He not only wit, do well in school but also plenty humility as well. Google: He's not only smart, good student but also very modest. Sentence 36 (36): Nghe_nói về anh lâu rồi mà hôm_nay mới được gặp --> Then hears about him long that today new finding. VEtran: Hear tell of you then long-term that new today is met. Google: Heard about him for a long time today to meet new. Sentence 37 (37): Anh không biết chuyện ấy à. --> Does not know that story. VEtran: You is unaware That tale. Google: Do not you know that. Sentence 38 (38): Hôm_nay tôi mới biết anh ấy là thầy_giáo. --> Today I fresh realized he is teacher. VEtran: Today I newly know he is instructor. Google: Today I know that he is a teacher. Sentence 39 (39): Anh mua với giá ấy là đắt đấy. --> You gets for that cost is costly there. VEtran: You bought with That cost be dearly there. Google: You're purchase price was expensive. Sentence 40 (40): Anh ấy rủ tôi đi du_lịch đồng_bằng sông Cửu_Long. --> He asks me go touring Cuu Long river delta. VEtran: He hangs I tour the Mekong river champaign. Google: He invites me to travel to the Mekong Delta. Sentence 41 (41): Trong lúc học tiếng_Việt , tôi học được nhiều điều. --> For while studying Vietnamese , I thing studied many. VEtran: During who learn Vietnamese, I learn talkativeness. Google: While learning English, I learned a lot. Sentence 42 (42): Không hiểu sao , sức_khỏe mình càng ngày càng xuống. --> Not comprehend star , my strength the more day nipper go down. VEtran: Non- comprehension is stellar, health i more and more go down to. Google: Somehow, his health is increasingly down.

182

Sentence 43 (43): Vì thời_tiết xấu nên máy_bay không hạ_cánh được. --> As bad weather so plane does not land. VEtran: For dirty weather ought to plane landed. Google: Because of bad weather, the plane not landing. Sentence 44 (44): Dù nó có nhiều tiền nhưng nó vẫn không hạnh_phúc. --> Whether it has some moneys but still not happy it. VEtran: Even if it is moneyed but it still whoes isn't blisstul. Google: Although it has a lot of money but it is still not happy. Sentence 45 (45): Cuốn sách anh đang đọc là của cô ấy. --> Book you are reading is property that. VEtran: Wind you is reading book is hers. Google: The book he was reading her. Sentence 46 (46): Tôi đã đọc cuốn tiểu_thuyết mà anh ấy viết. --> I read fiction that he writes. VEtran: I readed novel that he writes. Google: I have read the novel that he wrote. Sentence 47 (47): Sở_dĩ nhà_máy của Loan hết việc là_do thiết_bị và phụ_tùng đã hết. --> Loan's factory expires job because equipment and accessories finished. VEtran: That's why be owing to plant and accessary finis Phoenix's factory ended. Google: The reason Taiwan factory all is due to equipment and spare parts of all. Sentence 48 (48): Ở chợ , quần_bò nhiều quá , tôi không biết chọn loại nào cả. --> At market, too much jeans , I do not know all choosing which sort. VEtran: ở my bazaar, trousers who crept much whopping, is unaware which kind to choose is all together. Google: At the market, many jeans too, I do not know how to select all. Sentence 49 (49): Lâu rồi tôi không nhận được tin_tức gì của cô ấy cả. --> After long I do not all accept her anything news. VEtran: Long then I don' t receive news hers is all together. Google: Long time since I received news of her whole. Sentence 50 (50): Tôi chưa hiểu gì về cô ấy cả. --> I have not all understood anything about her. VEtran: Not already My That what comprehension about her is all together. Google: I do not know anything about her.

183