Luận án Tiến sĩ Toán học: Nghiên cứu nâng cao hiệu quả phân tích cú pháp tiếng Việt theo tiếp cận học máy thống kê

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:193

Thêm vào BST

Báo xấu

17
lượt xem 5
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án trình bày cơ sở lý thuyết về cú pháp tiếng Việt, gán nhãn vai nghĩa và biểu diễn phân bố từ. Xây dựng tập nhãn phụ thuộc và vai nghĩa cho tiếng Việt. Sau đó luận án đề xuất phương pháp xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc và gán nhãn vai nghĩa cho tiếng Việt. Mời các bạn cùng tham khảo.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận án Tiến sĩ Toán học: Nghiên cứu nâng cao hiệu quả phân tích cú pháp tiếng Việt theo tiếp cận học máy thống kê

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN _______________________ Nguyễn Thị Lương NGHIÊN CỨU NÂNG CAO HIỆU QUẢ PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT THEO TIẾP CẬN HỌC MÁY THỐNG KÊ LUẬN ÁN TIẾN SĨ TOÁN HỌC Hà Nội - 2020
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN _______________________ Nguyễn Thị Lương NGHIÊN CỨU NÂNG CAO HIỆU QUẢ PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT THEO TIẾP CẬN HỌC MÁY THỐNG KÊ Chuyên ngành: Cơ sở toán cho tin học Mã số: 9460117.02 LUẬN ÁN TIẾN SĨ TOÁN HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Lê Hồng Phương PGS.TS. Đỗ Trung Tuấn XÁC NHẬN NCS ĐÃ CHỈNH SỬA THEO QUYẾT NGHỊ CỦA HỘI ĐỒNG ĐÁNH GIÁ LUẬN ÁN Chủ tịch hội đồng đánh giá Người hướng dẫn khoa học Luận án Tiến sĩ PGS.TS. Phan Xuân Hiếu TS. Lê Hồng Phương Hà Nội - 2020
Lời cam đoan Tôi xin cam đoan đây là công trình nghiên cứu khoa học của tôi. Các số liệu sử dụng phân tích trong luận án có nguồn gốc rõ ràng, đã công bố theo đúng quy định. Các kết quả này chưa từng được công bố trong bất kỳ nghiên cứu nào khác. Hà Nội, ngày 10 tháng 3 năm 2020 Nghiên cứu sinh Nguyễn Thị Lương
Lời cảm ơn Trong quá trình thực hiện đề tài “Nghiên cứu nâng cao hiệu quả phân tích cú pháp tiếng Việt theo tiếp cận học máy thống kê”, tôi đã nhận được rất nhiều sự giúp đỡ, tạo điều kiện của Ban Giám hiệu, thầy cô trong khoa Sau Đại học và khoa Toán - Cơ - Tin học của trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội. Tôi xin bày tỏ lòng cảm ơn chân thành về sự giúp đỡ đó. Tôi xin bày tỏ lòng biết ơn sâu sắc tới TS. Lê Hồng Phương, PGS.TS. Đỗ Trung Tuấn - những người thầy đã tận tình hướng dẫn trực tiếp cho tôi hoàn thành luận án này. Tôi xin chân thành cảm ơn Ban Giám hiệu, thầy cô trong khoa Công nghệ Thông tin, trường Đại học Đà Lạt nơi tôi đang công tác và gia đình, bạn bè đã động viên, khích lệ, tạo điều kiện và giúp đỡ tôi trong suốt quá trình thực hiện và hoàn thành luận án này. Hà Nội, ngày 10 tháng 3 năm 2020 Nghiên cứu sinh Nguyễn Thị Lương
Mục lục Danh sách bảng iv Danh sách hình vẽ vii Mở đầu 1 1 Cơ sở lý thuyết 7 1.1 Khái niệm cơ bản trong tiếng Việt . . . . . . . . . . . . . . . . 7 1.1.1 Từ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.1.2 Từ loại . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.1.3 Cụm từ . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.1.4 Câu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.1.5 Cú pháp . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.1.6 Vai nghĩa . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.2 Cú pháp thành phần . . . . . . . . . . . . . . . . . . . . . . . . 20 1.2.1 Bài toán phân tích cú pháp thành phần . . . . . . . . . 21 1.2.2 Phương pháp phân tích cú pháp thành phần . . . . . . . 22 1.2.3 Khảo sát nghiên cứu cho phân tích cú pháp thành phần 25 1.3 Cú pháp phụ thuộc . . . . . . . . . . . . . . . . . . . . . . . . . 28 1.3.1 Bài toán phân tích cú pháp phụ thuộc . . . . . . . . . . 28 1.3.2 Biểu diễn cú pháp phụ thuộc . . . . . . . . . . . . . . . 29 1.3.3 Các thuật toán phân tích cú pháp phụ thuộc . . . . . . . 31 1.3.4 Khảo sát nghiên cứu cho phân tích cú pháp phụ thuộc . 37 1.4 Gán nhãn vai nghĩa . . . . . . . . . . . . . . . . . . . . . . . . . 43 1.4.1 Bài toán gán nhãn vai nghĩa . . . . . . . . . . . . . . . . 43 1.4.2 Các công trình liên quan . . . . . . . . . . . . . . . . . . 44 1.4.3 Khảo sát nghiên cứu cho gán nhãn vai nghĩa . . . . . . . 48 1.5 Biểu diễn phân bố từ . . . . . . . . . . . . . . . . . . . . . . . . 49 1.5.1 Mô hình Skip-gram . . . . . . . . . . . . . . . . . . . . . 50 1.5.2 Mô hình túi từ liên tục . . . . . . . . . . . . . . . . . . . 51 1.5.3 Mô hình GloVe . . . . . . . . . . . . . . . . . . . . . . . 52 1.5.4 Biểu diễn từ dựa vào ngữ cảnh sâu . . . . . . . . . . . . 52 1.6 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 i
2 Xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc và vai nghĩa tiếng Việt 55 2.1 Kho ngữ liệu Treebank . . . . . . . . . . . . . . . . . . . . . . . 56 2.2 Xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc . . . . . . . 57 2.2.1 Tập nhãn quan hệ phụ thuộc tiếng Việt . . . . . . . . . . 59 2.2.2 Xác định cụm từ trung tâm . . . . . . . . . . . . . . . . 69 2.2.3 Xác định nhãn phụ thuộc . . . . . . . . . . . . . . . . . 70 2.2.4 Thuật toán chuyển từ câu cú pháp thành phần thành cú pháp phụ thuộc . . . . . . . . . . . . . . . . . . . . . . . 70 2.2.5 Đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 2.3 Xây dựng kho ngữ liệu gán nhãn vai nghĩa tiếng Việt . . . . . . 78 2.3.1 Bộ nhãn vai nghĩa cho tiếng Việt . . . . . . . . . . . . . 78 2.3.2 Tập luật gán nhãn nhãn vai nghĩa . . . . . . . . . . . . . 81 2.3.3 Xây dựng trang web hiệu chỉnh nhãn vai nghĩa thô . . . 82 2.3.4 Đánh giá kết quả . . . . . . . . . . . . . . . . . . . . . . 82 2.4 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 3 Nâng cao hiệu quả phân tích cú pháp tiếng Việt 86 3.1 Phân tích cú pháp thành phần . . . . . . . . . . . . . . . . . . . 87 3.1.1 Một số văn phạm phổ biến . . . . . . . . . . . . . . . . . 87 3.1.2 Phương pháp phân tích Shift-Reduce . . . . . . . . . . . 92 3.1.3 Phương pháp self-attention . . . . . . . . . . . . . . . . . 99 3.1.4 Đánh giá kết quả . . . . . . . . . . . . . . . . . . . . . . 102 3.1.5 Kết luận phân tích cú pháp thành phần . . . . . . . . . 112 3.2 Phân tích cú pháp phụ thuộc tiếng Việt . . . . . . . . . . . . . 113 3.2.1 Phân tích cú pháp phụ thuộc dựa trên bước chuyển . . . 113 3.2.2 Phân tích cú pháp dựa trên đồ thị . . . . . . . . . . . . 116 3.2.3 Sử dụng BiLSTM trong phân tích cú pháp phụ thuộc . . 118 3.2.4 Đánh giá kết quả . . . . . . . . . . . . . . . . . . . . . . 122 3.2.5 Kết luận phân tích cú pháp phụ thuộc . . . . . . . . . . 128 3.3 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 4 Phương pháp quy hoạch tuyến tính nguyên gán nhãn vai nghĩa tiếng Việt 130 4.1 Mô tả thuật toán . . . . . . . . . . . . . . . . . . . . . . . . . . 130 4.1.1 Khảo sát một số phương pháp . . . . . . . . . . . . . . . 130 4.1.2 Phương pháp đề xuất . . . . . . . . . . . . . . . . . . . . 132 ii
4.2 Quy hoạch tuyến tính nguyên . . . . . . . . . . . . . . . . . . . 135 4.3 Tập đặc trưng sử dụng . . . . . . . . . . . . . . . . . . . . . . . 138 4.3.1 Đặc trưng cơ bản . . . . . . . . . . . . . . . . . . . . . . 138 4.3.2 Đặc trưng mới . . . . . . . . . . . . . . . . . . . . . . . . 139 4.4 Đánh giá kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . 139 4.4.1 Phương pháp đánh giá . . . . . . . . . . . . . . . . . . . 139 4.4.2 Hệ thống cơ bản . . . . . . . . . . . . . . . . . . . . . . 139 4.4.3 Chiến lược gán nhãn . . . . . . . . . . . . . . . . . . . . 140 4.4.4 Phân tích đặc trưng . . . . . . . . . . . . . . . . . . . . 141 4.4.5 Cải tiến dựa vào ILP . . . . . . . . . . . . . . . . . . . . 141 4.4.6 Tốc độ học . . . . . . . . . . . . . . . . . . . . . . . . . 144 4.4.7 Sử dụng biểu diễn phân bố từ trong SRL . . . . . . . . . 145 4.5 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 Kết luận 146 Các công trình công bố của luận án 148 Tài liệu tham khảo 150 Phụ lục 159 iii
Danh sách bảng 1.1 Tập nhãn từ loại tiếng Việt. . . . . . . . . . . . . . . . . . . . . 9 1.2 Tập nhãn cụm từ tiếng Việt. . . . . . . . . . . . . . . . . . . . . 11 1.3 Tổ chức câu trong tiếng Việt. . . . . . . . . . . . . . . . . . . . 12 1.4 Tập nhãn mệnh đề tiếng Việt. . . . . . . . . . . . . . . . . . . . 14 1.5 Tập nhãn chức năng cú pháp tiếng Việt. . . . . . . . . . . . . . 17 1.6 Các đặc trưng dùng trong MSTParser . . . . . . . . . . . . . . . 33 1.7 Các đặc trưng dùng trong MaltParser . . . . . . . . . . . . . . . 36 1.8 Ví dụ về phân tích cú pháp dựa vào các bước chuyển. . . . . . . 38 1.9 Kết quả một số nghiên cứu phân tích cú pháp phụ thuộc trên tiếng Anh và tiếng Trung . . . . . . . . . . . . . . . . . . . . . . 40 1.10 Kết quả một số nghiên cứu phân tích cú pháp phụ thuộc trên tiếng Việt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 1.11 Một số nghiên cứu vai nghĩa đánh giá OntoNotes . . . . . . . . 48 2.1 Thống kê nhãn thành phần trong kho viettreebank . . . . . . . 57 2.2 Một số kho ngữ liệu gán nhãn phụ thuộc tiếng Việt . . . . . . . 58 2.3 So sánh tập nhãn phụ thuộc tiếng Việt với tập nhãn phụ thuộc đa ngôn ngữ (UD) và tập nhãn phụ thuộc tiếng Anh (SD). . . . 68 2.4 Tập quy tắc xác định phần tử trung tâm. . . . . . . . . . . . . . 69 2.5 Một số luật sử dụng để xác định nhãn phụ thuộc . . . . . . . . 70 2.6 Câu tiếng Việt theo định dạng CoNLL-X chưa được phân tích. . 76 2.7 Câu tiếng Việt theo định dạng CoNLL-X đã được phân tích phụ thuộc. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 2.8 Tập nhãn phụ thuộc nhóm Nguyễn Quốc Đạt[28] . . . . . . . . 77 2.9 Tập nhãn phụ thuộc của Nguyễn Kiêm Hiếu[28] . . . . . . . . . 77 2.10 Tập nhãn phụ trợ tiếng Việt . . . . . . . . . . . . . . . . . . . . 79 2.11 Một số luật xác định gán nhãn vai nghĩa thô . . . . . . . . . . . 81 2.12 Một số câu tiếng Việt gán nhãn vai nghĩa dạng thô . . . . . . . 82 2.13 Một số nhãn vai nghĩa phổ biến . . . . . . . . . . . . . . . . . . 83 2.14 Một số câu tiếng Việt gán nhãn vai nghĩa . . . . . . . . . . . . . 85 3.1 Tập luật sinh ra dữ liệu huấn luyện trong Shift-Reduce . . . . . 94 3.2 Luật suy diễn trong phân tích cú pháp Shift-reduce mở rộng . . 95 iv
3.3 Tập mẫu đặc trưng mở rộng . . . . . . . . . . . . . . . . . . . . 95 3.4 Dãy bước chuyển phân tích câu “Mảnh đất của đạn bom không còn người nghèo.” . . . . . . . . . . . . . . . . . . . . . . . . . . 97 3.5 Tập đặc trưng cơ bản . . . . . . . . . . . . . . . . . . . . . . . . 98 3.6 Đặc trưng cho phân tích cú pháp thành phần tiếng Việt . . . . 98 3.7 Kết quả với tập dữ liệu có số từ ≤ 10 . . . . . . . . . . . . . . . 103 3.8 Kết quả với tập dữ liệu có số từ ≤ 35 . . . . . . . . . . . . . . . 103 3.9 Một số kết quả phân tích theo mô hình tích hợp đặc trưng phân bố từ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 3.10 So sánh F1 sử dụng đặc trưng CharLSTM và EMLo . . . . . . . 105 3.11 Kết quả F1 khi độ dài của câu thay đổi sử dụng đặc trưng CharL- STM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 3.12 Kết quả F1 khi độ dài của câu thay đổi sử dụng đặc trưng ELMo 106 3.13 Lỗi phân cụm trong phân tích cú pháp thành phần tiếng Việt . 106 3.14 Kết quả của MaltParser. . . . . . . . . . . . . . . . . . . . . . . 116 3.15 Kết quả của MSTParser. . . . . . . . . . . . . . . . . . . . . . . 118 3.16 Đặc trưng MaltParser cho tiếng Việt . . . . . . . . . . . . . . . 124 3.17 Đặc trưng MSTParser cho tiếng Việt . . . . . . . . . . . . . . . 124 3.18 Đặc trưng Bist-parser phân tích cú pháp phụ thuộc dựa trên các bước chuyển . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 3.19 Kết quả phân tích cú pháp phụ thuộc với VTB_U trên MaltParser126 3.20 Kết quả phân tích cú pháp phụ thuộc với VTB_U trên MSTParser126 3.21 Kết quả phân tích cú pháp phụ thuộc với VTB_U trên Bist-Parser127 3.22 Kết quả phân tích cú pháp phụ thuộc với VTB trên Bist-Parser 127 3.23 Kết quả so sánh các phương pháp phân tích cú pháp phụ thuộc trên VTB_UD . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 3.24 Độ chính xác ASL của một số nhãn phụ thuộc trên VTB_UD . 128 4.1 Độ chính xác của 3 thuật toán rút trích . . . . . . . . . . . . . . 139 4.2 Độ chính xác của hệ thống cơ bản . . . . . . . . . . . . . . . . . 140 4.3 Độ chính xác của 2 chiến lược gán nhãn . . . . . . . . . . . . . 140 4.4 Tập đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 4.5 Độ chính xác của tập đặc trưng trong bảng 4.4 . . . . . . . . . 141 4.6 Tập đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 4.7 Độ chính xác của tập đặc trưng trong bảng 4.6 . . . . . . . . . 142 4.8 Ảnh hưởng của ILP . . . . . . . . . . . . . . . . . . . . . . . . . 142 4.9 Độ chính xác của mỗi loại đối số . . . . . . . . . . . . . . . . . . 143 v
4.10 Độ chính xác của 2 thuật toán rút trích . . . . . . . . . . . . . . 144 4.11 Độ chính xác của hệ thống . . . . . . . . . . . . . . . . . . . . . 144 4.12 Ảnh hưởng véctơ từ của vị tự . . . . . . . . . . . . . . . . . . . 145 4.13 Ảnh hưởng véctơ từ của từ chính . . . . . . . . . . . . . . . . . 145 vi
Danh sách hình vẽ 1 Các bước cơ bản trong xử lý ngôn ngữ tự nhiên . . . . . . . . . 1 2 Mô hình tổng quát phân tích cú pháp và gán nhãn vai nghĩa. . . 2 3 Biểu diễn cú pháp thành phần và cú pháp phụ thuộc của câu Nam đá bóng . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.1 Phân loại từ trong tiếng Việt. . . . . . . . . . . . . . . . . . . . 8 1.2 Cây cú pháp thành phần trong tiếng Việt. . . . . . . . . . . . . 20 1.3 Quá trình phân tích cú pháp thành phần . . . . . . . . . . . . . 21 1.4 Cấu trúc phụ thuộc. . . . . . . . . . . . . . . . . . . . . . . . . 28 1.5 Đồ thị phụ thuộc của một câu tiếng Việt. . . . . . . . . . . . . . 30 1.6 Ví dụ về phân tích cú pháp dựa trên đồ thị. . . . . . . . . . . . 34 1.7 Câu tiếng Anh được gán nhãn vai nghĩa. . . . . . . . . . . . . . 44 1.8 Khung vị từ Communication trong FrameNet . . . . . . . . . . 45 1.9 Khung vị từ Cognition trong FrameNet . . . . . . . . . . . . . . 45 1.10 Mô hình CBOW . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 2.1 Cây cú pháp thành phần “Tôi mong_mỏi sự công_bằng được thực_hiện và trả lại cho họ.” . . . . . . . . . . . . . . . . . . . . 71 2.2 Cú pháp phụ thuộc câu “Tôi mong_mỏi sự công_bằng được thực_hiện và trả lại cho họ.”. . . . . . . . . . . . . . . . . . . . . . . . . . 71 2.3 Câu tiếng Việt được gán nhãn vai nghĩa. . . . . . . . . . . . . . 80 3.1 Toán tử thay thế . . . . . . . . . . . . . . . . . . . . . . . . . . 90 3.2 Toán tử nối . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 3.3 Quá trình phân tích cú pháp thành phần . . . . . . . . . . . . . 93 3.4 Cây cú pháp thành phần “Mảnh đất của đạn bom không còn người nghèo.” . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 3.5 Mô hình phân tích cú pháp thành phần sử dụng phương pháp self-attention[53] . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 3.6 Bước mã hóa tổng quát[53] . . . . . . . . . . . . . . . . . . . . . 100 3.7 Bước mã hóa tổng quát[53] . . . . . . . . . . . . . . . . . . . . . 101 3.8 Minh họa gán nhãn thành phần lỗi giữa cụm động từ với mệnh đề trong tiếng Việt . . . . . . . . . . . . . . . . . . . . . . . . . 107 3.9 Minh họa gán nhãn thành phần lỗi giữa cụm danh từ trong tiếng Việt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 vii
3.10 Minh họa gán nhãn thành phần lỗi cụm giới từ trong tiếng Việt 109 3.11 Minh họa gán nhãn thành phần lỗi cụm liên từ trong tiếng Việt 110 3.12 Minh họa lỗi gán nhãn thành phần giữa thành phần con và cấu trúc ngang cấp trong tiếng Việt. . . . . . . . . . . . . . . . . . . 111 3.13 Minh họa lỗi gán nhãn thành phần giữa cấu trúc riêng và cấu trúc con do lỗi đính kèm cụm danh từ NP trong tiếng Việt . . . 112 3.14 Quá trình lặp lại module trong RNN chuẩn chứa tầng đơn giản 119 3.15 Sử dụng BiLSTM trong phân tích cú pháp phụ thuộc dựa trên bước chuyển [32] . . . . . . . . . . . . . . . . . . . . . . . . . . 121 4.1 Biểu diễn cú pháp thành phần và cú pháp phụ thuộc của câu Nam đá bóng . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 4.2 Một số lỗi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 4.3 Cách tiếp cận C-by-C và W-by-W . . . . . . . . . . . . . . . . 132 4.4 Trích xuất thành phần của câu “Bà nói nó là con trai tôi mà” với vị ngữ “là ” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 4.5 Tốc độ học của hệ thống . . . . . . . . . . . . . . . . . . . . . . 144 viii
Danh mục từ viết tắt Từ viết tắt Tiếng Anh Ý nghĩa MST Maximum Spanning Tree Cây bao trùm cực đại CRF Conditional Random Field Trường ngẫu nhiên có điều kiện PCFG Probabilistic context free Văn phạm phi ngữ cảnh kết grammar hợp với xác suất. LTAG Lexicalized tree adjoining Văn phạm kết nối cây từ vựng. grammar LPCFG Lexicalized probabilistic con- Văn phạm phi ngữ cảnh xác text free grammar suất từ vựng. SRL Semantic Role Labelling Gán nhãn vai nghĩa. ILP Integer Linear Programing Quy hoạch tuyến tính số nguyên. LTAG Lexicalized Tree Adjoining Văn phạm kết nối cây từ vựng Grammars hóa. LSTM-LM Long Short Term Memory - mô hình ngôn ngữ LSTM. Language Model ELMo Embedding from Language Mô hình nhúng của ngôn ngữ Model biLM Bidirectional Language Model Mô hình ngôn ngữ hai chiều GA-RNNG Gated Attention Recurrent Văn phạm mạng nơ-rơn hồi Neural Network Grammar quy với cơ chế chú ý cổng GLUE General Language Under- Chỉ số đánh giá mức độ hiểu standing Evaluation ngôn ngữ của hệ thống ix
Mở đầu Giới thiệu Xử lý ngôn ngữ tự nhiên là một lĩnh vực nghiên cứu nhằm giúp cho các hệ thống máy tính hiểu ngôn ngữ của con người và là vấn đề được nhiều nhà khoa học trên thế giới quan tâm. Các ứng dụng về lĩnh vực này đa đạng và phong phú như dịch máy, sinh văn bản, chuyển các văn bản thành dữ liệu có cấu trúc, phân loại văn bản, rút trích thông tin, v.v. . . Quá trình xử lý ngôn ngữ tự nhiên gồm một số vấn đề chính sau: phân tích hình thái từ, phân tích từ loại, phân tích cú pháp và phân tích ngữ nghĩa như hình 1. Phân tích Phân tích Phân tích Phân tích hình thái từ từ loại cú pháp ngữ nghĩa Hình 1: Các bước cơ bản trong xử lý ngôn ngữ tự nhiên Phân tích cú pháp là vấn đề quan trọng và cơ bản trong xử lý ngôn ngữ tự nhiên. Mục đích của phân tích cú pháp là nhận biết được cấu trúc cú pháp của câu để hiểu được ý nghĩa của văn bản. Nó cung cấp một nền tảng vững chắc cho lĩnh vực xử lý văn bản thông minh. Có nhiều văn phạm có thể sử dụng trong phân tích cú pháp như phân tích cú pháp sử dụng văn phạm phi ngữ cảnh, văn phạm phi ngữ cảnh kết hợp xác suất từ vựng hóa, văn phạm cấu trúc hướng trung tâm, văn phạm kết nối cây, v.v. . . Trong đó phân tích cú pháp thành phần sử dụng văn phạm phi ngữ cảnh và phân tích cú pháp phụ thuộc đang được nhiều nhóm quan tâm nghiên cứu. Việc phân tích cú pháp câu có thể chia làm hai mức chính [31]: • Mức thứ nhất là tách từ và xác định thông tin từ loại; • Mức thứ hai là sinh cấu trúc cú pháp cho câu dựa trên các từ và từ loại do bước trước cung cấp. Do tiếng Việt là ngôn ngữ đơn âm tiết nên chúng ta thường gặp phải vấn đề nhập nhằng ở cả hai mức. Tiếp theo sau của bước phân tích cú pháp là bước phân tích ngữ nghĩa trong tiếng Việt. Gán nhãn vai nghĩa là một nhánh trong phân tích ngữ nghĩa của câu. Kết quả của phân tích cú pháp và gán nhãn vai nghĩa tốt có thể được tích hợp vào những ứng dụng trong xử lý ngôn ngữ tự nhiên như: dịch máy, tóm tắt văn bản, hệ thống trả lời tự động, trích rút thông tin, v.v. . . 1
Đa số các phương pháp để nâng cao hiệu quả phân tích cú pháp và gán nhãn vai nghĩa là sử dụng học máy thống kê. Học máy thống kê có mặt trong hàng loạt ứng dụng hiện đại như: công nghệ tìm kiếm thông tin; chương trình lọc thư rác; xe ô tô, máy bay không người lái; xử lý ngôn ngữ, tiếng nói, hình ảnh; các chương trình bảo mật mạng,v.v. . . Mục tiêu chính của học máy thống kê là phối hợp thuật toán máy tính và các mô hình thống kê để tìm ra các cấu trúc có liên hệ về mặt toán học trong những tập dữ liệu hỗn tạp, đa dạng và nhiều nhiễu như mạng Internet toàn cầu, giao dịch chứng khoán, hình ảnh X-quang chẩn bệnh. Đặc biệt, trong nhưng năm gần đây kết quả của phân tích cú pháp và gán nhãn vai nghĩa sử dụng học máy thống kê đạt được kết quả cao trên nhiều ngôn ngữ khác như tiếng Anh, tiếng Trung, v.v. . . Đối với tiếng Việt, đã có một số nghiên cứu về phân tích cú pháp thành phần tuy nhiên độ chính xác chưa cao so với ngôn ngữ khác. Do đó, luận án đã tập trung giải quyết bài toán sau: • Đầu vào: Dữ liệu đã được tách từ và gán nhãn từ loại. • Đầu ra: Dữ liệu được gán nhãn cú pháp thành phần, cú pháp phụ thuộc và gán nhãn vai nghĩa. • Phương pháp: sử dụng phương pháp học máy để giải quyết bài toán. Gồm các bước chính sau: 1. Xây dựng kho ngữ liệu cú pháp phụ thuộc tiếng Việt. 2. Xây dựng kho ngữ liệu gán nhãn vai nghĩa tiếng Việt. 3. Tiếp cận các phương pháp học máy để giải quyết bài toán. Mô hình tổng quát sử dụng học máy thống kê cho bài toán phân tích cú pháp và gán nhãn vai nghĩa tiếng Việt trong hình 2. Hình 2: Mô hình tổng quát phân tích cú pháp và gán nhãn vai nghĩa. 2
Mô hình sử dụng thuật toán học có giám sát. Dữ liệu huấn luyện là kho ngữ liệu được gán nhãn cú pháp và gán nhãn vai nghĩa. Kết quả của bước huấn luyện sẽ thu được mô hình phân tích cú pháp và gán nhãn vai nghĩa. Mô hình phân tích chứa tập tham số cũng như một số đặc trưng riêng. Sử dụng mô hình phân tích để dự đoán gán nhãn cú pháp và vai nghĩa cho dữ liệu mới. Để phân tích cú pháp và gán nhãn vai nghĩa đạt độ chính xác cao, chúng ta phải quan tâm đến hai vấn đề chính sau: việc xây dựng kho ngữ liệu gán nhãn cú pháp và vai nghĩa; phương pháp phân tích cú pháp và gán nhãn vai nghĩa. Kho ngữ liệu gán nhãn cú pháp và vai nghĩa chính là dữ liệu huấn luyện và dữ liệu để kiểm tra tính chính xác của công cụ phân tích cú pháp và vai nghĩa. Đối với tiếng Việt, kho ngữ liệu hơn 10,000 câu được gán nhãn cú pháp thành phần của dự án VLSP chính là tập dữ liệu chính thức đầu tiên được xây dựng và hiệu chỉnh trong những năm gần đây. Tuy nhiên, kho ngữ liệu về cú pháp tiếng Việt vẫn còn rất hạn chế kể cả số lượng lẫn chất lượng và chưa có kho ngữ liệu gán nhãn vai nghĩa dẫn đến chưa có nhiều nghiên cứu về vấn đề phân tích cú pháp và gán nhãn vai nghĩa tiếng Việt nói chung. Vì vậy, việc xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc và vai nghĩa tiếng Việt là giai đoạn quan trọng. Dựa trên thông tin cú pháp thành phần trong viettreebank, tác giả đã rút trích các thông tin để xây dựng kho dữ liệu gán cú pháp phụ thuộc và kho dữ liệu gán nhãn vai nghĩa. Xét ví dụ câu “Nam đá bóng.” được gán nhãn cú pháp thành phần, cú pháp phụ thuộc và vai nghĩa như trong hình 3: Hình 3.a cho biết thông Hình 3: Biểu diễn cú pháp thành phần và cú pháp phụ thuộc của câu Nam đá bóng S Arg0 S NP-SUB VP . NP-SUB VP . Rel Arg1 N-H V-H NP . N-H V-H NP . root punct Nam đá N nsubj dobj Nam đá N Nam đá bóng . bóng N V N . bóng a. Cây cú pháp thành phần b. Cây cú pháp phụ thuộc c. Gán nhãn vai nghĩa tin cụm chủ ngữ (NP-SUB) là “Nam”, “đá bóng” là cụm động từ VP. Từ hình 3.a có thể xác định được các thông tin cho cú pháp phụ thuộc như (hình 3.b): đá là động từ chính trong cụm động từ VP và “bóng” là tân ngữ trực tiếp cho động từ chính từ đó xác định được thông tin phụ thuộc giữa (đá, bóng) có nhãn là tân ngữ trực tiếp (dobj); đá cũng chính là từ chính trong câu, từ đó xác định được 3
các quan hệ phụ thuộc: nsubj(đá, Nam) nghĩa là Nam chủ ngữ cho động từ đá, punct(đá, .) “.” là dấu câu phụ thuộc vào từ chính. Hoặc xác định thông tin cho vai nghĩa như (hình 3.c): “Nam” là chủ ngữ của câu có thể xác định nhãn vai nghĩa cho “Nam” là vai tác thể (Arg0); đá là động từ chính cũng chính là vị từ (Rel) của câu; bóng là tân ngữ trực tiếp cũng là bị thể cho vị từ đá có nhãn vai nghĩa (Arg1). Qua khảo sát tác giả nhận thấy ngoài việc khai thác thông tin cú pháp phụ thuộc từ viettreebank có thể khai thác thêm thông tin gán nhãn vai nghĩa. Đó cũng là lý do bổ sung thêm nghiên cứu gán nhãn vai nghĩa trong đề tài này. Tiếp theo, để nâng cao hiệu quả phân tích cú pháp và vai nghĩa luận án đã nghiên cứu một số phương pháp phân tích cú pháp và vai nghĩa trên tiếng Anh từ đó xác định vấn đề và đưa ra giải pháp cho tiếng Việt. Mục tiêu luận án Từ những hạn chế trong lĩnh vực phân tích cú pháp và gán nhãn vai nghĩa tiếng Việt cả về mặt kho ngữ liệu lẫn phương pháp, luận án tập trung giải quyết các vấn đề chính sau: • Xây dựng bộ nhãn phụ thuộc và bộ nhãn vai nghĩa cho tiếng Việt. • Xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc và gán nhãn vai nghĩa cho tiếng Việt. • Nghiên cứu phương pháp học máy thống kê nhằm nâng cao hiệu quả phân tích cú pháp và gán nhãn vai nghĩa tiếng Việt. Tóm tắt luận án Luận án trình bày một số vấn đề chính sau: trình bày cơ sở lý thuyết về cú pháp tiếng Việt, gán nhãn vai nghĩa và biểu diễn phân bố từ. Xây dựng tập nhãn phụ thuộc và vai nghĩa cho tiếng Việt. Sau đó luận án đề xuất phương pháp xây dựng kho ngữ liệu gán nhãn cú pháp phụ thuộc và gán nhãn vai nghĩa cho tiếng Việt. Sử dụng kho ngữ liệu gán nhãn cú pháp thành phần tiếng Việt tác giả đã thử nghiệm phân tích cú pháp thành phần trên 2 phương pháp chính: dựa trên phương pháp shift-reduce và phương pháp self-attention. Tích hợp đặc trưng biểu diễn phân bố từ vào phương pháp phân tích cú pháp phụ thuộc dựa trên đồ thị và dựa trên các bước chuyển. Phần cuối cùng, dựa trên kho ngữ liệu gán nhãn vai nghĩa tác giả đã xây dựng và trình bày phương pháp gán nhãn vai nghĩa trên tiếng Việt. 4
Đóng góp của luận án Sử dụng kho ngữ liệu gán nhãn cú pháp thành phần được xây dựng bởi nhóm VSLP, luận án đã có hai đóng góp chính: đóng góp về mặt dữ liệu, đóng góp về mặt phương pháp trên phân tích cú pháp và gán nhãn vai nghĩa cho tiếng Việt. 1. Về dữ liệu: xây dựng tập nhãn cú pháp phụ thuộc và tập nhãn vai nghĩa trên tiếng Việt. Luận án đề xuất thuật toán chuyển dữ liệu từ dữ liệu gán nhãn cú pháp thành phần sang dữ liệu gán nhãn cú pháp phụ thuộc và vai nghĩa trên tiếng Việt. Tác giả đã xây dựng thành công 10,165 câu tiếng Việt được gán nhãn cú pháp phụ thuộc. Thực hiện gán nhãn phụ thuộc đa ngôn ngữ lại thủ công được 3,000 câu tiếng Việt đưa lên kho ngữ liệu cú pháp phụ thuộc đa ngôn ngữ tại địa chỉ http://universaldependencies.org/. Đồng thời, tác giả đã xây dựng được 5,460 câu gán nhãn vai nghĩa cho tiếng Việt. 2. Về phương pháp, tác giả áp dụng phương pháp phân tích cú pháp và gán nhãn vai nghĩa: • Đối với bài toán phân tích cú pháp thành phần: đề xuất tích hợp véctơ phân bố từ vào hệ thống phân tích cú pháp thành phần dựa trên bước chuyển shift-reduce để nâng cao hiệu quả phân tích cú pháp thành phần trên tiếng Việt. Phân tích lỗi dành cho tiếng Việt dựa trên phương pháp phân tích cú pháp thành phần self-attention. • Đối với bài toán phân tích cú pháp phụ thuộc: dựa trên kho ngữ liệu đã xây dựng tác giả đề xuất tích hợp véctơ phân bố từ vào hệ thống phân tích cú pháp phụ thuộc MaltParser, MSTParser và Bist-parser. • Đối với bài toán gán nhãn vai nghĩa: áp dụng phương pháp quy hoạch tuyến tính nguyên với đề xuất tập ràng buộc dành riêng cho tiếng Việt và đề xuất thuật toán rút trích thành phần để nâng cao hiệu quả gán nhãn vai nghĩa tiếng Việt. Cấu trúc luận án Phần tiếp theo của luận án được trình bày lần lượt như sau: • Chương 1: trình bày các khái niệm cơ bản từ, cụm từ, cú pháp trong tiếng Việt. Sau đó luận án trình bày các khái niệm liên quan đến cú pháp thành phần, cú pháp phụ thuộc và vai nghĩa trong tiếng Việt. Tiếp theo là 4 phương pháp để biểu diễn phân bố từ: Skip-gram, CBOW, GloVe, ELMo. • Chương 2: luận án mô tả chi tiết về phương pháp xây dựng tập nhãn phụ thuộc và vai nghĩa trên tiếng Việt. Đề xuất phương pháp chuyển kho ngữ 5
liệu cú pháp thành phần sang kho ngữ liệu gán nhãn phụ thuộc và vai nghĩa tiếng Việt. • Chương 3: trình bày phương pháp nâng cao hiệu quả phân tích cú pháp thành phần, cú pháp phụ thuộc trên tiếng Việt. Đầu tiên, luận án giới thiệu một số văn phạm phổ biến phân tích cú pháp thành phần. Tiếp theo, trình bày chi tiết và đánh giá kết quả thử nghiệm phân tích cú pháp thành phần tiếng Việt trên 2 phương pháp: shift-reduce và self-attention. Cuối cùng, tác giả trình bày và đánh giá thử nghiệm phân tích cú pháp phụ thuộc dựa trên bước chuyển và đồ thị cho tiếng Việt. Đề xuất tích hợp đặc trưng biểu diễn phân bố từ vào các hệ thống MaltPaser, MSTParser và Bist-Parser cho phân tích cú pháp phụ thuộc tiếng Việt. • Chương 4: tác giả mô tả tập đặc trưng và phương pháp quy hoạch tuyến tính để gán nhãn vai nghĩa cho tiếng Việt. Đánh giá và phân tích kết quả gán nhãn vai nghĩa tiếng Việt. • Phần kết luận: tóm tắt một số kết quả đạt được và hướng phát triển trong tương lai. 6
Chương 1 Cơ sở lý thuyết Chương này trình bày các kiến thức cơ sở sử dụng ở các phần sau trong luận án. Đầu tiên, mục 1 trình bày các khái niệm cơ sở trong tiếng Việt [1,2,10] như từ, từ loại, cụm từ, ... Tiếp theo, mục 2, 3, 4 trình bày bài toán phân tích cú pháp thành phần, bài toán phân tích cú pháp phụ thuộc và bài toán gán nhãn vai nghĩa. Mục 5 trình bày các mô hình biểu diễn phân bố từ: skip-gram, túi từ liên tục, GloVe và biểu diễn từ dựa vào ngữ cảnh sâu. 1.1 Khái niệm cơ bản trong tiếng Việt 1.1.1 Từ Ở phương diện ngữ pháp có thể định nghĩa từ là đơn vị nhỏ nhất có nghĩa và có thể hoạt động tự do trong câu. Đơn vị cơ sở cấu tạo của từ tiếng Việt là tiếng. Tiếng có thể có nghĩa đủ rõ, có thể mang nghĩa mờ nhạt và có thể tự mình không có nghĩa [1]. Từ có nhiều cách phân loại khác nhau. Xét về số lượng tiếng có: • Từ chỉ chứa một tiếng: là từ đơn. Ví dụ: nhà, đã ... • Từ gồm nhiều tiếng, phần lớn là hai tiếng, gọi là từ phức. Ví dụ: nhà cửa, xanh lè, sạch sẽ ... Xét về mặt số lượng từ tố tham gia cấu tạo từ, hiểu từ tố là yếu tố nhỏ nhất có nghĩa, ta có: • Từ chỉ có một từ tố, gọi là từ đơn tố. Ví dụ: nhà, đủng đỉnh ... • Từ chứa nhiều tố, gọi là từ đa tố. Ví dụ: nhà cửa, xe đạp, sạch sẽ ... Xét ở mặt kết hợp âm thanh có tác dụng tạo nghĩa, trong tiếng Việt cần tách ra một lớp từ riêng là từ láy, như đủng đỉnh, sạch sẽ ... Kết hợp cả ba mặt trên, có phân loại từ theo lược đồ trong hình 1.1: 1.1.2 Từ loại Việc tập hợp và quy loại các từ thường dựa vào những quan niệm khác nhau về đặc trưng từ loại. Các hệ thống từ loại tiếng Việt hiện có chưa đạt được sự 7