Luận án Tiến sĩ Khoa học máy tính: Tích hợp đặc trưng ngôn ngữ vào mô hình học thống kê cho phân tích tình cảm

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:140

Thêm vào BST

Báo xấu

11
lượt xem 3
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án "Tích hợp đặc trưng ngôn ngữ vào mô hình học thống kê cho phân tích tình cảm" được hoàn thành với mục tiêu nhằm đề xuất các phương pháp và mô hình học máy cho bài toán phân tích tình cảm, trong đó tác giả phân tích các đặc trưng ngôn ngữ được trích chọn dựa trên các mẫu có sẵn và các mẫu học tự động được tích hợp vào các mô hình học thống kê cho phân loại tính chủ quan được áp dụng cho dữ liệu Tiếng Anh và tiếng Việt;

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận án Tiến sĩ Khoa học máy tính: Tích hợp đặc trưng ngôn ngữ vào mô hình học thống kê cho phân tích tình cảm

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ —————————————– TÍCH HỢP ĐẶC TRƯNG NGÔN NGỮ VÀO MÔ HÌNH HỌC THỐNG KÊ CHO PHÂN TÍCH TÌNH CẢM LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH HÀ NỘI, 2021
Mục lục Trang Lời cam đoan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Lời cảm ơn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Tóm tắt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 MỞ ĐẦU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1. Đặt vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2. Mục tiêu, đối tượng, phương pháp nghiên cứu của luận án . . . . . . . . . . 9 3. Các đóng góp chính của luận án . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 4. Bố cục của luận án . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Chương 1. TỔNG QUAN VỀ CÁC KỸ THUẬT PHÂN TÍCH TÌNH CẢM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.1. Phân tích tình cảm và khai phá quan điểm . . . . . . . . . . . . . . . . . . . . . . . 12 1.1.1. Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.1.2. Nghiên cứu về phân tích tình cảm, khai phá quan điểm trên thế giới và trong nước . . . . . . . 13 1.1.3. Các miền ứng dụng của phân tích tình cảm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.1.4. Công cụ và kỹ thuật phân tích dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.2. Các bài toán nghiên cứu trong phân tích tình cảm . . . . . . . . . . . . . . . 19 1.2.1. Phân tích tình cảm mức tài liệu/câu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.2.2. Phân tích tình cảm mức thực thể/khía cạnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 1.3. Phân tích nội dung nghiên cứu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 1.3.1. Dữ liệu nghiên cứu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 1.3.2. Phân loại tính chủ quan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 1.3.3. Phân tích tình cảm/quan điểm theo khía cạnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 1.3.4. Các phương pháp biểu diễn văn bản . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 1.3.5. Phương pháp đánh giá hiệu năng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 1.4. Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 Chương 2. KỸ THUẬT CHUẨN HÓA DỮ LIỆU TIẾNG VIỆT TRONG PHÂN TÍCH TÌNH CẢM . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.1. Giới thiệu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 i
2.2. Phương pháp kiểm tra chính tả cho dữ liệu tình cảm tiếng Việt dạng Microblog sử dụng n-gram lớn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.2.1. Động cơ nghiên cứu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.2.2. Một số lỗi chính tả thường gặp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 2.2.3. Phương pháp kiểm tra chính tả đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 2.2.4. Tiền xử lý dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 2.2.5. Thuật toán kiểm tra chính tả mở rộng ngữ cảnh ở cả hai phía . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 2.2.6. Mô hình ngôn ngữ n-gram lớn và nén n-gram . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 2.2.7. Thực nghiệm và đánh giá kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 2.3. Phương pháp tách từ cho dữ liệu tình cảm tiếng Việt dạng Microblog . 53 2.3.1. Động cơ nghiên cứu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 2.3.2. Hiện tượng nhập nhằng trong tách từ tiếng Việt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 2.3.3. Phương pháp tách từ dữ liệu tình cảm tiếng Việt dạng Microblog . . . . . . . . . . . . . . . . . . . . . . . . . 56 2.3.4. Phương pháp tách từ sử dụng kiểm tra chính tả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 2.3.5. Thực nghiệm và đánh giá kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 2.4. Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 Chương 3. PHÂN LOẠI CÂU CHỦ QUAN DỰA TRÊN TRÍCH CHỌN CÁC ĐẶC TRƯNG TỪ CÁC MẪU NGỮ PHÁP . . . . . . 71 3.1. Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 3.2. Giới thiệu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 3.3. Phương pháp trích xuất đặc trưng ngôn ngữ dựa trên các mẫu ngữ pháp cho phân loại câu chủ quan áp dụng cho dữ liệu tiếng Anh . . . . . . . . . . . 73 3.3.1. Động cơ nghiên cứu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 3.3.2. Mô hình phân loại câu chủ quan tiếng Anh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 3.3.3. Trích xuất đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 3.3.4. Thực hiện phân loại tính chủ quan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 3.3.5. Thực nghiệm và đánh giá kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 3.4. Phương pháp học tự động các mẫu cho bài toán xác định câu chủ quan tiếng Việt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 3.4.1. Động cơ nghiên cứu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 3.4.2. Quá trình học các mẫu từ loại . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 3.4.3. Dữ liệu huấn luyện . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 3.4.4. Định nghĩa các mẫu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 3.4.5. Trích xuất và đánh giá các mẫu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 3.4.6. Thực hiện phân loại tính chủ quan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 3.4.7. Thực nghiệm và đánh giá kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 3.5. Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 ii
Chương 4. PHÂN TÍCH TÌNH CẢM/QUAN ĐIỂM THEO KHÍA CẠNH VỚI MÔ HÌNH CNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 4.1. Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 4.2. Động cơ nghiên cứu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 4.3. Mô hình hóa bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 4.4. Mô hình đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 4.4.1. Mô hình CNN hai pha cho phân tích tình cảm/quan điểm theo khía cạnh . . . . . . . . . . . . . . . . 109 4.4.2. Mô hình CNN với các đặc trưng ngoài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 4.5. Thực nghiệm và đánh giá kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 4.5.1. Dữ liệu và Công cụ, môi trường thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 4.5.2. Tiền xử lý dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 4.5.3. Các mô hình và các kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 4.5.4. Đánh giá các kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 4.6. Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 Các kết quả và đóng góp của luận án . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 Những hạn chế và hướng nghiên cứu tiếp theo . . . . . . . . . . . . . . . . . . . . . . . 120 iii
Danh sách hình vẽ 2.1 Kiến trúc của phương pháp kiểm tra chính tả . . . . . . . . . . . . . . 44 2.2 Thuật toán kiểm tra và sửa lỗi chính tả . . . . . . . . . . . . . . . . . 47 2.3 Ảnh hưởng của kích thước ngữ liệu đến hiệu năng của phương pháp . 51 2.4 Sơ đồ thuật toán phát hiện nhập nhằng chồng chéo - ghép cặp lớn nhất từ bên trái . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 2.5 Sơ đồ thuật toán phát hiện nhập nhằng chồng chéo - ghép cặp lớn nhất từ bên phải . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 2.6 Thuật toán phát hiện nhập nhằng liên kết . . . . . . . . . . . . . . . . 61 2.7 Phương pháp tách từ sử dụng kiểm tra chính tả . . . . . . . . . . . . 62 2.8 Thuật toán kiểm tra lỗi viết tắt . . . . . . . . . . . . . . . . . . . . . . 64 3.1 Quá trình thực hiện trích chọn các đặc trưng ngôn ngữ cho phân loại câu chủ quan tiếng Anh . . . . . . . . . . . . . . . . . . . . . . . . 75 3.2 Sơ đồ thuật toán trích xuất các cụm từ sử dụng các mẫu ngữ pháp cho một câu vào đang xét . . . . . . . . . . . . . . . . . . . . . . 82 3.3 Quá trình học các mẫu từ loại . . . . . . . . . . . . . . . . . . . . . . . 89 3.4 Sơ đồ thuật toán trích xuất các mẫu kiểu 1 . . . . . . . . . . . . . . . 94 3.5 Sơ đồ thuật toán trích xuất các mẫu kiểu 2 . . . . . . . . . . . . . . . 96 3.6 Kết quả phân loại sử dụng 1-gram và 2-gram . . . . . . . . . . . . . . 98 4.1 Mô hình CNN cho phân tích tình cảm/quan điểm theo khía cạnh. . . 109 4.2 Hai pha của phân tích tình cảm/quan điểm theo khía cạnh. . . . . . . 111 4.3 Mô hình CNN với các đặc trưng ngoài . . . . . . . . . . . . . . . . . . 113 iv
Danh sách bảng 1.1 Ma trận nhầm lẫn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.1 Các kết quả nén n-gram . . . . . . . . . . . . . . . . . . . . . . . . . . 50 2.2 Ảnh hưởng của ngữ cảnh đến hiệu năng của phương pháp . . . . . . . 52 2.3 So sánh độ chính xác phương pháp đề xuất và phương pháp kiểm tra chính tả Copcon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 2.4 Phát hiện các nhập nhằng chồng chéo . . . . . . . . . . . . . . . . . . 57 2.5 Phát hiện các nhập nhằng liên kết . . . . . . . . . . . . . . . . . . . . 59 2.6 Từ điển các từ viết tắt . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 2.7 Dữ liệu huấn luyện của phương pháp kiểm tra chính tả . . . . . . . . 67 2.8 Dữ liệu đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 2.9 Tách từ cho dữ liệu chuẩn và dữ liệu dạng Microblog . . . . . . . . . 68 2.10 Một số lỗi kiểm tra chính tả và lỗi viết tắt ảnh hưởng đến hiệu năng của tách từ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 2.11 Tách từ trên dữ liệu Microblog sau khi kiểm tra chính tả . . . . . . . 69 2.12 Các trường hợp kiểm tra chính tả sai . . . . . . . . . . . . . . . . . . . 69 3.1 Các mẫu ngữ pháp chứa các tính từ . . . . . . . . . . . . . . . . . . . 78 3.2 Các mẫu ngữ pháp chứa các trạng từ . . . . . . . . . . . . . . . . . . . 79 3.3 Các mẫu ngữ pháp chứa các động từ . . . . . . . . . . . . . . . . . . . 80 3.4 Các mẫu ngữ pháp chứa các danh từ . . . . . . . . . . . . . . . . . . . 81 3.5 Thống kê số lượng các mẫu ngữ pháp được trích xuất từ các câu chủ quan và khách quan. . . . . . . . . . . . . . . . . . . . . . . . . . . 84 3.6 Bảng so sánh độ chính xác của các phương pháp . . . . . . . . . . . . 86 3.7 Bảng ví dụ gán nhãn chủ quan và khách quan cho dữ liệu Mi- croblog tiếng Việt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 3.8 Các mẫu của kiểu 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 3.9 Các mẫu của kiểu 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 3.10 Các kết quả phân loại của 1-gram and 2-gram . . . . . . . . . . . . . 98 3.11 Các kết quả phân loại của 1-gram và 2-gram (%) . . . . . . . . . . . . 98 3.12 Các kết quả phân loại của học các mẫu kiểu 1 . . . . . . . . . . . . . 99 3.13 Các kết quả phân loại của học các mẫu loại 2 . . . . . . . . . . . . . . 100 3.14 Các mẫu được học từ kiểu 1 . . . . . . . . . . . . . . . . . . . . . . . . 100 3.15 Các mẫu được học từ kiểu 2 . . . . . . . . . . . . . . . . . . . . . . . . 100 3.16 Các kết quả phân lớp trên dữ liệu đánh giá . . . . . . . . . . . . . . . 101 v
4.1 Các kết quả đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 vi
Thuật ngữ và từ viết tắt Từ viết tắt Từ gốc Giải nghĩa - Tạm dịch NLP Natural Language Processing Xử lý ngôn ngự tự nhiêm SA Sentiment Analysis Phân tích tình cảm OM Opinion Mining khai phá quan điểm ML Machine Learning Học máy TF term frequency Tần suất xuất hiện TF-IDF term frequency – inverse docu-Tần suất xuất hiện trong tài ment frequency liệu VS.TF Normalized term frequency as Chuẩn hóa tần suất xuất in vector space model hiện như mô hình không gian vector BM25.TF normalized term frequency as Chuẩn hóa tần suất xuất in BM25 hiện như trong các mô hình xác suất (BM25) VS.IDF normalized IDF as in VS Chuẩn hóa tần xuất xuất hiên trong tài liệu như mô hình không gian vector BM25.IDF normalized IDF as in BM25 Chuẩn hóa tần xuất xuất hiên trong tài liệu như trong các mô hình xác suất (BM25) POS part-of-speech Nhãn từ loại LDA Latent Dirichlet Allocation Phân bố Dirichlet ẩn CRF Conditional Random Fields Các trường ngẫu nhiên có điều kiện HMM Hidden Markov Model Mô hình Markov ẩn KNN k-nearest neighbors K-láng giềng gần nhất CNN Convolutional Neural Network Mạng nơ-ron tích chập ABSA Aspect Based Sentiment Anal- Phân tích tình cảm theo ysis khía cạnh LSTM Long Short Term Memory Mô hình bộ nhớ dài ngắn VLSP Vietnamese Language and Xử lý tiếng nói và xử lý ngôn Speech Processing ngữ tiếng Việt CBOW Continuous Bag of Words Véc-tơ từ dựa trên tập các từ DB Double propagation Phương pháp lan truyền kép PCA Principal Component Analysis Phân tích thành phần chính vii
SOM Self Organizing Maps Mạng nơ-ron nhân tạo tự tổ chức RNN Recurrent Neural Network Mạng hổi quy ME Maximum Entropy Phân loại dựa vào Entropy SVM Suport Vector Machine Máy véc-tơ hỗ trợ CC Coordinating conjunction Từ nối CD Cardinal number Số đếm DT Determiner Mạo từ IN Preposition or subordinating Giới từ hoặc từ kết nối phụ conjunction thuộc JJ Adjective Tính từ JJR Adjective, comparative Tính từ so sánh JJS Adjective, superlative Tính từ so sánh hơn MD Modal Trợ động từ NN Noun, singular or mass Danh từ đếm được và không đếm được NNS Noun, plural Danh từ số nhiều NNP Proper noun, singular Danh từ riêng số ít NNPS Proper noun, plural Danh từ riêng số nhiều PDT Predeterminer Từ chỉ định PRP Personal pronoun Đại từ nhân xưng PRP$ Possessive pronoun Đại từ sở hữu RB Adverb Trạng từ RBR Adverb, comparative Trạng từ so sánh RBS Adverb, superlative Trạng từ so sánh hơn TO to Giới từ VB Verb, base form Động từ VBD Verb, past tense Động từ thì quá khứ VBG Verb, gerund or present par- Danh động từ và hiện tại ticiple phân từ VBN Verb, past participle Quá khứ phân từ VBP Verb, non-3rd person singular Động từ hiện tại không phải present ngôi thứ 3 số ít VBZ Verb, 3rd person singular Động từ hiện tại ngôi thứ 3 present số ít viii
Lời cam đoan Tôi xin cam đoan luận án “Tích hợp đặc trưng ngôn ngữ vào mô hình học thống kê cho phân tích tình cảm” là công trình nghiên cứu do tôi thực hiện dưới sự hướng dẫn của PGS. TS. Lê Anh Cường và GS. TS. Nguyễn Lê Minh tại Bộ môn Khoa học Máy tính, Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội. Các số liệu và kết quả trình bày trong luận án là trung thực, chưa được công bố bởi bất kỳ tác giả nào hay ở bất kỳ công trình nào khác. Tác giả 1
Lời cảm ơn Lời đầu tiên tôi xin gửi lời cảm ơn chân thành và sâu sắc đến thầy giáo, PGS. TS. Lê Anh Cường và thầy giáo, GS. TS. Nguyễn Lê Minh, những người đã hướng dẫn, khuyến khích, truyền cảm hứng, chỉ bảo và tạo cho tôi những điều kiện tốt nhất từ khi bắt đầu làm nghiên cứu sinh đến khi hoàn thành luận án này. Tôi xin chân thành cảm ơn các Thầy/Cô giáo trong khoa Công nghệ Thông tin, trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, đặc biệt là các Thầy/Cô trong Bộ môn Khoa học Máy tính đã luôn tâm huyết trong quá trình tình đào tạo, cung cấp cho tôi những kiến thức vô cùng quý giá, tạo điều kiện tốt nhất cho tôi về môi trường làm việc trong suốt quá trình học tập, nghiên cứu tại Trường. Tôi cũng xin trân trọng gửi lời cảm ơn tới GS. Akira Shimazu và Viện Khoa học và Công nghệ Tiên tiến Nhật bản; GS. Yusuke Miyao và Viện Tin học Nhật Bản đã tạo điều kiện tốt nhất cho tôi trong quá trình thực tập sinh tại Viện. Tôi xin trân trọng cảm ơn GS.TS.NGƯT Trần Hữu Nghị và Ban giám hiệu trường Đại học Dân lập Hải Phòng, lãnh đạo Khoa Công nghệ Thông tin và các bạn đồng nghiệp Trường Đại học Dân lập Hải Phòng đã quan tâm, giúp đỡ và tạo điều kiện cho tôi trong suốt thời gian làm nghiên cứu sinh. Tôi xin trân trọng cảm ơn PGS.TS Hà Quang Thụy, PGS.TS Phan Xuân Hiếu, TS. Nguyễn Văn Vinh (Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội), PGS.TS. Lê Thanh Hương (Trường Đại học Bách khoa Hà Nội), TS. Nguyễn Thị Minh Huyền (Trường Đại học Khoa học tự nhiên, Đại học Quốc gia Hà Nội), TS. Đặng Trần Hưng (Trường đại học sư phạm, Đại học Quốc gia Hà Nội), TS. Đặng Thị Thu Hiền (Trường Đại học Thủy Lợi), PGS.TS Huỳnh Văn Nam (Viện Khoa học và Công nghệ Tiên tiến Nhật Bản) các Thầy/Cô đã luôn động viên, giúp đỡ và đã có những góp ý chỉnh sửa để tôi hoàn thiện luận 2
án. Tôi xin gửi lời cảm ơn đến tất cả anh, chị, em và bạn đồng học ở Bộ môn Khoa học Máy tính (Khoa Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội), đặc biệt các bạn Lê Quang Hùng (Đại học Quy Nhơn), Đặng Trần Thái, Nguyễn Thế Tùng, Nguyễn Văn Trường (Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội), Võ Công Hiếu (Văn phòng HĐND và UBND thành phố Nha Trang) trong nhóm nghiên cứu đã giúp đỡ tôi trong thời gian làm nghiên cứu sinh. Cuối cùng, tôi xin bày tỏ lòng biết ơn những người thân trong gia đình cùng toàn thể bạn bè đã luôn giúp đỡ, động viên tôi những lúc gặp phải khó khăn trong suốt quá trình học tập và nghiên cứu. 3
Tóm tắt Phân tích tình cảm (Sentiment Analysis) hay khai phá quan điểm (Opinion Mining) người dùng là lĩnh vực đã và đang thu hút được sự quan tâm của cộng đồng các nhà nghiên cứu cũng như các nhà phát triển ứng dụng. Cùng với sự phát triển của mạng máy tính toàn cầu và các thiết bị di động, người dùng đã tạo ra một lượng dữ liệu đánh giá khổng lồ trong quá trình họ tương tác trên các trang mạng xã hội, các trang diễn đàn, các trang đánh giá sản phẩm, v.v. Việc khai thác các thông tin hữu ích từ dữ liệu này có thể trợ giúp người dùng nắm được xu thế đang được đánh giá, bình luận hay thể hiện tình cảm về các sản phẩm, dịch vụ, sự kiện, v.v. là khen hay chê và được thể hiện như thế nào. Từ đó giúp người dùng hiểu hơn về đối tượng mà họ quan tâm và đưa ra các quyết định phù hợp; các công ty, các nhà sản xuất kinh doanh có thể dễ dàng thu thập được các thông tin phản hồi về sản phẩm, dịch vụ của họ để xây dựng chiến lược kinh doanh và phát triển sản phẩm một cách hiệu quả; các nhà xã hội học có thể nắm bắt được quan điểm của dân chúng về các vấn đề xã hội hiện nay; các chính trị gia có thể tìm hiểu xu hướng cảm xúc của xã hội về các vấn đề chính trị để giúp họ tìm ra các phương pháp thuyết phục công chúng trong các chiến lược tranh cử; các nhà quản lý thông qua đó có thể tìm hiểu được các nhu cầu, mong muốn và cảm xúc của người dân đối với các chính sách kinh tế xã hội phục vụ cho việc hoạch định chính sách, v.v. Do đó, bên cạnh ý nghĩa về mặt nghiên cứu thì các ứng dụng của bài toán phân tích tình cảm có ý nghĩa quan trọng trong nhiều khía cạnh và lĩnh vực của cuộc sống. Bài toán phân tích tình cảm có thể được chia thành ba mức thực hiện như sau: phân tích tình cảm mức tài liệu (Document-level Sentiment Analysis), phân tích tình cảm mức câu (Sentence-level Sentiment Analysis) và phân tích tình cảm mức thực thể/khía cạnh (Entity/Aspect-level Sentiment Analysis). Phân tích tình cảm mức tài liệu và mức câu gồm hai nhiệm vụ chính là phân loại 4
tính chủ quan (Subjectivity Classification) và phân loại tình cảm/quan điểm (Sentiment Classification). Phân tích tình cảm mức thực thể/khía cạnh có thể được phân chia với ba nhiệm vụ gồm phân tích tình cảm/quan điểm theo khía cạnh (Aspectbased sentiment analysis), phân tích tình cảm /quan điểm so sánh (Analysis of Comparative Opinions) và tóm tắt tình cảm/quan điểm (Sentiment Summurization). Trong luận án này, tác giả tập trung nghiên cứu hai nhiệm vụ là: phân loại tính chủ quan, phân tích tình cảm/quan điểm theo khía cạnh. Phân loại tính chủ quan là nhiệm vụ đầu tiên được xem là quan trọng nhất nhằm phát hiện ra câu hay tài liệu chứa quan điểm. Kết quả của nhiệm vụ này chính là đầu vào cho các bước phân tích tiếp theo như phân loại tình cảm/quan điểm, phân tích tình cảm/quan điểm theo khía cạnh, v.v. Việc phát triển các phương pháp phân loại câu/tài liệu chứa quan điểm có độ chính xác cao nhằm nâng cao hiệu năng thực hiện cho các nhiệm vụ tiếp theo trong phân tích tình cảm. Nhiệm vụ phân loại tình cảm/quan điểm nhằm xác định một câu hay tài liệu chứa quan điểm/tình cảm được được đánh giá theo các mức độ phân cực là tích cực (positive), tiêu cực (negative) hay trung lập (neutral) (hoặc các thứ hạng, 1*, 2*, 3*, 4*, 5*). Trong một số bài toán, phân loại tình cảm/quan điểm ở mức tài liệu hay mức câu theo các định hướng phân cực không thể hiện hết ý nghĩa trong ứng dụng bởi vì các phân loại này không xác định được đánh giá, mục tiêu đánh giá hoặc gán đánh giá với các mục tiêu. Trường hợp một tài liệu đánh giá cho một thực thể duy nhất là tích cực thì không có nghĩa là mọi ý kiến đánh giá cho mọi khía cạnh của nó đều là tích cực. Trên thực tế một thực thể có thể được đánh giá ở nhiều khía cạnh khác nhau, và mỗi khía cạnh có thể được đánh giá mới nhiều mức độ khác nhau. Do đó phân tích tình cảm/quan điểm theo khía cạnh thực hiện nhiệm vụ phân tích chi tiết đánh giá về một thực thể, để xác định với mỗi khía cạnh của nó được đánh giá là tích cực, tiêu cực hay trung lập hoặc các thứ hạng. Mục tiêu của phân tích tình cảm hay khai phá quan điểm là xác định đánh giá về thực thể mục tiêu theo các mức độ phân cực và chi tiết hơn là các đánh giá đó được gắn với khía cạnh tương ứng nào. Bài toán này cho đến nay vẫn thu hút được sự quan tâm của cộng đồng các nhà nghiên cứu nhằm đưa ra các phương pháp đạt hiệu năng cao và ứng dụng trong thực tế. Phần lớn các phương pháp được giới thiệu cho bài toán này dựa trên tiếp cận học có giám sát và bán 5
giám sát hoặc mô hình lai giữa các phương pháp. Giải pháp thực hiện cho các tiếp cận này là trích chọn các đặc trưng thể hiện quan điểm, nhận xét, đánh giá hay tình cảm và cảm xúc của người dùng về đối tượng được đề cập. Các đặc trưng này được trích xuất dựa vào các biểu diễn của văn bản và được sử dụng là đầu vào cho các phương pháp phân loại. Một số phương pháp biểu diễn văn bản được sử dụng trong các bài toán phân tích tình cảm để trích chọn các đặc trưng như: thông tin về sự xuất hiện và tần xuất xuất hiện (Term presence and Frequency), mô hình ngôn ngữ (n-gram), thông tin về nhãn của từ loại (Part of Speech Tagging), phân tích ngữ pháp phụ thuộc (Dependency Paser), phân tích ngữ pháp (Syntax Passer), thông tin về biểu diễn véc-tơ từ (Word2Vec), thông tin về nhúng các ký tự (Character Embeding), mạng ngữ nghĩa (WordNet), v.v. Do đó, việc trích chọn các đặc trưng hữu ích cũng là điều kiện quan trọng nhằm nâng cao hiệu năng thực hiện của các phương pháp. Trong luận án này tác giả tập trung nghiên cứu về việc trích chọn đặc trưng ngôn ngữ và tích hợp chúng vào mô hình học thống kê cho bài toán phân tích tình cảm, đặc biệt là mô hình học sâu và ứng dụng cho phân tích dữ liệu tiếng Anh và tiếng Việt. Bài toán phân loại tính chủ quan, tác giả đề xuất hai phương pháp: phương pháp thứ nhất là trích chọn các đặc trưng ngôn ngữ mới dựa trên các mẫu ngữ pháp cho dữ liệu tiếng Anh, phương pháp thứ hai học tự động dựa theo thống kê mẫu ngữ pháp để phân loại câu chủ quan tiếng Việt nhằm tăng độ chính xác cho các mô hình. Trong bài toán phân tích tình cảm/quan điểm theo khía cạnh tác giả đề xuất một mô hình tích hợp các đặc trưng giàu thông tin bên ngoài vào mô hình mạng nơ-ron tích chập (Convolutional Neural Network - CNN). Các đặc trưng đầu vào này được biểu diễn là các véc-tơ từ. Luận án đề xuất sử dụng mô hình CNN hai pha cho cả hai nhiệm vụ trích chọn khía cạnh và phân loại tình cảm/quan điểm tương ứng với các khía cạnh được trích. Việc tích hợp thêm các thông tin đặc trưng bên ngoài vào mô hình đã làm tăng độ chính xác khi thực hiện, các đặc trưng ngôn ngữ này được trích xuất dựa vào tính TF-IDF. Trong các nghiên cứu về phân tích tình cảm, tác giả nhận thấy rằng, hầu hết các phương pháp được giới thiệu từ năm 2010 trở về trước chủ yếu áp dụng cho dữ liệu tiếng Anh. Do đó việc phát triển các phương pháp phân tích tình cảm cho dữ liệu tiếng Việt cũng là nhiệm vụ quan trọng được đặt ra trong bối cảnh 6
nghiên cứu tại Việt Nam. Đối với dữ liệu tiếng Việt, tác giả nghiên cứu khai thác dữ liệu bình luận trên các diễn đàn đánh giá các sản phẩm kỹ thuật (đánh giá của điện thoại di động, máy tính xách tay, máy tính bảng, máy ảnh, truyền hình) từ các trang tinhte.vn, voz.vn, thegioididong.com. Dữ liệu này thường là những câu ngắn và được viết không theo chuẩn ngữ pháp và còn chứa rất nhiều lỗi và từ viết tắt hay ngôn ngữ ký hiệu riêng của giới trẻ. Loại dữ liệu này được gọi là dữ liệu dạng nhật ký trực tuyến ngắn (Microblog-style data). Với các thể hiện như vậy, dữ liệu dạng Microblog đã làm tăng sự xuất hiện của nhiều từ mới không có trong từ điển. Trong khi đó, một số phương pháp tiền xử lý dữ liệu tiếng Việt hầu hết được phát triển cho dữ liệu chính thống, nên khi áp dụng cho dữ liệu nhật ký trực tuyến ngắn là không hiệu quả. tác giả nhận thấy rằng việc xây dựng công cụ phù hợp cho việc chuẩn hóa xử lý dữ liệu dạng Microblog là cần thiết đối với bài toán phân tích tình cảm tiếng Việt. Luận án đã đề xuất phương pháp kiểm tra chính tả cho dữ liệu Microbog tiếng Việt sử dụng mô hình ngôn ngữ n-gram được huấn luyện từ kho ngữ liệu lớn và đề xuất một mô hình sử dụng hệ thống kiểm tra từ viết tắt và kiểm tra chính tả trong tách từ tiếng Việt để phù hợp với dữ liệu dạng Microblog. Các dữ liệu này sau khi được xử lý bằng các công cụ đề xuất đã được sử dụng trong nghiên cứu phân tích tính chủ quan tiếng Việt của tác giả. 7
MỞ ĐẦU 1. Đặt vấn đề Sự phát triển mạnh mẽ của mạng máy tính, các thiết bị di động và hệ thống Internet toàn cầu đã giúp người dùng trên thế giới dễ dàng kết nối và trao đổi thông tin với nhau. Bên cạnh các trang web quảng bá thông tin về các tổ chức, doanh nghiệp, cá nhân, các trang web thương mại dùng để bán sản phẩm, dịch vụ, v.v. thì các trang mạng xã hội, các diễn đàn, các trang thu thập ý kiến đánh giá về sản phẩm, dịch vụ cũng đã thu hút một lượng đông đảo người dùng tham gia. Trên đó, người dùng dễ dàng đăng tải các ý kiến thể hiện quan điểm cá nhân về những sự kiện nổi bật đáng quan tâm, về thông tin về kinh tế, thị trường, sản phẩm và dịch vụ; những trao đổi trong lĩnh vực văn hóa, thể thao, lịch sử, nghệ thuật; các vấn đề khoa học đến các vấn đề thời sự, chính trị, v.v. Theo thống kê trên Forbes.com năm 2018 1 , chỉ tính riêng hai trang mạng xã hội được coi là lớn nhất, trung bình mỗi phút trên Tweeter có 456.000 bài bình luận, còn Facebook là 510.000 bình luận và 293.000 bài viết được cập nhật. Với một lượng thông tin khổng lồ được trao đổi hàng ngày, câu hỏi đặt ra là làm thế nào khai thác được các ý kiến của mọi người đang nói về một vấn đề, một chủ đề hay sự kiện, sản phẩm hoặc dịch vụ nào đó là tích cực, tiêu cực hoặc trung lập, và nội dung đó được thể hiện như thế nào đã và đang thu hút được sự quan tâm của cộng đồng người dùng cũng như đặt ra các bài toán mới trong cộng đồng nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP). Câu trả lời cho bài toán này giúp ích cho những người dùng khác nhau nắm được các mức độ đánh giá và các thông tin đánh giá về các sự kiện, sản phẩm, dịch vụ, vấn đề mà họ đang quan tâm và dựa vào đó để hỗ trợ việc ra các quyết định trong các công việc của mình. 1 link: https://www.forbes.com/sites/bernardmarr/2018/05/21/how-much-data-do-we-create-every-day-the-mind- blowing-stats-everyone-should-read/?sh=286cf0bf60ba 8
Các nghiên cứu đầu tiên trong lĩnh vực này tập trung vào phát triển các phương pháp phát hiện các câu hay tài liệu chứa tình cảm, quan điểm và phân loại các tài liệu/câu đó theo các mức độ phân cực. Ban đầu, các phương pháp này chủ yếu thực hiện trên dữ liệu tiếng Anh, sau đó được mở rộng cho các ngôn ngữ khác như tiếng Trung Quốc, Tiếng Nhật, Tiếng Ả rập, tiếng Urdu, v.v. Tại Việt Nam, các nghiên cứu trong lĩnh vực này bắt đầu thu hút được sự quan tâm của các nhà nghiên cứu trong khoảng một thập niên trở lại đây. Các kết quả nghiên cứu trong lĩnh vực này đã và đang được áp dụng và phát triển trong lĩnh vực công nghiệp, ngày càng nhiều tập đoàn, các công ty nghiên cứu áp dụng để phát triển các sản phẩm dịch vụ của mình trong thực tế như FPT, Viettel, InforRe, Datasection, Q&Me, Axis Research, MIAD, v.v. Tác giả nhận thấy rằng, việc tiếp tục phát triển các phương pháp phân tích tình cảm để đáp ứng cho nhu cầu ngày càng cao trong việc khai thác từ lượng thông tin đánh giá khổng lồ của người dùng là vấn đề cấp thiết đặt ra. Đặc biệt, thông qua việc nghiên cứu các phương pháp đã có cho dữ liệu tiếng Anh và các ngôn ngữ khác để phát triển cho dữ liệu tiếng Việt cũng là yêu cầu quan trọng đối với các nhà nghiên cứu trong nước cũng như cho các doanh nghiệp để phát triển các sản phẩm dịch vụ. Điều này chính là động lực để tác giả lựa chọn nghiên cứu đề tài "Tích hợp các đặc trưng ngôn ngữ vào mô hình học máy thống kê cho phân tích tình cảm". 2. Mục tiêu, đối tượng, phương pháp nghiên cứu của luận án Mục tiêu nghiên cứu: trong luận án này, tác giả đặt ra hai mục tiêu chính: Thứ nhất là nghiên cứu đề xuất các phương pháp và mô hình học máy cho bài toán phân tích tình cảm, trong đó tác giả phân tích các đặc trưng ngôn ngữ được trích chọn dựa trên các mẫu có sẵn và các mẫu học tự động được tích hợp vào các mô hình học thống kê cho phân loại tính chủ quan được áp dụng cho dữ liệu Tiếng Anh và tiếng Việt; nghiên cứu về các mô hình học sâu và đề xuất phương pháp tích hợp thêm các đặc trưng ngoài cho mạng nơ-ron tích chập cho phân tích tình cảm/quan điểm theo khía cạnh. Thứ hai là nghiên cứu về dữ liệu tình cảm tiếng Việt cho bài toán phân tích 9
tính chủ quan trên đó và đề xuất các phương pháp chuẩn hóa dữ liệu bình luận văn bản tiếng Việt để làm tăng độ chính xác cho bài toán phân tích tình cảm áp dụng cho dữ liệu tiếng Việt. Đối tượng nghiên cứu - Nhiệm vụ phân loại tính chủ quan: đối tượng nghiên cứu của đề tài là các văn bản bình luận tiếng Anh và tiếng Việt được chia thành hai tập là chứa quan điểm và không chứa quan điểm. - Nhiệm vụ phân tích tình cảm/quan điểm theo khía cạnh: đối tượng nghiên cứu là các bình luận được gán nhãn là tích cực, tiêu cực hay trung lập và gán nhãn các khía cạnh của từng đối tượng được đánh giá trong đó và quan điểm tương ứng là tích cực, tiêu cực hay trung lập. - Nhiệm vụ phát triển các phương pháp tiền xử lý cho dữ liệu bình luận dạng Microblog tiếng Việt: đối tượng nghiên cứu là các bình luận tiếng Việt cho các sản phẩm công nghệ được thu thập từ các diễn đàn công nghệ của Việt Nam. Phương pháp nghiên cứu Phương pháp nghiên cứu của luận án là nghiên cứu dựa trên thực nghiệm và so sánh kết quả với một số nghiên cứu trước đó. 3. Các đóng góp chính của luận án • Đề xuất hai phương pháp để chuẩn hóa dữ liệu bài bình luận ngắn tiếng Việt. Phương pháp thứ nhất dùng để kiểm tra chính tả cho dữ liệu Microblog tiếng Việt sử dụng mô hình ngôn ngữ n-gram được huấn luyện từ kho ngữ liệu lớn. Đóng góp này được công bố ở kỷ yếu hội thảo Knowledge and Systems Engineering năm 2014. Phương pháp thứ hai dùng để tách từ cho dữ liệu Microblog tiếng Việt sử dụng kiểm tra chính tả được công bố trong kỷ yếu hội thảo Asian Conference on Information Systems năm 2014. • Đề xuất hai phương pháp xác định văn bản chứa quan điểm. Tác giả đề xuất một phương pháp trích chọn các đặc trưng ngôn ngữ để phân loại câu chủ quan và câu khách quan áp dụng cho dữ liệu tiếng Anh được công bố tại kỷ yếu hội nghị IALP năm 2012. Phương pháp học thống kê tự động 10
trích mẫu ngữ pháp thứ hai cho bài toán phân loại câu chủ quan áp dụng cho dữ liệu tiếng Việt. Đóng góp này được công bố trong kỷ yếu hội thảo quốc tế Knowledge and Systems Engineering năm 2014. • Đề xuất phương pháp tích hợp các đặc trưng ngoài cho mạng nơ-ron tích chập hai pha để phân tích tình cảm/quan điểm theo khía cạnh. Đóng góp này được công bố trong kỷ yếu hội thảo quốc tế NAFOSTED Conference on Information and Computer Science năm 2018. Các nội dung và kết quả nghiên cứu trình bày trong luận án (từ Chương 2 đến Chương 4) đã được công bố trong 5 công trình trong các kỷ yếu của hội thảo quốc tế có phản biện, được xuất bản bởi IEEE và Springer. 4. Bố cục của luận án Ngoài phần mở đầu và kết luận, luận án được tổ chức thành 4 chương, với bố cục như sau: • Chương 1. Tổng quan về các kỹ thuật phân tích tình cảm. Trong chương này, luận án trình bày tổng quan về các nội dung được nghiên cứu trong luận án. Tác giả phân tích, đánh giá các công trình nghiên cứu liên quan, nêu ra một số vấn đề còn tồn tại mà luận án sẽ tập trung giải quyết và xác định nội dung nghiên cứu của luận án. • Chương 2. Kỹ thuật chuẩn hóa dữ liệu tiếng Việt trong phân tích tình cảm. Trong chương này phân tích đặc điểm của dữ liệu tình cảm tiếng Việt dạng bài nhật ký trực tuyến ngắn (Microblog). Luận án trình bày nội dung, kết quả nghiên cứu để chuẩn hóa dữ liệu Microblog tiếng Việt. • Chương 3. Phân loại câu chủ quan dựa trên trích chọn đặc trưng từ các mẫu ngữ pháp, trong đó luận án trình bày nội dung, kết quả nghiên cứu cho nhiệm vụ phân loại tính chủ quan. • Chương 4. Phân tích tình cảm/quan điểm theo khía cạnh với mô hình CNN, luận án trình bày nội dung, kết quả nghiên cứu của mô hình đề xuất cho bài toán phân tích tình cảm/quan điểm theo khía cạnh. 11