Luận án Tiến sĩ Khoa học máy tính: Phát triển các mô hình dựa trên mạng nơ-ron cho phân tích quan điểm theo khía cạnh
lượt xem 10
download
Mục tiêu của luận án là nghiên cứu các kỹ thuật, mô hình học biểu diễn cho mức từ, mức câu, và mức văn bản. Đề xuất các mô hình mới và cải tiến các mô hình học biểu diễn hiện có nhằm giải quyết các bài toán phân tích quan điểm theo khía cạnh. Hướng đến giải quyết hai bài toán chính: (1) Bài toán xếp hạng và xác định trọng số khía cạnh của thực thể (sản phẩm/dịch vụ); (2) Bài toán xây dựng các mô hình phân tích quan điểm theo khía cạnh nhằm xác định khía cạnh cho từng câu đầu vào và phân loại quan điểm theo khía cạnh tương ứng cho nó.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Luận án Tiến sĩ Khoa học máy tính: Phát triển các mô hình dựa trên mạng nơ-ron cho phân tích quan điểm theo khía cạnh
- ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ——————— PHẠM ĐỨC HỒNG PHÁT TRIỂN CÁC MÔ HÌNH DỰA TRÊN MẠNG NƠ-RON CHO PHÂN TÍCH QUAN ĐIỂM THEO KHÍA CẠNH LUẬN ÁN TIẾN SĨ NGÀNH KHOA HỌC MÁY TÍNH Hà Nội - 2019
- ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ——————— PHẠM ĐỨC HỒNG PHÁT TRIỂN CÁC MÔ HÌNH DỰA TRÊN MẠNG NƠ-RON CHO PHÂN TÍCH QUAN ĐIỂM THEO KHÍA CẠNH Chuyên ngành: Khoa học máy tính Mã số: 9480101.01 LUẬN ÁN TIẾN SĨ NGÀNH KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. Lê Anh Cường Hà Nội - 2019
- LỜI CẢM ƠN Luận án tiến sĩ ngành Khoa học Máy tính này được Chính phủ Việt Nam hỗ trợ một phần kinh phí thông qua Đề án 911 và được thực hiện tại Bộ môn Khoa học máy tính, Khoa Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội dưới sự hỗ trợ về mặt thủ tục của Phòng Tài chính kế toán, Trường Đại học Công nghệ. Bên cạnh đó còn có sự hỗ trợ kinh phí đối với các công bố có chỉ số SCIE, SCI của Trường Đại học Điện lực và của đề tài NAFOSTED, mã số 102.01-2014.22 thuộc Quỹ Phát triển khoa học và công nghệ Quốc gia. Tôi xin chân thành cảm ơn các đơn vị, tổ chức này đã giúp đỡ tôi trong thời gian nghiên cứu. Luận án còn có sự hợp tác và hỗ trợ của các cá nhân, những người đã đóng góp rất nhiều trong quá trình hoàn thành các vấn đề nghiên cứu của luận án. Trước hết tôi xin chân thành cảm ơn PGS.TS. Lê Anh Cường đã trực tiếp hướng dẫn, giúp đỡ luôn sẵn lòng và tạo mọi điều kiện thuận lợi nhất cho tôi trong quá trình học tập và nghiên cứu. Tôi xin gửi lời cảm ơn chân thành tới PGS.TS. Hoàng Xuân Huấn, PGS.TS. Phan Xuân Hiếu, TS. Nguyễn Văn Vinh, TS. Lê Nguyên Khôi, TS. Nguyễn Bá Đạt, TS. Nguyễn Thị Ngọc Điệp (Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội), PGS.TS. Lê Thanh Hương (Trường Đại học Bách khoa Hà Nội), TS. Nguyễn Thị Minh Huyền (Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội), PGS. TS. Trần Đăng Hưng (Trường Đại học Sư Phạm Hà Nội), TS. Đặng Thị Thu Hiền (Trường Đại học Thủy lợi) vì sự góp ý rất chân thành và thẳng thắn, giúp cho luận án của tôi được hoàn thiện tốt hơn. Tôi biết ơn chân thành đối với PGS.TS. Nguyễn Lê Minh (Viện Khoa học công nghệ Tiên tiến Nhật Bản), TS. Trần Quốc Long (Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội). Hai thầy đã trực tiếp giảng dạy, chia sẻ cho tôi nhiều hiểu biết liên quan đến nội dung nghiên cứu. Tôi xin gửi lời cảm ơn đến tất cả anh, chị, em và bạn bè đồng nghiệp, nghiên cứu sinh ở Bộ môn Khoa học máy tính, Khoa Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội đã giúp đỡ tôi hoàn thành các kế hoạch và thủ tục hành chính trong thời gian làm nghiên cứu sinh. Tôi cũng muốn cảm ơn đến anh/chị/em đồng nghiệp, giảng viên khoa Công nghệ Thông tin, Trường Đại học Điện lực đã luôn cổ vũ động viên và sát cánh bên tôi trong suốt quá trình nghiên cứu. Cuối cùng, tôi muốn nói lời cảm ơn đặc biệt tới vợ tôi Lê Thị Kim Chung, và con trai tôi Phạm Công Phúc đã dành cho tôi tình yêu và sự cảm thông, cho phép tôi dành nhiều thời gian, tập trung cho công việc nghiên cứu. Tôi hết lòng biết ơn bố mẹ tôi về tình yêu và sự cống hiến to lớn để tôi trưởng thành như ngày hôm nay, cảm ơn các anh, chị, em của tôi về tình yêu gia đình và sự quan tâm giúp đỡ của họ cho công việc này.
- LỜI CAM ĐOAN Tôi xin cam đoan luận án này là kết quả nghiên cứu của tôi, được thực hiện dưới sự hướng dẫn của PGS.TS. Lê Anh Cường. Các nội dung trích dẫn từ các nghiên cứu của các tác giả khác mà tôi trình bày trong luận án này đã được ghi rõ nguồn trong phần tài liệu tham khảo. Phạm Đức Hồng ii
- Mục lục Lời cảm ơn i Lời cam đoan ii Mục lục iii Danh mục các chữ viết tắt vii Danh mục các bảng ix Danh mục các hình vẽ xi Lời mở đầu 1 1 Tổng quan vấn đề nghiên cứu 5 1.1 Giới thiệu bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2 Các bài toán trong phân tích quan điểm . . . . . . . . . . . . . . . . . 6 1.2.1 Tổng quan một hệ thống phân tích quan điểm . . . . . . . . . . 6 1.2.2 Phân tích quan điểm cho toàn bộ văn bản . . . . . . . . . . . . 8 1.2.3 Phân tích quan điểm theo khía cạnh . . . . . . . . . . . . . . . 8 1.2.4 Các bài toán trong phân tích quan điểm theo khía cạnh . . . . . 8 1.3 Các nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.3.1 Trích xuất từ thể hiện khía cạnh . . . . . . . . . . . . . . . . . 10 1.3.2 Xác định khía cạnh . . . . . . . . . . . . . . . . . . . . . . . . 11 1.3.3 Phân đoạn khía cạnh . . . . . . . . . . . . . . . . . . . . . . . 11 1.3.4 Phân loại quan điểm theo khía cạnh . . . . . . . . . . . . . . . 12 iii
- 1.3.5 Xếp hạng khía cạnh . . . . . . . . . . . . . . . . . . . . . . . . 12 1.3.6 Xác định hạng và trọng số khía cạnh ẩn . . . . . . . . . . . . . 13 1.4 Các tiếp cận giải quyết bài toán . . . . . . . . . . . . . . . . . . . . . . 14 1.5 Nghiên cứu trên thế giới và Việt nam . . . . . . . . . . . . . . . . . . . 15 1.6 Thảo luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2 Kiến thức cơ sở 18 2.1 Các ký hiệu và khái niệm liên quan . . . . . . . . . . . . . . . . . . . . 18 2.2 Các mô hình học máy cơ sở cho phân tích quan điểm theo khía cạnh . . 21 2.2.1 Mô hình hồi quy đánh giá ẩn . . . . . . . . . . . . . . . . . . . 21 2.2.2 Thuật toán xác suất xếp hạng khía cạnh . . . . . . . . . . . . . 22 2.3 Các mô hình học biểu diễn mức từ, câu, đoạn/văn bản . . . . . . . . . . 25 2.3.1 Mô hình Word2Vec . . . . . . . . . . . . . . . . . . . . . . . . 25 2.3.2 Mô hình GloVe . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.3.3 Mô hình véc-tơ Paragraph . . . . . . . . . . . . . . . . . . . . 27 2.3.4 Mô hình mạng nơ-ron tích chập CNN . . . . . . . . . . . . . . 30 2.3.5 Mô hình véc-tơ kết hợp . . . . . . . . . . . . . . . . . . . . . . 33 2.4 Kết luận và thảo luận . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 3 Đề xuất mô hình dựa trên mạng nơ-ron xác định hạng và trọng số khía cạnh của thực thể 35 3.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.2 Mô hình hóa bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 3.2.1 Bài toán xác định hạng và trọng số khía cạnh ẩn của thực thể . . 36 3.2.2 Bài toán xác định trọng số khía cạnh chung của các thực thể . . 37 3.3 Phương pháp đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.3.1 Xác định hạng và trọng số khía cạnh ẩn của thực thể sử dụng mô hình mạng nơ-ron một lớp ẩn . . . . . . . . . . . . . . . . . 38 3.3.2 Xác định hạng và trọng số khía cạnh ẩn của thực thể sử dụng mô hình học biểu diễn đa tầng . . . . . . . . . . . . . . . . . . 45 iv
- 3.3.3 Xác định trọng số khía cạnh chung của thực thể sử dụng mô hình mạng nơ-ron . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.4 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 3.4.1 Các độ đo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 3.4.2 Cài đặt mô hình . . . . . . . . . . . . . . . . . . . . . . . . . . 58 3.4.3 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . 59 3.4.4 Đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 3.4.5 Hiệu quả của các tham số trong mô hình LRNN-ASR . . . . . . 63 3.5 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 4 Học véc-tơ biểu diễn từ cho phân tích quan điểm theo khía cạnh 68 4.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 4.2 Mô hình hóa bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 4.2.1 Bài toán tinh chỉnh véc-tơ biểu diễn từ . . . . . . . . . . . . . . 70 4.2.2 Bài toán học véc-tơ biểu diễn từ . . . . . . . . . . . . . . . . . 71 4.3 Phương pháp đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 4.3.1 Mô hình tinh chỉnh véc-tơ biểu diễn từ . . . . . . . . . . . . . . 72 4.3.2 Mô hình học véc-tơ biểu diễn từ SSCWE . . . . . . . . . . . . 77 4.4 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 4.4.1 Dữ liệu thực nghiệm và các độ đo . . . . . . . . . . . . . . . . 82 4.4.2 Các độ đo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 4.5 Cài đặt và đánh giá mô hình tinh chỉnh véc-tơ từ WEFT . . . . . . . . . 83 4.5.1 Cài đặt mô hình . . . . . . . . . . . . . . . . . . . . . . . . . . 83 4.5.2 Đánh giá mô hình . . . . . . . . . . . . . . . . . . . . . . . . . 83 4.6 Cài đặt và đánh giá mô hình SSCWE . . . . . . . . . . . . . . . . . . . 85 4.6.1 Cài đặt mô hình . . . . . . . . . . . . . . . . . . . . . . . . . . 85 4.6.2 Đánh giá mô hình . . . . . . . . . . . . . . . . . . . . . . . . . 85 4.6.3 So sánh hai mô hình WEFT và SSCWE . . . . . . . . . . . . . 88 4.7 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 v
- 5 Mô hình đa kênh dựa trên CNN nhằm khai thác đa véc-tơ biểu diễn từ và ký tự cho phân tích quan điểm theo khía cạnh 91 5.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 5.2 Mô tả bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 5.3 Phương pháp đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 5.3.1 Thành phần tích chập . . . . . . . . . . . . . . . . . . . . . . . 94 5.3.2 Mô hình mạng nơ-ron tích chập đa kênh cho phân tích quan điểm theo khía cạnh . . . . . . . . . . . . . . . . . . . . . . . 95 5.4 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 5.4.1 Dữ liệu thực nghiệm và cài đặt mô hình MCNN . . . . . . . . . 100 5.4.2 Môi trường và thời gian thực nghiệm . . . . . . . . . . . . . . . 101 5.4.3 Đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 5.4.4 Hiệu quả của các loại tham số . . . . . . . . . . . . . . . . . . 105 5.5 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 Kết luận 110 Danh mục công trình khoa học của tác giả liên quan đến luận án 112 Tài liệu tham khảo 113 vi
- Danh mục các chữ viết tắt LRNN Latent Rating Neural Network (Mạng nơ-ron đánh giá ẩn) LRR Latent Rating Regression (Hồi quy đánh giá ẩn) ASR Aspect Semantic Representation (Biểu diễn ngữ nghĩa khía cạnh) NNAWs Neural Network Aspect Weights (Mạng nơ-ron trọng số khía cạnh) CNN Convolutional Neural Network (Mạng nơ-ron tích chập) MCNN Multichannel Convolutional Neural Network (Mạng nơ-ron đa kênh tích chập) NLP Natural Language Processing (Xử lý ngôn ngữ tự nhiên) POS Part Of Speech (Nhãn từ loại) SVM Support Vector Machine (Máy véc-tơ hỗ trợ) vii
- Danh sách bảng 3.1 Các từ hạt nhân được lựa chọn cho thuật toán phân đoạn khía cạnh . . . 55 3.2 Thống kế dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . . 55 3.3 Kết quả dự đoán hạng của 5 khách sạn . . . . . . . . . . . . . . . . . . 59 3.4 Kết quả xác định trọng số khía cạnh của 5 khách sạn . . . . . . . . . . 59 3.5 So sánh mô hình LRNN với phương pháp LRR trong bốn trường hợp biểu diễn khía cạnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 3.6 Top 10 từ có trọng số tích cực và tiêu cực của từng khía cạnh . . . . . . 61 3.7 Các kết quả thực nghiệm và so sánh các mô hình trong việc xác định hạng khía cạnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 3.8 Kết quả so sánh chất lượng trọng số khía cạnh chung . . . . . . . . . . 63 3.9 Các kết quả thực nghiệm trên các trường hợp khởi tạo trọng số khía cạnh 64 3.10 Kết quả thực nghiệm mô hình đề xuất sử dụng trọng số khía cạnh chung so với sử dụng riêng . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 4.1 Thống kê tập dữ liệu thứ 2 . . . . . . . . . . . . . . . . . . . . . . . . 82 4.2 Kết quả xác định khía cạnh . . . . . . . . . . . . . . . . . . . . . . . . 84 4.3 Kết quả phân loại quan điểm theo khía cạnh . . . . . . . . . . . . . . . 84 4.4 Bốn từ gần ngữ nghĩa với từ đã cho đối với từng mô hình . . . . . . . . 85 4.5 Các kết quả xác định khía cạnh . . . . . . . . . . . . . . . . . . . . . . 87 4.6 Các kết quả phân loại quan điểm . . . . . . . . . . . . . . . . . . . . . 87 4.7 Năm từ gần ngữ nghĩa với từ đã cho đối với từng mô hình . . . . . . . . 88 4.8 So sánh kết quả phân loại quan điểm giữa mô hình WEFT và SSCWE . 89 4.9 So sánh thời gian thực hiện giữa mô hình WEFT và SSCWE . . . . . . 90 5.1 Thống kê số lượng câu được sử dụng trong thực nghiệm . . . . . . . . . 100 viii
- 5.2 Bảng từ điển các ký tự tiếng Anh . . . . . . . . . . . . . . . . . . . . . 100 5.3 Kết quả xác định khía cạnh của mô hình MCNN và các mô hình cơ sở . 104 5.4 Kết quả dự đoán phân loại quan điểm theo khía canh của mô hình MCNN và các mô hình cơ sở . . . . . . . . . . . . . . . . . . . . . . . 105 5.5 Các từ gần nhau được xác định bằng véc-tơ biểu diễn từ trong kênh CNN3106 5.6 So sánh kết quả, thời gian sử dụng kỹ thuật dropout trong mô hình MCNN đối với cộng việc xác định khía cạnh . . . . . . . . . . . . . . . 106 5.7 So sánh kết quả, thời gian sử dụng kỹ thuật dropout trong mô hình MCNN đối với công việc phân loại quan điểm khía cạnh . . . . . . . . 106 5.8 Kết quả xác định khía cạnh của mô hình MCNN với các mức lựa chọn số chiều véc-tơ ký tự nhúng khác nhau . . . . . . . . . . . . . . . . . . 107 5.9 Kết quả phân loại quan điểm của mô hình MCNN với các mức lựa chọn số chiều véc-tơ ký tự nhúng khác nhau . . . . . . . . . . . . . . . . . . 107 5.10 Kết quả xác định khía cạnh của mô hình MCNN khi sử dụng số lượng bộ lọc khác nhau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 5.11 Kết quả phân loại quan điểm của mô hình MCNN khi sử dụng số lượng bộ lọc khác nhau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 ix
- Danh sách hình vẽ 1.1 Kiến trúc tổng quan của hệ thống phân tích quan điểm . . . . . . . . . . 7 2.1 Ví dụ một ý kiến khách hàng thể hiện quan điểm về dịch vụ khách sạn Vinpearl Phu Quoc Resort . . . . . . . . . . . . . . . . . . . . . . . . 19 2.2 Ví dụ về Hạng chung của sản phẩm iPhone X 64GB . . . . . . . . . . . 20 2.3 Mô hình hồi quy đánh giá khía cạnh ẩn [1] . . . . . . . . . . . . . . . . 22 2.4 Mô hình Word2Vec với hai kiến trúc CBOW và Skip-gram . . . . . . . 25 2.5 Mô hình véc-tơ Paragraph học biểu diễn câu, đoạn hoặc cả văn bản [2] . 28 2.6 Minh họa mô hình túi từ phân phối của các véc-tơ Paragraph [2] . . . . 29 2.7 Minh họa tích chập trong ma trận câu . . . . . . . . . . . . . . . . . . 31 2.8 Minh họa mô hình phân lớp câu sử dụng mạng CNN [3] . . . . . . . . . 32 2.9 Minh họa việc sử dung mô hình véc-tơ kết hợp cho biểu diễn mức câu . 34 3.1 Ví dụ: đầu vào, đầu ra của toán xác định hạng và trọng số khía cạnh ẩn . 37 3.2 Ví dụ: đầu vào, đầu ra của toán xác định trọng số khía cạnh chung . . . 38 3.3 Các công việc cần giải quyết của bài toán xác định hạng và trọng số khía cạnh ẩn của thực thể . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.4 Minh họa mô hình mạng nơ-ron LRNN xếp hạng ẩn . . . . . . . . . . . 41 3.5 Các công việc cần giải quyết của bài toán xác định hạng, trọng số khía cạnh ẩn sử dụng mô hình học biểu diễn đa tầng . . . . . . . . . . . . . 45 3.6 Minh họa mô hình học biểu diễn đa tầng cho phân tích quan điểm theo khía cạnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.7 Minh họa mô hình xác định hạng khía cạnh chung . . . . . . . . . . . . 52 3.8 Quy trình thực nghiệm, đánh giá mô hình LRNN . . . . . . . . . . . . 56 3.9 Quy trình thực nghiệm, đánh giá mô hình LRNN-ASR . . . . . . . . . 56 x
- 3.10 Quy trình thực nghiệm, đánh giá mô hình NNAWs . . . . . . . . . . . . 57 3.11 Mô hình FULL-LRNN-ASR thực hiện với các giá trị khác nhau của trọng số γ và β (β + γ = 1) trên độ đo Preview . . . . . . . . . . . . . . 63 3.12 Mô hình FULL-LRNN-ASR thực hiện với số chiều véc-tơ biểu diễn từ khác nhau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 3.13 Kết quả xác định trọng số khía cạnh chung của dịch vụ khách sạn . . . . 65 4.1 Mô tả đầu vào và đầu ra của của bài toán tính chỉnh véc-tơ biểu diễn từ . 71 4.2 Mô tả đầu vào và đầu ra của của bài toán học véc-tơ biểu diễn từ . . . . 72 4.3 Minh họa mô hình tinh chỉnh véc-tơ biểu diễn từ WEFT . . . . . . . . . 73 4.4 Minh họa thành phần nhúng ngữ nghĩa của véc-tơ biểu diễn từ sử dụng mô hình CBOW . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 4.5 Minh họa thành phần nhúng thông khía cạnh và quan điểm theo khía cạnh 79 4.6 Hiệu quả của số chiều véc-tơ từ trong công việc dự đoán quan điểm khía cạnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 5.1 Mô tả đầu vào, đầu ra của công việc khai thác đa véc-tơ biểu diễn từ, biểu diễn ký tự cho phân tích quan điểm theo khía cạnh . . . . . . . . . 93 5.2 Minh họa thành phần tích chập . . . . . . . . . . . . . . . . . . . . . . 94 5.3 Mô hình mạng nơ-ron tích chập đa kênh MCNN cho công việc xác định khía cạnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 5.4 Minh họa mô hình lai CNN1 + CNN2 + CNN3 cho công việc xác định khía cạnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 5.5 Hiệu quả của mô hình MCNN với các kích cỡ mini-batching từ 10 đến 100 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 xi
- Mở đầu 1. Tính cấp thiết của luận án Dữ liệu đánh giá về các sản phẩm, dịch vụ và sự kiện xã hội trên các hệ thống tin tức và thương mại trực tuyến ngày càng đa dạng, phong phú. Dữ liệu này bao gồm các bài bình luận, các bài viết chứa ý kiến đánh giá về các sản phẩm, dịch vụ, sự kiện của người sử dụng mạng tạo ra trong quá trình sử dụng hệ thống. Sự bùng nổ của các trang Web thương mại trực tuyến, các trang tin tức, các diễn đàn, các mạng xã hội đã dẫn đến số lượng các bài viết chứa ý kiến ngày càng nhiều và được cập nhật liên tục. Nguồn thông tin này thực sự hữu ích, giúp các công ty, tổ chức nắm bắt thông tin khách hàng một cách kịp thời để cải tiến sản phẩm, nâng cấp dịch vụ; giúp khảo sát quan điểm mọi người về các sự kiện, hiện tượng xã hội; hỗ trợ tích cực trong việc quản trị thương hiệu. Với số lượng thông tin rất lớn và cập nhật liên tục thì nhu cầu về xây dựng một hệ thống phân tích và tổng hợp quan điểm tự động trở nên cấp thiết và đóng một vai trò quan trọng trong các hệ thống khai thác dữ liệu và khai phá tri thức. Các nghiên cứu ban đầu về khai phá và phân tích quan điểm (opinion mining and sentiment analysis) tập trung vào đánh giá toàn bộ bài viết, xem một bài viết về tổng thể chứa quan điểm tích cực, tiêu cực, hay trung lập. Trong thực tế khách hàng thường bày tỏ quan điểm về các khía cạnh khác nhau của thực thể (gọi chung cho sản phẩm, dịch vụ, sự kiện,... được đánh giá), ví dụ như về khía cạnh giá cả, vị trí, nhân viên, phòng ốc của một dịch vụ khách sạn. Các ý kiến hỗn hợp giữa tích cực và tiêu cực với nhiều cách thể hiện phong phú là bản chất của ngôn ngữ tự nhiên. Vì vậy các nghiên cứu hiện tại tập trung nhiều hơn vào phân tích quan điểm theo từng khía cạnh của thực thể (aspect based sentiment analysis). Tiếp cận chung của cộng đồng nghiên cứu để giải quyết bài toán phân tích quan điểm là xác định các đặc trưng thể hiện quan điểm và ứng dụng các phương pháp học máy để xây dựng mô hình dự đoán, phân loại quan điểm. Các mô hình học sâu (deep learning) gần đây đã được nghiên cứu và đã chứng tỏ được sức mạnh trong lĩnh vực học máy và ứng dụng, đồng thời đã được áp dụng hiệu quả nói chung trong xử lý ngôn ngữ tự nhiên cũng như cụ thể trong bài toán khai phá và phân tích quan điểm. Tuy nhiên, các kết quả nghiên cứu hiện tại vẫn còn hạn chế và gặp khó khăn trong việc xử lý biểu diễn dữ liệu, học đặc trưng, mô hình hóa đa khía cạnh của thực thể và sự tương tác giữa các quan điểm khác nhau. Đề tài của luận án có nhiệm vụ giải quyết các vấn đề đang đặt ra trong bài toán phân tích quan điểm theo khía cạnh. Chúng tôi tập trung vào bài toán phân tích quan điểm theo khía cạnh dựa trên việc phát triển các mô hình học sâu nhằm đồng thời giải quyết 1
- bài toán học biểu diễn (representation learning) và bài toán phân loại (classification). 2. Mục tiêu nghiên cứu của luận án Mục tiêu của luận án là nghiên cứu các kỹ thuật, mô hình học biểu diễn cho mức từ, mức câu, và mức văn bản. Đề xuất các mô hình mới và cải tiến các mô hình học biểu diễn hiện có nhằm giải quyết các bài toán phân tích quan điểm theo khía cạnh. Hướng đến giải quyết hai bài toán chính: (1) Bài toán xếp hạng và xác định trọng số khía cạnh của thực thể (sản phẩm/dịch vụ); (2) Bài toán xây dựng các mô hình phân tích quan điểm theo khía cạnh nhằm xác định khía cạnh cho từng câu đầu vào và phân loại quan điểm theo khía cạnh tương ứng cho nó. 3. Phạm vi và phương pháp nghiên cứu của luận án Phạm vi nghiên cứu bao gồm: • Nghiên cứu, đề xuất các mô hình xếp hạng và xác định trọng số khía cạnh của thực thể, tích hợp biểu diễn đa tầng ngữ nghĩa từ mức từ đến mức câu, mức đoạn, mức khía cạnh đến mức cuối là tổng hợp quan điểm toàn bộ văn bản. • Nghiên cứu, đề xuất các mô hình học biểu diễn mức từ cho phân tích quan điểm theo khía cạnh. Các véc-tơ từ đạt được từ các mô hình đề xuất được đánh giá hiệu quả thông qua hai bài toán: xác định khía cạnh và phân loại quan điểm theo khía cạnh. • Nghiên cứu, đề xuất mô hình phân tích quan điểm theo khía cạnh tích hợp thông tin từ nhiều nguồn khác nhau. Cụ thể khai thác đồng thời đa véc-tơ biểu diễn từ và véc-tơ biểu diễn ký tự. Về phương pháp nghiên cứu, luận án nghiên cứu các mô hình dựa trên mạng nơ-ron nhân tạo sử dụng các kỹ thuật học biểu diễn hiệu quả, phù hợp cho từng bài toán cụ thể. Các mô hình đề xuất được thực nghiệm trên các tập dữ liệu thực tế. Các độ đo điển hình cho tính hiệu quả của mô hình đề xuất cũng sẽ được lựa chọn trong đánh giá kết quả thực nghiệm. 4. Đóng góp của luận án Các đóng góp chính của luận án bao gồm: • Chúng tôi đề xuất mô hình học biểu diễn đa tầng cho bài toán xác định hạng khía cạnh và trọng số khía cạnh ẩn. Phương pháp đề xuất đã mô hình hóa được tính phân cấp trong biểu diễn dữ liệu và sự kết nối và chia sẻ thông tin nhằm đưa đến khả năng dự đoán đồng thời hạng khía cạnh và trọng số (mức độ quan trọng) tương ứng với khía cạnh đó. Với đề xuất này chúng tôi đã công bố một bài báo trong tạp chí ISI-SCIE: Data and Knowledge Engineering (DKE) năm 2018. 2
- • Để khai thác hiệu quả sự kết hợp nhiều nguồn thông tin khác nhau chúng tôi đề xuất mô hình tích hợp thông tin dựa trên mạng đa kênh CNN (Convolutional Neural Network). Các nguồn thông tin khác nhau được đồng thời sử dụng bao gồm các mô hình Word2Vec khác nhau và mô hình Character2Vec. Các nguồn thông tin được tích hợp một cách hiệu quả thông qua các tầng CNN và kết hợp giữa các tầng CNN. Đề xuất này đã được công bố trong tạp chí ISI-SCI: International Journal of Approximate Reasoning năm 2018. • Chúng tôi đề xuất mô hình học biểu diễn từ có giám sát cho bài toán phân tích quan điểm, nhằm khắc phục điểm yếu của các mô hình học biểu diễn từ không giám sát. Đề xuất này giúp cho các véc-tơ biểu diễn từ chứa nhiều thông tin có ích cho bài toán phân tích quan điểm, bao gồm: ngữ nghĩa, khía cạnh và quan điểm. Đề xuất này đã được công bố trong kỷ yếu hội nghị quốc tế Text, Speech, and Dialogue (TSD) năm 2017, và trong kỷ yếu hội nghị quốc tế the Pacific Association for Computational Linguistics (PACLING) năm 2017. Bên cạnh các đóng góp chính, chúng tôi còn đề xuất mô hình mạng nơ-ron một lớp ẩn, sử dụng các biểu diễn khía cạnh được học từ mô hình Pragraph cho bài toán xác định hạng, trọng số khía cạnh ẩn. Đề xuất này đã được công bố trong kỷ yếu hội nghị quốc tế Computational Social Network (CSoNet) năm 2016. Đồng thời, để khai thác thông tin chung về mức độ quan trọng của các khía cạnh thực thể cho các nhà quản lý sản phẩm/dịch vụ, chúng tôi đề xuất mô hình xác định trọng số khía cạnh chung. Kết quả đã được công bố trong tạp chí Indian Journal of Science and Technology năm 2016. 5. Bố cục của luận án Ngoài phần mở đầu và kết luận, luận án được tổ chức thành 5 chương phù hợp với các công bố liên quan của luận án, với bố cục như sau: • Chương 1. Giới thiệu tổng quan về các vấn đề nghiên cứu trong luận án. Luận án phân tích, đánh giá chung các công trình nghiên cứu liên quan; nêu ra một số vấn đề còn tồn tại mà luận án sẽ tập trung giải quyết. • Chương 2. Trình bày các ký hiệu và khái niệm liên quan, các mô hình học máy cơ sở được sử dụng trong công việc đánh giá khía cạnh của thực thể. Một số mô hình học biểu diễn cơ sở cho mức từ, mức câu và mức đoạn/văn bản cũng sẽ được trình bày. • Chương 3. Trình bày nội dung, kết quả nghiên cứu hai mô hình xác định hạng và trọng số khía cạnh ẩn của thực thể. Bên cạnh đó, mô hình xác định trọng số khía cạnh chung cũng sẽ được trình bày. 3
- • Chương 4. Trình bày nội dung, kết quả nghiên cứu hai mô hình học véc-tơ từ cho phân tích quan điểm theo khía cạnh. • Chương 5. Trình bày nội dung, kết quả nghiên cứu mô hình tích hợp nhiều nguồn thông tin và ứng dụng trong khai thác đa véc-tơ biểu diễn từ và véc-tơ biểu diễn ký tự cho phân tích quan điểm theo khía cạnh. 4
- Chương 1 Tổng quan vấn đề nghiên cứu Chương này trình bày tổng quan về các vấn đề nghiên cứu trong luận án, bao gồm: giới thiệu chung về bài toán, kiến trúc chung của một hệ thống phân tích quan điểm; các bài toán trong phân tích quan điểm theo khía cạnh; các nghiên cứu liên quan; các tiếp cận; tình hình nghiên cứu trên thế giới và Việt Nam. Sau khi phân tích, đánh giá những điểm còn tồn tại từ các nghiên cứu liên quan, phần thảo luận sẽ được trình bày, đưa ra các bài toán mà luận án sẽ giải quyết. Lý do và động lực đề xuất mô hình cho mỗi bài toán cũng sẽ được đưa ra. 1.1 Giới thiệu bài toán Các ý kiến phản hồi của khách hàng đối với các sản phẩm, dịch vụ trực tuyến trên mạng Internet là nguồn thông tin quan trọng đối với các doanh nghiệp bởi vì nó giúp họ hiểu được điểm mạnh, điểm yếu trong sản phẩm, dịch vụ của mình, đồng thời nhanh chóng nắm bắt được tâm lý và nhu cầu khách hàng để mang đến cho họ sản phẩm, dịch vụ tốt hơn. Tuy nhiên với số lượng ý kiến rất lớn và cập nhật liên tục thì sẽ nảy sinh nhu cầu xây dựng một hệ thống tự động để phân tích và khai phá quan điểm. Mỗi ý kiến đánh giá thường bao gồm thông tin về các sản phẩm hay dịch vụ, các sự kiện, sự việc, cơ quan tổ chức được đánh giá và quan điểm của người đánh giá đối với các loại đối tượng này. Sau đây ta sẽ gọi chung các đối tượng được đánh giá là các thực thể và khi cần sẽ đề cập riêng để nhấn mạnh thực thể chung hay là khía cạnh (aspect) của thực thể. Quan điểm là các ý kiến chủ quan mà con người nói về các thực thể. Nhiệm vụ của phân tích quan điểm là xác định thực thể cùng các khía cạnh của nó nhằm tính toán quan điểm, đánh giá thái độ và cảm xúc của con người đối với thực thể cũng như các khía cạnh (thuộc tính, thành phần) của thực thể. Thông tin quan điểm đối với một thực thể cụ thể có vai trò rất quan trọng, bởi khi 5
- chúng ta cần đưa ra một quyết định liên quan tới một thực thể nào đó, chúng ta thường quan tâm tới ý kiến của người khác đối với thực thể đó, theo dạng như “Những người khác đã nghĩ và đánh giá về thực thể đó như thế nào?”. Ví dụ khi chúng ta muốn mua một chiếc điện thoại iPhone X 64GB chúng ta sẽ muốn tìm hiểu hoặc hỏi bạn bè và người thân “Điện thoại iPhone X 64GB có tốt không? Hệ điều hành IOS của iPhone thế nào? Camera quay video và chụp ảnh có đẹp không?..v.v”. Như vậy quan điểm của người khác giúp các cá nhân có thêm thông tin trước khi quyết định một vấn đề. Ngoài ra khi biết được thông tin quan điểm đối với một sản phẩm, dịch vụ từ các khách hàng thì rõ ràng nó giúp mang lại các thông tin hữu ích cho các công ty, tổ chức thay đổi hoặc cải tiến dòng sản phẩm, dịch vụ của mình. Bên cạnh đó thông tin quan điểm phân tích được trên một cộng đồng dân chúng còn giúp các chính quyền nắm được hiểu quả của các chính sách khi áp dụng trong xã hội. 1.2 Các bài toán trong phân tích quan điểm 1.2.1 Tổng quan một hệ thống phân tích quan điểm Ngày nay đã có nhiều hệ thống phân tích quan điểm làm việc với những miền dữ liệu khác nhau, như hệ thống Smcc1 của công ty InfoRe làm việc trên miền dữ liệu sản phẩm điện thoại di động, hệ thống Vsocial 2 của công ty Tecapro làm việc trên miền dữ liệu ngân hàng. Nhìn chung, mô hình biểu diễn kiến trúc chung của một hệ thống khai phá và phân tích quan điểm được thể hiện như trong Hình 1.1. Xuất phát từ nguồn dữ liệu đánh giá thực thể của người sử dụng trên các hệ thống như Amazon3 , Tripadvisor4 , Youtube5 , Thegioididong6 . Hệ thống phân tích quan điểm làm việc với các nguồn dữ liệu này, gồm các thành phần chính như sau: 1 smcc.vn 2 vsocial.vn 3 www.amazon.com 4 www.tripadvisor.com 5 www.Youtube.com 6 www.thegioididong.com 6
- Hình 1.1: Kiến trúc tổng quan của hệ thống phân tích quan điểm • Thu thập (crawler) • Tiền xử lý (pre-processing) • Trích chọn đặc trưng (feature extraction, data representation) • Học máy (machine learning) Thu thập: Là thành phần tự động lấy dữ liệu đánh giá của người dùng từ các hệ thống trực tuyến (Web). Tiền xử lý: Thành phần này có nhiệm vụ xử lý dữ liệu, gồm các công việc như: loại bỏ từ dừng, chuẩn hóa các từ và dấu cách, tách từ. etc. Trích chọn đặc trưng: Sử dụng kỹ thuật biểu diễn văn bản (ví dụ mô hình bag of word) để biểu diễn các văn bản đầu vào thành các véc-tơ đặc trưng. Học máy: Gồm có hai pha: huấn luyện, và dự đoán. Pha huấn luyện sử dụng tập dữ liệu huấn luyện làm đầu vào và có nhiệm vụ học một mô hình dự đoán. Pha dự đoán có nhiệm vụ tính toán để phân loại quan điểm cho các véc-tơ biểu diễn văn bản từ đầu vào. 7
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Luận án Tiến sĩ Khoa học giáo dục: Xây dựng và sử dụng E-learning vào dạy học các kiến thức Hạt nhân nguyên tử Vật lí 12 THPT theo mô hình lớp học đảo ngược
204 p | 348 | 79
-
Luận án Tiến sĩ Khoa học máy tính: Khai phá dữ liệu chuỗi thời gian dựa vào rút trích đặc trưng bằng phương pháp điểm giữa và kỹ thuật xén
32 p | 277 | 41
-
Luận án Tiến sĩ Khoa học giáo dục: “Công nghệ dạy học trực tuyến dựa trên phong cách học tập
172 p | 220 | 39
-
Luận án Tiến sĩ Khoa học Giáo dục: Quản lý hoạt động tự học của lưu học sinh Nước Cộng hòa Dân chủ Nhân dân Lào tại Việt Nam
224 p | 165 | 31
-
Luận án Tiến sĩ Khoa học giáo dục: Vận dụng quan điểm sư phạm tương tác vào dạy học Sinh học 9 trường THCS
165 p | 156 | 23
-
Tóm tắt luận án Tiến sĩ Khoa học giáo dục: Nghiên cứu đặc điểm và giá trị xã hội của thể thao giải trí ở Hà Nội
40 p | 239 | 22
-
Luận án Tiến sĩ Khoa học Giáo dục: Hình thành cho sinh viên kĩ năng đánh giá năng lực khoa học của học sinh theo quan điểm PISA trong dạy học Sinh học ở trường phổ thông
167 p | 161 | 18
-
Luận án Tiến sĩ Khoa học giáo dục: Xây dựng mô hình tổ chức xêmina định hướng phát triển năng lực trong đào tạo giáo viên Địa lí bậc đại học
170 p | 130 | 15
-
Luận án Tiến sĩ Khoa học giáo dục: Dạy học viết văn bản thuyết minh dựa trên tiến trình viết cho học sinh trung học phổ thông theo tiếp cận phát triển năng lực
244 p | 17 | 9
-
Luận án Tiến sĩ Khoa học giáo dục: Giáo dục khởi nghiệp từ nghề truyền thống cho thanh niên nông thôn các tỉnh Đồng bằng Sông Hồng đáp ứng yêu cầu xây dựng nông thôn mới
277 p | 18 | 8
-
Luận án Tiến sĩ Khoa học giáo dục: Tổ chức dạy học trải nghiệm trong môn Giáo dục công dân cấp trung học cơ sở ở Hà Nội
231 p | 26 | 8
-
Luận án Tiến sĩ Khoa học vật liệu: Nghiên cứu chế tạo nón xuyên trong thiết bị nổ lõm bằng đồng kim loại và composite W-Cu có cấu trúc siêu mịn
126 p | 23 | 6
-
Luận án Tiến sĩ Khoa học giáo dục: Phát triển năng lực thực hành thí nghiệm hóa học cho sinh viên ngành Sư phạm Hóa học theo tiếp cận CDIO
272 p | 19 | 6
-
Luận án Tiến sĩ Khoa học môi trường: Nghiên cứu tài nguyên đất gò đồi phục vụ định hướng phát triển nông nghiệp bền vững tỉnh Bắc Giang
293 p | 16 | 5
-
Luận án Tiến sĩ Khoa học giáo dục: Dạy học xác suất và thống kê cho sinh viên ngành kỹ thuật mỏ và kỹ thuật địa chất theo hướng gắn với thực tiễn nghề nghiệp
166 p | 16 | 5
-
Luận án Tiến sĩ Khoa học giáo dục: Phát triển năng lực khám phá tự nhiên cho học sinh trong dạy học chủ đề Vật sống, môn Khoa học tự nhiên 6
238 p | 12 | 5
-
Luận án Tiến sĩ Khoa học giáo dục: Dạy học hình học ở trường trung học cơ sở theo hướng phát triển chương trình ở cấp độ lớp học
226 p | 12 | 4
-
Luận án Tiến sĩ Khoa học máy tính: Nghiên cứu một số giải pháp tối ưu hóa hiệu năng trong mạng điện toán biên di động
166 p | 5 | 1
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn