Luận án Tiến sĩ Hệ thống thông tin: Một số phương pháp học máy hiệu quả trong môi trường luồng dữ liệu liên tục

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:145

Thêm vào BST

Báo xấu

14
lượt xem 5
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án " Một số phương pháp học máy hiệu quả trong môi trường luồng dữ liệu liên tục" hướng tới xây dựng các phương pháp có thể học một mô hình Bayes tổng quát cho một tác vụ trên luồng dữ liệu. Các phương pháp này có thể làm việc hiệu quả với các thách thức đưa ra.từ luồng dữ liệu. Mời các bạn cùng tham khảo luận án!

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận án Tiến sĩ Hệ thống thông tin: Một số phương pháp học máy hiệu quả trong môi trường luồng dữ liệu liên tục

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGÔ VĂN LINH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY HIỆU QUẢ TRONG MÔI TRƯỜNG LUỒNG DỮ LIỆU LIÊN TỤC LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN HÀ NỘI−2022
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGÔ VĂN LINH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY HIỆU QUẢ TRONG MÔI TRƯỜNG LUỒNG DỮ LIỆU LIÊN TỤC Ngành: Hệ thống thông tin Mã số: 9480104 LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN GIÁO VIÊN HƯỚNG DẪN KHOA HỌC: PGS.TS. THÂN QUANG KHOÁT HÀ NỘI−2022
LỜI CAM ĐOAN Tôi xin cam đoan các kết quả trình bày trong luận án là công trình nghiên cứu của bản thân nghiên cứu sinh trong thời gian học tập và nghiên cứu tại Đại học Bách khoa Hà Nội dưới sự hướng dẫn của tập thể hướng dẫn khoa học. Các số liệu, kết quả trình bày trong luận án là hoàn toàn trung thực. Các kết quả sử dụng tham khảo đều đã được trích dẫn đầy đủ và theo đúng quy định. Hà Nội, ngày tháng năm 2022 Nghiên cứu sinh Ngô Văn Linh GIÁO VIÊN HƯỚNG DẪN KHOA HỌC PGS.TS. Thân Quang Khoát i
LỜI CẢM ƠN Chặng đường làm nghiên cứu sinh là một hành trình dài đầy khó khăn và thử thách. Tôi thực sự trân trọng và muốn gửi lời cảm ơn sâu sắc vì sự giúp đỡ, sẻ chia quý giá mà mình đã nhận được trong suốt khoảng thời gian này. Đầu tiên, tôi xin gửi lời cảm ơn sâu sắc tới PGS.TS Thân Quang Khoát. Người thầy hướng dẫn và cũng là người anh thân thiết của tôi. Thầy đã đồng hành, chỉ dẫn và động viên tôi rất nhiều trong suốt quá trình nghiên cứu. Tôi cũng xin gửi lời cảm ơn tới các thầy cô giảng dạy tại trường Công nghệ Thông tin và Truyền thông - Đại học Bách khoa Hà Nội, vì sự hỗ trợ, giúp đỡ nhiệt tình của mọi người. Tôi xin gửi lời cảm ơn đến các cộng sự, tới các em sinh viên đã tích cực làm việc với mình trong các dự án nghiên cứu tại Phòng thí nghiệm Khoa học dữ liệu. Tôi thực sự trân trọng khoảng thời gian mà chúng ta đã miệt mài, chăm chỉ làm việc cùng nhau. Tôi xin cảm ơn Công ty TNHH Đầu tư và Phát triển đô thị Gia Lâm thuộc Tập đoàn Vingroup và hỗ trợ bởi Quỹ Đổi mới sáng tạo Vingroup (VINIF) trong Dự án mã số VINIF.2019.DA18 đã tài trợ cho tôi trong thời gian nghiên cứu và thực hiện luận án. Cuối cùng, tôi xin gửi lời cảm ơn chân thành đến gia đình, bạn bè và đồng nghiệp đã luôn động viên, ủng hộ tôi trong suốt quá trình nghiên cứu và giúp tôi vượt qua các giai đoạn khó khăn để đạt được một số kết quả như ngày hôm nay. ii
MỤC LỤC LỜI CAM ĐOAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i LỜI CẢM ƠN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii MỤC LỤC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ . . . . . . . . . . vi DANH MỤC HÌNH VẼ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . viii DANH MỤC BẢNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xi DANH MỤC KÝ HIỆU TOÁN HỌC . . . . . . . . . . . . . . . . . . . . . . . . . . xii MỞ ĐẦU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 CHƯƠNG 1. KIẾN THỨC NỀN TẢNG . . . . . . . . . . . . . . . . . . . . . . 15 1.1. Mô hình Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.1.1. Mô hình Bayes tổng quát . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.1.2. Mô hình chủ đề ẩn (Latent Dirichlet Allocation (LDA)) . . . . . . . . 17 1.1.3. Mô hình Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.2. Tổng quan học mô hình Bayes trên luồng dữ liệu . . . . . . . . . . . . . . . . . . 20 1.3. Các phương pháp học mô hình Bayes trên luồng dữ liệu . . . . . . . . . . . 23 1.4. Tập dữ liệu và độ đo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 1.4.1. Các tập dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 1.4.2. Độ đo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 1.5. Mạng đồ thị tích chập (Graph Convolutional Networks (GCN)) . . . . 31 1.6. Kết luận chương 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 CHƯƠNG 2. KHAI THÁC TRI THỨC TIÊN NGHIỆM TRONG LUỒNG DỮ LIỆU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.1. Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.2. Biến đổi tri thức tiên nghiệm trong môi trường luồng dữ liệu. . . . . . . 35 2.2.1. Đề xuất phương pháp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.2.2. Một số tính chất của TPS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 iii
2.3. Khai thác tri thức tiên nghiệm dưới dạng vectơ từ . . . . . . . . . . . . . . . . . 41 2.4. Khai thác tri thức tiên nghiệm dưới dạng đồ thị . . . . . . . . . . . . . . . . . . . 43 2.5. Thử nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 2.5.1. Thử nghiệm TPS với Word2vec . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 2.5.2. Thử nghiệm về GCTM với đồ thị tri thức . . . . . . . . . . . . . . . . . . . . . . 53 2.6. Kết luận chương 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 CHƯƠNG 3. DROPOUT VỚI KHẢ NĂNG TỰ THÍCH NGHI CHO LUỒNG DỮ LIỆU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 3.1. Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 3.2. Dropout với khả năng tự thích nghi cho luồng dữ liệu . . . . . . . . . . . . . . 67 3.2.1. Dropout vô hạn cho dữ liệu luồng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 3.2.2. Dropout vô hạn với với khả năng tự thích nghi aiDropout . . . . . . 70 3.3. Áp dụng aiDropout cho các mô hình Bayes . . . . . . . . . . . . . . . . . . . . . . . . 72 3.3.1. Áp dụng 1: LDA là mô hình cơ sở . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 3.3.2. Áp dụng 2: NB là mô hình cơ sở . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 3.4. Một số thảo luận về aiDropout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 3.5. Thử nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 3.5.1. Thử nghiệm trên dữ liệu ngắn và nhiễu . . . . . . . . . . . . . . . . . . . . . . . . 82 3.5.2. Đương đầu với sự thay đổi đột ngột của dòng dữ liệu . . . . . . . . . . 87 3.6. Kết luận chương 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 CHƯƠNG 4. CÂN BẰNG GIỮA TÍNH ỔN ĐỊNH VÀ MỀM DẺO 90 4.1. Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 4.2. Cân bằng giữa tính ổn định và tính mềm dẻo . . . . . . . . . . . . . . . . . . . . . . 92 4.2.1. Mô hình cân bằng giữa tính ổn định và mềm dẻo (BSP). . . . . . . . 92 4.2.2. Quá trình huấn luyện của BSP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 4.2.3. Một số tính chất của BSP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 4.3. Thử nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 4.3.1. Thử nghiệm trên tập văn bản ngắn và nhiễu . . . . . . . . . . . . . . . . . . 100 4.3.2. Tính ổn định và mềm dẻo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 4.3.3. Đánh giá ảnh hưởng của các tham số . . . . . . . . . . . . . . . . . . . . . . . . . 107 4.4. Kết luận chương 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 iv
KẾT LUẬN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ . . . . . . . . . . . 113 TÀI LIỆU THAM KHẢO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 v
DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ Viết tắt Tiếng Anh Tiếng Việt aiDropout Adaptive infinite Dropout Phương pháp Dropout vô hạn với khả năng thích nghi trên luồng dữ liệu BSP Balancing stability and plasticity Phương pháp cân bằng giữa tính ổn định và tính mềm dẻo ELBO Evidence lower bound Cận dưới của chứng cứ EWC Elastic weight consolidation Phương pháp trọng số quan trọng GCN Graph convolutional networks Mạng đồ thị tích chập GCTM Graph convolutional Topic Model Mô hình chủ đề dựa trên đồ thị tích chập HPP Hierarchical Power Priors Tri thức tiên nghiệm dạng luỹ thừa phân cấp iDropout Infinite Dropout for Data Phương pháp Dropout vô hạn trên Streams luồng dữ liệu KL Kullback-Leibler divergence Độ sai khác giữa hai phân phối KPS Keeping Prior for Data Streams Phương pháp giữ tri thức tiên nghiệm trong học luồng dữ liệu LDA Latent Dirichlet Allocation Mô hình LDA LPP Log predictive probability Độ đo xác suất phán đoán Mini-batch Mini-batch Tập nhỏ dữ liệu thu được trong một khoảng thời gian MLP Multi-layer percepton Mạng lan truyền tiến kết nối đầy đủ NPMI Normalized pointwise mutual in- Độ đo thông tin tương hỗ formation PCA Principal component analysis Phương pháp phân tích thành phần cơ bản PVB Population Variational Bayes Suy diễn biến phân Bayes quần thể SVB Streaming Variational Bayes Suy diễn biến phân luồng vi
SVB-PP Streaming Variational Bayes with Suy diễn biến phân luồng với tri Power Priors thức tiên nghiệm dạng luỹ thừa SVI Stochastic variational inference Suy diễn biến phân ngẫu nhiên TPS Transformation of Prior Knowl- Phương pháp biến đổi tri thức tiên edge for Data Streams nghiệm cho dữ liệu luồng VCL Variational continual learning Phương pháp biến phân liên tục VI Variational inference Suy diễn biến phân Word2vec Word2vec Biểu diễn vector cho từ vii
DANH MỤC HÌNH VẼ 1 Tính tổng quát hóa của các phương pháp khi làm việc với dữ liệu thưa và nhiễu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2 Tính tổng quát hóa của các phương pháp khi xảy ra sự thay đổi đột ngột của dòng dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.1 Biểu diễn đồ thị cho một mô hình Bayes tổng quát B(β, z, x) . . . . . 16 1.2 Biểu diễn đồ thị của mô hình chủ đề (Latent Dirichlet Allocation (LDA)) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.3 Biểu diễn đồ thị của SV B khi học dữ liệu luồng. . . . . . . . . . . . . 23 1.4 Biểu diễn đồ thị của KP S . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.1 Mô hình đồ thị biểu diễn cho TPS . . . . . . . . . . . . . . . . . . . . 37 2.2 TPS cho mô hình LDA. Tri thức tiên nghiệm η được sử dụng trong mỗi mini-batch thông qua hàm biến đổi tri thức được tham số hóa bằng π . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 2.3 Mô hình đồ thị biểu diễn cho GCTM . . . . . . . . . . . . . . . . . . . 44 2.4 Khả năng tổng quát hóa của phương pháp TPS khi so với các phương pháp cơ sở SVB [1], SVB-PP [2], PVB [3] và KPS [4]. LPP càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 2.5 Tính gắn kết chủ đề của phương pháp TPS khi so với các phương pháp cơ sở SVB [1], SVB-PP [2], PVB [3] và KPS [4]. NPMI càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 2.6 Phân tích vai trò của cơ chế truyền tri thức và tri thức tiên nghiệm. LPP càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . 52 2.7 Phân tích tính nhạy cảm của TPS theo σ 2 . . . . . . . . . . . . . . . . 52 2.8 Độ nhạy của TPS với tham số số chủ đề K. . . . . . . . . . . . . . . . 53 2.9 Độ nhạy của TPS với kích thước của mini-batch. . . . . . . . . . . . 54 2.10 Hiệu quả của các phương pháp đề xuất GCTM-WN và GCTM- W2V so với các phương pháp cơ sở SVB [1], SVB-PP [2] và PVB [3] xét theo tính tổng quát hóa khi học từ nhiều dữ liệu hơn. LPP càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 viii
2.11 Hiệu quả của các phương pháp đề xuất GCTM-WN và GCTM- W2V so với các phương pháp cơ sở SVB [1], SVB-PP [2] và PVB [3] trên dữ liệu Irishtimes. Trong khi hình (a) và (b) thể hiện kết quả trên dữ liệu với nhãn thời gian và không có nhãn thời gian tương ứng. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 2.12 Tính tổng quát hóa khi làm việc với dữ liệu nhiễu của các phương pháp đề xuất GCTM-WN và GCTM-W2V so với các phương pháp cơ sở SVB [1], SVB-PP [2] và PVB [3]. LPP càng cao càng tốt. 59 2.13 Hiệu quả của phương pháp đề xuất GCTM-WN so với các phương pháp cơ sở SVB [1], SVB-PP [2] và PVB [3] khi làm việc với sự thay đổi đột ngột. LPP càng cao càng tốt. . . . . . . . . . . . . . . . . 60 2.14 Hiệu quả của phương pháp đề xuất GCTM-WN so với các phương pháp cơ sở SVB [1], SVB-PP [2] và PVB [3] khi làm việc với sự thay đổi đột ngột. Thứ tự các nhãn lớp thay đổi. LPP càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 2.15 Kết quả của GCTM-WN-W2V khi kết hợp cả đồ thị Wordnet và thuộc tính đỉnh từ Word2vec so sánh với GCTM-WN và GCTM- W2V. LPP càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . . 62 2.16 Kết quả so sánh của các kiến trúc mạng GCN và MLP. LPP càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 3.1 Mô hình đồ thị biểu diễn cho iDropout và aiDropout. . . . . . . . . . 69 3.2 Kết quả LPP của các phương pháp đề xuất iDropout và aiDropout so với các phương pháp cơ sở SVB [1], SVB-PP [2] và PVB [3] trên các bộ dữ liệu không có nhãn thời gian. LPP càng cao càng tốt. 84 3.3 Kết quả NPMI của các phương pháp đề xuất iDropout và aiDropout so với các phương pháp cơ sở SVB [1], SVB-PP [2] và PVB [3] trên các bộ dữ liệu không có nhãn thời gian. NPMI càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 3.4 Hiệu năng của các phương pháp đề xuất iDropout và aiDropout so với các phương pháp cơ sở SVB [1], SVB-PP [2] và PVB [3] trên tập dữ liệu có nhãn thời gian. LDA là mô hình cơ sở. LPP càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 3.5 Hiệu năng của các phương pháp đề xuất iDropout và aiDropout so với các phương pháp cơ sở SVB [1], SVB-PP [2] và PVB [3] trên tập dữ liệu có nhãn thời gian. NB là mô hình cơ sở. . . . . . . . 86 ix
3.6 Hiệu năng của aiDropout so với iDropout với các tỷ lệ Dropout thay đổi. NB là mô hình cơ sở. . . . . . . . . . . . . . . . . . . . . . . 86 3.7 Hiệu năng của các phương pháp đề xuất iDropout và aiDropout so với các phương pháp cơ sở SVB [1], SVB-PP [2] và PVB [3] khi đối mặt với sự thay đổi đột ngột từ dòng dữ liệu. LDA là mô hình cơ sở. LPP càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . 88 4.1 Hiện tượng quên nghiêm trọng của của các phương pháp học trên luồng dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 4.2 Mô hình đồ thị của BSP . . . . . . . . . . . . . . . . . . . . . . . . . . 93 4.3 Hiệu năng của phương pháp đề xuất BSP so với các phương pháp cơ sở SVB [1], SVB-PP [2], PVB [3], TPS, iDropout và GCTM về tính tổng quát hóa trên 6 bộ dữ liệu không có nhãn thời gian. LPP càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 4.4 Chỉ số LPP của phương pháp đề xuất BSP so với các phương pháp cơ sở SVB [1], SVB-PP [2], PVB [3], TPS, iDropout và GCTM trên các tập dữ liệu chứa nhãn thời gian. LPP càng cao càng tốt. . . 103 4.5 Kết quả của phương pháp đề xuất BSP so với các phương pháp cơ sở SVB [1], SVB-PP [2], PVB [3], TPS, iDropout và GCTM khi đối mặt với hiện tượng thay đổi đột ngột của dòng dữ liệu. LPP càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 4.6 Kiểm tra hiện tượng quên nghiêm trọng của phương pháp đề xuất BSP so với các phương pháp cơ sở SVB [1], SVB-PP [2], PVB [3], TPS, iDropout và GCTM sau khi huấn luyện xong mỗi lớp . . . . . . 105 4.7 Sự thay đổi của mô hình với các giá trị khác nhau của tỉ lệ Dropout khi đối mặt với hiện tượng thay đổi đột ngột của dòng dữ liệu. . . . . 107 4.8 Sự thay đổi của mô hình với các giá trị khác nhau của tỉ lệ Dropout khi đối mặt với hiện tượng quên nghiêm trọng. LPP càng cao càng tốt. Avg LPP càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . 108 4.9 Hiệu quả của việc tích lũy tất cả các thông tin trong quá khứ khi đối mặt với hiện tượng thay đổi đột ngột của dòng dữ liệu. LPP càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 4.10 Hiệu quả của việc tích lũy tất cả các thông tin trong quá khứ khi đối mặt với hiện tượng quên nghiêm trọng. Avg LPP càng cao càng tốt.109 7.11 Độ chính xác phân loại của 3 phương pháp trên NB. . . . . . . . . . . 3 x
DANH MỤC BẢNG 1.1 Thống kê của các tập dữ liệu . . . . . . . . . . . . . . . . . . . . . . . 29 2.1 Hiệu quả của các phương pháp đề xuất GCTM-WN và GCTM- W2V so với các phương pháp cơ sở SVB [1], SVB-PP [2] và PVB [3] theo tính gắn kết chủ đề theo độ đo NPMI. Giá trị NPMI càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 2.2 Tính gắn kết chủ đề của các phương pháp đề xuất GCTM-WN và GCTM-W2V so với các phương pháp cơ sở SVB [1], SVB-PP [2] và PVB [3] trên Irishtimes với nhãn thời gian và không có nhãn thời gian theo độ đo NPMI. . . . . . . . . . . . . . . . . . . . . . . . . 58 2.3 Tính gắn kết chủ đề của các phương pháp đề xuất GCTM-WN và GCTM-W2V so với các phương pháp cơ sở SVB [1], SVB-PP [2] và PVB [3] khi làm việc với dữ liệu nhiễu theo độ đo NPMI. Giá trị NPMI càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . 60 4.1 Kết quả chỉ số NPMI của phương pháp đề xuất BSP so với các phương pháp cơ sở SVB [1], SVB-PP [2], PVB [3], TPS, iDropout và GCTM. NPMI càng cao càng tốt. . . . . . . . . . . . . . . . . . . . 102 4.2 Chỉ số NPMI của phương pháp đề xuất BSP so với các phương pháp cơ sở SVB [1], SVB-PP [2], PVB [3], TPS, iDropout và GCTM trên tập dữ liệu theo trình tự thời gian. NPMI càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 7.3 Một số chủ đề về quân đội học được từ bộ dữ liệu Grolier. . . . . . . 3 7.4 Chủ đề về kinh doanh học được từ bộ dữ liệu Irishtimes. . . . . . . . 4 xi
DANH MỤC KÝ HIỆU TOÁN HỌC Ký hiệu Ý nghĩa AT Chuyển vị của ma trận A A−1 Ma trận nghịch đảo của ma trận A ∥x∥ Chuẩn của vectơ x diag(v) Ma trận chéo với các phần tử trên đường chéo bằng vectơ v I[k = i] Hàm chỉ thị trả lại 1 khi k = i và 0 nếu ngược lại log(x) Logarit tự nhiên của số thực dương x x⊙y Phép nhân từng cặp thành phần tương ứng (element-wise product) của x và y exp(x) Hàm mũ ex sof tmax Hàm softmax ψ Hàm di-gamma Dir Phân phối Dirichlet M ult Phân phối đa thức Ber Phân phối Bernoulli N (.) Phân phối Gauss KL Độ đo sai khác giữa hai phân phối likelihood Xác suất xảy ra prior Xác suất tiên nghiệm posterior Xác suất hậu nghiệm ⟨M1 , M2 ⟩ Tích vô hướng của dạng vectơ hóa 2 ma trận M1 và M2 xii
MỞ ĐẦU 1. Bối cảnh nghiên cứu Trong các ứng dụng hiện đại ngày nay như báo mạng, diễn đàn, mạng xã hội, thương mại điện tử, v.v, dữ liệu được sinh ra liên tục và có thể thu thập trong vô hạn các tập dữ liệu nhỏ (mini-batch). Chúng được biết đến như môi trường luồng. Khả năng phân tích dữ liệu từ môi trường luồng đóng vai trò quan trọng trong thực tế. Dựa trên kết quả phân tích liên tục từ các dữ liệu mới đến, chúng ta có thể thu được các đặc trưng, khuôn mẫu mới để sử dụng cho các phán đoán tương lai. Ví dụ, thông tin tương tác của người dùng trên các trang thương mại điện tử như xem các sản phẩm, thêm sản phẩm vào giỏ hàng, mua các sản phẩm, v.v, được thu thập để phân tích sở thích ngắn hạn và dài hạn của người dùng. Từ đó, hệ thống có thể đưa ra gợi ý các sản phẩm phù hợp tiếp theo cho họ. Trong khi đó, các thuật toán học máy truyền thống không khả thi khi làm việc trên môi trường luồng. Bởi vì, chúng yêu cầu thực hiện một thủ tục lặp trên toàn bộ dữ liệu, trong khi dữ liệu luồng có thể đến liên tục và vô hạn. Phát triển một phương pháp học máy hiệu quả cho luồng dữ liệu đã trở nên vô cùng cấp thiết. Trong môi trường luồng, một phương pháp học máy phải làm việc tốt trên dữ liệu mới đến và không được duyệt lại quá nhiều dữ liệu trong quá khứ. Đây là một chủ đề được quan tâm lớn từ cộng đồng nghiên cứu và có rất nhiều phương pháp được đề xuất [5, 6, 7]. Các phương pháp thường dựa theo một thủ tục lặp: Thu thập dữ liệu mới xuất hiện (theo khoảng thời gian hoặc kích thước tập dữ liệu) và cập nhật mô hình trên dữ liệu mới đó. Các chiến lược học nhanh trên dữ liệu mới và giữ lại tri thức đã học từ liệu cũ trở thành yếu tố cốt lõi trong các phương pháp học luồng. Một số cách tiếp cận đã được sử dụng phổ biến cho mục đích này như sau: Sử dụng chiến lược tối ưu hóa ngẫu nhiên (stochastic approximation), đệ quy Bayes (recursive Bayesian strategy), hiệu chỉnh (regularization), chiến lược mở rộng kiến trúc (architecture strategy), chiến lược huấn luyện lại (rehearsal strategy). Đầu tiên, hướng tối ưu hóa ngẫu nhiên [5, 8, 9, 10, 11] sử dụng các phương pháp tối ưu ngẫu nhiên như dựa trên hướng đạo hàm (như SGD (stochastic gradient descent), NSGD (natural stochastic gradient descent)) để có thể huấn luyện các mô hình trên lần lượt từng 1
mini-batch. Thứ hai, cách tiếp cận dựa trên đệ quy Bayes (recursive Bayesian strategy) [12, 13, 1, 14, 4] và hiệu chỉnh [7, 15, 16] đặt các rằng buộc để giúp tham số mô hình học ở thời điểm hiện tại phải gần với tham số mô hình đã học được ở thời điểm trước đó. Thứ ba, chiến lược mở rộng kiến trúc (architecture strategy) [7, 6, 17] hướng tới giữ lại (đóng băng) các thành phần kiến trúc, tham số quan trọng mà học được từ dữ liệu quá khứ. Đồng thời, kiến trúc sẽ được mở rộng để học các đặc trưng mới từ dữ liệu mới. Cuối cùng, chiến lược huấn luyện lại (rehearsal strategy) [7, 18, 19] sẽ dựa trên việc lưu trữ một số mẫu quan trọng hoặc xây dựng mô hình sinh để sinh lại các mẫu đặc trưng. Từ đó, mô hình sẽ được học trên cả dữ liệu mới và dữ liệu cũ. Các chiến lược này có thể giúp các phương pháp học máy truyền thống làm việc được trong môi trường luồng. 2. Một số thách thức khi học từ luồng dữ liệu Tuy nhiên, việc xây dựng phương pháp học máy để giúp chuyển từ học trong môi trường tĩnh sang làm việc được với luồng dữ liệu là chưa đủ. Luồng dữ liệu đặt ra nhiều thách thức hơn thế rất nhiều [20], ví dụ: Thách thức từ dữ liệu thưa và nhiễu; thách thức về tính khó (intractability) của bài toán suy diễn, thách thức về sự thay đổi đột ngột trong dòng, thách thức về quên nghiêm trọng, thách thức về những đảm bảo lý thuyết của giải thuật học, v.v. Luận án này tập trung vào khảo sát 3 thách thức lớn sau: Thách thức từ luồng dữ liệu thưa và nhiễu (sparse and noisy data), thách thức từ sự thay đổi đột ngột trong luồng dữ liệu (concept drifts), thách thức từ việc quên tri thức cũ khi học trên dữ liệu mới (catastrophic forgetting). Thứ nhất, dữ liệu thưa và nhiễu (sparse and noisy data) gây ra khó khăn lớn cho các phương pháp học máy [21, 22, 23]. Những dữ liệu thưa và nhiễu xuất hiện phổ biến trong thực tế, đặc biệt với thời đại bùng nổ dữ liệu như hiện nay. Ví dụ, văn bản ngắn chỉ bao gồm một vài từ như bình luận trên mạng xã hội, phản ứng của khách hàng trên các cửa hàng trực tuyến hoặc câu hỏi trên các diễn đàn hỏi đáp. Biểu diễn của văn bản theo vectơ từ (như mô hình túi từ, tần suất xuất hiện) là rất thưa khi mà hầu hết các giá trị của các chiều bằng 0, chỉ vài chiều có giá trị khác 0. Mặt khác, các văn bản nhiễu chứa các từ viết tắt, biệt ngữ, từ lóng, lỗi chính tả. Ví dụ khác với hệ gợi ý, các phương pháp học máy thường sử dụng dữ liệu lịch sử tương tác của người dùng như mua hàng, xem hàng để phát hiện ra sở thích của người dùng. Tuy nhiên, lịch sử mua hàng của người dùng trong một hệ thống thương mại điện tử thường rất ít so với một 2
số lượng lớn các sản phẩm trong hệ thống. Hầu hết người dùng chỉ mua một vài món hàng, chỉ một số ít người dùng mua nhiều hàng. Độ thưa thống kê dựa trên tỉ lệ số lượng sản phẩm chưa mua trên tổng số sản phẩm thường lên tới trên 99% [24, 25]. Họ chỉ thực hiện các thao tác nhấp chuột để xem sản phẩm nhiều hơn là mua sản phẩm. Hơn nữa, dữ liệu nhấp chuột xem hàng của người dùng có thể chứa nhiễu như nhấp chuột nhầm, nhấp vào sản phẩm không thích vì chưa xem được chi tiết. Rõ ràng, dữ liệu thưa không cung cấp một ngữ cảnh đầy đủ và dữ liệu nhiễu có thể định hướng sai việc học mô hình. Vì vậy, tính tổng quát hóa của mô hình học được sẽ bị giới hạn khi làm việc với dữ liệu thưa và nhiễu. Thứ hai, sự thay đổi đột ngột của luồng dữ liệu (concept drifts) [26, 27] có thể xuất hiện thường xuyên trong môi trường luồng. Sự thay đổi đột ngột để chỉ sự biến đổi phân phối dữ liệu (p(x)) hoặc thay đổi phân phối xác suất có điều kiện của nhãn khi cho biết trước dữ liệu (p(y|x)) trong môi trường luồng. Ví dụ, trong học chủ đề ẩn không giám sát trên tập dữ liệu tin tức, khi có sự kiện mới (như các tin giật gân) xuất hiện, các chủ đề mới khác biệt nhiều các chủ đề của ngày trước đó sẽ xuất hiện. Hoặc, trong bài toán lái ô tô tự động có giám sát, hệ thống vẫn phải quyết định các hành động tiếp theo (nhãn là sang trái, sang phải, tăng tốc, giảm tốc, v.v) khi xe chuyển từ đường cao tốc sang đường nội đô. Những ví dụ này chỉ ra sự thay đổi đột ngột của dữ liệu trong dòng và dẫn tới yêu cầu các phương pháp phải thích nghi nhanh với sự thay đổi. Tuy nhiên, các phương pháp truyền thống thường giả thiết rằng chỉ có một mô hình duy nhất sinh ra toàn bộ dữ liệu (tương tự giả thiết p(x) không đổi trong toàn bộ quá trình học). Giả thiết này chỉ hợp lý với môi trường tĩnh, nhưng không phù hợp với môi trường luồng dữ liệu. Mô hình nên được thay đổi phù hợp theo các khoảng thời gian. Những đặc trưng mới có thể xuất hiện bất cứ lúc nào trong luồng dữ liệu nên một phương pháp học cần mềm dẻo để thích nghi nhanh với chúng. Thứ ba, việc huấn luyện một mô hình học máy trong môi trường luồng dữ liệu gặp phải một thách thức lớn về việc quên tri thức đã học (catastrophic forgetting) trước đây sau khi học từ nhiều dữ liệu mới hơn. Trong điều kiện luồng dữ liệu, việc truy cập lại dữ liệu cũ là không thực tế vì nó đòi hỏi rất nhiều bộ nhớ và tính toán. Rõ ràng, quên là một vấn đề khó tránh khỏi ở cả con người và hệ thống học máy. Giữ tri thức quá khứ là quan trọng trong thực tế. Nguồn tri thức học từ dữ liệu quá khứ sẽ giúp phương pháp làm việc tốt với dữ liệu có đặc trưng, khuôn mẫu tương tự với cái đã gặp trước đó. Hiện tượng quên nghiêm trọng [28] xảy ra khi một mô hình đã huấn luyện làm việc kém 3
trên dữ liệu với đặc trưng đã gặp trong quá khứ. Một điều thật đáng ngạc nhiên rằng vấn đề quên nghiêm trọng lại không được quan tâm nhiều trong học luồng dữ liệu. Đây là chủ đề chính trong nhánh nghiên cứu học liên tục (continual learning) [29, 30, 15, 31] mà ở đó người ta xem xét học mạng nơ-ron nhân tạo trên một chuỗi nhiều tác vụ khác nhau. Khi đó, các mô hình học máy thường bị quên (không làm việc tốt với tác vụ cũ như trước) khi học các tác vụ mới. Trong một bài báo gần đây [19], các tác giả cũng bày tỏ sự ngạc nhiên của mình về vấn đề này. Sau đó, họ xây dựng một phương pháp tìm ra những dữ liệu quan trọng để lưu trữ lại trong bộ nhớ đệm cho quá trình học lại. Việc tránh quên nằm ở chỗ luyện tập lại trên dữ liệu quá khứ. Tuy nhiên, giải pháp lưu trữ dường như cũng kém khả thi khi luồng dữ liệu lớn và có thể đến vô hạn. 3. Phạm vi nghiên cứu Phát triển các phương pháp học cho luồng dữ liệu là chủ đề lớn trong học máy để giúp cho các mô hình truyền thống làm việc tốt với luồng dữ liệu. Luận án này chỉ tập trung vào xây dựng các phương pháp học cho lớp các mô hình Bayes mà sử dụng ngôn ngữ xác suất để mã hóa các giả thiết về dữ liệu. Cụ thể hơn, luận án tập trung vào các giải pháp để giúp học mô hình Bayes hiệu quả khi đương đầu với 3 thách thức: Luồng dữ liệu thưa và nhiễu; sự thay đổi đột ngột trong luồng dữ liệu; và vấn đề quên nghiêm trọng khi học trong luồng dữ liệu. 3.1. Mô hình Bayes và học mô hình Bayes từ luồng dữ liệu Mô hình Bayes đã trở thành một công cụ mạnh mẽ trong học máy để mô hình hóa sự không chắc chắn của dữ liệu thực tế. Dựa trên các giả thiết về dữ liệu, chúng ta có thể dễ dàng xây dựng một mô hình với các dữ liệu quan sát được (observations), các biến ẩn (hidden variables) và mã hóa quan hệ giữa chúng. Phân phối hậu nghiệm (posterior distribution) sẽ tiết lộ các đặc trưng của dữ liệu và từ đó được sử dụng trong các ứng dụng thực tế. Hơn nữa, một số lượng lớn các phương pháp suy diễn (inference methods) [32, 33] được đề xuất để học một mô hình Bayes tổng quát trong môi trường tĩnh (môi trường không có sự xuất hiện thêm dữ liệu mới trong suốt quá trình huấn luyện). Vì vậy, cách tiếp cận Bayes được sử dụng rộng rãi trong nhiều ứng dụng như khai phá văn bản [34, 35], thị giác máy tính [36], tin sinh [37], v.v. Trong môi trường luồng, các phương pháp học mô hình Bayes thường được chia vào 2 nhóm chính: Tối ưu hóa ngẫu nhiên (stochastic optimization) [38, 39, 4
11, 3, 10] và đệ quy Bayes (recursive Bayesian approach) [12, 13, 1, 3, 14, 4, 29, 40]. Tối ưu hóa ngẫu nhiên [41, 42] là nhóm phương pháp tối ưu với hàm mục tiêu có yếu tố ngẫu nhiên xuất hiện. Khi đó, hàm mục tiêu thường được viết dưới dạng kỳ vọng theo yếu tố ngẫu nhiên. Hướng thứ nhất lợi dụng sức mạnh của tối ưu hóa ngẫu nhiên để làm việc cho luồng dữ liệu. Các phương pháp giả thiết rằng dữ liệu được sinh ngẫu nhiên từ một phân phối dữ liệu và các phương pháp khác nhau thường đưa ra giả thiết khác nhau về phân phối này. Hàm mục tiêu là kỳ vọng theo phân phối dữ liệu. Mỗi mini-batch đến được xem như là dữ liệu sinh ra từ phân phối dữ liệu và dùng cho quá trình học tham số mô hình. Trong khi đó, ý tưởng chính của cách tiếp cận đệ quy Bayes là: Phân phối hậu nghiệm (posterior distribution) học được từ thời điểm hiện tại sẽ được sử dụng làm phân phối tiên nghiệm (prior distribution) của thời điểm tiếp theo. Ý tưởng này hoàn toàn tự nhiên trong thực tế: Tri thức chúng ta học được ngày hôm nay sẽ thành nền tảng để chúng ta làm việc ngày mai. Thông thường, cả hai hướng tiếp cận đều áp dụng dễ dàng cho một lớp các mô hình Bayes có tính liên hợp (conjugate prior) [43]. Vì thế, chúng giúp mô hình thiết kế ban đầu trong môi trường tĩnh có thể làm việc được với luồng dữ liệu. Mức độ phức tạp, khó khăn sẽ tăng lên trong việc đưa ra thuật toán học khi áp dụng chúng cho mô hình không có tính liên hợp (non-conjugate prior) [43]. 3.2. Học mô hình Bayes khi đương đầu với ba thách thức từ luồng dữ liệu Thứ nhất, với luồng dữ liệu thưa và nhiễu, Hình 1 minh họa kết quả về tính tổng quát hóa khi dự đoán trên dữ liệu kiểm tra của 3 phương pháp phổ biến: Phương pháp suy diễn biến phân luồng (Streaming Variational Bayes (SVB)) [1], suy diễn biến phân luồng với tri thức tiên nghiệm dạng luỹ thừa (Streaming Variational Bayes with Power Priors (SVB-PP)) [2] và phương pháp suy diễn biến phân Bayes quần thể (Population Variational Bayes (PVB)) [3] khi đương đầu với luồng dữ liệu thưa và nhiễu. Trong thử nghiệm này1 , mô hình chủ đề (Latent Dirichlet allocation (LDA)) [34] với 100 chủ đề ẩn được học trên tập dữ liệu diễn đàn Yahoo-title2 . Hình 1 chỉ ra rằng cả 3 phương pháp đều làm việc không hiệu quả với luồng dữ liệu thưa và nhiễu dựa trên độ đo xác suất phán đoán (Log Predictive Probability (LPP)) [11]. Mặc dù dữ liệu đến càng nhiều, hiệu năng của chúng không tốt lên mà còn bị đi xuống. Các chứng minh lý thuyết [44, 45] cũng chỉ ra rằng một số mô hình Bayes không thể thu được 1 Trình bày về thử nghiệm chi tiết hơn sẽ xuất hiện trong chương 2 2 https://answers.yahoo.com/ 5
Yahoo −8.75 −9.00 LPP −9.25 −9.50 −9.75 0 20 40 60 80 100 Minibatch PVB SVB-PP SVB Hình 1: Tính tổng quát hóa của SVB [1], SVB-PP [2] và PVB [3] tính theo khả năng dự đoán của mô hình học được trên tập dữ liệu Yahoo-title chứa dữ liệu thưa và nhiễu. Độ đo sử dụng là xác suất phán đoán LPP (Log Predictive Probability) [11] và được tính dựa trên phán đoán khả năng xảy ra của phần văn bản còn lại khi cho trước một phần văn bản. LPP càng cao càng tốt. hiệu quả tốt trên dữ liệu thưa và nhiễu dù cho dữ liệu huấn luyện có rất lớn. Để đương đầu với dữ liệu thưa và nhiễu, có hai cách chính được quan tâm từ đông đảo cộng đồng nghiên cứu: Khai thác tri thức tiên nghiệm (prior/external knowledge) [46, 47, 48] và tổng hợp dữ liệu ngắn [49, 50, 51, 21]. Tri thức tiên nghiệm là các nguồn tri thức từ bên ngoài được thêm vào để làm giàu, định hướng cho việc học mô hình Bayes. Trong khi đó, cách thứ hai hướng tới tổng hợp các dữ liệu thưa (ngắn) tương đồng với nhau lại thành một dữ liệu dày (dài) hơn. Tiếp cận này đặc biệt phù hợp trong xử lý văn bản. Chú ý rằng khai thác tri thức tiên nghiệm có thể cải thiện hiệu quả cho cách thứ hai. Tuy nhiên, các phương pháp học mô hình Bayes thường bỏ qua nguồn tri thức tiên nghiệm khi học trên luồng dữ liệu. Lý do cho vấn đề này có thể vì khi dữ liệu là đủ lớn thì tri thức tiên nghiệm không còn quan trọng. Luận án sẽ tập trung vào xem xét liệu tri thức tiên nghiệm có quan trọng trong học mô hình Bayes từ luồng dữ liệu hay không, đặc biệt với dữ liệu thưa và nhiễu. Thứ hai, vấn đề thay đổi đột ngột của dòng dữ liệu, trong khi hướng nghiên cứu dựa trên tối ưu hóa ngẫu nhiên chưa quan tâm đến chủ đề này, tiếp cận dựa trên đệ quy Bayes trở nên thiếu mềm dẻo để có thể thích nghi với sự thay đổi đột ngột. Các phương pháp dựa trên đệ quy Bayes thường gặp phải vấn đề quá tự tin (overconfidence) [52, 53] sau khi chúng học trên một lượng dữ liệu đủ lớn từ luồng. Cụ thể, phương sai của phân phối hậu nghiệm học được thường bị thu 6