intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Tóm tắt Luận án Tiến sĩ Hệ thống thông tin: Một số phương pháp học máy hiệu quả trong môi trường luồng dữ liệu liên tục

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:27

10
lượt xem
4
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án " Một số phương pháp học máy hiệu quả trong môi trường luồng dữ liệu liên tục" hướng tới xây dựng các phương pháp có thể học một mô hình Bayes tổng quát cho một tác vụ trên luồng dữ liệu. Các phương pháp này có thể làm việc hiệu quả với các thách thức đưa ra.từ luồng dữ liệu. Mời các bạn cùng tham khảo luận án!

Chủ đề:
Lưu

Nội dung Text: Tóm tắt Luận án Tiến sĩ Hệ thống thông tin: Một số phương pháp học máy hiệu quả trong môi trường luồng dữ liệu liên tục

  1. BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI NGÔ VĂN LINH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY HIỆU QUẢ TRONG MÔI TRƯỜNG LUỒNG DỮ LIỆU LIÊN TỤC Ngành: Hệ thống thông tin Mã số: 9480104 TÓM TẮT LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN HÀ NỘI−2022
  2. Công trình được hoàn thành tại: Đại học Bách khoa Hà Nội Người hướng dẫn khoa học: PGS.TS. Thân Quang Khoát Phản biện 1: Phản biện 2: Phản biện 3: Luận án được bảo vệ tại Hội đồng đánh giá luận án tiến sĩ cấp Trường họp tại Đại học Bách khoa Hà Nội. Vào hồi .. giờ .., ngày ... tháng ... năm ... Có thể tìm hiểu luận án tại: 1. Thư viện Tạ Quang Bửu - ĐHBK Hà Nội 2. Thư viện Quốc gia Việt Nam.
  3. MỞ ĐẦU 1. Bối cảnh nghiên cứu Trong môi trường luồng, một phương pháp học máy phải làm việc tốt trên dữ liệu mới đến và không được duyệt lại các dữ liệu trong quá khứ. Một số nghiên cứu gần đây đã cung cấp những giải pháp học từ luồng dữ liệu cho các mô hình Bayes mà sử dụng ngôn ngữ xác suất để mã hóa các giả thiết về dữ liệu. Chúng thường được chia vào trong hai nhóm tiếp cận phổ biến: Tối ưu hóa ngẫu nhiên (stochastic optimization) và đệ quy Bayes (recursive Bayesian approach). Hướng thứ nhất tận dụng sức mạnh của tối ưu hóa ngẫu nhiên để làm việc cho luồng dữ liệu. Các phương pháp trong hướng này giả sử rằng dữ liệu được sinh ngẫu nhiên từ một phân phối dữ liệu và các phương pháp khác nhau thường đưa ra giả thiết khác nhau về phân phối này. Hàm mục tiêu là kỳ vọng theo phân phối dữ liệu. Mỗi mini-batch đến được xem như là dữ liệu sinh ra từ phân phối dữ liệu và dùng cho quá trình học tham số mô hình. Trong khi đó, ý tưởng chính của cách tiếp cận đệ quy Bayes là: Phân phối hậu nghiệm (posterior distribution) học được từ thời điểm hiện tại sẽ được sử dụng làm phân phối tiên nghiệm (prior distribution) của thời điểm tiếp theo. Ý tưởng này hoàn toàn tự nhiên trong thực tế: Tri thức chúng ta học được ngày hôm nay sẽ thành nền tảng để chúng ta làm việc ngày mai. Tuy nhiên, việc xây dựng phương pháp học máy chỉ với mục đích giúp một mô hình Bayes chuyển từ học trong môi trường tĩnh sang làm việc được với luồng dữ liệu là chưa đủ. Luồng dữ liệu đặt ra nhiều thách thức hơn thế rất nhiều. Luận án này tập trung vào 3 thách thức lớn sau: Thách thức từ luồng dữ liệu thưa và nhiễu (sparse and noisy data), thách thức từ sự thay đổi đột ngột trong luồng dữ liệu (concept drifts), thách thức từ việc quên tri thức cũ khi học trên dữ liệu mới (catastrophic forgetting). Thứ nhất, dữ liệu thưa và nhiễu (sparse and noisy data) gây ra khó khăn lớn cho các phương pháp học máy. Rõ ràng, dữ liệu thưa không cung cấp một ngữ cảnh đầy đủ và dữ liệu nhiễu có thể định hướng sai việc học mô hình. Vì vậy, tính tổng quát hóa của mô hình học được sẽ bị giới hạn khi làm việc với dữ liệu thưa và nhiễu. Để đương đầu với dữ liệu thưa và nhiễu, có hai cách chính được quan tâm từ đông đảo cộng đồng nghiên cứu: Khai thác tri thức tiên nghiệm (prior/external knowledge) và tổng hợp dữ liệu ngắn. Tri thức tiên nghiệm là các nguồn tri thức từ bên ngoài được thêm vào để làm giàu, định hướng cho việc học mô hình Bayes. Trong khi đó, cách thứ hai hướng tới tổng hợp các dữ liệu thưa (ngắn) tương đồng với nhau lại thành một dữ liệu dày (dài) hơn. Tiếp cận này đặc biệt phù hợp trong xử lý văn bản. Chú ý rằng khai thác tri thức tiên nghiệm có thể cải thiện hiệu quả cho cách thứ hai. Tuy nhiên, các phương pháp học mô hình Bayes thường bỏ qua nguồn tri thức tiên nghiệm khi học trên luồng dữ liệu. Lý do cho vấn đề này có thể vì khi dữ liệu là đủ lớn thì tri thức tiên nghiệm không còn quan trọng. Thứ hai, sự thay đổi đột ngột của dữ liệu (concept drifts) có thể xuất hiện thường xuyên trong luồng. Các phương pháp truyền thống thường giả thiết rằng chỉ có một mô hình duy nhất sinh ra toàn bộ dữ liệu. Giả thiết này chỉ hợp lý với môi trường tĩnh, nhưng không phù hợp với môi trường luồng dữ liệu. Mô hình nên được thay đổi phù hợp theo các khoảng thời gian. Những đặc trưng mới có thể xuất hiện bất cứ lúc nào trong luồng dữ liệu nên một phương pháp học cần mềm dẻo để thích nghi nhanh với chúng. Các tiếp cận đệ quy Bayes thường gặp phải vấn đề quá tự tin (overconfident) sau khi chúng học trên một lượng dữ liệu đủ lớn từ luồng. Cụ thể, phương sai của phân phối hậu nghiệm học được thường bị thu nhỏ lại tới dần giá trị 0. Điều này dẫn tới phân phối hậu nghiệm chỉ tập trung giá trị tại một điểm và mất đi phán đoán về sự không chắc chắn của dữ liệu. Một số nghiên cứu đã hướng đến vấn đề này thông qua đề xuất các cơ chế cập nhật mới mềm dẻo hơn. Tuy nhiên, nhóm các phương pháp tăng cường tính mềm dẻo hiện tại vẫn tồn tại những hạn chế nhất định. Bởi vì đưa thêm các biến ẩn để mã hóa cho sự thay đổi của luồng dữ liệu, các mô hình thường trở nên mất tính liên hợp (non-conjugate prior) và yêu cầu nhiều nỗ lực để tìm lời giải xấp xỉ. Nhiều phương pháp yêu cầu lưu trữ các mô hình ứng với khả năng xảy ra thay đổi trong chuỗi thời gian của luồng dữ liệu. Một giải pháp dễ thực hiện và không cần lưu trữ nhiều mô hình sẽ có ý nghĩa lớn trong thực tế. Thứ ba, việc huấn luyện một mô hình học máy trong môi trường luồng dữ liệu gặp phải một thách thức lớn về việc quên tri thức đã học (catastrophic forgetting) trước đây sau khi học từ nhiều dữ liệu mới hơn. Rõ ràng, quên là một vấn đề khó tránh khỏi ở cả con người và hệ thống học máy. Hiện tượng 1
  4. quên nghiêm trọng xảy ra khi một mô hình đã huấn luyện làm việc kém trên dữ liệu với đặc trưng đã gặp trong quá khứ. Một điều thật đáng ngạc nhiên rằng vấn đề quên nghiêm trọng lại không được quan tâm nhiều trong học luồng dữ liệu. Các phương pháp học trên luồng dữ liệu thuộc cả 2 nhóm: Tối ưu ngẫu nhiên và đệ quy Bayes đều có cơ chế giữ lại tri thức của mini-batch trước đó cho việc học tốt trên dữ liệu hiện tại. Tuy nhiên, các cơ chế này thường chỉ ràng buộc giữa 2 mini-batch kế tiếp nhau, nên chúng dễ bị quên tri thức ở xa hơn. Đây là một vấn đề mà luận án sẽ hướng tới nhằm xây dựng cơ chế tích hợp tri thức từ quá khứ xa hơn. Mặc dù cả hai cách tiếp cận dựa trên khai thác tri thức tiên nghiệm và Dropout là tiềm năng, nhưng chúng chưa được xem xét đầy đủ trong môi trường luồng dữ liệu, đặc biệt cho mô hình Bayes. Dưới góc nhìn của cách tiếp cận Bayes, tri thức từ phân phối tiên nghiệm không đóng vai trò quan trọng khi dữ liệu huấn luyện đủ lớn. Cụ thể, khi dữ liệu lớn lượng tri thức học được từ dữ liệu sẽ vượt trội từ tri thức tiên nghiệm. Tuy nhiên, luồng dữ liệu được thu thập vào trong các mini-batch liên tiếp và huấn luyện mô hình được thực hiện trên từng mini-batch thay vì huấn luyện trên toàn bộ dữ liệu của luồng. Khi đó, sử dụng tri thức tiên nghiệm sẽ cải thiện chất lượng mô hình học được trên từng mini-batch. Hơn nữa, chúng ta cũng không biết đến khi nào thì dữ liệu là đủ nhiều để không cần sử dụng đến tri thức tiên nghiệm. Vì vậy, khai thác tri thức tiên nghiệm vẫn cần được nghiên cứu cẩn thận trong môi trường luồng. Mặt khác, các ứng dụng của Dropout vẫn hạn chế trong môi trường dữ liệu tĩnh. Nghiên cứu gần đây chỉ ra rằng Dropout có thể làm việc tốt với luồng dữ liệu. Đặc biệt, Dropout cải thiện hiệu quả rõ ràng khi làm việc với luồng dữ liệu có sự thay đổi đột ngột bởi vì nó hướng tới sử dụng các mô hình con trong tập các mô hình kết hợp để làm việc phù hợp với các đặc trưng mới. Tuy nhiên, công việc này cũng chỉ tập trung vào các mạng nơ-ron thông thường và nó cũng chưa xem xét một cơ chế điều chỉnh hệ số Dropout tự động. 2. Phạm vi và vấn đề nghiên cứu Luận án này hướng tới xây dựng các phương pháp có thể học một mô hình Bayes tổng quát cho một tác vụ trên luồng dữ liệu. Các phương pháp này có thể làm việc hiệu quả với các thách thức đưa ra. Luận án sẽ tập trung vào ba vấn đề nghiên cứu chính sau: • Thứ nhất, liệu tri thức tiên nghiệm có giúp mô hình Bayes đương đầu tốt với các thách thức về dữ liệu thưa và nhiễu cũng như sự thay đổi đột ngột của luồng? Nhiều nguồn tri thức giá trị đang tồn tại sẵn có cho sử dụng như tri thức mã hóa trong các mô hình đã được huấn luyện trên các tập dữ liệu lớn (pre-trained model), đồ thị tri thức Wordnet, Wikipedia, các mạng ngữ nghĩa. Khai thác hiệu quả các nguồn tri thức này có thể làm giàu cho mô hình Bayes để đương đầu với các thách thức từ luồng dữ liệu. Tuy nhiên, chúng chỉ được xem xét khai thác trong môi trường tĩnh. Một phương pháp khai thác hiệu quả tri thức tiên nghiệm với nhiều dạng biểu diễn khác nhau (như vectơ, ma trận, đồ thị) trong môi trường luồng sẽ giúp cho mô hình Bayes làm việc tốt với luồng dữ liệu. • Thứ hai, liệu Dropout có thể tăng tính mềm dẻo và khái quát hóa khi sử dụng cho mô hình Bayes trên luồng dữ liệu? Vấn đề nghiên cứu này hướng đến tận dụng các điểm mạnh của Dropout để đương đầu với các thách thức về dữ liệu thưa và nhiễu cũng như sự thay đổi đột ngột của luồng. Dropout giúp giảm bớt vấn đề quá khớp do dữ liệu thưa và nhiễu gây ra. Nó cũng có cơ chế học kết hợp nhiều mô hình để làm việc tốt với sự thay đổi đột ngột của luồng dữ liệu. • Cuối cùng, làm thế nào để xây dựng một cơ chế hiệu chỉnh giúp tránh quên tri thức đã học được từ quá khứ? Vấn đề nghiên cứu này hướng tới xây dựng cơ chế hiệu chỉnh ràng buộc trên tri thức học được từ tất cả thời điểm quá khứ để đương đầu với thách thức quên nghiêm trọng. Để tạo ra cơ chế hiệu quả, luận án phải giải quyết vấn đề: Không được lưu lại tham số mô hình ở tất cả các thời điểm trong quá khứ và tạo ra cách ràng buộc hiệu quả để tránh dẫn đến hạn chế khi nó quá ổn định và thiếu mềm dẻo để làm việc với sự thay đổi đột ngột trong luồng. Một cơ chế hiệu chỉnh tốt có thể kết hợp với khai thác tri thức tiên nghiệm và Dropout để tạo ra một phương pháp toàn diện khi đương đầu với các thách thức từ luồng dữ liệu. 3. Đóng góp của luận án Hướng tới xây dựng các giải pháp cho các vấn đề nghiên cứu nói trên, luận án có 3 đóng góp chính: 2
  5. • Chúng tôi đề xuất một phương pháp biến đổi tri thức tiên nghiệm cho luồng dữ liệu (Transformation of Prior Knowledge for Data Streams (TPS)). TPS xây dựng một hàm ánh xạ để biến đổi tri thức tiên nghiệm về dạng phù hợp với mô hình Bayes cho trước bằng cách tận dụng sức mạnh của mạng nơ-ron hiện đại. Vì thế, TPS có thể làm việc tốt với tri thức tiên nghiệm dưới nhiều dạng như vectơ, ma trận, đồ thị. TPS cũng xây dựng cơ chế tự động cân bằng tri thức học được từ dữ liệu quá khứ và tri thức tiên nghiệm. Kế thừa ý tưởng của TPS, luận án cũng đề xuất mô hình chủ đề dựa trên đồ thị tích chập (Graph convolutional Topic Model (GCTM)). GCTM tận dụng sức mạnh của mạng đồ thị tích chập (graph convolutional networks (GCN)) giúp mã hóa và chuyển đổi quan hệ giữa các đỉnh và cạnh trên đồ thị tri thức vào mô hình học chủ đề (Latent Dirichlet allocation (LDA)) cho luồng dữ liệu. Với việc tận dụng tốt tri thức tiên nghiệm, các phương pháp đề xuất có thể làm việc tốt với thách thức về luồng dữ liệu nhiễu, thưa và có sự thay đổi đột ngột. Các kết quả nghiên cứu này đã được công bố trong 2 bài báo [P1,P3]. • Chúng tôi đề xuất phương pháp Dropout vô hạn với cơ chế thích nghi (Adaptive Infinite Dropout (aiDropout)). aiDropout tạo ra một cơ chế hiệu chỉnh phụ thuộc dữ liệu và cơ chế học tự động tỉ lệ Dropout phù hợp với dữ liệu mới để làm việc tốt với sự thay đổi đột ngột của luồng dữ liệu hoặc đặc trưng dữ liệu thưa và nhiễu. Hơn nữa, aiDropout có khả năng kết hợp nhiều mô hình như trong học kết hợp (ensemble learning) giúp tăng cường hiệu quả khi làm việc với sự thay đổi trong dữ liệu. Các kết quả nghiên cứu này nằm chính trong bài báo [P4]. Phần chứng minh về Dropout với phân phối Gauss cũng sinh ra cơ chế hiệu chỉnh như Dropout với phân phối Bernoulli được trình bày trong bài báo [P2]. • Chúng tôi đề xuất phương pháp cân bằng giữa tính ổn định và tính mềm dẻo (Balancing Stability and Plasticity (BSP)) khi học một mô hình Bayes trên luồng dữ liệu. BSP đưa ra một cách kết hợp cả tri thức tiên nghiệm và Dropout trong cùng một mô hình. Vì vậy, BSP nhấn mạnh khả năng tổng quát hóa và tính mềm dẻo của mô hình học được. Hơn nữa, BSP xây dựng một thành phần hiệu chỉnh dựa trên tích lũy thông tin học được từ tất cả thời điểm trong quá khứ để tránh hiện tượng quên tri thức cũ. Thành phần hiệu chỉnh này được cộng gộp trên xấp xỉ bậc 2 của mỗi hàm mục tiêu trong mỗi thời điểm dựa trên khai triển Taylor bậc 2. Cách cộng gộp trên bậc 2 tránh phải lưu trữ tất cả các mô hình quá khứ. Hơn nữa, Dropout có vai trò quan trọng để BSP không bị quá ổn định khi giữ nhiều tri thức cũ. Kết quả BSP là giải pháp toàn diện để đương đầu với cả 3 thách thức đã đưa ra. Nghiên cứu này đã được đăng trong bài báo [P5]. Chú ý rằng các đóng góp nêu trên có thể áp dụng tới một lớp rộng lớn các mô hình Bayes cho nhiều lĩnh vực như khai phá văn bản, xử lý ảnh, hệ gợi ý, v.v. Để tránh việc trình bày quá lan man, luận án chỉ tập trung vào phân tích các phương pháp đề xuất trên 2 mô hình Bayes nổi tiếng: Mô hình học chủ đề ẩn (Latent Dirichlet allocation (LDA)) và mô hình phân loại văn bản Naive Bayes (NB)) cho học không giám sát và có giám sát. 4. Bố cục của luận án Với các đóng góp nêu trên, luận án được trình bày trong 4 chương chính: • Chương 1: Chương này trình bày các kiến thức nền tảng về mô hình Bayes và học mô hình Bayes từ luồng dữ liệu. • Chương 2: Nội dung chương 2 trình bày lời giải cho các câu hỏi: Liệu tri thức tiên nghiệm có giúp mô hình Bayes đương đầu tốt với các thách thức về dữ liệu thưa và nhiễu cũng như sự thay đổi đột ngột của luồng? • Chương 3: Nội dung của chương 3 hướng tới trả lời câu hỏi nghiên cứu: Liệu Dropout có thể tăng tính mềm dẻo và khái quát hóa khi sử dụng cho mô hình Bayes trên luồng dữ liệu? • Chương 4: Mục đích của chương 4 hướng tới câu hỏi: Làm thế nào để xây dựng được một cơ chế hiệu chỉnh giúp tránh quên tri thức đã học được từ quá khứ? Với các chương này, luận án đã trình bày đầy đủ các kiến thức nền tảng và chi tiết nội dung giải pháp cho các câu hỏi nghiên cứu giúp giải quyết hiệu quả các thách thức nêu ra. 3
  6. Chương 1 KIẾN THỨC NỀN TẢNG Chương này sẽ trình bày các kiến thức nền tảng về mô hình Bayes và học mô hình Bayes trên luồng dữ liệu. 1.1. Các mô hình Bayes Mục này sẽ trình bày những kiến thức chung về mô hình Bayes, 2 mô hình kinh điển: Mô hình chủ đề (Latent Dirichlet Allocation (LDA)), mô hình Naive Bayes (NB). 1.1.1. Mô hình Bayes tổng quát Chúng ta xem xét một mô hình Bayes tổng quát B(β, z, x), trong đó x = x1:M là tập gồm M quan sát, biến toàn cục β dùng chung giữa các điểm dữ liệu x1:M , zi dùng để mô hình hóa cấu trúc cho điểm dữ liệu thứ i (hay xi ). Với mỗi điểm xi , mô hình Bayes sinh ra các biến ẩn từ một phân phối tiên nghiệm pβ (zi ), sau đó kết hợp chúng với các quan sát thông qua xác suất xảy ra (likelihood) pβ (xi |zi ). Quá trình suy diễn cho một mô hình Bayes là quá trình tính toán phân phối hậu nghiệm pβ (z|x) từ các thông tin tiên nghiệm và likelihood kể trên. Suy diễn đóng một vai trò quan trọng trong việc khảo sát các đặc điểm của dữ liệu, cũng như để xây dựng phân phối dự đoán cho một điểm dữ liệu mới. Tuy nhiên, trong thực tế, để nắm bắt được các khía cạnh của dữ liệu, một mô hình Bayes thường phải rất phức tạp và do đó suy diễn đơn thuần có thể không khả thi. Suy diễn biến phân là một trong những phương pháp phổ biến nhất để xấp xỉ phân phối hậu nghiệm pβ (z|x) thông qua một phân phối biến phân qϕ (z) đơn giản hơn, trong đó ϕ là tham số biến phân. Phân phối xấp xỉ qϕ (z) này thường được chọn từ một họ các phân phối đã biết trước. Do đó, chúng ta chỉ cần học tham số ϕ để thực hiện quá trình suy diễn. Quá trình suy diễn được chuyển thành quá trình cực đại hóa cận dưới của chứng cứ ELBO (Evidence Lower Bound) đối với tham số biến phân ϕ: pβ (x, z) log p(x) = log pβ (x, z)dz = log qϕ (z) dz z z qϕ (z) pβ (x, z) ≥ qϕ (z) log = Eqϕ (z) log pβ (z, x) − Eqϕ (z) log qϕ (z) = ELBO z qϕ (z) Tham số mô hình β cũng được học bằng cách cực đại hóa ELBO. Do đó, thuật toán học sẽ gồm 2 phần: cập nhật giá trị của tham số biến phân ϕ và cập nhật tham số mô hình β . Với mô hình Bayes có tính liên hợp (conjugate prior), các kỳ vọng trong hàm mục tiêu ELBO sẽ tính được công thức tính tường minh. Khi đó, chúng ta có thể dễ dàng xây dựng các thuật toán học β và ϕ dựa trên các phương pháp tối ưu sẵn có. Ngược lại, khi mô hình Bayes không có tính liên hợp (non-conjugate prior), các kỳ vọng sẽ trở lên phức tạp vì yêu cầu tính các tích phân khó. Trong trường hợp đó, các cách tính xấp xỉ kỳ vọng dựa trên lấy mẫu thường được sử dụng. 1.1.2. Mô hình chủ đề (Latent Dirichlet Allocation (LDA)) Mô hình chủ đề LDA là một trong những mô hình Bayes phổ biến và được sử dụng rộng rãi trong rất nhiều ứng dụng như khai phá văn bản, hệ gợi ý, thị giác máy tính, tin sinh. Giả sử rằng một tập dữ liệu chứa D văn bảnvà mỗi văn bản có Nd từ (wd1 , wd2 , ..., wdNd ). Cho K chủ đề và tập từ vựng kích thước V, mỗi chủ đề k (1 ≤ k ≤ K) được đặc trưng bởi một vectơ mang phân phối của các từ βk = (βk1 , βk2 , ..., βkV ) ( V βkj = 1). Vectơ θd = (θd1 , θd2 , ..., θdK ) ( K θdk = 1) j=1 k=1 mang thông tin về phân phối chủ đề trong văn bản d (1 ≤ d ≤ D) và zdn là chỉ số chủ đề được gán cho từ n (1 ≤ n ≤ Nd ) trong văn bản d. Các thành phần trong mô hình LDA chia thành 3 cấp độ: • Cấp độ tập dữ liệu: Siêu tham số α and tham số toàn cục β . • Cấp độ văn bản: Các biến θ đặc trưng cho phân phối của các chủ đề trong mỗi văn bản. 4
  7. • Cấp độ từ: Tập các từ wd trong văn bản d và chủ đề tương ứng của chúng zd . Các biến ở cấp độ từ và cấp độ văn bản là các biến cục bộ cho mỗi văn bản, trong khi các biến ở cấp độ tập dữ liệu là các biến toàn cục và được dùng chung cho tất cả các văn bản. Quá trình sinh của LDA được mô tả như sau: 1. Sinh tỉ lệ chủ đề từ phân phối Dirichlet: θd ∼ Dir(α) 2. Với mỗi từ thứ n (n = 1, 2, ..., Nd ) trong văn bản d: (a) Sinh ra 1 chỉ số chủ đề từ phân phối Multinormial: zdn ∼ Mult(θd ) (b) Sinh ra 1 từ: wdn ∼ Mult(βzdn ) 1.1.3. Mô hình Naive Bayes Mô hình Naive Bayes (NB) là một mô hình học có giám sát phổ biến cho bài toán phân loại văn bản. Giả sử ta có một tập dữ liệu gồm M văn bản, mỗi văn bản d có chứa Nd từ và thuộc vào một nhãn lớp cd ∈ {1, 2, ..., C}. Mỗi nhãn cd được sinh bởi cd ∼ M ult(α), trong đó, α là một vectơ đối xứng cố định. Biến toàn cục β với kích thước C × V là phân phối của V từ trong từ điển trong mỗi nhãn lớp c. Cụ thể, với một nhãn c, βc thỏa mãn: V βcj = 1. j=1 Quá trình sinh của NB được mô tả như sau: 1. Sinh ra β : βc ∼ Dir(η) cho mỗi lớp c 2. Với mỗi văn bản d: (a) Sinh ra nhãn lớp cd ∼ Mult(α) (b) Sinh ra từ thứ n wdn ∼ Mult(βcd ) 1.2. Huấn luyện mô hình Bayes trên luồng dữ liệu Mục này trình bày phương pháp huấn luyện mô hình Bayes trên luồng dữ liệu: Suy diễn biến phân luồng (Streaming variational Bayes (SVB)). Giả sử chúng ta thu thập được từ luồng dữ liệu một chuỗi các mini-batch {Ci }i=1→b trong đó b có thể tiến tới vô cùng và mỗi mẫu dữ liệu được sinh ra từ một mô hình với tham số Φ. Khi đó, bài toán học luồng dữ liệu trở thành bài toán tính xác suất hậu nghiệm p(Φ|C1 , C2 , . . . , Cb ). SVB tạo ra một khung mẫu chung để tính toán phân phối hậu nghiệm. Ý tưởng là sử dụng tri thức tiên hậu nghiệm học từ dữ liệu trong quá khứ làm tri thức tiên nghiệm cho hiện tại. Cho trước thông tin tiên nghiệm η , giả định rằng b − 1 mini-batch đã được học, phân phối hậu nghiệm sau b mini-batch có thể được tính theo quy tắc Bayes: p(Φ|Cb , η) p(Φ|C1 , C2 , ..., Cb−1 , Cb , η) ∝ p(Φ|C1 , C2 , ..., Cb−1 , η) (1.9) p(Φ|η) Sử dụng suy diễn biến phân, chúng ta xấp xỉ phân phối hậu nghiệm bằng phân phối biến phân ˆ ˆ ˆ thuộc họ hàm mũ: p(Φ|Cb , η) ≈ q(Φ|ξb ) ∝ exp(ξb · T (Φ)) với ξb là tham số tự nhiên của họ hàm mũ và cũng là tham số biến phân trên mini-batch Cb . Chúng ta giả sử đã có phân phối hậu nghiệm của b − 1 mini-batch trước: p(Φ|C1 , C2 , ..., Cb−1 , η) ≈ q(Φ|ξb−1 ) với ξb−1 là tham số tích lũy của b − 1 mini-batch. Giả sử rằng phân phối tiên nghiệm ban đầu là p(Φ|η) = q(Φ|ξ0 ). Ở đây, thông tin tiên nghiệm η được chuyển thành một tham số tự nhiên của một họ hàm mũ: ξ0 ← η . Do đó, ξ0 cũng được coi là tri thức tiên nghiệm ban đầu. Đến đây, kết hợp các đại lượng xấp xỉ với biểu thức (1.9) , ta có ˆ q(Φ|ξb ) ≈ q(Φ|ξb ) q(Φ|ξb−1 ). Do cùng thuộc họ hàm mũ, nên ta có: ξb = (ξb − ξ0 ) + ξb−1 và ξb = ξb + ξb−1 q(Φ|ξ0 ) ˆ ˜ ˆ ˜ trong đó ξb − ξ0 = ξb là thống kế dữ liệu trên mini-batch b. Điều này cho thấy rằng, các tham số hiện tại của mô hình bằng với tổng của các thống kê từ thời điểm đầu đến hiện tại: ξb = b ξt . Vì vậy, t=1 ˜ SV B cung cấp cho chúng ta một quy tắc để mô hình hóa dữ liệu luồng mà không cần truy cập vào dữ liệu trong quá khứ. 5
  8. Chương 2 KHAI THÁC TRI THỨC TIÊN NGHIỆM TRONG LUỒNG DỮ LIỆU Chương này tập trung vào giải quyết bài toán nghiên cứu: Liệu tri thức tiên nghiệm có giúp mô hình Bayes đương đầu tốt với các thách thức về dữ liệu thưa và nhiễu cũng như sự thay đổi đột ngột của luồng? Chương hướng tới các phương pháp có thể giúp một mô hình Bayes khai thác hiệu quả tri thức tiên nghiệm với nhiều dạng biểu diễn khác nhau (ví dụ: Vectơ, ma trận, đồ thị) khi học trong môi trường luồng dữ liệu. 2.1. Giới thiệu Trong chương này, chúng tôi đề xuất một phương pháp biến đổi tri thức tiên nghiệm cho dữ liệu luồng (Transformation of Prior Knowledge for Data Streams (TPS)). TPS có thể khai thác tri thức tiên nghiệm để tích hợp vào một mô hình Bayes tổng quát khi làm việc với luồng dữ liệu. Chú ý rằng mô hình Bayes đã có sẵn một thủ tục học trong môi trường tĩnh từ trước và TPS thay đổi thủ tục này để có thể làm việc được cho luồng dữ liệu. TPS sẽ giữ nguyên phần thủ tục cho biến cục bộ và chỉ thay đổi cho biến toàn cục. Sự thay đổi này bao gồm hai phần: Xây dựng một hàm ánh xạ để biến đổi tri thức tiên nghiệm về dạng phù hợp với biến toàn cục và tạo một cơ chế động lan truyền tri thức giữa các mini-batch. Dựa trên sức mạnh của hàm ánh xạ, TPS có thể khai thác được đa dạng các nguồn tri thức tiên nghiệm. Trong khi đó, cơ chế lan truyền tri thức sẽ giúp giữ lại tri thức cũ mà tránh phải lưu dữ liệu quá khứ. Cuối cùng, TPS hướng tới phát triển một thuật toán học trên dữ liệu luồng cho mô hình tổng quát với chỉ một vài thay đổi trên biến toàn cục của thuật toán ban đầu. Dựa trên cực đại hóa xác suất hậu nghiệm của biến toàn cục, chúng ta có thể sử dụng các công cụ tối ưu có sẵn như nhóm phương pháp hướng đạo hàm (gradient-based optimizers) cho học biến toàn cục. Chúng ta sẽ không phải tốn kém công sức để sinh ra công thức cập nhật cho các mô hình Bayes khác nhau. Trong khi, nhiều phương pháp phải yêu cầu nỗ lực để xấp xỉ các kỳ vọng phức tạp cho từng mô hình cụ thể. Vì vậy, TPS là thực sự hữu dụng trong thực tế. Đặc biệt, việc xây dựng một hàm ánh xạ hiệu quả để biến đổi tri thức tiên nghiệm với các dạng khác nhau (như vectơ, ma trận, đồ thị, v.v) sang dạng phù hợp cho một mô hình Bayes cụ thể đóng một vai trò quan trọng trong việc khai thác hiệu quả được đa dạng nguồn tri thức tiên nghiệm. Mạng nơ-ron hiện đại nổi lên như một giải pháp tiềm năng để xây dựng một hàm ánh xạ hiệu quả nhờ vào khả năng học biểu diễn của chúng. Một số nghiên cứu hiện có đã chứng minh thực nghiệm rằng mạng nơ-ron lan truyền tiến (multi-layer perceptron (MLP)) có thể biến đổi vectơ từ Word2vec về dạng phù hợp với mô hình chủ đề ẩn. Gần đây, mạng đồ thị tích chập (graph convolutional networks (GCN)) nổi lên như một giải pháp hữu hiệu cho học biểu diễn trong đồ thị. Nhiều nghiên cứu đã chỉ ra rằng GCN có thể làm việc với nhiều ứng dụng thực tế như phân loại đỉnh trong mạng, phân loại văn bản, dịch máy, v.v. Vì thế, GCN có tiềm năng lớn để xây dựng một hàm ánh xạ hiệu quả cho đồ thị tri thức. Dựa trên các hàm ánh xạ khác nhau và quy trình học của TPS, chương này sẽ trình bày hai phương pháp để khai thác tri thức tiên nghiệm dưới dạng ma trận (vectơ từ Word2vec) và đồ thị tri thức cho mô hình học chủ đề ẩn nổi tiếng LDA. Trong khi MLP được sử dụng để biến đổi vectơ từ Word2vec về dạng phù hợp với LDA, chúng tôi xây dựng một hàm ánh xạ với GCN để bắt được quan hệ giữa các từ trong đồ thị tri thức. Trong một công việc gần đây, GCN được sử dụng để xây dựng mạng suy diễn cho việc học biểu diễn trên đồ thị đồng xuất hiện của các từ. Từ đó, nó cải thiện chất lượng suy diễn cho mô hình chủ đề. Tuy nhiên, công việc này không hướng tới khai thác tri thức tiên nghiệm. Hơn nữa, nó xem xét sử dụng GCN để cải thiện cho học biến cục bộ, còn TPS hướng tới biến toàn cục. Vì vậy, nó khác mục đích nghiên cứu trong luận án. Đặc biệt, TPS có thể cung cấp giải pháp hiệu quả cho mô hình này trong việc khai thác tri thức tiên nghiệm trong luồng dữ liệu liên tục. 2.2. Biến đổi tri thức tiên nghiệm trong môi trường luồng dữ liệu Phần này sẽ trình bày một phương pháp tổng quát (đặt tên là TPS) có thể tích hợp được tri thức nghiệm với nhiều kiểu vào trong mô hình Bayes khi làm việc trong môi trường luồng dữ liệu. Sau đó, 6
  9. chúng tôi sẽ thảo luận một số điểm mạnh của TPS so với các phương pháp trước đây. 2.2.1. Đề xuất phương pháp Chúng ta xem xét một mô hình tổng quát B(β, z, x) sử dụng để mô hình hóa cấu trúc ẩn trong tập dữ liệu x1:M với biến cục bộ zi biểu diễn đặc trưng ẩn cho mỗi điểm dữ liệu xi và biến toàn cục β (giả sử được biểu diễn bằng một ma trận K × V ) chung cho toàn bộ tập dữ liệu. Với môi trường luồng, dữ liệu đến liên tục và được thu thập vào các mini-batch D = {D1 , D2 , . . . , Dt , . . .} trong đó mỗi mini-batch t bao gồm M điểm dữ liệu Dt = {xt , xt , . . . , xt }. 1 2 M Giả thiết rằng chúng ta có sẵn một tri thức tiên nghiệm η dưới dạng ma trận có kích thước L × V . Trong thực tế, tri thức tiên nghiệm η và tham số mô hình β khác nhau về số chiều biểu diễn. Một cách tự nhiên, chúng ta có thể tạo ra một hàm ánh xạ f để biến đổi tri thức η vào trong β ở mỗi mini-batch t: β = f (η; π) trong đó π là tham số của hàm ánh xạ và phải được học trong mỗi mini-batch. Đáng chú ý, các mạng nơ-ron nhân tạo hiện đại là lựa chọn tiềm năng để xây dựng các ánh xạ có khả năng làm việc tốt trong thực tế. Như vậy, với các kiến trúc mạng mạnh mẽ sẵn có, điểm mấu chốt là chúng ta phải học tham số π của hàm ánh xạ f . Bởi vì trong luồng dữ liệu liên tục, biến toàn cục β là biến đổi. Chúng ta cần xây dựng một mô hình để bắt được tính động của β và biến đổi tính động đó vào trong tham số π của hàm ánh xạ. Xét giữa hai mini-batch liên tiếp t − 1 và t, gọi π t−1 và π t là hai tham số của hàm ánh xạ f . Chúng ta có thể đặt ra một quan hệ giữa π t−1 và π t để bắt được tính động của chúng. Chúng tôi sử dụng một cơ chế động lan truyền tri thức: π t ∼ N (π t−1 , σ 2 I) với I là ma trận đơn vị và phương sai σ 2 thể hiện sự dao động của π t xung quanh π t−1 . Trong cách này, một chuỗi của các ma trận tham số được hình thành. Vì thế, TPS khai thác tri thức tiên nghiệm η động trong mỗi mini-batch. Điểm khác biệt lớn nhất của cơ chế động lan truyền tri thức này so với mô hình đệ quy Bayes đó là phương sai được điều chỉnh linh hoạt để tránh hiện tượng nó bị suy biến về giá trị nhỏ như trong đệ quy Bayes gốc. Với biến toàn cục β t trong mỗi mini-batch, mô hình sinh của các điểm dữ liệu sẽ giống với mô hình gốc B . Khi làm việc với một chuỗi dữ liệu, nhiều cách tiếp cận thường mô hình hóa bài toán học như vấn đề ước lượng trực tiếp phân phối hậu nghiệm của chuỗi p(π 1 , π 2 , ..., π t |D1 , D2 , ..., Dt ). Chú ý rằng, ước lượng phân phối hậu nghiệm trên chuỗi thường yêu cầu dữ liệu quá khứ, vì thế nó không thực tế khi làm việc với luồng dữ liệu vô hạn ( t → ∞). Thay vì thế, chúng tôi đưa ra một cách tiếp cận hoàn toàn khác để tránh sử dụng dữ liệu quá khứ. Tại mỗi thời điểm (mini-batch), giải pháp mới này hướng tới tối ưu xác suất hậu nghiệm p(π t |π t−1 , η, Dt ) với π t−1 đã được học từ trước. Vì vậy, khi thực hiện suy diễn cho chuỗi dữ liệu, mỗi thời điểm chúng ta có kế thừa lại được thuật toán đã thiết kế cho môi trường tĩnh. Cụ thể, quá trình học trên mỗi mini-batch t được thực hiện bằng cách cực đại phân phối hậu nghiệm p(π t |π t−1 , η, Dt ) với π t−1 thu được ở mini-batch thứ t-1. Phân phối hậu nghiệm được phân tách như sau: p(π t |π t−1 , η, Dt ) ∝ p(π t , Dt |π t−1 , η) ∝ p(π t |π t−1 )p(Dt |η, π t ) ∝ p(π t |π t−1 )p(Dt |β t ) Lấy log phân phối hậu nghiệm này, chúng ta có: LP (z, π t ) = log p(π t |π t−1 , η, Dt ) = log p(π t |π t−1 ) + log p(Dt |β t ) + const. 1 t−1 (2.1) = − 2 ∥ πk − πk ∥2 + log p(Dt |f (η; π t )) + const. t 2 2σ Quá trình học được chia thành hai phần cho biến cục bộ và biến toàn cục như cách tiếp cận trước đây trong SVB, SVB-PP, PVB. Suy diễn các biến cục bộ z được kế thừa bởi thiết kế gốc cho mô hình B trong môi trường tĩnh. Trong trường hợp sử dụng suy diễn biến phân cho biến cục bộ z , chúng ta có: 1 t−1 LP = − ∥ πk − πk ∥2 + log p(Dt |f (η; π t )) + const. t 2 2σ 2 1 t−1 ≥ − 2 ∥ πk − πk ∥2 +Eq(z t ) log p(Dt |z t , f (η; π t )) − KL q(z t )||p(z t ) + const. t 2 2σ Quá trình học biến toàn cục dựa trên cực đại hàm LP đối với tham số π t . Thành phần G(β t ) = G(f (η; π t )) có chứa biến β t được trích xuất từ hàm mục tiêu tổng thể. Sau đó, hàm mục tiêu theo biến 7
  10. π t được biểu diễn cụ thể như sau: 1 t−1 LP (π t ) = − t ∥ πk − πk ∥2 +G(f (η; π t )) 2 (2.2) 2σ 2 Hàm mục tiêu này được tối ưu dựa trên các thuật toán tối ưu. 2.2.2. Một số tính chất của TPS Phần này sẽ thảo luận về cách TPS đương đầu với các thách thức cơ bản trong luồng dữ liệu. Thứ nhất, TPS đưa ra một cách tiếp cận hữu hiệu giúp mô hình Bayes có thể làm việc tốt trong môi trường luồng. Bởi vì sử dụng cơ chế lan truyền tri thức giữa các mini-batch liên tiếp và cực đại xác suất hậu nghiệm, TPS có thể dễ dàng chuyển quá trình học về bài toán tối ưu mà không gặp khó khăn trong tính toán các công thức kỳ vọng phức tạp. Vì thế, TPS có thể dễ dàng chuyển các mô tĩnh sang làm việc trong luồng dữ liệu. Thứ hai, TPS cung cấp giải pháp hiệu quả cho làm việc với dữ liệu thưa và nhiễu. TPS làm giàu các mô hình Bayes với tri thức tiên nghiệm khi mà nó có thể khai thác được nhiều nguồn tri thức tiên nghiệm, đặc biệt tri thức từ các mô hình được đào tạo trên những tập dữ liệu rất lớn. Đây rõ ràng là ưu điểm vượt trội của TPS so với các phương pháp trước đó. Thứ ba, TPS có thể làm việc tốt với luồng dữ liệu có đặc trưng biến đổi đột ngột. Điều này có thể nằm ở hai lý do chính. Đầu tiên, TPS linh hoạt trong việc lựa chọn tham số phương sai σ 2 và không bị suy biến như trong tiếp cận đệ quy Bayes truyền thống. Vì thế, nó không bị hiện tượng quá ổn định và có thể bắt được thay đổi của dữ liệu. Tiếp theo, khai thác tri thức tiên nghiệm là lý do chính để kỳ vọng TPS vượt qua được thách thức này. Tri thức tiên nghiệm mà chứa đặc trưng tổng thể như Wordnet hoặc mô hình đã được đào tạo trên tập dữ liệu rất lớn thường bao quát được rất nhiều thông tin về thế giới thực. Một ngữ cảnh mới xuất hiện trong luồng dữ liệu thì rất có thể nó cũng đã nằm trong tri thức tiên nghiệm mà chúng ta sử dụng. Ví dụ: Học mô hình LDA trên luồng dữ liệu, một chủ đề mới xuất hiện và một tập từ mới sẽ được sử dụng để mô tả chủ đề đó. Tuy nhiên, các từ này và quan hệ của chúng với các từ khác luôn nằm trong Wordnet. Khi khai thác Wordnet trong học LDA, nó sẽ giúp LDA bắt chủ đề mới dễ dàng hơn. Cuối cùng, khi sử dụng tri thức tiên nghiệm liên tục trong tất cả mini-batch, TPS có cơ hội để tránh quên trong trường hợp tri thức tiên nghiệm liên quan tới các tri thức cũ. Ngoài ra, tri thức cũ được giữ ở thành phần lan truyền thông tin giữa 2 mini-batch liên tiếp. Nên, TPS cũng có cơ chế đơn giản tránh quên. Tuy nhiên, nó không có giải pháp lan truyền trực tiếp thông tin từ mini-batch xa hơn trong quá khứ, nên đây có thể là vấn đề lớn với TPS khi đương đầu với thách thức này. Chương 4 sẽ thảo luận kỹ hơn về TPS đối mặt như thế nào với vấn đề quên nghiêm trọng. 2.3. Khai thác tri thức tiên nghiệm dưới dạng vectơ từ Phần này trình bày cách áp dụng TPS cho LDA với tri thức tiên nghiệm dạng vectơ từ Word2vec. Mô tả cho LDA và các ký hiệu được sử dụng lại trong mục cơ sở lý thuyết. Giả sử chúng ta có sẵn tri thức được biểu diễn dưới dạng ma trận L × V . Việc tích hợp tri thức này vào phân phối chủ đề được thực hiện bằng ánh xạ f với tham số π có kích thước K × L. Hàm tuyến tính được sử dụng cho giảm tính phức tạp của học hàm ánh xạ. Hơn nữa, để đảm bảo ràng buộc mỗi chủ đề là một phân phối trên các từ, đầu ra của hàm tuyến tính này sẽ được đưa vào hàm softmax để thu được các chủ đề. Quá trình sinh các văn bản ở mini-batch t được mô tả như sau: t−1 1. Sinh ma trận biến đổi: πk ∼ N (πk , σ 2 I) t 2. Tính phân phối chủ đề: t exp(πk ηj ) βkj = V (2.5) t i=1 exp(πk ηi ) 3. Với mỗi văn bản d như mô hình LDA gốc 2.4. Khai thác tri thức tiên nghiệm dưới dạng đồ thị Trong phần này, chúng tôi chỉ ra rằng TPS có thể tích hợp đồ thị tri thức vào trong LDA bằng cách sử hàm ánh xạ là mạng đồ thị tích chập GCN. Với trường hợp này, chúng tôi gọi đặt tên phương pháp là mô hình chủ đề dựa trên đồ thị tích chập (Graph Convolutional Topic Model (GCTM)). 8
  11. Giả sử chúng ta có đồ thị tri thức G = (V, E) trong đó V là tập các đỉnh và E là tập cạnh của đồ thị. Đặt A (A ∈ RV ×V ) là ma trận kề của đồ thị G và X (X ∈ RV ×M ) là ma trận biểu diễn cho các đỉnh mà mỗi hàng Xi (i ∈ {1, ..., V }) là một vectơ M -chiều biểu diễn cho đỉnh thứ i. Ví dụ, với đồ thị từ Wordnet, đỉnh tương ứng với các từ trong bộ từ điển và cạnh tương ứng với mối quan hệ giữa các từ (như đồng nghĩa hoặc trái nghĩa). Mạng đồ thị tích chập GCN đóng vai trò như hàm ánh xạ chuyển tri thức dưới dạng đồ thị về dạng biểu diễn phù hợp với tham số chủ đề trong LDA. Mạng đồ thị tích chập sử dụng L tầng để có thể bắt được quan hệ xa giữa các đỉnh trong đồ thị. Biểu diễn của các đỉnh hl ở tầng thứ l được tính thông qua các biểu diễn của các đỉnh có cạnh nối với nó và được tính cụ thể ˜ 1 ˜˜ 1 ˜ ˜ như sau: hl = f D− 2 AD− 2 (hl−1 Wl + bl ) với A = A + IV (IV là ma trận đơn vị), Dii = j Aij , ˜ ˜ Wl = {Wl , bl } là ma trận trọng số của tầng thứ l, h0 = X và hàm hoạt động f là hàm ReLU. Trong tầng cuối cùng, số chiều biểu diễn được đặt bằng K tương ứng với số chủ đề trong LDA. Vì thế, hL là một ma trận V × K và mỗi vectơ K -chiều của hLv là biểu diễn cho từ v . Quá trình trên được viết ngắn ˜ gọn thành: h = GCN (h0 , G; W ). Đối với luồng dữ liệu, cơ chế lan truyền tri thức giữa các mini-batch liên tiếp được sử dụng để giữ tri thức của mô hình đã học từ mini-batch trước cho mini-batch hiện tại. Mô hình học được ở thời điểm trước sẽ đóng vai trò nền tảng cho thời điểm hiện tại: p(β t |β t−1 , σβ ) = N (β t ; β t−1 , σβ I) 2 2 ˜ ˜ ˜ ˜ p(W t |W t−1 , σw ) = N (W t ; W t−1 , σw I) 2 2 với σβ và σw là phương sai và đóng vai trò như các tham số liên quan đến sự thay đổi của β t và W t 2 2 ˜ xung quanh β ˜ t−1 và W t−1 tương ứng. Từ đó, chúng ta có thể thu được biểu thức tính mỗi chủ đề k ˜t = sof tmax(νk β t + (1 − νk )hk ) với νk là một số để cân bằng β t−1 và hk . Như vậy, GCTM như sau: βk k k tạo ra một cơ chế tường minh hơn TPS gốc trong cân bằng giữa tri thức tiên nghiệm và tri thức học từ ˜ quá khứ. Trong quá trình huấn luyện, các tham số phải học là W và ν . Quá trình sinh của từng văn bản trong một mini-batch t được mô tả như sau: ˜ ˜ ˜ 1. Sinh W t ∼ N (W t ; W t−1 , σw I) 2 ˜ 2. Tính ht = GCN (h0 , G; W t ) 3. Sinh β t ∼ N (β t ; β t−1 , σβ I) 2 4. Tính phân phối chủ đề: ˜ β t = sof tmax(ν t β t + (1 − ν t )ht )) (2.8) 5. Với mỗi văn bản d thực hiện như mô hình LDA gốc 2.5. Thử nghiệm Phần này trình bày các thử nghiệm trên số lượng lớn các tập dữ liệu để đánh giá hiệu năng của TPS khi khai thác các kiểu tri thức tiên nghiệm khác nhau như: Vectơ từ Word2vec và đồ thị tri thức trong luồng dữ liệu liên tục. Các thử nghiệm nhắm tới xem xét khả năng làm việc của TPS với luồng dữ liệu ngắn, nhiễu và có xảy ra sự thay đổi đột ngột. Mô hình được sử dụng trong các thí nghiệm là mô hình chủ đề LDA. Phần phụ lục D sẽ trình bày kết quả với mô hình phân loại văn bản Naive Bayes (NB). Tập dữ liệu: Chúng tôi tiến hành các thử nghiệm trên 6 tập dữ liệu ngắn (NYT-title 1 , Yahoo- title2 , TMN-title3 , Irishtimes4 , Agnews-title5 , Twitter6 ) và 3 tập dữ liệu văn bản có độ dài thông thường (Grolier7 , Agnews, TMN). Các tập dữ liệu Yahoo-title và Twitter là các tập dữ liệu được thu thập từ diễn đàn và mạng xã hội, nên chúng thường chứa nhiễu. Các tập dữ liệu này được tiền xử lý thông qua các bước: Tách từ, xóa từ dừng và loại bỏ những từ xuất hiện dưới 3 văn bản để xây dựng bộ từ điển. 1 http://archive.ics.uci.edu/ml/datasets/Bag+of+Words 2 https://answers.yahoo.com/ 3 http://acube.di.unipi.it/tmn-dataset/ 4 https://www.kaggle.com/therohk/ireland-historical-news/ 5 https://course.fast.ai/datasets 6 http://twitter. com/ 7 http://cs.nyu.edu/∼roweis/data.html 9
  12. Grolier −8.0 NYT-title Yahoo-title −7.6 −8.4 −8.0 −8.8 −9.0 LPP −8.4 −9.6 −9.6 0 20 40 0 150 300 0 40 80 TMN TMN-title Irishtimes −7.2 −8.8 −7.6 −8.0 LPP −9.6 −8.0 −8.8 0 25 50 0 20 40 0 100 200 Minibatch Minibatch Minibatch SVB KPS PVB SVB-PP TPS Hình 2.4: Khả năng tổng quát hóa của phương pháp TPS khi so với các phương pháp cơ sở SVB, SVB-PP, PVB và KPS. LPP càng cao càng tốt. Các tập dữ liệu ngắn thường chỉ chứa 4-6 từ. Thử nghiệm trên chúng sẽ giúp chúng ta thấy hiệu năng của các phương pháp khi làm việc với dữ liệu ngắn. Phương pháp cơ sở: Chúng tôi sử dụng 4 phương pháp: Phương pháp suy diễn biến phân luồng (Streaming Variational Bayes (SVB)), phương pháp suy diễn biến phân luồng với tri thức tiên nghiệm dạng luỹ thừa (Streaming Variational Bayesian with Power Priors (SVB-PP)), phương pháp suy diễn biến phân Bayes quần thể (Population Variational Bayes (PVB)) và phương pháp giữ lại tri thức tiên nghiệm (Keeping prior for data streams (KPS)) để so sánh với TPS. Trừ KPS, tất cả các phương pháp SVB, PVB và SVB-PP không xem xét đến sử dụng tri thức tiên nghiệm từ bên ngoài. Chúng chỉ khởi tạo phân phối tiên nghiệm dưới dạng kinh nghiệm thông qua tham số η trong phân phối sinh chủ đề Dir(|η). Tuy nhiên, để so sánh tốt hơn cho các phương pháp này, chúng tôi hướng tới sử dụng vectơ từ Word2vec cho tất cả các phương pháp. Tuy nhiên, bởi vì chúng không có khả năng sử dụng trực tiếp Word2vec, nên chúng tôi biến đổi tri thức tiên nghiệm Word2vec về dạng phù hợp cho các phương pháp bằng phương pháp đổi chiều phân tích thành phần cơ bản PCA (Principal component analysis). Chúng tôi sử dụng PCA để biến đổi Word2vec về dạng η . Với đồ thị tri thức, nó không thích hợp khi sử dụng PCA, nên chúng tôi chỉ sử dụng tham số η như gợi ý trong các công bố trước và không sử dụng KPS trong so sánh. Độ đo đánh giá: Độ đo xác suất phán đoán (Log predictive probability (LPP)) và độ đo dựa trên thông tin tương hỗ (Normalized pointwise mutual information (NPMI)) được sử dụng để đánh giá chất lượng của mô hình LDA học được. Trong khi LPP đo tính tổng quát hóa của mô hình học được trên dữ liệu mới, NPMI kiểm tra tính gắn kết của các từ trong chủ đề học được. 2.5.1. Thử nghiệm TPS với Word2vec Tri thức tiên nghiệm: Chúng tôi sử dụng tri thức tiên nghiệm vectơ từ Word2vec cho các thử nghiệm. Word2vec8 được huấn luyện trên 6 tỷ (nguồn Wikipedia2014 và Gigaword5). Mỗi từ được biểu diễn bằng vectơ có số chiều là 200 (L = 200). Kết quả thử nghiệm: Khả năng tổng quát hóa: Hình 2.4 minh họa kết quả của các phương pháp khi đánh giá trên tập kiểm tra. Có thể dễ dàng nhận thấy TPS với tri thức tiên nghiệm Word2vec làm việc tốt hơn đáng kể so với các phương pháp còn lại. Đặc biệt, sử dụng biến đổi tri thức động, TPS giữ được sự tăng khả năng khả năng phán đoán khi càng nhiều dữ liệu đến dù rằng dữ liệu là ngắn và có nhiễu. Hơn nữa, TPS có thể thu được kết quả tốt chỉ sau một vài bước huấn luyện. Với dữ liệu thông thường, TPS cũng thu được những kết quả tốt hơn rõ ràng ngay từ những mini-batch đầu tiên. Các kết quả thử nghiệm 8 http://nlp.stanford.edu/projects/glove/ 10
  13. Grolier NYT-title Yahoo-title 0.30 0.30 0.2 NPMI 0.1 0.15 0.25 0.0 15 30 45 0 150 300 40 80 TMN TMN-title Irishtimes 0.24 0.28 0.12 NPMI 0.18 0.24 0.06 0.12 0.20 0.00 25 50 20 40 0 100 200 Minibatch Minibatch Minibatch SVB KPS PVB SVB-PP TPS Hình 2.5: Tính gắn kết chủ đề của phương pháp TPS khi so với các phương pháp cơ sở SVB, SVB-PP, PVB và KPS. NPMI càng cao càng tốt. chỉ ra rằng tri thức tiên nghiệm có thể cung cấp lượng lớn thông tin cho mô hình và TPS có thể khai thác hiệu quả, phù hợp hơn KPS. Một quan sát đáng chú ý, cả SVB, PVB và SVB-PP dường như không làm việc tốt trên dữ liệu thực sự ngắn. Hiệu năng của chúng đi xuống dù cho lượng dữ liệu mới đến ngày càng nhiều. Dữ liệu ngắn và nhiễu thường không cung cấp đủ ngữ cảnh để cho học các mô hình chủ đề. Vì thế, nó gây ra nhiều khó khăn cho các phương pháp SVB, SVB-PP, PVB và KPS. Mặc dù, KPS có thể khai thác tri thức tiên nghiệm nhưng khả năng của nó dường như bị giới hạn khi mà không có cơ chế biến đổi tri thức phù hợp. Sử dụng PCA cố định và không có cơ chế biến đổi theo luồng dữ liệu nên nó không tạo ra hiệu quả như mong muốn. Hình 2.4 minh họa rõ ràng rằng các phương pháp trước đây chịu ảnh hưởng nặng nề từ vấn đề quá khớp trên dữ liệu ngắn, trong khi đó TPS đạt được khả năng tổng quát hóa tốt hơn. Gắn kết chủ đề: Kết quả đánh giá tính gắn kết chủ đề thông qua độ đo NPMI được trình bày trong Hình 2.5. Với Word2vec, TPS có thể thu được kết quả tốt hơn với một khoảng cách lớn so với các phương pháp còn lại. Một lần nữa chúng ta thấy TPS có thể làm việc tốt với dữ liệu ngắn và nhiễu. Thông tin từ tri thức tiên nghiệm đã được đưa vào mô hình để tìm ra quan hệ giữa các từ. Điều này giúp cho LDA học được từ phương pháp TPS hình thành các chủ đề tốt hơn. 2.5.2. Thử nghiệm về GCTM với đồ thị tri thức Đồ thị tri thức: Chúng tôi khai thác các tri thức tiên nghiệm đến từ cả nguồn tri thức con người (Wordnet9 ) và tri thức trong một mô hình đã được huấn luyện sẵn trên một tập dữ liệu lớn (Word2vec10 ). Wordnet và Word2vec được sử dụng cho mục đích tạo ra hai đồ thị tri thức tương ứng. Để ngắn gọn, chúng tôi gọi GCTM là GCTM-WN khi nó khai thác đồ thị tri thức từ Wordnet và GCTM-W2V khi nó dùng đồ thị tri thức từ Word2vec. Thử nghiệm với dữ liệu ngắn và nhiễu Do thiếu thông tin về nhãn thời gian trên hầu hết các tập dữ liệu (ngoại trừ tập Irishtime), chúng tôi mô phỏng môi trường luồng theo thiết kế thử nghiệm trình bày trong các bài báo. Chúng tôi tiến hành các thử nghiệm với kịch bản này trên 6 tập dữ liệu khác nhau (TMN, TMN-title, Agnews, Agnews-title, Yahoo-title và NYT-title). Trên mỗi tập dữ liệu, chúng tôi chọn ngẫu nhiên một tập kiểm tra (bao gồm các văn bản có nhiều hơn hoặc bằng 5 từ), sau đó xáo trộn các văn bản còn lại và chia chúng thành các mini-batch với kích thước mini-batch cố định để huấn luyện. Dựa trên kích thước của mỗi tập dữ liệu, chúng tôi đặt kích thước mini-batch là 500 cho TMN, TMN-title, 1000 cho Agnews, Agnews-title và 5000 cho Yahoo-title, NYT-title. Hình 2.10 trình bày các kết quả thử nghiệm với độ đo LPP. Chúng tôi có một vài quan sát đáng chú ý từ những kết quả này. Đầu tiên, cả GCTM-WN và GCTM-W2V đều đạt kết quả vượt trội so với các phương pháp cơ sở. Việc cung cấp đồ thị tri thức từ Wordnet và Word2vec là lý do chính lý giải tại sao 9 https://Wordnet.princeton.edu/ 10 http://nlp.stanford.edu/projects/glove/ 11
  14. NYT-title Agnews-title TMN-title −8.5 −7.6 −9.0 −9.0 −8.0 LPP −10.5 −9.5 −8.4 0 150 300 0 40 80 0 20 40 Yahoo-title Agnews TMN −8.8 −8.0 −8.8 LPP −9.6 −9.6 −8.8 −10.4 0 40 80 0 40 80 0 25 50 Minibatch Minibatch Minibatch SVB SVB-PP PVB GCTM-WN GCTM-W2V Hình 2.10: Hiệu quả của các phương pháp đề xuất GCTM-WN và GCTM-W2V so với các phương pháp cơ sở SVB, SVB-PP và PVB xét theo tính tổng quát hóa khi học từ nhiều dữ liệu hơn. LPP càng cao càng tốt. Bảng 2.1: Hiệu quả của các phương pháp đề xuất GCTM-WN và GCTM-W2V so với các phương pháp cơ sở SVB, SVB-PP và PVB theo tính gắn kết chủ đề theo độ đo NPMI. Giá trị NPMI càng cao càng tốt. Dataset GCTM-WN GCTM-W2V SVB SVB-PP PVB Agnews 0.287 0.263 0.005 0.005 0.018 Agnews-title -0.026 -0.067 -0.114 -0.111 -0.107 TMN 0.079 0.073 -0.015 -0.054 -0.019 TMN-title 0.032 0.021 -0.103 -0.105 -0.090 NYT-title 0.266 0.246 -0.069 -0.065 -0.069 Yahoo-title 0.171 0.173 -0.087 -0.088 -0.076 những phương pháp dựa trên GCTM đạt được các kết quả tốt hơn so với các phương pháp cơ sở (những phương pháp không khai thác tri thức tiên nghiệm). Thứ hai, cả GCTM-WN và GCTM-W2V đều cho kết quả thấp hơn so với các phương pháp cơ sở trong khi huấn luyện một vài mini-batch đầu tiên trên tập NYT-title và Yahoo-title, trong khi chúng cần nhiều thời gian để học hơn (qua nhiều mini-batch dữ liệu hơn) để có thể bắt kịp các phương pháp cơ sở trên các tập dữ liệu còn lại. Cũng bởi việc phải học rất nhiều tham số trong mạng đồ thị tích chập, các phương pháp dựa trên GCTM cần nhiều dữ liệu để có thể học mô hình. Ngoài ra, sự khác biệt về kích thước mini-batch giữa các tập dữ liệu khiến cho GCTM-WN và GCTM-W2V cần số lượng vòng lặp khác nhau để vượt qua các phương pháp cơ sở. Thứ ba, hiệu quả của các phương pháp cơ sở chỉ tăng trong một vài vòng lặp đầu tiên, sau đó giảm dần khi huấn luyện trên các tập văn bản ngắn. Điều này có nghĩa rằng các mô hình này không có khả năng tổng quát hóa tốt với dữ liệu ngắn, thậm chí tập dữ liệu có lớn đi chăng nữa. Ngược lại, các phương pháp dựa trên GCTM với tri thức tiên nghiệm có thể làm việc tốt trên các văn bản ngắn. Cuối cùng, khi so sánh với các phương pháp cơ sở, chúng ta thấy được sự vượt trội đáng kể của các phương pháp dựa trên GCTM trong các tập dữ liệu văn bản ngắn (Agnews-title và TMN-title) hơn là trên các tập văn bản thông thường (Agnews and TMN). Điều này cung cấp một minh chứng đáng tin cậy về hiệu quả của việc khai thác tri thức tiên nghiệm cho luồng dữ liệu ngắn. Đối với NPMI, các kết quả thử nghiệm tương ứng được trình bày trong Bảng 2.1. Cả GCTM-WN và GCTM-W2V cũng vượt trội hơn rất nhiều so với các phương pháp cơ sở. Bởi vì Wordnet và Word2vec đều mã hóa thông tin của ngữ nghĩa và ngữ cảnh của từ nên giúp cho LDA học được các chủ đề có tính gắn kết. Các tập văn bản thông thường (Agnews và TMN) chứa nhiều thông tin về sự đồng xuất hiện của từ hơn là các văn bản ngắn, do đó các phương pháp nhìn chung sẽ làm việc tốt hơn trên các tập dữ liệu này. Ngoài ra, các phương pháp dựa trên GCTM cũng đạt được nhiều kết quả ấn tượng trên các tập văn bản ngắn. Các đồ thị khác nhau từ Wordnet và Word2vec cho thấy nhiều ảnh hưởng khác nhau theo từng độ đo LPP và NPMI. Dường như các đồ thị dựa trên Word2vec sẽ cải thiện LDA tốt hơn một chút so với các đồ thị dựa trên Wordnet theo LPP trên tất cả các tập dữ liệu (Hình 2.10). Tuy nhiên, GCTM-W2V cho kết quả kém hơn GCTM-WN nếu xét theo tính gắn kết của chủ đề. 12
  15. Thử nghiệm trên dòng dữ liệu với sự thay đổi đột ngột −8 −9.0 LPP −9 −10.5 −10 90 100 110 120 130 150 160 170 180 −8.8 −8 LPP −9.6 −9 −10 510 520 530 540 540 550 560 570 580 −7.5 LPP −9.0 −10.5 0 100 200 300 400 500 600 700 Minibatch SVB SVB-PP GCTM-WN PVB Hình 2.13: Hiệu quả của phương pháp đề xuất GCTM-WN so với các phương pháp cơ sở SVB, SVB-PP và PVB khi làm việc với sự thay đổi đột ngột. LPP càng cao càng tốt. Chúng tôi thiết kế một kịch bản để đánh giá các phương pháp khi làm việc với dòng dữ liệu có sự thay đổi đột ngột. Chúng tôi mô phỏng sự thay đổi trên tập dữ liệu Irishtimes, trong đó các văn bản thuộc vào 6 lớp. Chúng tôi chia tập dữ liệu thành các mini-batch với các ràng buộc sau: Các văn bản trong cùng một mini-batch sẽ có cùng nhãn lớp và các mini-batch của cùng một nhãn lớp được xếp liên tiếp nhau khi huấn luyện mô hình. Bởi sự mất cân bằng về nhãn của tập dữ liệu, kích thước mini-batch được đặt là 2000. Sau khi huấn luyện mô hình với một mini-batch, chúng tôi sử dụng mini-batch tiếp theo để đánh giá LPP. Trong kịch bản này, điểm thay đổi là khi dữ liệu chuyển từ nhãn lớp này sang nhãn lớp khác. Hình 2.13 minh hoạ kết quả của các phương pháp. Mỗi hình bao gồm 5 thành phần: 1 hình chính và 4 hình phụ (được trích ra từ hình chính và phóng to khi sự thay đổi xảy ra). Các hình chính trong cho thấy GCTM-WN và SVB-PP đạt được kết quả tốt hơn so với PVB và SVB. Nhờ có cơ chế cân bằng, cả GCTM-WN và SVB-PP đều giảm được ảnh hưởng của các tri thức quá khứ học được từ các lớp cũ, từ đó có thể làm việc tốt với các dữ liệu mới từ lớp hiện tại khi thay đổi xảy ra. Dễ nhận thấy rằng, việc sử dụng đồ thị tri thức sẽ giúp GCTM-WN trở nên vượt trội hơn SVB-PP. Hơn nữa, các hình phụ cho thấy rằng kết quả của các phương pháp sẽ suy giảm đáng kể tại thời điểm thay đổi xảy ra. Tuy nhiên, GCTM-WN tăng lên nhanh rõ ràng trong một vài mini-batch rồi sẽ ổn định. Các kết quả này thể hiện rằng GCTM-WN có thể thích nghi nhanh chóng với sự thay đổi trên dòng dữ liệu. 2.6. Kết luận chương 2 Trong chương này, chúng tôi đề xuất một phương pháp biến đổi tri thức tiên nghiệm tổng quát TPS cho học một mô hình Bayes từ luồng dữ liệu. TPS vượt qua các nhược điểm của các phương pháp hiện tại. TPS cung cấp giải pháp hiệu quả cho 2 câu hỏi: Làm thế nào có thể giúp một mô hình Bayes tổng quát làm việc được với luồng dữ liệu? và làm thế nào để có thể khai thác hiệu quả tri thức tiên nghiệm ở các dạng khác nhau (như vectơ, ma trận, đồ thị) cho mô hình Bayes trong luồng dữ liệu? Bởi vì cơ chế lan truyền tri thức giữa các thời điểm liên tiếp, TPS có thể học mô hình Bayes tổng quát riêng biệt giữa các mini-batch mà không cần phải lưu dữ liệu quá khứ. Hơn nữa, TPS có thể khai thác hiệu quả tri thức tiên nghiệm dựa trên hàm biến đổi tri thức động. Vì thế, TPS có thể khai thác trực tiếp tri thức tiên nghiệm tồn tại dưới nhiều dạng. TPS có thể dễ dàng làm việc với tri thức tiên nghiệm ở dạng ma trận như Word2vec hay TPS tạo ra được các mô hình mạnh mẽ đặc thù cho khai thác đồ thị tri thức như GCN. Nhấn mạnh rằng trong khi TPS làm việc tốt với tri thức tiên nghiệm thì các phương pháp còn lại hoặc không quan tâm và không có cơ chế khai thác hoặc sử dụng rất hạn chế tri thức dưới một dạng nhất định. Thử nghiệm chứng minh rằng TPS và GCTM làm việc tốt hơn vượt trội so với các phương pháp theo khía cạnh đương đầu với dữ liệu ngắn, nhiễu cũng như có sự biến đổi đột ngột đặc trưng thống kê trong luồng dữ liệu. Kết quả nghiên cứu của chương này đã được công bố trong 2 bài báo [P1,P3]. 13
  16. Chương 3 DROPOUT VỚI KHẢ NĂNG TỰ THÍCH NGHI CHO LUỒNG DỮ LIỆU Chương trước tập trung vào việc khai thác các tri thức tiên nghiệm để đương đầu với các thách thức: Luồng dữ liệu ngắn và nhiễu cũng như hiện tượng thay đổi đột ngột. Chương 2 hướng tới mục tiêu đề xuất một phương pháp học hiệu quả đương đầu với 2 thách thức trên mà không quan tâm đến sử dụng tri thức bên ngoài. Để đạt được mục đích này, chúng tôi tập trung vào việc giải quyết các vấn đề nghiên cứu: Liệu Dropout có thể tăng tính mềm dẻo và khái quát hóa khi sử dụng cho mô hình Bayes trên luồng dữ liệu? 3.1. Giới thiệu Trong chương này, chúng tôi đề xuất một phương pháp Dropout vô hạn có khả năng tự thích nghi (Adaptive Infinite Dropout (aiDropout)), để giúp học các mô hình Bayes từ luồng dữ liệu. aiDropout dựa trên cơ chế lan truyền tri thức giữa các mini-batch (trình bày trong chương 2) và kỹ thuật Dropout để tạo ra một giải pháp hiệu quả khi làm việc với luồng dữ liệu. aiDropout có một số điểm mạnh để vượt qua nhiều hạn chế của các phương pháp trước. Đầu tiên, aiDropout tạo ra cơ chế linh động trong việc cân bằng giữa thông tin cũ và thông tin mới trong luồng dữ liệu. Nó không gặp phải vấn đề quá tự tin như trong cách tiếp cận đệ quy Bayes truyền thống. Nó cũng không dẫn đến giải quyết các mô hình không có tính liên hợp phức tạp và không cần phải lưu các mô hình đã học ở thời điểm quá khứ. Thứ hai, chúng tôi chứng minh lý thuyết rằng aiDropout tạo ra một cơ chế hiệu chỉnh phụ thuộc data (data-dependent regularization). Vì vậy, nó giúp ràng buộc tìm kiếm tham số trên không gian thuộc tính của dữ liệu. Điều này thực sự quan trọng giúp cho aiDropout mô hình hóa sự không chắc chắn trong dữ liệu mới đến để làm việc tốt với sự thay đổi đột ngột của luồng dữ liệu hoặc đặc trưng dữ liệu thưa và nhiễu. Thứ ba, Dropout trong phương pháp aiDropout có khả năng kết hợp từ nhiều mô hình như trong học kết hợp (ensemble learning). Điều này giúp aiDropout có khả năng đưa ra dự đoán tốt hơn cho dữ liệu quan sát trong tương lai. Cuối cùng, do môi trường dữ liệu thay đổi liên tục theo thời gian, tỷ lệ loại bỏ trong Dropout cần được điều chỉnh sao cho phù hợp với dữ liệu quan sát trong luồng. aiDropout đưa ra một cơ chế có khả năng tự động điều chỉnh tỷ lệ Dropout, từ đó thu được khả năng tổng quát hóa cao và phù hợp hơn trong ứng dụng thực tế. 3.2. Dropout với khả năng tự thích nghi cho luồng dữ liệu Phần này sẽ đưa ra cách áp dụng Dropout vào các mô hình Bayes trong môi trường luồng. Sau đó, chúng tôi sẽ trình bày chiến lược tự động học tỷ lệ Dropout để thích nghi với đặc trưng dữ liệu. 3.2.1. Dropout vô hạn cho dữ liệu luồng Đầu tiên, chúng tôi đề xuất phương pháp Dropout vô hạn cho luồng dữ liệu (infinite Dropout (iDropout)). iDropout có thể làm việc với mô hình Bayes trên dòng dữ liệu vô hạn. Tuy nhiên, tỷ lệ Dropout trong iDropout vẫn phải điều chỉnh thủ công. Xét một mô hình tổng quát B(β, z, x) bao gồm các quan sát, các biến toàn cục và biến cục bộ. Biến toàn cục là ma trận β có kích thước K × V và được chia sẻ giữa các điểm dữ liệu x1:M , trong khi đó biến cục bộ zi chỉ tác động riêng tới điểm dữ liệu xi . Trong các phương pháp Bayes truyền thống, ta chỉ xem xét trên tập dữ liệu cố định để xác định phân phối hậu nghiệm p(β, z|x) của biến ẩn. Tuy nhiên, điều này là không phù hợp với môi trường dữ liệu luồng ở đó dữ liệu đến vô hạn theo một chuỗi các mini-batch D = {D1 , D2 , · · · , Dt , · · · } và mỗi mini-batch t bao gồm M điểm dữ liệu: Dt = {xt , xt , · · · , xt }. 1 2 M Ta cần mở rộng mô hình để làm việc với luồng dữ liệu. Ở đây ta giả sử biến toàn cục β thay đổi theo thời gian. Ký hiệu β tại thời điểm t là β t . Cơ chế lan truyền tri thức được biểu diễn qua phân phối p(β t |β t−1 ). Nó mô tả sự chuyển đổi giữa hai mini-batch liên tiếp: t t−1 t−1 p(βk |βk ) = N (.|βk , σ 2 I) (3.1) 14
  17. với k là chỉ số hàng của β t−1 và I là ma trận đơn vị có kích thước V . Phương sai σ 2 là một siêu tham số, mang thông tin về sự thay đổi của βk giữa hai mini-batch liên tiếp. Với Dropout, tại mỗi mini-batch t, ta ngẫu nhiên loại bỏ một số thành phần của ma trận β t . Phép toán này được thực hiện bằng cách sử dụng một ma trận Dropout ρt , ma trận này được nhân từng phần ˜ tử tương ứng với β t , sau đó đi qua phép biến đổi f : β t = f (β t ⊙ ρt ). Phép biến đổi f nên được chọn để ˜ đảm bảo rằng β t có thể thay thế β trong mô hình B(β, z, x) tại mỗi mini-batch t. Với biến toàn cục β t ˜ tại mỗi mini-batch t, quá trình sinh của mọi điểm dữ liệu giống với mô hình gốc B . Để bảo toàn tính ngẫu nhiên của Dropout, tại mỗi mini-batch ta sử dụng một ma trận Dropout khác nhau. Mỗi phần tử ρt của ρt được sinh ra theo một trong hai cách: ij 1. Từ phân phối Bernouli: p(ρt = 1) = 1 − p, p(ρt = 0) = p ij ij 2. Từ biến thể Bernoulli: p(ρt = 1/(1 − p)) = 1 − p, p(ρt = 0) = p ij ij (3.2) trong đó, p là tỷ lệ Dropout. 3.2.2. Dropout vô hạn với với khả năng tự thích nghi aiDropout Trong phần trước, ρt được lấy mẫu từ một phân phối Bernoulli cố định mà không có cơ chế học tỷ lệ Dropout. Phần này sẽ trình bày phương pháp Dropout vô hạn với khả năng tự thích nghi aiDropout (adaptive infinite Dropout). Điểm mấu chốt của aiDropout đó là cách học tỷ lệ Dropout thông qua suy diễn phân để xấp xỉ phân phối hậu nghiệm của ρt . Từ đó, aiDropout tạo ra một cơ chế học tỷ lệ Dropout tự động. Xét phân phối tiên nghiệm của ρt được chọn là Bernoulli với tham số pt . Mục tiêu là cực đại hóa xác suất hậu nghiệm p(β t |β t−1 , pt , Dt ) tại mỗi mini-batch t: ˆ β t = argmaxβ t log p(β t |β t−1 , pt , Dt ) (3.6) = argmaxβ t log p(β t |β t−1 ) + log p(Dt |pt , β t ) Để xấp xỉ phân phối hậu nghiệm của ρt , ta sử dụng phương pháp suy diễn biến phân với phân phối biến phân: q(ρt |λt ) = Bernoulli(λt ) trong đó λt là tham số biến phân. Khi đó, ta thu hàm mục tiêu như sau: ˆ ˆ ˆ {β t , λt , pt } = argmaxβ t ,λt ,pt log p(β t |β t−1 ) + Eq(ρt |λt ) log p(Dt |ρt , β t ) (3.8) −KL q(ρt |λt )||p(ρt |pt ) Tuy thành phần KL có thể tính toán được dạng tường minh, nhưng chúng ta không thể tính toán trực tiếp với kỳ vọng xác suất xảy ra (likelihood) Eq(ρt ) log p(Dt |β t , ρt ). Hơn nữa, chúng ta không thể thực hiện tối ưu hóa dựa trên tính đạo hàm thành phần kỳ vọng này theo tham số biến phân λt . May mắn rằng, gần đây các kỹ thuật đổi biến (reparameterization trick) cho phép xấp xỉ kỳ vọng dựa trên lấy mẫu đã thu được những bước phát triển đột phá và chúng giảm được hiện tượng phương sai lớn khi thực hiện quá trình lấy mẫu. Một số giải pháp cung cấp cơ chế đổi biến cho biến rời rạc tuân theo phân phối Bernoulli hoặc multinomial. Cụ thể luận án sử dụng một phương pháp thông qua việc áp dụng phân phối Gumbel-Softmax cho làm việc với biến rời rạc ρ. Kỹ thuật Gumbel-Softmax với tham số nới lỏng τ được sử dụng để lấy mẫu xấp xỉ từ phân phối rời rạc. Áp dụng với phân phối Bernoulli hai lớp, ta thu được một công thức đơn giản của ρt xấp xỉ cho ρt như sau: ˜ log(λt )+g1 exp τ ρt = ˜ log(λt )+g1 log(1−λt )+g2 (3.9) exp τ + exp τ với g1 , g2 ∼ Gumbel(0, 1)1 1 Ta có thể lấy mẫu từ phân phối Gumbel(0, 1) bằng cách ban đầu thực hiện lấy mẫu từ u ∼ U nif orm(0, 1), sau đó tính toán g = − log(− log(u)). 15
  18. Tại mỗi bước lặp, ta lấy L mẫu ({˜t }L ) của ρt và tính được Eq(ρt |λt ) log p(Dt |ρt , β t ) như sau: ρl l=1 L 1 Eq(ρt |λt ) log p(Dt |ρt , β t ) = log p(Dt |˜t , β t ) ρl L l=1 Các công việc trước đó chỉ ra rằng sử dụng kỹ thuật đổi biến (reparameterization trick) với L = 1 cũng đem lại hiệu quả tốt cả về mặt tính toán và hiệu năng. Chúng tôi sử dụng suy diễn biến phân và tìm ra được cận dưới ELBO của xác suất xảy ra. Khi đó, hàm mục tiêu được viết lại như sau: ˆ ˆ ˆ ˆ p(Dt , z t |˜t , β t ) ρ {β t , ϕt , λt , pt } = argmaxβ t ,ϕt ,λt ,pt log p(β t |β t−1 ) + Eq(z t |ϕt ) log t |ϕt ) q(z (3.11) t t t t −KL q(ρ |λ )||p(ρ |p ) 3.3. Một số thảo luận về aiDropout Trong phần này, một số khía cạnh của aiDropout sẽ được đưa ra thảo luận. Cân bằng giữa tính ổn định và tính mềm dẻo: aiDropout có cơ chế giúp cân bằng giữa tri 1 t−1 t t thức từ dữ liệu cũ và mới. Để cực đại hóa hàm mục tiêu F (βk ) = − 2σ2 ||βk − βk ||2 + log p(Dt |˜t , βk ), 2 ρk t ta xem xét cả hai thành phần của hàm này. Thành phần đầu định hướng mô hình β t dao động xung quanh mô hình đã học được ở bước trước β t−1 , trong khi đó thành phần thứ hai khuyến khích mô hình học tri thức từ dữ liệu mới Dt . Nói cách khác, aiDropout giúp mô hình linh hoạt trong việc tiếp thu thông tin mới, đồng thời duy trì các thông tin đã học được để vẫn giữ được sự ổn định. Khả năng cân bằng của aiDropout có thể dễ dàng được kiểm soát bởi phương sai σ 2 . Giá trị σ 2 càng lớn, thì mô hình càng tập trung vào việc tiếp thu tri thức mới thay vì duy trì tri thức cũ và ngược lại. Sự cân bằng này là không đổi trong suốt quá trình học. Khả năng của aiDropout đương đầu với thách thức từ luồng dữ liệu: aiDropout có thể giúp mô hình Bayes vượt qua những thách thức về dữ liệu thưa và nhiễu cũng như thay đổi đột ngột trên dòng. Thứ nhất, về mặt lý thuyết, chúng tôi đưa ra chứng minh Dropout có vai trò như phương pháp hiệu chỉnh phụ thuộc dữ liệu, điều này giúp cho aiDropout mạnh mẽ hơn trong việc giảm thiểu vấn đề quá khớp. Thứ hai, trong phương pháp này, Dropout được sử dụng trong toàn bộ luồng dữ liệu, giúp mô hình học được tương tự với phương pháp học kết hợp. Thật vậy, tại mỗi mini-batch trong quá trình huấn luyện, việc sử dụng Dropout tương đương với việc lấy mẫu mô hình học từ tập 2K×V mô hình học. Sau đó, nhân tỷ lệ lại β t với E[ρt ], 2K×V mô hình học với bộ tham số chia sẻ có thể kết hợp lại thành một mô hình duy nhất tại thời điểm suy diễn đánh giá. Đây là giải pháp mạnh mẽ để giúp Dropout làm việc được với những thay đổi từ dòng. Cuối cùng, cơ chế thích nghi của aiDropout cũng giúp cho nó có thể làm việc phù hợp với từng đặc trưng mới đến của dữ liệu. 3.4. Thử nghiệm 3.4.1. Thử nghiệm trên dữ liệu ngắn và nhiễu Thử nghiệm trên LDA Mô hình cơ sở và dữ liệu sử dụng: Trong mục này, chúng tôi sử dụng LDA làm mô hình cơ sở. Chúng tôi đánh giá các phương pháp làm việc trên dữ liệu thưa và nhiễu với 6 tập dữ liệu không có nhãn thời gian. Chúng bao gồm 2 tập dữ liệu văn bản dài (20Newsgroups 2 , Grolier 3 ) và 4 tập dữ liệu ngắn (TMN4 , TMN-title, Yahoo-title, NYT-title5 ). Độ đo đánh giá: Độ đo xác suất dự đoán LPP và thông tin tương hỗ NPMI được sử dụng để đánh giá chất lượng mô hình học được. Hình 3.2 cho thấy kết quả của các phương pháp theo 2 độ đo LPP. Kết quả thử nghiệm chỉ ra rằng hiệu năng của aiDropout và iDropout xấp xỉ nhau trên hầu hết các tập dữ liệu và chúng tốt hơn các phương pháp cơ sở với một khoảng cách lớn. Đặc biệt, nhờ vào lợi ích của Dropout, cả iDropout và aiDropout có thể giải quyết vấn đề dữ liệu thưa và nhiễu hiệu quả trên các tập dữ liệu văn bản ngắn 2 http://qwone.com/ jason/20Newsgroups/ 3 https://cs.nyu.edu/ roweis/data.html 4 http://acube.di.unipi.it/tmn-dataset/ 5 http://archive.ics.uci.edu/ml/datasets/Bag+of+Words 16
  19. 20Newsgroups Gro ier TMN Log Predictive Probabi ity −8.2 −7.50 −7.50 aiDropout −8.4 −7.75 −7.75 iDropout −8.6 −8.00 PVB −8.00 SVB-PP −8.8 SVB −8.25 −8.25 −9.0 −8.50 0 10 20 30 0 10 20 30 40 0 20 40 60 TMN-title Yahoo-title NYT-title Log Predictive Probabi ity −7.75 −7.50 −8.00 −8.00 aiDropout −7.75 −8.25 iDropout −8.50 −8.25 PVB −8.00 SVB-PP −8.75 −8.50 SVB −8.25 −8.50 −9.00 −8.75 0 20 40 0 25 50 75 100 0 100 200 300 Minibatch Minibatch Minibatch Hình 3.2: Kết quả LPP của các phương pháp đề xuất iDropout và aiDropout so với các phương pháp cơ sở SVB, SVB-PP và PVB trên các bộ dữ liệu không có nhãn thời gian. LPP càng cao càng tốt. The Irish Times News Aggregator 0.80 0.9 0.8 0.75 0.7 0.70 Accuracy 0.6 0.65 aiDropout aiDropout iDropout 0.5 iDropout 0.60 PVB PVB SVB-PP 0.4 SVB-PP SVB SVB 0 50 100 150 200 250 0 10 20 30 40 50 Minibatch Minibatch Hình 3.5: Hiệu năng của các phương pháp đề xuất iDropout và aiDropout so với các phương pháp cơ sở SVB, SVB-PP và PVB trên tập dữ liệu có nhãn thời gian. NB là mô hình cơ sở. (NYT-title, Yahoo-title, TMN và TMN-title). Ngược lại, các phương pháp khác không có những cách thức hiệu quả để giải quyết vấn đề này, nên chúng làm việc kém hiệu quả trên các tập dữ liệu ngắn. Cụ thể, kết quả LPP của các phương pháp cơ sở bị sụt giảm đáng kể và không tăng lên dù đã có thêm nhiều mini-batch dữ liệu được học hơn. Điều đó có nghĩa là các phương pháp cơ sở chịu vấn đề quá khớp trên các bộ dữ liệu ngắn và nhiễu. Tuy nhiên, trên các tập dữ liệu có độ dài thông thường (20Newsgropus và Grolier), các phương pháp cơ sở không còn gặp phải sự sụt giảm khi có nhiều dữ liệu đến hơn. Bởi vì, SVB trở nên quá ổn định một khi nhận được đủ nhiều dữ liệu. Điều này có thể giải thích tại sao kết quả của phương pháp gần như không thay đổi sau khi học xong một số lượng mini-batch trên các dữ liệu trên tập dữ liệu 20Newsgropus và Grolier. SVB-PP dường như cũng gặp vấn đề tương tự. Trong khi đó, PVB dường như làm việc tốt hơn cả SVB và SVB-PP, nó đã thu được kết quả tốt khi mini-batch mới đến. Thử nghiệm trên Naive Bayes Hình 3.5 cho thấy hiệu quả của các phương pháp trong phân loại văn bản. Cụ thể, aiDropout thu được kết quả tăng nhẹ so với iDropout. So với các phương pháp còn lại, hiệu quả của aiDropout làm tốt hơn khoảng 6 − 8% so với SVB, 3 − 4% so với SVB-PP và PVB trên Irishtime. Trên News Aggregatior, aiDropout đạt được kết quả cao hơn 5 − 6% so với SVB và SVB-PP, 1 − 2% so với PVB. Rõ ràng rằng Dropout đóng vai trò quan trọng trong việc giúp các mô hình hoạt động hiệu quả trên luồng dữ liệu. Đáng chú ý, khoảng mini-batch thứ 175 trên tập Irishtimes, tất cả các phương pháp trải qua một sự sụt giảm nghiêm trọng độ chính xác gây ra bởi sự thay đổi bất thường. Tuy nhiên, aiDropout và iDropout không bị giảm quá mạnh như các phương phác khác và có thể nhanh chóng phục hồi ngay sau đó. 3.4.2. Đương đầu với sự thay đổi đột ngột của dòng dữ liệu Phần này thử nghiệm với 2 tập dữ liệu News Aggregator và Irishtimes. Chúng tôi chia dữ liệu trên mỗi tập vào các mini-batch và mỗi mini-batch bao gồm 2000 văn bản thuộc cùng một lớp. Khi huấn luyện, các mini-batch thuộc cùng một lớp được đặt kề nhau. Từ đó, thay đổi đột ngột xảy ra ở mini- batch chuyển giao giữa các lớp. Mỗi khi học xong một mini-batch, mô hình được đánh giá với độ đo LPP trên mini-batch tiếp theo. 17
  20. The Irish Times −7.8 Log Predictive Probability −8.4 −9.0 aiDropout iDropout PVB −9.6 SVB-PP SVB 0 100 200 300 400 500 600 700 Minibatch News Aggregator −8.0 Log Predictive Probability −8.5 −9.0 aiDropout −9.5 iDropout PVB SVB-PP −10.0 SVB 0 50 100 150 200 Minibatch Hình 3.7: Hiệu năng của các phương pháp đề xuất iDropout và aiDropout so với các phương pháp cơ sở SVB, SVB-PP và PVB khi đối mặt với sự thay đổi đột ngột từ dòng dữ liệu. LDA là mô hình cơ sở. LPP càng cao càng tốt. Kết quả thử nghiệm: Kết quả được minh họa trên Hình 3.7. Rõ ràng tại thời điểm xảy ra thay đổi, các phương pháp đều giảm hiệu năng ngay lập tức, sau đó sẽ từ từ tăng lên khi dữ liệu mới với cùng đặc trưng đến. Tuy nhiên, SVB phục hồi rất chậm và cho thấy hiệu quả kém khi đối mặt với hiện tượng thay đổi đột ngột. Mặt khác, SVB-PP và PVB dường như thích nghi tốt hơn với hiện tượng này. Bởi vì, SVB-PP và PVB đều có hệ số cho phép quên tri thức cũ và giúp học thông tin từ dữ liệu mới tốt hơn. Trong khi đó, iDropout đạt được kết quả tốt hơn so với các phương pháp khác. iDropout có khả năng giảm thiểu hiện tượng học quá khớp và tăng tính tổng quát hóa, vì thế các tính chất này giúp lý giải cho quan sát trên. Cuối cùng, aiDropout thu được kết quả hoàn toàn vượt trội so với các phương pháp khác. Nhờ vào cơ chế tự động học tỷ lệ Dropout, giúp aiDropout thích ứng nhanh hơn với các thay đổi từ dòng dữ liệu. 3.5. Kết luận chương 3 Trong chương này, chúng tôi hướng tới một phương pháp mạnh mẽ có thể làm việc với một lớp rộng lớn các mô hình Bayes trên luồng dữ liệu. Chúng tôi hướng tới hai thách thức: Làm việc với luồng dữ liệu thưa, nhiễu cũng như có sự biến đổi đặc trưng thống kê đột ngột. Chúng tôi trả lời câu hỏi nghiên cứu: Liệu Dropout có thể cải thiện tính tổng quát hóa của mô hình Bayes để đương đầu với các thách thức đến từ luồng dữ liệu? Chúng tôi đã đề xuất phương pháp Dropout vô hạn với cơ chế thích nghi aiDropout cho luồng dữ liệu. aiDropout dựa trên cơ chế lan truyền tri thức giữa các mini-batch liên tiếp và cơ chế Dropout tự thích nghi. Cơ chế lan truyền tri thức tạo ra một cơ chế đơn giản nhưng hiệu quả để cân bằng giữa tri thức cũ và tri thức mới. Mặc dù cơ chế làm việc đơn giản, nhưng nó giúp tránh hiện tượng quá ổn định của cách tiếp cận đệ quy Bayes truyền thống để có thể học nhanh tri thức mới. Trong khi đó, Dropout tạo ra cơ chế hiệu chỉnh phụ thuộc dữ liệu và cơ chế học kết hợp để có thể làm việc với dữ liệu nhiễu, thưa cũng như sự thay đổi đột ngột của luồng. Kết quả thử nghiệm chỉ ra rằng aiDropout có thể tránh được hiện tượng quá khớp và làm việc tốt với sự thay đổi đột ngột. Kết quả nghiên cứu của chương này đã được công bố trong 2 bài báo [P2,P4]. 18
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2