intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Một cách giải bài toán suy diễn hậu nghiệm trong mô hình chủ đề

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:3

20
lượt xem
2
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết Một cách giải bài toán suy diễn hậu nghiệm trong mô hình chủ đề trình bày bài toán suy diễn hậu nghiệm này thường đưa về một bài toán tối ưu không lồi thuộc lớp bài toán NP-Hard. Để giải bài toán suy diễn hậu nghiệm trong mô hình chủ đề, có nhiều phương pháp đã được đề xuất như: Phương pháp biến phân Variational Bayes (VB), collapsed variational Bayes (CVB) hay phương pháp collapsed Gibbs sampling (CGS).

Chủ đề:
Lưu

Nội dung Text: Một cách giải bài toán suy diễn hậu nghiệm trong mô hình chủ đề

  1. Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 MỘT CÁCH GIẢI BÀI TOÁN SUY DIỄN HẬU NGHIỆM TRONG MÔ HÌNH CHỦ ĐỀ Bùi Thị Thanh Xuân Trường Đại học Thủy lợi, email: xuanbtt@tlu.edu.vn 1. GIỚI THIỆU trong tập các văn bản. Mỗi văn bản là sự trộn lẫn của các chủ đề ẩn trong đó mỗi chủ đề là Mô hình chủ đề đã và đang rất phổ biến và một phân phối của tất cả các từ trong tập từ có ứng dụng trong lĩnh vực khai phá dữ liệu điển. Mỗi văn bản trong tập corpus được xem văn bản. Khi làm việc với mô hình chủ đề, như một túi các từ, các từ sinh ra là tổ hợp việc giải hiệu quả bài toán suy diễn hậu của các chủ đề mà tác giả muốn viết. Mỗi chủ nghiệm cho mỗi văn bản đóng vai trò quan đề là phân phối của các từ trong tập từ điển. trọng. Tuy nhiên, bài toán suy diễn hậu Mô hình sinh được mô tả như sau: nghiệm này thường đưa về một bài toán tối Với mỗi topic trong tập {1, 2…K}, lấy ưu không lồi thuộc lớp bài toán NP-Hard [6]. Để giải bài toán suy diễn hậu nghiệm trong mẫu k~Dir(. mô hình chủ đề, có nhiều phương pháp đã Sinh văn bản có độ dài : được đề xuất như: phương pháp biến phân - Lấy mẫu  ~Dir( Variational Bayes (VB)[1], collapsed - Với mỗi từ wn trong N từ: variational Bayes (CVB)[3] hay phương pháp + Chọn topic zn~Multinomial( collapsed Gibbs sampling (CGS) [4],... Tuy + Chọn từ wn với xác suất p(wn| β zn )  nhiên, theo tìm hiểu của tác giả, các phương Trong [5], khi làm việc với mô hình LDA, pháp này thường không đảm bảo về chất các tác giả đưa ra bài toán suy diễn cho văn lượng mô hình cũng như tốc độ hội tụ của bản d là: thuật toán. Chúng tôi tiếp cận giải bài toán  *  argmaxθΔK f(θ) suy diễn hậu nghiệm dưới cách nhìn của tối ưu không lồi. Sử dụng các biên ngẫu nhiên và với K K phân phối xác suất Bernoulli, chúng tôi đề f(θ) =  d j log  k kj  (   1 )  log k xuất thuật toán GOP giải hiệu quả bài toán j k 1 k 1 suy diễn hậu nghiệm với mô hình chủ đề, từ Đặt: đó phát triển thuật toán học ngẫu nhiên mô K g1(  ) =  d j log  k kj , hình chủ đề từ bộ sưu tập văn bản lớn. Chúng j k 1 tôi tiến hành thử nghiệm trên hai bộ dữ liệu K g 2 (  ) = (  - 1)  logk . lớn là New York Times và Pubmed với ngôn k 1 ngữ lập trình Python. Thông qua các kết quả Như vậy: f(g1 g2 thực nghiệm cho thấy cách tiếp cận của Trong LDA, với dữ liệu thực tế thì tham chúng tôi thường hiệu quả hơn các phương số  < 1 nên g1 là hàm lõm, g2 là hàm lồi, pháp trước đó. nên f( có dạng hàm không lồi DC (Difference of Convex Functions). Do đó bài 2. NỘI DUNG NGHIÊN CỨU toán tìm cực trị của f( là bài toán NP-khó Trong mô hình chủ đề ẩn LDA [1], tác giả [6], không có các thuật toán lặp xác định giải Blei đưa ra giả thuyết về cấu trúc ẩn chứa quyết hiệu quả bài toán tối ưu cho f(. Do đó 125
  2. Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 ý tưởng của phương pháp giải xấp xỉ ngẫu Tương tự như xây dựng dãy hàm chuỗi nhiên được đưa vào sử dụng để giải bài toán Ft sử dụng phân phối Becnoulli để thay suy diễn hậu nghiệm. đổi trọng số đóng góp của hai thành phần Tác giả trong [5] đã đề xuất thuật toán OPE g1 và g2 thông qua tham số xác suất p, để giải bài toán suy diễn véc tơ tỉ lệ chủ đề d chúng tôi tiến hành xây dựng hai dãy hàm cho từng văn bản d, sau đó OPE được sử dụng ngẫu nhiên Lt bắt đầu từ g1 xuất phát trong Online-OPE học mô hình LDA. từ bên dưới, dãy Ut bắt đầu từ g1 xuất Tại mỗi bước lặp t, thuật toán OPE chọn phát từ bên trên của hàm f và cùng hội tụ theo ngẫu nghiên g1 hoặc g2 với xác suất xác suất về f. bằng nhau, và tính trung bình các đại lượng Với việc xây dựng hai chuỗi hàm ngẫu đã chọn được tạo thành chuỗi Ft và Ft nhiên Ut Lt bằng phân phối Bernoulli Ft  f khi t  . Tại mỗi bước lặp t, đảm bảo Ut Lt hội tụ về f khi t   OPE cập nhật t+1 theo t . Khi t   thì  với xác suất hầu chắc chắn. t   với là một điểm dừng (hoặc nghiệm cục bộ) của f Thuật toán 1. Thuật toán GOP giải bài toán suy diễn hậu nghiệm với mô hình chủ đề Đầu vào: Văn bản d, tham số Bernoulli p (0,1) và tham số mô hình {, } Hình 1. Hai biên ngẫu nhiên Ut Lt Đầu ra:  là nghiệm cực đại hóa của hàm của hàm mục tiêu f f= g1g2 Với ý tưởng đó chúng tôi đưa ra cải tiến Khởi tạo 1 thuộc  thuật toán GOP giải bài toán suy diễn hậu f1u : g1(  ); f11 : g 2 (  ) nghiệm với LDA. Chi tiết thuật toán được For t = 2,3…  do chúng tôi mô tả trong Thuật toán 1. Lấy ft u có phân phối Bernoulli trong đó 3. THỬ NGHIỆM P( ft u  g1 )  p,P( ft u  g 2 )  1  p Để chứng minh hiệu quả của thuật toán đề 1 U t :  ht 1 f hu xuất, chúng tôi tiến hành thực nghiệm trên t hai bộ dữ liệu văn bản dài là New York u e t  arg max xK  Ut (t ).x  Times (NYT) bao gồm 300000 bài tin tức eu  t của thời báo NYT và bộ PubMed bao gồm ut 1 : t  t t 330000 bài viết lên quan về sức khỏe từ l Lấy f t có phân phối Bernoulli trong đó PubbMed Central1. Tham số của mô hình: P(f tl  g1 )  p, P(f tl  g 2 )  1  p 1 1 f K  100 ,   ,   , số lần lặp K K 1 t L t :  f hl T = 50,   0,9 ,   1. Chúng tôi đã sử dụng t h 1 l độ đo Log Predictive Probability (LPP) [2] và e t  arg max xK  Lt (t ).x  Normalized Pointwise Mutual Information elt  t (NPMI) [7] để đánh giá các phương pháp lt 1 : t  t học. Thay thế thuật toán OPE trong thuật Lấy t+1 có phân phối đều từ {lt 1 , lt 1} toán Online-OPE [6] bằng thuật toán GOP, end for 1 Hai bộ dữ liệu này được lấy từ nguồn http://archive.ics.uci.edu/ml/datasets 126
  3. Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 chúng tôi thu được Online-GOP để học mô 4. KẾT LUẬN hình LDA. Kết quả mô phỏng được thể hiện Sử dụng ngẫu nhiên để tạo ra các thuật trong Hình 2, Hình 3 và Hình 4 với các tham toán hiệu quả giải bài toán tối ưu không lồi, số p lựa chọn thích hợp. đáp ứng yêu cầu về chất lượng và tốc độ hội tụ, bài báo đề xuất GOP sử dụng phân phối Bernoulli với tham số p thích hợp là một thuật toán tối ưu tốt cho bài toán suy diễn hậu nghiệm. Kết quả thử nghiệm cho thấy các thuật toán đề xuất là hiệu quả so với các kết quả đã có. Hình 2. Độ đo LPP and NPMI của mô hình học bằng Online-GOP với tham số 5. TÀI LIỆU THAM KHẢO Bernoulli p  {0,3…, 0,7} và kích thước [1] D. M. Blei, A. Y. Ng, and M. I. Jordan, mini-batch |Ct| = 25,000. Độ đo càng cao 2003, Latent Dirichlet Allocation, Journal thì chất lượng mô hình càng tốt of machine Learning research, vol. 3, no. Jan, pp. 993-1022. Thông qua kết quả thử nghiệm, tham số p [2] M. Hoffman, D. M. Blei, and D. M. Mimno, lựa chọn thích hợp ta thấy thuật toán GOP 2012, Sparse stochastic inference for Latent hiệu quả hơn OPE đã được đánh giá tốt hơn Dirichlet Allocation, Proceedings of the các thuật toán khác hiện có [5]. Đặc biệt khi 29th International Conference on Machine lựa chọn tham số Becnoulli p phù hợp thì Learning, ACM, pp. 1599-1606. GOP tốt hơn OPE trên cả hai độ đo LPP và [3] Y. W. Teh, D. Newman, and M. Welling, NPMI với hai bộ dữ liệu New York Time 2007, A Collapsed Variational Bayesian và Pubmed. inference algorithm for Latent Dirichlet Allocation, Advances in neural information processing systems, pp. 1353-1360. [4] T. L. Griffiths and M. Steyvers, 2004, Finding scientific topics, Proceedings of the National academy of Sciences, vol. 101, pp. 5228–5235. [5] T. Khoat and D. Tung, 2015, Guaranteed inference in topic models,” arXiv preprint Hình 3. Độ đo LPP and NPMI của mô hình arXiv:1512.03308. học bằng Online-GOP với tham số Bernoulli [6] D. Sontag and D. Roy, 2011, Complexity of p  {0,1…, 0,9} và kích thước mini-batch inference in Latent Dirichlet Allocation, |Ct| = 5,000. Độ đo càng cao thì chất lượng Neural Information Processing System mô hình càng tốt (NIPS). [7] J. H. Lau, D. Newman, and T. Baldwin, 2014, Machine reading tea leaves: Automatically evaluating topic coherence and topic model quality, Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics, pp. 530–539. Hình 4. So sánh độ đo LPP và NPMI của mô hình học bởi các phương pháp khác nhau. Online-GOP thường tốt hơn các phương pháp đối sánh 127
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2