Một cách giải bài toán suy diễn hậu nghiệm trong mô hình chủ đề
lượt xem 2
download
Bài viết Một cách giải bài toán suy diễn hậu nghiệm trong mô hình chủ đề trình bày bài toán suy diễn hậu nghiệm này thường đưa về một bài toán tối ưu không lồi thuộc lớp bài toán NP-Hard. Để giải bài toán suy diễn hậu nghiệm trong mô hình chủ đề, có nhiều phương pháp đã được đề xuất như: Phương pháp biến phân Variational Bayes (VB), collapsed variational Bayes (CVB) hay phương pháp collapsed Gibbs sampling (CGS).
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Một cách giải bài toán suy diễn hậu nghiệm trong mô hình chủ đề
- Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 MỘT CÁCH GIẢI BÀI TOÁN SUY DIỄN HẬU NGHIỆM TRONG MÔ HÌNH CHỦ ĐỀ Bùi Thị Thanh Xuân Trường Đại học Thủy lợi, email: xuanbtt@tlu.edu.vn 1. GIỚI THIỆU trong tập các văn bản. Mỗi văn bản là sự trộn lẫn của các chủ đề ẩn trong đó mỗi chủ đề là Mô hình chủ đề đã và đang rất phổ biến và một phân phối của tất cả các từ trong tập từ có ứng dụng trong lĩnh vực khai phá dữ liệu điển. Mỗi văn bản trong tập corpus được xem văn bản. Khi làm việc với mô hình chủ đề, như một túi các từ, các từ sinh ra là tổ hợp việc giải hiệu quả bài toán suy diễn hậu của các chủ đề mà tác giả muốn viết. Mỗi chủ nghiệm cho mỗi văn bản đóng vai trò quan đề là phân phối của các từ trong tập từ điển. trọng. Tuy nhiên, bài toán suy diễn hậu Mô hình sinh được mô tả như sau: nghiệm này thường đưa về một bài toán tối Với mỗi topic trong tập {1, 2…K}, lấy ưu không lồi thuộc lớp bài toán NP-Hard [6]. Để giải bài toán suy diễn hậu nghiệm trong mẫu k~Dir(. mô hình chủ đề, có nhiều phương pháp đã Sinh văn bản có độ dài : được đề xuất như: phương pháp biến phân - Lấy mẫu ~Dir( Variational Bayes (VB)[1], collapsed - Với mỗi từ wn trong N từ: variational Bayes (CVB)[3] hay phương pháp + Chọn topic zn~Multinomial( collapsed Gibbs sampling (CGS) [4],... Tuy + Chọn từ wn với xác suất p(wn| β zn ) nhiên, theo tìm hiểu của tác giả, các phương Trong [5], khi làm việc với mô hình LDA, pháp này thường không đảm bảo về chất các tác giả đưa ra bài toán suy diễn cho văn lượng mô hình cũng như tốc độ hội tụ của bản d là: thuật toán. Chúng tôi tiếp cận giải bài toán * argmaxθΔK f(θ) suy diễn hậu nghiệm dưới cách nhìn của tối ưu không lồi. Sử dụng các biên ngẫu nhiên và với K K phân phối xác suất Bernoulli, chúng tôi đề f(θ) = d j log k kj ( 1 ) log k xuất thuật toán GOP giải hiệu quả bài toán j k 1 k 1 suy diễn hậu nghiệm với mô hình chủ đề, từ Đặt: đó phát triển thuật toán học ngẫu nhiên mô K g1( ) = d j log k kj , hình chủ đề từ bộ sưu tập văn bản lớn. Chúng j k 1 tôi tiến hành thử nghiệm trên hai bộ dữ liệu K g 2 ( ) = ( - 1) logk . lớn là New York Times và Pubmed với ngôn k 1 ngữ lập trình Python. Thông qua các kết quả Như vậy: f(g1 g2 thực nghiệm cho thấy cách tiếp cận của Trong LDA, với dữ liệu thực tế thì tham chúng tôi thường hiệu quả hơn các phương số < 1 nên g1 là hàm lõm, g2 là hàm lồi, pháp trước đó. nên f( có dạng hàm không lồi DC (Difference of Convex Functions). Do đó bài 2. NỘI DUNG NGHIÊN CỨU toán tìm cực trị của f( là bài toán NP-khó Trong mô hình chủ đề ẩn LDA [1], tác giả [6], không có các thuật toán lặp xác định giải Blei đưa ra giả thuyết về cấu trúc ẩn chứa quyết hiệu quả bài toán tối ưu cho f(. Do đó 125
- Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 ý tưởng của phương pháp giải xấp xỉ ngẫu Tương tự như xây dựng dãy hàm chuỗi nhiên được đưa vào sử dụng để giải bài toán Ft sử dụng phân phối Becnoulli để thay suy diễn hậu nghiệm. đổi trọng số đóng góp của hai thành phần Tác giả trong [5] đã đề xuất thuật toán OPE g1 và g2 thông qua tham số xác suất p, để giải bài toán suy diễn véc tơ tỉ lệ chủ đề d chúng tôi tiến hành xây dựng hai dãy hàm cho từng văn bản d, sau đó OPE được sử dụng ngẫu nhiên Lt bắt đầu từ g1 xuất phát trong Online-OPE học mô hình LDA. từ bên dưới, dãy Ut bắt đầu từ g1 xuất Tại mỗi bước lặp t, thuật toán OPE chọn phát từ bên trên của hàm f và cùng hội tụ theo ngẫu nghiên g1 hoặc g2 với xác suất xác suất về f. bằng nhau, và tính trung bình các đại lượng Với việc xây dựng hai chuỗi hàm ngẫu đã chọn được tạo thành chuỗi Ft và Ft nhiên Ut Lt bằng phân phối Bernoulli Ft f khi t . Tại mỗi bước lặp t, đảm bảo Ut Lt hội tụ về f khi t OPE cập nhật t+1 theo t . Khi t thì với xác suất hầu chắc chắn. t với là một điểm dừng (hoặc nghiệm cục bộ) của f Thuật toán 1. Thuật toán GOP giải bài toán suy diễn hậu nghiệm với mô hình chủ đề Đầu vào: Văn bản d, tham số Bernoulli p (0,1) và tham số mô hình {, } Hình 1. Hai biên ngẫu nhiên Ut Lt Đầu ra: là nghiệm cực đại hóa của hàm của hàm mục tiêu f f= g1g2 Với ý tưởng đó chúng tôi đưa ra cải tiến Khởi tạo 1 thuộc thuật toán GOP giải bài toán suy diễn hậu f1u : g1( ); f11 : g 2 ( ) nghiệm với LDA. Chi tiết thuật toán được For t = 2,3… do chúng tôi mô tả trong Thuật toán 1. Lấy ft u có phân phối Bernoulli trong đó 3. THỬ NGHIỆM P( ft u g1 ) p,P( ft u g 2 ) 1 p Để chứng minh hiệu quả của thuật toán đề 1 U t : ht 1 f hu xuất, chúng tôi tiến hành thực nghiệm trên t hai bộ dữ liệu văn bản dài là New York u e t arg max xK Ut (t ).x Times (NYT) bao gồm 300000 bài tin tức eu t của thời báo NYT và bộ PubMed bao gồm ut 1 : t t t 330000 bài viết lên quan về sức khỏe từ l Lấy f t có phân phối Bernoulli trong đó PubbMed Central1. Tham số của mô hình: P(f tl g1 ) p, P(f tl g 2 ) 1 p 1 1 f K 100 , , , số lần lặp K K 1 t L t : f hl T = 50, 0,9 , 1. Chúng tôi đã sử dụng t h 1 l độ đo Log Predictive Probability (LPP) [2] và e t arg max xK Lt (t ).x Normalized Pointwise Mutual Information elt t (NPMI) [7] để đánh giá các phương pháp lt 1 : t t học. Thay thế thuật toán OPE trong thuật Lấy t+1 có phân phối đều từ {lt 1 , lt 1} toán Online-OPE [6] bằng thuật toán GOP, end for 1 Hai bộ dữ liệu này được lấy từ nguồn http://archive.ics.uci.edu/ml/datasets 126
- Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 chúng tôi thu được Online-GOP để học mô 4. KẾT LUẬN hình LDA. Kết quả mô phỏng được thể hiện Sử dụng ngẫu nhiên để tạo ra các thuật trong Hình 2, Hình 3 và Hình 4 với các tham toán hiệu quả giải bài toán tối ưu không lồi, số p lựa chọn thích hợp. đáp ứng yêu cầu về chất lượng và tốc độ hội tụ, bài báo đề xuất GOP sử dụng phân phối Bernoulli với tham số p thích hợp là một thuật toán tối ưu tốt cho bài toán suy diễn hậu nghiệm. Kết quả thử nghiệm cho thấy các thuật toán đề xuất là hiệu quả so với các kết quả đã có. Hình 2. Độ đo LPP and NPMI của mô hình học bằng Online-GOP với tham số 5. TÀI LIỆU THAM KHẢO Bernoulli p {0,3…, 0,7} và kích thước [1] D. M. Blei, A. Y. Ng, and M. I. Jordan, mini-batch |Ct| = 25,000. Độ đo càng cao 2003, Latent Dirichlet Allocation, Journal thì chất lượng mô hình càng tốt of machine Learning research, vol. 3, no. Jan, pp. 993-1022. Thông qua kết quả thử nghiệm, tham số p [2] M. Hoffman, D. M. Blei, and D. M. Mimno, lựa chọn thích hợp ta thấy thuật toán GOP 2012, Sparse stochastic inference for Latent hiệu quả hơn OPE đã được đánh giá tốt hơn Dirichlet Allocation, Proceedings of the các thuật toán khác hiện có [5]. Đặc biệt khi 29th International Conference on Machine lựa chọn tham số Becnoulli p phù hợp thì Learning, ACM, pp. 1599-1606. GOP tốt hơn OPE trên cả hai độ đo LPP và [3] Y. W. Teh, D. Newman, and M. Welling, NPMI với hai bộ dữ liệu New York Time 2007, A Collapsed Variational Bayesian và Pubmed. inference algorithm for Latent Dirichlet Allocation, Advances in neural information processing systems, pp. 1353-1360. [4] T. L. Griffiths and M. Steyvers, 2004, Finding scientific topics, Proceedings of the National academy of Sciences, vol. 101, pp. 5228–5235. [5] T. Khoat and D. Tung, 2015, Guaranteed inference in topic models,” arXiv preprint Hình 3. Độ đo LPP and NPMI của mô hình arXiv:1512.03308. học bằng Online-GOP với tham số Bernoulli [6] D. Sontag and D. Roy, 2011, Complexity of p {0,1…, 0,9} và kích thước mini-batch inference in Latent Dirichlet Allocation, |Ct| = 5,000. Độ đo càng cao thì chất lượng Neural Information Processing System mô hình càng tốt (NIPS). [7] J. H. Lau, D. Newman, and T. Baldwin, 2014, Machine reading tea leaves: Automatically evaluating topic coherence and topic model quality, Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics, pp. 530–539. Hình 4. So sánh độ đo LPP và NPMI của mô hình học bởi các phương pháp khác nhau. Online-GOP thường tốt hơn các phương pháp đối sánh 127
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Lý thuyết hàm suy rộng và không gian Sobolev
0 p | 336 | 73
-
Bài giảng Xác suất thống kê - Nguyễn Thị Thu Thủy
50 p | 166 | 21
-
Giáo án học phần: Toán cao cấp
36 p | 64 | 7
-
Bài giảng môn Xác suất thống kê - Nguyễn Thị Thu Thủy
146 p | 68 | 6
-
Đề cương học phần Lý thuyết xác suất và Thống kê toán
9 p | 114 | 5
-
Đề cương chi tiết học phần: Toán cao cấp 1
7 p | 76 | 4
-
Một nghiên cứu tiếp cận dạy học theo quan điểm hoạt động vào dạy học giải bài tập (Chủ đề khoảng cách từ một điểm đến mặt phẳng, hình học lớp 11)
9 p | 59 | 4
-
Một số suy nghĩ về tiếp cận bài toán Địa kỹ thuật theo phương pháp và công nghệ hiện đại và hệ quả của nó
17 p | 34 | 3
-
Đề thi kết thúc học phần Toán giải tích năm 2021 - Đề số 2 (09/01/2021)
1 p | 17 | 3
-
Đề thi kết thúc học phần Toán cao cấp năm 2018 - Đề số 4 (23/12/2018)
1 p | 6 | 3
-
Vài Suy nghĩ về một bài toán tối ưu trong ℝ2
5 p | 47 | 3
-
Sự hội tụ địa phương của một kiểu phương pháp Newton gần đúng sử dụng mô hình tối ưu trong bài toán con
8 p | 32 | 2
-
Rèn luyện tư duy thuật toán cho trẻ mầm non
5 p | 36 | 2
-
Một số suy nghĩ về tiếp cận các bài toán Địa kỹ thuật theo phương pháp và công nghệ hiện đại và hệ quả của nó
18 p | 57 | 2
-
Một số vấn đề về sai số và nội suy
6 p | 59 | 2
-
Sử dụng các tính chất của hàm Beta để tính một số tích phân suy rộng
4 p | 16 | 2
-
Thiết kế tình huống dạy học theo hướng phát triển năng lực toán học cho học sinh lớp 6
4 p | 8 | 1
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn