YOMEDIA
ADSENSE
Phân cụm nửa giám sát dựa trên đồ thị
24
lượt xem 3
download
lượt xem 3
download
Download
Vui lòng tải xuống để xem tài liệu đầy đủ
Trong bài báo này, chúng tôi mở rộng một thuật toán phân cụm nửa giám sát sử dụng các seed bằng cách thêm vào một kĩ thuật học tích cực (active learning) để thu thập các ràng buộc từ người sử dụng. Mời các bạn cùng tham khảo nội dung chi tiết.
AMBIENT/
Chủ đề:
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Phân cụm nửa giám sát dựa trên đồ thị
- JOURNAL OF SCIENCE OF HNUE FIT., 2013, Vol. 58, pp. 60-69 This paper is available online at http://stdb.hnue.edu.vn PHÂN CỤM NỬA GIÁM SÁT DỰA TRÊN ĐỒ THỊ Vũ Việt Vũ1, Vũ Việt Thắng2, Nicolas Labroche3, Bernadette Bouchon Meunier3, Nguyễn Thị Thu Hiền4 1 Khoa Điện tử, Trường ĐH Kĩ thuật Công nghiệp, ĐH Thái Nguyên; 2 Khoa CNTT, Trường ĐH Công nghiệp Hà Nội; 3 LIP6, ĐH Pierre và Marie Curie 75005, Paris, Cộng hòa Pháp; 4 Khoa Toán, Trường ĐH Sư Phạm, ĐH Thái Nguyên 1 Email: vuvietvu@gmail.com Tóm tắt. Thuật toán phân cụm nửa giám sát sử dụng một số lượng ít các dữ liệu đã gán nhãn (seeds) hoặc một số ràng buộc (must-link hoặc can-not link) giữa các dữ liệu nhằm mục đích cải tiến chất lượng của bài toán phân cụm. Trong bài báo này, chúng tôi mở rộng một thuật toán phân cụm nửa giám sát sử dụng các seed bằng cách thêm vào một kĩ thuật học tích cực (active learning) để thu thập các ràng buộc từ người sử dụng. Theo chúng tôi biết đây là thuật toán đầu tiên trên thế giới sử dụng đồng thời cả hai loại seed và constraint vào trong cùng một quá trình phân cụm. Kết quả thực nghiệm cho thấy thuật toán của chúng tôi cải tiến đáng kể chất lượng của quá trình phân cụm trên các tập dự liệu thực. Từ khóa: Thuật toán, phân cụm nửa giám sát, đồ thị. 1. Mở đầu Bài toán phân cụm (clustering) là một dạng của phương pháp học không giám sát (unsupervised learning) được phát biểu như sau: cho tập X gồm n đối tượng, hãy phân rã tập X ra thành k (k ≤ n) cụm (cluster) sao cho các đối tượng trong cùng một cụm thì tương tự nhau và các đối tượng ở các cụm khác nhau thì không tương tự nhau theo một tiêu chuẩn nào đó. Mặc dù những thuật toán đầu tiên đưa ra giải quyết vấn đề này như K-Means, Hierarchical Clustering hay Graph-based Clustering đã xuất hiện vào những năm 60 của thế kỉ trước, tuy nhiên với sự bùng nổ thông tin như vũ bão, rất nhiều nguồn dữ liệu khổng lồ xuất hiện (tổng số dữ liệu được số hóa từ nhiều nguồn khác nhau trên thế giới năm 2011 sẽ khoảng 2810 exabyte [9]) ở các lĩnh vực khác nhau đòi hỏi chúng ta phải có các thuật toán phân cụm dữ liệu hiệu quả để đáp ứng được các yêu cầu đặt ra cả về tốc độ lẫn chất lượng. Hiện nay bài toán phân cụm là một chủ đề quan trọng trong các hội thảo và các tạp chí hàng đầu quốc tế như ICDM, ICML, KDD, ECAI, PAMI, Pattern Recognition, Machine learning,... 60
- Phân cụm nửa giám sát dựa trên đồ thị Một trong những hướng nghiên cứu quan trọng trong các năm gần đây là phát triển các phương pháp phân cụm nửa giám sát (semi-supervised clustering). Các thuật toán phân cụm nửa giám sát sẽ sử dụng các thông tin có được từ người sử dụng (side information) nhằm mục đích trợ giúp trong quá trình phân cụm và vì vậy cải tiến đáng kể chất lượng của clustering. Trên thực tế, có hai loại side information thường được sử dụng là các dữ liệu đã được gán nhãn (labeled data hay còn gọi là seed) và các ràng buộc (constraint). Các constraint bao gồm hai loại: must-link(u,v) (u, v ∈ X) biểu thị u và v sẽ được phân vào cùng một cụm và cannot-link(u,v) biểu thị u và v sẽ được phân về hai cụm khác nhau. Mặc dù đã có rất nhiều nghiên cứu quan trọng được đưa ra nhưng các thuật toán semi-supervised clustering mới chỉ dừng lại ở việc tích hợp từng loại side information riêng lẻ, hơn nữa chất lượng của các bài toán loại này còn phụ thuộc vào việc lựa chọn số lượng và chất lượng của các side information. (a) Partially labelled (b) Partially constrained Hình 1. Các dạng side information là seed và constraint Trong bài báo này, chúng tôi sẽ tập trung vào giải quyết bài toán sau đây: Phát triển một phương pháp phân cụm nửa giám sát có khả năng tích hợp đồng thời cả hai loại side information là các seed và các constraint. Chúng tôi cũng phát triển một kĩ thuật cho phép tham khảo ý kiến người sử dụng về việc ra các quyết định trong quá trình phân cụm các đối tượng. 2. Nội dung nghiên cứu 2.1. Tổng quan tình hình nghiên cứu Các phương pháp semi-supervised clustering bắt đầu được nghiên cứu một cách mạnh mẽ từ sau nghiên cứu của Wagstaff về Constrained K-Means Clustering tại hội 61
- V.V.Vũ, V.V.Thắng, N.Labroche, B.B.Meunier, N.T.T.Hiền nghị ICML năm 2001 [32]. Chúng tôi liệt kê ra đây một số thuật toán cơ bản bao gồm: Constrained Hierarchical Clustering [2,3,17], Constraint Spectral Clustering [7,8,25,29], Constraint DBSCAN [5], Constrained-Kmeans [26,27,28,31], Constraint Fuzzy C-Means [10,21], Constraint Leader Ant Clustering [16], Constrainted Graph Clustering [14, 24 ], Seed Fuzzy C-means[33], Seed K-Means [30], Seed DBSCAN [15, 20], Seed Graph Clustering [4],... Các thuật toán semi-supervised clustering đã được nghiên cứu khẳng định chất lượng phân cụm được tăng lên rõ rệt với sự sử dụng chỉ một lượng nhỏ các side information. Hiện nay, các thuật toán semi-supervised clustering sử dụng constraint bằng hai cách: các constraint sẽ được “nhúng” trực tiếp trong quá trình clustering hoặc sử dụng để huấn luyện (training) một hàm độ đo nhằm xây dựng một hàm khoảng cách mới trong không gian dữ liệu. Phương pháp sử dụng trực tiếp các constraint: Trong phương pháp này, có hai cách được sử dụng dụng là: các chiến thuật thỏa mãn tất cả các ràng buộc và các chiến thuật tìm thỏa mãn một cách tối đa các ràng buộc. Với các kĩ thuật thỏa mãn tất cả các ràng buộc, quá clustering sẽ được kiểm tra sự thỏa mãn của các constraint liên tục trong quá trình clustering như trong các nghiên cứu về COP-Kmeans [32], Constrained Leader Ant[16] hoặc C-DBSCAN[5]. Với phương pháp thỏa mãn tối đa các constraint, các constraint sẽ được tích hợp vào trong hàm mục tiêu (object function) và áp dụng một số phương pháp tối ưu để giải quyết các hàm mục tiêu trong các thuật toán như Fuzzy C-Means[10, 21], K-Means [18, 23]. Phương pháp sử dụng các constraint để huấn luyện một hàm khoảng cách: Trong phương pháp này các constraint sẽ được dùng để huấn luyện (training) nhằm xây dựng một hàm khoảng cách sao cho trong không gian độ đo mới, các điểm dữ liệu thuộc cùng ràng buộc must-link sẽ “gần nhau” hơn và ngược lại các điểm thuộc về các cannot-link sẽ “xa nhau” ra. Một số hàm khoảng cách đã được các tác giả sử dụng trong các nghiên cứu như: string-edit [36], Jensen-Shannon [37], Euclidean [38] và Mahalanobis [31]. Với các thuật toán semi-suypervised clustering sử dụng các seed, chúng tôi có thể kể ra đây một số nghiên cứu quan trọng như Seed K-Means [30], Seed Fuzzy C-Means[33], Seed DBSCAN [5], Seed Graph Clustering [4],... Trong thuật toán Seed K-Means được trình bày bằng cách sử dụng một số seed nhằm vượt qua hạn chế của thuật toán K-Means trong vấn đề lựa chọn các trọng tâm của các lớp - thuật toán K-Means thường có các kết quả khác nhau sau mỗi lần thi hành vì chúng phụ thuộc vào vấn đề lựa chọn các trọng tâm ngẫu nhiên. Các seed sẽ được dùng vào việc trợ giúp quá trình khởi tạo cho các trọng tâm và vì vậy thuật toán sẽ cho ra kết quả xác định sau duy nhất một lần thực hiện. Trong Seed Fuzzy C-Means được giới thiệu bằng cách sử dụng các seed vào việc trợ giúp quá trình khởi tạo và điều khiển kích thước của các cluster. Trong Seed DBSCAN, các seed được sử dụng để đánh giá mật độ của dữ liệu giúp cho thuật toán có thể thực hiện phân cụm trong trường hợp dữ liệu đầu vào có mật độ dữ liệu là khác nhau. Với Seed Graph clustering, các tác giả đã sử dụng các seed 62
- Phân cụm nửa giám sát dựa trên đồ thị trong việc trợ giúp quá trình phân rã các đồ thị để được các thành phần đồ thị con liên thông chỉ chứa duy nhất một loại seed trước khi xây dựng các cụm. Hiện nay các thuật toán semi-supervised clustering vẫn không ngừng được phát triển và cải tiến. Hạn chế cơ bản của các thuật loại này là chúng chỉ tích hợp được từng loại side information riêng rẽ - hoặc là các seed hoặc là các constraint mà chưa tích hợp được cả hai loại vào trong cùng một thuật toán, thách thức này cũng đã được chỉ ra trong [9]. 2.2. Thuật toán SSDBSCAN Thuật toán SSDBSCAN [15] (Semi-Supervised Density based Clustering) là một cải tiến của thuật toán DBSCAN [39]. Ý tưởng cơ bản của thuận toán DBSCAN là sử dụng khái niệm mật độ của các đối tượng để xây dựng các cluster. DBSCAN sử dụng hai tham số là MinPts và ε. Trong quá trình xây dựng các cluster, DBSCAN sẽ kết nối trực tiếp các “siêu cầu” có bán kính ε mà ở đó nó chứa ít nhất MinPts đối tượng; với tính chất này DBSCAN có khả năng phát hiện các nhiễu của dữ liệu. Tuy nhiên, trên thực tế dữ liệu đầu vào thường sẽ có mật độ khác nhau giữa các vùng, chính vì vậy thuật toán DBSCAN không thể xây dựng chính xác các cluster ở các vùng có mật độ khác nhau khi ε là cố định. Thuật toán SSDBSCAN ra đời bằng cách sử dụng các seed để trợ giúp trong việc tự động tính toán ε trong quá trình phân cụm, và vì vậy SSDBSCAN có thể xây dựng các cluster với các mật độ dữ liệu là khác nhau. Thuật toán SSDBSCAN sử dụng duy nhất một tham số là MinPts, ε sẽ được tính toán tự động dựa trên mật độ dữ liệu. Trong thuật toán SSDBSCAN, dữ liệu đầu vào sẽ được biểu diễn bởi một đồ thị vô hướng có trọng số trong đó mỗi đỉnh là một đối tượng dữ liệu, mỗi cạnh giữa hai đối tượng p và q sẽ được xác định bởi giá trị rDist() được định nghĩa ngay sau đây. rDist() biểu thị cho giá trị nhỏ nhất của ε sao cho với hai đối tượng p và q thì p và q sẽ có ít nhất MinP ts đối tượng nằm trong “siêu cầu” bán kính ε, hơn nữa và p và q có thể kết nối trực tiếp được với nhau - tức là p nằm trong “siêu cầu” bán kính ε của q và ngược lại. Vì vậy, rDist được định nghĩa như sau: ∀p, q ∈ X, rDist(p, q) = max(cDist(p), cDist(q), d(p, q)) (2.1) Trong đó d(p, q) là khoảng cách giữa p và q, cDist(o) là khoảng cách nhỏ nhất mà ở đó o vẫn chứa đủ MinP ts đối tượng trong nó. Quá trình xây dựng các cluster trong SSDBSCAN như sau: Sử dụng rDist(), chúng ta bắt đầu xây dựng cluster C bằng cách sử dụng một seed đầu tiên p, tiếp theo cluster C sẽ được thêm các điểm thỏa mãn rDist() vào C. Quá trình sẽ tiếp tục đến khi gặp một điểm q có nhãn khác với nhãn của p. Tiếp đó, thuật toán sẽ quay trở lại đến điểm o với giá trị rDist(o) là lớn nhất trên đường đi mở rộng cluster C. Chúng ta sẽ gọi đây là “nhát cắt” lớn nhất của các rDist(). Quá trình xây dựng cluster C hoàn thành, C sẽ bao gồm các điểm trong quá trình mở rộng đến o (không kể o), cho chúng ta một cluster C chứa seedp. Việc tìm kiếm các cluster tiếp theo sẽ được thực hiện theo quy trình tương tự. Quá trình tìm kiếm các cluster giống như quy trình đi xây dựng cây khung nhỏ nhất trên đồ thị, 63
- V.V.Vũ, V.V.Thắng, N.Labroche, B.B.Meunier, N.T.T.Hiền vì vậy chúng ta có thể áp dụng các thuật toán Kruskal hoặc Prim trong lí thuyết đồ thị. 2.3. Thuật toán ASSDBSCAN Trong bài báo này chúng tôi cải tiến SSDBSCAN thành thuật toán ASSDBSCAN (Active learning for SSDBSCAN) theo hai khía cạnh: (1) Kết hợp các ràng buộc must-link và cannot-link vào trong quá trình phân cụm và (2) xây dựng một pha tương tác với người sử dụng (active learning) nhằm quyết định chính xác “nhát cắt” trong quá trình mở rộng cluster. Các thuật toán active learning được chỉ ra rất hiệu quả trong rất nhiều nghiên cứu về việc đi thu thập các side information từ người sử dụng [1,6, 11,12,13,22,34]. Trên thực tế chúng ta thấy rằng, dữ liệu thực là rất đa dạng (nhiễu, không đồng đều về mật độ phân bố, các cluster có thể rất gần nhau,...), vì vậy việc sử dụng “nhát cắt” lớn nhất cho việc xây dựng cluster không phải bao giờ cũng đúng. Chúng tôi sẽ xây dựng pha active learning nhằm mục đích tương tác với người sử dụng cho quá trình xác định “nhát cắt”. 64
- Phân cụm nửa giám sát dựa trên đồ thị Quá trình active learning như sau: Xuất phát từ “nhát cắt” lớn nhất, thuật toán sẽ đưa ra câu hỏi cho người sử dụng để biết nhát cắt này có nối hai điểm nằm về hai cluster khác nhau hay không (cannot-link). Nếu câu trả lời là không thì pha “active learning” sẽ tiếp tục với rDist() lớn nhất chưa được chọn,... và quá trình sẽ kết thúc khi câu trả lời của người sử dụng là cannot-link. Và cluster C sẽ bao gồm các điểm trong quá trình mở rộng cluster đến khi gặp ràng buộc cannot-link. Thuật toán ASSDBSCAN được trình bày trong Algorithm 1 và Algorithm 2. 2.4. Kết quả thực nghiệm Để đánh giá chất lượng của thuật toán đưa ra chúng tôi tiến hành so sánh thuật toán ASDBSCAN và thuật toán SSDBSCAN. Chúng tôi sử dụng 6 tập dữ liệu được lấy từ UCI Machine Learning [35] (Bảng 1). Để đánh giá kết quả của clustering, chúng tôi sử dụng hàm Rand - một phương pháp phổ biến trong quá trình đánh giá kết quả của clustering [19]. Bảng 1. Các tập dữ liệu sử dụng Tập dữ liệu n m k 1 Ecoli 336 8 8 2 Glass 214 9 6 3 Iris 150 4 3 4 LetterIJL 227 16 3 5 Protein 116 6 6 6 Thyroid 101 16 7 (n: số phần tử cần clustering, m: số thuộc tính, k là số cluster) 65
- V.V.Vũ, V.V.Thắng, N.Labroche, B.B.Meunier, N.T.T.Hiền Hình 2 trình bãy kết quả của quá trình clustering cho lần lượt 6 tập dữ liệu ở trên. Chúng ta có thể thấy rõ, thuật toán ASSDBSCAN cho kết quả tốt hơn hẳn thuật toán SSDBSCAN. Kết quả này khẳng định giả thiết của chúng tôi về việc xác định “nhát cắt” lớn nhất trong quá trình xây dựng cluster. Việc trợ giúp của người sử dụng trong pha “active learning” đã đem lại hiệu quả rất rõ trong quá trình clustering. Chúng tôi cũng lưu ý rằng, trong hình 2, thuật toán SSDBSCAN chỉ sử dụng các seed trong khi thuật toán ASSDBSCAN sử dụng cả seed và ràng buộc (số lượng ràng buộc chính là số lượng query trong quá trình active learning). Hình 2. Kết quả thực nghiệm 66
- Phân cụm nửa giám sát dựa trên đồ thị 3. Kết luận Bài báo này trình bày một phương pháp mới cho bài toán semi-supervised clustering ASSDBSCAN. ASSDBSCAN là thuật toán đầu tiên trên thế giới có khả năng kết hợp cả hai loại side information là seed và constraint trong quá trình clustering. Kết quả thực nghiệm trên các tập dựu liệu thực từ UCI Machine Learning đã chứng minh tính hiệu quả của thuật toán ASSDBSCAN. Trong thời gian tới, chúng tôi tiếp tục mở rộng hướng nghiên cứu này cho các loại thuật toán clustering khác cũng như thử nghiệm đối với các tập dữu liệu thực tế của các lĩnh vực như Computer Vision hay các tập dữ liệu Biology. TÀI LIỆU THAM KHẢO [1] Viet-Vu Vu, Nicolas Labroche, and Bernadette Bouchon-Meunier, Improving Constrained Clustering with Active Query Selection, Pattern Recognition 45(4): 1749-1758 (2012), ISSN: 0031-3203. [2] Sean Gilpin, Ian Davidson: Incorporating SAT solvers into hierarchical clustering algorithms: an efficient and flexible approach. KDD 2011: 1136-1144 [3] Tengke Xiong, Shengrui Wang, André Mayers, Ernest Monga: Semi-supervised Parameter-Free Divisive Hierarchical Clustering of Categorical Data. PAKDD 2011: 265-276 [4] Viet-Vu Vu, Semi-supervised Clsutering and Active Learning, PhD Thesis, Paris 6 University, 2011 [5] Carlos Ruiz, Myra Spiliopoulou, Ernestina Menasalvas Ruiz: Density-based semi-supervised clustering. Data Min. Knowl. Discov. 21(3): 345-370 (2010) [6] Burr Settles: Active Learning Literature Survey, Computer Sciences Technical Report 1648, University of Wisconsin-Madison, 2010. [7] Xiang Wang, Ian Davidson: Active Spectral Clustering. ICDM 2010: 561-568 [8] Xiang Wang, Ian Davidson: Flexible constrained spectral clustering. KDD 2010: 563-572 [9] Anil K. Jain: Data clustering: 50 years beyond K-means. Pattern Recognition Letters (PRL) 31(8):651-666 (2010). [10] Violaine Antoine, Benjamin Quost, Marie-Hélène Masson, Thierry Denoeux: CECM: Adding pairwise constraints to evidential clustering. FUZZ-IEEE 2010: 1-8 [11] Viet-Vu Vu, Nicolas Labroche, and Bernadette Bouchon-Meunier. Active Learning for Semi-Supervised K-Means Clustering. In Proceedings of the 22nd IEEE International Conference on Tools with Artificial Intelligence (ICTAI-2010), Arras, France, October, 2010. [12] Viet-Vu Vu, Nicolas Labroche, and Bernadette Bouchon-Meunier. Boosting Clustering by Active Constraint Selection. In Proceedings of the 19th European Conference on Artificial Intelligence (ECAI-2010), Lisbon, Portugal, August, 2010. 67
- V.V.Vũ, V.V.Thắng, N.Labroche, B.B.Meunier, N.T.T.Hiền [13] Viet-Vu Vu, Nicolas Labroche, and Bernadette Bouchon-Meunier. An Efficient Active Constraint Selection Algorithm for Clustering. In Proceedings of the 20th IEEE International Conference on Pattern Recognition (ICPR-2010), Istanbul, Turkey, August, 2010. [14] Brian Kulis, Sugato Basu, Inderjit S. Dhillon, Raymond J. Mooney: Semi-supervised graph clustering: a kernel approach. Machine Learning 74(1): 1-22 (2009) [15] Levi Lelis, J¨org Sander: Semi-supervised Density-Based Clustering. ICDM 2009: 842-847 [16] Viet-Vu Vu, Nicolas Labroche, and Bernadette Bouchon-Meunier. Leader Ant Clustering with Constraints. In Proceedings of the 7th IEEE International Conference on Computing and Communication Technologies (IEEE-RIVF-2009), Danang, Vietnam, July, 2009. [17] Ian Davidson, S. S. Ravi: Using instance-level constraints in agglomerative hierarchical clustering: theoretical and empirical results. Data Min. Knowl. Discov. (DATAMINE) 18(2):257-282 (2009) [18] Zijie Qi, Ian Davidson: A principled and flexible framework for finding alternative clusterings. KDD 2009: 717-726 [19] S. Basu, I. Davidson, and K. L. Wagstaff, Constrained Clustering: Advances in Algorithms, Theory, and Applications, Chapman and Hall/CRC Data Mining and Knowledge Discovery Series, 1st edn., 2008. [20] Christian B¨ohm, Claudia Plant: HISSCLU: a hierarchical density-based method for semi-supervised clustering. EDBT 2008: 440-451 [21] Nizar Grira, Michel Crucianu, Nozha Boujemaa: Active semi-supervised fuzzy clustering. Pattern Recognition 41(5): 1834-1844 (2008) [22] Pavan Kumar Mallapragada, Rong Jin, Anil K. Jain: Active query selection for semi-supervised clustering. ICPR 2008: 1-4 [23] Ian Davidson, S. S. Ravi: The complexity of non-hierarchical clustering with instance and cluster level constraints. Data Min. Knowl. Discov. (DATAMINE) 14(1):25-61 (2007) [24] Brian Kulis, Sugato Basu, Inderjit S. Dhillon, Raymond J. Mooney: Semi-supervised graph clustering: a kernel approach. ICML 2005: 457-464 [25] Qianjun Xu, Marie desJardins, Kiri Wagstaff: Active Constrained Clustering by Examining Spectral Eigenvectors. Discovery Science 2005: 294-307 [26] Sugato Basu, Arindam Banerjee, Raymond J. Mooney: Active Semi-Supervision for Pairwise Constrained Clustering. SDM 2004 [27] Sugato Basu, Mikhail Bilenko, Raymond J. Mooney: A probabilistic framework for semi-supervised clustering. KDD 2004: 59-68 [28] Mikhail Bilenko, Sugato Basu, Raymond J. Mooney: Integrating constraints and metric learning in semi-supervised clustering. ICML 2004 68
- Phân cụm nửa giám sát dựa trên đồ thị [29] Kamvar, S.D., Klein, D., Manning, C.D.: Spectral learning. In: Proceedings of the Eighteenth International Joint Conference on Artificial Intelligence. (2003) 561-566 [30] Sugato Basu, Arindam Banerjee, Raymond J. Mooney: Semi-supervised Clustering by Seeding. ICML 2002: 27-34 [31] Eric P. Xing, Andrew Y. Ng, Michael I. Jordan, Stuart J. Russell: Distance Metric Learning with Application to Clustering with Side-Information. NIPS 2002:505-512 [32] Kiri Wagstaff, Claire Cardie, Seth Rogers, Stefan Schr¨odl: Constrained K-means Clustering with Background Knowledge. ICML 2001: 577-584 [33] Amine Bensaid, Lawrence O. Hall, James C. Bezdek, Laurence P. Clarke: Partially supervised clustering for image segmentation. Pattern Recognition 29(5): 859-871 (1996) [34] Viet-Vu Vu, Nicolas Labroche, and Bernadette Bouchon-Meunier. Active Semi-Supervised Density-based Clustering. Submitted to the 20th European Conference on Artificial Intelligence (ECAI-2012), Montpelier, France, August, 2012 [35] http://archive.ics.uci.edu/ml/ [36] Cohn, D., Caruana, R., & McCallum, A. (2003). Semi-supervised clustering with user feedback (Tech. Report TR2003-1892).Cornell University. [37] Klein, D., Kamvar, S. D., & Manning, C. (2002). From instancelevel constraints to space-level constraints: Making the most of prior knowledge in data clustering. Proceedings of the The Nineteenth International Conference on Machine Learning (ICML-2002) (pp. 307-314). [38] Bar-Hillel, A., Hertz, T., Shental, N., & Weinshall, D. (2003). Learning distance functions using equivalence relations. Proceedings of 20th International Conference on Machine Learning (ICML-2003) (pp. 11-18). [39] Martin Ester, Hans-Peter Kriegel, J¨org Sander, Xiaowei Xu: A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise. KDD 1996: 226-231 ABSTRACT Semi-supervised clustering algorithms based on graph Semi-supervised clustering algorithms relies on side information, either labeled data (seeds) or pairwise constraints (must-link or can-not link) between data objects to improve the quality of clustering. In this paper, we propose to extend an exisiting seed-based clustering algorithm with an active learning mechanism to collect pairwise constraints. Thus, to the best of our knowledge, our new semi-supervised algorithm is the first to work with both seeds and constraints. Preliminary results on real data sets show the benefit of our algorithm when compared to the initial seed-based clustering algorithm. 69
ADSENSE
CÓ THỂ BẠN MUỐN DOWNLOAD
Thêm tài liệu vào bộ sưu tập có sẵn:
Báo xấu
LAVA
AANETWORK
TRỢ GIÚP
HỖ TRỢ KHÁCH HÀNG
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn