Báo cáo "Tóm tắt dữ liệu quan hệ sử dụng phương pháp phân cụm bán giám sát dựa trên giải thuật di truyền "

Chia sẻ: Phạm Huy | Ngày: | Loại File: PDF | Số trang:4

Thêm vào BST

Báo xấu

80
lượt xem 6
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Tổng quan về phân cụm dữ liệu: Giới thiệu cách biểu diễn dữ liệu trong máy tính nhằm phục vụ cho quá trình phân cụm, giới thiệu độ tương đồng giữa các đối tượng trong tập dữ liệu, các phương pháp phân cụm dữ liệu. Với mỗi phương pháp phân cụm sẽ trình bày một số thuật toán tương ứng. Giải thuật di truyền: Tổng quan về giải thuật di truyền với các cách biểu diễn dữ liệu, cách xây dựng một giải thuật di truyền và mô tả các phép toán thực hiện trên đó. Phân tích ứng...

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Báo cáo "Tóm tắt dữ liệu quan hệ sử dụng phương pháp phân cụm bán giám sát dựa trên giải thuật di truyền "

Tóm tắt dữ liệu quan hệ sử dụng phương pháp phân cụm bán giám sát dựa trên giải thuật di truyền Đỗ Thị Hòa Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Công nghệ phần mềm; Mã số: 60 48 10 Người hướng dẫn: PGS.TS Hoàng Xuân Huấn Năm bảo vệ: 2011 Abstract: Tổng quan về phân cụm dữ liệu: Giới thiệu cách biểu diễn dữ liệu trong máy tính nhằm phục vụ cho quá trình phân cụm, giới thiệu độ tương đồng giữa các đối tượng trong tập dữ liệu, các phương pháp phân cụm dữ liệu. Với mỗi phương pháp phân cụm sẽ trình bày một số thuật toán tương ứng. Giải thuật di truyền: Tổng quan về giải thuật di truyền với các cách biểu diễn dữ liệu, cách xây dựng một giải thuật di truyền và mô tả các phép toán thực hiện trên đó. Phân tích ứng dụng của giải thuật di truyền trong bài toán phân cụm. Tóm tắt dữ liệu quan hệ sử dụng phương pháp phân cụm bán bán giám sát dựa trên giải thuật di truyền. Phân tích khái niệm, cấu trúc quan hệ các bảng trong cơ sở dữ liệu, cách chuyển đổi dữ liệu. Trình bày thuật toán phân cụm bán giám sát dựa trên giải thuật di truyền để tóm tắt dữ liệu. Kết quả cài đặt thử nghiệm thuật toán. Chương này trình bày các kết quả thực nghiệm về phương pháp tóm tắt dữ liệu quan hệ sử dụng thuật toán phân cụm bán giám sát dựa trên giải thuật di truyền. Cài đặt thử nghiệm cho thuật toán được thực hiện bằng ngôn ngữ C++ trên tập dữ liệu thử nghiệm về năng suất lúa. Thông qua các nhận xét về giá trị các độ đo đánh giá, kết quả thực hiện chương trình là khả quan. Keywords: Phân cụm dữ liệu; Thuật toán; Giải thuật di truyền; Công nghệ phần mềm Content Trong thời đại hiện nay, cuộc cách mạng về khoa học và công nghệ đã có những bước phát triển vượt bậc, đánh dấu những mốc son đáng tự hào trong nền văn minh của thế giới. Đóng góp một phần cho sự thay đổi này, không thể kể không kể đến các ngành đã và đang được xem là mũi nhọn hiện nay như: Công nghệ thông tin, điện tử và truyền thông, công nghệ sinh học… với những ứng dụng rộng rãi, đem lại những lợi ích to lớn cho các ngành khoa học khác và các hệ thống phục vụ cho đời sống, kinh tế, xã hội. Cùng với sự phát triển này, một lượng dữ liệu ngày càng lớn và vô cùng phong phú đã được tạo ra. Với các kho dữ liệu khổng lồ như vậy, các thông tin yêu cầu từ nó không đơn thuần là các số liệu, mà đòi hỏi thêm ở mức cao hơn là các tri thức có thể hỗ trợ ra quyết định cho người dùng. Đã có rất nhiều các công trình nghiên cứu về việc tổ chức các kho dữ liệu, các thuật toán nhận dạng mẫu, và phân lớp ảnh, các hệ thốn thông tin lớn, các hệ hỗ trợ ra quyết định, …được công bố và ứng dụng.
Một khái niệm mới là Data mining ra đời và mở ra những xu hướng mới trong công nghệ khám phá tri thức hiện nay. Một trong các hướng nghiên cứu của Data mining là Phân cụm dữ liệu. Bài toán phân cụm dữ liệu thuộc lĩnh vực học không giám sát, nhằm phân tập dữ liệu thành các tập con, thỏa mãn điều kiện các đối tượng trong cùng một tập con có độ tương đồng cao, và ngược lại các đối tượng ở các tập con khác nhau thì có độ tương đồng thấp. Hay nói cách khác, bài toán phân cụm dữ liệu là bài toán khám phá cấu trúc của tập dữ liệu. Tùy theo đặc điểm cấu trúc của tập dữ liệu và mục đích sử dụng, có các phương pháp giải quyết khác nhau như: Phân cụm dựa vào phân hoạch, phân cụm theo phân cấp, phân cụm dựa vào mật độ và phân cụm dựa vào lưới. Trong đó, phương pháp phân cụm bán giám sát đươc ứng dụng khá phổ biến. Đây là phương pháp kết hợp giữa học không giám sát và học có giám sát. Trong việc giải quyết bài toán phân loại trong khai phá dữ liệu quan hệ, các phương pháp truyền thống thường yêu cầu liên kết dữ liệu được lưu trong nhiều bảng thành một bảng duy nhất. Khi đó, bảng dữ liệu thu được sẽ có kích thước vô cùng lớn. Để truy vấn, phải sử dụng các phép toán đại số quan hệ và tối ưu các phép toán này bằng phương pháp tối ưu truy vấn heuristic tức là tìm cách thực hiện các phép chiếu, phép chọn trước các phép toán 2 ngôi. Trong một số trường hợp khi nối nhiều bảng sẽ gây mất thông tin hoặc trùng lặp dữ liệu. Do đó, chuyển đổi dữ liệu trở thành phức tạp và tóm tắt dữ liệu thường kém hiệu quả. Mặt khác, việc áp dụng các phương pháp tóm tắt dữ liệu trong khai phá dữ liệu được lưu trên nhiều bảng có quan hệ một-nhiều thường bị hạn chế do sự phức tạp của lược đồ cơ sở dữ liệu. Để có thể khắc phục được các vấn đề nêu trên, luận văn sẽ nghiên cứu một phương pháp tiếp cận: Sử dụng kỹ thuật phần cụm bán giám sát dựa trên giải thuật di truyền để tóm tắt dữ liệu được lưu trong nhiều bảng. Nghiên cứu này dựa trên ý tưởng nghiên cứu của Rayner Alfred [17]. Kết quả của thuật toán được áp dụng phân cụm cho dữ liệu thử nghiệm năng suất lúa. Ngoài phần kết luận và các phụ lục, phần còn lại của luận văn được chia thành 4 chương chính: Chương I - Tổng quan về phân cụm dữ liệu. Giới thiệu cách biểu diễn dữ liệu trong máy tính nhằm phục vụ cho quá trình phân cụm, giới thiệu độ tương đồng giữa các đối tượng trong tập dữ liệu, các phương pháp phân cụm dữ liệu. Với mỗi phương pháp phân cụm sẽ trình bày một số thuật toán tương ứng. Chương II – Giải thuật di truyền. Chương này trình bày về giải thuật di truyền với các cách biểu diễn dữ liệu, cách xây dựng một giải thuật di truyền và mô tả các phép toán thực hiện trên đó. Tiếp theo là phân tích ứng dụng của giải thuật di truyền trong bài toán phân cụm. Chương III – Tóm tắt dữ liệu quan hệ sử dụng phương pháp phân cụm bán bán giám sát dựa trên giải thuật di truyền. Chương này đi sâu phân tích khái niệm, cấu trúc quan hệ các bảng trong cơ sở dữ liệu, cách chuyển đổi dữ liệu. Thông qua đó luận văn trình bày thuật toán phân cụm bán giám sát dựa trên giải thuật di truyền để tóm tắt dữ liệu. 2
Chương IV - Kết quả cài đặt thử nghiệm thuật toán. Chương này trình bày các kết quả thực nghiệm về phương pháp tóm tắt dữ liệu quan hệ sử dụng thuật toán phân cụm bán giám sát dựa trên giải thuật di truyền. Chương trình cài đặt thử nghiệm cho thuật toán được thực hiện bằng ngôn ngữ C++ trên tập dữ liệu thử nghiệm về năng suất lúa. Thông qua các nhận xét về giá trị các độ đo đánh giá, kết quả thực hiện chương trình là khả quan. Phần Kết luận trình bày tổng hợp các kết quả thực hiện luận văn và phương hướng nghiên cứu tiếp theo về các nội dung của luận văn. Mặc dù đã có một môi trường làm việc tương đối đầy đủ và thuận tiện, nhưng luận văn chắc hẳn sẽ không tránh khỏi có nhiều thiếu sót. Rất mong được sự đóng góp ý kiến, nhận xét để tôi có thể hoàn thiện được kết quả làm việc của mình. References [1] Basu, B., A. Banerjee and R. Mooney, 2002. Semi-supervised clustering by seeding. Proceedings of the 19th International Conference on Machine Learning, July 2002, Morgan Kaufmann Publishers Inc., San Francisco, CA., USA., pp: 27-34. [2] Blockeel, H. and L. de Raedt, 1998. Top-down induction of first-order logical decision trees. Artif. Intell. [3] Blockeel, H. and M. Sebag, 2003. Scalability and efficiency in multi-relational data mining. SIGKDD Explorat. [4] Breiman, L., J. Friedman, T. Olshen and C. Stone, 1984. Classification and Regression Trees. 1st Edn., Wadsworth International, California, ISBN:10: 0412048418, pp: 368. [5] Davies, D.L. and D.W. Bouldin, 1979. A cluster separation measure. IEEE Trans. Pattern Anal. Mach. Intel., PAMI, 1: 24-227. DOI: 10.1109/TPAMI.1979.4766909 [6] Finn, P.W., S. Muggleton, D. Page and A. Srinivasan, 1998. Pharmacophore discovery using the inductive logic programming system Progol. Mach.Learn., 30: 241-270. DOI: 10.1023/A:1007460424845 [7] Gautam, G. and B.B. Chaudhuri, 2004. A novel genetic algorithm for automatic clustering. Patt. Recogn. Lett., 25: 173-187. DOI: 10.1016/j.patrec.2003.09. 012 [8] Goldberg, D.E., 1989. Genetic Algorithms-in Search,Optimization and Machine Learning. 1st Edn., Addison-Wesley Publishing Company Inc. [9] Holland, J., 1975. Adaptation in Natural and Artificial Systems. 1st Edn., University of Michigan Press. [10] Kirsten, M. and S. Wrobel, 1998. Relational distance-based clustering. Proceeding of the 8th International Conference on Inductive Logic Programming, July 22-24, Springer-Verlag, London, UK., pp: 261-270. http://portal.acm.org/citation.cfm?id=742767 3
[11] Kirsten, M. and S. Wrobel, 2000. Extending K-means clustering to first-order representations. Proceeding of the 10th International Conference on Inductive Logic Programming, July 24-27, Springer-Verlag, London, UK., pp: 112-129. http://portal.acm.org/citation.cfm?id=648000.742935 [12] Krogel, M.A. and S. Wrobel, 2001. Transformation-based learning using multirelational aggregation. Lecturere Notes Comput. Sci. [13] Lachiche, N. and P. Flach, 2000. A First-Order Representation for Knowledge Discovery and Bayesian Classification on Relational Data. In: Mining, decision Support, Meta-learning and ILP: Forum for Practical Problem Presentation and Prospective Solutions, Pavel, B. and J. Alipio(Eds.). Citeseerx, pp: 49-60. [14] Laura, E.R. and S. Kilian, 2004. Theoretical comparison between the Gini index and information gain criteria. Ann. Math. Artif. Intell.,41: 77-93. [15] Rayner, A. and K. Dimitar, 2007. Clustering approach to generalized pattern identification based on multi-instanced objects with DARA. Proceeding of the Communications of the 11th East-European Conference on Advances in Databases and Information Systems, Sept 2007, Technical University of Varna, pp: 1-12. [16] Rayner, A., 2008. A genetic-based feature construction method for data summarization. Proceeding of the 4th International Conference on Advanced Data Mining and Applications, Oct. 8-10, ACM Press, Chengdu, China, pp: 39-50. http://portal.acm.org/citation.cfm?id=1428392.1428400 [17] Rayner Alfred-Joural of Computer Science 6(7):775-784,2010. Summarizing Relational Data Using Semi-Supervised Genetic Algorithm-Based Clustering Techniques [18] Salton, G. and M. Michael, 1984. Introduction to Modern Information Retrieval. McGraw-Hill, Inc., New York, USA., ISBN: 0070544840. [19] Srinivasan, A., S. Muggleton, M.J.E. Sternberg and R.D. King, 1996. Theories for mutagenicity: Study in first-order and feature-based induction. Artif. Intell. [20] Witten, I.H. and E. Frank, 1999. Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations. 1st Edn., Morgan Kaufmann 4