Khai phá dữ liệu
lượt xem 23
download
Dữ liệu (Data): có thể xem là chuỗi các bit, là số, ký tự…mà chúng ta thu thập hàng ngày trong công việc. Thông tin (Information): là tập hợp của những dữ liệu đã được xử lý, dùng mô tả, giải thích đặc tính của một đối tượng nào đó. Tri thức (Knowledge): là tập hợp những thông tin có liên hệ với nhau, được lập luận chặt chẽ hoặc được thực nghiệm kiểm chứng quan nhiều thế hệ. Tri thức thể hiện tư duy của con người về một vấn đề....
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Khai phá dữ liệu
- Khai phá dữ liệu (Data Mining) Nguyễn Đình Thuân UIT – VNU HCM 18/01/13 1
- Nội dung môn học 11 Chương 1: Tổng quan về khai phá dữ liệu 2 Chương 2: Luật kết hợp 3 Chương 3: Dãy phổ biến 4 Chương 4: Phân lớp dữ liệu 5 Chương 5: Gom cụm dữ liệu 66 Giới thiệu 10 thuật toán hàng đầu của DataMining 2 01/18/13 www.lhu.edu.vn
- Thông tin về môn học Đánh giá Phương pháp đánh giá Trọng số[%] Chuyên cần, bài tập trên lớp 10% Thực hành, thí nghiệm 15% Kiểm tra giữa kỳ 15% Tiểu luận, báo cáo trên lớp 20% Thi cuối học kỳ 40% 3 01/18/13 www.lhu.edu.vn
- Tài liệu tham khảo 1. Đỗ Phúc, Giáo trình + Slide Bài giảng Khai thác dữ liệu, ĐHQG TPHCM, 2005. 2. Hồ Tú Bảo, Introduction to knowledge discovery and data mining, IOIT, 2001. 3. Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques, University of Illinois, Morgan Kaufmann Publishers, 2006. 4. X. Wu, V. Kumar, J. Ross Quinlan, ... Top 10 Algorithms in Data Mining, Chapman & Hall/CRC, Taylor & Francis Group, LLC, 2009. 5. ZhaoHui Tang & Jamie MacLennan, Data Mining with SQL Server 2005, Wiley Publishing, 2005. 4 01/18/13 www.lhu.edu.vn
- Chương 1 Tổng quan Các khái niệm cơ bản Dữ liệu (Data): có thể xem là chuỗi các bit, là số, ký tự…mà chúng ta thu thập hàng ngày trong công việc. Thông tin (Information): là tập hợp của những dữ liệu đã được xử lý, dùng mô tả, giải thích đặc tính của một đối tượng nào đó. Tri thức (Knowledge): là tập hợp những thông tin có liên hệ với nhau, được lập luận chặt chẽ hoặc được thực nghiệm kiểm chứng quan nhiều thế hệ. Tri thức thể hiện tư duy của con người về một vấn đề. 5 01/18/13 www.lhu.edu.vn
- Các khái niệm cơ bản Khám phá tri thức từ cơ sở dữ liệu: (Knowledge Discovery in Databases – KDD) – “KDD is the automatic extraction of non-obvious, hidden knowledge from large volumes of data.” Fayyad, Platetsky-Shapiro, Smyth (1996) – “Khám phá tri thức từ cơ sở dữ liệu là quy trình bao gồm nhiều công đoạn như: xác định vấn đề, tập hợp và chọn lọc dữ liệu, khai thác dữ liệu, đánh giá kết quả, giải thích dữ liệu, áp dụng tri thức vào thực t ế – http://www.kdnuggets.com/ 6 01/18/13 www.lhu.edu.vn
- Tại sao phải khai phá dữ liệu ? John Naisbitt (www.naisbitt.com/) in 1982: “We are drowning in data, but starving for knowlegde”. Dữ liệu được thu thập hàng ngày là rất lớn – Các CSDL khổng lồ – Dữ liệu từ Internet Theo các báo cáo của IBM, chỉ có 80% dữ liệu được khai thác, 20% còn lại ẩn trong các Database là những tri thức quý giá 7 01/18/13 www.lhu.edu.vn
- Khai phá dữ liệu là gì? Khai phá dữ liệu (Datamining) là một bước trong quy trình khám phá tri thức, nhằm: – Rút trích thông tin hữu ích, chưa biết, tiềm ẩn trong khối dữ liệu lớn – Phân tích dữ liệu bán tự động – Giải thích dữ liệu trên các tập dữ liệu lớn . 8 01/18/13 www.lhu.edu.vn
- Lợi ích của khai phá dữ liệu Giá trị EDP MIS Số lượng DSS EDP: Electronic Data Processing MIS: Management Information Systems 01/18/13 DSS: Decision Support Systems www.lhu.edu.vn 9
- Khai phá dữ liệu là gì ? Thuật ngữ: – Khai phá dữ liệu - Data mining • KPDL là một buớc của tiến trình KDD – Knowledge discovery in databases (KDD) • Thuật ngữ tổng quát gồm các buớc như tiền xử lý, KPDL, hậu xử lý . 10
- Khai phá dữ liệu có ích lợi gì ? •Cung cấp tri thức hỗ trợ ra quyêt định •Dự báo Tiếp thị •Khái quát dữ liệu CSDL Tiếp thị Nhà kho dữ liệu KDD & Data Mining 11
- Tiến trình khai phá dữ liệu(1) ênccứứuulĩnh Nghiên Nghi lĩnhvvựựcc TTạạoottậậppddữữliliệệuuđđầầuuvào vào Tiềềnnxxửửlý/ Ti làmssạạch, lý/làm ch,mã mã hóa hóa Rút R útggọọnn//chi chiềềuu Chọọnntác Ch tácvvụụKhai thácddữữliliệệuu Khaithác 12
- Tiến trình khai phá dữ liệu(2) Chọọnn các Ch thuậậtt gi các thu giảảiiKTDL KTDL KTDL: TTìm KTDL: kiếếm ìmki mtri thứứcc trith Đánhgiá Đánh mẫẫuutìm giám ượcc tìmđđượ Biểểuu di Bi diễễnn tri thứứcc trith SSửửddụụng ngcác cáctri thứứccvvừừaakhám trith khámphá phá 13
- Tiến trình KDD tiêu biểu Time Raw based data selection Operational Operational Database Database n Eval. of l ectio Se interes- tingness Input Preprocessing Postprocessing Inputdata data Data Datamining mining Results Results Cleaned Verified ctio n Focused 2 Sel e 1 3 Selected Utilization Utilization usable patterns 14
- Khai phá dữ liệu Increasing potential to support End User business decisions Making Decisions Data Presentation Business Analyst Visualization Techniques Data Mining Data Information Discovery Analyst Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts OLAP, MDA DBA Data Sources Paper, Files, Information Providers, Database Systems, OLTP 15
- Từ dữ liệu đến quyết định Quyết định • Promote product A in region Z. • Mail ads to families of profile P Tri thức • Cross-sell service B to clients C • A quantity Y of product A is used in region Z • Customers of class Y use x% of C during period D Thông tin • X lives in Z • S is Y years old Dữ liệu • X and S moved • Customer data • W has money in Z • Store data • Demographical Data • Geographical data 16
- Các quan niệm về KPDL Các tiếp cận tổng quan: – KPDL mô tả : • Cho biết điều gì là hữu ích có thể tìm thấy được trong dữ liệu • Giải thích dữ liệu đó – KPDL dự báo: • Dựa trên dữ liệu quá khứ, dự báo tương lai • Xu thế phát triển! 17
- Các quan niệm về KTDL Quan niệm dựa trên … – CSDL để khai thác – Tri thức được khám phá – Các kỹ thuật được sử dụng – Các ứng dụng 18
- Các quan niệm về KPDL CSDL ccầầnnkhai CSDL khaithác thác Quan hệ Text, XML Databases Giao tác Multi-media Huớng đối Heterogeneous tượng Legacy Huớng đối tượng, quan hệ Inductive WWW Active etc. Không gian Thời gian 19
- Các quan niệm về KPDL TTác ácvvụụkhai khaithác thác Đặc trưng Knowledge Phân biệt Phân tích độ = lệch task Kết hợp Phân tích hiếm Phân lớp etc. Gom cụm Xu thế 20
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Khai Phá Dữ Liệu-Giới thiệu về công cụ WEKA
18 p | 1607 | 200
-
Bài giảng môn học Khai phá dữ liệu: Bài mở đầu - ThS. Nguyễn Vương Thịnh
36 p | 194 | 44
-
Bài giảng Khai phá dữ liệu: Chương 1 - Phan Mạnh Thường
18 p | 117 | 33
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 7 - ĐH Bách khoa TP.HCM
22 p | 214 | 26
-
Bài giảng Nhập môn khai phá dữ liệu: Chương 1 - PGS. TS. Hà Quang Thụy
92 p | 53 | 23
-
Bài giảng Khai phá dữ liệu - Chương 1: Tổng quan về khai phá dữ liệu
61 p | 155 | 16
-
Bài giảng Kho dữ liệu và khai phá dữ liệu (2014): Phần 1
79 p | 56 | 12
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 1 - Lê Tiến
61 p | 91 | 9
-
Bài giảng Khai phá dữ liệu: Chương 8 - TS. Võ Thị Ngọc Châu
23 p | 80 | 8
-
Bài giảng Khai phá dữ liệu: Chương 1 - TS. Võ Thị Ngọc Châu
63 p | 106 | 8
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 1.2: Giới thiệu về Học máy và khai phá dữ liệu
29 p | 19 | 6
-
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 1 - Nguyễn Hoàng Ân (2018)
22 p | 58 | 5
-
Bài giảng Khai phá dữ liệu: Bài 1 - Văn Thế Thành
7 p | 88 | 5
-
Bài giảng Khai phá dữ liệu: Nội dung bổ sung về Khai phá dữ liệu - PGS. TS. Hà Quang Thụy
102 p | 29 | 5
-
Bài giảng Khai phá dữ liệu: Bài 1 - TS. Trần Mạnh Tuấn
34 p | 67 | 4
-
Bài giảng Khai phá dữ liệu: Chương 1 - Trường ĐH Phan Thiết
71 p | 41 | 4
-
Bài giảng Khai phá dữ liệu - Chương 1: Tổng quan
14 p | 143 | 4
-
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 1 - Nguyễn Ngọc Duy
30 p | 33 | 3
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn