Bài giảng Khai phá dữ liệu (Data Mining): Chương 2 - Đặng Xuân Thọ
lượt xem 11
download
Bài giảng Khai phá dữ liệu (Data Mining): Chương 2 do Đặng Xuân Thọ biên soạn cung cấp cho các bạn những kiến thức về dữ liệu và tiền xử lý dữ liệu. Mời các bạn tham khảo bài giảng để hiểu rõ hơn về những nội dung này. Với các bạn chuyên ngành Công nghệ thông tin thì đây là tài liệu hữu ích.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Khai phá dữ liệu (Data Mining): Chương 2 - Đặng Xuân Thọ
- KHAI PHÁ DỮ LIỆU (DATA MINING) Đặng Xuân Thọ Trường Đại học Sư phạm Hà Nội
- Support 2 Full name: Đặng Xuân Thọ Mobile: 091.2629.383 Email: thodx@hnue.edu.vn Website: http://cs.fit.hnue.edu.vn/~tho/ Khai phá dữ liệu - ĐHSPHN
- Nội dung 3 Chương 1. Giới thiệu về khai phá dữ liệu Chương 2. Dữ liệu và tiền xử lý dữ liệu Chương 3. Phân lớp dữ liệu Chương 4. Khai phá luật kết hợp Chương 5. Phân cụm Khai phá dữ liệu - ĐHSPHN
- 4 Dữ liệu và tiền xử lý dữ liệu Khai phá dữ liệu - ĐHSPHN
- Dữ liệu 5
- Điều gì có thể sai 6 Khai phá dữ liệu - ĐHSPHN
- Dữ liệu 7 Dữ liệu thường được biểu diễn bởi ma trận 𝑛 × 𝑑 chiều. Khai phá dữ liệu - ĐHSPHN
- Mô tả về dữ liệu 8 Ví dụ: Dữ liệu mẫu về khách hàng mua xe máy Lương Tuổi Class No.1 300.000 23 Y No.2 360.000 56 N No.3 470.000 43 Y No.4 500.000 30 N No.5 420.000 65 N No.6 520.000 26 Y No.7 660.000 28 N No.8 200.000 31 Y No.9 630.000 37 Y No.10 700.000 42 N No.11 800.000 47 N No.12 100.000 51 Y
- Mô tả về dữ liệu 9 Xác định các thuộc tính (features) tiêu biểu của dữ liệu về xu hướng chính (central tendency) và sự phân tán (dispersion) của dữ liệu Các độ đo về xu hướng chính: mean, median, mode, midrange Các độ đo về sự phân tán: quartiles, interquartile range (IQR) Làm nổi bật các giá trị dữ liệu nên được xem như nhiễu (noise) hoặc phần tử biên (outliers), cung cấp cái nhìn tổng quan về dữ liệu. Khai phá dữ liệu - ĐHSPHN
- Mô tả về dữ liệu 10 Các độ đo về xu hướng chính của dữ liệu Mean x N / 2 if N odd Median Median ( xN / 2 xN / 21 ) / 2 if N even Mode: giá trị xuất hiện thường xuyên nhất trong tập dữ liệu Midrange: giá trị trung bình của các giá trị lớn nhất và nhỏ nhất trong tập dữ liệu Khai phá dữ liệu - ĐHSPHN
- Mô tả về dữ liệu 11 Các độ đo về sự phân tán của dữ liệu Quartiles The first quartile (Q1): the 25th percentile The second quartile (Q2): the 50th percentile (median) The third quartile (Q3): the 75th percentile Interquartile Range (IQR) = Q3 – Q1 Outliers (the most extreme observations): giá trị nằm cách trên Q3 hay dưới Q1 một khoảng 1.5xIQR Variance = Standard deviation2
- Mô tả về dữ liệu 12 Q1 Q2 Q3 Tóm tắt mô tả về sự phân bố dữ liệu gồm năm trị số quan trọng: median, Q1, Q3, trị lớn nhất, và trị nhỏ nhất (theo thứ tự: Minimum, Q1, Median, Q3, Maximum). Khai phá dữ liệu - ĐHSPHN
- Luyện tập – ví dụ 1 13 Lương Tuổi Class No.1 3.000.000 23 Y No.2 9.600.000 56 N No.3 4.700.000 43 Y No.4 7.000.000 30 N No.5 6.200.000 65 N No.6 2.200.000 26 Y No.7 6.600.000 38 N No.8 2.000.000 31 Y No.9 6..300.000 37 Y No.10 7.000.000 42 N No.11 8.000.000 47 N No.12 10.000.000 51 Y Khai phá dữ liệu - ĐHSPHN
- 14 Tiền xử lý dữ liệu Khai phá dữ liệu - ĐHSPHN
- Tiền xử lý dữ liệu 15 Quá trình xử lý dữ liệu thô/gốc (raw/original data) nhằm cải thiện chất lượng dữ liệu (quality of the data) và từ đó cải thiện chất lượng của kết quả khai phá. Dữ liệu thô Có cấu trúc, bán cấu trúc, phi cấu trúc Được đưa vào từ các nguồn dữ liệu trong các hệ thống xử lý tập tin (file processing systems) và/hay các hệ thống cơ sở dữ liệu (database systems) Khai phá dữ liệu - ĐHSPHN
- Tiền xử lý dữ liệu 16 Dữ liệu chất lượng Tính chính xác (accuracy): giá trị được ghi nhận đúng với giá trị thực. Tính hiện hành (currency/timeliness): giá trị được ghi nhận không bị lỗi thời. Tính toàn vẹn (completeness): tất cả các giá trị dành cho một biến/thuộc tính đều được ghi nhận. Tính nhất quán (consistency): tất cả giá trị dữ liệu đều được biểu diễn như nhau trong tất cả các trường hợp. Khai phá dữ liệu - ĐHSPHN
- Tiền xử lý dữ liệu 17 Pattern Evaluation/ Presentation Data Mining Patterns Task-relevant Data Data Warehouse Selection/Transformation Data Cleaning Data Integration Data Sources
- Tiền xử lý dữ liệu 18 Làm sạch dữ liệu (data cleaning): loại bỏ nhiễu (remove noise), hiệu chỉnh những phần dữ liệu không nhất quán (correct data inconsistencies) Tích hợp dữ liệu (data integration): trộn dữ liệu (merge data) từ nhiều nguồn khác nhau vào một kho dữ liệu Biến đổi dữ liệu (data transformation): chuẩn hoá dữ liệu (data normalization) Thu giảm dữ liệu (data reduction): thu giảm kích thước dữ liệu bằng kết hợp dữ liệu, loại bỏ các thuộc tính dư thừa (redundant features), gom cụm dữ liệu
- 19 Làm sạch dữ liệu Khai phá dữ liệu - ĐHSPHN
- Làm sạch dữ liệu 20 Xử lý dữ liệu bị thiếu (missing data) Nhận diện phần tử biên (outliers) và giảm thiểu nhiễu (noisy data) Xử lý dữ liệu không nhất quán (inconsistent data) Khai phá dữ liệu - ĐHSPHN
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 7 - ĐH Bách khoa TP.HCM
22 p | 214 | 26
-
Bài giảng Khai phá dữ liệu trong kinh doanh - ĐH Thương Mại
0 p | 491 | 22
-
Bài giảng Khai phá dữ liệu - Trường ĐH Hàng Hải
73 p | 115 | 22
-
Bài giảng Khai phá dữ liệu - Chương 1: Tổng quan về khai phá dữ liệu
61 p | 156 | 16
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 0: Giới thiệu môn học
8 p | 127 | 14
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 8 - ĐH Bách khoa TP.HCM
8 p | 111 | 13
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 1 - Lê Tiến
61 p | 91 | 9
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 0 - Lê Tiến
7 p | 109 | 9
-
Bài giảng Khai phá dữ liệu web: Giới thiệu môn học
13 p | 105 | 9
-
Bài giảng Khai phá dữ liệu: Chương 8 - TS. Võ Thị Ngọc Châu
23 p | 80 | 8
-
Bài giảng Khai phá dữ liệu: Chương 1 - TS. Võ Thị Ngọc Châu
63 p | 106 | 8
-
Bài giảng Khai phá dữ liệu: Bài 1 - Văn Thế Thành
7 p | 89 | 5
-
Bài giảng Khai phá dữ liệu - Chương 1: Tổng quan
14 p | 144 | 4
-
Bài giảng Khai phá dữ liệu: Bài 0 - TS. Trần Mạnh Tuấn
10 p | 61 | 4
-
Bài giảng Khai phá dữ liệu: Bài 1 - TS. Trần Mạnh Tuấn
34 p | 67 | 4
-
Bài giảng Khai phá dữ liệu: Bài 2 - TS. Trần Mạnh Tuấn
32 p | 52 | 4
-
Bài giảng Khai phá dữ liệu: Chương 1 - Trường ĐH Phan Thiết
71 p | 41 | 4
-
Bài giảng Khai phá dữ liệu: Chương 4 - Trường ĐH Phan Thiết
70 p | 27 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn