Bài giảng Khai phá dữ liệu (Data mining) - Chương 2: Các vấn đề tiền xử lý dữ liệu
lượt xem 41
download
Các dữ liệu lưu trữ hoàn toàn là dưới dạng thô, chưa sẵn sàng cho việc phát hiện, khám phá thông tin ẩn chứa trong đó. Do vậy chúng cần phải qua giai đoạn tiền xử lý dữ liệu trước khi tiến hành bất kỳ một phân tích nào. Trong chương 2 này chúng ta sẽ tìm hiểu rõ hơn về giai đoạn tiền xử lý dữ liệu.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Khai phá dữ liệu (Data mining) - Chương 2: Các vấn đề tiền xử lý dữ liệu
- Chương 2: Các vấn đề tiền xử lý dữ liệu 1
- Nội dung Tổng quan về giai đoạn tiền xử lý dữ liệu Tóm tắt mô tả về dữ liệu Làm sạch dữ liệu Tích hợp dữ liệu Biến đổi dữ liệu Thu giảm dữ liệu Rời rạc hóa dữ liệu Tạo cây phân cấp ý niệm Tóm tắt 2
- Tổng quan về giai đoạn tiền xử lý dữ liệu Giai đoạn tiền xử lý dữ liệu: - Các kỹ thuật datamining đều thực hiện trên các cơ sở dữ liệu, nguồn dữ liệu lớn. Đó là kết quả của quá trình ghi chép liên tục thông tin phản ánh hoạt động của con người, các quá trình tự nhiên… - Các dữ liệu lưu trữ hoàn toàn là dưới dạng thô, chưa sẵn sàng cho việc phát hiện, khám phá thông tin ẩn chứa trong đó. Do vậy chúng cần phải qua giai đoạn tiền xử lý dữ liệu trước khi tiến hành bất kỳ một phân tích nào. 3
- Tổng quan về giai đoạn tiền xử lý dữ liệu Chất lượng dữ liệu (data quality) - Tính chính xác (accuracy): giá trị được ghi nhận đúng với giá trị thực. - Tính hiện hành (currency/timeliness): giá trị được ghi nhận không bị lỗi thời. - Tính toàn vẹn (completeness): tất cả các giá trị dành cho một biến/thuộc tính đều được ghi nhận. - Tính nhất quán (consistency): tất cả giá trị dữ liệu đều được biểu diễn như nhau trong tất cả các trường hợp. 4
- Tổng quan về giai đoạn tiền xử lý dữ liệu Pattern Evaluation/ Presentation Data Mining Patterns Task-relevant Data Data Warehouse Selection/Transformation Data Cleaning Data Integration Data Sources 5
- Tổng quan về giai đoạn tiền xử lý dữ liệu 6
- Tổng quan về giai đoạn tiền xử lý dữ liệu Các kỹ thuật tiền xử lý dữ liệu - Làm sạch dữ liệu (data cleaning/cleansing) - Tích hợp dữ liệu (data integration) - Biến đổi dữ liệu (data transformation) - Thu giảm dữ liệu (data reduction) 7
- Tóm tắt mô tả về dữ liệu Các kiểu dữ liệu 8
- Tóm tắt mô tả về dữ liệu Xác định các thuộc tính (properties) tiêu biểu của dữ liệu về xu hướng chính (central tendency) và sự phân tán (dispersion) của dữ liệu - Các độ đo về xu hướng chính: mean, median, mode, midrange - Các độ đo về sự phân tán: quartiles, interquartile range (IQR), variance Làm nổi bật các giá trị dữ liệu nên được xem như nhiễu (noise) hoặc phần tử biên (outliers), cung cấp cái nhìn tổng quan về dữ liệu 9
- Tóm tắt mô tả về dữ liệu Các độ đo về xu hướng chính của dữ liệu - Mean - Weighted arithmetic mean - Median x N / 2 if N odd Median ( xN / 2 xN / 21 ) / 2 if N even - Mode: giá trị xuất hiện thường xuyên nhất trong tập dữ liệu - Midrange: giá trị trung bình của các giá trị lớn nhất và nhỏ nhất trong tập dữ liệu 10
- Tóm tắt mô tả về dữ liệu Ví dụ: Mean: Giả sử chúng ta có các giá trị sau về lương (tính theo đơn vị nghìn đôla) theo thứ tự tăng dần như sau: 30, 36, 47, 50, 52, 52, 56, 60, 63, 70, 70, 110 Tính giá trị trung bình của các lương trên? 11
- Tóm tắt mô tả về dữ liệu Ví dụ: Median: Giả sử chúng ta có các giá trị sau về lương (tính theo đơn vị nghìn đôla) theo thứ tự tăng dần như sau: 30, 36, 47, 50, 52, 52, 56, 60, 63, 70, 70, 110 Tính median của các lương trên? - Dữ liệu trên được sắp xếp tăng dần, giá trị middlemost là 52 và 56. Do vậy median= (52+56)/2= 108/2= 54. 12
- Tóm tắt mô tả về dữ liệu Ví dụ: Mode, Midrange: Giả sử chúng ta có các giá trị sau về lương (tính theo đơn vị nghìn đôla) theo thứ tự tăng dần như sau: 30, 36, 47, 50, 52, 52, 56, 60, 63, 70, 70, 110 Mode, Midrange của các lương trên? Mode là $52,000 và $70,000 Midrange= 13
- Tóm tắt mô tả về dữ liệu Các độ đo về sự phân tán của dữ liệu - Quartiles The first quartile (Q1): the 25th percentile The second quartile (Q2): the 50th percentile (median) The third quartile (Q3): the 75th percentile - Interquartile Range (IQR) = Q3 – Q1 Outliers (the most extreme observations): giá trị nằm cách trên Q3 hay dưới Q1 một khoảng 1.5xIQR - Variance 14
- Tóm tắt mô tả về dữ liệu Ví dụ: Q1, Q2, Q3, IRQ: Giả sử chúng ta có các giá trị sau về lương (tính theo đơn vị nghìn đôla) theo thứ tự tăng dần như sau: 30, 36, 47, 50, 52, 52, 56, 60, 63, 70, 70, 110 Q1= 47$, Q3=63$, IRQ= 63-47=16$ 15
- Tóm tắt mô tả về dữ liệu Ví dụ: Variance and standard deviation: Giả sử chúng ta có các giá trị sau về lương (tính theo đơn vị nghìn đôla) theo thứ tự tăng dần như sau: 30, 36, 47, 50, 52, 52, 56, 60, 63, 70, 70, 110 16
- Tóm tắt mô tả về dữ liệu Q1 Q2 Q3 Tóm tắt mô tả về sự phân bố dữ liệu gồm năm trị số quan trọng: median, Q1, Q3, trị lớn nhất, và trị nhỏ nhất (theo thứ tự: Minimum, Q1, Median, Q3, Maximum). 17
- Outliers Tóm tắt mô tả về dữ liệu (the most extreme Boxplots và Outliers observatio - Boxplot là cách để biểu ns): giá diễn sự phân tán dữ liệu trị nằm - Boxplot được biểu diễn cách trên bởi 5 giá trị Minimum, Q1, Q3 hay Median, Q3, Maximum dưới Q1 như sau: một Chiều dài của box là khoảng interquartile range. 1.5xIQR Median được đánh dấu bởi đường gạch trong box. Hai gạch ngoài box là whiskers là the smallest (Minimum) và largest (Maximum) 18
- Làm sạch dữ liệu (data cleaning/cleansing): Thiếu giá trị - Hãy xem xét một kho dữ liệu bán hàng và quản lý khách hàng. Trong đó có thể có một hoặc nhiều giá trị mà khó có thể thu thập được ví dụ như thu nhập của khách hàng. Vậy làm cách nào để chúng ta có được các thông tin đó? 19
- Làm sạch dữ liệu (data cleaning/cleansing): Thiếu giá trị - Hãy xem xét các phương pháp sau: Bỏ qua các bộ Điền vào các giá trị thiếu bằng tay Sử dụng các giá trị quy ước để điền vào cho giá trị thiếu Sử dụng các thuộc tính có nghĩa là để điền vào cho giá trị thiếu Sử dụng các giá trị của các bộ cùng thể loại để thay thế cho giá trị thiếu Sử dụng giá trị có tỉ lệ xuất hiện cao để điền vào cho các giá trị thiếu 20
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 7 - ĐH Bách khoa TP.HCM
22 p | 214 | 26
-
Bài giảng Khai phá dữ liệu trong kinh doanh - ĐH Thương Mại
0 p | 491 | 22
-
Bài giảng Khai phá dữ liệu - Trường ĐH Hàng Hải
73 p | 115 | 22
-
Bài giảng Khai phá dữ liệu - Chương 1: Tổng quan về khai phá dữ liệu
61 p | 156 | 16
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 0: Giới thiệu môn học
8 p | 127 | 14
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 8 - ĐH Bách khoa TP.HCM
8 p | 111 | 13
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 1 - Lê Tiến
61 p | 91 | 9
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 0 - Lê Tiến
7 p | 109 | 9
-
Bài giảng Khai phá dữ liệu web: Giới thiệu môn học
13 p | 105 | 9
-
Bài giảng Khai phá dữ liệu: Chương 8 - TS. Võ Thị Ngọc Châu
23 p | 80 | 8
-
Bài giảng Khai phá dữ liệu: Chương 1 - TS. Võ Thị Ngọc Châu
63 p | 106 | 8
-
Bài giảng Khai phá dữ liệu: Bài 1 - Văn Thế Thành
7 p | 89 | 5
-
Bài giảng Khai phá dữ liệu - Chương 1: Tổng quan
14 p | 144 | 4
-
Bài giảng Khai phá dữ liệu: Bài 0 - TS. Trần Mạnh Tuấn
10 p | 61 | 4
-
Bài giảng Khai phá dữ liệu: Bài 1 - TS. Trần Mạnh Tuấn
34 p | 67 | 4
-
Bài giảng Khai phá dữ liệu: Bài 2 - TS. Trần Mạnh Tuấn
32 p | 52 | 4
-
Bài giảng Khai phá dữ liệu: Chương 1 - Trường ĐH Phan Thiết
71 p | 41 | 4
-
Bài giảng Khai phá dữ liệu: Chương 4 - Trường ĐH Phan Thiết
70 p | 27 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn