Bài giảng Khai phá dữ liệu - Chương 2: Tiền xử lý các dữ liệu
lượt xem 13
download
Bài giảng cung cấp cho người học các kiến thức: Tiền xử lý dữ liệu. Hi vọng đây sẽ là một tài liệu hữu ích dành cho các bạn sinh viên đang theo học môn dùng làm tài liệu học tập và nghiên cứu.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Khai phá dữ liệu - Chương 2: Tiền xử lý các dữ liệu
- TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM KHOA CÔNG NGHỆ THÔNG TIN BÀI GIẢNG MÔN HỌC KHAI PHÁ DỮ LIỆU CH ƯƠN G 2 : TIỀN X Ử LÝ D Ữ LIỆU Gi ản g v iê n : Th S . N g u y ễn V ươn g Th ịn h B ộ m ô n : H ệ t h ốn g t h ô n g t in H ải P h ò n g ,
- Th ô n g t in v ề g i ản g v iê n Họ và tên Nguyễn Vương Thịnh Đơn vị công tác Bộ môn Hệ thống thông tin – Khoa Công nghệ thông tin Học vị Thạc sỹ Chuyên ngành Hệ thống thông tin Cơ sở đào tạo Trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội Năm tốt nghiệp 2012 Điện thoại 0983283791 Email thinhnv@vimaru.edu.vn Website cá nhân http://scholar.vimaru.edu.vn/thinhnv 2
- Th ô n g t in v ề h ọc p h ần Tên học phần Khai phá dữ liệu Tên tiếng Anh Data Mining Mã học phần 17409 Số tín chỉ 03 tín chỉ Số tiết lý thuyết 39 tiết (13 tuần x 03 tiết/tuần) Số tiết thực hành 10 tiết (05 tuần x 02 tiết/tuần) Bộ môn phụ trách Hệ thống thông tin PHƯƠNG PHÁP HỌC TẬP, NGHIÊN CỨU v N g h e g i ản g , t h ảo lu ận , t ra o đ ổi v ới g i ản g v iê n t rê n l ớp . P H ƯƠTNựG P n g HÁP h iê n Đ c ứ ÁNu tH GIÁ à i li ệu v à là m b à i t ập ở n h à . v v S V p h ải t h a m d ự ít n h ất 7 5 % t h ời g ia n . v Có 0 2 b à i k i ểm t ra v i ết g i ữa h ọc p h ần ( X = X2 = ( L1 + L2 ) /2 ) . 3 v Th i k ết t h ú c h ọc p h ần b ằn g h ìn h t h ức t r ắc n g h i ệm k h á c h q u a n t rê n m á y t ín h ( Z = 0 . 5 X + 0 . 5 Y) .
- Tài liệu tham khảo 1. Jiawei Han and Micheline Kamber, D a t a Min in g Co n c e p t s a n d Te c h n iq u e s , Elsevier Inc, 2006. 2. Ian H. Witten, Eibe Frank, D a t a Min in g – P ra c t ic a l Ma c h in e Le a rn in g To o ls a n d Te c h n iq u e s ( t h e s e c o n d e d it io n ) , Elsevier Inc, 2005 (sử dụng kèm với công cụ Weka). 3. Elmasri, Navathe, Somayajulu, Gupta, Fu n d a m e n t a ls o f D a t a b a s e S y s t e m s ( t h e 4 t h Ed it io n ) , Pearson Education Inc, 2004. 4. Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú, Giá o t rìn h Kh a i p h á d ữ li ệu We b , NXB Giáo dục, 2009 4
- 5
- Cô n g c ụ p h ần m ềm h ỗ t rợ Phần mềm Weka được phát triển bởi nhóm nghiên cứu của trường Đại học Waikato (New Zealand) từ năm 1999. Có thể download về tại địa chỉ: http://www.cs.waikato.ac.nz/ml/weka/downloading.html 6
- 7
- CHƯƠNG 2: TIỀN XỬ LÝ DỮ LIỆU 2.1. KHÁI NIỆM VỀ TIỀN XỬ LÝ DỮ LIỆU? 2.2. TÓM TẮT MÔ TẢ DỮ LIỆU 2.3. LÀM SẠCH DỮ LIỆU 2.4. TÍCH HỢP VÀ CHUYỂN DẠNG DỮ LIỆU 2.5. RÚT GỌN DỮ LIỆU 8
- 2.1. KHÁI NIỆM VỀ TIỀN XỬ LÝ DỮ LIỆU 2.1.1. Tại sao phải tiền xử lý dữ liệu? Dữ liệu trong thế giới thực (mà chúng ta muốn phân tích bằng cách áp dụng các kỹ thuật khai phá dữ liệu) thường: • Không hoàn chỉnh (incomplete): thiếu vắng các giá trị hoặc các thuộc tính đáng quan tâm, hoặc chỉ chứa các dữ liệu gộp nhóm. • Chứa đựng các giá trị nhiễu (noisy): bao gồm các lỗi hoặc các giá trị lệch quá xa ra ngoài phạm vi mong đợi. • Không nhất quán (inconsistent). Lý do: q Kích thước dữ liệu quá lớn. q Được thu thập từ nhiều nguồn khác nhau. ⟹ Chất lượng dữ liệu thấp sẽ dẫn tới những kết quả khai phá tồi. Tiền xử lý dữ liệu là quá trình áp dụng các kỹ thuật nhằm nâng cao chất lượng dữ liệu và từ đó giúp nâng cao chất lượng kết quả khai phá. 9
- 2.1.2. Những nguyên nhân ảnh hưởng đến chất lượng dữ liệu A. Nguyên nhân khiến dữ liệu không hoàn chỉnh (incomplete): ü Giá trị tương ứng không thể chấp nhận vào thời điểm thu thập. ü Sự khác biệt về quan điểm giữa thời điểm thu thập và thời điểm phân tích. ü Các lỗi gây ra bởi con người (nhập liệu sót) hoặc bởi hệ thống (phần cứng/phần mềm). B. Nguyên nhân gây ra các giá trị nhiễu (noisy): ü Lỗi của các thiết bị thu thập dữ liệu. ü Lỗi nhập dữ liệu sai (gây ra bởi con người hay máy tính). ü Lỗi trong quá trình truyền dữ liệu. C. Nguyên nhân gây ra tính không nhất quán (inconsistent): ü Dữ liệu đến từ các nguồn khác nhau. ü Sự vi phạm các phụ thuộc hàm. D. Sự xuất hiện các bản ghi trùng lặp. 10
- 2.1.3. Các kỹ thuật tiền xử lý dữ liệu A. Tích hợp dữ liệu (Data Integration): kết hợp dữ liệu từ nhiều nguồn khác nhau thành một kho dữ liệu thống nhất. ⟹ Có thể gây ra: - Sự không nhất quán (inconsistencies). - Dư thừa dữ liệu (redundancies). B. Làm sạch dữ liệu (Data Cleaning): kỹ thuật này được thực hiện thông qua việc bổ sung các giá trị thiếu (missing values), loại bỏ các dữ liệu nhiễu (noisy data), xác định và loại bỏ những giá trị lệch quá xa so với mong đợi (outliers), giải quyết vấn đề không nhất quán trong dữ liệu (inconsistencies). q Nếu người dùng thấy rằng dữ liệu là không “sạch”, họ sẽ không mấy tin tưởng vào kết quả khai phá trên dữ liệu đó. q Dữ liệu không “sạch” có thể gây ra những nhiễu loạn cho các thủ tục khai phá dữ liệu và dẫn tới những kết quả không đáng tin cậy. q Dù trong hầu hết các thủ tục khai phá dữ liệu đều cài đặt những cơ chế nhằm xử lý các vấn đề về thiếu vắng giá trị hay nhiễu nhưng chúng không phải lúc nào cũng đáng tin cậy. ⟹ Làm sạch dữ liệu là bước tiền xử lý cực kỳ quan trọng. 11
- C. Chuyển dạng dữ liệu (Data Transformation): bao gồm các thao tác như là chuẩn hóa (normalization) và gộp nhóm (aggregation). Đây là kỹ thuật bổ sung góp phần vào thành công của tiến trình khai phá dữ liệu. D. Rút gọn dữ liệu (Data Reduction): Tập dữ liệu quá lớn (huge) sẽ làm tiến trình khai phá trở nên chậm chạp ⟹ Nhu cầu: Giảm kích thước tập dữ liệu mà không ảnh hưởng đến kết quả khai phá. Kỹ thuật rút gọn dữ liệu cho phép biểu diễn tập dữ liệu dưới dạng rút gọn tức là nhỏ hơn rất nhiều về mặt kích thước/dung lượng (volume) nhưng vẫn cho kết quả khai phá/phân tích chính xác. Các chiến lược: q Gộp nhóm dữ liệu (data aggregation): vd: xây dựng một data cube. q Lựa chọn tập thuộc tính (attribute subset selection): vd: loại bỏ các thuộc tính không thích hợp thông qua phân tích tương quan (correlation analysis). q Giảm số chiều dữ liệu (dimensionality reduction): giảm số lượng các biến ngẫu nhiên hoặc thuộc tính. Vd: sử dụng các lược đồ mã hóa với chiều dài mã tối thiểu hoặc sử dụng biến đổi wavelet. q Giảm biểu diễn số lớn (numerosity reduction): thay dữ liệu đã có bằng các cách biểu diễn thay thế gọn hơn như là sử dụng biểu diễn cụm (cluster) hoặc mô hình tham số (parametric model). q Sử dụng lược đồ phân cấp khái niệm: khái niệm mức thấp (low-level) được thay thế 12 bằng các khai niệm ở mức cao hơn (higher-level).
- 13
- 2.2. TÓM TẮT MÔ TẢ DỮ LIỆU Để có thể khai phá dữ liệu thành công, cần có cái nhìn toàn thể về bức tranh dữ liệu muốn khai phá. 2.2.1. Khái niệm về tóm tắt mô tả dữ liệu Tóm tắt mô tả dữ liệu (descriptive data summarization) là kỹ thuật được sử dụng nhằm xác định những đặc trưng điển hình và những đặc điểm nổi bật (hightlight) của dữ liệu (những giá trị được xem là nhiễu (noise) hoặc vượt ngoài phạm vi mong đợi (outliers)). Khi nghiên cứu các đặc trưng của dữ liệu, người ta quan tâm tới: 1. Xu hướng tập trung của dữ liệu (central tendency): đặc trưng bởi các đại lượng thống kê: trung bình, trung vị, mode, midrange. 2. Sự phân ly của dữ liệu (dispersion): đặc trưng bởi các các đại lượng như: tứ phân vị (quartile),khoảng tứ phân vị (interquartile range – IRQ), phương sai (variance). 14
- 2.2.2. Đánh giá xu hướng tập trung của dữ liệu 2.2.2.1. Giá trị trung bình (Mean) Xét dãy gồm N phần tử {x1, x2 ,…, xN}. Giá trị trung bình (mean) được xác định bởi công thức:N xi x1 + x2 + ... + xN x= i =1 = N N Nếu mỗi phần tử xi có một trọng số wi đi kèm thì giá trị trung bình gọi là trung bình dựa trên trọng số (weighted average) và được xác định bởi: N xi w i x1w1 + x2 w 2 + ... + xN w N x= i =1 = N w1 + w 2 + ... + w N wi i =1 Trị trung bình xác định giá trị “trung tâm” (center) của tập dữ liệu. 1.2.2.2. Trung vị (Median) Xét dãy gồm N phần tử được sắp có thứ tự {x1, x2 ,…, xN}. Nếu N là số nguyên lẻ (N=2K+1) thì trung vị Med = x[N/2]+1 (phần tử chính giữa dãy). Nếu N là số nguyên chẵn (N=2K) thì trung vị Med = (XN/2 + XN/2+1)/2 15 (trung bình cộng của hai phần tử chính giữa dãy).
- Tính xấp xỉ giá trị của trung vị Dữ liệu được nhóm thành từng đoạn (intervals) tùy thuộc vào các giá trị dữ liệu xi. Tần suất xuất hiện (frequency) ứng với mỗi đoạn(thường được xác định bằng số giá trị có trong mỗi đoạn) đều đã biết. Đoạn có tần suất xuất hiện là trung vị của các tần suất gọi là đoạn trung vị (median interval). Trung vị của toàn tập dữ liệu có thể tính xấp xỉ bởi: N: số giá trị có trong toàn bộ tập dữ liệu L1: biên dưới của đoạn trung vị (∑freq)l : tổng tần suất của các đoạn nhỏ hơn đoạn trung vị freqmedian : tần suất của đoạn trung vị width: độ rộng của đoạn trung vị 16
- 17
- 2.2.3. Đánh giá sự phân ly của dữ liệu 2.2.3.1. K-thập phân vị và tứ phân vị K-thập phân vị (kth percentile) của của một tập dữ liệu có thứ tự là một giá trị xi có tính chất: K% các mục dữ liệu trong tập dữ liệu có giá trị bằng hoặc nhỏ hơn xi. Nhất-tứ phân vị (first quartile) là 25-thập phân vị (Q1) Tam-tứ phân vị (third quartile) là 75-thập phân vị (Q3) Khoảng liên tứ phân vị (interquartile range - IQR): IQR = Q3 - Q1 ⟹ Có 5 giá trị biểu diễn tóm tắt dữ liệu: Min, Q1, Median, Q3, Max. Biểu diễn phân bố bằng biểu đồ cột (boxplots): Cuối của mỗi cột biểu diễn là giá trị tứ phân vị và chiều dài của mỗi cột là khoảng liên tứ phân vị. Trung vị được ký hiệu bằng một đường gạch ngang giữa cột biểu diễn. Hai đường thẳng bên ngoài cột mở rộng tới vị trí biểu diễn cho giá trị lớn nhất và nhỏ nhất của dãy. 18
- 19
- 2.2.3.2. Phương sai và độ lệch chuẩn Phương sai (variance) của N giá trị x1, x2,…, xN được xác định bằng công thức: x : giá trị trung bình của N giá trị. Đ ộ l ệc h c h u ẩn (standard deviation) σ được xác định bằng căn bậc 2 của phương sai. Lưu ý : • Độ lệch chuẩn phân bổ xung quanh giá trị trung bình và chỉ được sử dụng k h i g iá t rị t ru n g b ìn h đ ược c h ọn là m g iá t rị đ ặc t rưn g c h o t ru n g t â m c ủa d ã y. • σ = 0 c ó n g h ĩa là k h ô n g c ó s ự p h â n b ố p h ươn g s a i, t ất c ả c á c g iá t rị đ ều b ằn g n h a u . 20
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 7 - ĐH Bách khoa TP.HCM
22 p | 214 | 26
-
Bài giảng Khai phá dữ liệu trong kinh doanh - ĐH Thương Mại
0 p | 488 | 22
-
Bài giảng Khai phá dữ liệu - Trường ĐH Hàng Hải
73 p | 115 | 22
-
Bài giảng Khai phá dữ liệu - Chương 1: Tổng quan về khai phá dữ liệu
61 p | 155 | 16
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 0: Giới thiệu môn học
8 p | 127 | 14
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 8 - ĐH Bách khoa TP.HCM
8 p | 111 | 13
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 1 - Lê Tiến
61 p | 91 | 9
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 0 - Lê Tiến
7 p | 109 | 9
-
Bài giảng Khai phá dữ liệu web: Giới thiệu môn học
13 p | 104 | 9
-
Bài giảng Khai phá dữ liệu: Chương 8 - TS. Võ Thị Ngọc Châu
23 p | 80 | 8
-
Bài giảng Khai phá dữ liệu: Chương 1 - TS. Võ Thị Ngọc Châu
63 p | 106 | 8
-
Bài giảng Khai phá dữ liệu: Bài 1 - Văn Thế Thành
7 p | 88 | 5
-
Bài giảng Khai phá dữ liệu - Chương 1: Tổng quan
14 p | 143 | 4
-
Bài giảng Khai phá dữ liệu: Bài 0 - TS. Trần Mạnh Tuấn
10 p | 61 | 4
-
Bài giảng Khai phá dữ liệu: Bài 1 - TS. Trần Mạnh Tuấn
34 p | 67 | 4
-
Bài giảng Khai phá dữ liệu: Bài 2 - TS. Trần Mạnh Tuấn
32 p | 52 | 4
-
Bài giảng Khai phá dữ liệu: Chương 1 - Trường ĐH Phan Thiết
71 p | 41 | 4
-
Bài giảng Khai phá dữ liệu: Chương 4 - Trường ĐH Phan Thiết
70 p | 27 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn