Bài giảng Khai phá dữ liệu: Chương 3 - Trường ĐH Phan Thiết
lượt xem 1
download
Bài giảng Khai phá dữ liệu: Chương 3 Hiểu dữ liệu và tiền xử lý dữ liệu, cung cấp cho người học những kiến thức như: Vai trò của hiểu dữ liệu; Đối tượng dữ liệu và kiểu thuộc tính; Độ đo tương tự và không tương tự của dữ liệu; Thu thập dữ liệu; Mô tả thống kê cơ bản của dữ liệu; Trực quan hóa dữ liệu; Đánh giá và lập hồ sơ dữ liệu;... Mời các bạn cùng tham khảo!
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Khai phá dữ liệu: Chương 3 - Trường ĐH Phan Thiết
- Chương 3 Hiểu dữ liệu và tiền xử lý dữ liệu
- Nội dung 1. Hiểu dữ liệu Vai trò của hiểu dữ liệu Đối tượng DL và kiểu thuộc tính Độ đo tương tự và không tương tự của DL Thu thập dữ liệu Mô tả thống kê cơ bản của DL Trực quan hóa DL Đánh giá và lập hồ sơ DL 2. Tiền xử lý dữ liệu Vai trò của tiền xử lý dữ liệu Làm sạch dữ liệu Tích hợp và chuyển dạng dữ liệu Rút gọn dữ liệu Rời rạc và sinh kiến trúc khái niệm DW DM 125
- 1. Hiểu dữ liệu Vai trò của hiểu dữ liệu Đối tượng dữ liệu và kiểu thuộc tính Độ đo tương tự và không tương tự Thu thập dữ liệu Mô tả thống kê cơ bản của DL Trực quan hóa DL Đánh giá và lập hồ sơ DL DW DM 126
- 1.1. Vai trò của hiểu dữ liệu: một mô hình KPDL hướng BI Mô hình phát triển tri thức hướng thông minh doanh nghiệp, 2009 [HF09]: Hiểu dữ liệu và hiểu thương mại điện tử DW DM 127
- Vai trò của hiểu dữ liệu: Một mô hình KPDL hướng ứng dụng Mô hình quá trình khai phá dữ liệu hướng miền ứng dụng [CYZ10]: Bước P3 “Hiểu dữ liệu”, Bước P4 “Tiền xử lý dữ liệu” DW DM 128
- Hiểu dữ liệu qua hai phiên bản sách Thay đổi đáng kể từ phiên bản 2006 tới phiên bản 2011: Phiên bản 2011 nhấn mạnh Hiểu dữ liệu ! DW DM 129
- 1.2. Kiểu tập dữ liệu Bản ghi Bản ghi quan hệ Ma trận DL, chẳng hạn, ma trận số, bảng timeout season coach game score team ball lost pla wi chéo… n y Dữ liệu tài liệu: Tài liệu văn bản dùng vector tần số từ … Document 1 3 0 5 0 2 6 0 2 0 2 Dữ liệu giao dịch Đồ thị và mạng Document 2 0 7 0 2 1 0 0 3 0 0 World Wide Web Document 3 0 1 0 0 1 2 2 0 3 0 Mạng xã hội và mạng thông tin Cấu trúc phân tử Thứ tự TID Items Dữ liệu Video: dãy các ảnh 1 Bread, Coke, Milk Dữ liệu thời gian: chuỗi thời gian 2 Beer, Bread Dữ liệu dãy: dãy giao dịch 3 Beer, Coke, Diaper, Milk Dữ liệu dãy gene Không gian, ảnh và đa phương tiện: 4 Beer, Bread, Diaper, Milk DL không gian: bản đồ 5 Coke, Diaper, Milk Dữ liệu ảnh, DW Dữ liệu Video DM 130
- Đặc trưng quan trọng của DL có cấu trúc Kích thước Tai họa của kích thước lớn Thưa Chỉ mang tính hiện diện Phân tích Mẫu phụ thuộc quy mô Phân bố Tập trung và phân tán DW DM 131
- Đối tượng dữ liệu Tập DL được tạo nên từ các đối tượng DL. Mỗi đối tượng dữ liệu (data object) trình bày một thực thể. Ví dụ: CSDL bán hàng: Khách hàng, mục lưu, doanh số CSDL y tế: bệnh nhân, điều trị CSDL đại học: sinh viên, giáo sư, môn học Tên khác: mẫu (samples ), ví dụ (examples), thể hiện (instances), điểm DL (data points), đối tượng (objects), bộ (tuples). Đối tượng DL được mô tả bằng các thuộc tính (attributes) Dòng CSDL -> đối tượng DL; cột ->thuộc tính. DW DM 132
- Thuộc tính Thuộc tính_Attribute (hoặc chiều_dimension, đặc trưng_features, biến_variables): một trường DL biểu diễn một thuộc tính/đặc trưng của một đối tượng DL. Ví dụ, ChisoKH, tên, địa chỉ Kiểu: Đinh danh Nhị phân Số: định lượng • Cỡ khoảng • Cỡ tỷ lệ DW DM 133
- Kiểu thuộc tính Định danh: lớp, trạng thái, hoặc “tên đồ vật” Hair_color = {auburn, black, blond, brown, grey, red, white} Tình trạng hôn nhân (marital status), nghề nghiệp (occupation), số ID (ID numbers), mã zip bưu điện (zip codes) Nhị phân Thuộc tính định danh hai trạng thái (0 và 1) Nhị phân đối xứng: Cả hai kết quả quan trọng như nhau • Chẳng hạn, giới tính Nhị phân phi ĐX: kết quả không quan trọng như nhau. • Chẳng hạn, kiểm tra y tế (tích cực/tiêu cực) • Quy ước: gán 1 cho kết quả quan trọng nhất (chẳng hạn, dương tính HIV) Có thứ tự Các giá trị có thứ tự mang nghĩa (xếp hạng) nhưng độ lớn các giá trị liên kết: không được biết DW Size = {small, medium, large}, grades, army rankings DM 134
- Kiểu thuộc tính số Số lượng (nguyên hay giá trị thực) Khoảng • Được đo theo kích thước các đơn vị cùng kích thước • Các giá trị có thứ tự – Chẳng hạn, nhiệt độ theo C˚hoặc F˚, ngày lịch • Không làm điểm “true zero-point” Tỷ lệ • zero-point vốn có • Các giá trị là một thứ bậc của độ đo so với đơn vị đo lường (10 K˚ là hai lần cao hơn 5 K˚). – Ví dụ, nhiệt độ theo Kelvin, độ dài đếm được, tổng số đếm được, số lượng tiền DW DM 135
- Thuộc tính rời rạc và liên tục Thuộc tính rời rạc Chỉ có một tập hữu hạn hoặc hữu hạn đếm được các giá trị • Chẳng hạn, mã zip, nghề nghiệp haowcj tập ácc từ trong một tập tài liệu Đôi lúc trình bày như các biến nguyên Lưu ý: Thuộc tính nhị phân là trường hợp riêng của thuộc tính rời rạc Thuộc tính liên tục Có rất nhiều các giá trị thuộc tính • Như nhiệt độ, chiều cao, trong lượng Thực tế, giá trị thực chỉ tính và trình bảng bằng sử dụng một hữu hạn chữ số Thuộc tính liên tục được trình bày phổ biến như biến dấu phảy động DW DM 136
- 1.3. Tương tự và phân biệt Tương tự Độ đo bằng số cho biết hai đối tượng giống nhau ra sao Giá trí càng cao khi hai đối tượng càng giống nhau Thường thuộc đoạn [0,1] Phân biệt-Dissimilarity (như khoảng cách) Độ đo bằng số cho biết hai đối tượng khác nhau ra sao Càng thấp khi các đối tượng càng giống nhau Phân biệt tối thiểu là 0 Giới hạn trên tùy Gần-Proximity chỉ dẫn tới tương tự hoặc phân biệt DM DW 137
- Ma trận DL và ma trận phân biệt Ma trân DL n điểm DL có p chiều x11 ... x1f ... x1p Hai chế độ ... ... ... ... ... x ... xif ... xip i1 ... ... ... ... ... x ... xnf ... xnp n1 Ma trận phân biệt n điểm DL nhưng chi 0 ghi khoảng cách d(2,1) 0 Ma trận tam giác d(3,1) d ( 3,2) 0 Chế độ đơn : : : d ( n,1) d ( n,2) ... ... 0 DW DM 138
- Đo khảng cách thuộc tính định danh Có thể đưa ra 2 hoặc nhiều hơn các trạng thái, như “red, yellow, blue, green” (tổng quát hóa thuộc tính nhị phân) Phương pháp 1: Đối sánh đơn giản m: lượng đối sánh, p: tổng số lượng biến Phương pháp 2: Dùng lượng lớn TT nhị phân d (i, j ) pm Tạo một TT nhị phân mới cho mỗi p từ M trạng thái định danh DW DM 139
- Đo khoảng cách các thuộc tính nhị phân Object j Bảng kề cho dữ liệu nhị phân Object i Đo khoảng cách các biến nhị phân đối xứng: Đo khoảng cách các biến nhị phân không đối xứng: Hệ số Jaccard (đo tương tự cho các biến nhị phân không ĐX): Chú ý: Hệ số Jaccard giống độ “gắn kết” (coherence): DW DM 140
- Phân biệt giữa các biến nhị phân Ví dụ Name Gender Fever Cough Test-1 Test-2 Test-3 Test-4 Jack M Y N P N N N Mary F Y N P N P N Jim M Y P N N N N Giới tính: thuộc tính nhị phân đối xứng Các thuộc tính còn lại: nhị phân phi đối xứng Cho giá trị Y và P là 1, và giá trị N là 0: 01 d ( jack , mary ) 0.33 2 01 11 d ( jack , jim ) 0.67 111 1 2 DW d ( jim , mary ) 0.75 11 2 DM 141
- Chuẩn hóa DL số Z-score: x z X: DL thô sẽ được chuẩn hóa, μ: trung bình mẫu (kỳ vọng_ của tập số, σ: độ lệch chuẩn Khoảng cách giữa DL thô và kỳ vọng theo đơn vị độ lệch chuẩn Âm (-) khi DL thô nhỏ thua kỳ vọng, “+” khi lớn hơn above Một cách khác: Tính độ lệch tuyệt đối trung bình sf 1 n (| x1 f m f | | x2 f m f | ... | xnf m f |) trong đó mf 1n (x1 f x2 f ... xnf ) . x m Độ chuẩn hóa (z-score): zif if sf f Dùng độ lệch tuyệt đố trung bình là mạnh mẽ hơn so với độ lệch chuẩn DW DM 142
- Ví dụ: Ma trận DL và ma trận phân biệt Ma trận DL Ma trận phân biệt (với khoảng cách Ơcơlit) x1 x2 x3 x4 x1 0 x2 3.61 0 x3 2.24 5.1 0 DW x4 4.24 1 5.39 DM 0 143
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 7 - ĐH Bách khoa TP.HCM
22 p | 214 | 26
-
Bài giảng Khai phá dữ liệu trong kinh doanh - ĐH Thương Mại
0 p | 491 | 22
-
Bài giảng Khai phá dữ liệu - Trường ĐH Hàng Hải
73 p | 115 | 22
-
Bài giảng Khai phá dữ liệu - Chương 1: Tổng quan về khai phá dữ liệu
61 p | 156 | 16
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 0: Giới thiệu môn học
8 p | 127 | 14
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 8 - ĐH Bách khoa TP.HCM
8 p | 111 | 13
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 1 - Lê Tiến
61 p | 91 | 9
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 0 - Lê Tiến
7 p | 109 | 9
-
Bài giảng Khai phá dữ liệu web: Giới thiệu môn học
13 p | 105 | 9
-
Bài giảng Khai phá dữ liệu: Chương 8 - TS. Võ Thị Ngọc Châu
23 p | 80 | 8
-
Bài giảng Khai phá dữ liệu: Chương 1 - TS. Võ Thị Ngọc Châu
63 p | 106 | 8
-
Bài giảng Khai phá dữ liệu: Bài 1 - Văn Thế Thành
7 p | 89 | 5
-
Bài giảng Khai phá dữ liệu - Chương 1: Tổng quan
14 p | 144 | 4
-
Bài giảng Khai phá dữ liệu: Bài 0 - TS. Trần Mạnh Tuấn
10 p | 61 | 4
-
Bài giảng Khai phá dữ liệu: Bài 1 - TS. Trần Mạnh Tuấn
34 p | 67 | 4
-
Bài giảng Khai phá dữ liệu: Bài 2 - TS. Trần Mạnh Tuấn
32 p | 52 | 4
-
Bài giảng Khai phá dữ liệu: Chương 1 - Trường ĐH Phan Thiết
71 p | 41 | 4
-
Bài giảng Khai phá dữ liệu: Chương 4 - Trường ĐH Phan Thiết
70 p | 27 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn