Bài giảng môn học Khai phá dữ liệu: Chương 3 - Hiểu dữ liệu và tiền xử lý dữ liệu
lượt xem 6
download
Bài giảng môn học Khai phá dữ liệu: Chương 3 - Hiểu dữ liệu và tiền xử lý dữ liệu sẽ giới thiệu tới các bạn những vấn đề chính liên quan đến vấn đề hiểu dữ liệu và xử lý tiền dữ liệu.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng môn học Khai phá dữ liệu: Chương 3 - Hiểu dữ liệu và tiền xử lý dữ liệu
- Bài giảng môn học KHAI PHÁ DỮ LIỆU CHƯƠNG 3. HIỂU DỮ LIỆU VÀ TIỀN XỬ LÝ DỮ LIỆU Khai phá dữ liệu: Chương 3 October 31, 2015 1
- Chương 3: Tiền xử lý dữ liệu Hiểu dữ liệu Vai trò của hiểu dữ liệu Đối tượng DL và kiểu thuộc tính Độ đo tương tự và không tương tự của DL Thu thập dữ liệu Mô tả thống kê cơ bản của DL Trực quan hóa DL Đánh giá và lập hồ sơ DL Tiền xử lý dữ liệu Vai trò của tiền xử lý dữ liệu Làm sạch dữ liệu Tích hợp và chuyển dạng dữ liệu Rút gọn dữ liệu Rời rạc và sinh kiến trúc khái niệm October 31, 2015 2
- Hiểu dữ liệu Vai trò của hiểu dữ liệu Đối tượng dữ liệu và kiểu thuộc tính Độ đo tương tự và không tương tự Thu thập dữ liệu Mô tả thống kê cơ bản của DL Trực quan hóa DL Đánh giá và lập hồ sơ DL October 31, 2015 3
- 3.1.1. Vai trò của hiểu dữ liệu: một mô hình KPDL hướng BI Mô hình phát triển tri thức hướng thông minh doanh nghiệp, 2009 [HF09]: Hiểu dữ liệu và hiểu thương mại điện tử October 31, 2015
- Vai trò của hiểu dữ liệu: Một mô hình KPDL hướng ứng dụng Mô hình quá trình khai phá dữ liệu hướng miền ứng dụng [CYZ10]: Bước P3 “Hiểu dữ liệu”, Bước P4 “Tiền xử lý dữ liệu” October 31, 2015
- Hiểu dữ liệu qua hai phiên bản sách Thay đổi đáng kể từ phiên bản 2006 tới phiên bản 2010: Phiên bản 2011 nhấn mạnh Hiểu dữ liệu ! October 31, 2015 6
- 3.1.2. Kiểu tập dữ liệu Bản ghi Bản ghi quan hệ Ma trận DL, chẳng hạn, ma trận số, bảng timeout season coach score game team ball lost pla wi chéo… n y Dữ liệu tài liệu: Tài liệu văn bản dùng vector tần số từ … Document 1 3 0 5 0 2 6 0 2 0 2 Dữ liệu giao dịch Đồ thị và mạng Document 2 0 7 0 2 1 0 0 3 0 0 World Wide Web Document 3 0 1 0 0 1 2 2 0 3 0 Mạng xã hội và mạng thông tin Cấu trúc phân tử Thứ tự TID Items Dữ liệu Video: dãy các ảnh 1 Bread, Coke, Milk Dữ liệu thời gian: chuỗi thời gian 2 Beer, Bread Dữ liệu dãy: dãy giao dịch 3 Beer, Coke, Diaper, Milk Dữ liệu dãy gene Không gian, ảnh và đa phương tiện: 4 Beer, Bread, Diaper, Milk DL không gian: bản đồ 5 Coke, Diaper, Milk Dữ liệu ảnh, Dữ liệu Video 7
- Đặc trưng quan trọng của DL có cấu trúc Kích thước Tai họa của kích thước lớn Thưa Chỉ mang tính hiện diện Phân tích Mẫu phụ thuộc quy mô Phân bố Tập trung và phân tán 8
- Đối tượng dữ liệu Tập DL được tạo nên từ các đối tượng DL. Mỗi đối tượng dữ liệu (data object) trình bày một thực thể. Ví dụ: CSDL bán hàng: Khách hàng, mục lưu, doanh số CSDL y tế: bệnh nhân, điều trị CSDL đại học: sinh viên, giáo sư, môn học Tên khác: mẫu (samples ), ví dụ (examples), thể hiện (instances), điểm DL (data points), đối tượng (objects), bộ (tuples). Đối tượng DL được mô tả bằng các thuộc tính (attributes) Dòng CSDL > đối tượng DL; cột >thuộc tính. 9
- Thuộc tính Thuộc tính_Attribute (hoặc chiều_dimension, đặc trưng_features, biến_variables): một trường DL biểu diễn một thuộc tính/đặc trưng của một đối tượng DL. Ví dụ, ChisoKH, tên, địa chỉ Kiểu: Đinh danh Nhị phân Số: định lượng Cỡ khoảng Cỡ tỷ lệ 10
- Kiểu thuộc tính Định danh: lớp, trạng thái, hoặc “tên đồ vật” Hair_color = {auburn, black, blond, brown, grey, red, white} Tình trạng hôn nhân (marital status), nghề nghiệp (occupation), số ID (ID numbers), mã zip bưu điện (zip codes) Nhị phân Thuộc tính định danh hai trạng thái (0 và 1) Nhị phân đối xứng: Cả hai kết quả quan trọng như nhau Chẳng hạn, giới tính Nhị phân phi ĐX: kết quả không quan trọng như nhau. Chẳng hạn, kiểm tra y tế (tích cực/tiêu cực) Quy ước: gán 1 cho kết quả quan trọng nhất (chẳng hạn, dương tính HIV) Có thứ tự Các giá trị có thứ tự mang nghĩa (xếp hạng) nhưng độ lớn các giá trị liên kết: không được biết Size = {small, medium, large}, grades, army rankings 11
- Kiểu thuộc tính số Số lượng (nguyên hay giá trị thực) Khoảng Được đo theo kích thước các đơn vị cùng kích thước Các giá trị có thứ tự Chẳng hạn, nhiệt độ theo C˚hoặc F˚, ngày lịch Không làm điểm “true zeropoint” Tỷ lệ zeropoint vốn có Các giá trị là một thứ bậc của độ đo so với đơn vị đo lường (10 K˚ là hai lần cao hơn 5 K˚). Ví dụ, nhiệt độ theo Kelvin, độ dài đếm được, tổng số đếm được, số lượng tiền 12
- Thuộc tính rời rạc và liên tục Thuộc tính rời rạc Chỉ có một tập hữu hạn hoặc hữu hạn đếm được các giá trị Chẳng hạn, mã zip, nghề nghiệp haowcj tập ácc từ trong một tập tài liệu Đôi lúc trình bày như các biến nguyên Lưu ý: Thuộc tính nhị phân là trường hợp riêng của thuộc tính rời rạc Thuộc tính liên tục Có rất nhiều các giá trị thuộc tính Như nhiệt độ, chiều cao, trong lượng Thực tế, giá trị thực chỉ tính và trình bảng bằng sử dụng một hữu hạn chữ số Thuộc tính liên tục được trình bày phổ biến như biến dấu phảy động 13
- 3.1.4. Tương tự và phân biệt Tương tự Độ đo bằng số cho biết hai đối tượng giống nhau ra sao Giá trí càng cao khi hai đối tượng càng giống nhau Thường thuộc đoạn [0,1] Phân biệtDissimilarity (như khoảng cách) Độ đo bằng số cho biết hai đối tượng khác nhau ra sao Càng thấp khi các đối tượng càng giống nhau Phân biệt tối thiểu là 0 Giới hạn trên tùy 14 GầnProximity chỉ dẫn tới tương tự hoặc phân biệt
- Ma trận DL và ma trận phân biệt Ma trân DL n điểm DL có p chiều x11 ... x1f ... x1p Hai chế độ ... ... ... ... ... xi1 ... xif ... xip ... ... ... ... ... xn1 ... xnf ... xnp Ma trận phân biệt n điểm DL nhưng chi 0 gi khoảng cách d(2,1) 0 Ma trận tam giác d(3,1) d ( 3,2) 0 Chế độ đơn : : : d ( n,1) d ( n,2) ... ... 0 15
- Đo khảng cách thuộc tính định danh Có thể đưa ra 2 hoặc nhiều hơn các trạng thái, như “red, yellow, blue, green” (tổng quát hóa thuộc tính nhị phân) Phương pháp 1: Đối sánh đơn giản m: lượng đối sánh, p: tổng số lượng biến d (i, j) p p m Phương pháp 2: Dùng lượng lớn TT nhị phân Tạo một TT nhị phân mới cho mỗi từ M trạng thái định danh 16
- Đo khoảng cách các thuộc tính nhị phân Object j Bảng kề cho dữ liệu nhị phân Object i Đo khoảng cách các biến nhị phân đối xứng: Đo khoảng cách các biến nhị phân không đối xứng: Hệ số Jaccard (đo tương tự cho các biến nhị phân không ĐX): Chú ý: Hệ số Jaccard giống độ “gắn kết” (coherence): 17
- Phân biệt giữa các biến nhị phân Ví dụ Name Gender Fever Cough Test1 Test2 Test3 Test4 Jack M Y N P N N N Mary F Y N P N P N Jim M Y P N N N N Giới tính: thuộc tính nhị phân đối xứng Các thuộc tính còn lại: nhị phân phi đối xứng Cho giá trị Y và P là 1, và giá trị N là 0: 0 1 d ( jack , mary ) 0.33 2 0 1 1 1 d ( jack , jim ) 0.67 1 1 1 1 2 d ( jim , mary ) 0.75 1 1 2 18
- Chuẩn hóa DL số Z-score: z x X: DL thô sẽ được chuẩn hóa, μ: trung bình mẫu (kỳ vọng_ của tập số, σ: độ lệch chuẩn Khoảng cách giữa DL thô và kỳ vọng theo đơn vị độ lệch chuẩn Âm (-) khi DL thô nhỏ thua kỳ vọng, “+” khi lớn hơn above Một cách khác: Tính độ lệch tuyệt đối trung bình sf 1 (| x m | | x m f | ... | xnf m f |) n 1f f 2f trong đó mf 1n (x1 f x2 f ... xnf ) . xif m f zif sf Độ chuẩn hóa (z-score): Dùng độ lệch tuyệt đố trung bình là mạnh mẽ hơn so với độ lệch chuẩn 19
- Ví dụ: Ma trận DL và ma trận phân biệt x2 x4 Ma trận DL 4 2 x1 Ma trận phân biệt (với khoảng cách Ơcơlit) x3 0 2 4 x1 x2 x3 x4 x1 0 x2 3.61 0 x3 2.24 5.1 0 x4 4.24 1 5.39 0 20
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng môn học Khai phá dữ liệu: Bài mở đầu - ThS. Nguyễn Vương Thịnh
36 p | 195 | 44
-
Bài giảng Nhập môn khai phá dữ liệu: Chương giới thiệu môn học - PGS. TS. Hà Quang Thụy
6 p | 67 | 21
-
Bài giảng môn học Kho dữ liệu và khai phá dữ liệu
41 p | 205 | 19
-
Bài giảng Nhập môn khai phá dữ liệu: Giới thiệu môn học – K55
12 p | 198 | 18
-
Bài giảng Khai phá quan điểm và khai phá phương tiện xã hội: Giới thiệu môn học - PGS.TS. Hà Quang Thụy
9 p | 99 | 12
-
Bài giảng môn học Khai phá dữ liệu: Chương 1
40 p | 127 | 10
-
Bài giảng Khai phá dữ liệu web: Giới thiệu môn học
13 p | 105 | 9
-
Bài giảng Chủ đề hiện đại về khai phá dữ liệu “khai phá quá trình” dành cho nghiên cứu sinh Tiến sỹ: Giới thiệu môn học - PGS.TS. Hà Quang Thụy
8 p | 91 | 8
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 1 - Nguyễn Nhật Quang
54 p | 35 | 7
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 1.2: Giới thiệu về Học máy và khai phá dữ liệu
29 p | 19 | 6
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 0: Giới thiệu môn học
12 p | 24 | 6
-
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương mở đầu - Nguyễn Ngọc Duy
4 p | 31 | 6
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 12: Khai phá tập mục thường xuyên và các luật kết hợp
28 p | 21 | 6
-
Bài giảng Khai phá dữ liệu: Nội dung bổ sung về Khai phá dữ liệu - PGS. TS. Hà Quang Thụy
102 p | 29 | 5
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 1: Giới thiệu về Học máy và khai phá dữ liệu
38 p | 23 | 5
-
Bài giảng Nhập môn khai phá dữ liệu: Chương 5 - PGS. TS. Hà Quang Thụy
70 p | 27 | 4
-
Bài giảng Khai phá Web: Giới thiệu môn học - TS. Nguyễn Kiêm Hiếu
3 p | 93 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn