Bài giảng Khai phá dữ liệu - Chương 2: Tiền xử lý dữ liệu
lượt xem 15
download
Chương 2 trình bày về giai đoạn tiền xử lý dữ liệu. Sau khi học xong chương này người học có thể biết được: Tại sao phải tiền xử lý dữ liệu? Các vấn đề dữ liệu, các chiều đo chất lượng dữ liệu, nhiệm vụ chính trong tiền xử lý dữ liệu,... Mời các bạn cùng tham khảo.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Khai phá dữ liệu - Chương 2: Tiền xử lý dữ liệu
- Chương 2: Tiền xử lý dữ liệu Chất lượng dữ liệu Mục tiêu chính của việc chuẩn bị dữ liệu: - Để sắp xếp dữ liệu thành ở dạng chuẩn sẵn sàng được xử lý bởi các chương trình khai phá dữ liệu. - Để chuẩn bị các đặc tính tốt nhất cho việc khai phá
- Chương 2: Tiền xử lý dữ liệu Tại sao phải tiền xử lý dữ liệu? - Dữ liệu trong thế giới thực là hỗn tạp • Không đầy đủ: thiếu giá trị thuộc tính, thiếu các thuộc tính chắc chắn cần quan tâm, hoặc chỉ chứa dữ liệu chung • Nhiễu: chứa dữ liệu bị lỗi hoặc bị lệch • Không nhất quán (mâu thuẫn): chứa các mã hoặc các tên mâu thuẫn nhau - Dữ liệu không đảm bảo chất lượng thì kết quả khai phá không hiệu quả • Chất lượng các quyết định phải dựa trên chất lượng dữ liệu
- Chương 2: Tiền xử lý dữ liệu Tại sao phải tiền xử lý dữ liệu? * Dữ liệu bị lệch Lệch là các đối tượng dữ liệu có các đặc tính khác đáng kể với phần lớn các đối tượng dữ liệu khác trong tập dữ liệu. * Các giá trị bị mất – Không thu thập được thông tin Ví dụ: người được điều tra từ chối không cung cấp thông tin tuổi và cân nặng của họ – Các thuộc tính không phù hợp trong mọi trường hợp Ví dụ: thu nhập hàng năm không áp dụng cho trẻ con
- Chương 2: Tiền xử lý dữ liệu Các vấn đề dữ liệu • Dữ liệu nào có sẵn cho nhiệm vụ khai phá? • Dữ liệu có phù hợp không? • Dữ liệu thích hợp bổ sung có sẵn không? • Dữ liệu lịch sử có sẵn được bao nhiêu? • Ai là chuyên gia dữ liệu ?
- Chương 2: Tiền xử lý dữ liệu Các chiều đo chất lượng dữ liệu • Độ chính xác • Tính đầy đủ • Tính nhất quán • Tính hợp thời • Độ tin cậy • Giá trị được bổ sung • Tính có thể hiểu được • Tính có thể truy cập được
- Chương 2: Tiền xử lý dữ liệu Nhiệm vụ chính trong tiền xử lý dữ liệu • Làm sạch dữ liệu: – Bổ sung các giá trị bị mất, làm trơn nhiễu, nhận dạng hoặc khử lệch, giải quyết các vấn đề không nhất quán • Tích hợp dữ liệu – Tích hợp dữ liệu từ nhiều CSDL, từ các khối dữ liệu hoặc từ các file • Biến đổi dữ liệu – Chuẩn hóa hoặc kết hợp • Thu nhỏ dữ liệu – Có được biểu diễn dữ liệu dạng thu nhỏ nhưng không ảnh hưởng tới kết quả phân tích • Rời rạc hóa dữ liệu – Một phần của thu nhỏ dữ liệu nhưng đặc biệt quan trọng với dữ liệu dạng số
- Chương 2: Tiền xử lý dữ liệu Làm sạch dữ liệu Các nhiệm vụ làm sạch dữ liệu: – Thu nhận dữ liệu và siêu dữ liệu – Bổ sung các giá trị dữ liệu bị mất – Thống nhất định dạng ngày tháng – Chuyển đổi các giá trị dạng số – Xác định lệch và làm trơn nhiễu – Làm đúng dữ liệu không nhất quán
- Chương 2: Tiền xử lý dữ liệu Làm sạch dữ liệu: • Dữ liệu có trong các hệ quản trị CSDL: – Các giao thức ODBC, JDBC • Dữ liệu trong file: – Định dạng các cột cố định – Định dạng phân cách: tab, dấu “,”, ... • Phân biệt số lượng các trường trước khi làm sạch và sau khi làm sạch
- Chương 2: Tiền xử lý dữ liệu Làm sạch dữ liệu • Các kiểu trường: – Nhị phân, tên (có phân loại), thứ tự, số,... – Với các trường kiểu tên: các bảng chuyển mã thành mô tả đầy đủ • Vai trò của trường • Mô tả trường
- Chương 2: Tiền xử lý dữ liệu Làm sạch dữ liệu Chuyển dữ liệu sang dạng chuẩn (Vd: arff (file thuộc tính-quan hệ), csv (dấu phẩy tách giá trị) ) – Các giá trị bị mất – Định dạng ngày tháng được hợp nhất – Sắp xếp dữ liệu dạng số – Xác định lỗi và lệch – Chuyển các trường tên có giá trị được sắp xếp thành dạng số
- Chương 2: Tiền xử lý dữ liệu Dữ liệu bị mất • Dữ liệu không luôn có sẵn – VD: nhiều bộ dữ liệu có các thuộc tính không có dữ liệu, như thu nhập khách hàng trong dữ liệu bán hàng • Dữ liệu bị mất do: – Sự cố thiết bị – Mâu thuẫn với các bản ghi khác và do đó bị xóa – Dữ liệu không được nhập vào do hiểu nhầm – Không nhận thấy tầm quan trọng của dữ liệu nhập vào – Không ghi nhận lịch sử hoặc sự thay đổi dữ liệu
- Chương 2: Tiền xử lý dữ liệu Giải quyết dữ liệu bị mất • Bỏ qua: thường được dùng khi nhãn lớp bị mất • Điền giá trị bị mất bằng tay: nhàm chán + bất tiện? • Dùng một giá trị chung cho giá trị bị mất: VD: “unknown” • Tóm lại: dùng giá trị thuộc tính trung bình để điền vào các giá trị bị mất, hoặc dùng giá trị thuộc tính trung bình cho tất cả các mẫu thuộc về cùng một lớp để điền vào các giá trị bị mất.
- Chương 2: Tiền xử lý dữ liệu Dữ liệu nhiễu • Nhiễu là sự thay đổi giá trị gốc của dữ liệu Ví dụ: sự biến dạng giọng nói của người khi nói trên một điện thoại có chất lượng kém và hiện tượng “mè” trên tivi
- Chương 2: Tiền xử lý dữ liệu Giải quyết dữ liệu nhiễu • Dãy: – Sắp xếp dữ liệu và chia thành các dãy (có chiều dài bằng nhau) – Sử dụng các phương pháp làm trơn nhiễu như: giá trị dãy trung bình, trung vị hoặc biên • Phân nhóm: – Phát hiện và khử lệch • Kết hợp người và máy: – Máy phát hiện giá trị nghi ngờ và con người kiểm tra lại • Hồi qui: – Làm trơn bằng cách đưa dữ liệu vào các hàm
- Chương 2: Tiền xử lý dữ liệu Phương pháp rời rạc hóa đơn giản Chia khoảng cách thành các khoảng có độ rộng bằng nhau: – Chia dãy (vùng) thành N khoảng có kích thước bằng nhau: lưới đồng dạng – if A và B lần lượt là giá trị thuộc tính thấp nhất và cao nhất thì độ dài của các khoảng sẽ là: W = (B-A)/N – Nhưng dữ liệu lệch có thể sẽ chiếm ưu thế và không được xử lý tốt
- Chương 2: Tiền xử lý dữ liệu Phương pháp rời rạc hóa đơn giản Chia tần số thành các khoảng có độ sâu bằng nhau: – Chia dãy (vùng) thành N khoảng, mỗi khaỏng chứa xấp xỉ cùng số lượng mẫu – Phương pháp này cho tỉ lệ chia dữ liệu tốt – Nhưng việc quản lý các loại thuộc tính có thể bị sai lệch
- Chương 2: Tiền xử lý dữ liệu Làm trơn dữ liệu bằng phương pháp dãy • Giả sử có dãy dữ liệu giá (đôla) được sắp xếp như sau: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 • Chia thành các dãy có độ rộng bằng nhau: – -Bin 1: 4, 8, 9, 15 – -Bin 2: 21, 21, 24, 25 – -Bin 3: 26, 28, 29, 34 • Làm trơn bằng phương pháp giá trị trung bình: – -Bin 1: 9, 9, 9, 9 – -Bin 2: 23, 23, 23, 23 – -Bin 3: 29, 29, 29, 29
- Chương 2: Tiền xử lý dữ liệu Tích hợp dữ liệu • Tích hợp dữ liệu: – Kết hợp dữ liệu từ nhiều nguồn thành một kho lưu trữ • Tích hợp lược đồ: – Tích hợp siêu dữ liệu từ nhiều nguồn khác nhau – Vấn đề định danh đối tượng: xác định các thực thể trong thế giới thực từ nhiều nguồn dữ liệu: • VD: A.cust-id ≡B.cust-# – Phát hiện và giải quyết mâu thuẫn dữ liệu: • Với cùng một thực thể trong thế giới thực, các giá trị thuộc tính từ nhiều nguồn khác nhau là khác nhau • Lý do: khác sự trình diễn, khác tỉ lệ – VD: đơn vị đo mét với inche
- Chương 2: Tiền xử lý dữ liệu Giải quyết dữ liệu dư thừa trong tích hợp dữ liệu • Dư thừa DL xảy ra khi tích hợp DL từ nhiều CSDL – Cùng thuộc tính có thể có nhiều tên khác nhau trong các CSDL khác nhau – Một thuộc tính có thể là thuộc tính dẫn xuất trong một bảng khác. VD: lợi tức hàng năm • DL dư thừa có thể được phát hiện bởi phân tích tương quan • Sự tích hợp tốt dữ liệu từ nhiều nguồn có thể giúp giảm/tránh các dư thừa và mâu thuẫn để tăng tốc độ và chất lượng khai phá
- Chương 2: Tiền xử lý dữ liệu Biến đổi dữ liệu • Làm trơn: giảm nhiễu • Kết hợp: tổng quát hóa, xây dựng DL dạng khối • Tổng quát hóa: khái niệm cấu trúc phân cấp • Chuẩn hóa: đo trong một vùng dữ liệu nhỏ, xác định: – Chuẩn hóa min-max – Chuẩn hóa z-score – Chuẩn hóa bằng tỉ lệ động • Xây dựng cấu trúc thuộc tính/đặc tính
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 7 - ĐH Bách khoa TP.HCM
22 p | 214 | 26
-
Bài giảng Khai phá dữ liệu trong kinh doanh - ĐH Thương Mại
0 p | 491 | 22
-
Bài giảng Khai phá dữ liệu - Trường ĐH Hàng Hải
73 p | 115 | 22
-
Bài giảng Khai phá dữ liệu - Chương 1: Tổng quan về khai phá dữ liệu
61 p | 156 | 16
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 0: Giới thiệu môn học
8 p | 127 | 14
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 8 - ĐH Bách khoa TP.HCM
8 p | 111 | 13
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 1 - Lê Tiến
61 p | 91 | 9
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 0 - Lê Tiến
7 p | 109 | 9
-
Bài giảng Khai phá dữ liệu web: Giới thiệu môn học
13 p | 105 | 9
-
Bài giảng Khai phá dữ liệu: Chương 8 - TS. Võ Thị Ngọc Châu
23 p | 80 | 8
-
Bài giảng Khai phá dữ liệu: Chương 1 - TS. Võ Thị Ngọc Châu
63 p | 106 | 8
-
Bài giảng Khai phá dữ liệu: Bài 1 - Văn Thế Thành
7 p | 89 | 5
-
Bài giảng Khai phá dữ liệu - Chương 1: Tổng quan
14 p | 144 | 4
-
Bài giảng Khai phá dữ liệu: Bài 0 - TS. Trần Mạnh Tuấn
10 p | 61 | 4
-
Bài giảng Khai phá dữ liệu: Bài 1 - TS. Trần Mạnh Tuấn
34 p | 67 | 4
-
Bài giảng Khai phá dữ liệu: Bài 2 - TS. Trần Mạnh Tuấn
32 p | 52 | 4
-
Bài giảng Khai phá dữ liệu: Chương 1 - Trường ĐH Phan Thiết
71 p | 41 | 4
-
Bài giảng Khai phá dữ liệu: Chương 4 - Trường ĐH Phan Thiết
70 p | 27 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn