CHƯƠNG 2: TIỀN XỬ LÝ DỮ LIỆU
08/2021
Bài giảng môn học:
Khai phá Dữ liệu(7080508)
Nội dung chương 2
2.1 Khái niệm về tiền xử lý dữ liệu
2.2 Tóm tt mô tả dữ liệu
2.3 Làm sạch dữ liệu
2.4 Tích hợp và chuyển dạng dữ liệu
2.5 Rút gọn dữ liệu
2.6 Bài tập
2
2.1. Khái niệm về tiền xử lý dữ liệu
2.1.1 Tại sao phải tiền xử lý dữ liệu
Chuẩn bị dữ liệu Là bước quan trng, chiếm nhiều thời gian và
nguồn lực nhất trong bất kỳ một dự án khoa học dữ liệu nào (80%)
Dữ liệu trong thế giới thực là hỗn tạp:
Không hoàn chỉnh (incomplete)
Chứa giá trị nhiễu (noise)
Không nhất quán (inconsistent)
3
Lý do dữ liệu hỗn tạp:
Kích thước dữ liệu quá lớn
Được thu thập từ nhiều nguồn
khác nhau
2.1. Khái niệm về tiền xử lý dữ liệu
Dữ liệu không hoàn chỉnh (incomplete):
Thiếu giá trị thuộc tính, thiếu các thuộc tính cần quan tâm,
hoặc chỉ chứa dữ liệu chung.
Nguyên nhân:
Giá trị tư?ng ứng không th@ chấp nhận vào thời đi@m thu thập.
Sự khác biệt về quan đi@m giữa thời đi@m thu thập và thời đi@m phân
tích.
Các lCi gây ra bEi con người (nhập liệu sFt) hoặc bEi hệ thGng (phần
cứng/phần mềm).
4
VD: salary = <underfined>
2.1. Khái niệm về tiền xử lý dữ liệu
Dữ liệu chứa giá trị nhiễu/lỗi (noise/error):
Chứa dữ liệu bị lCi, hoặc bị lệch (do chủ quan người nhập)
5
Nguyên nhân:
LCi của các thiết bị thu thập dữ liệu.
LCi nhập dữ liệu sai (gây ra bEi con người hay máy tính).
LCi trong quá trQnh truyền dữ liệu.
Vd: tuổi = -25 (giá trị thuộc tính tuổi không th@ là sG âm)