2.1. Tiền xử lý dữ liệu
Làm cho dữ liệu có được ban đầu qua thu thập dữ
liệu (gọi là dữ liệu gốc original data) có thể áp dụng
được (thích hợp) với các mô hình khai phá dữ liệu
(data mining model) cụ thể.
Các công việc:
Filtering Attributes (rút gọn thuộc tính)
◦
Filtering samples (rút gọn dữ liệu)◦
Clean data (làm sạch dữ liệu)◦
Transformation: ◦
Discretization (r◦ời rạc hóa dữ liệu):
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 43
2.1.1. Lựa chọn mẫu
Mục đích loại bỏ những thuộc tính không cần thiết,
dư thừa khỏi quá trình học.
Những vấn đề gặp phải:
◦Sự đa dạng và không đồng nhất: nhiều dạng,
nhiều nguồn
◦Quy mô dữ liệu: dung lượng và quy mô của dữ
liệu lớn đòi hỏi các công cụ quản lý và khai phá
dữ liệu phải được cải tiến, nâng cấp cho phù hợp
◦Tốc độ/tính chuyển động liên tục của dữ liệu:các
dòng dữ liệu (data stream)
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 44