21
Đọc
KHAI PHÁ D LIU TRONG KINH DOANH 41
Chương 2: Tiền xử Tổ chc dữ liệu
kinh doanh
2.1. Tiền xử lý dữ liệu
2.1.1. Lựa chọn mẫu
2.1.2. Làm sạch dữ liệu
2.1.3. Tích hợp và biến đổi dữ liệu
2.2. Tổ chức dữ liệu
2.2.1. Tổ chức và cài đặt kho dữ liệu (Data warehouse)
2.2.2. Tổ chức và cài đặt Data Mart
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 42
22
2.1. Tiền xử dữ liệu
Làm cho dữ liệu được ban đầu qua thu thập dữ
liệu (gọi dữ liệu gốc original data) thể áp dụng
được (thích hợp) với các hình khai phá dữ liệu
(data mining model) cụ thể.
Các công việc:
Filtering Attributes (rút gọn thuộc tính)
Filtering samples (rút gọn dữ liệu)
Clean data (làm sạch dữ liệu)
Transformation:
Discretization (rời rạc hóa dữ liệu):
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 43
2.1.1. Lựa chn mẫu
Mục đích loại bỏ những thuộc tính không cần thiết,
dư thừa khỏi quá trình học.
Những vấn đề gặp phải:
Sự đa dạng và không đồng nhất: nhiều dạng,
nhiều nguồn
Quy dữ liệu: dung lượng quy của dữ
liệu lớn đòi hỏi các công cụ quản khai phá
dữ liệu phải được cải tiến, nâng cấp cho phù hợp
Tốc độ/tính chuyển động liên tục của dữ liệu:các
dòng dữ liệu (data stream)
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 44
23
Tính chính xác và tin cậy
Bảo mật dữ liệu
Sự tương tác
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 45
c công thức đánh g
Confusion matrix
Các độ đo
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 46
24
Phân chia tập dữ liu
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 47
2.1.2. m sạch dữ liệu
Điền giá trị bị thiếu (missing values)
Dữ liệu nhiễu
Hồi quy tuyến tính
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 48
25
Một số phương pp để điền
giá tr thiếu
Bỏ qua các trường có chứa những giá trị này
Điền vào các giá trị thiếu thủ công
Sử dụng các giá trị quy ước (NULL/0)
Sử dụng những giá trị bình quân
Sử dụng các giá trị của các bộ cùng loại để
thay thế cho giá trị thiếu
Sử dụng giá trị có tỉ lệ xuất hiện cao để điền
vào cho các giá trị thiếu
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 49
Dữ liệu nhiu
Dữ liệu nhiễu là các dữ liệu nằm ở những
khoảng không đồng đều, có những giá trị
nằm ở nhóm cao thấp, bất thường không
theo quy luật.
Việc làm mịn một giá trị dữ liệu được xác
định thông qua các giá trị xung quanh nó
được gọi là Bin.
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 50