
21
Đọc
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 41
Chương 2: Tiền xử lý và Tổ chức dữ liệu
kinh doanh
2.1. Tiền xử lý dữ liệu
2.1.1. Lựa chọn mẫu
2.1.2. Làm sạch dữ liệu
2.1.3. Tích hợp và biến đổi dữ liệu
2.2. Tổ chức dữ liệu
2.2.1. Tổ chức và cài đặt kho dữ liệu (Data warehouse)
2.2.2. Tổ chức và cài đặt Data Mart
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 42

22
2.1. Tiền xử lý dữ liệu
Làm cho dữ liệu có được ban đầu qua thu thập dữ
liệu (gọi là dữ liệu gốc original data) có thể áp dụng
được (thích hợp) với các mô hình khai phá dữ liệu
(data mining model) cụ thể.
Các công việc:
Filtering Attributes (rút gọn thuộc tính)
◦
Filtering samples (rút gọn dữ liệu)◦
Clean data (làm sạch dữ liệu)◦
Transformation: ◦
Discretization (r◦ời rạc hóa dữ liệu):
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 43
2.1.1. Lựa chọn mẫu
Mục đích loại bỏ những thuộc tính không cần thiết,
dư thừa khỏi quá trình học.
Những vấn đề gặp phải:
◦Sự đa dạng và không đồng nhất: nhiều dạng,
nhiều nguồn
◦Quy mô dữ liệu: dung lượng và quy mô của dữ
liệu lớn đòi hỏi các công cụ quản lý và khai phá
dữ liệu phải được cải tiến, nâng cấp cho phù hợp
◦Tốc độ/tính chuyển động liên tục của dữ liệu:các
dòng dữ liệu (data stream)
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 44

23
Tính chính xác và tin cậy
Bảo mật dữ liệu
Sự tương tác
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 45
Các công thức đánh giá
Confusion matrix
Các độ đo
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 46

24
Phân chia tập dữ liệu
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 47
2.1.2. Làm sạch dữ liệu
Điền giá trị bị thiếu (missing values)
Dữ liệu nhiễu
Hồi quy tuyến tính
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 48

25
Một số phương pháp để điền
giá trị thiếu
Bỏ qua các trường có chứa những giá trị này
Điền vào các giá trị thiếu thủ công
Sử dụng các giá trị quy ước (NULL/0)
Sử dụng những giá trị bình quân
Sử dụng các giá trị của các bộ cùng loại để
thay thế cho giá trị thiếu
Sử dụng giá trị có tỉ lệ xuất hiện cao để điền
vào cho các giá trị thiếu
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 49
Dữ liệu nhiễu
Dữ liệu nhiễu là các dữ liệu nằm ở những
khoảng không đồng đều, có những giá trị
nằm ở nhóm cao thấp, bất thường không
theo quy luật.
Việc làm mịn một giá trị dữ liệu được xác
định thông qua các giá trị xung quanh nó
được gọi là Bin.
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 50