67
th sử dng cách như trên đểtìm luật kết hợp của 1-item
VD:
Consider the rule: Milk Bread. Out of total 12 transactions Milk
occurs 9 times while (Milk, Bread) occurs 7 times. The rule has a
support level of 7/12 (or 58 percent) and a confidence level of 7/9 (or
77 percent).
Thus, the next valid association rule is as follows:
Milk Bread {S = 58%, C = 77%}.
KHAI PHÁ D LIU TRONG KINH DOANH 133
Chương 3: Sử dụng ng cụ OLAP trong khai phá dữ
liệu
3.1. Tồng quan chung về SQL server analysis service
3.1.1. Một số khái niệm liên quan
3.1.2. Tchức mô hình cơ sở dữ liệu đa chiều
3.1.3. Giới thiệu và cài đặt công cụ OLAP
3.2. Xây dựng OLAP Cube
3.2.1. Xây dựng DB Engine
3.2.2. Thiết lập nguồn , bảng Fact
3.2.3. Thiết lập các chiều cho Cube
3.2.4. Xây dựng Cube
3.3. Xây dựng Report
3.3.1. Thiết lập nguồn cho Report
3.3.2. Lập Report từ cơ sở dữ liệu nhiều chiều
3.3.3. Quản lý Report (bảo mật- security, truyền- subscription, quản lý thực thi –excution).
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 134
68
3.1. Tổng quan chung về SQL
server analysis service
3.1.1. Một số khái niệm liên quan
SQL Server Analysis Service một công cụ phân tích dữ liệu
được sử dụng trong hỗ tr quyết định phân tích kinh
doanh.
Dữ liệu phân tích được lưu trữ dưới hình bảng, hình
khối đa chiều (cubes), các hình khai phá dữ liệu
NSD thể truy cập từ các báo cáo, bảng tính bảng điều
khiền.
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 135
OLAP Cube là thuật ng dùng để chỉ dữ liệu nhiều
chiều (Cube) thể xử phân tích online (OLAP).
Thường số chiều của Cube 3, còn nếu số chiều của dữ liệu
lớn hơn 3, dữ liệu này còn được gọi hypercube.
Dữ liệu nhiều chiều (multi-dimension) thể hiểu đơn giản
dữ liệu người dùng muốn nhóm theo các tiêu chí khác
nhau. dụ, dữ liệu tài chính của một công ty được nhóm
theo sản phẩm, khung thời gian, thành phố.. để so sánh.
Mỗi tiêu chí (sản phẩm, khung thời gian, địa điểm...)
một chiều dữ liệu cung cấp một góc nhìn khác đến dữ
liệu hiện
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 136
69
Fact table thể được hiểu như bảng chứa các dữ
liệu tính chất đo lường (measurement). Một fact
(hay còn gọi measure) trong Data warehouse được
dùng để minh họa cho một trường (field/column)
chứa một giá trị đo lường được
Tiến trình ETL (Extract-Transform-Load)
Tiến trình ETL một quy trình dùng để lấy dữ liệu từ các hệ
thống nguồn sau đó xử đưa vào data warehouse.
bao gồm các chức năng: Rút trích dữ liệu; biến đổi dữ liệu;
tải (load) vào kho dữ liệu hoặc các hệ thống báo cáo khác
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 137
hình c c của tiến tnh ETL
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 138
70
Thống nhất hóa (roll-up) là quá trình tập hợp lại dữ
liệu từ một hay nhiều chiều
Drill- down – chi tiết hóa: ngược với roll-up
Chọn cắt lát dữ liệu (slice-còn gọi chọn
chiếu): thuật cho phép ta lấy ra khối dữ liệu
nhiều chiều (rubic), sau đó tiến hành phân tích
bằng các nhát cắt khác nhau dựa trên khối đó. Kết
quả thu được sẽ một khối dữ liệu con
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 139
3.1.2. Tổ chức hình sở
dữ liệu đa chiều
Lược đồ đa chiều hình sao (star schema) kiểu
đơn giản nhất của lược đồ data mart.Lược đồ
sao bao gồm một hoặc nhiều bảng Fact, tham
chiếu đến một số bảng dimension.
Khi ta liên kết Fact table Dimension table lại với
nhau dựa trên các Primary Key của dimension
Foreign Key tương ng của fact, ta được một lược
đồ dữ liệu dạng hình sao - Star schema.
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 140
71
VD
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 141
VD2
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 142