
67
Có thể sử dụng cách như trên đểtìm luật kết hợp của 1-item
VD:
Consider the rule: Milk → Bread. Out of total 12 transactions Milk
occurs 9 times while (Milk, Bread) occurs 7 times. The rule has a
support level of 7/12 (or 58 percent) and a confidence level of 7/9 (or
77 percent).
Thus, the next valid association rule is as follows:
Milk → Bread {S = 58%, C = 77%}.
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 133
Chương 3: Sử dụng công cụ OLAP trong khai phá dữ
liệu
3.1. Tồng quan chung về SQL server analysis service
3.1.1. Một số khái niệm liên quan
3.1.2. Tổ chức mô hình cơ sở dữ liệu đa chiều
3.1.3. Giới thiệu và cài đặt công cụ OLAP
3.2. Xây dựng OLAP Cube
3.2.1. Xây dựng DB Engine
3.2.2. Thiết lập nguồn , bảng Fact
3.2.3. Thiết lập các chiều cho Cube
3.2.4. Xây dựng Cube
3.3. Xây dựng Report
3.3.1. Thiết lập nguồn cho Report
3.3.2. Lập Report từ cơ sở dữ liệu nhiều chiều
3.3.3. Quản lý Report (bảo mật- security, truyền- subscription, quản lý thực thi –excution).
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 134

68
3.1. Tổng quan chung về SQL
server analysis service
3.1.1. Một số khái niệm liên quan
SQL Server Analysis Service là một công cụ phân tích dữ liệu
được sử dụng trong hỗ trợ quyết định và phân tích kinh
doanh.
Dữ liệu phân tích được lưu trữ dưới mô hình bảng, hình
khối đa chiều (cubes), và các mô hình khai phá dữ liệu mà
NSD có thể truy cập từ các báo cáo, bảng tính và bảng điều
khiền.
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 135
OLAP Cube là thuật ngữ dùng để chỉ dữ liệu có nhiều
chiều (Cube) mà có thể xử lý phân tích online (OLAP).
Thường số chiều của Cube là 3, còn nếu số chiều của dữ liệu
lớn hơn 3, dữ liệu này còn được gọi là hypercube.
Dữ liệu nhiều chiều (multi-dimension) có thể hiểu đơn giản
là dữ liệu mà người dùng muốn nhóm theo các tiêu chí khác
nhau. Ví dụ, dữ liệu tài chính của một công ty được nhóm
theo sản phẩm, khung thời gian, thành phố.. để so sánh.
Mỗi tiêu chí (sản phẩm, khung thời gian, địa điểm...) là
một chiều dữ liệu vì nó cung cấp một góc nhìn khác đến dữ
liệu hiện có
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 136

69
Fact table có thể được hiểu như là bảng chứa các dữ
liệu có tính chất đo lường (measurement). Một fact
(hay còn gọi là measure) trong Data warehouse được
dùng để minh họa cho một trường (field/column)
chứa một giá trị đo lường được
Tiến trình ETL (Extract-Transform-Load)
Tiến trình ETL là một quy trình dùng để lấy dữ liệu từ các hệ
thống nguồn sau đó xử lý và đưa nó vào data warehouse. Nó
bao gồm các chức năng: Rút trích dữ liệu; biến đổi dữ liệu; và
tải (load) vào kho dữ liệu hoặc các hệ thống báo cáo khác
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 137
Mô hình các bước của tiến trình ETL
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 138

70
Thống nhất hóa (roll-up) là quá trình tập hợp lại dữ
liệu từ một hay nhiều chiều
Drill- down – chi tiết hóa: ngược với roll-up
Chọn và cắt lát dữ liệu (slice-còn gọi là chọn và
chiếu): là kĩ thuật cho phép ta lấy ra khối dữ liệu
nhiều chiều (rubic), sau đó tiến hành phân tích
bằng các nhát cắt khác nhau dựa trên khối đó. Kết
quả thu được sẽ là một khối dữ liệu con
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 139
3.1.2. Tổ chức mô hình cơ sở
dữ liệu đa chiều
Lược đồ đa chiều hình sao (star schema) là kiểu
đơn giản nhất của lược đồ data mart.Lược đồ
sao bao gồm một hoặc nhiều bảng Fact, tham
chiếu đến một số bảng dimension.
Khi ta liên kết Fact table và Dimension table lại với
nhau dựa trên các Primary Key của dimension và
Foreign Key tương ứng của fact, ta được một lược
đồ dữ liệu dạng hình sao - Star schema.
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 140

71
VD
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 141
VD2
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 142