Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 4 - Nguyễn Hoàng Ân (2018)
lượt xem 6
download
Bài giảng "Khai phá dữ liệu - Chương 4: Phân tích trực tuyến OLAP" cung cấp cho người học các kiến thức: Mô hình dữ liệu đa chiều, MOLAP, ROLAP, HOLAP, thiết kế và xây dựng Cube, các thao tác trên hệ thống OLAP. Mời các bạn cùng tham khảo.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 4 - Nguyễn Hoàng Ân (2018)
- Kho dữ liệu và khai phá dữ liệu Chương 4: Phân tích trực tuyến OLAP Nguyễn Hoàng Ân 1
- Nội dung Mô hình dữ liệu đa chiều MOLAP, ROLAP, HOLAP Thiết kế và xây dựng Cube Các thao tác trên hệ thống OLAP Nguyễn Hoàng Ân 3
- 4. Mô hình kho dữ liệu 4.1 Từ bảng dữ liệu đến khối dữ liệu 4.2 Mô hình luận lý của KDL 4.3 Ngôn ngữ truy vấn khai phá dữ liệu (DMQL) Nguyễn Hoàng Ân 4
- 4.1 Từ bảng dữ liệu đến khối dữ liệu KDL dựa trên mô hình dữ liệu đa chiều nhìn dữ liệu dưới hình thức của một khối dữ liệu Một khối dữ liệu như bán hàng, cho phép dữ liệu được mô hình và được nhìn trong nhiều chiều Các bảng chiều (Dimension Tables) như item (item_name, brand, type), hoặc time(day, week, month, quarter, year) Bảng sự kiện (Fact Table) chứa các độ đo (Measure) (như dollars_sold) và các khóa có liên kết đến mỗi bảng chiều Một khối dữ liệu dựa trên n-D được gọi là một cuboid cơ sở. Nguyễn Hoàng Ân 5
- Cube: Một lưới các Cuboids all 0-D(apex) cuboid time item location supplier 1-D cuboids time,item time,location item,location location,supplier 2-D cuboids time,supplier item,supplier time,location,supplier time,item,location 3-D cuboids time,item,supplier item,location,supplier 4-D(base) cuboid time, item, location, supplier Nguyễn Hoàng Ân 6
- 4.2 Mô hình ý niệm của KDL Mô hình kho dữ liệu: Lược đồ hình sao (Star schema): Một bảng sự kiện ở giữa kết nối đến một tập bảng chiều Lược đồ hình bông tuyết (Snowflake schema): Tinh chế của lược đồ hình sao, trong đó một vài chiều có sự phân cấp được chuẩn hóa thành một tập các bảng chiều nhỏ hơn, có hình ảnh giống như bông tuyết Chòm sao sự kiện (Fact constellations): Nhiều bảng sự kiện chia sẻ các bảng chiều. Còn được gọi là lược đồ thiên hà (galaxy schema) Nguyễn Hoàng Ân 7
- Ví dụ của lược đồ hình sao time time_key item day item_key day_of_the_week Sales Fact Table item_name month brand quarter time_key type year supplier_type item_key branch_key branch location location_key branch_key location_key branch_name units_sold street branch_type city dollars_sold province_or_street country avg_sales Measures Nguyễn Hoàng Ân 8
- Ví dụ của lược đồ hình bông tuyết time item time_key day item_key supplier day_of_the_week Sales Fact Table item_name supplier_key month brand supplier_type quarter time_key type year item_key supplier_key branch_key location branch location_key location_key branch_key units_sold street branch_name city_key branch_type dollars_sold city avg_sales city_key city Measures province_or_street country Nguyễn Hoàng Ân 9
- Ví dụ của chòm sao sự kiện time time_key item Shipping Fact Table day item_key day_of_the_week Sales Fact Table item_name time_key month brand quarter time_key type item_key year supplier_type shipper_key item_key branch_key from_location branch location_key location to_location branch_key location_key dollars_cost branch_name units_sold street branch_type dollars_sold city units_shipped province_or_street avg_sales country shipper Measures shipper_key shipper_name Nguyễn Hoàng Ân location_key 10 shipper_type
- Nguyễn Hoàng Ân 11
- Figure 11-13: Components of a star schema Fact tables contain factual or quantitative data Dimension tables are 1:N relationship denormalized to between dimension maximize tables and fact tables performance Dimension tables contain descriptions about the subjects of the business Excellent for ad-hoc queries, but bad for online transaction processing Nguyễn Hoàng Ân 12
- Figure 11-14: Star schema example Fact table provides statistics for sales broken down by product, period and store dimensions Nguyễn Hoàng Ân 13
- Nguyễn Hoàng Ân 14
- 4.3 Ngôn ngữ truy vấn khai phá dữ liệu: DMQL Data Mining Query Language: DMQL Định nghĩa khối (Bảng sự kiện) define cube []: Định nghĩa chiều (Bảng chiều) define dimension as () Special Case (Bảng chiều chia sẻ) First time as “cube definition” define dimension as in cube Nguyễn Hoàng Ân 15
- Định nghĩa lược đồ hình sao trong DMQL define cube sales_star [time, item, branch, location]: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*) define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier_type) define dimension branch as (branch_key, branch_name, branch_type) define dimension location as (location_key, street, city, province_or_state, country) Nguyễn Hoàng Ân 16
- Định nghĩa lược đồ bông tuyết trong DMQL define cube sales_snowflake [time, item, branch, location]: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*) define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier(supplier_key, supplier_type)) define dimension branch as (branch_key, branch_name, branch_type) define dimension location as (location_key, street, city(city_key, province_or_state, country)) Nguyễn Hoàng Ân 17
- Định nghĩa lược đồ chòm sao sự kiện trong DMQL define cube sales [time, item, branch, location]: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*) define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier_type) define dimension branch as (branch_key, branch_name, branch_type) define dimension location as (location_key, street, city, province_or_state, country) define cube shipping [time, item, shipper, from_location, to_location]: dollar_cost = sum(cost_in_dollars), unit_shipped = count(*) define dimension time as time in cube sales define dimension item as item in cube sales define dimension shipper as (shipper_key, shipper_name, location as location in cube sales, shipper_type) define dimension from_location as location in cube sales define dimension to_location as location in cube sales Nguyễn Hoàng Ân 18
- define cube sales [time, item, branch, location]: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*) Nguyễn Hoàng Ân 19
- Các loại giá trị đo Phân phối (distributive): Ví dụ: count(), sum(), min(), max(). Đại số (algebraic): Ví dụ: avg(), min_N(), standard_deviation(). Tổng thể (holistic): Ví dụ: median(), mode(), rank(). Nguyễn Hoàng Ân 20
- Sự phân cấp mức ý niệm: Chiều (location) all all region Europe ... North_America country Germany ... Spain Canada ... Mexico city Frankfurt ... Vancouver ... Toronto office L. Chan ... M. Wind Data Warehouse and Business Intelligence 21
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 3 - Giới thiệu chung về kho dữ liệu
129 p | 272 | 27
-
Bài giảng môn học Kho dữ liệu và khai phá dữ liệu
41 p | 205 | 19
-
Bài giảng Kho dữ liệu và kinh doanh thông minh - Chương 5: Khai phá dữ liệu trong kinh doanh (P2)
128 p | 122 | 17
-
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 2 - Tiền xử lý dữ liệu
77 p | 146 | 13
-
Bài giảng Kho dữ liệu và khai phá dữ liệu (2014): Phần 1
79 p | 56 | 12
-
Bài giảng Kho dữ liệu và kinh doanh thông minh - Chương 2: Quy trình phát triển kho dữ liệu
52 p | 137 | 11
-
Bài giảng Kho dữ liệu và khai phá dữ liệu (2014): Phần 2
97 p | 38 | 8
-
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 2 - Nguyễn Hoàng Ân (2018)
19 p | 58 | 6
-
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương mở đầu - Nguyễn Ngọc Duy
4 p | 31 | 6
-
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 5 - Nguyễn Hoàng Ân (2018)
172 p | 52 | 6
-
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 1 - Nguyễn Hoàng Ân (2018)
22 p | 59 | 5
-
Bài giảng Kho dữ liệu và kỹ thuật khai phá: Phần 2
112 p | 22 | 5
-
Bài giảng Kho dữ liệu và kỹ thuật khai phá: Phần 1
85 p | 22 | 5
-
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 3 - Nguyễn Hoàng Ân (2018)
40 p | 43 | 5
-
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 1 - Nguyễn Ngọc Duy
30 p | 33 | 3
-
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 2 - Nguyễn Ngọc Duy
125 p | 42 | 3
-
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 4 - Nguyễn Ngọc Duy
114 p | 26 | 3
-
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 3 - Nguyễn Ngọc Duy
55 p | 34 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn