intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 4 - Nguyễn Hoàng Ân (2018)

Chia sẻ: Tầm Y | Ngày: | Loại File: PDF | Số trang:30

53
lượt xem
6
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng "Khai phá dữ liệu - Chương 4: Phân tích trực tuyến OLAP" cung cấp cho người học các kiến thức: Mô hình dữ liệu đa chiều, MOLAP, ROLAP, HOLAP, thiết kế và xây dựng Cube, các thao tác trên hệ thống OLAP. Mời các bạn cùng tham khảo.

Chủ đề:
Lưu

Nội dung Text: Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 4 - Nguyễn Hoàng Ân (2018)

  1. Kho dữ liệu và khai phá dữ liệu Chương 4: Phân tích trực tuyến OLAP Nguyễn Hoàng Ân 1
  2. Nội dung Mô hình dữ liệu đa chiều MOLAP, ROLAP, HOLAP Thiết kế và xây dựng Cube Các thao tác trên hệ thống OLAP Nguyễn Hoàng Ân 3
  3. 4. Mô hình kho dữ liệu 4.1 Từ bảng dữ liệu đến khối dữ liệu 4.2 Mô hình luận lý của KDL 4.3 Ngôn ngữ truy vấn khai phá dữ liệu (DMQL) Nguyễn Hoàng Ân 4
  4. 4.1 Từ bảng dữ liệu đến khối dữ liệu KDL dựa trên mô hình dữ liệu đa chiều nhìn dữ liệu dưới hình thức của một khối dữ liệu Một khối dữ liệu như bán hàng, cho phép dữ liệu được mô hình và được nhìn trong nhiều chiều  Các bảng chiều (Dimension Tables) như item (item_name, brand, type), hoặc time(day, week, month, quarter, year)  Bảng sự kiện (Fact Table) chứa các độ đo (Measure) (như dollars_sold) và các khóa có liên kết đến mỗi bảng chiều Một khối dữ liệu dựa trên n-D được gọi là một cuboid cơ sở. Nguyễn Hoàng Ân 5
  5. Cube: Một lưới các Cuboids all 0-D(apex) cuboid time item location supplier 1-D cuboids time,item time,location item,location location,supplier 2-D cuboids time,supplier item,supplier time,location,supplier time,item,location 3-D cuboids time,item,supplier item,location,supplier 4-D(base) cuboid time, item, location, supplier Nguyễn Hoàng Ân 6
  6. 4.2 Mô hình ý niệm của KDL Mô hình kho dữ liệu:  Lược đồ hình sao (Star schema): Một bảng sự kiện ở giữa kết nối đến một tập bảng chiều  Lược đồ hình bông tuyết (Snowflake schema): Tinh chế của lược đồ hình sao, trong đó một vài chiều có sự phân cấp được chuẩn hóa thành một tập các bảng chiều nhỏ hơn, có hình ảnh giống như bông tuyết  Chòm sao sự kiện (Fact constellations): Nhiều bảng sự kiện chia sẻ các bảng chiều. Còn được gọi là lược đồ thiên hà (galaxy schema) Nguyễn Hoàng Ân 7
  7. Ví dụ của lược đồ hình sao time time_key item  day item_key day_of_the_week Sales Fact Table item_name month brand quarter time_key type year supplier_type item_key branch_key branch location location_key branch_key location_key branch_name units_sold street branch_type city dollars_sold province_or_street country avg_sales Measures Nguyễn Hoàng Ân 8
  8. Ví dụ của lược đồ hình bông tuyết time item time_key day item_key supplier day_of_the_week Sales Fact Table item_name supplier_key month brand supplier_type quarter time_key type year item_key supplier_key branch_key location branch location_key location_key branch_key units_sold street branch_name city_key branch_type dollars_sold city avg_sales city_key city Measures province_or_street country Nguyễn Hoàng Ân 9
  9. Ví dụ của chòm sao sự kiện time time_key item Shipping Fact Table day item_key day_of_the_week Sales Fact Table item_name time_key month brand quarter time_key type item_key year supplier_type shipper_key item_key branch_key from_location branch location_key location to_location branch_key location_key dollars_cost branch_name units_sold street branch_type dollars_sold city units_shipped province_or_street avg_sales country shipper Measures shipper_key shipper_name Nguyễn Hoàng Ân location_key 10 shipper_type
  10. Nguyễn Hoàng Ân 11
  11. Figure 11-13: Components of a star schema Fact tables contain factual or quantitative data Dimension tables are 1:N relationship denormalized to between dimension maximize tables and fact tables performance Dimension tables contain descriptions about the subjects of the business Excellent for ad-hoc queries, but bad for online transaction processing Nguyễn Hoàng Ân 12
  12. Figure 11-14: Star schema example Fact table provides statistics for sales broken down by product, period and store dimensions Nguyễn Hoàng Ân 13
  13. Nguyễn Hoàng Ân 14
  14. 4.3 Ngôn ngữ truy vấn khai phá dữ liệu: DMQL Data Mining Query Language: DMQL Định nghĩa khối (Bảng sự kiện)  define cube []: Định nghĩa chiều (Bảng chiều)  define dimension as () Special Case (Bảng chiều chia sẻ)  First time as “cube definition”  define dimension as in cube Nguyễn Hoàng Ân 15
  15. Định nghĩa lược đồ hình sao trong DMQL define cube sales_star [time, item, branch, location]: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*) define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier_type) define dimension branch as (branch_key, branch_name, branch_type) define dimension location as (location_key, street, city, province_or_state, country) Nguyễn Hoàng Ân 16
  16. Định nghĩa lược đồ bông tuyết trong DMQL define cube sales_snowflake [time, item, branch, location]: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*) define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier(supplier_key, supplier_type)) define dimension branch as (branch_key, branch_name, branch_type) define dimension location as (location_key, street, city(city_key, province_or_state, country)) Nguyễn Hoàng Ân 17
  17. Định nghĩa lược đồ chòm sao sự kiện trong DMQL define cube sales [time, item, branch, location]: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*) define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier_type) define dimension branch as (branch_key, branch_name, branch_type) define dimension location as (location_key, street, city, province_or_state, country) define cube shipping [time, item, shipper, from_location, to_location]: dollar_cost = sum(cost_in_dollars), unit_shipped = count(*) define dimension time as time in cube sales define dimension item as item in cube sales define dimension shipper as (shipper_key, shipper_name, location as location in cube sales, shipper_type) define dimension from_location as location in cube sales define dimension to_location as location in cube sales Nguyễn Hoàng Ân 18
  18. define cube sales [time, item, branch, location]: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*) Nguyễn Hoàng Ân 19
  19. Các loại giá trị đo Phân phối (distributive):  Ví dụ: count(), sum(), min(), max(). Đại số (algebraic):  Ví dụ: avg(), min_N(), standard_deviation(). Tổng thể (holistic):  Ví dụ: median(), mode(), rank(). Nguyễn Hoàng Ân 20
  20. Sự phân cấp mức ý niệm: Chiều (location) all all region Europe ... North_America country Germany ... Spain Canada ... Mexico city Frankfurt ... Vancouver ... Toronto office L. Chan ... M. Wind Data Warehouse and Business Intelligence 21
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2