intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 3 - Nguyễn Ngọc Duy

Chia sẻ: Trinh _ | Ngày: | Loại File: PDF | Số trang:55

35
lượt xem
2
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Tiếp tục chương 2, chương 3 của Bài giảng Kho dữ liệu và khai phá dữ liệu gồm các nội dung về khái niệm kho dữ liệu, mô hình dữ liệu đa chiều, kiến trúc của kho dữ liệu, cài đặt kho dữ liệu và xử lí phân tích trực tuyến, kho dữ liệu hỗ trợ quyết định.Mời các bạn tham khảo.

Chủ đề:
Lưu

Nội dung Text: Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 3 - Nguyễn Ngọc Duy

  1. KHÁI NIỆM CHUNG VỀ KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU 1 1
  2. Nội dung 1. Khái niệm về kho dữ liệu. 2. Mô hình dữ liệu đa chiều 3. Kiến trúc của kho dữ liệu. 4. Cài đặt kho dữ liệu và Xử lý phân tích trực tuyến. 5. Liên hệ công nghệ kho dữ liệu với khai pha dữ liệu. 6. Xây dựng kho dữ liệu với mục đích hỗ trợ quyết định. 2
  3. Khái niệm về kho dữ liệu  Kho dữ liệu (data warehouse) là nơi lưu trữ dữ liệu.  Dữ liệu được tích hợp.  Dữ liệu được thu thập từ nhiều nguồn:  Khác về không gian,  Khác về thời gian,  Khác về thể hiện và cấu trúc.  Lưu trữ dữ liệu, thông tin, tri thức và siêu dữ liệu phục vụ cho phân tích.  Các tổ chức có thể chết đuối trong dữ liệu nhưng đói thông tin. 3
  4. Khái niệm về kho dữ liệu  Kho dữ liệu dung cho mục đích riêng biệt, lĩnh vực hẹp gọi là Data Mart.  Một Data warehouse có thể hình thành nhiều Data Mart.  Thuật ngữ Data Warehousing: Quá trình xây dựng và sử dụng một kho dữ liệu. 4
  5. Khái niệm về kho dữ liệu  Công cụ ETL (Extract – Transform – Load):  Rút trích (Extract):  Rút trích thông tin từ những nguồn đã có,  Những phiên bản phụ thuộc thời gian của dữ liệu,  Chọn lựa dữ liệu.  Chuyển đổi (Transform):  Chuyển đổi các định dạng khác nhau về định dạng cho trước.  Tải (Load)  Sắp xếp, hợp nhất, lập chỉ mục, … và phân hoạch. 5
  6. Các đặc tính của kho dữ liệu  Dữ liệu hướng chủ thể:  Dữ liệu hướng theo từng nhóm đối tượng: khách hang, bệnh nhân, sản phẩm, …  Tập trung vào việc mô hình hóa và phân tích các dữ liệu cho các nhà sản xuất quyết định  Chuyển từ hướng ứng dụng sang hướng hỗ trợ quyết định.  Không dùng cho các hoạt động hang ngày hoặc xử lý giao dịch. 6
  7. Các đặc tính của kho dữ liệu  Tính tích hợp:  Dữ liệu được tập hợp từ nhiều nguồn: có thể khác kiểu, khác cấu trúc, …  Các nguồn: cơ sở dữ liệu quan hệ, tập tin có cấu trúc, tập tin phẳng, …  Cần được chuẩn hóa để đảm bảo tính nhất quán trong quy ước đặt tên, …  Việc chuẩn hóa cần thực hiện trước khi tích hợp. 7
  8. Các đặc tính của kho dữ liệu  Dữ liệu biến thời gian.  Thông tin về quá khứ, hiện tại,  So sánh dữ liệu theo chiều thời gian,  Hỗ trợ quyết định cho tương lai.  Thành phần thời gian có thể tường minh hoặc ngầm định.  Dữ liệu mang tính bền vững, chỉ đọc (non volatile):  Có thể thêm vào, nhưng không thay thế,  Phục vụ việc nghiên cứu, phân tích 8
  9. Sự cần thiết của kho dữ liệu  Phục vụ các phân tích dữ liệu phức tạp:  Phân tích định hướng,  Phân tích chuỗi thời gian,  Phân tích rủi ro.  Hỗ trợ khám phá thông tin, tri thức ẩn.  Hỗ trợ ra quyết định. 9
  10. Mô hình dữ liệu đa chiều  Kho dữ liệu dựa trên mô hình dữ liệu đa chiều cho phép nhìn dữ liệu dưới hình thức của một khối dữ liệu  Một khối dữ liệu cho phép dữ liệu được mô hình và được nhìn trong nhiều chiều bởi:  Các bản chiều (Dimension Tables) như Item (item_name, brand, type); time(day, week, month).  Một khối dữ liệu dựa trên n-D (n chiều) được gọi là một cuboid cơ sở. 10
  11. Mô hình dữ liệu đa chiều  Cube: một lưới các cuboid 11
  12. Mô hình dữ liệu đa chiều  Mô hình ý niệm của Kho dữ liệu  Lược đồ hình sao (Star schema): Một bảng sự kiện ở giữa nối đến một tập bảng chiều  Lược đồ hình bông tuyết (Snowflake schema): Là lược đồ tinh chế từ lược đồ hình sao (một vài chiều có sự phân cấp được chuẩn hóa thành một tập các bảng chiều nhỏ hơn).  Chòm sao sự kiện (Fact constellation): Nhiều bảng sự kiện chia sẽ các bảng chiều. Một cách gọi khác cho lược đồ này Galaxy schema (lược đồ thiên hà) 12
  13. Mô hình dữ liệu đa chiều  Lược đồ hình sao Bảng sự kiện chứa dữ liệu sự kiện hoặc định lượng Quan hệ 1:N của bảng chiều và bảng sự kiện Bảng chiều chứa các mô tả về các chủ thể của nghiệp vụ 13
  14. Mô hình dữ liệu đa chiều  Lược đồ chòm sao sự kiện 14
  15. Mô hình dữ liệu đa chiều  Lược đồ hình bông tuyết time item time_key day item_key supplier day_of_the_week Sales Fact Table item_name supplier_key month brand supplier_type quarter time_key type year item_key supplier_key branch_key branch location location_key location_key branch_key units_sold street branch_name city_key city branch_type dollars_sold city_key avg_sales city province_or_street Measures country 15
  16. Kiến trúc của kho dữ liệu 1. Kiến trúc 2 lớp khái quát (Generic Two-Level Architecture). 2. Data Mart độc lập (Independent Data Mart). 3. Data Mart phụ thuộc và kho lưu trữ dữ liệu tác nghiệp (Dependent Data Mart and Operational Data Store). 4. Data Mart luận lý và Kho dữ liệu tích cực (Logical Data Mart and @ctive Warehouse). 5. Kiến trúc dữ liệu ba lớp (Three-Layer data architecture) 16
  17. Kiến trúc của kho dữ liệu 2. Kiến trúc 2 lớp khái quát : L T E 17
  18. Kiến trúc của kho dữ liệu 2. Data Mart độc lập: T E L 18
  19. Kiến trúc của kho dữ liệu 2. Data Mart độc lập:  Dữ liệu được rút trích từ môi trường hoạt động mà không có ảnh hưởng của kho dữ liệu.  Hạn chế của Data Mart độc lập:  Mỗi Data Mart độc lập cần một ETL riêng,  Các Data Mart không tương thích nhau,  Tốn nhiều chi phí để có một ứng dụng mới,  Tốn chi phí để làm cho các Data Mart tương thích nhau. 19
  20. Kiến trúc của kho dữ liệu 3. Data Mart phụ thuộc và kho lưu trữ dữ liệu tác nghiệp: L T E 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2