Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 3 - Nguyễn Ngọc Duy
lượt xem 2
download
Tiếp tục chương 2, chương 3 của Bài giảng Kho dữ liệu và khai phá dữ liệu gồm các nội dung về khái niệm kho dữ liệu, mô hình dữ liệu đa chiều, kiến trúc của kho dữ liệu, cài đặt kho dữ liệu và xử lí phân tích trực tuyến, kho dữ liệu hỗ trợ quyết định.Mời các bạn tham khảo.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 3 - Nguyễn Ngọc Duy
- KHÁI NIỆM CHUNG VỀ KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU 1 1
- Nội dung 1. Khái niệm về kho dữ liệu. 2. Mô hình dữ liệu đa chiều 3. Kiến trúc của kho dữ liệu. 4. Cài đặt kho dữ liệu và Xử lý phân tích trực tuyến. 5. Liên hệ công nghệ kho dữ liệu với khai pha dữ liệu. 6. Xây dựng kho dữ liệu với mục đích hỗ trợ quyết định. 2
- Khái niệm về kho dữ liệu Kho dữ liệu (data warehouse) là nơi lưu trữ dữ liệu. Dữ liệu được tích hợp. Dữ liệu được thu thập từ nhiều nguồn: Khác về không gian, Khác về thời gian, Khác về thể hiện và cấu trúc. Lưu trữ dữ liệu, thông tin, tri thức và siêu dữ liệu phục vụ cho phân tích. Các tổ chức có thể chết đuối trong dữ liệu nhưng đói thông tin. 3
- Khái niệm về kho dữ liệu Kho dữ liệu dung cho mục đích riêng biệt, lĩnh vực hẹp gọi là Data Mart. Một Data warehouse có thể hình thành nhiều Data Mart. Thuật ngữ Data Warehousing: Quá trình xây dựng và sử dụng một kho dữ liệu. 4
- Khái niệm về kho dữ liệu Công cụ ETL (Extract – Transform – Load): Rút trích (Extract): Rút trích thông tin từ những nguồn đã có, Những phiên bản phụ thuộc thời gian của dữ liệu, Chọn lựa dữ liệu. Chuyển đổi (Transform): Chuyển đổi các định dạng khác nhau về định dạng cho trước. Tải (Load) Sắp xếp, hợp nhất, lập chỉ mục, … và phân hoạch. 5
- Các đặc tính của kho dữ liệu Dữ liệu hướng chủ thể: Dữ liệu hướng theo từng nhóm đối tượng: khách hang, bệnh nhân, sản phẩm, … Tập trung vào việc mô hình hóa và phân tích các dữ liệu cho các nhà sản xuất quyết định Chuyển từ hướng ứng dụng sang hướng hỗ trợ quyết định. Không dùng cho các hoạt động hang ngày hoặc xử lý giao dịch. 6
- Các đặc tính của kho dữ liệu Tính tích hợp: Dữ liệu được tập hợp từ nhiều nguồn: có thể khác kiểu, khác cấu trúc, … Các nguồn: cơ sở dữ liệu quan hệ, tập tin có cấu trúc, tập tin phẳng, … Cần được chuẩn hóa để đảm bảo tính nhất quán trong quy ước đặt tên, … Việc chuẩn hóa cần thực hiện trước khi tích hợp. 7
- Các đặc tính của kho dữ liệu Dữ liệu biến thời gian. Thông tin về quá khứ, hiện tại, So sánh dữ liệu theo chiều thời gian, Hỗ trợ quyết định cho tương lai. Thành phần thời gian có thể tường minh hoặc ngầm định. Dữ liệu mang tính bền vững, chỉ đọc (non volatile): Có thể thêm vào, nhưng không thay thế, Phục vụ việc nghiên cứu, phân tích 8
- Sự cần thiết của kho dữ liệu Phục vụ các phân tích dữ liệu phức tạp: Phân tích định hướng, Phân tích chuỗi thời gian, Phân tích rủi ro. Hỗ trợ khám phá thông tin, tri thức ẩn. Hỗ trợ ra quyết định. 9
- Mô hình dữ liệu đa chiều Kho dữ liệu dựa trên mô hình dữ liệu đa chiều cho phép nhìn dữ liệu dưới hình thức của một khối dữ liệu Một khối dữ liệu cho phép dữ liệu được mô hình và được nhìn trong nhiều chiều bởi: Các bản chiều (Dimension Tables) như Item (item_name, brand, type); time(day, week, month). Một khối dữ liệu dựa trên n-D (n chiều) được gọi là một cuboid cơ sở. 10
- Mô hình dữ liệu đa chiều Cube: một lưới các cuboid 11
- Mô hình dữ liệu đa chiều Mô hình ý niệm của Kho dữ liệu Lược đồ hình sao (Star schema): Một bảng sự kiện ở giữa nối đến một tập bảng chiều Lược đồ hình bông tuyết (Snowflake schema): Là lược đồ tinh chế từ lược đồ hình sao (một vài chiều có sự phân cấp được chuẩn hóa thành một tập các bảng chiều nhỏ hơn). Chòm sao sự kiện (Fact constellation): Nhiều bảng sự kiện chia sẽ các bảng chiều. Một cách gọi khác cho lược đồ này Galaxy schema (lược đồ thiên hà) 12
- Mô hình dữ liệu đa chiều Lược đồ hình sao Bảng sự kiện chứa dữ liệu sự kiện hoặc định lượng Quan hệ 1:N của bảng chiều và bảng sự kiện Bảng chiều chứa các mô tả về các chủ thể của nghiệp vụ 13
- Mô hình dữ liệu đa chiều Lược đồ chòm sao sự kiện 14
- Mô hình dữ liệu đa chiều Lược đồ hình bông tuyết time item time_key day item_key supplier day_of_the_week Sales Fact Table item_name supplier_key month brand supplier_type quarter time_key type year item_key supplier_key branch_key branch location location_key location_key branch_key units_sold street branch_name city_key city branch_type dollars_sold city_key avg_sales city province_or_street Measures country 15
- Kiến trúc của kho dữ liệu 1. Kiến trúc 2 lớp khái quát (Generic Two-Level Architecture). 2. Data Mart độc lập (Independent Data Mart). 3. Data Mart phụ thuộc và kho lưu trữ dữ liệu tác nghiệp (Dependent Data Mart and Operational Data Store). 4. Data Mart luận lý và Kho dữ liệu tích cực (Logical Data Mart and @ctive Warehouse). 5. Kiến trúc dữ liệu ba lớp (Three-Layer data architecture) 16
- Kiến trúc của kho dữ liệu 2. Kiến trúc 2 lớp khái quát : L T E 17
- Kiến trúc của kho dữ liệu 2. Data Mart độc lập: T E L 18
- Kiến trúc của kho dữ liệu 2. Data Mart độc lập: Dữ liệu được rút trích từ môi trường hoạt động mà không có ảnh hưởng của kho dữ liệu. Hạn chế của Data Mart độc lập: Mỗi Data Mart độc lập cần một ETL riêng, Các Data Mart không tương thích nhau, Tốn nhiều chi phí để có một ứng dụng mới, Tốn chi phí để làm cho các Data Mart tương thích nhau. 19
- Kiến trúc của kho dữ liệu 3. Data Mart phụ thuộc và kho lưu trữ dữ liệu tác nghiệp: L T E 20
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 3 - Giới thiệu chung về kho dữ liệu
129 p | 276 | 27
-
Bài giảng Kho dữ liệu và kinh doanh thông minh - Chương 5: Khai phá dữ liệu trong kinh doanh (P2)
128 p | 123 | 17
-
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 2 - Tiền xử lý dữ liệu
77 p | 149 | 13
-
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 2 - Nguyễn Hoàng Ân (2018)
19 p | 59 | 6
-
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương mở đầu - Nguyễn Ngọc Duy
4 p | 32 | 6
-
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 1 - Nguyễn Hoàng Ân (2018)
22 p | 60 | 5
-
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 4 - Nguyễn Ngọc Duy
114 p | 26 | 3
-
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 2 - Nguyễn Ngọc Duy
125 p | 46 | 3
-
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 1 - Nguyễn Ngọc Duy
30 p | 34 | 3
-
Bài giảng Kho dữ liệu và kinh doanh thông minh - Bài 6: Tối ưu hóa
64 p | 2 | 1
-
Bài giảng Kho dữ liệu và kinh doanh thông minh - Bài 1: Giới thiệu chung
34 p | 1 | 0
-
Bài giảng Kho dữ liệu và kinh doanh thông minh - Bài 2: Kho dữ liệu
31 p | 0 | 0
-
Bài giảng Kho dữ liệu và kinh doanh thông minh - Bài 3: Kiến trúc kho dữ liệu
65 p | 1 | 0
-
Bài giảng Kho dữ liệu và kinh doanh thông minh - Bài 4: Mô hình hóa dữ liệu
63 p | 0 | 0
-
Bài giảng Kho dữ liệu và kinh doanh thông minh - Bài 5: Lập chỉ mục
58 p | 1 | 0
-
Bài giảng Kho dữ liệu và kinh doanh thông minh - Bài 7: Phép toán và truy vấn OLAP
63 p | 3 | 0
-
Bài giảng Kho dữ liệu và kinh doanh thông minh - Bài 8: Xây dựng DW
69 p | 3 | 0
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn