intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 3 - Nguyễn Hoàng Ân (2018)

Chia sẻ: Tầm Y | Ngày: | Loại File: PDF | Số trang:40

45
lượt xem
5
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng "Khai phá dữ liệu - Chương 3: Qui trình phát triển kho dữ liệu" cung cáp cho người học các kiến thức: Xem xét những hoạt động cơ bản trong lập kế hoạch kho dữ liệu, chu trình cho một dự án kho dữ liệu, thảo luận về tổ chức, vai trò và trách nhiệm của nhóm dự án, xem xét các dấu hiệu cảnh báo và nhân tố thành công. Mời các bạn cùng tham khảo.

Chủ đề:
Lưu

Nội dung Text: Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 3 - Nguyễn Hoàng Ân (2018)

  1. Kho dữ liệu và khai phá dữ liệu Chương 2: Qui trình phát triển kho dữ liệu
  2. Mục tiêu Xem xét những hoạt động cơ bản trong lập kế hoạch kho dữ liệu Chu trình cho một dự án kho dữ liệu Thảo luận về tổ chức, vai trò và trách nhiệm của nhóm dự án Xem xét các dấu hiệu cảnh báo và nhân tố thành công
  3. Nội dung Các phương pháp luận phát triển kho dữ liệu Thiết kế mô hình dữ liệu (Data model) Business Dimensional Lifecycle Quá trình ETL/ELT Làm sạch và chuẩn hóa dữ liệu Một số các vân đề lưu ý khi thiết kế kho dữ liệu
  4. 1. Tổng quan Một số câu hỏi quan trọng cần được xem xét trước khi quyết định xây dựng kho dữ liệu :  Theo các tiếp cận Top-down hay bottom-up ?  Dùng cho mức doanh nghiệp hay phòng ban ?  Cái nào trước - data warehouse hay data mart ?  Build pilot or go with a full-fledged implementation?  Data mart phục thuộc hay độc lập ?
  5. Source: adapted from Strange (1997). 5
  6. 2. Các phương pháp phát triển KDL Có 2 phương pháp phát triển chính:  Top-Down  Bottom-Up
  7. 2.1 Top-Down  Cách tiếp cận của Bill Inmon  Dữ liệu trong KDL được lưu trữ ở mức “hạt” (granularity) thấp nhất dựa trên mô hình dữ liệu đã chuẩn hóa  KDL là trung tâm của “Xưởng thông tin công ty” (Corporate Information Factory-CIF) cung cấp một khung nền luận lý (logical framework) cho việc chuyển giao kinh doanh thông minh đến doanh nghiệp. Các hoạt động kinh doanh cung cấp dữ liệu cho CIF.  KDL được tập trung hóa sẽ cung cấp các data mart phụ thuộc có thể được thiết kế dựa trên mô hình dữ liệu có chiều
  8. 2.1 Top-Down (tt) Nguồn: A Managers Guide to Data Warehousing
  9. 2.1 Top-Down (tt) Thuận lợi:  Có được cái nhìn toàn diện (mức doanh nghiệp) về dữ liệu  Có kiến trúc rõ ràng, không phải là việc hợp nhất các data mart khác nhau  Lưu trữ tập trung  Các luật và kiểm soát tập trung  Có thể thấy kết quả nhanh chóng nếu được thực hiện bằng các bước lặp Hạn chế:  Mất nhiều thời gian  Tiềm ẩn rủi ro và thất bại cao  Cần có những kỹ năng của nhiều lĩnh vực ở mức cao  Tốn chi phí
  10. 2.2 Bottom-Up Cách tiếp cận của Ralph Kimball KDL công ty như là tập hợp của các data mart được làm cho phù hợp Data mart được tạo ra trước để cung cấp khả năng phân tích và báo cáo cho những việc kinh doanh chuyên biệt dựa trên mô hình dữ liệu chiều
  11. 2.2 Bottom-Up (tt) Nguồn: A Managers Guide to Data Warehousing
  12. 2.2 Bottom-Up (tt) Thuận lợi:  Thực hiện nhanh và dễ hơn với những phần có thể quản lí  ROI có triển vọng và có thể thực hiện  Rủi ro thất bại ít  Có thể phát triển theo hướng tăng dần, các data mart quan trọng có thể phát triển trước.  Cho phép nhóm dự án học tập và tăng trưởng Hạn chế:  Mỗi data mart cho thấy góc nhìn hẹp về dữ liệu  Có quá nhiều dữ liệu dư thừa trong mỗi data mart  Có quá nhiều dữ liệu không tương thích và bất thường  Gia tăng các giao diện không thể quản lí
  13. 4. The Business Dimensional Lifecycle (Ralph Kimball,etc, 2001, The Data Warehouse Lifecycle Toolkit)
  14. 4. The Business Dimensional Lifecycle (cont.) Minh họa luồng tổng thể của việc thực hiện KDL Xác định tuần tự các nhiệm vụ và các hoạt động chính thực hiện đồng thời Có thể chỉnh sửa được để đáp ứng những nhu cầu đặc biệt của tổ chức Mỗi dự án sẽ thực hiện các tác vụ chi tiết khác nhau
  15. 4.1 Hoạch định dự án Hoạch định dự án nhấn vào định nghĩa và phạm vi dữ liệu bao gồm việc đánh giá sự sẵn sàng và minh chứng về mặt kinh doanh Tập trung vào nguồn lực và cấp độ kỹ năng của nhân viên Hoạch định dự án phụ thuộc vào các yêu cầu kinh doanh
  16. 4.2 Xác định các yêu cầu kinh doanh Hiểu yêu cầu kinh doanh của người dùng là trở ngại lớn nhất đối với sự thành công của KDL Các yêu cầu kinh doanh thiết lập thông qua 3 luồng song song tập trung vào công nghệ, dữ liệu và các ứng dụng người dùng
  17. Ba luồng song song Technology Track Data Track Application Track
  18. Ba luồng song song (tt) Luồng dữ liệu (Data Track)  Mô hình chiều  Thiết kê vật lý  Thiết kế và phát triển dữ liệu tạm (Data Staging) Luồng công nghệ (Technology Track)  Thiết kế kiến trúc kỹ thuật  Chọn lựa và cài đặt kết quả Luồng ứng dụng (Application Track)  Đặc tả ứng dụng người dùng cuối  Phát triển ứng dụng người dùng cuối
  19. 4.4 Mô hình chiều Thiết kế mô hình dữ liệu để hỗ trợ doanh nghiệp phân tích các yêu cầu có một cách tiếp cận khác so với thiết kế hệ thống hoạt động (tác nghiệp) Bắt đầu xây dựng ma trận gồm có các khóa của qui trình kinh doanh và chiều của nó Tiếp theo phân tích dữ liệu chi tiết hơn tương thích với các hệ thống nguồn Sau đó phát triển một mô hình chiều, trong đó xác định các hạt (grain) bảng sự kiện, các chiều liên quan, các thuộc tính và các kế thừa
  20. Bus matrix
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2