intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 3 - Giới thiệu chung về kho dữ liệu

Chia sẻ: Lavie Lavie | Ngày: | Loại File: PPT | Số trang:129

273
lượt xem
27
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mời các bạn tham khảo bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 3 - Giới thiệu chung về kho dữ liệu sau đây để nắm bắt những kiến thức về khái niệm kho dữ liệu; mô hình dữ liệu đa chiều; kiến trúc kho dữ liệu; thi hành kho dữ liệu; từ xây dựng kho dữ liệu tới khai phá dữ liệu; sự phát triển mới của công nghệ khối dữ liệu.

Chủ đề:
Lưu

Nội dung Text: Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 3 - Giới thiệu chung về kho dữ liệu

  1. Bài giảng môn học KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU Chương 3: Giới thiệu chung về Kho dữ liệu Tài liệu này sử dụng một phần Bài giảng ”Data Mining: Concepts and Techniques” — Slides for Textbook — ©Jiawei Han and Micheline Kamber Department of Computer Science  University of Illinois at Urbana­Champaign www.cs.uiuc.edu/~hanj November 4, 2015 Kho dữ liệu và khai phá dữ liệu: Chương 3 1
  2. Nội dung  Khái niệm kho dữ liệu  Mô hình dữ liệu đa chiều  Kiến trúc kho dữ liệu  Thi hành kho dữ liệu  Từ xây dựng kho dữ liệu tới KPDL  Sự phát triển mới của công nghệ khối dữ liệu November 4, 2015 Kho dữ liệu và khai phá dữ liệu: Chương 3 2
  3. Khái niệm kho dữ liệu  Kho dữ liệu (KDL) được định nghĩa theo nhiều cách song không  nghiêm ngặt (chính xác).  CSDL hỗ trợ quyết định được duy trì tách biệt với CSDL tác  nghiệp của tổ chức.  Hỗ trợ xử lý thông tin  nhờ cung cấp một nền tảng vững chắc dữ  liệu hợp nhất, lịch sử để phân tích.  “KDL là một tập hợp dữ liệu hướng chủ đề, tích hợp, có tính thời  gian và không thay đổi để hỗ trợ quá trình tạo quyết định quản  lý.”—W. H. Inmon [Inm02]  Bốn “đặc trưng”: hướng chủ đề, tích hợp, có tính thời gian và không  thay đổi [Inm02] W. H. Inmon (2002). Building the Data Warehouse (Third Edition). John Wiley & Sons, Inc. Kho dữ liệu và khai phá dữ liệu: Chương 2 November 4, 2015 3
  4. Kho dữ liệu: khái niệm  Kho dữ liệu là một môi trường thông tin [Pon01]:  Cung cấp một khung nhìn tích hợp và tổng thể về doanh nghiệp  Tạo sự sẵn có  thông tin hiện tại và lịch sử của doanh nghiệp  để  thuận lợi ra quyết định  Tạo  khả  năng  giao  dịch  hỗ  trợ  quyết  định  mà  không  cản  trở  hệ  thống tác nghiệp  Cung cấp tính nhất quán thông tin doanh nghiệp  Trình diễn nguồn thông tin chiến lược linh hoạt và tương tác được Bổ sung đặc trưng thứ năm là “kết hạt dữ liệu ­ Data Granularity” [Pon01] Paulraj Ponniah, Data warehousing fundamentals, John Wiley & Sons Inc., 2001 Kho dữ liệu và khai phá dữ liệu: Chương 2 November 4, 2015 4
  5. Kiến trúc kho dữ liệu: sơ bộ [Ora02] Oracle9 i. Data Warehousing Guide, Release 2 (9.2), March 2002, Part No. A96520-01 Kho dữ liệu và khai phá dữ liệu: Chương 2 November 4, 2015 5
  6. Tạo kho dữ liệu – Data warehousing Xây dựng KDL (“KDL hóa”): Quá trình xây dựng và sử dụng KDL Kho dữ liệu và khai phá dữ liệu: Chương 2 November 4, 2015 6
  7. KDL — đặc trưng hướng chủ đề  Được tổ chức xung quanh các chủ đề chính, chẳng hạn  như khách hàng, sản phẩm, bán hàng.  Tập trung vào xây dựng mô hình và phân tích dữ liệu để  tạo quyết định; không phái quá trình tác nghiệp hoặc giao  dịch hàng này.  Cung cấp một khung nhìn đơn giản và ngắn gọn về các đề  tài thuộc chủ đề cụ thể nhờ loại bỏ các dữ liệu vô dụng  trong quá trình ra quyết định. Kho dữ liệu và khai phá dữ liệu: Chương 2 November 4, 2015 7
  8. KDL — đặc trưng hướng chủ đề Ứng dụng tác nghiệp   chủ đề KDL Kho dữ liệu và khai phá dữ liệu: Chương 2 November 4, 2015 8
  9. KDL ­ đặc trưng tích hợp  KDL đươc xây dựng từ việc tích hợp các nguồn dữ liệu  phức, không đồng nhất  CSDL quan hệ, CSDL file phẳng (flat files: mã hóa  CSDL sang dạng đặc biệt như .txt hoặc .ini), các bản  ghi giao dịch trực tuyến  Sử dụng các kỹ thuật làm sạch dữ liệu và tích hợp dữ  liệu.  Đảm bảo tính nhất quán quy ước đặt tên, cấu trúc  mã hóa, đo lường thuộc tính, … giữa các nguồn dữ  liệu khác nhau  VD, giá khách sạn: tiền tệ, thuế, bao gói ăn sáng…  Dữ liệu chuyển tới KDL thì nó được chuyển đổi.   Kho dữ liệu và khai phá dữ liệu: Chương 2 November 4, 2015 9
  10. KDL ­ đặc trưng tích hợp Kho dữ liệu và khai phá dữ liệu: Chương 2 November 4, 2015 10
  11. KDL: các vấn đề tích hợp Kho dữ liệu và khai phá dữ liệu: Chương 2 November 4, 2015 11
  12. KDL: chủ đề ­ tích hợp Kho dữ liệu và khai phá dữ liệu: Chương 2 November 4, 2015 12
  13. KDL ­ đặc trưng thời gian  Chiều thời gian đối với KDL là đáng kể dài hơn so với hệ  thống CSDL tác nghiệp.  CSDL tác nghiệp: dữ liệu giá trị hiện thời.  Dữ liệu KDL: cung cấp thông tin theo “quan điểm” lịch  sử (chẳng hạn, 5­10 năm quá khứ)  Mọi cấu trúc cốt lõi trong KDL  Chứa yếu tố thời gian, hiện hoặc ẩn  Nhưng cốt lõi của dữ liệu tác nghiệp có thể chứa hoặc  không chứa “yếu tố thời gian”. Kho dữ liệu và khai phá dữ liệu: Chương 2 November 4, 2015 13
  14. KDL ­ đặc trưng thời gian hiều thời gian hiện thời tới 60­ hiều thời gian 5=10 năm      90  ngày nbum ảnh chụp dữ liệu ập nhật hồ sơ  ấu trúc chính chứa yếu tố thời gian ấu trúc chính chứa / không  Kho dữ liệu và khai phá dữ liệu: Chương 2 November 4, 2015 14
  15. KDL ­ đặc trưng không thay đổi  Lưu trữ vật lý riêng biệt các dữ liệu được chuyển từ môi  trường tác nghiệp sang.  Cập nhật tác nghiệp dữ liệu không xuất hiện trong môi  trường KDL.  Không có xử lý giao dịch, phục hồi và  cơ chế điều  khiển đồng thời.  Chí có hai thao tác truy nhập dữ liệu:   Tải ban đầu dữ liệu và truy cập dữ liệu. Dữ liệu  nguồn không biến đổi trong KDL. Kho dữ liệu và khai phá dữ liệu: Chương 2 November 4, 2015 15
  16. KDL ­ đặc trưng không thay đổi Kho dữ liệu và khai phá dữ liệu: Chương 2 November 4, 2015 16
  17. KDL ≠ HQT CSDL không đồng nhất  Tích hợp CSDL không đồng nhất truyền thống:   Xây dựng bộ bao gói/bộ hòa hợp trên đỉnh CSDL không đồng  nhất  Tiếp cận theo truy vấn  Khi một truy vấn được đưa đến CSDL cục bộ: dùng một siêu  từ điển để dịch truy vấn thành các truy vấn phù hợp với các  CSDL cục bộ riêng rẽ và kết quả được tích hợp thành một tập  trả lời toàn cục  Phức tạp lọc thông tin, cạnh tranh tài nguyên  KDL: định hướng cập nhật, hiệu năng cao  Thông tin từ các nguồn không đồng nhất được tích hợp trước và  lưu trữ trong KDL để truy vấn và xử lý trực tiếp Kho dữ liệu và khai phá dữ liệu: Chương 2 November 4, 2015 17
  18. KDL và Hệ QTCSDL tác nghiệp  OLTP (xử lý giao dịch trực tuyến / on­line transaction processing)  Bài toán chính của Hệ QT CSDL quan hệ truyền thống  Tác nghiệp hàng ngày: thu mua, lưu kho, ngân hàng, sản xuất,  tiền lương, đăng ký, kế toán, vv  OLAP (xử lý phân tích trực tuyến/ on­line analytical processing)  Bài toand chính của hệ thống KDL  Phân tích dữ liệu và tạo quyết định  Đặc trưng phân biệt (OLTP  OLAP):  Định hướng người dùng và hệ thống: khách hàng thị trường  Nội dung dữ liệu: hiện thời, cụ thể  lịch sử, hợp nhất  Thiết kế CSDL: ER + ứng dụng  hình sao + chủ đề  Khung nhìn: hiện thời, cục bộ  tiến hóa, tích hợp  Mẫu truy cập: truy nhập  chỉ đọc với câu hỏi phức Kho dữ liệu và khai phá dữ liệu: Chương 2 November 4, 2015 18
  19. OLTP  OLAP   OLTP  OLAP  Người dùng  Thư lý, chuyên viên CNTT  Chuyên viên tri thức  Chức năng  Tác nghiệp hàng ngày  Hỗ trợ quyết định  Thiết kế CSDL  Hướng ứng dụng  Hướng chủ đề  Dữ liệu  Hiện thời, cập nhật            Lịch sử, tóm tắt, tích hợp đa chiều,   chi tiết, quan hệ phẳng biệt  hợp nhất  lập  Sử dụng  Lặp   Dò tìm (ad­hoc)  Truy cập  Đọc/ghi  Nhiều duyệt  Chỉ mục/băm theo khóa  chính  Đơn vị thao tác  Giao dịch ngắn,đơn giản  Câu hỏi phức tạp  # bản ghi truy cập  Chục  Triệu  #người dùng  Nghìn  Trăm  Kích thước CSDL  100MB­GB  100GB­TB  Đơn vị đo  Thông lượng giao dịch  Thông lượng truy vấn, đáp ứng       Kho dữ liệu và khai phá dữ liệu: Chương 2 November 4, 2015 19
  20. Kho dữ liệu riêng biệt  Hiệu năng cao cho cả hai hệ thống  DBMS— phân bổ cho OLTP: phương pháp truy cập, lập chỉ mục,  điều khiển đồng thời, khôi phục  Warehouse—phân bổ cho OLAP: truy vấn OLAP phức, khung  nhìn đa chiều, hợp nhất  Chức năng khác nhau và dữ liệu khác nhau:  Thiếu dữ liệu: Hỗ trợ quyết định cần dữ liệu lịch sử mà CSDL tác  nghiệp thường không duy trì  Hợp nhất dữ liệu:  Hỗ trợ quyết định đòi hỏi hợp nhất (tổng hợp,  tóm tắt) của dữ liệu từ các nguồn không đồng nhất  Chất lượng dữ liệu: nguồn khác nhau sử dụng trình diễn, mã hóa  và khuôn dạng dữ liệu không nhất quán (cần phải hòa hợp) Kho dữ liệu và khai phá dữ liệu: Chương 2 November 4, 2015 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
6=>0