intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Kho dữ liệu và kinh doanh thông minh - Bài 8: Xây dựng DW

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:69

1
lượt xem
0
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng Kho dữ liệu và kinh doanh thông minh - Bài 8: Xây dựng DW, trình bày các nội dung chính như sau: Dự án DW; Trích chọn/chuyển đổi/tải (ETL); Siêu dữ liệu/metadata. Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Bài giảng Kho dữ liệu và kinh doanh thông minh - Bài 8: Xây dựng DW

  1. KHO DỮ LIỆU VÀ KINH DOANH THÔNG MINH Bài 8: Xây dựng DW
  2. Nội dung  Dự án DW  Trích chọn/chuyển đổi/tải (ETL)  Siêu dữ liệu/metadata 2
  3. 1. Dự án DW • Xây dựng DW là một dự án IT phức tạp – Kích thước trung bình của một dự án DW gồm từ 500 tới 1000 hành động • Tổ chức dự án DW – Thí dụ các vai trò và công việc trong dự án: 3
  4. 1. Dự án DW • Các công việc thông thường trong một dự án DW – Giao tiếp – tiến trình trao đổi thông tin giữa các thành viên nhóm – Quản lý xung đột • Tam giác thỏa hiệp giữa thời gian, giá và chất lượng – Đảm bảo chất lượng • Hiệu năng, độ tin cậy, khả năng mở rộng và sức mạnh,… – Tài liệu 4
  5. 1. Dự án DW • Lựa chọn phần mềm – Hệ CSDL cho DW • Thường lựa chọn giống như công nghệ CSDL được cung cấp cho dữ liệu tác nghiệp • MDB đối ngược với RDB – Các công cụ ETL • Phân biệt bởi nhu cầu làm sạch dữ liệu – Các công cụ phân tích • Biến đổi từ các sản phẩm khai phá dữ liệu tới các sản phẩm OLAP hay tập trung vào các chức năng báo cáo – Quản lý lưu trữ • Quản lý siêu dữ liệu 5
  6. 1. Dự án DW • Lựa chọn phần cứng – Lưu trữ dữ liệu • Các hệ thống RAID, SAN, NAS – Xử lý • Các hệ thống Multi-CPU, SMP, Clusters • Dung sai lỗi • Data replication, mirroring RAID, backup strategies – Các nhân tố khác • Data access times, transfer rates, memory bandwidth, network throughput and latency 6
  7. 1. Dự án DW • Timeline dự án, phụ thuộc vào phương pháp luận phát triển dự án, nhưng thường – Pha 1: Chứng tỏ khái niệm • Thiết lập hạ tầng kỹ thuật • Nguyên mẫu trích chọn/chuyển đổi/tải dữ liệu • Nguyên mẫu phân tích và báo cáo – Pha 2: Điều khiển các phiên bản • Tiến trình lặp xây dựng các data mart hướng chủ thể – Pha 3: Vận hành • Vận hành, hỗ trợ và đào tạo, bảo trì và phát triển • Phần quan trọng nhất của một dự án xây dựng DW là xác định tiến trình ETL 7
  8. 2. ETL • ETL là gì? – Trích chọn/extract, chuyển đổi/transform, và tải/load – Ba chức năng CSDL này được liên kết vào 1 công cụ để kéo dữ liệu từ CSDL sản xuất và đặt vào DW • Chuyển đổi dữ liệu từ 1 CSDL tới 1 CSDL khác dạng data mart và DW • Chuyển đổi CSDL từ 1 định dạng này sang 1 định dạng khác 8
  9. 2. ETL • Khi nào sử dụng ETL? – Định kỳ (thí dụ, hàng ngày, hàng tuần) hay sau những sự kiện nào đó – Chính xác cập nhật được thiết lập bởi người quản trị dựa trên yêu cầu người dùng và thông lượng mạng – Có thể dùng các chính sách khác nhau cho các nguồn dữ liệu khác nhau – Hiếm khi cập nhật ngay khi có một sự thay đổi nào đó (DW thời gian thực) • Không đảm bảo nếu DW đòi hỏi dữ liệu hiện tại 9
  10. 2. ETL • ETL được dùng để tích hợp các hệ thống đa dạng với nhau – Với các hệ quản trị CSDL, hệ điều hành, phần cứng và phương thức giao tiếp khác nhau • Các thức thách với ETL – Chuyển dữ liệu từ nguồn tới đích nhanh nhất có thể – Cho phép khôi phục tại điểm mắc lỗi mà không cần thực hiện lại toàn bộ tiến trình • Điều này dẫn tới việc cân bằng giữa viết dữ liệu vào bảng staging hay giữ nó trong bộ nhớ 10
  11. 2. ETL • Vùng Staging, các luật cơ bản – Dữ liệu trong vùng staging được quản lý bởi nhóm ETL • Người dùng thông thường không được phép dùng dữ liệu này – Các báo cáo không thể truy cập dữ liệu từ vùng staging này – Chỉ các tiến trình ETL có thể viết và đọc từ vùng staging này 11
  12. 2. Vùng Staging • Vùng Staging được cấu trúc để giữ dữ liệu – Các file phẳng/Flat files – Các tập dữ liệu XML – Các bảng quan hệ 12
  13. 2. Cấu trúc dữ liệu • File phẳng/Flat files – Các công cụ ETL dựa trên các scripts, như Perl, VBScript hay JavaScript – Ưu điểm • Không chi phí duy trì siêu dữ liệu như hệ quản trị CSDL • Sắp xếp, hợp nhất, xóa bỏ, thay thế và các chức năng chuyển đổi dữ liệu khác nhiều khi nhanh hơn so với trong CSDL – Nhược điểm • Không có khái niệm cập nhật • Truy vấn và truy cập trực tiếp ngẫu nhiên không được hỗ trợ tốt bởi hệ điều hành • File phẳng không hỗ trợ lập chỉ mục để truy cập nhanh như bảng trong CSDL 13
  14. 2. Cấu trúc dữ liệu • Khi nào nên sử dụng file phẳng? – Phân đoạn dữ liệu nguồn để bảo vệ và khôi phục • Tiếp cận tốt nhất để khởi động lại một tiến trình đã bị lỗi là đổ dữ liệu vào một file phẳng – Sắp xếp dữ liệu • Sắp xếp dữ liệu trong hệ thống file có thể hiệu quả hơn so với sắp xếp nó trong CSDL sử dụng mệnh đề Order By • Sắp xếp quan trọng vì phần lớn vòng đời xử lý của ETL là sắp xếp 14
  15. 2. Cấu trúc dữ liệu • Khi nào sử dụng file phẳng? – Lọc • Sử dụng chức năng như grep – Thay thế chuỗi text • Xử lý file tuần tự nhanh hơn mức hệ thống sử dụng CSDL 15
  16. 2. Cấu trúc dữ liệu • Tập dữ liệu XML – Được sử dụng như một định dạng chung cho cả đầu vào và đầu ra của ETL – Nói chung không sử dụng để lưu trữ lâu dài/ persistent staging – Các cơ chế hữu dụng • Lược đồ XML (thay thế DTD) • XQuery, XPath • XSLT 16
  17. 2. Cấu trúc dữ liệu • Các bảng quan hệ – Sử dụng các bảng là phù hợp nhất đặc biệt với trường hợp không có các công cụ ETL chuyên dụng – Ưu điểm • Siêu dữ liệu rõ ràng: column names data types and lengths, cardinality, etc. • Relational abilities: data integrity as well as normalized staging • Open repository/SQL interface: easy to access by any SQL compliant tool – Nhược điểm • Thỉnh thoảng chậm hơn so với file hệ điều hành 17
  18. 2. Vùng Staging lưu trữ • Thiết kế vùng staging? – CSDL, file, cấu trúc thư mục staging được thiết lập bởi người quản trị CSDL và hệ thống dựa trên ước lượng dung lượng dữ liệu. Thí dụ 1 bảng dung lượng 18
  19. 2. ETL • ETL – Trích chọn dữ liệu – Chuyển đổi dữ liệu – Tải dữ liệu 19
  20. 2. Trích chọn dữ liệu • Trích chọn dữ liệu – Dữ liệu cần được lấy từ nguồn và đặt vào DW • Các công cụ/script của bản thân nguồn dữ liệu có thể dùng để xuất/export dữ liệu • Chương trình bên ngoài trích dữ liệu từ nguồn – Nếu dữ liệu được xuất ra, thường nó được xuất ra file text và sau đó cần chuyển vào CSDL trung gian – Nếu dữ liệu được trích từ nguồn, thường nó được chuyển trực tiếp vào CSDL trung gian 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2