Bài giảng Kho dữ liệu và kinh doanh thông minh - Bài 8: Xây dựng DW
lượt xem 0
download
Bài giảng Kho dữ liệu và kinh doanh thông minh - Bài 8: Xây dựng DW, trình bày các nội dung chính như sau: Dự án DW; Trích chọn/chuyển đổi/tải (ETL); Siêu dữ liệu/metadata. Mời các bạn cùng tham khảo!
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Kho dữ liệu và kinh doanh thông minh - Bài 8: Xây dựng DW
- KHO DỮ LIỆU VÀ KINH DOANH THÔNG MINH Bài 8: Xây dựng DW
- Nội dung Dự án DW Trích chọn/chuyển đổi/tải (ETL) Siêu dữ liệu/metadata 2
- 1. Dự án DW • Xây dựng DW là một dự án IT phức tạp – Kích thước trung bình của một dự án DW gồm từ 500 tới 1000 hành động • Tổ chức dự án DW – Thí dụ các vai trò và công việc trong dự án: 3
- 1. Dự án DW • Các công việc thông thường trong một dự án DW – Giao tiếp – tiến trình trao đổi thông tin giữa các thành viên nhóm – Quản lý xung đột • Tam giác thỏa hiệp giữa thời gian, giá và chất lượng – Đảm bảo chất lượng • Hiệu năng, độ tin cậy, khả năng mở rộng và sức mạnh,… – Tài liệu 4
- 1. Dự án DW • Lựa chọn phần mềm – Hệ CSDL cho DW • Thường lựa chọn giống như công nghệ CSDL được cung cấp cho dữ liệu tác nghiệp • MDB đối ngược với RDB – Các công cụ ETL • Phân biệt bởi nhu cầu làm sạch dữ liệu – Các công cụ phân tích • Biến đổi từ các sản phẩm khai phá dữ liệu tới các sản phẩm OLAP hay tập trung vào các chức năng báo cáo – Quản lý lưu trữ • Quản lý siêu dữ liệu 5
- 1. Dự án DW • Lựa chọn phần cứng – Lưu trữ dữ liệu • Các hệ thống RAID, SAN, NAS – Xử lý • Các hệ thống Multi-CPU, SMP, Clusters • Dung sai lỗi • Data replication, mirroring RAID, backup strategies – Các nhân tố khác • Data access times, transfer rates, memory bandwidth, network throughput and latency 6
- 1. Dự án DW • Timeline dự án, phụ thuộc vào phương pháp luận phát triển dự án, nhưng thường – Pha 1: Chứng tỏ khái niệm • Thiết lập hạ tầng kỹ thuật • Nguyên mẫu trích chọn/chuyển đổi/tải dữ liệu • Nguyên mẫu phân tích và báo cáo – Pha 2: Điều khiển các phiên bản • Tiến trình lặp xây dựng các data mart hướng chủ thể – Pha 3: Vận hành • Vận hành, hỗ trợ và đào tạo, bảo trì và phát triển • Phần quan trọng nhất của một dự án xây dựng DW là xác định tiến trình ETL 7
- 2. ETL • ETL là gì? – Trích chọn/extract, chuyển đổi/transform, và tải/load – Ba chức năng CSDL này được liên kết vào 1 công cụ để kéo dữ liệu từ CSDL sản xuất và đặt vào DW • Chuyển đổi dữ liệu từ 1 CSDL tới 1 CSDL khác dạng data mart và DW • Chuyển đổi CSDL từ 1 định dạng này sang 1 định dạng khác 8
- 2. ETL • Khi nào sử dụng ETL? – Định kỳ (thí dụ, hàng ngày, hàng tuần) hay sau những sự kiện nào đó – Chính xác cập nhật được thiết lập bởi người quản trị dựa trên yêu cầu người dùng và thông lượng mạng – Có thể dùng các chính sách khác nhau cho các nguồn dữ liệu khác nhau – Hiếm khi cập nhật ngay khi có một sự thay đổi nào đó (DW thời gian thực) • Không đảm bảo nếu DW đòi hỏi dữ liệu hiện tại 9
- 2. ETL • ETL được dùng để tích hợp các hệ thống đa dạng với nhau – Với các hệ quản trị CSDL, hệ điều hành, phần cứng và phương thức giao tiếp khác nhau • Các thức thách với ETL – Chuyển dữ liệu từ nguồn tới đích nhanh nhất có thể – Cho phép khôi phục tại điểm mắc lỗi mà không cần thực hiện lại toàn bộ tiến trình • Điều này dẫn tới việc cân bằng giữa viết dữ liệu vào bảng staging hay giữ nó trong bộ nhớ 10
- 2. ETL • Vùng Staging, các luật cơ bản – Dữ liệu trong vùng staging được quản lý bởi nhóm ETL • Người dùng thông thường không được phép dùng dữ liệu này – Các báo cáo không thể truy cập dữ liệu từ vùng staging này – Chỉ các tiến trình ETL có thể viết và đọc từ vùng staging này 11
- 2. Vùng Staging • Vùng Staging được cấu trúc để giữ dữ liệu – Các file phẳng/Flat files – Các tập dữ liệu XML – Các bảng quan hệ 12
- 2. Cấu trúc dữ liệu • File phẳng/Flat files – Các công cụ ETL dựa trên các scripts, như Perl, VBScript hay JavaScript – Ưu điểm • Không chi phí duy trì siêu dữ liệu như hệ quản trị CSDL • Sắp xếp, hợp nhất, xóa bỏ, thay thế và các chức năng chuyển đổi dữ liệu khác nhiều khi nhanh hơn so với trong CSDL – Nhược điểm • Không có khái niệm cập nhật • Truy vấn và truy cập trực tiếp ngẫu nhiên không được hỗ trợ tốt bởi hệ điều hành • File phẳng không hỗ trợ lập chỉ mục để truy cập nhanh như bảng trong CSDL 13
- 2. Cấu trúc dữ liệu • Khi nào nên sử dụng file phẳng? – Phân đoạn dữ liệu nguồn để bảo vệ và khôi phục • Tiếp cận tốt nhất để khởi động lại một tiến trình đã bị lỗi là đổ dữ liệu vào một file phẳng – Sắp xếp dữ liệu • Sắp xếp dữ liệu trong hệ thống file có thể hiệu quả hơn so với sắp xếp nó trong CSDL sử dụng mệnh đề Order By • Sắp xếp quan trọng vì phần lớn vòng đời xử lý của ETL là sắp xếp 14
- 2. Cấu trúc dữ liệu • Khi nào sử dụng file phẳng? – Lọc • Sử dụng chức năng như grep – Thay thế chuỗi text • Xử lý file tuần tự nhanh hơn mức hệ thống sử dụng CSDL 15
- 2. Cấu trúc dữ liệu • Tập dữ liệu XML – Được sử dụng như một định dạng chung cho cả đầu vào và đầu ra của ETL – Nói chung không sử dụng để lưu trữ lâu dài/ persistent staging – Các cơ chế hữu dụng • Lược đồ XML (thay thế DTD) • XQuery, XPath • XSLT 16
- 2. Cấu trúc dữ liệu • Các bảng quan hệ – Sử dụng các bảng là phù hợp nhất đặc biệt với trường hợp không có các công cụ ETL chuyên dụng – Ưu điểm • Siêu dữ liệu rõ ràng: column names data types and lengths, cardinality, etc. • Relational abilities: data integrity as well as normalized staging • Open repository/SQL interface: easy to access by any SQL compliant tool – Nhược điểm • Thỉnh thoảng chậm hơn so với file hệ điều hành 17
- 2. Vùng Staging lưu trữ • Thiết kế vùng staging? – CSDL, file, cấu trúc thư mục staging được thiết lập bởi người quản trị CSDL và hệ thống dựa trên ước lượng dung lượng dữ liệu. Thí dụ 1 bảng dung lượng 18
- 2. ETL • ETL – Trích chọn dữ liệu – Chuyển đổi dữ liệu – Tải dữ liệu 19
- 2. Trích chọn dữ liệu • Trích chọn dữ liệu – Dữ liệu cần được lấy từ nguồn và đặt vào DW • Các công cụ/script của bản thân nguồn dữ liệu có thể dùng để xuất/export dữ liệu • Chương trình bên ngoài trích dữ liệu từ nguồn – Nếu dữ liệu được xuất ra, thường nó được xuất ra file text và sau đó cần chuyển vào CSDL trung gian – Nếu dữ liệu được trích từ nguồn, thường nó được chuyển trực tiếp vào CSDL trung gian 20
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 3 - Giới thiệu chung về kho dữ liệu
129 p | 276 | 27
-
Bài giảng Kho dữ liệu và kinh doanh thông minh - Chương 5: Khai phá dữ liệu trong kinh doanh (P2)
128 p | 123 | 17
-
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 2 - Tiền xử lý dữ liệu
77 p | 149 | 13
-
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 2 - Nguyễn Hoàng Ân (2018)
19 p | 59 | 6
-
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương mở đầu - Nguyễn Ngọc Duy
4 p | 32 | 6
-
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 1 - Nguyễn Hoàng Ân (2018)
22 p | 60 | 5
-
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 4 - Nguyễn Ngọc Duy
114 p | 26 | 3
-
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 2 - Nguyễn Ngọc Duy
125 p | 46 | 3
-
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 1 - Nguyễn Ngọc Duy
30 p | 34 | 3
-
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 3 - Nguyễn Ngọc Duy
55 p | 34 | 2
-
Bài giảng Kho dữ liệu và kinh doanh thông minh - Bài 6: Tối ưu hóa
64 p | 2 | 1
-
Bài giảng Kho dữ liệu và kinh doanh thông minh - Bài 1: Giới thiệu chung
34 p | 1 | 0
-
Bài giảng Kho dữ liệu và kinh doanh thông minh - Bài 2: Kho dữ liệu
31 p | 0 | 0
-
Bài giảng Kho dữ liệu và kinh doanh thông minh - Bài 3: Kiến trúc kho dữ liệu
65 p | 1 | 0
-
Bài giảng Kho dữ liệu và kinh doanh thông minh - Bài 4: Mô hình hóa dữ liệu
63 p | 0 | 0
-
Bài giảng Kho dữ liệu và kinh doanh thông minh - Bài 5: Lập chỉ mục
58 p | 1 | 0
-
Bài giảng Kho dữ liệu và kinh doanh thông minh - Bài 7: Phép toán và truy vấn OLAP
63 p | 3 | 0
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn