intTypePromotion=3
Array
(
    [0] => Array
        (
            [banner_id] => 140
            [banner_name] => KM1 - nhân đôi thời gian
            [banner_picture] => 964_1568020473.jpg
            [banner_picture2] => 839_1568020473.jpg
            [banner_picture3] => 620_1568020473.jpg
            [banner_picture4] => 994_1568779877.jpg
            [banner_picture5] => 
            [banner_type] => 8
            [banner_link] => https://tailieu.vn/nang-cap-tai-khoan-vip.html
            [banner_status] => 1
            [banner_priority] => 0
            [banner_lastmodify] => 2019-09-18 11:11:47
            [banner_startdate] => 2019-09-11 00:00:00
            [banner_enddate] => 2019-09-11 23:59:59
            [banner_isauto_active] => 0
            [banner_timeautoactive] => 
            [user_username] => sonpham
        )

)

Báo cáo đề tài: Kho Dữ Liệu

Chia sẻ: Le Xuan Binh | Ngày: | Loại File: DOC | Số trang:67

0
103
lượt xem
30
download

Báo cáo đề tài: Kho Dữ Liệu

Mô tả tài liệu
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Chúng ta đang sống trong thời đại của nền kinh tế trí thức. Mọi hoạt động của ta muốn đạt hiệu quả cao thì nhất thiết phải có những phương pháp để có được những thông tin, tri thức cần thiết một cách nhanh và chính xác. Việc áp dụng công nghệ thông tin vào thực tiễn sản xuất nghiệp vụ đã mang lại những hiệu quả và lợi ích to lớn.

Chủ đề:
Lưu

Nội dung Text: Báo cáo đề tài: Kho Dữ Liệu

  1. GIỚI THIỆU Chúng ta đang sống trong thời đại của nền kinh tế trí th ức. Mọi hoạt đ ộng của ta muốn đạt hiệu quả cao thì nhất thiết phải có những ph ương pháp để có được những thông tin, tri thức cần thiết một cách nhanh và chính xác. Việc áp dụng công nghệ thông tin vào thực tiễn sản xuất nghi ệp vụ đã mang lại những hiệu quả và lợi ích to lớn. Công nghệ ngày càng được phát triển, hoàn thiện hơn để đáp ứn g những yêu cầu ngày càng cao của th ực t ế nghiên cứu, quản lý sản xuất và nghiệp vụ. Sự mở rộng qui mô áp d ụng t ừ nh ững ứng dụng đơn lẻ đến các hệ thống thông tin cỡ lớn đã dẫn đến nh ững thành công vượt bậc trong nghiệp vụ. Các hệ thống thông tin từ chỗ chỉ gi ải quy ết nh ững xử lý công việc hàng ngày nay đã tiến tới đáp ứng được những yêu cầu ở mức độ cao hơn. Các nhà quản lý điều hành không những biết được công việc đang diễn ra như thế nào mà còn biết cái gì sẽ xảy ra sau đó, có nghĩa là thông tin mang tính phân tích và hệ thống thông tin có khả năng h ỗ trợ quy ết định. Tuy nhiên việc xây dựng một hệ thống như thế vấp phải một số h ạn ch ế v ề m ặt k ỹ thuật, đặc biệt là khi kích thước cũng như độ ph ức tạp của môi trường thông tin tăng lên. Những hệ thống thông tin xây dựng theo ph ương pháp truy ền th ống không làm hài lòng người sử dụng và các nhà quản lý hệ thống thông tin. Những mục tiêu này không dễ đạt được bởi vì dữ liệu ngày một nhiều, lưu trữ phân tán ở nhiều dạng không tương thích với nhau. Nhiều hệ CSDL đã được xây dựng không tương thích với nhau và không tương thích với những hệ thông tin mới được xây dựng. Nhiều khách hàng không thoả mãn với những hệ thống thông tin hiện thời. Internet cũng đã mở ra nhiều khả năng và triển vọng, cung cấp nhi ều lĩnh vực thông tin phong phú và cần thiết cho hoạt động của chúng ta. Tuy nhiên, một vấn đề đặt ra là làm thế nào để tổ chức, khai thác được những khối lượng dữ liệu khổng lồ và đa dạng đó được? Về phía người sử dụng, thường gặp các khó khăn là: Không thể tìm thấy dữ liệu cần thiết vì dữ liệu rải rác ở rất nhiều hệ thống với các giao diện và công cụ khác nhau. Không thể lấy ra được dữ liệu cần thiết; Không thể hiểu dữ liệu tìm thấy; Không thể sử dụng được dữ liệu tìm thấy Những vấn đề về hệ thống thông tin: Phát triển các chương trình khác nhau là không đơn giản. Một chức năng được thể hiện ở rất nhiều chương trình, nhưng việc tổ chức và sử dụng lại nó là rất khó khăn do hạn chế về kỹ thuật. Chuyển đổi dữ liệu từ các khuôn dạng tác nghiệp khác nhau để phù hợp với người sử dụng là rất khó khăn. Duy trì những chương trình này gặp rất nhiều vấn đề. Một thay đổi ở một ứng dụng sẽ ảnh hưởng đến tất cả các ứng dụng khác có quan hệ. Thông thường sự phụ thuộc lẫn nhau giữa các chương trình không rõ ràng hoặc là không xác định -1-
  2. được. Do sự phức tạp của công việc chuyển đổi cũng như toàn bộ quá trình b ảo trì dẫn đến mã nguồn của các chương trình trở nên hết sức phức tạp. Khối lượng dữ liệu lưu trữ tăng rất nhanh. Không kiểm soát được kh ả năng ch ồng chéo dữ liệu trong các môi trường thông tin dẫn đến kh ối lượng dữ li ệu tăng nhanh. Quản trị dữ liệu phức tạp. Thiếu những định nghĩa chuẩn, thống nhất về dữ liệu dẫn đến việc mất khả năng kiểm soát môi trường thông tin. Một thành phần dữ liệu tồn tại ở nhiều nguồn khác nhau Giải pháp cho tất cả các vấn đề nêu trên chính là việc xây dựng một kho chứa dữ liệu -2-
  3. CHƯƠNG 1: KHO DỮ LIỆU I. GIỚI THIỆU CHUNG VỀ KHO DỮ LIỆU 1.1 Kho dữ liệu Kho dữ liệu (Data Warehouse - DW) là tập hợp các CSDL tích hợp, hướng chủ đề, được thiết kế để hỗ trợ cho chức năng tạo quyết định, mà mỗi đơn vị dữ liệu đều liên quan tới một khoảng thời gian cụ thể. Kho dữ liệu thường rất lớn, nó được xây dựng để tiện lợi cho việc truy cập theo nhiều nguồn, nhiều kiểu dữ liệu khác nhau sao cho có th ể k ết h ợp được cả những ứng dụng của các công nghệ hiện đại và kế thừa được từ những hệ thống đã có sẵn từ trước. Dữ liệu phát sinh từ các hoạt động hàng ngày và được thu thập xử lí để phục vụ công việc nghiệp vụ cụ thể của một tổ ch ức thường được gọi là dữ liệu tác nghiệp ( operational data) và hoạt động thu thập xử lí loại dữ liệu này được gọi là xử lí giao d ịch trực tuy ến ( On_line Transaction Processing - OLPT). Ngược lại, kho dữ liệu phục vụ cho việc phân tích với kết quả mang tính thông tin cao. Các hệ thống thông tin thu thập xử lí dữ liệu loại này còn gọi là hệ xử lí phân tích trực tuy ến ( On_Line Analytical Processing - OLAP). Theo John Ladley, công nghệ kho dữ liệu ( Data Warehouse Technology) là tập các phương pháp, kỹ thuật và các công cụ có thể kết hợp, h ỗ trợ nhau để cung cấp thông tin cho người sử dụng trên cơ sở tích hợp t ừ nhi ều ngu ồn d ữ liệu, nhiều môi trường khác nhau. 1.2 Mục đích của kho dữ liệu Mục đích của kho dữ liệu nhằm đáp ứng mọi yêu cầu về thông tin của NSD. Hỗ trợ để các nhân viên của tổ chức thực hiện tốt, hiệu quả công việc của mình. Giúp cho tổ chức, xác định, quản lý và điều hành các d ự án, các nghi ệp v ụ một cách hiệu quả và chính xác. Tích hợp dữ liệu và các siêu dữ liệu từ nhiều nguồn khác nhau. Yêu cầu đối với kho dữ liệu: Nâng cao chất lượng dữ liệu bằng các phương pháp làm sạch và tinh lọc dữ liệu theo những hướng chủ đề nhất định. Tổng hợp và kết nối dữ liệu. Đồng bộ hoá các nguồn dữ liệu với DW. Phân định và đồng nhất các hệ quản trị cơ sở dữ liệu tác nghiệp như là các công cụ chuẩn để phục vụ cho DW. Quản lí siêu dữ liệu. Cung cấp thông tin được tích hợp, tóm tắt hoặc được liên kết, tổ chức theo các chủ đề. Dùng trong các h ệ -3-
  4. thống hỗ trợ quyết định, các hệ thống thông tin tác nghiệp hoặc hỗ trợ cho các truy vấn đặc biệt. 1.3 Đặc điểm của dữ liệu trong kho dữ liệu 1.3.1/ Tính tích hợp (Integration): Dữ liệu trong DW được tổ chức theo nhiều cách khác nhau sao cho phù hợp với các qui ước đặt tên, thống nhất về số đo, cơ cấu mã hoá và c ấu trúc v ật lý của dữ liệu, v.v. Một DW là một khung nhìn thông tin mức toàn xí nghi ệp, thống nhất các khung nhìn khác nhau thành một khung nhìn theo một ch ủ điểm nào đó. Tính tích hợp thể hiện ở chỗ: Dữ liệu tập hợp trong kho dữ li ệu được thu thập từ nhiều nguồn và trộn ghép với nhau tạo thành một thể thống nhất. 1.3.2/ Hướng chủ đề Dữ liệu trong DW được tổ chức theo các chủ đề phục vụ cho những tổ chức dễ dàng xác định được những thông tin cần thiết trong t ừng hoạt đ ộng c ủa mình. Điều này dẫn đến nội dung dữ liệu được lưu trữ trong DW không l ưu tr ữ dữ liệu chi tiết, chỉ cần lưu trữ những dữ liệu có tính tổng hợp phục vụ chủ yếu cho quá trình phân tích để trợ giúp quyết định. 1.3.3/ Dữ liệu có tính lịch sử Một kho chứa dữ liệu bao hàm một khối lượng lớn dữ liệu lịch sử. D ữ liệu được lưu trữ thành một loạt các snapshot (ảnh chụp dữ liệu), mỗi bản ghi phản ánh những giá trị của dữ liệu tại một thời điểm nhất định th ể hiện một khung nhìn của một chủ điểm trong một giai đoạn. Do vậy cho phép khôi ph ục lại lịch sử và so sánh một cách chính xác các giai đoạn khác nhau. Yếu tố th ời gian đóng vai trò như một phần của khoá để bảo đảm tính đơn nh ất c ủa mỗi hàng và cung cấp đặc trưng về thời gian cho dữ liệu. Dữ liệu của CSDL tác nghiệp thường sau một khoảng th ời gian nh ất đ ịnh thì sẽ trở thành dữ liệu lịch sử và chúng sẽ được chuyển thành kho dữ li ệu. Đó chính là những dữ liệu hợp lý về những chủ điểm cần lưu trữ. 1.3.4/ Dữ liệu có tính ổn định (nonvolatility) Dữ liệu trong DW là dữ liệu chỉ đọc và chỉ có thể được kiểm tra, không được sửa đổi bởi người sử dụng đầu cuối. Nó chỉ cho phép thực hiện hai thao tác cơ bản: Nạp dữ liệu vào kho và truy cập vào vào các vùng trong DW. 1.3.5/ Dữ liệu không biến động Thông tin trong DW được tải vào sau khi dữ liệu trong hệ thống điều hành được cho là quá cũ. Tính không biến động th ể hiện ở ch ỗ: D ữ li ệu đ ược l ưu tr ữ lâu dài trong kho dữ liệu. Mặc dù có thêm dữ liệu mới nhập vào nhưng d ữ li ệu cũ trong kho vẫn không bị xoá, điều đó cho phép cung cấp thông tin về một -4-
  5. khoảng thời gian dài, cung cấp đủ số liệu cần thiết cho các mô hình nghiệp vụ phân tích, dự báo, từ đó có được những quyết định hợp lý, phù hợp với các qui luật tiến hoá của tự nhiên. 1.3.6/ Dữ liệu tổng hợp Dữ liệu tác nghiệp thuần tuý không được lưu trữ trong DW. D ữ li ệu t ổng hợp được tích lại qua nhiều giai đoạn khác nhau theo các chủ điểm như đã nêu trên. 1.4 Một số khái niệm cơ bản 1.4.1 Kho dữ liệu cục bộ (Datamart-DM) Kho dữ liệu cục bộ là CSDL có những đặc điểm giống với kho d ữ li ệu nhưng với quy mô nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực, một chuyên ngành. Datamart là kho dữ liệu hướng chủ đề. Các Datamart có thể được hình thành từ một tập con dữ liệu của kho dữ liệu hoặc cũng có thể được xây dựng độc lập và sau khi xây dựng xong, các datamart có thể được kết nối tích hợp lại với nhau tạo thành kho dữ liệu. Vì vậy có thể xây dựng kho d ữ li ệu b ắt đ ầu bằng việc xây dựng các Datamart hay ngược lại xây dựng kho dữ liệu trước sau đó tạo ra các Datamart. Datamart là một kho dữ liệu thứ cấp các dữ liệu tích h ợp của DW. Datamart được hướng tới một phần của dữ liệu thường được gọi là một vùng chủ đề (Subject Area-SA) được tạo ra và giành cho một nhóm người sử dụng. Dữ liệu trong Datamart cho thông tin về một chủ đề xác định, không phải về toàn bộ các hoạt động nghiệp vụ đang diễn ra trong một tổ chức. Thể hiện thường xuyên nhất của datamart là một kho dữ liệu riêng rẽ theo phương diện vật lí, thường được lưu trữ trên một server riêng, trong một mạng cục bộ phục vụ cho một nhóm người nhất định. Đôi khi datamart một cách đơn giản với công nghệ OLAP tạo ra các quan hệ theo dạng hình sao đặc bi ệt hoặc nh ững siêu khối (hypercube) dữ liệu cho việc phân tích của một nhóm người có cùng mối quan tâm trên một phạm vi dữ liệu. Có hai loại Datamart: Datamart phụ thuộc: chứa những dữ liệu được lấy từ DW và những dữ liệu này sẽ được trích lọc và tinh chế, tích hợp lại ở mức cao hơn để phục vụ một chủ đề nhất định của Datamart. Datamart độc lập: được xây dựng trước DW và dữ liệu được trực tiếp lấy từ các nguồn khác nhau. Phương pháp này đơn giản hơn và chi phí thấp hơn nhưng đổi lại có những điểm yếu. Mỗi DM độc lập có cách tích hợp riêng, do đó d ữ li ệu t ừ nhi ều DM khó đồng nhất với nhau. 1.4.2 Siêu dữ liệu (Metadata) -5-
  6. Metadata là dữ liệu về dữ liệu được sử dụng trong DW trả lời các câu hỏi ai, cái gì, khi nào, tại sao, như thế nào về dữ liệu. Nó đựoc sử dụng cho việc xây dựng, duy trì, quản lí và sử dụng DW. Có ba loại siêu dữ liệu: siêu dữ liệu nghiệp vụ, siêu dữ liệu kĩ thu ật và siêu dữ liệu tác nghiệp. a/ Siêu dữ liệu nghiệp vụ ( Business Metadata): chứa đựng những thông tin khiến cho người sử dụng dễ dàng hiểu được khung cảnh của thông tin được lưu trữ trong DW. b/ Siêu dữ liệu kĩ thuật (Technical Metadata): chứa đựng những thông tin về dữ liệu trong DW của những người thiết kế và quản trị khi tiến hành công việc phát triển và quản lí. c/ Siêu dữ liệu tác nghiệp (Operational Metadata - OM): giúp trong việc duy trì và triển khai DW. OM mô tả thông tin ch ứa đựng trong các bảng đích. Mô tả cốt lõi, khả năng tạo cơ sở dữ liệu đích, thông tin được lưu trữ hay trực tuyến, ngày làm tươi (refresh) dữ liệu, số lượng các bản ghi, lịch thực hiện các công việc và những người sử dụng có khả năng truy nhập vào data. 1.4.3 Kho dữ liệu tác nghiệp, cơ sở dữ liệu thao tác Kho dữ liệu tác nghiệp (Operational Database Store - ODS) là hệ thống tác nghiệp tích hợp căn bản dùng cho mục đích thực hiện công việc trợ giúp quy ết định và phân tích trên dữ liệu giao dịch tác nghiệp. Điều đó khiến cho dữ liệu lưu trữ trong ODS biến động thường xuyên khi những dữ liệu liên quan trong các hệ thống tác nghiệp có sự thay đổi. ODS cung cấp một s ự l ựa ch ọn cho các ứng dụng trợ giúp quyết định tác nghiệp, truy nhập dữ liệu một cách trực tiếp từ các hệ thống xử lí các giao dịch trực tuyến. Đôi khi cũng có những sự nhập nhằng giữa ODS với DW. Trong tất cả các trường hợp, ODS cần phải được xây dựng riêng biệt và là một phần của DW. EIS A B DW DSS ODS C ES Operationa Applications l Sự phân biệt giữa ODS với DW -6-
  7. -Một trong những sự khác nhau cơ bản và quan trọng nhất là ở nội dung và các cấu trúc dữ liệu được lưu trữ. ODS chứa những dữ liệu có giá trị hi ện thời hoặc gần với dữ liệu hiện thời, còn DW chứa những d ữ li ệu l ịch s ử, có giá trị trong một quá khứ gần. ODS có thể cập nhật còn DW không cập nhật được. -Nói chung dữ liệu trong DW thường là rất lớn, nhiều hơn ở ODS -ODS chỉ tập trung lưu trữ những dữ liệu thuần nhất và có giá trị hiện thời còn DW có thể chứa rất nhiều dữ liệu ở nhiều mức độ khác nhau , những dữ liệu không thuần nhất. Highly summarized Data Warehous Current data Lightly summarized e ODS Current datail Old detail Sự phong phú về chủng loại dữ liệu trong DW -Về mặt công nghệ hỗ trợ cho hai hệ thống, ODS đòi hỏi phải là môi trường được phép cập nhật, ghi, thay đổi được những dữ liệu để phù h ợp với nghiệp vụ và nhanh chóng trả lời được các yêu cầu của NSD. Ngược lại, Kho dữ liệu chỉ yêu cầu Load-and-Access Insert Change s ODS Access DW Access Delete Load + General +Load and Access purpose update +No update +Fast response time Hai môi trường khác nhau về công nghệ -Về mặt chức năng, ODS cung cấp một khung nhìn tập trung về dữ liệu gần với thời gian thực từ các hệ thống tác nghiệp. Kho dữ liệu tác nghiệp (ODS) là hệ thống hướng theo chủ đề, tích hợp, có thể thay đổi được, có thể cập nhật, tuyển tập các dữ liệu hiện tại ho ặc g ần v ới hiện tại hỗ trợ cho những quyết định tác nghiệp hàng ngày. -7-
  8. Dữ liệu từ nhiều ứng dụng hiện tại cần được chuyển đổi để lưu vào kho dữ liệu tác nghiệp. Quá trình chuyển đổi dữ liệu bao gồm những bước: Biến đổi dữ liệu; Quyết định xem dữ liệu nào trong số các dữ liệu từ nhiều nguồn khác nhau là tốt nhất; Mã hoá/giải mã dữ liệu; Sửa đổi cấu trúc chính; S ửa đ ổi c ấu trúc vật lý; Thay đổi lại các định dạng đối tượng cho phù h ợp; Biểu di ễn và tính toán lại dữ liệu. Hệ thống dữ liệu tác nghiệp và kho dữ liệu có các đặc tính chính như sau: Đặc trưng Dữ liệu thao tác Kho dữ liệu Mục đích Một ứng dụng tại mỗi thời Một hay nhiều chủ đề ở cùng điểm trong môi trường hiện một thời điểm tại hoặc chứa dữ liệu về một chủ đề ở từng thời điểm Các yêu cầu Biết tường tận Mơ hồ Ứng dụng Nghiệp vụ hàng ngày Trợ giúp quyết định, quản lý, tăng lợi nhuận, lợi thế cạnh chính tranh Truy cập dữ Một số nhỏ các dòng dữ Tập dữ liệu rất lớn được đọc liệu liệu tìm được trong mỗi là để tìm kiếm thông tin. gọi. Truy cập không thường Tần xuất truy cập lớn vào xuyên vào khối lượng lớn dữ những khối lượng dữ liệu liệu vừa phải Khối lượng dữ Khối lượng dữ liệu vừa Khối lượng rất lớn dữ liệu liệu phải cho các công việc hàng cần để phân tích, thống kê, dự báo, lập kế hoạch, báo ngày cáo, v.v. Duy trì dữ liệu Lưu giữ các dữ liệu nghiệp Dữ liệu có tính lịch sử được vụ hàng ngày duy trì dài hạn để đối sánh, phân tích, v.v. Khả năng thực Có thể trong từng phút Phần lớn xử lý tĩnh và dữ hiện đồng thời liệu không thay đổi Mức độ sẵn Độ sẵn sàng ở mức cao theo Không yêu cầu dữ liệu phải sàng của dữ yêu cầu sẵn sàng cao liệu Đơn vị công Nhỏ, quản lý được và dự Lớn, không đoán trước và các -8-
  9. việc đoán được từng đơn vị công đơn vị cong việc hay thay đổi việc Hiệu quả công Hiệu quả cao Linh hoạt việc 1.5 Tổ chức lưu trữ dữ liệu trong kho Có hai cách lưu trữ dữ liệu theo đa chiều: Mô hình d ữ li ệu đa chi ều MDD (MultiDimensional Database) sử dụng cấu trúc khối Cube để lưu trữ với kỹ thuật khai thác tương ứng là MOLAP. Lưu trữ theo mô hình d ữ li ệu quan h ệ đa chiều sử dụng sơ đồ hình sao II. CÁC KIỂU DỮ LIỆU 2.1 Dữ liệu nghiệp vụ (Business data-BD) Dữ liệu nghiệp vụ là dữ liệu dùng để vận hành và quản lý một doanh nghiệp hoặc một tổ chức. Nó phản ánh những hoạt động của doanh nghiệp và những đối tượng trong thế giới thực như là khách hàng, địa điểm, sản phẩm v.v.. Nó được tạo ra và sử dụng bởi các hệ thống xử lý giao tác cũng nh ư các h ệ thống hỗ trợ quyết định (DSS). 2.1.1 Các tiêu chí để phân loại dữ liệu nghiệp vụ a/ Phương thức sử dụng trong nghiệp vụ: Dữ liệu được sử dụng trong nghiệp vụ để thực hiện hai mục tiêu lớn: -Dữ liệu tác nghiệp (operational data): vận hành công việc và liên quan tới các hoạt động hay quyết định mang tính ngắn hạn. -Dữ liệu mang tính thông tin (informational data): vận hành và quản lý doanh nghiệp trong một thời hạn dài. Dữ liệu tác nghiệp là dữ liệu gốc của một tổ chức, nó là nguồn của tất cả các dữ liệu mang tính thông tin. Cả dữ liệu tác nghiệp và dữ liệu thông tin đều được cấu trúc theo nhu cầu truy nhập và sử dụng. b/ Phạm vi dữ liệu: Dữ liệu có thể là: -Dữ liệu chi tiết: thường là các đối tượng hay các giao dịch cơ sở nh ư s ản phẩm, đơn hàng hay khách hàng -Dữ liệu tổng hợp: quản lý doanh nghiệp, thể hiện ở mức độ bao quát hoạt động nghiệp vụ c/ Dữ liệu đọc/ghi hay chỉ đọc: dữ liệu đọc/ghi khác với dữ liệu chỉ đọc một cách cơ bản ở các điểm sử dụng và quản lý: -9-
  10. -Dữ liệu đọc/ghi : yêu cầu được thiết kế cẩn thận các tiến trình cập nh ật nhằm đảm bảo toàn vẹn các luật nghiệp vụ. Cấu trúc của nó tối ưu cho việc ghi vào cơ sở dữ liệu hay vào file -Dữ liệu chỉ đọc: được thiết kế phục vụ cho việc sử dụng nhiều lần. d/ Dữ liệu theo thời gian: Tính chất theo thời gian của dữ liệu thể hiện vị trí của nó xét theo khía cạnh thời gian. -Dữ liệu hiện tại: là một khung nhìn của công việc nghiệp vụ vào th ời điểm hiện tại. Có thể hiểu nó là dữ liệu tức th ời và vì v ậy s ẽ thay đ ổi theo th ời gian trên các hoạt động nghiệp vụ. -Dữ liệu tại thời điểm (point-in-time): là một snapshot của dữ liệu nghiệp vụ trong một thời điểm nhất định, phản ánh trạng thái của doanh nghi ệp vào thời điểm đó. Dữ liệu này thể hiện một khung nhìn của quá khứ, nó có th ể dùng để định kế hoạch hay dự đoán. -Dữ liệu định kỳ: Đây là một lớp dữ liệu mở rộng rất quan trọng. Nó thể hiện sự thay đổi của công việc nghiệp vụ trong mỗi giai đoạn thời gian. 2.1.2 Phân loại dữ liệu nghiệp vụ a/ Dữ liệu thời gian thực (real-time data): Dữ liệu chi tiết, tức thời dùng để vận hành công việc và được truy xuất theo chế độ đọc/ghi thông qua các giao d ịch đã được xác định trước. Dữ liệu thời gian thực được tạo lập, thao tác và sử dụng dụng trong các ứng dụng thao tác hay sản xuất. Chúng có th ể tổ chức thành các file hay CSDL. b/ Dữ liệu dẫn xuất (derived data) : Dữ liệu xác định theo thời điểm ( point-in- time) hoặc dữ liệu định kỳ, ở mức chi tiết hoặc tổng h ợp, thuộc ch ế đ ộ ch ỉ đ ọc, nhận được từ việc xử lý dữ liệu thời gian thực và dùng để quản lý công vi ệc nghiệp vụ. Dữ liệu dẫn xuất là tập dữ liệu thường được sử dụng để trợ giúp quyết định. Dữ liệu mới có thể được suy dẫn từ tổ hợp của các trường hoặc các record dữ liệu có trước. c/ Dữ liệu tương hợp, hoà hợp (reconciled data): Dữ liệu tương hợp là một loại dữ liệu dẫn xuất đặc biệt, sinh ra bởi một tiến trình được thiết kế nhằm b ảo đảm sự vững chắc nội tại của dữ liệu kết quả, tiến trình này th ực hi ện d ựa vào dữ liệu thời gian thực tại mức chi tiết, duy trì hoặc tạo ra các dữ liệu lịch sử. 2.1.3 Dữ liệu nghiệp vụ phi cấu trúc (Untructured business data) Dữ liệu có cấu trúc thường có những đặc điểm: Mỗi thực thể có rất nhiều thuộc tính, hầu hết các trường thuộc tính đều có kích th ước nh ỏ, các th ực thể có quan hệ với nhau. Dữ liệu phi cấu trúc có những đặc tính ngược lại, đó là nh ững d ữ li ệu không thuần nhất, ví dụ: hình ảnh, âm thanh hay phim. Dữ liệu phi c ấu trúc có - 10 -
  11. kích thước lớn, khó thao tác và không được hỗ trợ tốt trong các cơ s ở d ữ li ệu và các công cụ khác. Tuy vậy một kho chứa lại thường có dữ liệu loại này, nh ưng nó chỉ được đưa vào kho sau khi đã hoàn thành vi ệc đưa d ữ li ệu có c ấu trúc vào kho. Dữ liệu thời gian thực phi cấu trúc tương ứng với các ảnh điện tử của các giao tác nghiệp vụ mà không dễ phân tách thành các trường dữ liệu cụ thể hơn. Dữ liệu dẫn xuất phi cấu trúc có thể được xem là tổng hợp hoặc trừu tượng hoá dữ liệu thời gian, như là dữ liệu có cấu trúc. 2.2 Siêu dữ liệu (Metadata) Siêu dữ liệu là dữ liệu về dữ liệu được sử dụng trong DW, trả l ời các câu hỏi ai, cái gì, khi nào, tại sao, như thế nào về dữ liệu. Các thuộc tính này được sử dụng cho việc xây dựng, duy trì, quản lí và sử dụng kho d ữ li ệu. Siêu dữ li ệu là một phần quan trọng nhất của kho dữ liệu. Siêu dữ liệu mô tả về dữ liệu được chứa trong DW, bao gồm: vị trí, mô tả về kho dữ liệu và các thành phần dữ liệu, các tên gọi, định nghĩa, cấu trúc và nội dung của kho dữ liệu cùng với các quan sát của người sử dụng. Xác nhận căn cứ của các nguồn cung cấp dữ liệu. Các qui tắc chuy ển đổi và tích h ợp d ữ li ệu được sử dụng trong kho dữ liệu, trong đó có cả những phép ánh xạ các CSDL thao tác sang kho dữ liệu, kể cả những thuật toán chuy ển đổi. Các qui t ắc chuyển đổi và tích hợp dữ liệu được sử dụng để phân phát dữ li ệu t ới ng ười s ử dụng đầu cuối. Những thông tin mô tả về hệ thống thông tin cấp phát. Nh ững thông tin thao tác trong kho dữ liệu, bao gồm lịch sử quá trình cập nhật kho d ữ liệu, quá trình làm tươi, sao chụp dữ liệu, v.v. Các hệ số đo ( metrics) được sử dụng để phân tích hiệu xuất sử dụng và hiệu quả của kho dữ liệu. Sự đảm đảm bảo về an toàn dữ liệu và danh sách quản lý quyền truy nhập. 2.2.1 Phân loại siêu dữ liệu: Siêudữ liệu được chia thành 3 loại: a/ Siêu dữ liệu nghiệp vụ (Business Metadata): Chứa đựng những thông tin giúp cho người sử dụng dễ dàng hiểu được khung cảnh của thông tin được lưu trữ trong DW, bao gồm những thông tin cho tất cả những người sử dụng đầu cuối về: Các vùng chủ điểm và các loại đối tượng thông tin bao gồm các câu truy vấn, các báo cáo, các hình ảnh, video và các audio clip. Các trang ch ủ trên Internet. Các thông tin khác để hỗ trợ cho tất cả các thành phần cấu thành DW. Chẵng hạn như các thông tin liên quan tới các hệ thống phân ph ối thông tin bao gồm: lịch làm việc, những chi tiết về nơi phân phối, các đối t ượng truy v ấn nh ư những truy vấn, báo cáo và các phân tích được xác định trước. Các thông tin tác nghiệp của DW như lịch sử của dữ liệu (các snapshot, các phiên bản), quyền sở hữu, theo dõi sổ sách, sử dụng dữ liệu. Miêu tả các thuộc tính DW b ằng cách xác định tên của công việc, các định nghĩa, các bảng mô tả và các bí danh. - 11 -
  12. b/ Siêu dữ liệu kĩ thuật (Technical Metadata): Chứa đựng những thông tin về dữ liệu trong DW cho những người thiết kế và quản trị khi tiến hành công việc phát triển và quản lí, bao gồm: Thông tin về các nguồn dữ liệu kể cả những nguồn tác nghiệp và những hệ thống nguồn bên ngoài môi trường kho dữ li ệu v ề v ị trí, tên các file, kiểu file, tên các trường và các đặc tính, bí danh, thông tin về phiên bản, những mối quan hệ, độ lớn, tính dễ biến động, người chủ dữ liệu và những người sử dụng có quyền truy nhập. Những mô tả về sự chuyển đổi ví dụ như cách thức ánh xạ từ cơ sở dữ liệu tác nghiệp lên DW và các thuật toán được sử dụng để biến đổi và cải thiện hay chuy ển đổi dữ li ệu. Nh ững đ ịnh nghĩa cấu trúc dữ liệu và đối tượng trong môi trường Warehouse cho dữ liệu đích. Những luật dùng để làm sạch và cải thiện dữ liệu. Nh ững phép toán ánh xạ dữ liệu khi lấy dữ liệu từ các hệ thống nguồn và đưa chúng vào cơ sở dữ liệu đích. Quyền truy nhập, lịch sử dữ liệu được backup, về quá trình lưu trữ, về sự phân phối thông tin, về sự thu nhận dữ liệu, về sự truy nhập dữ liệu, v.v.. c/ Siêu dữ liệu tác nghiệp (Operational Metadata: OM): giúp trong việc duy trì và triển khai DW. Mô tả thông tin ch ứa đựng trong các bảng đích. Mô t ả c ốt lõi, khả năng tạo cơ sở dữ liệu đích (tạo ra bảng và thông tin dưới dạng li ệt kê), thông tin được lưu trữ hay trực tuyến, ngày refresh, số lượng các bản ghi, l ịch thực hiện các công việc và những người sử dụng có khả năng truy nh ập vào d ữ liệu Metadata hỗ trợ trực tiếp cho người sử dụng giúp họ có th ể hiểu đ ược nội dung và tìm thấy được dữ liệu cần thiết. Trong thực tế khả năng kết h ợp của công cụ trích lọc dữ liệu và Metadata còn rất kém. Do đó cần phải tạo ra những giao diện dùng Metadata cho người sử dụng . Việc lưu trữ, quản lí và phân loại Metadata được thực hiện qua một kho chứa Metadata và các phần mềm kèm theo. Các kho được phân loại bằng cách sử dụng một sơ đồ phân loại được gọi là mô hình thông tin (information model). Mô hình này chứa một danh sách các loại siêu d ữ li ệu và m ối liên quan gi ữa chúng. Kho này là một công cụ quản lí siêu dữ liệu với mục đích chung và rất linh hoạt. Phần mềm quản lí kho siêu dữ liệu có thể được sử dụng để ánh xạ dữ liệu nguồn tới cơ sở dữ liệu đích, tạo mã cho sự tích hợp, chuy ển đ ổi d ữ liệu và kiểm soát dữ liệu di chuyển tới DW. Ph ần m ềm này ch ạy trên m ột máy trạm cho phép người sử dụng biết một cách cụ thể dữ liệu được chuyển đổi như thế nào ví dụ là ánh xạ biến đổi hay được tổng h ợp lại. Hầu h ết các kho có sẵn đều sử dụng một cơ sở dữ liệu quan hệ cho việc lưu trữ và quản lí siêu d ữ liệu. Một vài giải pháp mới cho kho siêu dữ liệu dựa trên công nghệ hệ th ống quản lí cơ sở dữ liệu hướng đối tượng (OODBMS). Metadata định nghĩa nội dung và vị trí của dữ liệu trong DW, mối quan h ệ giữa cơ sở dữ liệu tác nghiệp với DW và các khung nhìn dữ li ệu c ủa DW có th ể - 12 -
  13. truy nhập được bởi công cụ của người sử dụng đầu cuối. Người sử dụng đầu cuối cần đến Metadata khi cần đến những định nghĩa dữ liệu hay các vùng ch ủ thể. Nói cách khác, Metadata cung cấp các con trỏ hướng hỗ trợ quyết định trỏ tới DW và cung cấp mối liên kết logic giữa DW và ứng d ụng h ỗ tr ợ quy ết đ ịnh. Một DW được thiết kế để đảm bảo cơ chế sản sinh, duy trì kho siêu d ữ li ệu và tất cả các đường dẫn truy nhập vào DW đều có Metadata như một điểm vào. Một DW được thiết kế phải ngăn chặn được bất kì một sự truy nhập trực tiếp nào vào DW (đặc biệt là khả năng thay đổi dữ liệu) nếu không sử dụng những định nghĩa Metadata để truy nhập. Kho siêu dữ liệu đươc cài đặt như vậy nhằm đem lại những lợi ích như: Cung cấp một bộ công cụ thông minh cho việc quản lí siêu dữ liệu trong toàn bộ công ty. Làm giảm và loại bỏ sự dư th ừa thông tin, sự không đ ồng nh ất và ít s ử dụng. Đơn giản hoá việc quản lí và cải thiện tổ chức, kiểm soát và tính toán những tài sản thông tin. Làm tăng việc xác định, hiểu rõ, cùng s ắp x ếp và s ử dụng các tài sản thông tin của công ty. Cung cấp các công cụ quản trị dữ li ệu hiệu quả để cùng quản lí tốt hơn các tài sản thông tin với từ điển dữ li ệu đ ầy đủ các chức năng. Làm tăng tính linh hoạt, kiểm soát và độ tin c ậy c ủa ti ến trình phát triển ứng dụng và làm cho việc phát triển ứng dụng nhanh hơn. Thúc đẩy việc điều tra khảo sát trong các hệ thống tác nghiệp với kh ả năng ki ểm kê và s ử dụng những ứng dụng đang tồn tại. Cung cấp mô hình quan hệ t ổng th ể cho RDBMS hỗn tạp để tương tác và chia sẻ thông tin. Tuân theo chuẩn phát tri ển CASE và loại bỏ sự dư thừa với khả năng chia sẻ và dùng lại Metadata. Một vấn đề xuất hiện thường xuyên trong DW là khả năng giao tiếp với người sử dụng đầu cuối về những thông tin bên trong DW và cách th ức chúng được truy nhập. Chính Metadata là cách để người sử dụng và các ứng dụng có thể tiếp cận được với những thông tin được lưu trữ trong DW. Nó có th ể định nghĩa tất cả các nguyên tố dữ liệu và các thuộc tính của chúng. Metadata cần được thu thập khi DW được thiết kế và xây dựng. Metadata phải có sẵn cho tất cả những người sử dụng DW để hướng dẫn họ dùng DW. Các công cụ trợ giúp cũng được thiết lập và cần được đánh giá trước khi quyết định mua nó. Một trong những thành phần chức năng quan trọng của kho Metadata là thư mục thông tin. Thư mục này lưu trữ và quản lí siêu dữ liệu và được gắn liền với các ứng dụng DW. Thư mục này có thể được truy nhập tới bởi tất cả các chương trình nằm bên trong DW như bộ trích lọc, chương trình chuy ển đổi v.v... Đồng thời thư mục này cũng có khả năng truy nhập tới người sử dụng đ ầu cu ối cho việc xem, lấy và truy vấn dữ liệu. Nội dung của thư mục thông tin này là siêu dữ liệu giúp cho người sử dụng về mặt kĩ thuật hay nghiệp vụ đều khai thác được sức mạnh của môi trường DW. Thư mục này giúp tích hợp, duy trì, và xem nội dung của hệ thống DW. - 13 -
  14. Tất cả các thành phần của DW đều cần và có thể lấy dữ liệu từ Metadata. Metadata được lưu trữ ở khu vực trung tâm. Metadata có thể xuất hiện theo nhiều khuôn dạng và có thể trong suốt. 2.2.2 Các đặc tính của siêu dữ liệu a/ Tính lịch sử: Cung cấp cho người sử dụng đầu cuối những thay đổi của DW theo thời gian, Metadata cũng thể hiện quá trình kiến tạo và lịch sử phát triển của DW. b/ Gắn với thời gian: Cần biết khi nào các định nghĩa của Metadata đại diện cho thông tin. Chẳng hạn Metadata có thể được tạo ra cho lần lặp thứ 2 trước khi lần lặp này được sản sinh trong DW. c/ Không dễ thay đổi: Metadata nên được nhập vào tại một nơi và việc cập nhật thông tin được làm trên công cụ của bản gốc. d/ Tính mở: Metadata có thể được tập hợp và chia sẻ từ các ứng dụng khác nhau. e/ Chỉ đọc: Không được phép cập nhật, xóa và chèn thêm bởi người sử dụng đầu cuối. Người sử dụng đầu cuối có thể thay đổi khung tùy thích khung nhìn v ề Metadata của họ. Việc kiểm soát thông tin vào được thực hiện bởi một nhóm người. 2.3 Kho dữ liệu ảo Khi xây dựng và khai thác DW, người ta còn hay s ử dụng khái ni ệm Virtual Data Warehouse- VDW như là một cách để cài đặt nhanh chóng DW mà không cần sao chép lại nhiều bộ dữ liệu. VDW là một kho dữ liệu logic mà ở đó NSD được quyền truy nh ập trực tiếp vào nhiều nguồn dữ liệu thao tác khác nhau thông qua nh ững công c ụ trung gian. VDW được sử dụng để nâng cấp khả năng của mạng đối với mọi công c ụ của NSD, ở mọi nơi trên mạng ở mọi nơi đều có thể truy cập vào các dữ liệu thời gian thực và các dữ liệu dẫn xuất cần thiết. III. KIẾN TRÚC KHO DỮ LIỆU 3.1 Kiến trúc dữ liệu nghiệp vụ Dữ liệu nghiệp vụ bao gồm tập tất cả các dữ liệu được sử dụng trong các quá trình thực thi và quản lý công việc, thường gọi là dữ liệu xí nghiệp (enterprise data). Có ba mô hình kiến trúc dữ liệu: Kiến trúc dữ liệu một tầng, kiến trúc dữ liệu hai tầng, kiến trúc dữ liệu ba tầng. 3.1.1 Kiến trúc dữ liệu một tầng (Single-layer Architecture) Nguyên lý chính của kiến trúc này là mỗi ph ần tử dữ li ệu m ột l ần l ưu tr ữ và chỉ một lần. - 14 -
  15. Ưu điểm: tối thiểu được không gian nhớ và tránh được vấn đề phải quản lý việc duy trì nhiều bản ghi dữ liệu bị sao chép để đảm bảo chúng ph ải đồng bộ, nhất quán. Nhược điểm: thường có sự tranh chấp nhau giữa các ứng dụng tác nghiệp với các ứng dụng thông tin, dẫn tới việc các dữ liệu được cung cấp không đáp ứng về thời gian. Không hỗ trợ để sử dụng phân tán dữ liệu. 3.1.2 Kiến trúc dữ liệu hai tầng (Two-layer Architecture) Một điểm cải tiến của kiến trúc nêu trên là phân tách vùng d ữ li ệu s ử dụng khác nhau của hai loại hệ thống: hệ thống thao tác và hệ th ống xử lý thông tin. Tầng dưới, gồm những dữ liệu được sử dụng cho các ứng dụng tác nghiệp, thực hiện được cả đọc và ghi, đó là những dữ li ệu th ời gian th ực. T ầng trên bao gồm những dữ liệu dẫn xuất giành cho các ứng dụng tìm kiếm thông tin. Dữ liệu dẫn xuất có thể được xác định từ dữ liệu th ời gian th ực thông qua các quá trình tính toán, hoặc cũng có thể là bản sao của dữ liệu thời gian thực. Ưu điểm: giải quyết được vấn đề tranh chấp giữa hai loại hệ thống của kiến trúc một tầng. Hỗ trợ để những NSD đầu cuối có nh ững nhu c ầu x ử lý được dữ liệu khác nhau được lưu trữ trong vùng dữ liệu th ời gian thực. Đi ều này có nghĩa là cho phép đưa ra nhiều dữ liệu dẫn xuất khác nhau từ cùng một dữ liệu thời gian thực. Nhược điểm: Dữ liệu có thể bị lặp lại ở mức cao. Việc tổ chức dữ liệu lặp dẫn đến yêu cầu lưu trữ tốn kém không gian nh ớ và v ấn đ ề quan tr ọng h ơn là vấn đề quản lý, duy trì lại phức tạp hơn nhiều. Không có s ự t ương quan m ột- một giữa dữ liệu thời gian thực với dữ liệu dẫn xuất. 3.1.3 Kiến trúc dữ liệu ba tầng (Three-layer Architecture) Vấn đề cốt lõi của kiến trúc này là dữ liệu thời gian th ực chuy ển sang d ữ liệu dẫn xuất phải thực hiện qua hai bước. -Hoà hợp (Reconcile) các dữ liệu từ tập dữ liệu thời gian thực, tầng trung gian. Đây chính là một cách thực hiện để chuẩn hoá CSDL. Mục đích chính là thu thập nhiều dữ liệu khác nhau từ các hệ thống thông tin tác nghiệp phân tán để tổ hợp lại vào một bức tranh dữ liệu chung cho mỗi xí nghiệp. Đặc trưng của kiến trúc ba tầng: Hỗ trợ cho những yêu cầu cần những thông tin mới từ dữ liệu. Giảm thiểu được số lượng dữ liệu thông tin quản lý. Giảm thiểu sự lặp lại của dữ liệu. Operational System Informational System -Dữ liệu được hoà hợp cung cấp dữ liệu dẫn xuất theo yêu cầu NSD. Derived Data Reconciled Data - 15 - Real-time Data
  16. Kiến trúc dữ liệu ba tầng 3.2 Kiến trúc Siêu dữ liệu Việc phân loại Metadata thành một số loại cũng sẽ dẫn đến việc phải xác định kiến trúc dữ liệu thích hợp cho Metadata. Hiện nay, kiến trúc thường được sử dụng cho Metadata gần với kiến trúc ba tầng. Cấu trúc của Metadata gồm ba phần có quan hệ tương tác với nhau như sau: Read-only Limited write access access Us age Build- End us er Time Business data Control Kiến trúc dữ liệu của Metadata a/ Siêu dữ liệu thời gian xây dựng (Build-time Metadata) Những công cụ hỗ trợ để xác định và biểu diễn những thông tin nghiệp vụ một cách có nghĩa thường được sử dụng để tạo lập và quản lý các siêu dữ li ệu thời gian xây dựng. Đó chính là các công cụ mô hình hoá dữ liệu. Siêu dữ li ệu thời gian xây dựng được thiết lập thông qua cấu trúc, cách lưu trữ và thời gian thu thập được dữ liệu bằng các CASE. Các cấu trúc của siêu dữ liệu thời gian xây dựng th ường th ể hiện yêu c ầu của người thiết kế và những người phát triển chương trình ứng dụng và CSDL, do vậy đôi khi không thật phù hợp với người sử dụng đầu cuối. Nh ững NSD đầu cuối thường có những kỹ năng khác nhau, họ thường có một số nhu c ầu - 16 -
  17. được cập nhật dữ liệu một cách hạn chế, do vậy cần ph ải được h ướng dẫn (điều khiển) một cách cẩn trọng. b/ Siêu dữ liệu điều khiển (Control Metadata) Siêu dữ liệu điều khiển mô tả dữ liệu lưu hành và dữ li ệu ti ện d ụng c ủa dữ liệu nghiệp vụ. Dữ liệu lưu hành là dữ liệu được các ch ương trình ứng dụng hoặc các công cụ tạo ra và cập nhật từ dữ liệu nghiệp vụ. Siêu dữ liệu lưu hành (Currency Metadata) tồn tại ở nhiều mức chi tiết khác nhau. c/ Siêu dữ liệu sử dụng (Usage Metadata) Tầm quan trọng của siêu dữ liệu sử dụng ch ỉ được phát hi ện với s ự xu ất hiện của DW và khối lượng lớn dữ liệu được tạo ra để NSD khai thác. 3.3 Kiến trúc logic và chức năng của kho dữ liệu 3.3.1/ Kiến trúc logic Dữ liệu nghiệp vụ bao gồm ba loại: dữ liệu thời gian thực, dữ liệu tương hợp và dữ liệu dẫn xuất. Mỗi loại dữ liệu này có thể ở các tầng khác nhau và mỗi tầng có cấu trúc vật lý riêng. Kiến trúc dữ liệu logic cho DW có th ể xây dựng như sau: Bus ine s s Information w are hous e = De rive d d ata Data ware ho us e Re c onc ile d = Bus ine s s Data d ata Business data warehouse WBusiness data warehouse arehous e Re al-time = d ata Ope rational Sys te m Kiến trúc ba tầng của DW a/ Hệ thống thao tác (Operational System) - 17 -
  18. Hệ thống thao tác là chương trình phần mềm ứng dụng để thực hiện các nghiệp vụ và các dữ liệu được lưu ở hệ thống tệp hay CSDL. Hệ th ống thao tác bao gồm các nguồn dữ liệu của DW. Dữ liệu được tạo ra trong các h ệ th ống x ử lý giao tác hàng ngày của xí nghiệp. b/ Kho dữ liệu nghiệp vụ (Business Data Warehouse-BDW) Kho dữ liệu nghiệp vụ BDW là dạng cài đặt vật lý những dữ liệu t ổng hợp được thiết kế để điều khiển và cung cấp dữ liệu đơn giản, nhất quán cho NSD đầu cuối. BDW có những đặc tính sau: Chi tiết, Lịch sử, Nh ất quán, Chuẩn hoá. BDW rất ít khi được NSD khai thác trực tiếp. Nó là nguồn cung c ấp dữ liệu cho kho dữ liệu thông tin tác nghiệp. c/ Kho thông tin nghiệp vụ (Business Information Warehouse BIW) Đây là hệ thống thông tin được sử dụng để làm báo cáo, phân tích, hay d ự đoán về nghiệp vụ. Nó bao gồm những thông tin quản lý, trợ giúp quy ết đ ịnh và các hệ thống thông tin thực thi như các hệ th ống phân tích th ị trường, các chương trình ứng dụng khai thác thông tin. BIW được xây dựng hoặc trực tiếp từ BDW hoặc gián tiếp từ những BDW khác. 3.3.2 Các chức năng của kho dữ liệu: Liên quan đến các thành phần của kiến trúc trên là các ch ức năng: Xây dựng dữ liệu cho BDW (thu thập dữ liệu từ các h ệ thống tác nghi ệp); Xây d ựng dữ liệu cho BIW (thu thập dữ liệu từ các DBW); Xây dựng d ữ li ệu cho danh mục DWC (thu thập dữ liệu từ các siêu dữ liệu khi xây d ựng DW); Các chức năng quản trị hệ thống kho dữ liệu (lưu trữ, xử lý, truy cập, truyền tin, v.v) Ba chức năng đầu làm nhiệm vụ tập hợp dữ liệu cho kho d ữ li ệu theo kiến trúc ba tầng. Chức năng thứ tư cung cấp các dịch vụ và sự tiện dụng cho NSD nhằm khai thác, xử lý, khai thác dữ liệu nh ằm đáp ứng m ọi yêu c ầu v ề thông tin hàng ngày của con người, bao gồm một số các chức năng đảm nh ận việc thao tác và quản trị toàn bộ dữ liệu trong môi trường của kho dữ liệu và các thành phần đã được xây dựng. Đó là các các chức năng: a/ Truy cập dữ liệu (Data Access). Mọi truy cập vào DW thực hiện thông qua BII. Khối chức năng này bao gồm hai khối con. Khối con truy nhập: Truy nhập trực tiếp vào Data Warehouse. Truy nhập vào các Datamart. Gia công l ại và bi ến đổi dữ liệu thành các loại dữ liệu có cấu trúc ph ức tạp h ơn. K hối con phân tích, tạo lập báo cáo: Tạo ra các công cụ chuẩn để tạo báo cáo, phân tích, mô hình hoá tác nghiệp. Tạo ra các phần mềm trợ giúp ra quyết định, các phần m ềm khai thác dữ liệu. - 18 -
  19. b/ Quản trị các quá trình (Process Management). Các thành phần của DW có thể hoạt động trên những môi trường khác nhau. Các quá trình thi ết l ập BDW, BIW, DWC có thể một phần đọc lập, nhưng phần lớn là có sự phụ thuộc vào nhau. c/ Chuyển tải dữ liệu (Data transfer). Chức năng này đảm nhận việc chuyển dữ liệu vật lý vào bên trong hệ thống DW. d/ Đảm bảo an ninh dữ liệu (Security). Trong DW chứa các tập dữ liệu về một tổ chức, xi nghiệp, do vậy luôn có nhu cầu phải đảm bảo quản lý được quy ền truy nhập và sử dụng về những dữ liệu đó. Đây là vấn đề quan trọng. e/ Quản trị CSDL. Kho dữ liệu có thể xem như là tập các CSDL, cả tập trung lẫn phân tán, do đó việc quản trị chúng là cần thiết. Nó bao gồm hai chức năng chính quản trị dữ liệu và quản trị siêu dữ liệu. Quản trị dữ liệu. Bản thân kho dữ liệu là một hệ thống thông tin lớn cho nên cũng giống như các hệ quản trị cơ sở dữ liệu tác nghi ệp thông th ường vi ệc quản lý dữ liệu đóng một vai trò rất quan trọng, nh ất là khi ph ải qu ản lí m ột khối lượng rất lớn các dữ liệu lịch sử và hiện tại, với nhiều kiểu loại khác nhau rất phong phú và đa dạng được lưu trữ trong nhiều loại hình v ật mang thông tin. Việc quản lí dữ liệu này tạo môi trường hoạt động cho chính các kh ối ch ức năng. Có thể thấy rằng những chức năng như nhập vào, nạp lại, trích đoạn dữ liệu, tuân thủ an toàn, lưu trữ, khôi phục dữ liệu có trong Data Warehouse là nh ờ lớp quản lí dữ liệu. Những chức năng chính ở lớp quản lí dữ liệu là: Sao lại các dữ li ệu thích hợp từ nguồn dữ liệu đã chọn phục vụ cho việc tinh ch ế và gia công l ại d ữ li ệu trong Data Warehouse. Giám sát và đáp ứng các đòi hỏi cho các dữ liệu mới rút từ các nguồn dữ liệu khác nhau. Bảo quản các dữ liệu trong các nguồn dữ liệu tác nghiệp và nạp lại hoặc cập nhật và làm sạch dữ liệu. Mặt khác, lớp quản lí dữ liệu thống nhất các phương pháp quản lí dữ liệu, các thủ tục, các phép toán phục vụ cho việc an toàn, phân quy ền truy nh ập, lưu trữ và khôi phục dữ liệu. Việc thực hiện các xử lí song song và ph ục h ồi việc sử dụng các xử lí song song cho việc truy nhập dữ liệu cũng được quản lí trong lớp này. Quản trị siêu dữ liệu: Các chức năng chính của lớp này là sao chép, tạo mới, lưu trữ, phục hồi, làm sạch và cập nhật các siêu dữ liệu. NSD có thể sử dụng dữ liệu và siêu dữ liệu theo nhiều cách khác nhau. Dữ liệu có thể được thăm dò và phân tích để có được những kết quả theo yêu cầu, còn siêu dữ liệu chỉ thăm dò (exploration) mà không phân tích được, nó chỉ giúp chúng ta hiểu về dữ liệu. Sự khác nhau trên dẫn đến hai thành phần chức năng: - 19 -
  20. -Giao diện thông tin nghiệp vụ (Business Information Interface - BII): cung cấp các chức năng theo yêu cầu của dữ liệu. Mọi truy cập vào dữ liệu trong kho được thực hiện thông qua BII. -Hướng dẫn thông tin nghiệp vụ (Business Information Guide - BIG): cung cấp các chức năng cần thiết cho siêu dữ liệu. Chức năng này cần để s ử d ụng DWC, để hiểu được ý nghĩa và lợi ích của siêu dữ liệu được sử dụng trước đó. Bus ine s s Info . Inte rfac e Bus ine s s info. Guide Bus ine s s Info rmatio nal w are ho us e Data BIW population Data ware hous e warehouse m anage me nt catalog + Data ac c e s s + Proc e s manage me nt + Data trans fe r Bus ine s s data + arc hive and re trie val w are hous e + Databas e m anage me nt DWC BDW p opulation p opulation Build-time Me tadata Ope ratio nal S ys te m Toàn bộ kiến trúc logic và các chức năng của DW Từ những kiến trúc tổng thể chúng ta có thể đưa ra cách nhìn tổng quan về kiến trúc kho dữ liệu, trong đó thể hiện được cách nạp dữ li ệu v ề kho, cách truy nhập, xử lý thông tin, v.v. - 20 -

CÓ THỂ BẠN MUỐN DOWNLOAD

AMBIENT
Đồng bộ tài khoản