intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Lakehouse cuộc tiến hóa của nền tảng lưu trữ dữ liệu

Chia sẻ: Liễu Yêu Yêu | Ngày: | Loại File: PDF | Số trang:13

15
lượt xem
3
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết "Lakehouse cuộc tiến hóa của nền tảng lưu trữ dữ liệu" triển khai kiến trúc dữ liệu, chuẩn hóa các phương pháp và giao thức, cũng như hệ thống thu thập, lưu trữ, quản lý và chia sẻ dữ liệu trong toàn tổ chức, doanh nghiệp để cải thiện việc ra quyết định. Trong các tổ chức, doanh nghiệp hiện đại, hầu hết các quyết định được đưa ra trong thời gian thực và để tạo điều kiện cho cơ sở hạ tầng quản lý dữ liệu theo thời gian thực và hiệu quả, kiến trúc sư dữ liệu đặt nền tảng hoặc kế hoạch chi tiết cơ bản cho quản lý dữ liệu của tổ chức, doanh nghiệp. Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Lakehouse cuộc tiến hóa của nền tảng lưu trữ dữ liệu

  1. LAKEHOUSE CUỘC TIẾN HÓA CỦA NỀN TẢNG LƯU TRỮ DỮ LIỆU Bùi Mạnh Trường Khoa Công nghệ Thông tin. Trường Đại học Tài chính – Marketing Email bmtruong@ufm.edu.vn Tóm tắt: Các tổ chức và doanh nghiệp có thể có được những hiểu biết sâu sắc và phong phú hơn khi họ tập hợp được tất cả dữ liệu có liên quan, từ tất cả các nguồn để phân tích. Để phân tích lượng dữ liệu khổng lồ này, họ đã và đang cố gắng thu thập mọi dữ liệu rời rạc và tổng hợp tất cả dữ liệu đó ở một vị trí để triển khai việc phân tích hoặc áp dụng các lĩnh vực mới và công nghệ mới trực tiếp trên đó. Mục đích chính của việc triển khai kiến trúc dữ liệu là chuẩn hóa các phương pháp và giao thức, cũng như hệ thống thu thập, lưu trữ, quản lý và chia sẻ dữ liệu trong toàn tổ chức, doanh nghiệp để cải thiện việc ra quyết định. Trong các tổ chức, doanh nghiệp hiện đại, hầu hết các quyết định được đưa ra trong thời gian thực và để tạo điều kiện cho cơ sở hạ tầng quản lý dữ liệu theo thời gian thực và hiệu quả, kiến trúc sư dữ liệu đặt nền tảng hoặc kế hoạch chi tiết cơ bản cho quản lý dữ liệu của tổ chức, doanh nghiệp. . Từ khóa: Kho dữ liệu, Hồ dữ liệu, Lakehouse, kiến trúc lưu trữ dữ liệu 1. ĐẶT VẤN ĐÈ Cùng sự gia tăng nhanh chóng số lượng ứng dụng ngày nay đã làm xuất hiện vấn đề về tính toàn vẹn của dữ liệu. Vấn đề được nói tới ở đây chính là với số lượng các ứng dụng rất lớn đã tạo ra dữ liệu giống nhau ở nhiều nơi nhưng lại có các giá trị khác nhau. Để ra quyết định, người dùng phải xem xét phiên bản dữ liệu nào phù hợp hoặc đúng nhất trong những ứng dụng đó. Nếu người dùng không tìm được đúng phiên bản của dữ liệu sẽ dẫn tới quyết định sai lầm. Hình 1: Minh họa tình huống các phiên bản dữ liệu khác nhau 193
  2. Đây chính là lý do cho sự cần thiết của phương pháp xây dựng nền tảng khác nhằm tìm được dữ liệu đúng khi ra quyết định, Kho dữ liệu chính là giải pháp. 1.1 Kho dữ liệu Kho dữ liệu sẽ buộc dữ liệu sinh ra từ các ứng dụng khác nhau được lưu trữ tại một nơi lưu trữ vật lý riêng biệt. Các nhà thiết kế sẽ phải xây dựng một cơ sở hạ tầng hoàn toàn mới xung quanh Kho dữ liệu. Dữ liệu có cấu trúc Kho dữ liệu Khóa KPI Văn bản Bản ghi QUẢN LÝ VÀ Siêu dữ liệu Lịch sử QUẢN TRỊ Tóm tắt Nguồn Phân loại DỮ LIỆU Chi tiết Mô hình Giao dịch BI và phân tích SQL Hình 2:: Mô hình cơ sở hạ tầng phân tích xung quanh Kho dữ liệu Cơ sở hạ tầng phân tích được xây dựng xung quanh Kho dữ liệu chứa các thành phần sau : a. Siêu dữ liệu (Metadata) : Hướng dẫn dữ liệu nào nằm ở đâu. b. Mô hình dữ liệu : Mô tả dữ liệu được tìm thấy trong Kho dữ liệu c. Lịch sử dữ liệu : Lưu giữ nguồn gốc, việc chuyển đổi dữ liệu trong Kho dữ liệu d. Bản tóm tắt : Bản mô tả công việc thuật toán được thiết kế tạo dữ liệu. 194
  3. e. KPI (Key Performance Indicator) : Chỉ số đánh giá hiệu suất. f. ETL : Cho phép dữ liệu ứng dụng chuyển đổi thành dữ liệu của tổ chức. Các hạn chế của Kho dữ liệu xuất hiện khi chủng loại dữ liệu cần lưu trữ gia tăng như văn bản, hình ảnh, âm thanh, video, internet vạn vật… trong hoạt động cùa các tổ chức. Ngoài ra, việc trỗi dậy của lĩnh vực Máy học (ML – Machine Learning) và Trí tuệ nhân tạo (AI – Artificial Intelligence) đã làm xuất hiện các thuật toán lặp đòi hỏi việc truy cập dữ liệu trực tiếp và không còn dựa trên SQL 1.2 Các kiểu dữ liệu trong tổ chức Kho dữ liệu cũng tập trung vào dữ liệu có cấu trúc vốn chiếm phần lớn tạo thành dữ liệu quan trọng và hữu ích, nhưng cũng có những kiểu dữ liệu khác tồn tại trong một tổ chức bao gồm: a. Dữ liệu có cấu trúc Phổ biến nhất là các dữ liệu giao dịch được sinh ra từ các hoạt động vận hành hàng ngày của tổ chức. b. Dữ liệu văn bản. Là dữ liệu được sinh ra từ thư từ, thư điện tử, văn bản và các cuộc trò chuyện diễn ra trong tổ chức. c. Dữ liệu không có cấu trúc Là dữ liệu xuất phát từ các nguồn khác như dữ liệu Internet vạn vật (IoT – Internet of Things), hình ảnh, video và dữ liệu dạng tương tự (analog). Có cấu trúc Văn bản Không có cấu trúc Hình 3: Các kiẻu dữ liệu trong tổ chức 195
  4. 2. HỒ DỮ LIỆU (Data Lake) Hồ dữ liệu là sự pha trộn tất cả các kiểu dữ liệu sinh ra trong tất cả các hoạt động của tổ chức, là nơi mà tổ chức có thể tải lên xuống dữ liệu bằng mạng nội bộ cùng với các hệ thống lưu trữ chi phí thấp và một Giao diện chương trình ứng dụng (API – Application Program Interface) dùng để lưu trữ dữ liệu tổng quát theo một định dạng tập tin mở như Apache Parquet và ORC. Việc sử dụng các định dạng tập tin mở giúp cho dữ liệu của Hồ dữ liệu có thể truy cập trực tiếp từ rất nhiều loại cơ chế phân tích khác nhau như các hệ thống Máy học. Các tổ chức tạo ra giá trị kinh doanh thành công từ dữ liệu của họ sẽ hoạt động tốt hơn so với các tổ chức khác. Một cuộc khảo sát của Aberdeen cho thấy các tổ chức đã triển khai Data Lake vượt trội hơn các công ty tương tự 9% về mức tăng trưởng doanh thu không phải trả phí. Những nhà lãnh đạo này đã có thể thực hiện các loại phân tích mới như Máy học qua các nguồn mới như tập tin nhật ký, dữ liệu từ các luồng nhấp chuột, mạng xã hội và các thiết bị kết nối internet được lưu trữ trong Hồ dữ liệu. Điều này đã giúp họ xác định và hành động theo các cơ hội phát triển kinh doanh nhanh hơn bằng cách thu hút và giữ chân khách hàng, thúc đẩy năng suất, chủ động bảo trì thiết bị và đưa ra quyết định sáng suốt. Mục tiêu chính của việc xây dựng Hồ dữ liệu là cung cấp một cái nhìn chưa tinh chỉnh về dữ liệu cho các nhà khoa học dữ liệu. Hình 4: Mô hình hoạt động của Hồ dữ liệu 196
  5. Khi Hồ dữ liệu mới xuất hiện, mọi người thường nghĩ rằng Hồ dữ liệu sẽ cần dữ liệu được trích xuất ra để đưa vào Hồ dữ liệu. Khi Hồ dữ liệu đã có dữ liệu thì người dùng cuối chỉ việc đắm chìm trong Hồ để tìm dữ liệu và thực hiện các tác vụ phân tích. Tuy nhiên, các tổ chức nhanh chóng phát hiện ra rằng việc sử dụng dữ liệu trong Hồ dữ liệu là một câu chuyện hoàn toàn khác so với việc chỉ đơn giản là lấy dữ liệu có trong Hồ dữ liệu. Nhiều mong đợi, kỳ vọng của Hồ dữ liệu đã không trở thành hiện thực do thiếu một số chức năng quan trọng ví dụ như việc hỗ trợ giao dịch, nâng cao chất lượng của dữ liệu, quản trị dữ liệu và việc tối ưu kết quả hoạt động. Kết quả là, phần lớn Hồ dữ liệu trong các tổ chức đã trở thành đầm lầy dữ liệu. 2.1 Các thách thức của kiến trúc dữ liệu hiện tại Do những hạn chế của Hồ dữ liệu, một cách tiếp cận mới là việc sử dụng hỗn hợp các hệ thống với nhau gồm một Hồ dữ liệu, nhiều Kho dữ liệu và các hệ thống chuyên dụng khác. Sự kết hợp này lại dẫn đến 03 vấn đề chính sau : a. Thiếu độ mở Kho dữ liệu khóa dữ liệu thành các định dạng chiếm hữu làm tăng chi phí di chuyển dữ liệu hoặc khối lượng công việc sang các hệ thống khác. Kho dữ liệu bản chất cung cấp quyền truy cập SQL duy nhất nên khó khăn trong vận hành các cơ chế phân tích khác như các hệ thống Máy học. Ngoài ra, Kho dữ liệu có chi phí rất cao với việc truy cập dữ liệu trực tiếp bằng SQL, nên việc tích hợp với các công nghệ khác trở nên khó khăn. b. Hỗ trợ các hệ thống Máy học còn hạn chế Mặc dù có nhiều nghiên cứu về sự hợp nhất của Máy học và việc quản trị dữ liệu, nhưng vẫn không có hệ thống Máy học hàng đầu nào như TensorFlow, PyTorch và XGBoost làm việc tốt với những Kho dữ liệu tốt nhất. Không giống như các công cụ kinh doanh thông minh (BI – Business Intelligence) chỉ đòi hỏi trích xuất một số lượng nhỏ dữ liệu, các hệ thống Máy học xử lý các tập dữ liệu lớn bằng các đoạn mã phi SQL phức tạp. Do những tình huống này, các nhà cung cấp Kho dữ liệu đề xuất việc xuất dữ liệu thành các tập tin, dù sẽ làm tăng cao độ phức tạp và không còn giá trị sử dụng. 197
  6. c. Sự đánh đổi bắt buộc giữa Hồ dữ liệu và Kho dữ liệu Hơn 90% dữ liệu của một tổ chức được lưu trữ trong Hồ dữ liệu do tính linh hoạt từ việc truy cập mở trực tiếp tới các tập tin với chi phí thấp bắt nguồn từ việc sử dụng thiết bị lưu trữ chi phí thấp. Để giải quyết việc thiếu hiệu quả hoạt động và các vấn đề về chất lượng dữ liệu của Hồ dữ liệu, các tổ chức thực hiện tác ETL (Extract – Transforms - Load) một số lượng nhỏ dữ liệu vào Hồ dữ liệu để tải dữ liệu về Kho dữ liệu nhằm hỗ trợ việc ra những quyết định quan trọng và hỗ trợ các ứng dụng Kinh doanh thông minh (BI). Kiến trúc hệ thống đôi này đòi hỏi việc vận hành liên tục để ETL dữ liệu giữa Hồ dữ liệu và Kho dữ liệu. Mỗi bước ETL luôn tiềm ẩn rủi ro thất bại hoặc gây lỗi làm giảm chất lượng dữ liệu, trong khi đó việc duy trì Hồ dữ liệu và Kho dữ liệu ổn định rất khó khăn và chi phí cao. Ngoài việc phải chi phí cho tác vụ ETL liên tục, người dùng phải trả gấp đôi chi phí cho việc sao chép dữ liệu vào Kho dữ liệu. 3. SỰ NỔI LÊN CỦA KIÊN TRÚC LAKEHOUSE Hiện nay trên thị trường đã xuất hiện một lớp kiến trúc dữ liệu mới gọi là Data Lakehouse, là một hệ thống được chuẩn hóa và được thiết kế có độ mở nhằm thực hiện các cấu trúc dữ liệu giống nhau và các công cụ quản trị dữ liệu giống Kho dữ liệu cùng việc truy cập dữ liệu trực tiếp với các thành phần lưu trữ dữ liệu chi phí thấp của Hồ dữ liệu. Khái niệm Data Lakehouse xuất hiện lần đầu tiên vào năm 2017 có liên quan tới nền tảng Snowflake. Năm 2019, AWS đã sử dụng thuật ngữ Data Lakehouse để mô tả dịch vụ Amazon Redshift Spectrum của mình, dịch vụ này cho phép người dùng của dich vụ Kho dữ liệu của Amazon Redshift tìm kiếm trong dữ liệu được lưu trữ tại Amazon S3. Năm 2020, thuật ngữ Data Lakehouse đã được sử dụng rộng rãi, công ty Databricks sử dụng thuật ngữ này cho nền tảng Delta Lake của mình. Kiến trúc Data Lakehouse sẽ có tương lai tươi sáng phía trước khi các tổ chức, doanh nghiệp trong nhiều lĩnh vực, ngành nghề ứng dụng và triển khai Trí tuệ nhân tạo (AI) để cải thiện hoạt động các dịch vụ, giới thiệu các sản phẩm được cải tiến và các dịch vụ hoặc đính hướng thành công của ngành marketing. Dữ liệu có cấu trúc từ các hệ thống vận hành truyền vào các Kho dữ liệu thường không phù hợp cho các hoạt động phân tích thông minh, trong khi đó Hồ dữ liệu thì không chỉ được thiết kế cho các hoạt động thực tiễn quản trị dữ liệu mạnh mẽ, bảo mật cao và tương thích với quy tắc ACID. 198
  7. Hình 5: Mô hình hoạt động của Data Lakehouse Kiến trúc Data Lakehouse tập trung vào các thách thức chính của kiến trúc dữ liệu hiện tại như đã được trình bày ở trên, ví dụ như : a. Cho phép truy cập mở trực tiếp bằng các định dạng mở như Apache Parquet. b. Cung cấp lớp cơ bản cho lĩnh vực Khoa học dữ liệu và Máy học. c. Tối đa hiệu suất hoạt động có thể với độ tin cậy cao cùng các thiết bị lưu trữ chi phí thấp. 3.1 Kiên trúc cơ bản của Data Lakehouse Kiến trúc tổng quát của một Data Lakehouse có thể minh họa như hình dưới, ta có thể chia Data Lake thành 5 tầng quan trọng: 199
  8. Hình 6 : Kiến trúc cơ bản của Data Lakehouse a. Tầng nạp dữ liệu (Ingestion tier) Dữ liệu có thể được tải vào Data Lakehouse từ nhiều nguồn (Data source) theo thời gian thực hoặc theo lô (Batches). Nạp dữ liệu là việc cung cấp và triển khai các công cụ đồng bộ và tiền xử lý dữ liệu để đưa vào Data Lakehouse (Hiện có nhiều công cụ hỗ trợ đa dạng các loại dữ liệu cũng như cách thức đồng bộ). b. Tầng khai phá (Insights tier) Sử dụng dữ liệu từ hệ thống. Các truy vấn SQL, NoSQL, SQL MapReduce sẽ được sử dụng để khai thác và phân tích dữ liệu. c. Tầng lưu trữ (Stogare) Tầng này hiện hầu hết các hệ thống sử dụng HDFS với ưu điểm về chi phí, tính linh hoạt, chịu lỗi và khả năng mở rộng dễ dàng đặc biệt hiệu quả với các dữ liệu cấu trúc và phi cấu trúc. Đây là tầng sẽ lưu trữ toàn bộ dữ liệu của hệ thống. Việc lưu trữ dữ liệu trên Data Lakehouse đòi hỏi phải có tính mở rộng, chi phí thấp và cho phép truy cập nhanh tới dữ liệu cần khai phá và đặc biệt hỗ trợ đa định dạng. 200
  9. d. Tầng tiền xử lý (Distillation tier) Vai trò lấy dữ liệu trực tiếp từ tầng lưu trữ sau đó làm sạch và và chuyển sang dữ liệu có cấu trúc, giúp dễ dàng hơn cho việc phân tích. e. Tầng xử lý (Processing tier) Xử lý và chạy các thuật toán phân tích, hỗ trợ người dùng truy vấn thời gian thực, tương tác theo lô với mục đích sinh ra các dữ liệu có cấu trúc để dề dàng phân tích. f. Tầng giám sát, vận hành (Operations tier) Chi phối quản lý và giám sát hệ thống, bao gồm cả việc quản lý chất lượng dữ liệu, danh mục dữ liệu, bảo mật và quy trình khai thai, sử dụng hệ thống. 3.2 Lợi ích của Data Lakehouse Một số đặc trưng khác nhau mang đến những lợi ích chính của kiến trúc Data Lakehouse có thể kể ra như sau : a. Tính mở Các định dạng tập tin mở : Xây dựng dựa trên các định dạng tập tin mở và được chuẩn hóa như Apache Parquet và ORC. Giao diện chương trình ứng dụng (API) mở : Cung cấp API mở nhằm giúp việc truy cập trực tiếp dữ liệu một cách hiệu quả mà không cần sử dụng các cơ chế và sự tham gia của các nhà cung cấp. Hỗ trợ ngôn ngữ : Hỗ trợ không chỉ SQL để truy cập dữ liệu mà còn hỗ trợ rất nhiều các công cụ và cơ chế khác, bao gồm cả những hệ thống Máy học và các thư viện ngôn ngữ Python, R. b. Hệ thống Máy học hỗ trợ Hỗ trợ đa dạng các kiểu dữ liệu: Việc lưu trữ, sàng lọc, phân tích và truy cập dữ liệu dùng cho nhiều ứng dụng khác nhau, bao gồm hình ảnh, video, âm thanh, dữ liệu bán cấu trúc và văn bản. Truy cập dữ liệu trực tiếp phi SQL hiệu quả: Khả năng truy cập trực tiêp lượng lớn dữ liệu để vận hành các thí nghiệp Máy học sử dụng các thư viện của ngôn ngữ Python, R. 201
  10. Hỗ trợ API cho DataFrame: Việc tích hợp sẵn DataFrame API và tối ưu hóa truy vấn khi truy cập dữ liệu trong các tác vụ Máy học xuất phát từ thực tiễn các hệ thống Máy học như TensorFlow, PyTorch và XGBoost đã tích hợp sẵn DataFrame và trở thành yếu tố chính khi xử lý dữ liệu. Các phiên bản dữ liệu cho các tác vụ Máy học: Cung cấp các khung nhìn dữ liệu cho đội ngũ khoa học dữ liệu và Máy học để truy cập và chuyển đổi các phiên bản dữ liệu trước đó phục vụ cho công tác hậu kiểm và triển khai cũng như tái sử dụng cho các tác vụ Máy học. c. Tăng hiệu suất tối đa và độ tin cậy với chi phí thấp Tối ưu hóa hiệu suất: Cho phép các kỹ thuật tối ưu khác nhau như việc sử dụng bộ nhớ truy cập nhanh, gom khối dữ liệu đa chiều và nhảy dữ liệu bằng cách tác động số liệu thống kê tập tin và nén dữ liệu giúp giảm độ lớn của tập tin vừa đủ. Tuân thủ lược đồ tổ chức dữ liệu và quản trị dữ liệu : Hỗ trợ các kiến trúc lược đồ lưu trữ dữ liệu của Kho dữ liệu như lược đồ hình sao/bông tuyết và cung cấp các cơ chế mạnh mẽ trong quản trị dữ liệu cũng như hậu kiểm dữ liệu. Hỗ trợ giao dịch: Tuân thủ chặt chẽ quy tắc ACID để đảm bảo tính toàn vẹn dữ liệu khi có nhiều bên đồng thời truy cập dữ liệu, ví dụ như sử dụng SQL Chi phí lưu trữ thấp: Kiến trúc Lakehouse được xây dựng dựa trên các thiết bị lưu trữ chi phí thấp như Amazon S3, Azure Blob Storage hoặc Google Cloud Storage. 3.3 So sánh Kho dữ liệu, Hồ dữ liệu và Lakehouse Kho dữ liệu Hồ dữ liệu Lakehouse Định dạng dữ liệu Đóng, chiếm hữu Mở Mở Kiểu dữ liệu Có cấu trúc Tất cả các kiểu dữ Tất cả các kiểu dữ Ít hỗ trợ bán cấu liệu : Có cấu trúc, liệu : Có cấu trúc, trúc bán cấu trúc, văn bán cấu trúc, văn bản, không có cấu bản, không có cấu trúc trúc Truy cập dữ liệu Chỉ có SQL APIs mở để truy APIs mở để truy cập trực tiếp các tập cập trực tiếp các tập 202
  11. Kho dữ liệu Hồ dữ liệu Lakehouse Không truy cập trực tin bằng SQL, tin bằng SQL, tiếp các tập tin Python, R … Python, R … Độ tin cậy Dữ liệu có chất Chất lượng thấp. Dữ liệu có chất lượng cao, độ tin Đầm dữ liệu lượng cao, độ tin cậy cao tuân thủ cậy cao tuân thủ quy tắc ACID trong quy tắc ACID trong các giao dịch các giao dịch Quản trị và Bảo mật Bảo mật dữ liệu rất Quản trị dữ liệu Bảo mật dữ liệu rất cao và chi tiết. kém vì Bảo mật cần cao và chi tiết. Quản trị dữ liệu tới được áp dụng tới Quản trị dữ liệu tới cấp độ dòng/cột của các tập tin cấp độ dòng/cột của bảng bảng Hiệu suất Cao Thấp Cao Khả năng mở rộng Dễ mở rộng Dễ mở rộng Dễ mở rộng Mở rộng sẽ khiến Do đặc trưng trích Do đặc trưng trích chi phí tăng theo xuất số lượng nhỏ xuất số lượng nhỏ cấp số nhân dữ liệu để xử lý nên dữ liệu để xử lý nên việc mở rộng không việc mở rộng không bị ảnh hưởng với tất bị ảnh hưởng với tất cả các kiểu dữ liệu cả các kiểu dữ liệu Hỗ trợ tình huống Còn hạn chế với Còn hạn chế trong Là kiến trúc dữ liệu cụ thể các ứng dụng sử lĩnh vực Máy học phù hợp cho các dụng SQL, BI và hỗ ứng dụng sử dụng trợ ra quyết định SQL, BI và lĩnh vực Máy học Lược đồ Hình sao, bông Không có lược độ Tuân thủ lược đồ tuyết mặc định được áp dụng Truy vấn Dễ truy vấn Hiệu suất truy vấn Hiệu suất truy vấn tối ưu kém tối ưu cao 203
  12. Kho dữ liệu Hồ dữ liệu Lakehouse Người dùng Tất cả Nhà phân tích kinh Lãnh đạo tổ chức, doanh, nhà khoa doanh nghiệp và học dữ liệu, kỹ sư đội ngũ chuyên dữ liệu và kiến trúc trách dữ liệu sư dữ liệu Phân tích Cơ bản Nâng cao Phù hợp với phân tích dòng dữ liệu công việc, gồm cả phân tích nâng cao và BI 4. TRIỂN VỌNG CỦA KIẾN TRÚC LAKEHOUSE Kho dữ liệu vốn là công nghệ quen thuộc được sử dụng bởi các doanh nghiệp, giúp họ tận dụng tiềm năng rộng lớn của Big Data. Tuy nhiên, công nghệ lưu trữ dữ liệu mới - Data Lakehouse - đang tạo ra thay đổi trong cách doanh nghiệp tiếp cận và sử dụng dữ liệu. Dựa trên tính chất và khả năng của từng loại, Data warehouse dường như là sự lựa chọn tốt hơn cho các doanh nghiệp muốn tận dụng dữ liệu. Trong khi đó, Data Lakehouse cho phép người dùng khai thác tối đa các khả năng mà dữ liệu có thể mang lại, tuy nhiên, đây có thể là một nhiệm vụ khó khăn cho các người dùng thông thường với kỹ năng không đủ chuyên sâu. Chắc chắn là cả hai công nghệ lưu trữ dữ liệu này sẽ tiếp tục phát triển cũng như khả năng để các nhà cung cấp phát triển một giải pháp kết hợp nhằm mục đích giúp việc sử dụng dữ liệu trở nên nhanh hơn, linh hoạt hơn và đáng tin cậy hơn. Hiện có 6 nhóm ứng dụng phổ biển của Data Lakehouse cho các doanh nghiệp: a. Thành phố thông mình (Smart city) b. Internet vạn vật (IoT) c. Khoa học và đời sống d. An ninh mạng và Bảo mật e. Khách hàng và Marketing f. Tư vấn và hỗ trợ 204
  13. Tuy nhiên, Data Lakehouse cũng có những hạn chế, trong đó hạn chế lớn nhất phải kể đến đó là công nghệ của kiến trúc này vẫn còn khá mới và chưa hoàn chỉnh, vì thế sẽ không thể đảm bảo rằng kiến trúc này sẽ tồn tại để đạt được kỳ vọng hay không. Có thể mất vài năm để kiến trúc này hoàn thiện và cạnh tranh được với các giải pháp lưu trữ dữ liệu lớn đã hoàn thiện hiện nay. Nhưng cùng với tốc độ cải tiến hiện đại, rất khó để dự đoán giải pháp lưu trữ dữ liệu mới nào có thể hiệu quả hơn kiến trúc Data Lakehouse. Việc xây dựng Data Lakehouse từ những viên gạch đầu tiên sẽ có thể rất phức tạp, vì sẽ phải gần như phải sử dụng một nền tảng có sẵn để hỗ trợ kiến trúc Data Lakehouse mở. Vì thế, cần phải tìm kiếm các thế mạnh khác nhau từ các nền tảng và triển khai trước khi quyết định sở hữu Data Lakehouse. 205
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2