Một cách tiếp cận triển khai kho dữ liệu phục vụ các tác vụ ELT tại Trường Đại học Thủ Dầu Một

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:5

Thêm vào BST

Báo xấu

3
lượt xem 1
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Trong nghiên cứu này, tác giả đề xuất một cách tiếp cận triển khai kho dữ liệu phục vụ các tác vụ ETL (Extract, Transform, Load) theo hướng tích hợp dữ liệu chủ động và bị động. Cách tiếp cận được cài đặt và triển khai thí điểm tại Data Center của trường Đại học Thủ Dầu Một. Qua đánh giá, cách tiếp cận đã cho thấy tính khả thi và phù hợp với mô hình dữ liệu đang được triển khai tại trường.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Một cách tiếp cận triển khai kho dữ liệu phục vụ các tác vụ ELT tại Trường Đại học Thủ Dầu Một

MỘT CÁCH TIẾP CẬN TRIỂN KHAI KHO DỮ LIỆU PHỤC VỤ CÁC TÁC VỤ ELT TẠI TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT Trần Đức Hoàn 1 , Nguyễn Thành Phương 1 1. Ban đề án Chuyển đổi số, Trường Đại học Thủ Dầu Một TÓM TẮT Dữ liệu là một khía cạnh quan trọng trong nhiều nghiệp vụ khác nhau của đơn vị đào tạo đại học. Các đơn vị thường có lộ trình triển khai các nền tảng, ứng một theo từng giai đoạn nhằm đáp ứng các nhu cầu cụ thể tại đơn vị theo từng thời điểm với chi phí tối ưu. Điều này dẫn đến dữ liệu thường được tổ chức thành các thành phần riêng lẻ. Tuy nhiên, để quản lý chặt chẽ và khai thác hiệu quả dữ liệu từ nhiều nguồn, các đơn vị thường tổ chức dữ liệu thành các kho dữ liệu chuyên biệt theo từng lĩnh vực. Trong nghiên cứu này, chúng tôi đề xuất một cách tiếp cận triển khai kho dữ liệu phục vụ các tác vụ ETL (Extract, Transform, Load) theo hướng tích hợp dữ liệu chủ động và bị động. Cách tiếp cận được cài đặt và triển khai thí điểm tại Data Center của trường Đại học Thủ Dầu Một. Qua đánh giá, cách tiếp cận đã cho thấy tính khả thi và phù hợp với mô hình dữ liệu đang được triển khai tại trường. Từ khóa: Apache Kafka, Data warehouse, Debezium, PostgreSQL. 1. ĐẶT VẤN ĐỀ Giáo dục đại học đang hoạt động trong một môi trường ngày càng phức tạp và cạnh tranh hơn. Họ phải cạnh tranh với các tổ chức khác để ứng phó với những thay đổi về kinh tế, chính trị và xã hội trong nước và toàn cầu. Hơn nữa, khác nhau các bên liên quan đang mong đợi các tổ chức giáo dục đại học đưa ra giải pháp phù hợp một cách kịp thời cho những nhu cầu này. Để khắc phục tình trạng này, giáo dục đại học cần đưa ra những quyết định đúng đắn cần thiết để giải quyết những vấn đề nhanh chóng này. thay đổi bằng cách phân tích các nguồn dữ liệu khổng lồ đã được tạo ra. Hầu hết các cơ sở giáo dục đại học đều đầu tư rất lớn nguồn lực về công nghệ thông tin để triển khai hệ thống kho dữ liệu (Nambiar và nnk, 2022). Việc phát triển kho dữ liệu là cách trích xuất các thông tin quan trọng từ dữ liệu rải rác trong một số hệ thống thông tin vào kho lưu trữ tích hợp tập trung và hỗ trợ nhu cầu về lịch sử dữ liệu. Dữ liệu tích hợp này có thể được sử dụng cho các hoạt động cung cấp thông tin có thể được xem xét từ nhiều khía cạnh khác nhau và có thể đặt mức độ chi tiết (Hình 1). Việc sử dụng thêm thông tin có trong kho dữ liệu là hoạt động phân tích dữ liệu bằng các kỹ thuật và phương pháp nhất định. Có một số thuật toán để khám phá dữ liệu tri thức, như phân loại, phân cụm và khai thác (Vaisman và nnk, 2014). Dữ liệu chứa trong kho dữ liệu có thể được sử dụng làm đầu vào cho hệ thống ứng dụng (Guetat và nnk, 2013). 511
Hình 1. Kiến trúc tổng thể hệ thống sử dụng data warehouse theo cách tiếp cận đa tầng Trong nghiên cứu này, chúng tôi trình bày một mô hình kho dữ liệu hỗ trợ giao tiếp đa kênh theo hình thức chủ động và bị động. Mô hình kho dữ liệu được kiểm thử để đánh giá khả năng chịu tải cũng như sự phù hợp về khả năng kết nối. Mô hình kho dữ liệu có thể được triển khai tại các đơn vị đào tạo đại học khác với nhu cầu tương ứng. 512
2. PHƯƠNG PHÁP NGHIÊN CỨU Kho dữ liệu là một kho lưu trữ lớn, tập trung dữ liệu có cấu trúc, tích hợp được sử dụng để báo cáo và phân tích. Nó được thiết kế để hỗ trợ truy vấn và phân tích dữ liệu hiệu quả và thường được sử dụng để hỗ trợ việc ra quyết định, kinh doanh thông minh và các hoạt động dựa trên dữ liệu khác (Berson và nnk; 1997). Mục đích chính của kho dữ liệu là hỗ trợ truy vấn và phân tích dữ liệu hiệu quả để báo cáo và ra quyết định. Kho dữ liệu tích hợp dữ liệu từ nhiều nguồn khác nhau, chẳng hạn như cơ sở dữ liệu giao dịch, tệp nhật ký và nguồn dữ liệu bên ngoài, đồng thời lưu trữ dữ liệu đó trong kho lưu trữ trung tâm. Điều này cho phép người dùng truy cập và phân tích dữ liệu bằng các công cụ như phần mềm dạng Structured Query Language (SQL) và Business Intelligent (BI). Hình 2. Mô hình data warehouse kết hợp các kênh nhận dữ liệu chủ động, bị động Trong bối cảnh các hệ thống được triển khai một cách rời rạc theo tiến độ, khả năng tích hợp đa kênh và dễ dàng của các data warehouse cực kỳ quan trọng (Edastama và nnk; 2021). Trong nghiên cứu này, chúng tôi đề xuất một mô hình triển khai data warehouse với các kênh tiếp nhận dữ liệu chủ động sử dụng Java Spring (RESTful API) kết hợp Kafka (queue) và nhận dữ liệu bị động sử dụng Debezium (Capture Data Change - CDC) (Hình 2) để đáp ứng nhu cầu ETL trong các đơn vị đào tạo đại học. Một trong những kênh nhận dữ liệu phổ biến nhất là RESTful API. Khái niệm RESTful được phát triển bởi Roy Thomas Fielding, một trong những tác giả chính của giao thức web HTTP. Do đó, REST là một phương pháp kiến trúc được thiết kế để tận dụng tối ưu giao thức HTTP. Nó sử dụng các khái niệm và động từ đã có trong HTTP để phát triển các dịch vụ web. Điều này làm cho REST cực kỳ dễ sử dụng và sử dụng, đến mức nó trở thành tiêu chuẩn hàng đầu để xây dựng các dịch vụ web ngày nay. Tài nguyên có thể là bất cứ thứ gì, nó có thể được truy cập thông qua URI.. Không giống như SOAP, REST không có định dạng nhắn tin tiêu chuẩn. Chúng ta có thể xây dựng các dịch vụ web REST bằng cách sử dụng nhiều cách biểu diễn, bao gồm cả XML và JSON, mặc dù JSON là tùy chọn phổ biến hơn. Một điều quan trọng cần xem xét là REST không phải là một tiêu chuẩn mà là một phong cách có mục đích giới hạn 513
kiến trúc của chúng ta ở kiến trúc client-server và được thiết kế để sử dụng các giao thức truyền thông không trạng thái như HTTP. RESTful API nổi bật với các ưu điểm như: dễ dàng xây dựng, độc lập, khả năng mở rộng, đa tầng. Ngoài ra, đối với các hệ thống phân tán, hàng đợi cũng là một kênh nhận dữ liệu được sử dụng. Một trong những lợi ích chính của việc sử dụng hàng đợi là chúng cho phép giao tiếp không đồng bộ. Điều này có nghĩa là người gửi và người nhận không cần phải trực tuyến hoặc sẵn sàng cùng một lúc. Người gửi có thể gửi tin nhắn và tiếp tục công việc của mình, trong khi người nhận có thể xử lý tin nhắn bất cứ khi nào nó sẵn sàng. Điều này cải thiện hiệu suất, độ tin cậy và khả năng mở rộng của hệ thống phân tán, vì các thành phần có thể xử lý tin nhắn theo tốc độ riêng của chúng và đáp ứng nhu cầu tăng đột biến. Một lợi ích khác của việc sử dụng hàng đợi là chúng cung cấp khả năng chịu lỗi và khả năng phục hồi. Nếu một thành phần bị lỗi hoặc không khả dụng, hàng đợi tin nhắn có thể lưu trữ các tin nhắn cho đến khi thành phần đó phục hồi hoặc thành phần dự phòng tiếp quản. Điều này ngăn ngừa mất dữ liệu và đảm bảo rằng hệ thống có thể tiếp tục hoạt động bất chấp lỗi. Hơn nữa, hàng đợi cũng có thể xử lý việc thử lại, xác nhận và hết thời gian chờ, đây là những cơ chế để đảm bảo rằng tin nhắn được gửi và xử lý chính xác. Dữ liệu là huyết mạch của mọi tổ chức, do đó, điều cần thiết là đảm bảo rằng các quyết định kinh doanh dựa trên dữ liệu thời gian thực và không có xung đột. Thách thức là dữ liệu liên tục thay đổi, điều này có thể khiến cơ sở dữ liệu, hồ dữ liệu và kho dữ liệu không đồng bộ. Ngoài ra, các tổ chức đang ngày càng chuyển sang đám mây, điều này làm tăng nguy cơ kết thúc với các kho chứa dữ liệu. Điều này đã khiến CDC trở thành một giải pháp phổ biến để kết nối môi trường tại chỗ và đám mây, đồng thời cho phép các doanh nghiệp di chuyển sang đám mây theo tốc độ của riêng họ hoặc tiếp tục hoạt động trong môi trường kết hợp. 3. KẾT QUẢ VÀ THẢO LUẬN Về mặt luận lý, mô hình kế thừa các ưu điểm của các kênh nhận dữ liệu chủ động và bị động. Chúng tôi tiến hành đánh giá khả năng chịu tải của data warehouse trên VM (Vitual machine) có cấu hình CPU 95GHZ, RAM 32GB, storage 532GB. Kết quả chi tiết được mô tả trong Bảng 1. Bảng 1. Số liệu thống kê khả năng chịu tải của data warehouse sử dụng PostgreSQL Hệ số khuếch đại Số kết nối Số giao dịch xử lý Số giao dịch xử lý Độ trễ trung bình trên giây (ms) 50 40 4000 19372.4 2.2 110 100 100000 2362.4 42.9 140 130 130000 1316.1 62.3 150 150 150000 1214.4 124.5 200 200 200000 1483.6 135.5 250 250 250000 6251.5 212.3 300 300 300000 1262.7 237.7 350 350 350000 1277.9 274 400 400 400000 1447.5 276.5 514
450 450 450000 1439.7 312.7 500 500 500000 1820.4 275.8 550 550 550000 1565 351.5 600 600 600000 1495.7 402.5 650 650 650000 1411.1 460.7 700 700 700000 1804.2 388.8 750 750 750000 1748.5 439.8 Kết quả thực nghiệm cho thấy với số lượng kết nối như trên, thời gian trung bình xử lý cho giao dịch cao nhất lá 460 ms. Điều này hoàn toàn nằm trong ngưỡng cho phép với các tác vụ ETL trong đơn vị đào tạo đại học. 4. KẾT LUẬN Việc triển khai data warehouse kết hợp các kênh nhận dữ liệu chủ động và bị động sẽ đáp ứng được nhu cầu tích hợp dữ liệu từ nhiều nguồn đa dạng trong các đơn vị đào tạo đại học. Trong nghiên cứu, chúng tôi cũng đã đề xuất mô hình cũng như các công cụ khả dĩ và đánh giá hiệu năng sơ bộ của cách tiếp cận. Trong các nghiên cứu tiếp theo, chúng tôi sẽ triển khai mở rộng mô hình cho tầng trên data warehouse. TÀI LIỆU THAM KHẢO 1. Berson, A., & Smith, S. J. (1997). Data warehousing, data mining, and OLAP. McGraw-Hill, Inc.. 2. Berson, A., & Smith, S. J. (1997). Data warehousing, data mining, and OLAP. McGraw-Hill, Inc.. 3. Edastama, P., Dudhat, A., & Maulani, G. (2021). Use of Data Warehouse and Data Mining for Academic Data: A Case Study at a National University. International Journal of Cyber and IT Service Management, 1(2), 206-215. 4. Guetat, S., & Dakhli, S. (2013). A multi-layered software architecture model for building software solutions in an urbanized information system. International Journal of Information Systems and Project Management, 1(1), 19-34. 5. Nambiar, A., & Mundra, D. (2022). An overview of data warehouse and data lake in modern enterprise data management. Big data and cognitive computing, 6(4), 132. 6. Vaisman, A., & Zimányi, E. (2014). Data warehouse systems. Data-Centric Systems and Applications. 515