
iii
MỤC LỤC
DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT ....................................................... v
DANH MỤC HÌNH ẢNH ........................................................................................ vi
MỞ ĐẦU ..................................................................................................................... 1
1. Lý do chọn đề tài ................................................................................................. 1
2. Mục đích nghiên cứu ........................................................................................... 1
3. Nội dung nghiên cứu ........................................................................................... 1
4. Cơ sở khoa học và tính thực tiễn của đề tài ........................................................ 2
5. Những đóng góp của luận văn ............................................................................ 3
Chương 1. Tổng quan tình hình nghiên cứu ............................................................... 4
1.1. Tổng quan về hệ thống quản lý và chia sẻ dữ liệu nghiên cứu khoa học và
công nghệ quốc gia (Openscience.vn) .................................................................... 4
1.1.1. Khối thu thập, tích hợp dữ liệu từ nhiều nguồn (Data Ingression) ........... 4
1.1.2. Khối lưu trữ dữ liệu (Data stogare) ........................................................... 5
1.1.3. Khối xử lý, phân tích dữ liệu (data processing and analyzing)................. 5
1.2. Tổng quan về các giải pháp tích hợp các nền tảng mã nguồn mở phục vụ thu
thập, phân tích dữ liệu và học máy trên thế giới và tại Việt Nam ........................... 6
1.2.1. Kubernetes (K8S) ...................................................................................... 6
1.2.2. CEPH ......................................................................................................... 7
1.2.3. Apache Nifi ............................................................................................... 8
1.2.4. Apache Spark .......................................................................................... 10
1.2.5. Kubeflow ................................................................................................. 12
Chương 2. Xây dựng giải pháp tích hợp các nền tảng thu thập, phân tích dữ liệu vào
hệ thống Openscience.vn .......................................................................................... 13
2.1. Xây dựng giải pháp tích hợp nền tảng Nifi vào hệ thống Openscience.vn .... 15
2.1.1. Mô tả công cụ Nifi .................................................................................. 15
2.1.2. Thu thập dữ liệu từ tệp hệ thống (file systems) ...................................... 16
2.1.3. Thu thập dữ liệu luồng từ hệ thống IoT (data stream) ............................ 20
2.1.4. Thu thập dữ liệu từ hệ thống CSDL quan hệ .......................................... 23
2.1.5. Thu thập dữ liệu qua API ........................................................................ 26
2.2. Xây dựng giải pháp tích hợp nền tảng Spark vào hệ thống Openscience.vn . 27
2.2.1. Xử lý dữ liệu theo lô (Batch processing) ................................................ 27
2.2.2. Xử lý dữ liệu theo luồng (Streaming processing) ................................... 31