
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------
Lê Dương Phong
NGHIÊN CỨU PHÁT TRIỂN NỀN TẢNG
TÍCH HỢP PHÂN TÍCH DỮ LIỆU DÒNG
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ: 8.48.01.04
LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)
NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS. THOẠI NAM
TP. HỒ CHÍ MINH – 2023

i
LỜI CAM ĐOAN
Tôi cam đoan rằng luận văn: “Nghiên Cứu Phát Triển Nền Tảng Tích Hợp
Phân Tích Dữ Liệu Dòng” là công trình nghiên cứu của chính tôi.
Tôi cam đoan các số liệu, kết quả nêu trong luận văn là trung thực và chưa
từng được ai công bố trong bất kỳ công trình nào khác.
Không có sản phẩm/nghiên cứu nào của người khác được sử dụng trong luận
văn này mà không được trích dẫn theo đúng quy định.
TP. Hồ Chí Minh, ngày 28 tháng 02 năm 2023
Học viên thực hiện luận văn
Lê Dương Phong

ii
LỜI CẢM ƠN
Trong suốt quá trình học tập và nghiên cứu thực hiện luận văn, ngoài nỗ lực
của bản thân, tôi đã nhận được sự hướng dẫn nhiệt tình quý báu của quý Thầy Cô,
cùng với sự động viên và ủng hộ của gia đình, bạn bè và đồng nghiệp. Với lòng kính
trọng và biết ơn sâu sắc, tôi xin gửi lời cảm ơn chân thành tới:
Ban Giám Đốc , Phòng Đào tạo Sau đại học và quý Thầy Cô đã tạo mọi điều
kiện thuận lợi giúp tôi hoàn thành luận văn.
Tôi xin chân thành cảm ơn Thầy PGS.TS. Thoại Nam, người thầy kính yêu
đã hết lòng giúp đỡ, hướng dẫn, động viên, tạo điều kiện cho tôi trong suốt quá trình
thực hiện và hoàn thành luận văn.
Tôi xin chân thành cảm ơn gia đình, bạn bè, đồng nghiệp trong cơ quan đã
động viên, hỗ trợ tôi trong lúc khó khăn để tôi có thể học tập và hoàn thành luận văn.
Mặc dù đã có nhiều cố gắng, nỗ lực, nhưng do thời gian và kinh nghiệm nghiên
cứu khoa học còn hạn chế nên không thể tránh khỏi những thiếu sót. Tôi rất mong
nhận được sự góp ý của quý Thầy Cô cùng bạn bè đồng nghiệp để kiến thức của tôi
ngày một hoàn thiện hơn.
Xin chân thành cảm ơn!
TP. Hồ Chí Minh, ngày 28 tháng 02 năm 2023
Học viên thực hiện luận văn
Lê Dương Phong

iii
MỤC LỤC
LỜI CAM ĐOAN .................................................................................................................. i
LỜI CẢM ƠN ....................................................................................................................... ii
MỤC LỤC ........................................................................................................................... iii
DANH SÁCH HÌNH VẼ ..................................................................................................... v
DANH SÁCH BẢNG ......................................................................................................... vii
DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT .................................................... viii
MỞ ĐẦU ............................................................................................................................... 1
CHƯƠNG 1: GIỚI THIỆU ................................................................................................. 2
1.1. Tính cấp thiết của đề tài .............................................................................................. 2
1.2. Mục tiêu và nhiệm vụ nghiên cứu .............................................................................. 2
1.3. Phạm vi nghiên cứu ..................................................................................................... 3
1.4. Kết cấu luận văn ......................................................................................................... 3
CHƯƠNG 2. CƠ SỞ LÝ THUYẾT ................................................................................... 4
2.1. Apache Kafka ............................................................................................................. 4
2.1.1. Giới thiệu về Kafka ............................................................................................. 4
2.1.2. Một số thành phần quan trọng của Kafka ........................................................... 5
2.2. Apache Spark ............................................................................................................ 10
2.2.1. Giới thiệu về Apache Spark .............................................................................. 10
2.2.2. Kiến trúc của Spark ........................................................................................... 12
2.3. Tình hình nghiên cứu trong nước ............................................................................. 16
2.4. Cơ sở lý luận ............................................................................................................. 18
2.5. Lý thuyết về các kiến trúc và thuật ngữ .................................................................... 19
2.5.1. Data Warehouse ................................................................................................. 19
2.5.2. Data Lake ........................................................................................................... 22
2.5.3. Data Lakehouse .................................................................................................. 26
2.5.4. Table Format ...................................................................................................... 29
CHƯƠNG 3: BÀI TOÁN VÀ GIẢI PHÁP CHO HỆ LƯU TRỮ VÀ TRUY VẤN DỮ
LIỆU GIAO THÔNG ........................................................................................................ 30
3.1. Mô tả bài toán ........................................................................................................... 30
3.2. Các vấn đề phân tích để giải quyết bài toán .............................................................. 31
3.2.1. Phân tích đặc trưng dữ liệu thực tế ..................................................................... 31
3.2.2. Phân tích yêu cầu lưu trữ .................................................................................... 32


