
TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN
TRƯỜNG CÔNG NGHỆ
----------------
KHÓA LUẬN TỐT NGHIỆP
Hệ thống thu thập và phân tích dữ liệu
Reddit cho lĩnh vực Data Engineering
Tên sinh viên : Lê Văn Hùng
Giảng viên hướng dẫn : TS. Đặng Minh Quân
Hà Nội, 05/2025
2025.2 CÔNG NGHÊ THÔNG TIN LÊ VĂN HÙNG 11218462

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN
TRƯỜNG CÔNG NGHỆ
----------------
KHÓA LUẬN TỐT NGHIỆP
Hệ thống thu thập và phân tích dữ liệu
Reddit cho lĩnh vực Data Engineering
Tên sinh viên : Lê Văn Hùng
Mã sinh viên : 11218462
Lớp : Công nghệ thông tin 63B
Ngành : Công nghệ thông tin
Khoa : Công nghệ thông tin
Giảng viên hướng dẫn : TS. Đặng Minh Quân
(Chữ ký GVHD)
Hà Nội, 05/2025

MỤC LỤC
MỤC LỤC .............................................................................................................. 2
LỜI CAM ĐOAN .................................................................................................. 5
LỜI CẢM ƠN ........................................................................................................ 6
DANH MỤC CÁC TỪ VIẾT TẮT ........................................................................ 7
DANH MỤC BẢNG .............................................................................................. 8
DANH MỤC HÌNH ............................................................................................... 9
MỞ ĐẦU .............................................................................................................. 10
CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI ........................................................ 12
1.1 Lý do lựa chọn đề tài ............................................................................. 12
1.2 Đối tượng và phạm vi nghiên cứu ......................................................... 13
1.2.1 Đối tượng nghiên cứu .................................................................... 13
1.2.2 Phạm vi nghiên cứu........................................................................ 14
1.3 Mục tiêu và nhiệm vụ ............................................................................ 15
1.3.1 Mục tiêu ......................................................................................... 15
1.3.2 Nhiệm vụ nghiên cứu ..................................................................... 16
1.4 Phương pháp nghiên cứu và phân tích .................................................. 17
1.4.1 Phương pháp nghiên cứu ............................................................... 17
1.4.2 Phương pháp phân tích dữ liệu ...................................................... 18
1.5 Tổng quan về các nghiên cứu liên quan ................................................ 19
1.5.1 Các nghiên cứu về phân tích dữ liệu mạng xã hội ......................... 19
1.5.2 Nghiên cứu về phân tích dữ liệu Reddit ........................................ 20
1.5.3 Nghiên cứu về phân tích xu hướng công nghệ và kỹ năng trong lĩnh
vực Data Engineering ................................................................................... 20
1.5.4 Phân tích khoảng trống nghiên cứu ............................................... 21
1.6 Các khái niệm và công nghệ nền tảng ................................................... 21
1.6.1 Reddit API ...................................................................................... 21
1.6.2 Apache Kafka ................................................................................. 22
1.6.3 PostgreSQL .................................................................................... 22
1.6.4 Xử lý ngôn ngữ tự nhiên (NLP) ..................................................... 23
1.6.5 Dash và Plotly ................................................................................ 23

CHƯƠNG 2: PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG ................................ 24
2.1 Phân tích yêu cầu ................................................................................... 24
2.1.1 Yêu cầu chức năng: ........................................................................ 24
2.1.2 Yêu cầu phi chức năng ................................................................... 25
2.2 Thiết kế kiến trúc hệ thống .................................................................... 26
2.2.1 Kiến trúc tổng thể ........................................................................... 26
2.2.2 Mô tả chi tiết các lớp trong kiến trúc ............................................. 28
2.2.3 Thiết kế cơ sở dữ liệu ..................................................................... 38
2.2.4 Thiết kế giao diện người dùng ....................................................... 47
CHƯƠNG 3: XÂY DỰNG HỆ THỐNG VÀ TRIỂN KHAI ........................... 51
3.1 Môi trường phát triển ............................................................................ 51
3.1.1 Ngôn ngữ lập trình và công cụ phát triển ...................................... 51
3.1.2 Công nghệ và thư viện chính ......................................................... 51
3.1.3 Cấu trúc dự án và tổ chức mã nguồn ............................................. 52
3.2 Cài đặt và cấu hình các công cụ ............................................................ 53
3.2.1 Cài đặt Docker và Docker Compose .............................................. 53
3.2.2 Cấu hình Kafka và Zookeeper ....................................................... 53
3.2.3 Thiết lập PostgreSQL ..................................................................... 54
3.2.4 Cấu hình Reddit API và xác thực ................................................... 54
3.2.5 Xây dựng module thu thập dữ liệu ................................................ 55
3.2.6 Xây dựng module xử lý dữ liệu ..................................................... 58
3.2.7 Xây dựng module phân tích dữ liệu ............................................... 61
3.2.8 Xây dựng module trực quan hóa dữ liệu........................................ 67
3.2.9 Tích hợp hệ thống .......................................................................... 71
CHƯƠNG 4: KẾT QUẢ VÀ THẢO LUẬN .................................................... 73
4.1 Tổng quan về kết quả hệ thống ............................................................. 73
4.2 Kết quả thu thập và phân tích dữ liệu .................................................... 74
4.2.1 Thống kê dữ liệu thu thập .............................................................. 74
4.2.2 Kết quả phân tích xu hướng công nghệ ......................................... 74
4.2.3 Đánh giá kết quả và thảo luận ........................................................ 87
KẾT LUẬN .......................................................................................................... 89
1. Tóm tắt những gì đã đạt được ................................................................... 89
2. Những đóng góp chính của đề tài ............................................................. 89

3. Những khó khăn và thách thức ................................................................. 90
4. Hướng phát triển trong tương lai .............................................................. 90
TÀI LIỆU THAM KHẢO .................................................................................... 92

