HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
--------
Trần Quang Đại
NGHIÊN CỨU, XÂY DỰNG TRỤC LIÊN THÔNG DỮ LIỆU
PHỤC VỤ LƯU TRỮ, QUẢN LÝ DỮ LIỆU ĐA CẤU TRÚC
CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN
MÃ SỐ: 8.48.01.04
TÓM TẮT ĐỀ ÁN TỐT NGHIỆP THẠC SĨ
HÀ NỘI 2025
Đề án tốt nghiệp được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: TS. Phan Lý Huỳnh
Phản biện 1: ………………………………………………………………
Phản biện 2: ...……………………………………………………………..
Đề án tốt nghiệp sẽ được bảo vệ trước Hội đồng chấm đề án tốt nghiệp thạc
tại Học viện Công nghệ Bưu chính Viễn thông
Vào lúc: ....... giờ ....... ngày ....... tháng ....... .. năm ...............
Có thể tìm hiểu đề án tốt nghiệp tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông.
1
MỞ ĐẦU
1. Lý do chọn đề tài
Trong bối cảnh công nghệ thông tin và truyền thông phát triển mạnh mẽ, chuyển
đổi số đã đang trở thành xu hướng tất yếu trong tất cả các lĩnh vực, đặc biệt trong
giáo dục đại học. Chuyển đổi số không chỉ đơn thuần là số hóa các quy trình quản lý,
mà còn là quá trình tái cấu trúc toàn diện các hoạt động giảng dạy, nghiên cứu và vn
hành theo hướng dựa trên dữ liu.
Tại Việt Nam, nhiều trường đại học đã triển khai các hệ thống công nghệ thông
tin nhằm hỗ trquản và hc tập như hệ thống quản đào tạo (LMS), thư viện số,
hệ thống quản sinh viên,... Tuy nhiên, các hthống này thường hoạt động độc lập,
dẫn đến tình trạng phân mảnh thông tin, dữ liệu không đồng bộ, gây khó khăn trong
khai thác, phân tích và ra quyết định.
Đồng thời, khối lượng dữ liệu được tạo ra tại các trường đại học ngày càng tăng
về cả quy mô và hình thái, bao gồm dữ liệu có cấu trúc (dữ liệu bảng điểm, hồ sơ sinh
viên), bán cấu trúc (log hthống, dliệu XML/JSON) phi cấu trúc (tài liệu PDF,
video bài giảng, khảo sát tdo...). Việc tích hợp quản hiệu quả dữ liệu đa cấu trúc
là điều kiện tiên quyết để nâng cao hiệu quả vận hành và hoạch định chiến lược trong
môi trường giáo dục số.
Do đó, việc nghiên cứu xây dựng một trục liên thông dữ liệu khả năng
kết nối, tích hợp chia sẻ dữ liệu đa cấu trúc giữa các hthống trong một trường
đại học là yêu cầu cấp thiết. Trục liên thông không chỉ giúp đồng bộ hóa và tối ưu hóa
quá trình lưu trữ, mà còn tạo nền tảng cho các ứng dụng phân tích, trực quan hóa và ra
quyết định dựa trên dữ liu.
2. Mục đích nghiên cứu
Mục đích chính của nghiên cu này xây dng mt trc liên thông d liệu đóng
vai trò như một nn tảng trung gian để kết ni, tích hợp và đồng b hóa d liệu đa cấu
trúc t nhiu h thng khác nhau trong mt trường đại hc. Vic thiết lp mt h tng
kh năng xử tích hợp các định dng d liệu không đồng nht cùng cn
2
thiết. Trc liên thông d liu s giúp đảm bảo tính tương tác, liên kết và tái s dng d
liu gia các h thống, đồng thi khc phc tình trng phân mnh thông tin hin nay.
Thông qua các công cụ phân tích, dliệu sẽ được chuyển hóa thành thông tin có
giá trị nhằm phục vụ cho các hoạt động quản trị, giảng dạy, nghiên cứu ra quyết
định. Ngoài ra, nghiên cứu cũng chú trọng đến việc trực quan hóa dữ liệu thông qua
các biểu đồ, bảng số liệu, đồ thị nhằm tăng tính tương tác dễ đọc hiểu cho người
dùng cuối.
3. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu
Nghiên cu này tập trung vào ba nhóm đối tượng chính liên quan mt thiết
đến quá trình xây dng và vn hành mt trc liên thông d liu phc v lưu trữ, qun
d liệu đa cấu trúc trong một trường đại hc:
Th nht, nghiên cu v d liệu đa cấu trúc (multistructured data), bao gm các
loi d liu có cu trúc, d liu bán cu trúc và d liu phi cu trúc. Vic hiu tính
chất, đặc điểm nhu cu x ca tng loi d liệu sở quan trọng để đề xut
giải pháp lưu trữ, tích hp và phân tích phù hp.
Th hai, nghiên cu v trc liên thông d liu X-Road, mt trong nhng nn
tng ni bt và được áp dng rng rãi trong vic kết nối và trao đổi d liu gia các h
thng thông tin khác nhau. Ni dung nghiên cu s làm rõ cấu trúc, cơ chế hoạt động,
kh ng tương tác, bảo mt và kh năng mở rng ca X-Road, t đó đánh giá mức độ
phù hp khi áp dng trong bi cnh liên thông d liu ti một trường đại hc.
Th ba, nghiên cu v hình trc quan hóa d liu và sinh báo cáo thng
nhm phc v cho mc tiêu phân tích d liệu đưc chia s qua trc liên thông. Ni
dung này bao gm vic tìm hiu các k thut trc quan hóa hiện đại, các công c h
tr báo cáo d liệu động tương tác, cũng như các tiêu chí đánh giá hiu qu biu
din d liu phc v cho qun tr và ra quyết định.
Phạm vi nghiên cứu
Phm vi của đ tài được xác định ràng đ đảm bo tính kh thi tp trung
trong quá trình trin khai:
3
V ni dung, nghiên cu s tp trung vào quá trình chia s và liên thông d liu
đa cấu trúc gia các h thng trong một trường đi hc thông qua trc liên thông X-
Road. Các loi d liu trong phm vi nghiên cu bao gm: D liu cu trúc, D liu
bán cu trúc và D liu phi cu trúc.
Về thời gian dữ liệu khảo sát, nghiên cứu thu thập dữ liệu đa cấu trúc thông
qua trục liên thông X-Road của một trường đại học trong khoảng thời gian một tháng.
Dữ liệu được chia sẻ qua các hệ thống khác nhau sẽ được tổng hợp, chuẩn hóa và lưu
trữ theo mô hình hồ dữ liệu (data lake). Từ đó, quá trình phân tích, trích xuất thông tin
xây dựng báo cáo thống sẽ được thực hiện để đánh giá hiệu quả hoạt động của
mô hình.
4. Phương pháp nghiên cứu
Trong quá trình thc hiện đề tài, để đảm bo tính khoa hc, khách quan và thc
tin, nhóm nghiên cứu đã áp dụng kết hp nhiều phương pháp khác nhau, bao gồm c
phương pháp nghiên cứu lý thuyết, thc nghiệm phân tích đánh giá. Cụ th như sau:
Phương pháp nghiên cứu lý thuyết
Đây là phương pháp nền tảng được s dụng trong giai đoạn đầu ca nghiên cu
nhm xây dựng sở luận xác định hướng đi phù hp cho toàn b đ tài. Ni
dung bao gm:
- Kho sát, tng hp phân tích các công trình nghiên cu, tài liu hc thut,
báo cáo k thuật trong ngoài nước liên quan đến lĩnh vực liên thông d liu d
liệu đa cấu trúc.
- Nghiên cu chuyên sâu v các kiến trúc trc liên thông d liu hiện có, đặc bit
hình X-Road, nhm làm các khía cnh k thuật như bảo mt, xác thc,
hình t chc, và kh năng tích hợp vi các h thng hin hành.
- Tìm hiu các phương pháp và công cụ đưc s dng trong vic thu thp, lưu trữ
và qun lý d liệu đa cu trúc, tc gii pháp truyn thống như s d liu quan h
đến các công ngh hiện đại như Data Lake, NoSQL, và hệ thống lưu trữ phân tán.