
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
--------------------------------------------------
Nguyễn Hữu Tuyên
NGHIÊN CỨU XÂY DỰNG GIẢI PHÁP LÀM SẠCH
VÀ TÍCH HỢP DỮ LIỆU LỚN
LUẬN VĂN THẠC SĨ KỸ THUẬT
Hà Nội – 2021

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
--------------------------------------------------
Nguyễn Hữu Tuyên
NGHIÊN CỨU XÂY DỰNG GIẢI PHÁP LÀM SẠCH
VÀ TÍCH HỢP DỮ LIỆU LỚN
Chuyên ngành: Hệ thống thông tin
Mã số: 8.48.01.04
LUẬN VĂN THẠC SĨ KỸ THUẬT
NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.TS HÀ HẢI NAM
Hà Nội – 2021

i
LỜI CAM ĐOAN
Tôi xin cam đoan các kết quả nghiên cứu, thực nghiệm đưc trình bày trong
luận văn này do tôi thực hiện dưi sự hưng dn của thầy PGS.TS Hà Hải Nam.
Tt cả những tham khảo t các nghiên cứu liên quan đều đưc nêu ngun gốc
một cách r ràng t danh mục tài liệu tham khảo của luận văn. Trong luận văn, không
c việc sao chp tài liệu, công trình nghiên cứu của người khác mà không chỉ r về
tài liệu tham khảo.
Hà Nội, ngày tháng năm 2021.
Hc viên
Nguyễn Hữu Tuyên

ii
LỜI CẢM ƠN
Tôi xin trân trọng cảm ơn ban lãnh đạo trường Học viện Công nghệ Bưu chính
Viễn thông cùng toàn thể các thầy, cô trong Khoa Đào tạo Sau Đại học đã tạo điều
kiện cho học viên lp cao học Hệ thống thông tin kha 2020 đt 1 đưc học trong
một môi trường rt tốt, đng thời truyền đạt cho tôi những kiến thức quý báu, một tư
duy khoa học để phục vụ cho quá trình học tập, nghiên cứu và công tác.
Đặc biệt, tôi xin đưc bày tỏ lòng biết ơn sâu sắc đến thầy PGS.TS. Hà Hải
Nam đã tận tình hưng dn cho tôi trong suốt quá trình học tập và nghiên cứu, giúp
tôi c cái nhìn nhận đúng đắn về đề tài luận văn của mình.
Cuối cùng, tôi xin đưc gửi lời cảm ơn ti gia đình, đng nghiệp, người thân
đã động viên, giúp đỡ tôi trong quá trình theo học tại nhà trường.
Do vốn kiến thức lý luận cũng như thời gian và kinh nghiệm thực tiễn chưa c
nhiều nên luận văn không tránh khỏi những thiếu st. Tôi xin trân trọng tiếp thu các
ý kiến của các thầy, cô, bạn bè để luận văn đưc hoàn thiện hơn.
Trân trọng cám ơn các thầy cô!

iii
MỤC LỤC
LỜI CAM ĐOAN ............................................................................. i
LỜI CẢM ƠN .................................................................................. ii
MỤC LỤC ....................................................................................... iii
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT ............... v
DANH MỤC CÁC HÌNH .............................................................. vi
MỞ ĐẦU ........................................................................................... 1
CHƯƠNG I. TỔNG QUAN ............................................................ 3
1.1 Khái niệm dữ liệu, làm sạch dữ liệu .................................................................. 3
1.1.1 Dữ liệu ................................................................................................................ 3
1.1.2 Các dạng dữ liệu ................................................................................................ 3
1.1.3 Làm sạch dữ liệu ................................................................................................ 4
1.1.4 Dữ liệu lớn ......................................................................................................... 4
1.2 Tích hợp dữ liệu ................................................................................................ 10
1.2.1 Lịch sử phát triển ............................................................................................. 10
1.2.2 Khái niệm tích hợp dữ liệu ............................................................................... 11
1.2.3 Vai trò của tích hợp dữ liệu ............................................................................. 12
1.3 Một số lĩnh vực áp dụng dữ liệu lớn ................................................................ 12
1.3.1 Viễn thông ........................................................................................................ 12
1.3.2 Y tế, chăm sóc sức khỏe .................................................................................... 13
1.3.3 Bán lẻ ............................................................................................................... 14
1.4 Kết luận chương ................................................................................................ 14
CHƯƠNG II: XÂY DỰNG QUY TRÌNH LÀM SẠCH VÀ TÍCH
HỢP DỮ LIỆU LỚN ..................................................................... 15
2.1 Mô hình làm sạch và tích hợp dữ liệu lớn ....................................................... 15

