Luận văn Thạc sĩ Công nghệ thông tin: Tổ chức và tích hợp hệ thống phân tích dữ liệu lớn phục vụ công tác dự báo trong viễn thông

Chia sẻ: Nhân Nhân | Ngày: | Loại File: PDF | Số trang:114

Thêm vào BST

Báo xấu

63
lượt xem 12
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận văn có cấu trúc gồm 3 chương trình bày tổng quan về dữ liệu lớn, công nghệ lưu trữ và xử lý dữ liệu lớn, tổ chức một hệ thống phân tích dữ liệu lớn, thực nghiệm tích hợp hệ thống dự báo thuê bao rời mạng. Mời các bạn cùng tham khảo nội dung chi tiết.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận văn Thạc sĩ Công nghệ thông tin: Tổ chức và tích hợp hệ thống phân tích dữ liệu lớn phục vụ công tác dự báo trong viễn thông

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN CHUNG THÀNH HƯNG TỔ CHỨC VÀ TÍCH HỢP HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2019
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN CHUNG THÀNH HƯNG TỔ CHỨC VÀ TÍCH HỢP HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG Chuyên ngành: Hệ thống thông tin Mã số: 8480104.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Cán bộ hướng dẫn: PGS. TS Phan Xuân Hiếu Hà Nội - 2019
LỜI CẢM ƠN Tôi xin trân trọng cảm ơn các thầy cô trong Khoa Công nghệ Thông tin đã tạo điều kiện cho học viên lớp cao học K24CNTT một môi trường học tập thuận lợi, đồng thời truyền đạt cho tôi một vốn kiến thức quý báu, một tư duy khoa học để phục vụ cho quá trình học tập và công tác của tôi. Đặc biệt, tôi xin được bày tỏ lòng biết ơn sâu sắc đến PGS.TS. PHAN XUÂN HIẾU đã tận tình chỉ bảo cho tôi trong suốt quá trình học tập và nghiên cứu, giúp tôi có nhận thức đúng đắn về kiến thức khoa học, tác phong học tập và làm việc. Tôi xin gửi lời cảm ơn đến các bạn trong lớp Cao học Hệ thống Thông tin K24CNTT khóa 2016- 2018 đã giúp đỡ tôi trong suốt thời gian học tập. Cuối cùng, tôi xin được gửi lời cảm ơn tới gia đình, đồng nghiệp, người thân đã động viên, giúp đỡ tôi trong quá trình hoàn thành luận văn. Do vốn kiến thức lý luận và kinh nghiệm thực tiễn còn ít nên luận văn không tránh khỏi những thiếu sót. Tôi xin trân trọng tiếp thu các ý kiến của các thầy, cô, bạn bè để luận văn được hoàn thiện. Trân trọng cám ơn.
LỜI CAM ĐOAN Tôi xin cam đoan các kết quả nghiên cứu, thực nghiệm được trình bày trong luận văn này do tôi thực hiện dưới sự hướng dẫn của PGS.TS Phan Xuân Hiếu và được thực hiện trong quá trình hợp tác nghiên cứu giữa Tập đoàn Công nghiệp - Công nghệ Cao Viettel và đối tácra. Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo của luận văn. Trong luận văn, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo. Hà nội, ngày 12 tháng 11 năm 2019. Học viên Nguyễn Chung Thành Hưng.
MỤC LỤC LỜI CẢM ƠN .................................................................................................................. i LỜI CAM ĐOAN ............................................................................................................ i MỤC LỤC ....................................................................................................................... i DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ................................................... iv DANH MỤC CÁC BẢNG .............................................................................................. i DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ .......................................................................iii MỞ ĐẦU ........................................................................................................................ 1 CHƯƠNG 1. TỔNG QUAN .......................................................................................... 5 1.1. CÁC KHÁI NIỆM CƠ BẢN ................................................................................5 1.1.1. Khái niệm chung về dữ liệu lớn......................................................................5 1.1.2. Các khái niệm lưu trữ dữ liệu lớn ...................................................................6 1.1.3 Các khái niệm về xử lý dữ liệu lớn ................................................................ 10 1.1.4. Cái khái niệm phân tích dữ liệu và các loại hình phân tích dữ liệu ..............13 1.2. Hệ thống phân tích dữ liệu lớn ............................................................................17 1.2.1. Công nghệ lưu trữ dữ liệu trong BigData .....................................................17 1.2.1.1. Công nghệ lưu trữ trên đĩa cứng ............................................................17 1.2.1.2. Công nghệ lưu trữ trong bộ nhớ (In-Memory Databases)......................19 1.2.2. Xử lý dữ liệu trong BigData .........................................................................22 1.2.2.1. Xử lý dữ liệu với mô hình Map-Reduce ................................................22 1.2.2.2. Các tác vụ Map và Reduce .....................................................................23 1.2.3. Kỹ thuật phân tích bigdata hiện nay. ............................................................25 1.3. Các BÀI TOÁN PHÂN TÍCH DỰ BÁO ............................................................28 1.3.1. Bài toán phân tích dự báo .............................................................................28 1.3.2. Các mô hình dự báo cơ bản. .........................................................................28 1.3.2.1. Mô hình dự báo dựa trên thuật toán cây quyết định: .............................28 1.3.2.2. Mô hình dự báo Gradient Boosting. .......................................................30 1.3.3. Các kỹ thuật phân tích dự báo ......................................................................31 1.3.3.1. Tạo biến đặc trưng ..................................................................................31 1.3.3.2. Kỹ thuật lựa chọn đặc trưng ...................................................................32 1.3.3.3. Huấn luyện và xác thực trong các mô hình dự báo ................................ 34 1.3.3.4. Đánh giá mô hình dự báo .......................................................................35 1.3.4. Giới thiệu công cụ phân tích Rapidminer .....................................................42 CHƯƠNG 2. ................................................................................................................. 44
PHƯƠNG PHÁP TỔ CHỨC VÀ TÍCH HỢP DỮ LIỆU LỚN ................................... 44 2.1. CÁC HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN TRONG VIỄN THÔNG ......44 2.1.1. Một số ứng dụng hệ thống phân tích dữ liệu lớn phổ biến hiện nay ............44 2.1.1.1. Quản lý trải nghiệm khách hàng (Customer Experience Mgmt) ...........45 2.1.1.2. Giám sát, quản lý và tối ưu mạng lưới (Network OAM) .......................47 2.1.1.3. Phân tích hoạt động (Operation Analytics) ............................................48 2.1.1.4. Kiếm tiền từ dữ liệu (Data Monetization) ..............................................50 2.1.2. Hiện trạng của Viettel ...................................................................................50 2.1.2.1. Các nguồn dữ liệu lớn tại Viettel ...........................................................50 2.1.2.2. Các hệ thống phân tích dữ liệu lớn của Viettel ......................................51 2.2.1.1. Tầng Data Ingestion ...............................................................................53 2.2.1.2. Tầng Data Processing .............................................................................53 2.2.1.3. Tầng Data Analysis Layer ......................................................................54 2.2.1.4. Tầng Data Visualization .........................................................................54 2.2.1.5. Tầng Data Repository.............................................................................54 2.2.1.6. Tầng Data Govenance ............................................................................55 2.2.2. Mô hình tổ chức thực tế hệ thống BigData tại Viettel ..................................55 2.2.2.1. Tầng lưu trữ và xử lý dữ liệu..................................................................56 2.2.2.2. Tầng truy xuất dữ liệu ............................................................................57 2.2.3. Các công nghệ nền tảng về hệ thống dữ liệu lớn. .........................................57 2.2.4. Các phân hệ cài đặt của Cloudera BigData Enterprise flatform: ..................60 CHƯƠNG 3. ................................................................................................................. 62 THỰC NGHIỆM TÍCH HỢP HỆ THỐNG ................................................................. 62 DỰ BÁO THUÊ BAO RỜI MẠNG ............................................................................ 62 3.1. NỘI DUNG THỰC NGHIỆM ............................................................................62 3.1.1. Định nghĩa thuê bao rời mạng. .....................................................................62 3.1.2. Bài toán yêu cầu ............................................................................................62 3.1.3. Các bước thực nghiệm. .................................................................................63 3.2. TRIỂN KHAI HỆ THỐNG THỰC NGHIỆM ...................................................63 3.2.1. Xây dựng hệ thống phân tích BigData thực nghiệm. ...................................63 3.2.1.1. Mô hình triển khai Logic ........................................................................63 3.2.1.2. Mô hình triển khai vật lý và thông số hệ thống ......................................64 3.2.1.3. Cài đặt, cấu hình các thành phần hệ thống thực nghiệm ........................65 3.2.1.4. Nguồn dữ liệu .........................................................................................67
3.2.1.5. Luồng xử lý và khai phá dữ liệu.............................................................68 3.2.2. Xây dựng mô hình dự báo TBRM. ...............................................................69 3.3. CÁC KẾT QUẢ THỰC NGHIỆM MÔ HÌNH DỰ BÁO. .................................70 3.3.1. Khám phá dữ liệu và tạo các biến đặc trưng. ...............................................70 3.3.1.1. Bảng dữ liệu gọi đi của thuê bao (VOICE_OG) ....................................70 3.3.1.2. Dữ liệu gọi đến của thuê bao (VOICE_IC). ...........................................71 3.3.1.3. Dữ liệu nhắn tin đi của thuê bao (SMS_OG) .........................................71 3.3.1.4. Dữ liệu nhắn tin đến của thuê bao (SMS_IC) ........................................72 3.3.1.5. Dữ liệu về sử dụng Data của thuê bao (GPRS) ......................................72 3.3.1.6. Dữ liệu tiêu dùng hàng ngày của thuê bao (TOT_CHARGE_DAILY).73 3.3.1.7. Dữ liệu về thông tin nạp tiền (TOPUP)..................................................73 3.3.1.8. Dữ liệu số dư tài khoản (ACCOUNT2_DAY) .......................................74 3.3.1.9. Dữ liệu trừ cước phí các gói sử dụng theo chu kỳ (DAILYFEE) ..........74 3.3.1.10. Dữ liệu tổng hợp charge cước sử dụng các dịch vụ VAS (VAS_CDR_DAY) .............................................................................................75 3.3.1.11. Dữ liệu home (HOME_ACC) ..............................................................75 3.3.1.12. Dữ liệu thông tin thuê bao, khách hàng (PRE-SUBS) .........................75 3.3.2. Lựa chọn đặc trưng và mô hình hóa .............................................................76 3.3.2.1. Lựa chọn các thuộc tính quan trọng bằng thuật toán Decision Tree ......76 3.3.2.2. Huấn luyện và xác nhận mô hình rời mạng. ..........................................79 3.3.3. Tối ưu mô hình dự báo. ................................................................................80 3.3.3.1. Tối ưu bằng cách phân nhóm khách hàng theo hành vi sử dụng. ..........81 3.3.3.2. Tìm tỷ lệ tối ưu của xác nhận phân tách. ...............................................81 3.3.3.3. Tìm cỡ mẫu tối ưu cho huấn luyện .........................................................82 3.3.3.4. Tối ưu mô hình bằng cách lựa chọn lại các đặc trưng ...........................82 3.3.3.5. Xác định lại các tham số của mô hình tối ưu .........................................82 3.3.3.6. Lựa chọn mô hình dự đoán tốt nhất .......................................................83 3.3.3.7. Chạy lại mô hình dự báo với thuật toán Gradien Booting. ....................83 3.4. ĐÁNH GIÁ THU HOẠCH .................................................................................84 3.4.1. Kết quả đầu ra của hệ thống phân tích, dự báo thuê bao rời mạng. .............84 3.4.2. Tri thức thu được sau thực nghiệm. ..............................................................84 KẾT LUẬN .................................................................................................................. 86 TÀI LIỆU THAM KHẢO ............................................................................................ 87 PHỤ LỤC 1.1. ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ TRƯỚC - PHÂN THEO 4 NHÓM HÀNH VI.............................................................................. 90
PHỤ LỤC 1.2. ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ SAU- PHÂN THEO 4 NHÓM HÀNH VI.............................................................................. 93 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Ký hiệu/chữ STT Ý nghĩa viết tắt Atomicity, Consistency, Isolation, Durability (Nguyên tắc 1 ACID thiết kế ACID) 2 AUC Area Under the Curve 3 AUROC Area Under the Receiver Operating Characteristics Basically Available, Soft state, Eventual consistency 4 BASE (Nguyên tắc thiết kế BASE) 5 BLOB Binary Large Object Consistency, Availability and Partition Tolerance (Nguyên 6 CAP lý CAP) Customer Experience Management (Quản lý trải nghiệm 7 CEM khách hàng) 8 CEP Complex Event Processing 9 CNN Convolutional Neural Network 10 DBM Deep Boltzmann Machine 11 DBN Deep Belief Networks 12 DT Daytype 13 ETL Extract Transform Load (Trích xuất dữ liệu) 14 FN False Negative 15 FP False Positive 16 FPR False Positive Rate/Fall-out 17 GBM Gradient Boosting Machines 18 GBRT Gradient Boosting Regression Trees 19 ID3 Interactive Dichotomizer 3 20 IG Information Gain (Độ tăng thông tin) 21 IMDB In-Memory Databases (Cơ sở dữ liệu trong bộ nhớ) In-Memory Data Grids (Công nghệ lưu trữ dữ liệu trong bộ 22 IMDG nhớ) 23 IOB In-of-bag 24 IoT Internet Of Things 25 LS Learning Set (Tập huấn luyện) 26 M2M Machine to Manchine Mean Decrease Accuracy (Độ chính xác giảm bình quân 27 MDA cho mỗi biến)
Ký hiệu/chữ STT Ý nghĩa viết tắt Mean Decrease Gini (Sự giảm bình quân hệ số Gini đối với 28 MDG mỗi biến) 29 OOB Out-of-bag 30 POD Period of Day 31 QC Quality Call Relation DB Management Systems (Hệ thống lưu trữ cơ sở 32 RDBMS dữ liệu quan hệ) 33 RF Random Forest 34 ROC Receiver Operating Characteristics 35 S/N Signal/Noise (Tỷ lệ tín hiệu trên nhiễu) 36 SVM Support Vector Machines 37 TB Thuê bao 38 TBRM Thuê bao rời mạng 39 TN True Negative 40 TP True Positive 41 TPR True Positive Rate/Sentivity/Recall 42 WFLD Weeks Before Last Date
DANH MỤC CÁC BẢNG STT Chương Mục Bảng Tên bảng Các thuộc tính ví dụ Ngày và Khách truy 1 1 1.3.3.1 Bảng 1.1 cập và thuộc tính được trích xuất IsWeek- endDayfDayg 2 1 1.3.3.2 Bảng 1.2 Các phương pháp trích chọn thuộc tính Cấu hình hệ thống phân tích BigData thực 3 3 3.2.1.2 Bảng 3.1 nghiệm Nguồn dữ liệu hệ thống phân tích BigData 4 3 3.2.1.4 Bảng 3.2 thực nghiệm Các biến đặc trưng cho dữ liệu gọi đi của 5 3 3.3.1.1 Bảng 3.3 thuê bao Các biến đặc trưng cho dữ liệu gọi đến của 6 3 3.3.1.2 Bảng 3.4 thuê bao Các biến đặc trưng cho dữ liệu nhắn tin đi 7 3 3.3.1.3 Bảng 3.5 của thuê bao Các biến đặc trưng cho dữ liệu nhắn tin đi 8 3 3.3.1.4 Bảng 3.6 của thuê bao Các biến đặc trưng cho dữ liệu sử dụng Data 9 3 3.3.1.5 Bảng 3.7 của thuê bao Các biến đặc trưng cho dữ liệu tiêu dùng 10 3 3.3.1.6 Bảng 3.8 hàng ngày của thuê bao Các biến đặc trưng cho dữ liệu nạp tiền của 11 3 3.3.1.7 Bảng 3.9 thuê bao Các biến đặc trưng cho dữ liệu số dư tài 12 3 3.3.1.8 Bảng 3.10 khoản của thuê bao Các biến đặc trưng cho dữ liệu cước phí các 13 3 3.3.1.9 Bảng 3.11 gói sử dụng theo chu kỳ của thuê bao Các biến đặc trưng cho dữ liệu tổng hợp 14 3 3.3.1.10 Bảng 3.12 charge cước sử dụng các dịch vụ VAS của thuê bao Các biến đặc trưng cho dữ liệu home của 15 3 3.3.1.11 Bảng 3.13 thuê bao Các biến đặc trưng cho dữ liệu thông tin 16 3 3.3.1.12 Bảng 3.14 thuê bao, khách hàng Lựa chọn các thuộc tính quan trọng bằng 17 3 3.3.2.1 Bảng 3.15 thuật toán Decision Tree Validation of the Training Data Set (80% of 18 3 3.3.2.2 Bảng 3.16 Total) Validation of the Testing Data Set (20% of 19 3 3.3.2.2 Bảng 3.17 Total)
STT Chương Mục Bảng Tên bảng 20 3 3.3.2.2 Bảng 3.18 Sử dụng Logistic Regression 21 3 3.3.2.2 Bảng 3.19 Sử dụng Naïve Bayes 22 3 3.3.2.2 Bảng 3.20 So sánh các kết quả 23 3 3.3.3.1 Bảng 3.21 Kết quả phân cụm bằng thuật toán K-mean Kết quả chi tiết phân cụm bằng thuật toán 24 3 3.3.3.1 Bảng 3.22 K-mean Tối ưu mô hình bằng cách lựa chọn lại các 25 3 3.3.3.4 Bảng 3.23 đặc trung 26 3 3.3.3.6 Bảng 3.24 Lựa chọn mô hình dự đoán tốt nhất Mô hình dự báo với thuật toán Gradien 27 3 3.3.3.7 Bảng 3.25 Booting
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ STT Chương Mục Hình Tên hình vẽ 1 1 1.1.1.4 Hình 1.1 Một ví dụ về lưu trữ dạng Key-value 2 1 1.1.1.4 Hình 1.2 Một ví dụ về lưu trữ dạng Document Một ví dụ về lưu trữ dạng Column- 3 1 1.1.1.4 Hình 1.3 family 4 1 1.1.1.4 Hình 1.4 Một ví dụ về lưu trữ dạng Graph 5 1 1.1.1.4 Hình 1.5 Sơ đồ Venn tóm tắt định lý CAP Một quy trình ETL có thể trích xuất dữ 6 1 1.1.1.5 Hình 1.6 liệu từ nhiều nguồn và chuyển đổi nó để tải vào một hệ thống đích duy nhất Một tác vụ có thể được chia thành ba tác vụ phụ được thực thi song song trên 7 1 1.1.1.5 Hình 1.7 ba bộ xử lý khác nhau trong cùng một máy 8 1 1.1.1.5 Hình 1.8 Một ví dụ về xử lý dữ liệu phân tán Hadoop là một khung đa năng cung cấp 9 1 1.1.1.5 Hình 1.9 cả khả năng xử lý và lưu trữ Giá trị và độ phức tạp tăng từ phân tích 10 1 1.1.2 Hình 1.10 mô tả đến phân tích đề xuất Thiết bị lưu trữ trong bộ nhớ có tốc độ 11 1 1.2.1.2 Hình 1.11 truyền dữ liệu nhanh hơn 80 lần so với thiết bị lưu trữ trên đĩa Một ví dụ mô tả việc truy xuất dữ liệu 12 1 1.2.1.2 Hình 1.12 từ IMDG Một ví dụ về lưu trữ IMDG xử lý với 13 1 1.2.1.2 Hình 1.13 một truy vấn liên tục Một ví dụ mô tả việc truy xuất dữ liệu 14 1 1.2.1.2 Hình 1.14 từ IMDB Một ví dụ về lưu trữ IMDB được cấu 15 1 1.2.1.2 Hình 1.15 hình với một truy vấn liên tục Một minh họa về công việc 16 1 1.2.2.2 Hình 1.16 MapReduce Một ví dụ về MapReduce đang hoạt 17 1 1.2.2.2 Hình 1.17 động 18 1 1.3.2.1 Hình 1.18 Biểu diễn cây quyết định cơ bản 19 1 1.3.2.1 Hình 1.19 Cây quyết định cho việc chơi Tennis Biểu đồ hàm Sigmoid (Ảnh: Tạp chí 20 1 1.3.2.3 Hình 1.20 Analytics Ấn Độ) 21 1 1.3.2.3 Hình 1.21 Biểu đồ hàm chi phí
STT Chương Mục Hình Tên hình vẽ 22 1 1.3.2.3 Hình 1.22 Mô phỏng Gradient Descent Sơ đồ Cây quyết định (Nguồn: Basten 23 1 1.3.2.4 Hình 1.23 K., 2016) 24 1 1.3.2.5 Hình 1.24 Mô hình mạng nơron nhiều lớp 25 1 1.3.2.5 Hình 1.25 Tiến trình học 26 1 1.3.3.3 Hình 1.26 Vai trò của mô hình và từng tập dữ liệu 27 1 1.3.3.4 Hình 1.27 Overfitting, Underfitting 28 1 1.3.3.4 Hình 1.28 Confusion Matrix 29 1 1.3.3.4 Hình 1.29 Phương pháp Bias & Variance 30 1 1.3.3.4 Hình 1.30 Phương pháp đường cong AUC-ROC Đánh giá mô hình qua chỉ số AUC. 31 1 1.3.3.4 Hình 1.31 Trường hợp tốt nhất khi 2 đường cong không chồng lên nhau Đánh giá mô hình qua chỉ số AUC. 32 1 1.3.3.4 Hình 1.32 Trường hợp khi 2 đường cong có chồng lên nhau Đánh giá mô hình qua chỉ số AUC. 33 1 1.3.3.4 Hình 1.33 Trường hợp tệ nhất khi 2 đường cong hoàn toàn chồng lên nhau Đánh giá mô hình qua chỉ số AUC. 34 1 1.3.3.4 Hình 1.34 Trường hợp khi AUC xấp xỉ 0 Các lĩnh vực phân tích dữ liệu lớn trong 35 2 2.1.1 Hình 2.1 viễn thông Mức độ ứng dụng phân tích dữ liệu lớn 36 2 2.1.1 Hình 2.2 trong viễn thông Phương pháp tổ chức hệ thống dữ liệu 37 2 2.2.1 Hình 2.3 lớn Mô hình tổ chức thực tế hệ thống 38 2 2.2.2 Hình 2.4 BigData tại Viettel 39 2 2.2.3.2 Hình 2.5 So sánh CDH và HDP 40 2 2.2.4 Hình 2.6 Các phân hệ cài đặt Big Data của HDP Mô hình triển khai hệ thống BigData 41 3 3.2.1.1 Hình 3.1 thực nghiệm 42 3 3.2.1.2 Hình 3.2 Mô hình đấu nối hệ thống Luồng khai phá dữ liệu trong 43 3 3.2.1.3 Hình 3.3 Rapidminer 44 3 3.2.1.5 Hình 3.4 Luồng xử lý khai phá dữ liệu 45 3 3.2.2 Hình 3.5 Mô hình dự báo thuê bao rời mạng Phương pháp huấn luyện một cây quyết 46 3 3.3.2.1 Hình 3.6 định cho mỗi nguồn dữ liệu
STT Chương Mục Hình Tên hình vẽ Cắt bỏ các mức thấp và trích xuất các 47 3 3.3.2.1 Hình 3.7 nút từ các cấp cao hơn 48 3 3.3.2.1 Hình 3.8 Mô tả cây quyết định trên Rapidminer Các thuộc tính quan trọng sau khi cắt 49 3 3.3.2.1 Hình 3.9 bỏ 50 3 3.3.3.5 Hình 3.10 Mô hình tối ưu
MỞ ĐẦU Trên thế giới, dữ liệu lớn (BigData) đã và đang là một trong những vấn đề trung tâm, nhận được nhiều sự quan tâm trong cuộc cách mạng công nghiệp lần thứ tư. BigData chính là cốt lõi để sử dụng, phát triển internet vạn vật (IoT) và trí tuệ nhân tạo (AI) [1]. Theo dự báo, cách mạng công nghiệp lần thứ tư sẽ tạo ra một lượng lớn dữ liệu, dự kiến đến năm 2020, lượng dữ liệu sẽ tăng gấp 50 lần hiện nay [4]. Thông qua thu thập, phân tích và xử lý lượng dữ liệu lớn này sẽ tạo ra những tri thức mới, hỗ trợ việc đưa ra quyết định của các chủ thể trên thế giới (doanh nghiệp, chính phủ, người dân) [1, 4]. Trong ngành viễn thông và CNTT, dữ liệu lớn trở thành công cụ hữu hiệu cho các nhà cung cấp dịch vụ viễn thông trong kinh doanh cũng như công tác quản lý vận hành khai thác dịch vụ. Các doanh nghiệp viễn thông ngày nay đã chủ động ứng dụng công nghệ mới này đề xây dựng các hệ thống phân tích dữ liệu làm cơ sở để giám sát, quản lý và ra các quyết định có tính chiến lược. Lĩnh vực áp dụng dự liệu lớn trong viễn thông rất phong phú liên quan đến các công nghệ phân tích dự báo, học máy (ML), trí tuệ nhân tạo (AI)…[2, 10]. Dựa vào các công cụ này doanh nghiệp có thể nâng cao chất lượng dịch vụ cung cấp, đạt hiệu quả kinh doanh. Phạm vi ứng dụng dữ liệu lớn trong viễn thông nói riêng rất rộng, các ứng dụng có thể kể đến như hệ thống phân tích quản lý trải nghiệm khách hàng (Customer Experience Mgmt), hệ thống giám sát, quản lý và tối ưu mạng lưới (Network OAM), hệ thống phân tích hoạt động doanh nghiệp (Operation Analytics) và thương mại dữ liệu (Data Monetization) …[7, 11] Viettel là một doanh nghiệp hàng đầu Việt Nam luôn có chiến lược đổi mới, tiên phong trong công nghệ. Việc ứng dụng một cách nhanh nhất, hiệu quả nhất các công nghệ mới nói chung và nhất là các công nghệ liên quan đến dữ liệu lớn nói riêng luôn là thách thức của đội ngũ kỹ thuật Viettel. Một trong những ứng dụng phổ biến nhất hiện nay mà các nhà cung cấp dịch vụ viễn thông sử dụng đó là hệ thống phân tích dự báo khách hàng rời mạng. Đây là hệ thống quan trọng mà đội ngũ kỹ thuật Viettel tự nghiên cứu xây dựng dựa trên tư vấn của đối tác cung cấp nền tảng dữ liệu lớn Cloudera. Bản thân là một trong những thành viên tham gia dự án xây dựng bài toán, tôi xin giới thiệu đề tài nghiên cứu: "TỔ CHỨC VÀ TÍCH HỢP HỆ THỐNG 1
PHÂN TÍCH DỮ LIỆU LỚN PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG". Với mong muốn hiểu được phương pháp phân tích dự báo và tự bản thân tích hợp được một hệ thống dữ liệu lớn, tôi đã đặt mục tiêu nghiên cứu các nội dung sau đây: Tổng quan về vấn đề nghiên cứu:  Tìm hiểu về dữ liệu lớn, các công nghệ liên quan đến dữ liệu lớn (công nghệ xử lý và lưu trữ dữ liệu), các ứng dụng cho dữ liệu lớn. Tìm hiểu về bài toán phân tích dự báo và phương pháp dự báo thuê bao rời mạng dựa trên hành vi tiêu dùng và thói quen sử dụng dịch vụ của khách hàng.  Xây dựng tích hợp hệ thống phân tích dữ liệu lớn phục vụ công tác dự báo thuê bao rời mạng tại Viettel. Mục đích nghiên cứu: Tìm hiểu dữ liệu lớn và xây dựng ứng dụng vào thực tiễn phục vụ công tác kinh doanh của Viettel. Đối tượng nghiên cứu:  Dữ liệu lớn (khái niệm, cách hoạt động và công nghệ hỗ trợ).  Ứng dụng dữ liệu lớn vào thực tiễn tại Viettel. Phạm vi nghiên cứu:  Các khái niệm cơ bản về dữ liệu lớn.  Giải pháp mã nguồn mở cho BigData dựa trên Cloudera Flatform.  Xây dựng hệ thống dữ liệu lớn cho một ứng dụng phân tích dự báo cụ thể.. Phương pháp nghiên cứu:  Nghiên cứu lý thuyết về dữ liệu lớn trong hệ thống Công nghệ thông tin với mục tiêu là hiểu được nền tảng cơ bản.  Nghiên cứu các công nghệ cho hệ thống dữ liệu lớn với mục tiêu là hiểu và triển khai được công nghệ.  Tìm hiểu về các hệ thống dữ liệu phục vụ sản xuất kinh doanh của Viettel phục vụ cho sản xuất kinh doanh của doanh nghiệp với mục tiêu nắm vững các nguồn dữ liệu lớn đang có và triển khai việc xây dựng BigData. 2
Phương pháp thực nghiệm: Xây dựng tích hợp một hệ thống dữ liệu lớn dựa trên nền tảng Cloudera Flatform phục vụ cho một ứng dụng cụ thể là phân tích dự báo thuê bao rời mạng của Viettel. Với các mục tiêu xác định cụ thể như trên, kết quả của luận văn dự kiến sẽ cho ra đời một hệ thống phân tích dữ liệu lớn phục vụ cho công tác dự báo thuê bao rời mạng mới (thay thế cho hệ thống vBI cũ). Hệ thống phân tích mới này dựa trên các thuật toán dự báo tiên tiến kết hợp với công nghệ xử lý dữ liệu lớn sẽ cho ra kết quả phân tích nhanh hơn và có độ chính xác hơn. Qua đó, công cụ này sẽ giúp Viettel đưa ra quyết định kịp thời và hiệu quả hơn trong việc gìn giữ khách hàng của mình. Luận văn được cấu trúc như sau: CHƯƠNG 1: TỔNG QUAN. Chương này trình bày các khái niệm cơ bản về dữ liệu lớn, công nghệ lưu trữ và xử lý dữ liệu lớn. Các bài toán phân tích dự báo, mô hình dự báo, giới thiệu các kỹ thuật phân tích dự báo và công cụ phân tích dữ liệu Rapidminer cũng là một trong những nội dung quan trọng của phần này. CHƯƠNG 2: TỔ CHỨC MỘT HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN. Đây là chương khá quan trọng được chia làm 02 phần. Phần thứ nhất giới thiệu các ứng dụng phân tích dữ liệu lớn phổ biến hiện nay, hiện trạng các nguồn dữ liệu lớn cùng với các hệ thống ứng dụng phân tích dữ liệu lớn tại Viettel. Phần còn lại sẽ chia sẻ phương pháp tổ chức hệ thống dữ liệu lớn tập trung, cách thiết kế kiến trúc hạ tầng dữ liệu lớn hiện tại của Viettel. CHƯƠNG 3: THỰC NGHIỆM TÍCH HỢP HỆ THỐNG DỰ BÁO THUÊ BAO RỜI MẠNG Chương 3 là chương chuyển thể các kiến thức nghiên cứu được thành nội dung ứng dụng thực tế. Chương này đưa ra thực nghiệm tích hợp một hệ thống phân tích dự báo thuê bao rời mạng với một hệ thống xử lý dữ liệu lớn thành một công cụ có áp dụng dự báo cụ thể. Hệ thống này bước đầu cho ra các kết quả sơ bộ về đặc điểm thuê bao rời mạng với độ chính xác >80% sau khi tối ưu các bước dự báo. Tuy nhiên, để kết quả thực nghiệm là một công cụ áp dụng hiệu quả trong thực tế kinh doanh của Viettel, ngoài việc tối ưu lại hệ thống thì còn phải thực hiện tối 3
ưu mô hình liên tục. Kết quả thực nghiệm của chương trình này chỉ mang tính chất tham khảo, chưa thể áp dụng trong thực tế. Trên đây là giới thiệu cơ bản nội dung về luận văn tốt nghiệm của bản thân. Nội dung thực hiện chỉ mới là quan điểm và tư duy cá nhân, sẽ còn nhiều tồn tại và thiết sót. Do vậy, rất mong quý thầy cô, bạn học và nhất là hội đồng tốt nghiệp cho ý kiến đóng góp để luận văn được hoàn thiện, kết quả luận văn là công cụ dự báo được áp dụng hiệu quả trong thực tế. 4
CHƯƠNG 1. TỔNG QUAN 1.1. CÁC KHÁI NIỆM CƠ BẢN 1.1.1. Khái niệm chung về dữ liệu lớn Bộ dữ liệu (Data sets) Nhiều tập dữ liệu hay nhiều nhóm dữ liệu có liên quan đến nhau được gọi là bộ dữ liệu [5]. Trong đó mỗi nhóm hoặc tập con dữ liệu đó có cùng thuộc tính giống nhau. Một số ví dụ về bộ dữ liệu ở 03 định dạng khác nhau: + Dữ liệu Tweets được lưu giữ trong tập tin phẳng (flat file). + Trích xuất các hàng từ bảng dữ liệu (database table) được lưu giữ trong tệp định dạng CSV. Bộ sưu tập ảnh được lưu trong thư mục. + Các thông tin quan sát về lịch sử thời tiết được lưu dưới dạng XML Đặc điểm dữ liệu lớn 5V (Volume, Velocity, Variety, Veracity, Value) Dữ liệu lớn BigData có 05 đặc điểm hay còn gọi là 5V: Volume-Khối lượng lớn; Velocity-Tốc độ; Variety-Tính đa dạng; Veracity-Tính xác thực và Value- Mang lại giá trị. Hầu hết các đặc điểm về dữ liệu lớn được Doug Laney xác định vào năm 2001 khi đăng bài viết về dữ liệu doanh nghiệp (Volume, Velocity, Variety). Tính xác thực (Veracity) được bổ sung để tính tỷ lệ signal-to-noise khi so sánh dữ liệu phi cấu trúc với dữ liệu có cấu trúc. Cuối cùng, Value- để xác định các kết quả phân tích dữ liệu lớn mang lại giá trị gì? [8]. Phân biệt các loại dữ liệu Dữ liệu có cấu trúc (Structured Data): Dữ liệu có cấu trúc phù hợp với mô hình dữ liệu được lưu trữ ở dạng bảng. Chúng được sử dụng để mô tả mối quan hệ giữa các thực thể khác nhau và do đó thường được lưu trữ trong cơ sở dữ liệu quan hệ. Dữ liệu có cấu trúc thường được tạo bởi các ứng dụng doanh nghiệp và hệ thống thông tin như hệ thống ERP và CRM. Ví dụ về loại dữ liệu này bao gồm các giao dịch ngân hàng, hóa đơn và hồ sơ khách hàng. Dữ liệu phi cấu trúc (Unstructured Data): Dữ liệu không phù hợp với mô hình dữ liệu hoặc lược đồ dữ liệu được gọi là dữ liệu phi cấu trúc. Người ta ước tính rằng dữ liệu phi cấu trúc chiếm tới 80% dữ liệu trong bất kỳ doanh nghiệp nào. Ngày nay, dữ liệu phi cấu trúc có tốc độ tăng trưởng nhanh hơn dữ liệu có cấu trúc. Một số loại dữ liệu phi cấu trúc phổ biến như dữ liệu có dạng văn bản (text) hoặc nhị phân (binary). 5
Dữ liệu phi cấu trúc không thể được xử lý hoặc truy vấn trực tiếp bằng cơ sở dữ liệu quan hệ SQL. Nếu muốn lưu trữ dữ liệu phi cấu trúc trong cơ sở dữ liệu quan hệ, thì phải được lưu trữ trong một bảng dưới dạng BLOB (Binary Large Object). Ngoài ra, cơ sở dữ liệu NonSQL có thể được sử dụng để lưu trữ dữ liệu phi cấu trúc. Dữ liệu bán cấu trúc (Semi-structured Data): Dữ liệu bán cấu trúc thường là dữ liệu có cấu trúc nhưng không đồng nhất. Thay vào đó, dữ liệu bán cấu trúc có dạng phân cấp (hierarchical) hoặc đồ thị (graphbased). Loại dữ liệu này thường được lưu trữ trong các tệp có chứa văn bản. Ví dụ như các tệp XML và JSON là các dạng phổ biến của dữ liệu bán cấu trúc. Do tính chất văn bản của dữ liệu này và sự phù hợp của nó với một mức độ cấu trúc nào đó, nó dễ dàng khai thác hơn dữ liệu phi cấu trúc. Các nguồn phổ biến của dữ liệu bán cấu trúc bao gồm các tệp trao đổi dữ liệu điện tử (EDI), bảng tính, nguồn dữ liệu từ các bộ cảm biến. Dữ liệu bán cấu trúc thường có các yêu cầu lưu trữ và xử lý trước đặc biệt, đặc biệt nếu định dạng cơ bản không dựa trên văn bản. Một ví dụ về tiền xử lý dữ liệu bán cấu trúc sẽ là xác thực tệp XML để đảm bảo rằng nó tuân thủ theo lược đồ của nó. Siêu dữ liệu (Metadata): Siêu dữ liệu cung cấp thông tin về các đặc điểm và cấu trúc của bộ dữ liệu. Loại dữ liệu này chủ yếu được tạo bằng máy và có thể được thêm vào dữ liệu. Việc theo dõi siêu dữ liệu rất quan trọng đối với việc xử lý, lưu trữ và phân tích dữ liệu lớn vì nó cung cấp thông tin về phả hệ của dữ liệu và nguồn gốc của nó trong quá trình xử lý. Ví dụ về siêu dữ liệu bao gồm: Thẻ XML cung cấp ngày xác thực và ngày tạo tài liệu; Các thuộc tính cung cấp kích thước tệp và độ phân giải của ảnh kỹ thuật số; Các giải pháp dữ liệu lớn thường dựa trên siêu dữ liệu, đặc biệt khi xử lý dữ liệu bán cấu trúc và không cấu trúc [5]. 1.1.2. Các khái niệm lưu trữ dữ liệu lớn Các dữ liệu thu được từ các nguồn bên ngoài thường không ở định dạng hoặc cấu trúc có thể xử lý ngay được. Để khắc phục được tình trạng này, việc sắp xếp lưu trữ dữ liệu là vô cùng cần thiết. Xử lý sắp xếp lưu trữ dữ liệu bao gồm các bước: Lọc dữ liệu, làm sạch dữ liệu và chuẩn bị dữ liệu. Do nhu cầu lưu trữ dữ liệu trong BigData, nên có nhiều công nghệ tiên tiến được tạo ra để hướng tới việc lưu trữ hiệu quả và có khả năng mở rộng cao [5]. 6