Luận văn Thạc sĩ Công nghệ thông tin: Tổ chức và tích hợp hệ thống phân tích dữ liệu lớn phục vụ công tác dự báo trong viễn thông
lượt xem 11
download
Luận văn có cấu trúc gồm 3 chương trình bày tổng quan về dữ liệu lớn, công nghệ lưu trữ và xử lý dữ liệu lớn, tổ chức một hệ thống phân tích dữ liệu lớn, thực nghiệm tích hợp hệ thống dự báo thuê bao rời mạng. Mời các bạn cùng tham khảo nội dung chi tiết.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Luận văn Thạc sĩ Công nghệ thông tin: Tổ chức và tích hợp hệ thống phân tích dữ liệu lớn phục vụ công tác dự báo trong viễn thông
- ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN CHUNG THÀNH HƯNG TỔ CHỨC VÀ TÍCH HỢP HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2019
- ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN CHUNG THÀNH HƯNG TỔ CHỨC VÀ TÍCH HỢP HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG Chuyên ngành: Hệ thống thông tin Mã số: 8480104.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Cán bộ hướng dẫn: PGS. TS Phan Xuân Hiếu Hà Nội - 2019
- LỜI CẢM ƠN Tôi xin trân trọng cảm ơn các thầy cô trong Khoa Công nghệ Thông tin đã tạo điều kiện cho học viên lớp cao học K24CNTT một môi trường học tập thuận lợi, đồng thời truyền đạt cho tôi một vốn kiến thức quý báu, một tư duy khoa học để phục vụ cho quá trình học tập và công tác của tôi. Đặc biệt, tôi xin được bày tỏ lòng biết ơn sâu sắc đến PGS.TS. PHAN XUÂN HIẾU đã tận tình chỉ bảo cho tôi trong suốt quá trình học tập và nghiên cứu, giúp tôi có nhận thức đúng đắn về kiến thức khoa học, tác phong học tập và làm việc. Tôi xin gửi lời cảm ơn đến các bạn trong lớp Cao học Hệ thống Thông tin K24CNTT khóa 2016- 2018 đã giúp đỡ tôi trong suốt thời gian học tập. Cuối cùng, tôi xin được gửi lời cảm ơn tới gia đình, đồng nghiệp, người thân đã động viên, giúp đỡ tôi trong quá trình hoàn thành luận văn. Do vốn kiến thức lý luận và kinh nghiệm thực tiễn còn ít nên luận văn không tránh khỏi những thiếu sót. Tôi xin trân trọng tiếp thu các ý kiến của các thầy, cô, bạn bè để luận văn được hoàn thiện. Trân trọng cám ơn.
- LỜI CAM ĐOAN Tôi xin cam đoan các kết quả nghiên cứu, thực nghiệm được trình bày trong luận văn này do tôi thực hiện dưới sự hướng dẫn của PGS.TS Phan Xuân Hiếu và được thực hiện trong quá trình hợp tác nghiên cứu giữa Tập đoàn Công nghiệp - Công nghệ Cao Viettel và đối tácra. Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo của luận văn. Trong luận văn, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo. Hà nội, ngày 12 tháng 11 năm 2019. Học viên Nguyễn Chung Thành Hưng.
- MỤC LỤC LỜI CẢM ƠN .................................................................................................................. i LỜI CAM ĐOAN ............................................................................................................ i MỤC LỤC ....................................................................................................................... i DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ................................................... iv DANH MỤC CÁC BẢNG .............................................................................................. i DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ .......................................................................iii MỞ ĐẦU ........................................................................................................................ 1 CHƯƠNG 1. TỔNG QUAN .......................................................................................... 5 1.1. CÁC KHÁI NIỆM CƠ BẢN ................................................................................5 1.1.1. Khái niệm chung về dữ liệu lớn......................................................................5 1.1.2. Các khái niệm lưu trữ dữ liệu lớn ...................................................................6 1.1.3 Các khái niệm về xử lý dữ liệu lớn ................................................................ 10 1.1.4. Cái khái niệm phân tích dữ liệu và các loại hình phân tích dữ liệu ..............13 1.2. Hệ thống phân tích dữ liệu lớn ............................................................................17 1.2.1. Công nghệ lưu trữ dữ liệu trong BigData .....................................................17 1.2.1.1. Công nghệ lưu trữ trên đĩa cứng ............................................................17 1.2.1.2. Công nghệ lưu trữ trong bộ nhớ (In-Memory Databases)......................19 1.2.2. Xử lý dữ liệu trong BigData .........................................................................22 1.2.2.1. Xử lý dữ liệu với mô hình Map-Reduce ................................................22 1.2.2.2. Các tác vụ Map và Reduce .....................................................................23 1.2.3. Kỹ thuật phân tích bigdata hiện nay. ............................................................25 1.3. Các BÀI TOÁN PHÂN TÍCH DỰ BÁO ............................................................28 1.3.1. Bài toán phân tích dự báo .............................................................................28 1.3.2. Các mô hình dự báo cơ bản. .........................................................................28 1.3.2.1. Mô hình dự báo dựa trên thuật toán cây quyết định: .............................28 1.3.2.2. Mô hình dự báo Gradient Boosting. .......................................................30 1.3.3. Các kỹ thuật phân tích dự báo ......................................................................31 1.3.3.1. Tạo biến đặc trưng ..................................................................................31 1.3.3.2. Kỹ thuật lựa chọn đặc trưng ...................................................................32 1.3.3.3. Huấn luyện và xác thực trong các mô hình dự báo ................................ 34 1.3.3.4. Đánh giá mô hình dự báo .......................................................................35 1.3.4. Giới thiệu công cụ phân tích Rapidminer .....................................................42 CHƯƠNG 2. ................................................................................................................. 44
- PHƯƠNG PHÁP TỔ CHỨC VÀ TÍCH HỢP DỮ LIỆU LỚN ................................... 44 2.1. CÁC HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN TRONG VIỄN THÔNG ......44 2.1.1. Một số ứng dụng hệ thống phân tích dữ liệu lớn phổ biến hiện nay ............44 2.1.1.1. Quản lý trải nghiệm khách hàng (Customer Experience Mgmt) ...........45 2.1.1.2. Giám sát, quản lý và tối ưu mạng lưới (Network OAM) .......................47 2.1.1.3. Phân tích hoạt động (Operation Analytics) ............................................48 2.1.1.4. Kiếm tiền từ dữ liệu (Data Monetization) ..............................................50 2.1.2. Hiện trạng của Viettel ...................................................................................50 2.1.2.1. Các nguồn dữ liệu lớn tại Viettel ...........................................................50 2.1.2.2. Các hệ thống phân tích dữ liệu lớn của Viettel ......................................51 2.2.1.1. Tầng Data Ingestion ...............................................................................53 2.2.1.2. Tầng Data Processing .............................................................................53 2.2.1.3. Tầng Data Analysis Layer ......................................................................54 2.2.1.4. Tầng Data Visualization .........................................................................54 2.2.1.5. Tầng Data Repository.............................................................................54 2.2.1.6. Tầng Data Govenance ............................................................................55 2.2.2. Mô hình tổ chức thực tế hệ thống BigData tại Viettel ..................................55 2.2.2.1. Tầng lưu trữ và xử lý dữ liệu..................................................................56 2.2.2.2. Tầng truy xuất dữ liệu ............................................................................57 2.2.3. Các công nghệ nền tảng về hệ thống dữ liệu lớn. .........................................57 2.2.4. Các phân hệ cài đặt của Cloudera BigData Enterprise flatform: ..................60 CHƯƠNG 3. ................................................................................................................. 62 THỰC NGHIỆM TÍCH HỢP HỆ THỐNG ................................................................. 62 DỰ BÁO THUÊ BAO RỜI MẠNG ............................................................................ 62 3.1. NỘI DUNG THỰC NGHIỆM ............................................................................62 3.1.1. Định nghĩa thuê bao rời mạng. .....................................................................62 3.1.2. Bài toán yêu cầu ............................................................................................62 3.1.3. Các bước thực nghiệm. .................................................................................63 3.2. TRIỂN KHAI HỆ THỐNG THỰC NGHIỆM ...................................................63 3.2.1. Xây dựng hệ thống phân tích BigData thực nghiệm. ...................................63 3.2.1.1. Mô hình triển khai Logic ........................................................................63 3.2.1.2. Mô hình triển khai vật lý và thông số hệ thống ......................................64 3.2.1.3. Cài đặt, cấu hình các thành phần hệ thống thực nghiệm ........................65 3.2.1.4. Nguồn dữ liệu .........................................................................................67
- 3.2.1.5. Luồng xử lý và khai phá dữ liệu.............................................................68 3.2.2. Xây dựng mô hình dự báo TBRM. ...............................................................69 3.3. CÁC KẾT QUẢ THỰC NGHIỆM MÔ HÌNH DỰ BÁO. .................................70 3.3.1. Khám phá dữ liệu và tạo các biến đặc trưng. ...............................................70 3.3.1.1. Bảng dữ liệu gọi đi của thuê bao (VOICE_OG) ....................................70 3.3.1.2. Dữ liệu gọi đến của thuê bao (VOICE_IC). ...........................................71 3.3.1.3. Dữ liệu nhắn tin đi của thuê bao (SMS_OG) .........................................71 3.3.1.4. Dữ liệu nhắn tin đến của thuê bao (SMS_IC) ........................................72 3.3.1.5. Dữ liệu về sử dụng Data của thuê bao (GPRS) ......................................72 3.3.1.6. Dữ liệu tiêu dùng hàng ngày của thuê bao (TOT_CHARGE_DAILY).73 3.3.1.7. Dữ liệu về thông tin nạp tiền (TOPUP)..................................................73 3.3.1.8. Dữ liệu số dư tài khoản (ACCOUNT2_DAY) .......................................74 3.3.1.9. Dữ liệu trừ cước phí các gói sử dụng theo chu kỳ (DAILYFEE) ..........74 3.3.1.10. Dữ liệu tổng hợp charge cước sử dụng các dịch vụ VAS (VAS_CDR_DAY) .............................................................................................75 3.3.1.11. Dữ liệu home (HOME_ACC) ..............................................................75 3.3.1.12. Dữ liệu thông tin thuê bao, khách hàng (PRE-SUBS) .........................75 3.3.2. Lựa chọn đặc trưng và mô hình hóa .............................................................76 3.3.2.1. Lựa chọn các thuộc tính quan trọng bằng thuật toán Decision Tree ......76 3.3.2.2. Huấn luyện và xác nhận mô hình rời mạng. ..........................................79 3.3.3. Tối ưu mô hình dự báo. ................................................................................80 3.3.3.1. Tối ưu bằng cách phân nhóm khách hàng theo hành vi sử dụng. ..........81 3.3.3.2. Tìm tỷ lệ tối ưu của xác nhận phân tách. ...............................................81 3.3.3.3. Tìm cỡ mẫu tối ưu cho huấn luyện .........................................................82 3.3.3.4. Tối ưu mô hình bằng cách lựa chọn lại các đặc trưng ...........................82 3.3.3.5. Xác định lại các tham số của mô hình tối ưu .........................................82 3.3.3.6. Lựa chọn mô hình dự đoán tốt nhất .......................................................83 3.3.3.7. Chạy lại mô hình dự báo với thuật toán Gradien Booting. ....................83 3.4. ĐÁNH GIÁ THU HOẠCH .................................................................................84 3.4.1. Kết quả đầu ra của hệ thống phân tích, dự báo thuê bao rời mạng. .............84 3.4.2. Tri thức thu được sau thực nghiệm. ..............................................................84 KẾT LUẬN .................................................................................................................. 86 TÀI LIỆU THAM KHẢO ............................................................................................ 87 PHỤ LỤC 1.1. ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ TRƯỚC - PHÂN THEO 4 NHÓM HÀNH VI.............................................................................. 90
- PHỤ LỤC 1.2. ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ SAU- PHÂN THEO 4 NHÓM HÀNH VI.............................................................................. 93 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Ký hiệu/chữ STT Ý nghĩa viết tắt Atomicity, Consistency, Isolation, Durability (Nguyên tắc 1 ACID thiết kế ACID) 2 AUC Area Under the Curve 3 AUROC Area Under the Receiver Operating Characteristics Basically Available, Soft state, Eventual consistency 4 BASE (Nguyên tắc thiết kế BASE) 5 BLOB Binary Large Object Consistency, Availability and Partition Tolerance (Nguyên 6 CAP lý CAP) Customer Experience Management (Quản lý trải nghiệm 7 CEM khách hàng) 8 CEP Complex Event Processing 9 CNN Convolutional Neural Network 10 DBM Deep Boltzmann Machine 11 DBN Deep Belief Networks 12 DT Daytype 13 ETL Extract Transform Load (Trích xuất dữ liệu) 14 FN False Negative 15 FP False Positive 16 FPR False Positive Rate/Fall-out 17 GBM Gradient Boosting Machines 18 GBRT Gradient Boosting Regression Trees 19 ID3 Interactive Dichotomizer 3 20 IG Information Gain (Độ tăng thông tin) 21 IMDB In-Memory Databases (Cơ sở dữ liệu trong bộ nhớ) In-Memory Data Grids (Công nghệ lưu trữ dữ liệu trong bộ 22 IMDG nhớ) 23 IOB In-of-bag 24 IoT Internet Of Things 25 LS Learning Set (Tập huấn luyện) 26 M2M Machine to Manchine Mean Decrease Accuracy (Độ chính xác giảm bình quân 27 MDA cho mỗi biến)
- Ký hiệu/chữ STT Ý nghĩa viết tắt Mean Decrease Gini (Sự giảm bình quân hệ số Gini đối với 28 MDG mỗi biến) 29 OOB Out-of-bag 30 POD Period of Day 31 QC Quality Call Relation DB Management Systems (Hệ thống lưu trữ cơ sở 32 RDBMS dữ liệu quan hệ) 33 RF Random Forest 34 ROC Receiver Operating Characteristics 35 S/N Signal/Noise (Tỷ lệ tín hiệu trên nhiễu) 36 SVM Support Vector Machines 37 TB Thuê bao 38 TBRM Thuê bao rời mạng 39 TN True Negative 40 TP True Positive 41 TPR True Positive Rate/Sentivity/Recall 42 WFLD Weeks Before Last Date
- DANH MỤC CÁC BẢNG STT Chương Mục Bảng Tên bảng Các thuộc tính ví dụ Ngày và Khách truy 1 1 1.3.3.1 Bảng 1.1 cập và thuộc tính được trích xuất IsWeek- endDayfDayg 2 1 1.3.3.2 Bảng 1.2 Các phương pháp trích chọn thuộc tính Cấu hình hệ thống phân tích BigData thực 3 3 3.2.1.2 Bảng 3.1 nghiệm Nguồn dữ liệu hệ thống phân tích BigData 4 3 3.2.1.4 Bảng 3.2 thực nghiệm Các biến đặc trưng cho dữ liệu gọi đi của 5 3 3.3.1.1 Bảng 3.3 thuê bao Các biến đặc trưng cho dữ liệu gọi đến của 6 3 3.3.1.2 Bảng 3.4 thuê bao Các biến đặc trưng cho dữ liệu nhắn tin đi 7 3 3.3.1.3 Bảng 3.5 của thuê bao Các biến đặc trưng cho dữ liệu nhắn tin đi 8 3 3.3.1.4 Bảng 3.6 của thuê bao Các biến đặc trưng cho dữ liệu sử dụng Data 9 3 3.3.1.5 Bảng 3.7 của thuê bao Các biến đặc trưng cho dữ liệu tiêu dùng 10 3 3.3.1.6 Bảng 3.8 hàng ngày của thuê bao Các biến đặc trưng cho dữ liệu nạp tiền của 11 3 3.3.1.7 Bảng 3.9 thuê bao Các biến đặc trưng cho dữ liệu số dư tài 12 3 3.3.1.8 Bảng 3.10 khoản của thuê bao Các biến đặc trưng cho dữ liệu cước phí các 13 3 3.3.1.9 Bảng 3.11 gói sử dụng theo chu kỳ của thuê bao Các biến đặc trưng cho dữ liệu tổng hợp 14 3 3.3.1.10 Bảng 3.12 charge cước sử dụng các dịch vụ VAS của thuê bao Các biến đặc trưng cho dữ liệu home của 15 3 3.3.1.11 Bảng 3.13 thuê bao Các biến đặc trưng cho dữ liệu thông tin 16 3 3.3.1.12 Bảng 3.14 thuê bao, khách hàng Lựa chọn các thuộc tính quan trọng bằng 17 3 3.3.2.1 Bảng 3.15 thuật toán Decision Tree Validation of the Training Data Set (80% of 18 3 3.3.2.2 Bảng 3.16 Total) Validation of the Testing Data Set (20% of 19 3 3.3.2.2 Bảng 3.17 Total)
- STT Chương Mục Bảng Tên bảng 20 3 3.3.2.2 Bảng 3.18 Sử dụng Logistic Regression 21 3 3.3.2.2 Bảng 3.19 Sử dụng Naïve Bayes 22 3 3.3.2.2 Bảng 3.20 So sánh các kết quả 23 3 3.3.3.1 Bảng 3.21 Kết quả phân cụm bằng thuật toán K-mean Kết quả chi tiết phân cụm bằng thuật toán 24 3 3.3.3.1 Bảng 3.22 K-mean Tối ưu mô hình bằng cách lựa chọn lại các 25 3 3.3.3.4 Bảng 3.23 đặc trung 26 3 3.3.3.6 Bảng 3.24 Lựa chọn mô hình dự đoán tốt nhất Mô hình dự báo với thuật toán Gradien 27 3 3.3.3.7 Bảng 3.25 Booting
- DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ STT Chương Mục Hình Tên hình vẽ 1 1 1.1.1.4 Hình 1.1 Một ví dụ về lưu trữ dạng Key-value 2 1 1.1.1.4 Hình 1.2 Một ví dụ về lưu trữ dạng Document Một ví dụ về lưu trữ dạng Column- 3 1 1.1.1.4 Hình 1.3 family 4 1 1.1.1.4 Hình 1.4 Một ví dụ về lưu trữ dạng Graph 5 1 1.1.1.4 Hình 1.5 Sơ đồ Venn tóm tắt định lý CAP Một quy trình ETL có thể trích xuất dữ 6 1 1.1.1.5 Hình 1.6 liệu từ nhiều nguồn và chuyển đổi nó để tải vào một hệ thống đích duy nhất Một tác vụ có thể được chia thành ba tác vụ phụ được thực thi song song trên 7 1 1.1.1.5 Hình 1.7 ba bộ xử lý khác nhau trong cùng một máy 8 1 1.1.1.5 Hình 1.8 Một ví dụ về xử lý dữ liệu phân tán Hadoop là một khung đa năng cung cấp 9 1 1.1.1.5 Hình 1.9 cả khả năng xử lý và lưu trữ Giá trị và độ phức tạp tăng từ phân tích 10 1 1.1.2 Hình 1.10 mô tả đến phân tích đề xuất Thiết bị lưu trữ trong bộ nhớ có tốc độ 11 1 1.2.1.2 Hình 1.11 truyền dữ liệu nhanh hơn 80 lần so với thiết bị lưu trữ trên đĩa Một ví dụ mô tả việc truy xuất dữ liệu 12 1 1.2.1.2 Hình 1.12 từ IMDG Một ví dụ về lưu trữ IMDG xử lý với 13 1 1.2.1.2 Hình 1.13 một truy vấn liên tục Một ví dụ mô tả việc truy xuất dữ liệu 14 1 1.2.1.2 Hình 1.14 từ IMDB Một ví dụ về lưu trữ IMDB được cấu 15 1 1.2.1.2 Hình 1.15 hình với một truy vấn liên tục Một minh họa về công việc 16 1 1.2.2.2 Hình 1.16 MapReduce Một ví dụ về MapReduce đang hoạt 17 1 1.2.2.2 Hình 1.17 động 18 1 1.3.2.1 Hình 1.18 Biểu diễn cây quyết định cơ bản 19 1 1.3.2.1 Hình 1.19 Cây quyết định cho việc chơi Tennis Biểu đồ hàm Sigmoid (Ảnh: Tạp chí 20 1 1.3.2.3 Hình 1.20 Analytics Ấn Độ) 21 1 1.3.2.3 Hình 1.21 Biểu đồ hàm chi phí
- STT Chương Mục Hình Tên hình vẽ 22 1 1.3.2.3 Hình 1.22 Mô phỏng Gradient Descent Sơ đồ Cây quyết định (Nguồn: Basten 23 1 1.3.2.4 Hình 1.23 K., 2016) 24 1 1.3.2.5 Hình 1.24 Mô hình mạng nơron nhiều lớp 25 1 1.3.2.5 Hình 1.25 Tiến trình học 26 1 1.3.3.3 Hình 1.26 Vai trò của mô hình và từng tập dữ liệu 27 1 1.3.3.4 Hình 1.27 Overfitting, Underfitting 28 1 1.3.3.4 Hình 1.28 Confusion Matrix 29 1 1.3.3.4 Hình 1.29 Phương pháp Bias & Variance 30 1 1.3.3.4 Hình 1.30 Phương pháp đường cong AUC-ROC Đánh giá mô hình qua chỉ số AUC. 31 1 1.3.3.4 Hình 1.31 Trường hợp tốt nhất khi 2 đường cong không chồng lên nhau Đánh giá mô hình qua chỉ số AUC. 32 1 1.3.3.4 Hình 1.32 Trường hợp khi 2 đường cong có chồng lên nhau Đánh giá mô hình qua chỉ số AUC. 33 1 1.3.3.4 Hình 1.33 Trường hợp tệ nhất khi 2 đường cong hoàn toàn chồng lên nhau Đánh giá mô hình qua chỉ số AUC. 34 1 1.3.3.4 Hình 1.34 Trường hợp khi AUC xấp xỉ 0 Các lĩnh vực phân tích dữ liệu lớn trong 35 2 2.1.1 Hình 2.1 viễn thông Mức độ ứng dụng phân tích dữ liệu lớn 36 2 2.1.1 Hình 2.2 trong viễn thông Phương pháp tổ chức hệ thống dữ liệu 37 2 2.2.1 Hình 2.3 lớn Mô hình tổ chức thực tế hệ thống 38 2 2.2.2 Hình 2.4 BigData tại Viettel 39 2 2.2.3.2 Hình 2.5 So sánh CDH và HDP 40 2 2.2.4 Hình 2.6 Các phân hệ cài đặt Big Data của HDP Mô hình triển khai hệ thống BigData 41 3 3.2.1.1 Hình 3.1 thực nghiệm 42 3 3.2.1.2 Hình 3.2 Mô hình đấu nối hệ thống Luồng khai phá dữ liệu trong 43 3 3.2.1.3 Hình 3.3 Rapidminer 44 3 3.2.1.5 Hình 3.4 Luồng xử lý khai phá dữ liệu 45 3 3.2.2 Hình 3.5 Mô hình dự báo thuê bao rời mạng Phương pháp huấn luyện một cây quyết 46 3 3.3.2.1 Hình 3.6 định cho mỗi nguồn dữ liệu
- STT Chương Mục Hình Tên hình vẽ Cắt bỏ các mức thấp và trích xuất các 47 3 3.3.2.1 Hình 3.7 nút từ các cấp cao hơn 48 3 3.3.2.1 Hình 3.8 Mô tả cây quyết định trên Rapidminer Các thuộc tính quan trọng sau khi cắt 49 3 3.3.2.1 Hình 3.9 bỏ 50 3 3.3.3.5 Hình 3.10 Mô hình tối ưu
- MỞ ĐẦU Trên thế giới, dữ liệu lớn (BigData) đã và đang là một trong những vấn đề trung tâm, nhận được nhiều sự quan tâm trong cuộc cách mạng công nghiệp lần thứ tư. BigData chính là cốt lõi để sử dụng, phát triển internet vạn vật (IoT) và trí tuệ nhân tạo (AI) [1]. Theo dự báo, cách mạng công nghiệp lần thứ tư sẽ tạo ra một lượng lớn dữ liệu, dự kiến đến năm 2020, lượng dữ liệu sẽ tăng gấp 50 lần hiện nay [4]. Thông qua thu thập, phân tích và xử lý lượng dữ liệu lớn này sẽ tạo ra những tri thức mới, hỗ trợ việc đưa ra quyết định của các chủ thể trên thế giới (doanh nghiệp, chính phủ, người dân) [1, 4]. Trong ngành viễn thông và CNTT, dữ liệu lớn trở thành công cụ hữu hiệu cho các nhà cung cấp dịch vụ viễn thông trong kinh doanh cũng như công tác quản lý vận hành khai thác dịch vụ. Các doanh nghiệp viễn thông ngày nay đã chủ động ứng dụng công nghệ mới này đề xây dựng các hệ thống phân tích dữ liệu làm cơ sở để giám sát, quản lý và ra các quyết định có tính chiến lược. Lĩnh vực áp dụng dự liệu lớn trong viễn thông rất phong phú liên quan đến các công nghệ phân tích dự báo, học máy (ML), trí tuệ nhân tạo (AI)…[2, 10]. Dựa vào các công cụ này doanh nghiệp có thể nâng cao chất lượng dịch vụ cung cấp, đạt hiệu quả kinh doanh. Phạm vi ứng dụng dữ liệu lớn trong viễn thông nói riêng rất rộng, các ứng dụng có thể kể đến như hệ thống phân tích quản lý trải nghiệm khách hàng (Customer Experience Mgmt), hệ thống giám sát, quản lý và tối ưu mạng lưới (Network OAM), hệ thống phân tích hoạt động doanh nghiệp (Operation Analytics) và thương mại dữ liệu (Data Monetization) …[7, 11] Viettel là một doanh nghiệp hàng đầu Việt Nam luôn có chiến lược đổi mới, tiên phong trong công nghệ. Việc ứng dụng một cách nhanh nhất, hiệu quả nhất các công nghệ mới nói chung và nhất là các công nghệ liên quan đến dữ liệu lớn nói riêng luôn là thách thức của đội ngũ kỹ thuật Viettel. Một trong những ứng dụng phổ biến nhất hiện nay mà các nhà cung cấp dịch vụ viễn thông sử dụng đó là hệ thống phân tích dự báo khách hàng rời mạng. Đây là hệ thống quan trọng mà đội ngũ kỹ thuật Viettel tự nghiên cứu xây dựng dựa trên tư vấn của đối tác cung cấp nền tảng dữ liệu lớn Cloudera. Bản thân là một trong những thành viên tham gia dự án xây dựng bài toán, tôi xin giới thiệu đề tài nghiên cứu: "TỔ CHỨC VÀ TÍCH HỢP HỆ THỐNG 1
- PHÂN TÍCH DỮ LIỆU LỚN PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG". Với mong muốn hiểu được phương pháp phân tích dự báo và tự bản thân tích hợp được một hệ thống dữ liệu lớn, tôi đã đặt mục tiêu nghiên cứu các nội dung sau đây: Tổng quan về vấn đề nghiên cứu: Tìm hiểu về dữ liệu lớn, các công nghệ liên quan đến dữ liệu lớn (công nghệ xử lý và lưu trữ dữ liệu), các ứng dụng cho dữ liệu lớn. Tìm hiểu về bài toán phân tích dự báo và phương pháp dự báo thuê bao rời mạng dựa trên hành vi tiêu dùng và thói quen sử dụng dịch vụ của khách hàng. Xây dựng tích hợp hệ thống phân tích dữ liệu lớn phục vụ công tác dự báo thuê bao rời mạng tại Viettel. Mục đích nghiên cứu: Tìm hiểu dữ liệu lớn và xây dựng ứng dụng vào thực tiễn phục vụ công tác kinh doanh của Viettel. Đối tượng nghiên cứu: Dữ liệu lớn (khái niệm, cách hoạt động và công nghệ hỗ trợ). Ứng dụng dữ liệu lớn vào thực tiễn tại Viettel. Phạm vi nghiên cứu: Các khái niệm cơ bản về dữ liệu lớn. Giải pháp mã nguồn mở cho BigData dựa trên Cloudera Flatform. Xây dựng hệ thống dữ liệu lớn cho một ứng dụng phân tích dự báo cụ thể.. Phương pháp nghiên cứu: Nghiên cứu lý thuyết về dữ liệu lớn trong hệ thống Công nghệ thông tin với mục tiêu là hiểu được nền tảng cơ bản. Nghiên cứu các công nghệ cho hệ thống dữ liệu lớn với mục tiêu là hiểu và triển khai được công nghệ. Tìm hiểu về các hệ thống dữ liệu phục vụ sản xuất kinh doanh của Viettel phục vụ cho sản xuất kinh doanh của doanh nghiệp với mục tiêu nắm vững các nguồn dữ liệu lớn đang có và triển khai việc xây dựng BigData. 2
- Phương pháp thực nghiệm: Xây dựng tích hợp một hệ thống dữ liệu lớn dựa trên nền tảng Cloudera Flatform phục vụ cho một ứng dụng cụ thể là phân tích dự báo thuê bao rời mạng của Viettel. Với các mục tiêu xác định cụ thể như trên, kết quả của luận văn dự kiến sẽ cho ra đời một hệ thống phân tích dữ liệu lớn phục vụ cho công tác dự báo thuê bao rời mạng mới (thay thế cho hệ thống vBI cũ). Hệ thống phân tích mới này dựa trên các thuật toán dự báo tiên tiến kết hợp với công nghệ xử lý dữ liệu lớn sẽ cho ra kết quả phân tích nhanh hơn và có độ chính xác hơn. Qua đó, công cụ này sẽ giúp Viettel đưa ra quyết định kịp thời và hiệu quả hơn trong việc gìn giữ khách hàng của mình. Luận văn được cấu trúc như sau: CHƯƠNG 1: TỔNG QUAN. Chương này trình bày các khái niệm cơ bản về dữ liệu lớn, công nghệ lưu trữ và xử lý dữ liệu lớn. Các bài toán phân tích dự báo, mô hình dự báo, giới thiệu các kỹ thuật phân tích dự báo và công cụ phân tích dữ liệu Rapidminer cũng là một trong những nội dung quan trọng của phần này. CHƯƠNG 2: TỔ CHỨC MỘT HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN. Đây là chương khá quan trọng được chia làm 02 phần. Phần thứ nhất giới thiệu các ứng dụng phân tích dữ liệu lớn phổ biến hiện nay, hiện trạng các nguồn dữ liệu lớn cùng với các hệ thống ứng dụng phân tích dữ liệu lớn tại Viettel. Phần còn lại sẽ chia sẻ phương pháp tổ chức hệ thống dữ liệu lớn tập trung, cách thiết kế kiến trúc hạ tầng dữ liệu lớn hiện tại của Viettel. CHƯƠNG 3: THỰC NGHIỆM TÍCH HỢP HỆ THỐNG DỰ BÁO THUÊ BAO RỜI MẠNG Chương 3 là chương chuyển thể các kiến thức nghiên cứu được thành nội dung ứng dụng thực tế. Chương này đưa ra thực nghiệm tích hợp một hệ thống phân tích dự báo thuê bao rời mạng với một hệ thống xử lý dữ liệu lớn thành một công cụ có áp dụng dự báo cụ thể. Hệ thống này bước đầu cho ra các kết quả sơ bộ về đặc điểm thuê bao rời mạng với độ chính xác >80% sau khi tối ưu các bước dự báo. Tuy nhiên, để kết quả thực nghiệm là một công cụ áp dụng hiệu quả trong thực tế kinh doanh của Viettel, ngoài việc tối ưu lại hệ thống thì còn phải thực hiện tối 3
- ưu mô hình liên tục. Kết quả thực nghiệm của chương trình này chỉ mang tính chất tham khảo, chưa thể áp dụng trong thực tế. Trên đây là giới thiệu cơ bản nội dung về luận văn tốt nghiệm của bản thân. Nội dung thực hiện chỉ mới là quan điểm và tư duy cá nhân, sẽ còn nhiều tồn tại và thiết sót. Do vậy, rất mong quý thầy cô, bạn học và nhất là hội đồng tốt nghiệp cho ý kiến đóng góp để luận văn được hoàn thiện, kết quả luận văn là công cụ dự báo được áp dụng hiệu quả trong thực tế. 4
- CHƯƠNG 1. TỔNG QUAN 1.1. CÁC KHÁI NIỆM CƠ BẢN 1.1.1. Khái niệm chung về dữ liệu lớn Bộ dữ liệu (Data sets) Nhiều tập dữ liệu hay nhiều nhóm dữ liệu có liên quan đến nhau được gọi là bộ dữ liệu [5]. Trong đó mỗi nhóm hoặc tập con dữ liệu đó có cùng thuộc tính giống nhau. Một số ví dụ về bộ dữ liệu ở 03 định dạng khác nhau: + Dữ liệu Tweets được lưu giữ trong tập tin phẳng (flat file). + Trích xuất các hàng từ bảng dữ liệu (database table) được lưu giữ trong tệp định dạng CSV. Bộ sưu tập ảnh được lưu trong thư mục. + Các thông tin quan sát về lịch sử thời tiết được lưu dưới dạng XML Đặc điểm dữ liệu lớn 5V (Volume, Velocity, Variety, Veracity, Value) Dữ liệu lớn BigData có 05 đặc điểm hay còn gọi là 5V: Volume-Khối lượng lớn; Velocity-Tốc độ; Variety-Tính đa dạng; Veracity-Tính xác thực và Value- Mang lại giá trị. Hầu hết các đặc điểm về dữ liệu lớn được Doug Laney xác định vào năm 2001 khi đăng bài viết về dữ liệu doanh nghiệp (Volume, Velocity, Variety). Tính xác thực (Veracity) được bổ sung để tính tỷ lệ signal-to-noise khi so sánh dữ liệu phi cấu trúc với dữ liệu có cấu trúc. Cuối cùng, Value- để xác định các kết quả phân tích dữ liệu lớn mang lại giá trị gì? [8]. Phân biệt các loại dữ liệu Dữ liệu có cấu trúc (Structured Data): Dữ liệu có cấu trúc phù hợp với mô hình dữ liệu được lưu trữ ở dạng bảng. Chúng được sử dụng để mô tả mối quan hệ giữa các thực thể khác nhau và do đó thường được lưu trữ trong cơ sở dữ liệu quan hệ. Dữ liệu có cấu trúc thường được tạo bởi các ứng dụng doanh nghiệp và hệ thống thông tin như hệ thống ERP và CRM. Ví dụ về loại dữ liệu này bao gồm các giao dịch ngân hàng, hóa đơn và hồ sơ khách hàng. Dữ liệu phi cấu trúc (Unstructured Data): Dữ liệu không phù hợp với mô hình dữ liệu hoặc lược đồ dữ liệu được gọi là dữ liệu phi cấu trúc. Người ta ước tính rằng dữ liệu phi cấu trúc chiếm tới 80% dữ liệu trong bất kỳ doanh nghiệp nào. Ngày nay, dữ liệu phi cấu trúc có tốc độ tăng trưởng nhanh hơn dữ liệu có cấu trúc. Một số loại dữ liệu phi cấu trúc phổ biến như dữ liệu có dạng văn bản (text) hoặc nhị phân (binary). 5
- Dữ liệu phi cấu trúc không thể được xử lý hoặc truy vấn trực tiếp bằng cơ sở dữ liệu quan hệ SQL. Nếu muốn lưu trữ dữ liệu phi cấu trúc trong cơ sở dữ liệu quan hệ, thì phải được lưu trữ trong một bảng dưới dạng BLOB (Binary Large Object). Ngoài ra, cơ sở dữ liệu NonSQL có thể được sử dụng để lưu trữ dữ liệu phi cấu trúc. Dữ liệu bán cấu trúc (Semi-structured Data): Dữ liệu bán cấu trúc thường là dữ liệu có cấu trúc nhưng không đồng nhất. Thay vào đó, dữ liệu bán cấu trúc có dạng phân cấp (hierarchical) hoặc đồ thị (graphbased). Loại dữ liệu này thường được lưu trữ trong các tệp có chứa văn bản. Ví dụ như các tệp XML và JSON là các dạng phổ biến của dữ liệu bán cấu trúc. Do tính chất văn bản của dữ liệu này và sự phù hợp của nó với một mức độ cấu trúc nào đó, nó dễ dàng khai thác hơn dữ liệu phi cấu trúc. Các nguồn phổ biến của dữ liệu bán cấu trúc bao gồm các tệp trao đổi dữ liệu điện tử (EDI), bảng tính, nguồn dữ liệu từ các bộ cảm biến. Dữ liệu bán cấu trúc thường có các yêu cầu lưu trữ và xử lý trước đặc biệt, đặc biệt nếu định dạng cơ bản không dựa trên văn bản. Một ví dụ về tiền xử lý dữ liệu bán cấu trúc sẽ là xác thực tệp XML để đảm bảo rằng nó tuân thủ theo lược đồ của nó. Siêu dữ liệu (Metadata): Siêu dữ liệu cung cấp thông tin về các đặc điểm và cấu trúc của bộ dữ liệu. Loại dữ liệu này chủ yếu được tạo bằng máy và có thể được thêm vào dữ liệu. Việc theo dõi siêu dữ liệu rất quan trọng đối với việc xử lý, lưu trữ và phân tích dữ liệu lớn vì nó cung cấp thông tin về phả hệ của dữ liệu và nguồn gốc của nó trong quá trình xử lý. Ví dụ về siêu dữ liệu bao gồm: Thẻ XML cung cấp ngày xác thực và ngày tạo tài liệu; Các thuộc tính cung cấp kích thước tệp và độ phân giải của ảnh kỹ thuật số; Các giải pháp dữ liệu lớn thường dựa trên siêu dữ liệu, đặc biệt khi xử lý dữ liệu bán cấu trúc và không cấu trúc [5]. 1.1.2. Các khái niệm lưu trữ dữ liệu lớn Các dữ liệu thu được từ các nguồn bên ngoài thường không ở định dạng hoặc cấu trúc có thể xử lý ngay được. Để khắc phục được tình trạng này, việc sắp xếp lưu trữ dữ liệu là vô cùng cần thiết. Xử lý sắp xếp lưu trữ dữ liệu bao gồm các bước: Lọc dữ liệu, làm sạch dữ liệu và chuẩn bị dữ liệu. Do nhu cầu lưu trữ dữ liệu trong BigData, nên có nhiều công nghệ tiên tiến được tạo ra để hướng tới việc lưu trữ hiệu quả và có khả năng mở rộng cao [5]. 6
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Luận văn Thạc sĩ công nghệ thông tin: Ứng dụng mạng Nơron trong bài toán xác định lộ trình cho Robot
88 p | 702 | 147
-
Luận văn thạc sĩ Công nghệ Sinh học: Nghiên cứu mối quan hệ di truyền của một số giống ngô (Zea maysL.) bằng chỉ thị RAPD
89 p | 294 | 73
-
Luận văn thạc sĩ Công nghệ Sinh học: Nghiên cứu ảnh hưởng bổ sung tế bào và hormone lên sự phát triển của phôi lợn thụ tinh ống nghiệm
67 p | 277 | 50
-
Luận văn Thạc sĩ Công nghệ thông tin: Tối ưu hóa truy vấn trong hệ cơ sở dữ liệu phân tán
75 p | 58 | 9
-
Luận văn Thạc sĩ Công nghệ thông tin: Xây dựng tính năng cảnh báo tấn công trên mã nguồn mở
72 p | 61 | 8
-
Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu phương pháp quản trị rủi ro hướng mục tiêu và thử nghiệm ứng dụng trong xây dựng cổng thông tin điện tử Bộ GTVT
75 p | 49 | 8
-
Luận văn Thạc sĩ Công nghệ thông tin: Phát triển hệ thống quảng cáo thông minh trên mạng xã hội
76 p | 61 | 8
-
Luận văn Thạc sĩ Công nghệ thông tin: Xây dựng mô hình các chủ đề và công cụ tìm kiếm ngữ nghĩa
94 p | 34 | 6
-
Luận văn Thạc sĩ Công nghệ thông tin: Ứng dụng Gis phục vụ công tác quản lý cầu tại TP. Hồ Chí Minh
96 p | 46 | 5
-
Luận văn Thạc sĩ Công nghệ thông tin: Phương pháp phân vùng phân cấp trong khai thác tập phổ biến
69 p | 46 | 5
-
Luận văn Thạc sĩ Công nghệ thông tin: Khai thác tập mục lợi ích cao bảo toàn tính riêng tư
65 p | 46 | 4
-
Luận văn Thạc sĩ Công nghệ thông tin: Khai thác luật phân lớp kết hợp trên cơ sở dữ liệu được cập nhật
60 p | 46 | 4
-
Luận văn Thạc sĩ Công nghệ thông tin: Khai thác mẫu tuần tự nén
59 p | 30 | 4
-
Luận văn Thạc sĩ Công nghệ thông tin: Sử dụng cây quyết định để phân loại dữ liệu nhiễu
70 p | 40 | 4
-
Luận văn Thạc sĩ Công nghệ thông tin: Kỹ thuật Matrix Factorization trong xây dựng hệ tư vấn
74 p | 40 | 4
-
Luận văn Thạc sĩ Công nghệ thông tin: Khai thác Top-rank K cho tập đánh trọng trên cơ sở dữ liệu có trọng số
64 p | 48 | 4
-
Luận văn Thạc sĩ Công nghệ thông tin: Xây dựng hệ truy vấn ngữ nghĩa đa cơ sở dữ liệu trong một lĩnh vực
85 p | 33 | 3
-
Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu và ứng dụng Hadoop để khai thác tập phổ biến
114 p | 46 | 3
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn