HC VIN CÔNG NGH BƯU CHNH VIN THÔNG

NGUYN QUANG TUN
MT S THUT TOÁN HC MÁY
TRONG PHÂN LOI HÀNH VI
S DỤNG GÓI CƯỚC DATA VIN THÔNG
LUẬN VĂN THẠC SĨ KỸ THUT
(Theo định hướng ng dng)
Hà Ni - năm 2020
HC VIN CÔNG NGH BƯU CHNH VIN THÔNG

NGUYN QUANG TUN
MT S THUT TOÁN HC MÁY
TRONG PHÂN LOI HÀNH VI
S DỤNG GÓI CƯỚC DATA VIN THÔNG
CHUYÊN NGÀNH: KHOA HC MÁY TÍNH
S: 8.48.01.01
LUẬN VĂN THẠC SĨ KỸ THUT
(Theo định hướng ng dng)
NGƯỜI HƯỚNG DN KHOA HC
PGS.TS. TRN ĐÌNH QUẾ
Hà Ni - năm 2020
LỜI CAM ĐOAN
Tôi xin cam đoan: Khoá luận tốt nghiệp với đề tài MỘT SỐ THUẬT TOÁN HC
MÁY TRONG PHÂN LOẠI HÀNH VI SỬ DỤNG GÓI ỚC DATA VIN
THÔNGcông trình nghiên cứu của nhân tôi, các số liệu, kết quả nêu trong
luận văn trung thực và chưa từng được ai công bố trong bất kcông trình nào khác,
không sao chép của bất cứ ai.
Tôi xin chịu mọi trách nhiệm về công trình nghiên cứu của riêng mình!
Hà Nội, ngày ………….
Người cam đoan
Nguyễn Quang Tuấn
i
MC LC
DANH MC CÁC KÝ HIU VÀ CH VIT TT ............................................ iv
DANH MC CÁC BNG ........................................................................................ v
DANH MC CÁC HÌNH ........................................................................................ vi
M ĐẦU .................................................................................................................... 1
CHƯƠNG 1 - TNG QUAN V BÀI TOÁN PHÂN LOI HÀNH VI S
DNG DCH V VIN THÔNG ............................................................................ 3
1.1 Gii thiu bài toán .......................................................................................... 3
1.2 Tng quan quy trình phân tích d liu ......................................................... 3
1.2.1 Tng quan ................................................................................................. 3
1.2.2 Quy trình trin khai bài toán phân tích d liu ...................................... 4
1.2.3 Lưu đồ quy trình thc hin d án ng dng phân tích d liu ............. 6
1.3 X lý d liu phân tán vi Spark .................................................................. 6
1.3.1 Gii thiu .................................................................................................. 6
1.3.2 Cơ chế hoạt động ...................................................................................... 7
1.3.3 Spark application ...................................................................................... 9
1.4 Các ch s đánh giá hiệu năng mô hình ........................................................ 9
1.4.1 Ma trn nhm ln (Confusion matrix) .................................................... 9
1.4.2 Các ch s Accuracy, Precision, Recall và F1 score ............................. 10
1.4.3 Đường cong ROC ................................................................................... 11
1.4.4 Biểu đồ Lift ............................................................................................. 13
1.4.5 Biểu đồ Gain ........................................................................................... 14
1.5 Các phương pháp xây dựng đặc trưng d liu .......................................... 15
1.5.1 Các phương pháp thống kê la chn đặc trưng dữ liu với phương
pháp lc ............................................................................................................ 16