ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
Nguyn Nhƣ Thế
NGHIÊN CỨU C PƠNG PHÁP PHÂN LỚP DỮ LIU
ỨNG DỤNG TRONG BÀI TOÁNDBÁOTHUÊ BAO
RỜI MẠNG VIN TNG
LUẬN N THẠC SĨ KHOA HỌC MÁY TÍNH
Thái Nguyên -2016
ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TRUYỀN THÔNG
Nguyễn Nhƣ Thế
NGHIÊN CỨU CÁC PHƢƠNG PHÁP PHÂN LỚP DỮ LIỆU
VÀ ỨNG DỤNG TRONG BÀI TOÁN DỰ BÁO THUÊ BAO
RỜI MẠNG VIỄN THÔNG
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Thái Ngun - 2016
ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
Nguyn Nhƣ Thế
NGHIÊN CỨU C PƠNG PHÁP PHÂN LỚP DỮ LIU
ỨNG DỤNG TRONG BÀI TOÁNDBÁOTHUÊ BAO
RỜI MẠNG VIN TNG
Chuyên ngành: Khoa học máy tính
Mã số: 60 48 0101
LUẬN N THẠC SĨ KHOA HỌC MÁY TÍNH
NGƢỜI ỚNG DẪN KHOA HỌC:TS.NGUYN LONG GIANG
Thái Nguyên -2016
ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TRUYỀN THÔNG
Nguyễn Nhƣ Thế
NGHIÊN CỨU CÁC PHƢƠNG PHÁP PHÂN LỚP DỮ LIỆU
VÀ ỨNG DỤNG TRONG BÀI TOÁN DỰ BÁO THUÊ BAO
RỜI MẠNG VIỄN THÔNG
Chuyên ngành: Khoa học máy tính
số: 60 48 0101
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
NGƢỜI HƢỚNG DẪN KHOA HỌC: TS NGUYỄN LONG GIANG
Thái Ngun - 2016
i
LỜI CAM ĐOAN
Tên tôi là: Nguyễn Nhƣ Thế
Sinh ngày: 12/12/1989
Học viên lớp cao học: CHK13E - Trƣờng Đại học Công nghệ thông tin
và Truyền thông Đại học Thái Nguyên.
Hiện đangng tác tại: Sở Thông tin và Truyền thông tỉnh Phú Thọ
Xin cam đoan: Đi “Nghiên cu các phương pháp phân lớp dữ liệu
ứng dụng trong bài toán dự báo thuê bao rời mạng viễn thông” do Thầy
giáo TS. Nguyễn Long Giang hƣng dẫn ng trình nghiên cứu ca riêng
tôi. Tất cả tài liệu tham khảo đều có nguồn gốc, xuất xứ rõ ràng.
Tác gixin cam đoan tất cả những nội dung trong luận n đúng nhƣ ni
dung trong đề cƣơng và yêu cầu của thầy giáo hƣớng dẫn. Nếu sai i hoàn
toàn chịu trách nhiệm trƣớc hội đồng khoa học và trƣớc pháp luật.
Thái Nguyên, ngày 28 tháng 6 năm 2016
HỌC VIÊN
Nguyễn Nhƣ Thế
ii
LI CM ƠN
Sau mt thời gian nghiên cứu và làm việc nghiêm túc, đƣợc sự động
viên, giúp đỡ hƣớng dẫn tận tình của Thầy giáo hƣớng dẫn TS. Nguyễn
Long Giang, luận văn với đề tài “Nghiên cứu các phương pháp phân lớp dữ
liệu ứng dụng trong bài toán dự báo thuê bao rời mạng viễn thôngđã
hoàn thành.
Tôi xin bày tỏ lòng biết ơnu sắc đến:
Thầy giáo hƣớng dẫn TS. Nguyễn Long Giang đã tận tình chỉ dẫn, giúp
đỡ tôi hoàn thành luận n này.
Tôi xin y tỏ lòng biết ơn đến c thy trong Trƣng Đại học ng
nghệ thông tin và Truyền thông Đại học Thái Nguyên đã giúp đỡ i trong
quá trình học tập cũng nhƣ thực hiện luận văn.
Tôi xin cảm ơn Chi nhánh Mobifone P Thọ đã nhiệt tình giúp đỡ, cung
cấp thông tin trong quá trình nghiên cứu, thực nghiệm chƣơng trình luận văn.
Tôi xin chân thành cảm ơn bạn bè, đồng nghiệp gia đình đã động
viên, khích lệ, tạo điu kiện giúp đỡ tôi trong suốt quá trình học tập, thực hiện
và hoàn thành luận văn này.
Thái Nguyên, ngày 28 tháng 6 năm 2016
HỌC VIÊN
Nguyễn Nhƣ Thế
iii
MC LC
LỜI CAM ĐOAN ............................................................................................................. i
LỜI CẢM ƠN .................................................................................................................. ii
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .................................................... v
DANH MỤC HÌNH ẢNH .............................................................................................. vi
DANH MỤC BẢNG BIỂU........................................................................................... vii
MỞ ĐẦU .......................................................................................................................... 1
Chương 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU .................................................. 3
1.1. Tng quan v khai phá d liu ....................................................................... 3
1.1.1. Ti sao cn khai phá d liu .................................................................... 3
1.1.2. Các khái niệmbản .............................................................................. 3
1.1.3. Quy trình khai phá d liu ....................................................................... 5
1.1.4. Các bài toán cơ bn trong khai phá d liu .............................................. 6
1.1.5. Các ng dng ca khai phá d liu .......................................................... 7
1.1.6. Quy trình xây dng mô hình khai phá d liu .......................................... 8
1.2.Bài toán phân lp và d báo ......................................................................... 10
1.2.1. Gii thiu bài toán ................................................................................. 10
1.2.2 Các bƣớc gii quyết bài toán ................................................................. 11
Chƣơng 2: CÁC PHƢƠNG PHÁP PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU .... 12
2.1. Phân lp bằng phƣơng pháp quy nạp cây quyết định ................................... 12
2.2. Phân lp bằng phƣơng pháp Bayesian ......................................................... 15
2.3. Support Vector Machine (SVM) ................................................................. 16
2.3.1 Phân tách tuyến tính vi l cực đại ......................................................... 16
2.3.1.1. Tìm kiếm siêu phng vi l cực đại .................................................... 21
2.3.1.2. Hàm phân loi tuyến tính vi l mm cực đại ..................................... 22
2.3.1.3. Lý thuyết tối ƣu Lagrangian ............................................................... 23
2.3.1.4. Tìm kiếm siêu phng vi l cực đại .................................................... 25
2.3.2. Phƣơng pháp hàm nhân (kernel methods) ................................................... 28
2.3.2.1 Chiu VC v kh năng phân tách ca hàm tuyến tính .......................... 29
2.3.2.2 Hàm nhân và SVM phi tuyến (Kernel function and nonlinear SVMs) . 30