ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
NINH HOÀI ANH
NGHIÊN CU VÀ XÂY DNG NG DNG
PHÂN TÍCH D LIU KINH DOANH THIT B ĐIN T
Ngành: Công ngh thông tin
Chuyên ngành: K thut phn mm
Mã s: 60480103
LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DN KHOA HC: PGS. TS. Nguyn Hi Châu
Hà Ni - 2017
2
MC LC
Lời cam đoan ............................................................................................ 3
Danh mc các ký hiu và ch viết tt ....................................................... 4
Danh mc các hình v và đồ th ............................................................... 5
Danh mc các bng .................................................................................. 6
M ĐẦU .................................................................................................. 7
CHƯƠNG 1. ĐT VẤN Đ ................................................................... 10
1.1. Bài toán phân tích d liu .............................................................. 10
1.2. La chn min ng dng .............................................................. 11
1.3. Phương pháp và công cụ ............................................................... 11
1.3.1. La chọn phương pháp .......................................................... 11
1.3.2. La chn công c ................................................................... 12
CHƯƠNG 2. HÌNH HI QUY TUYN TÍNH CÔNG C H
TR WEKA ....................................................................................................... 13
2.1. Mô hình hi quy tuyến tính ........................................................... 13
2.1.1. Lý thuyết v mô hình hi quy ................................................ 13
2.1.2. Mô hình hi quy tuyến tính .................................................... 14
2.1.3. Phương pháp bình phương tối thiểu để ước lượng các tham s
ca mô hình hi quy tuyến tính .......................................................................... 16
2.1.4. ng dng mô hình hi quy tuyến tính vào phân tích d liu 19
2.2. Công c h tr xây dng mô hình hi quy tuyến tính WEKA ..... 23
2.2.1. Gii thiu v WEKA ............................................................. 23
2.2.2. Các chức năng chính của WEKA .......................................... 24
2.2.3. Xây dng mô hình hi quy tuyến tính vi WEKA ................ 25
CHƯƠNG 3. THC NGHIỆM VÀ ĐÁNH GIÁ KẾT QU ................. 30
3.1. Phát biu bài toán thc tế ............................................................... 30
3.2. Tiến hành xây dng mô hình ........................................................ 31
3.2.1. Thu thp d liu ..................................................................... 31
3.2.2. Tin x lý d liu ................................................................... 33
3.2.3. La chn thuc tính ............................................................... 36
3.2.4. Xây dựng và đánh giá mô hình .............................................. 37
3.3. Tính toán th nghiệm độ chính xác d báo .................................. 40
CHƯƠNG 4. KT LUN ........................................................................ 42
TÀI LIU THAM KHO ......................................................................... 43
3
LỜI CAM ĐOAN
Tôi xin cam đoan luận văn này do tôi thực hin, đưc hoàn thành trên
s m kiếm, thu thp, nghiên cu, tng hp phn thuyết các phương
pháp thuật đưc trình bày trong các tài liệu được công b trong nước trên
thế gii. Các tài liu tham khảo đều được nêu phn cui ca luận n. Luận
văn này không sao chép nguyên bản t bt kì mt ngun tài liu nào khác.
Nếu có gì sai sót, tôi xin chu mi trách nhim.
Hc viên
Ninh Hoài Anh
4
DANH MC CÁC KÝ HIU VÀ CH VIT TT
TT
Ký hiu
Tiếng Anh
Gii thích theo tiếng Vit
01
ARFF
Attribute - relation file
format
Định dng tp tin thuc tính -
quan h
02
CDA
Confirmatory data analysis
Phân tích d liu khẳng định
03
CPU
Central Processing Unit
B vi xtrung tâm
04
DOM
Document Object Model
Mô hình đối tượng tài liu
05
EDA
Exploratory data analysis
Phân tích d liệu thăm
06
ESS
Explained sum of squares
Tổng bình phương hồi quy
07
HTML
Hypertext markup
language
Ngôn ng đánh dấu siêu văn bản
08
OLS
Ordinarry least square
Phương pháp bình phương tối
thiu
09
PRF
Popolartion regression
function
Hàm hi quy tng th
10
RSS
Residual sum of squares
Tổng bình phương sai số
11
SRF
Sample regression function
Hàm hi quy mu
12
TSS
Total sum of squares
Tổng bình phương toàn phần
5
DANH MC CÁC HÌNH V VÀ ĐỒ TH
Hình 1.1. Các bước ca quá trình phân tích d liu
Hình 2.1. Sai s ei gia Yi và 𝑌𝑖
Hình 2.2. Mi quan h gia TSS, ESS và RSS
Hình 2.3. Mt s hình nh v giao diện đồ họa người s dng ca WEKA
Hình 2.4. Các bước xây dng mt mô hình hi quy tuyến tính vi WEKA
Hình 2.5. La chn thuộc tính được d đoán
Hình 3.1. Các thc nghim y dng mô nh hi quy tuyến tính để d báo
Hình 3.2. Mô hình DOM ca tập tin HTML đơn giản
Hình 3.3. Quá trình khai thác thông tin tng sn phm
Hình 3.4. Quá trình tin x lý d liệu giai đoạn 1
Hình 3.5. Loi b các bn ghi ging nhau ca tp tin d liu
Hình 3.6. X lý giá tr thiếu trong tp d liu
Hình 3.7. Thiết lp b sung thông tin d liệu đầu ra
Hình 3.8. Mô hình hóa sai s ca mô hình
Hình 3.9. Tp tin d liu kết qu