ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
NINH HOÀI ANH
NGHIÊN CU VÀ XÂY DNG NG DNG
PHÂN TÍCH D LIU KINH DOANH THIT B ĐIN T
Ngành: Công ngh thông tin
Chuyên ngành: K thut phn mm
Mã s: 60480103
TÓM TT LUẬN VĂN THẠC
NGÀNH CÔNG NGH THÔNG TIN
Hà Ni - 2017
2
MC LC
M ĐẦU .................................................................................................. 3
CHƯƠNG 1. ĐẶT VẤN ĐỀ .................................................................... 5
1.1. Bài toán phân tích d liu .................................................................. 5
1.2. La chn min ng dng ................................................................... 5
1.3. Phương pháp và công cụ .................................................................... 5
1.3.1. La chọn phương pháp ................................................................ 5
1.3.2. La chn công c ........................................................................ 6
CHƯƠNG 2. NH HI QUY TUYN NH CÔNG C H
TR WEKA .................................................................................................. 7
2.1. Mô hình hi quy tuyến tính ............................................................... 7
2.1.1. Lý thuyết v mô hình hi quy ...................................................... 7
2.1.2. Mô hình hi quy tuyến tính ......................................................... 8
2.1.3. Phương pháp bình phương tối thiểu để ước lượng các tham s ca
mô hình hi quy tuyến tính ............................................................................ 9
2.1.4. ng dng mô hình hi quy tuyến tính vào phân tích d liu ...... 9
2.2. Công c h tr xây dng mô hình hi quy tuyến tính WEKA .......... 12
2.2.1. Gii thiu v WEKA ................................................................... 12
2.2.2. Các chức năng chính ca WEKA ................................................ 13
2.2.3. Xây dng mô hình hi quy tuyến tính vi WEKA ...................... 13
CHƯƠNG 3. THC NGHIỆM VÀ ĐÁNH GIÁ KẾT QU .................. 16
3.1. Phát biu bài toán thc tế .................................................................. 16
3.2. Tiến hành xây dng mô hình ............................................................. 16
3.2.1. Thu thp d liu ........................................................................... 16
3.2.2. Tin x d liu ........................................................................ 17
3.2.3. La chn thuc tính ..................................................................... 19
3.2.4. Xây dựng và đánh giá mô hình .................................................... 20
3.3. Tính toán th nghiệm độ chính xác d báo ....................................... 22
CHƯƠNG 4. KT LUN ......................................................................... 24
TÀI LIU THAM KHO ........................................................................ 25
3
M ĐẦU
Ngày nay, d liệu được sinh ra tng phút, tng giây, khp mọi nơi
chúng th ch cho ta thy nhiu điều. Tuy nhiên, làm thế nào để d liu tr
nên ý nghĩa li tr thành mt vấn đề không nh đối vi nhng nhân, t
chc s hu nhng khi d liu này.
Phân tích d liu khoa hc khám phá d liu tnhm rút ra kết lun t
nhng d liu y. Phân tích d liệu được s dng trong nhiu ngành công
nghiệp để h tr các công ty, t chức để đưa ra quyết định kinh doanh tốt hơn
hoc trong các ngành khoa học để xác nhn hay bác b các hình, thuyết
hin có. Quá trình phân tích d liu bao gồm các bước kim tra, làm sch,
chuyển đổi hình hóa d liu vi mục đích tìm thông tin hu ích, cho
thy kết lun hoc h tr ra quyết định da trên b d liu hin có.
Vấn đề nghiên cu ng dng phân tích d liu vào các lĩnh vực rt ph
biến phát trin trên thế gii. Tuy nhiên, ti Vit Nam, vấn đề này còn chưa
được ng dng rng rãi, nhất là trong lĩnh vực kinh doanh thương mại. Trên cơ
s các nghiên cứu đã có, luận văn tập trung vào các mc tiêu và các vấn đề cn
gii quyết sau:
Mc tiêu và phm vi nghiên cu:
Luận văn tập trung nghiên cu v mô hình hi quy tuyến tính, phương pháp
s dng hình hi quy tuyến tính trong phân tích d liu, tìm hiu công c
h tr phân tích d liu Weka.
Mc tiêu chính ca lun n da trên công c Weka xây dựng được
hình hi quy tuyến tính d đoán giá của mt hàng máy nh xách tay trên th
trưng Vit Nam thông qua vic phân tích d liu bán hàng ca Công ty c
phần thương mại Nguyn Kim. T đó, h tr các doanh nghip, nhà phân phi
máy tính xách tay đưa giá bán cạnh tranh nht trên th trưng. Bên cạnh đó,
cũng giúp người tiêu dùng ước lượng chi phí để mua mt chiếc máy tính xách
tay phù hp vi nhu cu ca bn thân.
Phương pháp nghiên cứu:
Trong phm vi luận văn này, tôi đã s dng 03 phương pháp nghiên cứu
khoa hc để tiếp cn làm nhng vấn đề ca đề tài mình đã lựa chn.
Đó là các phương pháp nghiên cứu sau:
- Phương pháp phân tích tổng hp thuyết: Nghiên cu các tài liu
khác nhau v hình hi quy tuyến tính, phân tích d liu công c Weka;
phân tích để tìm hiu sâu sc đi vi mi vấn đề tng hợp để cái nhìn
tổng quan và đầy đủ v các vấn đề cn tìm hiu.
- Phương pháp thực nghim khoa hc: Ch động tiến hành thu thp, x
d liu bán máy tính xách tay; s dng công c Weka xây dng hình hi
quy tuyến tính để d báo giá.
4
- Phương pháp phân tích, tng kết kinh nghim: Nghiên cu, phân tích
đánh gcác nh đã xây dựng để từng bước xây dng hình phù hp
nht với độ tin cy, chính xác cao hơn.
B cc ca luận văn:
Luận văn được trình bày vi b cc gm 04 chương với nhng ni dung
chính như sau:
Chương 1 - Đặt vấn đề: Phát biu bài toán, la chn min ng dng và gii
thiệu các phương pháp và công cụ để gii quyết bài toán
Chương 2 - Mô hình hi quy tuyến tính và công c h tr Weka: Trình bày
sở thuyết ca mô hình hồi quy, đi vào c th vi hình hi quy tuyến
tính. Đồng thi, gii thiu v công c Weka, xây dng hình hi quy tuyến
tính vi s h tr ca Weka.
Chương 3 - Thc nghiệm đánh gkết qu: S dng công c Weka để
xây dng hình hi quy tuyến tính d báo giá bán máy tính xách tay ca
Công ty c phần thương mại Nguyn Kim. Tiến hành phân tích, xây dng mô
hình và đánh giá kết qu thu được.
Chương 4 - Kết lun: Trình bày kết qu đạt được ca luận văn đnh
hướng phát triển trong tương lai.
5
Chương 1
ĐẶT VẤN ĐỀ
1.1. Bài toán phân tích d liu
D liệu được to ra tng giây, từng phút trong đời sng hi hiện đại.
Chúng th d liu web, d liu t c cm biến, các tệp lưu nhật , d
liu nhân, d liu t các thiết b thông minh,… Từ khi d liu này
chúng ta th tìm kiếm, khai thác trích xut ra nhng thông tin hu ích.
Làm thế nào để có được nhng thông tin y là vấn đề được đt ra. Phân tích d
liu mt trong nhng chìa khóa giúp chúng ta gii quyết vấn đề nêu trên.
Vy phân tích d liu là gì?
Phân tích d liu mt trong nhng ng dng thc tin ca k thut khai
phá d liu. Phân tích d liu mt quá trình trích xut thông tin hu ích t
tp d liu được cung cp. Các bước cơ bản ca quá trình phân tích d liu bao
gm: Kiểm định, làm sch, chuyển đổi, hình hóa phân tích d liu
nhm mục đích tìm kiếm thông tin, cho thy kết lun, h tr đưa ra quyết định.
Trước khi máy tính, nhiều phương pháp phân tích cho tp d liu nh đã
phát trin tp trung phân tích tng biến riêng l. Ngày nay, khi kh năng
tính toán của máy nh đã phát triển vượt bc, phân tích d liệu đã phân tích
đồng thi quan h ca nhiu biến.
1.2. La chn min ng dng
Trong khuôn kh luận văn này, tác giả tp trung nghiên cu, ng dng phân
tích d liệu vào lĩnh vực kinh doanh. D liu bán ng của các công ty điện
máy khi d liệu đồ s với đa dạng các loi mt hàng ca nhiu nhà cung
cấp được bày bán vi mc giá th thay đổi theo thi gian từng chương
trình khuyến mãi khác nhau. Khi d liệu này được th hiện đầy đủ và đáng tin
cy trên website của các công ty điện máy th được thu thp mt cách
chính xác thông qua các công c sn có. Tác gi ly d liu bán hàng ca Công
ty c phn thương mại Nguyễn Kim điển hình. Phân tích d liu bán hàng
ca Công ty c phn thương mại Nguyễn Kim để h tr các công ty đin máy
d đoán và đưa ra giá bán cạnh tranh nht cho mt hàng máy tính xách tay trên
th trường Vit Nam.
1.3. Phương pháp và công cụ
1.3.1. La chọn phương pháp
Phân tích d liu khẳng định la chn không th b qua để h tr đưa ra
quyết định kinh doanh sáng sut. Mt mô hình d liệu được xây dng da trên
tp d liu lch s. Nhng thut toán học máy được s dụng để xây dng
hình d liu n giu trong tp d liu này. Sau khi mô hình d liệu được xác
nhận, nó được coi là tng quát hóa kiến thc và có th d đoán tương lai. Bng
cách này, các doanh nghip có th d đoán các nguy cơ tiềm ẩn trong tương lai
để hoạch định chiến lược kinh doanh phù hp.