
Khai Phá Dữ Liệu
Nguyễn Nhật Quang
quangnn-fit@mail.hut.edu.vn
Viện Công nghệ Thông tin và Truyền thông
Trường Đại học Bách Khoa Hà Nội
Năm học 2010-2011

Nội dung môn học:
Giới thiệu về Khai phá dữ liệu
ề
Giới thiệu v
ề
công cụ WEKA
Tiền xử lý dữ liệu
Phát hiện các luật kết hợp
Các kỹthuật phân lớpvàdự đoán
Các
kỹ
thuật
phân
lớp
và
dự
đoán
Các kỹ thuật phân nhóm
2
Khai Phá Dữ Liệu

W
EKA
–
Giớ
i
thiệu
WEKA là một công cụphầnmềmviết
bằng
Java
phục
vụ
lĩnh
vực
học
máy
bằng
Java
,
phục
vụ
lĩnh
vực
học
máy
và khai phá dữliệu
Các tính năn
g
chính
g
•Một tập các công cụtiềnxửlý dữliệu, các
giảithuậthọc máy, khai phá dữliệu, và các
p
hươn
g
p
há
p
thí n
g
hi
ệ
mđánh
g
iá
p g
pp
gệ
g
•Giao diệnđồ họa(gồmcảtính năng hiểnthị
hóa dữliệu)
•
Môi
trường
cho
phép
so
sánh
các
giải
thuật
•
Môi
trường
cho
phép
so
sánh
các
giải
thuật
học máy và khai phá dữliệu
•Có thểtảivềtừđịachỉ:
http://www.cs.waikato.ac.nz/ml/weka/
3
Khai Phá Dữ Liệu

WEKA
–
Các môi trườn
g
chính
g
Simple CLI
Giao diệnđơngiảnkiểdòng lệnh (nh MS
DOS)
Giao
diện
đơn
giản
kiể
u
dòng
lệnh
(nh
ư
MS
-
DOS)
Explorer (chúng ta sẽ chủ yếu sử dụng môi trường này!)
Môi trường cho phép sửdụng tấtcảcác khảnăng của WEKA để
Môi
trường
cho
phép
sử
dụng
tất
cả
các
khả
năng
của
WEKA
để
khám phá dữ liệu
Experimenter
Môi trường cho phép tiến hành các thí nghiệm và thực hiện các
kiểm tra thống kê (statistical tests) giữa các mô hình học máy
KldFl
K
now
l
e
d
ge
Fl
ow
Môi trường cho phép bạn tương tác đồ họa kiểu kéo/thả để thiết
kế các bước (các thành phần) của một thí nghiệm
4
Khai Phá Dữ Liệu

WEKA
–
Môi trườn
g
Ex
p
lorer
gp
5
Khai Phá Dữ Liệu

