
Khai Phá Dữ Liệu
Nguyễn Nhật Quang
quangnn-fit@mail.hut.edu.vn
Viện Công nghệ Thông tin và Truyền thông
Trường Đại học Bách Khoa Hà Nội
Năm học 2010-2011

Nội dung môn học:
Giới thiệu về Khai phá dữ liệu
ề
Giới thiệu v
ề
công cụ WEK
A
Tiền xử lý dữ liệu
Phát hiện các luật kết hợp
Các kỹthuật phân lớpvàdự đoán
Các
kỹ
thuật
phân
lớp
và
dự
đoán
Các kỹ thuật phân nhóm
Phân nhóm dựatrênchiacắt(k
-
Means)
Phân
nhóm
dựa
trên
chia
cắt
(k
-
Means)
Phân nhóm dựa trên tích tụ phân cấp (HAC)
2
Khai Phá Dữ Liệu

H
ọ
c có vs. khôn
g
có
g
iám sát
ọgg
Học có giám sát (Supervised learning)
Tậpdữliệu (dataset) bao gồmcácvídụmà mỗivídụđược
gắn
Tập
dữ
liệu
(dataset)
bao
gồm
các
ví
dụ
,
mà
mỗi
ví
dụ
được
gắn
kèm với một nhãn lớp/giá trị đầu ra mong muốn
Mục đích là học (xấp xỉ) một giả thiết (vd: một phân lớp, một hàm
mục tiêu ) phù hợpvớitậpdữliệuhiệncó
mục
tiêu
,...
)
phù
hợp
với
tập
dữ
liệu
hiện
có
Giả thiết học được (learned hypothesis) sau đó sẽ được dùng để
phân lớp/dự đoán đối với các ví dụ mới
Học không có giám sát (Unsupervised learning)
Tập dữ liệu (dataset) bao gồm các ví dụ, mà mỗi ví dụ không có
thông tin vềnhãn lớp/giá trịđầu ra mong muốn
thông
tin
về
nhãn
lớp/giá
trị
đầu
ra
mong
muốn
Mục đích là tìm ra (học) các nhóm/các cấu trúc/các quan hệ tồn tại
trong tập dữ liệu hiện có
3
Khai Phá Dữ Liệu

Phân nhóm
Phân nhóm/cụm (Clustering) là phương pháp học không
có giám sát đượcsửdụng phổbiếnnhất
có
giám
sát
được
sử
dụng
phổ
biến
nhất
Tồn tại các phương pháp học không có giám sát khác, ví dụ: Lọc
cộng tác (Collaborative filtering), Khai phá luật kết hợp
(Association rule mining)
(Association
rule
mining)
, ...
Học phân nhóm
Đầu vào: mộttậpdữliệu không có nhãn (các ví dụkhông có nhãn
Đầu
vào:
một
tập
dữ
liệu
không
có
nhãn
(các
ví
dụ
không
có
nhãn
lớp/giá trị đầu ra mong muốn)
Đầu ra: các nhóm (cụm) của các ví dụ
Một nhóm (cluster) là một tập các ví dụ
Tương tự với nhau (theo một ý nghĩa, đánh giá nào đó)
Khác biệtvớicácvídụthuộc các nhóm khác
Khác
biệt
với
các
ví
dụ
thuộc
các
nhóm
khác
4
Khai Phá Dữ Liệu

Phân nhóm – Ví d
ụ
ụ
Mộtvídụvềphân nhóm – trong đó, các ví dụ
đ
hâ
hi
thà h
3
hó
đ
ượcp
hâ
nc
hi
a
thà
n
h
3
n
hó
m
[Liu, 2006]
5
Khai Phá Dữ Liệu