
Khai Phá Dữ Liệu
Nguyễn Nhật Quang
quangnn-fit@mail.hut.edu.vn
Viện Công nghệ Thông tin và Truyền thông
Trường Đại học Bách Khoa Hà Nội
Năm học 2010-2011

Nội dung môn học:
Giới thiệu về Khai phá dữ liệu
ề
Giới thiệu v
ề
công cụ WEK
A
Tiền xử lý dữ liệu
Phát hiện các luật kết hợp
Các kỹthuật phân lớpvàdự đoán
Các
kỹ
thuật
phân
lớp
và
dự
đoán
Phân lớp bằng phương pháp học Bayes
Học cây quyết định
Các kỹ thuật phân nhóm
2
Khai Phá Dữ Liệu

Bài toán phân lớp
Bài toán phân lớp (Classification)
Đ
ối với m
ộ
t t
ập
các ví d
ụ
/bản
g
hi
(
instances/records
)
–
gọ
i là t
ập
ộ ậpụg( )
gọ
ập
huấn luyện/học (training/learning set)
Mỗi bản ghi được biểu diễn bằng một tập các thuộc tính, trong
đó có m
ộ
t thu
ộ
c tính
p
hân lớ
p
(
class attribute
)
ộ ộ pp( )
Tìm/học một hàm cho thuộc tính phân lớp (hàm phân lớp) đối
với các giá trị của các thuộc tính khác
Sử dụng một tập các ví dụ khác với các ví dụ học để
kiểm tra độ chính xác của hàm phân lớp học được – gọi
là
tậpkiểmthử(test set)
là
tập
kiểm
thử
(test
set)
Thông thường, tập dữ liệu ban đầu được chia thành 2 tập (không
giao nhau): training set (để học hàm phân lớp) và test set (để
kiểmthửhàm phân lớphọcđược)
kiểm
thử
hàm
phân
lớp
học
được)
3
Khai Phá Dữ Liệu

Phân lớp vs. Dựđoán
Bài toán phân lớp (Classification problem)
Hộthà tiê ó iá t ị ời(di t
ldt t
H
ọc m
ột
hà
m mục
tiê
u c
ó
g
iá
t
r
ị
r
ời
rạc
(
a
di
scre
t
e-va
l
ue
d
t
arge
t
function)
Miền giá trị: một tập các nhãn lớp (class labels) xác địn trước
Với mỗi ví dụ cần phân loại, hệ thống xác định nhãn lớp của nó
Bài toán d
ự
đoán/hồi
q
u
y
(
Prediction/re
g
ression
p
roblem
)
ựqy( g p )
Học một hàm mục tiêu có giá trị liên tục (a continuous-valued
target function)
Miềiá t ịtậáiátị ố th (l b)
Miề
n g
iá
t
r
ị
:
tậ
p c
á
c g
iá
t
r
ị
s
ố
th
ực
(
rea
l
num
b
ers
)
Với mỗi ví dụ cần dự đoán, hệ thống xác định giá trị dự đoán của
nó
4
Khai Phá Dữ Liệu

Học có vs. không có giám sát
Học có giám sát (supervised learning)
Mỗi
ví
dụ
học
gồm
2
phần
:
mô
tả
(
biểu
diễn
)
của
ví
dụ
học
và
Mỗi
ví
dụ
học
gồm
2
phần
:
mô
tả
(
biểu
diễn
)
của
ví
dụ
học
,
và
nhãn lớp(hoặcgiátrịđầu ra mong muốn) củavídụhọcđó
Bài toán họcphân lớp (classification problem)
Dtrain
={(<
Biểudiễncủax
><
Nhãn lớpcủax
>)}
D
_
train
=
{(<
Biểu
_
diễn
_
của
_
x
>
,
<
Nhãn
_
lớp
_
của
_
x
>)}
Bài toán họcdựđoán/hồi quy (prediction/regression problem)
D_train = {(<Biểu_diễn_của_x>, <Giá_trị_đầu_ra_của_x>)}
Học không có giám sát (unsupervised learning)
Mỗivídụhọcchỉchứamôtả(biểudiễn) củavídụhọcđó- mà
không
có
bất
kỳ
thông
tin
nào
về
nhãn
lớp
hay
giá
trị
đầu
ra
mong
không
có
bất
kỳ
thông
tin
nào
về
nhãn
lớp
hay
giá
trị
đầu
ra
mong
muốncủavídụhọcđó
Bài toán họcphân cụm (Clustering problem)
Tập
học
Dtrain
={(<
Biểudiễncủax
>)}
Tập
học
D
_
train
=
{(<
Biểu
_
diễn
_
của
_
x
>)}
5
Khai Phá Dữ Liệu