Trang chủ » Công Nghệ Thông Tin » Kỹ thuật phần mềm

55 trang

345 lượt xem

Khai Phá Dữ Liệu-Các kỹ thuật phân lớp và dự đoán

Đối với một tập các ví dụ/bản ghi ( instances/records) – gọi là tậộ ập ụ g ) gọ ập huấn luyện/học (training/learning set). Mỗi bản ghi được biểu diễn bằng một tập các thuộc tính, trong đó có một thuộc tính phân lớp (class attribute). Tìm/học một hàm cho thuộc tính phân lớp (hàm phân lớp) đối với các giá trị của các thuộc tính khác.

Chủ đề:

phuonggm

Trực quan hóa dữ liệu

Khai Phá Dữ Liệu

Nguyễn Nhật Quang

quangnn-fit@mail.hut.edu.vn

Viện Công nghệ Thông tin và Truyền thông

Trường Đại học Bách Khoa Hà Nội

Năm học 2010-2011

Nội dung môn học:

Giới thiệu về Khai phá dữ liệu

ề

Giới thiệu v

ề

công cụ WEK

Tiền xử lý dữ liệu

Phát hiện các luật kết hợp



Các kỹthuật phân lớpvàdự đoán



Các

kỹ

thuật

phân

lớp

và

dự

đoán

Phân lớp bằng phương pháp học Bayes

Học cây quyết định

Các kỹ thuật phân nhóm

Khai Phá Dữ Liệu

Bài toán phân lớp

Bài toán phân lớp (Classification)



ối với m

ộ

t t

ập

các ví d

ụ

/bản

(

instances/records

)

–

gọ

i là t

ập

ộ ậpụg( )

gọ

ập

huấn luyện/học (training/learning set)

Mỗi bản ghi được biểu diễn bằng một tập các thuộc tính, trong

đó có m

ộ

t thu

ộ

c tính

hân lớ

(

class attribute

)

ộ ộ pp( )

Tìm/học một hàm cho thuộc tính phân lớp (hàm phân lớp) đối

với các giá trị của các thuộc tính khác

Sử dụng một tập các ví dụ khác với các ví dụ học để

kiểm tra độ chính xác của hàm phân lớp học được – gọi

là

tậpkiểmthử(test set)

là

tập

kiểm

thử

(test

set)

Thông thường, tập dữ liệu ban đầu được chia thành 2 tập (không

giao nhau): training set (để học hàm phân lớp) và test set (để

kiểmthửhàm phân lớphọcđược)

kiểm

thử

hàm

phân

lớp

học

được)

Khai Phá Dữ Liệu

Phân lớp vs. Dựđoán

Bài toán phân lớp (Classification problem)

Hộthà tiê ó iá t ị ời(di t

ldt t



ọc m

ột

hà

m mục

tiê

u c

iá

ị

ời

rạc

(

scre

e-va

arge

function)

Miền giá trị: một tập các nhãn lớp (class labels) xác địn trước

Với mỗi ví dụ cần phân loại, hệ thống xác định nhãn lớp của nó

Bài toán d

ự

đoán/hồi

(

Prediction/re

ression

roblem

)

ựqy( g p )

Học một hàm mục tiêu có giá trị liên tục (a continuous-valued

target function)

Miềiá t ịtậáiátị ố th (l b)



Miề

n g

iá

ị

tậ

p c

c g

iá

ị

ố

ực

(

rea

num

ers

)

Với mỗi ví dụ cần dự đoán, hệ thống xác định giá trị dự đoán của

nó

Khai Phá Dữ Liệu

Học có vs. không có giám sát

Học có giám sát (supervised learning)



Mỗi

ví

dụ

học

gồm

phần

mô

tả

(

biểu

diễn

)

của

ví

dụ

học

và



Mỗi

ví

dụ

học

gồm

phần

mô

tả

(

biểu

diễn

)

của

ví

dụ

học

và

nhãn lớp(hoặcgiátrịđầu ra mong muốn) củavídụhọcđó

Bài toán họcphân lớp (classification problem)

Dtrain

={(<

Biểudiễncủax

Nhãn lớpcủax

>)}

train

{(<

Biểu

diễn

của

Nhãn

lớp

của

>)}

Bài toán họcdựđoán/hồi quy (prediction/regression problem)

D_train = {(<Biểu_diễn_của_x>, <Giá_trị_đầu_ra_của_x>)}

Học không có giám sát (unsupervised learning)

Mỗivídụhọcchỉchứamôtả(biểudiễn) củavídụhọcđó- mà

không

có

bất

kỳ

thông

tin

nào

về

nhãn

lớp

hay

giá

trị

đầu

mong

không

có

bất

kỳ

thông

tin

nào

về

nhãn

lớp

hay

giá

trị

đầu

mong

muốncủavídụhọcđó

Bài toán họcphân cụm (Clustering problem)

Tập

học

Dtrain

={(<

Biểudiễncủax

>)}

Tập

học

train

{(<

Biểu

diễn

của

>)}

Khai Phá Dữ Liệu

Khai Phá Dữ Liệu-Các kỹ thuật phân lớp và dự đoán

Chủ đề:

Tài liệu liên quan

Tài liêu mới

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi