Phân tíích dch dữữ liliệệu bu bằằng ng Phân t công cụụ trtrựực quan c quan công c

1

Dàn bài

(cid:1) Giới thiệu

(cid:1) Trường hợp dữ liệu một chiều

(cid:1) Trường hợp dữ liệu 2 hoặc 3 chiều

2

(cid:1) Trường hợp dữ liệu có > 3 chiều

Giới thiệu

◦ Xác định mô hình hợp lý của quá trình phát sinh dữ

liệu

◦ Xác định dữ liệu nhiễu (outlier) trong tập mẫu

(cid:1) 2 mục tiêu quan trọng của phân tích dữ liệu

công cụ trực quan

3

(cid:1) Trong phần này xem xét kỹ thuật sử dụng các

Dàn bài

(cid:1) Giới thiệu

(cid:1) Trường hợp dữ liệu một chiều

(cid:1) Trường hợp dữ liệu 2 hoặc 3 chiều

4

(cid:1) Trường hợp dữ liệu có > 3 chiều

Trường hợp dữ liệu một chiều

◦ Histogram

◦ Quantile plot

◦ Box plot

5

(cid:1) Các phương pháp

Histogram

nhau bắt đầu từ x0

[x0,x0+h), [x0+h,x0+2h),…, [x0+n.h,x0+(n+1)h),…

(cid:1) Chia trục x thành các ‘bin’ có độ rộng h như

[x0+(k-1)h,x0+k.h)

(cid:1) Gọi vk là số điểm rơi vào bin thứ k, tức là

6

(cid:1) Gọi n là số lượng điểm trong tập dữ liệu

Histogram (tt)

=

+

,

(

1) ,

ˆ ( ) f x

x

k

. ) k h

∈ + [ x 0

h x 0

v k

(cid:1) Frequency histogram:

=

+

(

1) ,

,

ˆ ( ) f x

x

k

. ) k h

∈ + [ x 0

h x 0

kv n

(cid:1) Relative frequency histogram:

=

+

(

1) ,

,

ˆ ( ) f x

x

k

. ) k h

∈ + [ x 0

h x 0

kv . n h

7

(cid:1) Density histogram

Histogram (tt)

8

(cid:1) Ví dụ: histogramExample.m

Quantile plot

định sao cho

p = P{x < qp}

(cid:1) Quantile qp của biến ngẫu nhiên x được xác

◦ q0 = a ◦ q0.5 = (a+b)/2 ◦ q1 = b

9

(cid:1) Ví dụ: cho x ~ U(a,b)

Quantile plot (tt)

10

Quantile plot (tt)

x1

≤ x2

≤ … ≤ xn

(cid:1) Tập dữ liệu được sắp xếp tăng dần

distribution function) được cho bởi

<

0

x

x 1

≤ < x

x

x

+ 1

ˆ ( ) P x n

j

j

j n 1

x

x n

  =   

11

(cid:1) Hàm phân phối thực nghiệm (empirical

Quantile plot (tt)

phối P hay không.

(cid:1) Mục tiêu: kiểm định xem tập dữ liệu có phân

≤ x2

≤ … ≤ xn

n

i

− 1

1

1

,...,

,...,

P

P

P

(cid:1) Giả sử tập dữ liệu được sắp x1

  

  

  

  

− 1 0.5 n

0.5 n

0.5 n

   (cid:1) B2: biểu diễn trên đồ thị, trục x là các xi, trục y

là các giá trị số sinh được ở B1.

(cid:1) B1: sinh chuỗi n số   

phân phối P

12

(cid:1) B3: nếu thấy gần tuyến tính (cid:1) tập dữ liệu có

Quantile plot (tt)

13

(cid:1) Ví dụ: xem quantilePlotExample.m

Box plot

tâm ◦ 3 quantile q0.25, q0.5, q0.75, ◦ Giá trị min và max trong tập mẫu

(cid:1) Trong phương pháp này, 5 tham số được quan

IQR = q0.75 - q0.25

(cid:1) Đặt IQR (interquartile range) là

◦ Low: LL = q0.25 – 1.5 IQR ◦ Up: UL = q0.75 + 1.5 IQR

14

(cid:1) 2 giới hạn

Box plot (tt)

là outlier

15

(cid:1) Mọi điểm dữ liệu nằm ngoài [LL,UL] đều bị coi

Box plot (tt)

(cid:1) Ví dụ: boxPlotExample.m

Dàn bài

(cid:1) Giới thiệu

(cid:1) Trường hợp dữ liệu một chiều

(cid:1) Trường hợp dữ liệu 2 hoặc 3 chiều

17

(cid:1) Trường hợp dữ liệu có > 3 chiều

Trường hợp dữ liệu 2 hoặc 3 chiều

◦ Scatter

◦ Bivariate Histogram

18

(cid:1) Các phương pháp

Scatter

với từng điểm dữ liệu

(cid:1) Trên hệ trục Cartesian vẽ các điểm tương ứng

quan sát phân bố tập dữ liệu

(cid:1) Đây là phương pháp đơn giản nhất cho việc

◦ scatter2D.m

◦ scatter3D.m

19

(cid:1) Ví dụ:

Bivariate Histogram

(cid:1) 2 trục x(1) và x(2)

[x(i)

nhau bắt đầu từ x(i) 0 0 +h(i), x(i)

0 +2h(i)),…, [x(i)

0 +n. h(i),

0 +h(i)), [x(i) 0, x(i) 0 +(n+1) h(i)),… x(i)

(cid:1) Chia trục x(i) thành các ‘bin’ có độ rộng h(i) như

và thứ k theo trục x(2), tức là

[x(1)

0 +(l-1) h(1), x(1)

0 +l. h(1)) x [x(2)

0 +(k-1) h(2), x(2) 0

+k. h(2))

20

(cid:1) Gọi vl,k là số điểm rơi vào bin thứ l theo trục x(1)

Bivariate histogram (tt)

=

,

(cid:1) Density histogram

ˆ ( ) x f

(2)

(1)

(1)

(1)

(1)

(2)

(2)

(2)

(1)

x

+

×

+

+

1)

,

)

(

1)

,

)

[ x

l kv , (1) . n h h + − ( l

h

x

. l h

[ x

k

h

x

. k h

0

0

0

0

21

(cid:1) Ví dụ: bivariateHistogramExample.m

Dàn bài

(cid:1) Giới thiệu

(cid:1) Trường hợp dữ liệu một chiều

(cid:1) Trường hợp dữ liệu 2 hoặc 3 chiều

22

(cid:1) Trường hợp dữ liệu có > 3 chiều

Trường hợp dữ liệu > 3 chiều

◦ Scatter plot matrix

◦ Parallel coordinates

23

(cid:1) Các phương pháp

Scatter plot matrix

chiều

(cid:1) Áp dụng scatter 2D cho từng cặp đặc trưng 1

plot.

(cid:1) Nếu tập dữ liệu có d chiều thì sẽ có d*d scatter

24

(cid:1) Ví dụ: scatterPlotMatrix.m

Parallel coordinates

(cid:1) Cách thể hiện dữ liệu 2, 3 chiều trong hệ trục Cartesian: các trục vuông góc từng đôi một (cid:1) tối đa 3D

nhau

25

(cid:1) Parallel Coordinates: các chiều song song với

Parallel Coordinates (tt)

x4

x3

x2

x1

26

Parallel coordinates (tt)

•Ví dụ: parallelCoordinates.m

27