Phân tíích dch dữữ liliệệu bu bằằng ng Phân t công cụụ trtrựực quan c quan công c
1
Dàn bài
(cid:1) Giới thiệu
(cid:1) Trường hợp dữ liệu một chiều
(cid:1) Trường hợp dữ liệu 2 hoặc 3 chiều
2
(cid:1) Trường hợp dữ liệu có > 3 chiều
Giới thiệu
◦ Xác định mô hình hợp lý của quá trình phát sinh dữ
liệu
◦ Xác định dữ liệu nhiễu (outlier) trong tập mẫu
(cid:1) 2 mục tiêu quan trọng của phân tích dữ liệu
công cụ trực quan
3
(cid:1) Trong phần này xem xét kỹ thuật sử dụng các
Dàn bài
(cid:1) Giới thiệu
(cid:1) Trường hợp dữ liệu một chiều
(cid:1) Trường hợp dữ liệu 2 hoặc 3 chiều
4
(cid:1) Trường hợp dữ liệu có > 3 chiều
Trường hợp dữ liệu một chiều
◦ Histogram
◦ Quantile plot
◦ Box plot
5
(cid:1) Các phương pháp
Histogram
nhau bắt đầu từ x0
[x0,x0+h), [x0+h,x0+2h),…, [x0+n.h,x0+(n+1)h),…
(cid:1) Chia trục x thành các ‘bin’ có độ rộng h như
[x0+(k-1)h,x0+k.h)
(cid:1) Gọi vk là số điểm rơi vào bin thứ k, tức là
6
(cid:1) Gọi n là số lượng điểm trong tập dữ liệu
Histogram (tt)
=
−
+
,
(
1) ,
ˆ ( ) f x
x
k
. ) k h
∈ + [ x 0
h x 0
v k
(cid:1) Frequency histogram:
=
−
+
(
1) ,
,
ˆ ( ) f x
x
k
. ) k h
∈ + [ x 0
h x 0
kv n
(cid:1) Relative frequency histogram:
=
−
+
(
1) ,
,
ˆ ( ) f x
x
k
. ) k h
∈ + [ x 0
h x 0
kv . n h
7
(cid:1) Density histogram
Histogram (tt)
8
(cid:1) Ví dụ: histogramExample.m
Quantile plot
định sao cho
p = P{x < qp}
(cid:1) Quantile qp của biến ngẫu nhiên x được xác
◦ q0 = a ◦ q0.5 = (a+b)/2 ◦ q1 = b
9
(cid:1) Ví dụ: cho x ~ U(a,b)
Quantile plot (tt)
10
Quantile plot (tt)
x1
≤ x2
≤ … ≤ xn
(cid:1) Tập dữ liệu được sắp xếp tăng dần
distribution function) được cho bởi
<
0
x
x 1
≤ < x
x
x
+ 1
ˆ ( ) P x n
j
j
≥
j n 1
x
x n
=
11
(cid:1) Hàm phân phối thực nghiệm (empirical
Quantile plot (tt)
phối P hay không.
(cid:1) Mục tiêu: kiểm định xem tập dữ liệu có phân
≤ x2
≤ … ≤ xn
−
−
−
−
n
i
− 1
1
1
,...,
,...,
P
P
P
(cid:1) Giả sử tập dữ liệu được sắp x1
− 1 0.5 n
0.5 n
0.5 n
(cid:1) B2: biểu diễn trên đồ thị, trục x là các xi, trục y
là các giá trị số sinh được ở B1.
(cid:1) B1: sinh chuỗi n số
phân phối P
12
(cid:1) B3: nếu thấy gần tuyến tính (cid:1) tập dữ liệu có
Quantile plot (tt)
13
(cid:1) Ví dụ: xem quantilePlotExample.m
Box plot
tâm ◦ 3 quantile q0.25, q0.5, q0.75, ◦ Giá trị min và max trong tập mẫu
(cid:1) Trong phương pháp này, 5 tham số được quan
IQR = q0.75 - q0.25
(cid:1) Đặt IQR (interquartile range) là
◦ Low: LL = q0.25 – 1.5 IQR ◦ Up: UL = q0.75 + 1.5 IQR
14
(cid:1) 2 giới hạn
Box plot (tt)
là outlier
15
(cid:1) Mọi điểm dữ liệu nằm ngoài [LL,UL] đều bị coi
Box plot (tt)
(cid:1) Ví dụ: boxPlotExample.m
Dàn bài
(cid:1) Giới thiệu
(cid:1) Trường hợp dữ liệu một chiều
(cid:1) Trường hợp dữ liệu 2 hoặc 3 chiều
17
(cid:1) Trường hợp dữ liệu có > 3 chiều
Trường hợp dữ liệu 2 hoặc 3 chiều
◦ Scatter
◦ Bivariate Histogram
18
(cid:1) Các phương pháp
Scatter
với từng điểm dữ liệu
(cid:1) Trên hệ trục Cartesian vẽ các điểm tương ứng
quan sát phân bố tập dữ liệu
(cid:1) Đây là phương pháp đơn giản nhất cho việc
◦ scatter2D.m
◦ scatter3D.m
19
(cid:1) Ví dụ:
Bivariate Histogram
(cid:1) 2 trục x(1) và x(2)
[x(i)
nhau bắt đầu từ x(i) 0 0 +h(i), x(i)
0 +2h(i)),…, [x(i)
0 +n. h(i),
0 +h(i)), [x(i) 0, x(i) 0 +(n+1) h(i)),… x(i)
(cid:1) Chia trục x(i) thành các ‘bin’ có độ rộng h(i) như
và thứ k theo trục x(2), tức là
[x(1)
0 +(l-1) h(1), x(1)
0 +l. h(1)) x [x(2)
0 +(k-1) h(2), x(2) 0
+k. h(2))
20
(cid:1) Gọi vl,k là số điểm rơi vào bin thứ l theo trục x(1)
Bivariate histogram (tt)
=
,
(cid:1) Density histogram
ˆ ( ) x f
(2)
(1)
(1)
(1)
(1)
(2)
(2)
(2)
(1)
x
∈
+
×
+
−
+
1)
,
)
(
1)
,
)
[ x
l kv , (1) . n h h + − ( l
h
x
. l h
[ x
k
h
x
. k h
0
0
0
0
21
(cid:1) Ví dụ: bivariateHistogramExample.m
Dàn bài
(cid:1) Giới thiệu
(cid:1) Trường hợp dữ liệu một chiều
(cid:1) Trường hợp dữ liệu 2 hoặc 3 chiều
22
(cid:1) Trường hợp dữ liệu có > 3 chiều
Trường hợp dữ liệu > 3 chiều
◦ Scatter plot matrix
◦ Parallel coordinates
23
(cid:1) Các phương pháp
Scatter plot matrix
chiều
(cid:1) Áp dụng scatter 2D cho từng cặp đặc trưng 1
plot.
(cid:1) Nếu tập dữ liệu có d chiều thì sẽ có d*d scatter
24
(cid:1) Ví dụ: scatterPlotMatrix.m
Parallel coordinates
(cid:1) Cách thể hiện dữ liệu 2, 3 chiều trong hệ trục Cartesian: các trục vuông góc từng đôi một (cid:1) tối đa 3D
nhau
25
(cid:1) Parallel Coordinates: các chiều song song với
Parallel Coordinates (tt)
x4
x3
x2
x1
26
Parallel coordinates (tt)
•Ví dụ: parallelCoordinates.m
27