intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Thống kê máy tính: Phân tích dữ liệu bằng công cụ trực quan - Lê Phong

Chia sẻ: Năm Tháng Tĩnh Lặng | Ngày: | Loại File: PDF | Số trang:27

154
lượt xem
13
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Trong bài giảng Thống kê máy tính này giới thiệu về phương pháp phân tích dữ liệu bằng công cụ trực quan trong một số trường hợp sau: Trường hợp dữ liệu một chiều, trường hợp dữ liệu 2 hoặc 3 chiều, trường hợp dữ liệu có > 3 chiều. Mời các bạn cùng tham khảo.

Chủ đề:
Lưu

Nội dung Text: Bài giảng Thống kê máy tính: Phân tích dữ liệu bằng công cụ trực quan - Lê Phong

  1. Phân tích dữ liệu bằng công cụ trực quan 1
  2. Dàn bài  Giới thiệu  Trường hợp dữ liệu một chiều  Trường hợp dữ liệu 2 hoặc 3 chiều  Trường hợp dữ liệu có > 3 chiều 2
  3. Giới thiệu  2 mục tiêu quan trọng của phân tích dữ liệu ◦ Xác định mô hình hợp lý của quá trình phát sinh dữ liệu ◦ Xác định dữ liệu nhiễu (outlier) trong tập mẫu  Trong phần này xem xét kỹ thuật sử dụng các công cụ trực quan 3
  4. Dàn bài  Giới thiệu  Trường hợp dữ liệu một chiều  Trường hợp dữ liệu 2 hoặc 3 chiều  Trường hợp dữ liệu có > 3 chiều 4
  5. Trường hợp dữ liệu một chiều  Các phương pháp ◦ Histogram ◦ Quantile plot ◦ Box plot 5
  6. Histogram  Chia trục x thành các ‘bin’ có độ rộng h như nhau bắt đầu từ x0 [x0,x0+h), [x0+h,x0+2h),…, [x0+n.h,x0+(n+1)h),…  Gọi vk là số điểm rơi vào bin thứ k, tức là [x0+(k-1)h,x0+k.h)  Gọi n là số lượng điểm trong tập dữ liệu 6
  7. Histogram (tt)  Frequency histogram: fˆ ( x) = vk , x ∈ [x0 + (k − 1)h, x0 + k .h)  Relative frequency histogram: ˆf ( x) = vk , x ∈ [x + (k − 1)h, x + k .h) 0 0 n  Density histogram ˆf ( x) = vk , x ∈ [x + (k − 1)h, x + k .h) 0 0 n.h 7
  8. Histogram (tt)  Ví dụ: histogramExample.m 8
  9. Quantile plot  Quantile qp của biến ngẫu nhiên x được xác định sao cho p = P{x < qp}  Ví dụ: cho x ~ U(a,b) ◦ q0 = a ◦ q0.5 = (a+b)/2 ◦ q1 = b 9
  10. Quantile plot (tt) 10
  11. Quantile plot (tt)  Tập dữ liệu được sắp xếp tăng dần x1 ≤ x2 ≤ … ≤ xn  Hàm phân phối thực nghiệm (empirical distribution function) được cho bởi 0 x < x1 j ˆ  Pn ( x) =  x j ≤ x < x j +1 n  1 x ≥ xn 11
  12. Quantile plot (tt)  Mục tiêu: kiểm định xem tập dữ liệu có phân phối P hay không.  Giả sử tập dữ liệu được sắp x1 ≤ x2 ≤ … ≤ xn  B1: sinh chuỗi n số  1 − 0.5  −1 −1  i − 0.5  −1  n − 0.5  P   ,..., P   ,..., P    n   n   n   B2: biểu diễn trên đồ thị, trục x là các xi, trục y là các giá trị số sinh được ở B1.  B3: nếu thấy gần tuyến tính  tập dữ liệu có phân phối P 12
  13. Quantile plot (tt)  Ví dụ: xem quantilePlotExample.m 13
  14. Box plot  Trong phương pháp này, 5 tham số được quan tâm ◦ 3 quantile q0.25, q0.5, q0.75, ◦ Giá trị min và max trong tập mẫu  Đặt IQR (interquartile range) là IQR = q0.75 - q0.25  2 giới hạn ◦ Low: LL = q0.25 – 1.5 IQR ◦ Up: UL = q0.75 + 1.5 IQR 14
  15. Box plot (tt)  Mọi điểm dữ liệu nằm ngoài [LL,UL] đều bị coi là outlier 15
  16. Box plot (tt)  Ví dụ: boxPlotExample.m
  17. Dàn bài  Giới thiệu  Trường hợp dữ liệu một chiều  Trường hợp dữ liệu 2 hoặc 3 chiều  Trường hợp dữ liệu có > 3 chiều 17
  18. Trường hợp dữ liệu 2 hoặc 3 chiều  Các phương pháp ◦ Scatter ◦ Bivariate Histogram 18
  19. Scatter  Trên hệ trục Cartesian vẽ các điểm tương ứng với từng điểm dữ liệu  Đây là phương pháp đơn giản nhất cho việc quan sát phân bố tập dữ liệu  Ví dụ: ◦ scatter2D.m ◦ scatter3D.m 19
  20. Bivariate Histogram  2 trục x(1) và x(2)  Chia trục x(i) thành các ‘bin’ có độ rộng h(i) như nhau bắt đầu từ x(i)0 [x(i)0, x(i)0 +h(i)), [x(i)0 +h(i), x(i)0 +2h(i)),…, [x(i)0 +n. h(i), x(i)0 +(n+1) h(i)),…  Gọi vl,k là số điểm rơi vào bin thứ l theo trục x(1) và thứ k theo trục x(2), tức là [x(1)0 +(l-1) h(1), x(1)0 +l. h(1)) x [x(2)0 +(k-1) h(2), x(2)0 +k. h(2)) 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2