intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Thống kê máy tính: Phân tích dữ liệu - Ước lượng mật độ phân bố xác suất - Lê Phong

Chia sẻ: Năm Tháng Tĩnh Lặng | Ngày: | Loại File: PDF | Số trang:34

113
lượt xem
6
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Trong bài giảng Thống kê máy tính này giới thiệu về phương pháp phân tích dữ liệu - Ước lượng mật độ phân bố xác suất. Bài giảng trình bày có các nội dung chính như: Phương pháp tham số hóa, phương pháp phi tham số hóa, so sánh 2 lớp phương pháp.

Chủ đề:
Lưu

Nội dung Text: Bài giảng Thống kê máy tính: Phân tích dữ liệu - Ước lượng mật độ phân bố xác suất - Lê Phong

  1. Phân tích dữ liệu - ước lượng mật độ phân bố xác suất Lê Phong
  2. Dàn bài  Giới thiệu  Phương pháp tham số hóa ◦ Ước lượng mô hình bằng các công cụ trực quan ◦ Ước lượng tham số của mô hình ◦ Finite Mixture  Phương pháp phi tham số hóa ◦ Ước lượng bằng Histogram ◦ Ước lượng bằng Kernel  So sánh 2 lớp phương pháp
  3. Giới thiệu  Trong thống kê, để khai thác được các tính chất của tập quần thể, người ta quan tâm đến phân bố xác suất ẩn trong quần thể đó.  Ước lượng hàm mật độ phân bố xác suất từ tập mẫu.  Có 2 phương pháp tiếp cận ◦ Tham số hóa ◦ Phi tham số hóa
  4. Giới thiệu (tt)  Mỗi phương pháp đều có ưu nhược điểm và được đánh giá trên ◦ Độ chính xác ◦ Bộ nhớ lưu trữ ◦ Tốc độ tính toán  Để đánh giá độ chính xác, người ta thường dùng 1 trong 3 độ đo tiêu chuẩn (càng nhỏ càng tốt) ◦ Mean squared error ◦ Mean integrated squared error ◦ Mean integrated absolute error
  5. Giới thiệu (tt)  Mean squared error tại một điểm x MSE[ fˆ ( x)] = E[( fˆ ( x) − f ( x)) 2 ]  Mean integrated squared error MISE[ fˆ ] = E  ∫ ( fˆ ( x) − f ( x)) 2 dx     Mean integrated absolute error MIAE[ fˆ ] = E  ∫ | fˆ ( x) − f ( x) | dx   
  6. Dàn bài  Giới thiệu  Phương pháp tham số hóa ◦ Ước lượng mô hình bằng các công cụ trực quan ◦ Ước lượng tham số của mô hình ◦ Finite Mixture  Phương pháp phi tham số hóa ◦ Ước lượng bằng Histogram ◦ Ước lượng bằng Kernel  So sánh 2 lớp phương pháp
  7. Phương pháp tham số hóa  Ý tưởng của các phương pháp này gồm 2 bước ◦ B1: xác định mô hình phân bố xác suất theo những phân bố quen thuộc (normal, uniform, beta,…) ◦ B2: ước lượng tham số để mô hình trở nên “tốt nhất” đối với tập mẫu
  8. Phương pháp tham số hóa (tt)  Bước 1 có thể thực hiện dựa trên các phương pháp phân tích trực quan như ◦ Histogram ◦ Quantile-based  (xem lại slide Phân tích dữ liệu bằng các phương pháp trực quan)  Ví dụ: ◦ univariateHistogram.m ◦ quantilePlot.m
  9. Phương pháp tham số hóa (tt)  Bước 2: việc ước lượng tham số có thể được thực thi bằng một số phương pháp ◦ Maximum Likelihood ◦ Phương pháp moment  (xem lại slide Phân tích dữ liệu _ các đặc trưng và ước lượng tham số)
  10. Finite Mixture  Ý tưởng: ước lượng mật độ xác suất bằng tổng các mật độ xác suất thành phần có trọng số. c p (x) = ∑ wi pi (x | θi ) i =1  Trong đó ◦ pi là các mật độ thành phần ◦ wi là trọng số tương ứng ◦ θi là tham số của pi ◦ c là số lượng thành phần, c
  11. Finite Mixture (tt)  Ví dụ: p ( x) = 0.3 N ( x; −3,1) + 0.3 N ( x;0,1) + 0.4 N ( x; 2, 0.5)
  12. Finite Mixture (tt)  Có 3 vấn đề ◦ Xác định mô hình pi ◦ Xác định số lượng mật độ thành phần c ◦ Ước lượng từng tham số θi và trọng số wi  Thông thường, pi được chọn là mật độ xác suất chuẩn
  13. Finite Mixture (tt)  Ước lượng c: dựa trên sự phân bố dữ liệu trong không gian đặc trưng  Ví dụ: c = ???
  14. Finite Mixture (tt)  Ước lượng tham số θi và trọng số wi : phương pháp EM
  15. Dàn bài  Giới thiệu  Phương pháp tham số hóa ◦ Ước lượng mô hình bằng các công cụ trực quan ◦ Ước lượng tham số của mô hình ◦ Finite Mixture  Phương pháp phi tham số hóa ◦ Ước lượng bằng Histogram ◦ Ước lượng bằng Kernel  So sánh 2 lớp phương pháp
  16. Phương pháp phi tham số  Lớp phương pháp này không cần phải xác định trước mô hình phân bố.  Xem xét 2 phương pháp ◦ Histogram ◦ Kernel
  17. Phương pháp Histogram  Ý tưởng chính: ◦ dùng tập mẫu để xây dựng density histogram ◦ dùng histogram này là ước lượng cho mật độ xác suất ẩn của tập quần thể  Density histogram vk fˆ (x) = , x ∈ bin(k ) n.h1...hd  Trong đó ◦ không gian đặc trưng được chia thành các bin có kích thước bằng nhau ◦ d là số chiều, hi là độ rộng chiều thứ i của mỗi bin ◦ vk là số điểm rơi vào bin thứ k
  18. Phương pháp Histogram (tt)  Ảnh hưởng của hi: phân phối chuẩn
  19. Phương pháp Histogram (tt)  Cần phải tìm hi sao cho tối thiểu hóa error  Chứng minh được là
  20. Phương pháp Histogram (tt)  Nếu mỗi chiều đặc trưng thứ i có phân phối chuẩn với phương sai σi2 thì  Ví dụ: bivariateHistogram.m
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2