intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Phân tích số liệu thống kê

Chia sẻ: Abcdef_15 Abcdef_15 | Ngày: | Loại File: PDF | Số trang:40

228
lượt xem
52
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Phân tích dữ liệu mang tính khám phá. Dữ liệu nên được xem xét, khám phá trước khi đặt ra bất kỳ giả thuyết nào về mô hình xác suất, mối quan hệ giữa các biến,...Đặc trưng phụ thuộc nhiều vào các kỹ thuật biểu diễn đồ thị. Quần thể: là nhóm đối tượng cần tổng quát hóa.

Chủ đề:
Lưu

Nội dung Text: Phân tích số liệu thống kê

  1. 1 Phân tích số liệu thống kê Đặng Hải Vân – Lê Phong – Nguyễn Đình Thúc Khoa CNTT – ĐHKHTN {dhvan,lphong,ndthuc}@fit.hcmus.edu.vn
  2. Nội dung • Phân tích dữ liệu mang tính khám phá (EDA)  EDA  Lấy mẫu • Lấy mẫu  Khái niệm  Lấy mẫu ▫ Khái niệm  Lấy mẫu xác suất ▫ Lấy mẫu  Xử lý mẫu  Thống kê mô ▫ Lấy mẫu xác suất tả  Khái niệm ▫ Xử lý mẫu  Các giá trị • Thống kê mô tả thống kê mô tả ▫ Khái niệm  Các kỹ thuật biểu ▫ Các giá trị thống kê mô tả diễn đồ thị  Histogr ▫ Các kỹ thuật biểu diễn đồ thị am  Boxplo  Histogram t  Quantil  Boxplot e-based plot  Quantile-based plot  Scatter  plot Scatter plot HCMUS 2010 - Thống kê máy tính 2
  3. Phân tích dữ liệu mang tính khám phá  EDA • Phân tích dữ liệu mang tính khám phá  Lấy mẫu  Khái niệm (EDA – Exploratory Data Analysis) [John  Lấy mẫu  Lấy mẫu Tukey, 1977] xác suất  Xử lý mẫu ▫ Dữ liệu nên được xem xét, khám phá trước  Thống kê mô tả khi đặt ra bất kỳ giả thuyết nào về mô hình  Khái niệm  Các giá trị xác suất, mối quan hệ giữa các biến,< thống kê mô tả ▫ Hướng tiếp cận:  Các kỹ thuật biểu diễn đồ thị Phân Mô Kết  Histogr Vấn đề Dữ liệu tích hình luận am  Boxplo t ▫ Đặc trưng: phụ thuộc nhiều vào các kỹ  Quantil e-based thuật biểu diễn đồ thị (graphical plot  Scatter techniques) plot HCMUS 2010 - Thống kê máy tính 3
  4. Khái niệm  EDA • Quần thể: là nhóm đối tượng cần tổng  Lấy mẫu  Khái niệm quát hóa  Lấy mẫu  Lấy mẫu • Mẫu: là nhóm đối tượng thực sự được xác suất  Xử lý mẫu chọn trong nghiên cứu.  Thống kê mô tả • Cơ cấu mẫu: là danh sách các phần tử của  Khái niệm  Các giá trị thống kê quần thể có thể. mô tả  Các kỹ • Thống kê (statistic): là hàm của các quan thuật biểu diễn đồ thị sát trong tập mẫu  Histogr am  Boxplo Ví dụ: trung bình mẫu, phương sai mẫu là t  Quantil các thống kê e-based plot  Scatter plot HCMUS 2010 - Thống kê máy tính 4
  5. Lấy mẫu • Lấy mẫu: là một tiến trình chọn các mẫu cho  EDA  Lấy mẫu mục đích tổng quát hóa.  Khái niệm ▫ Lấy mẫu xác suất (probability sampling)  Lấy mẫu  Lấy mẫu  Thủ tục chọn ngẫu nhiên . Xác suất các phần tử xác suất  Xử lý mẫu được chọn bằng nhau.  Thống kê mô  Mẫu chọn được gọi là mẫu ngẫu nhiên tả ▫ Lấy mẫu không xác suất (non-probability  Khái niệm  Các giá trị sampling) thống kê mô tả  Các kỹ Ví dụ: UBND quận 5 thực hiện khảo sát lấy ý kiến của nhân dân quận 5 về tình thuật biểu hình trị an hiện tại của quận. diễn đồ thị  Histogr Cách khảo sát 1: tất cả hộ gia đình của quận đều có cơ hội được chọn và am hỏi qua điện thoại. Xác suất 1 hộ gia đình được hỏi là xác định được.  Boxplo – Lấy mẫu xác suất t Cách khảo sát 2: Bảng câu hỏi được gửi đến các cư dân trong quận dựa  Quantil vào 1 mailing list đã có sẵn. Ngoài ra các bảng câu hỏi được đặt ở các e-based plot nơi công cộng. Theo cách này, không xác định được 1 cá nhân có thể  Scatter trả lời bao nhiêu lần. Xác suất 1 cá nhân được hỏi là không xác định plot được. – Lấy mẫu không xác suất HCMUS 2010 - Thống kê máy tính 5
  6. Lấy mẫu xác suất • Lấy mẫu ngẫu nhiên đơn giản (simple random  EDA  Lấy mẫu sampling)  Khái niệm ▫ Chọn n từ cơ cấu mẫu N phần tử sao cho NCn phần tử có  Lấy mẫu cơ hội chọn ngang nhau  Lấy mẫu ▫ Kỹ thuật chọn xác suất  Xử lý mẫu  Bảng ngẫu nhiên với tỷ lệ mẫu: f = n/N  Thống kê mô Phát sinh số mầm s  mẫu: nhãn là s+i.n với i=0,1,
  7. Ví dụ lấy mẫu ngẫu nhiên đơn giản  EDA Cần khảo sát các khách hàng của công ty, biết  Lấy mẫu danh sách khách hàng gồm N=1000. Ta lấy  Khái niệm  Lấy mẫu mẫu gồm 100 khách hàng để thực hiện khảo  Lấy mẫu xác suất sát (n=100)  Xử lý mẫu  Thống kê mô a) Số mầm phát sinh s = 5. Xác định mẫu. tả  Khái niệm b) Dùng R để phát sinh mẫu theo phương  Các giá trị pháp số ngẫu nhiên. thống kê mô tả  Các kỹ thuật biểu Trả lời: diễn đồ thị  Histogr a) f=100/1000 = 0,1. Mẫu là danh sách các phần tử ở các vị trí: am 5,5+1.100, 5+2.100,…,5+9.100 hay 5, 105, 205,…,905  Boxplo t b) > N n sample(1:N,n,replace=FALSE)  Scatter plot HCMUS 2010 - Thống kê máy tính 7
  8. Ví dụ lấy mẫu ngẫu nhiên phân tầng  EDA • Cần khảo sát ý kiến của SV các khoa toán  Lấy mẫu  Khái niệm (gồm 200sv), cntt (gồm 500sv), lý (gồm  Lấy mẫu  Lấy mẫu 300sv), ta chọn một tập mẫu gồm n=100 sv. xác suất  Xử lý mẫu Phân chia thành các nhóm thuần nhất: sv  Thống kê mô tả khoa toán (n1=20), sv khoa cntt (n2=50), sv  Khái niệm  Các giá trị khoa lý (n3=30) (f1=f2=f3=0,1) thống kê mô tả  Các kỹ Lấy mẫu ngẫu nhiên đơn giản cho từng thuật biểu diễn đồ thị nhóm.  Histogr am  Boxplo t  Quantil e-based plot  Scatter plot HCMUS 2010 - Thống kê máy tính 8
  9. Bài tập lấy mẫu ngẫu nhiên đơn giản với R  EDA sample(x, size, replace = FALSE, prob = NULL)  Lấy mẫu replace = TRUE: lấy mẫu có lặp lại  Khái niệm replace=FALSE: lấy mẫu không lặp lại  Lấy mẫu  Lấy mẫu xác suất BT1: Dùng R chọn ngẫu nhiên 5 số từ 1 đến 40  Xử lý mẫu  Thống kê mô tả BT2: Dùng R giả lập thí nghiệm tung đồng xu 10 lần  Khái niệm  Các giá trị thống kê BT3: Dùng R giả lập thí nghiệm tung đồng xu 10 lần, mô tả biết khả năng tung mặt ngửa là 90%, mặt sấp là 10%  Các kỹ thuật biểu diễn đồ thị  Histogr Trả lời: am BT2: sample(c(“H”,”T”),10,replace=TRUE)  Boxplo Lưu ý: t Dữ liệu vector: là một mảng  Quantil Khởi tạo vector: e-based plot 1) Bằng cách nối kết: c(phần tử 1, phần tử 2,…). Vd: c(“H”,”T”): tạo vector 2 phần  Scatter tử plot 2) 1:10: tạo mảng từ 1 đến 10 HCMUS 2010 - Thống kê máy tính 9
  10. Xử lý mẫu  EDA • Khái niệm Giá trị bất thường (giá trị ngoại  Lấy mẫu  Khái niệm lệ): là giá trị có sự sai lệch quá rõ ràng so  Lấy mẫu  Lấy mẫu với các giá trị khác. xác suất  Xử lý mẫu ▫ Phát hiện mẫu bất thường  Thống kê mô tả ▫ Xử lý mẫu bất thường  Khái niệm  Các giá trị thống kê mô tả  Các kỹ thuật biểu diễn đồ thị  Histogr am  Boxplo t  Quantil e-based plot  Scatter plot HCMUS 2010 - Thống kê máy tính 10
  11. Khái niệm thống kê mô tả  EDA • Khái niệm Thống kê mô tả: là phương  Lấy mẫu  Khái niệm pháp thống kê toán được dùng để mô tả  Lấy mẫu  Lấy mẫu các đặc trưng cơ bản của dữ liệu, cung cấp xác suất  Xử lý mẫu tóm tắt cô đọng về mẫu và các thước đo.  Thống kê mô tả  Khái niệm  Các giá trị thống kê mô tả  Các kỹ thuật biểu diễn đồ thị  Histogr am  Boxplo t  Quantil e-based plot  Scatter plot HCMUS 2010 - Thống kê máy tính 11
  12. Các thống kê mô tả  EDA Biến ngẫu nhiên X, tập mẫu gồm n phần tử  Lấy mẫu  Khái niệm {xi}, i=1,
  13. Các thống kê mô tả (tt)  EDA • Trị SKEW: diễn tả tính bất đối xứng của  Lấy mẫu  Khái niệm phân phối dữ liệu quanh trị trung bình:  Lấy mẫu  Lấy mẫu skew0 (lệch phải), xác suất  Xử lý mẫu skew=0 (đối xứng) 1  Thống kê mô n  x    tả 3 3 i  Khái niệm n 1   1  i 1 2 / 2  Các giá trị 3/ 2 3 1  n   xi     2 thống kê  n i 1  mô tả  Các kỹ • Tri KURT: diễn tả độ phẳng của đỉnh phân thuật biểu diễn đồ thị phối dữ liệu: kurt3 (nhọn),  Histogr am kurt=3 (vừa phải, hình chuông)  Boxplo t 1n  xi    4  Quantil 4 e-based n i 1 2   plot 2  1 2 2 2 n   xi      Scatter plot  n i 1  HCMUS 2010 - Thống kê máy tính 13
  14. Các thống kê mô tả (tt) • Trung vị (median): là điểm nằm chính giữa  EDA  Lấy mẫu n mod 2  1  x ( n 1)/2 dãy dữ liệu. median    Khái niệm ( x  x ) / 2 n mod 2  0 n /21 n /2  Lấy mẫu • Yếu vị (mode): là giá trị có tần số xuất hiện  Lấy mẫu xác suất cao nhất trong tập dữ liệu.  Xử lý mẫu  Thống kê mô • Độ phân tán: biểu diễn sự phân tán các giá trị tả  Khái niệm quanh tâm dữ liệu  Các giá trị ▫ Khoảng quan sát (range): range = Max – Min thống kê mô tả ▫ Độ lệch chuẩn  Các kỹ thuật biểu • Phân vị (quantile): phân vị qp là giá trị q nhỏ diễn đồ thị  Histogr nhất sao cho phân phối tích lũy của nó lớn am  Boxplo hơn hoặc bằng p, với 0
  15. Ví dụ tính giá trị thống kê  EDA • Cho tập mẫu X={1,3,2,4,6,2,2,5,6}  Lấy mẫu  Khái niệm • Tính  Lấy mẫu  Lấy mẫu 1  3  2  4  6  2  2  5  6 31 1n ▫ Trung bình mẫu  xi     3,44 xác suất n i 1 9 9  Xử lý mẫu ▫ Phương sai mẫu  Thống kê mô tả 1 1  3,44  3  3,44  2  3,44  4  3,44  6  3,44  2  3,44  2  3,44  5  3,44  6  3,44  Khái niệm 2 2 2 2 2 2 2 2 2 2    3,14  Các giá trị 9 9 1 1  3,44  3  3,44  2  3,44  4  3,44  6  3,44  2  3,44  2  3,44  5  3,44  6  3,44 thống kê 2 2 2 2 2 2 2 2 2 S2    3,53 mô tả 9 1 9  Các kỹ ▫ Trị skew thuật biểu diễn đồ thị 1 1  3,44  3  3,44  2  3,44  4  3,44  6  3,44  2  3,44  2  3,44  5  3,44  6  3,44 3 3 3 3 3 3 3 3 3  Histogr 3    1,551 9 9 am  1,551  Boxplo  2   2  3,14  skew  33/ 2   0,279 2 3,143 / 2 t ▫ Trị kurt  Quantil e-based 1 1  3,44  3  3,44  2  3,44  4  3,44  6  3,44  2  3,44  2  3,44  5  3,44  6  3,44 4 4 4 4 4 4 4 4 4 plot 4    1,551 9 9  Scatter  15,59 plot  2   2  3,14  kurt  4   1,58  22 3,142 HCMUS 2010 - Thống kê máy tính 15
  16. Ví dụ tính giá trị thống kê mẫu với R  EDA > x library(moments)  Khái niệm > mean(x)  Lấy mẫu  Lấy mẫu [1] 3.444444 xác suất > var(x)  Xử lý mẫu  Thống kê mô [1] 3.527778 tả > quantile(x,0.25)  Khái niệm  Các giá trị 25% thống kê 2 mô tả  Các kỹ > quantile(x) thuật biểu diễn đồ thị 0% 25% 50% 75% 100%  Histogr 12356 am  Boxplo > kurtosis(x) t [1] 1.582584  Quantil e-based > skewness(x) plot  Scatter [1] 0.2717328 plot HCMUS 2010 - Thống kê máy tính 16
  17. Các kỹ thuật biểu diễn bằng đồ thị  EDA • Dữ liệu một chiều (univariate data)  Lấy mẫu  Khái niệm ▫ Histogram  Lấy mẫu  Lấy mẫu ▫ Boxplot xác suất  Xử lý mẫu ▫ Quantile-based plot  Thống kê mô tả ▫ Stem and leaf  Khái niệm  Các giá trị • Dữ liệu hai hoặc ba chiều thống kê mô tả  Các kỹ ▫ Scatter plot thuật biểu diễn đồ thị ▫ Surface plot  Histogr am ▫ Contour plot  Boxplo t ▫  Quantil Bivariate histogram e-based plot • Dữ liệu nhiều chiều: scatter plot matrix,<  Scatter plot HCMUS 2010 - Thống kê máy tính 17
  18. Khái niệm histogram theo tần số • Khái niệm Histogram theo tần số (frequency  EDA  Lấy mẫu histogram):  Khái niệm ▫ Trục ngang: miền dữ liệu được chia thành các bin  Lấy mẫu  Lấy mẫu (khoảng giá trị). Các giá trị thuộc bin nào thì sẽ xác suất được đếm cho bin đó. Cách phân chia các bin: tùy ý  Xử lý mẫu theo người dùng hoặc theo một hệ thống luật [Scott  Thống kê mô tả 1992]  Khái niệm ▫ Trục dọc: tần số của từng bin (số lượng dữ liệu  Các giá trị thuộc từng bin) thống kê mô tả ▫ y(x) = vk với x thuộc Bk  Các kỹ thuật biểu với y(x): giá trị trên trục dọc ứng với x ; vk: số lượng diễn đồ thị dữ liệu thuộc bin thứ k; Bk: bin thứ k  Histogr am  Boxplo t  Quantil e-based plot  Scatter plot HCMUS 2010 - Thống kê máy tính 18
  19. Khái niệm các histogram biến thể  EDA • Histogram tần số tương đối (Relative  Lấy mẫu  Khái niệm frequency histogram):  Lấy mẫu  Lấy mẫu ▫ y(x) = vk /n với x thuộc Bk xác suất  Xử lý mẫu với n là tổng số dữ liệu  Thống kê mô tả  Khái niệm  Các giá trị • Histogram theo mật độ (Density thống kê mô tả  Các kỹ histogram): thuật biểu diễn đồ thị y(x) = vk /(nh) với x thuộc Bk  Histogr am với h là độ rộng của bin  Boxplo t  Quantil Đặc điểm: tổng diện tích các cột bằng 1. e-based plot Ví dụ: Vẽ histogram bằng ngôn ngữ R:  Scatter plot HCMUS 2010 - Thống kê máy tính 19
  20. Xây dựng histogram  EDA • Cho tập dữ liệu X = {1,1,1,2,2,3,4,5,7}  Lấy mẫu  Khái niệm Giả sử cần xây dựng histogram với 4 bin:  Lấy mẫu  Lấy mẫu {1,2} (bin 1), {3,4} (bin 2), {5,6} bin 3, {7,8} xác suất  Xử lý mẫu bin 4. Hãy xây dựng histogram tần số và  Thống kê mô tả histogram theo mật độ.  Khái niệm  Các giá trị thống kê Sử dụng R để xây dựng histogram. So khớp mô tả  Các kỹ kết quả. thuật biểu diễn đồ thị  Histogr am  Boxplo t  Quantil e-based plot  Scatter plot HCMUS 2010 - Thống kê máy tính 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2