Vui lòng download xuống để xem tài liệu đầy đủ.

Phân tích số liệu thống kê

Chia sẻ: Abcdef_15 Abcdef_15 | Ngày: | Loại File: pdf | 40 trang

0
82
lượt xem
33
download

Phân tích dữ liệu mang tính khám phá. Dữ liệu nên được xem xét, khám phá trước khi đặt ra bất kỳ giả thuyết nào về mô hình xác suất, mối quan hệ giữa các biến,...Đặc trưng phụ thuộc nhiều vào các kỹ thuật biểu diễn đồ thị. Quần thể: là nhóm đối tượng cần tổng quát hóa.

Phân tích số liệu thống kê
Nội dung Text

  1. 1 Phân tích số liệu thống kê Đặng Hải Vân – Lê Phong – Nguyễn Đình Thúc Khoa CNTT – ĐHKHTN {dhvan,lphong,ndthuc}@fit.hcmus.edu.vn
  2. Nội dung • Phân tích dữ liệu mang tính khám phá (EDA)  EDA  Lấy mẫu • Lấy mẫu  Khái niệm  Lấy mẫu ▫ Khái niệm  Lấy mẫu xác suất ▫ Lấy mẫu  Xử lý mẫu  Thống kê mô ▫ Lấy mẫu xác suất tả  Khái niệm ▫ Xử lý mẫu  Các giá trị • Thống kê mô tả thống kê mô tả ▫ Khái niệm  Các kỹ thuật biểu ▫ Các giá trị thống kê mô tả diễn đồ thị  Histogr ▫ Các kỹ thuật biểu diễn đồ thị am  Boxplo  Histogram t  Quantil  Boxplot e-based plot  Quantile-based plot  Scatter  plot Scatter plot HCMUS 2010 - Thống kê máy tính 2
  3. Phân tích dữ liệu mang tính khám phá  EDA • Phân tích dữ liệu mang tính khám phá  Lấy mẫu  Khái niệm (EDA – Exploratory Data Analysis) [John  Lấy mẫu  Lấy mẫu Tukey, 1977] xác suất  Xử lý mẫu ▫ Dữ liệu nên được xem xét, khám phá trước  Thống kê mô tả khi đặt ra bất kỳ giả thuyết nào về mô hình  Khái niệm  Các giá trị xác suất, mối quan hệ giữa các biến,< thống kê mô tả ▫ Hướng tiếp cận:  Các kỹ thuật biểu diễn đồ thị Phân Mô Kết  Histogr Vấn đề Dữ liệu tích hình luận am  Boxplo t ▫ Đặc trưng: phụ thuộc nhiều vào các kỹ  Quantil e-based thuật biểu diễn đồ thị (graphical plot  Scatter techniques) plot HCMUS 2010 - Thống kê máy tính 3
  4. Khái niệm  EDA • Quần thể: là nhóm đối tượng cần tổng  Lấy mẫu  Khái niệm quát hóa  Lấy mẫu  Lấy mẫu • Mẫu: là nhóm đối tượng thực sự được xác suất  Xử lý mẫu chọn trong nghiên cứu.  Thống kê mô tả • Cơ cấu mẫu: là danh sách các phần tử của  Khái niệm  Các giá trị thống kê quần thể có thể. mô tả  Các kỹ • Thống kê (statistic): là hàm của các quan thuật biểu diễn đồ thị sát trong tập mẫu  Histogr am  Boxplo Ví dụ: trung bình mẫu, phương sai mẫu là t  Quantil các thống kê e-based plot  Scatter plot HCMUS 2010 - Thống kê máy tính 4
  5. Lấy mẫu • Lấy mẫu: là một tiến trình chọn các mẫu cho  EDA  Lấy mẫu mục đích tổng quát hóa.  Khái niệm ▫ Lấy mẫu xác suất (probability sampling)  Lấy mẫu  Lấy mẫu  Thủ tục chọn ngẫu nhiên . Xác suất các phần tử xác suất  Xử lý mẫu được chọn bằng nhau.  Thống kê mô  Mẫu chọn được gọi là mẫu ngẫu nhiên tả ▫ Lấy mẫu không xác suất (non-probability  Khái niệm  Các giá trị sampling) thống kê mô tả  Các kỹ Ví dụ: UBND quận 5 thực hiện khảo sát lấy ý kiến của nhân dân quận 5 về tình thuật biểu hình trị an hiện tại của quận. diễn đồ thị  Histogr Cách khảo sát 1: tất cả hộ gia đình của quận đều có cơ hội được chọn và am hỏi qua điện thoại. Xác suất 1 hộ gia đình được hỏi là xác định được.  Boxplo – Lấy mẫu xác suất t Cách khảo sát 2: Bảng câu hỏi được gửi đến các cư dân trong quận dựa  Quantil vào 1 mailing list đã có sẵn. Ngoài ra các bảng câu hỏi được đặt ở các e-based plot nơi công cộng. Theo cách này, không xác định được 1 cá nhân có thể  Scatter trả lời bao nhiêu lần. Xác suất 1 cá nhân được hỏi là không xác định plot được. – Lấy mẫu không xác suất HCMUS 2010 - Thống kê máy tính 5
  6. Lấy mẫu xác suất • Lấy mẫu ngẫu nhiên đơn giản (simple random  EDA  Lấy mẫu sampling)  Khái niệm ▫ Chọn n từ cơ cấu mẫu N phần tử sao cho NCn phần tử có  Lấy mẫu cơ hội chọn ngang nhau  Lấy mẫu ▫ Kỹ thuật chọn xác suất  Xử lý mẫu  Bảng ngẫu nhiên với tỷ lệ mẫu: f = n/N  Thống kê mô Phát sinh số mầm s  mẫu: nhãn là s+i.n với i=0,1,<,1/f-1 tả  Khái niệm  Số ngẫu nhiên  Các giá trị Phát sinh số ngẫu nhiên  mẫu: nhãn trùng với số ngẫu thống kê nhiên mô tả • Lấy mẫu ngẫu nhiên phân tầng (stratified random  Các kỹ thuật biểu sampling) diễn đồ thị ▫ Nhóm thuần nhất (stratum, strata)  Histogr am ▫ Lấy mẫu ngẫu nhiên đơn giản trong từng nhóm  Boxplo ▫ Tỷ lệ mẫu cho từng nhóm f1,f2,< t  Quantil • Lấy mẫu ngẫu nhiên theo cụm (cluster sampling), lấy e-based mẫu ngẫu nhiên một cách hệ thống (systematic plot  Scatter random sampling) [Levy & Lemeshow, 1999] plot HCMUS 2010 - Thống kê máy tính 6
  7. Ví dụ lấy mẫu ngẫu nhiên đơn giản  EDA Cần khảo sát các khách hàng của công ty, biết  Lấy mẫu danh sách khách hàng gồm N=1000. Ta lấy  Khái niệm  Lấy mẫu mẫu gồm 100 khách hàng để thực hiện khảo  Lấy mẫu xác suất sát (n=100)  Xử lý mẫu  Thống kê mô a) Số mầm phát sinh s = 5. Xác định mẫu. tả  Khái niệm b) Dùng R để phát sinh mẫu theo phương  Các giá trị pháp số ngẫu nhiên. thống kê mô tả  Các kỹ thuật biểu Trả lời: diễn đồ thị  Histogr a) f=100/1000 = 0,1. Mẫu là danh sách các phần tử ở các vị trí: am 5,5+1.100, 5+2.100,…,5+9.100 hay 5, 105, 205,…,905  Boxplo t b) > N<-1000  Quantil e-based > n<-100 plot > sample(1:N,n,replace=FALSE)  Scatter plot HCMUS 2010 - Thống kê máy tính 7
  8. Ví dụ lấy mẫu ngẫu nhiên phân tầng  EDA • Cần khảo sát ý kiến của SV các khoa toán  Lấy mẫu  Khái niệm (gồm 200sv), cntt (gồm 500sv), lý (gồm  Lấy mẫu  Lấy mẫu 300sv), ta chọn một tập mẫu gồm n=100 sv. xác suất  Xử lý mẫu Phân chia thành các nhóm thuần nhất: sv  Thống kê mô tả khoa toán (n1=20), sv khoa cntt (n2=50), sv  Khái niệm  Các giá trị khoa lý (n3=30) (f1=f2=f3=0,1) thống kê mô tả  Các kỹ Lấy mẫu ngẫu nhiên đơn giản cho từng thuật biểu diễn đồ thị nhóm.  Histogr am  Boxplo t  Quantil e-based plot  Scatter plot HCMUS 2010 - Thống kê máy tính 8
  9. Bài tập lấy mẫu ngẫu nhiên đơn giản với R  EDA sample(x, size, replace = FALSE, prob = NULL)  Lấy mẫu replace = TRUE: lấy mẫu có lặp lại  Khái niệm replace=FALSE: lấy mẫu không lặp lại  Lấy mẫu  Lấy mẫu xác suất BT1: Dùng R chọn ngẫu nhiên 5 số từ 1 đến 40  Xử lý mẫu  Thống kê mô tả BT2: Dùng R giả lập thí nghiệm tung đồng xu 10 lần  Khái niệm  Các giá trị thống kê BT3: Dùng R giả lập thí nghiệm tung đồng xu 10 lần, mô tả biết khả năng tung mặt ngửa là 90%, mặt sấp là 10%  Các kỹ thuật biểu diễn đồ thị  Histogr Trả lời: am BT2: sample(c(“H”,”T”),10,replace=TRUE)  Boxplo Lưu ý: t Dữ liệu vector: là một mảng  Quantil Khởi tạo vector: e-based plot 1) Bằng cách nối kết: c(phần tử 1, phần tử 2,…). Vd: c(“H”,”T”): tạo vector 2 phần  Scatter tử plot 2) 1:10: tạo mảng từ 1 đến 10 HCMUS 2010 - Thống kê máy tính 9
  10. Xử lý mẫu  EDA • Khái niệm Giá trị bất thường (giá trị ngoại  Lấy mẫu  Khái niệm lệ): là giá trị có sự sai lệch quá rõ ràng so  Lấy mẫu  Lấy mẫu với các giá trị khác. xác suất  Xử lý mẫu ▫ Phát hiện mẫu bất thường  Thống kê mô tả ▫ Xử lý mẫu bất thường  Khái niệm  Các giá trị thống kê mô tả  Các kỹ thuật biểu diễn đồ thị  Histogr am  Boxplo t  Quantil e-based plot  Scatter plot HCMUS 2010 - Thống kê máy tính 10
  11. Khái niệm thống kê mô tả  EDA • Khái niệm Thống kê mô tả: là phương  Lấy mẫu  Khái niệm pháp thống kê toán được dùng để mô tả  Lấy mẫu  Lấy mẫu các đặc trưng cơ bản của dữ liệu, cung cấp xác suất  Xử lý mẫu tóm tắt cô đọng về mẫu và các thước đo.  Thống kê mô tả  Khái niệm  Các giá trị thống kê mô tả  Các kỹ thuật biểu diễn đồ thị  Histogr am  Boxplo t  Quantil e-based plot  Scatter plot HCMUS 2010 - Thống kê máy tính 11
  12. Các thống kê mô tả  EDA Biến ngẫu nhiên X, tập mẫu gồm n phần tử  Lấy mẫu  Khái niệm {xi}, i=1,<,n  Lấy mẫu  Lấy mẫu   E X      x • Moment thứ r của mẫu: n 1 ' r ' r xác suất r r i n i 1  Xử lý mẫu   E  X         x    n 1 Moment trung tâm: r r  Thống kê mô r r i n i 1 tả  Khái niệm  Các giá trị thống kê • Trung bình mẫu (sample mean, sample mô tả  Các kỹ expected value): mô tả khuynh hướng của thuật biểu diễn đồ thị n   EX    x f x  hay  xf ( x)dx     x 1 tâm dữ liệu  Histogr i i i n i 1 am  Boxplo t  Quantil • Phương sai mẫu (sample variance) e-based plot    Scatter 1n n  2  var( X )  E  X   2   xi   2 f xi  hay  x   2 f x dx   2  xi   2 hay S2  1  xi   2  plot n  1 i 1 n i 1 HCMUS 2010 - Thống kê máy tính 12
  13. Các thống kê mô tả (tt)  EDA • Trị SKEW: diễn tả tính bất đối xứng của  Lấy mẫu  Khái niệm phân phối dữ liệu quanh trị trung bình:  Lấy mẫu  Lấy mẫu skew<0 (lệch trái), skew>0 (lệch phải), xác suất  Xử lý mẫu skew=0 (đối xứng) 1  Thống kê mô n  x    tả 3 3 i  Khái niệm n 1   1  i 1 2 / 2  Các giá trị 3/ 2 3 1  n   xi     2 thống kê  n i 1  mô tả  Các kỹ • Tri KURT: diễn tả độ phẳng của đỉnh phân thuật biểu diễn đồ thị phối dữ liệu: kurt<3 (bằng), kurt>3 (nhọn),  Histogr am kurt=3 (vừa phải, hình chuông)  Boxplo t 1n  xi    4  Quantil 4 e-based n i 1 2   plot 2  1 2 2 2 n   xi      Scatter plot  n i 1  HCMUS 2010 - Thống kê máy tính 13
  14. Các thống kê mô tả (tt) • Trung vị (median): là điểm nằm chính giữa  EDA  Lấy mẫu n mod 2  1  x ( n 1)/2 dãy dữ liệu. median    Khái niệm ( x  x ) / 2 n mod 2  0 n /21 n /2  Lấy mẫu • Yếu vị (mode): là giá trị có tần số xuất hiện  Lấy mẫu xác suất cao nhất trong tập dữ liệu.  Xử lý mẫu  Thống kê mô • Độ phân tán: biểu diễn sự phân tán các giá trị tả  Khái niệm quanh tâm dữ liệu  Các giá trị ▫ Khoảng quan sát (range): range = Max – Min thống kê mô tả ▫ Độ lệch chuẩn  Các kỹ thuật biểu • Phân vị (quantile): phân vị qp là giá trị q nhỏ diễn đồ thị  Histogr nhất sao cho phân phối tích lũy của nó lớn am  Boxplo hơn hoặc bằng p, với 0<p<1 t  Quantil   F q p   P X  q p  p hay q p  F 1  p  e-based plot Ví dụ: q0,25 ,q0,5 ,q0,75 : các phần tư vị (quartile)  Scatter plot HCMUS 2010 - Thống kê máy tính 14
  15. Ví dụ tính giá trị thống kê  EDA • Cho tập mẫu X={1,3,2,4,6,2,2,5,6}  Lấy mẫu  Khái niệm • Tính  Lấy mẫu  Lấy mẫu 1  3  2  4  6  2  2  5  6 31 1n ▫ Trung bình mẫu  xi     3,44 xác suất n i 1 9 9  Xử lý mẫu ▫ Phương sai mẫu  Thống kê mô tả 1 1  3,44  3  3,44  2  3,44  4  3,44  6  3,44  2  3,44  2  3,44  5  3,44  6  3,44  Khái niệm 2 2 2 2 2 2 2 2 2 2    3,14  Các giá trị 9 9 1 1  3,44  3  3,44  2  3,44  4  3,44  6  3,44  2  3,44  2  3,44  5  3,44  6  3,44 thống kê 2 2 2 2 2 2 2 2 2 S2    3,53 mô tả 9 1 9  Các kỹ ▫ Trị skew thuật biểu diễn đồ thị 1 1  3,44  3  3,44  2  3,44  4  3,44  6  3,44  2  3,44  2  3,44  5  3,44  6  3,44 3 3 3 3 3 3 3 3 3  Histogr 3    1,551 9 9 am  1,551  Boxplo  2   2  3,14  skew  33/ 2   0,279 2 3,143 / 2 t ▫ Trị kurt  Quantil e-based 1 1  3,44  3  3,44  2  3,44  4  3,44  6  3,44  2  3,44  2  3,44  5  3,44  6  3,44 4 4 4 4 4 4 4 4 4 plot 4    1,551 9 9  Scatter  15,59 plot  2   2  3,14  kurt  4   1,58  22 3,142 HCMUS 2010 - Thống kê máy tính 15
  16. Ví dụ tính giá trị thống kê mẫu với R  EDA > x<-c(1,3,2,4,6,2,2,5,6)  Lấy mẫu > library(moments)  Khái niệm > mean(x)  Lấy mẫu  Lấy mẫu [1] 3.444444 xác suất > var(x)  Xử lý mẫu  Thống kê mô [1] 3.527778 tả > quantile(x,0.25)  Khái niệm  Các giá trị 25% thống kê 2 mô tả  Các kỹ > quantile(x) thuật biểu diễn đồ thị 0% 25% 50% 75% 100%  Histogr 12356 am  Boxplo > kurtosis(x) t [1] 1.582584  Quantil e-based > skewness(x) plot  Scatter [1] 0.2717328 plot HCMUS 2010 - Thống kê máy tính 16
  17. Các kỹ thuật biểu diễn bằng đồ thị  EDA • Dữ liệu một chiều (univariate data)  Lấy mẫu  Khái niệm ▫ Histogram  Lấy mẫu  Lấy mẫu ▫ Boxplot xác suất  Xử lý mẫu ▫ Quantile-based plot  Thống kê mô tả ▫ Stem and leaf  Khái niệm  Các giá trị • Dữ liệu hai hoặc ba chiều thống kê mô tả  Các kỹ ▫ Scatter plot thuật biểu diễn đồ thị ▫ Surface plot  Histogr am ▫ Contour plot  Boxplo t ▫  Quantil Bivariate histogram e-based plot • Dữ liệu nhiều chiều: scatter plot matrix,<  Scatter plot HCMUS 2010 - Thống kê máy tính 17
  18. Khái niệm histogram theo tần số • Khái niệm Histogram theo tần số (frequency  EDA  Lấy mẫu histogram):  Khái niệm ▫ Trục ngang: miền dữ liệu được chia thành các bin  Lấy mẫu  Lấy mẫu (khoảng giá trị). Các giá trị thuộc bin nào thì sẽ xác suất được đếm cho bin đó. Cách phân chia các bin: tùy ý  Xử lý mẫu theo người dùng hoặc theo một hệ thống luật [Scott  Thống kê mô tả 1992]  Khái niệm ▫ Trục dọc: tần số của từng bin (số lượng dữ liệu  Các giá trị thuộc từng bin) thống kê mô tả ▫ y(x) = vk với x thuộc Bk  Các kỹ thuật biểu với y(x): giá trị trên trục dọc ứng với x ; vk: số lượng diễn đồ thị dữ liệu thuộc bin thứ k; Bk: bin thứ k  Histogr am  Boxplo t  Quantil e-based plot  Scatter plot HCMUS 2010 - Thống kê máy tính 18
  19. Khái niệm các histogram biến thể  EDA • Histogram tần số tương đối (Relative  Lấy mẫu  Khái niệm frequency histogram):  Lấy mẫu  Lấy mẫu ▫ y(x) = vk /n với x thuộc Bk xác suất  Xử lý mẫu với n là tổng số dữ liệu  Thống kê mô tả  Khái niệm  Các giá trị • Histogram theo mật độ (Density thống kê mô tả  Các kỹ histogram): thuật biểu diễn đồ thị y(x) = vk /(nh) với x thuộc Bk  Histogr am với h là độ rộng của bin  Boxplo t  Quantil Đặc điểm: tổng diện tích các cột bằng 1. e-based plot Ví dụ: Vẽ histogram bằng ngôn ngữ R:  Scatter plot HCMUS 2010 - Thống kê máy tính 19
  20. Xây dựng histogram  EDA • Cho tập dữ liệu X = {1,1,1,2,2,3,4,5,7}  Lấy mẫu  Khái niệm Giả sử cần xây dựng histogram với 4 bin:  Lấy mẫu  Lấy mẫu {1,2} (bin 1), {3,4} (bin 2), {5,6} bin 3, {7,8} xác suất  Xử lý mẫu bin 4. Hãy xây dựng histogram tần số và  Thống kê mô tả histogram theo mật độ.  Khái niệm  Các giá trị thống kê Sử dụng R để xây dựng histogram. So khớp mô tả  Các kỹ kết quả. thuật biểu diễn đồ thị  Histogr am  Boxplo t  Quantil e-based plot  Scatter plot HCMUS 2010 - Thống kê máy tính 20
Đồng bộ tài khoản