Phân tích số liệu thống kê
lượt xem 52
download
Phân tích dữ liệu mang tính khám phá. Dữ liệu nên được xem xét, khám phá trước khi đặt ra bất kỳ giả thuyết nào về mô hình xác suất, mối quan hệ giữa các biến,...Đặc trưng phụ thuộc nhiều vào các kỹ thuật biểu diễn đồ thị. Quần thể: là nhóm đối tượng cần tổng quát hóa.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Phân tích số liệu thống kê
- 1 Phân tích số liệu thống kê Đặng Hải Vân – Lê Phong – Nguyễn Đình Thúc Khoa CNTT – ĐHKHTN {dhvan,lphong,ndthuc}@fit.hcmus.edu.vn
- Nội dung • Phân tích dữ liệu mang tính khám phá (EDA) EDA Lấy mẫu • Lấy mẫu Khái niệm Lấy mẫu ▫ Khái niệm Lấy mẫu xác suất ▫ Lấy mẫu Xử lý mẫu Thống kê mô ▫ Lấy mẫu xác suất tả Khái niệm ▫ Xử lý mẫu Các giá trị • Thống kê mô tả thống kê mô tả ▫ Khái niệm Các kỹ thuật biểu ▫ Các giá trị thống kê mô tả diễn đồ thị Histogr ▫ Các kỹ thuật biểu diễn đồ thị am Boxplo Histogram t Quantil Boxplot e-based plot Quantile-based plot Scatter plot Scatter plot HCMUS 2010 - Thống kê máy tính 2
- Phân tích dữ liệu mang tính khám phá EDA • Phân tích dữ liệu mang tính khám phá Lấy mẫu Khái niệm (EDA – Exploratory Data Analysis) [John Lấy mẫu Lấy mẫu Tukey, 1977] xác suất Xử lý mẫu ▫ Dữ liệu nên được xem xét, khám phá trước Thống kê mô tả khi đặt ra bất kỳ giả thuyết nào về mô hình Khái niệm Các giá trị xác suất, mối quan hệ giữa các biến,< thống kê mô tả ▫ Hướng tiếp cận: Các kỹ thuật biểu diễn đồ thị Phân Mô Kết Histogr Vấn đề Dữ liệu tích hình luận am Boxplo t ▫ Đặc trưng: phụ thuộc nhiều vào các kỹ Quantil e-based thuật biểu diễn đồ thị (graphical plot Scatter techniques) plot HCMUS 2010 - Thống kê máy tính 3
- Khái niệm EDA • Quần thể: là nhóm đối tượng cần tổng Lấy mẫu Khái niệm quát hóa Lấy mẫu Lấy mẫu • Mẫu: là nhóm đối tượng thực sự được xác suất Xử lý mẫu chọn trong nghiên cứu. Thống kê mô tả • Cơ cấu mẫu: là danh sách các phần tử của Khái niệm Các giá trị thống kê quần thể có thể. mô tả Các kỹ • Thống kê (statistic): là hàm của các quan thuật biểu diễn đồ thị sát trong tập mẫu Histogr am Boxplo Ví dụ: trung bình mẫu, phương sai mẫu là t Quantil các thống kê e-based plot Scatter plot HCMUS 2010 - Thống kê máy tính 4
- Lấy mẫu • Lấy mẫu: là một tiến trình chọn các mẫu cho EDA Lấy mẫu mục đích tổng quát hóa. Khái niệm ▫ Lấy mẫu xác suất (probability sampling) Lấy mẫu Lấy mẫu Thủ tục chọn ngẫu nhiên . Xác suất các phần tử xác suất Xử lý mẫu được chọn bằng nhau. Thống kê mô Mẫu chọn được gọi là mẫu ngẫu nhiên tả ▫ Lấy mẫu không xác suất (non-probability Khái niệm Các giá trị sampling) thống kê mô tả Các kỹ Ví dụ: UBND quận 5 thực hiện khảo sát lấy ý kiến của nhân dân quận 5 về tình thuật biểu hình trị an hiện tại của quận. diễn đồ thị Histogr Cách khảo sát 1: tất cả hộ gia đình của quận đều có cơ hội được chọn và am hỏi qua điện thoại. Xác suất 1 hộ gia đình được hỏi là xác định được. Boxplo – Lấy mẫu xác suất t Cách khảo sát 2: Bảng câu hỏi được gửi đến các cư dân trong quận dựa Quantil vào 1 mailing list đã có sẵn. Ngoài ra các bảng câu hỏi được đặt ở các e-based plot nơi công cộng. Theo cách này, không xác định được 1 cá nhân có thể Scatter trả lời bao nhiêu lần. Xác suất 1 cá nhân được hỏi là không xác định plot được. – Lấy mẫu không xác suất HCMUS 2010 - Thống kê máy tính 5
- Lấy mẫu xác suất • Lấy mẫu ngẫu nhiên đơn giản (simple random EDA Lấy mẫu sampling) Khái niệm ▫ Chọn n từ cơ cấu mẫu N phần tử sao cho NCn phần tử có Lấy mẫu cơ hội chọn ngang nhau Lấy mẫu ▫ Kỹ thuật chọn xác suất Xử lý mẫu Bảng ngẫu nhiên với tỷ lệ mẫu: f = n/N Thống kê mô Phát sinh số mầm s mẫu: nhãn là s+i.n với i=0,1,
- Ví dụ lấy mẫu ngẫu nhiên đơn giản EDA Cần khảo sát các khách hàng của công ty, biết Lấy mẫu danh sách khách hàng gồm N=1000. Ta lấy Khái niệm Lấy mẫu mẫu gồm 100 khách hàng để thực hiện khảo Lấy mẫu xác suất sát (n=100) Xử lý mẫu Thống kê mô a) Số mầm phát sinh s = 5. Xác định mẫu. tả Khái niệm b) Dùng R để phát sinh mẫu theo phương Các giá trị pháp số ngẫu nhiên. thống kê mô tả Các kỹ thuật biểu Trả lời: diễn đồ thị Histogr a) f=100/1000 = 0,1. Mẫu là danh sách các phần tử ở các vị trí: am 5,5+1.100, 5+2.100,…,5+9.100 hay 5, 105, 205,…,905 Boxplo t b) > N n sample(1:N,n,replace=FALSE) Scatter plot HCMUS 2010 - Thống kê máy tính 7
- Ví dụ lấy mẫu ngẫu nhiên phân tầng EDA • Cần khảo sát ý kiến của SV các khoa toán Lấy mẫu Khái niệm (gồm 200sv), cntt (gồm 500sv), lý (gồm Lấy mẫu Lấy mẫu 300sv), ta chọn một tập mẫu gồm n=100 sv. xác suất Xử lý mẫu Phân chia thành các nhóm thuần nhất: sv Thống kê mô tả khoa toán (n1=20), sv khoa cntt (n2=50), sv Khái niệm Các giá trị khoa lý (n3=30) (f1=f2=f3=0,1) thống kê mô tả Các kỹ Lấy mẫu ngẫu nhiên đơn giản cho từng thuật biểu diễn đồ thị nhóm. Histogr am Boxplo t Quantil e-based plot Scatter plot HCMUS 2010 - Thống kê máy tính 8
- Bài tập lấy mẫu ngẫu nhiên đơn giản với R EDA sample(x, size, replace = FALSE, prob = NULL) Lấy mẫu replace = TRUE: lấy mẫu có lặp lại Khái niệm replace=FALSE: lấy mẫu không lặp lại Lấy mẫu Lấy mẫu xác suất BT1: Dùng R chọn ngẫu nhiên 5 số từ 1 đến 40 Xử lý mẫu Thống kê mô tả BT2: Dùng R giả lập thí nghiệm tung đồng xu 10 lần Khái niệm Các giá trị thống kê BT3: Dùng R giả lập thí nghiệm tung đồng xu 10 lần, mô tả biết khả năng tung mặt ngửa là 90%, mặt sấp là 10% Các kỹ thuật biểu diễn đồ thị Histogr Trả lời: am BT2: sample(c(“H”,”T”),10,replace=TRUE) Boxplo Lưu ý: t Dữ liệu vector: là một mảng Quantil Khởi tạo vector: e-based plot 1) Bằng cách nối kết: c(phần tử 1, phần tử 2,…). Vd: c(“H”,”T”): tạo vector 2 phần Scatter tử plot 2) 1:10: tạo mảng từ 1 đến 10 HCMUS 2010 - Thống kê máy tính 9
- Xử lý mẫu EDA • Khái niệm Giá trị bất thường (giá trị ngoại Lấy mẫu Khái niệm lệ): là giá trị có sự sai lệch quá rõ ràng so Lấy mẫu Lấy mẫu với các giá trị khác. xác suất Xử lý mẫu ▫ Phát hiện mẫu bất thường Thống kê mô tả ▫ Xử lý mẫu bất thường Khái niệm Các giá trị thống kê mô tả Các kỹ thuật biểu diễn đồ thị Histogr am Boxplo t Quantil e-based plot Scatter plot HCMUS 2010 - Thống kê máy tính 10
- Khái niệm thống kê mô tả EDA • Khái niệm Thống kê mô tả: là phương Lấy mẫu Khái niệm pháp thống kê toán được dùng để mô tả Lấy mẫu Lấy mẫu các đặc trưng cơ bản của dữ liệu, cung cấp xác suất Xử lý mẫu tóm tắt cô đọng về mẫu và các thước đo. Thống kê mô tả Khái niệm Các giá trị thống kê mô tả Các kỹ thuật biểu diễn đồ thị Histogr am Boxplo t Quantil e-based plot Scatter plot HCMUS 2010 - Thống kê máy tính 11
- Các thống kê mô tả EDA Biến ngẫu nhiên X, tập mẫu gồm n phần tử Lấy mẫu Khái niệm {xi}, i=1,
- Các thống kê mô tả (tt) EDA • Trị SKEW: diễn tả tính bất đối xứng của Lấy mẫu Khái niệm phân phối dữ liệu quanh trị trung bình: Lấy mẫu Lấy mẫu skew0 (lệch phải), xác suất Xử lý mẫu skew=0 (đối xứng) 1 Thống kê mô n x tả 3 3 i Khái niệm n 1 1 i 1 2 / 2 Các giá trị 3/ 2 3 1 n xi 2 thống kê n i 1 mô tả Các kỹ • Tri KURT: diễn tả độ phẳng của đỉnh phân thuật biểu diễn đồ thị phối dữ liệu: kurt3 (nhọn), Histogr am kurt=3 (vừa phải, hình chuông) Boxplo t 1n xi 4 Quantil 4 e-based n i 1 2 plot 2 1 2 2 2 n xi Scatter plot n i 1 HCMUS 2010 - Thống kê máy tính 13
- Các thống kê mô tả (tt) • Trung vị (median): là điểm nằm chính giữa EDA Lấy mẫu n mod 2 1 x ( n 1)/2 dãy dữ liệu. median Khái niệm ( x x ) / 2 n mod 2 0 n /21 n /2 Lấy mẫu • Yếu vị (mode): là giá trị có tần số xuất hiện Lấy mẫu xác suất cao nhất trong tập dữ liệu. Xử lý mẫu Thống kê mô • Độ phân tán: biểu diễn sự phân tán các giá trị tả Khái niệm quanh tâm dữ liệu Các giá trị ▫ Khoảng quan sát (range): range = Max – Min thống kê mô tả ▫ Độ lệch chuẩn Các kỹ thuật biểu • Phân vị (quantile): phân vị qp là giá trị q nhỏ diễn đồ thị Histogr nhất sao cho phân phối tích lũy của nó lớn am Boxplo hơn hoặc bằng p, với 0
- Ví dụ tính giá trị thống kê EDA • Cho tập mẫu X={1,3,2,4,6,2,2,5,6} Lấy mẫu Khái niệm • Tính Lấy mẫu Lấy mẫu 1 3 2 4 6 2 2 5 6 31 1n ▫ Trung bình mẫu xi 3,44 xác suất n i 1 9 9 Xử lý mẫu ▫ Phương sai mẫu Thống kê mô tả 1 1 3,44 3 3,44 2 3,44 4 3,44 6 3,44 2 3,44 2 3,44 5 3,44 6 3,44 Khái niệm 2 2 2 2 2 2 2 2 2 2 3,14 Các giá trị 9 9 1 1 3,44 3 3,44 2 3,44 4 3,44 6 3,44 2 3,44 2 3,44 5 3,44 6 3,44 thống kê 2 2 2 2 2 2 2 2 2 S2 3,53 mô tả 9 1 9 Các kỹ ▫ Trị skew thuật biểu diễn đồ thị 1 1 3,44 3 3,44 2 3,44 4 3,44 6 3,44 2 3,44 2 3,44 5 3,44 6 3,44 3 3 3 3 3 3 3 3 3 Histogr 3 1,551 9 9 am 1,551 Boxplo 2 2 3,14 skew 33/ 2 0,279 2 3,143 / 2 t ▫ Trị kurt Quantil e-based 1 1 3,44 3 3,44 2 3,44 4 3,44 6 3,44 2 3,44 2 3,44 5 3,44 6 3,44 4 4 4 4 4 4 4 4 4 plot 4 1,551 9 9 Scatter 15,59 plot 2 2 3,14 kurt 4 1,58 22 3,142 HCMUS 2010 - Thống kê máy tính 15
- Ví dụ tính giá trị thống kê mẫu với R EDA > x library(moments) Khái niệm > mean(x) Lấy mẫu Lấy mẫu [1] 3.444444 xác suất > var(x) Xử lý mẫu Thống kê mô [1] 3.527778 tả > quantile(x,0.25) Khái niệm Các giá trị 25% thống kê 2 mô tả Các kỹ > quantile(x) thuật biểu diễn đồ thị 0% 25% 50% 75% 100% Histogr 12356 am Boxplo > kurtosis(x) t [1] 1.582584 Quantil e-based > skewness(x) plot Scatter [1] 0.2717328 plot HCMUS 2010 - Thống kê máy tính 16
- Các kỹ thuật biểu diễn bằng đồ thị EDA • Dữ liệu một chiều (univariate data) Lấy mẫu Khái niệm ▫ Histogram Lấy mẫu Lấy mẫu ▫ Boxplot xác suất Xử lý mẫu ▫ Quantile-based plot Thống kê mô tả ▫ Stem and leaf Khái niệm Các giá trị • Dữ liệu hai hoặc ba chiều thống kê mô tả Các kỹ ▫ Scatter plot thuật biểu diễn đồ thị ▫ Surface plot Histogr am ▫ Contour plot Boxplo t ▫ Quantil Bivariate histogram e-based plot • Dữ liệu nhiều chiều: scatter plot matrix,< Scatter plot HCMUS 2010 - Thống kê máy tính 17
- Khái niệm histogram theo tần số • Khái niệm Histogram theo tần số (frequency EDA Lấy mẫu histogram): Khái niệm ▫ Trục ngang: miền dữ liệu được chia thành các bin Lấy mẫu Lấy mẫu (khoảng giá trị). Các giá trị thuộc bin nào thì sẽ xác suất được đếm cho bin đó. Cách phân chia các bin: tùy ý Xử lý mẫu theo người dùng hoặc theo một hệ thống luật [Scott Thống kê mô tả 1992] Khái niệm ▫ Trục dọc: tần số của từng bin (số lượng dữ liệu Các giá trị thuộc từng bin) thống kê mô tả ▫ y(x) = vk với x thuộc Bk Các kỹ thuật biểu với y(x): giá trị trên trục dọc ứng với x ; vk: số lượng diễn đồ thị dữ liệu thuộc bin thứ k; Bk: bin thứ k Histogr am Boxplo t Quantil e-based plot Scatter plot HCMUS 2010 - Thống kê máy tính 18
- Khái niệm các histogram biến thể EDA • Histogram tần số tương đối (Relative Lấy mẫu Khái niệm frequency histogram): Lấy mẫu Lấy mẫu ▫ y(x) = vk /n với x thuộc Bk xác suất Xử lý mẫu với n là tổng số dữ liệu Thống kê mô tả Khái niệm Các giá trị • Histogram theo mật độ (Density thống kê mô tả Các kỹ histogram): thuật biểu diễn đồ thị y(x) = vk /(nh) với x thuộc Bk Histogr am với h là độ rộng của bin Boxplo t Quantil Đặc điểm: tổng diện tích các cột bằng 1. e-based plot Ví dụ: Vẽ histogram bằng ngôn ngữ R: Scatter plot HCMUS 2010 - Thống kê máy tính 19
- Xây dựng histogram EDA • Cho tập dữ liệu X = {1,1,1,2,2,3,4,5,7} Lấy mẫu Khái niệm Giả sử cần xây dựng histogram với 4 bin: Lấy mẫu Lấy mẫu {1,2} (bin 1), {3,4} (bin 2), {5,6} bin 3, {7,8} xác suất Xử lý mẫu bin 4. Hãy xây dựng histogram tần số và Thống kê mô tả histogram theo mật độ. Khái niệm Các giá trị thống kê Sử dụng R để xây dựng histogram. So khớp mô tả Các kỹ kết quả. thuật biểu diễn đồ thị Histogr am Boxplo t Quantil e-based plot Scatter plot HCMUS 2010 - Thống kê máy tính 20
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Xử lý thống kê bằng Excel
10 p | 1614 | 421
-
BÀI GIẢNG ỨNG DỤNG SAS PHÂN TÍCH SỐ LIỆU THÍ NGHIỆM
83 p | 1268 | 153
-
Phần phân tích số liệu - Thống kê y tế công cộng
177 p | 308 | 106
-
Phân tích số liệu bằng Epi Info 2002
98 p | 555 | 92
-
Thống kê II - Phân tích số liệu định lượng
176 p | 262 | 88
-
Ciáo Trình Môn Thống kê Tin Học_Thống kê II: Phân tích số liệu định lượng SPSS
176 p | 491 | 65
-
THỐNG KÊ 2 - PHÂN TÍCH SỐ LIỆU ĐỊNH LƯỢNG
176 p | 191 | 65
-
Hướng dẫn phân tích số liệu và vẽ biểu đồ bằng R - Phần 10
73 p | 263 | 38
-
Bài giảng Tin học đại cương: Chương 6 - Xử lý số liệu với bảng tính điện tử (Phân tích số liệu - Thống kê - Dự báo)
22 p | 188 | 31
-
Phương pháp phân tích thành phần chính và phân tích chùm trong xử lí số liệu thống kê nhiều chiều
7 p | 175 | 14
-
Bài giảng Xử lý dữ liệu trong sinh học với phần mềm Excel - Bài 5: Kiểm định một phân phối và bảng tương liên
2 p | 69 | 10
-
Bài giảng Xử lý dữ liệu trong sinh học với phần mềm Excel - Bài 4: Hồi quy tương quan
5 p | 105 | 9
-
Bài giảng Tin học nhóm ngành Nông-Lâm-Ngư và Môi trường - Chương 5, 6: Xử lý phân tích số liệu thống kê Bằng MS Excel 2010 - Biểu diễn kết quả thống kê trong báo cáo khoa học
69 p | 43 | 6
-
Giáo trình Tin học ứng dụng xử lý số liệu thống kê và thực nghiệm: Phần 1 - Nguyễn Mạnh Đức
80 p | 19 | 4
-
Giáo trình Tin học ứng dụng xử lý số liệu thống kê và thực nghiệm: Phần 2 - Nguyễn Mạnh Đức
64 p | 9 | 4
-
Hướng dẫn ứng dụng phân tích dữ liệu với R: Phần 2
285 p | 14 | 3
-
Tin học nhóm ngành Nông-Lâm-Ngư và Môi trường - Bài thực hành chương 5 và 6
5 p | 34 | 1
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn