Bài giảng Phân tích mô tả: T-test, Ki bình phương
lượt xem 3
download
Bài giảng với các nội dung: dữ liệu thực tế; phân tích mô tả và so sánh dữ liệu y tế; mô tả biến liên tục; mô tả biến theo nhóm; mô tả bằng biểu đồ; biểu đổ phổ biến; phân bố whr theo nhóm diabetes; tương quan giữa whr và bmi; tương quan đa biến; hàm R cho phân tích mô tả...
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Phân tích mô tả: T-test, Ki bình phương
- Tuan V. Nguyen Garvan Institute of Medical Research Professor, UNSW School of Public Health and Community Medicine Professor of Predictive Medicine, University of Technology Sydney Adj. Professor of Epidemiology and Biostatistics, School of Medicine Sydney, University of Notre Dame Australia Phân tích dữ liệu và ứng dụng | Đại học Dược Hà Nội | 12/6 to 17/6/2019 © Tuan V. Nguyen
- Dữ liệu thực tế Nghiên cứu tiểu đường (n = 3165 nam và nữ) > db = read.csv("~/Dropbox/_Conferences and Workshops/Dai hoc Duoc 6- 2019/Datasets/Diabetes data.csv") > head(db) id age gender height weight waist hip sysbp diabp active hypertension 1 1 76 Female 163 53 90 93 160 90 0 1 2 1 40 Female 149 51 74 94 100 60 0 0 3 1 51 Female 151 55 91 100 120 80 0 0 4 1 43 Female 158 62 78 96 120 80 1 0 5 2 72 Female 148 47 91 95 130 60 1 0 6 2 44 Male 155 48 69 86 120 80 0 0 bmi whr diabetes 1 19.95 0.97 IFG 2 22.97 0.79 Normal 3 24.12 0.91 Normal 4 24.84 0.81 Normal 5 21.46 0.96 IFG 6 19.98 0.80 Normal > sim(db)
- Phân tích mô tả và so sánh • Mô tả biến liên tục (continuous variables) • Mô tả biến phân nhóm (categorical variables) • So sánh hai nhóm: biến liên tục • So sánh hai nhóm: biến phân nhóm
- Mô tả biến liên tục • Biểu đồ phân bố, biểu đồ hộp • Phân bố chuẩn: trung bình, độ lệch chuẩn • Phân bố lệch so với phân bố chuẩn: trung vị, bách phân vị 25%, 75%
- Mô tả biến phân nhóm • Biểu đồ bar • Tỉ lệ, độ lệch chuẩn, khoảng tin cậy 95% • Phân bố lệch so với phân bố chuẩn: trung vị, bách phân vị 25%, 75%
- Mô tả bằng biểu đồ
- Biểu đồ phổ biến • Biểu đồ phân bố (hist) • Biểu đồ hộp (boxplot) • Biểu đồ tương quan (plot) • Biểu đồ tương quan đa biến (pairs.panels; package psych)
- Phân bố whr (tỉ số eo – mông) hist(db$whr, breaks=20, col="blue", border="white") Histogram of db$whr 800 600 Frequency 400 200 0 0.6 0.8 1.0 1.2 1.4 db$whr
- Phân bố whr theo nhóm diabetes boxplot(db$whr ~ db$diabetes, col="blue", border="red") 1.2 1.0 0.8 0.6 IFG Normal Yes
- Phân bố whr theo nhóm diabetes (sắp xếp lại) db$diabetes = factor(db$diabetes, levels=c("Normal", "IFG", "Yes")) boxplot(db$whr ~ db$diabetes, col="blue", border="red") 1.2 1.0 0.8 0.6 Normal IFG Yes
- Tương quan giữa whr và bmi plot(db$whr ~ db$bmi, pch=16, col="blue") abline(lm(db$whr ~ db$bmi), col="red") 1.2 db$whr 1.0 0.8 0.6 15 20 25 30 35 40 45 db$bmi
- Tương quan đa biến library(psych) # Chọn biến số từ db vars = db[,c("age", "weight", "bmi", "waist", "hip", "whr")] pairs.panels(vars) 40 60 80 60 80 100 120 0.6 0.8 1.0 1.2 age 90 -0.13 -0.05 0.19 -0.03 0.32 60 30 weight 0.84 0.74 0.74 0.38 80 40 45 bmi 0.71 0.72 0.37 30 15 120 waist 0.74 0.76 90 60 hip 0.13 100 60 whr 1.0 0.6 30 50 70 90 15 25 35 45 60 80 100
- Tương quan đa biến library(corrplot) # tính hệ số tương quan corr = cor(na.omit(vars)) corrplot(corr, method="circle") weight waist age bmi whr hip 1 age 0.8 0.6 weight 0.4 0.2 bmi 0 waist -0.2 -0.4 hip -0.6 -0.8 whr -1
- Package "DescTools"
- Hàm R cho phân tích mô tả • Package "DescTools" và "table1" • Hàm chính: Desc Desc(var ~ group, options) • Hàm chính: table1 Desc(~var1 + var2 + var3 ~ group)
- Mô tả biến waist (biến liên tục) db = read.csv("~/Dropbox/_Conferences and Workshops/Dai hoc Duoc 6-2019/Datasets/Diabetes data.csv") Desc(db$waist) > library(DescTools) > Desc(db$waist) ---------------------------------------------------- db$waist (numeric) db$waist (numeric) 0.035 0.030 0.025 length n NAs unique 0s mean meanCI 0.020 0.015 3'165 3'154 11 76 0 81.98 81.62 0.010 99.7% 0.3% 0.0% 82.35 0.005 0.000 1.00 .05 .10 .25 median .75 .90 .95 .75 .50 65.00 69.00 74.00 82.00 89.00 95.00 99.00 .25 .00 50 60 70 80 90 100 110 120 range sd vcoef mad IQR skew kurt 66.00 10.43 0.13 11.86 15.00 0.20 -0.08 lowest : 54.0 (2), 55.0, 56.0 (2), 57.0 (4), 58.0 (3) highest: 116.0, 117.0, 118.0 (2), 119.0 (2), 120.0 (2)
- Mô tả biến diabetes (biến phân nhóm) Desc(db$diabetes) > Desc(db$diabetes) db$diabetes (factor) ---------------------------------------------- db$diabetes (factor) Normal length n NAs unique levels dupes 3'165 3'165 0 3 3 y IFG 100.0% 0.0% level freq perc cumfreq cumperc Yes 1 Normal 2'680 84.7% 2'680 84.7% 2 IFG 243 7.7% 2'923 92.4% 0 1000 2000 3000 0.0 0.2 0.4 0.6 0.8 1.0 3 Yes 242 7.6% 3'165 100.0% frequency percent
- Phân tích so sánh: biến liên tục (t-test) > Desc(db$waist ~ db$gender) > t.test(db$waist ~ db$gender) db$waist ~ db$gender Welch Two Sample t-test Summary: data: db$waist by db$gender n pairs: 3'165, valid: 3'154 (99.7%), t = -15.666, df = 2050.2, p-value < missings: 11 (0.3%), groups: 2 2.2e-16 alternative hypothesis: true difference in means is not equal to 0 Female Male 95 percent confidence interval: mean 80.105 86.017 -6.652544 -5.172280 median 79.000 87.000 sample estimates: sd 10.226 9.697 mean in group Female mean in group IQR 14.000 13.000 Male n 2'152 1'002 80.10455 np 68.231% 31.769% 86.01697 NAs 9 2 Biến phân tích: Liên tục (waist) 0s 0 0 Kruskal-Wallis rank sum test: Biến so sánh: Phân nhóm (gender) Kruskal-Wallis chi-squared = 240.82, df = 1, p-value < 2.2e-16 Phương pháp: Kiểm định t (t-test)
- Phân tích mô tả và so sánh: biến liên tục > Desc(db$waist ~ db$diabetes) -------------------------------------------------- db$waist ~ db$diabetes Summary: n pairs: 3'165, valid: 3'154 (99.7%), missings: 11 (0.3%), groups: 3 db$waist ~ db$diabetes n=242 n=2671 n=241 means IFG Normal Yes IFG mean 84.936 81.557 83.743 84.5 110 median 85.000 81.000 83.000 Yes sd 10.620 10.435 9.510 83.5 60 70 80 90 IQR 15.000 15.000 12.000 82.5 n 242 2'671 241 np 7.673% 84.686% 7.641% 81.5 Normal NAs 1 9 1 x$g IFG Normal Yes 0s 0 0 0 Kruskal-Wallis rank sum test: Kruskal-Wallis chi-squared = 27.71, df = 2, p- value = 9.614e-07
- Phân tích mô tả và so sánh: biến phân nhóm > Desc(db$diabetes ~ db$gender) -------------------------------------------------- db$diabetes ~ db$gender Summary: n: 3'165, rows: 3, columns: 2 Pearson's Chi-squared test: X-squared = 9.1224, df = 2, p-value = 0.01045 Biến phân tích: Phân nhóm (diabetes) db$gender Female Male Sum Biến so sánh: Phân nhóm (gender) db$diabetes IFG freq 157 86 243 Phương pháp: Kiểm định Ki bình phương perc 5.0% 2.7% 7.7% (Chi squared test) p.row 64.6% 35.4% . p.col 7.3% 8.6% . Normal freq 1'857 823 2'680 perc 58.7% 26.0% 84.7% p.row 69.3% 30.7% . p.col 85.9% 82.0% . Yes freq 147 95 242 perc 4.6% 3.0% 7.6% p.row 60.7% 39.3% . p.col 6.8% 9.5% . Sum freq 2'161 1'004 3'165 perc 68.3% 31.7% 100.0% p.row . . . p.col . . .
CÓ THỂ BẠN MUỐN DOWNLOAD
-
BÀI GIẢNG: PHÂN TÍCH THIẾT KẾ HỆ THỐNG
12 p | 137 | 38
-
Bài giảng Phân tích thiết kế phần mềm: Chương 4 - Trường ĐH Ngoại ngữ - Tin học TP.HCM
41 p | 20 | 11
-
Bài giảng Phân tích thiết kế phần mềm: Chương 6 - Trường ĐH Ngoại ngữ - Tin học TP.HCM
12 p | 26 | 11
-
Bài giảng Phân tích thiết kế hệ thống thông tin - Chương 7: Mô hình hóa cấu trúc
34 p | 52 | 8
-
Bài giảng Phân tích thiết kế hướng đối tượng: Chương 1 - Lê Thị Minh Nguyện
11 p | 80 | 7
-
Bài giảng Phân tích và thiết kế hệ thống thông tin: Chương 3 (tt) - Trần thị Huế
29 p | 80 | 7
-
Bài giảng Phân tích thiết kế hệ thống thông tin - Chương 2: Xác định và phân tích yêu cầu (khảo sát hiện trạng)
41 p | 72 | 6
-
Bài giảng Phân tích thiết kế hệ thống thông tin: Chương 6 - Phan Hồ Duy Phương
68 p | 10 | 6
-
Bài giảng Phân tích thiết kế hệ thống thông tin: Chương 3 - Phan Hồ Duy Phương
39 p | 12 | 6
-
Bài giảng Phân tích thiết kế hệ thống thông tin: Bài 3 - TS. Trần Mạnh Tuấn
34 p | 31 | 6
-
Bài giảng Phân tích thiết kế hệ thống thông tin: Bài 6 - ThS. Thạc Bình Cường
44 p | 59 | 6
-
Bài giảng Phân tích thiết kế hệ thống thông tin - Chương 5: Mô hình hóa chức năng sử dụng use case
17 p | 63 | 4
-
Bài giảng Phân tích thiết kế hệ thống thông tin - Chương 2+3: Các khái niệm cơ bản trong hướng đối tượng
17 p | 41 | 3
-
Bài giảng Phân tích và thiết kế hệ thống: Chương 9 - Nguyễn Nhật Quang
44 p | 16 | 3
-
Bài giảng Phân tích thiết kế hướng đối tượng: Chương 5 – Chu Thị Hường
0 p | 38 | 3
-
Bài giảng Phân tích thiết kế hệ thống thông tin - Chương 2: Xác định và phân tích yêu cầu
20 p | 89 | 3
-
Bài giảng Phân tích thiết kế hệ thống thông tin: Chương 3 - Lê Nhị Lãm Thúy
18 p | 46 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn