Bài giảng Ứng dụng mô hình hồi quy tuyến tính: Đánh giá mối liên quan
lượt xem 5
download
Nội dung của bài giảng bao gồm: mô hình hồi quy tuyến tính đa biến; đánh giá mối liên quan; hiệu chỉnh cho yếu tố nhiễu; mô hình tiên lượng.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Ứng dụng mô hình hồi quy tuyến tính: Đánh giá mối liên quan
- Tuan V. Nguyen Senior Principal Research Fellow, Garvan Institute of Medical Research Professor, UNSW School of Public Health and Community Medicine Professor of Predictive Medicine, University of Technology Sydney Adj. Professor of Epidemiology and Biostatistics, School of Medicine Sydney, University of Notre Dame Australia Phân tích dữ liệu và ứng dụng | Đại học Dược Hà Nội | 12/6 to 17/6/2019 © Tuan V. Nguyen
- Nội dung • Mô hình hồi qui tuyến tính đa biến • Ứng dụng 1: đánh giá mối liên quan (association / assessment) • Ứng dụng 2: hiệu chỉnh cho yếu tố nhiễu (adjustment) • Ứng dụng 3: mô hình tiên lượng (prediction)
- Mô hình hồi qui tuyến tính đa biến • Mô hình hồi qui tuyến tính đơn giản: Y = β 0 + β 1X 1 • Mô hình hồi qui tuyến tính đa biến: Y = β0 + β1X1 + β2X2 + β3X3 + ... + βpXp • Các biến X có thể là biến liên tục hay phân nhóm
- Mô hình hồi qui tuyến tính đa biến • Mô hình căn bản Y = b 0 + b1 X 1 + b 2 X 2 + ... + b p X p + e • Y là biến phụ thuộc (dependent variable), biến liên tục • X1, X2, X3, …, Xp : biến tiên lượng β1, β2, β3, ..., βp : regression coefficients (hệ số hồi qui ) ε ~ phân bố chuẩn (normal), độc lập, trung bình 0, phương sai σ2 ε ~ (0, σ2)
- Hàm lm trong R • Trong R, có hàm lm (linear models) – giải phương trình để ước tính tham số – tính toán các chỉ số thống kê liên quan đến mô hình – đánh giá sự thích hợp của mô hình • Công thức chung lm(y ~ x1 + x2 + x3 + ...)
- Mục tiêu mô hình hồi qui đa biến • Hiểu và đánh giá tác động các yếu tố liên quan (assessment) • Hiệu chỉnh (adjustment) • Tiên lượng (prediction)
- Nghiên cứu thực tế: tìm mô hình tiên lượng tỉ trọng mỡ • Nghiên cứu béo phì trên 1217 người Việt • Đo tỉ trọng mỡ bằng máy DXA (pcfat) • Mục tiêu – Ảnh hưởng của tuổi đến tỉ trọng mỡ – Khác biệt về tỉ trọng mỡ giữa nam và nữ – Ảnh hưởng của tuổi có độc lập với giới tính – Xây dựng mô hình dùng các số liệu nhân trắc để tiên lượng tỉ trọng mỡ
- > ob = read.csv("~/Dropbox/_Conferences and Workshops/Dai hoc Duoc 6-2019/Datasets/obesity data.csv") > head(ob) id gender height weight bmi age WBBMC bmd fat lean pcfat 1 1 F 150 49 21.8 53 1312 0.88 17802 28600 37.3 2 2 M 165 52 19.1 65 1309 0.84 8381 40229 16.8 3 3 F 157 57 23.1 64 1230 0.84 19221 36057 34.0 4 4 F 156 53 21.8 56 1171 0.80 17472 33094 33.8 5 5 M 160 51 19.9 54 1681 0.98 7336 40621 14.8 6 6 F 153 47 20.1 52 1358 0.91 14904 30068 32.2
- Câu hỏi nghiên cứu • Có mối liên quan giữa độ tuổi và cân nặng với mật độ xương (bmd) • Yếu tố nào có liên quan đến mật độ xương • Có thể xây dựng một mô hình tiên lượng tỉ trọng mỡ (pcfat) – Mô hình này gồm những biến nào?
- Ứng dụng mô hình HQTT 1: đánh giá mối liên quan
- Đánh giá mối liên quan • Mối liên quan giữa độ tuổi và cân nặng với bmd • Biến tiên lượng: age, bmi • Biến outcome: bmd • Mô hình bmd = α + β1(age) + β2(bmi) • Triển khai R m = lm(bmd ~ age + bmi, data=ob) summary(m)
- Ảnh hưởng của tuổi: mô hình HQTT đơn giản Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.9613809 0.0210065 45.766
- Ảnh hưởng của tuổi: mô hình HQTT đơn giản Mô hình (ý tưởng): bmd = α + β1(age) + β2(bmi) Thực tế: bmd = 0.96 – 0.0032*age + 0.0089*bmi Diễn giải: Tăng mỗi năm tuổi liên quan đến giảm 0.0032 g/cm2 mật độ xương (P < 0.0001). Ở mỗi tuổi, tăng 1 kg/m2 BMI liên quan đến tăng 0.009 g/cm2 MĐX, và mối liên quan này có ý nghĩa thống kê (P < 0.0001). Hai yếu tố độ tuổi và BMI giải thích 25% phương sai của MĐX.
- Báo cáo m = lm(bmd ~ age + bmi, data=ob) # Tóm tắt hệ số > coef(summary(m)) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.961380879 0.0210064697 45.76594 1.451241e-266 age -0.003254038 0.0001671193 -19.47135 1.056830e-73 bmi 0.008965966 0.0009445854 9.49196 1.155927e-20 # Phân tích phương sai > anova(m) Analysis of Variance Table Response: bmd Df Sum Sq Mean Sq F value Pr(>F) age 1 3.0339 3.03391 315.842 < 2.2e-16 *** bmi 1 0.8655 0.86545 90.097 < 2.2e-16 *** Residuals 1214 11.6614 0.00961
- Hiển thị mô hình hồi qui tuyến tính đa biến Dùng package "visreg" Hàm chung: visreg(model, xvar, by, gg=TRUE) library(visreg) m = lm(bmd ~ age + bmi, data=ob) # Chia window thành 2 cột par(mfrow=c(1,2)) visreg(m, xvar="age", gg=T, xlab="Age", ylab="BMD") visreg(m, xvar="bmi", gg=T, xlab="BMI", ylab="BMD")
- 1.3 1.3 1.2 1.2 1.1 1.1 BMD BMD 1.0 1.0 0.9 0.9 0.8 0.8 0.7 0.7 20 40 60 80 15 20 25 30 35 Age BMI
- library(visreg) m = lm(bmd ~ age + bmi, data=ob) visreg2d(m, "age", "bmi", plot.type="image") visreg2d(m, "age", "bmi", plot.type="persp") bmd 35 1.2 1.2 30 1.1 1.1 b md bmi 1.0 25 1.0 0.9 20 0.9 35 30 25 80 bm 15 0.8 60 20 i 40 ge a 20 30 40 50 60 70 80 15 20 age
- Đánh giá tầm quan trọng
- Câu hỏi quan trọng … • Trong các biến có liên quan, biến nào quan trọng nhất? • Tiêu chuẩn nào để đánh giá? – Hệ số hồi qui trên mỗi SD (độ lệch chuẩn) – R2 cho từng biến, nhưng tùy vào phân bố • Phương pháp: "relative importance"
- Câu hỏi quan trọng …
CÓ THỂ BẠN MUỐN DOWNLOAD
-
ỨNG DỤNG CÔNG NGHỆ THÔNG TIN
2 p | 375 | 112
-
Bài giảng: Kỹ thuật nâng cao trong xây dựng mô hình
20 p | 147 | 39
-
Bài giảng Mạng máy tính - Chương 2: Tầng ứng dụng
98 p | 181 | 29
-
Bài giảng Các mô hình và phần mềm tối ưu hoá và ứng dụng trong nông nghiệp - PGS.TS. Nguyễn Hải Thanh
97 p | 210 | 27
-
Bài giảng Mạng máy tính - Chương 2: Lớp ứng dụng (Application Layer)
47 p | 154 | 19
-
Bài giảng Hệ cơ sở tri thức: Tuần 2 - Phạm Văn Hải
4 p | 106 | 12
-
Bài giảng Mô hình hồi quy Logistic
42 p | 115 | 12
-
Bài giảng Phát triển ứng dụng: Chương 3.1
29 p | 72 | 8
-
Bài giảng Phát triển ứng dụng: Chương 3.3
14 p | 63 | 6
-
Bài giảng Ứng dụng nhận dạng tiếng Việt trong trích xuất thông tin từ căn cước công dân - Trịnh Tấn Đạt
21 p | 10 | 6
-
Bài giảng Công nghệ phần mềm: Chương 5 - ThS. Đinh Thị Lương
31 p | 13 | 6
-
Bài giảng Học sâu và ứng dụng: Bài 12 - ĐH Bách khoa Hà Nội
65 p | 45 | 5
-
Bài giảng Ứng dụng mô hình hồi quy Logistic
24 p | 77 | 5
-
Bài giảng Mạng máy tính: Chương 2 - Nguyễn Hồng Sơn
47 p | 49 | 5
-
Bài giảng Học sâu và ứng dụng - Bài 12: Mô hình sinh dữ liệu
65 p | 17 | 4
-
Bài giảng Ứng dụng mô hình hồi quy tuyến tính: Tiên lượng
22 p | 62 | 4
-
Bài giảng Hướng dẫn sử dụng SPSS trong nghiên cứu marketing: Phân tích nhân tố EFA - Ngô Thái Hưng
25 p | 3 | 1
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn