intTypePromotion=3

Bài giảng Mô hình hồi quy Logistic

Chia sẻ: Menh Menh | Ngày: | Loại File: PDF | Số trang:42

0
14
lượt xem
4
download

Bài giảng Mô hình hồi quy Logistic

Mô tả tài liệu
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng nghiên cứu mô hình hồi quy Logistic; ứng dụng của mô hình hồi quy Logistic; thời điểm sử dụng mô hình hồi quy Logistic; một vài khái niệm cơ bản...

Chủ đề:
Lưu

Nội dung Text: Bài giảng Mô hình hồi quy Logistic

  1. Tuan V. Nguyen Senior Principal Research Fellow, Garvan Institute of Medical Research Professor, UNSW School of Public Health and Community Medicine Professor of Predictive Medicine, University of Technology Sydney Adj. Professor of Epidemiology and Biostatistics, School of Medicine Sydney, University of Notre Dame Australia Phân tích dữ liệu và ứng dụng | Đại học Dược Hà Nội | 12/6 to 17/6/2019 © Tuan V. Nguyen
  2. Mô hình hồi qui logistic (logistic regression) • Ví dụ dẫn nhập • Khái niệm odds, logit, và mô hình hồi qui logistic • Ước tính và R
  3. The Challenger shuttle disaster Flight Temp Damage Flight Temp Damage STS-1 66 0 STS 51B 75 0 STS-2 70 1 STS 51G 70 0 STS-3 69 0 STS 51F 81 0 STS-4 80 STS 51I 76 0 STS-5 68 0 STS 51J 79 0 STS-6 67 0 STS 61A 75 1 STS-7 72 0 STS 61B 76 0 STS-8 73 0 STS 61C 58 1 STS-9 70 0 STS 41B 57 1 Temp = c(66, 70, 69, 80, 68, 67, 72, 73, 70, 57, 63, STS 41C 63 1 70, 78, 67, 53, 67, 75, 70, 81, 76, 79, 75, 76, 58) STS 41D 70 1 Damage = c(0, 1, 0, ., 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 1, 0, STS 41G 78 0 0, 0, 0, 0, 0, 1, 0, 1) STS 51A 67 0 STS 51C 53 1 STS 51D 67 0
  4. Nghiên cứu bệnh tiểu đường (type 2 diabetes) • Nghiên cứu cắt ngang trên 3155 cá nhân • Outcome: chẩn đoán tiểu đường • Yếu tố nguy cơ: tuổi, giới tính, huyết áp, vòng eo, vòng mông, cân nặng, tỉ trọng cơ thể (BMI) • Câu hỏi 1: BMI có liên quan đến bệnh tiểu đường? • Câu hỏi 2: Yếu tố nào có liên quan đến tiểu đường? • Câu hỏi 2: Có thể xây dựng mô hình tiên lượng nguy cơ mắc bệnh?
  5. > db = read.csv("~/Dropbox/_Conferences and Workshops/Dai hoc Duoc 6- 2019/Datasets/Diabetes data.csv", header=T) > head(db) id age gender height weight waist hip sysbp diabp active hypertension 1 1 76 Female 163 53 90 93 160 90 0 1 2 1 40 Female 149 51 74 94 100 60 0 0 3 1 51 Female 151 55 91 100 120 80 0 0 4 1 43 Female 158 62 78 96 120 80 1 0 5 2 72 Female 148 47 91 95 130 60 1 0 6 2 44 Male 155 48 69 86 120 80 0 0 bmi whr diabetes 1 19.95 0.97 IFG 2 22.97 0.79 Normal 3 24.12 0.91 Normal 4 24.84 0.81 Normal 5 21.46 0.96 IFG 6 19.98 0.80 Normal
  6. Gian lận thẻ tín dụng (credit card) • Nghiên cứu cắt ngang trên 284807 transactions • Outcome: gian lận (yes / no) • Yếu tố nguy cơ: Time, Amount, V1-V28 • Câu hỏi: Có thể xây dựng mô hình tiên lượng gian lận
  7. > cc = read.csv("~/Dropbox/_Conferences and Workshops/Dai hoc Duoc 6- 2019/Datasets/Credit card data.csv", header=T) > head(cc, 3) Time V1 V2 V3 V4 V5 V6 1 0 -1.359807 -0.07278117 2.5363467 1.3781552 -0.33832077 0.46238778 2 0 1.191857 0.26615071 0.1664801 0.4481541 0.06001765 -0.08236081 3 1 -1.358354 -1.34016307 1.7732093 0.3797796 -0.50319813 1.80049938 V7 V8 V9 V10 V11 V12 1 0.23959855 0.09869790 0.3637870 0.09079417 -0.5515995 -0.61780086 2 -0.07880298 0.08510165 -0.2554251 -0.16697441 1.6127267 1.06523531 3 0.79146096 0.24767579 -1.5146543 0.20764287 0.6245015 0.06608369 V13 V14 V15 V16 V17 V18 1 -0.9913898 -0.3111694 1.4681770 -0.4704005 0.2079712 0.02579058 2 0.4890950 -0.1437723 0.6355581 0.4639170 -0.1148047 -0.18336127 3 0.7172927 -0.1659459 2.3458649 -2.8900832 1.1099694 -0.12135931 V19 V20 V21 V22 V23 V24 1 0.403993 0.25141210 -0.01830678 0.2778376 -0.1104739 0.06692808 2 -0.145783 -0.06908314 -0.22577525 -0.6386720 0.1012880 -0.33984648 3 -2.261857 0.52497973 0.24799815 0.7716794 0.9094123 -0.68928096 V25 V26 V27 V28 Amount Class 1 0.1285394 -0.1891148 0.133558377 -0.02105305 149.62 0 2 0.1671704 0.1258945 -0.008983099 0.01472417 2.69 0 3 -0.3276418 -0.1390966 -0.055352794 -0.05975184 378.66 0
  8. Đặc tính của các nghiên cứu • Outcome (dependent) variable: biến nhị phân (binary variable), chỉ có 2 giá trị • Predictor (independent) variables: đa dạng (nhị phân, biến liên tục) Không thể dùng mô hình hồi qui tuyến tính!
  9. Ứng dụng của mô hình hồi qui logistic • Mô tả mối liên quan giữa biến outcome và biến tiên lượng • Kiểm soát các biến nhiễu (Controlling for confounders) • Phát triển mô hình tiên lượng (Developing prognostic models)
  10. Ông "tổ" của mô hình hồi qui logistic Professor David R. Cox Imperial College, London 1970
  11. Khi nào cần sử dụng mô hình hồi qui logistic • Logistic regression: – outcome là biến phân loại (thường có 2 giá trị yes/no) – biến tiên lượng có thể là biến phân loại hay liên tục • Mô hình hồi qui tuyến tính (Linear regression) – biến outcome là biến liên tục – biến tiên lượng có thể là biến phân loại hay liên tục
  12. Vài khái niệm cơ bản
  13. Risk, probability và odds • Risk: probability (P) of an event [during a period] – xác suất của một biến cố trong một thời gian • Odds: xác suất biến cố xảy ra chia cho xác suất biến cố không xảy ra: P Odds = 1− P • n =5 bệnh nhân, 1 bệnh nhân bị đột quị: P = 1/ 5 = 0.20 Odds = 0.2 / 0.8 = 0.25
  14. Probability và odds • P = 1/5 = 0.2 or 20% • Odds = (P) / (1-P) • Odds = 0.2 / 0.8 hay 1:4
  15. Probability, odds, và logit • Probability: từ 0 đến 1 • Odds: biến liên tục – Khi P = 0.5, odds = 1 • Logit = log odds " p % logit ( p) = log $ ' # 1− p &
  16. Mô hình hồi qui logistic dựa trên logit • Gọi X là biến tiên lượng • Gọi P là xác suất của một biến cố (outcome) • Mô hình hồi qui logistic phát biểu rằng: logit ( p) = α + β X " p % hay log $ ' =α + βX # 1− p &
  17. Mô hình hồi qui logistic " p % log $ ' =α + βX # 1− p & Điều này cũng có nghĩa là: α +β X e p= α +β X 1+ e
  18. Logistic Regression Model Mối liên quan giữa X, p và logit(p) linear form nonlinear form α +β X " p % e log[logP $ 1 #P (x) (x) ] ' = = α +0β+ X 1x p= P (x) exp[ 0 + 1 x] 1+exp[ X 1 x] α +0β+ 1− p& 1+ e 8 1 6 log [ P(x) / ( 1 ! P(x) ) ] 4 2 P(x) 0 !2 !4 !6 0 x x 31
  19. Ý nghĩa của tham số mô hình logistic " p % log $ ' =α + βX # 1− p & • α là log odds của biến outcome khi X = 0 • β là log odds ratio (tỉ số) liên quan với một đơn vị tăng của X • Odds ratio = exp(β )

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản