TIN HỌC ỨNG DỤNG TIN HỌC ỨNG DỤNG

TƯƠNG QUAN VÀ HỒI QUY

TRƯỜNG ĐẠI HỌC Y DƯỢC HUẾ BỘ MÔN THỐNG KÊ – DÂN SỐ - SỨC KHỎE SINH SẢN

1

2

3

4

Phương trình hồi qui cho 2 chỉ số gồm: BMI, độ tuổi. Và nghiên cứu đề nghị: nam giới có PBF > 30 và nữ PBF > 40 thì được xem là béo phì.

PBF (nữ) = -18.9 + 0.044*tuổi + 3.473*BMI - 0.051*BMI*BMI PBF (nam) = -29.8 + 0.044*tuổi + 3.473*BMI - 0.051*BMI*BMI http://journals.plos.org/plosone/article?id=10.1371%2Fj ournal.pone.0127198

Mục tiêu

1/ Xác định được ý nghĩa và cách sử dụng phân tích

tương quang, mô hình hồi quy thích hợp.

2/ Thực hiện được cách lệnh phân tích tương quan,

mô hình hồi quy trong SPSS.

3/ Đọc phiên giãi ý nghĩa và trình bày kết quả phân

tích.

Tin học ứng dụng - NCKH Bộ môn: TKYT – DS -SKSS6

PHÂN TÍCH TƯƠNG QUAN

Thường xét đến khi 2 biến NC là biến định lượng.

Chú ý đến tính phân bố của số liệu định lượng.

Xác định ngưỡng ý nghĩa của hệ số tương quan (r )

r<0,3: tương quan yếu

0,3 ≤ r ≤ 0,5 : tương quan TB

0,5 < r ≤ 0,7 : tương quan chặt chẽ

r>0,7 : tương quan rất chặt chẽ

7

Ví dụ: tính hệ số tương quan giữa tuổi và chiều cao

Thực hiện: Analyze/ Correlate/Bivariate

8

Biến số

Kết quả thực hiện

Hệ số tương quan r

Ngưỡng ý nghĩa p value

9

Số trường hợp quan sát

Thể hiện mối tương quan trên biểu đồ scatter plot:

10

graph/legacy Dialogs/Scatter plot

Biến phụ thuộc

11

Biến độc lập

Chú ý : • Lựa chọn hệ tương quan pearson khi số liệu có phân bố

chuẩn

• Hệ số tương quan Spearman khi số liệu có phân bố không

12

chuẩn

MÔ HÌNH HỒI QUY

Phân loại: (dựa vào kiểu biến số phụ thuộc )

• Thông thường chúng ta có nhiều mô hình hồi

quy khác nhau tùy thuộc vào kiểu biến số của

biến phụ thuộc.

• Một số mô hình chính hay gặp trong các phân

tích thống kê: Hồi quy tuyến tính, hồi quy

logistic, và hồi quy Cox ( sự kiện theo thời gian).

13

MÔ HÌNH HỒI QUY

• Chương trình này chúng tôi chỉ đề cập đến 2 mô hình là

hồi quy tuyến tính (linear regression) và mô hình logistic

với biến phụ thuộc là nhị phân (Binary logistic).

• Dựa vào số lượng biến độc lập đưa vào mô hình

 hồi quy đơn biến ( 1 biến độc lập)

14

 Hồi quy đa biến ( ≥ 2 biến độc lập)

Mô hình hồi quy tuyến tính đơn biến

Hồi quy tuyến tính đơn biến có dạng:

• Biến phụ thuộc (y): là biến định lượng

• Biến độc lập (x): thường là biến định lượng hoặc thứ bậc.

: là điểm cắt y khi x = 0 ( hằng số constant) •

: là độ dốc là sự thay đổi của mỗi đơn vị y khi x thay •

đổi.

• Sử dụng phương pháp ước tính bình phương tối thiểu

15

để lựa chọn mô hình tối ưu

Mô hình hồi quy tuyến tính

Thực hiện: Analyza/ Regression/ Linear Lưu ý: Các giả định số liệu phải có phân bố chuẩn, các

16

quan sát độc lấp

Biến phụ thuộc

Biến độc lập

17

Phương pháp đưa phân tích

+ Một số phương pháp phân tích:

- Enter : tất cả các biến đưa vào đều góp mặt trong mô

hình (1 mô hình duy nhất)

- Backward: Loại bỏ dần các biến không đóng góp cho

mô hình (số biến độc lập giảm dần theo các mô hình)

- Forward: Tăng dần các biến trong mô hình

- Stepwise: Kết hợp

18

Ví dụ: Hồi quy tuyến tính đơn biến Viết phương trình tuyến tính giữa t score cổ xương đùi với

tuổi nghiên cứu

19

Phương pháp đưa biến độc lập vào mô hình

Tóm tắt mô hình ( lưu ý ý nghĩa hệ số R2)

20

Kiểm định sự tồn tại có ý nghĩa của mô hình

Coefficientsa

Model

Unstandardized

Standardized

95.0% Confidence

Coefficients

Coefficients

Interval for B

Std.

Lower

Upper

Error

B

Beta

t

Sig.

Bound

Bound

1 (Constant)

1.146

.612

1.872

.063

-.062

2.354

tuoi

-.051

.009

-.408

-5.960

.000

-.069

-.034

a. Dependent Variable: tscore_coxdui

*Lưu ý hệ số B, sig. ( giá trị p) và 95% của hệ số B

Phương trình :

21

Tscore cổ xương đùi = 1,1146 – 0,051*tuổi

Mô hình hồi quy binary logistic đơn biến

• Với biến phụ thuộc là nhị phân ( mã 0;1)

• Thường sử dụng để đo lường chỉ số nguy cơ (OR).

• Biến độc lập có thể định lượng hoặc định tính.

• Phương pháp này về nguyên tắc tương tự như mô

hình tuyến tính. Sử dụng hàm log

• Dạng :

Logit = ln(Odds) = ln[p/(1 - p)] = a + bx

22

Đo lường hệ số nguy cơ ( OR)

Bệnh Không bệnh Tổng

Phơi nhiễm a b a+b

Không phơi nhiễm c d d+d

Tổng a+c b+d a+b+c+d

Theo lý thuyết odds được tính như sau : Odd nhóm bệnh = tỷ lệ có phơi nhiễm nhóm bênh/ tỷ lệ không phơi nhiễm của nhóm bệnh = a/(a+c) / c/(a+c) = p/ (1-p) = a/c Tương tự Odd nhóm không bệnh = p’/(1-p’) = b/d

OR = odds bệnh/ Odds không bệnh = ad/bc

23

Trong mô hình hồi quy logistic thì

OR chính là ?

24

(SỬ DỤNG THUẬT TOÁN LOGIT thì OR chính là log cơ số e của hệ số hồi quy B)

Ví dụ: xây dựng mô hình logistic giữa tình trạng loãng xương

(cổ xương đùi) với trình trạng giảm chiều cao (có; không )

Biến phụ thuộc

Analyze/ Regression/Binary logistic

Biến độc lập

25

Phương pháp lựa chọn biến

Biến định tính

Lưu ý: Chọn nhóm reference tùy thuộc vào mong muốn giải thích kết qua

26

Biến định lượng

Chọn nhóm đối chứng

Test kiểm định mô hình

Chọn khoảng 95% của OR

Ngưỡng ý nghĩa của biến số đưa vào mô hình

27

Đọc từ dòng này

Số trường hợp tham gia vào mô hình, số mising

Mã code của biến phụ thuộc

28

Mô hình khi chưa đưa biến độc lập

29

Phương pháp đưa biến độc lập vào mô hình

Kiểm định mức ý nghĩa của mô hình p>0,05 mô hình tồn tại

30

Phương trình của mô hình:

Ln(Odds) = -0,421 +0,853 *giam chieu cao

Lưu ý :

Hệ số hồi quy B

Sig: giá trị p ý nghĩa của hệ số B

Exp(B) chính là tỷ suất chênh OR

31

95% CI (OR) : Khoảng tin cậy 95% của OR

Phiên giải kết quả có nhiều cách để phiên giải kết qua

Odds (x=0) = e(- 0.421+0,853*0) = e(-0.421)= 0.656 

p=0,656/1.656= 0.396

Hay mô hình giúp tiên đoán 39,6% người không bị giảm chiều cao

sẽ bị loãng xương.

Trong nhóm có giảm chiều cao:

Odds(x=1) = e(-0.421 +0,853*1) = e(0,432)=1.54

p=1,54/2.54=0,606 hay mô hình giúp tiên đoán 60,6% người bị

giảm chiều cao sẽ bị loãng xương

khác nhau : Trong nhóm không giảm chiều cao:

OR = Odds(x=1)/ Odds (x=0) = 1,54/0,656 = 2,347

Như vậy nhóm có giảm chiểu cao thì có khả năng loãng xương cao

gấp 2,35 lần so với người không giảm chiều cao.

32

BÀI TẬP

1. Tính hệ số tương quan và giải thích ý nghĩa

mối

tương giữa chỉ số:

tuổi, mạch, BMI và

huyết áp tâm trương (hattr1) của đối

tượng

nghiên cứu.

2. Viết phương trình tuyến tính giữa BMI và cân

nặng và vẽ biểu đồ thích hợp.

3. Viết phương trình tuyến tính giữa BMI và chiều

cao và vẽ biểu đồ thích hợp.

33