intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

TƯƠNG QUAN TUYẾN TÍNH (Linear correlation)

Chia sẻ: Nguyen Uyen | Ngày: | Loại File: PDF | Số trang:8

285
lượt xem
20
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Phân tích tương quan (Correlation) là kỹ thuật rất thường dùng trong thống kê y học nhằm khảo sát mối liên quan giữa 2 biến số đo trên cùng các đối tượng thông qua hệ số tương quan (correlation coefficient). Có nhiều loại hệ số tương quan (HSTQ) nhưng bài này chỉ trình bày hệ số tương quan r của Pearson (Pearson r correlation coefficient). Pearson r là số đo mối liên quan tuyến tính của 2 biến số, và được sử dụng khi 2 biến số thuộc thang đo lường tỉ số hoặc thang khoảng. ...

Chủ đề:
Lưu

Nội dung Text: TƯƠNG QUAN TUYẾN TÍNH (Linear correlation)

  1. TƯƠNG QUAN TUYẾN TÍNH (Linear correlation) I. GIỚI THIỆU Ph ân tích tương quan (Correlation) là k ỹ thuật rất th ường dùng trong thống kê y h ọc nhằm khảo sát mối liên quan giữa 2 biến số đo trên cùng các đối tư ợng thông qua hệ số tương quan (correlation coefficient). Có nhiều loại hệ số tương quan (HSTQ) nhưng bài này chỉ trình bày h ệ số tương quan r của Pearson (Pearson r correlation coefficient). Pearson r là số đo mối liên quan tuyến tính của 2 biến số, và được sử dụng khi 2 biến số thuộc thang đo lường tỉ số hoặc thang khoảng. II. CÁCH TÍNH và ĐẶC ĐIỂM CỦA PEARSON r Để tính được Pearson r, cần phải đo dược 2 biến số, x và y – thí dụ, chiều cao (x) và cân n ặng (y). Các số đo này ph ải được lấy thành cặp đối với từng thành viên của 1 mẫu ngẫu nhiên đơn giản rút ra từ 1 dân số.  xy Công thức tính: r 2 2 x  y
  2. ĐẶC ĐIỂM: + Giá trị của Pearson r nằm trong khoảng – 1 đến +1. Một HSTQ bằng –1 cho th ấy 2 biến số có mối liên quan nghịch chiều tuyệt đối (perfect negative relationship) (liên quan ngh ịch chiều: x tăng, y giảm; x giảm, y tăng). Một HSTQ bằng +1 cho thấy 2 biến số có mối liên quan thuận chiều tuyệt đối. (perfect positive relationship) (liên quan thuận chiều : x tăng, y tăng; x giảm, y giảm) Một HSTQ bằng 0 cho thấy không có mối liên quan giữa 2 biến số. + Giá trị tính đ ược của Pearson r không phụ thuộc vào các đơn vị của x và y. + Giá trị của Pearson r bị ảnh hưởng rất nhiều bởi giá trị cực (giống như ĐLC). + Giả định cơ b ản của Pearson r là mối liên quan giữa 2 biến số là mối liên quan tuyến tính. Do vậy, việc dựng các biểu đồ phân tán (scatter diagram) với x ở trục ngang và y ở trục dọc của đồ thị sẽ giúp đánh giá mối liên quan giữa 2 biến số. Nếu các điểm (trên đồ thị) nằm sát
  3. 1 đư ờng thẳng hướng chéo lên trên hoặc chéo xuống dưới thì 2 biến số đ ược xem là có mối liên quan tuyến tính, và việc sử dụng Pearson r là hoàn toàn thích hợp. A B C D E F Hình 1. Scatter plot và correlation. A: r = +1; B: r = 0,7; C: r = –0,9; D: r =–0,4; E: r = 0,0; F: r = 0,0 III. KIỂM ĐỊNH GIẢ THUYẾT VỀ PEARSON r Pearson r là số thống kê tính được từ 1 mẫu rút ra từ 1 dân số có hệ số tương quan ρ (đọc là rho). Khi tính r, chúng ta quan tâm đến việc tìm hiểu xem ρ ra sao, và điều này được thực hiện qua phép kiểm định gỉa thuyết về ρ. H0 : ρ = 0 ρ≥0 ρ≤0 HA: ρ ≠ 0 ρ0 n2 Dùng số kiểm định tỉ số t (t ratio) khi ρ trong H0 có số không tr 1 r 2
  4. 1 1 r Dùng số kiểm định zr (Fisher Z transformation) zr  ln 2 1 r khi ρ trong H0 là một số bất kỳ không phải bằng không Thí dụ minh họa: Tìm và kiểm định mối liên quan giữa thời gian nằm việc (Length of Stay –LOS) và viện phí (Total charges) trên nhóm b/n bị phù phổi và suy hô hấp (DRG 087). B/n LOS Vphí B/n LOS Vphí (USD) (USD) (x) (x) (y) (y) 1 1 6,507 18 4 9 ,389 2 2 8,771 19 5 9 ,660 3 2 6,971 20 5 15,106 4 2 7,405 21 5 16,289 5 3 11,290 22 5 8 ,285
  5. 6 3 8,944 23 6 12,893 7 3 11,133 24 6 14,840 8 3 4,304 25 7 17,375 9 3 6,702 26 7 16,925 10 3 12,143 27 8 16,892 11 3 5,867 28 8 12,462 12 3 11,061 29 8 16,955 13 3 9,494 30 8 21,754 14 4 10,920 31 9 20,830 15 4 14,917 32 10 23,915 16 4 8,222 33 10 27,245
  6. 17 4 10,566 34 12 41,410 1/ Số liệu: (như trên) 2/ Giả định: 2 b iến số LOS và viện phí cùng biến thiên trong 1 phân phối hợp có dạng phân ph ối b ình thường (gọi là PPBT nh ị biến – bivariate normal distribution); mẫu ngẫu nhiên. 3/ Giả thuyết: H0: ρ = 0 HA: ρ ≠ 0 α = 0,05
  7. n2 4/ Số TKKĐ: tr 1 r 2 5/ Phân phối của số TKKĐ: phân phối t với 32 df khi H0 đúng và các giả định được thỏa. 6/ Qui tắc quyết định: giá trị tới hạn của t ở 32 df đối với test 1 đuôi là 0,287. Nếu t tính được lớn hơn 0,287 thì từ chối H0. 7/ Tính số TKKĐ: với r = 0,88 n2 34  2 tr  0,88  0,88(16,3)  14, 3 2 1 r 1  0.88 8/ Quyết định thống kê: Từ chối H0 vì số TKKĐ bằng 14,3 (> 0,287). 9/ Kết luận: Trong dân số b/n phù phổi và suy hô h ấp (DRG 087), LOS và viện phí có mối tương quan tuyến tính với nhau. p = 0,0001. IV. CÁC GHI NHỚ QUAN TRỌNG + Hai biến số có tương quan với nhau không nhất thiết phải có mối liên hệ nhân- qu ả (không thể kết luận rằng LOS làm tăng viện phí.)
  8. + Cỡ mẫu đóng vai trò quan trọng trong tính toán pearson r. r nhỏ có thể có ý nghĩa thống kê khi cỡ mẫu lớn, trong khi r lớn có thể không có ý nghĩa thống kê khi cỡ mẫu nhỏ. + Hệ số quyết định (coefficient of determination) r2 là một giá trị quan trọng. r2 cho biết bao nhiêu phần thay đổi (biến thiên) của Y được qui là do X, và ngược lại. (Trong thí dụ minh họa chúng ta có r2=0,774 (0,88)2. Có thể kết luận là 77,4% các biến thiên trong viện phí của DRG 087 được giải thích là do LOS của b/n). Hệ số quyết định giúp đánh giá tốt h ơn độ mạnh của mối liên hệ giữa 2 biến số. -------------------------------------------------------------------------------------------------------- --------------------------------------
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
4=>1