intTypePromotion=3

Bài giảng Thống kê y học - Bài 16: Tương quan và hồi quy tuyến tính

Chia sẻ: Nguyễn Bình Minh | Ngày: | Loại File: DOC | Số trang:21

0
46
lượt xem
8
download

Bài giảng Thống kê y học - Bài 16: Tương quan và hồi quy tuyến tính

Mô tả tài liệu
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng cung cấp các kiến thức giúp người học có thể: Vẽ phân tán đồ và sử dụng phân tán đồ để lí giải sự tương quan giữa hai biến số, trình bày được công thức và tính được hệ số tương quan của hai biến số định lượng, xây dựng được phương trình hồi quy tuyến tính của biến số phụ thuộc theo một biến số độc lập,... Mời các bạn cùng tham khảo.

Chủ đề:
Lưu

Nội dung Text: Bài giảng Thống kê y học - Bài 16: Tương quan và hồi quy tuyến tính

  1. TƯƠNG QUAN VÀ HỒI QUY TUYẾN TÍNH Mục tiêu: Sau khi nghiên cứu chủ đề học viên có khả năng: ­ Vẽ phân tán đồ  và sử dụng phân tán đồ  để lí giải sự tương quan giữa hai biến số ­ Trình bày được công thức và tính được  hệ số tương quan của hai biến số định lượng ­ Xây dựng được phương trình hồi quy tuyến tính của biến số  phụ  thuộc theo một  biến số độc lập. ­ Trình bày công thức và lí giải ý nghĩa của sai số chuẩn hồi quy. ­ Trình bày công thức của sai số chuẩn của hệ số tương quan, hệ số góc, điểm chặn  và giá trị tiên đóan thể và áp dụng trong kiểm định và ước lượng các số thống kê trên. Mục tiêu: Sau khi nghiên cứu bài này học viên có khả năng: ­ Nêu được 2 phương pháp mô tả sự quan hệ giữa hai biến số định lượng: đồ  thị và hệ số tương quan ­ Trình bày và lí giải được mối quan hệ giữa hai biến số bằng phân tán đồ ­ Nêu được ý nghĩa của hệ số tương quan, tính hệ số tương quan giữa hai biến   số (trong trường hợp số liệu đơn giản) với máy tính cầm tay ­ Xây dựng phương trình hồi quy giữa hai biến số sử dụng máy tính cầm tay ­ Kiểm định giả thuyết hệ số góc của phương trình hồi quy tuyến tính bằng không. 1. Giới thiệu Trong bài này chúng ta quan tâm đến liên hệ giữa hai biến số định lượng  và tập trung   chủ  yếu đến phương pháp tương quan và hồi quy tuyến tính để  xác định mối liên hệ  tuyến tính (linear) giữa hai biến liên tục. Tương quan (correlation) đo lường sự  chặt  chẽ  của mối liên hệ  trong khi hồi quy tuyến tính (linear regression) cho biết phương  trình đường thẳng mô tả sự liên hệ tốt nhất và cho phép tiên đoán biến số này từ biến   số khác. Bảng 9.1 Thể tích huyết tương và trọng lượng cơ thể của 8 người đàn ông khỏe mạnh Ðối trọng lượng cơ thể Thể tích huyết tương tượng (kg) (lít) 1 58,0 2,75 2 70,0 2,86 3 74,0 3,37 4 63,5 2,76 5 62,0 2,62 6 70,5 3,49 7 71,0 3,05 8 66,0 3,12
  2. 3.5 theå tích huyeát töông 3.3 3.1 2.9 2.7 2.5 55 60 65 70 75 troïng löôïng cô theå Hình 9.1 Phân tán đồ của thể tích huyết tương và trọng lượng cơ thể cùng với đường hồi quy tuyến tính
  3. – – – – – – (a) Không tương quan (b) mối liên hệ không tuyến tính – – – – (c) Tương quan dương (d) Tương quan dương hoàn không hoàn toàn toàn – – – – (e) Tương quan âm (f) Tương quan âm hoàn toàn không hoàn toàn Hình 9.2 phân tán đồ minh họa các giá trị khác nhau của hê số tương quan. Trong đây cũng có các đường hồi quy. 2. Tương quan Bảng 9.1 trình bày trọng lượng cơ  thể  và thể  tích huyết tương của 8 người đàn ông   khỏe mạnh. Để đánh giá sự liên quan giữa hai biến số định lượng trọng lượng cơ thể  và thể tích huyết tương chúng ta có thể sử dụng phân tán đồ hay hệ số tương quan r: Phân tán đồ Phân tán đồ là đồ thị  thể hiện các giá trị của các quan sát  bằng kí hiệu trên hệ toạ độ  gồm hai trục: trục hoành thể  hiện cho biến số độc lập và trục tung thể  hiện biến số  phụ  thuộc.  Hình 9.1 trình bày phân tán đồ  của thể  tích huyết tương lớn có liên quan   đến trọng lượng cơ thể cao.
  4. Hình dạng của phân tán đồ thể hiện mối liên hệ giữa hai biến số. Nếu phân tán đồ có  dạng một đám mây nằm ngang thì không có sự  liên hệ  giữa hai biến số  (hình 9.2 a).  Nếu phân tán đồ  có hình dạng ellipse đi từ  dưới bên trái lên phía trên bên phải thì hai   biến số có liên hệ thuận (hình 9.2 c và d). Nếu phân tán đồ  có hình dạng ellipse đi từ  phía trên bên trái xuống phía dưới bên phải thì hai biến số có liên hệ nghịch (hình 9.2 e  và f). Trục ngắn của ellipse càng ngắn thì mối liên hệ  càng mạnh và nếu ellipse bị  biến thành một đường thẳng thì mối tương quan được xem như là hoàn toàn (hình 9.2  d và f). Nếu hình dạng của phân tán đồ không phải là dạng ellipse hay đường thẳng thì  hai biến số  cũng có mối liên hệ  nhưng sự  tương quan này được gọi là không tuyến  tính (hình 9.2 b). Áp dụng lí luận trên chúng ta có thể xác định giữa thể tích huyết tương và trọng lượng   cơ thể có tương quan tuyến tính, thuận và không hoàn toàn. Hệ số tương quan Nếu hai biến số  định lượng có quan hệ  tuyến tính thì chúng ta có thể  đo lường mức  độ  tương quan một cách chính xác hơn bằng cách tính hệ số  tương quan (correllation   coefficient), r. Công thức tính r thể hiện bản chất của hệ số tương quan như sau: ( x x )( y y ) r (x x)2 ( y y) 2 Để tính hệ số tương quan dễ dàng hơn Chúng ta  có thể sử dụng công thức tính hệ số  tương quan như sau: ( xi x )( y i y) ( xy) / n x y n r ( xi x)2 ( yi y) 2 sx sy n 1 Trong đó x là biến số  độc lập (trọng lượng), y là biến số  phụ  thuộc (thể  tích huyết   tương), x và y là các số  trung bình tương  ứng. Phân tán đồ  minh họa những hệ  số  tương quan khác nhau đươc trình bày trong hình 9.2.  Sử  dụng công thức này để  tính toán r, trước tiên chúng ta hãy tính trung bình và độ  lệch chuẩn của biến số x và y: Trọng lượng cơ thể:  x=66.875  s=5.4166  n=8 Thể tích huyết tương  x=3.0025  s=0.31121  n=8 Tích của hai biến số  x=201.91  s=34.849  n=8 Sau đó hãy tính toán hệ số tương quan. ( xy ) / n x y n 1.086375 8 r 0.758 sx s y n 1 5.417 0.311 7 Lí giải ý nghĩa của hệ số tương quan:  ­ Hệ số tương quan luôn luôn nằm trong đoạn [­1,1]
  5. ­ Hệ số tương quan r dương chứng tỏ hai biến số là đồng biến; hệ số tương quan r âm   chứng tỏ hai biến số là nghịch biến; hệ số tương quan bằng zero nếu hai biến không   liên hệ.  ­ Trị số  tuyệt đối của hệ số tương quan r nói lên mức độ  liên quan giữa hai biến số.   Nếu trị tuyệt đối của r bằng 1 (r=1 hay r=­1), quan hệ hoàn toàn tuyến tính nghĩa là tất   cả các điểm nằm trên đường hồi quy (Hình 9.2 d và 9.2f). Nếu trị tuyệt đối của r nhỏ  hơn 1 sẽ có các điểm số liệu phân tán chung quanh đường hồi quy (hình 9.2 c và 9.2e). ­ Bình phương của hệ  số  tương quan (r2) thể  hiện tỉ  lệ  biến thiên của biến số  phụ  thuộc được giải thích bằng sự biến thiên của biến số độc lập (nếu mối liên hệ này là  nhân quả) ­ Nếu r=0, không có mối liên hệ tuyến tính giữa hai biến số. Ðiều này có nghĩa là (1)   không có mối liên hệ gì giữa hai biến số hoặc (hình 9.2a) (2) mối liên hệ giữa hai biến  số không phải là tuyến tính (hình 9.2b) ­ Theo quy  ước, quan hệ với  r từ 0,1 đến 0,3 là quan hệ yếu, từ  0,3 đến 0,5 quan hệ  trung bình và trên 0,5 là quan hệ  mạnh. Ðiều quan trọng là sự  tương quan giữa hai  biến số cho thấy sự liên hệ nhưng không nhất thiết có nghĩa là cá quan hệ 'nhân quả'.  3. Hồi quy tuyến tính Hồi quy tuyến tính cho phương trình đường thẳng mô tả  nếu biến x tăng thì biến y  tăng như thế nào. Không giống như tương quan, việc lựa chọn biến nào để làm biến y   là quan trọng bởi vì hai phương pháp không cùng cho một kết quả, y thường được gọi  là  biến  số   phụ  thuộc  (dependent  variable)  và  x là  biến  số   độc  lập hay  giải  thích   (independent or explanatory variable). Trong thí dụ này, rõ ràng chúng ta cần quan tâm  sự phụ thuộc thể tích huyết tương và trọng lượng cơ thể. Phương trình hồi quy là y = a + bx a:  là điểm chặn (intercept) hay hằng số (constant)  b: là độ  dốc (slope) của đường thẳng hay hệ  số  (coefficient) của phương trình (Hình   9.3).  Giá trị  đối với a và b được tính sao cho cực tiểu hóa bình phương khoảng cách theo  chiều   đứng   từ   các   điểm   số   liệu   tới   đường   thẳng.   Nó   được   gọi   là   phù   hợp   bình  phương tối thiểu (least squares fit) (Hình 9.4). Ðộ dốc b đôi khi được gọi là hệ số hồi  quy (regression coefficient). Nó có cùng dấu với hệ  số  tương quan. Khi không có sự  tương quan, b bằng zero, tương  ứng với một đường thẳng hồi quy nằm ngang đi qua   điểm y. ( x x )( y y ) sy b r (x x)2 sx
  6. và a = y - bx y b 1 a x Hình 9.3 Giao điểm và độ dốc của phương trình hồi quy y = a + bx. Giao điểm a là điểm mà đường thẳng cắt trục y và cho giá trị y ở x = 0. Ðộ dốc b là mức tăng của y tương ứng với sự gia tăng một đơn vị của x. Trong thí dụ này b = 8,96/205,38 = 0,0435 Và: a = 3,0025 - 0,04354 × 66,875 = 0,0907 Do đó sự  phụ  thuộc của thể  tích huyết tương vào trọng lượng cơ  thể  được mô tả  bằng Thể tích huyết tương = 0,0907 + 0,0435 × trọng lượng và được vẽ trên Hình 9.1.  Ðường hồi quy được vẽ bằng cách tính tọa độ của hai điểm của đường thẳng. Thí dụ  chúng ta có thể  tính toạ độ của đường thẳng tại giá trị x = 60 và x = 70  x = 60, y = 0,0907 + 0,0435 × 60 = 2,7032 Và x = 70, y = 0,0907 + 0,0435 × 70 = 3,1386 Như  vậy đường thẳng hồi quy phải đi qua điểm (60, 2.7) và (70, 3.1).   Hiển nhiên   đường thẳng phải đi qua điểm (x,y) = (66.9 , 3.0)
  7. 4. Kiểm định và ước lượng trong tương quan và hồi quy Khái niệm về phương sai phần dư 3.5 theå tích huyeát töông 3.3 3.1 2.9 2.7 2.5 55 60 65 70 75 troïng löôïng cô theå Hình 9.4 Ðường thẳng hồi quy tuyến tính, y = a + bx, được làm phù hợp bằng bình phương tối thiểu, a và b được tính để cực tiểu hóa tổng bình phương của các độ lệch thẳng đứng (vẽ bằng các đường thẳng đứng) của các điểm đối với đường thẳng, mỗi độ lệch bằng hiệu số giữa số y quan sát và tiểm tương ứng trên đường thẳng a + bx Do các giá trị  của các  quan sát không nằm trên một đường thẳng nên chúng có một   khoảng cách áo với phương trình hồi quy. Con số  thể  hiện mức độ  phân tán của số  liệu quanh đường thẳng hồi quy được gọi là sai số  chuẩn của hồi quy (standard error   of regression).  Sai số chuẩn của hồi quy được tính theo công thức sau: 2 (y y )2 ( y a bx) s n 2 n 2 Sai số chuẩn của hồi quy còn được triển khai thêm như sau ( y ( y bx ) bx) 2 (y y) 2 b 2 ( x x)2 s ( n 2) ( n 2) 2 2 n 1 2 2 n 1 1 r2 2 1 r2 s (s y b s ) x sy (1 r ) sy n 1 (y y) n 2 n 2 n 2 n 2 1 r2 s (y y) 2 n 2 s là độ lệch chuẩn của các điểm số liệu so với đường thẳng, có (n­2) độ tự do. 0.6780 0.0436 2 205.38 s 0.2189 6  
  8. n 1 8 1 s ( s y2 b 2 s x2 ) (0.3112 0.0436 2 5.417 2 ) 0.21855 hoặc      n 2 8 2 1 r2 s sy n 1 0.311 7 0.265 0.218321 n 2 Điều này có nghĩa là nếu ta áp dụng phương trình hồi quy để  tiên đoán thể  tích huyết  tương thì chúng ta không thể tiên đoán một cách chính xác: chúng ta sẽ mắc một sai số  trung bình là 0.218. Bình phương của sai số hồi quy được gọi là phương sai phần dư: 2 2 2 2 n 1 2 1 r2 s (s y b s ) x s y (n 1) n 2 n 2 Kiểm định ý nghĩa hệ số tương quan Khi chúng ta đã có hệ số tương quan, có hai phương pháp kiểm định hệ số tương quan  này. Một phương pháp để  kiểm định giả  thuyết Ho: hệ  số tương quan r = 0  và một  phương pháp kiểm định giả thuyết Ho: hệ số tương quan r = ρ (với ρ ≠  0)  ­ Kiểm định t được dùng để  xem r có khác zero một cách có ý nghĩa hay không. Nói   cách khác đi, kiểm định này để  xem sự  tương quan quan sát được có phải là thực sự  này chỉ do tình cờ. Việc kiểm định này dựa trên cơ sở của công thức ước lượng sai số  chuẩn của r: s.e.(r) = (1­r2)/(n­2) 1 r2 s s.e.( r ) n 2 (y y)2 n 2 t r , d. f . n 2 1 r2 Thí dụ để kiểm định giả thuyết hệ số tương quan giữa thể tích huyết tương và trọng   lượng cơ thể bằng không, chúng ta tiến hành các tính toán sau: 1 r2 1 0.76 2 s.e.(r ) 0.265 n 2 8 2 8 2 t 0.76 2.86, d . f . 6 1 0.76 2 Ðiều này có ý nghĩa  ở  mức 5% xác nhận ý nghĩa của sự  liên hệ  giữa thể  tích huyết   tương và trọng lượng cơ thể Mức ý nghĩa phụ thuộc của cả vào độ lớn của mối tương quan và số các quan sát. Lưu  ý rằng tương quan yếu có thể có ý nghĩa thống kê nếu nó dựa trên một số lớn quan sát,   trong khi sự tương quan mạnh có thể  không đạt được mức ý nghĩa nếu chỉ  có một ít   quan sát.
  9. ­ Kiểm định z để  kiểm định giả thuyết Ho: hệ số tương quan r = ρ (với ρ ≠  0) Trước tiên chúng ta tìm hiểu về phép biến đổi z của Fisher. Fisher đã chứng minh z(r)  (đọc là hàm số z của hệ số tương quan r): 1 1 r z (r ) ln 2 1 r sẽ có phân phối bình thường với trung bình là z(ρ) và độ lệch chuẩn là √1/(n­3) Như vậy để kiểm định hệ số tương quan r = ρ (với ρ ≠  0), chúng ta phải tính: 1 1 r z (r ) ln 2 1 r 1 1 z( ) ln 2 1  (chúng ta lưu ý nếu ρ = 0 thì hàm số  z của ρ sẽ  trở  thành  không xác định) z (r ) r ( ) z z (r ) r ( ) n 3 1 /(n 3) và    Thí dụ  giả  sử    tác giả  X tìm được hệ  số  tương quan giữa thể  tích huyết tương và  trọng lượng cơ thể là 0.4, hãy kiểm định xem hệ số  tương quan chúng ta đã tìm ra có  thực sự lớn hơn hệ số tương quan được báo cáo do tác giả X hay không: Chúng ta tính được: 1 1 r 1 1 0.76 z (r ) ln ln 0.9962 2 1 r 2 1 0.76 1 1 1 1 0.4 z( ) ln ln 0.4236 2 1 2 1 0.4   z (r ) r ( ) 0.9962 0.4236 z 1.280 1 /(n 3) 1 /(8 3) và    Tra bảng phân phối chuẩn một đuôi chúng ta tính được giá trị p > 0.05 vì vậy chúng ta   không có bằng chứng thống kê để cho rằng hệ số tương quan của chúng ta tìm ra thực   sự lớn hơn 0.4. Sai số chuẩn của các ước lượng dùng phương trình hồi quy Đường thẳng hồi quy cũng tương tự  như các giá trị  thống kê  các đều có khả  năng bị  sai số và phương trình  hồi quy được tính từ  một mẫu  chỉ là ước lượng cho phương  trình hồi quy thực sự của toàn bộ dân số.  Giá trị a và b là các ước lượng mẫu của giá trị giao điểm và độ dốc của đường thẳng  hồi quy mô tả mối liên hệ tuyến tính giữa x và y trong toàn bộ dân số. Do đó chúng bị  các biến thiên lấy mẫu và độ chính xác của chúng có thể đo lường bằng sai số chuẩn.   Từ sai số chuẩn chúng ta có thể dễ dàng tính được khoảng tin cậy của các ước lượng   này hay kiểm định chúng có khác với một giá trị cụ thể nào hay không Sai số chuẩn của a
  10. Sai số chuẩn của a được tính theo công thức sau 1 x2 s.e.( a ) s n ( x x )2 khoảng tin cậy của a : a ± tc × s.e.(a) Và để kiểm định a có khác so với α a t , d. f . n 2 s.e.(a ) 1 66.9 2 s.e.(a) 0.2819 1.3197 8 205.38 Áp dụng vào thí dụ ở trên ta có  Khoảng tin cậy 95% của điểm chặn a bằng: Khoảng tin cậy 95% :  a ± tc × s.e.(a)  = 0.0857 ± 2.45 × 1.3197 = ­3.148 – 3.319 Một nghiên cứu trước đây đã báo cáo phương trình hồi quy của thể tích huyết tương   theo cân nặng với giá trị điểm chặn a là 2.1.  Có thể kiểm định giá trị điểm chặn trong   nghiên cứu của chúng ta có khác với giá trị 2.1 đã báo cáo hay không bằng phép kiểm t: a 0.0857 2.1158 2.0301 t 1.53, d . f . n 2 s.e.(a ) 1.3197 1.3197 tra bảng ta có p >0.05 (p = 0.177) chúng ta không thể bác bỏ giả thuyết Ho và như vậy  chúng ta có thể  kết luận không có sự  khác biệt có ý nghĩa thống kê về  giá trị  điểm   chặn của nghiên cứu của chúng ta và nghiên cứu đã báo cáo. Sai số chuẩn của b Sai số chuẩn của b được tính theo công thức sau s s.e.(b) (x x)2 khoảng tin cậy của b : b ± tc × s.e.(b) Và để kiểm định b có khác so với β b t , d. f . n 2 s.e.(b) Thí dụ: Áp dụng vào trường hợp phương trình hồi quy của thể tích huyết tương theo cân nặng  s 0.2189 s.e.(b) 0.0153 ( x x ) 2 205.38 ta được:   Giả  sử  chúng ta muốn  kiểm định xem b có khác biệt có ý nghĩa với zero hay không.   Kiểm định này cho kết quả 
  11. b 0.0436 t 2.85 s.e.(b) 0.0153 Lưu ý kết quả này giống như kết quả của kiểm định hệ  số  tương quan có kác không   hay không. Với  giá trị  2,85 chúng ta có thể  kết luận thể  tích huyết tương tăng có ý  nghĩa (P0.05 (p = 0.41) chúng ta không thể bác bỏ giả thuyết Ho và như vậy  chúng ta có thể kết luận không có sự khác biệt về hệ số góc của phương trình hồi quy   của chúng ta với tài liệu nêu trên. Khoảng tin cậy 95% của hệ số góc b bằng: Khoảng tin cậy 95% :  b ± tc × s.e.(b) = 0.0436 ± 2.45 × 0.0153 = 0.006 – 0.081 Tiên đoán Trong một số  tình huống, có thể  sử  dụng phương trình hồi quy để  tiên đoán giá trị  y  cho một giá trị đặc biệt của x được gọi là x'. Giá trị tiên đoán là: y' = a + bx' Và sai số chuẩn của nó là 1 ( x' x ) 2 s.e.( y ' ) s 1 n ( x x )2    Sai số chuẩn này tối thiểu khi x' gần với trung bình x. Nói chung phải thận trọng khi  sử dụng đường hồi quy để  tính các giá trị  ngoài phạm vi của x trong số liệu gốc, bởi  vì quan hệ tuyến tính không nhất thiết sẽ đúng ở ngoài phạm vi mà nó được làm phù   hợp. Khoảng tin cậy của tiên đoán: y' ± tc × s.e.(y') với  tc tra từ  bảng t (student) với  n­2 độ  tự  do Trong thí dụ này, sự đo lường thể tích huyết tương tốn nhiều thời gian và do đó trong   một số  trường hợp, có thể  tiên đoán từ  trọng lượng cơ  thể. Thí dụ  thể  tích plasma  huyết tương của một người đàn ông nặng 66 kg là 0,0832 + 0,0436 × 66 = 2,96 lít Và sai số chuẩn bằng
  12. 1 ( x' x ) 2 1 (66 66.9) 2 s.e.( y ' ) s 1 0.218 1 0.23l n (x x)2 8 205.38 Khoảng tin cậy 95% của giá trị tiên đoán y' là  y ±  tc× s.e.(y') với tc được tra từ bảng t (hai đuôi) với n­2 độ tự do 5. Giả thiết Có hai giả thiết nền tảng trong phương pháp hồi quy tuyến tính. Giả thiết thứ nhất là   đối với bất cứ giá trị  x nào, y có phân phối bình thường. Giả  thiết thứ  hai là độ  phân   tán của các điểm quanh đường thẳng là như nhau trong suốt đoạn thẳng. Ðộ  phân tán  được đo lường bằng độ lệch chuẩn s của các điểm số liệu so với đường thẳng như đã  định nghĩa ở trên. Sự thay đổi thang đo có thể thích hợp nếu các giả thuyết trên không  thỏa hay quan hệ dường như phi tuyến tính (xem Chương 19). Các quan hệ  phi tuyến   được thảo luận ở chương 10. 6. Bài tập Bài tập1: Một nhà nghiên cứu tìm hiểu mối liên hệ  giữa hai biến số: biến số  giải thích x là   lượng chì trong máu tính bằng µm /100mL và biến số  phụ  thuộc y: số  bất thường   nhiễm sắc thể  trong 100 tế  bào (Forni et al., 1995) trên 30 nữ  công nhân nhà máy  acquy. Số liệu ghi nhận được như sau: x  = 36.37; y = 5,97; Σxy=6974,237; Σx2 = 42986,28 ; Σy2 = 1502,20. a. H ãy tính hệ số tương quan r b. Kiểm định hệ số tương quan này có thực sự khác không hay không? c. Viết phương trình hồi quy của số bất thường nhiễm sắc thể trong 100 tế bào theo   lượng chì trong máu. d. Tính sai số chuẩn của độ dốc của phương trình hồi quy. e. Kiểm định giả thuyết: độ dốc của phương trình hồi quy bằng zero (hai đuôi) Bài làm bài tập 1 a. Từ các thông tin kể trên chúng ta có thể xây dựng bảng các giá trị thống kê như sau: n=30; Σxy=6974,237 ước lượng Biến   độc   lập:   Biến   phụ   thuộc: Lượng chì trong máu Số đột biến nhiễm sắc thể  Trung bình 36.67 5.97 độ lệch chuẩn 9.5513  3.8639 Căn Tổng  bình phương độ  51.435  20.808 lệch
  13. và tính được hệ số tương quan  r ( xy ) / n x y n 6974.237 / 30 36.67 5.97 30 r 0.37995 sx s y n 1 9.5513 3.8639 29 b. Kiểm định r=0 ­ Xây dựng giả thuyết Ho: r=0; đối thuyết Ha: r0 ­  Sử dụng kiểm định t  2 đuôi với độ tự do = 28;  Ta có thể xác định t tới hạn: tc=2,05 ­ Tính giá trị t 1 r2 1 0,38 2 s.e.(r ) 0,0306 0,175 n 2 28 r 0,385 t 2,20 s.e.(r ) 0,175 ­ Tìm p: tra bảng t (bảng student) với 28 độ tự do ta có p  tc= 2.05 ta kết luận p 
  14. Ta có thể xác định t tới hạn: tc=2,05 ­ Tính giá trị t b 0 0,1537 t 2,17 s.e.(b) 0,0707 ­ Tìm p: tra bảng t (bảng student) với 28 độ tự do ta có p  tc= 2.05 ta kết luận p 
  15. Bài làm bài tập 2 a. Từ các số liệu trên ta có thể tính các số thống kê như sau: n=21; Σxy/n=4283.2 ước lượng Biến   độc   lập:   Biến   phụ   thuộc: Mức độ cốt hoá Chiều cao Trung bình 40.19 106.1 độ lệch chuẩn 9.5217 4.276 Căn Tổng  bình phương độ  42.582 19.123 lệch và tính được hệ số tương quan  r ( xy ) / n x y n 4283.2 40.19 106.1 21 r 0.49105 sx s y n 1 9.5217 4.276 20 b. Kiểm định r=0 ­ Xây dựng giả thuyết Ho: r=0; đối thuyết Ha: r>0 ­  Sử dụng kiểm định t một đuôi với độ tự do = 19 ta có giá trị t tới hạn tc =1.73 ­ Tính giá trị t 1 r2 1 0,49105 2 s.e.(r ) 0,03994 0,19985 n 2 19 r 0,49105 t 2,457 s.e.(r ) 0,19985 ­ Tìm p: tra bảng t (bảng student) với 19 độ tự do ta có p  tc = 1.73 nên p 
  16. Độ lệch chuẩn hồi quy bằng: 2 1 r2 1 0.49105 2 s ( y y) 19.123 19.123 0.19985 3.8217 n 2 21 2 Sai số chuẩn của độ dốc b: s 3.8217 s.e.(b) 0,08975 (x x) 2 42.582 e. Để  trả  lời câu hỏi trên chúng ta phải kiểm định giả  thuyết độ  dốc phương trình ở  trẻ hồng cầu liềm bằng với độ dốc phương trình ở trẻ em bình thường = 0.4 ­ Xây dựng giả thuyết Ho: b=0.4: Ha: b
  17. Chiều cao Cân nặng Trung bình 160.5 51.525 độ lệch chuẩn 7.4943 9.0637 Căn Tổng  bình phương độ  19.828 23.98 lệch và tính được hệ số tương quan  r ( xy ) / n x y n 8326.9 160.5 51.525 8 r 0.96134 sx s y n 1 7.4943 9.0637 7 b. Ðể xác định hệ số tương quan tính được r = 0,96 có lớn hơn giá trị 0,75, ta có thể sử  dụng kiểm định z (một đuôi)  và phép biến đổi Fisher  z(r)=  ln[(1+r)/(1­r)]/2  ­ Xây dựng giả thuyết Ho: z(r)=z(0,75); Ha: z(r)>z(0.75) ­  Sử dụng kiểm định z một đuôi; giá trị tới hạn zc=1.64 ­ Tính giá trị z 1 1 r 1 1 0,96134 z (0,96134) ln ln 1,9633 2 1 r 2 1 0,96134 1 1 r 1 1 0,75 z (0,75) ln ln 0,97296 2 1 r 2 1 0,75 1 s.e.( z ) 0,447 n 3 z (r ) z ( ) 1,9633 0,97296 0,99034 z 2,215 1 /( n 3) 1/ 5 0,447 ­ Tìm p: tra bảng z ta có p =P(|z|>2,19)  zc = 1.64 chúng ta kế luận p 
  18. Độ lệch chuẩn hồi quy bằng: 1 r2 2 1 0.96134 2 s ( y y) 23.98 23.98 0.11242 2.6958 n 2 8 2 Sai số chuẩn của tiên đoán: 2 1 ( x' x ) 2 1 160 160,5 s.e.( y ' ) s 1 2.6958 1 2,8601 n (x x)2 8 19.828 Ứng với chiều cao là 160, trọng lượng tiên đoán là: Cân nặng (kg) = ­135.1 + 1,163 × 160 = 50,98 Vì vậy khoảng tin cậy 95% của trọng lượng tiên đoán là: y ±  tc× s.e.(y') với tc được tra từ bảng t (hai đuôi) với n­2 độ tự do 50.98 ±  2.45 ×  2.8601 = 43,97 đến 57,99 kg Bài tập 4: Ghi nhận trọng lượng (kg) và tuổi thai (tuần tuổi) của 515 trẻ  sơ sinh sinh tại trung   tâm y tế huyện X được trình bày trong bảng sau: Tuần tuổi 2.5­3.0 3.0­3.5 3.5­4.0 Tổng cộng 34­36 14 1 0 15 36­38 42 20 9 71 38­40 60 138 71 269 40­42 20 81 59 160 Tổng cộng 136 240 139 515 a. Hãy tính hệ số tương quan giữa tuổi thai và trọng lượng sơ sinh.   b. Có phải có sự tương quan thuận giữa tuổi thai và trọng lượng sơ sinh hay không? c. Viết phương trình hồi quy của cân nặng so sinh dựa trên tuần tuổi. d. Hãy tính khoảng tin cậy 95% của trọng lượng tiên đoán  của trẻ sơ sinh có tuổi thai  là 40 tuần. e. Hãy  ước lượng khoảng tin cậy 95% của hệ  số  góc của phương trình hồi quy. Lí  giải khoảng tin cậy nói trên. Bài làm bài tập 4 a. 
  19. Sử  dụng giá trị  trung bình của mỗi nhóm là giá trị  của tất cả  các quan sát trong một   nhóm, ta có thể trình bày số liệu như sau: Tuần tuổi 2.75 3.25 3.75 Tổng cộng 35 14 1 0 15 37 42 20 9 71 39 60 138 71 269 41 20 81 59 160 Tổng cộng 136 240 139 515 Sử dụng máy tính cầm tay với chức năng thống kê để tính x, sx, y, sy.  ­ Sử dụng chức năng nhớ của máy tính để tính tổng ∑xy = 35 ×  14  ×  2.75 +  35 ×  1  ×  3.25 + .....+ 41 ×  59  ×  3.5 = 65 818.25 (gồm tổng cộng 12 số hạng) a. Từ các số liệu trên ta có thể tính các số thống kê như sau: n=515; ∑xy = 65818.25 ;  ∑xy/n=127.80 ước lượng Biến   độc   lập:   Biến   phụ   thuộc: Tuổi thai (tuần) Cân nặng (kg) Trung bình 39.229 3.2529 độ lệch chuẩn 1.4873 0.36571 Căn Tổng  bình phương độ  19.828 23.98 lệch và tính được hệ số tương quan  r ( xy ) / n x y n 127.80 39.229 3.2529 515 r 0.35365 sx s y n 1 1.4873 0.36571 514 b. Kiểm định r=0 ­ Xây dựng giả thuyết Ho: r=0 (không có sự tương quan giữa tuổi thai và trọng lượng   sơ sinh): Ha: r>0 (trọng lượng sơ sinh và tuổi thai có tương quan thuận) ­  Sử dụng kiểm định t (một đuôi) với 513 độ  tự  do. Phân phối t với 513 độ  tự  do có   thể được xem là phân phối chuẩn.   Giá trị  t tới hạn: tc = 1.64 ­ Tính giá trị t 1 r2 1 0,35365 2 s.e.(r ) 0,0017056 0,0413 n 2 513
  20. r 0,35365 t 8,563 s.e.(r ) 0,0413 ­ Tìm p: tra bảng t (bảng student) với vô cực độ tự do ta có p  tc = 1.64, ta kết luận p 

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản