intTypePromotion=3

Bài giảng Phương pháp nghiên cứu khoa học - Bài 21: Thống kê phân tích biến số định lượng với Stata

Chia sẻ: Nguyễn Bình Minh | Ngày: | Loại File: DOC | Số trang:28

0
47
lượt xem
9
download

Bài giảng Phương pháp nghiên cứu khoa học - Bài 21: Thống kê phân tích biến số định lượng với Stata

Mô tả tài liệu
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng "Phương pháp nghiên cứu khoa học - Bài 21: Thống kê phân tích biến số định lượng với Stata" trình bày sơ lược lí thuyết về so sánh 2 trung bình, sơ lược lí thuyết về so sánh các trung bình của 3 nhóm, nhắc lại lí thuyết về Tương quan và ước lượng,... Mời các bạn cùng tham khảo nội dung chi tiết.

Chủ đề:
Lưu

Nội dung Text: Bài giảng Phương pháp nghiên cứu khoa học - Bài 21: Thống kê phân tích biến số định lượng với Stata

  1. Thống kê phân tích biến số định lượng với Stata Sơ lược lí thuyết về so sánh 2 trung bình Kiểm định t dùng để  so sánh 2 trung bình của của biến số  định lương có phân phối  bình thường. Kiểm định t gồm có (a) Kiểm định t bắt cặp để so sánh trung bình trước   và sau khi can thiệp trên một nhóm và (b) kiểm định t không bắt cặp để so sánh trung   bình của 2 nhóm độc lập.  Có hai loại kiểm định t không bắt cặp (khi so sánh trung bình của 2 nhóm độc lập).  Kiểm định t có giả  định 2 phương sai bằng nhau   và kiểm định t không có giả  định  phương sai bằng nhau. Hai loại kiểm định này có chung nguyên lí nhưng khác nhau   trong cách tính toán độ tự do (của kiểm định t) và cách tính sai số chuẩn. Kiểm định t không bắt cặp giả định 2 phương sai bằng nhau Kiểm định t không bắt cặp giả  định 2 phương sai bằng nhau dùng để  so sánh trung   bình của 2 nhóm độc lập và đòi hỏi 2 giả định. ­ Các giá trị của biến số của cả 2 dân số có phân phối bình thường ­ Ðộ lệch chuẩn ở 2 nhóm dân số là bằng nhau. Nếu chúng ta kí hiệu: x1 : giá trị trung bình ở nhóm 1 x2 : giá trị trung bình ở nhóm 2 n1 : cỡ mẫu của nhóm 1 n2 : cỡ mẫu của  nhóm 2 s1 2 : phương sai ở nhóm 1 s22 : phương sai ở nhóm 2 Chúng ta có thể xác định độ tự do, sai số chuẩn và giá trị của thống kê t theo công thức   sau: ­ Độ tự do của kiểm định t: df = n1 + n2 ­ 2 se s p 1 / n1 1 / n2 ­ Sai số chuẩn:   với  (n1 1) s12 (n2 1) s22 sp (n1 1) (n2 1) x1 x2 x1 x2 t se sp 1 / n1 1 / n2 ­ Giá trị thống kê t:  Sau khi tính được giá trị thống kê t, người ta tra bảng phân phối t với (n1 +n1 ­ 2) độ tự  do và tính được xác suất p. Thông thường nếu p 
  2. ­ Các giá trị của biến số của cả 2 dân số có phân phối bình thường Nếu chúng ta kí hiệu: x1 : giá trị trung bình ở nhóm 1 x2 : giá trị trung bình ở nhóm 2 n1 : cỡ mẫu của nhóm 1 n2 : cỡ mẫu của  nhóm 2 s1 2 : phương sai ở nhóm 1 s22 : phương sai ở nhóm 2 Chúng ta có thể xác định độ tự do, sai số chuẩn và giá trị của thống kê t theo công thức   sau: ­   Độ   tự   do   của   kiểm   định   t   (theo   công   thức   của   Satterthwaite):   2 s12 s 22 n1 n2 d. f . s14 s 24 n12 (n1 1) n 22 (n2 1) s12 s22 se n1 n2 ­ Sai số chuẩn:    x1 x2 x1 x2 t se s12 s22 n1 n2 ­ Giá trị thống kê t:  Sau khi tính được giá trị thống kê t, người ta tra bảng phân phối t với độ tự do phù hợp   (như tính toán ở trên) và tính được xác suất p. Thông thường nếu p 
  3. sánh giá trị trung bình của FEV1A và  FEV1B ó kiểm định hiệu số (FEV1A ­ FEV1B)=0 ­ Phép kiểm định này được gọi là kiểm định t bắt cặp. Kiểm định t bắt cặp là trường   hợp đặc biệt của kiểm định t một mẫu. Tóm lại kiểm định t bắt cặp là kiểm định được sử  dụng khi thiết kế  nghiên cứu cho   một đối tượng (hay 2 đối tượng rất giống nhau) được thử  nghiệm 2 loại thuốc khác   nhau. Kiểm định phi tham số Nếu phân phối không phải là bình thường (thí dụ như bị lệch dương), có thể sử dụng  phép biến đổi (thường là biến đổi log) để  đưa phân phối về  bình thường hoặc dùng   test phi tham số. Kiểm định phi tham số có ưu điểm là không đòi hỏi giả định về phân   phối của biến số  định lượng nhưng có khuyết điểm là không thể   ước lượng được   tham số, đó là như  không thể   ước lượng khoảng tin cậy 95% hiệu số của trung bình   giữa 2 nhóm. Sơ lược lí thuyết về so sánh các trung bình của 3 nhóm. Khi chúng ta cần so sánh trung bình của nhiều nhóm, chúng ta không thể  dùng nhiều  kiểm  định t để  so sánh từng cặp của nhóm vì như  vậy chúng ta sẽ  làm tăng nguy cơ  của sai lầm loại 1. Phương pháp thích hợp để  được dùng cho trường hợp này được   gọi là test ANOVA. Test ANOVA (phân tích phương sai) được xem như  là sự  tổng   quát hóa của test t (test t dùng cho 2 nhóm và test ANOVA dùng cho 2 hay nhiều hơn  các nhóm). Ðiều kiện để  test ANOVA hợp lệ là các giá trị  có phân phối bình thường   và phương sai của các nhóm xấp xỉ nhau. Trong kết xuất của test ANOVA, chúng ta thấy có sự hiện diện của thống kê F (thống   kê Fisher). Trong trường hợp chỉ có 2 nhóm, thống kê F chính xác bằng bình phương   của thống kê t và 2 phương pháp cho ra cùng một mức ý nghĩa. ến BPT:  định lượng  BPT:  thứ tự BPT:  danh định Đúng Đúng Đúng Kiểm định χ 2 Phân ph ối bình th  BPT: phân ph ối bình  ường Kiểm định phi tham  Không  đồng  nhất thường số Đúng ≤ 2 nhóm Trên 3 nhóm Phương sai đồng nhất Đúng Phương sai đồng nhất Không  đồng  nhất Đồng nhất Đồng nhất Kiểm định t Kiểm định t  ANOVA PS không đồng nhất
  4. BPT:  định lượng  BPT:  thứ tự BPT:  danh định Đúng Đúng Đúng Kiểm định χ 2 Phân ph ối bình th  BPT: phân ph ối bình  ường Kiểm định phi tham  Không  đồng  nhất thường số Đúng ≤ 2 nhóm Trên 3 nhóm Phương sai đồng nhất Đúng Phương sai đồng nhất Không  đồng  nhất Đồng nhất Đồng nhất Kiểm định t Kiểm định t  ANOVA PS không đồng nhất Hình 1. Giải thuật lựa chọn kiểm định phù hợp cho biến số  phụ  thuộc là biến định  lượng Thực hành 1­ Mở tập tin ivf_v2. Chúng ta hãy khởi động Stata. Mở tập tin ivf_v2.dta bằng cách sử  dụng menu File  ::  Open hay nhấp vào nút công cụ  Open file (Use),   nằm  ở  vị  trí thứ  hai của thanh   công cụ.  Khi đó hộp thoại Use New Data sẽ hiện ra. Nhấp vào mũi tên bên phải hộp   Look in để chọn ổ đĩa thích hợp và dùng con chuột nhấp vào các thư mục để chọn thư  mục có chứa số liệu. Khi gập tập tin số liệu ivf_v2.dta, nhấp đúp vào tên tập tin này   để mở tập tin (hoặc nhấp vào tập tin này để tên tập tin rơi vào hộp File Name rồi sau   đó nhấp vào nút lệnh Open để  mở  tập tin). Cần nhớ nhấp vào nút công cụ  Stata Log  nằm vị trí thứ  tư  từ  trái  ở  trên thanh công cụ    nếu muốn lưu trữ lại toàn bộ  kết  quả phân tích sẽ được thực hiện.  2. Sau khi mở tập tin, cần có thông tin gì trước khi phân tích số liệu: Trước khi phân tích số liệu, nhà nghiên cứu (hay chuyên viên thống kê) cần đọc lại đề  cương nghiên cứu, đặc biệt là số  liệu (biến số và số  các bản ghi),  mục tiêu và thiết   kế nghiên cứu. Giả sử chúng ta có thông tin về nghiên cứu như sau: MRC Working Party on Children Conceived by In Vitro Fertilisation. Births in Great  Britain resulting from assisted conception, 1978­87. BMJ 1990;300:1229­33.
  5. Births in Great Britain resulting from assisted conception, 1978­87. MRC Working Party  on Children Conceived by In Vitro Fertilisation. OBJECTIVE­­To describe the characteristics at birth of children conceived by in vitro  fertilisation (IVF) or by gamete intrafallopian transfer (GIFT) and to assess whether they  differ from those of children conceived naturally. DESIGN­­Survey of children resulting  from IVF or GIFT and comparison of their characteristics at birth with national statistics.  SETTING­­England, Scotland, and Wales from 1978 to 1987. SUBJECTS­­1267  Pregnancies conceived by IVF or GIFT, which resulted in 1581 liveborn or stillborn  children. MAIN OUTCOME MEASURES­­Sex ratio, multiplicity, gestational age at  birth, birth weight, stillbirth rate, perinatal and infant mortality, and prevalence of  congenital malformations. RESULTS­­The ratio of male to female births was 1.07:1;  23% (249/1092) of the deliveries were multiple births compared with 1% for natural  conceptions; 24% (278) of 1015 deliveries were preterm compared with 6% in England  and Wales; 32% (406) of 1269 babies weighed less than 2500 g compared with 7% in  England and Wales. The high percentage of preterm deliveries and of low birthweight  babies was largely, but not entirely, due to the high frequency of multiple births. The rate  of stillbirth, perinatal mortality, and infant mortality were twice the national average,  these excesses being due to the high frequency of multiple births. One or more major  congenital malformations were detected during the first week of life in 35 (2.2%) of 1581  babies. This figure is comparable with population based estimates of the prevalence of  congenital malformations. The types of malformations reported varied, and the number of  each specific type was small. The health of the children was not evaluated beyond the  perinatal period. CONCLUSIONS­­Multiple pregnancies often result from assisted  conception and are the main determinant of the outcome of the pregnancies and of the  health of the children at the time of birth. Congenital malformations are comparatively  rare, so larger numbers of children need to be studied before firm conclusions can be  drawn. The pooling of data from different countries is recommended. PMID: 2354290 [PubMed ­ indexed for MEDLINE]  Số  liệu này bao gồm những biến số  về  những đứa trẻ  sinh một của những bà mẹ  được thụ thai trong ống nghiệm (in­vitro fertilisation). Nghiên cứu này đã được báo cáo   trong tạp chí BMJ (1990;300:1229­1233). Tập tin này bao gồm 641 đứa trẻ  và gồm 8  biến số có chi tiết như sau: STT Tên biến Giải thích tiếng Anh Giải thích tiếng Việt identity number of mother and  1 Maso Mã số baby 2 tuoime maternal age in years Tuổi của mẹ (năm tuổi) Tăng   huyết   áp   thai   kì   1=   có   0   =  3 tang_ha hypertension 1=yes, 0=no không 4 tuoithai gestational age in weeks Tuổi thai (tính theo tuần)
  6. 5 gioi sex of baby 1=male, 0=female Giới tính của trẻ 1=trai 0=gái 6 tlsosinh  birth weight in gms Trọng lượng sinh tính theo grams.  Occupation of mother (1= self  employed;   2=blue   collar  Nghề  nghiệp mẹ  (1= nghề  tự  do;  7 nghenghiep worker;   3=white   collar  2=công nhân; 3=viên chức) worker) maternal   age   groups(0=
  7. ­ Nhị giá ­ Danh định ­ Độc lập ­ Phụ thuộc sinhnon ­ Thứ tự ­ Định lượng ­ Gây nhiễu 4. Trước khi phân tích số  liệu cần thực hiện thao tác số  liệu và các thống kê mô tả.  Thực hiện lại các bước thao tác số liệu và thống kê mô tả như ở chương trước 5. Hãy so sánh trọng lượng của trẻ nam và trẻ nữ Hướng dẫn: Theo giải thuật được trình bày  ở  đầu chương, để  so sánh trọng lượng   (biến phụ thuộc có phân phối bình thường) ở 2 nhóm trước tiên chúng ta cần phải xem   phương sai của 2 nhóm có bằng nhau hay không. Nếu phương sai 2 nhóm tương   đương chúng ta có thể sử dụng t­test thông thường (t­test phương sai đồng nhất). Nếu  phương sai 2 nhóm không tương đương, chúng ta   phải sử  dụng t­test phương sai   không đồng nhất hay kiểm định phi tham số. Kiểm định 1: So sánh  2 phương sai Để  so sánh trung bình của một biến định lượng  ở  hai hay nhiều nhóm, chúng ta sử  dụng  menu   Statistics  ::   Summaries,   tables,   &  tests  ::   Classical   tests  of  hypothesis  ::   Group variance comparison test. Sau khi cửa sổ sdtest – Two sample test of variance hiện ra tiến hành 5 bước sau:
  8. Bước 1: đặt con trỏ vào hộp văn bản Variable name Bước 2: đưa con trỏ vào cửa sổ Variables và nhấp vào biến  tlsosinh để  đưa biến này  vào hộp văn bản Variable name Bước 3: đặt con trỏ vào hộp văn bản Group name variable Bước 4: đưa con trỏ vào cửa sổ Variables và nhấp vào biến gioi để đưa biến này vào  hộp văn bản Group name variable. Bước 5: Nhấp vào nút lệnh OK. Kết quả được trình bày như sau: . sdtest tlsosinh, by(gioi) Variance ratio test ------------------------------------------------------------------------------ Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------- gai | 315 3044.127 35.421 628.6603 2974.434 3113.819 trai | 326 3211.279 36.88521 665.9798 3138.715 3283.843 ---------+-------------------------------------------------------------------- combined | 641 3129.137 25.78336 652.7827 3078.507 3179.767 ------------------------------------------------------------------------------ Ho: sd(gai) = sd(trai) F(314,325) observed = F_obs = 0.891 F(314,325) lower tail = F_L = F_obs = 0.891 F(314,325) upper tail = F_U = 1/F_obs = 1.122 Ha: sd(gai) < sd(trai) Ha: sd(gai) != sd(trai) Ha: sd(gai) > sd(trai) P < F_obs = 0.1518 P < F_L + P > F_U = 0.3032 P > F_obs = 0.8482 Với giá trị  p = 0,3032 chúng ta không thể  bác bỏ  giả  thuyết Ho: độ  lệch chuẩn của   nhóm trẻ  trai bằng độ  lệch chuẩn của nhóm trẻ  gái. Vì vậy chúng ta có thể  sử  dụng 
  9. kiểm định t phương sai đồng nhát như ở bước 2. Kiểm định 2: So sánh 2 trung bình sử dụng t­test phương sai đồng nhất. Để  so sánh trung bình của một biến định lượng  ở  hai hay nhiều nhóm, chúng ta sử  dụng  menu   Statistics  ::   Summaries,   tables,   &  tests  ::   Classical   tests  of  hypothesis  ::   Group mean comparison test Cửa sổ ttest­ group mean comparision tests hiển ra. Tiến hành các bước sau: Bước 1: đặt con trỏ vào hộp văn bản Variable name
  10. Bước 2: đưa con trỏ vào cửa sổ Variables và nhấp vào biến  tlsosinh để  đưa biến này  vào hộp văn bản Variable name Bước 3: đặt con trỏ vào hộp văn bản Group name variable Bước 4: đưa con trỏ vào cửa sổ Variables và nhấp vào biến gioi để đưa biến này vào  hộp văn bản Group name variable. Bước 5: Nhấp vào nút lệnh OK. . ttest tlsosinh, by(gioi) Two-sample t test with equal variances ----------------------------------------------------------------------------- - Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] --------- +-------------------------------------------------------------------- gai | 315 3044.127 35.421 628.6603 2974.434 3113.819 trai | 326 3211.279 36.88521 665.9798 3138.715 3283.843 --------- +-------------------------------------------------------------------- combined | 641 3129.137 25.78336 652.7827 3078.507 3179.767 --------- +-------------------------------------------------------------------- diff | -167.1522 51.18935 -267.6718 -66.63249 ----------------------------------------------------------------------------- - Degrees of freedom: 639 Ho: mean(gai) - mean(trai) = diff = 0 Ha: diff < 0 Ha: diff != 0 Ha: diff > 0 t = -3.2654 t = -3.2654 t = -3.2654 P < t = 0.0006 P > |t| = 0.0012 P > t = 0.9994 Trả  lời:   Trẻ  trai có trọng lượng sơ  sinh trung bình là 3211.28 gram, của trẻ  gái là   3044.13 gram. Với giá trị  t = 3,2654 và mức ý nghĩa (p­value) là 0.0012 chúng ta kết   luận có sự khác biệt về trọng lượng sơ sinh giữa trẻ trai và trẻ gái (p=0.0012).  6. Hãy so sánh trọng lượng sơ sinh của con bà mẹ tăng huyết áp và bà mẹ  không tăng   huyết áp. Hướng dẫn: Theo giải thuật được trình bày  ở  đầu chương, để  so sánh trọng lượng   (biến phụ thuộc có phân phối bình thường) ở 2 nhóm trước tiên chúng ta cần phải xem   phương sai của 2 nhóm mẹ tăng huyết áp và mẹ không tăng huyết áp có bằng nhau hay   không. Nếu phương sai 2 nhóm tương đương chúng ta có thể  sử  dụng t­test thông  thường (t­test phương sai đồng nhất). Nếu phương sai 2 nhóm không tương đương,  chúng ta  phải sử dụng t­test phương sai không đồng nhất hay kiểm định phi tham số. Kiểm định 1: So sánh  2 phương sai Để  so sánh trung bình của một biến định lượng  ở  hai hay nhiều nhóm, chúng ta sử 
  11. dụng  menu   Statistics  ::   Summaries,   tables,   &  tests  ::   Classical   tests  of  hypothesis  ::   Group variance comparison test. Sau khi cửa sổ sdtest ­ Group variance comparison test chúng ta đưa biến  tlsosinh vào  hộp văn bản Variable name và biến tang_ha vào hộp văn bản Group name variable rồi  nhấp vào nút lệnh OK. Kết quả được trình bày như sau: . sdtest tlsosinh, by( tang_ha ) Variance ratio test ----------------------------------------------------------------------------- - Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] --------- +-------------------------------------------------------------------- Ha bt | 552 3191.531 25.58435 601.0962 3141.276 3241.786 Ha tang | 89 2742.157 86.17222 812.9471 2570.908 2913.406 --------- +-------------------------------------------------------------------- combined | 641 3129.137 25.78336 652.7827 3078.507 3179.767 ----------------------------------------------------------------------------- - Ho: sd(huyet ap) = sd(huyet ap) F(551,88) observed = F_obs = 0.547 F(551,88) lower tail = F_L = F_obs = 0.547 F(551,88) upper tail = F_U = 1/F_obs = 1.829 Ha: sd(1) < sd(2) Ha: sd(1) != sd(2) Ha: sd(1) > sd(2) P < F_obs = 0.0000 P < F_L + P > F_U = 0.0003 P > F_obs = 1.0000 Kết quả  cho thấy giá trị  p = 0,0003 có nghĩa là phương sai của trọng lượng lúc sinh   của 2 nhóm không đồng nhất. Vì vậy chúng ta không thể dùng t­test phương sai đồng  nhất mà phải sử  dụng t­test phương sai không đồng nhất (kiểm định 2A) hay kiểm   định phi tham số (kiểm định 2B). Kiểm định 2A: so sánh 2 trung bình t­test phương sai không đồng nhất  Để  so sánh trung bình của một biến định lượng  ở  hai hay nhiều nhóm, chúng ta sử  dụng  menu   Statistics  ::   Summaries,   tables,   &  tests  ::   Classical   tests  of  hypothesis  ::   Group mean comparison test (xem lại câu 4) và biến tlsosinh vào hộp văn bản Variable  name; biến tang_ha vào hộp văn bản Group name variable của cửa sổ ttest­ group mean   comparison. Cần lưu ý đánh dấu vào hộp kiểm Unequal variances rồi nhấp vào nút   OK.
  12. Kết quả trình bày như sau: . ttest tlsosinh, by(tang_ha) unequal Two-sample t test with unequal variances -------------------------------------------------------------------------- ---- Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] --------- +-------------------------------------------------------------------- ha bt | 552 3191.531 25.58435 601.0962 3141.276 3241.786 ha tang | 89 2742.157 86.17222 812.9471 2570.908 2913.406 --------- +-------------------------------------------------------------------- combined | 641 3129.137 25.78336 652.7827 3078.507 3179.767 --------- +-------------------------------------------------------------------- diff | 449.3735 89.88999 271.1197 627.6273 -------------------------------------------------------------------------- ---- Satterthwaite's degrees of freedom: 104.069 Ho: mean(ha bt) - mean(ha tang) = diff = 0 Ha: diff < 0 Ha: diff != 0 Ha: diff > 0 t = 4.9991 t = 4.9991 t = 4.9991 P < t = 1.0000 P > |t| = 0.0000 P > t = 0.0000 Trả lời:  Con bà mẹ bị tăng huyết áp có trọng lượng sơ sinh trung bình là 2742 gram, ở  con của bà mẹ không tăng huyết áp là 3192 gram. Sự khác biệt này có ý nghĩa thống kê  với p
  13. Kiểm định 2B: so sánh 2 trung bình với phép kiểm phi tham số Mann­Whitney Thực hiện kiểm định phi tham số tổng sắp hạng Mann­Whitney (Mann­Whitney  rank   sum test) bằng dụng menu Statistics :: Summaries, tables, & tests  :: Non­parametric test   of hypotheses :: Mann­Whitney two­sample ranksum test.  Sau đó cửa sổ  ranksum ­ Mann­Whitney two­sample statistic hiện ra. Tiến hành các bước sau: Bước 1: đặt con trỏ vào hộp văn bản Variable name Bước 2: đưa con trỏ vào cửa sổ Variables và nhấp vào biến  tlsosinh để  đưa biến này  vào hộp văn bản Variable name Bước 3: đặt con trỏ vào hộp văn bản Group name variable Bước 4: đưa con trỏ vào cửa sổ Variables và nhấp vào biến tang_ha để đưa biến này  vào hộp văn bản Group name variable.
  14. Bước 5: Nhấp vào nút lệnh OK. Kết quả như sau: . ranksum tlsosinh, by( tang_ha ) Two-sample Wilcoxon rank-sum (Mann-Whitney) test tang_ha | obs rank sum expected -------------+--------------------------------- ha bt | 552 185203 177192 ha tang | 89 20558 28569 -------------+--------------------------------- combined | 641 205761 205761 unadjusted variance 2628348.00 adjustment for ties -144.78 ---------- adjusted variance 2628203.22 Ho: tlsosinh(tang_ha==ha bt) = tlsosinh(tang_ha==ha tang) z = 4.941 Prob > |z| = 0.0000 7. Hãy so sánh trọng lượng sơ sinh của trẻ  sinh ra từ con của các nhóm nghề nghiệp  khác nhau của người mẹ. Hướng dẫn: Để  so sánh trung bình của một biến định lượng ở  nhiều nhóm, chúng ta   phải sử  dụng phương pháp phân tích ANOVA một chiều.  Sử  dụng  menu Statistics ::   ANOVA/MANOVA :: oneway analysis of variance
  15. Do chúng ta muốn phân tích tác động của yếu tố  nghề  nghiệp mẹ  (nghenghiep) lên  trọng lượng sinh của trẻ (tlsosinh) khi cửa sổ oneway hiện lên, ta tiến hành các bước  sau: Bước 1: đặt con trỏ vào hộp văn bản Response variable Bước 2: đưa con trỏ vào cửa sổ Variables và nhấp vào biến  tlsosinh để  đưa biến này  vào hộp văn bản Response Variable. Bước 3: đặt con trỏ vào hộp văn bản Factor Bước 4: đưa con trỏ  vào cửa sổ Variables và nhấp vào biến  nghenghiep để  đưa biến  này vào hộp văn bản Factor. Bước 5: Đánh dấu vào hộp kiểm Produce summary table để  thể  hiện thống kê mô tả  trọng lượng sơ sinh trung bình ở các nhóm nghề nghiệp Bước 6: Đánh dấu vào hộp kiểm Scheffe để  có kiểm định so sánh trọng lượng trung  bình ở từng cặp đôi nghề nghiệp khác nhau Bước 7: Nhấp vào nút lệnh OK  
  16. Trên cửa sổ Output, trên cùng thống kê mô tả của số liệu  về trọng lượng sơ sinh theo   nhóm tuổi của mẹ: nghe nghiep | me - 1=tu | do, 2=cong | Summary of trong luong so sinh nhan, | (gram) 3=vien chuc | Mean Std. Dev. Freq. ------------+------------------------------------ tu do | 2981.4135 643.76283 104 cong nhan | 3118.084 646.69338 238 vien chuc | 3189.3177 654.19649 299 ------------+------------------------------------ Total | 3129.1373 652.78265 641 Con bà mẹ nghề nghiệp tự do có trọng lượng trung bình là 2981 gram, của bà mẹ với   nghề  nghiệp là 3118 gram, của bà mẹ  với nghề  nghiệp viên chức là là 3190 gram.  Chúng ta biết kiểm định ANOVA có thể sử dụng để kiểm định sự  khác biệt về trung   bình của nhiều nhóm, nhưng trước tiên chúng ta hãy kiểm tra các điều kiện của phân  tích ANOVA là (a) biến số  phụ  thuộc có phân phối bình thường ­ điều này đã được  xác nhận từ  đồ  thị  của trọng lượng sơ  sinh và (b) phương sai của biến phụ  thuộc  ở  các nhóm bằng nhau ­ điều này cũng được xác nhận qua thống kê Bartlett với p­value  là 0,973.  Analysis of Variance Source SS df MS F Prob > F ------------------------------------------------------------------------ Between groups 3381483.56 2 1690741.78 4.00 0.0187 Within groups 269338638 638 422160.875 ------------------------------------------------------------------------ Total 272720122 640 426125.19 Bartlett's test for equal variances: chi2(2) = 0.0558 Prob>chi2 = 0.973
  17. Vì vậy trong trường hợp này kiểm định ANOVA là có giá trị. Ta đọc kết quả của bảng  ANOVA. Chúng ta  có được giá trị F = 0.0187 và mức ý nghĩa (p­value) là 0.9723 chúng   ta kết luận không có sự  khác biệt về trọng lượng sơ sinh  ở con của những bà mẹ  có  nghề  nghiệp khác nhau. Với kết luận này chúng ta có thể  kết luận là có ít nhất có 1   cặp đôi (2 nhóm) nghề  nghiệp của mẹ  có sự  khác biệt về  trọng lượng con nhưng  chúng ta không biết là sự  khác biệt này  ở  cặp đôi nghề  nghiệp nào. Để  biết cặp đôi  nào có sự  khác biệt ta xem kết xuất của so sánh sau kiểm định (post­hoc test) của   Scheffe: Comparison of trong luong so sinh (gram) by nghe nghiep me - 1=tu do, 2=cong nhan, 3=vien chuc (Scheffe) Row Mean-| Col Mean | tu do cong nha ---------+---------------------- cong nha | 136.671 | 0.202 | vien chu | 207.904 71.2337 | 0.020 0.451 Kết quả  của kiểm định Scheffe được trình bày theo bảng và  ở  mỗi ô của bảng có 2  con số: con số ở trên thể hiện sự khác biệt về trọng lượng của nghề nghiệp của hàng   so với nghề nghiệp của cột và giá trị  ở  dưới thể  hiện giá trịi p (mức ý nghĩa) của sự  khác biệt này. Dựa vào giá trị  p, có thể  kết luận có sự  khác biệt về  trọng lượng sơ  sinh của con 2 nhóm nghề  nghiệp viên chức và tự  do (giá trị  p=0,020) và nhóm nghề  nghiệp viên chức có trọng lượng trung bình cao hơn nhóm nghề nghiệp tự do là 207,9  gram. Nhắc lại lí thuyết về Tương quan và ước lượng Tương quan là số đo mức độ hai biến số định lượng cùng thay đổi với nhau. Có nhiều  loại hệ  số  tương quan, nhưng chúng đều có giá trị  từ  ­1 đến 1. Nếu chúng có giá trị  dương có nghĩa là hai biến số đồng biến với nhau, nếu chúng có giá trị âm nghĩa là hai  biến số nghịch biến. Giá trị tuyệt đối của hệ số tương quan càng gần một nghĩa là hai   biến số có liên hệ chặt với nhau và vai trò của sai số ngẫu nhiên sẽ ít hơn. Nếu hệ số  tương quan có giá trị bằng zero có nghĩa là hai biến số độc lập và không quan hệ gì với   nhau. Khi trị tuyệt đối của hệ số tương quan bằng một có nghĩa là hoàn toàn không có  sai số ngẫu nhiên. Bình phương của hệ số tương quan (r 2) thể hiện tỉ lệ các biến thiên  của biến số phụ thuộc có thể được giải thích bằng biến số độc lập. Loại hệ số tương quan được sử dụng phổ biến nhất là hệ số tương quan Pearson r: ( xi x )( y i y) r ( xi x)2 ( yi y) 2 Lí giải ý nghĩa của hệ số tương quan:  ­ Hệ số tương quan luôn luôn nằm trong đoạn [­1,1] ­ Hệ số tương quan r dương chứng tỏ hai biến số là đồng biến; hệ số tương quan r âm  
  18. chứng tỏ hai biến số là nghịch biến; hệ số tương quan bằng zero nếu hai biến không   liên hệ.  ­ Trị số  tuyệt đối của hệ số tương quan r nói lên mức độ  liên quan giữa hai biến số.   Nếu trị tuyệt đối của r bằng 1 (r=1 hay r=­1), quan hệ hoàn toàn tuyến tính nghĩa là tất   cả các điểm nằm trên đường hồi quy (Hình 9.2 d và 9.2f). Nếu trị tuyệt đối của r nhỏ  hơn 1 sẽ có các điểm số liệu phân tán chung quanh đường hồi quy. ­ Bình phương của hệ  số  tương quan (r2) thể  hiện tỉ  lệ  biến thiên của biến số  phụ  thuộc được giải thích bằng sự biến thiên của biến số độc lập (nếu mối liên hệ này là  nhân quả) ­ Nếu r=0, không có mối liên hệ tuyến tính giữa hai biến số. Ðiều này có nghĩa là (1)   không có mối liên hệ gì giữa hai biến số hoặc  (2) mối liên hệ giữa hai biến số không   phải là tuyến tính. ­ Theo quy  ước, quan hệ với  r từ 0,1 đến 0,3 là quan hệ yếu, từ  0,3 đến 0,5 quan hệ  trung bình và trên 0,5 là quan hệ  mạnh. Ðiều quan trọng là sự  tương quan giữa hai  biến số cho thấy sự liên hệ nhưng không nhất thiết có nghĩa là cá quan hệ 'nhân quả'.  Để kiểm định hệ số tương quan Pearson có thực sự khác 0 hay không, kiểm định t có   thể được sử dụng n 2 t r 1 r 2  có phân phối student với n­2 độ tự do. Hồi quy Hồi quy là một mô hình toán học mô tả  sự biến đổi của một biến số này theo những   biến số khác. Một phương trình hồi quy có thể có dạng như sau: cân nặng (kg) = 6,85 + 0,18 x tháng tuổi (phương trình hồi quy tính cân nặng của trẻ từ 9 đến 40 tháng tuổi theo tháng tuổi) theo phương trình này người ta gọi: cân nặng: biến số phụ thuộc tháng tuổi: biến số độc lập 6,85: hệ số của hằng số (Constant), hay còn gọi là điểm chặn (intercept) 0,18: hệ số (Coeficient)  của biến số tháng tuổi hay còn gọi là độ dốc (Slope) của  đường hồi quy 9. Vẽ  phân tán đồ  (scattergram) giữa của biến số  tuổi thai ( tuoithai) và trọng lượng  thai (tlsosinh). Hướng   dẫn:   sử   dụng   menu   Graphics   ::   Overlaid   twoway   graph  
  19. để hiện ra cửa sổ twoway – Twoway graphs Trên cửa sổ  twoway – Twoway graphs, nhập tên biến số  phụ  thuộc vào hộp Y­axis   variable và tên biến số độc lập vào hộp X­axis variable sau đó nhấp OK để  xem biểu   đồ phân tán. Cách làm cụ thể từng bước như sau: Bước 1: Trên hộp combo Type chọn Scatter Bước 2: Đặt tên biến số độc lập (tuoithai) vào ô văn bản X Bước 3: Đặt tên biến số phụ thuộc (tlsosinh) vào ô văn bản Y Bước 4: Nhấp nút lệnh OK
  20. Có thể cho đồ  thị phân tán. Tuy nhiên chúng ta có thể thêm các tùy chọn để  thực hiện  các yêu cầu sau: Bổ sung tiêu đề “trọng lượng trẻ sơ sinh (gam)" cho trục tung Cho các giá trị trục y từ 500 đến 5000 gram và chia các khoảng 500 gram. Bổ sung tiêu đề “tuoi thai (tuan tuoi)" cho trục hoành Cho các giá trị của trục x từ 24 tuần tuổi đến 42 tuần tuổi và chia làm các khoảng  4 tuần  Bằng cách trong cửa sổ Trên cửa sổ twoway – Twoway graphs thực hiện các bước: Trên thẻ Plot 1:  Bước 1: Trên hộp combo Type chọn Scatter Bước 2: Đặt tên biến số độc lập (tuoithai) vào ô văn bản X Bước 3: Đặt tên biến số phụ thuộc (tlsosinh) vào ô văn bản Y Trên thẻ Y­Axis:  Bước   4:   Trên   hộp   văn   bản   Title   gõ   "Trong   luong   tre   so   sinh   (gam)" Bước 5: Trên hộp văn bản Rule gõ quy tắc "500(500)5000" Bước 6: Trên hộp combo Angle chọn "Horizontal"  Trên thẻ X­Axis:  Bước 7: Trên hộp văn bản Title gõ "Tuoi thai (tuan)" Bước 8: Trên hộp văn bản Rule gõ quy tắc "24(2)42" Và nhấp vào nút lệnh OK.

CÓ THỂ BẠN MUỐN DOWNLOAD

Đồng bộ tài khoản