intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Phương pháp nghiên cứu khoa học - Bài 2: Ðại cương về thống kê và thống kê mô tả

Chia sẻ: Nguyễn Bình Minh | Ngày: | Loại File: DOC | Số trang:14

180
lượt xem
16
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng Phương pháp nghiên cứu khoa học - Bài 2: Ðại cương về thống kê và thống kê mô tả cung cấp cho người học một số định nghĩa về thống kê và thống kê mô tả, biến số và các loại biến số, các số thống kê mô tả,... Mời các bạn cùng tham khảo.

Chủ đề:
Lưu

Nội dung Text: Bài giảng Phương pháp nghiên cứu khoa học - Bài 2: Ðại cương về thống kê và thống kê mô tả

  1. Ðại cương về thống kê và thống kê mô tả Một số định nghĩa Thống kê là phương pháp khoa học dùng đề thu thập, tóm tắt, trình bày và phân tích số  liệu. Số liệu: Kết quả có được do việc quan sát hay thu thập một biến số ở các đối tượng   khác nhau hay ở thời gian khác nhau. Thí dụ:  Khi tôi quan sát giới tính của các học viên trong lớp, tôi có số liệu là: Nam, nam, nữ, nữ, nữ, nam, nữ, v.v Thí dụ: Một nhà nghiên cứu đo nồng độ hemoglobin của 70 thai phụ có kết quả như sau: 10.2 13.7 10.4 14.9 11.5 12.0 11.0 13.3 12.9 12.1 9.4 13.2 10.8 11.7 10.6 10.5 13.7 11.8 14.1 10.3 13.6 12.1 12.9 11.4 12.7 10.6 11.4 11.9 9.3 13.5 14.6 11.2 11.7 10.9 10.4 12.0 12.9 11.1  8 .8    10.2 11.6 12.5 13.4 12.1 10.9 11.3 14.7 10.8 13.3 11.9 11.4 12.5 13.0 11.6 13.1 9.7 11.2  15 .1    10.7 12.9 13.4 12.3 11.0 14.6 11.1 13.5 10.9 13.1 11.8 12.2 và những con số này được gọi là số liệu. Cần lưu ý số liệu phải liên kết với một biến số nhất định. Nếu tôi quan sát giới tính ở  người này, tuổi của người khác, quần áo của một người khác nữa thì kết quả quan sát   được không phải là số liệu. Biến số và các loại biến số Biến số  là những đại lượng hay những đặc tính có thể  thay đổi từ  người này sang  người khác hay từ thời điểm này sang thời điểm khác. Như vậy biến số có thể thể hiện đại lượng hay đặc tính.  ­ Nếu biến số  thể  hiện   một đại lượng nó được gọi là biến số  định lượng   (quantitative variable). Biến số  định lượng có thể  còn được chia thành biến số  tỉ  số  ­  ratio variable(có giá trị  không tuyệt đối) và biến số  khoảng – interval variable (không  có giá trị không tuyệt đố) ­ Nếu biến số nhằm thể hiện một đặc tính, biến số  được gọi là biến số  định   tính. Biến số định tính còn được chia làm 3 loại:  ­ Biến số nhị giá – binary variable (khi chỉ có 2 giá trị)  ­ Biến số  danh định – nominal variable (khi có 3 hay nhiều hơn các giá  trị và các bản thân các giá trị không có tính chất thứ tụ) ­ Biến số thứ tự ­ ordinal variable (khi có 3 hay nhiều hơn các giá trị  và   các bản thân các giá trị có tính chất thứ tự  ­ Ngoài ra có khi biến cố không chỉ  được quan tâm về phương diện nó có xảy  ra hay chưa xảy ra mà còn được quan tâm về phương diện biến cố xảy ra vào lúc nào.   Thí dụ sau khi điều trị bệnh nhân ung thư chúng ta không chỉ quan tâm bệnh nhân có tử 
  2. vong hay không mà còn quan tâm bệnh nhân bệnh nhân tử  vong bao nhiêu lâu sau khi   điều trị và nếu bệnh nhân chưa tử vong, bệnh nhân đã sống được bao lâu.  Phương pháp mô tả tóm tắt và trình bày số liệu
  3. -Tỉ lệ cho từng giá trị nếu là biến thứ tự hay danh định - Tỉ lệ cho giá trị tiêu biểu nếu là biến nhị giá Các số thống kê mô tả Có hai loại thống kê mô tả: thống kê mô tả khuynh hướng tập trung và thống kê mô tả  tính phân tán. Thống kê mô tả khuynh hướng tập trung Thống kê mô tả khuynh hướng tập trung có thể là trung bình (mean), trung vị (median)   và yếu vị (mode). Những thống kê này cho biết giá trị tiêu biểu cho số liệu. Thí dụ: có hai loại thuốc hạ áp A và B. Giả sử có 5 đối tượng sau khi sử dụng thuốc hạ áp A   sẽ có huyết áp 110 ­ 115 ­120 ­ 125 ­130 và ở 5 đối tượng khác sau khi sử dụng thuốc hạ áp B   sẽ  có huyết áp 120 ­ 125 ­ 130 ­ 135 ­ 140. Con số tiêu biểu nhất để  cho biết tác dụng của   thuốc A là huyết áp trung bình sau khi sử dụng thuốc A và là 120. Con số huyết áp trung bình   này thấp hơn huyết áp trung bình sau khi sử dụng thuốc B cho biết thuốc A có tác dụng mạnh   hơn. Trung bình của số  liệu, được kí hiệu là (x (đọc là x gạch) là tổng các giá trị  của số  liệu chia cho số lần quan sát (N). xi x N Thí dụ: Số liệu về huyết áp tâm thu của 5 đối tượng là 120, 125, 130, 135, 150. Huyết   áp tâm thu trung bình sẽ là 132
  4. xi 120 125 130 125 150 x 132 N 5 Do không thể thực hiện các phép toán số  học trên các biến số định tính (danh định và  thứ tự) chúng ta chỉ có thể tính trung bình cho số liệu của biến số định lượng. Nếu chúng ta sắp xếp số  liệu theo thứ  tự, giá trị  đứng  ở  giữa được gọi là trung vị.   Nếu có hai giá trị cùng đứng ở giữa, trung bình cộng của hai giá trị này là trung vị. Thí dụ: Số  liệu về  huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135,  150. Trung vị của huyết áp tâm thu là giá trị đứng ở giữa và bằng 130 Số liệu về chiều cao (cm) của 6 người là 153, 155, 160, 162, 165, 161. Ðể  tính trung   vị, trước tiên chúng ta phải sắp xếp số liệu này: 153, 155, 160, 161, 162, 165. Do có  hai giá trị 160 và 161 cùng ở giữa, trung vị sẽ là (160+161)/2 = 160,5 cm Do bản chất của  biến số danh định không thể  sắp được theo thứ tự, chúng ta chỉ  có   thể tính trung vị của số liệu định lượng và số liệu của biến số thứ tự. Ngoài ra yếu vị  (mode) cũng được sử  dụng làm con số  thống kê tiêu biểu. Yếu vị  là   giá trị xuất hiện phổ biến nhất (có tần suất cao nhất). Thí dụ: Số  liệu về  huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135,  150. Trong trường hợp này không có yếu vị. Ðiểm số của 5 học sinh là 5, 5, 6, 7, 9. Yếu vị của điểm số là 5. Trong một  ấp có 361 gia đình người Kinh, 120 gia đình người Khmer và 27 gia đình   người Hoa. Yếu vị của biên số dân tộc là dân tộc Kinh. Trong một số liệu cụ thể, có thể  không có yếu vị, có thể  có một yếu vị hoặc hai hay  nhiều yếu vị. Ðây là khuyết điểm chính của số thống kê này. Do vậy người ta thường   chỉ dùng yếu vị cho biến số danh định hay trong các trường hợp đặc biệt Có thể  sử  dụng trung bình, trung vị  hay yếu vị  cho biến số  định lượng. Khi biến số  định lượng có phân phối bình thường (hình chuông) thì ba con số này xấp xỉ bằng nhau  và khi đó người ta thường tính trung bình bởi vì trung bình có những đặc tính toán học  mạnh. Tuy nhiên nếu số liệu bị lệch thì con số trung vị phản ánh giá trị  tiêu biểu một   cách chính xác hơn. Thí dụ: Bệnh nhân bị  loét dạ  dày ­ tá tràng được điều trị  theo một phác đồ  diệt vi   khuẩn Helicobacter. Sau điều trị, bệnh nhân được theo dõi và ghi nhận thời gian kể từ  khi sử  dụng thuốc đến lúc bắt đầu cải thiện triệu chứng đau.  Ở  10 bệnh nhân thời  gian này (ngày ) là như  sau: 1, 2, 2, 2, 2, 2, 3, 3, 3, 30. Bệnh nhân có thời gian từ  lúc   điều trị  đến lúc giảm triệu chứng là 30 ngày trên thực chất là bệnh nhân không đáp   ứng với điều trị. Trung vị  và trung bình của số  liệu là 2 và 5 ngày. Con số  trung vị  phản ánh chân thực hơn bởi vì với tư cách là một bác sĩ lâm sàng từ số liệu trên có thể  nhận xét rằng một bệnh nhân tiêu biểu sẽ giảm đau sau 2 ngày dùng thuốc. Con sôs 30  trong thí dụ trên được gọi là số ngoại lai (outlier) và làm số  liệu bị lệch. Nhìn chung,  khi số liệu bị lệch thì con số trung bình sẽ bị ảnh hưởng rất nhiều và không phản ánh   giá trị tiêu biểu như con số trung vị. Thống kê mô tả tính phân tán: Có 3 thống kê mô tả tính phân tán: độ  lệch chuẩn, khoảng tứ phân vị và phạm vi của  số liệu. Việc lựa chọn thống kê mô tả tính phân tán được trình bày trong bảng 2. Thống kê mô tả  tính phân tán có tầm quan trọng thứ  hai sau con số  mô tả  khuynh   hướng tập trung. 
  5. Thí dụ: Thuốc hạ áp A được sử dụng trên 5 bệnh nhân và huyết áp tâm thu  sau khi dùng thuốc   là 110, 115, 120, 125 và 130. Thuốc hạ áp B được sử dụng trên 5 bệnh nhân và có huyết áp sau   sử  dụng thuốc là 100, 110, 120, 130, 140.  Như vậy hai thuốc hạ áp này có hiệu quả  hạ áp là   tương đương (bởi vì trung bình của hai số liệu là bằng nhau) nhưng kết quả của thuốc B phân   tán hơn và điều này làm thuốc B trở nên kém an toàn. Ðộ  lệch chuẩn (standard deviation ­ viết tắt là SD hay s) là con số  đánh giá mức độ  phân tán và được tính theo công thức: n ( xi x ) 2 s i 1 N 1 Như  vậy độ  lệch chuẩn phản ánh khoảng cách trung bình của số  liệu so với giá trị tiêu biểu. Khái niệm độ  lệch chuẩn chỉ có thể  áp dụng cho biến số  định lượng bởi vì chúng ta có thể  thực hiện các phép toán số  học trên các đại lượng  nhưng không thể thực hiện trên các giá trị của biến số định tính là các đặc tính. Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135, 150. Trung   bình của huyết áp là 132 và độ lệch chuẩn bằng n ( xi x ) 2 s i 1 N 1 (120 132) 2 (125 132) 2 (132 130) 2 (135 132) 2 (150 132) 2 5 1 144 49 4 9 324 530 132,5 11,5 4 4 Phương   sai   về   mặt   từ   nguyên   là   bình   phương   của   độ   lệch   chuẩn.   Phương   sai   (variance) có thể được kí hiệu và Var hay s2 và được tính theo công thức sau: n ( xi x ) 2 s2 i 1 N 1 Phạm vi của số liệu là tất cả các giá trị của số liệu từ giá trị  nhỏ nhất đến giá trị lớn   nhất. Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135, 150. Phạm   vi của biến số huyết áp là 120 đến 150. Thí dụ: Thuốc hạ áp A được sử dụng trên 5 bệnh nhân và huyết áp tâm thu  sau khi dùng thuốc   là 110, 115, 120, 125 và 130. Thuốc hạ áp B được sử dụng trên 5 bệnh nhân và có huyết áp sau   sử  dụng thuốc là 100, 110, 120, 130, 140. Số  liệu của thuốc B có   tính phân tán cao hơn do   phạm vi thay đổi từ 100­140 trong khi đó phạm vị của số liệu thuốc A chỉ từ 110­130. Khoảng tứ  phân vị  (inter­quartile): Nếu chúng ta chia số  liệu sắp theo thứ  tự  làm 2   phần đều nhau, khoảng tứ  phân vị  là khoảng cách của trung vị  phần trên và trung vị  phần dưới. Thí dụ: Số  liệu về  huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135, 150. Số  liệu này được chia làm 2 phần: phần 1 gồm 120, 125, 130 và phần 2 gồm 130, 135, và 150.  Trung vị của phần trên là 125 ­ trung vị của phần dưới là 135, do đó phạm tứ  phân vị  là 125­ 135. Do bản chất của khoảng tứ phân vị  là trung vị  của phần số liệu trên và phần số  liệu  dưới, cũng giống như trung vị, khoảng tứ phân vị  không bị  ảnh hưởng bởi các giá trị 
  6. ngoại lai như trong trường hợp của độ lệch chuẩn. Cũng như trung vị, khoảng tứ phân  vị chỉ có thể áp dụng cho biến số định lượng hay thứ tự. Câu hỏi: Phân tích trên máy tính về biến số hemoglobin cho kết quả sau. Hãy thử đọc   và lí giải kết quả: Variable | Obs Mean Std. Dev. Min Max -----------+----------------------------------------------------- hemoglobin | 70 11.98429 1.416122 8.8 15.1 Phương pháp trình bày số liệu Số liệu có thể được trình bày thành bảng hoặc các đồ thị. Trình bày bảng: Phân phối tần suất của biến số định tính Số liệu của biến số rời rạc có thể  được trình bày dưới dạng một phân phối tần suất.   Phân phối tần suất là một bảng chỉ ra tần suất xuất hiện của từng giá trị  rời rạc của   biến số (Bảng 1). Như vậy bảng phân phối tần suất gồm 2 cột, một cột liệt kê các giá  trị của biến số và một cột trình bày tần suất tương ứng của các giá trị đó. Table 1. Phân phối giới tính của 69 học sinh lớp cơm thường trường mầm non 23 tháng  11, Huyện Hóc môn Giới Số trẻ Phần trăm Nam 45 65% Nữ 24 35% Tổng số 69 100% Bảng trên là bản phân phối tần suất của giới tính. Bởi vì giới tính có 2 giá trị nam và   nữ nên ta liệt kê 2 giá trị  này ở một cột. Ở cột thứ nhì ta ghi tần suất tương ứng của  các giá trị này. Ðôi khi bảng phân phối tần suất có thêm cột phần trăm như trong thí dụ  ở trên. Bảng 2 là một thí dụ khác về bảng phân phối tần suất. Table 2. Phương pháp đỡ đẻ của 600 trẻ trong bệnh viện Phương   pháp   đỡ  Số sinh Phần trăm đẻ Sinh thường 478 79,7 Sinh forceps 65 10,8 Sinh mổ 57 9,5 Tổng số 600 100,0
  7. Phân phối tần suất của biến số định lượng Nếu biến số  là biến số liên tục chúng ta không thể liệt kê tất cả  các giá trị  của biến   số. Trong trường hợp này chúng ta có thể nhóm (làm tròn) giá trị của biến số lại. Cụ thể các bước xây dựng bảng phân phối tần suất cho biến số định lượng như sau: 1­ Tìm phạm vi (giá trị  cực tiểu và giá trị  cực đại) của số  liệu. Trong thí dụ  về  hemoglobin của 70 phụ nữ phạm vi là 8,8 đến 15,1 2. Chia phạm vi số liệu ra làm n khoảng với độ rộng của mỗi khoảng là d. Cần lưu ý   độ  rộng mỗi khoảng d nên là đại lượng chẵn như  1, 2, 5, 10 hay 0,5, 0,2 và số  các  khoảng n nên từ  5­12 (trung bình là 7­8). Trong thí dụ  trên ta có thể  chia phạm vi ra   làm 8khoảng với chiều rộng khoảng bằng 1 đơn vị. Khi đó các khoảng là: 8­8,9; 9­9,9;   10­10,9; 11­11,9; 12­12,9; 13­13,9; 14­14,9; 15­15,9. 3. Ðếm các giá trị thích hợp vào khoảng đã định trước Hemoglobin Ð ếm (g/100ml) 8­8,9 1 9­9,9 111 10­10,9 1111  1111  1111 11­11,9 1111  1111  1111  1111 12­12,9 1111  1111  1111 13­13,9 1111  1111  111 14­14,9 1111 15­15,9 1 4. Xây dựng bảng phân phối tần suất với biến số và các khoảng giá trị của biến số và   tần suất tương ứng với các khoảng giá trị đó. Chúng ta cũng có thể thêm vào cột phần   trăm và cột phần trăm tích lũy  (nếu thích hợp) Table 3. Hemoglobin của 70 phụ nữ Hemoglobin Tần suất Phần trăm Phần trăm tích lũy 8­8,9 1 1.43 1.43 9­9,9 3 4.29 5.71 10­10,9 14 20.00 25.71 11­11,9 19 27.14 52.86 12­12,9 14 20.00 72.86 13­13,9 13 18.57 91.43
  8. 14­14,9 5 7.14 98.57 15­15,9 1 1.43 100.00 Thí dụ như nếu biên số là chu vi vòng cánh tay của trẻ chúng ta có thể làm tròn chu vi  vòng cánh tay đến 1 cm. Khi đó ta có thể xem thang đo của biến số là rời rạc và trình  bày bảng phân phối tần suất của biến số (bảng 2). Table 4. Phân phối số đo vòng cánh tay của 69 trẻ lớp cơm thường nhà trẻ 23 tháng 11,   Hóc môn. Vòng cánh tay Tần suất Phần trăm Phần trăm tích lũy     13­ 
  9. Biểu đồ hình thanh Biểu đồ  hình thang là biểu đồ  nhằm mô tả  sự  phân bố  của biến số rời rạc. Biểu đồ  hình thanh gồm có trục hoành trên đó xác định những giá trị của biến số. Ứng với từng   giá trị của biến số người ta vẽ các thanh có chiều cao tỉ lệ với tần suất của giá trị  đó.   Cần lưu ý luôn luôn có khoảng trống giữa các thanh. 50 40 45 30 20 24 10 0 Nam Nö õ Hình 1. Biểu đồ  hình thanh (bar chart) mô tả  phân bố  giới tính của những học sinh  trong trường mầm non 23/11, Hóc môn Chúng ta cũng có thể xây dựng các thanh theo chiều ngang như trong ví dụ sau S inh mo å 57 S inh fo rc e ps 65 S inh thö ô ø ng 478 0 100 200 300 400 500 Hình 2. Phương pháp sinh của 600 trẻ sanh tại bệnh viện X trong năm 1998 Ðối với biến số  thứ tự, điều cần lưu ý là các giá trị  của biến số  phải được sẵp xếp   thứ tự theo trục hoành.
  10. 20 00 T a àn s u a át 10 00 0 m u øc h ö õ c a áp 1 c a áp 2 - 3 ñ a ïi h o ï edum at Hình 3. Trình độ học vấn của các bà mẹ trong nghiên cứu 25% 19,5% 20% Ñö ô øn g  aâm  ñaïo 15% Mo å  laáy  thai 10% 4,3% 3,9% 5% 0,8% 0% Duøn g  ZDV† Kho ân g  duøn g  ZDV Hình 4. Tỉ suất lây truyền từ mẹ sang con ở những người mẹ bị nhiễm HIV theo   điều  trị   hóa dự   phòng  và  phương  pháp   sinh   ( Nguồn: The  European  Mode  of  Delivery Collaboration, Lancet, 27/3/1999) Biểu đồ hình bánh Biểu đồ hình bánh cũng được dùng để mô tả sự phân bố của biến số rời rạc. Biểu đô   hình bánh là một vòng tròn được chia làm nhiều cung tương  ứng với các giá trị  của   biến số. Ðộ lớn của cung tỉ lệ với tần suất của giá trị biến số.
  11. Nö õ 35% Nam 65% Hình 5. Biểu đồ hình bánh (pie chart) mô tả phân bố giới tính của những học sinh trong   trường mầm non 23/11, Hóc môn S in h  mo å S in h   forc e p s S in h   th öô øn g Hình 6. Biểu đồ  hình bánh thể  hiện phương pháp sinh của 600 đứa trẻ  sinh tại   bệnh viện X Tổ chức đồ và đa giác tần suất Tổ chức đồ (histogram) và đa giác tần suất (polyline) được dùng trong mô tả  phân bố  của biến số  liên tục. Ðể  vẽ  tổ  chức đồ, người ta chia biên độ  của giá trị  làm nhiều  khoảng giá trị  và tính tần suất của những khoảng giá trị đó. Những khoảng giá trị  này  được biểu thị   ở trên trục hoành. Ứng với mỗi khoảng giá trị  người ta vẽ  những hình  chữ  nhật có diện tích tỉ lệ với tần suất của khoảng giá trị đó. Bởi vì các khoảng giá trị  này nằm sát nhau trên trục hoành, các hình chữ nhật của tổ chức đồ cũng thường nằm  sát nhau.
  12. 20 15 F re q u e n c y 10 5 0 8 9 10 11 12 13 14 15 16 h e m o g lo b in Hình 7. Tổ chức đồ mức hemoglobin của 70 phụ nữ. 20 15 F re q u e n c y 10 5 0 8 9 10 11 12 13 14 15 16 h e m o g lo b in Hình 8. Ða giác tần suất của hemoglobin của 70 phụ nữ. Ðể vẽ đa giác tần suất, người ta thường vẽ tổ chức đồ và nối các trung điểm của các  cạnh trên của các hình chữ nhật. Ða giác tần suất thường không đẹp như  các tổ chức  đồ  nhưng nó có ưu điểm là có thể  vẽ  nhiều đa giác tần suất trên cùng một đồ  thị  để 
  13. dễ so sánh các phân phối của chúng. 15 10 5 0 8 9 10 11 12 13 14 15 16 h e m o g lo b in Hình 9. Ða giác tần suất hemoglobin của 28 phụ nữ nghèo (đường đỏ) so vơí 42 phụ  nữ  trung bình và khá (đường xanh)
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2