Căn B n v  sinh th ng kê

Th ng kê mô t

Gs, TS LÊ HOÀNG NINH

ầ N i dung c n phân bi

t

• Distinguish between different strategies  for obtaining a sample from a population

• Understand the measures of central  tendency and variability in your data

2

Th ng kê mô t

và suy lý

ch c,

ị ộ ộ ữ ệ ừ ộ

ố ể ổ ứ ả: dùng các con s  đ  t  m t m u.

ậ ừ

thông tin

ế

ộ ế   có m t k t lu n t ổ ể

ố Th ng kê suy lý: ư ch a hoàn chi3ng, nghĩa là t ng quát hóa k t  ả ừ ộ qu  t

m t m u lên qu n th .

Inferential statistics use available information in  a sample to draw inferences about the  population from which the sample was selected

Th ng kê mô t bi u th  m t b  d  li u t

ế ể Qu n th  lý thuy t

Representative?  Y  N

Sample 1:

Representative?  Y  N

Sample 2:

Representative?  Y  N

Sample 3:

4

ẫ   ấ Cách l y m u

• Convenience Sampling: select the most

accessible and available subjects in target  population.  Inexpensive, less time consuming,  but sample is nearly always non­representative  of target population.

5

• Random Sampling (Simple): select subjects at  random from the target population.  Need to  identify all in target population first.  Provides  representative sample frequently.

ẫ   ấ Cách l y m u

• Systematic Sampling: Identify all in target  population, and select every xth person as a  subject.

• Stratified Sampling: Identify important sub­

groups in your target population.  Sample from  these groups randomly or by convenience.   Ensures that important sub­groups are included  in sample. May not be representative.

6

• More complex sampling

ẫ Sai l m do l y m u

ẫ ị ố • Có s  khác bi ự

ầ ể ố ữ ệ t gi a tr  s  trên m u ( s   ị ố ậ

ở ọ ứ

7

ố th ng kê) và tr  s  th t trên qu n th  ( tham  s )ố • X y ra  ả  m i nghiên c u. • Sampling error approximates 1 / √n • Note that larger sample sizes also require time  and expense to obtain, and that large sample  sizes do not eliminate sampling error

Research Process

Research question

Hypothesis

Identify research design

Data collection

Presentation of data

Data analysis

Interpretation of data

8

Types of Data Collection

• Surveys/Questionnaires

• Direct medical examination • Direct measurement (e.g. blood draws) • Administrative records

9

– Self­report – Interviewer­administered – proxy

Understanding and Presenting   Data

10

ạ ữ ệ Lo i d  li u

1. Categorical: (e.g., Sex, Marital Status,

income category)

2. Continuous: (e.g., Age, income, weight,  height, time to achieve an outcome) 3. Discrete: (e.g.,Number of Children in a

family)

4. Binary or Dichotomous: (e.g., response to

all Yes or No type of questions)

11

ữ ệ

Thang đo d  li u 1.  Nominal:  These data do not represent an amount or

quantity (e.g., Marital Status, Sex)

2.  Ordinal:  These data represent an ordered series of

relationship (e.g., level of education)

3.  Interval: These data is measured on an interval scale  having equal units but an arbitrary zero point. (e.g.:  Temperature in Fahrenheit)

4.  Interval Ratio:  Variable such as weight for which we  can compare meaningfully one weight versus another  (say, 100 Kg is twice 50 Kg) 12

ế

ữ ệ S p x p, trình bày d  li u

ố ng đ i (Relative Frequency

• B ng t n s   ầ ố ả • Đ  th  t n s  Frequency Histogram  ồ ị ầ ố • DT t n s  t ầ ố ươ Histogram)

ầ ố ươ ng đ i (Relative Frequency

• Đa giác t n s  Frequency polygon • ĐGTS t ố polygon)

13

ồ ồ ồ ộ • Bar chart ( bi u đ  thanh) ể • Pie chart  ( bi u đ  bánh) ể • Box plot   ( bi u đ  hình h p) ể

ầ ố

B ng t n s

ộ ữ ệ

ướ ầ c đ u giúp xem xét b  d  li u. ậ

ố ị ố

ế

• Là b • Giúp nh n ra s  phân ph i tr  s  các bi n

số

ạ ệ ể  n y có th  do nh p

• Giúp nh n ra các ngo i l – Xem xét các ngo i l ạ ệ ầ d  li u có sai sót không

ậ ữ ệ ữ ệ ề – Đi u tra khác xem vi c nh p d  li u có sai  ệ

14

sót không

ầ ố

B ng t n s

ố ạ

ả ề ế ả ư ố ố ẻ ứ ộ M t n.c u kh o sát s  tr  em trong gia đình  ế ố s ng t i khu ph  A. k t qu  đi u tra 30 gia  đình trong khu ph  A cho k t qu  nh  sau:

2, 2, 5, 3, 0, 1, 3, 2, 3, 4, 1, 3, 4, 5, 7, 3, 2, 4, 1, 0,  5, 8, 6, 5, 4 , 2, 4, 4, 7, 6

ộ ữ ệ ầ ằ ả

15

ầ ố Trình bày b  d  li u n y b ng b ng t n s ?

i

ố ẻ S  tr  em t gia đình

T n sầ ố (Frequency)

ầ ố ươ ng  T n s  t ố đ i (Relative  Freq) 2/30=0.067 3/30=0.100 5/30=0.167 5/30=0.167 6/30=0.200 4/30=0.133 2/30=0.067 2/30=0.067 1/30=0.033

2 3 5 5 6 4 2 2 1

0 1 2 3 4 5 6 7 8

16

ầ ố

B ng t n s

ố ầ

, các b n trình bày b ng phân ph i t n

ứ ề ổ ủ ệ ậ

ệ ạ

ộ ệ

Bây gi ố s  trong m t nghiên c u v  tu i c a b nh nhân  ạ ị ệ b  b nh tim m ch nh p vi n t i khoa tim m ch  ủ c a m t b nh vi n trong thành ph .

ượ

ậ c thu th p trên m t m u  i phòng khám tim

ữ ệ ẫ ạ

ủ ệ

D  li u sau đây đ ạ ệ ng u nhiên 30 b nh nhân t m ch c a b nh vi n trên.

42, 38, 51, 53, 40, 68, 62, 36, 32, 45, 51, 67, 53, 59,  47, 63, 52, 64, 61, 43, 56, 58, 66, 54, 56, 52, 40, 55,  72, 69.

17

Nhóm tu iổ

T n sầ ố

ầ ố T n s   ố ươ ng đ i

t

2/30=0.067 3/30=0.100 4/30=0.134 3/30=0.100 8/30=0.267 3/30=0.100 4/30=0.134 3/30=0.100

32 ­36 yr 37­ 41 yr 42­46 yr 47­51 yr 52­56 yr 57­61 yr 62­66 yr 67­72 yr T ngổ

2 3 4 3 8 3 4 3 n=30

18

Đa giác t n sầ ố

9

Female

8

Male

7

6

5

4

ự ậ • Giúp nh n ra s  phân ph i c a b  d  li u ố ủ ộ ữ ệ

y c n e u q e r F

3

2

1

0

20-

30-

40-

50-

60-69

Age in years

19

ả ố

ọ B ng 1 trên bài báo y h c ầ ố ứ ằ  dân s  nghiên c u b ng b ng t n s

ả ả Mô t

ả Tên b ng….

%%

ế ế

ốS  trung  S  trung  bình (SD) bình (SD)

T n sầ ố T n sầ ố (n)(n)

Tên bi n sế ố Tên bi n sế ố ị ủ ơ (đ n v  c a bi n  ơ ị ủ (đ n v  c a bi n  s ) ốs ) ố ­ ­  ­ Lo iạ ­ Lo iạ ­ ­

T ng ổT ng ổ

20

ướ

Các s  đo khuynh h

ng trung

tâm

Các s  đo?ố

1. Trung bình(Mean) ị    2. Trung v  (Median)  3. (Mode)

21

ấ ả ị ố t c  các tr  s  đo

Trung bình m uẫ ố ọ ằ ẫ

ượ ượ ổ Trung bình s  h c b ng t ng t ố ả đ c trên m u chia cho s  kh o sát đ c.

ụ ủ ộ

ậ ồ

ư ậ ố ệ Thí d  thu nh p hàng tháng c a 5 h  gia đình  ( d.vi: ngàn đ ng) nh  sau, 6000, 10,000, 10,000,  14000, 50,000. do v y s  trung bình là: 18 tri u.

=  18000

6000  +  10000  +  10000  +  14000  +  50000 5

22

X  =

ị Trung v  (Median)

ộ ữ ệ ừ ị ố ấ ấ

t kê b  d  li u t ớ ị ố ữ ệ  tr  s  th p nh t  Li ấ ố ị cho t i tr  s  cao nh t.s  trung v  là tr   ị ố ủ ộ ữ ệ ố ứ s  đ ng gi a dãy tr  s  c a b  d  li u.

ộ ụ ượ ậ ạ c

ệ ư ơ ị ồ i 5 h  gia đình đ t kê nh  sau ( đ n v  ngàn đ ng):

23

ị ố ệ ị Thí d  thu nh p t li   6,000    10,000      10,000    14,000      50,000    Tr  s  trung v  là 10.000.000 ( 10 tri u )

Mode

ầ ố ơ ề • Là tr  s  có t n s  cao nh t ấ • Có th  có nhi u h n 1 mode trong m t b   ộ ộ

24

ị ố ể ữ ệ d  li u

S  đo v  trí không trung tâm  Measures of non­central locations

•T  phân v ị •Bách phân vị

25

ị ố

ủ ộ ữ Các s  đo s  phân tán c a b  d   li uệ Measures of Dispersion or Variability  • Biên đ  Range ộ    (tr  s  cao nh t và th p  ữ t gi a 2

ấ ệ ấ ủ ộ ữ ệ nh t c a b  d  li u. S  sai bi ộ ị ố ầ tr  s  n y là biên đ )

ươ

ươ

• Ph

ng  sai  (Variance)  (  bình  ph

ng

ủ ộ ệ c a đ  l ch chu n)

ộ ệ

• Đ  l ch chu n (Standard deviation)

(the

ẩ square root of the variance)

26

ươ

Ph

ủ ng sai c a m u

n

2

(cid:0)

(x ­ x ) i

i=1

2 s   =

n ­1

ộ ệ

S = đ  l ch chu n ( SD)      (square root of variance)

27

ẩ ậ ộ

ộ ươ ng sai và đ   Thí d  tính ph ụ ề ệ l ch chu n trong thí d  v  thu  nh p h  gia đình

2

2

2

2

)

)

)

)

2  =

=

S

(6000 ­18000 +(10000 ­18000 +(10000 ­18000 +(14000 ­18000)+(50000 ­18000 5­1

2 = 328,000,000 = 18110.77

S S

28

ộ ệ

S  trung bình và đ  l ch chu n  (SD)

7           8

7   7

7  7 7

7  7 7

3        2

7

6

7  8      13

Mean = 7 SD=0.63

9

Mean = 7 SD=0

Mean = 7 SD=4.04

29

Qui lu tậ

ố ườ ng thì :

ị ố ằ Trong phân ph i bình th   ộ a)  68% các tr  s  n m trong ph m vi  1 đ

ẩ ạ ị ố ệ l ch chu n, chung quanh tr  s  trung bình

ị ố ộ b)  95% các tr  s  năm trong ph m vi 2 đ

ẩ ạ ị ố ệ l ch chu n, chung quanh tr  s  trung bình

ị ố ằ ạ

30

ị ố ẩ ộ c)  99.7% các tr  s  n m trong ph m vi 3 đ   ệ l ch chu n chung quanh tr  s  trung bình

ả ị

ả ứ

ườ

ộ ệ

Gi có phân ph i bình th đ  l ch chu n là 2 phút. Các b n hãy gi

ộ ệ

ố s  trung bình và đ  l ch chu n trong thí d

ố ớ ộ ạ  đ nh th i gian ph n  ng đ i v i m t lo i thu c nào đó  ớ ị ố ng, có tr  s  trung bình là 10 phút v i  ủ ạ i thích ý nghĩa c a  ụ n y.ầ

a)  68% …

b)   95% ….

31

c)  99.7% …