ề
ả
ố
Căn B n v sinh th ng kê
ố
ả
Th ng kê mô t
Gs, TS LÊ HOÀNG NINH
ộ
ệ
ầ N i dung c n phân bi
t
• Distinguish between different strategies for obtaining a sample from a population
• Understand the measures of central tendency and variability in your data
2
ố
ả
Th ng kê mô t
và suy lý
ch c,
ị ộ ộ ữ ệ ừ ộ
ể
ẫ
ố
ố ể ổ ứ ả: dùng các con s đ t m t m u.
ậ ừ
thông tin
ế
ộ ế có m t k t lu n t ổ ể
ầ
ẫ
ố Th ng kê suy lý: ư ch a hoàn chi3ng, nghĩa là t ng quát hóa k t ả ừ ộ qu t
m t m u lên qu n th .
Inferential statistics use available information in a sample to draw inferences about the population from which the sample was selected
Th ng kê mô t bi u th m t b d li u t
ầ
ế ể Qu n th lý thuy t
Representative? Y N
Sample 1:
Representative? Y N
Sample 2:
Representative? Y N
Sample 3:
4
ẫ ấ Cách l y m u
• Convenience Sampling: select the most
accessible and available subjects in target population. Inexpensive, less time consuming, but sample is nearly always nonrepresentative of target population.
5
• Random Sampling (Simple): select subjects at random from the target population. Need to identify all in target population first. Provides representative sample frequently.
ẫ ấ Cách l y m u
• Systematic Sampling: Identify all in target population, and select every xth person as a subject.
• Stratified Sampling: Identify important sub
groups in your target population. Sample from these groups randomly or by convenience. Ensures that important subgroups are included in sample. May not be representative.
6
• More complex sampling
ầ
ấ
ẫ Sai l m do l y m u
ẫ ị ố • Có s khác bi ự
ầ ể ố ữ ệ t gi a tr s trên m u ( s ị ố ậ
ở ọ ứ
7
ố th ng kê) và tr s th t trên qu n th ( tham s )ố • X y ra ả m i nghiên c u. • Sampling error approximates 1 / √n • Note that larger sample sizes also require time and expense to obtain, and that large sample sizes do not eliminate sampling error
Research Process
Research question
Hypothesis
Identify research design
Data collection
Presentation of data
Data analysis
Interpretation of data
8
Types of Data Collection
• Surveys/Questionnaires
• Direct medical examination • Direct measurement (e.g. blood draws) • Administrative records
9
– Selfreport – Intervieweradministered – proxy
Understanding and Presenting Data
10
ạ ữ ệ Lo i d li u
1. Categorical: (e.g., Sex, Marital Status,
income category)
2. Continuous: (e.g., Age, income, weight, height, time to achieve an outcome) 3. Discrete: (e.g.,Number of Children in a
family)
4. Binary or Dichotomous: (e.g., response to
all Yes or No type of questions)
11
ữ ệ
Thang đo d li u 1. Nominal: These data do not represent an amount or
quantity (e.g., Marital Status, Sex)
2. Ordinal: These data represent an ordered series of
relationship (e.g., level of education)
3. Interval: These data is measured on an interval scale having equal units but an arbitrary zero point. (e.g.: Temperature in Fahrenheit)
4. Interval Ratio: Variable such as weight for which we can compare meaningfully one weight versus another (say, 100 Kg is twice 50 Kg) 12
ế
ắ
ữ ệ S p x p, trình bày d li u
ố ng đ i (Relative Frequency
• B ng t n s ầ ố ả • Đ th t n s Frequency Histogram ồ ị ầ ố • DT t n s t ầ ố ươ Histogram)
ầ ố ươ ng đ i (Relative Frequency
• Đa giác t n s Frequency polygon • ĐGTS t ố polygon)
13
ồ ồ ồ ộ • Bar chart ( bi u đ thanh) ể • Pie chart ( bi u đ bánh) ể • Box plot ( bi u đ hình h p) ể
ầ ố
ả
B ng t n s
ộ ữ ệ
ướ ầ c đ u giúp xem xét b d li u. ậ
ố ị ố
ự
ế
• Là b • Giúp nh n ra s phân ph i tr s các bi n
số
ậ
ạ ệ ể n y có th do nh p
• Giúp nh n ra các ngo i l – Xem xét các ngo i l ạ ệ ầ d li u có sai sót không
ậ
ậ ữ ệ ữ ệ ề – Đi u tra khác xem vi c nh p d li u có sai ệ
14
sót không
ầ ố
ả
B ng t n s
ả
ố ạ
ả ề ế ả ư ố ố ẻ ứ ộ M t n.c u kh o sát s tr em trong gia đình ế ố s ng t i khu ph A. k t qu đi u tra 30 gia đình trong khu ph A cho k t qu nh sau:
2, 2, 5, 3, 0, 1, 3, 2, 3, 4, 1, 3, 4, 5, 7, 3, 2, 4, 1, 0, 5, 8, 6, 5, 4 , 2, 4, 4, 7, 6
ộ ữ ệ ầ ằ ả
15
ầ ố Trình bày b d li u n y b ng b ng t n s ?
ạ
i
ố ẻ S tr em t gia đình
T n sầ ố (Frequency)
ầ ố ươ ng T n s t ố đ i (Relative Freq) 2/30=0.067 3/30=0.100 5/30=0.167 5/30=0.167 6/30=0.200 4/30=0.133 2/30=0.067 2/30=0.067 1/30=0.033
2 3 5 5 6 4 2 2 1
0 1 2 3 4 5 6 7 8
16
ầ ố
ả
B ng t n s
ạ
ờ
ố ầ
ả
, các b n trình bày b ng phân ph i t n
ộ
ứ ề ổ ủ ệ ậ
ệ ạ
ạ
ộ ệ
ố
ệ
Bây gi ố s trong m t nghiên c u v tu i c a b nh nhân ạ ị ệ b b nh tim m ch nh p vi n t i khoa tim m ch ủ c a m t b nh vi n trong thành ph .
ượ
ộ
ẫ
ậ c thu th p trên m t m u i phòng khám tim
ữ ệ ẫ ạ
ủ ệ
ệ
D li u sau đây đ ạ ệ ng u nhiên 30 b nh nhân t m ch c a b nh vi n trên.
42, 38, 51, 53, 40, 68, 62, 36, 32, 45, 51, 67, 53, 59, 47, 63, 52, 64, 61, 43, 56, 58, 66, 54, 56, 52, 40, 55, 72, 69.
17
Nhóm tu iổ
T n sầ ố
ầ ố T n s ố ươ ng đ i
t
2/30=0.067 3/30=0.100 4/30=0.134 3/30=0.100 8/30=0.267 3/30=0.100 4/30=0.134 3/30=0.100
32 36 yr 37 41 yr 4246 yr 4751 yr 5256 yr 5761 yr 6266 yr 6772 yr T ngổ
2 3 4 3 8 3 4 3 n=30
18
Đa giác t n sầ ố
9
Female
8
Male
7
6
5
4
ự ậ • Giúp nh n ra s phân ph i c a b d li u ố ủ ộ ữ ệ
y c n e u q e r F
3
2
1
0
20-
30-
40-
50-
60-69
Age in years
19
ả ố
ọ B ng 1 trên bài báo y h c ầ ố ứ ằ dân s nghiên c u b ng b ng t n s
ả ả Mô t
ả Tên b ng….
ố
%%
ế ế
ốS trung S trung bình (SD) bình (SD)
T n sầ ố T n sầ ố (n)(n)
Tên bi n sế ố Tên bi n sế ố ị ủ ơ (đ n v c a bi n ơ ị ủ (đ n v c a bi n s ) ốs ) ố Lo iạ Lo iạ
T ng ổT ng ổ
20
ố
ướ
Các s đo khuynh h
ng trung
tâm
Các s đo?ố
1. Trung bình(Mean) ị 2. Trung v (Median) 3. (Mode)
21
ấ ả ị ố t c các tr s đo
Trung bình m uẫ ố ọ ằ ẫ
ượ ượ ổ Trung bình s h c b ng t ng t ố ả đ c trên m u chia cho s kh o sát đ c.
ụ ủ ộ
ậ ồ
ư ậ ố ệ Thí d thu nh p hàng tháng c a 5 h gia đình ( d.vi: ngàn đ ng) nh sau, 6000, 10,000, 10,000, 14000, 50,000. do v y s trung bình là: 18 tri u.
= 18000
6000 + 10000 + 10000 + 14000 + 50000 5
22
X =
ị Trung v (Median)
ộ ữ ệ ừ ị ố ấ ấ
ị
t kê b d li u t ớ ị ố ữ ệ tr s th p nh t Li ấ ố ị cho t i tr s cao nh t.s trung v là tr ị ố ủ ộ ữ ệ ố ứ s đ ng gi a dãy tr s c a b d li u.
ộ ụ ượ ậ ạ c
ệ ư ơ ị ồ i 5 h gia đình đ t kê nh sau ( đ n v ngàn đ ng):
23
ị ố ệ ị Thí d thu nh p t li 6,000 10,000 10,000 14,000 50,000 Tr s trung v là 10.000.000 ( 10 tri u )
Mode
ầ ố ơ ề • Là tr s có t n s cao nh t ấ • Có th có nhi u h n 1 mode trong m t b ộ ộ
24
ị ố ể ữ ệ d li u
ố
ị
S đo v trí không trung tâm Measures of noncentral locations
ứ
•T phân v ị •Bách phân vị
25
ố
ự
ị ố
ấ
ự
ủ ộ ữ Các s đo s phân tán c a b d li uệ Measures of Dispersion or Variability • Biên đ Range ộ (tr s cao nh t và th p ữ t gi a 2
ấ ệ ấ ủ ộ ữ ệ nh t c a b d li u. S sai bi ộ ị ố ầ tr s n y là biên đ )
ươ
ươ
• Ph
ng sai (Variance) ( bình ph
ng
ẩ
ủ ộ ệ c a đ l ch chu n)
ộ ệ
• Đ l ch chu n (Standard deviation)
(the
ẩ square root of the variance)
26
ươ
ẫ
Ph
ủ ng sai c a m u
n
2
(cid:0)
(x x ) i
i=1
2 s =
n 1
ộ ệ
ẩ
S = đ l ch chu n ( SD) (square root of variance)
27
ụ
ẩ ậ ộ
ộ ươ ng sai và đ Thí d tính ph ụ ề ệ l ch chu n trong thí d v thu nh p h gia đình
2
2
2
2
)
)
)
)
2 =
=
S
(6000 18000 +(10000 18000 +(10000 18000 +(14000 18000)+(50000 18000 51
2 = 328,000,000 = 18110.77
S S
28
ố
ộ ệ
ẩ
S trung bình và đ l ch chu n (SD)
7 8
7 7
7 7 7
7 7 7
3 2
7
6
7 8 13
Mean = 7 SD=0.63
9
Mean = 7 SD=0
Mean = 7 SD=4.04
29
Qui lu tậ
ố ườ ng thì :
ị ố ằ Trong phân ph i bình th ộ a) 68% các tr s n m trong ph m vi 1 đ
ẩ ạ ị ố ệ l ch chu n, chung quanh tr s trung bình
ị ố ộ b) 95% các tr s năm trong ph m vi 2 đ
ẩ ạ ị ố ệ l ch chu n, chung quanh tr s trung bình
ị ố ằ ạ
30
ị ố ẩ ộ c) 99.7% các tr s n m trong ph m vi 3 đ ệ l ch chu n chung quanh tr s trung bình
ờ
ả ị
ả ứ
ố
ố
ườ
ộ ệ
ẩ
ả
Gi có phân ph i bình th đ l ch chu n là 2 phút. Các b n hãy gi
ộ ệ
ẩ
ố s trung bình và đ l ch chu n trong thí d
ố ớ ộ ạ đ nh th i gian ph n ng đ i v i m t lo i thu c nào đó ớ ị ố ng, có tr s trung bình là 10 phút v i ủ ạ i thích ý nghĩa c a ụ n y.ầ
a) 68% …
b) 95% ….
31
c) 99.7% …