GS TS LÊ HOÀNG NINH

Mục tiêu

 Tổng quan về các khái niệm và các

từ dùng trong sinh thống kê

 Áp dụng các test thống kê

 Thống kê mô tả

• Nhận diện kiểu hình • Đặt một giả thuyết

 Thống kê suy lý

• Phân biệt , làm rõ các sự khác biệt thật

• Cho phép kiểm định một giả thuyết

Tại sao dùng th ng kê? ố

Tại sao dùng th ng kê?

Cardiovascular Mortality in Males

SMR

Bangor Roseto

1.2 1 0.8 0.6 0.4 0.2 0 '35-'44 '45-'54 '55-'64 '65-'74 '75-'84

AJPH 1992

 Số

 Liên tục  Rời

 Loại

 tên  Thứ tự

Các loại dữ liệu

 Nhận ra kiểu hình dữ liệu  Nhận ra những ngoại lệ, bên ngoài  Hướng chọn test thống kê

Th ng kê mô t ố ả

Th ng kê mô t ố ả

Tỷ lệ mẫu dương tính với bệnh X năm 1998-99

South Northeast West Midwest

35 30 25 20 15 10 5 0

Mô t dữ liệu bằng con số

Số đo khuynh hướng trung tâm

• Số trung bình --MEAN • Số trung vị -- trị số ở giữa • MODE – các trị số có tần số xuất hiện cao

nhất

Phân b thứ hạng sinh viên trong khóa học 2013

14

12

10

8

Number of Students

6

4

2

0

A A- B+ B B- C+ C C- D+ D D- F

Grade

Mô t dữ liệu bằng con số

Các số đo độ phân tán

• Biên độ • Độ lệch chuẩn STANDARD DEVIATION • Độ nghiên SKEWNESS

• Biên độ

 Trị số cao và thấp nhất

• Độ lệch chuẩn SD

 Đo độ gần của dữ liệu so với trị số trung

bình • Độ nghiên

 Xem tính đối xứng của đường cong

S đo độ phân tán ố

• RANGE

 highest to lowest values

• Độ lệch chuẩn

 how closely do values cluster around the

mean value

• Độ nghiên

 refers to symmetry of curve

S đo độ phân tán ố

Curve A

Curve B

(cid:0) B

(cid:0) A

Độ lệch chu n ẩ Standard Deviation

• RANGE

 highest to lowest values

• STANDARD DEVIATION

 how closely do values cluster around the

mean value

• Độ nghiên SKEWNESS

 refers to symmetry of curve

S đo độ phân tán ố

Curve A

Curve B

Skewness

i

e d o M

n a d e M

negative skew

n a e M

.

Phân ph i bình thường ố

e d o M

,

i

n a d e M

,

 TB = TV = Mode  Độ nghiên = 0  68% trị số trong khoảng 1 SD  95% trị số trong khoảng 2 SDs

n a e M

2(cid:0)

1

(cid:0)

Dùng để xác định khả năng một kết luận dựa trên bô dữ liệu trên một mẫu là đúng trên quần thể.

Th ng kê suy lý ố

Các từ

Giá trị p : khả năng, xác suất sự khác biệt quan sát được có thể xảy ra là do cơ hội. (chance)

DRUG Baseline mean SBP F/u mean SBP

A

Th nghiệm cao huy t áp ử ế

150

130

B

150

125

Từ

Khoảng tin cậy: Là biên độ các trị số mà chắc chắn là có

chứa trị số thật trên quần thể

Study

IC STK Control

p

N

Khaja

30 Day % Mortality

10.0

0.55

40

5.0

Anderson

15.4

0.19

50

4.2

Kennedy

11.2

0.02 250

3.7

95% Confidence Intervals

Khaja (n=40)

Anderson (n=50)

Kennedy (n=250)

-.40 -.35 -.30 -.25 -.20 -.15 -.10 -.05 .00

.05

.10

.15

.20

Sự thật

Các ki u sai l m ể ầ

Difference

No difference

Kết luận

No difference

TYPE II ERROR ((cid:0) )

Difference

TYPE I ERROR ((cid:0) ) Power = 1­(cid:0)

1. What type of data?

2. How many samples?

3. Are the data normally distributed?

4. What is the sample size?

Test nào được s dụng? ử