PHÂN TÍCH SỐ LIỆU

5/12/2011 1

Mục tiêu

1. Trình bày được tầm quan trọng của việc kiểm soát chất lượng và xử lý số liệu

2. Mô tả được các cách phân tích và phiên giải số liệu dựa trên các mục tiêu và các biến số của nghiên cứu..

5/12/2011 2

Giới thiệu

Số liệu điều tra thực sự trở nên có ích khi được tập hợp lại và phân tích hoàn chỉnh. Việc xử lý và phân tích số liệu nhất thiết phải được tiến hành chuẩn bị một cách cẩn thận

5/12/2011 3

Giới thiệu

Khi phân tích số liệu: (cid:131) Loại thiết kết nghiên cứu (cid:131) Các phương pháp thu thập số liệu. Số liệu định lượng: mô tả các số liệu của từng biến trong toàn bộ các đơn vị nghiên cứu Số liệu định tính: thường là các mô tả, tổng hợp, và phiên giải các số liệu thu thập

5/12/2011 4

Kiểm tra chất lượng số liệu Bộ số liệu cần được kiểm tra tính đầy đủ và thống nhất của số liệu. (cid:131) Một số biến không có thông tin (cid:131) Sự không thống nhất về số liệu trong bộ câu

hỏi. • Do người phỏng vấn • Do người trả lời

Nếu không thể nào hiệu chỉnh, cần phải cân nhắc đến việc loại bỏ một phần số liệu.

5/12/2011 5

Quyết định loại bỏ một phần số liệu: (cid:131) Ảnh hưởng đến chất lượng của nghiên

cứu.

(cid:131) Chứng tỏ tính trung thực về mặt khoa

học của người nghiên cứu.

(cid:131) Nên đưa vào bàn luận về điều này

trong báo cáo cuối cùng

5/12/2011 6

Phân loại số liệu

Đối với các biến phân loại: định nghĩa ngay từ khi thiết kế bộ câu hỏi. Câu hỏi có dạng trả lời khác như “loại khác, xin chỉ rõ.” phân loại sau khi đã điều tra, cần được liệt kê vào một bảng các dạng trả lời khác nhau hoặc “khác”, (<= 5% ) Đối với các biến dạng số: Không cần phân loại trước

5/12/2011 7

Mã hoá số liệu

Mang lại hiệu quả trong việc xử lý, nhập và phân tích. (cid:131) Có (hoặc dương tính) mã là 1

(cid:131) Không (âm tính)

mã là 2

(cid:131) Không biết

mã là 8 hoặc (88)

(cid:131) Không trả lời

mã là 9 (hoặc 99)

5/12/2011 8

Ví dụ: Bộ câu hỏi 30 người (cid:131) 1. Số thứ tự:……… (cid:131) 2. Giới tính: • 1/ Nam

2/ Nữ

(cid:131) 3. Tuổi (ghi cụ thể):……… (cid:131) 4. Cân nặng (với 1 số lẽ): ................kg (cid:131) 5. Chiều cao (với 2 số lẻ): ................kg (cid:131) 6. Tình trạng hôn nhân của ông/ bà:

• 1/ Độc thân • 2/ Có vợ/chồng • 3/ Ly thân • 4/ Ly dị • 5/ Góa

5/12/2011 9

“Bảng mã hóa” dùng cho xử lý dữ kiện bằng máy vi tính.

Biến số

Loại

Tên giá trị

Giá trị mất

Tên biến

TT

01

01 - 30

Thutu

Số thứ tự

Số

02

9

Gioi

Giới tính

Số

1- nam 2 - nữ

03

20 - 59

99

Tuoi

Tuổi

Số

04

999

Cannang

Cân nặng

Số

05

999

Chieucao

Chiều cao

Số

Honnhan

06

trạng

Số

Tình hôn nhân

1-Độc thân 2-Có vợ/chồng 3-Ly thân 4-Ly dị 5- Goá

5/12/2011 10

Bảng số liệu trống (bảng câm)

Có thể được thiết kế cùng với đề cương

Định hướng cho việc phân tích số liệu

5/12/2011 11

Tỷ lệ người ít vận động thể lực phân chia theo địa dư và giới

Nữ

Tổng số

Nam

Địa dư

Tần số

Tần số

Tần số

(%)

(%)

(%)

Thành thị

Nông thôn

Tổng số

5/12/2011 12

Phân tích số liệu bằng máy tính

Chọn chương trình máy tính: EXCEL, SPSS, STATA, EPI_INFO… Nhập số liệu: Lập một khuôn dạng (form) cho việc nhập số liệu trên máy tính. Kiểm tra chất lượng số liệu sau khi nhập Phân tích và đưa ra các kết quả

5/12/2011 13

Định nghĩa phân tích số liệu Là sự tính toán những chỉ số được qui định trong những mục tiêu.

Kết quả phân tích dữ kiện trả lời mục tiêu nghiên cứu.

5/12/2011 14

Có 2 loại phân tích số liệu:

(cid:131) Thống kê mô tả: Mô tả bản chất và đặc

tính của hiện tượng nghiên cứu.

(cid:131) Thống kê suy luận: Tính toán và so sánh các chỉ số, kiểm định ý nghĩa, xác định mức độ liên quan, tương quan, xây dựng mô hình hồi qui

5/12/2011 15

Nguyên tắc phân tích số liệu

Nguyên tắc (cid:131) Mục tiêu và thiết kế nghiên cứu (cid:131) Thang đo lường/loại dữ kiện (cid:131) Sự tham khảo ý kiến của chuyên gia thống

kê.

Những phương pháp phân tích dữ kiện phải được xác định trong giai đoạn thiết kế đề cương

5/12/2011 16

Các bước phân tích số liệu

Xem lại mục tiêu tổng quát để có khái niệm chung về những kết quả cuối cùng của nghiên cứu. Xem những mục tiêu cụ thể: chú ý biến số được khảo sát và tuỳ theo bản chất của biến số. Khi cần khảo sát mối liên quan: cần xác định biến số nào là độc lập, và biến số nào là phụ thuộc, biến số gây nhiễu phải.

5/12/2011 17

Phân tích biến định lượng

Thống kê mô tả: Các chỉ số cần tính là số đo lường khuynh hướng tập trung và phân tán. (cid:131) Trung bình, trung vị (cid:131) Độ lệch chuẩn, khoảng Thống kê suy luận: (cid:131) Test thống kê cho kiểm định trung bình (cid:131) Test phương sai (cid:131) tương quan, (cid:131) hồi qui tuyến tính

5/12/2011 18

Ví dụ

Bộ số liệu: 4,2,12,6

Tính trung bình, trung vị, độ lệch chuẩn, khoảng

5/12/2011 19

Phân tích biến định tính

Mô tả: (cid:131) Phân bố tấn số (cid:131) Tỷ lệ Để so sánh, (cid:131) Test Chi bình phương, (cid:131) McNemar ... Nếu biến số là nhị phân: số đo kết hợp. (cid:131) RR (cid:131) OR

5/12/2011 20

CHỌN TEST THỐNG KÊ TRONG PHÂN TÍCH SỐ LIỆU

5/12/2011 21

Mục tiêu 1. Trình bày được những khái niệm cơ bản về ý nghĩa thống kê trong nghiên cứu khoa học

2. Trình bày được các test thống kê thích hợp khi so sánh các biến định tính, các biến định lượng.

3. Trình bày được các test thống kê thích hợp mô tả mối tương quan giữa các biến số

4. Sử dụng được các test thống kê phù hợp

trong các loại nghiên cứu khoa học

5/12/2011 22

Cơ sở của các test thống kê

Nghiên cứu phải dùng phép so sánh sự khác biệt của các nhóm (giả thuyết: H0 ,H1) Test thống kê xem xét là sự khác biệt có phải do: (cid:131) Yếu tố nghiên cứu (cid:131) Yếu tố mai rủi (cid:131) Sai số Cơ sở: Nếu lập lại 100 lần nc (cùng điều kiện) sẽ cho khác biệt độ lớn như vậy bao nhiêu lần? Nếu tính toán: khác biệt chỉ 1 lần; 5 lần – Không là yếu tố mai rủi

5/12/2011 23

Giả thuyết H0

Giả thuyết H0: Không có sự khác biệt Giả thuyết H1: Có sự khác biệt (2 chiều); lớn hơn hoặc nhỏ hơn (một chiều)

Ví dụ: Nghiên cứu Đoàn hệ về hút thuốc lá và ung thư phổi: (cid:131) H0: Tỷ lệ ung thư phổi của nhóm có hút

thuốc và không hút thuốc là như nhau

(cid:131) H1: Tỷ lệ ung thư phổi của nhóm không hút

thuốc lá thấp hơn nhóm có hút thuốc lá

5/12/2011 24

Ngưỡng ý nghĩa

Khi bác bỏ giả thuyết H0 đều mắc sai lầm nhất định

Đề xuất một “xác xuất sai lầm” chấp nhận được: mức ý nghĩa

Tuỳ theo tính chất của nghiên cứu, mức ý nghĩa: 5%, 1%...

5/12/2011 25

Nguyên tắc chọn test thống kê

Mục tiêu của nghiên cứu: Đo lường sự khác biệt hay đo lường tương quan giữa các biến

Số nhóm nghiên cứu: 1 nhóm, 2 nhóm, hoặc trên hai nhóm

Bản chất số liệu, loại biến số: Biến định tính, biến định lượng

Phân bố mẫu: Chuẩn hay không chuẩn

Loại quan sát: Mẫu độc lập hay ghép cặp

5/12/2011 26

Phân tích sự khác biệt

Biến định tính:

(cid:131) Sự khác biệt 2 tỷ lệ

(cid:131) Nhiều hơn hai tỷ lệ

Biến định lượng

(cid:131) Sự khác biệt 2 trung bình

(cid:131) Sự khác biệt nhiều hơn 2 trung bình

5/12/2011 27

Biến định lượng

So Sánh CÁC Số Trung Bình

So Sánh HAI Số Trung Bình

Maãu Lôù Maãu Lô

ùnn

Maãu Caëp

Kiểm t

ANOVA

Kiểm t cặp

û Maãu Nhoû Maãu Nho

Kruskal-Wallis

Wilcoxon

5/12/2011 28

Biến định tính

So Sánh Các Tỉ Lệ (Bảng n hàng x n cột)

So Sánh HAI Tỉ Lệ

Maãu Lôù Maãu Lô

ùnn

Maãu Caëp

χ2

χ2

χ2 McNemar

û Maãu Nhoû Maãu Nho

Chính xác Fisher

5/12/2011 29

Bảng số liệu

Bệnh

Phơi nhiễm

Tổng

Không

a

b

e

Không

c

d

f

Tổng

g

h

n

5/12/2011 30

Công thức chung của χ2

2

)

2 χ

=

(tổng hàng x

tổng

( EO ∑ − E

df: (hang - 1) x (cột -1) O: Giá trị qua sát E: Giá trị kỳ vọng E = cột)/tổng chung Điều kiện: <20% số ô có kỳ vọng < 5

Bảng 2 x 2

2

bc

adn (

)

2 =χ

− efgh

5/12/2011 31

Ví dụ

Hút thuốc lá

Nhồi máu CT

Tổng

Không

30 (33%)

60

90

Không

20 (18%)

90

110

Tổng

50 (25%)

150

200

Tính các giá trị kỳ vọng

Tính χ2 và đưa ra kết luận về sự khác biệt

5/12/2011 32

Ví dụ

Hút thuốc lá

Nhồi máu CT

Tổng

Không

30

60

90

22,5

67,5

Không

20

90

110

27,5

82,5

Tổng

50

150

200

Tính χ2 = 6,06 ; df = 1; p = 0,0138

5/12/2011 33

Chú ý

Trong trường hợp nhiều hàng, nhiều cột mà có số ô có giá trị nhỏ hơn 5, có thể gộp các hàng (cột) để tính toán cho phù hợp

5/12/2011 34

Nghiện ma túy

Tổng

Học vấn

Không

7,5

5,5

Mù chữ Cấp 1

Có 10 8

4 3

13 11

6,3 4,6 3,5

4,7 3,4 2,6

Cấp 2 Cấp 3+ Tổng

3 2 23

5 5 17

8 7 40

5/12/2011 35

Tổng

Học vấn

Nghiện ma túy

Không

Mù chữ

4

13

10

7,5

5,5

Cấp 1

3

11

8

6,3

4,7

Cấp 2

5

8

3

3,4

Cấp 3+

5

7

2

4,6 3,5

2,6

Tổng

17

40

23

Học vấn

Nghiện ma túy

Tổng

Không

Mù chữ - Cấp 1

18

14,3

10,3

7

25

Cấp 2 – Cấp 3+

8,1

6

10

15

5

Tổng

17

40

23

5/12/2011 36

PHÂN TÍCH SỰ TƯƠNG QUAN

Biến định lượng Biến nhị phân

Thuần tập Thử nghiệm

Tất cả các loại nghiên cứu NC ngang/ NC bệnh chứng

Phương trình hồi qui Hệ số tương quan (r) Nguy cơ tương đối (RR) Tỷ suất chênh (OR)

Độ lớn của mối tương quan

Phân tích tương quan và hồi qui Test ý nghĩa thống kê χ2 hoặc McNemar test

5/12/2011 37

Biến nhị phân

Hậu quả

Tổng

Nguyên nhân

Không

Có Không Tổng

a c a + c

b d b + d

a + b c + d a + b + c + d

Trong nghiên cứu bệnh-chứng

OR = ad / bc

5/12/2011 38

Biến nhị phân

Hậu quả

Tổng

Nguyên nhân

Không

Có Không Tổng

a c a + c

b d b + d

a + b c + d a + b + c + d

Trong nghiên thuần tập

RR = [a / (a + b)] : [c / (c + d)]

5/12/2011 39

NC bệnh chứng về hút thuốc lá – K phổi

HTL

Tổng

K phổi

Không

80

120

Không Tổng

Có 40 20 60

100 180

120 240

chỉ số đo lường

OR = 2,5

5/12/2011 40

NC đoàn hệ về uống thuốc ngừa thai và nhiễm trùng tiểu

NTT

Tổng

Không

UTNT Có Không Tổng

200 300 500

1800 5700 750000

2000 6000 8000

Chỉ số đo lường

RR = 0,1/0,05 =2

5/12/2011 41

THỰC TRẠNG BỆNH ĐÁI THÁO ĐƯỜNG VÀ CÁC YẾU TỐ NGUY CƠ Ở LỨA TUỔI 25 – 64 TẠI THÀNH PHỐ CẦN THƠ NĂM 2005

Mục tiêu

Xác định tỷ lệ hiện mắc bệnh ĐTĐ của người dân trong độ tuổi từ 25 – 64 tại thành phố Cần Thơ.

Xác định một số yếu tố nguy cơ gây bệnh ĐTĐ ở người dân trong độ tuổi từ 25 – 64 và đánh giá mức độ liên quan qua lại của các yếu tố nguy cơ này đối với bệnh ĐTĐ.

5/12/2011 42

Biến số

1. Xác định tỷ lệ hiện mắc bệnh ĐTĐ của người dân trong độ tuổi từ 25 – 64 tại thành phố Cần Thơ.

Các biến số:

Đường huyết lúc đói: Bình thường, cao

Tuổi: Tuổi dương lịch

Giới: Nam, nữ

Nơi cư trú: Thành thị, nông thôn

….

5/12/2011 43

Biến số

2. Xác định một số yếu tố nguy cơ gây bệnh ĐTĐ ở người dân trong độ tuổi từ 25 – 64 và đánh giá mức độ liên quan qua lại của các yếu tố nguy cơ này đối với bệnh ĐTĐ.

Các biến số:

TSGĐ liên quan đến bệnh ĐTĐ

Tuổi

Hoạt động thể lực

Hút thuốc lá

BMI

Huyết áp

5/12/2011 44

Mối liên qua giữa Đường huyết (Biến phụ thuộc) và một số yếu tố (Biến độc lập)

Biến độc lập

Giá trị

Tương quan

Test sự khác biệt

OR

Có, không

χ2

TSGĐ liên quan đến bệnh ĐTĐ

Tuổi

OR

r

<45t; >=45t Tuổi làm tròn

χ2

t

BMI

OR

<23; >=23

Huyết áp

OR

Có tăng, không tăng

OR

<150 phút/tuần; >150p

χ2 χ2 χ2

Hoạt động thể lực

5/12/2011 45