PHÂN TÍCH SỐ LIỆU
5/12/2011 1
Mục tiêu
1. Trình bày được tầm quan trọng của việc kiểm soát chất lượng và xử lý số liệu
2. Mô tả được các cách phân tích và phiên giải số liệu dựa trên các mục tiêu và các biến số của nghiên cứu..
5/12/2011 2
Giới thiệu
Số liệu điều tra thực sự trở nên có ích khi được tập hợp lại và phân tích hoàn chỉnh. Việc xử lý và phân tích số liệu nhất thiết phải được tiến hành chuẩn bị một cách cẩn thận
5/12/2011 3
Giới thiệu
Khi phân tích số liệu: (cid:131) Loại thiết kết nghiên cứu (cid:131) Các phương pháp thu thập số liệu. Số liệu định lượng: mô tả các số liệu của từng biến trong toàn bộ các đơn vị nghiên cứu Số liệu định tính: thường là các mô tả, tổng hợp, và phiên giải các số liệu thu thập
5/12/2011 4
Kiểm tra chất lượng số liệu Bộ số liệu cần được kiểm tra tính đầy đủ và thống nhất của số liệu. (cid:131) Một số biến không có thông tin (cid:131) Sự không thống nhất về số liệu trong bộ câu
hỏi. • Do người phỏng vấn • Do người trả lời
Nếu không thể nào hiệu chỉnh, cần phải cân nhắc đến việc loại bỏ một phần số liệu.
5/12/2011 5
Quyết định loại bỏ một phần số liệu: (cid:131) Ảnh hưởng đến chất lượng của nghiên
cứu.
(cid:131) Chứng tỏ tính trung thực về mặt khoa
học của người nghiên cứu.
(cid:131) Nên đưa vào bàn luận về điều này
trong báo cáo cuối cùng
5/12/2011 6
Phân loại số liệu
Đối với các biến phân loại: định nghĩa ngay từ khi thiết kế bộ câu hỏi. Câu hỏi có dạng trả lời khác như “loại khác, xin chỉ rõ.” phân loại sau khi đã điều tra, cần được liệt kê vào một bảng các dạng trả lời khác nhau hoặc “khác”, (<= 5% ) Đối với các biến dạng số: Không cần phân loại trước
5/12/2011 7
Mã hoá số liệu
Mang lại hiệu quả trong việc xử lý, nhập và phân tích. (cid:131) Có (hoặc dương tính) mã là 1
(cid:131) Không (âm tính)
mã là 2
(cid:131) Không biết
mã là 8 hoặc (88)
(cid:131) Không trả lời
mã là 9 (hoặc 99)
5/12/2011 8
Ví dụ: Bộ câu hỏi 30 người (cid:131) 1. Số thứ tự:……… (cid:131) 2. Giới tính: • 1/ Nam
2/ Nữ
(cid:131) 3. Tuổi (ghi cụ thể):……… (cid:131) 4. Cân nặng (với 1 số lẽ): ................kg (cid:131) 5. Chiều cao (với 2 số lẻ): ................kg (cid:131) 6. Tình trạng hôn nhân của ông/ bà:
• 1/ Độc thân • 2/ Có vợ/chồng • 3/ Ly thân • 4/ Ly dị • 5/ Góa
5/12/2011 9
“Bảng mã hóa” dùng cho xử lý dữ kiện bằng máy vi tính.
Biến số
Loại
Tên giá trị
Giá trị mất
Tên biến
TT
01
01 - 30
Thutu
Số thứ tự
Số
02
9
Gioi
Giới tính
Số
1- nam 2 - nữ
03
20 - 59
99
Tuoi
Tuổi
Số
04
999
Cannang
Cân nặng
Số
05
999
Chieucao
Chiều cao
Số
Honnhan
06
trạng
Số
Tình hôn nhân
1-Độc thân 2-Có vợ/chồng 3-Ly thân 4-Ly dị 5- Goá
5/12/2011 10
Bảng số liệu trống (bảng câm)
Có thể được thiết kế cùng với đề cương
Định hướng cho việc phân tích số liệu
5/12/2011 11
Tỷ lệ người ít vận động thể lực phân chia theo địa dư và giới
Nữ
Tổng số
Nam
Địa dư
Tần số
Tần số
Tần số
(%)
(%)
(%)
Thành thị
Nông thôn
Tổng số
5/12/2011 12
Phân tích số liệu bằng máy tính
Chọn chương trình máy tính: EXCEL, SPSS, STATA, EPI_INFO… Nhập số liệu: Lập một khuôn dạng (form) cho việc nhập số liệu trên máy tính. Kiểm tra chất lượng số liệu sau khi nhập Phân tích và đưa ra các kết quả
5/12/2011 13
Định nghĩa phân tích số liệu Là sự tính toán những chỉ số được qui định trong những mục tiêu.
Kết quả phân tích dữ kiện trả lời mục tiêu nghiên cứu.
5/12/2011 14
Có 2 loại phân tích số liệu:
(cid:131) Thống kê mô tả: Mô tả bản chất và đặc
tính của hiện tượng nghiên cứu.
(cid:131) Thống kê suy luận: Tính toán và so sánh các chỉ số, kiểm định ý nghĩa, xác định mức độ liên quan, tương quan, xây dựng mô hình hồi qui
5/12/2011 15
Nguyên tắc phân tích số liệu
Nguyên tắc (cid:131) Mục tiêu và thiết kế nghiên cứu (cid:131) Thang đo lường/loại dữ kiện (cid:131) Sự tham khảo ý kiến của chuyên gia thống
kê.
Những phương pháp phân tích dữ kiện phải được xác định trong giai đoạn thiết kế đề cương
5/12/2011 16
Các bước phân tích số liệu
Xem lại mục tiêu tổng quát để có khái niệm chung về những kết quả cuối cùng của nghiên cứu. Xem những mục tiêu cụ thể: chú ý biến số được khảo sát và tuỳ theo bản chất của biến số. Khi cần khảo sát mối liên quan: cần xác định biến số nào là độc lập, và biến số nào là phụ thuộc, biến số gây nhiễu phải.
5/12/2011 17
Phân tích biến định lượng
Thống kê mô tả: Các chỉ số cần tính là số đo lường khuynh hướng tập trung và phân tán. (cid:131) Trung bình, trung vị (cid:131) Độ lệch chuẩn, khoảng Thống kê suy luận: (cid:131) Test thống kê cho kiểm định trung bình (cid:131) Test phương sai (cid:131) tương quan, (cid:131) hồi qui tuyến tính
5/12/2011 18
Ví dụ
Bộ số liệu: 4,2,12,6
Tính trung bình, trung vị, độ lệch chuẩn, khoảng
5/12/2011 19
Phân tích biến định tính
Mô tả: (cid:131) Phân bố tấn số (cid:131) Tỷ lệ Để so sánh, (cid:131) Test Chi bình phương, (cid:131) McNemar ... Nếu biến số là nhị phân: số đo kết hợp. (cid:131) RR (cid:131) OR
5/12/2011 20
CHỌN TEST THỐNG KÊ TRONG PHÂN TÍCH SỐ LIỆU
5/12/2011 21
Mục tiêu 1. Trình bày được những khái niệm cơ bản về ý nghĩa thống kê trong nghiên cứu khoa học
2. Trình bày được các test thống kê thích hợp khi so sánh các biến định tính, các biến định lượng.
3. Trình bày được các test thống kê thích hợp mô tả mối tương quan giữa các biến số
4. Sử dụng được các test thống kê phù hợp
trong các loại nghiên cứu khoa học
5/12/2011 22
Cơ sở của các test thống kê
Nghiên cứu phải dùng phép so sánh sự khác biệt của các nhóm (giả thuyết: H0 ,H1) Test thống kê xem xét là sự khác biệt có phải do: (cid:131) Yếu tố nghiên cứu (cid:131) Yếu tố mai rủi (cid:131) Sai số Cơ sở: Nếu lập lại 100 lần nc (cùng điều kiện) sẽ cho khác biệt độ lớn như vậy bao nhiêu lần? Nếu tính toán: khác biệt chỉ 1 lần; 5 lần – Không là yếu tố mai rủi
5/12/2011 23
Giả thuyết H0
Giả thuyết H0: Không có sự khác biệt Giả thuyết H1: Có sự khác biệt (2 chiều); lớn hơn hoặc nhỏ hơn (một chiều)
Ví dụ: Nghiên cứu Đoàn hệ về hút thuốc lá và ung thư phổi: (cid:131) H0: Tỷ lệ ung thư phổi của nhóm có hút
thuốc và không hút thuốc là như nhau
(cid:131) H1: Tỷ lệ ung thư phổi của nhóm không hút
thuốc lá thấp hơn nhóm có hút thuốc lá
5/12/2011 24
Ngưỡng ý nghĩa
Khi bác bỏ giả thuyết H0 đều mắc sai lầm nhất định
Đề xuất một “xác xuất sai lầm” chấp nhận được: mức ý nghĩa
Tuỳ theo tính chất của nghiên cứu, mức ý nghĩa: 5%, 1%...
5/12/2011 25
Nguyên tắc chọn test thống kê
Mục tiêu của nghiên cứu: Đo lường sự khác biệt hay đo lường tương quan giữa các biến
Số nhóm nghiên cứu: 1 nhóm, 2 nhóm, hoặc trên hai nhóm
Bản chất số liệu, loại biến số: Biến định tính, biến định lượng
Phân bố mẫu: Chuẩn hay không chuẩn
Loại quan sát: Mẫu độc lập hay ghép cặp
5/12/2011 26
Phân tích sự khác biệt
Biến định tính:
(cid:131) Sự khác biệt 2 tỷ lệ
(cid:131) Nhiều hơn hai tỷ lệ
Biến định lượng
(cid:131) Sự khác biệt 2 trung bình
(cid:131) Sự khác biệt nhiều hơn 2 trung bình
5/12/2011 27
Biến định lượng
So Sánh CÁC Số Trung Bình
So Sánh HAI Số Trung Bình
Maãu Lôù Maãu Lô
ùnn
Maãu Caëp
Kiểm t
ANOVA
Kiểm t cặp
û Maãu Nhoû Maãu Nho
Kruskal-Wallis
Wilcoxon
5/12/2011 28
Biến định tính
So Sánh Các Tỉ Lệ (Bảng n hàng x n cột)
So Sánh HAI Tỉ Lệ
Maãu Lôù Maãu Lô
ùnn
Maãu Caëp
χ2
χ2
χ2 McNemar
û Maãu Nhoû Maãu Nho
Chính xác Fisher
5/12/2011 29
Bảng số liệu
Bệnh
Phơi nhiễm
Tổng
Có
Không
Có
a
b
e
Không
c
d
f
Tổng
g
h
n
5/12/2011 30
Công thức chung của χ2
2
)
2 χ
=
(tổng hàng x
tổng
( EO ∑ − E
df: (hang - 1) x (cột -1) O: Giá trị qua sát E: Giá trị kỳ vọng E = cột)/tổng chung Điều kiện: <20% số ô có kỳ vọng < 5
Bảng 2 x 2
2
bc
adn (
)
2 =χ
− efgh
5/12/2011 31
Ví dụ
Hút thuốc lá
Nhồi máu CT
Tổng
Có
Không
Có
30 (33%)
60
90
Không
20 (18%)
90
110
Tổng
50 (25%)
150
200
Tính các giá trị kỳ vọng
Tính χ2 và đưa ra kết luận về sự khác biệt
5/12/2011 32
Ví dụ
Hút thuốc lá
Nhồi máu CT
Tổng
Có
Không
Có
30
60
90
22,5
67,5
Không
20
90
110
27,5
82,5
Tổng
50
150
200
Tính χ2 = 6,06 ; df = 1; p = 0,0138
5/12/2011 33
Chú ý
Trong trường hợp nhiều hàng, nhiều cột mà có số ô có giá trị nhỏ hơn 5, có thể gộp các hàng (cột) để tính toán cho phù hợp
5/12/2011 34
Nghiện ma túy
Tổng
Học vấn
Không
7,5
5,5
Mù chữ Cấp 1
Có 10 8
4 3
13 11
6,3 4,6 3,5
4,7 3,4 2,6
Cấp 2 Cấp 3+ Tổng
3 2 23
5 5 17
8 7 40
5/12/2011 35
Tổng
Học vấn
Nghiện ma túy
Không
Có
Mù chữ
4
13
10
7,5
5,5
Cấp 1
3
11
8
6,3
4,7
Cấp 2
5
8
3
3,4
Cấp 3+
5
7
2
4,6 3,5
2,6
Tổng
17
40
23
Học vấn
Nghiện ma túy
Tổng
Có
Không
Mù chữ - Cấp 1
18
14,3
10,3
7
25
Cấp 2 – Cấp 3+
8,1
6
10
15
5
Tổng
17
40
23
5/12/2011 36
PHÂN TÍCH SỰ TƯƠNG QUAN
Biến định lượng Biến nhị phân
Thuần tập Thử nghiệm
Tất cả các loại nghiên cứu NC ngang/ NC bệnh chứng
Phương trình hồi qui Hệ số tương quan (r) Nguy cơ tương đối (RR) Tỷ suất chênh (OR)
Độ lớn của mối tương quan
Phân tích tương quan và hồi qui Test ý nghĩa thống kê χ2 hoặc McNemar test
5/12/2011 37
Biến nhị phân
Hậu quả
Tổng
Nguyên nhân
Có
Không
Có Không Tổng
a c a + c
b d b + d
a + b c + d a + b + c + d
Trong nghiên cứu bệnh-chứng
OR = ad / bc
5/12/2011 38
Biến nhị phân
Hậu quả
Tổng
Nguyên nhân
Có
Không
Có Không Tổng
a c a + c
b d b + d
a + b c + d a + b + c + d
Trong nghiên thuần tập
RR = [a / (a + b)] : [c / (c + d)]
5/12/2011 39
NC bệnh chứng về hút thuốc lá – K phổi
HTL
Tổng
K phổi
Không
80
120
Có
Không Tổng
Có 40 20 60
100 180
120 240
chỉ số đo lường
OR = 2,5
5/12/2011 40
NC đoàn hệ về uống thuốc ngừa thai và nhiễm trùng tiểu
NTT
Tổng
Có
Không
UTNT Có Không Tổng
200 300 500
1800 5700 750000
2000 6000 8000
Chỉ số đo lường
RR = 0,1/0,05 =2
5/12/2011 41
THỰC TRẠNG BỆNH ĐÁI THÁO ĐƯỜNG VÀ CÁC YẾU TỐ NGUY CƠ Ở LỨA TUỔI 25 – 64 TẠI THÀNH PHỐ CẦN THƠ NĂM 2005
Mục tiêu
•
Xác định tỷ lệ hiện mắc bệnh ĐTĐ của người dân trong độ tuổi từ 25 – 64 tại thành phố Cần Thơ.
•
Xác định một số yếu tố nguy cơ gây bệnh ĐTĐ ở người dân trong độ tuổi từ 25 – 64 và đánh giá mức độ liên quan qua lại của các yếu tố nguy cơ này đối với bệnh ĐTĐ.
5/12/2011 42
Biến số
1. Xác định tỷ lệ hiện mắc bệnh ĐTĐ của người dân trong độ tuổi từ 25 – 64 tại thành phố Cần Thơ.
Các biến số:
Đường huyết lúc đói: Bình thường, cao
Tuổi: Tuổi dương lịch
Giới: Nam, nữ
Nơi cư trú: Thành thị, nông thôn
….
5/12/2011 43
Biến số
2. Xác định một số yếu tố nguy cơ gây bệnh ĐTĐ ở người dân trong độ tuổi từ 25 – 64 và đánh giá mức độ liên quan qua lại của các yếu tố nguy cơ này đối với bệnh ĐTĐ.
Các biến số:
TSGĐ liên quan đến bệnh ĐTĐ
Tuổi
Hoạt động thể lực
Hút thuốc lá
BMI
Huyết áp
5/12/2011 44
Mối liên qua giữa Đường huyết (Biến phụ thuộc) và một số yếu tố (Biến độc lập)
Biến độc lập
Giá trị
Tương quan
Test sự khác biệt
OR
Có, không
χ2
TSGĐ liên quan đến bệnh ĐTĐ
Tuổi
OR
r
<45t; >=45t Tuổi làm tròn
χ2
t
BMI
OR
<23; >=23
Huyết áp
OR
Có tăng, không tăng
OR
<150 phút/tuần; >150p
χ2 χ2 χ2
Hoạt động thể lực
5/12/2011 45