1
SỰ BIẾN THIÊN CỦA TRUNG BÌNH - KIỂM ÐỊNH T
Ths. Huỳnh Ngọc Vân Anh
Mục tiêu:
Sau khi học xong bài này, học viên có khả năng:
Trình bày được các bước thực hiện kiểm định giả thuyết 1 trung bình.
Trình bày được các bước thực hiện kiểm định t bắt cặp.
Trình bày được các bước thực hiện kiểm định so sánh 2 trung bình với phương sai bằng
nhau.
Trình bày được các bước thực hiện kiểm định so sánh 2 trung bình với phương sai
không bằng nhau.
1. Giới thiệu:
Như chúng ta đã biết trong nội dung về thống tả, khi chúng ta muốn nói về biến số
định lượng thì con số mà chúng ta có thể thường nghĩ đến để mô tả cho biến định lượng đó
chính trung bình. Trung bình thể hiện con số bình quân của các giá trị trong mẫu. Bên
cạnh đó, chúng ta còn sử dụng độ lệch chuẩn để tả cho sự biến thiên của các giá trị
trong mẫu mà chúng ta nghiên cứu.
Đối với biến số định lượng, có 2 phân phối thường được đề cập đến, đó là phân phối chuẩn
(hay còn gọi là phân phối bình thường) và phân phối t.
Trong nội dung của bài này, chúng ta sẽ cùng tìm hiểu các nội dung về:
Kiểm định t 1 mẫu
Kiểm định t bắt cặp
Kiểm định t không bắt cặp
2
2. Một số kí hiệu thông thường:
Dân số đích hay còn gọi dân số mục tiêu của nghiên cứu, dân số chúng ta muốn
ngoại suy kết quả nghiên cứu của mẫu cho dân số. Đối với một dân số đích xác định thì giá
trị trung bình của dân số () và độ lệch chuẩn của dân số () sẽ ổn định.
Khi chúng ta rút ra một mẫu ngẫu nhiên trong dân số đích, chúng ta sẽ tính được giá trị
trung bình của mẫu (x ) độ lệch chuẩn của mẫu (sd). Nếu chúng ta tiến hành chọn
nhiều mẫu khác nhau, chúng ta sẽ ghi nhận được các giá trị trung bình x và độ lệch chuẩn
sd khác nhau.
dụ như chúng ta được chiều cao trung bình của thanh niên Việt Nam 1,65 ± 0,25m.
Nếu chúng ta rút ra 1 mẫu gồm 400 thanh niên tại TpHCM đo chiều cao của những
thanh niên này thì chúng ta thể tính được chiều cao trung bình của thanh niên tại TpHCM
1,63 ± 0,22m. Nếu chúng ta rút ra 1 mẫu khác gồm 400 thanh niên tại Nội đo
chiều cao thì chúng ta cũng thể tính được chiều cao trung bình 1,64 ± 0,20m. Vậy,
mỗi một mẫu khác nhau sẽ cho chúng ta các giá trị trung bình và độ lệch chuẩn khác nhau.
3. Kiểm định giả thuyết cho một trung bình:
Giống như phân phối của z, sự phân bố lấy mẫu của t đại diện phân phối của các giá trt
mà có thể chứa đựng nếu một giá trị của t được tính cho mỗi mẫu có nghĩa là cho tất cả các
mẫu ngẫu nhiên có thể có của một kích thước nhất định từ một vài dân số. Vào đầu những
năm 1990, William Gosset đã khám phá ra phân phối của t đặt tên phân phối này phân
phối Student. Mỗi phân phối của t có liên quan với một độ tự do riêng (degree of freedom
- df). Khi kiểm định githuyết cho 1 trung bình của dân số thì độ tự do của phân phối t
sẽ được tính dựa vào tổng quan sát trừ đi 1.
Độ tự do (df) = n – 1
Ví dụ 1: Một nghiên cứu được tiến hành trên 20 người về việc tuân thủ chế độ ăn đặc biệt.
Kết quả thu thập được lượng đường huyết trung bình 90mg% độ lệch chuẩn
12mg%. Trong khi đó, đường huyết trung bình của dân số 100mg%. Câu hỏi đặt ra
đường huyết trung bình của mẫu bằng với trung bình của dân số hay không? Hay nói
3
cách khác đường huyết trung bình cũa mẫu là 90mg% cókhác biệt so với trung bình
của dân số là 100mg% hay không?
Để trả lời câu hỏi này, chúng ta cần xem sự khác biệt của trung bình mẫu và trung bình dân
số bằng cách thực hiện kiểm định giả thuyết 1 trung bình. Các bước tiến hành như sau:
Bước 1: Đặt giả thuyết Ho:
Lượng đường huyết trung bình của những người này là 100mg%.
Hay viết đơn giản là x = = 100mg%.
Bước 2: Lựa chọn kiểm định phù hợp:
Chúng ta sẽ chọn kiểm định t 1 mẫu. Nghĩa nếu giả thuyết Ho đúng thì đường huyết
trung bình sẽ là 100mg% với độ tự do (df) là 20 1 = 19.
Bước 3: Tính giá trị của phân phối t nếu giả thuyết Ho đúng:
73,3
68,210
20/12
10090
/
-x-x
t =
=
=== n
SE
Bước 4: Tính giá trị p, tức là tính xác suất xảy ra |t| = 3,73 với 19 độ tự do.
Để tính được xác suất này, chúng ta cần tra bảng của phân phối t tại vị trí độ tự do 19.
Dựa vào bảng phân phối này chúng ta sẽ thấy hàng df = 19 thì ta sẽ 3,58 < | t | =
3,73 < 3,88. Vậy, đối chiếu với khoảng giá trị này thì giá trị p sẽ nằm trong khoảng từ 0,001
đến 0,002 (sử dụng phần mềm Stata thì sẽ cho biết chính xác giá trị p = 0,0014). Nói cách
khác, nếu giả thuyết Ho đúng thì xác suất xảy ra kết quả đường huyết trung bình
100mg% sẽ thấp.
Bước 5: Kết luận
Thông thường giá trị p mà chúng ta sử dụng để bác bỏ hay chấp nhận giả thuyết Ho là dựa
vào ngưỡng xác suất sai lầm chúng ta sử dụng. Nếu ngưỡng sai lầm chúng ta cho
phép 1%, tức chúng ta tin tưởng kết quả của chúng ta khoảng 99% (điều này tương
ứng với khoảng tin cậy 99%) và chúng ta sẽ so sánh giá trị p với ngưỡng 0,01. Nhưng nếu
4
chúng ta chấp nhận 5% sai lầm thể xảy ra thì chúng ta khoảng tin cậy 95%
chúng ta sẽ so sánh giá trị p với ngưỡng 0,05.
chúng ta sử dụng ngưỡng bác bỏ nào thì giá trị p chúng ta tính toán được trong
trường hợp này là 0,001 < p < 0,002, do đó chắc chắn p sẽ <0,05 hay thậm chí <0,01. Vậy,
chúng ta có thể nói rằng xác suất đểợng đường huyết trung bình bằng 100mg% như giả
thuyết Ho đặt ra là rất thấp. Và do đó, chúng ta có thể bác bỏ giả thuyết Ho ban đầu.
Hay nói cách khác, chúng ta thể kết luận rằng đường huyết trung bình của mẫu (x)
không bằng đường huyết trung bình của dân số (). Hoặc nói đơn giản là x khác với
sự khác biệt này có ý nghĩa về mặt thống kê.
4. Kiểm định t bắt cặp:
Kiểm định t 1 mẫu thường dùng để so sánh kết quả trong nghiên cứu của chúng ta với trung
bình của dân số. Tuy nhiên, không phải lúc nào chúng ta cũng có sẵn giá trị trung bình của
dân số (µ). Trên thực tế chúng ta thường quan tâm nhiều hơn đến việc so sánh giữa hai hay
nhiều hơn các nhóm. Và đôi khi chúng ta muốn xem sự thay đổi trước và sau khi chúng ta
tiến hành can thiệp, hoặc 2 mẫu có liên quan với nhau trong đó mỗi quan sát của mẫu
này được bắt cặp về 1 đặc tính nào đó với mỗi quan sát trong mẫu kia.
Bắt cặp trong thiết kế nghiên cứu là một trong những biện pháp nhằm kiểm soát yếu tố gây
nhiễu tiềm tàng và làm tăng độ chính xác của phân tích thống kê, bởi vì các biến số nền đã
được bắt cặp như nhau giữa 2 nhóm và chỉ khác nhau ở biến số kết cuộc mà chúng ta quan
tâm. Ngoài cách lựa chọn 1 cặp gồm 2 đối tượng giống nhau về một số đặc điểm nền (như
tuổi, giới tính, tình trạng kinh tế, hôn nhân,) thì chúng ta cũng có thể sử dụng sự bắt cặp
với chính đối tượng đó bằng cách so sánh sự thay đổi trước sau khi chúng ta thực hiện
1 can thiệp nào đó, ví dụ như so sánh huyết áp tâm thu trước và sau khi uống thuốc hạ áp.
Một số thí dụ về thiết kế bắt cặp bao gồm:
a. Một nghiên cứu bệnh chứng được tiến hành nhằm so sánh điểm chất lượng cuộc
sống giữa những người cao huyết áp so với những người không cao huyết áp
được bắt cặp về tuổi và giới. Nhóm nghiên cứu sẽ chọn 1 người cao huyết áp (nhóm
5
bệnh) bắt cặp cùng độ tuổi giới với 1 người không cao huyết áp (nhóm chứng),
sau đó so sánh điểm chất lượng sống giữa 2 nhóm này.
b. Một nghiên cứu muốn đánh giá hiệu quả điều trị của ARV những người nhiễm
HIV. Để so sánh số lượng tế bào CD4 trung bình của những bệnh nhân trước và sau
khi bắt đầu tham gia điều trị ARV thì cần tiến hành kiểm định t bắt cặp.
c. 2 phương pháp ước tính tuổi thai dựa vào ngày kinh cuối hoặc siêu âm. Một
nhóm sản phụ được cho sử dụng cả 2 phương pháp này sau đó so sánh tuổi thai
theo 2 phương pháp bằng kiểm định t bắt cặp.
Để phân tích cho biến số định lượng trong thiết kế nghiên cứu bắt cặp, việc đo lường này
thể trong cùng 1 nhóm quan sát hoặc giữa 2 nhóm quan sát được thiết kế bắt cặp với
nhau, thì chúng ta cần quan tâm đến sự khác biệt về điểm số của từng cặp, tuy nhiên cần
phải chú ý đến dấu của hiệu số và cần phân biệt dấu “dương” hoặc “âm”.
dụ 2: Một nghiên cứu muốn so sánh chỉ số huyết áp tâm thu của 10 bệnh nhân trước và
sau khi dùng thuốc hạ áp. Kết quả nghiên cứu thu thập được như sau:
Đối tượng
Trước
(X0)
Sau
(X1)
Hiệu số
(d)
1
2
3
4
5
6
7
8
9
10
128
115
106
128
122
145
132
109
102
117
115
112
107
119
115
138
126
105
104
115
13
3
-1
9
7
7
6
4
-2
2
Trung bình
120,4
115,6
4,8
Ðộ lệch chuẩn
13,2
10,3
4,6