TKYH: Nguyên lý kiểm định Thái Thanh Trúc 1
(Version 1: 30/08/2015 11:56:28 AM)
BÀI 3: NGUYÊN LÝ KIỂM ĐỊNH
Mc tiêu hc tp
Sau khi hoàn thành bài hc này, hc viên có th:
- Trình bày được khái nim v kiểm định gi thuyết
- Trình bày được qui trình thc hin kiểm định gi thuyết
- Trình bày được khái nim sai lm loi 1, loi 2, sc mnh thng kê
- Chn lựa được kiểm định thống kê tương ứng vi gi thuyết thng kê
- Lý giải được giá tr p trong kiểm định gi thuyết
1. Khái nim kiểm định gi thuyết
Nghiên cu khoa hc mt quá trình thu thp, phân tích gii d liệu để tr li
mt hoc nhiu câu hi, gi thuyết đặt ra ban đu xut phát t tính nhu cu v kiến
thc và s t cm nhn. Mt nghiên cu s thu được kết qu kết lun hoàn toàn chính xác
nếu như nhà nghiên cứu có th lấy được d liu ca toàn b qun th đối tượng đích (hay còn
gi là dân s). Tuy nhiên, vì tính kh thi và ngun lực thường b hn chế nên trong thc tế nhà
nghiên cu không th nào tiến hành nghiên cu trên toàn b qun th đích chỉ th tiến
hành trên mt nhóm nh hơn, gọi mu nghiên cu. T mu nghiên cu nhng kết qu
phân tích d liu trên mu, nhà nghiên cu ngoài mong mun tr li thc mắc trước nghiên
cu còn mong mun suy din rộng hơn để biết đưc nhiều hơn về con s tht s trong dân s,
bao gm c những người đã tham gia hoặc không tham gia o nghiên cu. Hay nói cách khác,
nhà nghiên cu s dng con s ca mẫu để mô t con s tht s ca dân s.
Theo thuyết gii hn trung tâm (Central Limit Theorem) thì nếu chúng ta tiến hành
nghiên cu nhiu ln và nhiu ln chn mu trên dân s đích, thì các con s ước lượng (ví d:
trung bình, t l…) ca các mu s có phân phối bình thường. Chng hn, vì không th nào đo
chiu cao ca khong 8 triệu người trưởng thành ti Thành ph H Chí Minh (TP.HCM) để tr
li câu hi v chiu cao trung bình của nhóm người này là bao nhiêu, nên có nhiu nghiên cu
được tiến hành trên các mu nh hơn với s tham gia t vài trăm cho đến vài ngàn người. ng
vi mi nghiên cứu đó, nhà nghiên cứu s được trung bình chiu cao trên mu nghiên cu
ca họ. Trong trường hp này, các giá tr trung bình báo cáo t các nghiên cu (cùng trên qun
th người trưởng thành ti TP.HCM) s phân phối bình thường. Nếu có 100 nghiên cu
TKYH: Nguyên lý kiểm định Thái Thanh Trúc 2
(Version 1: 30/08/2015 11:56:28 AM)
thì 100 giá tr trung bình chiu cao s có phân phối bình thường và bình quân các giá tr trung
bình ca 100 nghiên cu s bng vi trung bình ca dân s đích (tt c người trưởng thành ti
TP.HCM).
Nếu như giá trị trung bình ca dân s con s thực đúng đn thì khi giá tr trung
bình mu khác bit nhiu so vi giá tr ca dân s s nói lên rng rt ít kh năng nhà nghiên
cu được mt mẫu như thế t dân s đích (nhưng thc tế nhà nghiên cu đã có). d,
chiu cao trung bình ca toàn b người trưởng thành ti TP.HCM 160 cm và mt nghiên cu
tiến hành cho kết qu chiu cao trung bình là 180 cm. S khác bit ln cho thy khó kh
năng mẫu y được ly tn s những người trưởng thành ti TP.HCM và/hoc phải có điều
đó đặc bit trong mu nghiên cu y. (Bt mí: nghiên cu y tiến hành đo chiều cao trung
bình người trưởng thành ti TP.HCM bng cách ly mu ti mt trường th dc th thao
ngu nhiên li trùng vào thời điểm đội tuyn bóng r va hc xong). Trong trường hp y,
nhà nghiên cu cn tìm hiu li tính hợp lý, đi din ca mu nghiên cu so vi dân s đích.
Ngược lại, trong trường hp trung bình mu khác bit ít so vi trung bình dân s thì nhiu kh
năng mu mà nhà nghiên cu đã chọn phù hp vi dân s đích và dĩ nhiên tính suy diễn s tt
hơn so với trường hp bên trên.
Hình 3.1 th hin chiu cao dân s của người Việt trưởng thành ti TP.HCM. Khi đó,
nếu chiu cao ca dân s tht s 160 cm thì trong nhiu nghiên cu trên nhiu mu s
trung bình chiu cao các mu có phân phối như hình 3.1 bên dưi. S dng qui lut ca phân
phi chun, chúng ta biết rng 95% các nghiên cu ly mu t dân s y s cho kết qu
trung bình chiu cao nm trong khoảng hai độ lch chun quanh giá tr trung bình dân s này.
S rt ít có kh năng chúng ta lấy mu t dân s này và cho kết qu trung bình chiu cao ngoài
ngưỡng 2 độ lch chuẩn. Trong trường hợp đó hoc con s được gi trung bình dân s không
chính xác hoc mu nghiên cu có vấn đề cn xem xét.
TKYH: Nguyên lý kiểm định Thái Thanh Trúc 3
(Version 1: 30/08/2015 11:56:28 AM)
Hình 3.1: D liu ca nhiu nghiên cu trên cùng dân s đích có phân phối bình thường
vi trung bình là giá tr tht s ca dân s.
Các con s thng kê mô t thường dùng để trình bày và tóm tt d liu để t đó có thể
đưa ra các quyết định hay kết lun cho mt báo cáo khoa hc hoc mt khuyến ngh cho các
quan, đối tượng. Tuy nhiên, có kh năng nhng kết qu hay kết luận đó chỉ do s trùng
hp tình c không phi kết qu hay kết luận đại din tht s cho dân s. Kh năng này
xy ra khi mt th nghim, nghiên cứu khác hoàn toàn tương tự được lp li nhưng kết lun li
khác đi. Vì vậy, điều cn thiết trong các nghiên cu là vic s dụng các phương pháp thng kê
phân tích để đánh giá xem các phát hiện trong nghiên cu do ngu nhiên tình c trùng
hp hay tht s là kết qu phù hp và đại din cho qun th nghiên cu. Mt trong nhng công
cth làm được điều này là các kiểm định gi thuyết thng kê dng suy lun và là ni dung
cơ bản ca cái gọi là “giá trị p” hay “p value”.
Theo nghĩa đen, kiểm định gi thuyết hay kiểm định thng kê là quá trình tính toán qua
nhiều bước nhm chng minh gi thuyết đúng hay không đúng, phù hp hay không phù hp.
Kiểm định gi thuyết ngoài vic th cho biết kết qu trong mu nghiên cu ging hay
khác so vi qun th đích mà còn có thể dùng để so sánh s ging, khác, lớn hơn, nhỏ hơn của
hai qun th vi nhau /hoc hai mu vi nhau. Quay li vi d v chiu cao trung bình
ca toàn b người trưởng thành ti TP.HCM, mt nghiên cu tiến hành chn ngu nhiên 2000
người ti khp các qun huyn. Khi d liu, nhà nghiên cu th so sánh vi giá tr ca
dân s (160 cm) để xem kết qu nghiên cu ca mình phù hp hay không. Ngoài ra, nhà
nghiên cứu cũng thể so sánh chiu cao trung bình gia nam gii n gii trong s 2000
người đã tham gia nghiên cứu. đây, có thể xem nam gii và n gii là hai nhóm dân s hoc
hai mu khác nhau và kiểm định gi thuyết s vn có th ng dụng trong trường hp này. Nếu
dùng kết qu nghiên cu của mình để so sánh vi con s ca dân s hoc con s ca nghiên
cứu khác thì được gi kiểm định gi thuyết mt mu. Nếu so sánh các nhóm trong nghiên
cu vi nhau và/hoc các dân s vi nhau thì được gi là kiểm định nhiu mu.
2. Qui trình thc hin kiểm định thng kê
Kiểm định gi thuyết giúp suy luận độ phù hp ca mu so vi dân s hoặc độ phù hp
gia các mu/dân s là một qui trình trong đó bao gồm mt loạt các c liên h cht
ch vi nhau. Trong phương pháp y, chúng ta s kiểm định gi thuyết bằng cách xác định độ
kh dĩ (nói nôm na là khả năng) con số thng kê ca mu có th xy ra nếu như giả thuyết v
TKYH: Nguyên lý kiểm định Thái Thanh Trúc 4
(Version 1: 30/08/2015 11:56:28 AM)
con s ca dân s đúng. Mt s tác gi gi ý rt nhiều bước bng cách chia nh qui trình
thc hiện nhưng về cơ bản để thc hin mt kiểm định thống kê thường cn trải qua 5 bước:
- Xác định gi thuyết thng kê và ngưỡng ý nghĩa
- Chn la kiểm định phù hp
- Tính ch s thống kê tương ứng
- Tính xác xut
- Kết lun
Năm bước này “liên đới trách nhiệm” vi nhau sai sót ca một bước s dẫn đến
các sai sót ca những ớc sau đó. d, ng vi mt gi thuyết la chn con s hoc
phương pháp thống sai s dẫn đến giá tr p b sai đưa ra kết lun không phù hp. Ngày
nay, vi s h tr ca các phn mm thống kê thì bước th 3 (tính ch s thng kê) và 4 (tính
xác sut) ít b sai sót hơn nhưng dễ b quên hơn. Một s nhà nghiên cu s ch quan tâm đến
gi thuyết, chn kiểm định, bm lên phn mm và kết lun. Vì vy, chúng ta nên tiến hành c
năm bước trong giai đoạn làm quen ban đầu có cái nhìn và hiu biết mt cách có h thng v
kiểm định gi thuyết thng kê.
2.1. Xác định gi thuyết thng kê và ngưỡng ý nghĩa
Gi thuyết thng hay còn gi gi thuyết không (null hypothesis, ký hiu H0)
trong đó giả định thường đặt ra là giá tr ca dân s là đúng và con s ca mu tương đồng vi
con s ca dân s. Nếu là kiểm định gi thuyết trên hai mu/dân s thì gi thuyết H0 gi định
rng giá tr ca hai mu/dân s tương đồng. Hay nói cách khác, gi thuyết H0 mt gi
thuyết âm tính hoc trung tính, xem như không khác biệt, không liên quan, không tương quan.
Gi thuyết H0 trong thống kê cũng tương tự vic gi định vô ti trong các phiên tòa xét x
khi đó quan tòa phải mặc định ban đầu rng b cáo là người vô ti rồi sau đó mi chng minh
điều này là đúng hay sai. Công tố viên ca vin kim sát và luật sư bào chữa cho b cáo có vai
trò ging nhà nghiên cu và/hoc nhà phân tích thống kê. Thông thường, nếu không bng
chng vng chc thì quan tòa s phóng thích b cáo hơn là cho một người vô tội đi tù (đc bit
thi gian gần đây lut bồi thường phát huy tác dng). Chính vy, nhà nghiên cu khi
không có bng chng chc chn s cn phi chp nhn nhng kiến thức, thông tin được cho là
đúng trước đây để làm gi thuyết hơn là sử dng mt gi thuyết sai. Vì lý do y, chúng ta cn
mặc định rng gi thuyết H0 là đúng và đi chứng minh kh năng nó đúng hay không đúng.
TKYH: Nguyên lý kiểm định Thái Thanh Trúc 5
(Version 1: 30/08/2015 11:56:28 AM)
Cần lưu ý rằng gi thuyết không (H0) đôi khi khác với gi thuyết nghiên cu. d,
nhà nghiên cu mun chng minh rng chiu cao ca nam hơn nữ hoc gii tính có liên quan
đến chiều cao. Khi đó gi thuyết nghiên cứu đặt ra ban đầu th là: 1) Chiu cao ca nam
giới trưởng thành ti TP.HCM hơn nữ gii hoc 2) Gii tính có mi liên quan vi chiu cao
người trưởng thành tại TP.HCM. Tuy nhiên, khi đã dữ liu tiến hành kiểm định gi thuyết
này thì gi thuyết thng kê H0 phi là gi thuyết âm tính hoc trung tính và có th là: 1) Trung
bình chiu cao ca nam giới trưởng thành tại TP.HCM tương đương nữ gii hoc 2) Trung
bình chiu cao ca nam giới trưởng thành ti TP.HCM không khác bit so vi n gii hoc 3)
Không có mi liên quan gia gii tính và chiu cao người trưởng thành ti TP.HCM. Có th
thy rng gi thuyết nghiên cu là mt câu tr li tm thi cho câu hi nghiên cu và gi thuyết
thng kê (H0) phi là mt phát biu âm tính hoc trung tính và là một bước trong quá trình gi
định tính toán.
Để th hiểu hơn về gi thuyết nghiên cu và gi thuyết thng kê, chúng ta hãy
quay li d v quan tòa x án. Khi bắt đưc th phm ca mt v giết người, tt c nhng
người liên quan như người dân, cảnh sát điều tra, kim sát viên k c quan tòa đều mun
đưa thủ phạm ra để “kết án”. Kết án đây có nghĩa là mọi người đều biết người này có ti và
vic có tội được xem là mt câu tr li tm thời trong trường hp này (gi thuyết nghiên cu).
Tuy nhiên, khi “thăng đưng x án” thì quan tòa luôn giả định th phm/b cáo không ti
(gi thuyết thng kê) ri các bng chng (trong thống thì đó các con s thng kê) s
giúp quan tòa xem gi định vô ti ca mình có chp nhận được hay không.
Gi thuyết H0 là mt phát biu v tham s ca dân s trong đó giả định tham sy
đúng. Gi thuyết H0 là điểm khởi đầu để t đó chúng ta quyết định xem kh ng xy ra nhiu
hay ít và t đó kết lun đúng hay không. Cần lưu ý rằng lý do duy nht mà chúng ta tiến hành
kiểm định gi thuyết là bởi vì chúng ta nghĩ giả thuyết th b sai. Trong kiểm định gi thuyết
còn có gi thuyết thay thế (alternative hypothesis), hay còn gi là gi thuyết H1 (hoc Ha). H1
(Ha) là mt phát biểu ngược li vi gi thuyết H0 trong đó thể hin tham s tht s ca dân s
thấp hơn, cao hơn hoặc không bng so vi giá tr đã nêu trong giả thuyết H0. Hay nói cách
khác gi thuyết H1 (Ha) điều mà chúng ta nghĩ giả thuyết H0 b sai. Nếu gi thuyết H0 th
hin chiu cao trung bình của người trưởng thành ti TP.HCM trong nghiên cu không khác
so vi dân s (160 cm) thì gi thuyết H1 (Ha) th 1) chiu cao trung bình của người trưởng
thành ti TP.HCM trong nghiên cu có khác bit so vi dân s hoc 2) chiu cao trung bình
của người trưởng thành ti TP.HCM trong nghiên cu nh hơn so vi dân s hoc 3) chiu
cao trung bình của người trưởng thành ti TP.HCM trong nghiên cu lớn hơn so vi dân s.