9/8/2010
Phần 10 Nguyễn Duy Long, Tiến Sỹ Bộ môn Thi Công và QLXD Bộ môn Thi Công và QLXD
1
©2010, Nguyễn Duy Long, Tiến Sỹ
So sánh các số đếm Giới thiệu về phân tích phương sai Giới thiệu về phân tích phương sai
2
©2010, Nguyễn Duy Long, Tiến Sỹ
1
9/8/2010
Comparing Counts
3
©2010, Nguyễn Duy Long, Tiến Sỹ
Khảo sát của 256 giám đốc của 400 công ty
Con giáp
lớn nhất.
Số sinh 23
20
18
23
Tý Sửu Dần Mão
20
19
18 18
21
Thìn Tỵ Ngọ Ngọ Mùi
19
22
24
29
Thân Dậu Tuất Hợi
Nguồn: PhỏngtheoDe Veaux, 2006, tr.604
4
©2010, Nguyễn Duy Long, Tiến Sỹ
2
9/8/2010
Nếu số sinh phân phối đều theo tuổi, ta kỳ
ệ
ọ g vọng khoảng 1/12 số sinh xuất hiện cho mỗi g / con giáp (21.3). ◦ Dữ liệu quan sát phù hợp với mô hình “rỗng” đơn
giản này ra sao?
Kiểm nghiệm giả thiết để trả lời câu hỏi này được gọi là kiểm nghiệm của “sự phù hợp” ( goodness-of-fit ) (“goodness-of-fit”)
5
©2010, Nguyễn Duy Long, Tiến Sỹ
Điều kiện dữ liệu đếm (counted data
condition)
Giả định tính độc lập (independence
assumption) ◦ Điều kiện ngẫu nhiên hóa
Giả định kích thước mẫu (sample size
ầ
condition) ◦ Điều kiện tần suất kỳ vọng của ô (expected cell ề k ll
ủ ô (
ấ kỳ
d
frequency condition): Ta nên kỳ vọng ít nhất 5 cá thể cho mỗi ô.
6
©2010, Nguyễn Duy Long, Tiến Sỹ
3
9/8/2010
Ta xem các sự khác nhau giữa số đếm được
ợ
(
ỳ ọ g quan sát (observed) và được kỳ vọng ) q (expected), ký hiệu là (Obs – Exp) ◦ đối xử như các phần dư (residuals).
Trị số thống kê kiểm nghiệm, gọi là trị số
thống kê chi-square, ký hiệu χ2:
χ2 = ∑ (Obs - Exp)2 χ =
các ô
Exp
7
©2010, Nguyễn Duy Long, Tiến Sỹ
p
g
y
Ta chỉ tập các mô hình phân phối mẫu mới này là các mô hình χ bình phương (chi- χ square models).
Tập các mô hình này chỉ khác nhau ở bậc tự
do.
Số bậc tự do cho các mô hình này là n -1, với n không phải là kích thước mẫu mà số lượng của loại. ủ l i
8
©2010, Nguyễn Duy Long, Tiến Sỹ
4
9/8/2010
K = số bậc tự do
Nguồn: http://www2.cedarcrest.edu/academic/bio/hale/biostat/session22links/basics.html
9
©2010, Nguyễn Duy Long, Tiến Sỹ
Kiểm nghiệm chi-square luôn là kiểm nghiệm
ộ p
một phương. g ◦ nếu trị số thống kê tính được là đủ lớn, ta sẽ bác
bỏ giả thiết rỗng.
Sự diễn dịch của kiểm nghiệm chi-square là
“nhiều phương”. ◦ Không có hướng trong việc bác bỏ mô hình rỗng,
chỉ biết nó không phù hợp. chỉ biết nó không phù hợp
10
©2010, Nguyễn Duy Long, Tiến Sỹ
5
9/8/2010
Thực hiện kiểm nghiệm chi-square cho ví dụ
giám đốc và con giáp ở trên. g
g p
11
©2010, Nguyễn Duy Long, Tiến Sỹ
Khảo sát chọn lựa vào đời của ba nhóm học sinh
PTTH theo năm tốt nghiệp.
Sự chọn lựa là giống nhau của tất cả ba nhóm học
1980 1990 2000 320 245 Tổng 853 288 98 24 139 17 18 19 42 5 17 2 24 5 453 290 315 1058 Đại học/cao đẳng Đi làm Vào quân đội Du lịch Tổng g
sinh này?
Nguồn: PhỏngtheoDe Veaux, 2006, tr.611
12
©2010, Nguyễn Duy Long, Tiến Sỹ
6
9/8/2010
Kiểm nghiệm chi-square của sự đồng nhất
q
y)
g
g
(chi-square test of homogeneity) dùng để trả ( lời câu hỏi trên.
Tính toán của kiểm nghiệm này giống với
kiểm nghiệm sự phù hợp. ◦ đếm bậc tự do hơi khác nhau.
Kiểm nghiệm sự đồng nhất đi kèm với giả thiết rỗng “dựng sẵn.” ẵ ” thiết ỗ “d ◦ giả thiết rằng sự phân phối không thay đổi từ
nhóm này đến nhóm khác.
13
©2010, Nguyễn Duy Long, Tiến Sỹ
Các giả định và điều kiện giống với kiểm nghiệm sự phù hợp. ợp ự p g ệ ◦ Điều kiện dữ liệu số đếm ◦ Nếu ta không tổng quát hóa, không cần kiểm tra
điều kiện ngẫu nhiên hóa.
◦ Điều kiện tần suất kỳ vọng của ô (ít nhất 5).
14
©2010, Nguyễn Duy Long, Tiến Sỹ
7
9/8/2010
Các giá trị kỳ vọng cho học sinh tốt nghiệp
PTTH
1980 1990 2000 Tổng Đại học/cao đẳng 365.2 233.8 254.0 853
Đi làm 59.5 38.1 41.4 139
Vào quân đội 18.0 11.5 12.5 42
Du lịch 10.3 6.6 7.1 24
Số bậc tự do: (R-1)(C-1); R là số hàng (row) và
Tổng 453 290 315 1058
C là số cột (column)
15
©2010, Nguyễn Duy Long, Tiến Sỹ
Thực hiện kiểm nghiệm chi-square cho ví dụ
ọ
lựa chọn vào đời của học sinh tốt nghiệp g ệp ọ ự PTTH ở trên… Trị thống kê χ2:
χ2 = ∑ (Obs - Exp)2 = 72.77 Exp
◦ Ta bác giả thiết rỗng. ◦ các sự chọn lựa của học sinh tốt nghiệp PTTH
thay đổi qua 2 thập kỷ khảo sát, đánh giá.
16
©2010, Nguyễn Duy Long, Tiến Sỹ
8
các ô Giá trị p (p-value) << 0.0001.
9/8/2010
Rủi ro viêm gan C có liên quan với người có
hình xăm và nơi xăm không?
Viêm gan C Không viêm gian C Tổng 17 35 52 Xăm, cửa hiệu Xăm, nơi khác 8 53 61 22 491 513 579 47 Không xăm Tổng
626 Nguy cơ mắc viêm gan C có độc lập với việc Nguy cơ mắc viêm gan C có độc lập với việc
xăm? ◦ Kiểm nghiệm cho tính độc lập (chi-square test
for independence).
17
©2010, Nguyễn Duy Long, Tiến Sỹ
Kiểm nghiệm tính độc lập trả lời câu hỏi: “Các
ộ
ập biến có độc lập?
Kiểm nghiệm sự đồng nhất: “Các nhóm có
đồng nhất?”
Sự tính toán giống nhau.
18
©2010, Nguyễn Duy Long, Tiến Sỹ
9
9/8/2010
Thực hiện kiểm nghiệm chi-square cho ví dụ
viêm gan C và xăm ở trên…
g Trị thống kê χ2:
Giá trị p (p-value) << 0.0001.
◦ Ta bác giả thiết rỗng. ◦ kiểm tra các số dư (residual) trước khi kết luận.
Vì sao?
19
©2010, Nguyễn Duy Long, Tiến Sỹ
Exp Exp
) )
Số dư được chuẩn hóa (c) cho ô nào đó: Obs Obs
χ2 = ∑ (Obs - Exp)2 = 57.91 các ô Exp
c
( (
Exp
Số dư được chuẩn hóa cho dữ liệu viêm gan
C và xăm
Viêm gan C Không viêm gian C
ử hiệ
20
©2010, Nguyễn Duy Long, Tiến Sỹ
10
Xă Xăm, cửa hiệu Xăm, nơi khác Không xăm 6 628 6.628 1.598 -2.661 1 888 -1.888 -0.455 0.758
9/8/2010
Introduction to Analysis of Variance
21
©2010, Nguyễn Duy Long, Tiến Sỹ
Phương pháp rửa tay diệt khuẩn:
) n ẩ u h k i v
ố s ( n ẩ u h k i
V
Các phương pháp Các phương pháp
Tất cả các phương pháp rửa tay diệt khuẩn là
giống nhau? giả thiết rỗng?
22
©2010, Nguyễn Duy Long, Tiến Sỹ
11
9/8/2010
Giả thiết rỗng: “các trị trung bình của tất cả
g
các nhóm là bằng nhau.” ◦ Giả thiết thay thế sẽ như thế nào?
Khi so sánh nhiều trị trung bình, ta dùng mô hình phân phối mẫu được gọi là mô hình F (F-model).
biế đổi bê t
hó
ới
So sánh sự khác nhau giữa các trị trung bình của các nhóm với sự biến đổi bên trong các ủ á á nhóm. ◦ ý tưởng chủ đạo của mô hình F.
23
©2010, Nguyễn Duy Long, Tiến Sỹ
Xem hai tập hợp của các biểu đồ hộp sau:
24
©2010, Nguyễn Duy Long, Tiến Sỹ
12
Sự biến đổi trong mỗi nhóm quá nhỏ làm sự khác biệt giữa các trị trung bình bộc lộ rõ. Khó nhận ra sự khác nhau giữa các trị trung bình vì các sải lớn nếu so với sự khác nhau của các trị trung bình.
9/8/2010
ợ
ị q
g
Ta đối xử các trị trung bình được ước lượng như thể chúng là các giá trị quan sát được và g chỉ tính phương sai của chúng.
Phương sai này là thước đo để xem các trị
trung bình của các nhóm khác nhau ra sao.
Dữ liệu từ phương pháp rửa tay...
25
©2010, Nguyễn Duy Long, Tiến Sỹ
26
©2010, Nguyễn Duy Long, Tiến Sỹ
13

