9/8/2010

Phần 10 Nguyễn Duy Long, Tiến Sỹ Bộ môn Thi Công và QLXD Bộ môn Thi Công và QLXD

1

©2010, Nguyễn Duy Long, Tiến Sỹ

 So sánh các số đếm  Giới thiệu về phân tích phương sai  Giới thiệu về phân tích phương sai

2

©2010, Nguyễn Duy Long, Tiến Sỹ

1

9/8/2010

Comparing Counts

3

©2010, Nguyễn Duy Long, Tiến Sỹ

 Khảo sát của 256 giám đốc của 400 công ty

Con giáp

lớn nhất.

Số sinh 23

20

18

23

Tý Sửu Dần Mão

20

19

18 18

21

Thìn Tỵ Ngọ Ngọ Mùi

19

22

24

29

Thân Dậu Tuất Hợi

Nguồn: PhỏngtheoDe Veaux, 2006, tr.604

4

©2010, Nguyễn Duy Long, Tiến Sỹ

2

9/8/2010

 Nếu số sinh phân phối đều theo tuổi, ta kỳ

ọ g vọng khoảng 1/12 số sinh xuất hiện cho mỗi g / con giáp (21.3). ◦ Dữ liệu quan sát phù hợp với mô hình “rỗng” đơn

giản này ra sao?

 Kiểm nghiệm giả thiết để trả lời câu hỏi này được gọi là kiểm nghiệm của “sự phù hợp” ( goodness-of-fit ) (“goodness-of-fit”)

5

©2010, Nguyễn Duy Long, Tiến Sỹ

 Điều kiện dữ liệu đếm (counted data

condition)

 Giả định tính độc lập (independence

assumption) ◦ Điều kiện ngẫu nhiên hóa

 Giả định kích thước mẫu (sample size

condition) ◦ Điều kiện tần suất kỳ vọng của ô (expected cell ề k ll

ủ ô (

ấ kỳ

d

frequency condition): Ta nên kỳ vọng ít nhất 5 cá thể cho mỗi ô.

6

©2010, Nguyễn Duy Long, Tiến Sỹ

3

9/8/2010

 Ta xem các sự khác nhau giữa số đếm được

(

ỳ ọ g quan sát (observed) và được kỳ vọng ) q (expected), ký hiệu là (Obs – Exp) ◦  đối xử như các phần dư (residuals).

 Trị số thống kê kiểm nghiệm, gọi là trị số

thống kê chi-square, ký hiệu χ2:

χ2 = ∑ (Obs - Exp)2 χ =

các ô

Exp

7

©2010, Nguyễn Duy Long, Tiến Sỹ

p

g

y

 Ta chỉ tập các mô hình phân phối mẫu mới này là các mô hình χ bình phương (chi- χ square models).

 Tập các mô hình này chỉ khác nhau ở bậc tự

do.

 Số bậc tự do cho các mô hình này là n -1, với n không phải là kích thước mẫu mà số lượng của loại. ủ l i

8

©2010, Nguyễn Duy Long, Tiến Sỹ

4

9/8/2010

 K = số bậc tự do

Nguồn: http://www2.cedarcrest.edu/academic/bio/hale/biostat/session22links/basics.html

9

©2010, Nguyễn Duy Long, Tiến Sỹ

 Kiểm nghiệm chi-square luôn là kiểm nghiệm

ộ p

một phương. g ◦  nếu trị số thống kê tính được là đủ lớn, ta sẽ bác

bỏ giả thiết rỗng.

 Sự diễn dịch của kiểm nghiệm chi-square là

“nhiều phương”. ◦ Không có hướng trong việc bác bỏ mô hình rỗng,

chỉ biết nó không phù hợp. chỉ biết nó không phù hợp

10

©2010, Nguyễn Duy Long, Tiến Sỹ

5

9/8/2010

 Thực hiện kiểm nghiệm chi-square cho ví dụ

giám đốc và con giáp ở trên. g

g p

11

©2010, Nguyễn Duy Long, Tiến Sỹ

 Khảo sát chọn lựa vào đời của ba nhóm học sinh

PTTH theo năm tốt nghiệp.

 Sự chọn lựa là giống nhau của tất cả ba nhóm học

1980 1990 2000 320 245 Tổng 853 288 98 24 139 17 18 19 42 5 17 2 24 5 453 290 315 1058 Đại học/cao đẳng Đi làm Vào quân đội Du lịch Tổng g

sinh này?

Nguồn: PhỏngtheoDe Veaux, 2006, tr.611

12

©2010, Nguyễn Duy Long, Tiến Sỹ

6

9/8/2010

 Kiểm nghiệm chi-square của sự đồng nhất

q

y)

g

g

(chi-square test of homogeneity) dùng để trả ( lời câu hỏi trên.

 Tính toán của kiểm nghiệm này giống với

kiểm nghiệm sự phù hợp. ◦  đếm bậc tự do hơi khác nhau.

 Kiểm nghiệm sự đồng nhất đi kèm với giả thiết rỗng “dựng sẵn.” ẵ ” thiết ỗ “d ◦  giả thiết rằng sự phân phối không thay đổi từ

nhóm này đến nhóm khác.

13

©2010, Nguyễn Duy Long, Tiến Sỹ

 Các giả định và điều kiện giống với kiểm nghiệm sự phù hợp. ợp ự p g ệ ◦ Điều kiện dữ liệu số đếm ◦ Nếu ta không tổng quát hóa, không cần kiểm tra

điều kiện ngẫu nhiên hóa.

◦ Điều kiện tần suất kỳ vọng của ô (ít nhất 5).

14

©2010, Nguyễn Duy Long, Tiến Sỹ

7

9/8/2010

 Các giá trị kỳ vọng cho học sinh tốt nghiệp

PTTH

1980 1990 2000 Tổng Đại học/cao đẳng 365.2 233.8 254.0 853

Đi làm 59.5 38.1 41.4 139

Vào quân đội 18.0 11.5 12.5 42

Du lịch 10.3 6.6 7.1 24

 Số bậc tự do: (R-1)(C-1); R là số hàng (row) và

Tổng 453 290 315 1058

C là số cột (column)

15

©2010, Nguyễn Duy Long, Tiến Sỹ

 Thực hiện kiểm nghiệm chi-square cho ví dụ

lựa chọn vào đời của học sinh tốt nghiệp g ệp ọ ự PTTH ở trên…  Trị thống kê χ2:

χ2 = ∑ (Obs - Exp)2 = 72.77 Exp

◦  Ta bác giả thiết rỗng. ◦  các sự chọn lựa của học sinh tốt nghiệp PTTH

thay đổi qua 2 thập kỷ khảo sát, đánh giá.

16

©2010, Nguyễn Duy Long, Tiến Sỹ

8

các ô  Giá trị p (p-value) << 0.0001.

9/8/2010

 Rủi ro viêm gan C có liên quan với người có

hình xăm và nơi xăm không?

Viêm gan C Không viêm gian C Tổng 17 35 52 Xăm, cửa hiệu Xăm, nơi khác 8 53 61 22 491 513 579 47 Không xăm Tổng

626  Nguy cơ mắc viêm gan C có độc lập với việc  Nguy cơ mắc viêm gan C có độc lập với việc

xăm? ◦  Kiểm nghiệm cho tính độc lập (chi-square test

for independence).

17

©2010, Nguyễn Duy Long, Tiến Sỹ

 Kiểm nghiệm tính độc lập trả lời câu hỏi: “Các

ập biến có độc lập?

 Kiểm nghiệm sự đồng nhất: “Các nhóm có

đồng nhất?”

 Sự tính toán giống nhau.

18

©2010, Nguyễn Duy Long, Tiến Sỹ

9

9/8/2010

 Thực hiện kiểm nghiệm chi-square cho ví dụ

viêm gan C và xăm ở trên…

g  Trị thống kê χ2:

 Giá trị p (p-value) << 0.0001.

◦  Ta bác giả thiết rỗng. ◦  kiểm tra các số dư (residual) trước khi kết luận.

Vì sao?

19

©2010, Nguyễn Duy Long, Tiến Sỹ

Exp Exp

) )

 Số dư được chuẩn hóa (c) cho ô nào đó: Obs Obs 

χ2 = ∑ (Obs - Exp)2 = 57.91 các ô Exp

c

( (

Exp

 Số dư được chuẩn hóa cho dữ liệu viêm gan

C và xăm

Viêm gan C Không viêm gian C

ử hiệ

20

©2010, Nguyễn Duy Long, Tiến Sỹ

10

Xă Xăm, cửa hiệu Xăm, nơi khác Không xăm 6 628 6.628 1.598 -2.661 1 888 -1.888 -0.455 0.758

9/8/2010

Introduction to Analysis of Variance

21

©2010, Nguyễn Duy Long, Tiến Sỹ

 Phương pháp rửa tay diệt khuẩn:

) n ẩ u h k i v

ố s ( n ẩ u h k i

V

Các phương pháp Các phương pháp

 Tất cả các phương pháp rửa tay diệt khuẩn là

giống nhau?  giả thiết rỗng?

22

©2010, Nguyễn Duy Long, Tiến Sỹ

11

9/8/2010

 Giả thiết rỗng: “các trị trung bình của tất cả

g

các nhóm là bằng nhau.” ◦ Giả thiết thay thế sẽ như thế nào?

 Khi so sánh nhiều trị trung bình, ta dùng mô hình phân phối mẫu được gọi là mô hình F (F-model).

biế đổi bê t

ới

 So sánh sự khác nhau giữa các trị trung bình của các nhóm với sự biến đổi bên trong các ủ á á nhóm. ◦  ý tưởng chủ đạo của mô hình F.

23

©2010, Nguyễn Duy Long, Tiến Sỹ

 Xem hai tập hợp của các biểu đồ hộp sau:

24

©2010, Nguyễn Duy Long, Tiến Sỹ

12

Sự biến đổi trong mỗi nhóm quá nhỏ làm sự khác biệt giữa các trị trung bình bộc lộ rõ. Khó nhận ra sự khác nhau giữa các trị trung bình vì các sải lớn nếu so với sự khác nhau của các trị trung bình.

9/8/2010

ị q

g

 Ta đối xử các trị trung bình được ước lượng như thể chúng là các giá trị quan sát được và g chỉ tính phương sai của chúng.

 Phương sai này là thước đo để xem các trị

trung bình của các nhóm khác nhau ra sao.

 Dữ liệu từ phương pháp rửa tay...

25

©2010, Nguyễn Duy Long, Tiến Sỹ

26

©2010, Nguyễn Duy Long, Tiến Sỹ

13