Phần 02 Nguyễn Duy Long, Tiến Sỹ Bộ môn Thi Công và QLXD Bộ môn Thi Công và QLXD

1

©2010, Nguyễn Duy Long, Tiến Sỹ

 Trình bày dữ liệu định lượng  Mô tả phân phối bằng số  Mô tả phân phối bằng số  Độ lệch chuẩn như thước đo và mô hình

chuẩn

2

©2010, Nguyễn Duy Long, Tiến Sỹ

9/7/2010

1

3

©2010, Nguyễn Duy Long, Tiến Sỹ

 Tóm tắt dữ liệu giúp xem xét tập hợp các dữ

 Nếu không tóm tắt, sẽ rất khó để biết các dữ á dữ

ẽ ấ khó để biế

ó

liệu định lượng lớn. Nế khô liệu cho chúng ta biết điều gì.

 Không dùng biểu đồ bánh cho các biến định

lượng.

4

©2010, Nguyễn Duy Long, Tiến Sỹ

9/7/2010

2

1997

1998

1999

2000

2001

Tháng 1

-$1.44

0.78

3.28

5.72

14.38

Tháng 2

-0.75

0.62

3.34

21.06

-1.08

Tháng 3

-0.69

2.44

-1.22

4.50

-10.11

Tháng 4

-0.88

-0.28

0.47

4.56

-12.11

Tháng 5

0.12

2.22

5.62

-1.25

5.84

Tháng 6

0.75

-0.50

-1.59

-1.19

-9.37

Tháng 7

0.81

2.06

4.31

-3.12

-4.74

Tháng 8

-1.75

-0.88

1.47

8.00

-2.69

Tháng 9

0.69

-4.50

-0.72

9.31

-10.61

Tháng 10 -0.22

4.12

-0.38

1.12

-5.85

Tháng 11 -0.16

1.16

-3.25

-3.19

-17.16

-0.50

0.03

-17.75

-11.59

Tháng 12 0.34 (Nguồn: De Veauxet al., 2006)

5

©2010, Nguyễn Duy Long, Tiến Sỹ

 Chia khoản giá trị của biến định lượng thành các

cột có cùng chiều rộng, gọi là hộc (bins).

 Các hộc và số đếm trong mỗi hộc cho ra phân

phối của biến định lượng.

g n á h t

ố S

Giá thay đổi hàng tháng của cổ phiếu Cty Enron: hiế C E

Thay đổi giá ($)

6

©2010, Nguyễn Duy Long, Tiến Sỹ

9/7/2010

3

 Biểu đồ tần suất tương đối mô tả phần trăm của các

9/7/2010

Biểu đồ tần suất tương đối: Thay đổi giá hàng tháng của cổ phiếu Enron

g n á h t t

ố s %

Thay đổi giá ($)

7

©2010, Nguyễn Duy Long, Tiến Sỹ

p

p

 Biểu đồ cành-và-lá (stem-and-leaf displays) biểu diễn phân phối của biến định lượng ợ g như biểu đồ tần suất, nhưng vẫn giữ các giá trị riêng rẽ.

 Biểu đồ cành-và-lá:

trường hợp cho mỗi hộc thay vì số đếm.

8

©2010, Nguyễn Duy Long, Tiến Sỹ

ể ◦ chứa tất cả thông tin có trong biểu đồ tần suất ◦ thỏa mãn nguyên lý diện tích, và ◦ biểu thị sự phân phối. ố

4

 Cắt giá trị dữ liệu thành các con số chủ đạo (cành)

9/7/2010

9

©2010, Nguyễn Duy Long, Tiến Sỹ

 Xây dựng biểu đồ cành và lá cho dữ liệu sau:

Công trình

◦ Với hộc 10 triệu VNĐ ◦ Với hộc 5 triệu VNĐ Với hộc 5 triệu VNĐ

Chi phí móng (triệu VNĐ) 33 33

01 01

02

35

03

50

04

41

05

48

06

33

07

45

08

47

09

52

10

63

11

45

12

71

10

©2010, Nguyễn Duy Long, Tiến Sỹ

và các con số kéo theo (lá).  Dùng các cành để gán hộc.  Chỉ dùng một con số cho mỗi lá – hoặc làm tròn hoặc cắt các giá trị dữ liệu để có một vị trí thập phân phía sau cành.

5

 So sánh biểu đồ tần suất và biểu đồ cành-và-lá hiển thị nhịp tim của 24 phụ nữ ở một trạm y tế. Sự hiển thị nào có nhiều thông tin hơn? thị nào có nhiều thông tin hơn?

Biểu đồ tần xuất

Biểu đồ cành-và-lá: Nhịp tim của 24 phụ nữ

t ấ u s

n ầ T T

Nhịp tim (nhịp/phút)

11

©2010, Nguyễn Duy Long, Tiến Sỹ

 Đồ thị điểm (dotplot) là

9/7/2010

 Đồ thị điểm có thể biểu

) y â i g ( g n ắ h t

một sự hiển thị đơn giản - chỉ đặt một dấu chấm chỉ đặt một dấu chấm (dot) dọc một trục cho mỗi trường hợp trong dữ liệu.

n ế i h c

n a a i g

i

ờ h T

 Thời gian chiến thắng của đua ngựa Kentucky Derby, 1875-2004 (hình bên)

Nguồn: http://en.wikipedia.org/wiki/Kentucky_Derby

Số cuộc đua

12

©2010, Nguyễn Duy Long, Tiến Sỹ

diễn theo phương ngang hoặc phương đứng.

6

 Khi mô tả một phân phối, luôn nói về ba

ạ g (

g

(

điều: hình dạng (shape), trung tâm (center), ), p ), và sải (spread).

 Hình dạng của phân phối là gì?

◦ Phân phối có một gò (hump) ở trung tâm hay có vài

mỏm (bump) phân tán? ấ ó đố

ể đồ ầ

◦ Biểu đồ tần suất có đối xứng? ? ◦ Có các đặc điểm bất thường lộ ra không?

13

©2010, Nguyễn Duy Long, Tiến Sỹ

 Câu hỏi 1: Phân phối có một gò (hump) ở trung tâm

9/7/2010

hay có vài mỏm (bump) phân tán? ◦ Gò trên biểu đồ tần suất gọi là mốt (mode). ◦ Biểu đồ tần suất có một đỉnh gọi là một mốt

14

©2010, Nguyễn Duy Long, Tiến Sỹ

(unimodal), hai đỉnh gọi là hai mốt (bimodal), và ba đỉnh trở lên gọi là nhiều (đa) mốt (multimodal).

7

 Biểu đồ tần suất hai mốt có hai đỉnh:

m ế đ

ố s g n ợ ư L

15

©2010, Nguyễn Duy Long, Tiến Sỹ

 Tần suất đều (uniform): Biểu đồ tần suất dường

9/7/2010

m ế đ

ố s g n ợ ợ ư L

16

©2010, Nguyễn Duy Long, Tiến Sỹ

như không có mốt và tất cả các thanh có chiều cao ầgần như nhau:

8

 Câu hỏi 2: Biểu đồ tần suất có đối xứng?

ấGấp dọc đường đứt

Biểu đồ tần suất đối xứng…

… có thể gấp ở giữa sao cho hai bên gần như trùng nhau

17

©2010, Nguyễn Duy Long, Tiến Sỹ

9/7/2010

◦ Các đầu mỏng hơn của phân phối gọi là đuôi

(tails). Nếu một đuôi trải xa hơn đuôi còn lại, biểu đồ tần suất là lệch (skewed) về phía có đuôi dài đồ tần suất là lệch (skewed) về phía có đuôi dài hơn.

m

m

i t

i t

h n ệ b ữ n

h n ệ b ữ n

ố S

ố S

Tuổi

Lệ phí ($)

18

©2010, Nguyễn Duy Long, Tiến Sỹ

◦ Biểu đồ tần suất màu xanh bên dưới gọi là lệch trái (skewed left), biểu đồ màu hồng là lệch phải (skewed right).

9

 Câu hỏi 3: Có các đặc điểm bất thường lộ ra

không?g ◦ Thỉnh thoảng những đặc điểm bất thường cho ta

biết có gì đó lý thú về dữ liệu

◦ Luôn đề cập đến các giá trị ngoại lệ (outliers) mà nó

đứng tách ra trong phần thân của phân phối

◦ Có các chỗ gián đoạn (gap) trong phân phối? Nếu

vậy, dữ liệu có thể có từ hơn một nhóm.

19

©2010, Nguyễn Duy Long, Tiến Sỹ

 Biểu đồ tần suất sau đây có giá các trị ngoài lệ. Có

9/7/2010

 Theo bạn, điều gì đang xảy ra?  Theo bạn điều gì đang xảy ra?

Số nhân khẩu trong một hộ ở các thành phố được chọn lựa

ố h p h n à à h t

ố S

Nhân khẩu/hộ

20

©2010, Nguyễn Duy Long, Tiến Sỹ

ba thành phố ở thanh xa nhất bên trái.

10

 Nếu bạn phải lấy một số để mô tả tất cả dữ liệu,

 Dễ dàng để tìm trung tâm khi biểu đồ tần suất là ất là tâ

9/7/2010

 Ngược lại, sẽ rất khó để tìm trung tâm nếu biểu đồ

khi biể đồ tầ để tì bạn sẽ lấy số gì? Dễ dà t một mốt và đối xứng – nó ngay ở giữa.

 Đến đây ta chỉ cần chỉ ra trung tâm của phân phối

tần suất là bị lệch hoặc có hai hay nhiều mốt.

21

©2010, Nguyễn Duy Long, Tiến Sỹ

 Vấn đề ở sự biến đổi (thốngkêhọclàvề sự biến

băng mắt thường.

 Các giá trị của phân phối là gom lại xung quanh

đổi).

 Các phần tiếp theo ta nói về sải…

22

©2010, Nguyễn Duy Long, Tiến Sỹ

trung tâm hay sải ra?

11

 Thường ta muốn so sánh hai hay nhiều phân phối

9/7/2010

 Khi xem xét hai phân phối, điều quan trọng là các

với nhau thay vì chỉ xem một phân phối.

 Khi so sánh các phân phối, chúng ta nói về hình

biểu đồ tần suất có cùng tỷ lệ.

23

©2010, Nguyễn Duy Long, Tiến Sỹ

ữ n

 So sánh hai biểu đồ

n â h h n

h n ệ b

dạng, trung tâm, và sải của các phân phối.

ố S

sao?

Tuổi

m a n

n â â h n

Các phân phối của bệnh nhân nữ và nam bị nhồi máu cơ tim:

á

i

h n ệ b

ố S

Tuổi

24

©2010, Nguyễn Duy Long, Tiến Sỹ

bên: bên: ◦ Chúng có gì chung? ◦ Chúng khác nhau ra

12

 Với một số tập dữ liệu, chúng ta quan tâm đến dữ liệu cư xử thế nào theo thời gian – vẽ biểu đồ thời gian (time-plots) cho dữ liệu gian (time plots) cho dữ liệu. ◦ Cổ phiểucủaEnron nhưthế nàotheothờigian?

Thay đổi về giá của cổ phiếu Enron, 1997-2002

) $ (

á i g

ề v

i ổ đ

y a h T

Năm

25

©2010, Nguyễn Duy Long, Tiến Sỹ

 Biểu đồ số người mắc bệnh và tử vong do

cúm A/H1N1:

Nguồn: BáoTuổiTrẻ, 28/09/2009

26

©2010, Nguyễn Duy Long, Tiến Sỹ

9/7/2010

13

27

©2010, Nguyễn Duy Long, Tiến Sỹ

9/7/2010

 Để đo trung tâm, khoảng giữa (midrange, trị trung bình của các giá trị nhỏ và lớn nhất) là rất nhạy với các phân phối lệch hoặc giá trị ngoại lệ.

 Trung vị (median) là lựa chọn hợp lý cho trung tâm

28

©2010, Nguyễn Duy Long, Tiến Sỹ

hơn là khoảng giữa…

14

 Trung vị là giá trị mà một nửa các giá trị của dữ liệu

9/7/2010

Tuổi thọ của các nước thành viên của Liên Hiệp Quốc (2001)

g

c ớ ư n

ố S S

nhỏ hơn nó và một nửa lớn hơn nó. ◦ Đó là giá trị giữa của dữ ị g liệu khi sắp xếp theo thứ tự và chia biểu đồ tần suất ra hai phần có diện tích bằng nhau. ◦ Với số điểm dữ liệu là

Tuổi thọ

29

©2010, Nguyễn Duy Long, Tiến Sỹ

 Luôn cho biết độ sải (spread) cùng với trị trung tâm

chẵn, lấy trung bình hai số ở giữa: số ở giữa:  median(2,4,6,7,8,9) =6.5

 Khoảng (vùng) (range) của dữ liệu là sự khác nhau

khi mô tả phân phối bằng số.

giữa các giá trị lớn và nhỏ nhất:

30

©2010, Nguyễn Duy Long, Tiến Sỹ

Vùng (range) = max – min  Bất lợi của khoảng là nếu có một giá trị cực hạn có thể làm nó rất lớn và vì thế không đại diện cho dữ liệu nói chung.

15

 Khoảng tứ phân vị (interquartile range, IQR) bỏ qua các giá trị cực hạn và tập trung vào vùng giữa của dữ liệu.

 Để tìm IQR, trước tiên tìm các điểm tứ phân vị  Để tìm IQR trước tiên tìm các điểm tứ phân vị

9/7/2010

(quartiles), mà chia dữ liệu thành bốn đoạn bằng nhau. ◦ Điểm tứ phân vị dưới (lower quartile, Q1) là trung vị của nửa dữ liệu nằm dưới trung vị. ◦ Điểm tứ phân vị trên (upper quartile, Q3) là trung vị của nửa dữ liệu nằm trên trung vị..

 Sự khác nhau giữa hai điểm tứ phân vị là IQR

g ị g , ◦ Nếusố điểmtrongdữ liệulàchẵn, việcphânchialà rõràng. Nếusố lẻ, tínhtrungvị trongcả hainửacủa g dữ liệu.

31

©2010, Nguyễn Duy Long, Tiến Sỹ

 Điểm tứ phân vị dưới và trên là các phân vị

IQR = điểm tứ phân vị trên – điểm tứ phân vị dưới

ủ (percentiles) thứ 25 và 75 của dữ liệu.  IQR chứa 50% giá trị ở giữa của phân phối hối IQR hứ 50% iá t ị ở iữ

“Tóm tắt năm số” về tuổi thọ:

c ớ ư n

ố S S

max = 73.6 Q3 = 62.65 Median = 57.7 Q1 = 48.9 min = 26.5

năm

Tuổi thọ

32

©2010, Nguyễn Duy Long, Tiến Sỹ

hâ Tuổi thọ của các nước thành viên của Liên Hiệp Quốc (2001)

16

Chết tại các buổi diễn nhạc Rock, 1999-2000

t ế h c

9/7/2010

g n ợ ư

l

ố S

ố ế

Max

47 năm

Q3 Q3

22 22

Median

19

Q1

17

 Tóm tắt năm số (five- number summary) của phân phối cho biết về ề trung vị, hai điểm tứ phân vị, và các giá trị cực hạn (maximum and minimum). ◦ Ví dụ: Tóm tắt năm số về tuổi lúc mất của 66 người tuổi lúc mất của 66 người xem các buổi diễn nhạc rock do chen lấn như bên phải

Min

13

33

©2010, Nguyễn Duy Long, Tiến Sỹ

 Biểu đồ hộp (boxplot) là biểu thị đồ họa về tóm tắt

 Biểu đồ hộp đặc biệt hữu ích khi so sánh các nhóm

năm số*.

* Và một số thông tin khác, ví dụ là các giá trị ngoại lệ (outliers)

34

©2010, Nguyễn Duy Long, Tiến Sỹ

(groups).

17

9/7/2010

1. Vẽ một trục bao hàm

khoảng giá trị của dữ liệu Vẽ ba đường ngang ngắn tại Q1, Q3, và trung vị. • Nối chúng lại bằng các

35

©2010, Nguyễn Duy Long, Tiến Sỹ

đường đứng để hình thành một hộp (box).

Hàng rào trên là 1.5xIQR trên Q3. Hàng rào dưới là 1.5xIQR dưới Q1.

36

©2010, Nguyễn Duy Long, Tiến Sỹ

2. Dựng “hàng rào” xung quyanh phần chính của dữ liệu.

18

9/7/2010

Vẽ các đường từ các đầu của hộp lên và xuống đến các giá trị dữ liệu cực hạn trong hàng rào. Nếu một giá trị dữ liệu nằm ngoài các hàng rào, đừng nối nó để trở thành đuôi.

37

©2010, Nguyễn Duy Long, Tiến Sỹ

3. Dùng hàng rào để phát triển “đuôi”

38

©2010, Nguyễn Duy Long, Tiến Sỹ

4. Thêm các giá trị ngoại lệ nằm ngoài hàng rào bằng các ký hiệu khác.

19

 So sánh biểu đồ tần suất và biểu đồ hộp Chết tại các buổi diễn nhạc Rock, 1999-2000

t ế h c

g n ợ ư

l

ố S

Tuổi

 Biểu đồ trên biểu thị dữ liệu như thế nào?

39

©2010, Nguyễn Duy Long, Tiến Sỹ

 Biểu đồ hộp so sánh hiệu quả của các bình chứa cà

9/7/2010

Thay đổi nhiệt độ theo các nhãn hiệu của bình chứa cà phê

) F o (

ộ đ

t ệ i h n

ề v

i ổ đ

y h a T

Bình chứa

40

©2010, Nguyễn Duy Long, Tiến Sỹ

phê:

20

 Trung vị là rất tốt để xác định trung tâm của các

9/7/2010

 Khi dữ liệu đối xứng, trị trung bình (mean) xác định

ệ phân phối lệch. p p

 Tìm trị trung bình:

n

i

i

y

 yi  1 n

41

©2010, Nguyễn Duy Long, Tiến Sỹ

 Phân phối về nhịp tim của 52 người lớn này đối

trung tâm tốt.

Nhịp tim của 52 người lớn

nhịp/phút

n ớ

l

i

ờ ư g n

ố S

Nhịp tim (nhịp/phút)

Slide 5- 42

©2010, Nguyễn Duy Long, Tiến Sỹ

xứng, với trị trung bình 72.7 (nhịp/phút) và trung vị là 73 (nhịp/phút):

21

Tuổi thọ của các nước thành viên của Liên Hiệp Quốc (2001)

c ớ ư n

ố S

 Bất kể hình dạng của phân phối trị của phân phối, trị trung bình là điểm mà biểu đồ tần suất cân bằng:

Tuổi thọ

Điểm cân bằng

43

©2010, Nguyễn Duy Long, Tiến Sỹ

 Phân phối đối xứng có giá trị trung bình và trung vị gần nhau, nên có thể dùng trị bất cứ trị nào để chỉ trung tâm.

9/7/2010

 Với phân phối lệch nhiều thì dùng trung vị để xác

â

44

©2010, Nguyễn Duy Long, Tiến Sỹ

định trung tâm.

22

 Độ lệch chuẩn (standard deviation) đo lường sải

9/7/2010

 Độ lệch (deviation) là khoảng cách từ một giá trị dữ

(spread) tốt hơn IQR, bằng cách xem xét mỗi giá trị dự liệu cách trị trung bình bao xa.

45

©2010, Nguyễn Duy Long, Tiến Sỹ

 Phương sai (variance), với ký hiệu s2:

y

2 

2

i

liệu đến trị trung bình.

 

s

1

  n

y i 

 Vấn đề của phương sai khi đo lường sải là được đo lường theo bình phương đơn vị đo của dữ liệu ban đầu.

46

©2010, Nguyễn Duy Long, Tiến Sỹ

23

 Độ lệch chuẩn (standard deviation), s, (hay SD):

y

9/7/2010

2

i

s

1

 n

y i 

47

©2010, Nguyễn Duy Long, Tiến Sỹ

 Vì thống kê học là về sự biến đổi (variation), sải là

 Đo độ sải giúp chúng ta bàn về những cái chúng ta t bà t

 Khi các giá trị dữ liệu cụm lại xung quyanh trung

ề hữ ái hú hú iú một khái niệm quan trọng của thống kê học. Đ độ ải không biết.

 Khi các giá trị dữ liệu phân tán xa trung tâm của

tâm của phân phối, IQR và SD là nhỏ.

48

©2010, Nguyễn Duy Long, Tiến Sỹ

phân phối, IQR và SD sẽ lớn.

24

 Khi mô tả biến định lượng, luôn cho biết về hình

9/7/2010

vị.

◦ Nếu hình dạng đối xứng, cho biết trị trung bình và độ lệch

chuẩn và có thể cả trung vị và khoảng tứ trung vị.

49

©2010, Nguyễn Duy Long, Tiến Sỹ

 Nếu có các trị ngoại lề rõ ràng mà cho biết về trị

dạng phân phối của nó, cùng với trung tâm và sải. ◦ Nếu hình dạng bị lệch, cho biết trung vị và khoảng tứ phân

 Chú ý: Trung vị và khoảng tứ trung vị ít khả năng bị ảnh hưởng bởi các trị ngoại lệ như trị trung bình và độ lệch chuẩn.

50

©2010, Nguyễn Duy Long, Tiến Sỹ

trung bình và độ lệch chuẩn thì cho biết chúng khi có trị ngoại lệ và không có trị ngoại lệ. Sự khác nhau có thể bộc lộ.

25

Mô tả dữ liệu bằng số

Hình dạng

Sải

Trung tâm

Trung bình

Đối xứng hay lệch

Khoảng tứ trung vị

Trị ngoại lệ

Trung vị

Khoảng

Độ lệch chuẩn

Khoảng giữa

51

©2010, Nguyễn Duy Long, Tiến Sỹ

 Mô tả dữ liệu phân phối ra sao  Đối xứng hay lệch  Đối xứng hay lệch

Lệch phải

Đối xứng

Lệch trái

Mean=Median= Mode

Mode

Mean

52

©2010, Nguyễn Duy Long, Tiến Sỹ

9/7/2010

26

 Đo lường sự biến đổi mô tả về sải hay biến

thiên của các giá trị dữ liệu. g

Cùng trung tâm, Sự biến đổi khác nhau

53

©2010, Nguyễn Duy Long, Tiến Sỹ

54

©2010, Nguyễn Duy Long, Tiến Sỹ

9/7/2010

27

 Độ lệch chuẩn như là thước đo để so sánh các giá

9/7/2010

 Độ lệch chuẩn cho ta biết sự tập hợp (collection) của các giá trị thay đổi ra sao – là thước đo để so sánh giá trị riêng rẻ với một nhóm.

 Độ lệch chuẩn là trị đo thường dùng của sự biến

trị trông khác nhau.

55

©2010, Nguyễn Duy Long, Tiến Sỹ

 Điểm z (z-score): Khi so sánh một giá trị đơn lẻ với

y

y

đổi, và đóng vai trò quan trọng việc chúng ta nhìn vào dữ liệu như thế nào.

z

 s

 Gọi kết quả là trị được chuẩn hóa (standardized

trung vị, sự tương đối với độ lệch chuẩn: 

56

©2010, Nguyễn Duy Long, Tiến Sỹ

values), ký hiệu z hay điểm z (z-scores).

28

 Cộng (hay trừ) một lượng không đổi vào mỗi giá trị

9/7/2010

 Thêm một hằng số vào mỗi giá trị dữ liệu sẽ thêm hằng số đó vào các trị đo về trung tâm và các phân vị nhưng các trị đo về sải không đổi.

57

©2010, Nguyễn Duy Long, Tiến Sỹ

 Biểu đồ tần suất (và hộp) chỉ sự dịch chuyển từ cân nặng của đàn ông sang số cân trên cân nặng được khuyến nghị: ế

g n ô

g n ô

n à đ

n à đ

ố S

ố S

Số cân (kg) trên cân nặng khuyến nghị)

Cân nặng (kg)

58

©2010, Nguyễn Duy Long, Tiến Sỹ

ị à á t ị đ đú chỉ cộng (hay trừ) lượng đó vào trị trung bình. Điề đó ũ  Điều đó cũng đúng cho trung vị và các trị đo về vị ề ị h t trí khác.

29

 Khi nhân (hay chia) tất cả các giá trị dữ liệu bởi một giá trị không đổi, các trị sau đây được nhân (hay chia) bởi giá trị không đổi đó chia) bởi giá trị không đổi đó ◦ các giá trị riêng lẻ (max, min), ◦ trị đo về trung tâm (trung bình và trung vị) và ◦ trị đo về sải ( khoảng, khoảng tứ trung vị, độ lệch chuẩn)

59

©2010, Nguyễn Duy Long, Tiến Sỹ

 Dữ liệu về cân nặng của đàn ông đo lường bằng

9/7/2010

g n ô

g n ô

n à đ

n à đ

ố S

ố S

Cân nặng (kg)

Cân nặng (lb)

60

©2010, Nguyễn Duy Long, Tiến Sỹ

kg. Nếu đổi qua cân Anh (lb), chúng ta sẽ thay đổi tỷ lệ (rescale) dữ liệu:

30

9/7/2010

 Chuẩn hóa dữ liệu thành điểm z dịch chuyển (shift) dữ liệu bằng cách trừ trị trung bình và thay đổi tỷ lệ (rescale) các giá trị bằng cách chia cho độ lệch chuẩn. ◦ Chuẩn hóa thành điểm z không thay đổi hình dạng (shape)

của phân phối.

◦ Chuẩn hóa thành điểm z thay đổi trung tâm (center) với trị

trung bình bằng 0.

ộ ệ

◦ Chuẩn hóa thành điểm z thay đổi sải (spread) với độ lệch

( p

y

)

chuẩn bằng 1.

61

©2010, Nguyễn Duy Long, Tiến Sỹ

 Điểm z chỉ ra một giá trị bất thường thế nào bởi vì

 Dùng điểm z với một mô hình (model) thường gặp

nó cho biết giá trị đó cách trung bình bao xa.

62

©2010, Nguyễn Duy Long, Tiến Sỹ

trong thống kê học: mô hình chuẩn (Normal model)

31

 Mô hình chuẩn thường thích hợp cho các phân

9/7/2010

 N(μ,σ) thể hiện mô hình chuẩn với trị trung bình

phối có hình dạng một mốt và khá đối xứng - hình chuông (bell shaped). chuông (bell shaped).

 Dùng chữ cái Hy Lạp vì trị trung bình và độ lệch này không phải từ dữ liệu và chúng từ các thông số (parameters) của mô hình.

bằng μ độ lệch là σ.

 Các tóm tắt của dữ liệu, như trị trung bình và độ ộ ệ ,

63

©2010, Nguyễn Duy Long, Tiến Sỹ

 Khi chuẩn hóa các dữ liệu chuẩn (Normal), giá trị

ị g ẫ ẩ lệch chuẩn của mẫu dùng chữ cái La Tinh. Các tóm tắt đó gọi là trị số thống kê (statistics).

y

z

 

 Một khi chuẩn hóa, chỉ cần một mô hình:

◦ Mô hình N(0,1) gọi là mô hình chuẩn (chính) tắc (standard

Normal model hay standard Normal distribution).

 Không dùng mô hình chuẩn cho bất cứ tập dữ liệu nào, vì việc chuẩn hóa không thay đổi hình dạng của phân phối

64

©2010, Nguyễn Duy Long, Tiến Sỹ

được chuẩn hóa là điểm z (z-score):

32

 Khi dùng mô hình chuẩn, ta đang giả định phân

9/7/2010

 Vì không thể kiểm tra giả định này trong thực tế,

phối là chuẩn.

của phân phối dữ liệu là một mốt và đối xứng.

65

©2010, Nguyễn Duy Long, Tiến Sỹ

 Các mô hình chuẩn cho ta biết mức cực hạn của

kiểm tra điều kiện sau: ◦ Điều kiện gần chuẩn (Nearly Normal Condition): Hình dạng

 Có thể tìm số này một cách chính xác ở các chương sau, bay giờ có thể dùng một qui tắc đơn giản mà cho ta biết rất nhiều về mô hình chuẩn…

 Với mô hình chuẩn:

◦ Khoảng 68% các giá trị nằm trong một khoảng độ lệch

◦ Khoảng 95% các giá trị nằm trong hai khoảng độ lệch chuẩn

đ l h h ẩ

h kh ả

h ả

á

chuẩn của trị trung bình; ằ 9 % á của trị trung bình; và,

◦ Khoảng 99.7% các giá trị nằm trong ba khoảng độ lệch

chuẩn của trị trung bình.

66

©2010, Nguyễn Duy Long, Tiến Sỹ

một giá trị bằng cách cho biết khả năng để tìm một giá trị cách xa trị trung bình. giá trị cách xa trị trung bình

33

 Hình sao biểu thị qui tắc 68-95-99.7.

67

©2010, Nguyễn Duy Long, Tiến Sỹ

 Bảng Z trong phụ lục E (tr. A56-57) là bảng cho mô hình

 Ví dụ với z = 1.80: 1 80:

chuẩn tắc. Ví dụ với z ◦ Bao nhiêu phần trăm dữ liệu đã được chuẩn hóa dưới điểm

z = 1.80 này?

68

©2010, Nguyễn Duy Long, Tiến Sỹ

9/7/2010

34

 MS Excel có hàm kiểm nghiệm z một phía ) (one-sided z-test): (  Có thể tìm phân phối cho một điểm z với

hàm Normsdist(z)

9/7/2010

ất à

ột á

h

 Có thể tìm điểm z cho một xác suất nào

Có thể tì điể đó với hàm Normsinv(p) Ví dụ: Normsinv(.9641) = 1.8

69

©2010, Nguyễn Duy Long, Tiến Sỹ

 Tìm z hay giá trị dữ liệu ban đầu với một diện tích

Ví dụ: Normsdist(1.8) = 0.9641: giá trị chuẩn hóa của dữ liệu dưới điểm z bằng 1.8 khoảng 96.41%.

 Ví dụ: tìm điểm z cho điểm tứ phân vị thứ nhất

đã cho.

Độ lệch chuẩn

70

©2010, Nguyễn Duy Long, Tiến Sỹ

trong mô hình chuẩn?

35

 Dùng bảng Z theo cách khác:

71

©2010, Nguyễn Duy Long, Tiến Sỹ

72

©2010, Nguyễn Duy Long, Tiến Sỹ

9/7/2010

36