2/15/2010

TRÂN TRỌNG GIỚI THIỆU

CHƢƠNG: THỐNG KÊ MÔ TẢ

1

CÁC ĐẠI LƯỢNG ĐO LƯỜNG MỨC ĐỘ TẬP TRUNG CỦA TẬP DỮ LIỆU

Trung bình cộng

: Trung bình cộng : Giá trị quan sát thứ i

   n : Số quan sát (cỡ mẫu)

 Trung bình cộng

1

2/15/2010

Trung binh cộng

 : Trung bình cộng  : Giá trị quan sát thứ i  : Trọng số thứ i  n : Số quan sát

 Trung bình cộng có trọng số

Trung vị (Med)

Trung vị (Median) – Me:

Số trung vị là lượng biến của đơn vị đứng ở vị trí giữa trong dãy số lượng biến đã được sắp xếp thứ tự. Số trung vị chia dãy số làm 2 phần: + 50% giá trị của dãy số <= Me + 50% giá trị của dãy số >= Me 9 VD: 5 3 6 6

 Me = 6

Trung vị (Med)

Nếu số quan sát trong tập dữ liệu (n) là một số lẻ thì quan sát ở vị trí thứ (n+1)/2 là số trung vị.

5 3 5 7 8 9 VD: Có số liệu về bậc thợ của một nhóm 7 công nhân 1 (7+1)/2 =4

 Me=n4=5

2

2/15/2010

Trung vị (Med)

Nếu n là số chẵn, số trung vị là giá trị trung bình cộng của một quan sát ở vị trí thứ n/2 và một quan sát ở vị trí thứ (n+2)/2

VD: 1 5 3 9 10 14

8 5 Vị trí n/2 = 8/2 = 4n4 =5 Vị trí (n+2) = 10/2 = 5n5=8

 Me=(n4+ n5) = 6,5

Trung vị (Med)

VD:

1 1 2 2 3 3 4 4 5 10

 Số trung vị không bị ảnh hưởng bởi giá trị ngoại lai.

Số Mode (Mo)

 Số yếu vị (mode):

Mốt là lượng biến được gặp nhiều lần nhất trong dãy số phân phối hoặc trong tổng thể hiện tượng nghiên cứu.

VD: 1 2 2 3 3 4 4 4 4 5 6 7 7

 Mo = 4

3

2/15/2010

Số Mode (Mo)

0

1

2

3

4

5

6

Số con trong gia đình

Số gia đình

252

9811

4417

798

644 43

6847

Mo = ? n = ?

Số Mode (Mo)

 Tập dữ liệu không có mode

VD: 1,2,3,4,5,6

Tập dữ liệu có nhiều Mode

VD: 1,2,3,3,3,4,5,6,6,6,7

Số Mode (Mo)

Mode cho ta thấy mức độ phổ biến nhất của hiện tượng.

Mode được ứng dụng rộng rãi trong thực tế : kích cỡ giày dép, mũ nón, size quần áo…

4

2/15/2010

Hình dáng phân phối đồ thị

Nếu trung bình = trung vị  cân đối

Nếu trung bình < trung vị lệch trái

Nếu trung bình > trung vị lệch phải

Hình dáng phân phối đồ thị

Đồ thị lệch trái

Mean< Me < Mo

Hình dáng phân phối đồ thị

Đồ thị lệch phải

Mo < Me < Mean

5

2/15/2010

Hình dáng phân phối đồ thị

Đồ thị cân đối

Mean = Me = Mo

Tứ phân vị

Các tứ phân vị chia một tập hợp dữ liệu đã

Vị trí Q1=25%*(n+1): Có 25% giá trị nhỏ hơn hoặc

bằng Q1

Vị trí Q2=50%*(n+1): Có 50% giá trị nhỏ hơn hoặc

bằng Q2

Vị trí Q3=75%*(n+1):Có 75% giá trị nhỏ hơn hoặc

bằng Q3

được sắp xếp trật tự từ bé đến lớn thành 4 phần có số quan sát bằng nhau

Tứ phân vị

 11 12 14 15 16 17 18 21

Q1 ở vị trí 25%*(8+1)=2,25  Q1=12+0.25×(14-12)=12.5

Q2 ở vị trí 50%*(8+1)=4,5  Q2=15+0.5*(16-15)=15,5

Q3 ở vị trí 75%*(8+1)=6,75  Q3=17+0.75*(18-17)=17,75

6

2/15/2010

Tứ phân vị

Tính tứ phân vị dãy dữ liệu sau:

15 18 21 24 21 23 19 30 32 21

18.75 21 25.5 Q1= Q2= Q3=

Phân vị

 Phân vị thứ P chia dãy số đã được sắp trật tự thành 2 phần:

+ p% số quan sát có giá trị nhỏ hơn hoặc bằng phân vị thứ p

+ (100-p)% số quan sát có giá trị lớn hơn hoặc bằng phân vị thứ p

Phân vị

Công thức tính phân vị thứ 60:

1 1 2 2 2 2 3 3 3 4 4 4 5 5 6 6 7 7 7

 Phân vị thứ 60 là: 4

7

2/15/2010

 Điểm của 20 sinh viên

+ 60% sinh viên có điểm dưới bao nhiêu? + 10% sinh viên có điểm trên bao nhiêu?

3 3 3 4 4 4 4 5 5 5 5 6 6 7 7 7 8 8 9 9

i(60)= 0,6*(20+1) =12,6  Giá trị phân vị thứ 60 là: 6+0,6*(6-6)=6

i(90)= 0,9*(20+1) = 18,9  Giá trị phân vị thứ 90 là: 8+0.9*(9-8)=8,9

4

5

6

6

CÁC ĐẠI LƯỢNG ĐO LƯỜNG ĐỘ PHÂN TÁN

 Điểm trung bình lớp A 4 5  Mean = 5

 Điểm trung bình lớp B 3 2 2 6 7 8  Mean = 4,67

8

2/15/2010

Khoảng biến thiên (Range)

 Khoảng biến thiên là khoảng cách giữa giá trị nhỏ nhất và giá trị lớn nhất trong tập dữ liệu.

R = xmax – xmin

VD: 1,1,2,3,3,4,4,4,4,5

R = 5-1=4

Khoảng biến thiên (Range)

1,1,1,1,2,2,3,3,5,5,7  R= 7-1 = 6

1,1,1,1,2,2,3,3,5,5,120  R= 120-1 =119

 Khoảng biến thiên rất nhạy cảm với giá trị ngoại lệ

Độ trải giữa

 Độ trải giữa chính là khoảng cách giữa tứ phân

vị thứ nhất và tứ phân vị thứ 3 RQ= Q3-Q1

18 21

Tính độ trải giữa dãy số sau: 11 12 14 15 16 17 Q1= 12,5 Q3= 17,75  RQ = 17,75 – 12,5 =5,25

9

2/15/2010

Phƣơng sai

 Phương sai: Là trung bình của các biến thiên đã được lấy bình phương giữa từng quan sát trong tập dữ liệu với giá trị trung bình của nó. Phương sai thể hiện sự biến thiên của dãy dữ liệu

 3 4 8 4 6 9 4 3 6 3 4 2 6 8 7 4 3 5

Tính phương sai điểm học thi lớp A

Độ lệch chuẩn

 Độ lệch chuẩn: căn bậc 2 của phương sai

Độ lệch chuẩn

So sánh phương sai điểm 2 lớp

4

5

5

6

6

Điểm lớp A 4

 Điểm lớp B 2 2 3 6 7 8

10

2/15/2010

Hệ số biến thiên

Được sử dụng nhằm mục đích: - So sánh mức độ biến thiên giữa các tập dữ liệu có trung bình khác nhau.

- So sánh hai tập dữ liệu có đơn vị đo khác nhau

ĐẶNG HỮU PHÚC - UEH

Hệ số biến thiên

VD:

ĐẶNG HỮU PHÚC - UEH

BÀI KIỂM TRA CÁ NHÂN

ĐẶNG HỮU PHÚC - UEH

11

2/15/2010

Bài Tập

Doanh số các cửa hàng trên địa bàn TP.HCM như sau:

70 83 85 49 68 79 69 X 87 79 96 54 84 61 X 78 95 81 73 91 55 55 80 65 90 88 53 99 65 76 98 X 82 65 86 85 51 74 77 93 X 97 90 63 84 80 72 82

X là số thứ tự của sinh viên trong lớp +30

Đặng Hữu Phúc - UEH

a. Tính phương sai, độ lệch chuẩn. b. Cho biết 70% doanh nghiệp có doanh số trên bao nhiêu. c. Tính giá trị trung vị, mode, hệ số biến thiên của dữ liệu. d. Nêu ý nghĩa các hệ số vừa tính.

Đặng Hữu Phúc - UEH

12