2/15/2010
TRÂN TRỌNG GIỚI THIỆU
CHƢƠNG: THỐNG KÊ MÔ TẢ
1
CÁC ĐẠI LƯỢNG ĐO LƯỜNG MỨC ĐỘ TẬP TRUNG CỦA TẬP DỮ LIỆU
Trung bình cộng
: Trung bình cộng : Giá trị quan sát thứ i
n : Số quan sát (cỡ mẫu)
Trung bình cộng
1
2/15/2010
Trung binh cộng
: Trung bình cộng : Giá trị quan sát thứ i : Trọng số thứ i n : Số quan sát
Trung bình cộng có trọng số
Trung vị (Med)
Trung vị (Median) – Me:
Số trung vị là lượng biến của đơn vị đứng ở vị trí giữa trong dãy số lượng biến đã được sắp xếp thứ tự. Số trung vị chia dãy số làm 2 phần: + 50% giá trị của dãy số <= Me + 50% giá trị của dãy số >= Me 9 VD: 5 3 6 6
Me = 6
Trung vị (Med)
Nếu số quan sát trong tập dữ liệu (n) là một số lẻ thì quan sát ở vị trí thứ (n+1)/2 là số trung vị.
5 3 5 7 8 9 VD: Có số liệu về bậc thợ của một nhóm 7 công nhân 1 (7+1)/2 =4
Me=n4=5
2
2/15/2010
Trung vị (Med)
Nếu n là số chẵn, số trung vị là giá trị trung bình cộng của một quan sát ở vị trí thứ n/2 và một quan sát ở vị trí thứ (n+2)/2
VD: 1 5 3 9 10 14
8 5 Vị trí n/2 = 8/2 = 4n4 =5 Vị trí (n+2) = 10/2 = 5n5=8
Me=(n4+ n5) = 6,5
Trung vị (Med)
VD:
1 1 2 2 3 3 4 4 5 10
Số trung vị không bị ảnh hưởng bởi giá trị ngoại lai.
Số Mode (Mo)
Số yếu vị (mode):
Mốt là lượng biến được gặp nhiều lần nhất trong dãy số phân phối hoặc trong tổng thể hiện tượng nghiên cứu.
VD: 1 2 2 3 3 4 4 4 4 5 6 7 7
Mo = 4
3
2/15/2010
Số Mode (Mo)
0
1
2
3
4
5
6
Số con trong gia đình
Số gia đình
252
9811
4417
798
644 43
6847
Mo = ? n = ?
Số Mode (Mo)
Tập dữ liệu không có mode
VD: 1,2,3,4,5,6
Tập dữ liệu có nhiều Mode
VD: 1,2,3,3,3,4,5,6,6,6,7
Số Mode (Mo)
Mode cho ta thấy mức độ phổ biến nhất của hiện tượng.
Mode được ứng dụng rộng rãi trong thực tế : kích cỡ giày dép, mũ nón, size quần áo…
4
2/15/2010
Hình dáng phân phối đồ thị
Nếu trung bình = trung vị cân đối
Nếu trung bình < trung vị lệch trái
Nếu trung bình > trung vị lệch phải
Hình dáng phân phối đồ thị
Đồ thị lệch trái
Mean< Me < Mo
Hình dáng phân phối đồ thị
Đồ thị lệch phải
Mo < Me < Mean
5
2/15/2010
Hình dáng phân phối đồ thị
Đồ thị cân đối
Mean = Me = Mo
Tứ phân vị
Các tứ phân vị chia một tập hợp dữ liệu đã
Vị trí Q1=25%*(n+1): Có 25% giá trị nhỏ hơn hoặc
bằng Q1
Vị trí Q2=50%*(n+1): Có 50% giá trị nhỏ hơn hoặc
bằng Q2
Vị trí Q3=75%*(n+1):Có 75% giá trị nhỏ hơn hoặc
bằng Q3
được sắp xếp trật tự từ bé đến lớn thành 4 phần có số quan sát bằng nhau
Tứ phân vị
11 12 14 15 16 17 18 21
Q1 ở vị trí 25%*(8+1)=2,25 Q1=12+0.25×(14-12)=12.5
Q2 ở vị trí 50%*(8+1)=4,5 Q2=15+0.5*(16-15)=15,5
Q3 ở vị trí 75%*(8+1)=6,75 Q3=17+0.75*(18-17)=17,75
6
2/15/2010
Tứ phân vị
Tính tứ phân vị dãy dữ liệu sau:
15 18 21 24 21 23 19 30 32 21
18.75 21 25.5 Q1= Q2= Q3=
Phân vị
Phân vị thứ P chia dãy số đã được sắp trật tự thành 2 phần:
+ p% số quan sát có giá trị nhỏ hơn hoặc bằng phân vị thứ p
+ (100-p)% số quan sát có giá trị lớn hơn hoặc bằng phân vị thứ p
Phân vị
Công thức tính phân vị thứ 60:
1 1 2 2 2 2 3 3 3 4 4 4 5 5 6 6 7 7 7
Phân vị thứ 60 là: 4
7
2/15/2010
Điểm của 20 sinh viên
+ 60% sinh viên có điểm dưới bao nhiêu? + 10% sinh viên có điểm trên bao nhiêu?
3 3 3 4 4 4 4 5 5 5 5 6 6 7 7 7 8 8 9 9
i(60)= 0,6*(20+1) =12,6 Giá trị phân vị thứ 60 là: 6+0,6*(6-6)=6
i(90)= 0,9*(20+1) = 18,9 Giá trị phân vị thứ 90 là: 8+0.9*(9-8)=8,9
4
5
6
6
CÁC ĐẠI LƯỢNG ĐO LƯỜNG ĐỘ PHÂN TÁN
Điểm trung bình lớp A 4 5 Mean = 5
Điểm trung bình lớp B 3 2 2 6 7 8 Mean = 4,67
8
2/15/2010
Khoảng biến thiên (Range)
Khoảng biến thiên là khoảng cách giữa giá trị nhỏ nhất và giá trị lớn nhất trong tập dữ liệu.
R = xmax – xmin
VD: 1,1,2,3,3,4,4,4,4,5
R = 5-1=4
Khoảng biến thiên (Range)
1,1,1,1,2,2,3,3,5,5,7 R= 7-1 = 6
1,1,1,1,2,2,3,3,5,5,120 R= 120-1 =119
Khoảng biến thiên rất nhạy cảm với giá trị ngoại lệ
Độ trải giữa
Độ trải giữa chính là khoảng cách giữa tứ phân
vị thứ nhất và tứ phân vị thứ 3 RQ= Q3-Q1
18 21
Tính độ trải giữa dãy số sau: 11 12 14 15 16 17 Q1= 12,5 Q3= 17,75 RQ = 17,75 – 12,5 =5,25
9
2/15/2010
Phƣơng sai
Phương sai: Là trung bình của các biến thiên đã được lấy bình phương giữa từng quan sát trong tập dữ liệu với giá trị trung bình của nó. Phương sai thể hiện sự biến thiên của dãy dữ liệu
3 4 8 4 6 9 4 3 6 3 4 2 6 8 7 4 3 5
Tính phương sai điểm học thi lớp A
Độ lệch chuẩn
Độ lệch chuẩn: căn bậc 2 của phương sai
Độ lệch chuẩn
So sánh phương sai điểm 2 lớp
4
5
5
6
6
Điểm lớp A 4
Điểm lớp B 2 2 3 6 7 8
10
2/15/2010
Hệ số biến thiên
Được sử dụng nhằm mục đích: - So sánh mức độ biến thiên giữa các tập dữ liệu có trung bình khác nhau.
- So sánh hai tập dữ liệu có đơn vị đo khác nhau
ĐẶNG HỮU PHÚC - UEH
Hệ số biến thiên
VD:
ĐẶNG HỮU PHÚC - UEH
BÀI KIỂM TRA CÁ NHÂN
ĐẶNG HỮU PHÚC - UEH
11
2/15/2010
Bài Tập
Doanh số các cửa hàng trên địa bàn TP.HCM như sau:
70 83 85 49 68 79 69 X 87 79 96 54 84 61 X 78 95 81 73 91 55 55 80 65 90 88 53 99 65 76 98 X 82 65 86 85 51 74 77 93 X 97 90 63 84 80 72 82
X là số thứ tự của sinh viên trong lớp +30
Đặng Hữu Phúc - UEH
a. Tính phương sai, độ lệch chuẩn. b. Cho biết 70% doanh nghiệp có doanh số trên bao nhiêu. c. Tính giá trị trung vị, mode, hệ số biến thiên của dữ liệu. d. Nêu ý nghĩa các hệ số vừa tính.

