Chương 2
BIÊN TẬP VÀ PHÂN TÍCH MÔ TẢ DỮ LIỆU
Nội dung
I. Một số đại lượng đặc trưng của dữ liệu
II. Xây dựng bảng hỏi và kết cấu bộ dữ liệu
III. Biên tập dữ liệu
IV. Mô tả dữ liệu
V. Phân tích dữ liệu bằng biểu đồ
I Một số đại lượng đặc trưng của dữ liệu
1.1 Số trung bình
a) Khái niệm: Số trung bình (bình quân) trong thống kê là
mức độ đại biểu theo một tiêu thức nào đó của một tổng thể thống kê bao gồm nhiều đơn vị cùng loại
-) Là mức độ phổ biến nhất (dùng với các lượng biến có
quan hệ tổng)
-) Chịu ảnh hương bởi giá trị đột biến
b) Các loại số trung bình
Số công nhân
Phân xưởng
• VD. Tính năng suất lao động bình quân Năng xuất lao động (m/ công nhân)
A
50
B
55
C
60
D
65
3 5 10 7
Trong t/h này số bình quân trùng với số
tương đối cường độ
c) Đặc điểm của số trung bình
• Mang tính tổng hợp, khái quát cao
về trị số của tiêu thức nghiên cứu
• San bằng các chênh lệch giữa các đơn vị
• Chịu ảnh hưởng của lượng biến đột xuất
1.2 Trung vị
• Là mức độ quan trọng
• Trong dãy số đã được sắp xếp theo thứ tự trung vị là
số ở vị trí giữa.
• Nếu n lẻ: trung vị ở vị trí giữa
• Nếu n chẵn: trung vị là bình quân của 2 số đứng ở vị trí
giữa
• Không chịu ảnh hưởng của giá trị đột xuất
1.3 Mốt
• Là một mức độ điển hình
• Là giá trị phổ biến nhất
• Không chịu ảnh hưởng của giá trị đột xuất
• Có thể không có Mốt nhưng cũng có thể có vài mốt
• Được sử dụng với cả biến định tính và định lượng
Vai trò của việc nghiên cứu Mốt trong cuộc sống ?
1.4 Các phân vị
• Là vị trí phân chia tổng thể thành các nhóm khác nhau • Tứ phân vị: chia dữ liệu được sắp xếp thành 4 phần
25%
25%
25%
25%
Q1
Q3
Q2 • Q1 - tứ phân vị thứ nhất: 25% tổng thể có giá trị dưới Q1 và 75% trên Q1 • Q2 – tứ phân vị thứ hai: % 50% trên và 50% dưới • …
VD: điều tra nhu cầu sử dụng phương tiện giao thông bằng hàng không tập chung vào Q3 – trong trường hợp tổng thể điều tra là thu nhập
1.4 Các chỉ tiêu đo độ biến thiên
1.4.1 Khoảng biến thiên
• Là chỉ tiêu đo độ biến thiên
giá trị lớn nhất
• Là sự chênh lệch giữa giá trị nhỏ nhất và
• Quan sát: Range = Xmax – Xmin
liệu
• Không phụ thuộc vào sự phân bố của dữ
1.4.2 Phương sai
1.4.3 Độ lệch chuẩn
• So sánh các độ lệch chuẩn
1.4.4 Độ biến thiên
Ví Dụ
50$;
Độ lệch chuẩn 5$
• Cổ phiếu A giá bình quân năm trước =
100$
Độ lệch chuẩn 5$
• Cổ phiếu B giá bình quân năm trước =
biến động 5%
Cổ phiếu A biến động 10%; cổ phiếu B
Đầu tư cho loại nào?
1.5 hình dáng phân phối
• Mô tả sự phân bố của dữ liệu
lệch
• Các mức độ của hình dáng: đối xứng hoặc
Đồ thị hộp ria mèo (box plot)
Hình dáng của phân phối và đồ thị hộp ria mèo
Tác dụng của đồ thị hộp ria meo
trung vị (Me)
• Nhận biết vị trí của bộ dữ liệu trên cơ sở
qua độ dài của hộp (khoảng tứ phân vị và
độ dài của ria mèo)
• Nhận biết sự dàn trải của dữ liệu thông
là đột xuất
• Nhận biết lượng biến đột xuất và nghi ngờ
cùng một thước đo
• So sánh hai hay nhiều bộ dữ liệu trên