Chương 2

BIÊN TẬP VÀ PHÂN TÍCH MÔ TẢ DỮ LIỆU

Nội dung

I. Một số đại lượng đặc trưng của dữ liệu

II. Xây dựng bảng hỏi và kết cấu bộ dữ liệu

III. Biên tập dữ liệu

IV. Mô tả dữ liệu

V. Phân tích dữ liệu bằng biểu đồ

I Một số đại lượng đặc trưng của dữ liệu

1.1 Số trung bình

a) Khái niệm: Số trung bình (bình quân) trong thống kê là

mức độ đại biểu theo một tiêu thức nào đó của một tổng thể thống kê bao gồm nhiều đơn vị cùng loại

-) Là mức độ phổ biến nhất (dùng với các lượng biến có

quan hệ tổng)

-) Chịu ảnh hương bởi giá trị đột biến

b) Các loại số trung bình

Số công nhân

Phân xưởng

• VD. Tính năng suất lao động bình quân Năng xuất lao động (m/ công nhân)

A

50

B

55

C

60

D

65

3 5 10 7

Trong t/h này số bình quân trùng với số

tương đối cường độ

c) Đặc điểm của số trung bình

• Mang tính tổng hợp, khái quát cao

về trị số của tiêu thức nghiên cứu

• San bằng các chênh lệch giữa các đơn vị

• Chịu ảnh hưởng của lượng biến đột xuất

1.2 Trung vị

• Là mức độ quan trọng

• Trong dãy số đã được sắp xếp theo thứ tự trung vị là

số ở vị trí giữa.

• Nếu n lẻ: trung vị ở vị trí giữa

• Nếu n chẵn: trung vị là bình quân của 2 số đứng ở vị trí

giữa

• Không chịu ảnh hưởng của giá trị đột xuất

1.3 Mốt

• Là một mức độ điển hình

• Là giá trị phổ biến nhất

• Không chịu ảnh hưởng của giá trị đột xuất

• Có thể không có Mốt nhưng cũng có thể có vài mốt

• Được sử dụng với cả biến định tính và định lượng

Vai trò của việc nghiên cứu Mốt trong cuộc sống ?

1.4 Các phân vị

• Là vị trí phân chia tổng thể thành các nhóm khác nhau • Tứ phân vị: chia dữ liệu được sắp xếp thành 4 phần

25%

25%

25%

25%

Q1

Q3

Q2 • Q1 - tứ phân vị thứ nhất: 25% tổng thể có giá trị dưới Q1 và 75% trên Q1 • Q2 – tứ phân vị thứ hai: % 50% trên và 50% dưới • …

VD: điều tra nhu cầu sử dụng phương tiện giao thông bằng hàng không  tập chung vào Q3 – trong trường hợp tổng thể điều tra là thu nhập

1.4 Các chỉ tiêu đo độ biến thiên

1.4.1 Khoảng biến thiên

• Là chỉ tiêu đo độ biến thiên

giá trị lớn nhất

• Là sự chênh lệch giữa giá trị nhỏ nhất và

• Quan sát: Range = Xmax – Xmin

liệu

• Không phụ thuộc vào sự phân bố của dữ

1.4.2 Phương sai

1.4.3 Độ lệch chuẩn

• So sánh các độ lệch chuẩn

1.4.4 Độ biến thiên

Ví Dụ

50$;

Độ lệch chuẩn 5$

• Cổ phiếu A giá bình quân năm trước =

100$

Độ lệch chuẩn 5$

• Cổ phiếu B giá bình quân năm trước =

biến động 5%

 Cổ phiếu A biến động 10%; cổ phiếu B

 Đầu tư cho loại nào?

1.5 hình dáng phân phối

• Mô tả sự phân bố của dữ liệu

lệch

• Các mức độ của hình dáng: đối xứng hoặc

Đồ thị hộp ria mèo (box plot)

Hình dáng của phân phối và đồ thị hộp ria mèo

Tác dụng của đồ thị hộp ria meo

trung vị (Me)

• Nhận biết vị trí của bộ dữ liệu trên cơ sở

qua độ dài của hộp (khoảng tứ phân vị và

độ dài của ria mèo)

• Nhận biết sự dàn trải của dữ liệu thông

là đột xuất

• Nhận biết lượng biến đột xuất và nghi ngờ

cùng một thước đo

• So sánh hai hay nhiều bộ dữ liệu trên

Nhận biết lượng biến đột xuất