CÁC DẠNG BIỂU ĐỒ THỂ HIỆN SỰ
PHÂN PHỐI CỦA DỮ LIỆU
1
Trực quan hình dạng phân phối của dữ liệu đóng vai trò quan trọng việc phân tích
dữ liệu và so sánh mức độ tập trung dữ liệu giữa các nhóm
Các dạng biểu đồ đơn giản và thường gặp nhất là Histogram và biểu đồ mật độ.
Ngoài ra còn có các dạng biểu đồ biểu diễn nhiều phân phối cùng lúc như:
biểu đồ hộp, violin,
ridgeline.
Trong thống kê mô tả, bên cạnh những con số cho biết các giá trị về mặt "trung
tâm" hay "độ phân tán" của tập dữ liệu, ta cũng cần biết những đại lượng cũng
như hình dạng mô tả tập dữ liệu đó.
Ngoài 2 giá trị số thể hiện đặc trưng của hình dáng của phân phối: Độ lệch
Skewness và Độ nhọn Kurtosis
Biểu đồ Histogram thường được sử dụng để biểu diễn hình dáng phân phối.
Giới thiệu
2
1. Biểu đồ Histogram
Biểu đồ Histogram được sử dụng
để mô tả trực quan sự phân bố tần
suất cho tập dữ liệu, khá phổ biến,
ít nhất từ thế kỷ 18, vì dễ được v
bằng tay (Wilke, 2019).
Tuy nhiên, hiện biểu đồ Histogram
đang dần bị thay thế bởi các biểu
đồ mật độ, do những hạn chế khi
so sánh sự phân bố của một biến
trên nhiều danh mục.
3
1. Biểu đồ Histogram
Biểu đồ Histogram là một dạng biểu đồ cột được sử dụng để mô tả trực
quan sự phân bố tần suất cho tập dữ liệu.
Theo nguyên tắc, biểu đồ Histogram thường được dùng cho tập dữ liệu từ
100 giá trị trở lên (Illowsky et al., 2013).
Biểu đồ Histogram có thể cung cấp các thông tin:
Trung tâm về mặt vị trí của tập dữ liệu;
Độ phân tán của tập dữ liệu;
Độ lệch của tập dữ liệu;
Sự hiện diện của các giá trị ngoại lệ (outliers);
Sự hiện diện của các yếu vị (mode) trong tập dữ liệu.
4
1. Biểu đồ Histogram
Các yếu tố này cung cấp dấu hiệu về mô hình phân phối thích hợp cho tập
dữ liệu.
Đối với một biến rời rạc, biểu đồ thường có một thanh riêng biệt cho mỗi giá
trị.
Đối với một biến liên tục, cần chia khoảng các giá trị thành các khoảng nhỏ,
với các giá trị được nhóm lại với nhau.
Cũng có thể thực hiện như vy, khi một biến rời rạc có một lượng lớn các giá
trị (chẳng hạn như điểm của một bài kiểm tra).
5