
Bài giảng Các dạng biểu đồ thể hiện sự phân phối của dữ liệu
lượt xem 0
download

Bài giảng "Các dạng biểu đồ thể hiện sự phân phối của dữ liệu" trình bày các biểu đồ thường dùng để phân tích và trực quan hóa cách dữ liệu phân bố, bao gồm: biểu đồ tần suất (histogram), biểu đồ hộp (boxplot), biểu đồ mật độ (density plot)... Mời các bạn cùng tham khảo!
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Các dạng biểu đồ thể hiện sự phân phối của dữ liệu
- CÁC DẠNG BIỂU ĐỒ THỂ HIỆN SỰ PHÂN PHỐI CỦA DỮ LIỆU 1
- Giới thiệu • Trực quan hình dạng phân phối của dữ liệu đóng vai trò quan trọng việc phân tích dữ liệu và so sánh mức độ tập trung dữ liệu giữa các nhóm • Các dạng biểu đồ đơn giản và thường gặp nhất là Histogram và biểu đồ mật độ. • Ngoài ra còn có các dạng biểu đồ biểu diễn nhiều phân phối cùng lúc như: • biểu đồ hộp, violin, • ridgeline. • Trong thống kê mô tả, bên cạnh những con số cho biết các giá trị về mặt "trung tâm" hay "độ phân tán" của tập dữ liệu, ta cũng cần biết những đại lượng cũng như hình dạng mô tả tập dữ liệu đó. • Ngoài 2 giá trị số thể hiện đặc trưng của hình dáng của phân phối: Độ lệch – Skewness và Độ nhọn – Kurtosis • Biểu đồ Histogram thường được sử dụng để biểu diễn hình dáng phân phối.2
- 1. Biểu đồ Histogram • Biểu đồ Histogram được sử dụng để mô tả trực quan sự phân bố tần suất cho tập dữ liệu, khá phổ biến, ít nhất từ thế kỷ 18, vì dễ được vẽ bằng tay (Wilke, 2019). • Tuy nhiên, hiện biểu đồ Histogram đang dần bị thay thế bởi các biểu đồ mật độ, do những hạn chế khi so sánh sự phân bố của một biến trên nhiều danh mục. 3
- 1. Biểu đồ Histogram • Biểu đồ Histogram là một dạng biểu đồ cột được sử dụng để mô tả trực quan sự phân bố tần suất cho tập dữ liệu. • Theo nguyên tắc, biểu đồ Histogram thường được dùng cho tập dữ liệu từ 100 giá trị trở lên (Illowsky et al., 2013). • Biểu đồ Histogram có thể cung cấp các thông tin: • Trung tâm về mặt vị trí của tập dữ liệu; • Độ phân tán của tập dữ liệu; • Độ lệch của tập dữ liệu; • Sự hiện diện của các giá trị ngoại lệ (outliers); • Sự hiện diện của các yếu vị (mode) trong tập dữ liệu. 4
- 1. Biểu đồ Histogram • Các yếu tố này cung cấp dấu hiệu về mô hình phân phối thích hợp cho tập dữ liệu. • Đối với một biến rời rạc, biểu đồ thường có một thanh riêng biệt cho mỗi giá trị. • Đối với một biến liên tục, cần chia khoảng các giá trị thành các khoảng nhỏ, với các giá trị được nhóm lại với nhau. • Cũng có thể thực hiện như vậy, khi một biến rời rạc có một lượng lớn các giá trị (chẳng hạn như điểm của một bài kiểm tra). 5
- 1. Biểu đồ Histogram • Ví dụ: Có một danh sách thống kê 756 người theo độ tuổi. • Ta có thể muốn biết có bao nhiêu người theo từng nhóm tuổi (tức là có bao nhiêu trẻ em, thanh niên, trung niên, cao niên). • Sự phân bố độ tuổi của nhóm người này được thực hiện bằng cách nhóm tất cả vào các biến phân tổ theo độ tuổi và sau đó đếm số người trong mỗi biến, ví dụ như bảng phân tổ theo 5 năm, như sau: 6
- 1. Biểu đồ Histogram • Bảng số liệu này cũng có thể biểu diễn trực quan với các hình chữ nhật có chiều cao tương ứng với số lượng và độ rộng tương ứng với phân tổ theo độ tuổi. Nguồn: Fundamentals of Data Visualization 7
- 1. Biểu đồ Histogram • Biểu đồ Histogram được tạo ra bằng cách phân loại dữ liệu, hình thức trực quan chính xác của chúng phụ thuộc vào việc lựa chọn độ rộng cột tương ứng với cách phân tổ mà biến phân loại đang sử dụng. • Hầu hết các phần mềm trực quan hóa tạo biểu đồ sẽ chọn độ phân tổ theo mặc định, nhưng có thể đó không phải là phân tổ thích hợp nhất. • Do đó, cần xác định cách phân tổ phù hợp với tập dữ liệu để kết quả trực quan phản ánh chính xác. • Nếu độ rộng của phân tổ quá nhỏ thì biểu đồ sẽ xuất hiện nhiều đỉnh hơn và khó nhận thấy các xu hướng chính trong tập dữ liệu. • Mặt khác, nếu phân tổ quá rộng thì các yếu tố nhỏ hơn trong phân phối dữ liệu, chẳng hạn như giảm khoảng 10 tuổi trong ví dụ này, có thể không nhìn thấy được. 8
- 1. Biểu đồ Histogram • Hình dưới đây là 4 cách phân tổ theo 1 năm (a), 3 năm (b), 5 năm (c) và 10 năm (d). • Có thể thấy, phân tổ theo 1 năm quá nhỏ nhưng có thể giúp quan sát chíh xác một số giá trị ngoại lệ ở 2 đầu, trong khi 10 năm quá rộng, còn 3-5 năm là mức phân tổ tối ưu hơn vừa có thể thấy rõ phân phối và độ lệch, cũng như các giá trị ngoại lệ[1] trong tập dữ liệu. [1] Dữ liệu ngoại lệ (Outliers) là một điểm dữ liệu có sự khác biệt đáng kể so với các quan sát khác. Dữ liệu ngoại lệ có thể xuất hiện do sự thay đổi thang đo hoặc do lỗi từ dữ liệu thu thập (thông thường dữ liệu ngoại lệ dạng này sẽ bị loại khỏi tập dữ liệu). Một giá trị ngoại lệ có thể gây ra vấn đề nghiêm trọng trong quá trình phân tích dữ liệu. 9
- 1. Biểu đồ Histogram Nguồn: Fundamentals of Data Visualization 10
- 1. Biểu đồ Histogram • Trong phân tích dữ liệu, đặc biệt khi kiểm tra giả định phân phối chuẩn của phần dư trong mô hình hồi quy tuyến tính, biểu đồ Histogram thường được sử dụng. • Nếu giá trị trung bình gần bằng 0, độ lệch chuẩn gần bằng 1, đường cong phân phối có dạng hình chuông, ta có thể khẳng định phân phối là xấp xỉ chuẩn, giả định phân phối chuẩn của phần dư không bị vi phạm. 11
- 2. Giá trị số thể hiện đặc trưng của hình dáng của phân phối • Một nhiệm vụ cơ bản trong nhiều phân tích thống kê là xác định đặc điểm của vị trí và sự biến đổi của một tập dữ liệu. • Tập dữ liệu có thể được phân phối theo nhiều cách, như trải rộng hơn ở bên trái hoặc bên phải hoặc trải đều. • Độ lệch và độ nhọn là hai đại lượng số thể hiện đặc trưng của hình dáng phân phối và cung cấp nhiều thông tin hơn để đánh giá rủi ro hơn là chỉ sử dụng độ lệch chuẩn. • Trong đó, biểu đồ Histogram là một kỹ thuật đồ họa hiệu quả để biểu diễn 2 đại lượng này. 12
- ĐỘ LỆCH • Độ lệch (skewness) là thước đo mức độ đối xứng, bất đối xứng của một phân phối. • Một phân phối, hoặc tập dữ liệu được xem là đối xứng nếu nó giống nhau ở bên trái và bên phải điểm trung tâm. • Độ lệch có nhiều cách tính khác nhau: • Đối với dữ liệu đơn biến x1, x2, ..., Xn => công thức dưới đây được gọi là độ lệch Fisher-Pearson (Fisher-Pearson coefficient of skewness) Trong đó: • x ̅ là giá trị trung bình • s là độ lệch chuẩn • N là số điểm dữ liệu Lưu ý: khi tính toán hệ số skewness, s được tính bằng N ở mẫu số thay vì N-1. 13
- ĐỘ LỆCH – Cách tính độ lệch • Công thức tính độ lệch Galton (còn được gọi là độ lệch của Bowley) theo các giá trị của tứ phân vị như sau: • Trong đó: • Q1 là tứ phân vị thứ nhất (hay phân vị dưới) • Q3 là tứ phân vị thứ 3 (hay phân vị trên) • Q2 là trung vị. 14
- ĐỘ LỆCH – Cách tính độ lệch • Công thức tính độ lệch đơn giản do Karl Pearson đề xuất theo yếu vị (SPearson 1) và trung vị (SPearson 2) như sau: • Trong đó: • x ̅ là giá trị trung bình • x ̂ là yếu vị • x ̃ là trung vị • s là độ lệch chuẩn 15
- ĐỘ LỆCH – Biểu diễn trực quan độ lệch thông qua đồ thị 16
- ĐỘ LỆCH – Biểu diễn trực quan độ lệch thông qua đồ thị • Hình trên cho thấy 3 tình huống xảy ra khi quan sát độ lệch được biểu diễn bằng đồ thị: • Giá trị trung bình > Giá trị trung vị: • Lúc này Sk>0, được gọi là độ lệch tích cực hay Positive Skewness): • đuôi bên PHẢI dài hơn đuôi bên trái; • giá trị LỚN (outliers) đẩy giá trị trung bình về phía CUỐI • Ví dụ như đo lường thu nhập cá nhân, điều này chỉ ra 1 số ít người thu nhập quá cao trong tập dữ liệu) • Giá trị trung bình = Giá trị trung vị = Yếu vị: • lúc này Sk=0, được gọi là phân phối đối xứng hay Symetrical distribution 17
- ĐỘ LỆCH – Biểu diễn trực quan độ lệch thông qua đồ thị • Giá trị trung bình < Giá trị trung vị: • lúc này Sk
- ĐỘ LỆCH – Ứng dụng trong phân tích dữ liệu • Độ lệch là một đại lượng thống kê mô tả được sử dụng kết hợp với biểu đồ để mô tả phân phối của tập dữ liệu. • Nhiều mô hình giả định phân phối chuẩn, có nghĩa là dữ liệu đối xứng 2 bên giá trị trung bình (Phân phối chuẩn có độ lệch bằng 0). • Nhưng trong thực tế, các điểm dữ liệu có thể không đối xứng hoàn toàn. • Vì vậy, sự hiểu biết về độ lệch của tập dữ liệu sẽ cho biết liệu độ lệch so với giá trị trung bình là tích cực hay tiêu cực. 19
- ĐỘ NHỌN • Độ nhọn (kurtosis) là là một đại lượng thống kê mô tả đo mức độ tập trung của các quan sát ở phần đuôi hoặc đỉnh của phân phân phối. • Đỉnh là phần cao nhất của phân phối và đuôi là phần cuối của phân phối. • Các tập dữ liệu có hệ số kurtosis cao có xu hướng dữ liệu tập trung về phần đuôi hoặc phần dữ liệu ngoại lệ. • Các tập dữ liệu có hệ số kurtosis thấp có xu hướng dữ liệu tập trung quanh vị trí trung tâm và có thể không có dữ liệu ngoại lệ. 20

CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Excel 2010: Chương 5
11 p |
150 |
39
-
TRÌNH BÀY DỮ LIỆU BẰNG BIỂU ĐỒ
6 p |
254 |
37
-
Bài giảng Hướng dẫn vẽ Pareto offiice 2003
10 p |
133 |
14
-
Bài giảng Tin học phần 2 - Chương 5: Tạo biểu đồ trong bảng tính
11 p |
57 |
12
-
Bài giảng Soạn thảo văn bản hành chính nâng cao
183 p |
31 |
10
-
Bài giảng Phân tích thiết kế phần mềm: Chương 3 - Trường ĐH Ngoại ngữ - Tin học TP.HCM
8 p |
33 |
10
-
Bài giảng Tin học văn phòng: Bài 10 - Trường Cao Đẳng nghề ISPACE
8 p |
97 |
10
-
Bài giảng Các ứng dụng chủ chốt bài 9: Microsoft Excel 2010
77 p |
38 |
7
-
Bài giảng Tin học đại cương: Phần I (Chương 2, Phần 3) - TS.Nguyễn Bá Ngọc
27 p |
87 |
6
-
Bài giảng Tin học văn phòng: Bài 11 - Vũ Thương Huyền
7 p |
25 |
6
-
Bài giảng Tin học văn phòng: Bài 10 - Nguyễn Thị Phương Dung
7 p |
17 |
6
-
Bài giảng Tin học văn phòng: Bài 11 - Đỗ Oanh Cường
7 p |
92 |
4
-
Bài giảng Tin học văn phòng: Bài 11 - Nguyễn Thị Phương Thảo
7 p |
30 |
4
-
Bài giảng Phân tích yêu cầu phần mềm - Chương 10: Yêu cầu phi chức năng
16 p |
30 |
3
-
Bài giảng Một số dạng biểu đồ thể hiện độ lớn của dữ liệu
27 p |
2 |
0
-
Bài giảng Một số dạng biểu đồ thể hiện tỷ lệ của dữ liệu
32 p |
1 |
0
-
Bài giảng Các dạng biểu đồ thể hiện sự tương quan của dữ liệu
35 p |
1 |
0


Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn
