
Bài giảng Một số dạng biểu đồ thể hiện tỷ lệ của dữ liệu
lượt xem 1
download

Bài giảng "Một số dạng biểu đồ thể hiện tỷ lệ của dữ liệu" giới thiệu các loại biểu đồ chuyên dùng để trực quan hóa mối quan hệ tỷ lệ giữa các thành phần trong một tổng thể, như: biểu đồ tròn (pie chart), biểu đồ donut, biểu đồ cột/tầng 100% (100% stacked chart)... Mời các bạn cùng tham khảo!
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Một số dạng biểu đồ thể hiện tỷ lệ của dữ liệu
- MỘT SỐ DẠNG BIỂU ĐỒ THỂ HIỆN TỶ LỆ CỦA DỮ LIỆU 1
- Giới thiệu • Dạng biểu đồ sử dụng độ lớn của dữ liệu đôi khi không giúp người xem nhận diện được mối quan hệ giữa các nhóm trong một tổng thể. • Trong trường hợp này, ta có thể sử dụng biểu đồ tỷ lệ để biểu diễn các nhóm thành các phần riêng biệt, mà mỗi phần đại diện cho một tỷ lệ của tổng thể. 2
- 1. Một số dạng biểu đồ trực quan tỷ lệ đơn giản • Hai dạng biểu đồ tỷ lệ đơn giản và thường gặp nhất: • Biểu đồ tròn (pie chart) • Biểu đồ thanh chồng (stacked chart). • Một số dạng biểu đồ tỷ lệ phức tạp hơn, sử dụng phương thức lồng ghép biến phân loại này trong biến phân loại kia nhằm chia nhỏ tập dữ liệu và có thể phân tích theo nhiều biến phân loại cùng một lúc sẽ được trình bày trong mục 2 (Trực quan tỷ lệ với nhiều biến phân loại). 3
- Biểu đồ tròn (pie chart) • Biểu đồ tròn chia một vòng tròn thành các phần, sao cho diện tích của mỗi phần tỷ lệ với giá trị mà nó biểu thị. • Biểu đồ tròn phù hợp cho tập dữ liệu sử dụng một biến phân loại, với số lượng từ 3-4 nhóm (Hình 1). Hình 1. Nguồn nhân lực KH&CN tại TP.HCM năm 2018 theo trình độ chuyên môn (Nguồn dữ liệu: Cục Thông tin KH&CN Quốc gia, 2020) 4
- Biểu đồ thanh đơn • Biểu đồ tròn không phù hợp nếu số lượng nhóm trong một biến phân loại quá nhiều, hoặc tỷ lệ giữa các biến phân loại xấp xỉ bằng nhau. • Trong Hình 2a, nếu không có số liệu cụ thể trên biểu đồ, rất khó để xác định sự chênh lệch giữa các nhóm tuổi từ 20 đến 49. • Ngoài ra, với 16 màu cũng khiến biểu đồ mất tính trực quan. • Trong tình huống này, ta nên bổ sung thêm biểu đồ thanh đơn để so sánh sự chênh lệch về độ lớn (Hình 2b). Hình 2 5
- Biểu đồ thanh đơn Hình 2. Dân số TP.HCM năm 2019 chia theo nhóm tuổi, được trực quan bằng biểu đồ tròn và biểu đồ thanh (Nguồn dữ liệu: Cục thống kê TP.HCM, 2020) 6
- Biểu đồ thanh chồng và biểu đồ thanh chồng 100 % (stacked chart, 100% stacked chart) • Thay vì chia dữ liệu thành các phần trong vòng tròn, ta có thể sử dụng biểu đồ thanh chồng để biểu diễn tỷ lệ của từng nhóm dữ liệu so với tổng thể. • Biểu đồ thanh chồng là một dạng đặc biệt, có thể trực quan dữ liệu theo độ lớn và theo hình dạng tỷ lệ (Hình 3). Hình 3. 7
- Biểu đồ thanh chồng và biểu đồ thanh chồng 100 % (stacked chart, 100% stacked chart) Hình 3. Nguồn nhân lực KH&CN tại TP.HCM năm 2018 theo trình độ chuyên môn được biểu diễn bằng biểu đồ thanh chồng (Nguồn dữ liệu: Cục Thông tin KH&CN Quốc gia, 2020) 8
- Biểu đồ thanh chồng và biểu đồ thanh chồng 100 % • Ngoài ra, trong trường hợp ta muốn tổng hợp nhiều biểu đồ tròn riêng lẻ (Hình 4) thành một biểu đồ chung nhất mà không làm thay đổi tỷ lệ % của từng nhóm Hình 4. Nguồn nhân lực tại TP.HCM qua 3 đợt tổng điều tra dân số chia theo trình độ chuyên môn được biểu diễn bằng 3 biểu đồ tròn tương ứng với từng đợt (Nguồn dữ liệu: Cục thống kê TP.HCM, 2020) 9
- Biểu đồ thanh chồng và biểu đồ thanh chồng 100% • Ta có thể sử dụng biểu đồ thanh chồng 100% như Hình 5 để so sánh sự thay đổi về tỷ lệ của từng phần trong tổng thể. Hình 5. Nguồn nhân lực tại TP.HCM qua 3 đợt tổng điều tra dân số chia theo trình độ chuyên môn được biểu diễn biểu đồ thanh chồng 100% (Nguồn dữ liệu: Cục thống kê TP.HCM, 2020) • Có thể thấy tỷ lệ nhân lực trình độ Tiến sĩ không thay đổi nhiều ở cả 3 năm. Tuy nhiên, tỷ lệ nhân lực trình độ Đại học có xu hướng giảm, còn tỷ lệ nhân lực trình độ Thạc sĩ và Cao đẳng đang có chiều hướng tăng dần. 10
- Biểu đồ thanh chồng và biểu đồ thanh chồng 100% • Giống với biểu đồ tròn, biểu đồ thanh chồng 100% cũng nên sử dụng cho bộ dữ liệu có từ 3-4 nhóm cho biến phân loại dùng để biểu diễn tỷ lệ. • Khi số lượng nhóm trong biến này tăng lên, hoặc giá trị giữa các nhóm xấp xỉ bằng nhau, việc dùng biểu đồ thanh chồng 100% để so sánh không mang lại hiệu quả trực quan cho người xem (Hình 6). • Thay vào đó, để so sánh riêng số lượng theo độ tuổi trong từng nhóm, chẳng hạn như nhóm “Có vợ/chồng”, ta có thể bổ sung thêm biểu đồ thanh đơn để phân tích chi tiết hơn. Hình 6. 11
- Hình 6. Dân số TP.HCM năm 2019 chia theo nhóm tuổi và chia theo tình trạng hôn nhân, được trực quan bằng biểu đồ thanh chồng 100% (Nguồn dữ liệu: Cục thống kê TP.HCM, 2020) 12
- Biểu đồ thanh chồng và biểu đồ thanh chồng 100% • Trong các ví dụ minh họa trực quan trên, mặc dù biểu đồ Bảng 1. Ưu và nhược điểm của 3 dạng biểu đồ thanh đơn không chỉ ra một khi biểu diễn tỷ lệ của dữ liệu cách trực quan mối quan hệ giữa từng nhóm đối với tổng số, nhưng ta có thể sử dụng nó như một biểu đồ bổ sung khi biểu đồ tròn và biểu đồ thanh chồng 100% bị hạn chế về khả năng so sánh giữa các nhóm trong biến phân loại. • Wike (2019) đã tóm tắt các ưu và nhược điểm khác nhau của biểu đồ tròn, biểu đồ thanh chồng 100% và biểu đồ thanh đơn trong tài liệu “Các nguyên tắc cơ bản về trực quan hóa dữ liệu” (Bảng 1). 13
- Biểu đồ thanh chồng và biểu đồ thanh chồng 100% Bảng 1. Ưu và nhược điểm của 3 dạng biểu đồ khi biểu diễn tỷ lệ của dữ liệu Nguồn: Fundamentals of Data Visualization (Wike, 2019) 14
- 2. Trực quan tỷ lệ với nhiều biến phân loại • Trong nhiều trường hợp phân tích, ta muốn đi sâu hơn và chia nhỏ tập dữ liệu theo nhiều biến phân loại cùng một lúc. • Chẳng hạn với tập dữ liệu về giới tính (Nam/Nữ) của các nhân viên trong một công ty, ta muốn tiếp tục phân tích cụ thể số lượng người chia theo trình độ chuyên môn trong mỗi giới tính. • Các trường hợp này được gọi là tỷ lệ lồng nhau, vì mỗi biến phân loại bổ sung vào sẽ tạo ra một phần nhỏ hơn của dữ liệu được lồng trong các tỷ lệ trước đó. • Một số dạng biểu đồ được sử dụng để biểu diễn các tỷ lệ lồng nhau là: • biểu đồ sunburst • biểu đồ khảm (mosaic plots), • biểu đồ cây (treemaps) • biểu đồ tập hợp song song (parallel sets plot). 15
- Biểu đồ sunburst • Biểu đồ sunburst có thể xem là một dạng mở rộng của biểu đồ tròn (pie chart), được sử dụng để trực quan hóa tập dữ liệu phân cấp. • Thay vì chỉ biểu diễn một biến phân loại bằng một vòng tròn, biểu đồ sunburst sử dụng đồng thời nhiều dữ liệu phân loại theo thứ bậc, mỗi thứ bậc sẽ được biểu diễn bằng một vòng tròn đồng tâm. 16
- Biểu đồ sunburst • Với vòng tròn càng rộng, thứ bậc sẽ càng giảm, các lát trong có thể được tô màu để làm nổi bật thứ bậc hoặc danh mục muốn thể hiện (Hình 7). Hình 7. Phân bổ huy chương vàng tại Thế vận hội Olympic ở Sochi (2014) theo quốc gia và môn thể thao (Nguồn: www.anychart.com) 17
- Biểu đồ sunburst • Biểu đồ sunburst sử dụng bố cục xuyên tâm để tạo hình ảnh trực quan của tập dữ liệu được phân loại. • Nó cho thấy sự liên kết giữa các vòng tròn với nhau khi xử lý theo nhiều cấp độ. • Do đó, biểu đồ sunburst rất hiệu quả để giới thiệu cách một vòng tròn được tách thành các phần cấu thanh ra nó, cũng như cho thấy sự đóng góp của một thứ nguyên cụ thể trong hệ thống phân cấp đó. 18
- Biểu đồ sunburst • Tuy nhiên, trong trường hợp có quá nhiều phân cấp, cấu trúc xuyên tâm của biểu đồ sunburst chỉ có thể giúp xem tổng quan thông tin, khó quan sát chi tiết, khi các phân cấp trở trên chằng chịt và quá nhỏ (Hình 8). • Ngoài ra, đối với mắt người, việc hiểu các phép đọc góc là rất khó. Hình 8. Dân số Châu Âu (2014) theo khu vực và quốc gia (Đơn vị: triệu người; Nguồn: www.anychart.com) 19
- Biểu đồ khảm (mosaic plots) • Biểu đồ khảm (còn được gọi là biểu đồ marimekko) là một phương pháp trực quan hóa dữ liệu từ hai hoặc nhiều biến định tính. • Nó cung cấp cái nhìn tổng quan về dữ liệu và mối quan hệ giữa các biến khác nhau. • Cũng như biểu đồ thanh, diện tích của các ô tỷ lệ thuận với số lượng quan sát trong danh mục đó. Hình 9. • Biểu đồ khảm nhìn tương tự như biểu đồ thanh chồng, nhưng thay vì các thanh cùng độ rộng, biểu đồ khảm có chiều rộng tỷ lệ với khối lượng dữ liệu. 20

CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Soạn thảo văn bản với MS Word
118 p |
209 |
40
-
TRÌNH BÀY DỮ LIỆU BẰNG BIỂU ĐỒ
6 p |
254 |
37
-
Bài giảng Đa phương tiện và các ứng dụng giải trí - Chương 2: Một số kiến thức cơ bản
33 p |
114 |
19
-
Bài giảng Đa phương tiện và các ứng dụng giải trí: Chương 2 - ThS. Lê Tấn Hùng
33 p |
65 |
8
-
Bài giảng Học sâu và ứng dụng - Bài 10: Đại học Bách khoa Hà Nội (Phần 1)
49 p |
29 |
6
-
Bài giảng Cơ sở dữ liệu (Database): Chương 7 - TS. Đặng Thị Thu Hiền
28 p |
40 |
6
-
Bài giảng Nhập môn lập trình khoa học dữ liệu: Bài 8 - Trương Xuân Nam
41 p |
20 |
6
-
Bài giảng Tin học đại cương: Bài 6 - Kiểu dữ liệu và biểu thức trong C
32 p |
128 |
6
-
Bài giảng Cơ sở dữ liệu nâng cao: Chương 4 - ThS.Văn Như Bích B & ThS. Võ Hoàng Khang
65 p |
76 |
6
-
Bài giảng Học sâu và ứng dụng: Bài 10 - ĐH Bách khoa Hà Nội
49 p |
41 |
5
-
Bài giảng Lý thuyết nhận dạng - Một số kỹ thuật trong lý thuyết nhận dạng (tiếp)
76 p |
47 |
5
-
Bài giảng Cơ sở lập trình nâng cao - Chương 10:Tối ưu hóa chương trình
50 p |
29 |
4
-
Bài giảng Cơ sở dữ liệu - Chương 8: Tối ưu truy vấn
21 p |
79 |
4
-
Bài giảng Đồ thị và cây
174 p |
41 |
4
-
Bài giảng Nhập môn lập trình - Bài 5: Biểu diễn thông tin bên trong MTĐT
47 p |
68 |
3
-
Bài giảng Tin học đại cương: Chương 1 - Đặng Xuân Hà
10 p |
94 |
2
-
Bài giảng Một số dạng biểu đồ thể hiện độ lớn của dữ liệu
27 p |
2 |
0


Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn
