intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Một số dạng biểu đồ thể hiện độ lớn của dữ liệu

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:27

3
lượt xem
0
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng "Một số dạng biểu đồ thể hiện độ lớn của dữ liệu" tập trung giới thiệu các loại biểu đồ phổ biến được sử dụng để biểu diễn quy mô, mức độ hoặc tỷ lệ của dữ liệu định lượng, như: biểu đồ cột (column chart), biểu đồ thanh ngang (bar chart), biểu đồ tròn (pie chart) và một số dạng biểu đồ khác hỗ trợ so sánh trực quan.

Chủ đề:
Lưu

Nội dung Text: Bài giảng Một số dạng biểu đồ thể hiện độ lớn của dữ liệu

  1. MỘT SỐ DẠNG BIỂU ĐỒ THỂ HIỆN ĐỘ LỚN CỦA DỮ LIỆU 1
  2. Giới thiệu • Trong quá trình phân tích, một số trường hợp ta cần quan tâm đến sự khác biệt về độ lớn giữa các nhóm, chẳng hạn như sự khác biệt về dân số ở các thành phố khác nhau hoặc chênh lệch doanh thu của các nhãn hiệu ô tô khác nhau. • Khi đó, trực quan bằng loại biểu đồ phù hợp sẽ giúp diễn giải kết quả một cách rõ ràng hơn. • Theo tài liệu “Các nguyên tắc cơ bản về trực quan hóa dữ liệu”, ba dạng biểu đồ thường được sử dụng để biểu diễn độ lớn của dữ liệu là: • biểu đồ thanh, • biểu đồ điểm • bản đồ nhiệt. 2
  3. 1. Biểu đồ thanh • Biểu đồ thanh trình bày một cách trực quan dữ liệu phân loại [1] với các thanh hình chữ nhật có chiều cao hoặc chiều dài tỷ lệ với các giá trị mà chúng đại diện. Các thanh có thể được vẽ theo chiều dọc hoặc chiều ngang. • Để phân biệt 2 hình dạng này, phần lớn tài liệu/phần mềm trực quan quy ước biểu đồ thanh dọc là Column Chart, biểu đồ thanh ngang là Bar Chart. • Có 3 kiểu biểu đồ thanh thường gặp: • biểu đồ thanh đơn áp dụng cho một biến phân loại • biểu đồ thanh nhóm (clustered) và biểu đồ thanh xếp chồng (stacked) áp dụng cho hai biến phân loại. [1] Dữ liệu phân loại (categorical data) là một nhóm dữ liệu/danh mục (thường là dữ liệu định tính) được phân chia thành các nhóm rời rạc, chẳng hạn như các tháng trong năm, nhóm tuổi, quốc gia, động vật, … 3
  4. Biểu đồ thanh đơn • Biểu đồ thanh đơn được sử dụng khi chỉ có 1 biến phân loại, mỗi thanh sẽ đại diện cho một nhóm cụ thể, chiều cao hoặc độ dài của mỗi thanh tỷ lệ với tổng các giá trị trong nhóm mà nó đại diện. • Hình 1 biểu diễn 10 quận/huyện có số dân cao nhất trên địa bàn TP.HCM năm 2019 theo 2 hình dạng biểu đồ thanh dọc (a) và thanh ngang (b). Hình 1. 10 quận/huyện có dân số cao nhất trên địa bàn TP.HCM năm 2019, được trực quan bằng 4 2 dạng biểu đồ thanh
  5. Biểu đồ thanh đơn • Bất kể biểu đồ dọc hay ngang, ta đều cần chú ý đến thứ tự sắp xếp các thanh. • Một số phần mềm vẽ biểu đồ có thể sắp xếp mặc định các thanh theo thứ tự bảng chữ cái, theo độ cao hoặc độ dài thanh. • Nhưng để biểu đồ trực quan cho người xem, các thanh nên được sắp xếp tương ứng theo tính chất của biến phân loại mà nó thể hiện: • Biến phân loại mang tính rời rạc (ví dụ như quốc gia, thành phố, quận/huyện, …) • Biến phân loại mang tính liên tục hay có thứ tự (ví dụ như theo chuỗi thời gian, theo độ tuổi, theo kích thước, …) 5
  6. Biểu đồ thanh đơn • Biến phân loại mang tính rời rạc (ví dụ như quốc gia, thành phố, quận/huyện, …): • biểu đồ thanh nên được sắp xếp theo độ lớn thanh từ cao đến thấp (đối với Column Chart) hay từ dài đến ngắn (đối với Bar Chart) (Hình 1). Hình 1. 10 quận/huyện có dân số cao nhất trên địa bàn TP.HCM năm 2019, được trực quan bằng 2 dạng biểu đồ thanh 6
  7. Biểu đồ thanh đơn • Biến phân loại mang tính liên tục hay có thứ tự (ví dụ như theo chuỗi thời gian, theo độ tuổi, theo kích thước, …): • Ví dụ trong Hình 2 về “Dân số TP.HCM năm 2019 chia theo nhóm tuổi” cho thấy, việc sắp xếp theo chiều cao thanh trong khi xáo trộn các nhóm tuổi không mang lại nhiều ý nghĩa, khiến người xem khó định hình và dễ gây nhầm lẫn (Hình 2b). Hình 2. Dân số TP.HCM năm 2019 chia theo nhóm tuổi (Nguồn dữ liệu: Cục thống kê TP.HCM, 7 2020)
  8. Biểu đồ thanh đơn • Biểu đồ thanh thường được các phần mềm trực quan chia tỷ lệ tự động để tất cả dữ liệu hiển thị một cách hài hòa. • Tuy nhiên, một số tình huống liên quan đến tính thẩm mỹ của biểu đồ như tên các nhóm phân loại quá dài trong khi bề ngang có giới hạn khiến phần mềm tự động xoay tên nhóm nằm nghiêng, gây cảm giác khó đọc cho người xem và chiếm nhiều diện tích hiển thị bên dưới biểu đồ (Hình 3). • Giải pháp cho vấn đề này là chuyển dạng Column Chart về dạng Bar Chart như Hình 1b. Hình 3 Hình 1.b 8
  9. Biểu đồ thanh đơn Hình 3. 10 quận/huyện có dân số cao nhất trên địa bàn TP.HCM năm 2019 với biến phân loại quận/huyện không đạt tính thẩm mỹ (Nguồn dữ liệu: Cục thống kê TP.HCM, 2020) 9
  10. Biểu đồ thanh nhóm (clustered) • Biểu đồ thanh nhóm được sử dụng để biểu diễn cùng lúc 2 biến phân loại trong một tập dữ liệu. Trong đó, các nhóm của một biến phân loại được đặt cách đều dọc theo trục x, toàn bộ nhóm thuộc biến phân loại còn lại được đặt liền kề với nhau trong từng nhóm của biến phân loại trước. • Chẳng hạn trong bộ dữ liệu tình trạng hôn nhân của những người trên 15 đến dưới 50 tuổi từ nguồn Tổng điều tra dân số tại TP.HCM năm 2019, ta có 2 biến phân loại là • “Tình trạng hôn nhân” (rời rạc) • “Nhóm tuổi” (liên tục): 10
  11. Biểu đồ thanh nhóm (clustered) • Trong Hình 4a, nhóm tuổi được hiển thị dọc theo trục x, đối với mỗi nhóm tuổi có 4 thanh tương ứng với tình trạng hôn nhân. Biến “Tình trạng hôn nhân” mang tính rời rạc nên màu sắc được sử dụng theo thang màu định tính. • Trong Hình 4b, tình trạng hôn nhân được hiển thị dọc theo trục x, đối với mỗi tình trạng hôn nhân có 7 thanh tương ứng với nhóm tuổi. Biến “Nhóm tuổi” mang tính liên tục nên màu sắc được sử dụng theo thang màu tuần tự. Hình 4. Dân số TP.HCM năm 2019 chia theo nhóm tuổi và chia theo tình trạng hôn nhân, được trực quan bằng biểu đồ thanh nhóm (Nguồn dữ liệu: Cục thống kê TP.HCM, 2020) 11
  12. Biểu đồ thanh nhóm (clustered) • Có thể thấy, Hình 4a sẽ phù hợp để xác định sự chênh lệch giữa các tình trạng hôn nhân trong một nhóm tuổi, nhưng rất khó để so sánh số lượng giữa các nhóm tuổi cho một nhóm tình trạng hôn nhân nhất định. • Ngược lại, Hình 4b có thể giải quyết được nhược điểm trên, tuy nhiên, do đến 7 nhóm tuổi nên 12 rất khó để xác định nhanh nhóm tuổi nào chiếm số lượng lớn nhất.
  13. • Do đó, trong trường hợp có quá nhiều nhãn trong biến phân loại, ta nên chuyển từ biểu đồ nhóm thành các biểu đồ thanh đơn để diễn giải kết quả một cách trực quan hơn (Hình 5). Hình 5. Dân số TP.HCM năm 2019 chia theo nhóm tuổi và chia theo tình trạng hôn nhân, được trực quan bằng biểu đồ thanh đơn (Nguồn dữ liệu: Cục thống kê TP.HCM, 2020) 13
  14. 14
  15. Biểu đồ thanh chồng (stacked) • Biểu đồ thanh chồng cũng được sử dụng để biểu diễn cùng lúc 2 biến phân loại trong một tập dữ liệu. • Khác với biểu đồ thanh nhóm có các thanh đặt liền kề nhau, biểu đồ thanh chồng đặt các thanh xếp chồng lên nhau (Hình 6). Hình 6 15
  16. Biểu đồ thanh chồng (stacked) Hình 6. Dân số TP.HCM năm 2019 chia theo nhóm tuổi và chia theo tình trạng hôn nhân, được trực quan bằng biểu đồ thanh chồng (Nguồn dữ liệu: Cục thống kê TP.HCM, 2020) 16
  17. Biểu đồ thanh chồng (stacked) • Ngoài ra, biểu đồ thanh chồng có thể được trực quan theo tỷ lệ % của mỗi giá trị trên tổng số trong từng nhóm, được gọi là biểu đồ thanh chồng 100% (100% stacked chart). • Biểu đồ thanh chồng phù hợp với mục đích so sánh tổng giá trị giữa các nhóm • Ví dụ: • Hình 6a, so sánh tổng số người theo từng nhóm tuổi), nhưng đôi khi khó đạt sự phân biệt khi muốn so sánh các giá trị khác nhau trong cùng một nhóm • Hình 6b, độ dài các thanh ở nhóm “Có vợ/chồng” chia theo từng nhóm tuổi có độ dài gần như xấp xỉ bằng nhau. 17
  18. 2. Biểu đồ điểm • Biểu đồ điểm sử dụng dấu chấm để biểu diễn vị trí của các giá trị dữ liệu. Biểu đồ điểm được sử dụng phổ biến để biểu diễn phân phối của một biến liên tục hay sự phân cụm trong một tập dữ liệu. • Trong biểu diễn độ lớn của dữ liệu, biểu đồ thanh phải bắt đầu từ giá trị 0 để chiều dài thanh tỷ lệ với số lượng hiển thị. • Tuy nhiên, với một số bộ dữ liệu, các thanh đôi khi quá dài và tất cả chúng đều có chiều dài gần như nhau, khiến biểu đồ không truyền tải được ý nghĩa (Hình 7). • Do đó, biểu đồ điểm được sử dụng để thay thế biểu đồ thanh trong tình huống này. 18
  19. 2. Biểu đồ điểm • Canada có tuổi thọ trung bình cao nhất trong số tất cả các quốc gia được liệt Hình 7. kê, còn Bolivia và Haiti có Tuổi thọ tuổi thọ trung bình thấp trung bình hơn nhiều so với tất cả các các quốc quốc gia khác. gia châu Mỹ năm • Ngoài ra, sự chênh lệch 2007, được tuổi thọ trung bình giữa trực quan các quốc gia như Jamaica, bằng biểu Brazil, Dominican đồ thanh Republic cũng hiển thị rõ (Wike, ràng và dễ nhận biết hơn 2019) so với biểu đồ thanh trong Hình 7. 19
  20. 2. Biểu đồ điểm • Bằng cách sử dụng biểu đồ điểm, ta có thể giới hạn phạm vi trục trong khoảng từ 60 đến 81 tuổi để biểu diễn rõ ràng hơn ý nghĩa của tập dữ liệu (Hình 8). • Hình 8. Tuổi thọ trung bình các quốc gia châu Mỹ năm 2007, được trực quan bằng biểu đồ điểm (Wike, 2019) 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
3=>0