
Bài giảng Tổng quan về biểu đồ
lượt xem 0
download

Bài giảng "Tổng quan về biểu đồ" trình bày các nội dung chính sau đây: Tổng quan về biểu đồ; màu sắc trên biểu đồ; những lưu ý khi xây dựng biểu đồ; một số công cụ phổ biến cho trực quan hóa dữ liệu. Mời các bạn cùng tham khảo!
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Tổng quan về biểu đồ
- TỔNG QUAN VỀ BIỂU ĐỒ
- 1. Tổng quan về biểu đồ • Trong hoạt động thống kê và phân tích dữ liệu, trực quan kết quả phân tích dưới dạng đồ họa thông tin, biểu đồ, sơ đồ, hình ảnh,… là phương thức trình bày rất phổ biến nhằm diễn giải số liệu dễ hiểu cho người xem. • Phần này sẽ trình bày phương thức trực quan dữ liệu dưới dạng biểu đồ cùng với các dạng biểu đồ thường gặp trong phân tích dữ liệu. • Trực quan hóa dữ liệu là một phương thức biểu diễn trực quan của dữ liệu. Trực quan hóa dữ liệu có thể cho biết tổng quan về mẫu nghiên cứu, các xu hướng, các giá trị ngoại lệ và mối tương quan trong dữ liệu. • Bên cạnh đó, trực quan hóa dữ liệu cũng giúp người phân tích và những người ra quyết định dễ dàng hiểu được ý nghĩa của dữ liệu để thúc đẩy các quyết định trong kinh doanh và quản lý. • Phương thức phổ biến nhất làm cho dữ liệu trở nên trực quan là thông qua biểu đồ.
- 1. Tổng quan về biểu đồ • Hầu hết các ấn phẩm, đề tài, báo cáo nghiên cứu khoa học hay các tin tức hàng ngày đều ít nhiều sử dụng biểu đồ để diễn giải thông tin, giúp người đọc dễ hiểu hơn. • Mỗi dạng biểu đồ được sử dụng để biểu diễn thông tin mà nó mang lại. • Với các loại dữ liệu khác nhau thì biểu đồ thể hiện cũng sẽ khác nhau. • Một số dạng biểu đồ thường gặp như: biểu đồ thanh (bar chart), biểu đồ đường (line chart), biểu đồ tròn (pie chart), biểu đồ bong bóng (bubble chart), biểu đồ đám mây chữ (wordcloud), biểu đồ nhiệt (heat map), …(Hình 1).
- Tổng quan về biểu đồ Hình 1. Ví dụ một số dạng biểu đồ được sử dụng để trực quan hóa dữ liệu
- Tính thẩm mỹ trong biểu đồ • Trong Hình 1, có thể thấy bên cạnh kiểu biểu đồ, phần dữ liệu trong mỗi biểu đồ được biểu diễn qua màu sắc và hình dạng. • Wike (2019) đã mô tả những hình ảnh trực quan hóa dữ liệu này bằng từ Aesthetics (tính thẩm mỹ) trong tài liệu Fundamentals of Data Visualization (Các nguyên tắc cơ bản về trực quan hóa dữ liệu). • Aesthetics mô tả mọi khía cạnh của một phần tử đồ họa nhất định, thường được sử dụng trong trực quan hóa dữ liệu nhằm thể hiện vị trí (position), hình dạng (shape), kích thước (size), màu sắc (color), độ rộng đường (line width), kiểu đường (line type) (Hình 2).
- Tính thẩm mỹ trong biểu đồ Hình 2. Tính thẩm mỹ (aesthetics) trong trực quan hóa dữ liệu (Wike, 2019)
- Tính thẩm mỹ trong biểu đồ • Aesthetics có thể đại diện cho cả dữ liệu liên tục và dữ liệu rời rạc như: vị trí, kích thước, độ rộng đường, màu sắc, hình dạng, kiểu đường [1]. • Giá trị dữ liệu liên tục là giá trị tồn tại các giá trị trung gian nhỏ tùy ý như khoảng thời gian (giữa hai khoảng thời gian bất kỳ, chẳng hạn 50 giây và 51 giây, có rất nhiều thời lượng trung gian tùy ý, chẳng hạn như 50,5 giây; 50,51 giây; 50,50001 giây; …). • Ngược lại, số người trong một căn phòng là một giá trị rời rạc (Một phòng có thể chứa 5 người hoặc 6 người, nhưng không được 5,5). • Tuy nhiên, dữ liệu không chỉ thể hiện qua các giá trị số liên tục và rời rạc mà còn có thể ở dạng các danh mục (categories), ngày giờ và dưới dạng văn bản.
- Tính thẩm mỹ trong biểu đồ • Dữ liệu dưới dạng số (numerical) được gọi là định lượng (quantitative) và khi ở dạng phân loại (categories) được gọi là định tính (qualitative). • Để gán giá trị của dữ liệu vào các dạng Aesthetics, cần phải chỉ định các giá trị dữ liệu tương ứng với các giá trị Aesthetics. • Chẳng hạn với biểu đồ có trục hoành x, cần chỉ định giá trị dữ liệu đặt vào các vị trí cụ thể dọc theo trục này. • Tương tự, cần chỉ định giá trị dữ liệu nào được biểu thị bằng các hình dạng hoặc màu sắc cụ thể. • Ánh xạ này giữa các giá trị dữ liệu và giá trị Aesthetics được tạo ra thông qua các thang đo. • Đối với mỗi thang đo, mỗi số tương ứng với một vị trí, hình dạng hoặc màu sắc duy nhất và ngược lại.
- Tính thẩm mỹ trong biểu đồ • Hình 3 minh họa cho thấy các số từ 1 đến 4 được ánh xạ vào thang vị trí, hình dạng và màu sắc. Hình 3. Thang đo gán giá trị của dữ liệu tương ứng với loại aesthetics khác nhau (Wike, 2019)
- Hệ trục tọa độ • Trong Hình 1, phần lớn các biểu đồ đều có 2 trục nhằm xác định vị trí của các giá trị dữ liệu khác nhau. Với biểu đồ 2D, thang đo vị trí sẽ có 2 giá trị (thông thường là x và y), biểu đồ 3D sẽ có thêm 1 giá trị (thường là z). • Sự kết hợp của một tập hợp các thang đo vị trí và sự sắp xếp hình học tương đối của chúng được gọi là một hệ trục Hình 1. Ví dụ một số dạng biểu đồ được sử dụng để trực quan hóa dữ liệu tọa độ.
- 2. Màu sắc trên biểu đồ • Theo tài liệu Các nguyên tắc cơ bản về trực quan hóa dữ liệu, có 3 trường hợp cơ bản khi sử dụng màu sắc cho trực quan dữ liệu là: thể hiện sự phân nhóm dữ liệu định danh, thể hiện giá trị của dữ liệu và thể hiện sự nổi bật của dữ liệu. • Màu sắc thể hiện sự phân nhóm dữ liệu định danh • Màu sắc theo thang định tính (qualitative color scale) được dùng để thể hiện sự phân biệt các nhóm rời rạc không có trật tự nội tại, chẳng hạn như các quốc gia khác nhau hoặc các nhà sản xuất khác nhau của một sản phẩm nhất định. • Theo nguyên tắc, thang đo này là một tập hợp hữu hạn các màu cụ thể được chọn; màu sắc vừa phải thể hiện rõ sự khác biệt với nhau và vừa đồng thời tương đương nhau; không có một màu nào phải nổi bật so với các màu khác; các màu không được theo một thứ tự như chuỗi các màu nhạt dần hay đậm dần (Hình 4).
- 2. Màu sắc trên biểu đồ Hình 4. 3 ví dụ về màu sắc theo thang màu định tính (Wike, 2019)
- 2. Màu sắc trên biểu đồ • Ví dụ trong Hình 5 cho thấy màu sắc được sử dụng để phân biệt theo khu vực địa lý về mức tăng trưởng dân số từ năm 2000 đến năm 2010 ở các tiểu bang của Hoa Kỳ. • Màu sắc cho thấy, các bang ở cùng khu vực có mức tăng dân số tương tự nhau. • Các bang ở miền Tây (West) và miền Nam (South) có mức tăng dân số lớn nhất, trong khi các bang ở miền Trung Tây (Midwest) và Đông Bắc (Northeast) tăng ít hơn nhiều. Hình 5. Tăng trưởng dân số Hoa Kỳ từ năm 2000-2010 (Wike, 2019)
- Màu sắc thể hiện giá trị của dữ liệu • Thang màu tuần tự (sequential color scale) được sử dụng để biểu diễn các giá trị dữ liệu định lượng, chẳng hạn như thu nhập, nhiệt độ hoặc tốc độ,… • Thang đo này chứa một chuỗi các màu theo sắc độ (ví dụ, từ đỏ đậm đến vàng nhạt) hoặc có thể dựa trên một màu duy nhất cho biết rõ ràng giá trị nào lớn hơn hoặc nhỏ hơn giá trị nào khác và khoảng cách giữa hai giá Hình 6. 3 ví dụ về màu sắc theo thang màu tuần tự (Wike, 2019) trị cụ thể với nhau (Hình 6).
- 2. Màu sắc trên biểu đồ • Biểu diễn các giá trị dữ liệu dưới dạng màu sắc theo thang tuần tự đặc biệt hữu ích khi sử dụng với dữ liệu địa lý. • Trong trường hợp này, ta có thể vẽ bản đồ các vùng địa lý và tô màu chúng theo các giá trị dữ liệu. • Những bản đồ như vậy được gọi là choropleth. • Hình 7 thể hiện phổ màu theo nhiệt độ trung bình tại Việt Nam từ năm 1991-2020. • Mặc dù phổ màu chung biến đổi từ xanh dương (-50oC) đến tím (50oC), nhưng do thuộc vùng khí hậu nhiệt đới nên phổ màu nhiệt độ trung bình tại Việt Nam chỉ nằm trong khoảng từ cam nhạt đến cam đậm (~20oC - 30oC)
- 2. Màu sắc trên biểu đồ Hình 7. Nhiệt độ trung bình tại Việt Nam từ năm 1991- 2020 (Nguồn: World Bank Group)
- Màu sắc thể hiện sự nổi bật của dữ liệu • Màu sắc cũng là một công cụ hữu hiệu để làm nổi bật các yếu tố cụ thể trong dữ liệu. • Một số danh mục hoặc giá trị trong tập dữ liệu mang thông tin chính về nội dung cần trình bày. • Khi đó, cần một màu hoặc một tập hợp các màu làm nổi bật thông tin đó hơn so với phần dữ liệu còn lại. • Hiệu ứng này có thể đạt được với thang màu nhấn (accent color scale), là những thang màu chứa cả tập hợp các màu dịu và tập hợp các màu mạnh hơn, tối hơn hoặc bão hòa hơn (Hình 8). Hình 8. 3 ví dụ về màu sắc theo thang màu nhấn (Wike, 2019)
- 2. Màu sắc trên biểu đồ • Khi sử dụng thang màu nhấn, cần chú ý không để các màu cơ bản gây sự chú ý. • Một trong những cách hiệu quả nhất để vừa làm nổi bật thông tin cần gây chú ý, vừa giúp làm giảm sự tập trung vào các dữ liệu phụ, là loại bỏ tất cả màu khỏi các phần tử trong hình, ngoại trừ danh mục hoặc điểm dữ liệu cần nổi bật. • Hình 9 biểu diễn dữ liệu cân nặng và chiều cao của các vận động viên theo các môn thể thao phổ biến. • Có thể thấy, vận động viên điền kinh thuộc nhóm lùn và gầy nhất trong số các vận động viên chuyên nghiệp tham gia các môn thể thao phổ biến.
- 2. Màu sắc trên biểu đồ Hình 9. Thông tin về chiều cao và cân nặng các vận động viên theo các môn thể thao (Wike, 2019)
- 3. Những lưu ý khi xây dựng biểu đồ • Mặc dù không có quy chuẩn đối với việc xây dựng các biểu đồ trực quan, tuy nhiên, để người xem có thể hiểu rõ thông tin, cần lưu ý đến tính thẩm mỹ, màu sắc, cũng như thông tin số liệu hiển thị trên các biểu đồ. • Theo Wike (2019), có 3 kiểu thiết kế biểu đồ cần tránh: • Xấu (Ugly): rõ ràng, đủ thông tin nhưng thiếu tính thẩm mỹ; • Tệ (Bad): đạt tính thẩm mỹ nhưng nhận thức không đúng, cấu trúc biểu đồ không rõ ràng, gây khó hiểu cho người xem; • Sai (Wrong): đạt tính thẩm mỹ nhưng thiếu thông tin số liệu hoặc sai về mặt toán học.

CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Phân tích và thiết kế hệ thống hướng đối tượng - Nguyễn Thanh Bình
184 p |
553 |
157
-
Bài giảng môn học Nhập môn công nghệ thông tin 1: Kiến thức cơ sở - ĐH hoa học tự nhiên TP.HCM
16 p |
444 |
56
-
Bài giảng Lập trình C - ThS. Nguyễn Thị Thúy Loan
68 p |
212 |
36
-
Bài giảng Cấu trúc dữ liệu và giải thuật: Chương 1 - ĐH Công nghệ Đồng Nai
41 p |
211 |
23
-
Bài giảng Tin học đại cương: Hệ xử lý bảng tính điện tử Microsoft Excel - TS. Đỗ Quang Vinh
170 p |
154 |
19
-
Bài giảng Lập trình căn bản: Giới thiệu môn học - Võ Duy Tín
17 p |
126 |
14
-
Bài giảng Đồ họa máy tính: Giới thiệu đồ họa 3 chiều - TS. Đào Nam Anh
54 p |
116 |
12
-
Bài giảng Lập trình hướng đối tượng - Bài 10: Biểu đồ use case và biểu đồ hoạt động
0 p |
148 |
11
-
Bài giảng Công nghệ phần mềm: Tổng quan về kiểm thử và đảm bảo chất lượng phần mềm - PGS. TS. Phạm Ngọc Hùng
32 p |
19 |
8
-
Bài giảng Lập trình hướng đối tượng - Bài 13: Tổng quan về UML
92 p |
82 |
5
-
Bài giảng Lập trình hướng đối tượng: Bài 13 - ThS. Trịnh Thành Trung
92 p |
54 |
5
-
Bài giảng Lesson 1: Kỹ thuật đồ họa và hiện thực ảo
11 p |
110 |
4
-
Bài giảng Tổng quan về tin học - Võ Đức Hoàng
56 p |
38 |
3
-
Bài giảng Cấu trúc dữ liệu và giải thuật: Chương 1 - Đỗ Ngọc Như Loan
31 p |
43 |
2
-
Bài giảng Lập trình hướng đối tượng: Bài 10 - Nguyễn Khanh Văn
0 p |
66 |
2
-
Bài giảng Tổng quan về trực quan hóa dữ liệu
65 p |
2 |
0
-
Bài giảng Trực quan hóa: Chương 3 - ThS. Đỗ Hoàng Nam
24 p |
1 |
0


Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn
