intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Tổng quan về trực quan hóa dữ liệu

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:65

8
lượt xem
1
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng "Tổng quan về trực quan hóa dữ liệu" đề cập đến các loại biểu đồ phổ biến, nguyên tắc thiết kế trực quan hóa hiệu quả, cũng như các công cụ thường dùng như Excel, Tableau, Power BI, và Python. Đây là nền tảng quan trọng cho người học trong lĩnh vực phân tích dữ liệu, khoa học dữ liệu, kinh doanh thông minh và bất kỳ ai cần truyền đạt thông tin từ dữ liệu một cách rõ ràng, thuyết phục.

Chủ đề:
Lưu

Nội dung Text: Bài giảng Tổng quan về trực quan hóa dữ liệu

  1. TỔNG QUAN VỀ TRỰC QUAN HÓA DỮ LIỆU
  2. GIỚI THIỆU Trực quan hóa dữ liệu là gì? • Trực quan hóa dữ liệu (Data visualization) là phương pháp không chỉ là bước quan trọng của bất kỳ quy trình phân tích hay khai phá dữ liệu mà nó còn là công cụ được sử dụng phổ biến và rộng rãi: • Ở mọi tổ chức thuộc mọi lĩnh vực • Hay bởi mỗi một ai trong chúng ta. • Với mục đích đơn giản là truyền đạt, trình bày một cách hiệu quả, đơn giản, thu hút những thông tin, dữ liệu đến người đọc, người xem.
  3. GIỚI THIỆU Khái niệm • Trực quan hóa dữ liệu đề cập đến các kỹ thuật được sử dụng để truyền đạt dữ liệu hoặc thông tin bằng cách thể hiện nó dưới đồ thị, biểu đồ trực quan (theo Wikipedia). • Trực quan hóa dữ liệu là quá trình hiển thị dữ liệu hoặc thông tin dưới dạng biểu đồ, đồ thị, v.v (Theo Techopedia) • Trực quan hóa dữ liệu là việc tạo ra các biểu đồ, đồ thị, v.v. hay sử dụng các phương pháp, công cụ khác nhau để trực quan hóa dữ liệu. Mục đích là biến các nguồn dữ liệu thành những thông tin được thể hiện một cách trực quan, dễ quan sát, dễ hiểu, để truyền đạt rõ ràng những hiểu biết đầy đủ (insights) từ dữ liệu đến người xem, người đọc.
  4. GIỚI THIỆU • Trực quan hóa dữ liệu là một phần của nghệ thuật và một phần của khoa học dữ liệu. Thách thức đề ra là làm sao để có được một “tác phẩm” nghệ thuật mà không thể hiện sai lệch những chỉ dẫn trong khoa học dữ liệu và ngược lại. • Với trực quan hóa dữ liệu: • Đầu tiên và trước hết phải truyền tải đến người xem, người đọc chính xác không được đánh lạc hướng hoặc bóp méo thông tin, dữ liệu. • Tiếp đến, Trực quan hóa dữ liệu phải được thiết kế sao cho đem lại tính thẩm mỹ • Ví dụ: việc lựa chọn chính xác phương pháp trực quan, sự phối hợp hiệu quả màu sắc hay các yếu tố hình ảnh là cực kỳ quan trọng.
  5. GIỚI THIỆU • Trực quan hóa dữ liệu là một phần của nghệ thuật và một phần của khoa học dữ liệu. Thách thức đề ra là làm sao để có được một “tác phẩm” nghệ thuật mà không thể hiện sai lệch những chỉ dẫn trong khoa học dữ liệu và ngược lại. • Với trực quan hóa dữ liệu: ▪ Đầu tiên và trước hết phải truyền tải đến người xem, người đọc chính xác không được đánh lạc hướng hoặc bóp méo thông tin, dữ liệu. ▪ Tiếp đến, Trực quan hóa dữ liệu phải được thiết kế sao cho đem lại tính thẩm mỹ ✓ Ví dụ: việc lựa chọn chính xác phương pháp trực quan, sự phối hợp hiệu quả màu sắc hay các yếu tố hình ảnh là cực kỳ quan trọng.
  6. GIỚI THIỆU • Trực quan hóa dữ liệu thường được sử dụng sau khi có kết quả phân tích từ dữ liệu, tức có được thông tin trích xuất từ dữ liệu để trình bày cho người xem, người đọc. • Ngoài ra, Trực quan hóa dữ liệu có thể được sử dụng trước khi dữ liệu được đưa vào giai đoạn phân tích. • Ví dụ: Các chuyên gia muốn tìm hiểu trước về các biến dữ liệu, mối quan hệ giữa chúng là gì để suy nghĩ về các mô hình dự báo, họ có thể vẽ trước các đồ thị để xem xét. Đây có thể gọi là giai đoạn Data Exploration hoặc phương pháp tóm tắt trình bày dữ liệu trong Statistics. • Mặc dù, Trực quan hóa dữ liệu có được triển khai ở đầu hay cuối một dự án nghiên cứu dữ liệu thì nó không thể thiếu một giai đoạn cốt lõi, đó là giai đoạn chuẩn bị dữ liệu (Data preparation). Dữ liệu cần thiết phải được thu thập, phải được làm sạch, được chuyển đổi, được tổ chức, sắp xếp sao cho chúng đảm bảo chất lượng trước khi được trực quan hóa.
  7. GIỚI THIỆU Hiểu Trực quan hóa dữ liệu một cách đơn giản • Nói một cách đơn giản, đây là việc tạo ra các biểu đồ, đồ thị... hay sử dụng các phương pháp, công cụ khác nhau để trực quan hóa và minh họa dữ liệu được tốt nhất. • Mục đích là biến các nguồn dữ liệu thành những thông tin được thể hiện một cách trực quan, dễ quan sát, dễ hiểu, để truyền đạt rõ ràng những hiểu biết đầy đủ (insights) từ dữ liệu đến người xem, người đọc.
  8. GIỚI THIỆU Một số lợi ích của Trực quan hóa dữ liệu • Giúp việc chia sẻ thông tin dễ dàng và nhanh chóng, bỏ qua rào cản, hạn chế về ngôn ngữ, giúp người đọc, người nghe dễ quan sát, dễ tiếp thu. • Giúp chúng ta nắm bắt thông tin được thể hiện dưới các bảng biểu, đồ thị nhanh chóng, đầy đủ về bất kỳ một vấn đề nào, thể hiện trực quan mối liên hệ về những đối tượng nghiên cứu trong dữ liệu, khám phá những sự thật chưa biết, các điểm bất thường và xu hướng biến động của đối tượng nghiên cứu. • Ngày nay các tổ chức đang sử dụng trực quan hóa dữ liệu và các công cụ hỗ trợ để đặt câu hỏi tốt hơn về các vấn đề kinh doanh và đưa ra quyết định tốt hơn. Công nghệ máy tính phát triển và nhiều chương trình, phần mềm hỗ trợ Trực quan hóa dữ liệu ra đời, dễ sử dụng giúp người dùng dễ dàng tìm hiểu thêm về công ty của mình và đưa ra các quyết định kinh doanh dựa trên dữ liệu tốt hơn. • Giúp kiểm soát, theo dõi các chỉ số về hiệu quả hoạt động, KPIs, tình hình hoạt động của công ty dựa trên các Dashboard => nhằm cho thấy tầm quan trọng của việc tận dụng, khai thác tài sản dữ liệu để phục vụ ra quyết định.
  9. GIỚI THIỆU Một số lợi ích của Trực quan hóa dữ liệu • Còn là cơ sở để công ty hướng đến data-driven, định hướng dữ liệu, trực quan hóa dữ liệu sẽ giúp các nhân viên đọc được báo cáo, các biểu đồ, hiểu được dữ liệu nói về cái gì, nắm được thông tin về công việc hiện tại, tình hình hoạt động của công ty, dễ dàng tham gia vào việc đề xuất, đóng góp ý kiến. • Giúp việc trình bày, thuyết trình, diễn đạt thông tin đến người đọc, người nghe một cách tốt hơn. ▪ Khi chúng ta theo dõi các phương tiện truyền thông trong nước và quốc tế sẽ thấy phát thanh viên, phóng viên khi cung cấp thông tin họ thường nói thêm về câu chuyện đằng sau những con số thể hiện trên TV. ▪ Trong công ty, ở mỗi cuộc họp, khi thuyết trình về một kế hoạch nào đó dựa trên dữ liệu, chúng ta không thể chỉ nói những số liệu trên biểu đồ mà còn giải thích nguyên nhân đằng sau và giải pháp sắp tới. ▪ Là cầu nối giữa data và stories (những câu chuyện), tạo điều kiện cho Data storytelling, kỹ năng quan trọng của một nhà phân tích, là phương pháp để truyền đạt thông tin của dữ liệu phù hợp với đối tượng cụ thể, với cách kể chuyện hấp dẫn, thu hút.
  10. GIỚI THIỆU Phương pháp tóm tắt và trình bày dữ liệu • Data Visualization không chỉ giúp người đọc, người xem nắm bắt thông tin mà còn giúp nhà phân tích dữ liệu phân tích khai thác dữ liệu tối ưu. Phương pháp tóm tắt, trình bày dữ liệu trong Statistics là một phần nằm trong Data Visualization vì nó liên quan đến việc thể hiện, mô tả dữ liệu (các biến) định tính, định lượng dưới dạng các đồ thị phù hợp, cũng là một dạng trực quan dữ liệu. • Tóm tắt và trình bày, mô tả dữ liệu trong thống kê được chia làm 2 dạng phụ thuộc vào tính chất của dữ liệu, đó chính là dữ liệu định tính và dữ liệu định lượng.
  11. Dữ liệu định tính (Qualitative Data) • Dữ liệu định tính phản ánh tính chất, hay loại hình, không có biểu hiện trực tiếp bằng con số. • Ví dụ: ▪ Giới tính ▪ Nghề nghiệp ▪ Tình trạng hôn nhân ▪ Dân tộc ▪ Tôn giáo ▪ Học thức ▪ ... • Với biến định tính, chúng ta có thể đếm số quan sát của từng loại (tần số) và tính % của từng loại trong tổng thể (tần suất). • Để thể hiện dữ liệu định tính dưới dạng đồ thị, biểu đồ thì trước hết dữ liệu định tính phải được tóm tắt và sắp xếp dưới dạng các bảng phân phối tần số gọi là Frequency Distribution Table.
  12. Dữ liệu định tính (Qualitative Data) Phân tổ hoặc nhóm • Phân tổ hoặc nhóm (class) là quá trình chúng ta căn cứ vào một hay một số biến có đặc trưng cụ thể nào đó để sắp xếp các đơn vị quan sát vào tổ, nhóm có đặc điểm khác nhau, tức chia mẫu hoặc tổng thể thành các tổ nhóm có tính chất khác nhau. • Ví dụ dữ liệu về loại nước giải khát được tiêu thụ phổ biến bởi 50 sinh viên một trường Đại học tại Thành phố Thủ Dầu Một. ▪ Chúng ta lấy thử một mẫu 50 quan sát như trên bảng, nhận thấy số loại nước ngọt không quá nhiều ở 6 loại là Dasani, Coca-cola, Pepsi, Sting, Twister, C2. ▪ Ta phân 6 tổ => mỗi tổ là 1 nhãn hiệu nước giải khát
  13. Dữ liệu định tính (Qualitative Data) Dữ liệu thu thập từ 50 sinh viên về loại nước giải khát tiêu thụ phổ biến
  14. Dữ liệu định tính (Qualitative Data) Phân phối tần số của các loại nước giải khát.
  15. Dữ liệu định tính (Qualitative Data) • Tần số (Frequency/ Frequency of Class) là số quan sát của một nhóm trong mẫu, hoặc tổng thể. • Tần số tương đối (Relative Frequency) tỷ lệ số quan sát mà mỗi nhóm chiếm được trong mẫu hoặc tổng thể, tức lấy số quan sát của từng nhóm chia cho tổng đơn vị mẫu hoặc tổng thể. • Tần suất (Class Percentage) là tỷ lệ % mỗi nhóm chiếm trong mẫu, lấy tần số tương đối nhân cho 100. • Tần suất tích lũy (Cumulative Percent) được tính bằng cách cộng dồn các tần suất % theo thứ tự từ tổ nhóm đầu tiên đến cuối cùng. Tần suất tích lũy được áp dụng chủ yếu cho các dữ liệu định lượng có phân tổ trên bảng phân phối tần số do nó có ý nghĩa phân tích. Đối với dữ liệu định tính (biến định danh) thì thường ít khi được áp dụng.
  16. Dữ liệu định tính (Qualitative Data) • Trường hợp lấy mẫu lớn hơn 50 hay xem xét tổng thể sinh viên của toàn trường => thì dữ liệu về các loại nước giải khát sẽ rất đa dạng. • Do đó, để thống kê hiệu quả, đồ thị, biểu đồ khi vẽ ra phù hợp, chúng ta có thể chia tổ theo những nhóm ví dụ sau: ▪ Nước khoáng (Dasani, Lavie, Aquafina, v.v...) ▪ Nước giải khát có gas (Coca-cola, Pepsi, Sprite, v.v...) ▪ Nước tăng lực (Sting, Wake up 247, Rồng Đỏ, v.v...) ▪ Nước ép trái cây (Twister, Nutri Boost, Aloe Vera Juice, v.v...) ▪ Các loại nước giải khát khác (Ô long, C2, v.v...) • Lưu ý: đối với dữ liệu định lượng được chuyển đổi thành dữ liệu định tính để khảo sát về phân phối tần suất cũng có thể được chia tổ/nhóm.
  17. Dữ liệu định tính (Qualitative Data) • Ví dụ thu thập: thu nhập bình quân hàng tháng của 50 hộ gia đình thường rất đa dạng về phạm vi => để tóm tắt đơn giản ta có thể chia tổ/nhóm theo: ▪ Thu nhập dưới 5 triệu: 5 hộ ▪ Thu nhập 5 đến 10 triệu: 12 hộ ▪ Thu nhâp 10 đến 15 triệu: 23 hộ ▪ Trên 15 triệu: 9 hộ. • Tiếp theo là phần quan trọng: Trình bày dữ liệu định tính bằng đồ thị, biểu đồ nào? • Để trực quan dữ liệu định tính theo cách phân phối tần số, thì chúng ta cần vẽ các biểu đồ cột đứng hoặc ngang (Bar chart/ Column chart), biểu đồ tròn (Pie chart), biểu đồ Pareto.
  18. Dữ liệu định tính (Qualitative Data) • Bar chart/ Column chart ▪ Biểu đồ cột là biểu đồ đơn giản, trực quan nhất, người xem dễ thấy rõ yếu tố nào có giá trị lớn nhất, bé nhất, sự hơn kém giữa chúng (thông thường được xếp theo thứ tự).
  19. Dữ liệu định tính (Qualitative Data) Ở cột đứng “Tần số”, chúng ta có thể thay bằng “Tần suất” với giá trị tần suất của mỗi loại nước giải khát để vẽ biểu đồ. Biểu đồ cột đứng thể hiện tần số của mỗi loại nước giải khát.
  20. Dữ liệu định tính (Qualitative Data) • Biểu đồ cột đứng hay cột ngang thể hiện tần số của mỗi loại, mỗi đối tượng và thể hiện sự so sánh giữa chúng. Biểu đồ cột ngang thể hiện tần số của mỗi loại nước giải khát.
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
116=>2