Giới thiệu tài liệu
Tài liệu giới thiệu các dạng biểu đồ thể hiện sự tương quan giữa các biến định lượng, bao gồm biểu đồ phân tán, biểu đồ bong bóng, ma trận phân tán, biểu đồ tương quan và phương pháp giảm số chiều dữ liệu (PCA). Mỗi loại biểu đồ có ưu và nhược điểm riêng, phù hợp với các mục đích phân tích và trình bày dữ liệu khác nhau.
Đối tượng sử dụng
Tài liệu này dành cho những người muốn tìm hiểu về các phương pháp trực quan hóa dữ liệu để phân tích mối tương quan giữa các biến định lượng. Nó cung cấp một cái nhìn tổng quan về các loại biểu đồ khác nhau và phương pháp giảm số chiều dữ liệu, cùng với các ví dụ minh họa cụ thể.
Nội dung tóm tắt
Tài liệu trình bày chi tiết về các dạng biểu đồ và phương pháp thường được sử dụng để thể hiện mối tương quan giữa các biến định lượng trong một tập dữ liệu:
1. **Biểu đồ phân tán (Scatter plots):**
* Sử dụng tọa độ Descartes để hiển thị mối quan hệ giữa hai biến định lượng.
* Có thể dùng để minh họa mức độ tương quan (không phải quan hệ nhân quả) giữa hai biến, có thể là tương quan thuận, nghịch hoặc không tương quan.
* Trong mô hình hồi quy tuyến tính, biểu đồ phân tán được sử dụng để kiểm định mối liên hệ tuyến tính giữa biến phụ thuộc và các biến độc lập.
2. **Biểu đồ bong bóng (Bubble chart):**
* Là một biến thể của biểu đồ phân tán, biểu diễn thêm giá trị định lượng thứ ba thông qua kích thước của điểm dữ liệu.
* Mặc dù lý tưởng để biểu diễn nhiều biến cùng lúc, nhưng có thể khó giải thích nếu lượng dữ liệu quá lớn hoặc sự chênh lệch của bong bóng quá nhỏ.
3. **Ma trận biểu đồ phân tán (Scatterplot matrix):**
* Là một tập hợp các biểu đồ phân tán, cho biết các biến định lượng trong bộ dữ liệu có liên quan như thế nào với nhau.
* Hiển thị mối quan hệ giữa các biến để làm nổi bật mối quan hệ nào có thể là quan trọng.
4. **Biểu đồ tương quan (Correlogram):**
* Sử dụng hệ số tương quan Pearson giữa từng cặp biến và trực quan số liệu này lên biểu đồ.
* Có thể biểu diễn dưới dạng các ô màu hoặc vòng tròn màu, với kích thước và màu sắc thể hiện độ mạnh của tương quan.
* Khá trừu tượng vì dữ liệu thô đã được tính toán và sự tương quan chỉ được thể hiện thông qua độ lớn của hệ số tương quan.
5. **Phương pháp giảm số chiều dữ liệu (Principal Component Analysis - PCA):**
* Là một thuật toán thống kê được sử dụng rộng rãi để giảm kích thước của một tập dữ liệu, đồng thời giữ lại càng nhiều càng tốt sự biến thiên trong tập dữ liệu.
* Chuyển đổi dữ liệu thành một tập hợp các biến mới (các thành phần chính - PC) bằng sự kết hợp tuyến tính các biến ban đầu.
* Giúp tối ưu hóa việc thể hiện sự biến thiên của dữ liệu trong không gian ít chiều hơn.