
Bài giảng Các dạng biểu đồ thể hiện sự tương quan của dữ liệu
lượt xem 0
download

Bài giảng "Các dạng biểu đồ thể hiện sự tương quan của dữ liệu" giới thiệu các biểu đồ dùng để trực quan hóa mối quan hệ giữa các biến trong dữ liệu, bao gồm: biểu đồ phân tán, biểu đồ bong bóng, ma trận phân tán, biểu đồ tương quan. Mời các bạn cùng tham khảo!
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Các dạng biểu đồ thể hiện sự tương quan của dữ liệu
- CÁC DẠNG BIỂU ĐỒ THỂ HIỆN SỰ TƯƠNG QUAN CỦA DỮ LIỆU 1
- Giới thiệu • Với bộ dữ liệu có từ hai biến định lượng trở lên, ta có thể hình dung mối tương quan của các biến thông qua hình ảnh trực quan từ các dạng: • biểu đồ phân tán (scatter plots) • biểu đồ bong bóng (bubble chart) • ma trận phân tán (scatterplot matrix) • biểu đồ tương quan (correlogram). • Ngoài ra, khi bộ dữ liệu có số lượng biến quá nhiều, việc giảm kích thước thông qua phân tích thành phần chính (PCA) được xem là phương pháp hữu hiệu. 2
- 1. Biểu đồ phân tán (scatter plots) • Biểu đồ phân tán (scatter plots hay scatter diagram) là một loại biểu đồ sử dụng tọa độ Descartes để hiển thị giá trị và mối quan hệ giữa hai biến định lượng cho một tập dữ liệu. • Dữ liệu được hiển thị dưới dạng tập hợp các điểm, mỗi điểm có giá trị của một biến xác định vị trí trên trục hoành và giá trị của biến khác xác định vị trí trên trục tung. 3
- 1. Biểu đồ phân tán (scatter plots) • Biểu đồ phân tán là một trong 7 công cụ cơ bản của kiểm soát chất lượng trong doanh nghiệp (Hình 1) • Hình 1. 7 công cụ kiểm soát chất lượng (Nguồn: Viện Năng suất Việt Nam - VNPI) 4
- 1. Biểu đồ phân tán (scatter plots) • Biểu đồ phân tán có thể được dùng khi 2 biến định lượng độc lập hoặc có một biến phụ thuộc vào biến còn lại. • Trong trường hợp phụ thuộc, biến phụ thuộc (biến được dự đoán) thường được vẽ dọc theo trục tung, biến độc lập (biến dùng để đưa ra dự đoán) được vẽ dọc theo trục hoành. • Trong trường hợp cả 2 biến độc lập với nhau, mỗi biến được vẽ ở một trục. • Biểu đồ phân tán sẽ chỉ minh họa mức độ tương quan (không phải quan hệ nhân quả) giữa hai biến. 5
- 1. Biểu đồ phân tán (scatter plots) • Ví dụ minh họa trong Hình 2 dưới đây thể hiện mối tương quan giữa 2 biến định lượng độc lập với nhau: chiều dài đầu (mm) và khối lượng cơ thể (g) của 123 con chim blue jay. • Dễ dàng nhận thấy sự tương quan thuận chiều giữa chiều dài đầu với khối lượng cơ thể. • Con chim có đầu dài nhất gần với khối lượng cơ thể tối đa quan sát được và con chim có đầu ngắn nhất Hình 2. Biểu đồ phân tán về mối tương quan giữa chiều dài đầu và khối lượng cơ thể của 123 gần với khối lượng cơ thể tối thiểu con chim blue jay (Nguồn: Fundamentals of quan sát được. Data Visualization (Wike, 2019)) 6
- 1. Biểu đồ phân tán (scatter plots) • Hình 2. Biểu đồ phân tán về mối tương quan giữa chiều dài đầu và khối lượng cơ thể của 123 con chim blue jay (Nguồn: Fundamentals of Data Visualization (Wike, 2019)) 7
- 1. Biểu đồ phân tán (scatter plots) • Ta có thể sử dụng thêm biến phân loại để phân tích sự khác biệt giữa chim đực và cái (Hình 3). • Có thể thấy trong biểu đồ, ở cùng một khối lượng cơ thể, con mái có xu hướng có đầu ngắn hơn con đực, đồng thời trọng lượng của chim cái cũng nhẹ hơn chim đực. Hình 3. Biểu đồ phân tán về mối tương quan giữa chiều dài đầu và khối lượng cơ thể của 123 con chim blue jay, phân loại theo chim đực và cái (Nguồn: Fundamentals of Data Visualization (Wike, 2019)) 8
- 1. Biểu đồ phân tán (scatter plots) • Biểu đồ phân tán có thể gợi ý nhiều loại tương quan giữa các biến với một khoảng tin cậy nhất định. • Các mối tương quan có thể là tích cực, tiêu cực, hoặc không có bất kỳ tương quan nào (Hình 4). • Để đo lường độ mạnh liên kết giữa hai biến định lượng liên tục, hệ số tương quan Pearson là thang đo thường được sử dụng Hình 4. Các mối tương quan giữa 2 biến định lượng được thể hiện qua biểu đồ phân tán (Nguồn:medium.com) 9
- 1. Biểu đồ phân tán (scatter plots) • Trong mô hình hồi quy tuyến tính, biểu đồ phân tán được sử dụng để kiểm định mối liên hệ tuyến tính giữa biến phụ thuộc với các biến độc lập. • Giả định này sẽ được kiểm tra bằng biểu đồ phân tán giữa các phần dư chuẩn hóa trên trục tung và giá trị dự đoán chuẩn hóa trên trục hoành. • Nếu kết quả cho thấy các giá trị phần dư được rải ngẫu nhiên xung quanh tung độ 0 và hình dạng tạo thành một đường thẳng thì giả định liên hệ Hình 5. Biểu đồ phân tán giữa các phần tuyến tính không bị vi phạm Hình 5). dư và giá trị dự đoán 10
- 2. Biểu đồ bong bóng (bubble chart) • Biểu đồ bong bóng (bubble chart) có thể xem là một biến thể của biểu đồ phân tán, nhưng có thêm giá trị định lượng thứ ba. • Trong đó, 2 giá trị được biểu diễn thông qua vị trí trục tung và trục hoành, giá trị còn lại được biểu diễn bằng kích thước của điểm dữ liệu. • Ví dụ về biểu đồ bong bóng trong Hình 6 minh họa mối quan hệ giữa 3 biến định lượng: • GDP bình quân đầu người (trục hoành, đơn vị tính: 2.000$); • Tuổi thọ (trục tung, đơn vị tính: năm) • Dân số (kích thước bong bóng, đơn vị tính: người), theo 117 quốc gia tại 5 châu lục. • Có thể dễ dàng nhận thấy châu Mỹ, châu Âu và châu Đại Dương có tuổi thọ cao hơn và GDP bình quân đầu người lớn hơn hầu hết các quốc gia ở châu Á và châu Phi. 11
- Hình 6. Biểu đồ bong bóng về mối tương quan giữa tuổi thọ, GDP bình quân đầu người và dân số của 117 quốc gia năm 2007, được phân loại màu sắc theo 5 châu lục (Nguồn: plotly.com) 12
- 2. Biểu đồ bong bóng (bubble chart) • Trong biểu đồ trên, ta chỉ có thể hình dung được những thông tin chung nhất về mối tương quan giữa tuổi thọ và GDP bình quân đầu người theo các châu lục và sự chênh lệch về dân số thông qua các bong bóng. • Tuy nhiên, không rõ cụ thể bong bóng nào là của quốc gia nào và mối tương quan giữa tuổi thọ, GDP bình quân đầu người với dân số của các quốc gia đó. • Xem xét thêm ví dụ về 123 con chim blue jay ở mục 1 sau khi được bổ sung thêm biến kích thước hộp sọ (mm) vào bộ dữ liệu và tách giới tính ra 2 biểu đồ khác nhau (Hình 7). • Do kích thước hộp sọ có sự chênh lệch không quá lớn, nên chênh lệch giữa các bong bóng không quá khác biệt. • Ngoài ra, giống với ví dụ ở Hình 6, khó để xác định mối quan hệ giữa hộp sọ với khối lượng cơ thể hoặc chiều dài đầu. 13
- Hình 7. Biểu đồ bong bóng về mối tương quan giữa chiều dài đầu, khối lượng cơ thể và kích thước hộp sọ của 123 con chim blue jay, phân loại chim đực và cái theo màu sắc (Nguồn: Fundamentals of Data Visualization (Wike, 2019)) 14
- 2. Biểu đồ bong bóng (bubble chart) • Qua các ví dụ trên, mặc dù lý tưởng để biển diễn nhiều biến cùng lúc trên một biểu đồ duy nhất, nhưng trong trường hợp lượng dữ liệu quá lớn hay sự chênh lệnh của bong bóng quá nhỏ, người phân tích phải mất thời gian để giải thích tất cả cấu trúc của biểu đồ cho người xem rồi mới có thể đưa ra kết luận cuối cùng. • Ngoài ra, rất khó để xác định mối quan hệ giữa các biến trên trục và kích thước bong bóng. • Do đó, để dễ giải thích kết quả chi tiết hơn theo định hướng bài phân tích, ta có thể bổ sung thêm các dạng biểu đồ khác, hoặc phân tích tương quan cụ thể giữa các biến định lượng sử dụng ma trận biểu đồ phân tán (scatterplot matrix). 15
- 3. Ma trận biểu đồ phân tán (scatterplot matrix) • Ma trận biểu đồ phân tán là một tập hợp các biểu đồ phân tán cho biết các biến định lượng trong bộ dữ liệu có liên quan như thế nào với nhau. • Sau khi biểu diễn tất cả các kết hợp hai chiều của các biến, ma trận có thể hiển thị mối quan hệ giữa các biến để làm nổi bật mối quan hệ nào có thể là quan trọng. • Từ ví dụ ở Hình 7, tách 3 biến định lượng chiều dài đầu, khối lượng cơ thể và kích thước hộp sọ của 123 con chim blue jay thành một ma trận 3 cột 3 dòng để biểu diễn mối quan hệ của từng cặp biến định lượng với nhau (Hình 8). • Có thể thấy, tương quan giữa kích thước hộp sọ và hai biến khác dễ dàng nhận thấy trong các biểu đồ phân tán theo cặp. • Trong đó, mối quan hệ giữa kích thước hộp sọ và khối lượng cơ thể giữa chim cái và chim đực có thể so sánh được, chim cái có xu hướng kích thước hộp sọ nhỏ hơn. 16
- Hình 7. Biểu đồ bong bóng về mối tương quan giữa chiều dài đầu, khối lượng cơ thể và kích thước hộp sọ của 123 con chim blue jay, phân loại chim đực và cái theo màu sắc (Nguồn: Fundamentals of Data Visualization (Wike, 2019)) 17
- Hình 8. Ma trận biểu đồ phân tán về mối tương quan giữa chiều dài đầu, khối lượng cơ thể và kích thước hộp sọ của 123 con chim blue jay, phân loại theo chim đực và cái (Nguồn: Fundamentals of Data Visualization (Wike, 2019)) 18
- 4. Biểu đồ tương quan (Correlogram) • Trong trường hợp có từ 3 đến 4 biến định lượng trở lên, thay vì biểu diễn trực quan tất cả dữ liệu của các biến định lượng lên biểu đồ, ta có thể tính toán hệ số tương quan Pearson giữa từng cặp biến và trực quan số liệu này lên biểu đồ. • Phương pháp này được gọi là trực quan bằng biểu đồ tương quan Correlogram. • Biểu đồ sử dụng một dải màu để chỉ ra các giá trị hệ số tương quan trong khoảng từ [-1;1]. 19
- 4. Biểu đồ tương quan (Correlogram) • Ví dụ trong Hình 9 minh họa 1 biểu đồ tương quan Correlogram sử dụng một tập dữ liệu gồm 214 mảnh thủy tinh và thành phần hóa học trong đó, tạo thành 21 cặp tương quan hiển thị cùng một lúc dưới dạng ma trận các ô màu, mỗi ô biểu thị một hệ số tương quan. Hình 9. Mối tương quan về hàm lượng khoáng chất được biểu diễn bằng các ô vuông theo dải màu tương ứng với hệ số tương quan 20

CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Excel 2010: Chương 5
11 p |
150 |
39
-
TRÌNH BÀY DỮ LIỆU BẰNG BIỂU ĐỒ
6 p |
254 |
37
-
Bài giảng Hướng dẫn vẽ Pareto offiice 2003
10 p |
133 |
14
-
Bài giảng Tin học phần 2 - Chương 5: Tạo biểu đồ trong bảng tính
11 p |
57 |
12
-
Bài giảng Soạn thảo văn bản hành chính nâng cao
183 p |
31 |
10
-
Bài giảng Phân tích thiết kế phần mềm: Chương 3 - Trường ĐH Ngoại ngữ - Tin học TP.HCM
8 p |
33 |
10
-
Bài giảng Tin học văn phòng: Bài 10 - Trường Cao Đẳng nghề ISPACE
8 p |
97 |
10
-
Bài giảng Các ứng dụng chủ chốt bài 9: Microsoft Excel 2010
77 p |
38 |
7
-
Bài giảng Tin học đại cương: Phần I (Chương 2, Phần 3) - TS.Nguyễn Bá Ngọc
27 p |
87 |
6
-
Bài giảng Tin học văn phòng: Bài 11 - Vũ Thương Huyền
7 p |
25 |
6
-
Bài giảng Tin học văn phòng: Bài 10 - Nguyễn Thị Phương Dung
7 p |
17 |
6
-
Bài giảng Tin học văn phòng: Bài 11 - Đỗ Oanh Cường
7 p |
92 |
4
-
Bài giảng Tin học văn phòng: Bài 11 - Nguyễn Thị Phương Thảo
7 p |
30 |
4
-
Bài giảng Phân tích yêu cầu phần mềm - Chương 10: Yêu cầu phi chức năng
16 p |
30 |
3
-
Bài giảng Một số dạng biểu đồ thể hiện độ lớn của dữ liệu
27 p |
2 |
0
-
Bài giảng Một số dạng biểu đồ thể hiện tỷ lệ của dữ liệu
32 p |
1 |
0
-
Bài giảng Các dạng biểu đồ thể hiện sự phân phối của dữ liệu
50 p |
3 |
0


Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn
