intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Thống kê ứng dụng và xây dựng: Chương 4.1 - Đặng Thế Gia

Chia sẻ: Trần Văn An | Ngày: | Loại File: PDF | Số trang:18

86
lượt xem
4
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng Thống kê ứng dụng và xây dựng: Chương 4.1 cung cấp cho người học các kiến thức: Phép đo các vị trí trung tâm (Measures of Central Location); Phép đo các biến động (Measures of Variability); Qui tắc thực nghiệm; Vị trí tương đối (Measures of Relative Standing); Biểu đồ hộp (Box Plot); Phép đo dữ liệu nhóm (Approximating Descriptive Measures for grouped Data); Phép đo sự liên hợp (Measures of Association). Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Bài giảng Thống kê ứng dụng và xây dựng: Chương 4.1 - Đặng Thế Gia

  1. 1/21/2019 Nội dung chương MÔN HỌC 1. Phép đo các vị trí trung tâm (Measures of Central Location) THỐNG KÊ ỨNG DỤNG - XD (KC107) 2. Phép đo các biến động (Measures of Variability) 3. Qui tắc thực nghiệm 4. Vị trí tương đối (Measures of Relative Standing) 5. Biểu đồ hộp (Box Plot) GIÁO VIÊN GIẢNG DẠY 6. Phép đo dữ liệu nhóm (Approximating Descriptive Measures for grouped Data) ĐẶNG THẾ GIA 7. Phép đo sự liên hợp (Measures of Association) Bộ môn Kỹ Thuật Xây Dựng Khoa Công Nghệ, Trường Đại Học Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ Chương 4: PHÉP ĐO MÔ TẢ SỐ 1. Phép đo các vị trí trung tâm NUMERICAL DESCRIPTIVE MEASURES Measures of Central Location Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ
  2. 1/21/2019  Thông thường chúng ta tập trung mối quan  Trung bình số học (Arithmetic Mean) tâm vào hai vấn đề của phép đo các vị trí  Đây là phép đo vị trí trung tâm phổ biến nhất trung tâm:  Đo điểm trung tâm của dữ liệu (trung bình). Sum of the measurements Đo sự phân tán (dispersion) của dữ liệu quanh giá Mean =  Number of measurements trị trung bình. TB mẫu TB tổng thể nini11xxi i  Ni1 x i x  Điểm trung tâm của dữ liệu phản ánh vị trí nn N của tất cả các điểm dữ liệu thực tế. Kích thước mẫu Kích thước tổng thể Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ  Thông thường chúng ta tập trung mối quan • Ví dụ 1 tâm vào hai vấn đề của phép đo các vị trí Trung bình của mẫu có 6 dữ liệu 7, 3, 9, -2, 4, 6 được tính bởi trung tâm:  i61 x i x71  x3 2  x93  x24  x45  x66  Đo điểm trung tâm của dữ liệu (trung bình). x   4.5  Đo sự phân tán (dispersion) của dữ liệu quanh giá 6 6 trị trung bình. Nhưng nếu dữ liệu thứ ba xuất hiện phía trái, • Ví dụ 2 nó sẽ “kéo” điểm trung tâm về bên trái. Nếu dữ liệu thứ ba nằm ngay vị trí trung tâm, Giả sử có một hóa đơn tiền điện (tổng thể). Trung bình tổng thể là điểm trung tâm sẽ không thay đổi Với 1 điểm dữ liệu, Với 2 dữ liệu, điểm trung tâm sẽ điểm trung tâm nằm năm vị trí giữa (nhằm phản ánh ngay vị trí dữ liệu vị trí của cả hai điểm dữ liệu).  i200 1 x i x42.19  x15.30  ...  x53.21   1 2 200  43.59 200 200 Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ
  3. 1/21/2019 • Ví dụ 3  Giá trị thường gặp (Mode) Khi nhiều dữ liệu có cùng giá trị, các dữ liệu có thể được gộp lại  Giá trị thường gặp là giá trị suất hiện với tần suất thành bảng tần suất. lớn nhất (xuất hiện nhiều lần nhất). Giả sử số lao động trẻ em trong một nhóm lao động (mẫu) gồm 16 (kích thước) người như sau:  Nhóm dữ liệu có thể có một GTTG (hoặc nhóm TG), hoặc nhiều GTTG. SỐ TRẺ EM 0 1 2 3 SỐ LAO ĐỘNG 3 4 7 2 Với dữ liệu nhóm lớn, Nhóm thường gặp nhóm TG thường 16 người lao động được dùng hơn GTTG. 16 i 1 x i x  x ...  x16 3(0)  4(1)  7(2)  2(3) x  1 2   1.5 16 16 16 Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ  Trung vị (Median)  Trung vị của một nhóm dữ liệu là giá trị nằm giữa  Ví dụ 5 khi dữ liệu được sắp xếp theo thứ tự độ lớn. • Nhà quản lý của của hiệu quấn án nam quan sát thấy size của những thắt lưng (inches) được bán ngày hôm Ví dụ 4 qua là: 31, 34, 36, 33, 28, 34, 30, 34, 32, 40. Lương của 7 người lao động (đơn vị Giả sử một người lao động nhận lương • Giá trị thường gặp của nhóm dữ liệu là 34 in. triệu đồng): 28, 60, 26, 32, 30, 26, 29. 31 triệu VNĐ được thêm vào nhóm trên. Tìm trung vị của lương Tìm trung vị của lương. Số lượt quan sát là số lẽ Số lượt quan sát là số chẵn Trước tiên, xếp lương theo thứ tự tăng dần Trước tiên, xếp lương Thông tin này có vẽ hữu ích (ví dụ, cho trường hợp thiết kế Sau đó tìm giá trị nằm chính giữa Sau đó tìm giá trị nằm chính giữa mới hoặc nhập thêm hàng về 26,26,28,29,30,32,60 26,26,28,29, 29.5,30,31,32,60 kho), hơn là giá trị trung vị 33.5 hay giá trị bình quân 33.2 Có 2 giá trị nằm giữa! Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ
  4. 1/21/2019  Mối quan hệ giữa Mean, Median, và Mode • Ví dụ 6 Thầy giáo dạy môn TKUD muốn báo cáo kết quả thi giữa kỳ của 100 sinh viên. Số liệu như trong bảng sau (file XM04-06).  Nếu một phân phối đối xứng, mean, median và Tìm giá trị bình quân, trung vị, & GTTG? cho biết chúng mô tả mode sẽ trùng nhau thông tin gì? Giá trị bình quân cung cấp thông tin về Marks trình độ tổng thể của lớp. Có thể xem như một công cụ để so sánh với  Nếu một phân phối bất đối xứng, và nghiêng Mean 73.98 lớp Trungkhác hoặc vị chỉ ra các rằngkỳcóthi½khác. số sinh viên Standard Error 2.1502163 dưới điểm 81 và ½ số sinh viên đạt (độ xiên) về trái hay phải, 3 giá trị trên sẽ khác Median 81 Mode 84 trên 81. nhau. Standard Deviation 21.502163 GTTG được sử dụng cho dữ liệu chất Sample Variance 462.34303 KếtNếu quảđiểmExcel Phân phối xiên dương lượng. số bằng chữ (A,B,C,…), Kurtosis 0.3936606 Skewness -1.073098 tần suất mỗi điểm có thể được tính toán. Range 89 Khi đó GTTG là phép đo hợp lý. Minimum 11 Maximum 100 Sum 7398 Mode Mean Count 100 Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ Median Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ  Biểu đồ tần suất Excel (Histogram)  Mối quan hệ giữa Mean, Median và Mode Bin Frequency Frequency  Nếu một phân phối đối xứng, mean, median và 10 20 0 3 Biểu đồ tần suất nghiên về trái mode sẽ trùng nhau 30 2 30 40 6 20 50 60 6 5 10  Nếu một phân phối bất đối xứng, và nghiêng 70 80 10 16 0 về trái hay phải, 3 giá trị trên sẽ khác nhau. 90 28 100 24 More 0 Phân phối xiên dương Phân phối xiên âm Nhóm thường gặp (Modal class) Mode Mean Mean Mode Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ Median Median
  5. 1/21/2019  Bình quân hình học  Đây là phép đo cho bình quân tăng trưởng (average R g  n (1  R 1 )(1  R 2 )...(1  R n )  1 growth rate).  Gọi Ri là suất thu lợi (RoR) trong năm i (i=1,2…,n). 2. Phép đo các biến động Bình quân hình học của các năm R1, R2, …,Rn là hằng số Rg choRg được chọn sao cho n giai ra kết quả tương đương đến cuối (Nhìn xa hơn giá trị bình quân) đoạn sẽ cho cùng kết quả. năm thứ n. Suất thu lợi của n năm được Nếu suất thu lợi là Rg cho tất cả Measures of Variability xác định bằng công thức các năm, suất thu lợi trung bình (Look beyond the average) sẽ được tính bởi (1  R g ) n (1  R1 )(1  R 2 )...(1  R n ) = (1  R g )n Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ  Ví dụ 7 • Doanh thu 3 năm trước của một doanh nghiệp là  Các phép đo vị trí trung tâm không mô tả được $1,000,000 toàn bộ câu chuyện về phân phối. • Doanh thu tăng hàng năm 20%, 10%, -5%. • Tìm bình quân hình học mức tăng của doanh thu.  Vẫn còn những thác mắc chưa được trả lời:  Giải • Gọi Rg là bình quân hình học Điển hình của giá trị bình quân của (1+R)3 = (1+.2)(1+.1)(1-.05)= 1.2540 toàn bộ dữ liệu sẽ như thế nào? Vì vậy, hoặc là R g  3 (1  .2)(1  .1)(1  .05)  1  .0784, or 7.84%. Dự liệu trải rộng bao xa quanh giá trị bình quân? Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ
  6. 1/21/2019 Quan sát hai bộ dữ liệu  Phương sai/Độ lệch quân phương  Phép đo phân tán này phản ánh giá trị của tất cả các số Dữ liệu biến động thấp liệu.  Phương sai của một tổng thể của N số liệu x1, x2,…,xN có giá trị bình quân  được xác định bằng Giá trị bình quân đại diện tương 2 N ( x  ) 2 i 1 i đối tốt cho toàn bộ dữ liệu.   Dữ liệu biến động cao N Dữ liệu trước đây, …  Phương sai của một mẫu của n số liệu x1, x2, …,xn có giá … giờ thay đổi thành trị bình quân x được xác định bằng Cùng một giá trị bình quân, 2  ni1( x i  x) 2 nhưng không còn mô tả tốt cho s  toàn bộ dữ liệu như trước. n 1 Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ Xét 2 tổng thể nhỏ: 9-10= -1 Tổng thể A: 8, 9, 10, 11, 12 11-10= +1  Khoảng giá trị Tổng thể B: 4, 7, 10, 13, 16 8-10= -2  Khoảng giá trị của bộ dữ liệu là sự chênh lệch của Do vậy, giá trị bình quân là chưa đủ. Cần một phép đo 12-10= +2 giá trị lớn nhất và giá trị nhỏ nhất. về sự phân tán thích hợp với những quan sát này. Sum = 0 Thử tính tổng các Tổng đại số các độ lệch độ lệch (deviation)  Xác định khoảng giá trị là việc đơn giản Tuy nhiên, các dữ liệu trải ra như thế nào? A đều bằng zero, cũng chưa phản ánh được 8 9 10 11 12 tính chất phân tán của các số liệu, do vậy cần KhoảngKhoảng giá trịgiá trị chưa cũng chưatrảmô lời tả được câu sự được hỏi phân này tán Giá trị bình quân của cả hai tổng thể đều bằng 10...  ? ? Khoảng của dữ liệu giữa hai đầu của nó. giá?trị một phép đo khác. 4-10 =-6 16-10 = +6 …nhưng các số liệu của B phân tán rộng hơn của A. Số liệu nhỏ nhất Số liệu lớn nhất B 7-10 = -3 4 7 10 13 16 13-10 = +3 Sum = 0 Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ
  7. 1/21/2019 9-10= -1 11-10= +1 Bộ dữ liệu nào phân tán nhiều hơn? Tổng bình phương các độ lệch là phù hợp để mô tả sự khác biệt. 8-10= -2 12-10= +2 Ta tính tổng bình phương các độ lệch cho cả 2 bộ dữ liệu Dữ liệu B phân tán nhiều Sum = 0 Tổng đại số các độ lệch hơn Tuy nhiên, khiquanh giá sai tính toán trị bình biệt quân cho “từng” số liệu, sự phân tán của bộ số liệu sẽ được “tích lũy”. A đều bằng zero, cũng chưa phản ánh được tính chất phân tán của 8 9 10 11 12 các số liệu, do vậy cần A B một phép đo khác. 4-10 =-6 16-10 = +6 1 2 3 1 3 5 B 7-10 = -3 SumA = (1-2)2 +…+(1-2)2 +(3-2)2 +… +(3-2)2= 10 A = SumA/N = 10/10 = 1 2 4 7 10 13 16 13-10 = +3 5 lần 5 lần Sum = 0 Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ SumB = (1-3)2 + (5-3)2 = 8 ! B2 = SumB/N = 8/2 = 4 Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ Thử tính phương sai của hai tổng thể A & B  Ví dụ 8 • Tìm giá trị bình quân, trung vị, GTTG và phương sai của 2 2 2 2 (8  10)  (9  10)  (10  10)  (11 10)  (12  10) 2 dữ liệu mẫu sau (đơn vị: năm). 2A  2 5 3.4, 2.5, 4.1, 1.2, 2.8, 3.7  Giải Công thức rút gọn (4  10)2  (7  10)2  (10  10)2  (13  10)2  (16  10)2 B2   18 5  6 xi 3.4  2.5  4.1  1.2  2.8  3.7 17.7 x  i1    2.95 Tại sao phương sai được định Còn nữa, tổng bình phương 6 6 6 n 2  n 2 nghĩa là giá trị bình quân của các độ lệch tăng giá trị khi sự 2  i 1( x i  x ) 1  n 2 ( i 1 xi )  bình phương các độ lệch? phân tán của nhóm dữ liệu s   x   Tại sao không dùng giá trị tổng n 1 n  1 i 1 i n  tăng lên!!   bình phương? = [3.42+2.52+…+3.72] - [(17.7)2/6] = 1.075 (năm)2 Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ
  8. 1/21/2019  Hệ số biến thiên (Coefficient of Variation)  Độ lệch tiêu chuẩn (Standard Deviation) của dữ liệu là  Hệ số biến thiên (CV), còn gọi là Độ lệch chuẩn tương đối căn bậc hai của phương sai. (Relative SD, RSD) là một đại lượng thống kê mô tả dùng để đo mức độ biến động của tương đối của những tập hợp dữ Đô lêch quân phuong mãu : s  s 2 liệu chưa phân tổ có giá trị bình quân khác nhau. Đô lêch quân phuong tông thê :   2  Hệ số biến thiên là tỷ số của độ lệch chuẩn và giá trị bình quân. s Sample coefficient of variation : cv  Độ lệch chuẩn bằng 10 có thể xem làxlớn khi giá trị bình quân là 100, nhưng chỉ được Population coefficient of variation : CV  xem là vừa phải khi giá trị bình quân là 500   Hệ số CV tỷ lệ với mức độ biến động của dữ liệu. Dùng để: • So sánh độ phân tán giữa các hiện tượng có đơn vị tính khác nhau • Hoặc giữa các hiện tượng cùng loại nhưng có số trung bình không Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ bằng nhau. Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ  Ví dụ 9  Hệ số biến thiên (Coefficient of Variation) Suất thu lợi trong 10 năm qua của hai quỹ tương hỗ được cho  Giữa 2 tập hợp dữ liệu, tập nào có hệ số biến thiên lớn như bên dưới. Quỹ nào có mức rủi ro cao hơn? hơn là tập có mức độ biến động lớn hơn. Quỹ A: 8.3, -6.2, 20.9, -2.7, 33.6, 42.9, 24.4, 5.2, 3.1, 30.05  Hệ số biến thiên càng cao, thì độ phân tán của lượng biến Quỹ B: 12.1, -2.8, 6.4, 12.2, 27.8, Quỹ25.3, A 18.2, 10.7, -1.3, Quỹ B11.4 càng lớn, tính chất đại diện của số bình quân càng thấp và  Giải Mean 16 Mean 12 ngược lại. Standard Error 5.295 Standard Error 3.152 – Bảng tính bên dưới lấy Median 14.6 Median 11.75  Trong thực tế, thống kê thực nghiệm đã cho rằng nếu CV từ MS Excel (file Xm04-10) Mode #N/A Mode #N/A Standard Deviation 16.74 Standard Deviation 9.969 > 40% tính chất đại biểu của số bình quân thấp. Sample Variance 280.3 Sample Variance 99.37 Quỹ A được xem là rủi ro Kurtosis -1.34 Kurtosis -0.46  Nhược điểm của hệ số biến thiên khi dùng để đo mức độ hơn vì có độ lệch chuẩn Skewness 0.217 Skewness 0.107 biến động là nếu giá trị bình quân gần 0 thì chỉ một biến Range 49.1 Range 30.6 lớn hơn Minimum -6.2 Minimum -2.8 động nhỏ của giá trị bình quân cũng có thể khiến cho hệ Maximum 42.9 Maximum 27.8 số này thay đổi lớn. Sum 160 Sum 120 Count 10 Count 10 Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ
  9. 1/21/2019  Ví dụ 10 • Thời gian của 30 cuộc gọi đường dài được mô tả như hình vẽ. Kiểm tra quy tắc thực nghiệm. 3. Qui tắc thực nghiệm • Giải Trước tiên kiểm tra liệu biểu đồ tần suất có dạng hình chuông! 10 8 6 4 2 0 2 5 8 11 14 17 20 More Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ • Tính giá trị bình quân và độ lệch chuẩn:  Độ lệch chuẩn được dùng để Mean = 10.26; SD = 4.29.  So sánh độ biến động của các phân phối khác nhau • Kiểm tra các khoảng:  Mô tả hình dạng tổng quát của một phân phối ( x  s , x  s )  (10.26 - 4.29, 10.26  4.29)  (5.97, 14.55)  Quy tắc thực nghiệm: Nếu một mẫu số liệu có ( x  2 s , x  2 s )  (1.68, 18.84) phân phối dạng hình chuông (gò), khoảng giá trị ( x  3 s , x  3 s )  (-2.61, 23.13) ( x  s, x  s ) chúa khoang 68% sô liêu ( x  2s, x  2 s ) chúa khoang 95% sô liêu Khoảng Quy tắc TN Phần trăm xuất hiện 5.97, 14.55 68% 70% ( x  3s, x  3s ) chúa hâu nhu toàn bô sô liêu (99.7%) 1.68, 18.84 95% 96.7% -2.61, 23.13 99.7% 100% Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ
  10. 1/21/2019  Kết luận khác Định lý Chebyshev  Theo quy tắc thực nghiệm, khoảng 95% diện tích (1-1/k2) đúng cho mọi phía dưới hình chuông nằm trong khoảng tập dữ liệu với mọi hình dạng phân phối. ( x  2s, x  2s) 95% diện tích Khoảng giá trị của cácxcuộc  2s, gọi xđường xdài  2là s 19.5-2.3=17.2  phút Khoảng cách hai điểm đầu cuối là 4s, do vậy có thể tính gần đúng S s 17.2  4.3 phút KhoangGiáT ri s 4 4 Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ  Định lý Chebyshev (theorem)  Cho một bộ dữ liệu bất kỳ và một số k (không nhỏ hơn 1), tỉ lệ dữ liệu nằm trong khoảng k lần độ lệch chuẩn quanh Mean tối thiểu là 1-1/k2. 4. Vị trí tương đối 1-1/22=3/4  Định lý này đúng cho mọi tập dữ liệu với mọi hình dạng phân phối. Measures of Relative Standing 1-1/32=8/9 K Khoảng Chebyshev Quy tắc TN 1 x  s, x  s tối thiểu 0% xấp xỉ 68% 2 x  2s, x  2 s tối thiểu 75% xấp xỉ 95% 3 x  3 s, x  3 s tối thiểu 89% xấp xỉ 99.7% Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ
  11. 1/21/2019  Giải Tứ phân vị thứ ba  Phân vị • Xếp các số liệu theo thứ tự  Phân vị pth của bộ dữ liệu là giá trị tại đó 2, 4, 4, 5, 7, 8, 10, 12, 17, 18, 18, 21, 27, 29, 30 • Không quá p% của các dữ liệu nhỏ hơn giá trị đó 15 số liệu • Không quá (1-p)% của tất cả dữ liệu lớn hơn giá trị đó. Tứ phân vị thứ nhất  Ví dụ • Giả sử 600 là phân vi 78% của điểm GMAT. Khi đó Tối đa (.25)(15) = 3.75 số liệu nằm Không quá (.75)(15)=11.25 số liệu nằm dưới Q1. Để ý 3 số liệu đầu tiên trên Q1. Để ý các số liệu phía phải. ở phía trái. 78% của điểm số nằm ở đây 22% 200 600 800 Nếu số số liệu là chẵn, sẽ có hai số liệu để cân nhắc xem  Phân vị 50%, còn gọi là Tứ Phân Vị thứ nhì, chính là số liệu nào là Q1. Khi đó chọn trung bình của hai số liệu này. số trung vị (Median) Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ  Phân vị thông dụng • Thập phân vị thứ nhất (First [lower]decile) = 10% • Tứ phân vị thứ nhất (First [lower]quartile, Q1) = 25% • Tứ phân vị thứ nhì (Second [middle]quartile,Q2) = 50% • Tứ phân vị thứ ba (Third [upper]quartile, Q3) = 75% 5. Biểu đồ hộp • Thập phân vị thứ chín (Ninth [upper]decile) = 90% Box Plot  Ví dụ 11 Tìm tứ phân vị của tập dữ liệu sau 7, 18, 12, 17, 29, 18, 4, 27, 30, 2, 4, 10, 21, 5, 8 Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ
  12. 1/21/2019  Ví dụ 12 – Điều chỉnh khi có giá trị ngoại biên  Là dạng mô tả bằng hình cho các phép đo mô tả • Ta có bảng số liệu mô tả tỉ lệ CO2 bình quân đầu người của 8 quốc gia đông dân số nhất thế giới như sau : chủ yếu của tập số liệu  L - giá trị lớn nhất của số liệu Quốc Gia CO2/đầu người  Q3 - tứ phân vị trên Khi có các giá trị ngoại biên, China 4.9  Q2 - trung vị cần phải điều chỉnh biểu đồ India 1.4  Q1 - tứ phân vị dưới hộp tổng quát này. The US 18.9 Indonesia 1.8  S - giá trị nhỏ nhất của số liệu Xem ví dụ phía sau. Brazil 1.9 Pakistan 0.9 Russia 10.8 S Q1 Q2 Q3 L Bangladesh 0.3 Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ  Các kiểu “râu” của Biểu đồ hộp  Giải • Trước khi vẽ boxplot, ta tính toán các tham số sau:  Tối thiểu và tối đa của tất cả các dữ liệu (tổng quát) – Min = 0.3 – Q1 = 1.275  Mốc thấp nhất vẫn còn trong vòng 1,5*IQR của tứ phân vị – Trung vị = 1.85 dưới, và mốc cao nhất vẫn còn trong vòng 1,5*IQR của tứ – Q3 = 6.375 phân vị trên (thường được gọi là biểu đồ hộp Tukey, hay – Max = 18.9 John W. Tukey) – IQR = Q3 – Q1 = 5.1 – Lower = Q1 – 1.5*IQR = -6.375  Một độ lệch chuẩn trên và dưới giá trị bình quân – Upper = Q3 + 1.5*IQR = 14.025  9% và 91% • Độ trãi giữa (Interquartile Range, IQR = Q3 – Q1)  2% và 98% • Từ Lower và Upper, ta suy ra US = 18.9 là một giá trị ngoại biên có thể và sẽ không được tính khi vẽ râu của biểu đồ hộp. Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ
  13. 1/21/2019 440 670  Ví dụ 13 – điểm GMAT • Vẽ biểu đồ hộp cho dữ liệu về điểm GMAT của 200 sinh S Q1 Q2 Q3 L viên (file Xm04-12) 410 530 560 590 700 25% 50% 25%  Diễn giải kết quả từ biểu đồ hộp • Phổ điểm GMAT trải từ 410 đến 700. • Một nửa số điểm thấp hơn 650, và một nửa trên 650. • Một nửa số điểm nằm trong khoảng 530 và 590. • Một phần tư số điểm thấp hơn 530 và ¼ số điểm trên 590. Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ 440 670 S Q1 Q2 Q3 L S Q1 Q2 Q3 L 410 530 560 590 700 410 530 560 590 700 25% 50% 25% IQR = Q3 - Q1 = 590 - 530 = 60 Phân phối theo các phân vị là không đối xứng -> Nghiêng dương Khoảng trải (Fences) ={Q1-1.5(IQR), Q3+1.5(IQR} = {440, 670} Các giá trị ngoại biên (outliers) là 700 và 410. 50% Do vậy, hai “râu” sẽ dời đến 2 ranh giới mới (440, 670), 25% 25% chứ không phải đến giá trị ngoại biên (410 and 700). 51 217 Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ
  14. 1/21/2019  Các vị trí tương đối của hàm mật độ phân phối chuẩn 6. Phép đo dữ liệu nhóm Approximating Descriptive Measures for grouped Data Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ  Biến thể của Biểu đồ hộp  Xấp xỉ phép đo mô tả cần thiết trong 2 trường hợp sau:  Khi việc xấp xỉ là cần thiết,  Khi chỉ có dữ liệu nhóm thứ cấp. Điểm giữa của nhóm i  ki1 fi m i Số lượng nhóm x fimi là giá trị tương n Tần suất nhóm i n = f1+f2+…+ fk đương xấp xỉ của 1 k (  ki1 fi m i ) 2  số liệu nhóm i s2   f  i i m 2   n  1  i1 n  Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ
  15. 1/21/2019  Ví dụ 14 • Xấp xỉ giá trị bình quân và độ lệch chuẩn của độ dài các cuộc gọi từ dữ liệu dạng tần suất  Hai phép đo mô tả quan hệ tuyến tính giữa hai biến được biểu diễn trên sơ đồ phân tán (scatter diagram). Class Class Frequency Midpoint i61 fimi 312.0 x   10.4 i limits fi mi fimi fimi2  Hiệp phương sai (Co-variance) – Liệu các biến này 30 6 1 2-5 3 3.5 10.5 36.75 Real values : 39.0 2 5-8 6 6.5 2 253.5 biến thiên theo mô hình nào không? 10 k 3 8-11 x 8 10.26 9.5 and 76.0 s  18 .40722.o 1 k 2 (  i1 f.imi ) 2 . . . . . Hệ số tương quan (Correlation coefficient) – Quan s82    fim i   17-20  6 n  1  i1 n6   2 18.5 37.0 684.5 hệ tuyến tính giữa các biến mạnh như thế nào? 4 2 1  312  2 n = 30 312.0 3,751.5 0 3,751 .5    17 .47 2 29   5 8 11 30 17 14  20 More 3.5 6.5 Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ  Hiệp phương sai (Co-variance) (x i   x )( y i   y ) Population covariance  COV(X, Y)  7. Phép đo sự liên hợp N x , y là giá trị bình quân của các biến X và Y Measures of Association N là số phần tử trong tổng thể n là kích thước mẫu. (x i   x )( y i   y ) Sample covariance  cov(X, Y)  n-1 Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ
  16. 1/21/2019  Nếu hai biến di chuyển theo cùng hướng (cùng tăng hoặc cùng giảm), COV(X,Y)>0 +1 Quan hệ tuyến tính dương mạnh hiệp phương sai có giá trị dương lớn.  Nếu hai biến không có quan hệ, Hoặc hiệp phương sai gần với zero.  hoặc r = 0 Không quan hệ tuyến tính COV(X,Y)=0  Nếu hai biến di chuyển theo 2 hướng (một tăng, một giảm), hiệp -1 Quan hệ tuyến tính âm mạnh phương sai có giá trị âm lớn. COV(X,Y)
  17. 1/21/2019 • Thực hiện các bảng tính bên dưới  Các công thức rút gọn Month x y xy x2 y2 cov(X, Y)  1 1 30 30 1 900 ni1( xi  x)(yi  y) Công thúc 2 3 40 120 9 1600 n 1  3 5 40 200 25 1600 in1 xi in1 yi 4 4 50 200 16 2500 1  n i1 xi yi  ni1 xi ni1 y i    ( xi  x )( yi  y )   xi yi  n n 5 2 35 70 4 1225 6 5 50 250 25 2500 n  1  n  i 1 i 1 n 7 3 35 105 9 1225 1 25  305  8 2 25 50 4 625 1025  8   10.268  ( xi  x )   x n 2 n 2   x n i 1 2 Sum s2x  25 305 1025   1  2 ni1 x  1  xi  2 93   93  12175 232  7   i 1 i 1 i   12.125 .554 n n 1   n  7   8  sx  12.125 .554  1.458 cov( X , Y ) 10.268 r   .797 sxsy 1.458  8.839 Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ Tương tự, sy = 8.839  Ví dụ 15  Kết quả • Tính hiệp phương sai và hệ số tương quan để xem liệu chi phí quảng cáo và doanh thu liên quan với nhau như Advertsmnt sales Advertsmntsales thế nào? Advertsmnt 2.125 Advertsmnt 1 Sales 10.2679 78.125 Sales 0.7969 1 Advert Sales Ma trận hiệp phương sai Ma trận hệ số tương quan 1 30 3 40  Diễn giải 5 40  Hiệp phương sai (10.2679) chỉ ra rằng chi phí 4 50 quảng cáo và doanh thu quan hệ dương 2 35 5 50  Hệ số tương quan (.797) chỉ ra rằng có mối quan 3 35 hệ tuyến tính dương mạnh giữa quảng cáo và 2 25 doanh thu. Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ
  18. 1/21/2019  Phương pháp bình phương cực tiểu  Chúng ta tìm một đường thẳng phù hợp nhất với Hệ số b0 và b1 của đường thẳng làm tối thiểu tổng các cặp số liệu bình phương của các sai số được tính từ các số liệu  Ta định nghĩa “đường phù hợp nhất” là đường có n tổng bình phương sai số với các cặp số liệu là tối n  ( x  x )( y i i  y) thiểu. ˆ 2 b1  i 1 , b0  y  b1 x Minimize ( y i  y i ) n i1  ( xi  x ) 2 i 1 Giá trị y thực tế của điểm i Giá trị y của điểm i được tính n n từ phương trình  yi x i yˆ i  b 0  b1x i vói y  i 1 và x  i 1 n n Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ Y Sai số X XIN CẢM ƠN! Những đường khác nhau cho sai số khác nhau, vì vậy sẽ cho tổng bình phương các sai số khác nhau. Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ Đặng Thế Gia, BM Kỹ thuật xây dựng. ĐH Cần Thơ
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2