intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Thống kê học ứng dụng trong quản lý xây dựng: Phần 2 - TS. Nguyễn Duy Long

Chia sẻ: Star Star | Ngày: | Loại File: PDF | Số trang:36

83
lượt xem
12
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Phần 2 - Khám phá và tìm hiểu dữ liệu định lượng. Nội dung chính trong phần này gồm có: Trình bày dữ liệu định lượng, mô tả phân phối bằng số, độ lệch chuẩn như thước đo và mô hình chuẩn. Mời các bạn cùng tham khảo.

Chủ đề:
Lưu

Nội dung Text: Bài giảng Thống kê học ứng dụng trong quản lý xây dựng: Phần 2 - TS. Nguyễn Duy Long

  1. 9/7/2010 Phần 02 Nguyễn Duy Long, Tiến Sỹ Bộ môn Thi Công và QLXD ©2010, Nguyễn Duy Long, Tiến Sỹ 1  Trình bày dữ liệu định lượng  Mô tả phân phối bằng số  Độ lệch chuẩn như thước đo và mô hình chuẩn ©2010, Nguyễn Duy Long, Tiến Sỹ 2 1
  2. 9/7/2010 ©2010, Nguyễn Duy Long, Tiến Sỹ 3  Tóm tắt dữ liệu giúp xem xét tập hợp các dữ liệu định lượng lớn.  Nế không Nếu khô tóm ó tắt, ắ sẽẽ rất ấ khó để biết biế các á dữ liệu cho chúng ta biết điều gì.  Không dùng biểu đồ bánh cho các biến định lượng. ©2010, Nguyễn Duy Long, Tiến Sỹ 4 2
  3. 9/7/2010 1997 1998 1999 2000 2001 Tháng 1 -$1.44 0.78 3.28 5.72 14.38 Tháng 2 -0.75 0.62 3.34 21.06 -1.08 Tháng 3 -0.69 2.44 -1.22 4.50 -10.11 Tháng 4 -0.88 -0.28 0.47 4.56 -12.11 Tháng 5 0.12 2.22 5.62 -1.25 5.84 Tháng 6 0.75 -0.50 -1.59 -1.19 -9.37 Tháng 7 0.81 2.06 4.31 -3.12 -4.74 Tháng 8 -1.75 -0.88 1.47 8.00 -2.69 Tháng 9 0.69 -4.50 -0.72 9.31 -10.61 Tháng 10 -0.22 4.12 -0.38 1.12 -5.85 Tháng 11 -0.16 1.16 -3.25 -3.19 -17.16 Tháng 12 0.34 -0.50 0.03 -17.75 -11.59 (Nguồn: De Veaux et al., 2006) ©2010, Nguyễn Duy Long, Tiến Sỹ 5  Chia khoản giá trị của biến định lượng thành các cột có cùng chiều rộng, gọi là hộc (bins).  Các hộc và số đếm trong mỗi hộc cho ra phân phối của biến định lượng. Giá thay đổi hàng Số tháng tháng của cổ phiếu hiế Cty C Enron: E Thay đổi giá ($) ©2010, Nguyễn Duy Long, Tiến Sỹ 6 3
  4. 9/7/2010  Biểu đồ tần suất tương đối mô tả phần trăm của các trường hợp cho mỗi hộc thay vì số đếm. Biểu đồ tần suất tương đối: Thay đổi giá hàng tháng của cổ phiếu Enron % số ttháng Thay đổi giá ($) ©2010, Nguyễn Duy Long, Tiến Sỹ 7  Biểu đồ cành-và-lá (stem-and-leaf displays) biểu diễn pphân p phối của biến định ị lượng ợ g như biểu đồ tần suất, nhưng vẫn giữ các giá trị riêng rẽ.  Biểu đồ cành-và-lá: ◦ chứa tất cả thông tin có trong biểu đồ tần suất ◦ thỏa mãn nguyên lý diện tích, và ◦ biểu ể thị sự phân phối. ố ©2010, Nguyễn Duy Long, Tiến Sỹ 8 4
  5. 9/7/2010  Cắt giá trị dữ liệu thành các con số chủ đạo (cành) và các con số kéo theo (lá).  Dùng các cành để gán hộc.  Chỉ dùng một con số cho mỗi lá – hoặc làm tròn hoặc cắt các giá trị dữ liệu để có một vị trí thập phân phía sau cành. ©2010, Nguyễn Duy Long, Tiến Sỹ 9  Xây dựng biểu đồ cành và lá cho dữ liệu sau: ◦ Với hộc 10 triệu VNĐ Công trình Chi phí móng (triệu VNĐ) ◦ Với hộc 5 triệu VNĐ 01 33 02 35 03 50 04 41 05 48 06 33 07 45 08 47 09 52 10 63 11 45 12 71 ©2010, Nguyễn Duy Long, Tiến Sỹ 10 5
  6. 9/7/2010  So sánh biểu đồ tần suất và biểu đồ cành-và-lá hiển thị nhịp tim của 24 phụ nữ ở một trạm y tế. Sự hiển thị nào có nhiều thông tin hơn? Biểu đồ cành-và-lá: Biểu đồ tần xuất Nhịp tim của 24 phụ nữ Tần suất T Nhịp tim (nhịp/phút) ©2010, Nguyễn Duy Long, Tiến Sỹ 11  Đồ thị điểm (dotplot) là một sự hiển thị đơn giản - chỉ đặt một dấu chấm (dot) dọc một trục cho mỗi an chiến thắng (giây) trường hợp trong dữ liệu.  Đồ thị điểm có thể biểu diễn theo phương ngang hoặc phương đứng. Thời gia  Thời gian chiến thắng của đua ngựa Kentucky Derby, 1875-2004 (hình bên) Nguồn: http://en.wikipedia.org/wiki/Kentucky_Derby Số cuộc đua ©2010, Nguyễn Duy Long, Tiến Sỹ 12 6
  7. 9/7/2010  Khi mô tả một phân phối, luôn nói về ba điều: hình dạng ạ g ((shape), p ), trung g tâm ((center), ), và sải (spread).  Hình dạng của phân phối là gì? ◦ Phân phối có một gò (hump) ở trung tâm hay có vài mỏm (bump) phân tán? ◦ Biểu ể đồ tần ầ suất ó đối ấ có đố xứng?? ◦ Có các đặc điểm bất thường lộ ra không? ©2010, Nguyễn Duy Long, Tiến Sỹ 13  Câu hỏi 1: Phân phối có một gò (hump) ở trung tâm hay có vài mỏm (bump) phân tán? ◦ Gò trên biểu đồ tần suất gọi là mốt (mode). ◦ Biểu đồ tần suất có một đỉnh gọi là một mốt (unimodal), hai đỉnh gọi là hai mốt (bimodal), và ba đỉnh trở lên gọi là nhiều (đa) mốt (multimodal). ©2010, Nguyễn Duy Long, Tiến Sỹ 14 7
  8. 9/7/2010  Biểu đồ tần suất hai mốt có hai đỉnh: Lượng số đếm ©2010, Nguyễn Duy Long, Tiến Sỹ 15  Tần suất đều (uniform): Biểu đồ tần suất dường như không có mốt và tất cả các thanh có chiều cao gần ầ như nhau: ợng số đếm Lượ ©2010, Nguyễn Duy Long, Tiến Sỹ 16 8
  9. 9/7/2010  Câu hỏi 2: Biểu đồ tần suất có đối xứng? Gấp ấ dọc đường đứt Biểu đồ tần suất đối xứng… … có thể gấp ở giữa sao cho hai bên gần như trùng nhau ©2010, Nguyễn Duy Long, Tiến Sỹ 17 ◦ Các đầu mỏng hơn của phân phối gọi là đuôi (tails). Nếu một đuôi trải xa hơn đuôi còn lại, biểu đồ tần suất là lệch (skewed) về phía có đuôi dài hơn. ◦ Biểu đồ tần suất màu xanh bên dưới gọi là lệch trái (skewed left), biểu đồ màu hồng là lệch phải (skewed right). Số nữ bệnh tim Số nữ bệnh tim Tuổi Lệ phí ($) ©2010, Nguyễn Duy Long, Tiến Sỹ 18 9
  10. 9/7/2010  Câu hỏi 3: Có các đặc điểm bất thường lộ ra g không? ◦ Thỉnh thoảng những đặc điểm bất thường cho ta biết có gì đó lý thú về dữ liệu ◦ Luôn đề cập đến các giá trị ngoại lệ (outliers) mà nó đứng tách ra trong phần thân của phân phối ◦ Có các chỗ gián đoạn (gap) trong phân phối? Nếu vậy, dữ liệu có thể có từ hơn một nhóm. ©2010, Nguyễn Duy Long, Tiến Sỹ 19  Biểu đồ tần suất sau đây có giá các trị ngoài lệ. Có ba thành phố ở thanh xa nhất bên trái.  Theo bạn, bạn điều gì đang xảy ra? Số nhân khẩu trong một hộ ở các thành phố được chọn lựa ành phố Số thà Nhân khẩu/hộ ©2010, Nguyễn Duy Long, Tiến Sỹ 20 10
  11. 9/7/2010  Nếu bạn phải lấy một số để mô tả tất cả dữ liệu, bạn sẽ lấy số gì?  Dễ dàng dà để tìm tì trung t tâ khi biểu tâm biể đồ tần tầ suất ất là một mốt và đối xứng – nó ngay ở giữa.  Ngược lại, sẽ rất khó để tìm trung tâm nếu biểu đồ tần suất là bị lệch hoặc có hai hay nhiều mốt.  Đến đây ta chỉ cần chỉ ra trung tâm của phân phối băng mắt thường. ©2010, Nguyễn Duy Long, Tiến Sỹ 21  Vấn đề ở sự biến đổi (thống kê học là về sự biến đổi).  Các giá trị của phân phối là gom lại xung quanh trung tâm hay sải ra?  Các phần tiếp theo ta nói về sải… ©2010, Nguyễn Duy Long, Tiến Sỹ 22 11
  12. 9/7/2010  Thường ta muốn so sánh hai hay nhiều phân phối với nhau thay vì chỉ xem một phân phối.  Khi xem xét hai phân phối, điều quan trọng là các biểu đồ tần suất có cùng tỷ lệ.  Khi so sánh các phân phối, chúng ta nói về hình dạng, trung tâm, và sải của các phân phối. ©2010, Nguyễn Duy Long, Tiến Sỹ 23 So sánh hai biểu đồ hân nữ  bên: Số bệnh nh ◦ Chúng có gì chung? ◦ Chúng khác nhau ra sao? Tuổi Các phân phối của bệnh ân nam nhân nữ và nam bị nhồi máu á cơ tim: i Số bệnh nhâ Tuổi ©2010, Nguyễn Duy Long, Tiến Sỹ 24 12
  13. 9/7/2010  Với một số tập dữ liệu, chúng ta quan tâm đến dữ liệu cư xử thế nào theo thời gian – vẽ biểu đồ thời gian (time plots) cho dữ liệu. (time-plots) ◦ Cổ phiểu của Enron như thế nào theo thời gian? Thay đổi về giá của cổ phiếu Enron, 1997-2002 Thay đổi về giá ($) Năm ©2010, Nguyễn Duy Long, Tiến Sỹ 25  Biểu đồ số người mắc bệnh và tử vong do cúm A/H1N1: Nguồn: Báo Tuổi Trẻ, 28/09/2009 ©2010, Nguyễn Duy Long, Tiến Sỹ 26 13
  14. 9/7/2010 ©2010, Nguyễn Duy Long, Tiến Sỹ 27  Để đo trung tâm, khoảng giữa (midrange, trị trung bình của các giá trị nhỏ và lớn nhất) là rất nhạy với các phân phối ố lệch hoặc giá trị ngoại lệ.  Trung vị (median) là lựa chọn hợp lý cho trung tâm hơn là khoảng giữa… ©2010, Nguyễn Duy Long, Tiến Sỹ 28 14
  15. 9/7/2010  Trung vị là giá trị mà một nửa các giá trị của dữ liệu nhỏ hơn nó và một nửa lớn hơn nó. ◦ Đó là g giá trịị g giữa của dữ liệu khi sắp xếp theo thứ Tuổi thọ của các nước thành viên của Liên Hiệp Quốc (2001) tự và chia biểu đồ tần suất ra hai phần có diện tích bằng nhau. ◦ Với số điểm dữ liệu là Số nước chẵn, lấy trung bình hai số ở giữa: S  median(2,4,6,7,8,9) =6.5 Tuổi thọ ©2010, Nguyễn Duy Long, Tiến Sỹ 29  Luôn cho biết độ sải (spread) cùng với trị trung tâm khi mô tả phân phối bằng số.  Khoảng (vùng) (range) của dữ liệu là sự khác nhau giữa các giá trị lớn và nhỏ nhất: Vùng (range) = max – min  Bất lợi của khoảng là nếu có một giá trị cực hạn có thể làm nó rất lớn và vì thế không đại diện cho dữ liệu nói chung. ©2010, Nguyễn Duy Long, Tiến Sỹ 30 15
  16. 9/7/2010  Khoảng tứ phân vị (interquartile range, IQR) bỏ qua các giá trị cực hạn và tập trung vào vùng giữa của dữ liệu.  Để tìm IQR, IQR trước tiên tìm các điểm tứ phân vị (quartiles), mà chia dữ liệu thành bốn đoạn bằng nhau. ◦ Điểm tứ phân vị dưới (lower quartile, Q1) là trung vị của nửa dữ liệu nằm dưới trung vị. ◦ Điểm tứ phân vị trên (upper quartile, Q3) là trung vị của nửa dữ liệu nằm trên trung vị.. ◦ Nếu số điểm trong dữ liệu là chẵn, việc phân chia là rõ ràng. g Nếu số lẻ, tính trungg vị trong g cả hai nửa của dữ liệu.  Sự khác nhau giữa hai điểm tứ phân vị là IQR IQR = điểm tứ phân vị trên – điểm tứ phân vị dưới ©2010, Nguyễn Duy Long, Tiến Sỹ 31  Điểm tứ phân vị dưới và trên là các phân vị (percentiles) thứ 25 và 75 của dữ liệu.  IQR chứa hứ 50% giá iá trị t ị ở giữa iữ của ủ phân hâ phốihối Tuổi thọ của các nước thành “Tóm tắt năm số” về tuổi thọ: viên của Liên Hiệp Quốc (2001) max = 73.6 Q3 = 62.65 Số nước Median = 57.7 Q1 = 48.9 min = 26.5 S năm Tuổi thọ ©2010, Nguyễn Duy Long, Tiến Sỹ 32 16
  17. 9/7/2010  Tóm tắt năm số (five- Chết tại các buổi diễn nhạc Rock, 1999-2000 number summary) của Số lượng chết phân phốiố cho biết ế vềề trung vị, hai điểm tứ phân vị, và các giá trị cực hạn (maximum and minimum). Max 47 năm ◦ Ví dụ: Tóm tắt năm số về tuổi lúc mất của 66 người Q3 22 xem các buổi diễn nhạc Median 19 rock do chen lấn như bên phải Q1 17 Min 13 ©2010, Nguyễn Duy Long, Tiến Sỹ 33  Biểu đồ hộp (boxplot) là biểu thị đồ họa về tóm tắt năm số*.  Biểu đồ hộp đặc biệt hữu ích khi so sánh các nhóm (groups). * Và một số thông tin khác, ví dụ là các giá trị ngoại lệ (outliers) ©2010, Nguyễn Duy Long, Tiến Sỹ 34 17
  18. 9/7/2010 1. Vẽ một trục bao hàm khoảng giá trị của dữ liệu • Vẽ ba đường ngang ngắn tại Q1, Q3, và trung vị. • Nối chúng lại bằng các đường đứng để hình thành một hộp (box). ©2010, Nguyễn Duy Long, Tiến Sỹ 35 2. Dựng “hàng rào” xung quyanh phần chính của dữ liệu. ◦ Hàng rào trên là 1.5xIQR trên Q3. ◦ Hàng rào dưới là 1.5xIQR dưới Q1. ©2010, Nguyễn Duy Long, Tiến Sỹ 36 18
  19. 9/7/2010 3. Dùng hàng rào để phát triển “đuôi” ◦ Vẽ các đường từ các đầu của hộp lên và xuống đến các giá trị dữ liệu cực hạn trong hàng rào. ◦ Nếu một giá trị dữ liệu nằm ngoài các hàng rào, đừng nối nó để trở thành đuôi. ©2010, Nguyễn Duy Long, Tiến Sỹ 37 4. Thêm các giá trị ngoại lệ nằm ngoài hàng rào bằng các ký hiệu khác. ©2010, Nguyễn Duy Long, Tiến Sỹ 38 19
  20. 9/7/2010  So sánh biểu đồ tần suất và biểu đồ hộp Chết tại các buổi diễn nhạc Rock, 1999-2000 Số lượng chết Tuổi  Biểu đồ trên biểu thị dữ liệu như thế nào? ©2010, Nguyễn Duy Long, Tiến Sỹ 39  Biểu đồ hộp so sánh hiệu quả của các bình chứa cà phê: Thay đổi nhiệt độ theo các nhãn hiệu của bình chứa cà phê Tahy đổi về nhiệt độ (oF) Bình chứa ©2010, Nguyễn Duy Long, Tiến Sỹ 40 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2