9/7/2010
Nguyễn Duy Long, Tiến Sỹ Bộ môn Thi Công và QLXD
1
©2010, Nguyễn Duy Long, Tiến Sỹ
Phần 01 Nguyễn Duy Long, Tiến Sỹ Bộ môn Thi Công và QLXD Bộ môn Thi Công và QLXD
2
©2010, Nguyễn Duy Long, Tiến Sỹ
1
9/7/2010
Tư duy thống kê Giới thiệu về thống kê học Giới thiệu về thống kê học Trình bày dữ liệu định tính
3
©2010, Nguyễn Duy Long, Tiến Sỹ
4
©2010, Nguyễn Duy Long, Tiến Sỹ
2
9/7/2010
Thời gian của dự án:
g
◦ Dự án hoàn thành khi tất cả các công việc của nó
hoàn thành
◦ Thời gian hoàn thành các công việc là không chắc
chắn.
◦ Hiểu và giảm thiểu sự không chắc chắn này sẽ giúp
quản lý tiến độ thành công.
Phần ngầm
Phần khung
Hoàn thiện
Nguồn: Glossary oiStatistical Terms, ASQ Quality Press
5
©2010, Nguyễn Duy Long, Tiến Sỹ
Là một triết lý của việc học và hành động dựa
g y
ý
trên các nguyên lý cơ bản sau: ◦ Tất cả công việc đều xảy ra trong một hệ thống của
các qui trình kết nối nhau
◦ Sự biến thiên (variation) tồn tại trong tất cả các qui
trình
◦ Hiểu và giảm thiểu sự biến thiên là chìa khóa để
thành công
Nguồn: Glossary oiStatistical Terms, ASQ Quality Press
6
©2010, Nguyễn Duy Long, Tiến Sỹ
3
9/7/2010
Qui trình
Tư duy thống kê
Sự biến đổi
Các dữ liệu
há
Phươ Phương pháp thống kê
Các công cụ thống kê
7
©2010, Nguyễn Duy Long, Tiến Sỹ
8
©2010, Nguyễn Duy Long, Tiến Sỹ
4
9/7/2010
Đánh giá các kết luận sau đây: g
g g
◦ “Những người có cha mẹ có bằng đại học thì có khả năng (likely) lấy bằng đại học hơn là những người có cha mẹ không có bằng đại học.”
◦ “Lượng xe máy ở Sài Thành có liên hệ với lượng
nhà và đất ở ở Hà Thành.”
9
©2010, Nguyễn Duy Long, Tiến Sỹ
Nguồn: http://www.zda.vn
10
©2010, Nguyễn Duy Long, Tiến Sỹ
5
9/7/2010
Thống kê: Với thông tin trong i hô tay bạn, cái gì trong thùng?
Nguồn: MIT OCW, dựatrênGilbert, 1976
11
©2010, Nguyễn Duy Long, Tiến Sỹ
Thống kê học (statistics, số ít): Một cách lý
g
ậ ,
g p p
g ụ
p
luận, cùng với các công cụ và phương pháp đi kèm, được thiết kế để giúp chúng ta hiểu biết về thế giới.
Thống kê (satistics, số nhiều): các phép tính
cụ thể được thực hiện trên các dữ liệu (data).
12
©2010, Nguyễn Duy Long, Tiến Sỹ
6
Xác suất: Với thông tin trong thùng, cái gì trong tay bạn?
9/7/2010
Dữ liệu (Data)
Thống kê (Statistics)
Thông tin (Information)
13
©2010, Nguyễn Duy Long, Tiến Sỹ
Suy nghĩ (think)
Biểu thị (show)
Trình bày (tell) Trình bày (tell)
14
©2010, Nguyễn Duy Long, Tiến Sỹ
7
9/7/2010
15
©2010, Nguyễn Duy Long, Tiến Sỹ
ự
p
g
Quần thể (population): một nhóm gồm tất cả các thành phần mà nhà thực hành thống kê quan tâm. ◦ v.d. tất cả các nhà thầu ở Sài Gòn
Mẫu (sample): một tập hợp các dữ liệu rút ra
từ quần thể ◦ v.d. một mẫu 75 nhà thầu ở Sài Gòn
16
©2010, Nguyễn Duy Long, Tiến Sỹ
8
9/7/2010
Thông số (parameter): một đại lượng mô tả
quần thể q ◦ v.d. doanh thu bình quân của tất các nhà thầu là
100 tỷ đồng.
Trị (tham) số thống kê (statistic): một đại
lượng mô tả mẫu ◦ v.d. doanh thu bình quân của mẫu 75 nhà thầu là
120 tỷ đồng 120 tỷ đồng.
17
©2010, Nguyễn Duy Long, Tiến Sỹ
Quần thể
Mẫu
Tập con
Trị số thống kê
Thông số
Các quần thể có các thông số; các mẫu có các trị số thống kê
18
©2010, Nguyễn Duy Long, Tiến Sỹ
9
9/7/2010
19
©2010, Nguyễn Duy Long, Tiến Sỹ
Phương pháp thông kê Phương pháp thông kê
20
©2010, Nguyễn Duy Long, Tiến Sỹ
10
Thống kê học mô tả Thống kê học mô tả (descriptive statistics) Thông kê học suy luận Thông kê học suy luận (inferential statistics)
9/7/2010
◦ v.d. khảo sát, quan sát, thí hí
á
á
Thu thập số liệu d khả nghiệm
Trình bày dữ liệu
◦ v.d. biểu đồ và đồ thị
Xác định đặc điểm của dữ liệu Xác định đặc điểm của dữ liệu ◦ v.d. trung bình của mẫu =
xi n
21
©2010, Nguyễn Duy Long, Tiến Sỹ
Quá trình tạo ra một ước lượng, dự đoán, hay
ự
ị
q
quyết định về quần thể dựa trên mẫu. q y
Quần thể
Mẫu
Suy luận Suy luận
Trị số thống kê
Thông số
22
©2010, Nguyễn Duy Long, Tiến Sỹ
11
9/7/2010
23
©2010, Nguyễn Duy Long, Tiến Sỹ
Dữ liệu (data): là các đại lượng cùng ngữ
cảnh đi kèm.
Ngữ cảnh của dữ liệu: “Five W’s”: Who, What, When, Where, and Why. Có thể có cả “How.”
Dữ liệu không có ngữ cảnh đi kèm thì hầu
như vô nghĩa.
24
©2010, Nguyễn Duy Long, Tiến Sỹ
12
9/7/2010
Bảo hiểm
Họ Tên
Tuổi
Lương ngày
Đội Thi Công
Loại lao động
Phan Cam
18
50,000
1
Không
Vũ Phu
35
90,000
1
Có
Cao Giá
28
95,000
2
Không
45
90,000
1
Có
Trần Ai
Lê La
30
85,000
2
Có
30 30
90 000 90,000
1 1
Không Không
Lâm Tặc Lâm Tặc
Ngô Khoai
32
45,000
2
Có
22
50,000
Không
2
Phổ thông Nề Nề Sắt Điện Mộc Mộc Phổ thông Phổ thông
Phạm Thượng (Trích từ bảng lương tháng 9/2009, Dự Án “Xây Nhà Từ Nóc”)
25
©2010, Nguyễn Duy Long, Tiến Sỹ
Định tính Định tính (categorical)
Biến của dữ liệu
Định lượng (quantitative) (quantitative)
26
©2010, Nguyễn Duy Long, Tiến Sỹ
13
9/7/2010
27
©2010, Nguyễn Duy Long, Tiến Sỹ
Biểu đồ số người mắc bệnh và tử vong do
cúm A/H1N1:
Nguồn: BáoTuổiTrẻ, 28/09/2009
28
©2010, Nguyễn Duy Long, Tiến Sỹ
14
9/7/2010
1. Vẽ/tạo hình ảnh — có thể lộ ra những điều mà
chúng ta không thấy từ dữ liệu thô. ấ
2. Vẽ/tạo hình ảnh — những đặc điểm quan trọng của dữ liệu sẽ được thể hiện. Chúng ta có thể thấy những điều chúng ta không mong đợi.
3. Vẽ/tạo hình ảnh — cách tốt nhất để nói với người khác rằng dữ liệu của bạn có hình ảnh trình bày được chọn lựa kỹ.ỹ
29
©2010, Nguyễn Duy Long, Tiến Sỹ
Đếm số lượng của các giá trị dữ liệu cho mỗi
loại.
Tổ chức chúng vào một bảng chỉ số đếm, thể
hiện tổng số lượng và loại.
Ví dụ hạng vé tàu Titanic:
Ba qui tắc:
Đếm 325
285
706
30
©2010, Nguyễn Duy Long, Tiến Sỹ
15
885 Hạng vé Hạng nhất Hạng nhì Hạng ba Thủy thủ đoàn (Nguồn: De Veauxet al., 2006)
9/7/2010
Bảng tần suất tương đối cũng tương tự,
nhưng thể hiện dạng phần trăm (thay vì số đếm) cho mỗi loại. đế ) h
ỗ l
%
14.77
12.95
32 08 32.08
31
©2010, Nguyễn Duy Long, Tiến Sỹ
Thủy thủ đoàn
Hạng ba
Hạng hai
Hạng nhất
32
©2010, Nguyễn Duy Long, Tiến Sỹ
16
40.21 Hạng vé Hạnh nhất Hạng nhì Hạng ba H ng ba Thủy thủ đoàn
9/7/2010
Biểu đồ thanh tần suất tương đối mô tả sự phân phối
tương đối của số đếm cho mỗi loại.
Thỏa mãn “nguyên lý diện tích.” í h ”
ê lý d
h
“
Nhì
Nhất
Ba Thủy thủ đoàn
Hạng
Slide 3- 33
©2010, Nguyễn Duy Long, Tiến Sỹ
Khi quan tâm các phần trong tổng thể, biểu đồ
Nhất
Hạng hai
Thủy thủ
Hạnn ba
34
©2010, Nguyễn Duy Long, Tiến Sỹ
17
bánh là chọn lựa hay. Hạng
9/7/2010
Cho phép trình bày hai biến định tính cùng nhau. Cho phép thể hiện các thành phần được phân phối như thế nào theo mỗi biến, và tùy thuộc vào giá trị của biến thế nào theo mỗi biến và tùy thuộc vào giá trị của biến khác. ◦ v.d. xem xét hạng vé và sự sống sót của hành khách
trên tàu Titanic:
Hạng Ba Nhì
Nhất 203 178 118 Thủy thủ Tổng 711 212
t ó ó s g n ố S
122 528 167 673 1490
35
©2010, Nguyễn Duy Long, Tiến Sỹ
Các cột và hàng lề bên phải và bên dưới cho ra tổng số và các phân phối tần suất (frequency distributions) cho mỗi một biến. mỗi một biến
Mỗi phân phối tần suất gọi là phân phối lề (marginal
distribution) của biến tương ứng. ◦ Phân phối lề cho biến sống sót (survival) của tàu
Titanic:
325 706 285 885 2201 Sống Chết Tổng
Hạng Nhì Nhì Ba Ba
t ó ó s g n ố S
Nhất Nhất 203 118 178 Thủy thủ Thủy thủ 212
36
©2010, Nguyễn Duy Long, Tiến Sỹ
18
122 167 528 673 Sống Chết
9/7/2010
Mỗi phần tử của bảng cho ra số đếm của sự kết hợp giá
trị của hai biến. ◦ Ví dụ, phân tử thứ hai ở cột thủy thủ đoàn (crew) chỉ ra ◦ Ví dụ phân tử thứ hai ở cột thủy thủ đoàn (crew) chỉ ra
673 thủy thủ chết khi tàu Titanic bị chìm.
Hạng Ba Nhì
Nhất 203 178 118 Thủy thủ Tổng 711 212
t ó s g g n ố S
122 528 167 673 1490
37
©2010, Nguyễn Duy Long, Tiến Sỹ
Phân phối có điều kiện (conditional
325 706 285 885 2201 Sống ế Chết Tổng
ộ
)
p
distribution) cho ra phân phối của một biến p chỉ cho các thành phần thỏa mãn một điều kiện nào đó của biến khác. ◦ Phân phối có điều kiện của hạng vé với điều kiện
sống:
Nhì Hạng Ba
g n ố S
Nhất 203 118 Thủy thủ Tổng 711 212 178
38
©2010, Nguyễn Duy Long, Tiến Sỹ
19
28.6% 16.6% 25.0% 29.8% 100%
9/7/2010
◦ Phân phối có điều kiện của hạng vé, với điều kiện
thiệt mạng:
Hạng Ba Nhì
t ế h C
Nhất 122 528 167 Thủy thủ Tổng 1490 673
39
©2010, Nguyễn Duy Long, Tiến Sỹ
Các phân phối có điều kiện cho thấy rằng có sự
khác nhau về hạng vé và tỷ lệ sự sống sót. khác nhau về hạng vé và tỷ lệ sự sống sót
Sống sót
Chết
Nhất Nhì Ba Thủy thủ
40
©2010, Nguyễn Duy Long, Tiến Sỹ
20
8.2% 11.2% 35.4% 45.2% 100%
9/7/2010
Sự phân phối của hạng vé với người sống sót và sự phân phối của hạng vé với người không và sự phân phối của hạng vé với người không sống sót là khác nhau.
Hạng vé và sự sốngsót là có sự liện hệ, nhưng
chúng không độc lập.
ộ
g
g
y
Các biến được coi là độc lập khi sự phân phối của một biến trong bảng tùy thuộc là giống ộ g g nhau cho mỗi loại của biến còn lại.
41
©2010, Nguyễn Duy Long, Tiến Sỹ
Biểu đồ thanh phân đốt (segmented bar charts)
Hạng
m ă r t n ầ h P
Nhất Nhì Ba Thủy thủ
Sống sót
Chết
42
©2010, Nguyễn Duy Long, Tiến Sỹ
21
trình bày lượng thông tin giống với biểu đồ bánh. Biểu đồ thanh phân đốt giữa hạng vé và tình trạng sống sót:
9/7/2010
43
©2010, Nguyễn Duy Long, Tiến Sỹ
“Căn hộ giá trung bình bán chạy”:
Nguồn: BáoTuổiTrẻ, 24/10/2009
44
©2010, Nguyễn Duy Long, Tiến Sỹ
22
9/7/2010
Trình bày thành thật—đảm bảo biểu đồ nói ra
những gì đang thể hiện.
◦ Có vấn đề gì trong biểu đồ trên?
45
©2010, Nguyễn Duy Long, Tiến Sỹ
Đừng cường điệu hóa. Không kết luận những
điều chưa thể kết luậnậ
Đừng sử dụng trị trung bình không hợp lý—
mà có thể dẫn đến cái gọi là nghịch lý Simpson (Simpson’s Paradox).
46
©2010, Nguyễn Duy Long, Tiến Sỹ
23
9/7/2010
Hương có điểm TBTL 7.00 ở trường ĐHBK Thủy có điểm TBTL 7.50 ở trường ĐHBK Thủy có điểm TBTL 7.50 ở trường ĐHBK Ai có vẻ học tốt hơn trong các môn học ở
ĐHBK? Hương hay Thủy?
Theo bạn thì ai có khả năng đạt điểm cao hơn
trong môn học này?
47
©2010, Nguyễn Duy Long, Tiến Sỹ
Chất lượng thi công công trình của hai nhà thầu
A và B theo đánh giá của các chủ đầu tư (đạt/tổng số hợp đồng): (đạt/tổng số hợp đồng):
Dân dụng
Nhà thầu A 40/60 (66.6%) Loại công trình Công nghiệp Tổng 13/15 (86.7%) 53/75 (70.7%)
Chọn nhà thầu nào để thi công chất lượng hơn?
48
©2010, Nguyễn Duy Long, Tiến Sỹ
24
Nhà thầu B 5/8 Nhà thầu B 5/8 (62.5%) 42/50 42/50 (84.0%) 47/58 47/58 (81.0%)
9/7/2010
49
©2010, Nguyễn Duy Long, Tiến Sỹ
25