Phần 03 Nguyễn Duy Long, Tiến Sỹ Bộ môn Thi Công và QLXD Bộ môn Thi Công và QLXD
1
©2010, Nguyễn Duy Long, Tiến Sỹ
Biểu đồ phân tán, sự liên hợp và sự tương
quanq
Phân tích hồi qui tuyến tính
2
©2010, Nguyễn Duy Long, Tiến Sỹ
9/7/2010
1
3
©2010, Nguyễn Duy Long, Tiến Sỹ
Đồ thị phân tán (scatter-plots) là biểu thị phổ biến
9/7/2010
Đồ thị phân tán là cách tốt nhất để bắt đầu quan
và hiểu quả cho dữ liệu.
4
©2010, Nguyễn Duy Long, Tiến Sỹ
sát mối liên hệ và cách lý tưởng để xem sự liên hợp của hai biến định lượng.
2
Với đồ thị phân tán, xem hướng (direction), dạng (form), độ chặt (strength), và các đặc điểm bất thường (unusual features).
(1) Hướng:
◦ Hướng âm: giá trị dữ liệu đi theo chiều từ trái qua phải và
từ trên xuống dưới.
◦ Hướng dương: theo chiều ngược lại.
5
©2010, Nguyễn Duy Long, Tiến Sỹ
Mối liện hợp dương
9/7/2010
” ó C “
i
ờ
l
i i i i
ả r t %
Nhận xét...
( (positive association) ) giữa năm (từ 1900) và % số người sẵn sàng bầu phụ nữ làm tổng thổng ở Mỹ.
Năm (từ 1900)
6
©2010, Nguyễn Duy Long, Tiến Sỹ
h é
3
Mối liện hợp âm
i
)
ờ ư g n
u ầ đ
9/7/2010
n ê r t
í
m ă n / i ờ ư g n / $ (
h p i h h C
(negative association) (negative association) giữa tốc độ lúc cao điểm ở xa lộ và chi phí trên đầu người do chậm trễ giao thông.
Tốc độ lúc cao điểm ở xa lộ (dặm/giờ)
7
©2010, Nguyễn Duy Long, Tiến Sỹ
(2) Dạng:
i
)
ờ ư g n
u ầ đ
Nhận xét Nhận xét...
n ê r t
í
m ă n / i ờ ư g n / $ (
h p i h h C
Tốc độ lúc cao điểm ở xa lộ (dặm/giờ)
8
©2010, Nguyễn Duy Long, Tiến Sỹ
◦ Nếu liên hệ đường thẳng (tuyến tính): như đám mây hay một đám chấm phân tán có dạng thẳng.
4
Dạng:
9/7/2010
ệ ◦ Nếu mối liên hệ không thẳng, nhưng cong cong, g, g, g g g trong khi vẫn tăng hay giảm dần…
9
©2010, Nguyễn Duy Long, Tiến Sỹ
Dạng:
… chúng ta có cách để làm nó thẳng hơn.
◦ Nếu mối liên hệ là rất cong, ◦ Nếu mối liên hệ là rất cong
10
©2010, Nguyễn Duy Long, Tiến Sỹ
… chúng ta nói nó là liên hợp không tuyến tính
5
(3) Độ chặt:
9/7/2010
ộ ◦ Các điểm có vẻ như theo một dòng thẳng g g
11
©2010, Nguyễn Duy Long, Tiến Sỹ
Độ chặt:
(dù thẳng, cong, hay uốn).
◦ Các điểm trông như một đám mây mờ mà không ộ g y g có một hướng xác định nào:
12
©2010, Nguyễn Duy Long, Tiến Sỹ
◦ Ghi chú: chúng ta sẽ định lượng sự phân tán “scatter” sau.
6
(4) Các đặc điểm bất thường: ◦ Tìm các điều không kỳ vọng. ◦ Điều thú vị nhất là khi quan sát đồ thị phân tán là thấy những điều không mong đợi sẽ tìm thấy.
9/7/2010
13
©2010, Nguyễn Duy Long, Tiến Sỹ
ự
ị
Xác định biến nào là trục x, biến nào trục y. Việc xác định dựa trên các vai trò của các
ệ biến.
Khi vai trò là rõ ràng
◦ Ví dụ: các giá trị ngoại lệ đứng tách ra. ◦ Nên nghi vấn với các cụm (clusters) hay các nhóm phụ (subgroups).
14
©2010, Nguyễn Duy Long, Tiến Sỹ
◦ Biến khám phá hay dự đoán (explanatory hay predictor variable) là trục x, ◦ Biến hưởng ứng (response variable) là trục y.
7
Chọn vai trò cho các biến phần nhiều về
ế
ề
ế
việc chúng ta suy nghĩ như thế nào về các biến hơn là về chính các biến đó.
Chỉ đặt một biến ở trục hoành không nhất
thiết có nghĩa là nó giả thích hay dự báo cái gì đó….
… Biến ở trục tung có thể không hưởng ứng
nó trong bất cứ cách nào. nó trong bất cứ cách nào.
15
©2010, Nguyễn Duy Long, Tiến Sỹ
Dữ liệu thu thập từ sinh viên các lớp thống kê )
9/7/2010
ặ g ( ọ g
học gồm chiều cao (in.) và cân nặng (lb): ) ( Mối liên hợp dương
) b l ( g n ặ n
n â C
Chiều cao (in.)
16
©2010, Nguyễn Duy Long, Tiến Sỹ
(positive association) và khá thẳng, mặc dù có một trị ngoại lệ.
8
Sự liên hợp giữa chiều cao và cân nặng của sinh viên các lớp thống kê học chặt (strong) ra sao? Nếu đinh lượng độ chặt, chúng ta muốn nó không
9/7/2010
Biểu đồ phân tán giữa chiều cao (cm) và cân nặng (kg) không thay đổi dạng phân tán.
) g k ( g n ặ ặ n
n â C
Chiều cao (in.)
17
©2010, Nguyễn Duy Long, Tiến Sỹ
phụ thuộc vào loại đơn vị.
Vì đơn vị không quan trọng, tại sao không g bỏ nó?
Có thể chuẩn hóa
ọ g, ạ
Biểu đồ phân tán của Biểu đồ phân tán của
Zchiều cao
các biến và viết tọa độ của một điểm là (zx, zy).
Zcân nặng
18
©2010, Nguyễn Duy Long, Tiến Sỹ
chiều cao và cân nặng được chuẩn hóa.
9
Dạng tuyến tính của biều đồ chuẩn hóa có vẻ dốc
9/7/2010
Giá trị chuẩn hóa được xác định như sau:
hơn biểu đồ phân tán ban đầu. Vì cả hai trục có tỷ lệ giống nhau. Tỷ lệ bằng nhau tạo khách quan cho biểu đồ phân tán và độ chặt của sự liện hợp.
( (
z z
) )
( (
,
) )
x z , z
y
xx xx s
yy yy s
x
y
19
©2010, Nguyễn Duy Long, Tiến Sỹ
Các điểm màu xanh lá cây làm mạnh sự liên hợp ợp ự dương giữa chiều cao và cân nặng.
Các điểm màu nâu có
ạ
Zchiều cao
khuynh hướng làm yếu sự liên hợp dương. Các điểm màu xanh Các điểm màu xanh
Zcân nặng
20
©2010, Nguyễn Duy Long, Tiến Sỹ
dương có điểm z bằng không không theo cách liên hợp nào.
10
Hệ số tương quan (r, correlation coefficient) đo
9/7/2010
y
r
lường độ chặt giữa biến khám phá và biến hưởng ứng. ứng
n
z z x 1
21
©2010, Nguyễn Duy Long, Tiến Sỹ
22
©2010, Nguyễn Duy Long, Tiến Sỹ
Sự tương quan đo độ chặt của sự liên hợp tuyến tính giữa các biến định lượng. Kiểm tra các điều kiện sau trước khi dùng sự tương quan: 1. Điều kiện các biến định lượng 2. Điều kiện khá thẳng (“Straight Enough”) 3. Điều kiện trị ngoại lệ
11
1. Điều kiện biến định lượng:
9/7/2010
◦
◦ ◦
23
©2010, Nguyễn Duy Long, Tiến Sỹ
2. Điều kiện khá thẳng:
Sự tương quan chỉ áp dụng cho các biến định Sự tương quan chỉ áp dụng cho các biến định lượng. Không dùng sự tương quan cho biến định tính. Kiểm tra đơn vị của các biến và chúng đo lường cái gì.
◦
Có thể tính (calculate) hệ số tương quan cho Có thể tính (calculate) hệ số tương quan cho bất cứ cặp biến nào.
◦ Nhưng sự tương quan chỉ đo lường độ chặt của
24
©2010, Nguyễn Duy Long, Tiến Sỹ
sự liên hợp tuyến tính và sẽ gây sai lệch (misleading) nếu mối quan hệ không tuyến tính.
12
3. Điều kiện trị ngoại lệ:
9/7/2010
◦ g y ệ ( Các trị ngoại lệ có thể gây lệch (distort) sự ) ự ị g ạ ệ tương quan rất lớn.
◦ Một trị ngoại lệ có thể gây sự tương quan nhỏ
◦
25
©2010, Nguyễn Duy Long, Tiến Sỹ
Dấu của hệ số tương quan chỉ hướng của sự liên
thành lớn hay dấu sự tương quan lớn. Khi gặp trị ngoại lệ, nên trình bày sự tương quan khi có và không có trị ngoại lệ đó.
Hệ số tương quan luôn trong khoảng [-1, +1]. Sự tương quan đối xử x và y giống nhau Không có đơn vị.
26
©2010, Nguyễn Duy Long, Tiến Sỹ
hợp.
13
Sự tương quan không bị ảnh hưởng bởi các thay
9/7/2010
Sự tương quan đo độ chặt của sự liên hợp tuyến
đổi trung tâm hay tỷ lệ của biến.
Sự tương quan là rất nhạy với trị ngoại lệ.
27
©2010, Nguyễn Duy Long, Tiến Sỹ
Không đo tương quan các biến định tính. Không nói sự tương quan khi có ý là sự liên hợp
m ể i Đ
Nhiệt độ nướng (oF)
28
©2010, Nguyễn Duy Long, Tiến Sỹ
tính giữa hai biến. ◦ Các biến có thể có sự liên hợp mạnh nhưng vẫn có sự tương quan nhỏ nếu sự liên hợp là không tuyến tính.
14
Chú ý các trị ngoại lệ.
Q
I
ố s
ệ H
Cở giày
29
©2010, Nguyễn Duy Long, Tiến Sỹ
Đừng nhầm sự tương quan (correlation) với
quan hệ nhân quả (causation). ◦ Không phải mọi sự liên hệ là quan hệ nhân quả. l ê h là
hô
hâ
h
h
g n à l
a ủ c
ố s
9/7/2010
n â D
Số cò
30
©2010, Nguyễn Duy Long, Tiến Sỹ
Chứng minh: Cò mang trẻ thơ đến cho làng
15
Chú ý các biến ẩn (lurking variables).
◦ Biến ẩn có thể đứng sau sự liên hệ và xác định nó bằng
cách tác động đồng thời hai biến. cách tác động đồng thời hai biến
Ví dụ- Bài tập 26 (tr.163): Điều tra năm 2004 về các quốc gia trên thế giới thấy rằng có độ tương quan dương giữa phần trăm dân số dùng điện thoại di động và tuổi thọ trung bình của quốc gia. ◦ Điều này có nghĩa là dùng điện thoại di động tốt cho sức
khỏe? khỏe?
◦ Hay ngược lại, bạn càng sống lâu thì khả năng gọi di động
nhiều hơn?
◦ Cái gì có thể giải thích độ tương quan dương này?
31
©2010, Nguyễn Duy Long, Tiến Sỹ
Linear Regression
32
©2010, Nguyễn Duy Long, Tiến Sỹ
9/7/2010
16
Từ biểu đồ phân tán bên dưới:
ế
◦ Cósự liênhợpchặt(mạnh)? ◦ Sự liênhợpcóvẽ tuyếntính?
Lượng chất béo và đạm cho thức ăn của Burger King
Dữ liệu từ 30 món trên menu của Burger King
) g (
o é b b t ấ h C
Đạm (g)
33
©2010, Nguyễn Duy Long, Tiến Sỹ
Sự tương quan lớn (âm hay dương) cho biết “có vẻ có sự liên hợp tuyến tính giữa hai biến,” nhưng không cho biết chính xác sự liên hợp đó là gì. không cho biết chính xác sự liên hợp đó là gì
Chúng ta có thể biết nhiều hơn về sự liên hợp tuyến
9/7/2010
Mô hình tuyến tính (linear model) chỉ là một phương
tính giữa hai biến định lượng với một mô hình.
34
©2010, Nguyễn Duy Long, Tiến Sỹ
trình đường thẳng qua dữ liệu.
17
• Bằng mắt thường, có thể vẽ đường thẳng qua dữ liệu? • Phương pháp để xác định mô hình phù hợp nhất (“best fit”)
) g (
o é b t ấ h C C
Đạm (g)
35
©2010, Nguyễn Duy Long, Tiến Sỹ
) g (
Mô hình sẽ không bao giờ hoàn hảo bất kể vẽ g đường nào.
(số dư)
o é b t ấ h C
Một số điểm nằm trên và một số nằm dưới đường thẳng.
Đạm (g)
Sự ước lượng từ mô hình gọi là giá trị dự hình gọi là giá trị dự báo (predicted value) (ký hiệu là ŷ)
36
©2010, Nguyễn Duy Long, Tiến Sỹ
9/7/2010
18
9/7/2010
Sự khác nhau giữa giá trị quan sát (observed value) và giá trị dự báo tương ứng (predicted value) gọi là số (phần) dư (residual). ố
Tìm số dư:
Số dư = quan sát – dự báo = y – ŷ
37
©2010, Nguyễn Duy Long, Tiến Sỹ
Một số số dư dương, một số âm nên chung qui thì
Vì thế không thể đánh giá đường thẳng vừa hợp
ầ
Tương tự như độ lệch chuẩn, chúng ta bình
thể đá h iá đườ ừ h có thể triệt tiêu lẫn nhau. Vì thế khô thẳ thế nào bằng cách cộng các số dư lại.
Tổng càng nhỏ thì các vừa hợp. Đường phù hợp nhất là đường có tổng các bình
phương số dư rồi cộng lại.
38
©2010, Nguyễn Duy Long, Tiến Sỹ
phương số dư nhỏ nhất. phương số dư nhỏ nhất.
19
Thông số thứ nhất của mô hình, b1, là độ
nghiêng (slope): b b
r r
1
ys s
x
(intercept):
Thông số thứ hai của mô hình, b0, là điểm chặn
b 0
y b x 1 Với ví dụ về Burger King ở trên Với ví dụ về Burger King ở trên…
39
©2010, Nguyễn Duy Long, Tiến Sỹ
Đường hồi qui cho dữ liệu của Burger King:
(ˆ y
chatbeo
damx ) (
97.08.6)
) g (
o é b t ấ h C C
Đạm (g)
40
©2010, Nguyễn Duy Long, Tiến Sỹ
9/7/2010
20
Dịch một độ lệch chuẩn từ trị trung bình của x sẽ dịch
9/7/2010
r lần độ lệch chuẩn từ trị trung bình của y.
◦ Biểu đồ phân tán theo điểm z điể
41
©2010, Nguyễn Duy Long, Tiến Sỹ
r không thể lớn hơn1, vì thế mỗi giá trị dự báo y có khuynh hướng tiến gần trị trung bình hơn là giá trị tương đối của x. ố
Đặc điểm này của mô hình tuyến tính gọi là hồi qui đến trị trung bình (regression to the mean); đường thẳng gọi là đường hồi qui (regression line).
42
©2010, Nguyễn Duy Long, Tiến Sỹ
Biể đồ hâ tá th cho chất béo và đạm:
21
Mô hình tuyến tính giả định sự liên hệ giữa hai biến là đường thẳng hoàn hảo. Các số dư là một phần của dữ liệu mà không được mô hình.
Dữ liệu= Môhình+ Số dư
9/7/2010
Số dư= Dữ liệu–Môhình
hay…
hay…
e
ˆ y
y
43
©2010, Nguyễn Duy Long, Tiến Sỹ
Số dư giúp chúng ta xem mô hình có hợp lý
Khi mô hình hồi qui hợp lý, không có điều lý thú
không.
Sau khi có mô hình hồi qui, thường biểu diển
nào còn lại.
trục x
44
©2010, Nguyễn Duy Long, Tiến Sỹ
các số dư với hy vọng không tìm thấy gì. ◦ Không có đường cong hay các đường thẳng ◦ Không có sự biến thiên tăng hay giảm khi di chuyển dọc
22
Các số dư cho hồi qui menu của Burger King trong
9/7/2010
) o é b
t ấ h c g (
ư d ố S
Đạm (g)
45
©2010, Nguyễn Duy Long, Tiến Sỹ
Sự biến đổi của các số dư là chìa khóa để
“chán”– không có dạng gì
Trong menu của Burger King,
đánh giá mô hình phù hợp ra sao.
Cáinàochỉ biếnđổinhiềuhơn?
Chất béo
Số dư
46
©2010, Nguyễn Duy Long, Tiến Sỹ
chất béo có độ lệch chuẩn là 16.4 gam. Độ lệch chuẩn của các số dư từ sự dự báo chất béo của mô hình là 9.2 gam. 9.2 gam.
23
Nếu độ tương quan là1.0 và mô hình dự báo giá trị chất béo hoàn hảo, tất cả các số dư sẽ băng không và không có sự biến đổi và không có sự biến đổi
Với menu của Burger King, độ tương quan là 0.83 –
9/7/2010
Tuy nhiên, chúng ta đã thấy các số dư của mô hình
không hoàn hảo.
Chúng ta có thể xác định sự biến đổi bao nhiêu trong mô hình và bao nhiêu còn lại trong các số dư.
47
©2010, Nguyễn Duy Long, Tiến Sỹ
Bình phương độ tương quan, R2, (“R-squared”) cho
ít biến đổi hơn so với chất béo.
biết phần biến đổi được xét trong mô hình. 1 R2 là phần biến đổi còn lại trong các số dư 1– R2 là phần biến đổi còn lại trong các số dư. Khi diễn tả mô hình hồi qui, cần cho biết ý nghĩa
hình.
◦ 31% (100% - 69%) sự biến đổi của chất béo còn lại trong các
g
số dư.
48
©2010, Nguyễn Duy Long, Tiến Sỹ
của R2. ◦ Với mô hình về Burger King, R2 = 0.832= 0.69, ◦ 69% của sự biến đổi của chất béo được xác định trong mô
24
R2luôn giữa 0% và 100%. Giá trị R2 tốt phụ thuộc vào loại dữ liệu đang phân
9/7/2010
49
©2010, Nguyễn Duy Long, Tiến Sỹ
Điều kiện các biến định lượng:
ế ố tích và muốn làm gì với kết quả. í à à ì
Điều kiện khá thẳng:
◦ Các thống kê học cao hơn sẽ cho ta biết kết hợp các dữ liệu định tính.
◦ Mô hình tuyến tính giả định sự liên hệ giữa hai biến là tuyến tính.
50
©2010, Nguyễn Duy Long, Tiến Sỹ
◦ Biểu đồ phân tán sẽ giúp kiểm tra giả định này hợp lý không. g p ý
25
Điều kiện giá trị ngoại lệ:
9/7/2010
Cá điể đổi
51
©2010, Nguyễn Duy Long, Tiến Sỹ
Không dùng đường thẳng cho liên hệ không tuyến
◦ Để ý đến các giá trị ngoại lệ. ◦ Các điểm ngoại lệ có thể thay đổi mô hình. i lệ ó hể h ô hì h ◦ Các trị ngoại lệ thậm chí có thể thay đổi dấu của góc nghiêng, làm sai lệch về sự liên hệ giữa hai biến.
Chú ý các điểm ngoại lệ. i lệ Đừng ngoại suy ngoài dữ liệu – mô hình phi tuyến có thể không còn giá trị ngoài khoảng giá trị có trong dữ liệu.
tính. Chú ý á điể
Đừng suy x gây ra y mặc dù có mô hình tuyến tính tốt cho mối quan hệ của chúng – sư liên hợp không phải là quan hệ nhân quả. p
Đừng chọn mô hình chỉ dựa trên R2.
52
©2010, Nguyễn Duy Long, Tiến Sỹ
ệ q q
26
Hồi qui về tuổi trung bình kết hôn đầu tiên của đàn ông và năm phù hợp cho các thập niên đầu của thế kỷ 20 nhưng không đúng cho giai đoạn sau:
u ầ đ
n ầ l
n ô h
t ế k
c ú
l
g n ô
n à đ
i ổ u T
Năm
53
©2010, Nguyễn Duy Long, Tiến Sỹ
Mô hình tuyến tính không làm tốt với các điểm với
9/7/2010
Bởi vì có vẻ chúng khác với trường hợp khác, đặc
số dư lớn.
Một điểm dữ liệu có thể bất thường nếu giá trị x của nó xa so với trị trung bình. Các điểm đó là có đòn bẩy lớn (high leverage).
54
©2010, Nguyễn Duy Long, Tiến Sỹ
biệt chú ý đến các điểm có số dư lớn. biệt chú ý đến các điểm có số dư lớn
27
‣ Mộ điểm có đòn bẩy lớn có khả năng thay đổi đường
hồi qui.
‣ Điểm đó gọi là ảnh hưởng nếu loại bỏ nó khỏi dữ liệu
ồ
ẳ
sẽ cho mô hình hồi qui khác hẳn.
‣ Ảnh hưởng Bozo (Bozo’s effect) vào mô hình “Chỉ số IQ
và cỡ giày”
Q
I
Q
I
ố s
ỉ ỉ
ố s s
ỉ
h C
h C
Cở giày
Cở giày
55
©2010, Nguyễn Duy Long, Tiến Sỹ
9/7/2010
Sự liên hợp chặt đến đâu, R2 lớn đến đâu, quan hệ p
Với dữ liệu quan sát (observational), khác với dữ liệu từ thí nghiệm được thiết kế (designed experiment), không có cách gì để chắc chắn rằng biến ẩn (lurking variable) không phải là nguyên nhân của một sự liên hợp.ợp
56
©2010, Nguyễn Duy Long, Tiến Sỹ
ậ g g , thẳng đến đâu đi nữa, không thể kết luận chỉ từ phân tích hồi qui là biến này gây ra biến kia.
28
Biểu đồ phân tán chỉ tuổi thọ trung bình của một
9/7/2010
)
m ă n (
ì
h n b
g n u u r t
ọ h t
i ổ u T
Bacsy /
daunguoi
57
©2010, Nguyễn Duy Long, Tiến Sỹ
Biểu đồ phân tán mới còn cho biết liên hệ giữa tuổi
ố quốc gia có liên hệ với số bác sỹ trên đầu người ở quốc gia đó. i đó
Vì ti vi rẻ hơn bác sỹ, tại sao không gởi ti vi tới các
thọ và số ti vi trên đầu người của quốc gia. ◦ Sự liên hệ thậm chí chặt hơn: R2 of 72% thay vì 62%
)
m ă n (
ì
h n b
g n n u r t
ọ h t
i ổ u T
Tivi /
daunguoi
58
©2010, Nguyễn Duy Long, Tiến Sỹ
nước có tuổi thọ thấp để có tuổi thọ cao hơn?
29
59
©2010, Nguyễn Duy Long, Tiến Sỹ
9/7/2010
30