Chương 11 HỒI QUY VÀ TƯƠNG QUAN ĐƠN BIẾN
Ths. Nguyễn Tiến Dũng Viện Kinh tế và Quản lý, Trường ĐH Bách khoa Hà Nội Email: dung.nguyentien3@hust.edu.vn
MỤC TIÊU CỦA CHƯƠNG
● Sau khi học xong chương này, người học sẽ ● Nói được phạm vi ứng dụng của phương pháp
phân tích hồi quy và tương quan đơn biến
● Biết cách thực hiện một phân tích hồi quy dựa trên
dữ liệu mẫu
● Nói được những điều kiện và giả định cần thiết khi
phân tích hồi quy
● Biết được cách tính và ý nghĩa của hệ số tương
quan Pearson và hệ số tương quan hạng Spearman
© Nguyễn Tiến Dũng Thống kê ứng dụng
2
CÁC NỘI DUNG CHÍNH
11.1 Làm quen với hồi quy 11.2 Mô hình hồi quy tuyến tính đơn 11.3 Tương quan tuyến tính 11.4 Tương quan giữa các biến định tính
© Nguyễn Tiến Dũng Thống kê ứng dụng
3
11.1 LÀM QUEN VỚI HỒI QUY
● 11.1.1 Khái niệm hồi quy
● Regression, Regression to mediority: quy các điểm DL đã biết về một
đường lý thuyết ● Đ/nghĩa của TK:
● NC mối liên hệ phụ thuộc giữa một biến phụ thuộc (biến đầu ra) và một hay
nhiều biến độc lập (biến đầu vào),
● nhằm ước tính hoặc dự báo giá trị trung bình tổng thể của biến phụ thuộc dựa
trên các giá trị biết trước của biến độc lập
● Hồi quy đơn biến (simple regression): 1 biến PT và 1 biến ĐL, DL định
lượng
● TD:
● KQ học tập = f(thời gian tự học) ● KQ học tập = f(thời gian tự học, yêu thích chuyên ngành) ● Lượng tiêu thụ = f(P1, P2, P3, P4) ● Chất lượng sản phẩm = f(NVL, thiết bị, công nghệ, con người, quản lý)
© Nguyễn Tiến Dũng Thống kê ứng dụng
4
11.1.2 Phân biệt liên hệ TK và liên hệ hàm số khi phân tích hồi quy
● Liên hệ hàm số: Y = b0 + b1X
● Với 1 giá trị của X, có 1 giá trị xác định và duy nhất
của Y
● Liên hệ TK: Y = b0 + b1.X
● X = thời gian tự học; Y = điểm GPA ● DL về X: dữ liệu mẫu ● Một X, có thể có nhiều Y ● DL mẫu xác định đường HQ mẫu dự đoán
đường HQ tổng thể
© Nguyễn Tiến Dũng Thống kê ứng dụng
5
11.1.3 Quy ước về ký hiệu và tên gọi
● Biến số: Y = b0 + b1.X1 + b2X2
● Biến độc lập, biến đầu vào, biến giải thích: X1, X2 ● Biến phụ thuộc, biến đầu ra, biến được giải thích:
Y
● Xki: giá trị của quan sát thứ i của biến Xk. ● b0, b1, b2: các hệ số của phương trình hồi quy
● Hồi quy đơn biến và hồi quy đa biến (HQ bội)
● HQ đơn biến (simple regression): 1 biến ĐL ● HQ đa biến (multiple regression): nhiều biến ĐL
© Nguyễn Tiến Dũng Thống kê ứng dụng
6
11.1.4 Các dạng liên hệ giữa biến độc lập và biến phụ thuộc
© Nguyễn Tiến Dũng Thống kê ứng dụng
7
11.2 MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN
● 11.2.1 Mở đầu
● NC mối liên hệ giữa thu nhập
(X) và chi tiêu (Y)
● Lấy mẫu n hộ gia đình ● Đường hồi quy lý thuyết
● E(y|xi) = b0 + b1.xi ● yi = b0 + b1xi + ei ● b0: hệ số tung độ gốc (hệ số
chặn)
● b1: hệ số dốc (hệ số góc) ● ei: sai số, thể hiện yếu tố nhiễu
© Nguyễn Tiến Dũng Thống kê ứng dụng
8
11.2.2 Các giả định liên quan đến yếu tố nhiễu
● Các ei tại mỗi xi có phân
phối bình thường ● Không có sự tương
quan giữa các nhiễu, hay các ei độc lập với nhau
© Nguyễn Tiến Dũng Thống kê ứng dụng
9
11.2.3 Ý nghĩa và cách xác định các hệ số hồi quy
● b1: hệ số độ dốc, đo lường lượng thay đổi TB trong biến phụ thuộc Y khi X thay đổi 1 đơn vị. ● b0: hệ số tung độ gốc cho biết giá trị của Y khi X = 0, có thể coi là ảnh hưởng TB của các yếu tố khác mà không có mặt trong mô hình
© Nguyễn Tiến Dũng Thống kê ứng dụng
10
Dữ liệu mẫu Bảng 11.1 Trang 311
Stt
Số năm (X) Doanh số (Y)
1
3
487
2
5
445
3
2
272
4
8
641
5
2
187
6
6
440
7
7
346
8
1
238
9
4
312
10
2
269
11
9
655
12
6
563
© Nguyễn Tiến Dũng Thống kê ứng dụng
11
Xác định các hệ số hồi quy
● Phương pháp Cực tiểu hoá tổng bình phương của các phần dư
© Nguyễn Tiến Dũng Thống kê ứng dụng
12
Tử số của b1
Mẫu số của b1
© Nguyễn Tiến Dũng Thống kê ứng dụng
13
11.2.4 Tính toán các kết quả hồi quy bằng Excel
● Vẽ đồ thị Scatter Chart + Add Trendline
© Nguyễn Tiến Dũng Thống kê ứng dụng
14
Sử dụng Data Analysis: Regression
© Nguyễn Tiến Dũng Thống kê ứng dụng
15
11.2.5 Vấn đề cần chú ý khi dự đoán với mô hình hồi quy ● Chỉ nên dự đoán 𝑌𝑖 với những giá trị Xi nằm giữa Xmin và Xmax, hoặc không quá xa Xmin và Xmax
● Lý do: với những giá trị Xi nằm càng xa Xtb, thì sai
số khi ước lượng Yi càng lớn.
● 𝑥 = 4,583 chỉ nên dự báo y quanh giá trị TB này. ● TD: Nếu một NVBH có 5 năm kinh nghiệm, thì
doanh số người này có thể đạt là:
© Nguyễn Tiến Dũng Thống kê ứng dụng
16
11.2.6 Hệ số xác định của PTHQ
● Hệ số xác định (Coefficient of Determination)
© Nguyễn Tiến Dũng Thống kê ứng dụng
17
11.2.7 Sai số chuẩn của hồi quy
● Sai số chuẩn của hồi quy sY/X: Thể hiện độ
lệch của các giá trị ŷi xung quanh yi
© Nguyễn Tiến Dũng Thống kê ứng dụng
18
© Nguyễn Tiến Dũng Thống kê ứng dụng
19
11.2.8 Suy diễn TK về hệ số độ dốc
● 11.2.8.1 Định lý Gauss-Markov ● Giả định: PP của Y là bình thường thì PP của
b0 và b1 cũng là PP bình thường
● Đ/lý Gauss-Markov
● Trong các ƯL tuyến tính không chệch cho hệ số hồi quy tổng thể, ƯL tìm được bằng PP bình phương bé nhất có PS cực tiểu.
© Nguyễn Tiến Dũng Thống kê ứng dụng
20
11.2.8.2 Khoảng tin cậy cho hệ số độ dốc
© Nguyễn Tiến Dũng Thống kê ứng dụng
21
11.2.8.3 KĐ ý nghĩa của hệ số độ dốc
● Cặp giả thuyết KĐ ● Chỉ tiêu KĐ tính: t = b1/sb1 ● Quy tắc bác bỏ H0:
● TD:
● b1 = 49,910 ● sb1 = 10,502 (xem Trang 323 về cách tính) ● tStat = 4,752 p-value = 0,008 ● t tra bảng: tn-2;α/2 = t10; 0,025=2,228 ● Bác bỏ H0.
© Nguyễn Tiến Dũng Thống kê ứng dụng
22
© Nguyễn Tiến Dũng Thống kê ứng dụng
23
11.2.9 Phân tích phần dư (residuals/ errors)
● Mục đích: Kiểm tra tính đúng đắn của các giả định (assumptions) của phương trình hồi quy
1. Quan hệ giữa X và Y thực sự là quan hệ
tuyến tính trung bình của các phần dư ei = 0
2. Các phần dư ei có PP normal 3. PS của các phần dư là không đổi 4. Các phần dư là độc lập với nhau (không có hiện tượng tự tương quan giữa các phần dư)
© Nguyễn Tiến Dũng Thống kê ứng dụng
24
11.2.10 Sử dụng PT hồi quy để dự đoán giá trị TB và giá trị cá biệt của Y
● Giá trị TB
● Giá trị cá biệt
© Nguyễn Tiến Dũng Thống kê ứng dụng
25
11.3 TƯƠNG QUAN TUYẾN TÍNH
● 11.3.1 Hệ số tương quan tổng thể rho ● 11.3.2 Hệ số tương quan mẫu rXY
© Nguyễn Tiến Dũng Thống kê ứng dụng
26
Giá trị và ý nghĩa của hệ số tương quan Pearson
● r < 0: có mối liên hệ TQTT nghịch ● r > 0: có mối liên hệ TQTT thuận ● |r| > 0,8 : TQTT rất mạnh ● |r| = 0,6 – 0,8 : TQTT mạnh ● |r| = 0,4 – 0,6 : TQTT vừa phải ● |r| = 0,2 – 0,4 : TQTT yếu ● |r| < 0,2 : TQTT rất yếu
© Nguyễn Tiến Dũng Thống kê ứng dụng
27
KĐ ý nghĩa của hệ số tương quan tuyến tính
● Cặp giả thuyết KĐ ● Chỉ tiêu KĐ ● Quy tắc bác bỏ H0
● Bác bỏ H0 nếu |t| > tn-2;α/2
● TD: Trang 345 ● tStat = 4,7057 ● tn-2; /2 = 2,228 ● Bác bỏ H0 hệ số TQ tổng
thể thực sự khác 0
© Nguyễn Tiến Dũng Thống kê ứng dụng
28
11.4 TƯƠNG QUAN GIỮA CÁC BIẾN ĐỊNH TÍNH
11.4.1 Hệ số tương quan hạng Spearman 11.4.2 Hệ số Kendall Tau 11.4.3 Hệ số tương quan khác đối với DL thứ bậc
© Nguyễn Tiến Dũng Thống kê ứng dụng
29
KĐ theo hệ số tương quan hạng Spearman rS
● Biến x1 và x2 có dữ liệu thứ bậc (hoặc DL khoảng, nhưng đã biến
thành DL thứ bậc bằng cách xếp hạng trong từng mẫu), mẫu n cặp quan sát
● Tính chênh lệch hạng di = x1i – x2i (i = 1, 2, … n) ● Tính hệ số tương quan hạng rS ● H0: Không có liên hệ giữa 2 biến (Hệ số tương quan hạng của tổng
thể = 0)
● Nếu số trường hợp có di = 0 nhiều, thì cần thêm một hệ số hiệu chỉnh ● Nếu n > 10, PP của hệ số TQ hạng trên mẫu xấp xỉ PP bình thường
với độ lệch chuẩn là 1/(n – 1). Chỉ tiêu KĐ sẽ là z
© Nguyễn Tiến Dũng Thống kê ứng dụng