Chương 11 HỒI QUY VÀ TƯƠNG QUAN ĐƠN BIẾN

Ths. Nguyễn Tiến Dũng Viện Kinh tế và Quản lý, Trường ĐH Bách khoa Hà Nội Email: dung.nguyentien3@hust.edu.vn

MỤC TIÊU CỦA CHƯƠNG

● Sau khi học xong chương này, người học sẽ ● Nói được phạm vi ứng dụng của phương pháp

phân tích hồi quy và tương quan đơn biến

● Biết cách thực hiện một phân tích hồi quy dựa trên

dữ liệu mẫu

● Nói được những điều kiện và giả định cần thiết khi

phân tích hồi quy

● Biết được cách tính và ý nghĩa của hệ số tương

quan Pearson và hệ số tương quan hạng Spearman

© Nguyễn Tiến Dũng Thống kê ứng dụng

2

CÁC NỘI DUNG CHÍNH

11.1 Làm quen với hồi quy 11.2 Mô hình hồi quy tuyến tính đơn 11.3 Tương quan tuyến tính 11.4 Tương quan giữa các biến định tính

© Nguyễn Tiến Dũng Thống kê ứng dụng

3

11.1 LÀM QUEN VỚI HỒI QUY

● 11.1.1 Khái niệm hồi quy

● Regression, Regression to mediority: quy các điểm DL đã biết về một

đường lý thuyết ● Đ/nghĩa của TK:

● NC mối liên hệ phụ thuộc giữa một biến phụ thuộc (biến đầu ra) và một hay

nhiều biến độc lập (biến đầu vào),

● nhằm ước tính hoặc dự báo giá trị trung bình tổng thể của biến phụ thuộc dựa

trên các giá trị biết trước của biến độc lập

● Hồi quy đơn biến (simple regression): 1 biến PT và 1 biến ĐL, DL định

lượng

● TD:

● KQ học tập = f(thời gian tự học) ● KQ học tập = f(thời gian tự học, yêu thích chuyên ngành) ● Lượng tiêu thụ = f(P1, P2, P3, P4) ● Chất lượng sản phẩm = f(NVL, thiết bị, công nghệ, con người, quản lý)

© Nguyễn Tiến Dũng Thống kê ứng dụng

4

11.1.2 Phân biệt liên hệ TK và liên hệ hàm số khi phân tích hồi quy

● Liên hệ hàm số: Y = b0 + b1X

● Với 1 giá trị của X, có 1 giá trị xác định và duy nhất

của Y

● Liên hệ TK: Y = b0 + b1.X

● X = thời gian tự học; Y = điểm GPA ● DL về X: dữ liệu mẫu ● Một X, có thể có nhiều Y ● DL mẫu  xác định đường HQ mẫu  dự đoán

đường HQ tổng thể

© Nguyễn Tiến Dũng Thống kê ứng dụng

5

11.1.3 Quy ước về ký hiệu và tên gọi

● Biến số: Y = b0 + b1.X1 + b2X2

● Biến độc lập, biến đầu vào, biến giải thích: X1, X2 ● Biến phụ thuộc, biến đầu ra, biến được giải thích:

Y

● Xki: giá trị của quan sát thứ i của biến Xk. ● b0, b1, b2: các hệ số của phương trình hồi quy

● Hồi quy đơn biến và hồi quy đa biến (HQ bội)

● HQ đơn biến (simple regression): 1 biến ĐL ● HQ đa biến (multiple regression): nhiều biến ĐL

© Nguyễn Tiến Dũng Thống kê ứng dụng

6

11.1.4 Các dạng liên hệ giữa biến độc lập và biến phụ thuộc

© Nguyễn Tiến Dũng Thống kê ứng dụng

7

11.2 MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN

● 11.2.1 Mở đầu

● NC mối liên hệ giữa thu nhập

(X) và chi tiêu (Y)

● Lấy mẫu n hộ gia đình ● Đường hồi quy lý thuyết

● E(y|xi) = b0 + b1.xi ● yi = b0 + b1xi + ei ● b0: hệ số tung độ gốc (hệ số

chặn)

● b1: hệ số dốc (hệ số góc) ● ei: sai số, thể hiện yếu tố nhiễu

© Nguyễn Tiến Dũng Thống kê ứng dụng

8

11.2.2 Các giả định liên quan đến yếu tố nhiễu

● Các ei tại mỗi xi có phân

phối bình thường ● Không có sự tương

quan giữa các nhiễu, hay các ei độc lập với nhau

© Nguyễn Tiến Dũng Thống kê ứng dụng

9

11.2.3 Ý nghĩa và cách xác định các hệ số hồi quy

● b1: hệ số độ dốc, đo lường lượng thay đổi TB trong biến phụ thuộc Y khi X thay đổi 1 đơn vị. ● b0: hệ số tung độ gốc cho biết giá trị của Y khi X = 0, có thể coi là ảnh hưởng TB của các yếu tố khác mà không có mặt trong mô hình

© Nguyễn Tiến Dũng Thống kê ứng dụng

10

Dữ liệu mẫu Bảng 11.1 Trang 311

Stt

Số năm (X) Doanh số (Y)

1

3

487

2

5

445

3

2

272

4

8

641

5

2

187

6

6

440

7

7

346

8

1

238

9

4

312

10

2

269

11

9

655

12

6

563

© Nguyễn Tiến Dũng Thống kê ứng dụng

11

Xác định các hệ số hồi quy

● Phương pháp Cực tiểu hoá tổng bình phương của các phần dư

© Nguyễn Tiến Dũng Thống kê ứng dụng

12

Tử số của b1

Mẫu số của b1

© Nguyễn Tiến Dũng Thống kê ứng dụng

13

11.2.4 Tính toán các kết quả hồi quy bằng Excel

● Vẽ đồ thị Scatter Chart + Add Trendline

© Nguyễn Tiến Dũng Thống kê ứng dụng

14

Sử dụng Data Analysis: Regression

© Nguyễn Tiến Dũng Thống kê ứng dụng

15

11.2.5 Vấn đề cần chú ý khi dự đoán với mô hình hồi quy ● Chỉ nên dự đoán 𝑌𝑖 với những giá trị Xi nằm giữa Xmin và Xmax, hoặc không quá xa Xmin và Xmax

● Lý do: với những giá trị Xi nằm càng xa Xtb, thì sai

số khi ước lượng Yi càng lớn.

● 𝑥 = 4,583 chỉ nên dự báo y quanh giá trị TB này. ● TD: Nếu một NVBH có 5 năm kinh nghiệm, thì

doanh số người này có thể đạt là:

© Nguyễn Tiến Dũng Thống kê ứng dụng

16

11.2.6 Hệ số xác định của PTHQ

● Hệ số xác định (Coefficient of Determination)

© Nguyễn Tiến Dũng Thống kê ứng dụng

17

11.2.7 Sai số chuẩn của hồi quy

● Sai số chuẩn của hồi quy sY/X: Thể hiện độ

lệch của các giá trị ŷi xung quanh yi

© Nguyễn Tiến Dũng Thống kê ứng dụng

18

© Nguyễn Tiến Dũng Thống kê ứng dụng

19

11.2.8 Suy diễn TK về hệ số độ dốc

● 11.2.8.1 Định lý Gauss-Markov ● Giả định: PP của Y là bình thường thì PP của

b0 và b1 cũng là PP bình thường

● Đ/lý Gauss-Markov

● Trong các ƯL tuyến tính không chệch cho hệ số hồi quy tổng thể, ƯL tìm được bằng PP bình phương bé nhất có PS cực tiểu.

© Nguyễn Tiến Dũng Thống kê ứng dụng

20

11.2.8.2 Khoảng tin cậy cho hệ số độ dốc

© Nguyễn Tiến Dũng Thống kê ứng dụng

21

11.2.8.3 KĐ ý nghĩa của hệ số độ dốc

● Cặp giả thuyết KĐ ● Chỉ tiêu KĐ tính: t = b1/sb1 ● Quy tắc bác bỏ H0:

● TD:

● b1 = 49,910 ● sb1 = 10,502 (xem Trang 323 về cách tính) ● tStat = 4,752  p-value = 0,008 ● t tra bảng: tn-2;α/2 = t10; 0,025=2,228 ● Bác bỏ H0.

© Nguyễn Tiến Dũng Thống kê ứng dụng

22

© Nguyễn Tiến Dũng Thống kê ứng dụng

23

11.2.9 Phân tích phần dư (residuals/ errors)

● Mục đích: Kiểm tra tính đúng đắn của các giả định (assumptions) của phương trình hồi quy

1. Quan hệ giữa X và Y thực sự là quan hệ

tuyến tính  trung bình của các phần dư ei = 0

2. Các phần dư ei có PP normal 3. PS của các phần dư là không đổi 4. Các phần dư là độc lập với nhau (không có hiện tượng tự tương quan giữa các phần dư)

© Nguyễn Tiến Dũng Thống kê ứng dụng

24

11.2.10 Sử dụng PT hồi quy để dự đoán giá trị TB và giá trị cá biệt của Y

● Giá trị TB

● Giá trị cá biệt

© Nguyễn Tiến Dũng Thống kê ứng dụng

25

11.3 TƯƠNG QUAN TUYẾN TÍNH

● 11.3.1 Hệ số tương quan tổng thể rho ● 11.3.2 Hệ số tương quan mẫu rXY

© Nguyễn Tiến Dũng Thống kê ứng dụng

26

Giá trị và ý nghĩa của hệ số tương quan Pearson

● r < 0: có mối liên hệ TQTT nghịch ● r > 0: có mối liên hệ TQTT thuận ● |r| > 0,8 : TQTT rất mạnh ● |r| = 0,6 – 0,8 : TQTT mạnh ● |r| = 0,4 – 0,6 : TQTT vừa phải ● |r| = 0,2 – 0,4 : TQTT yếu ● |r| < 0,2 : TQTT rất yếu

© Nguyễn Tiến Dũng Thống kê ứng dụng

27

KĐ ý nghĩa của hệ số tương quan tuyến tính

● Cặp giả thuyết KĐ ● Chỉ tiêu KĐ ● Quy tắc bác bỏ H0

● Bác bỏ H0 nếu |t| > tn-2;α/2

● TD: Trang 345 ● tStat = 4,7057 ● tn-2; /2 = 2,228 ● Bác bỏ H0  hệ số TQ tổng

thể thực sự khác 0

© Nguyễn Tiến Dũng Thống kê ứng dụng

28

11.4 TƯƠNG QUAN GIỮA CÁC BIẾN ĐỊNH TÍNH

11.4.1 Hệ số tương quan hạng Spearman 11.4.2 Hệ số Kendall Tau 11.4.3 Hệ số tương quan khác đối với DL thứ bậc

© Nguyễn Tiến Dũng Thống kê ứng dụng

29

KĐ theo hệ số tương quan hạng Spearman rS

● Biến x1 và x2 có dữ liệu thứ bậc (hoặc DL khoảng, nhưng đã biến

thành DL thứ bậc bằng cách xếp hạng trong từng mẫu), mẫu n cặp quan sát

● Tính chênh lệch hạng di = x1i – x2i (i = 1, 2, … n) ● Tính hệ số tương quan hạng rS ● H0: Không có liên hệ giữa 2 biến (Hệ số tương quan hạng của tổng

thể = 0)

● Nếu số trường hợp có di = 0 nhiều, thì cần thêm một hệ số hiệu chỉnh ● Nếu n > 10, PP của hệ số TQ hạng trên mẫu xấp xỉ PP bình thường

với độ lệch chuẩn là 1/(n – 1). Chỉ tiêu KĐ sẽ là z

© Nguyễn Tiến Dũng Thống kê ứng dụng

30