Bài giảng Tương quan và hồi qui tuyến tính

Chia sẻ: Vdfv Vdfv | Ngày: | Loại File: PDF | Số trang:15

Thêm vào BST

Báo xấu

306
lượt xem 28
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục tiêu của phân tích tương quan là đo lường cường độ của mối quan hệ giữa hai biến và . Trong phân tích tương quan, X và Y được xem là hai biến ngẫu nhiên “ngang nhau” – không phân biệt biến độc lập và biến phụ thuộc. Tương quan tuyến tính giữa hai biến và là khái niệm thể hiện mức độ của mối liên hệ tuyến tính giữa 2 biến.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Bài giảng Tương quan và hồi qui tuyến tính

Chương 8 TƯƠNG QUAN VÀ HỒI QUI TUYẾN TÍNH I- Tương quan tuyến tính: Khi phân tích mối liên hệ giữa 2 biến định lượng ngoài các phương pháp như dùng đồ thị, mã hóa thành biến định tính thì chúng ta có thể dùng phân tích tương quan; trong phạm vi môn học chúng ta chỉ phân tích tương quan tuyến tính. Mục tiêu của phân tích tương quan là đo lường cường độ của mối quan hệ giữa hai biến và . Trong phân tích tương quan, X và Y được xem là hai biến ngẫu nhiên “ngang nhau” – không phân biệt biến độc lập và biến phụ thuộc. Tương quan tuyến tính giữa hai biến và là khái niệm thể hiện mức độ của mối liên hệ tuyến tính giữa 2 biến.
Ví dụ: Một công trình nghiên cứu cho thấy giữa tuổi của người mẹ và lượng sữa có một mối liên quan theo chiều hướng nghịch, nghĩa là người mẹ nhiều tuổi sẽ ít sữa hơn người mẹ còn trẻ. Số liệu thu thập như sau: ( yTuổi (x)) Sữa STT 1 2 3 4 5 6 7 8 Tuổi 21 24 27 30 33 36 39 42 (X) Sữa 105 110 105 90 95 90 85 80 ( Y)
Hệ số tương quan đơn (r) • Hệ số tương quan tích mômen chéo Pearson ký hiệu là r: • Dùng để lượng hóa mức độ chặt chẽ mối liên hệ tuyến tính của 2 biến định lượng ( tức là 2 biến cùng biến động theo một cách nào đó, dùng thang đo Scale) • Hệ số tương quan hạng chạy từ: -1
Hệ số tương quang hạng (Spearman): Hệ số tương quan đơn chỉ phù hợp dữ liệu thu thập ở thang đo Scale, khi giá trị cụ thể của 2 biến X, Y không đo lường chính xác mà chỉ xếp theo hạng, khi đo ta dùng hệ số tương quan hạng để đo lương mối tương quan ví dụ: Ứng viên Xếp hạng của Chuyên gia 1 Chuyên gia 2 A 1 3 B 2 1 C 3 4
1.2 Kiểm định giả thuyết về hệ số tương quan • Có thể hệ số tương quan tính được ở tập mẫu rất cao, nhưng chưa chắc đã tồn tại mối tương quan đó trong tổng thể, vì vậy ta phải kiểm định hệ số tương quan trước khi dùng để xem xét tương quan tổng thể. • Chúng ta phát biểu giả thuyết H0 là: không có mối tương quan giữa 2 biến trong tổng thể. • Trong SPSS, bạn có thể yêu cầu kiểm định hai phía các hệ số ở mức ý nghĩa nhỏ hơn 0.05 (phân biệt bằng một dấu sao *) và ở mức ý nghĩa nhỏ hơn 0.01 (phân biệt bằng hai dấu sao **). Từ bảng tính hệ số tương quan, ta có thể thấy xác suất hệ số tương quan tính được ít nhất là ; trong khi không có mối liên hệ tuyến tính nào trong tổng thể giữa tuổi người mẹ và lượng sữa lớn hơn 0.01. Như vậy nếu sử dụng mức ý nghĩa 5% hay 1% (xác suất chấp nhận giả thuyết sai là 5% hay 1%) thì giả thuyết hệ số tương quan của tổng thể bằng 0 được chấp nhận.
Thực hiện đo lường tương quan tuyến tính trên SPSS
Chọn hai hay nhiều biến để phân tích Hệ số tương quan Kiểm định mức ý nghĩa Các tùy chọn tương quan hai biến
Giải thích từ Correlation Coefficients (hệ số tương quan): bạn phải chọn ít nhất là một loại hệ số trong các loại hệ số sau: • Pearson: hệ số này là mặc định. Bảng kết quả sẽ thể hiện một ma trận vuông gồm các hệ số tương quan. Tương quan của một biến nào đó với chính nó sẽ có hệ số tương quan là 1 và bạn có thể thấy chúng trên đường chéo của ma trận. Mỗi biến sẽ xuất hiện hai lần trong ma trận với hệ số tương quan y hệt nhau trong hai tam giác trên và dưới đối xứng nhau qua đường chéo của ma trận.
• Kendall’s tau-b: là một loại hệ số tương quan hạng. Khi chọn loại tương quan này SPSS sẽ thể hiện tương quan giữa mỗi biến với tất cả các biến khác trong tam giác phía dưới đường chéo của ma trận hệ số tương quan. • Spearman: Spearman là một loại hệ số tương quan hạng và nó sẽ được thể hiện trong phần tam giác phía dưới của ma trận hệ số. • Test of significance (kiểm định mức ý nghĩa). Có hai lựa chọn sau: • Two-tail (kiểm định hai phía). Loại kiểm định này được sử dụng trong trường hợp chiều hướng của mối liên hệ không thể xác định trước được. • One-tail (kiểm định một phía). Loại kiểm định này được sử dụng khi xác định chiều hướng của mối liên hệ giữa hai biến.
II- Hồi qui tuyến tính • Mục tiêu của phân tích hồi quy là mô hình hóa mối liên hệ, nghĩa là từ các dữ liệu mẫu thu thập được, cố gắng xây dựng mô hình toán học nhằm thể hiện một cách tốt nhất mối liên hệ giữa hai biến và . • Ví dụ: Bởi vì lượng sữa có xu hướng giảm tuyến tính so với tuổi của người mẹ, ta có thể sử dụng phương trình đường thẳng để mô tả mối liên hệ. Phương trình của đường thẳng là: • lượng sữa của người mẹ =B0 + B1 *(tuổi của người mẹ) • Độ dốc B1là tăng giảm của lượng sữa điều chỉnh (còn lại là dự đoán hay lý thuyết theo mô hình) do lượng tăng giảm của tuổi người mẹ. Hằng số B0 (tung độ của điểm tại đó đường thẳng cắt trục tung - the intercept) là lượng sữa lý thuyết khi tuổi người mẹ bằng 0.
• Tuy nhiên, tất cả các điểm dữ liệu được quan sát không nằm trên cùng một đường thẳng, chúng chỉ tập trung quanh một đường thẳng. Chúng ta có thể kẻ nhiều đường thẳng xuyên qua các điểm dữ liệu này, và vấn đề là: phải chọn ra một đường thẳng mô tả sát nhất xu hướng này. Phương pháp dùng để xác định đường thẳng này là phương pháp bình phương tối thiểu (least squares). Phương pháp này sẽ tìm ra một đường thẳng sao cho tổng các độ lệch bình phương giữa tung độ của các điềm dữ liệu quan sát và đường thẳng là cực tiểu. Hình sau minh họa đường thẳng tìm được bằng phương pháp bình phương tối thiểu được kẻ ngay trên đồ thị phân tán.
Cách xây dựng hồi qui tuyến tính đơn trên SPSS Vào Analyze -> Regression -> Linear … Biến phụ thuộc Biến độc lập Sao lưu biến trong phân tích hồi quy Các thống kê Các thông số liên quan Vẽ đồ thị hồi quy liên quan
Ví dụ khi chạy hồi qui tuyến tính số giờ dạy trong năm và số CTNC ta có Variables Entered/Removed b Variables Variables Model Entered Removed Method 1 Toång soá giôø daïy trong . Enter a naêm a. All requested variables entered. b. Dependent Variable: Toång soá coâng trình NCKH caùc caáp Model Summary b Adjusted R Std. Error of Model R R Square Square the Estimate 1 .091a .008 -.001 3.220 a. Predictors: (Constant), Toång soá giôø daïy trong naêm b. Dependent Variable: Toång soá coâng trình NCKH caùc caáp
b ANOVA Sum of Model Squares df Mean Square F Sig. 1 Regression 8.827 1 8.827 .851 .358a Residual 1067.935 103 10.368 Total 1076.762 104 a. Predictors: (Constant), Toång soá giôø daïy trong naêm b. Dependent Variable: Toång soá coâng trình NCKH caùc caáp a Coefficients Standardized Unstandardized Coefficients Coefficients Model B Std. Error Beta t Sig. 1 (Constant) 2.084 .594 3.509 .001 Toång soá giôø daïy trong naêm -.001 .001 -.091 -.923 .358 a.Dependent Variable: Toång soá coâng trình NCKH caùc caáp
Lập phương trình hồi qui đơn tuyến tính: • Tại bảng Coefficients(a) ta có thông tin về hệ số hồi qui mà phương pháp OLS ước lượng được như sau: • Tại ô B * (Constant) cho ta B0 • Tại ô B * (Số giờ dạy trong năm) cho ta B1 • Phương trình hồi qui cụ thể là: Số CTNC dự đoán = 2.084 – 0.001* Số giờ dạy ( Ở đây tương quan nghịch)