Phân tích dữ liệu 2

Hôm nay

 Kiểm định tương quan  Phân tích hồi quy

Các loại phân tích thống kê

 Phân tích mô tả

 Để mô tả những đặc điểm chính của dữ liệu

 Kiểm định sự khác biệt

 Để điểm định sự khác biệt trung bình

 Kiểm định tương quan

 Để xác định mối quan hệ giữa các biến

 Kiểm định sự phụ thuộc lẫn nhau

 Để tóm tắt thông tin dữ liệu bằng cách nhóm các biến

hoặc nhóm các đối tượng nghiên cứu.

Kiểm định tương quan

 Những đặc điểm để mô tả mối quan hệ

 Sự hiện diện của tương quan

 Phương hướng của tương quan

 Sức mạnh của tương quan

Thái độ thương hiệu

Ý định mua hàng

Kiểm định tương quan

 Những đặc điểm để mô tả quan hệ  Sự hiện diện của tương quan  Phương hướng của tương quan  Sức mạnh của tương quan

Source: socialresearchmethods.net

Kiểm định tương quan

 Những đặc điểm để mô tả mối quan hệ

 Sự hiện diện của tương quan

 Phương hướng của tương quan

 Sức mạnh của tương quan

một tác động nhỏ lên biến khác.

 Yếu: những sự thay đổi trong 1 biến có

 Mạnh: những sự thay đổi trong 1 biến

có tác động lớn lên biến khác.  Không: không có sự tương quan

Kiểm định tương quan – Các Loại Quan hệ

Mối quan hệ tuyến tính (Liner Relationship) Sức mạnh và phương hướng mối quan hệ giữa 2 biến vẫn giữ như cũ. Mối quan hệ có thể mô tả tốt nhất bằng cách Sử dụng 1 đường thẳng: y= a +bx +e

Mối quan hệ cong (Curvilinear relationship) Sức mạnh và phương hướng của mối quan hệ giữa các biến thay đổi đường đi của biến

Tiến trình phân tích

 Chọn các biến để phân tích  Xác định thang đo của các biến  Sử dụng phép phân tích mối quan hệ đúng  Xác định sự hiện diện của mối quan hệ  Nếu có quan hệ, xác định phương hướng của

mối quan hệ

 Nếu có quan hệ, đánh giá điểm mạnh của mối

quan hệ

Kiểm định tương quan (Phần I)

Mục đích của kiểm định Loại kiểm định Chi-Square Analysis (X2) Kiểm định mối quan hệ

giữa 2 biến định danh

Spearman Rank Order Correlation Coefficient

Pearson Product Moment Correlation Coefficient

Kiểm định mối quan hệ giữa 2 biến, trong đó có ít nhất 1 biến có thang đo thứ tự Kiểm định mối quan hệ giữa 2 biến có thang đo khoảng và/hoặc tỉ lệ

Một số định nghĩa

 Ý nghĩa thống kê và sức mạnh

 Ý nghĩa thống kê (Statistical Significance) đề cập

được tổng quát hóa cho tổng thể hay không

 Sức mạnh đề cập đến mối quan hệ bạn tìm thấy

đến mối quan hệ bạn tìm ra trong mẫu có thể

trong mẫu là mạnh, yếu hay không tồn tại.

Hệ số tương quan (Correlation Coefficients)

 Nó là một số hướng dẫn sắp xếp từ -1 đến +1, mô tả phương

hướng và sức mạnh của mối quan hệ giữa hai biến.

Dãy hệ số

Mô tả sức mạnh

Rất mạnh

.81 đến 1.00

Mạnh

.61 đến .80

Vừa phải

.41 đến .60

Yếu

.21 đến .40

.00 đến .20

Không

Phân tích Chi-Square

 Xác định 2 biến định danh có liên quan trong tổng thể hay

không

 Không đánh giá phương hướng và sức mạnh của mối liên hệ.

H0: Không có sự kiên kết giữa hai biến Ha: Có 1 sự liên kết giữa 2 biến

Spearman Rank Order Correlation

 Đo lường sức mạnh và phương hướng của mối quan hệ

trong đó có ít nhất một biến thứ tự

H0: Không có mối tương quan giũa hai biến Ha: Có 1 mối tương quan giữa 2 biến

Pearson Product Moment Correlation

 Đo lường sức mạnh và phương hướng của mối quan hệ giữa 2

biến có thang đo là khoảng va/hoặc tỉ lệ

H0: Không có sự tương quan giữa hai biến

Ha: Có một sự tương quan dương giữa hai biến

Kiểm định tương quan (Phần II)

 Phân tích hồi quy

 Cả hai mô tả mối quan hệ và tạo dự đoán

 Sử dụng các biến độc lập (independent

variables) để dự đoán kết quả biến phụ thuộc

 Không xác định biến độc lập (IV) có gây ra

(dependent variable)

biến phụ thuộc (DV) hay không

Các loại phân tích hồi quy

Loại phân tích

Phân tích hồi quy nhị biến (Bivariate regression analysis)

Phân tích hồi quy đa biến (Multiple Regression Analysis)

Mục đích của phân tích Phân tích mối quan hệ tuyến tính giữa một biến độc lập khoảng/tỉ lệ và một biến phụ thuộc khoảng/tỉ lệ. Phân tích mối quan hệ tuyến tính giữa nhiều biến độc lập khoảng/tỉ lệ và một biết phụ thuộc khoảng/tỉ lệ.

Phân tích hồi quy nhị biến

độc lập khoảng/tỉ lệ và một biến phụ thuộc khoảng/tỉ lệ.

 Y = b0 + b1 X + e

 Phân tích mối quan hệ tuyến tính giữa biến một biến

Y: biến phụ thuộc X: biến độc lập b0: tung độ gốc (the intercept) b1: độ dốc (slope (hệ số hồi quy)) e: sai số (error)

Những giả định phân tích hồi quy)

 Giả định 1: Các biến được đo lường với thang đo

khoảng hoặc tỉ lệ.

 Giả định 2: Các biến được phân phối chuẩn.

 Giả định 3: giả định có mối quan hệ tuyến tính giữa

IV và DV.

 Giả định 4: sai số được phân phối chuẩn và độc lập.

Phân tích hồi quy nhị biến

H0: Không có mối quan hệ giữa hai biến Ha: Có một mối quan hệ tuyến tính giữa biến độc lập và biến phụ thuộc

Phân tích hồi quy nhị biến

 y = b0 + b1 x + e H0: b1 = 0 Ha: b1 ≠ 0

Phân tích hồi quy nhị biến

 y = b0 + b1 x + e

Đáp viên

x

y

1

2

2

2

2

2

3

2

2

4

1

3

5

2

3

6

5

7

7

6

5

8

5

6

9

4

4

10

4

5

Phân tích hồi quy nhị biến

 Giả định 3: Giả định có mối quan hệ tuyến tính giữa

IV và DV

Phân tích hồi quy nhị biến

 Giả định 4: sai số được phân phối chuẩn và độc lập

 Kiểm tra “Standardized Predicted Dependent

Variable” (ZPRED) và “Standardized Residual”

(ZRESID).

phân tán các điểm đến mức nào.

R Square:  Cho biết mô hình đường thẳng khớp với đồ thị

 Cho biết phần trăm phương sai trong biến phụ

thuộc được giải thích bởi biến độc lập.

 Giá trị R square càng cao thì đường thẳng càng

khớp với đồ thị phân tán các điểm

 Do hệ số tương quan chạy từ -1.0 đến +1.0, nên

R square chạy từ 0 đến +1.0

Hệ số chưa chuẩn hóa B (Unstandardized Coefficient) trong bảng Coefficient : sức mạnh của mối quan hệ giữa x và y.

y = 0.506 + 0.682 x + 1.120

H0: b1 = 0 Ha: b1 ≠ 0 y = b0 + b1 x + e

Sig. value trong bảng Coefficient : Xác suất cho mối quan hệ giữa x và y tồn tại (p<0.05 có ý nghĩa tại mức ý nghĩa 95%)

Phân tích hồi quy đa biến

Phân tích mối quan hệ tuyến tính giữa nhiều biến độc lập có thang đo khoảng/tỉ lệ và một biến phụ thuộc có thang đa khoảng/tỉ lệ.

Phân tích hồi quy đa biến

 Multiple Regression Analysis

Phân tích hồi quy đa biến

Y = b0 + b1 X1 + b2 X2 + b3 X3 +...biXi + e

Y: biến phụ thuộc (dependent variable)

X1-Xi: biến độc lập (independent variable)

b0: tung độ gốc

b1- bi: hệ số hồi quy (egression coefficients)

e: sai số

Phân tích hồi quy đa biến

Y = b0 + b1 X1 + b2 X2 + b3 X3 +...biXi + e  Mô hình kiểm định tổng quát

H0: b1= b2 = b3 =…bi = 0

Ha: ít nhất một b ≠ 0  Mỗi biến độc lập

H0: bi = 0

Ha: bi ≠ 0

R Square adjusted:  Cho biết mô hình đường thẳng khớp với đồ thị

phân tán các điểm đến mức nào.

 Được sử dụng để phản ánh sát hơn mức độ phù hợp của mô hình hồi quy tuyến tính đa biến

 Adjusted R square < R square

Kiểm định mô hình tổng quát H0: b1= b2 = b3 =…bi = 0 Ha: ít nhất một b ≠ 0

Sig. (F-value) in the ANOVA Table:  Ý nghĩa thống kê của mô hình hồi quy tổng quát  Nếu nó có ý nghĩa thống kê (p<0.05), nó cho biết có

ít nhất 1 biến độc lập giải thích biến phụ thuộc.

Y = b0 + b1 X1 + b2 X2 + b3 X3 +...biXi + e

Hệ số chuẩn hóa Beta (Standardized Coefficients - Beta) trong bảng Coefficient :  Chỉ ra tầm quan trọng tương đối của các biến độc lập lên biến

phụ thuộc.

 Các biến độc lập khác nhau có thể được đo lường bởi các đơn

vị đo lường khác nhau, do đó ảnh hưởng đến hệ số chưa chuẩn hóa (B). Vì vậy, trong phân tích hồi quy đa biến, hệ số chuẩn hóa Beta được sử dụng thay cho hệ số chưa chuẩn hóa B

Y = b0 + b1 X1 + b2 X2 + b3 X3 +...biXi + e

Mỗi biến độc lập

H0: bi = 0 Ha: bi ≠ 0

Sig. value trong bảng Coefficient :  Xác suất để tồn tại mối quan hệ giữa biến độc lập và biến phụ thuộc (p<0.05 có ý nghĩa tại mức ý nghĩa 95%)

Thống kê cộng tuyến (Collinearity Statistics): kiểm định nếu các biến độc lập được tương quan cao Độ chấp nhận (Tolerance): những giá trị nhỏ hơn cho biết đa cộng tuyến (<=0.10 cho biết có sự cộng tuyến). Hệ số phóng đại phương sai -VIF (Variance Inflation Factor): Những giá trị lớn hơn cho biết đa cộng tuyến (>=5 cho biết có sự cộng tuyến).

Nếu hiện tượng đa cộng tuyến xảy ra:(Tolerance<=0.10; VIF >=5):  Kiểm tra sự tương quan giữa các biến độc lập.  Loại bỏ một trong các biến độc lập nếu hai biến độc lập có sự

tương quan trên 0.70.

 Thực hiện lại hồi quy đa biến với các biến độc lập còn lại.

Phân tích biến có nhiều lựa chọn

Bài tập

Công ty giày thời trang T&T được thành lập cách đây gần 20

năm tại TP.HCM. Hiện công ty có số lượng cửa hàng khắp các

tỉnh miền Đông Nam Bộ trên 30 cửa hàng.

Năm ngoái, công ty đã tiến hành thu thập một số dữ liệu ở

các cửa hàng bán lẻ để phân tích các nhân tố ảnh hưởng đến

doanh thu của cửa hàng. Bộ dữ liệu bao gồm doanh số trong

mỗi cửa hàng (ĐVT: tỉ đồng) [tên biến: Doanh số], số lượng

nhân viên [tên biến: nhân viên], số năm thành lập [tên biến:

số năm], và diện tích cửa hàng [tên biến: diện tích]

Bài tập

Yêu cầu: 1. Sử dụng SPSS, thực hiện phân tích tương quan giữa hai biến

độc lập (nhân viên kinh doanh và số năm thành lập) và biến

phụ thuộc (doanh số).

2.Sử dụng SPSS, thực hiện lần lượt hồi quy nhị biến giữa các

biến độc lập và biến phụ thuộc. Diễn dịch kết quả. Mô hình

nào dự báo tốt nhất.

3.Thực hiện hồi quy đa biến để xác định ảnh hưởng của 3 biến

độc lập lên biến phụ thuộc. Diễn dịch kết quả và đề xuất giải

pháp cho công ty.