Bài giảng 6sigma: Phân tích tương quan và hồi quy
lượt xem 2
download
Sau khi học xong "Bài giảng 6sigma: Phân tích tương quan và hồi quy" sẽ giúp bạn hiểu được hệ số tương quan và mối quan hệ qua lại giữa các biến số thông qua phân tích tính tương quan; dự đoán biến số đầu ra với biến số đầu vào bằng cách sử dụng hệ xác định và phương trình hồi quy được tính từ phân tích hồi quy và thực hiện phân tích tương quan và phân tích hồi quy thông qua các ví dụ khác nhau trên Minitab. Mời các bạn tham khảo!
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng 6sigma: Phân tích tương quan và hồi quy
- Phân tí ch tương quan & hồ i quy Phân tích tương quan Phân tích hồi quy Muc tiêu hoc tâp ̣ ̣ ̣ * Hiểu được hê sô ̣ ́ tương quan và mối quan hê qua l ̣ ại giữa các biến số thông qua phân tích tính tương quan * Dự đoán biến số đầu ra với biến số đầu vào bằng cách sử dụng hệ xác định và phương trình hồi quy được tính từ phân tích hồi quy * Thực hiện phân tích tương quan và phân tích hồi quy thông qua các ví dụ khác nhau trên Minitab.
- Phân tí ch tương quan và hồ i quy? Phân tí ch tương quan ̣ Môt ky ̣ ̃ thuât ma ̉ ̀ chi ra được mức đô cua s ̣ ̉ ự liên kết giữa 2 biến số trong trong số những hang muc đ ̣ ̣ ược sử dung hê sô ̣ ̣ ́ tương quan. ̣ IQ ( Chỉ số thông minh) so với thành tích hoc tâp, nghiên c Ví du) ̣ ̣ ứu, hút thuốc ngược với biểu hiện ung thư phổi, chiều cao ngược với cân nặng, nhiệt độ quy trình ngược với phát triển sản phẩm, viêc tâp thê duc so v ̣ ̣ ̉ ̣ ới dung lượng phổi Phân tí ch hồ i quy ̣ Kỹ thuât phân ti ́ch thống kê mà cho phép chúng ta dự đoán biến thiên đầu ra với biến thiên đầu vào bắng cách xác định mối quan hệ chức năng giữa các biến thiên đó X Y XY XY Y X X Y Y X Proprietary to Samsung Electronics Company Correlation and Regression Analysis 2 Rev 7.0
- Tổng quát về phân tích tính tương quan Phân tích tính tương quan Phương pháp phân tích mức liên kết giữa các biến số. Có thể phân tích sử dụng biểu đồ phân tán và hệ số tương quan. Biểu đồ phân tán ̉ ̉ ̣ ̉ Trình bày các điêm biêu thi điêm dữ liêu trên bang phô ̣ ̉ ́i hợp. Biểu đồ phân tán chỉ ra mối quan hệ giữa hai biến thiên đó. Hê sô ̣ ́ tương quan Đây là sự trưng bày tuyến tính giữa 2 biến số trong các số hang. ̣ (Không đề cập đến mối quan hệ chức năng ) Mẫu của hệ số tương quan r ̣ ữa 1 và 1 > Có giá tri gi > Nếu r có ̣ giá tri (+) : t ương quan dương ̣ giá tri ( ) : t ương quan âm giá trị gần tới 0 (không): không tương quan giá trị gần hơn 1 hoặc đến 1: tương quan chặt chẽ Proprietary to Samsung Electronics Company Correlation and Regression Analysis 3 Rev 7.0
- Mối quan hệ giữa biểu đồ phân tá n và hệ số tương quan Tương quan dương manh mẽ ̣ Tương quan dương yếu Tương quan âm manh mẽ ̣ Tương quan âm yếu Proprietary to Samsung Electronics Company Correlation and Regression Analysis 4 Rev 7.0
- Trì nh tự phân tí ch tương quan Ví dụ Thực hiên môt phân ti ̣ ̣ ̉ ̣ ́ch đê nhân biê ̣ ̣ ́t mối liên hê hiên có giữa chi phí quang ̉ ̉ ̉ ̉ cáo (X) và doanh số bán hàng (Y)cua san phâm được san xuâ ̉ ̣ ́t tai công ty A. (Tên file : CorrelationRegression.mtw ) Chi phí Doanh số Chi phí Doanh số ̉ quang ca ́o bán hàng ̉ quang ca ́o bán hàng 336 325 445 405 418 375 395 375 355 367 465 405 445 385 346 335 365 375 417 395 455 395 365 345 395 395 445 395 405 365 388 353 346 355 459 415 429 385 435 365 365 365 Proprietary to Samsung Electronics Company Correlation and Regression Analysis 5 Rev 7.0
- Bướ c 1 Nhâp d ̣ ữ liêu ̣ Bướ c 2 Vẽ biêu đô ̉ ̀ phân tá n Graph > Scatterplot 2 ̉ ̣ ̣ ứa dữ liêu Biêu thi côt ch ̣ ̉ ̣ cua truc X va ̣ ̀ truc Y 1 ̣ Chon hi ̣ ̀nh dang ̉ ̉ cua biêu đồ S c atte rplo t o f S ale Vo lume v s Ex pe nditure 420 400 S a le Vo lu me 380 360 340 320 350 375 400 425 450 475 Ex p e n d itu re Proprietary to Samsung Electronics Company Correlation and Regression Analysis 6 Rev 7.0
- Bướ c 3 Tiế n hà nh phân tí ch tương quan Stat > Basic Statistics > Correlation ̣ ̣ ới dữ Chon côt v 1 liêụ Correlations: Expenditure, SaleVolume Pearson correlation of Expenditure and SaleVolume = 0.834 PValue = 0.000 PValue ̣ ́ tương quan Hê sô 2 Hệ tương quan là 0,834 chỉ ra rằng tương quan dương và Pgiá trị là 0,000 là nhỏ hơn mức tương đối của 0,05. Do đó, chúng ta có thể kết luận rằng tương quan chi phí quang ca ̉ ́o và doanh số bán hàng là đáng kể Proprietary to Samsung Electronics Company Correlation and Regression Analysis 7 Rev 7.0
- Sự lam dung va ̣ ̣ ̀ sử dung sai hê sô ̣ ̣ ́ tương quan Ngay cả nếu có tương quan giữa hai biến số, điều đó không có nghĩa là trung ̉ ̣ ến số đó là nguyên nhân cua cái kia. bình cua môt bi ̉ Biến số thứ ba có thể ẩn mà ảnh hưởng đến cả hai biến số kia. ̣ Càng bi mu ỗi cắn thì doanh thu bán kem càng lớn có phải không????? Mù a Anh h ̉ ưởng cua biê ̉ ́ n số thứ 3 Sự tương quan không có nghĩ a là tao ra kê ̣ ́ t qua! ̉ Proprietary to Samsung Electronics Company Correlation and Regression Analysis 8 Rev 7.0
- Phân tích tương quan chỉ ra sức manh liên k ̣ ết giữa hai biến số nhưng không chỉ ra mối quan hệ chức năng chính xác. Nếu trong trường hợp này, điều gì bạn phải làm để ước lượng kết quả cua bỉ ến số đầu ra vớ i biến số đầu vào ? Điều gì nên làm? Proprietary to Samsung Electronics Company Correlation and Regression Analysis 9 Rev 7.0
- Tổng quan về phân tích hồi quy Phân tí ch hồ i quy Kỹ thuật phân tích thống kê cho phép chúng ta dự đoán biến số đầu ra với biến số đầu vào bằng cách nhận dạng mối liên hệ chức năng giữa hai biến số sử dụng phương trình hồi quy. Phương trì nh hồ i quy Một phương trình mà dự đoán các giá trị đầu ra tương ứng với các giá trị đầu vào Cá c loai cua phân ti ̣ ̉ ́ ch hồ i quy Phân loai biê ̣ ́ n số đầ u và o ( y i β0 β1x i εi ) Phân tích hồi quy đơn giản : Khi chỉ có một biến số đầu vào Phân tích hồi quy phức tạp( : Khi có hai ho y i β0 β1x1i ặ 2 x 2i ề βc nhi u hơε in các bi ) ến số Phân loại bằng mối liên hệ giữa biến số đầu ra và biế n số đầu vào Phân tích hồi quy tuyến : Một phân tích mô hình giả định một mối quan hệ tuyến tính . Proprietary to Samsung Electronics Company Correlation and Regression Analysis 10 Rev 7.0
- Phân tích hồi quy đơn giản Ví dụ Chúng ta phải tìm ra tác động của chi phí quang ca ̉ ́o đến cột doanh thu của sản phẩm A được sản xuất tại công ty S. Thực hiện phân tích hồi quy với các dũ liệu sau. . (Tên file: CorrelationRegression.mtw ) Chi phí Doanh số Chi phí Doanh số ̉ quang ca ́o bán hàng ̉ quang ca ́o bán hàng 336 325 445 405 418 375 395 375 355 367 465 405 445 385 346 335 365 375 417 395 455 395 365 345 395 395 445 395 405 365 388 353 346 355 459 415 429 385 435 365 365 365 Proprietary to Samsung Electronics Company Correlation and Regression Analysis 11 Rev 7.0
- Bướ c 1 Phân tí ch hồ i quy Tao ra ph ̣ ương trình hồi quy thông qua viêc phân ti ̣ ́ch hồi quy Stat > Regression > Regression 1 ̣ ̣ Biến số phu thuôc 2 ̣ ̣ Biến số đôc lâp Vẽ đồ thị dư Kiểm soát hiên thi k ̉ ̣ ết quả đầu ra trên của 3 Thông tin khác nhau có thể sổ (Không hiên thi, ch ̉ ̣ ỉ hiên thi thông tin c ̉ ̣ ơ lưu trữ trên cửa sổ làm bản, hiên thi giá tr ̉ ̣ ị phù hợp và bảng dư ra) việc (Work Sheet window) Proprietary to Samsung Electronics Company Correlation and Regression Analysis 12 Rev 7.0
- Kết quả thực hiện từ Minitab Regression Analysis: SaleVolume versus Expenditure The regression equation is SaleVolume = 183 + 0.476 Expenditure Phương trình hồi quy Predictor Coef SE Coef T P Constant 182.81 29.36 6.23 0.000 Expenditure 0.47629 0.07239 6.58 0.000 Hệ số xác S = 13.56 RSq = 69.5% RSq(adj) = 67.9% định Analysis of Variance Source DF SS MS F P Regression 1 7955.9 7955.9 43.29 0.000 Residual Error 19 3492.1 183.8 Total 20 11448.0 PValue ̣ : Xác đinh co ́ hay không số thống kê có ý nghĩa. Proprietary to Samsung Electronics Company Correlation and Regression Analysis 13 Rev 7.0
- R2 (Hê sô ̣ ́ xá c đinh) ̣ R2 được gọi là hệ số xác định và đặt tại vị trí trong khoang ̉ 0≤R2≤1. R2 là ti lê ph ̉ ̣ ương sai được giải thích bằ ng dòng hồi quy nằm ngoài tổng các phương sai. Đó là, nếu R2 là 0.7, 70% của phương sai được giải thích bởi phương trình hồi quy và còn lại 30% là do nhân tố khác nhau. R2adj(Hệ số xác định được điều chỉnh ) R2 trở nên lớn hơn như biến thiên độc lập được thêm vào mẫu hồi quy. R2 giá trị không thể sử dụng như tiêu chí chọn lựa đối với mẫu ưu tiên trong việc phân tích hồi quy phức tạp. Thay vào đó, R2adj được sử dụng vì nó bổ sung thêm cho các hàm yếu đã cho ở trên. R2adj trở nên nhỏ hơn khi các biến số độc lập vô nghĩa được thêm vào mẫu. Do đó, R2adj thường được sử dụng như tiêu chí để chọn các mẫu ưu tiên. Proprietary to Samsung Electronics Company Correlation and Regression Analysis 14 Rev 7.0
- Thuyế t minh cho giá tri PValue va ̣ ̀ R2(adj) PValue 0.05 Phương sai được tính cho mức Phương sai được tính, nhưng nó ̣ thống kê quan trong. không là mức thống kê quan trong. ̣ [Tì m thấ y môt điê ̣ ̀ u gì đó có [Cầ n thêm nhiề u dữ liêu.] ̣ R2(adj) lớ n ý nghĩ a] Qúa ít dữ liêu co ̣ ̉ ̃n đến tình ́ thê dâ ̣ ̉ Xác nhân anh h ưởng cua nhân tô ̉ ́, ̣ trang na ̀y. Thêm vào đó những yếu ̣ ̣ ̉ ̉ đô lêch chuân, tiêu chuân..., va ̀ ý tố nằm ngoài cũng có thê cỏ ́ anh ̉ nghĩa thực tế. hưởng đáng kê.̉ Phương sai là môt phâ ̣ ̀n được tính cho mức thống kê có ý nghĩa. Phương sai không được tính và nó cũng không là mức thống kê có ý [Nhữ ng X khá c] nghĩa. R2(adj) nhỏ Quá nhiều dữ liêu co ̣ ̉ ̃n ́ thê dâ ̣ ̉ đến giá tri P nho. Nê ́u thấy R2 là [Không có gì ] vừa đu ( ̉ ngay cả sự thay đổi nhỏ ̣ Thu thâp ca ̀ng nhiều dữ liêu, va ̣ ̀ xem này cũng có ý nghĩa vì thay đổi trong nếu đó là mối quan hê phi tuyê ̣ ́n y rất quan trọng ) và những X ̉ tính. Kiêm tra nh ững X khác nữa. khác Proprietary to Samsung Electronics Company Correlation and Regression Analysis 15 Rev 7.0
- Những gì cần được kiểm tra trước khi định nghĩa phương trình hồi quy : Phương trình hồi chiếu lệch số thứ nhất được xác định thông qua phân tích hồi quy, có chính xác không? Có phải không cần mẫu trật tự cao? Proprietary to Samsung Electronics Company Correlation and Regression Analysis 16 Rev 7.0
- Bướ c 2 Xác minh mô hình hồi quy Phân tích các mô hình hồi quy để kiểm tra xem có hay không môt mô hình h ̣ ồi quy trình tự cao là cần thiết Stat > Regression > Fitted Line Plot Lưu trữ số dư và giá 4 trị phù hợp trong bảng làm việc 1 5 2 Xác định loại mô hình hồi quy Tuyến tính: hồi quy tuyến tính Bình phương: hồi quy đường 3 cong bình phương 6 Lập phương: hồi quy đường cong lập phương Proprietary to Samsung Electronics Company Correlation and Regression Analysis 17 Rev 7.0
- ̉ ực hiên t Kết qua th ̣ ừ Minitab Fitte d Line P lo t [ Tuyế n tí nh ] 420 S a le Vo lu me = 182.8 + 0.4763 Exp e n d itu re S 13.557 1 R Sq 69.5 % The regression equation is 400 R Sq(a dj) 67.9 % SaleVolume = 182.807 + 0.476288 Expenditure S a le Vo lu me 380 360 S = 13.5571 RSq = 69.5 % RSq(adj) = 67.9 % 340 320 350 375 400 425 450 475 Ex p e n d itu re [ Bì nh phương ] Fitte d Line P lo t S a le Vo lu me = 37.3 + 1.209 Exp e n d itu re 0.000914 Exp e n d itu re **2 The regression equation is 420 S R Sq 13.867 4 69.8 % SaleVolume = 37.3209 + 1.20943 Expenditure R Sq(a dj) 66.4 % 400 0.0009140 Expenditure **2 S a le Vo lu m e 380 360 S = 13.8674 RSq = 69.8 % RSq(adj) = 66.4 % 340 320 350 375 400 425 450 475 Ex p e n d itu re [ Lâp ph ̣ ương ] Fitte d Line P lo t S a le Vo lu me = 7213 + 56.04 Exp e n d itu re 0.1383 Exp e n d itu re **2 + 0.000114 Exp e n d itu re **3 The regression equation is 420 S R Sq 13.085 3 74.6 % SaleVolume = 7212.82 + 56.0416 Expenditure 400 R Sq(a dj) 70.1 % 0.138346 Expenditure **2 S a le Vo lu me 380 + 0.0001142 Expenditure **3 360 340 S = 13.0853 RSq = 74.6 % RSq(adj) = 70.1 % 320 350 375 400 425 450 475 Ex p e n d itu re Proprietary to Samsung Electronics Company Correlation and Regression Analysis 18 Rev 7.0
- Polynomial Regression Analysis: SaleVolume versus Expenditure The regression equation is SaleVolume = 7212.82 + 56.0416 Expenditure 0.138346 Expenditure**2 + 0.0001142 Expenditure**3 S = 13.0853 RSq = 74.6 % RSq(adj) = 70.1 % Analysis of Variance Source DF SS MS F P Regression 3 8537.2 2845.72 16.6197 0.000 Error 17 2910.8 171.23 Total 20 11448.0 Source DF Seq SS F P Linear 1 7955.91 43.2871 0.000 Quadratic 1 30.59 0.1591 0.695 Cubic 1 550.66 3.2160 0.091 Mặc dù R2adj của mô hình lập phương ở trang trước, kết quả cho chúng ta biết rằng giá trị p- cho mô hình bình phương và mô hình lập phương là lớn hơn 0,05, và do đó các ảnh hưởng không đáng kể. Đó là, ảnh hưởng của bình phương và lập phương là không đáng kể và do vậy mô hình tuyến tính là chính xác nhất. Proprietary to Samsung Electronics Company Correlation and Regression Analysis 19 Rev 7.0
- Bướ c 3 Thực hiện phân tích thừa dư Xác đinh co ̣ ́ hay không ‘mô hình hồi quy là phù hợp’ ? Stat > Regression > Regression > Residual Plots Dữ liêu đ ̣ ược hình thành mới khi thực hiên: ̣ “Storage>Residuals, Fits” trong bước 3 “Nhận dạng mẫu hồi quy” ̣ Chon sô ́ dư chuân ho ̉ ̉ ́a tông qua ́t. ̉ Tiêu chuân ho ́a số dư 1 = (Số dư) / (đô lêch chuân cua sô ̣ ̣ ̉ ̉ ́ d ư) 2 ̣ Chon ca ̣ ̣ ́c hang muc va ̀o ̣ đồ thi (plot) ̉ ̣ ̣ Vẽ tất ca hang muc na ̀y 3 Proprietary to Samsung Electronics Company Correlation and Regression Analysis 20 Rev 7.0
CÓ THỂ BẠN MUỐN DOWNLOAD
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn