intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng 6sigma: Phân tích tương quan và hồi quy

Chia sẻ: _ _ | Ngày: | Loại File: PPT | Số trang:31

35
lượt xem
2
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Sau khi học xong "Bài giảng 6sigma: Phân tích tương quan và hồi quy" sẽ giúp bạn hiểu được hệ số tương quan và mối quan hệ qua lại giữa các biến số thông qua phân tích tính tương quan; dự đoán biến số đầu ra với biến số đầu vào bằng cách sử dụng hệ xác định và phương trình hồi quy được tính từ phân tích hồi quy và thực hiện phân tích tương quan và phân tích hồi quy thông qua các ví dụ khác nhau trên Minitab. Mời các bạn tham khảo!

Chủ đề:
Lưu

Nội dung Text: Bài giảng 6sigma: Phân tích tương quan và hồi quy

  1. Phân tí ch tương quan & hồ i  quy  Phân tích tương quan   Phân tích hồi quy  Muc tiêu hoc tâp ̣ ̣ ̣ * Hiểu được hê sô ̣ ́ tương quan và mối quan hê qua l ̣ ại giữa các biến số thông qua phân  tích tính tương quan *  Dự  đoán  biến  số  đầu  ra  với  biến  số  đầu  vào  bằng  cách  sử  dụng  hệ  xác  định  và  phương trình hồi quy được tính từ phân tích hồi quy * Thực hiện phân tích tương quan và phân tích hồi quy thông qua các ví dụ khác nhau  trên Minitab.
  2. Phân tí ch tương quan và hồ i quy?  Phân tí ch tương quan ̣ Môt ky ̣ ̃ thuât ma ̉ ̀ chi ra được mức đô cua s ̣ ̉ ự liên kết giữa 2 biến số trong trong  số những hang muc đ ̣ ̣ ược sử dung hê sô ̣ ̣ ́ tương quan. ̣ IQ ( Chỉ số thông minh) so với thành tích hoc tâp, nghiên c Ví du)  ̣ ̣ ứu, hút thuốc  ngược với biểu hiện ung thư phổi, chiều cao ngược với cân nặng, nhiệt độ quy  trình ngược với phát triển sản phẩm, viêc tâp thê duc so v ̣ ̣ ̉ ̣ ới dung lượng phổi    Phân tí ch hồ i quy ̣ Kỹ thuât phân ti ́ch thống kê mà cho phép chúng ta dự đoán biến thiên đầu ra  với biến thiên đầu vào bắng cách xác định mối quan hệ chức năng giữa các biến  thiên đó  X­ Y X­Y X­Y Y X­ X­ Y Y X­ Proprietary to Samsung Electronics Company Correlation and Regression Analysis­ 2 Rev  7.0
  3. Tổng quát về phân tích tính tương quan  Phân tích tính tương quan  Phương pháp phân tích mức liên kết giữa các biến số. Có thể phân tích sử dụng  biểu đồ phân tán và hệ số tương quan.  Biểu đồ phân tán ̉ ̉ ̣ ̉    Trình bày các điêm biêu thi điêm dữ liêu trên bang phô ̣ ̉ ́i hợp. Biểu đồ phân  tán chỉ ra mối quan hệ  giữa hai biến thiên đó.  Hê sô ̣ ́  tương quan ­ Đây là sự trưng bày tuyến tính giữa 2 biến số trong các số hang.  ̣ (Không đề cập đến mối quan hệ chức năng ) ­ Mẫu của hệ số tương quan r ̣ ữa ­1 và 1 > Có giá tri gi > Nếu r có ̣ giá tri (+) : t ương quan dương ̣ giá tri ( ­ ) : t ương quan âm giá trị gần tới 0 (không): không tương quan                    giá trị gần hơn ­1 hoặc đến 1: tương quan chặt chẽ Proprietary to Samsung Electronics Company Correlation and Regression Analysis­ 3 Rev  7.0
  4.  Mối quan hệ giữa biểu đồ phân tá n và hệ số  tương quan   Tương quan dương manh mẽ ̣  Tương quan dương yếu  Tương quan âm manh mẽ ̣  Tương quan âm yếu Proprietary to Samsung Electronics Company Correlation and Regression Analysis­ 4 Rev  7.0
  5. Trì nh tự phân tí ch tương quan  Ví  dụ Thực hiên môt phân ti ̣ ̣ ̉ ̣ ́ch đê nhân biê ̣ ̣ ́t mối liên hê hiên có giữa chi phí quang  ̉ ̉ ̉ ̉ cáo (X) và doanh số bán hàng (Y)cua san phâm được san xuâ ̉ ̣ ́t tai công ty A.  (Tên file : Correlation­Regression.mtw ) Chi phí   Doanh số    Chi phí   Doanh số    ̉ quang ca ́o bán hàng ̉ quang ca ́o bán hàng 336               325 445               405 418               375 395               375 355               367 465               405 445               385 346               335 365               375 417               395 455               395 365               345 395               395 445               395 405               365 388               353 346               355 459               415 429               385  435               365 365               365 Proprietary to Samsung Electronics Company Correlation and Regression Analysis­ 5 Rev  7.0
  6. Bướ c 1      Nhâp d ̣ ữ  liêu ̣ Bướ c 2      Vẽ  biêu đô ̉ ̀  phân tá n Graph > Scatterplot 2 ̉ ̣ ̣ ứa dữ liêu  Biêu thi côt ch ̣ ̉ ̣ cua truc X va ̣ ̀ truc Y 1 ̣ Chon hi ̣ ̀nh dang  ̉ ̉ cua biêu đồ S c atte rplo t  o f  S ale Vo lume   v s   Ex pe nditure 420 400 S a le Vo lu me 380 360 340 320 350 375 400 425 450 475 Ex p e n d itu re Proprietary to Samsung Electronics Company Correlation and Regression Analysis­ 6 Rev  7.0
  7. Bướ c 3      Tiế n hà nh phân tí ch tương quan Stat > Basic Statistics > Correlation ̣ ̣ ới dữ  Chon côt v 1 liêụ Correlations: Expenditure, SaleVolume  Pearson correlation of Expenditure and SaleVolume = 0.834 P­Value = 0.000 P­Value ̣ ́ tương quan Hê sô 2 Hệ tương quan là 0,834 chỉ ra rằng tương quan dương và P­giá  trị là 0,000 là nhỏ hơn mức tương đối của 0,05. Do đó, chúng ta  có thể kết luận rằng tương quan chi phí quang ca ̉ ́o và doanh  số bán hàng là đáng kể Proprietary to Samsung Electronics Company Correlation and Regression Analysis­ 7 Rev  7.0
  8.  Sự lam dung va ̣ ̣ ̀  sử dung sai hê sô ̣ ̣ ́  tương quan Ngay cả nếu có tương quan giữa hai biến số, điều đó không có nghĩa là trung  ̉ ̣ ến số đó là nguyên nhân cua cái kia. bình cua môt bi ̉   Biến số thứ ba có thể ẩn mà ảnh hưởng đến cả hai biến số kia. ̣ Càng bi mu ỗi cắn thì  doanh thu bán kem càng lớn  có phải không????? Mù a Anh h ̉ ưởng  cua biê ̉ ́ n  số  thứ  3 Sự tương quan không có  nghĩ a là  tao ra kê ̣ ́ t  qua!  ̉ Proprietary to Samsung Electronics Company Correlation and Regression Analysis­ 8 Rev  7.0
  9. Phân tích tương quan chỉ ra sức manh liên k ̣ ết  giữa hai biến số nhưng không chỉ ra mối quan  hệ chức năng chính xác. Nếu trong trường hợp này, điều gì bạn phải làm  để ước lượng kết quả cua bỉ ến số  đầu ra  vớ i biến số  đầu vào ?  Điều gì nên làm? Proprietary to Samsung Electronics Company Correlation and Regression Analysis­ 9 Rev  7.0
  10. Tổng quan về  phân tích hồi quy  Phân tí ch hồ i quy Kỹ thuật phân tích thống kê cho phép chúng ta dự đoán biến số đầu ra với biến  số đầu vào bằng cách nhận dạng mối liên hệ chức năng giữa hai biến số sử dụng  phương trình hồi quy.   Phương trì nh hồ i quy Một phương trình mà dự đoán các giá trị đầu ra tương ứng với các giá trị đầu  vào  Cá c loai cua phân ti ̣ ̉ ́ ch hồ i quy  Phân loai biê ̣ ́ n số  đầ u và o ( y i β0 β1x i εi ) ­ Phân tích hồi quy đơn giản : Khi chỉ có một biến số đầu vào  ­ Phân tích hồi quy phức tạp(  : Khi có hai ho y i β0 β1x1i ặ 2 x 2i ề βc nhi u hơε in các bi ) ến số   Phân loại bằng mối liên hệ giữa biến số  đầu ra và biế n số  đầu  vào ­  Phân tích hồi quy tuyến : Một phân tích mô hình giả định một mối quan hệ tuyến tính  . Proprietary to Samsung Electronics Company Correlation and Regression Analysis­ 10 Rev  7.0
  11. Phân tích hồi quy đơn giản   Ví  dụ Chúng ta phải tìm ra tác động của chi phí quang ca ̉ ́o đến cột doanh thu của sản  phẩm A được sản xuất tại công ty S. Thực hiện phân tích hồi quy với các dũ liệu  sau. .  (Tên file: Correlation­Regression.mtw ) Chi phí   Doanh số    Chi phí   Doanh số    ̉ quang ca ́o bán hàng ̉ quang ca ́o bán hàng 336               325 445               405 418               375 395               375 355               367 465               405 445               385 346               335 365               375 417               395 455               395 365               345 395               395 445               395 405               365 388               353 346               355 459               415 429               385  435               365 365               365 Proprietary to Samsung Electronics Company Correlation and Regression Analysis­ 11 Rev  7.0
  12. Bướ c 1      Phân tí ch hồ i quy             Tao ra ph ̣ ương trình hồi quy thông qua viêc phân ti ̣ ́ch hồi quy Stat > Regression > Regression 1 ̣ ̣ Biến số phu thuôc 2 ̣ ̣ Biến số đôc lâp Vẽ đồ thị  dư  Kiểm soát hiên thi k ̉ ̣ ết quả đầu ra trên của  3 Thông tin khác nhau có thể  sổ (Không hiên thi, ch ̉ ̣ ỉ hiên thi thông tin c ̉ ̣ ơ  lưu trữ trên cửa sổ làm  bản, hiên thi giá tr ̉ ̣ ị phù hợp và bảng dư ra)  việc (Work Sheet window) Proprietary to Samsung Electronics Company Correlation and Regression Analysis­ 12 Rev  7.0
  13. ­ Kết quả thực hiện từ Minitab  Regression Analysis: SaleVolume versus Expenditure The regression equation is SaleVolume = 183 + 0.476 Expenditure Phương trình hồi quy Predictor        Coef     SE Coef          T        P Constant       182.81       29.36       6.23    0.000 Expenditure   0.47629     0.07239       6.58    0.000 Hệ số xác  S = 13.56       R­Sq = 69.5%     R­Sq(adj) = 67.9% định Analysis of Variance Source            DF          SS          MS         F        P Regression         1      7955.9      7955.9     43.29    0.000 Residual Error    19      3492.1       183.8 Total             20     11448.0 P­Value ̣ : Xác đinh co ́ hay không  số thống kê có ý  nghĩa. Proprietary to Samsung Electronics Company Correlation and Regression Analysis­ 13 Rev  7.0
  14.  R2 (Hê sô ̣ ́  xá c đinh) ̣ R2 được gọi là hệ số xác định và đặt tại vị trí trong khoang ̉  0≤R2≤1. R2 là ti lê ph ̉ ̣ ương sai được giải thích bằ ng dòng hồi quy nằm ngoài tổng  các phương sai. Đó là, nếu R2 là 0.7, 70% của phương sai được giải thích bởi phương trình  hồi quy và còn lại 30% là do nhân tố khác nhau.  R2adj(Hệ số xác định được điều chỉnh ) R2  trở nên lớn hơn như biến thiên độc lập được thêm vào mẫu hồi quy.  R2  giá  trị  không  thể  sử  dụng  như  tiêu  chí  chọn  lựa  đối  với  mẫu  ưu  tiên  trong việc phân tích  hồi quy  phức tạp. Thay  vào đó, R2adj được sử dụng  vì nó bổ sung thêm cho các hàm yếu đã cho ở trên. R2adj  trở nên nhỏ hơn khi các biến số  độc lập vô nghĩa được thêm vào  mẫu. Do đó, R2adj thường được sử dụng  như tiêu chí để chọn các mẫu ưu tiên. Proprietary to Samsung Electronics Company Correlation and Regression Analysis­ 14 Rev  7.0
  15.  Thuyế t minh cho giá  tri P­Value va ̣ ̀  R2(adj) P­Value  0.05 Phương sai được tính cho mức  Phương sai được tính, nhưng nó  ̣ thống kê quan trong. không là mức thống kê quan trong. ̣ [Tì m thấ y môt điê ̣ ̀ u gì  đó  có   [Cầ n thêm nhiề u dữ  liêu.] ̣ R2(adj) lớ n ý  nghĩ a] Qúa ít dữ liêu co ̣ ̉ ̃n đến tình  ́ thê dâ ̣ ̉ Xác nhân anh h ưởng cua nhân tô ̉ ́,  ̣ trang na ̀y. Thêm vào đó những yếu  ̣ ̣ ̉ ̉ đô lêch chuân, tiêu chuân..., va ̀ ý  tố nằm ngoài cũng có thê cỏ ́ anh  ̉ nghĩa thực tế. hưởng đáng kê.̉ Phương sai là môt phâ ̣ ̀n được tính  cho mức thống kê có ý nghĩa.  Phương sai không được tính và nó  cũng không là mức thống kê có ý  [Nhữ ng X khá c] nghĩa.  R2(adj) nhỏ Quá nhiều dữ liêu co ̣ ̉ ̃n  ́ thê dâ ̣ ̉ đến giá tri P nho. Nê ́u thấy R2 là  [Không có  gì ] vừa đu ( ̉ ngay cả sự thay đổi nhỏ  ̣ Thu thâp ca ̀ng nhiều dữ liêu, va ̣ ̀ xem  này cũng có ý nghĩa vì thay đổi trong  nếu đó là mối quan hê phi tuyê ̣ ́n  y rất quan trọng ) và những X  ̉ tính. Kiêm tra nh ững X khác nữa. khác  Proprietary to Samsung Electronics Company Correlation and Regression Analysis­ 15 Rev  7.0
  16. Những gì cần được kiểm tra trước khi định nghĩa  phương trình hồi quy : ­ Phương trình hồi chiếu lệch số thứ nhất được xác  định    thông qua phân tích hồi quy, có chính xác không? ­ Có phải không cần mẫu trật tự cao? Proprietary to Samsung Electronics Company Correlation and Regression Analysis­ 16 Rev  7.0
  17. Bướ c 2      Xác minh mô hình hồi quy        Phân tích các mô hình hồi quy để kiểm tra xem có hay không môt mô hình h ̣ ồi quy  trình tự cao là cần thiết  Stat > Regression > Fitted Line Plot Lưu trữ số dư và giá  4 trị phù hợp trong bảng  làm việc 1 5 2 Xác định loại mô hình hồi quy  Tuyến tính: hồi quy tuyến tính  Bình phương: hồi quy đường  3 cong    bình phương 6  Lập phương: hồi quy đường  cong    lập phương Proprietary to Samsung Electronics Company Correlation and Regression Analysis­ 17 Rev  7.0
  18. ̉ ực hiên t ­ Kết qua th ̣ ừ Minitab Fitte d  Line   P lo t [ Tuyế n tí nh ] 420 S a le Vo lu me  =  182.8 + 0.4763 Exp e n d itu re S 13.557 1 R­ Sq 69.5 % The regression equation is                             400 R­ Sq(a dj) 67.9 % SaleVolume = 182.807 + 0.476288 Expenditure                     S a le Vo lu me 380                                                        360 S = 13.5571      R­Sq = 69.5 %      R­Sq(adj) = 67.9 % 340 320 350 375 400 425 450 475 Ex p e n d itu re [ Bì nh phương ] Fitte d  Line   P lo t S a le Vo lu me  =  37.3 + 1.209 Exp e n d itu re ­  0.000914 Exp e n d itu re **2 The regression equation is                             420 S R­ Sq 13.867 4 69.8 % SaleVolume = 37.3209 + 1.20943 Expenditure  R­ Sq(a dj) 66.4 % 400                    ­ 0.0009140 Expenditure **2                               S a le Vo lu m e 380                                                        360 S = 13.8674      R­Sq = 69.8 %      R­Sq(adj) = 66.4 % 340 320 350 375 400 425 450 475 Ex p e n d itu re [ Lâp ph ̣ ương ] Fitte d  Line   P lo t S a le Vo lu me  =  ­  7213 + 56.04 Exp e n d itu re ­  0.1383 Exp e n d itu re **2 + 0.000114 Exp e n d itu re **3 The regression equation is                             420 S R­ Sq 13.085 3 74.6 % SaleVolume = ­7212.82 + 56.0416 Expenditure  400 R­ Sq(a dj) 70.1 %                     ­ 0.138346 Expenditure **2  S a le Vo lu me 380                     + 0.0001142 Expenditure **3        360                                                        340 S = 13.0853      R­Sq = 74.6 %      R­Sq(adj) = 70.1 % 320 350 375 400 425 450 475 Ex p e n d itu re Proprietary to Samsung Electronics Company Correlation and Regression Analysis­ 18 Rev  7.0
  19. Polynomial Regression Analysis: SaleVolume versus Expenditure The regression equation is                             SaleVolume = ­7212.82 + 56.0416 Expenditure­ 0.138346 Expenditure**2 + 0.0001142 Expenditure**3                                                               S = 13.0853      R­Sq = 74.6 %      R­Sq(adj) = 70.1 % Analysis of Variance Source            DF         SS         MS         F      P Regression         3     8537.2    2845.72   16.6197  0.000 Error             17     2910.8     171.23                  Total             20    11448.0                             Source      DF     Seq SS          F      P Linear       1    7955.91    43.2871  0.000 Quadratic    1      30.59     0.1591  0.695 Cubic        1     550.66     3.2160  0.091 Mặc dù R2adj của mô hình lập phương ở trang trước, kết quả cho chúng ta biết rằng giá trị p- cho mô hình bình phương và mô hình lập phương là lớn hơn 0,05, và do đó các ảnh hưởng không đáng kể. Đó là, ảnh hưởng của bình phương và lập phương là không đáng kể và do vậy mô hình tuyến tính là chính xác nhất. Proprietary to Samsung Electronics Company Correlation and Regression Analysis­ 19 Rev  7.0
  20. Bướ c 3      Thực hiện phân tích thừa dư              Xác đinh co ̣ ́ hay không ‘mô hình hồi quy là phù hợp’ ? Stat > Regression > Regression > Residual Plots Dữ liêu đ ̣ ược hình thành mới  khi thực hiên:  ̣ “Storage>Residuals, Fits” trong  bước 3 “Nhận dạng mẫu hồi  quy” ̣ Chon sô ́ dư chuân ho ̉ ̉ ́a tông qua ́t. ̉ Tiêu chuân ho ́a số dư  1    = (Số dư) / (đô lêch chuân cua sô ̣ ̣ ̉ ̉ ́  d ư) 2 ̣ Chon ca ̣ ̣ ́c hang muc va ̀o  ̣ đồ thi (plot)  ̉ ̣ ̣ ­ Vẽ tất ca hang muc na ̀y 3 Proprietary to Samsung Electronics Company Correlation and Regression Analysis­ 20 Rev  7.0
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
5=>2