intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Tiểu luận: Phương pháp Correspondence Analysis (CA)

Chia sẻ: Hoang Linh | Ngày: | Loại File: DOCX | Số trang:23

268
lượt xem
23
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Phân tích tương ứng được áp dụng rất rộng rãi trong rất nhiều lĩnh vực như phân tích dữ liệu kinh doanh, điều tra xã hội học, khai phá dữ liệu,…. CA cho phép phát hiện các tri thức tiềm ẩn trong khối lượng dữ liệu lớn một cách dễ dàng thông qua phương pháp trực quan hóa (sử dụng bản đồ các điểm).

Chủ đề:
Lưu

Nội dung Text: Tiểu luận: Phương pháp Correspondence Analysis (CA)

  1. Correspondence Analysis­ CA BỘ CÔNG THƯƠNG                    TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP. HCM            KHOA CÔNG NGHỆ THỰC PHẨM MÔN XỬ LI SÔ LIÊU TH ́ ́ ̣ ỰC NGHIÊM ̣                      TIÊU LUÂN ̉ ̣ PHƯƠNG PHAP CORRESPONDENCE ANALYSIS ́   (CA) GVHD: Trân Thi Hông Câm ̀ ̣ ̀ ̉ Nhóm: Nhom 6 ́ Lớp: 05DHDB2 ­ Pham Văn Đông ̣ 2022140345  ­ Pham Văn Luân ̣ 2022140331 ­ Ha Trung Ph ̀ ương 2022140357 ­ Hoang Anh Đ ̀ ức 2022140322 Buôi: Th ̉ ư 4 – tiêt 9+10 – phong B107 ́ ́ ̀ Nhom 9 ́ Page 1
  2. Correspondence Analysis­ CA Nhom 9 ́ Page 2
  3. Correspondence Analysis­ CA Danh sach nhom va bang phân công nhiêm vu. ́ ́ ̀ ̉ ̣ ̣ ­ ­ ­ Nhom 9 ́ Page 3
  4. Correspondence Analysis­ CA MUC LUC ̣ ̣ Nhom 9 ́ Page 4
  5. Correspondence Analysis­ CA CHƯƠNG 1: GIƠI THIÊU CHUNG ́ ̣ ̣ Trong viêc nghiên c ưu cac đăc tinh khac nhau cua cung môt san phâm hay cua cac ́ ́ ̣ ́ ́ ̉ ̀ ̣ ̉ ̉ ̉ ́  ̉ ̉ ̉ ưa ra kêt luân, đanh gia vê s san phâm khac nhau đê đ ́ ́ ̣ ́ ́ ̀ ự tương quan anh h ̉ ưởng lân nhau ̃   giưa cac yêu tô trên hay s ̃ ́ ́ ́ ự anh h ̉ ưởng cua chung đên môt gia tri khac… Ng ̉ ́ ́ ̣ ́ ̣ ́ ười phân tich ́   ̉ ̉ ̣ ̣ ̣ ̀ ử  li sô liêu ban đâu. B san phâm găp kha nhiêu kho khăn trong viêc thu thâp va x ́ ̀ ́ ́ ́ ̣ ̀ ởi với   tưng san phâm khac nhau va t ̀ ̉ ̉ ́ ̀ ưng ng ̀ ươi th ̀ ử – phep th ́ ử khac nhau se cho ra rât nhiêu kêt ́ ̃ ́ ̀ ́  ̉ ́ qua đanh gia khac nhau. ́ ́ ́ ̣ ̉ ́ ̀ ́ ̣ ́ ̉ ̉ ̣ ̣ ươc giai khat m Vi du: Khao sat vê cac đăt tinh cam quan cua môt loai n ́ ̉ ́ ơi đ ́ ược   thực hiên đanh gia v ̣ ́ ́ ơi 50 ng ́ ươi th ̀ ử,cho ra môt sô kêt qua đanh gia nh ̣ ́ ́ ̉ ́ ́ ư sau: ­ Vê mau săc: vang cam, cam, vang. ̀ ̀ ́ ̀ ̀ ­ ̀ ̀ ương: hương cam, hương chanh, hương thơm. Vê mui h ­ ̀ ̣ ̣ Vê vi ngot: thâp, trung binh, cao. ́ ̀ ­ …… ́ ́ ́ ười cung đanh gia khac nhau. Môi tinh chât co sô ng ̃ ́ ̀ ́ ́ ́ Vơi môt loat nh ́ ̣ ̣ ưng kêt qua đanh gia trên rât kho đê đ ̃ ́ ̉ ́ ́ ́ ́ ̉ ưa ra kêt luân chinh xac vê ́ ̣ ́ ́ ̀  ̣ ́ ̉ ̉ ̉ ́ ững dư liêu ban đâu trên ­ “bô d đăc tinh cua san phâm. Do đo nh ̃ ̣ ̀ ̣ ữ liêu thô” cân đ ̣ ̀ ược xử   ́ ́ ́ ̃ ́ ́ ̀ ̣ li, tom tăt, ma hoa, phân tich…thanh dang đơn gian va khoa hoc h ̉ ̀ ̣ ơn, giup ta dê dang tiêp ́ ̃ ̀ ́  ̣ ̀ ́ ̉ ́ ̣ ừ cac kêt qua đa đ cân va co thê rut ra kêt luân t ́ ́ ́ ̉ ̃ ược xử  li va phân tich. Môt trong sô ́ ̀ ́ ̣ ́  nhưng ph ̃ ương phap phân tich sô liêu th ́ ́ ́ ̣ ương đ ̀ ược sử  dung la Phân tích t ̣ ̀ ương  ưng ́   Correspondence Analysis­ CA. ̀ ̣ ́ ̀ ̀ ́ ̉ ́ ̀ ợp   Correspondence Analysis­ CA la môt phân tich thanh phân chinh tông quat phu h ̣ ́ ữ liêu đinh tinh. Ban đâu, CA đ cho viêc phân tich d ̣ ̣ ́ ̀ ược tao ra đê phân tich “bang d ̣ ̉ ́ ̉ ự   ̀ , nhưng vê sau no đ phong” ̀ ́ ược sử dung linh hoat h ̣ ̣ ơn cho nhiêu bang d ̀ ̉ ữ liêu khac.co thê ̣ ́ ́ ̉  ̉ ơn gian Correspondence Analysis­ CA la  ph hiêu đ ̉ ̀ ương pháp trực quan để phân tích dữ  Nhom 9 ́ Page 5
  6. Correspondence Analysis­ CA liệu được biểu diễn bằng các bảng dữ  liệu 2 chiều (contingency table) hay đa chiêu, ̀   ́ ơn gian hinh th giup đ ̉ ̀ ưc phân tich trong nghiên c ́ ́ ứu. Mục tiêu của phân tích tương ứng CA là chuyển đổi một bảng dữ liệu thành hai  bộ yếu tố  điểm: Một cho các hàng và một cho các cột. Điểm yếu tố  phai la điêm đai ̉ ̀ ̉ ̣  ̣ ốt nhất của cấu trúc tương tự của các hàng và các cột trong bảng. Ngoài ra, yếu  diên t tố điểm có thể được vẽ trên bản đồ, hiển thị  các thông tin cần thiết của bang d ̉ ữ liêu ̣   gốc. Trong các bản đồ  này, toa đô cua cac điêm hiên thi cac yêu tô t ̣ ̣ ̉ ́ ̉ ̉ ̣ ́ ́ ́ ương tự  như  cać   ̀ ́ ̣ ̉ hang va cac côt trong bang d ̀ ữ liêu. Điêu đăc biêt la cac điêm y ̣ ̀ ̣ ̣ ̀ ́ ̉ ếu tố của các hàng và các  cột có cùng phương sai và, do đó, cả hàng và cột có thể được đại diện thuận tiện trên   cung  m ̀ ột bản đồ duy nhât. ́  Như vây k ̣ ết quả của CA là bản đồ các điểm (Map of Points). Trong đó các điểm   biểu diễn cho các dòng (rows) và các cột (columns) của bảng. Sự   hiển thị các hàng và  cột của một bảng như  là các điểm trong một bản đồ  không gian, với một giải thích  hình học cụ thể các vị trí của các điểm như một phương tiện để giải thích những điểm  tương đồng và khác biệt giữa các hàng , sự giống nhau và khác nhau giữa cột và sự liên   kết giữa các hàng và cột. Cac kêt qua cung câp thông tin t ́ ́ ̉ ́ ương tự như  trong thực tiên ̃  ̉ ́ ́ ́ ́ ̣ ược môi quan hê tim ân anh h san xuât, giup chung ta phat hiên đ ́ ̣ ̀ ̉ ̉ ưởng lân nhau cua cac ̃ ̉ ́  ́ ́ ược phân tich trong bang. yêu tô đ ́ ̉ Nhom 9 ́ Page 6
  7. Correspondence Analysis­ CA CHƯƠNG 2: ĐĂC ĐIÊM DATA/ D ̣ ̉ Ư LIÊU CÂN PHÂN TICH ̃ ̣ ̀ ́ 2.1. Môt sô khai niêm c ̣ ́ ́ ̣ ơ ban ̉ Profile: Tần   suất   tương   đối   trong   bang ̉   dữ  liêu ̣   thông ́   kê   (Row   and   column   ̀ ể xác định tọa độ của các điểm trong bản đồ profiles). Dung đ Masses (marginal distribution): Đo lường độ quan trọng của các điểm. Centroid (tâm): Trọng số trung bình của các vị trí Projection: Phép chiếu lên không gian con. Inertia: Tổng bình phương các khoảng cách của các điểm đến centroid. 2.2. Đăc điêm d ̣ ̉ ữ liêu đâu vao (input) ̣ ̀ ̀ ̃ ơi thiêu  Như đa gi ́ ̣ ở phân trên, cac d ̀ ́ ữ liêu thu thâp ban đâu la “tâp cac d ̣ ̣ ̀ ̀ ̣ ́ ữ liêu thô”, ̣   ̉ ́ ̀ ́ ữ liêu dang văn ban (cac nhân đinh va đanh gia ). Do đo, nh chu yêu la cac d ̣ ̣ ̉ ́ ̣ ̣ ̀ ́ ́ ́ ững dữ liêu ̣   ̀ ̀ ược xử li va tom tăt lai đê thuân tiên va dê dang cho qua trinh phân tich. nay cân đ ́ ̀ ́ ́ ̣ ̉ ̣ ̣ ̀ ̃ ̀ ́ ̀ ́ Cać  dữ liêu dang văn ban nay cân đ ̣ ̣ ̉ ̀ ̀ ược đông nhât vê măt ng ̀ ́ ̀ ̣ ữ nghia. Do cac d ̃ ́ ư ̃ ̣ ̣ ̉ liêu dang văn ban thương rât đa dang va phong phu vê măt ng ̀ ́ ̣ ̀ ́ ̀ ̣ ữ nghia (nghia cua t ̃ ̃ ̉ ư). ̀ Như  ở  vi du trên, khi khao sat đăc tinh cua môt loai n ́ ̣ ̉ ́ ̣ ́ ̉ ̣ ̣ ươc giai khat…do cach cam ́ ̉ ́ ́ ̉   ̣ ̉ nhân cua nh ưng ng ̃ ươi khac nhau va cach kêt luân t ̀ ́ ̀ ́ ́ ̣ ự do nên se dân đên nh ̃ ̃ ́ ững đanh gia ́ ́  ́ ự khac nhau vê măt t co s ́ ̀ ̣ ừ ngữ nhưng lai cung diên ta môt tinh chât chung nh ̣ ̀ ̃ ̉ ̣ ́ ́ ư: “vang”, ̀   ̀ ̀ ̣ ̀ ̣ ́ “vang vang”, “vang nhat”,…cung mang môt y nghia kha giông nhau la “vang”; hay “ngon ̀ ̃ ́ ́ ̀ ̀ ̀  ̣ ̣ ̣ ngot”, “ngot diu”, “h ơi ngot”… cung diên đat tinh chât trung binh cua vi ngot…h ̣ ̀ ̃ ̣ ́ ́ ̀ ̉ ̣ ̣ ơn thế  nưa, nhân xet va đanh gia cua môt ng ̃ ̣ ́ ̀ ́ ́ ̉ ̣ ười hoan toan co thê bi chi phôi b ̀ ̀ ́ ̉ ̣ ́ ởi yêu tô tâm li, ́ ́ ́  được xem la cac d ̀ ́ ữ liêu ngâu nhiên – t ̣ ̃ ự  phat. Do đo, viêc đông nhât d ́ ́ ̣ ̀ ́ ữ liêu dang văn ̣ ̣   ̉ ̀ ̣ ̀ ̉ ban la viêc lam cân thiêt giup giam m ̀ ́ ́ ức đô ph ̣ ức tap cua d ̣ ̉ ữ liêu đâu vao. ̣ ̀ ̀ Phân tích tương ứng là hiệu quả nhất nếu các điều kiện sau đây: Nhom 9 ́ Page 7
  8. Correspondence Analysis­ CA ­ Ma trận dữ  liệu là đủ  lớn, để  kiểm tra trực quan hoặc phân tích thống kê đơn  giản không thể tiết lộ cấu trúc của nó ­ Các biến là đồng nhất, do đó nó làm cho cảm giác để  tính toán khoảng cách   thống kê giữa các hàng hoặc cột. ­ Ma trận dữ  liệu là một  ưu tiên "vô định hình", tức là cấu trúc của nó, hoặc là  không biết hoặc chưa được hiểu rõ. Nhom 9 ́ Page 8
  9. Correspondence Analysis­ CA CHƯƠNG 3: CACH BÔ TRI D ́ ́ ́ Ư LIÊU TRONG DATA ̃ ̣ 3.1. Cach bô tri d ́ ́ ́ ữ liêu đâu vao trong bang d ̣ ̀ ̀ ̉ ự phong ̀ Trong phương phap phân tich t ́ ́ ương  ưng nay, “bô d ́ ̀ ̣ ữ liêu thô” ban đâu cân đ ̣ ̀ ̀ ược  ́ ́ ̀ ̣ ̣ ̉ tom tăt va hê thông hoa vao môt bang d ́ ́ ̀ ữ liêu thông kê (bang ngâu nhiên).  ̣ ́ ̉ ̃ Ở bang thông ̉ ́   ́ ́ ́ ̣ ̀ ́ ương  ứng với lơi đanh gia cua kê nay chung ta quan tâm đên hai biên: môt la biên t ̀ ̀ ́ ́ ̉   nhưng ng ̃ ươi đ ̀ ược khao sat (biên đăc tinh), biên th ̉ ́ ́ ̣ ́ ́ ứ hai tương ưng v ́ ơi san phâm đ ́ ̉ ̉ ược   đanh gia. ́ ́ ́ ữ liêu trên đ Cac biên d ́ ̣ ược bô tri trong bang nh ́ ́ ̉ ư sau: ­ Cac hang i (rows): ch ́ ̀ ưa d ́ ư liêu t ̃ ̣ ương ứng với cac san phâm đ ́ ̉ ̉ ược đanh gia. ́ ́ ­ ́ ̣ Cac côt j (colums): ch ưa cac d ́ ́ ư liêu t ̃ ̣ ương ứng với tư ng ̀ ư dung đê mô ta đăc tinh ̃ ̀ ̉ ̉ ̣ ́   ̉ ̉ ̉ cua san phâm. ­ ̉ Cac điêm giao nhau gi ́ ưa hang i va côt j: ch ̃ ̀ ̀ ̣ ưa d ́ ữ liêu ghi nhân tân sô t ̣ ̣ ̀ ́ ương quan  giưa i va j, t ̃ ̀ ưc sô lân đanh gia đ ́ ́ ̀ ́ ́ ược lâp lai đôi v ̣ ̣ ́ ới môt đăc tinh cua t ̣ ̣ ́ ̉ ừng san ̉   ̉ phâm. ́ ̣ ̉ Vi du: Bang dự  phong sau khao sat vê tân suât s ̀ ̉ ́ ̀ ̀ ́ ử  dung cua 4 nhan hiêu kem đanh ̣ ̉ ̃ ̣ ́   răng (Brand A, Brand B, Brand C và Brand D) tại 3 khu vực (Region 1, Region 2 và  Region 3) được điều tra ngẫu nhiên từ 120 người như sau:   Region 1 Region 2 Region 3 Total Brand A 5 5 30 40 Brand B 5 25 5 35 Brand C 15 5 5 25 Brand D 15 5 0 20 Total 40 40 40 120 Nhom 9 ́ Page 9
  10. Correspondence Analysis­ CA 3.2. Tiên x ̀ ử li d ́ ư liêu đâu vao ̃ ̣ ̀ ̀ 3.2.1.  χ 2  Tính toán ̉ ̣ ̀ ̣ ̣ ́ ́ ữ liêu trong bang d Câu hoi đăt ra la liêu ban co chăc chăn cac d ́ ́ ̣ ̉ ự phong đôc lâp v ̀ ̣ ̣ ới  ̉ ̣ ̉ nhau? Đê khăng đinh điêu đo chung ta cân kiêm tra  ́ ̀ ́ ́ ̀ ̉ ́ ́ ́ ̣ χ2 , đê xem cac tab cheo co lêch nhau   đang ̉ ưa cac hang va cac côt. ́  kê gi ̃ ́ ̀ ̀ ́ ̣ ̣ Viêc ki ểm tra được mô tả chính thức bởi các ma trân ̣  (i x j), F =[fij] . Chúng ta nhâṇ   được các ma trận tương ứng P từ F bằng cách chia các mục của nó:  P = [ pij] =[, where n =  (1) Tiếp theo, xác định hàng và cột tổng:                                                                                                                                         (2)     Các χ2  Thống kê, X2  được tính: (3)  µij là ước tính giá trị giả định độc lập của đâu ra: ̀ µij  = pi+ p+j                          (4) Nếu   các   hàng   và   cột   thực   sự   là   độc   lập   (tức   là,   "theo   giả   thuyết   null"), X2 nên theo một  χ2    phân phối với (I­1)x(J­1) bậc tự  do. Chúng ta có  thể so sánh giá trị  thực tế tính toán cho các ví dụ  tab chéo với phân phối của  mình theo giả thuyết.  Nhom 9 ́ Page 10
  11. Correspondence Analysis­ CA 3.2.2. χ 2    Khoảng cách Theo mục đích của phân tích tương ứng, sự  khác biệt giữa các bản phân phối của   các   biêń   hàng   ngang   của   bang ̉   cheó   (bang ̉   dự   phong) ̀   được   đo   băng ̀  χ2   khoảng   cách, trong đó có trọng lượng khoảng cách Euclide giữa các hàng bình, với trọng lượng   tỉ  lệ  nghịch với căn bậc hai của tổng số  cột.  Trong các biểu tượng, các χ2     khoảng  cách giữa các hàng i và hàng k được cho bởi biểu thức: (5) χ2     khoảng cách giữa các mẫu văn bản sử  dụng ma trận tương  ứng và hiển thị  chúng trong một bảng nhỏ gọn hợp lý (sau khi nhân rộng lên 100 và làm tròn số). Từ phương trình (5) kể từ khi tổng hàng cho các trọng tâm là 1 (theo định nghĩa của P ),  các χ2     khoảng cách hàng i với trọng tâm là: (7) Bây giờ với µij  như được định nghĩa trong (4): (8) Vẽ một tương tự với khái niệm vật lý của quán tính góc cạnh, phân tích tương ứng  xác   định quán  tính  của   một  hàng  như   sản  phẩm  của   tổng  hàng  (được   gọi  là khối   Nhom 9 ́ Page 11
  12. Correspondence Analysis­ CA lượng của hàng) và bình phương khoảng cách của nó với trọng tâm pi+diz2. So sánh biểu  thức diz2 trong (5) với định nghĩa của χ2    . Thống kê trong (3), nó sau đó tổng quán tính   của tất cả các hàng trong một ma trận ngẫu nhiên bằng các  χ2   . Thống kê chia n , Một  số lượng được gọi là  mean­square contingency Pearson, ký hiệu ɸ2 : (9) Tổng quán tính của một bảng được sử  dụng để  đánh giá chất lượng của đại diện   đồ  họa của nó trong phân tích tương  ứng. Để  tham khảo trong tương lai, chúng ta có  thể tính toán ɸ2 cho dữ liệu của chúng ta. Nhom 9 ́ Page 12
  13. Correspondence Analysis­ CA CHƯƠNG 4: PHÂN MÊN HÔ TR ̀ ̀ ̃ Ợ VA CACH ĐOC KÊT QUA ̀ ́ ̣ ́ ̉ 4.1. Giơi thiêu môt sô phân mên thông dung ́ ̣ ̣ ́ ̀ ̀ ̣ Trong phương phap phân tich t ́ ́ ương ưng CA co kha nhiêu phân mêm hô tr ́ ́ ́ ̀ ̀ ̀ ̃ ợ nhăm ̀   ̉ giam b ơt cac công đoan tinh toan va giup hiên thi kêt qua thuân tiên h ́ ́ ̣ ́ ́ ̀ ́ ̣ ̣ ́ ̉ ̣ ̣ ơn cho người phân  ́ ̀ ̣ ́ ̀ ̀ ̃ ợ phân tich: tich. Sau đây la môt sô phân mêm hô tr ́ ­ ̀  SPSS  (viết   tắt   của Statistical Package   for   the Social Sciences)   là  Phâǹ   mêm một chương trình máy tính phục vụ  công tác thống kê. Phần mềm SPSS hỗ trợ  xử  lý và phân tích dữ  liệu sơ  cấp ­ là các thông tin được thu thập trực tiếp từ  đối tượng nghiên cứu, thường được sử dụng rộng rãi trong các nghiên cứu điều  tra xã hội học và kinh tế lượng. ­ ̀ R: là một ngôn ngữ  lập trình và môi trường phần mềm dành cho tính  Phâǹ  mên  toán và đồ họa thống kê. Đây là một bản hiện thực ngôn ngữ lập trình S với ngữ  nghĩa   khối   từ   vựng   lấy   cảm   hứng   từ Scheme.   R   do Ross   Ihaka và Robert  Gentleman tạo ra tại Đại học Auckland, New Zealand. ­ Phân mêm  ̀ ̀ ̀ ̀ ứng dung dung trong Excel, giup hô tr ̀ XLSTAT: la phân mêm  ̣ ̀ ́ ̃ ợ tinh  ́ ́ ̀ ̀ ̣ toan va đô hoa thông kê nh ́ ư CA, PCAva MCA,…  ̀ 4.2. ̀ ̀ XLSTAT Phân mêm  ́ ̣ ̉  Vi du: Bang d ự phong sau khao sat vê tân suât s ̀ ̉ ́ ̀ ̀ ́ ử dung cua 4 nhan hiêu kem đanh ̣ ̉ ̃ ̣ ́   răng (Brand A, Brand B, Brand C và Brand D) tại 3 khu vực (Region 1, Region 2 và  Region 3) được điều tra ngẫu nhiên từ 120 người như sau: Nhom 9 ́ Page 13
  14. Correspondence Analysis­ CA Tota   Region 1 Region 2 Region 3 l Brand A 5 5 30 40 Brand B 5 25 5 35 Brand C 15 5 5 25 Brand D 15 5 0 20 Total 40 40 40 120 Sau khi khởi động XLSTAT và chọn biểu tượng Correspondence Analysis Chọn vùng dữ liệu để phân tích và bấm OK để thực hiện CA. Vấn đề quan trọng là giải thích kết quả mà CA sinh ra để tìm ra các tri thức hữu   ích ẩn chứa trong dữ liệu. Khai phá tri thức từ kết quả CA Nhom 9 ́ Page 14
  15. Correspondence Analysis­ CA Sau đây giải thích từng bước các kết quả  sinh ra bởi CA nhằm giúp các bạn có  thể phát hiện các tri thức ẩn chứa trong dữ liệu từ Contingency table ban đầu. 4.2.1. Rows and Column Profile Kết quả cuối cùng của CA là bản đồ các điểm (Map of Points), trong đó mỗi hàng  (row) và mỗi cột (column) được biểu diễn thành 1 điểm trong bản đồ. Profile được   tính là tần suất tương đối của các dòng (Rows profile) và các cột (Columnsprofile)   trong Contingency table. Profile của các dòng và cột được dùng để xác định tọa độ của  các điểm trong bản đồ. Vì vậy các dòng hoặc các cột có profile gần giống nhau sẽ  được đặt gần nhau trong bản đồ. Sau đây là Profile của các dòng và các cột được CA   sinh ra từ  bang d ̉ ự phong (Contingency Table). ̀ Row Profile   Region 1 Region 2 Region 3 Sum  100 Brand A 12.5% 12.5% 75.0% % 100 Brand B 14.3% 71.4% 14.3% % 100 Brand C 60.0% 20.0% 20.0% % 100 Brand D 75.0% 25.0% 0.0% % 100 Mean  40.4% 33.2% 27.3% % Colum Profile   Region 1 Region 2 Region 3 Mean  Brand A 12.5% 12.5% 75.0% 33.3% Nhom 9 ́ Page 15
  16. Correspondence Analysis­ CA Brand B 12.5% 62.5% 12.5% 29.2% Brand C 37.5% 12.5% 12.5% 20.8% Brand D 37.5% 12.5% 0.0% 16.7% Sum  100% 100% 100% 100% 4.2.2.  Kiểm định sự phụ thuộc giữa các dòng (rows) và cột (columns) trong  Contingency Table  Bước đầu tiên trong phân tích CA là kiểm định giả thuyết về sự phụ thuộc giữa   các dòng và các cột trong bảng dữ liệu ban đầu. CA tự động kiểm tra mối qua hệ này. Với dữ liệu trong ví dụ trên, kết quả kiểm  định giả thuyết được CA sinh ra như sau: Test of  indepe ndence  betwee n the  rows  and the  column s: Chi­ square  (Obser ved  value) 79.607 Chi­ 12.592 square  Nhom 9 ́ Page 16
  17. Correspondence Analysis­ CA (Critica l value) DF 6
  18. Correspondence Analysis­ CA and the   column s of the   table. As the computed p­value is lower than the significance level α=0.05,  one should reject the null hypothesis H0,  and accept the alternative hypothesis H1. The risk to reject the null hypothesis H0 while it is true is lower than  0.01%. Giả  thuyết H0 (Null hypothesis): Các dòng và các cột trong bang d ̉ ự phong là đ ̀ ộc  lập nhau. (Nói cách khác là không có sự phụ thuộc giữa các dòng và cột trong bảng). Giả thuyết H1 (giả thuyết đối): Có mối liên hệ giữa dòng và cột trong bản. Kết quả  kiểm định cho thấy P­value 
  19. Correspondence Analysis­ CA inertia:   F1 F2 Eigenvalue 0.410 0.253 Inertia (%) 61.843 38.157 Cumulative % 61.843 100.000 Trong ví dụ  này, 2 chiều (F1 và F2) đã giải thích 100% của inertia. Vì vậy sử  dụng không gian 2 chiều đủ giải thích toàn bộ inertia 4.2.4. Giải thích các chiều (các trục ­ axis)  Phần này phân tích sự  đóng góp của các dòng và cột  và việc xác định các chiều  của không gian biểu diễn. Đóng góp của các dòng (trong trường hợp này là 4 nhãn hiệu kem đánh răng). Kết quả  sinh ra bởi CA như sau: Contributions (rows):   Weight (relative) F1 F2 0.62 Brand A 0.333 6 0.015 0.63 Brand B 0.292 0.072 6 0.05 Brand C 0.208 8 0.169 0.24 Brand D 0.167 4 0.181 Trong ví dụ này có 4 nhãn hiệu kem đánh răng, vì vậy bất cứ nhãn hiệu nào đóng  góp từ 25% (=100/4) được coi là đóng góp có ý nghĩa trong việc xác định các chiều để  Nhom 9 ́ Page 19
  20. Correspondence Analysis­ CA biểu diễn các điểm. Ta thấy rằng Brand A đóng góp 62.6%  trong việc xác định trục  thứ  nhất (F1) và Brand B đóng góp 63.6% để  xác định trục thứ  2 (F2). Vì vậy có thể  nói rằng trục F1 được xác định chủ yếu dựa vào Brand A và trục F2 được xác định chủ  yếu do Brand B Đóng góp của các cột (trong trường hợp này là 3 khu vực). Kết quả như sau Contributions (columns):         Weight  (relative) F1 F2 Region 1 0.333 0.240 0.427 Region 2 0.333 0.103 0.563 Region 3 0.333 0.657 0.009 Tương tự, ta thấy trục F1 được xác định bởi Region 3 và trục F2 được xác định  bởi Region 2 (Bởi vì các cột này đóng góp > 100/3 =33.3%)  Chú ý rằng, Theo đóng góp của cac dòng (Brands) thì Brand A xác đ ́ ịnh F1 và theo   đóng góp của cột (các Regions) thì F1 được xác định bởi Region 3, vì vậy rõ ràng rằng  Brand A kết hợp mạnh mẽ với Region 3. Hay nói cách khác nhãn hiệu kem đánh răng  Brand A được sử  dụng nhiều nhất  ở Region 3 (xem dữ hiệu trong Contingency Table   và bản đồ phần sau) 4.2.5.  Biểu diễn trực quan bằng bản đồ kết quả CA Ví trí của các dòng (trong trường hợp này là 4 nhãn hiệu kem đánh răng  Brand  A,B,C,D). Nhom 9 ́ Page 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2