Tiểu luận: Phương pháp Correspondence Analysis (CA)

Chia sẻ: Hoang Linh | Ngày: | Loại File: DOCX | Số trang:23

Thêm vào BST

Báo xấu

310
lượt xem 23
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Phân tích tương ứng được áp dụng rất rộng rãi trong rất nhiều lĩnh vực như phân tích dữ liệu kinh doanh, điều tra xã hội học, khai phá dữ liệu,…. CA cho phép phát hiện các tri thức tiềm ẩn trong khối lượng dữ liệu lớn một cách dễ dàng thông qua phương pháp trực quan hóa (sử dụng bản đồ các điểm).

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Tiểu luận: Phương pháp Correspondence Analysis (CA)

Correspondence Analysis CA BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP. HCM KHOA CÔNG NGHỆ THỰC PHẨM MÔN XỬ LI SÔ LIÊU TH ́ ́ ̣ ỰC NGHIÊM ̣  TIÊU LUÂN ̉ ̣ PHƯƠNG PHAP CORRESPONDENCE ANALYSIS ́ (CA) GVHD: Trân Thi Hông Câm ̀ ̣ ̀ ̉ Nhóm: Nhom 6 ́ Lớp: 05DHDB2 Pham Văn Đông ̣ 2022140345 Pham Văn Luân ̣ 2022140331 Ha Trung Ph ̀ ương 2022140357 Hoang Anh Đ ̀ ức 2022140322 Buôi: Th ̉ ư 4 – tiêt 9+10 – phong B107 ́ ́ ̀ Nhom 9 ́ Page 1
Correspondence Analysis CA Nhom 9 ́ Page 2
Correspondence Analysis CA Danh sach nhom va bang phân công nhiêm vu. ́ ́ ̀ ̉ ̣ ̣ Nhom 9 ́ Page 3
Correspondence Analysis CA MUC LUC ̣ ̣ Nhom 9 ́ Page 4
Correspondence Analysis CA CHƯƠNG 1: GIƠI THIÊU CHUNG ́ ̣ ̣ Trong viêc nghiên c ưu cac đăc tinh khac nhau cua cung môt san phâm hay cua cac ́ ́ ̣ ́ ́ ̉ ̀ ̣ ̉ ̉ ̉ ́ ̉ ̉ ̉ ưa ra kêt luân, đanh gia vê s san phâm khac nhau đê đ ́ ́ ̣ ́ ́ ̀ ự tương quan anh h ̉ ưởng lân nhau ̃ giưa cac yêu tô trên hay s ̃ ́ ́ ́ ự anh h ̉ ưởng cua chung đên môt gia tri khac… Ng ̉ ́ ́ ̣ ́ ̣ ́ ười phân tich ́ ̉ ̉ ̣ ̣ ̣ ̀ ử li sô liêu ban đâu. B san phâm găp kha nhiêu kho khăn trong viêc thu thâp va x ́ ̀ ́ ́ ́ ̣ ̀ ởi với tưng san phâm khac nhau va t ̀ ̉ ̉ ́ ̀ ưng ng ̀ ươi th ̀ ử – phep th ́ ử khac nhau se cho ra rât nhiêu kêt ́ ̃ ́ ̀ ́ ̉ ́ qua đanh gia khac nhau. ́ ́ ́ ̣ ̉ ́ ̀ ́ ̣ ́ ̉ ̉ ̣ ̣ ươc giai khat m Vi du: Khao sat vê cac đăt tinh cam quan cua môt loai n ́ ̉ ́ ơi đ ́ ược thực hiên đanh gia v ̣ ́ ́ ơi 50 ng ́ ươi th ̀ ử,cho ra môt sô kêt qua đanh gia nh ̣ ́ ́ ̉ ́ ́ ư sau: Vê mau săc: vang cam, cam, vang. ̀ ̀ ́ ̀ ̀ ̀ ̀ ương: hương cam, hương chanh, hương thơm. Vê mui h ̀ ̣ ̣ Vê vi ngot: thâp, trung binh, cao. ́ ̀ …… ́ ́ ́ ười cung đanh gia khac nhau. Môi tinh chât co sô ng ̃ ́ ̀ ́ ́ ́ Vơi môt loat nh ́ ̣ ̣ ưng kêt qua đanh gia trên rât kho đê đ ̃ ́ ̉ ́ ́ ́ ́ ̉ ưa ra kêt luân chinh xac vê ́ ̣ ́ ́ ̀ ̣ ́ ̉ ̉ ̉ ́ ững dư liêu ban đâu trên “bô d đăc tinh cua san phâm. Do đo nh ̃ ̣ ̀ ̣ ữ liêu thô” cân đ ̣ ̀ ược xử ́ ́ ́ ̃ ́ ́ ̀ ̣ li, tom tăt, ma hoa, phân tich…thanh dang đơn gian va khoa hoc h ̉ ̀ ̣ ơn, giup ta dê dang tiêp ́ ̃ ̀ ́ ̣ ̀ ́ ̉ ́ ̣ ừ cac kêt qua đa đ cân va co thê rut ra kêt luân t ́ ́ ́ ̉ ̃ ược xử li va phân tich. Môt trong sô ́ ̀ ́ ̣ ́ nhưng ph ̃ ương phap phân tich sô liêu th ́ ́ ́ ̣ ương đ ̀ ược sử dung la Phân tích t ̣ ̀ ương ưng ́ Correspondence Analysis CA. ̀ ̣ ́ ̀ ̀ ́ ̉ ́ ̀ ợp Correspondence Analysis CA la môt phân tich thanh phân chinh tông quat phu h ̣ ́ ữ liêu đinh tinh. Ban đâu, CA đ cho viêc phân tich d ̣ ̣ ́ ̀ ược tao ra đê phân tich “bang d ̣ ̉ ́ ̉ ự ̀ , nhưng vê sau no đ phong” ̀ ́ ược sử dung linh hoat h ̣ ̣ ơn cho nhiêu bang d ̀ ̉ ữ liêu khac.co thê ̣ ́ ́ ̉ ̉ ơn gian Correspondence Analysis CA la ph hiêu đ ̉ ̀ ương pháp trực quan để phân tích dữ Nhom 9 ́ Page 5
Correspondence Analysis CA liệu được biểu diễn bằng các bảng dữ liệu 2 chiều (contingency table) hay đa chiêu, ̀ ́ ơn gian hinh th giup đ ̉ ̀ ưc phân tich trong nghiên c ́ ́ ứu. Mục tiêu của phân tích tương ứng CA là chuyển đổi một bảng dữ liệu thành hai bộ yếu tố điểm: Một cho các hàng và một cho các cột. Điểm yếu tố phai la điêm đai ̉ ̀ ̉ ̣ ̣ ốt nhất của cấu trúc tương tự của các hàng và các cột trong bảng. Ngoài ra, yếu diên t tố điểm có thể được vẽ trên bản đồ, hiển thị các thông tin cần thiết của bang d ̉ ữ liêu ̣ gốc. Trong các bản đồ này, toa đô cua cac điêm hiên thi cac yêu tô t ̣ ̣ ̉ ́ ̉ ̉ ̣ ́ ́ ́ ương tự như cać ̀ ́ ̣ ̉ hang va cac côt trong bang d ̀ ữ liêu. Điêu đăc biêt la cac điêm y ̣ ̀ ̣ ̣ ̀ ́ ̉ ếu tố của các hàng và các cột có cùng phương sai và, do đó, cả hàng và cột có thể được đại diện thuận tiện trên cung m ̀ ột bản đồ duy nhât. ́ Như vây k ̣ ết quả của CA là bản đồ các điểm (Map of Points). Trong đó các điểm biểu diễn cho các dòng (rows) và các cột (columns) của bảng. Sự hiển thị các hàng và cột của một bảng như là các điểm trong một bản đồ không gian, với một giải thích hình học cụ thể các vị trí của các điểm như một phương tiện để giải thích những điểm tương đồng và khác biệt giữa các hàng , sự giống nhau và khác nhau giữa cột và sự liên kết giữa các hàng và cột. Cac kêt qua cung câp thông tin t ́ ́ ̉ ́ ương tự như trong thực tiên ̃ ̉ ́ ́ ́ ́ ̣ ược môi quan hê tim ân anh h san xuât, giup chung ta phat hiên đ ́ ̣ ̀ ̉ ̉ ưởng lân nhau cua cac ̃ ̉ ́ ́ ́ ược phân tich trong bang. yêu tô đ ́ ̉ Nhom 9 ́ Page 6
Correspondence Analysis CA CHƯƠNG 2: ĐĂC ĐIÊM DATA/ D ̣ ̉ Ư LIÊU CÂN PHÂN TICH ̃ ̣ ̀ ́ 2.1. Môt sô khai niêm c ̣ ́ ́ ̣ ơ ban ̉ Profile: Tần suất tương đối trong bang ̉ dữ liêu ̣ thông ́ kê (Row and column ̀ ể xác định tọa độ của các điểm trong bản đồ profiles). Dung đ Masses (marginal distribution): Đo lường độ quan trọng của các điểm. Centroid (tâm): Trọng số trung bình của các vị trí Projection: Phép chiếu lên không gian con. Inertia: Tổng bình phương các khoảng cách của các điểm đến centroid. 2.2. Đăc điêm d ̣ ̉ ữ liêu đâu vao (input) ̣ ̀ ̀ ̃ ơi thiêu Như đa gi ́ ̣ ở phân trên, cac d ̀ ́ ữ liêu thu thâp ban đâu la “tâp cac d ̣ ̣ ̀ ̀ ̣ ́ ữ liêu thô”, ̣ ̉ ́ ̀ ́ ữ liêu dang văn ban (cac nhân đinh va đanh gia ). Do đo, nh chu yêu la cac d ̣ ̣ ̉ ́ ̣ ̣ ̀ ́ ́ ́ ững dữ liêu ̣ ̀ ̀ ược xử li va tom tăt lai đê thuân tiên va dê dang cho qua trinh phân tich. nay cân đ ́ ̀ ́ ́ ̣ ̉ ̣ ̣ ̀ ̃ ̀ ́ ̀ ́ Cać dữ liêu dang văn ban nay cân đ ̣ ̣ ̉ ̀ ̀ ược đông nhât vê măt ng ̀ ́ ̀ ̣ ữ nghia. Do cac d ̃ ́ ư ̃ ̣ ̣ ̉ liêu dang văn ban thương rât đa dang va phong phu vê măt ng ̀ ́ ̣ ̀ ́ ̀ ̣ ữ nghia (nghia cua t ̃ ̃ ̉ ư). ̀ Như ở vi du trên, khi khao sat đăc tinh cua môt loai n ́ ̣ ̉ ́ ̣ ́ ̉ ̣ ̣ ươc giai khat…do cach cam ́ ̉ ́ ́ ̉ ̣ ̉ nhân cua nh ưng ng ̃ ươi khac nhau va cach kêt luân t ̀ ́ ̀ ́ ́ ̣ ự do nên se dân đên nh ̃ ̃ ́ ững đanh gia ́ ́ ́ ự khac nhau vê măt t co s ́ ̀ ̣ ừ ngữ nhưng lai cung diên ta môt tinh chât chung nh ̣ ̀ ̃ ̉ ̣ ́ ́ ư: “vang”, ̀ ̀ ̀ ̣ ̀ ̣ ́ “vang vang”, “vang nhat”,…cung mang môt y nghia kha giông nhau la “vang”; hay “ngon ̀ ̃ ́ ́ ̀ ̀ ̀ ̣ ̣ ̣ ngot”, “ngot diu”, “h ơi ngot”… cung diên đat tinh chât trung binh cua vi ngot…h ̣ ̀ ̃ ̣ ́ ́ ̀ ̉ ̣ ̣ ơn thế nưa, nhân xet va đanh gia cua môt ng ̃ ̣ ́ ̀ ́ ́ ̉ ̣ ười hoan toan co thê bi chi phôi b ̀ ̀ ́ ̉ ̣ ́ ởi yêu tô tâm li, ́ ́ ́ được xem la cac d ̀ ́ ữ liêu ngâu nhiên – t ̣ ̃ ự phat. Do đo, viêc đông nhât d ́ ́ ̣ ̀ ́ ữ liêu dang văn ̣ ̣ ̉ ̀ ̣ ̀ ̉ ban la viêc lam cân thiêt giup giam m ̀ ́ ́ ức đô ph ̣ ức tap cua d ̣ ̉ ữ liêu đâu vao. ̣ ̀ ̀ Phân tích tương ứng là hiệu quả nhất nếu các điều kiện sau đây: Nhom 9 ́ Page 7
Correspondence Analysis CA Ma trận dữ liệu là đủ lớn, để kiểm tra trực quan hoặc phân tích thống kê đơn giản không thể tiết lộ cấu trúc của nó Các biến là đồng nhất, do đó nó làm cho cảm giác để tính toán khoảng cách thống kê giữa các hàng hoặc cột. Ma trận dữ liệu là một ưu tiên "vô định hình", tức là cấu trúc của nó, hoặc là không biết hoặc chưa được hiểu rõ. Nhom 9 ́ Page 8
Correspondence Analysis CA CHƯƠNG 3: CACH BÔ TRI D ́ ́ ́ Ư LIÊU TRONG DATA ̃ ̣ 3.1. Cach bô tri d ́ ́ ́ ữ liêu đâu vao trong bang d ̣ ̀ ̀ ̉ ự phong ̀ Trong phương phap phân tich t ́ ́ ương ưng nay, “bô d ́ ̀ ̣ ữ liêu thô” ban đâu cân đ ̣ ̀ ̀ ược ́ ́ ̀ ̣ ̣ ̉ tom tăt va hê thông hoa vao môt bang d ́ ́ ̀ ữ liêu thông kê (bang ngâu nhiên). ̣ ́ ̉ ̃ Ở bang thông ̉ ́ ́ ́ ́ ̣ ̀ ́ ương ứng với lơi đanh gia cua kê nay chung ta quan tâm đên hai biên: môt la biên t ̀ ̀ ́ ́ ̉ nhưng ng ̃ ươi đ ̀ ược khao sat (biên đăc tinh), biên th ̉ ́ ́ ̣ ́ ́ ứ hai tương ưng v ́ ơi san phâm đ ́ ̉ ̉ ược đanh gia. ́ ́ ́ ữ liêu trên đ Cac biên d ́ ̣ ược bô tri trong bang nh ́ ́ ̉ ư sau: Cac hang i (rows): ch ́ ̀ ưa d ́ ư liêu t ̃ ̣ ương ứng với cac san phâm đ ́ ̉ ̉ ược đanh gia. ́ ́ ́ ̣ Cac côt j (colums): ch ưa cac d ́ ́ ư liêu t ̃ ̣ ương ứng với tư ng ̀ ư dung đê mô ta đăc tinh ̃ ̀ ̉ ̉ ̣ ́ ̉ ̉ ̉ cua san phâm. ̉ Cac điêm giao nhau gi ́ ưa hang i va côt j: ch ̃ ̀ ̀ ̣ ưa d ́ ữ liêu ghi nhân tân sô t ̣ ̣ ̀ ́ ương quan giưa i va j, t ̃ ̀ ưc sô lân đanh gia đ ́ ́ ̀ ́ ́ ược lâp lai đôi v ̣ ̣ ́ ới môt đăc tinh cua t ̣ ̣ ́ ̉ ừng san ̉ ̉ phâm. ́ ̣ ̉ Vi du: Bang dự phong sau khao sat vê tân suât s ̀ ̉ ́ ̀ ̀ ́ ử dung cua 4 nhan hiêu kem đanh ̣ ̉ ̃ ̣ ́ răng (Brand A, Brand B, Brand C và Brand D) tại 3 khu vực (Region 1, Region 2 và Region 3) được điều tra ngẫu nhiên từ 120 người như sau: Region 1 Region 2 Region 3 Total Brand A 5 5 30 40 Brand B 5 25 5 35 Brand C 15 5 5 25 Brand D 15 5 0 20 Total 40 40 40 120 Nhom 9 ́ Page 9
Correspondence Analysis CA 3.2. Tiên x ̀ ử li d ́ ư liêu đâu vao ̃ ̣ ̀ ̀ 3.2.1. χ 2 Tính toán ̉ ̣ ̀ ̣ ̣ ́ ́ ữ liêu trong bang d Câu hoi đăt ra la liêu ban co chăc chăn cac d ́ ́ ̣ ̉ ự phong đôc lâp v ̀ ̣ ̣ ới ̉ ̣ ̉ nhau? Đê khăng đinh điêu đo chung ta cân kiêm tra ́ ̀ ́ ́ ̀ ̉ ́ ́ ́ ̣ χ2 , đê xem cac tab cheo co lêch nhau đang ̉ ưa cac hang va cac côt. ́ kê gi ̃ ́ ̀ ̀ ́ ̣ ̣ Viêc ki ểm tra được mô tả chính thức bởi các ma trân ̣ (i x j), F =[fij] . Chúng ta nhâṇ được các ma trận tương ứng P từ F bằng cách chia các mục của nó: P = [ pij] =[, where n = (1) Tiếp theo, xác định hàng và cột tổng: (2) Các χ2 Thống kê, X2 được tính: (3) µij là ước tính giá trị giả định độc lập của đâu ra: ̀ µij = pi+ p+j (4) Nếu các hàng và cột thực sự là độc lập (tức là, "theo giả thuyết null"), X2 nên theo một χ2 phân phối với (I1)x(J1) bậc tự do. Chúng ta có thể so sánh giá trị thực tế tính toán cho các ví dụ tab chéo với phân phối của mình theo giả thuyết. Nhom 9 ́ Page 10
Correspondence Analysis CA 3.2.2. χ 2 Khoảng cách Theo mục đích của phân tích tương ứng, sự khác biệt giữa các bản phân phối của các biêń hàng ngang của bang ̉ cheó (bang ̉ dự phong) ̀ được đo băng ̀ χ2 khoảng cách, trong đó có trọng lượng khoảng cách Euclide giữa các hàng bình, với trọng lượng tỉ lệ nghịch với căn bậc hai của tổng số cột. Trong các biểu tượng, các χ2 khoảng cách giữa các hàng i và hàng k được cho bởi biểu thức: (5) χ2 khoảng cách giữa các mẫu văn bản sử dụng ma trận tương ứng và hiển thị chúng trong một bảng nhỏ gọn hợp lý (sau khi nhân rộng lên 100 và làm tròn số). Từ phương trình (5) kể từ khi tổng hàng cho các trọng tâm là 1 (theo định nghĩa của P ), các χ2 khoảng cách hàng i với trọng tâm là: (7) Bây giờ với µij như được định nghĩa trong (4): (8) Vẽ một tương tự với khái niệm vật lý của quán tính góc cạnh, phân tích tương ứng xác định quán tính của một hàng như sản phẩm của tổng hàng (được gọi là khối Nhom 9 ́ Page 11
Correspondence Analysis CA lượng của hàng) và bình phương khoảng cách của nó với trọng tâm pi+diz2. So sánh biểu thức diz2 trong (5) với định nghĩa của χ2 . Thống kê trong (3), nó sau đó tổng quán tính của tất cả các hàng trong một ma trận ngẫu nhiên bằng các χ2 . Thống kê chia n , Một số lượng được gọi là meansquare contingency Pearson, ký hiệu ɸ2 : (9) Tổng quán tính của một bảng được sử dụng để đánh giá chất lượng của đại diện đồ họa của nó trong phân tích tương ứng. Để tham khảo trong tương lai, chúng ta có thể tính toán ɸ2 cho dữ liệu của chúng ta. Nhom 9 ́ Page 12
Correspondence Analysis CA CHƯƠNG 4: PHÂN MÊN HÔ TR ̀ ̀ ̃ Ợ VA CACH ĐOC KÊT QUA ̀ ́ ̣ ́ ̉ 4.1. Giơi thiêu môt sô phân mên thông dung ́ ̣ ̣ ́ ̀ ̀ ̣ Trong phương phap phân tich t ́ ́ ương ưng CA co kha nhiêu phân mêm hô tr ́ ́ ́ ̀ ̀ ̀ ̃ ợ nhăm ̀ ̉ giam b ơt cac công đoan tinh toan va giup hiên thi kêt qua thuân tiên h ́ ́ ̣ ́ ́ ̀ ́ ̣ ̣ ́ ̉ ̣ ̣ ơn cho người phân ́ ̀ ̣ ́ ̀ ̀ ̃ ợ phân tich: tich. Sau đây la môt sô phân mêm hô tr ́ ̀ SPSS (viết tắt của Statistical Package for the Social Sciences) là Phâǹ mêm một chương trình máy tính phục vụ công tác thống kê. Phần mềm SPSS hỗ trợ xử lý và phân tích dữ liệu sơ cấp là các thông tin được thu thập trực tiếp từ đối tượng nghiên cứu, thường được sử dụng rộng rãi trong các nghiên cứu điều tra xã hội học và kinh tế lượng. ̀ R: là một ngôn ngữ lập trình và môi trường phần mềm dành cho tính Phâǹ mên toán và đồ họa thống kê. Đây là một bản hiện thực ngôn ngữ lập trình S với ngữ nghĩa khối từ vựng lấy cảm hứng từ Scheme. R do Ross Ihaka và Robert Gentleman tạo ra tại Đại học Auckland, New Zealand. Phân mêm ̀ ̀ ̀ ̀ ứng dung dung trong Excel, giup hô tr ̀ XLSTAT: la phân mêm ̣ ̀ ́ ̃ ợ tinh ́ ́ ̀ ̀ ̣ toan va đô hoa thông kê nh ́ ư CA, PCAva MCA,… ̀ 4.2. ̀ ̀ XLSTAT Phân mêm ́ ̣ ̉ Vi du: Bang d ự phong sau khao sat vê tân suât s ̀ ̉ ́ ̀ ̀ ́ ử dung cua 4 nhan hiêu kem đanh ̣ ̉ ̃ ̣ ́ răng (Brand A, Brand B, Brand C và Brand D) tại 3 khu vực (Region 1, Region 2 và Region 3) được điều tra ngẫu nhiên từ 120 người như sau: Nhom 9 ́ Page 13
Correspondence Analysis CA Tota Region 1 Region 2 Region 3 l Brand A 5 5 30 40 Brand B 5 25 5 35 Brand C 15 5 5 25 Brand D 15 5 0 20 Total 40 40 40 120 Sau khi khởi động XLSTAT và chọn biểu tượng Correspondence Analysis Chọn vùng dữ liệu để phân tích và bấm OK để thực hiện CA. Vấn đề quan trọng là giải thích kết quả mà CA sinh ra để tìm ra các tri thức hữu ích ẩn chứa trong dữ liệu. Khai phá tri thức từ kết quả CA Nhom 9 ́ Page 14
Correspondence Analysis CA Sau đây giải thích từng bước các kết quả sinh ra bởi CA nhằm giúp các bạn có thể phát hiện các tri thức ẩn chứa trong dữ liệu từ Contingency table ban đầu. 4.2.1. Rows and Column Profile Kết quả cuối cùng của CA là bản đồ các điểm (Map of Points), trong đó mỗi hàng (row) và mỗi cột (column) được biểu diễn thành 1 điểm trong bản đồ. Profile được tính là tần suất tương đối của các dòng (Rows profile) và các cột (Columnsprofile) trong Contingency table. Profile của các dòng và cột được dùng để xác định tọa độ của các điểm trong bản đồ. Vì vậy các dòng hoặc các cột có profile gần giống nhau sẽ được đặt gần nhau trong bản đồ. Sau đây là Profile của các dòng và các cột được CA sinh ra từ bang d ̉ ự phong (Contingency Table). ̀ Row Profile Region 1 Region 2 Region 3 Sum 100 Brand A 12.5% 12.5% 75.0% % 100 Brand B 14.3% 71.4% 14.3% % 100 Brand C 60.0% 20.0% 20.0% % 100 Brand D 75.0% 25.0% 0.0% % 100 Mean 40.4% 33.2% 27.3% % Colum Profile Region 1 Region 2 Region 3 Mean Brand A 12.5% 12.5% 75.0% 33.3% Nhom 9 ́ Page 15
Correspondence Analysis CA Brand B 12.5% 62.5% 12.5% 29.2% Brand C 37.5% 12.5% 12.5% 20.8% Brand D 37.5% 12.5% 0.0% 16.7% Sum 100% 100% 100% 100% 4.2.2. Kiểm định sự phụ thuộc giữa các dòng (rows) và cột (columns) trong Contingency Table Bước đầu tiên trong phân tích CA là kiểm định giả thuyết về sự phụ thuộc giữa các dòng và các cột trong bảng dữ liệu ban đầu. CA tự động kiểm tra mối qua hệ này. Với dữ liệu trong ví dụ trên, kết quả kiểm định giả thuyết được CA sinh ra như sau: Test of indepe ndence betwee n the rows and the column s: Chi square (Obser ved value) 79.607 Chi 12.592 square Nhom 9 ́ Page 16
Correspondence Analysis CA (Critica l value) DF 6
Correspondence Analysis CA and the column s of the table. As the computed pvalue is lower than the significance level α=0.05, one should reject the null hypothesis H0, and accept the alternative hypothesis H1. The risk to reject the null hypothesis H0 while it is true is lower than 0.01%. Giả thuyết H0 (Null hypothesis): Các dòng và các cột trong bang d ̉ ự phong là đ ̀ ộc lập nhau. (Nói cách khác là không có sự phụ thuộc giữa các dòng và cột trong bảng). Giả thuyết H1 (giả thuyết đối): Có mối liên hệ giữa dòng và cột trong bản. Kết quả kiểm định cho thấy Pvalue
Correspondence Analysis CA inertia: F1 F2 Eigenvalue 0.410 0.253 Inertia (%) 61.843 38.157 Cumulative % 61.843 100.000 Trong ví dụ này, 2 chiều (F1 và F2) đã giải thích 100% của inertia. Vì vậy sử dụng không gian 2 chiều đủ giải thích toàn bộ inertia 4.2.4. Giải thích các chiều (các trục axis) Phần này phân tích sự đóng góp của các dòng và cột và việc xác định các chiều của không gian biểu diễn. Đóng góp của các dòng (trong trường hợp này là 4 nhãn hiệu kem đánh răng). Kết quả sinh ra bởi CA như sau: Contributions (rows): Weight (relative) F1 F2 0.62 Brand A 0.333 6 0.015 0.63 Brand B 0.292 0.072 6 0.05 Brand C 0.208 8 0.169 0.24 Brand D 0.167 4 0.181 Trong ví dụ này có 4 nhãn hiệu kem đánh răng, vì vậy bất cứ nhãn hiệu nào đóng góp từ 25% (=100/4) được coi là đóng góp có ý nghĩa trong việc xác định các chiều để Nhom 9 ́ Page 19
Correspondence Analysis CA biểu diễn các điểm. Ta thấy rằng Brand A đóng góp 62.6% trong việc xác định trục thứ nhất (F1) và Brand B đóng góp 63.6% để xác định trục thứ 2 (F2). Vì vậy có thể nói rằng trục F1 được xác định chủ yếu dựa vào Brand A và trục F2 được xác định chủ yếu do Brand B Đóng góp của các cột (trong trường hợp này là 3 khu vực). Kết quả như sau Contributions (columns): Weight (relative) F1 F2 Region 1 0.333 0.240 0.427 Region 2 0.333 0.103 0.563 Region 3 0.333 0.657 0.009 Tương tự, ta thấy trục F1 được xác định bởi Region 3 và trục F2 được xác định bởi Region 2 (Bởi vì các cột này đóng góp > 100/3 =33.3%) Chú ý rằng, Theo đóng góp của cac dòng (Brands) thì Brand A xác đ ́ ịnh F1 và theo đóng góp của cột (các Regions) thì F1 được xác định bởi Region 3, vì vậy rõ ràng rằng Brand A kết hợp mạnh mẽ với Region 3. Hay nói cách khác nhãn hiệu kem đánh răng Brand A được sử dụng nhiều nhất ở Region 3 (xem dữ hiệu trong Contingency Table và bản đồ phần sau) 4.2.5. Biểu diễn trực quan bằng bản đồ kết quả CA Ví trí của các dòng (trong trường hợp này là 4 nhãn hiệu kem đánh răng Brand A,B,C,D). Nhom 9 ́ Page 20