Phương pháp phân tích dữ liệu

Hôm nay

Chuẩn bị dữ liệu Các loại phân tích thống kê Phân tích mô tả Phân tích khác biệt

Sơ đồ tổng quát về chuẩn bị và phân tích dữ liệu

Hiệu chỉnh và Mã hóa

Chuẩn hóa

Chuẩn bị dữ liệu Nhập liệu

Phát hiện lỗi

Tóm tắt dữ liệu

Phân tích dữ liệu

Phân tích đơn biến, nhị biến

Phân tích đa biến Phân tích thống kê

Diễn dịch

Xác nhận tính hợp lý của dữ liệu (Data validation)

 Là quy trình xác định cuộc khảo sát, phỏng vấn

hoặc quan sát có được thực hiện đúng hay không và không có gian lận cũng như sai lệch.

 Tiếp xúc lại mẫu phỏng vấn nếu trong trường hợp bị sai lệch để làm cho hợp lý tiến trình thu thập dữ liệu.

Hiệu chỉnh dữ liệu (Data Editing)

 Là tiến trình kiểm tra các lỗi của dữ liệu.

Đối tượng nghiên cứu có thật sự trả lời bảng câu hỏi không?

Chính xác

Hợp lệ Đối tượng nghiên cứu có hiểu hướng dẫn

của bảng câu hỏi

Đối tượng nghiên cứu có trả lời tất cả những câu hỏi trong bảng câu hỏi không?

Hoàn thành

Quan điểm của bạn về bia Heineken là gì? Rất không có hương vị

3 1 2 4 5 Rất có hương vị 7 6

○ Rất dở 1

● Rất ngon 7

3 2 4 5 6

○ ○ ○ ○ ○

3 ● Rất tiêu cực 1 2 4 5 ○ Rất tích cực 7 6

○ ○ ○ ● ○ ○ ○

Heineken là: Rất không xứng đáng với sự tin cậy chút nào Rất xứng đáng với sự tin cậy

1 2 3 4 5 7 6

○ ○ ○ ● ○

○ Rất không đáng tin cậy chút nào 2 3 1 4 5 ○ Rất tin cậy 7 6

● ○ ○ ○ ○ ○ ○

 Anh/chị có kế hoạch chi tiêu như thế nào về các

loại thức uống cho một tuần? (tổng số bằng

100%)

Bia Nước ngọt có gas Trà đóng chai Nước tinh khiết Rượu Tổng

20 30 30 40 10 130

Mã hóa dữ liệu (Data Coding)

 Là một tiến trình của việc nhóm và quy định những

giá trị số học cho những hồi đáp trong bảng câu hỏi.

Mã hóa câu hỏi mở - Tạo ra một bảng danh sách

những loại hồi đáp

- Hợp nhất những loại hồi

đáp

Mã hóa câu hỏi đóng Quy định những tên và giá trị của biến mô tả

- Quy định mỗi loại hợp nhất

1 giá trị số học

Nhập dữ liệu (Data Entry)

 Tạo một bảng tính (spreadsheet) trong SPSS để nhập dữ

liệu

một con số

Questionnaire number: cho mỗi bảng câu hỏi Name: “Q1” Type: số hoặc chuỗi (numeric or string) Label: mô tả biến Value: quy định những giá trị số học cho các biến mô tả Missing values: giá trị (“9” or “99”) quy định cho biến

bỏ trống (missing value)

Measure: thang đo tỉ lệ và khoảng (scale); thang đo thứ tự (ordinal); thang đo danh nghĩa (nominal)

Tóm tắt dữ liệu dạng bảng (Data Tabulation)

 Đây là một quá trình đơn giản của việc đếm số lượng các quan sát mà các quan sát này được phân loại thành các hạng mục nào đó.  Bảng đơn(One-way tabulation): sự phân loại

của một biến đơn

 Bảng chéo (Cross tabulation): sự phân loại của

những biến kép

Bảng đơn

Tần số tuyệt đối

Tần số tương đối (%)

Mức độ thích thương hiệu Rất thích (5)

Tần số tích lũy (%) 20

40

20

Thích (4)

100

50

70

Tạm được (3)

30

15

85

Ghét (2)

20

10

95

Rất ghét (1)

10

5

100

Tổng

n= 200

100%

Bảng chéo

Tuổi

Mức độ gần gũi với cửa hàng

Không gần gũi Gần gũi Tổng

<15 67.1 32.9 100

15-30 39.1 60.9 100

>30 46.4 53.6 100

Tóm tắt dữ liệu dạng đồ thị

Tiệm tạp hóa 15%

Nơi thường mua dầu gội

Online 25%

Chợ 25%

Siêu thị 35%

Sơ đồ tổng quát về chuẩn bị và phân tích dữ liệu

Hiệu chỉnh và Mã hóa

Chuẩn hóa

Chuẩn bị dữ liệu Nhập liệu

Phát hiện lỗi

Đưa dữ liệu vào bảng

Phân tích dữ liệu

Phân tích đơn biến, nhị biến

Phân tích đa biến Phân tích thống kê

Diễn dịch

Các loại phân tích thống kê

Thống kê mô tả (Descriptive analysis) mô tả những đặc điểm chính của dữ liệu

Kiểm định sự khác biệt (Test of Differences) kiểm định sự khác biệt của trung bình

Kiểm định sự liên kết (Test of Association) xác định mối quan hệ giữa các biến Kiểm định sự phụ thuộc lẫn nhau (Test for Interdependence) để tóm tắt thông tin dữ liệu bằng việc nhóm các biến hoặc nhóm các đối tượng

Phân tích mô tả

Phân tích mô tả

 Là bước đầu tiên của phân tích dữ liệu  Cung cấp những tóm tắt cơ bản về mẫu và các hồi

đáp

Đo lường khuynh hướng tập trung (Measures of

central tendency) (Mode, Median, Mean)

Tóm tắt các hồi đáp điển hình

Đo lường tính biến thiên (Measures of variability)

(frequency, range, standard deviation) Đo lường sự đa dạng của hồi đáp

Đo lường khuynh hướng trung tâm

Tóm tắt những trả lời đặc trưng

Mean Median Mode

Dữ liệu phi tham số

Dữ liệu định danh Dữ liệu thứ tự

Mức độ đo lường càng cao Nhiều phân tích hơn được sử dụng

Dữ liệu tham số

Dữ liệu khoảng Dữ liệu tỉ lệ

Đo lường khuynh hướng tập trung: Mode

 Mode (chủ yếu sử dụng cho thang đo Định danh, cũng có thể

được sử dụng cho thang đo thứ tự, khoảng, tỉ lệ)

 Mode là giá trị xuất hiện trong phân phối thường xuyên nhất

Đo lường khuynh hướng tập trung: Mode

 Mode (chủ yếu sử dụng cho thang đo Định danh, cũng có thể sử dụng cho thang đo thứ tự, khoảng, tỉ lệ) √

Bạn bao nhiêu tuổi? ___

Đo lường khuynh hướng tập trung: Mode

 Mode là giá trị xuất hiện trong phân phối thường xuyên

nhất

1, 2, 1, 1, 1, 2, 1,1, 1, 2, 1, 1, 2, 1, 1, 2

20, 20, 21, 22, 20, 24, 20, 23, 20, 20, 20

Đo lường khuynh hướng tập trung: Median

 Median (sử dụng chủ yếu cho thang đo thứ tự; cũng có thể

được sử dụng cho thang đo tỉ lệ và thang đo khoảng)

 Median là giá trị ở giữa của bảng phân phối, phân nữa hồi

đáp ở trên và phân nữa hồi đáp ở dưới.

X

Đo lường khuynh hướng tập trung: Median

 Median (sử dụng chủ yếu cho thang đo thứ tự; cũng có thể được sử dụng cho thang đo tỉ lệ và thang đo khoảng)

Bạn bao nhiêu tuổi? ___

Đo lường khuynh hướng tập trung:Median

 Median là giá trị ở giữa của bảng phân phối, phân nữa hồi đáp ở trên và phân nữa hồi đáp ở dưới.

20, 20, 21, 22, 20, 24, 20, 23, 20, 26

20, 20, 20, 20, 20, 21, 22, 24, 23, 25, 26

Đo lường khuynh hướng tập trung: Mean

 Mean được sử dụng cho thang đo khoảng và tỉ lệ  Mean là giá trị trung bình của phân phối

X

X

Đo lường khuynh hướng trung tâm: Mean

 Mean được sử dụng cho thang đo khoảng và tỉ lệ  Mean là giá trị trung bình của phân phối

Bạn bao nhiêu tuổi? ___

µ: trung bình tổng thể

: trung bình mẫu

Đo lường sự biến thiên/phân tán

 Mô tả độ trải dài của những giá trị xung quanh đo

lường khuynh hướng tập trung (i.e. Sự giống nhau

của hồi đáp)

Phân phối tần số theo từng hạng mục (Frequency

distribution)

Khoảng biến thiên (Range)

Độ lệch chuẩn (Standard deviation)

Đo lường sự biến thiên: Frequency

 Frequency distribution chủ yếu được sử dụng cho thang đo

Định danh (Tabulation)

 Số lần của mỗi giá trị được chọn

Source: online resources for textbook, Hair, Lukas, Bush and Ortinau 2008

Đo lường sự biến thiên: Range

 Range chủ yếu được sử dụng cho thang đo thứ tự  Sự khác biệt giữa giá trị cao nhất và giá trị thấp

nhất

1, 3, 2, 6, 2, 2, 2, 5, 3, 1, 7, 2, 4, 5, 3, 3

Range = 7 – 1 = 6

Đo lường sự biến thiên: Standard Deviation

 Standard deviation được sử dụng cho thang đo khoảng

và tỉ lệ

 Mô tả độ lệch trung bình của các giá trị từ mean

Deviation:

Standard Deviation:

Tóm tắt: Phân tích mô tả

Mức độ đo lường

Đo lường sự biến thiên

Đo lường khuynh hướng trung tâm

Mode

Frequency

Thang đo Định danh

Thang đo thứ tự

Median

Range

Mean

Thang đo khoảng và tỉ lệ

Standard Deviation

Ứng dụng SPSS – Phân tích mô tả

 Đo lường khuynh hướng trung tâm Analyse  Descriptive Statistics 

Frequencies  Statistics

 Đo lường sự biến thiên Analyse  Descriptive Statistics 

Frequencies  Statistics

Bài tập

 Mã hóa dữ liệu  Nhập dữ liệu  Phân tích mô tả

Sơ đồ tổng quát về chuẩn bị và phân tích dữ liệu

Hiệu chỉnh và Mã hóa

Chuẩn hóa

Chuẩn bị dữ liệu Nhập liệu

Phát hiện lỗi

Đưa dữ liệu vào bảng

Phân tích dữ liệu

Phân tích đơn biến, nhị biến

Phân tích đa biến Phân tích thống kê

Diễn dịch

Kiểm định giả thuyết (Hypothesis Testing)

 Một giả thuyết là sự dự đoán của nhà nghiên cứu về 1) những đặc tính của một biến; hoặc 2) mối quan hệ giữa các biến được kiểm định trong

Giả thuyết thay thế

nghiên cứu Giả thuyết không (Null Hypothesis)

 Ký hiệu: H1/Ha  Những gì nhà nghiên cứu dự đoán hoặc mong đợi

 Ký hiệu: Ho  Giả thuyết muốn kiểm định  Trái ngược hoàn toàn những gì nhà nghiên cứu dự đoán hoặc mong đợi

(Alternative Hypothesis)

Giả thuyết Ho và H1

 Ví dụ:

Vui lòng cho biết mức độ đồng ý của bạn với phát biểu sau: “Khả năng bạn giới thiệu thương hiệu A với một người bạn như thế nào?”

Chắc chắn không giới thiệu 1 2 3 4 5 6 7 Chắc chắn giới thiệu Ho: x <= 4 H1: x > 4 (kiểm định 1 đuôi - one tailed test)

Giả thuyết Ho và H1

Vui lòng cho biết mức độ đồng ý của bạn với phát

biểu sau:

“Khả năng bạn giới thiệu thương hiệu A với 1 người

bạn như thế nào?”

Chắc chắn không giới thiệu 1 2 3 4 5 6 7 Chắc chắn giới thiệu “Khả năng bạn giới thiệu thương hiệu B với 1 người

bạn như thế nào ?”

Chắc chắn không giới thiệu 1 2 3 4 5 6 7 Chắc chắn giới thiệu Ho: x1 = x2 H1: x1 ≠ x2 (kiểm định 2 đuôi - two tailed test)

Giả thuyết Ho và H1

“Bạn đánh giá như thế nào về thương hiệu A?”

Rất tốt 1 2 3 4 5 6 7 Rất xấu

“Khả năng bạn mua thương hiệu A như thế nào?”

Rất không chắc chắn 1 2 3 4 5 6 7 Rất chắc chắn

Ho: Sự đánh giá của người tiêu dùng không ảnh

hưởng đến ý định mua hàng

H1: đánh giá của người tiêu dùng ảnh hưởng đến ý

định mua hàng

Ý nghĩa thống kê (Statistical Significance)

 Ví dụ:

“Khả năng bạn giới thiệu thương hiệu A cho 1 người bạn

như thế nào?”

Chắc chắn không giới thiệu 1 2 3 4 5 6 7 Chắc chắn giới thiệu Ho: x <= 4 H1: x > 4

 Sai lầm loại I: Lỗi được tạo ra khi chúng ta bác bỏ giả

thuyết Ho nhưng nó đúng.

 Mức ý nghĩa (Level of significance): xác suất của việc tạo ra

sai lầm loại I (α), thường là 5%  Độ tin cậy (Confidence level): 1- α

Các bước kiểm định 1 giả thuyết

 Bước 1: Bắt đầu với giả thuyết (Ho, Ha) dựa trên giả định hoặc nghiên cứu trước đây (kiểm định một đuôi Vs. Kiểm định 2 đuôi).

 Bước 2: Chọn 1 mức ý nghĩa (5% hoặc 1%)  Bước 3: Xác định phép kiểm định thích hợp và tính giá trị thống kê kiểm định (p value; ý nghĩa thống kê thật sự của kết quả)

 Bước 4: Xác định giá trị tới hạn của phép kiểm định  Bước 5: So sánh giá trị kiểm định với giá trị tới hạn để ra quyết định (từ chối hay bác bỏ giả thuyết) Nếu p >α: Chấp nhận Ho (bác bỏ Ha) Nếu p < α : từ chối Ho (chấp nhận Ha)

Phân tích khác biệt

Thương hiệu nào có chất lượng tốt hơn?

Phân tích khác biệt

 Kiểm định sự khác biệt giữa những giá trị trung bình của các nhóm nhỏ trong 1 đo lường; hoặc giữa giá trị trung bình của cùng nhóm nhỏ trong những lần đo lường lặp

 Nhóm 1: Bạn thích iPhone như thế nào? Nhóm 2: Bạn thích iPhone như thế nào? Nhóm 1: Bạn thích iPhone như thế nào? Bạn thích Samsung Galaxy như thế nào? Nhóm 1: Bạn thích iPhone như thế nào? (tháng đầu) Bạn thích iPhone như thế nào (tháng thứ 2)

Những loại kiểm định trong phân tích khác biệt

Mục đích của kiểm định

Loại kiểm định

So sánh trung bình của 1 câu hỏi được trả lời bởi một nhóm đáp viên dựa vào dữ liệu tham số bất biến

One Sample T- Test

So sánh trung bình của một câu hỏi được trả lời bởi 2 nhóm đáp viên khác nhau trên dữ liệu tham số

Independent Samples T-Test

So sánh 2 trung bình của 2 câu hỏi khác nhau được trả lời bởi cùng một nhóm đối tượng trên dữ liệu tham số

Paired Samples T- Test

ANOVA

So sánh trung bình của 1 câu hỏi được trả lời bởi hơn 2 nhóm khác nhau trên dữ liệu tham số.

One Sample T-Test

 Example: H0: mean <= 3

Ha: mean >3

1 nhóm; thang đo khoảng  one sample t test

Mức ý nghĩa: 5% Biến kiểm định: ý định bay; Giá trị kiểm định: 3

Sig. (1-tailed) = Sig. (2-tailed)/2 = 0.059

Chấp nhận Ho

P value > α

P value = 0.059 α=0.05

Independent Samples T-Tests

Example: H0: mean (nam) = mean (nữ) Ha: mean (nam) ≠ mean (nữ)

Independent Samples T-Tests

 Example: H0: mean (nam) = mean (nữ) Ha: mean (nam) ≠ mean (nữ)

 independent sample t-test

2 nhóm; thang đo khoảng

Mức ý nghĩa: 5% Biến kểm định: khả năng bay Biến nhóm: giới tính (nam vs. nữ)

Ho: variances (nam) = variances (nữ) Ha: variances (nam) ≠ variances (nữ)

Paired Samples T-Tests  Example: H0: mean (lần 1) >= mean (lần 2) Ha: mean (lần 1) < mean (lần 2)

Đo lường cùng đáp viên 2 lần:

lần đầu : tháng 2 lần 2 : tháng 7

Sig.(1-tailed) = Sig. (2-tailed) / 2

ANOVA Tests

 Example: H0: mean (N1) = mean (N2) = mean (N3) Ha: mean (N1) ≠ mean (N2) ≠ mean (N3)

(Bất kỳ của 3 nhóm này là khác nhau)

Bài tập

 Sài Gòn Bakery được thành lập cách đây 5 năm ở

Tp.HCM. Tiệm bánh bán đa dạng bánh mì Việt và bánh

mì Ý.

 Để biết khách hàng cảm thấy như thế nào khi họ mua

bánh mì tại Sài Gòn Backery. Người quản lý thuê bạn để

thực hiện một cuộc khảo sát nhỏ.

 Để làm nghiên cứu, bạn đã khảo sát 45 đối tượng bằng

cách phỏng vấn những khách hàng đến cửa hàng vào

tháng 5/ 2013.

Bài tập

Mỗi đối tượng được hỏi 4 câu hỏi: 1) Bạn đánh giá như thế nào về chất lượng của bánh mì?

(1=rất dở; 7=xuất sắc);

2) Một cách tổng quát, cho biết mức độ hài lòng của bạn về

tiệm bánh? (1=rất thất vọng, 7=xuất sắc);

3) Bạn thích bánh vì Việt hay bánh mì Ý? (1=bánh mì Ý;

2=bánh mì Việt);

4) Bạn mua bánh mì bao nhiêu lần trong 1 tuần? (1=1 lần 1

tuần; 2= 2-3 lần; 3= hơn 3 lần)

Bài tập

 Giữa tháng 5 và tháng 7, người quản lý đã thay đổi một vài

thứ trong tiệm bánh. Vì vậy vào tháng 7, quản lý yêu cầu bạn

làm một cuộc khảo sát nhỏ với cùng các đối tượng nghiên

cứu một lần nữa. Lần này, bạn chỉ đo lường sự hài lòng của

họ với tiệm bánh.

 Vì vậy tổng cộng, bạn sẽ thấy 6 biến trong dữ liệu Sài Gòn

Backery. 6 biến này là “id”; “chất lượng”; “sự hài lòng”; “ưa

thích”; “tần số”; “sự hài lòng-lặp lại”.

Bài tập

 Câu 1: Phân tích thống kê mô tả các biến nghiên cứu  Câu hỏi 2: Kiểm định xem có hay không những khách

hàng thích bánh mì Ý có đánh giá về chất lượng tốt hơn và

hài lòng về tiệm bánh hơn những khách hàng thích bánh

bì Việt.

 Câu hỏi 3: Kiểm định có hay không những khách hàng có

số lần mỗi tuần đến tiệm bánh khác nhau thì đánh giá chất

lượng và sự hài lòng khác nhau về tiệm bánh.

 Câu hỏi 4: Kiểm định có hay không việc khách hàng thay

đổi sự hài lòng của họ về tiệm bánh từ tháng 5 đến tháng 7.