Phương pháp phân tích dữ liệu
Hôm nay
Chuẩn bị dữ liệu Các loại phân tích thống kê Phân tích mô tả Phân tích khác biệt
Sơ đồ tổng quát về chuẩn bị và phân tích dữ liệu
Hiệu chỉnh và Mã hóa
Chuẩn hóa
Chuẩn bị dữ liệu Nhập liệu
Phát hiện lỗi
Tóm tắt dữ liệu
Phân tích dữ liệu
Phân tích đơn biến, nhị biến
Phân tích đa biến Phân tích thống kê
Diễn dịch
Xác nhận tính hợp lý của dữ liệu (Data validation)
Là quy trình xác định cuộc khảo sát, phỏng vấn
hoặc quan sát có được thực hiện đúng hay không và không có gian lận cũng như sai lệch.
Tiếp xúc lại mẫu phỏng vấn nếu trong trường hợp bị sai lệch để làm cho hợp lý tiến trình thu thập dữ liệu.
Hiệu chỉnh dữ liệu (Data Editing)
Là tiến trình kiểm tra các lỗi của dữ liệu.
Đối tượng nghiên cứu có thật sự trả lời bảng câu hỏi không?
Chính xác
Hợp lệ Đối tượng nghiên cứu có hiểu hướng dẫn
của bảng câu hỏi
Đối tượng nghiên cứu có trả lời tất cả những câu hỏi trong bảng câu hỏi không?
Hoàn thành
Quan điểm của bạn về bia Heineken là gì? Rất không có hương vị
○
○
○
○
○
3 1 2 4 5 Rất có hương vị 7 6
○ Rất dở 1
● Rất ngon 7
3 2 4 5 6
○ ○ ○ ○ ○
3 ● Rất tiêu cực 1 2 4 5 ○ Rất tích cực 7 6
○ ○ ○ ● ○ ○ ○
Heineken là: Rất không xứng đáng với sự tin cậy chút nào Rất xứng đáng với sự tin cậy
1 2 3 4 5 7 6
○ ○ ○ ● ○
○ Rất không đáng tin cậy chút nào 2 3 1 4 5 ○ Rất tin cậy 7 6
● ○ ○ ○ ○ ○ ○
Anh/chị có kế hoạch chi tiêu như thế nào về các
loại thức uống cho một tuần? (tổng số bằng
100%)
Bia Nước ngọt có gas Trà đóng chai Nước tinh khiết Rượu Tổng
20 30 30 40 10 130
Mã hóa dữ liệu (Data Coding)
Là một tiến trình của việc nhóm và quy định những
giá trị số học cho những hồi đáp trong bảng câu hỏi.
Mã hóa câu hỏi mở - Tạo ra một bảng danh sách
những loại hồi đáp
- Hợp nhất những loại hồi
đáp
Mã hóa câu hỏi đóng Quy định những tên và giá trị của biến mô tả
- Quy định mỗi loại hợp nhất
1 giá trị số học
Nhập dữ liệu (Data Entry)
Tạo một bảng tính (spreadsheet) trong SPSS để nhập dữ
liệu
một con số
Questionnaire number: cho mỗi bảng câu hỏi Name: “Q1” Type: số hoặc chuỗi (numeric or string) Label: mô tả biến Value: quy định những giá trị số học cho các biến mô tả Missing values: giá trị (“9” or “99”) quy định cho biến
bỏ trống (missing value)
Measure: thang đo tỉ lệ và khoảng (scale); thang đo thứ tự (ordinal); thang đo danh nghĩa (nominal)
Tóm tắt dữ liệu dạng bảng (Data Tabulation)
Đây là một quá trình đơn giản của việc đếm số lượng các quan sát mà các quan sát này được phân loại thành các hạng mục nào đó. Bảng đơn(One-way tabulation): sự phân loại
của một biến đơn
Bảng chéo (Cross tabulation): sự phân loại của
những biến kép
Bảng đơn
Tần số tuyệt đối
Tần số tương đối (%)
Mức độ thích thương hiệu Rất thích (5)
Tần số tích lũy (%) 20
40
20
Thích (4)
100
50
70
Tạm được (3)
30
15
85
Ghét (2)
20
10
95
Rất ghét (1)
10
5
100
Tổng
n= 200
100%
Bảng chéo
Tuổi
Mức độ gần gũi với cửa hàng
Không gần gũi Gần gũi Tổng
<15 67.1 32.9 100
15-30 39.1 60.9 100
>30 46.4 53.6 100
Tóm tắt dữ liệu dạng đồ thị
Tiệm tạp hóa 15%
Nơi thường mua dầu gội
Online 25%
Chợ 25%
Siêu thị 35%
Sơ đồ tổng quát về chuẩn bị và phân tích dữ liệu
Hiệu chỉnh và Mã hóa
Chuẩn hóa
Chuẩn bị dữ liệu Nhập liệu
Phát hiện lỗi
Đưa dữ liệu vào bảng
Phân tích dữ liệu
Phân tích đơn biến, nhị biến
Phân tích đa biến Phân tích thống kê
Diễn dịch
Các loại phân tích thống kê
Thống kê mô tả (Descriptive analysis) mô tả những đặc điểm chính của dữ liệu
Kiểm định sự khác biệt (Test of Differences) kiểm định sự khác biệt của trung bình
Kiểm định sự liên kết (Test of Association) xác định mối quan hệ giữa các biến Kiểm định sự phụ thuộc lẫn nhau (Test for Interdependence) để tóm tắt thông tin dữ liệu bằng việc nhóm các biến hoặc nhóm các đối tượng
Phân tích mô tả
Phân tích mô tả
Là bước đầu tiên của phân tích dữ liệu Cung cấp những tóm tắt cơ bản về mẫu và các hồi
đáp
Đo lường khuynh hướng tập trung (Measures of
central tendency) (Mode, Median, Mean)
Tóm tắt các hồi đáp điển hình
Đo lường tính biến thiên (Measures of variability)
(frequency, range, standard deviation) Đo lường sự đa dạng của hồi đáp
Đo lường khuynh hướng trung tâm
Tóm tắt những trả lời đặc trưng
Mean Median Mode
Dữ liệu phi tham số
Dữ liệu định danh Dữ liệu thứ tự
Mức độ đo lường càng cao Nhiều phân tích hơn được sử dụng
Dữ liệu tham số
Dữ liệu khoảng Dữ liệu tỉ lệ
Đo lường khuynh hướng tập trung: Mode
Mode (chủ yếu sử dụng cho thang đo Định danh, cũng có thể
được sử dụng cho thang đo thứ tự, khoảng, tỉ lệ)
Mode là giá trị xuất hiện trong phân phối thường xuyên nhất
√
√
Đo lường khuynh hướng tập trung: Mode
Mode (chủ yếu sử dụng cho thang đo Định danh, cũng có thể sử dụng cho thang đo thứ tự, khoảng, tỉ lệ) √
Bạn bao nhiêu tuổi? ___
√
Đo lường khuynh hướng tập trung: Mode
Mode là giá trị xuất hiện trong phân phối thường xuyên
nhất
1, 2, 1, 1, 1, 2, 1,1, 1, 2, 1, 1, 2, 1, 1, 2
20, 20, 21, 22, 20, 24, 20, 23, 20, 20, 20
Đo lường khuynh hướng tập trung: Median
Median (sử dụng chủ yếu cho thang đo thứ tự; cũng có thể
được sử dụng cho thang đo tỉ lệ và thang đo khoảng)
Median là giá trị ở giữa của bảng phân phối, phân nữa hồi
đáp ở trên và phân nữa hồi đáp ở dưới.
X
√
Đo lường khuynh hướng tập trung: Median
Median (sử dụng chủ yếu cho thang đo thứ tự; cũng có thể được sử dụng cho thang đo tỉ lệ và thang đo khoảng)
√
Bạn bao nhiêu tuổi? ___
√
Đo lường khuynh hướng tập trung:Median
Median là giá trị ở giữa của bảng phân phối, phân nữa hồi đáp ở trên và phân nữa hồi đáp ở dưới.
20, 20, 21, 22, 20, 24, 20, 23, 20, 26
20, 20, 20, 20, 20, 21, 22, 24, 23, 25, 26
Đo lường khuynh hướng tập trung: Mean
Mean được sử dụng cho thang đo khoảng và tỉ lệ Mean là giá trị trung bình của phân phối
X
X
Đo lường khuynh hướng trung tâm: Mean
Mean được sử dụng cho thang đo khoảng và tỉ lệ Mean là giá trị trung bình của phân phối
√
Bạn bao nhiêu tuổi? ___
√
µ: trung bình tổng thể
: trung bình mẫu
Đo lường sự biến thiên/phân tán
Mô tả độ trải dài của những giá trị xung quanh đo
lường khuynh hướng tập trung (i.e. Sự giống nhau
của hồi đáp)
Phân phối tần số theo từng hạng mục (Frequency
distribution)
Khoảng biến thiên (Range)
Độ lệch chuẩn (Standard deviation)
Đo lường sự biến thiên: Frequency
Frequency distribution chủ yếu được sử dụng cho thang đo
Định danh (Tabulation)
Số lần của mỗi giá trị được chọn
Source: online resources for textbook, Hair, Lukas, Bush and Ortinau 2008
Đo lường sự biến thiên: Range
Range chủ yếu được sử dụng cho thang đo thứ tự Sự khác biệt giữa giá trị cao nhất và giá trị thấp
nhất
1, 3, 2, 6, 2, 2, 2, 5, 3, 1, 7, 2, 4, 5, 3, 3
Range = 7 – 1 = 6
Đo lường sự biến thiên: Standard Deviation
Standard deviation được sử dụng cho thang đo khoảng
và tỉ lệ
Mô tả độ lệch trung bình của các giá trị từ mean
Deviation:
Standard Deviation:
Tóm tắt: Phân tích mô tả
Mức độ đo lường
Đo lường sự biến thiên
Đo lường khuynh hướng trung tâm
Mode
Frequency
Thang đo Định danh
Thang đo thứ tự
Median
Range
Mean
Thang đo khoảng và tỉ lệ
Standard Deviation
Ứng dụng SPSS – Phân tích mô tả
Đo lường khuynh hướng trung tâm Analyse Descriptive Statistics
Frequencies Statistics
Đo lường sự biến thiên Analyse Descriptive Statistics
Frequencies Statistics
Bài tập
Mã hóa dữ liệu Nhập dữ liệu Phân tích mô tả
Sơ đồ tổng quát về chuẩn bị và phân tích dữ liệu
Hiệu chỉnh và Mã hóa
Chuẩn hóa
Chuẩn bị dữ liệu Nhập liệu
Phát hiện lỗi
Đưa dữ liệu vào bảng
Phân tích dữ liệu
Phân tích đơn biến, nhị biến
Phân tích đa biến Phân tích thống kê
Diễn dịch
Kiểm định giả thuyết (Hypothesis Testing)
Một giả thuyết là sự dự đoán của nhà nghiên cứu về 1) những đặc tính của một biến; hoặc 2) mối quan hệ giữa các biến được kiểm định trong
Giả thuyết thay thế
nghiên cứu Giả thuyết không (Null Hypothesis)
Ký hiệu: H1/Ha Những gì nhà nghiên cứu dự đoán hoặc mong đợi
Ký hiệu: Ho Giả thuyết muốn kiểm định Trái ngược hoàn toàn những gì nhà nghiên cứu dự đoán hoặc mong đợi
(Alternative Hypothesis)
Giả thuyết Ho và H1
Ví dụ:
Vui lòng cho biết mức độ đồng ý của bạn với phát biểu sau: “Khả năng bạn giới thiệu thương hiệu A với một người bạn như thế nào?”
Chắc chắn không giới thiệu 1 2 3 4 5 6 7 Chắc chắn giới thiệu Ho: x <= 4 H1: x > 4 (kiểm định 1 đuôi - one tailed test)
Giả thuyết Ho và H1
Vui lòng cho biết mức độ đồng ý của bạn với phát
biểu sau:
“Khả năng bạn giới thiệu thương hiệu A với 1 người
bạn như thế nào?”
Chắc chắn không giới thiệu 1 2 3 4 5 6 7 Chắc chắn giới thiệu “Khả năng bạn giới thiệu thương hiệu B với 1 người
bạn như thế nào ?”
Chắc chắn không giới thiệu 1 2 3 4 5 6 7 Chắc chắn giới thiệu Ho: x1 = x2 H1: x1 ≠ x2 (kiểm định 2 đuôi - two tailed test)
Giả thuyết Ho và H1
“Bạn đánh giá như thế nào về thương hiệu A?”
Rất tốt 1 2 3 4 5 6 7 Rất xấu
“Khả năng bạn mua thương hiệu A như thế nào?”
Rất không chắc chắn 1 2 3 4 5 6 7 Rất chắc chắn
Ho: Sự đánh giá của người tiêu dùng không ảnh
hưởng đến ý định mua hàng
H1: đánh giá của người tiêu dùng ảnh hưởng đến ý
định mua hàng
Ý nghĩa thống kê (Statistical Significance)
Ví dụ:
“Khả năng bạn giới thiệu thương hiệu A cho 1 người bạn
như thế nào?”
Chắc chắn không giới thiệu 1 2 3 4 5 6 7 Chắc chắn giới thiệu Ho: x <= 4 H1: x > 4
Sai lầm loại I: Lỗi được tạo ra khi chúng ta bác bỏ giả
thuyết Ho nhưng nó đúng.
Mức ý nghĩa (Level of significance): xác suất của việc tạo ra
sai lầm loại I (α), thường là 5% Độ tin cậy (Confidence level): 1- α
Các bước kiểm định 1 giả thuyết
Bước 1: Bắt đầu với giả thuyết (Ho, Ha) dựa trên giả định hoặc nghiên cứu trước đây (kiểm định một đuôi Vs. Kiểm định 2 đuôi).
Bước 2: Chọn 1 mức ý nghĩa (5% hoặc 1%) Bước 3: Xác định phép kiểm định thích hợp và tính giá trị thống kê kiểm định (p value; ý nghĩa thống kê thật sự của kết quả)
Bước 4: Xác định giá trị tới hạn của phép kiểm định Bước 5: So sánh giá trị kiểm định với giá trị tới hạn để ra quyết định (từ chối hay bác bỏ giả thuyết) Nếu p >α: Chấp nhận Ho (bác bỏ Ha) Nếu p < α : từ chối Ho (chấp nhận Ha)
Phân tích khác biệt
Thương hiệu nào có chất lượng tốt hơn?
Phân tích khác biệt
Kiểm định sự khác biệt giữa những giá trị trung bình của các nhóm nhỏ trong 1 đo lường; hoặc giữa giá trị trung bình của cùng nhóm nhỏ trong những lần đo lường lặp
Nhóm 1: Bạn thích iPhone như thế nào? Nhóm 2: Bạn thích iPhone như thế nào? Nhóm 1: Bạn thích iPhone như thế nào? Bạn thích Samsung Galaxy như thế nào? Nhóm 1: Bạn thích iPhone như thế nào? (tháng đầu) Bạn thích iPhone như thế nào (tháng thứ 2)
Những loại kiểm định trong phân tích khác biệt
Mục đích của kiểm định
Loại kiểm định
So sánh trung bình của 1 câu hỏi được trả lời bởi một nhóm đáp viên dựa vào dữ liệu tham số bất biến
One Sample T- Test
So sánh trung bình của một câu hỏi được trả lời bởi 2 nhóm đáp viên khác nhau trên dữ liệu tham số
Independent Samples T-Test
So sánh 2 trung bình của 2 câu hỏi khác nhau được trả lời bởi cùng một nhóm đối tượng trên dữ liệu tham số
Paired Samples T- Test
ANOVA
So sánh trung bình của 1 câu hỏi được trả lời bởi hơn 2 nhóm khác nhau trên dữ liệu tham số.
One Sample T-Test
Example: H0: mean <= 3
Ha: mean >3
1 nhóm; thang đo khoảng one sample t test
Mức ý nghĩa: 5% Biến kiểm định: ý định bay; Giá trị kiểm định: 3
Sig. (1-tailed) = Sig. (2-tailed)/2 = 0.059
Chấp nhận Ho
P value > α
P value = 0.059 α=0.05
Independent Samples T-Tests
Example: H0: mean (nam) = mean (nữ) Ha: mean (nam) ≠ mean (nữ)
Independent Samples T-Tests
Example: H0: mean (nam) = mean (nữ) Ha: mean (nam) ≠ mean (nữ)
independent sample t-test
2 nhóm; thang đo khoảng
Mức ý nghĩa: 5% Biến kểm định: khả năng bay Biến nhóm: giới tính (nam vs. nữ)
Ho: variances (nam) = variances (nữ) Ha: variances (nam) ≠ variances (nữ)
Paired Samples T-Tests Example: H0: mean (lần 1) >= mean (lần 2) Ha: mean (lần 1) < mean (lần 2)
Đo lường cùng đáp viên 2 lần:
lần đầu : tháng 2 lần 2 : tháng 7
Sig.(1-tailed) = Sig. (2-tailed) / 2
ANOVA Tests
Example: H0: mean (N1) = mean (N2) = mean (N3) Ha: mean (N1) ≠ mean (N2) ≠ mean (N3)
(Bất kỳ của 3 nhóm này là khác nhau)
Bài tập
Sài Gòn Bakery được thành lập cách đây 5 năm ở
Tp.HCM. Tiệm bánh bán đa dạng bánh mì Việt và bánh
mì Ý.
Để biết khách hàng cảm thấy như thế nào khi họ mua
bánh mì tại Sài Gòn Backery. Người quản lý thuê bạn để
thực hiện một cuộc khảo sát nhỏ.
Để làm nghiên cứu, bạn đã khảo sát 45 đối tượng bằng
cách phỏng vấn những khách hàng đến cửa hàng vào
tháng 5/ 2013.
Bài tập
Mỗi đối tượng được hỏi 4 câu hỏi: 1) Bạn đánh giá như thế nào về chất lượng của bánh mì?
(1=rất dở; 7=xuất sắc);
2) Một cách tổng quát, cho biết mức độ hài lòng của bạn về
tiệm bánh? (1=rất thất vọng, 7=xuất sắc);
3) Bạn thích bánh vì Việt hay bánh mì Ý? (1=bánh mì Ý;
2=bánh mì Việt);
4) Bạn mua bánh mì bao nhiêu lần trong 1 tuần? (1=1 lần 1
tuần; 2= 2-3 lần; 3= hơn 3 lần)
Bài tập
Giữa tháng 5 và tháng 7, người quản lý đã thay đổi một vài
thứ trong tiệm bánh. Vì vậy vào tháng 7, quản lý yêu cầu bạn
làm một cuộc khảo sát nhỏ với cùng các đối tượng nghiên
cứu một lần nữa. Lần này, bạn chỉ đo lường sự hài lòng của
họ với tiệm bánh.
Vì vậy tổng cộng, bạn sẽ thấy 6 biến trong dữ liệu Sài Gòn
Backery. 6 biến này là “id”; “chất lượng”; “sự hài lòng”; “ưa
thích”; “tần số”; “sự hài lòng-lặp lại”.
Bài tập
Câu 1: Phân tích thống kê mô tả các biến nghiên cứu Câu hỏi 2: Kiểm định xem có hay không những khách
hàng thích bánh mì Ý có đánh giá về chất lượng tốt hơn và
hài lòng về tiệm bánh hơn những khách hàng thích bánh
bì Việt.
Câu hỏi 3: Kiểm định có hay không những khách hàng có
số lần mỗi tuần đến tiệm bánh khác nhau thì đánh giá chất
lượng và sự hài lòng khác nhau về tiệm bánh.
Câu hỏi 4: Kiểm định có hay không việc khách hàng thay
đổi sự hài lòng của họ về tiệm bánh từ tháng 5 đến tháng 7.

