ữ ệ
Bài 8. ử ậ Nh p và x lý d li u
ươ
ứ
ế
ọ Môn h c: Ph
ng pháp nghiên c u kinh t ể
ạ ọ
ế Phát tri n Khoa Kinh t ồ ế Đ i h c Kinh T TP. H Chí Minh
ớ
ệ
8.1 Gi
i thi u
ướ
ẫ ệ
ữ ệ
ữ ệ
ậ
ỹ
ằ Nh m h ng d n sinh viên cách: Cách nh p li u, x lý và phân tích d li u. ử ậ Các k thu t phân tích d li u mang tính khám
phá (exploratory data analysis). ả
Cách s d ng b ng chéo (crosstabulation) đ ể
ố
ắ
ệ ữ
ế
ạ
ử ụ ệ
tr c nghi m m i quan h gi a các bi n phân lo i (categorical variables). ố
ắ
Cách s d ng các th ng kê phân tích tr c
ử ụ ả
ế
ệ nghi m gi
thi
t.
ầ
ế TS. Tr n Ti n Khai, UEH
2
ữ ệ
8.2 Quy trình phân tích d li u
Lập đề cương NC
Kế hoạch phân tích sơ khởi
Xác định lại giả tthuyết
ệ ắ
Thu thập và chuẩn bị dữ liệu
Thể hiện trực quan dữ liệu
ướ c khám phá, Hình 8.1 Các b tr c nghi m và phân tích trong quá trình nghiên c u ứ
Phân tích và diễn giải dữ liệu
Phân tích mô tả các biến số
Lập bảng chéo cho các biến số
Trình bày dữ liệu (histogram, boxplots, Pareto, stem- and-leaf, AID, etc.)
Phân tích dữ liệu
Trắc nghiệm giả thiết
Báo cáo nghiên cứu
Ra quyết định
ầ
ế TS. Tr n Ti n Khai, UEH
3
ố ệ
ậ 8.3 Nh p s li u
ố
ữ ệ
8.3.1 Cách b trí d li u trên máy tính M c tiêu: ụ ạ
ề
ệ
ệ
ệ
ậ
ậ
Nh m t o đi u ki n thu n ti n cho vi c nh p
ậ ợ
ự
ử
ệ
Nh m t o s thu n l ạ
ữ ỉ i cho vi c ch nh s a d
ằ li uệ ằ li uệ
ầ
ế TS. Tr n Ti n Khai, UEH
4
ố ệ
ậ 8.3 Nh p s li u
ệ
ắ
ọ
t
ế ắ t t ế
ế ế
ặ
Th c hi n: ự ắ ệ t không d u ho c ti ng Anh). Tên bi n nên
Nguyên t c chung: đ t tên bi n ng n g n, vi ặ ấ ị
ế ượ
(ti ng Vi ặ đ
c đ t theo quy đ nh. ễ
ư
ử
ỉ
ụ ố
ế
Dùng Excel: d thao tác và ch nh s a, không gian l u ng không
ế ượ l
ữ ạ ủ
tr h n ch , công c th ng kê và kinh t đ cho phân tích.
ư
ư
ạ
ể
ữ ầ ế ượ l
Dùng SPSS: không gian l u tr g n nh không h n ầ ộ
ế ủ ấ
ụ ố ng phát tri n đ y ch , công c th ng kê và kinh t ắ ữ ệ ầ đ cho nhu c u phân tích. Khai báo d li u b t bu c, ờ m t th i gian.
ầ
ế TS. Tr n Ti n Khai, UEH
5
ố ệ
ậ 8.3 Nh p s li u
ậ
ầ
ế TS. Tr n Ti n Khai, UEH
6
ả Hình 5. 2 Cách ữ ệ nh p d li u vào b ng tính SPSS
ố ệ
ậ 8.3 Nh p s li u
ầ
ế TS. Tr n Ti n Khai, UEH
7
ố ị ủ ế ộ ị ị ượ ng Hình 8.3 Cách đ nh nghĩa các thu c tính c a các bi n s đ nh tính và đ nh l
ể
ế
ị
Đ nh nghĩa ki u bi n
ầ
ế TS. Tr n Ti n Khai, UEH
8
ị
ả
ủ
ế
Xác đ nh nhãn (gi
i thích) c a bi n
ầ
ế TS. Tr n Ti n Khai, UEH
9
ạ ủ
ế
ị
ị
Xác đ nh giá tr phân lo i c a bi n
ầ
ế TS. Tr n Ti n Khai, UEH
10
ủ
ế
ị
Xác đ nh thang đo c a bi n
ầ
ế TS. Tr n Ti n Khai, UEH
11
ữ ệ
ạ 8.4 Làm s ch d li u
ị ệ
ị
ữ ệ
ệ 8.4.1 Phát hi n giá tr d bi
t trong d li u
ầ
ế TS. Tr n Ti n Khai, UEH
12
ử ụ ồ ị ụ a. S d ng Excel: hàm Max và Min, công c Auto Filter, đ th Scatter
ữ ệ
ạ 8.4 Làm s ch d li u
ầ
ế TS. Tr n Ti n Khai, UEH
13
ụ ồ ị Hình 5.4 Công c đ th Scatter trong Excel
ữ ệ
ạ 8.4 Làm s ch d li u
ị ệ
ị
ữ ệ
ệ 8.4.1 Phát hi n giá tr d bi
t trong d li u
ử ụ ồ ị ụ
ầ
ế TS. Tr n Ti n Khai, UEH
14
b. S d ng SPSS: đ th Scatter, công c Frequency, Bar Chart, Pie Chart, và Box Plot trong Explore
ữ ệ
ạ 8.4 Làm s ch d li u
Motobike Names
80
Others
Honda @
70
Honda Dream
60
SYM Attila
50
Yamaha Cygnus
r e s u
Honda Wave
40
e k
i
Yamaha Jupiter
b r o
t
30
Yamaha Sirius
o m
f
o
20
Honda Future Neo
10
Honda AirBlade
e g A
0
10
20
30
40
ầ
Number of used days in a month ế TS. Tr n Ti n Khai, UEH
15
ử ụ ồ ị b. S d ng SPSS: đ th Scatter
ữ ệ
ạ 8.4 Làm s ch d li u
ầ
ế TS. Tr n Ti n Khai, UEH
16
ử ụ ụ b. S d ng SPSS: công c Frequency, Explore
ụ Hình 8.6 Công c Frequency và Explore trong SPSS
ữ ệ
ạ 8.4 Làm s ch d li u
ử ụ ụ b. S d ng SPSS: công c Frequency
Frequency Percent %Valid
Honda Air Blade
10
10.0
10.0
10.0
Honda Future Neo
8
8.0
8.0
18.0
Yamaha Sirius
7
7.0
7.0
25.0
Yamaha Jupiter
13
13.0
13.0
38.0
Honda Wave
24
24.0
24.0
62.0
Yamaha Cygnus
4
4.0
4.0
66.0
SYM Attila
11
11.0
11.0
77.0
Honda Dream
6
6.0
6.0
83.0
Honda @
7
7.0
7.0
90.0
Others
10.0
10.0
ế TS. Tr n Ti n Khai, UEH
100.0 17
Total
10 ầ 100
100.0
100.0
Cumulative Percent
ữ ệ
ạ 8.4 Làm s ch d li u
30
Others
Honda AirBlade
10.0%
10.0%
20
Honda @
Honda Future Neo
7.0%
8.0%
Honda Dream
Yamaha Sirius
10
t
6.0%
7.0%
SYM Attila
0
n e c r e P
Yamaha Jupiter
11.0%
13.0%
Yamaha Cygnus
4.0%
Honda Wave
24.0%
Motobike Names
ầ
ế TS. Tr n Ti n Khai, UEH
18
ử ụ ụ b. S d ng SPSS: công c Pie Chart và Bar Chart
ữ ệ
ạ 8.4 Làm s ch d li u
ồ
ướ
c dùng
ặ
ể ể ể ệ ể
ồ
Bi u đ histogram là m t gi ả ộ i pháp quy ả ữ ệ ỷ ệ ho c kho ng cách. l đ th hi n các d li u t ử ụ ể c s d ng đ phân nhóm ế
Bi u đ histogram đ ủ
ố
ượ ị ữ ệ các giá tr d li u c a các bi n s (variable) ả thành các kho ng cách.
ể
ồ
ự
ướ ạ
Bi u đ histogram đ
c xây d ng d
i d ng các
ể ệ
ượ ị ữ ệ
thanh th hi n giá tr d li u.
ầ
ế TS. Tr n Ti n Khai, UEH
19
ử ụ b. S d ng SPSS: công c ụ Histogram
ữ ệ
ạ 8.4 Làm s ch d li u
ồ
ấ ữ
ể ệ
ụ
ệ
Bi u đ histogram r t h u d ng cho vi c: (1) th hi n
ả
ộ
ệ
ắ
ạ
ư ộ
ố
ọ
ộ
ể ố ấ ả t c các kho ng cách trong m t phân ph i t ủ (distribution), và (2) tr c nghi m d ng hình c a phân ph i nh đ méo (skewness), đ nh n (kurtosis).
ể
ồ
ượ
c cho
ế
Ghi chú: Bi u đ histogram không dùng đ các bi n danh nghĩa .
ầ
ế TS. Tr n Ti n Khai, UEH
20
ử ụ b. S d ng SPSS: công c ụ Histogram
ữ ệ
ạ 8.4 Làm s ch d li u
30
ử ụ b. S d ng SPSS: công c ụ Histogram
ườ i
20
10
Std. Dev = 14.42
Mean = 39
N = 100.00
0
20
25
30
35
40
45
50
55
60
65
70
75
Age of motorbike user
ầ
ế TS. Tr n Ti n Khai, UEH
21
Ví d ụ 8.2 Phân ph i ố ố ổ ủ ế bi n s tu i c a ng ử ụ s d ng xe máy
ữ ệ
ạ 8.4 Làm s ch d li u
ỗ
ọ
c g i là m t
M i dòng c a bi u đ đ ủ ể ỗ ố ệ
ồ ượ ể ệ
ộ ộ
ọ
thân; và m i s li u th hi n trên m t thân g i là m t
ể
ượ ng t
0 , c quay trái 90 ồ ư ể ự nh bi u đ
ộ lá. Khi bi u đ thânvàlá đ ồ ươ ạ ẽ nó s có d ng hình t histogram.
ầ
ế TS. Tr n Ti n Khai, UEH
22
ử ụ ồ ể b. S d ng SPSS: bi u đ ThânvàLá (StemandLeaf Displays)
ữ ệ
ạ 8.4 Làm s ch d li u
Age of motorbike user StemandLeaf Plot
Frequency Stem & Leaf
ử ụ ể b. S d ng SPSS: bi u đ ồ ThânvàLá (StemandLeaf Displays)
ổ ủ
6.00 1 . 889999 18.00 2 . 000111122222233344 8.00 2 . 55677788 13.00 3 . 0012233334444 4.00 3 . 5556 12.00 4 . 123333334444 13.00 4 . 5555566777789 10.00 5 . 0123344444 9.00 5 . 566667779 2.00 6 . 03 4.00 6 . 5567 .00 7 . 1.00 7 . 6
ầ
ế TS. Tr n Ti n Khai, UEH
23
Stem width: 10 Each leaf: 1 case(s)
ể ồ 8.3 Bi u đ Thânvà Lá ố ế ủ c a bi n s Tu i c a ườ ử ụ i s d ng xe máy ng
ữ ệ
ạ 8.4 Làm s ch d li u
ể
ồ ộ
ồ ộ ự
boxand ề ị ườ
ị ấ
ng
ể ệ
ồ ộ
ắ
ộ
Bi u đ h p, hay còn g i là bi u đ h pvàrâu ( ể ọ ộ ả ộ whisker plot), cho ta m t hình nh tr c quan khác v v trí, đ ộ ạ phân tán, d ng hình, đ dài đuôi và các giá tr b t th ố ủ (outliers) c a phân ph i. Bi u đ h p th hi n tóm t
t 5 giá tr th ng kê c a m t phân
ứ
ể ố
ớ
ủ ị ố ướ ị phân v trên và d ấ
ị
ị i (the upper ph i là trung v (median), hai t ấ ỏ and lower quartiles), và các giá tr quan sát l n nh t và nh nh t
ầ
ế TS. Tr n Ti n Khai, UEH
24
ử ụ ể b. S d ng SPSS: bi u đ ồ hộp (BoxPlots)
ữ ệ
ạ 8.4 Làm s ch d li u
ầ
ể
ồ ộ
ứ
Các thành ph n ch y u c a bi u đ h p là: ủ ế ậ
ở
ẳ
ự ộ
ị
ị ữ ệ ị trung tâm h p là giá tr trung v . ị ứ
ị ứ
ể ệ c a h p th hi n hai giá tr t
ề ủ ứ phân v th 1 và th 3 ị ứ ứ ng ng v i giá tr th 25% (25th percentile) và giá tr th
ị ứ ủ
ố ệ
ướ ủ
phía trên và phía d
ệ
ằ
ấ
ị
ủ H p hình ch nh t ch a đ ng 50% các giá tr d li u. ộ ữ Đ ng th ng ườ Hai l ộ ớ ươ (t 75% (75th percentile) c a dãy s li u. Các “râu” kéo dài t ừ ề l ấ ầ
ỏ ả
ữ
ứ
ị
ể ộ i c a h p th hi n giá tr l n nh t và nh nh t. Các giá tr này n m trong ố ả kho ng t phân v tính ừ ề ủ t c a h p.
ị ớ i đa 1,5 l n kho ng cách gi a các t ộ
l
ầ
ế TS. Tr n Ti n Khai, UEH
25
ử ụ ể b. S d ng SPSS: bi u đ ồ hộp (BoxPlots)
ữ ệ
ạ 8.4 Làm s ch d li u
Các giá trị lớn hơn 3 lần so với độ dài của hộp tính từ giá trị tứ phân vị thứ 3 (75th percentile) (extremes)
Các giá trị lớn hơn 1,5 lần so với độ dài của hộp tính từ giá trị tứ phân vị thứ 3 (75th percentile) (outliers)
Giá trị lớn nhất quan sát được không phải là giá trị bất thường
Tứ phân vị thứ 3 (75th PERCENTILE)
ườ
ng
Trung vị (MEDIAN)
50% tr ợ h p có giá ị ằ tr n m trong h p ộ
Tứ phân vị thứ 1 (25th PERCENTILE)
Giá trị lớn nhất quan sát được không phải là giá trị bất thường
Các giá trị lớn hơn 1,5 lần so với độ dài của hộp tính từ giá trị tứ phân vị thứ 1 (25th percentile) (outliers)
Các giá trị lớn hơn 3 lần so với độ dài của hộp tính từ giá trị tứ phân vị thứ 1 (25th percentile) (extremes)
ầ
ế TS. Tr n Ti n Khai, UEH
26
ử ụ ể b. S d ng SPSS: bi u đ ồ hộp (BoxPlots)
ữ ệ
ạ 8.4 Làm s ch d li u
100
80
60
40
20
ử ụ ể b. S d ng SPSS: bi u đ ồ hộp (BoxPlots)
0 N =
100
100
ế ủ ồ ộ
Age of motorbike use
Number of used days
ườ ử ụ ử ụ ố
ầ
ế TS. Tr n Ti n Khai, UEH
27
ố ể 8.4 Bi u đ h p c a bi n s ổ ủ Tu i c a ng i s d ng xe máy và s ngày s d ng trong tháng
ố
ả
8.5 Phân tích th ng kê mô t
ố
ị
ượ
8.5.1 Phân tích th ng kê mô t
ả cho bi n ế đ nh l
ng
ử ụ
S d ng Excel: công c
ụ Descriptives Statistics
ứ trong ch c năng
Data Analysis.
ử ụ
S d ng SPSS: công c
ủ
ứ
ụ Frequency, Descriptives, Explore trong ch c năng Descriptive Statistics c a SPSS.
ầ
ế TS. Tr n Ti n Khai, UEH
28
ố
ả
8.5 Phân tích th ng kê mô t
ố
ị
ượ
8.5.1 Phân tích th ng kê mô t
ả cho bi n ế đ nh l
ng
ả
:
ố ủ
ữ ệ
ạ
ỉ ố Các ch tiêu th ng kê mô t xu h ướ ng trung tâm, tính bi n thiên và ế d ng hình phân ph i c a d li u.
ầ
ế TS. Tr n Ti n Khai, UEH
29
ố
ả
8.5 Phân tích th ng kê mô t
ố
ị
ượ
8.5.1 Phân tích th ng kê mô t
ả cho bi n ế đ nh l
ng
ườ ướ ng xu h
ng trung tâm (Measures of Central Tendency) ữ ệ ấ ả ị ủ ổ t c giá tr c a các d li u chia cho
ố ượ ữ ệ ủ Đo l Giá tr ị trung bình (mean) là t ng t ng c a d li u. s l
ị ủ ữ ằ
ắ ố ệ ể ậ ự ữ ế ố
ủ ủ ẵ ị ị Trung vị (median) là giá tr c a s li u có v trí n m gi a b s li u ộ ố ệ ị ố . Đây chính là đi m gi a c a phân ph i. Khi s ở ị v trí
s p x p theo tr t t quan sát là ch n, trung v là giá tr trung bình c a hai quan sát trung tâm.
ị ủ ề ệ ấ ấ ấ Mode là giá tr c a quan sát có t n su t xu t hi n nhi u nh t trong b ộ ầ
ị ệ ố ớ ữ ấ (range) là giá tr khác bi ỏ t gi a con s l n nh t và nh
ầ
ế TS. Tr n Ti n Khai, UEH
30
ữ ệ d li u. Kho ng cách ả ấ ộ ữ ệ nh t trong b d li u.
ố
ả
8.5 Phân tích th ng kê mô t
ố
ị
ượ
8.5.1 Phân tích th ng kê mô t
ả cho bi n ế đ nh l
ng
ổ
ố
ị ủ
ườ Đo l Ph ph
ng tính bi n thiên (Measures of Variability) ươ ươ ộ ệ
ế (Variance; σ 2) là trung bình t ng các sai s bình ng sai ữ ng gi a các giá tr c a các quan sát và giá tr trung bình. ộ ứ ng m c đ
ẩ (Standard deviation; SD; σ) đo l
Đ l ch chu n
ị
ố
ủ ẩ c a giá tr trung bình (Standard error of the ầ
ị ng ph m vi mà giá tr trung bình c a qu n ấ
ố ệ ủ ườ ấ
ủ ự
ướ
ệ
ể
ớ
c d a trên giá
ể ị
ẫ
ị ườ phân tán c a s li u xung quanh giá tr trung bình. Sai s chu n ị ạ mean; s.e.) đo l ộ th (µ) có th xu t hi n v i m t xác su t cho tr ủ tr trung bình c a m u (mean).
ầ
ế TS. Tr n Ti n Khai, UEH
31
ố
ả
8.5 Phân tích th ng kê mô t
ố
ị
ượ
8.5.1 Phân tích th ng kê mô t
ả cho bi n ế đ nh l
ng
ườ ủ ố ạ
ng d ng hình c a phân ph i (Measures of Shape) ườ ộ ố ề ộ ộ ệ ủ Đo l Đ méo (skewness) đo l ng đ l ch c a phân ph i v m t
trong hai phía.
ố
ố ệ ậ ả ủ ơ ở
ầ ớ dài h n, và ph n l n s li u t p trung ả ố
ố ệ ậ ủ ở ơ Phân ph i méo trái (negative skew, leftskewed) khi đuôi phía trái ố phía ph i c a phân ph i. Phân ph i méo ph i (positive sknew, rightskewed) khi đuôi phía phía trái c a phân
ầ ớ ả ph i dài h n, và ph n l n s li u t p trung ph i. ố ệ ươ ả ị ệ Khi l ch ph i, giá tr sknewness d
ộ ớ ị ng; khi l ch trái, giá tr ớ ị
ầ
ế TS. Tr n Ti n Khai, UEH
32
ơ skewness âm. Đ méo càng l n thì giá tr sknewness càng l n h n 0.
ố
ả
8.5 Phân tích th ng kê mô t
ố
ị
ượ
8.5.1 Phân tích th ng kê mô t
ả cho bi nế đ nh l
ng
ầ
ế TS. Tr n Ti n Khai, UEH
33
ườ ẩ ặ ố Hình 8.10 Đ ng phân ph i chu n và các đ c tính
ố
ả
8.5 Phân tích th ng kê mô t
ố
ị
ượ
8.5.1 Phân tích th ng kê mô t
ả cho bi n ế đ nh l
ng
ầ
ố ệ ệ ả ạ ớ ố
34
Hình 8.11 Các d ng phân ph i l ch trái và l ch ph i so v i phân ph i bình ngườ th ế TS. Tr n Ti n Khai, UEH
ố
ả
8.5 Phân tích th ng kê mô t
ố
ị
ượ
8.5.1 Phân tích th ng kê mô t
ế ả cho bi n đ nh l
ng
ố ủ ườ
ộ
ườ
ng m c đ nh n hay b t c a phân
ứ ườ
ẹ ủ ằ
ọ
ng (có đ nh n b ng 0). Phân
ọ
ạ ọ
ọ ộ ươ
ẹ
ạ ng và có d ng b t khi
ị
ộ
ọ
ố
ị ủ ị
ớ ằ
ộ ng, giá tr c a đ méo và đ nh n s gi a giá tr skewness và kurtosis và
ứ ủ
ỏ ơ
ỷ ố
ố ớ
ườ
ơ
ườ
ố
ng d ng hình c a phân ph i (Measures of Shape) ộ ố ố
ng).
ầ
ế TS. Tr n Ti n Khai, UEH
35
Đo l Đ nh n (kurtosis) đo l ố ớ ph i so v i phân ph i bình th ị ạ ph i có d ng nh n khi giá tr kurtosis d giá tr kurtosis âm. V i phân ph i bình th ườ ỷ ố ữ b ng 0. Căn c trên t ố ể ẩ sai s chu n c a nó, ta có th đánh giá phân ph i có bình th s này nh h n 2 và l n h n +2, ng hay không (khi t phân ph i là không bình th
ố
ả
8.5 Phân tích th ng kê mô t
ả ớ
ụ
ố Phân tích th ng kê mô t
v i SPSS: công c Descriptive
ầ
36
ế TS. Tr n Ti n Khai, UEH ố
ả ủ ứ ụ c a công c Descriptives Hình 8.13 Các ch c năng th ng kê mô t
ố
ả
8.5 Phân tích th ng kê mô t
ả ớ
ụ
ố Phân tích th ng kê mô t
v i SPSS: công c Descriptive
Statistic
Std. Error
Age of motorbike user
N
100
58
Range
18
Minimum
76
Maximum
39.01
1.44
Mean
14.42
Std. Deviation
207.909
Variance
.242
.241
Skewness
-.948
.478
Kurtosis
ầ
ế TS. Tr n Ti n Khai, UEH
37
ố ả ổ ủ ế ườ ử ụ ố các bi n s Tu i c a ng i s d ng xe máy B ng ả 8.6 Th ng kê mô t
ố
ả
8.5 Phân tích th ng kê mô t
ả ớ
v i SPSS: công c
ụ Explore
ố Phân tích th ng kê mô t ợ
ấ ể ố ả ế ế chi ti ố t các bi n s phân nhóm
ầ
ế TS. Tr n Ti n Khai, UEH
38
ụ ộ ế Công c Explore r t thích h p đ th ng kê mô t ạ theo m t bi n phân lo i khác (factor variable).
ố ế ả ườ ử ụ ố ử i s d ng xe máy và s ngày s
Age of motorbike user
Number of used days in a month
Statistic Std. Error
Statistic
User gender
Std. Error
female
Mean
1.07
38.46
2.11
20.71
34.19
18.54
95% Confidence Interval for Mean
Lower Bound
42.74
22.88
Upper Bound
5% Trimmed Mean
38.13
20.95
Median
41.00
22.00
Variance
183.205
47.212
Std. Deviation
13.54
6.87
Minimum
19
7
Maximum
65
30
Range
46
23
Interquartile Range
23.00
11.00
Skewness
.118
-.513
.369
.369
ầ
ế TS. Tr n Ti n Khai, UEH
Kurtosis
-.838
-1.089
.724
.724 39
ụ 7.7 Th ng kê mô t d ng trong tháng phân theo gi ổ ủ ố các bi n s Tu i c a ng ớ i tính
ố ế ả ườ ử ụ ố ử i s d ng xe máy và s ngày s
male
Mean
1.97
1.01
39.39
19.76
95% Confidence
Lower Bound
35.45
17.74
Interval for Mean
Upper Bound
43.33
21.79
5% Trimmed Mean
38.87
19.90
Median
42.00
21.00
Variance
228.173
60.460
Std. Deviation
15.11
7.78
Minimum
18
5
Maximum
76
32
Range
58
27
Interquartile Range
28.00
15.00
Skewness
.292
-.175
.311
.311
Kurtosis
-.932
-1.271
.613
.613
ầ
40
ế TS. Tr n Ti n Khai, UEH
ụ 7.7 Th ng kê mô t d ng trong tháng phân theo gi ổ ủ ố các bi n s Tu i c a ng ớ i tính
ố
ả
8.5 Phân tích th ng kê mô t
ố
ị
8.5.2 Phân tích th ng kê mô t
ả cho bi n ế đ nh tính
ầ
ế TS. Tr n Ti n Khai, UEH
41
ử ụ ụ a. S d ng công c Basic Table trong SPSS
ố
ả
8.5 Phân tích th ng kê mô t
ố
ị
8.5.2 Phân tích th ng kê mô t
ả cho bi n ế đ nh tính
ầ
ế TS. Tr n Ti n Khai, UEH
42
ử ụ ụ a. S d ng công c Basic Table trong SPSS
ố
ả
8.5 Phân tích th ng kê mô t
ố
ị
8.5.2 Phân tích th ng kê mô t
ả cho bi nế đ nh tính
ử ụ ụ a. S d ng công c Basic Table trong SPSS
Age groups
under 20
under 30
under 40
under 50
under 60
older than 60
Count
Count
Count
Count
Count
Row %
Count
Row %
Row % 20.0%
Row % 30.0%
2
3
Motobike Names
3
42.9%
1
4.2%
1
4.2%
10.0% 25.0% 28.6% 30.8% 20.8% 25.0%
1 2 2 4 5 1
3
27.3%
1 8 1 1 1
7.7% 33.3% 25.0% 9.1% 16.7%
1 1
9.1% 16.7%
57.1%
4
Honda AirBlade Honda Future Neo Yamaha Sirius Yamaha Jupiter Honda Wave Yamaha Cygnus SYM Attila Honda Dream Honda @ Others
Row % 30.0% 50.0% 14.3% 30.8% 8.3% 25.0% 36.4% 50.0% 28.6% 20.0%
3 4 1 4 2 1 4 3 2 2
2
20.0%
Row % 10.0% 25.0% 14.3% 30.8% 29.2% 25.0% 18.2% 16.7% 14.3% 50.0%
1 2 1 4 7 1 2 1 1 5
1
10.0%
ầ
43
ế TS. Tr n Ti n Khai, UEH
ổ ủ ố ả ườ ử ụ B ng. Phân b nhóm tu i c a ng ệ i s d ng xe máy theo nhãn hi u
ố
ả
8.5 Phân tích th ng kê mô t
ố
ị
8.5.2 Phân tích th ng kê mô t
ả cho bi nế đ nh tính
ụ ả ử ụ b. S d ng công c B ng chéo (CrossTabulation) trong SPSS
ữ ệ ừ ộ ỹ ể ề B ng chéo là m t k thu t dùng đ so sánh d li u t ậ ặ hai ho c nhi u
ả ơ ạ ế
ư ả
ả ủ ừ ụ ể ệ ộ
ạ ặ h n các bi n phân lo i ho c danh nghĩa (categorical or nominal ử ụ ớ i tính. B ng chéo s d ng các b ng có các variables), ví d nh là gi ế ị ặ ứ ộ c t và dòng th hi n các m c đ ho c các giá tr mã hóa c a t ng bi n ặ phân lo i ho c danh nghĩa.
ầ ế ị
ể ể ắ ự ệ
ả ả ả ệ ữ ọ ệ
c đ u tiên đ xác đ nh các quan h gi a các bi n. Khi ố ạ ắ ớ ộ ậ ế
ầ
ế TS. Tr n Ti n Khai, UEH
44
ươ B ng chéo là b ướ ượ c xây d ng đ tr c nghi m th ng kê, ta g i chúng là b ng chéo đ ể b ng contingency (contingency tables), và lo i tr c nghi m dùng đ đánh giá li u các bi n phân lo i có đ c l p v i nhau hay không là 2 χ ệ (Chi bình ph ạ ng / chisquare).
ố
ả
8.5 Phân tích th ng kê mô t
ố
ị
8.5.2 Phân tích th ng kê mô t
ả cho bi n ế đ nh tính
ầ
ế TS. Tr n Ti n Khai, UEH
45
ụ ả ử ụ b. S d ng công c B ng chéo (CrossTabulation) trong SPSS
ố
ả
8.5 Phân tích th ng kê mô t
ố
ị
8.5.2 Phân tích th ng kê mô t
ả cho bi n ế đ nh tính
ầ
ế TS. Tr n Ti n Khai, UEH
46
ụ ả ử ụ b. S d ng công c B ng chéo (CrossTabulation) trong SPSS
ố
ả
8.5 Phân tích th ng kê mô t
ố ớ ả ủ ườ ử ụ B ng. Phân b gi i tính c a ng ệ i s d ng xe máy theo nhãn hi u
Mot obike Names * User gender Crosst abulat ion
Count
User gender
female
male
Total
Motobike Names
Honda AirBlade Honda Future Neo Yamaha Sirius Yamaha Jupiter Honda Wave Yamaha Cygnus SYM Attila Honda Dream Honda @ Others
Total
3 4 3 6 9 2 5 2 3 4 41
7 4 4 7 15 2 6 4 4 6 59
10 8 7 13 24 4 11 6 7 10 100
ầ
ế TS. Tr n Ti n Khai, UEH
47
ố
ả
8.5 Phân tích th ng kê mô t
ố ớ ả ủ ườ ử ụ B ng. Phân b gi i tính c a ng ệ i s d ng xe máy theo nhãn hi u
User gender * Motobike Names Crosstabulat ion
Motobike Names
Yamaha Sirius
Yamaha Jupiter
Yamaha Cygnus
Others
Total
User gender
female
male
Total
Count Expected Count % within User gender % within Motobike Names % of Total Count Expected Count % within User gender % within Motobike Names % of Total Count Expected Count % within User gender % within Motobike Names % of Total
Honda AirBlade 3 4.1 7.3% 30.0% 3.0% 7 5.9 11.9% 70.0% 7.0% 10 10.0 10.0% 100.0% 10.0%
Honda Future Neo 4 3.3 9.8% 50.0% 4.0% 4 4.7 6.8% 50.0% 4.0% 8 8.0 8.0% 100.0% 8.0%
3 2.9 7.3% 42.9% 3.0% 4 4.1 6.8% 57.1% 4.0% 7 7.0 7.0% 100.0% 7.0%
Honda Wave 9 9.8 22.0% 37.5% 9.0% 15 14.2 25.4% 62.5% 15.0% 24 24.0 24.0% 100.0% 24.0%
6 5.3 14.6% 46.2% 6.0% 7 7.7 11.9% 53.8% 7.0% 13 13.0 13.0% 100.0% 13.0%
2 1.6 4.9% 50.0% 2.0% 2 2.4 3.4% 50.0% 2.0% 4 4.0 4.0% 100.0% 4.0%
SYM Attila Honda Dream Honda @ 3 2.9 7.3% 42.9% 3.0% 4 4.1 6.8% 57.1% 4.0% 7 7.0 7.0% 100.0% 7.0%
2 2.5 4.9% 33.3% 2.0% 4 3.5 6.8% 66.7% 4.0% 6 6.0 6.0% 100.0% 6.0%
5 4.5 12.2% 45.5% 5.0% 6 6.5 10.2% 54.5% 6.0% 11 11.0 11.0% 100.0% 11.0%
4 4.1 9.8% 40.0% 4.0% 6 5.9 10.2% 60.0% 6.0% 10 10.0 10.0% 100.0% 10.0%
41 41.0 100.0% 41.0% 41.0% 59 59.0 100.0% 59.0% 59.0% 100 100.0 100.0% 100.0% 100.0%
ầ
ế TS. Tr n Ti n Khai, UEH
48
ệ
ắ
ả
8.6 Phân tích tr c nghi m gi
thi
ế t
ắ
ả
thi
ế t
ụ
ả
ế
ế ị
thi
ệ 8.6.1 Tr c nghi m gi M c tiêu c a tr c nghi m gi ủ ủ
ả
t là nh m quy t đ nh tính ẫ
thi
ả
ằ ệ ố ệ ế ự t d a trên các s li u m u thu th p ủ t
ố
ỹ
ủ
ự
ọ
ố
ắ ậ chính xác c a gi ượ ế đ thi c. Chúng ta đánh giá tính chính xác c a các gi ậ ụ ằ b ng cách áp d ng các k thu t th ng kê; và đánh giá ệ ầ t m quan tr ng c a s khác bi
t có ý nghĩa th ng kê.
ế
ổ ể
ế ấ
ẫ
ậ ụ ộ
ẫ
ả
ấ ự ự ữ ệ
thi ự
ặ
Cách ti p c n c đi n hay là lý thuy t l y m u th hi n ể ệ ữ cách nhìn m c tiêu theo xác su t d a trên phân tích d ẽ ị ỏ ế ượ ệ c xây d ng, nó s b bác b li u m u. M t gi t đ ậ ẫ ậ ấ ho c ch p nh n d a trên m u d li u thu th p.
ầ
ế TS. Tr n Ti n Khai, UEH
49
8.6 Phân tích trắc nghiệm giả thiết
Mục tiêu và kiểu của các câu hỏi nghiên cứu
Mục tiêu chung Quan hệ giữa các biến Thuần Mô tả
Mục tiêu cụ thể
Tóm lược dữ liệu So sánh nhóm
Mức độ liên quan, các biến liên quan
Kiểu câu hỏi/ giả thiết Khác biệt Liên quan Mô tả
Kiểu thống kê
ầ
ế TS. Tr n Ti n Khai, UEH
50
Thống kê khác biệt (v.d. t-test, ANOVA) Thống kê mô tả (v.d. trung bình, tỷ lệ)
Thống kê liên quan (v.d. tương quan, hồi quy)
8.6 Phân tích trắc nghiệm giả thiết
Xây dựng giả thiết H0 và giả thiết thay thế
ả
ả
ể
ể
Câu h i NCỏ
Gi
thi
ả
Gi
thi
Bi u di n gi
ả
Bi u di n gi
ế 0 t H
ế 1 t H
thi
thi
ệ
ệ
t
t
ễ t Hế 0 H0: µnam = µnữ
ễ t Hế 1 H0: µnam ≠ µnữ
ữ
ự Có s khác bi ề ổ v tu i gi a nam và n ?ữ
Không có s ự ệ ề ổ t v tu i khác bi ữ ữ gi a nam và n .
ự Có s khác bi ữ ề ổ v tu i gi a nam và n .ữ
ệ ữ
H0: рGM = 0
H0: рGM ≠ 0
ệ
i tính và nhãn
ớ ệ
Có liên h gì ệ ớ ữ gi a gi i tính và ệ nhãn hi u xe
?
Có liên h gi a gi hi u xe.
ệ
Không có liên ớ ữ h gì gi a gi i tính và nhãn hi u xe.
ứ
th
th
t ệ
H0: µu
th = µu
H1: µu
th ≠ µu
ệ
ữ ổ
ộ ử ụ M c đ s d ng t ệ xe có khác bi gi a các nhóm tu i không?
Có khác bi ữ gi a các nhóm ổ ề ứ ộ tu i v m c đ ử ụ s d ng xe.
Không có khác ữ t gi a các bi ổ ề nhóm tu i v ộ ử ụ ứ m c đ s d ng xe.
ầ
ế TS. Tr n Ti n Khai, UEH
51
ệ
ắ
ả
8.6 Phân tích tr c nghi m gi
thi
ế t
ệ ắ ả 8.6.2 Quy trình tr c nghi m gi thi ế t
ể ả 1. Phát bi u gi thi ế t
ạ ắ ọ ố ệ 2. Ch n lo i tr c nghi m th ng kê
ứ ố ọ 3. Ch n m c ý nghĩa mong mu n
ị ệ 4. Tính giá tr khác bi t
ượ ị ắ 5. Có đ ệ c giá tr tr c nghi m
ầ
ế TS. Tr n Ti n Khai, UEH
52
ả ế ệ ễ 6. Di n gi ả ắ i k t qu tr c nghi m
ệ
ắ
ả
8.6 Phân tích tr c nghi m gi
thi
ế t
ệ ắ ả 8.6.2 Quy trình tr c nghi m gi thi ế t
ể ả ả ế 1. Phát bi u gi thi thi t thay
ế t và gi thế
ứ ố ọ 2. Ch n m c ý nghĩa mong mu n
ượ ị 3. Có đ c giá tr xác su t ấ p
ị 4. So sánh giá tr xác su t
ấ p và m c ý ứ ế ị nghĩa và ra quy t đ nh
ầ
ế TS. Tr n Ti n Khai, UEH
53
ả ế ệ ễ 5. Di n gi ả ắ i k t qu tr c nghi m
ệ
ắ
ả
8.6 Phân tích tr c nghi m gi
thi
ế t
ề
ầ
Giá trị xác suất (p Values) H u h t các ph n m m th ng kê đ u cho ề
ế ả ớ
ị
ố ầ ế k t qu v i giá tr xác su t (
ấ p values).
Giá tr xác su t ị
ượ
ộ ế
ằ
ả ị ượ ệ
ướ
ế
ề
ả
ấ ể ạ ấ p value là xác su t đ đ t ặ ấ c m t k t qu , ít nh t cao b ng, ho c ự c quan sát trong th c t H
, v i đi u ki n cho tr
c là gi
thi
0 là
đ ơ cao h n giá tr đ ế ớ t đúng.
ầ
ế TS. Tr n Ti n Khai, UEH
54
ệ
ắ
ả
8.6 Phân tích tr c nghi m gi
thi
ế t
ớ
Giá trị xác suất (p Values) Giá tr ị p value đ ượ c so sánh v i m c ý nghĩa α
ả
ỏ
ế
ứ ế t.
ế
ả
N u giá tr
thi
t
thi ứ ỏ ả
ế
ỏ
thi ơ
ế ị ế
N u giá tr
t (p value >
thi
, không
ỏ ả
ế
nghĩa, không bác b gi thi bác b gi
t H
ể ự (significant level ), và d a trên k t qu này đ ỏ ả bác b hay không bác b gi ỏ ơ ị p value nh h n m c ý nghĩa, gi α 0). , bác b gi b bác b (p value < t H ị p value b ng ho c l n h n m c ý ằ ứ ặ ớ α ỏ ả ế 0).
ầ
ế TS. Tr n Ti n Khai, UEH
55
ệ
ắ
ả
8.6 Phân tích tr c nghi m gi
thi
ế t
ạ
ố
Kiểm định ý nghĩa: các kiểu kiểm định Có hai lo i: parametric (tham s ) và
nonparametric (phi tham s ). ố
ụ ạ
ữ ệ
ạ
ụ ử
Parametric tests là công c m nh vì x lý ử các d li u d ng scale (interval, ratio). Nonparametric tests là công c x lý các
ữ ệ
ạ
d li u d ng nominal và ordinal.
ầ
ế TS. Tr n Ti n Khai, UEH
56
ệ
ắ
ả
8.6 Phân tích tr c nghi m gi
thi
ế t
ộ ố ả ị
ỏ
đ nh:
Parametric tests Parametric tests đòi h i m t s gi Các quan sát phải độc lập với nhau. Các quan sát phải được rút ra từ các dân số
phân phối bình thường chuẩn.
Các dân số nên có phương sai tương đương. Thang đo phải ở dạng scale để các tính toán
có thể thực hiện được.
ầ
ế TS. Tr n Ti n Khai, UEH
57
ệ
ắ
ả
8.6 Phân tích tr c nghi m gi
thi
ế t
Parametric tests
ả ị
Nonparametric tests ít đòi h i cỏ ác gi
đ nh:
Không đòi hỏi các quan sát phải được rút ra từ các dân
số phân phối bình thường chuẩn.
Không đòi hỏi các dân số phải có phương sai tương
đương.
Là cách duy nhất để xử lý dữ liệu nominal. Là cách đúng đắn để xử lý dữ liệu ordinal, mặc dù
parametric có thể áp dụng được.
Dễ hiểu và dễ sử dụng.
ầ
ế TS. Tr n Ti n Khai, UEH
58
ệ
ắ
ả
8.6 Phân tích tr c nghi m gi
thi
ế t
Làm sao chọn một trắc nghiệm thống kê phù hợp? Để chọn một trắc nghiệm thống kê phù
hợp, nên suy nghĩ đến 3 câu hỏi: Trắc nghiệm liên quan đến 1 m uẫ , 2 m uẫ phụ
hay nhi uề hơn 2 m uẫ phụ (k)?
?
ộ ậ
ớ
Nếu có 2 m uẫ phụ hay nhi uề hơn 2 m uẫ phụ (k), chúng có đ c l p v i nhau hay không Dữ liệu thuộc loại nào (nominal, ordinal,
scale)?
ầ
ế TS. Tr n Ti n Khai, UEH
59
ệ
ắ
ả
8.6 Phân tích tr c nghi m gi
thi
ế t
ỹ ậ ạ ữ ệ ố ắ
Two-Samples Tests
k-Samples Tests
Các k thu t phân tích th ng kê nên dùng theo lo i d li u và tr c nghi mệ Measurement scale
One-sample Case
Related Samples
Independent Samples
Related Samples
Independent Samples
Nominal
- McNemar
- Cochran Q
- χ2 for k- samples
- Binomial - χ2 one-sample test
- Fisher exact test - χ2 two- sample test
Ordinal
-Friedman two- way ANOVA
- Kolmogorov- Smirnov one- sample test - Runs test
- Sign test - Wilcoxon matched-pairs test
- Median extension - Kruskal- Wallis one-way ANOVA
-Median test Mann-Whitney U - Kolmogorov- Smirnov Wald- Wolfowitz
Interval and Ratio
- T-test - Z test
- T-test for paired samples
- T-test - Z test
- Repeated- measured ANOVA
60
- One-way ANOVA - N-way ANOVA
ầ
ế TS. Tr n Ti n Khai, UEH
ệ
ắ
ả
8.6 Phân tích tr c nghi m gi
thi
ế t
ữ ệ
ứ Data
8.6.3 Phân tích d li u a. Excel: công c ụ Correlation, Anova và Regression trong ch c năng Analysis
ầ
ế TS. Tr n Ti n Khai, UEH
61
b. SPSS: các công c ụ Compare Means và Nonparametric Tests
ệ
ắ
ả
8.6 Phân tích tr c nghi m gi
thi
ế t
ữ ệ 8.6.3 Phân tích d li u
ầ
ế TS. Tr n Ti n Khai, UEH
62
b. SPSS: các công c ụ Compare Means và Nonparametric Tests
ộ ố
ụ ể
ụ
8.7 M t s áp d ng c th
ẫ
ế
ệ
c dùng khi ta có 1 m u và ẫ ế t là li u m u này có đ n
ữ ầ
ấ
ầ
t gi a t n su t quan sát và 1 t n ế ự
ệ su t chu n nào đó d a trên lý thuy t? ệ
ữ ỷ
ầ
ớ
ỷ
Li u có s khác bi
t gi a t
ph n quan sát v i 1 t
Onesample tests đ ượ ố ả ị ể mu n ki m đ nh gi thi ụ ố ụ ể ừ 1 dân s c th nào đó không? Ví d : t Li u có s khác bi ự ẩ ự ỳ ọ
ệ ấ ệ ầ
ph n k v ng nào đó không?
ầ
ế TS. Tr n Ti n Khai, UEH
63
1. One-Sample T Test
ộ ố
ụ ể
ụ
8.7 M t s áp d ng c th
ụ
Ví d 1 (Parametric test) ố ệ ố
ố ủ
ộ
Có s li u t c đ tăng doanh s c a 9 doanh
ng chu n là 6,5%/năm.
ố
ưở ộ t: t c đ tăng tr
ng doanh s bình
nghi p.ệ T c đ tăng tr ộ ố Gi ế ố ả thi ủ
ẩ ưở ệ
ệ ớ t v i
ẩ
ộ
quân c a 9 doanh nghi p không khác bi ố t c đ chu n (6,5%/năm).
ầ
ế TS. Tr n Ti n Khai, UEH
64
1. OneSample T Test
ộ ố
ụ ể
ụ
8.7 M t s áp d ng c th
ầ
ế TS. Tr n Ti n Khai, UEH
65
1. One-Sample T Test. Ví dụ 1 (parametric test)
ộ ố
ụ ể
ụ
8.7 M t s áp d ng c th
1. One-Sample T Test
ầ
ế TS. Tr n Ti n Khai, UEH
66
Analyze Compare Means One-Sample T Test (TẠI SAO?)
ộ ố
ụ ể
ụ
8.7 M t s áp d ng c th
1. One-Sample T Test
ầ
ế TS. Tr n Ti n Khai, UEH
67
Analyze Compare Means One-Sample T Test
ộ ố
ụ ể
ụ
8.7 M t s áp d ng c th
ả
ụ
ả ế
i k t qu phân tích Ví d 1 (Parametric
ữ ố
ệ
ộ
ẩ
ố
ưở ộ m c ý nghĩa 0.05.
ỏ ố
ế
ộ
ố ng doanh s bình quân c a 9 doanh nghi p và t c đ chu n không có ý nghĩa ở ứ th ng kê Ch p nh n gi ả ậ
t (không bác b ): t c đ tăng
thi ố
ệ
ủ ng doanh s bình quân c a 9 doanh nghi p không
ệ ớ ố
ộ
1. One-Sample T Test
ẩ t v i t c đ chu n (6,5%/năm).
ầ
ế TS. Tr n Ti n Khai, UEH
68
Analyze Compare Means One-Sample T Test Di n gi ễ test) P value (Sig. 2 tailed) > 0.05. Khác bi t gi a t c đ tăng tr ủ ệ ố ấ ưở tr khác bi
ộ ố
ụ ể
ụ
8.7 M t s áp d ng c th
Ví d 2 (Nonparametric test)
ử ụ
ế
đ u ề
ườ ử ụ
ự
S li u đi u tra s d ng xe máy. Gi ệ ấ ả t c các nhãn hi u xe máy ọ i s d ng xe l a ch n c ng
ư
ụ ề ố ệ ả thi 0: t t H ơ ộ ượ có c h i đ nh nhau.
2. OneSample ChiSquare Test
Analyze Nonparametric Tests ChiSquare
ầ
ế TS. Tr n Ti n Khai, UEH
69
ộ ố
ụ ể
ụ
8.7 M t s áp d ng c th
ầ
ế TS. Tr n Ti n Khai, UEH
70
2. One-Sample Chi-Square Test
ộ ố
ụ ể
ụ
8.7 M t s áp d ng c th
Ta có 100 quan sát và 10 nhãn xe máy. Cơ hội để mỗi nhãn xe được chọn là 10%, và số lượng kỳ vọng là 10 xe/nhãn hiệu.
ầ
ế TS. Tr n Ti n Khai, UEH
Tuy nhiên, sự khác biệt giữa N quan sát và N kỳ vọng cho từng nhãn xe là lớn.
Với P value < 0.05, ta bác bỏ giả thiết Ho và phát biểu là các nhãn hiệu xe máy được người sử dụng lựa 71 chọn khác biệt nhau.
ộ ố
ụ ể
ụ
8.7 M t s áp d ng c th
ẫ
Có hai ki u T Test cho hai m u:
ể ắ ặ (unpaired, independent T Test):
Không b t c p
ộ ậ
ữ
ẫ
ườ
ớ cho hai m u đ c l p v i nhau, ví d nam, n , các nhóm ng
ề i, nhóm ngh nghi p, v.v.)
B t c p ắ ặ (paired T Test): cho hai m u có liên ệ ớ
c và sau
ụ ệ ẫ ườ ướ i tr
ị ộ ế ố
h v i nhau, ví d 1 nhóm ng khi b m t y u t
ụ ộ tác đ ng.
ầ
ế TS. Tr n Ti n Khai, UEH
72
3. TwoSample T Test
ộ ố
ụ ể
ụ
8.7 M t s áp d ng c th
ế
ả
Gi
thi
ư
ữ
Ví d ụ 3. S li u đi u tra s d ng xe máy ử ụ ề ố ệ ườ ử ụ ủ ổ i s d ng t: tu i trung bình c a ng . xe máy nam và n là nh nhau
ầ
ế TS. Tr n Ti n Khai, UEH
73
3. TwoSample T Test
ộ ố
ụ ể
ụ
8.7 M t s áp d ng c th
3. Two-Sample T Test
ầ
ế TS. Tr n Ti n Khai, UEH
74
Analyze Compare Means Independent-Samples T Test
ộ ố
ụ ể
ụ
8.7 M t s áp d ng c th
ầ
ế TS. Tr n Ti n Khai, UEH
75
3. Two-Sample T Test
ộ ố
ụ ể
ụ
8.7 M t s áp d ng c th
Chọn biến Age cho ô Test Variable(s)
Grouping Variable: Group 1 = 1 (male); Group 2 = 0 (female)
ầ
ế TS. Tr n Ti n Khai, UEH
76
3. Two-Sample T Test
ộ ố
ụ ể
ụ
8.7 M t s áp d ng c th
3. Two-Sample T Test
Independent Samples T est
Levene's Test for Equality of Variances
t-test for Equality of Means
95% Confidence Interval of the Difference
F
Sig.
t
df
Sig. (2-tailed)
Mean Difference
Std. Error Difference
Lower
Upper
Age of motorbike user
1.239
.268
-.315
98
.754
-.93
2.95
-6.77
4.92
-.321
91.785
.749
-.93
2.89
-6.66
4.81
Equal variances assumed Equal variances not assumed
P values (Sig. (2-tailed)) cao hơn α = 0.05 rất nhiều. Ta chấp nhận giả thiết và diễn giải là không có sự khác biệt về tuổi trung bình giữa người sử dụng xe máy là Nam và Nữ.
ầ
ế TS. Tr n Ti n Khai, UEH
77
ộ ố
ụ ể
ụ
8.7 M t s áp d ng c th
ử ụ ệ
ế
Ví d 4. S li u đi u tra s d ng xe máy ề giữa ọ
ụ ố ệ Gi ự ự ả t: s l a ch n nhãn hi u xe máy thi ườ ử ụ nam và nữ là như nhau. i s d ng ng
4. TwoSample Nonparametric Test
Analyze Nonparametric Test TwoIndependent Samples
ầ
ế TS. Tr n Ti n Khai, UEH
78
ộ ố
ụ ể
ụ
8.7 M t s áp d ng c th
ầ
ế TS. Tr n Ti n Khai, UEH
79
4. Two-Sample Nonparametric Test
Analyze Nonparametric Test Two-Independent Samples
ộ ố
ụ ể
ụ
8.7 M t s áp d ng c th
4. Two-Sample Nonparametric Test
Mann-Whitney Test Two-Sample Kolmogorov-Smirnov Test
T est St at ist icsa
T est St at ist icsa
Motobike Names
Most Extreme Differences
Absolute Positive Negative
Mann-Whitney U Wilcoxon W Z Asymp. Sig. (2-tailed)
Motobike Names 1200.000 2970.000 -.067 .946
Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed)
.045 .045 -.018 .224 1.000
a.
a.
Grouping Variable: User gender
Grouping Variable: User gender
ầ
ế TS. Tr n Ti n Khai, UEH
80
Kết luận: chấp nhận giả thiết và phát biểu rằng sự lựa chọn nhãn hiệu xe máy giữa người sử dụng nam và nữ là như nhau.
ộ ố
ụ ể
ụ
8.7 M t s áp d ng c th
5. One-Way ANOVA (Parametric Test)
ươ
ố
ị
ả
ế
Ph
ng pháp th ng kê đ ki m đ nh gi
thi
t là các
ể ể ố ằ
ươ
ủ ng sai
trung bình c a các dân s b ng nhau là Phân tích ph
ố ị
ưở
, các ộ
analysis of variance (ANOVA). Oneway ANOVA s d ng các mô hình 1 y u t ế ố ử ụ ủ ể ng c a m t ng c đ nh đ so sánh nh h
nh h ệ
ả ộ ế ố
ứ
(factor) trên
ặ ụ
ụ
ế
ộ
ộ
ả ưở nghi m th c (treatment) ho c m t y u t m t bi n ph thu c và liên t c.
ầ
ế TS. Tr n Ti n Khai, UEH
81
ộ ố
ụ ể
ụ
8.7 M t s áp d ng c th
5. One-Way ANOVA (Parametric Test)
ố ệ
ữ
ự
ệ
ụ thi
t gi a các ng
ườ ử i s
ở
ề ố
các nhóm tu i khác nhau v s ngày
Ví d 5. S li u đi u tra s d ng xe máy ử ụ ề Gi ế ả t: Không có s khác bi ổ ụ d ng xe máy ử ụ s d ng bình quân trong tháng.
Analyze Compare Means One-Way ANOVA…
ầ
ế TS. Tr n Ti n Khai, UEH
82
ộ ố
ụ ể
ụ
8.7 M t s áp d ng c th
5. One-Way ANOVA (Parametric Test)
ầ
ế TS. Tr n Ti n Khai, UEH
83
ộ ố
ụ ể
ụ
8.7 M t s áp d ng c th
5. One-Way ANOVA (Parametric Test)
ầ
ế TS. Tr n Ti n Khai, UEH
84
ộ ố
ụ ể
ụ
8.7 M t s áp d ng c th
5. One-Way ANOVA (Parametric Test)
ANOVA
Number of used days in a month
df
Sig.
F 6.737
.000
Mean Square 285.789 42.423
Between Groups Within Groups Total
Sum of Squares 1428.944 3987.806 5416.750
5 94 99
P value < 0.05.
Kết luận: bác bỏ giả thiết;
ầ
ế TS. Tr n Ti n Khai, UEH
85
Phát biểu rằng có sự khác biệt giữa các người sử dụng xe máy ở các nhóm tuổi khác nhau về số ngày sử dụng bình quân trong tháng
ộ ố
ụ ể
ụ
8.7 M t s áp d ng c th
5. One-Way ANOVA (Parametric Test)
Number of used d ays in a mont h
N
Subset for alpha = .05 2
3
Tukey HSDa,b
1 14.47 17.96 18.33
17.96 18.33 22.62 24.12
19 25 6 26 17 7
.198
22.62 24.12 26.14 .769
Duncana,b
.695 14.47 17.96 18.33
17.96 18.33 22.62
19 25 6 26 17 7
Age groups under 60 under 50 under 20 under 30 under 40 older than 60 Sig. under 60 under 50 under 20 under 30 under 40 older than 60 Sig.
22.62 24.12 26.14 .215
.175
.101
Means for groups in homogeneous subsets are displayed.
a.
Uses Harmonic Mean Sample Size = 12.013.
b.
ầ
The group sizes are unequal. The harmonic mean of the group sizes is used. Type I error levels are not guaranteed. ế TS. Tr n Ti n Khai, UEH
86
ộ ố
ụ ể
ụ
8.7 M t s áp d ng c th
5. One-Way ANOVA (Parametric Test)
Age Group
Value
Grouping
Under 60
14,5 a
Under 50
17,9 ab
Under 20
18,3 ab
Under 30
22,6 abc
Under 40
24,1 abc
Older than 60
26,1 abc
ầ
ế TS. Tr n Ti n Khai, UEH
87
ộ ố
ụ ể
ụ
8.7 M t s áp d ng c th
5. One-Way ANOVA (Parametric Test)
ầ
ế TS. Tr n Ti n Khai, UEH
88
Hình. Phân bố số ngày sử dụng xe máy bình quân trong tháng theo độ tuổi của người sử dụng
ộ ố
ụ ể
ụ
8.7 M t s áp d ng c th
6. Nonparametric Test for k-Independent Samples
Ví dụ 6. Số liệu điều tra sử dụng xe máy Giả thiết: Không có sự khác biệt giữa các người sử dụng xe máy ở các nhóm tuổi khác nhau về nhãn hiệu xe.
Analyze Nonparametric Tests k Independent Samples
ầ
ế TS. Tr n Ti n Khai, UEH
89
ộ ố
ụ ể
ụ
8.7 M t s áp d ng c th
6. Nonparametric Test for k-Independent Samples
ầ
ế TS. Tr n Ti n Khai, UEH
90
ộ ố
ụ ể
ụ
8.7 M t s áp d ng c th
6. Nonparametric Test for k-Independent Samples
Kruskal-Wallis Test
Ranks
T est St at ist icsa,b
N
Motobike Names
Motobike Names
Chi-Square df Asymp. Sig.
1.493 5 .914
a.
Kruskal Wallis Test
Mean Rank 46.25 49.40 50.62 55.66 45.87 52.07
b.
Grouping Variable: Age groups
Age groups under 20 under 30 under 40 under 50 under 60 older than 60 Total
6 26 17 25 19 7 100
P value > 0.05 Kết luận: chấp nhận giả thiết;
ầ
ế TS. Tr n Ti n Khai, UEH
91
Phát biểu rằng sự lựa chọn các nhãn hiệu xe máy giữa các người sử dụng xe máy ở các nhóm tuổi khác nhau là như nhau.

