ữ ệ

Bài 8.  ử ậ Nh p và x  lý d  li u

ươ

ế

ọ Môn h c: Ph

ng pháp nghiên c u kinh t ể

ạ ọ

ế  Phát tri n Khoa Kinh t ồ ế Đ i h c Kinh T  TP. H  Chí Minh

8.1 Gi

i thi u

ướ

ẫ ệ

ữ ệ

ữ ệ

ằ Nh m h ng d n sinh viên cách:  Cách nh p li u, x  lý và phân tích d  li u. ử ậ  Các k  thu t phân tích d  li u mang tính khám

phá (exploratory data analysis).  ả

 Cách s  d ng b ng chéo (cross­tabulation) đ   ể

ệ ữ

ế

ử ụ ệ

tr c nghi m m i quan h  gi a các bi n phân lo i  (categorical variables).  ố

 Cách s  d ng các th ng kê phân tích tr c

ử ụ ả

ế

ệ nghi m gi

thi

t.

ế TS. Tr n Ti n Khai, UEH

2

ữ ệ

8.2 Quy trình phân tích d  li u

Lập đề cương NC

Kế hoạch phân tích sơ khởi

Xác định lại giả tthuyết

ệ ắ

Thu thập và chuẩn bị dữ liệu

Thể hiện trực quan dữ liệu

ướ c khám phá,  Hình 8.1 Các b tr c nghi m và phân tích trong  quá trình nghiên c u ứ

Phân tích và diễn giải dữ liệu

Phân tích mô tả các biến số

Lập bảng chéo cho các biến số

Trình bày dữ liệu (histogram, boxplots, Pareto, stem- and-leaf, AID, etc.)

Phân tích dữ liệu

Trắc nghiệm giả thiết

Báo cáo nghiên cứu

Ra quyết định

ế TS. Tr n Ti n Khai, UEH

3

ố ệ

ậ 8.3 Nh p s  li u

ữ ệ

8.3.1 Cách b  trí d  li u trên máy tính  M c tiêu: ụ ạ

 Nh m t o đi u ki n thu n ti n cho vi c nh p

ậ ợ

 Nh m t o s  thu n l ạ

ữ ỉ i cho vi c ch nh s a d

ằ li uệ ằ li uệ

ế TS. Tr n Ti n Khai, UEH

4

ố ệ

ậ 8.3 Nh p s  li u

t

ế ắ t t ế

ế ế

 Th c hi n: ự ắ ệ t không d u ho c ti ng Anh). Tên bi n nên

 Nguyên t c chung: đ t tên bi n ng n g n, vi ặ ấ ị

ế ượ

(ti ng Vi ặ đ

c đ t theo quy đ nh.  ễ

ư

ụ ố

ế

 Dùng Excel: d  thao tác và ch nh s a, không gian l u  ng không

ế ượ  l

ữ ạ ủ

tr  h n ch , công c  th ng kê và kinh t đ  cho phân tích.

ư

ư

ữ ầ ế ượ  l

 Dùng SPSS: không gian l u tr  g n nh  không h n  ầ ộ

ế ủ ấ

ụ ố ng phát tri n đ y  ch , công c  th ng kê và kinh t ắ ữ ệ ầ đ  cho nhu c u phân tích. Khai báo d  li u b t bu c,  ờ m t th i gian.

ế TS. Tr n Ti n Khai, UEH

5

ố ệ

ậ 8.3 Nh p s  li u

ế TS. Tr n Ti n Khai, UEH

6

ả Hình 5. 2 Cách  ữ ệ nh p d  li u vào    b ng tính SPSS

ố ệ

ậ 8.3 Nh p s  li u

ế TS. Tr n Ti n Khai, UEH

7

ố ị ủ ế ộ ị ị ượ   ng Hình 8.3 Cách đ nh nghĩa các thu c tính c a các bi n s  đ nh tính và đ nh l

ế

Đ nh nghĩa ki u bi n

ế TS. Tr n Ti n Khai, UEH

8

ế

Xác đ nh nhãn (gi

i thích) c a bi n

ế TS. Tr n Ti n Khai, UEH

9

ạ ủ

ế

Xác đ nh giá tr  phân lo i c a bi n

ế TS. Tr n Ti n Khai, UEH

10

ế

Xác đ nh thang đo c a bi n

ế TS. Tr n Ti n Khai, UEH

11

ữ ệ

ạ 8.4 Làm s ch d  li u

ị ệ

ữ ệ

ệ 8.4.1 Phát hi n giá tr  d  bi

t trong d  li u

ế TS. Tr n Ti n Khai, UEH

12

ử ụ ồ ị ụ a. S  d ng Excel: hàm Max và Min, công c  Auto Filter, đ  th  Scatter

ữ ệ

ạ 8.4 Làm s ch d  li u

ế TS. Tr n Ti n Khai, UEH

13

ụ ồ ị Hình 5.4 Công c  đ  th   Scatter trong Excel

ữ ệ

ạ 8.4 Làm s ch d  li u

ị ệ

ữ ệ

ệ 8.4.1 Phát hi n giá tr  d  bi

t trong d  li u

ử ụ ồ ị ụ

ế TS. Tr n Ti n Khai, UEH

14

b. S  d ng SPSS: đ  th  Scatter, công c  Frequency, Bar Chart, Pie  Chart,  và Box Plot trong Explore

ữ ệ

ạ 8.4 Làm s ch d  li u

Motobike Names

80

Others

Honda @

70

Honda Dream

60

SYM Attila

50

Yamaha Cygnus

r e s u

Honda Wave

40

e k

i

Yamaha Jupiter

b r o

t

30

Yamaha Sirius

o m

f

o

20

Honda Future Neo

10

Honda AirBlade

e g A

0

10

20

30

40

Number of used days in a month ế TS. Tr n Ti n Khai, UEH

15

ử ụ ồ ị b. S  d ng SPSS: đ  th  Scatter

ữ ệ

ạ 8.4 Làm s ch d  li u

ế TS. Tr n Ti n Khai, UEH

16

ử ụ ụ b. S  d ng SPSS: công c  Frequency, Explore

ụ Hình 8.6 Công c  Frequency và Explore trong SPSS

ữ ệ

ạ 8.4 Làm s ch d  li u

ử ụ ụ b. S  d ng SPSS: công c  Frequency

Frequency Percent %Valid

Honda Air Blade

10

10.0

10.0

10.0

Honda Future Neo

8

8.0

8.0

18.0

Yamaha Sirius

7

7.0

7.0

25.0

Yamaha Jupiter

13

13.0

13.0

38.0

Honda Wave

24

24.0

24.0

62.0

Yamaha Cygnus

4

4.0

4.0

66.0

SYM Attila

11

11.0

11.0

77.0

Honda Dream

6

6.0

6.0

83.0

Honda @

7

7.0

7.0

90.0

Others

10.0

10.0

ế TS. Tr n Ti n Khai, UEH

100.0 17

Total

10 ầ 100

100.0

100.0

Cumulative  Percent

ữ ệ

ạ 8.4 Làm s ch d  li u

30

Others

Honda AirBlade

10.0%

10.0%

20

Honda @

Honda Future Neo

7.0%

8.0%

Honda Dream

Yamaha Sirius

10

t

6.0%

7.0%

SYM Attila

0

n e c r e P

Yamaha Jupiter

11.0%

13.0%

Yamaha Cygnus

4.0%

Honda Wave

24.0%

Motobike Names

ế TS. Tr n Ti n Khai, UEH

18

ử ụ ụ b. S  d ng SPSS: công c  Pie Chart và Bar Chart

ữ ệ

ạ 8.4 Làm s ch d  li u

ướ

c dùng

ể ể ể ệ ể

 Bi u đ  histogram là m t gi ả ộ i pháp quy  ả ữ ệ ỷ ệ  ho c kho ng cách.   l đ  th  hi n các d  li u t ử ụ ể c s  d ng đ  phân nhóm  ế

 Bi u đ  histogram đ ủ

ượ ị ữ ệ các giá tr  d  li u c a các bi n s  (variable)  ả thành các kho ng cách.

ướ ạ

 Bi u đ  histogram đ

c xây d ng d

i d ng các

ể ệ

ượ ị ữ ệ

thanh th  hi n giá tr  d  li u.

ế TS. Tr n Ti n Khai, UEH

19

ử ụ b. S  d ng SPSS: công c ụ Histogram

ữ ệ

ạ 8.4 Làm s ch d  li u

ấ ữ

ể ệ

 Bi u đ  histogram r t h u d ng cho vi c: (1) th  hi n

ư ộ

ể ố ấ ả t c  các kho ng cách  trong m t phân ph i  t ủ (distribution), và (2) tr c nghi m d ng hình c a phân  ph i nh  đ  méo (skewness), đ  nh n (kurtosis).

ượ

c cho

ế

 Ghi chú: Bi u đ  histogram không dùng đ các bi n danh nghĩa .

ế TS. Tr n Ti n Khai, UEH

20

ử ụ b. S  d ng SPSS: công c ụ Histogram

ữ ệ

ạ 8.4 Làm s ch d  li u

30

ử ụ b. S  d ng SPSS: công c ụ Histogram

ườ i

20

10

Std. Dev = 14.42

Mean = 39

N = 100.00

0

20

25

30

35

40

45

50

55

60

65

70

75

Age of motorbike user

ế TS. Tr n Ti n Khai, UEH

21

Ví d  ụ 8.2 Phân ph i ố ố ổ ủ ế bi n s  tu i c a ng ử ụ s  d ng xe máy

ữ ệ

ạ 8.4 Làm s ch d  li u

c g i là m t

 M i dòng c a bi u đ  đ ủ ể ỗ ố ệ

ồ ượ ể ệ

ộ ộ

thân; và m i s  li u th  hi n trên m t thân  g i là m t

ượ ng t

0 ,  c quay trái 90 ồ ư ể ự  nh  bi u đ

ộ lá.   Khi bi u đ  thân­và­lá đ ồ ươ ạ ẽ nó s  có d ng hình t histogram.

ế TS. Tr n Ti n Khai, UEH

22

ử ụ ồ ể b. S  d ng SPSS: bi u đ  Thân­và­Lá (Stem­and­Leaf Displays)

ữ ệ

ạ 8.4 Làm s ch d  li u

Age of motorbike user Stem­and­Leaf Plot

Frequency    Stem &  Leaf

ử ụ ể b. S  d ng SPSS: bi u đ ồ Thân­và­Lá (Stem­and­Leaf Displays)

ổ ủ

6.00        1 .  889999     18.00       2 .  000111122222233344      8.00        2 .  55677788     13.00       3 .  0012233334444      4.00        3 .  5556     12.00       4 .  123333334444     13.00       4 .  5555566777789     10.00       5 .  0123344444      9.00        5 .  566667779      2.00        6 .  03      4.00        6 .  5567       .00         7 .      1.00        7 .  6

ế TS. Tr n Ti n Khai, UEH

23

Stem width:        10  Each leaf:       1 case(s)

ể ồ 8.3 Bi u đ  Thân­và Lá  ố ế ủ c a bi n s  Tu i c a  ườ ử ụ i s  d ng xe máy  ng

ữ ệ

ạ 8.4 Làm s ch d  li u

ồ ộ

ồ ộ ự

box­and­ ề ị ườ

ị ấ

ng

ể ệ

ồ ộ

 Bi u đ  h p, hay còn g i là bi u đ  h p­và­râu ( ể ọ ộ ả ộ whisker plot), cho ta m t hình  nh tr c quan khác v  v  trí, đ   ộ ạ phân tán, d ng hình, đ  dài đuôi và các giá tr  b t th ố    ủ (outliers) c a phân ph i.  Bi u đ  h p th  hi n tóm t

t 5 giá tr  th ng kê c a m t phân

ể ố

ủ ị ố ướ ị  phân v  trên và d ấ

ị i (the upper  ph i là trung v  (median), hai t ấ   ỏ and lower quartiles), và các giá tr  quan sát l n nh t và nh  nh t

ế TS. Tr n Ti n Khai, UEH

24

ử ụ ể b. S  d ng SPSS: bi u đ ồ hộp (Box­Plots)

ữ ệ

ạ 8.4 Làm s ch d  li u

ồ ộ

 Các thành ph n ch  y u c a bi u đ  h p là:  ủ ế ậ

ự ộ

ị ữ ệ ị  trung tâm h p là giá tr  trung v .  ị ứ

ị ứ

ể ệ  c a h p th  hi n hai giá tr  t

ề ủ ứ  phân v  th  1 và th  3  ị ứ ứ ng  ng v i giá tr  th  25% (25th percentile) và giá tr  th

ị ứ ủ

ố ệ

ướ ủ

phía trên và phía d

ủ  H p hình ch  nh t ch a đ ng 50% các giá tr  d  li u.  ộ ữ  Đ ng th ng  ườ  Hai l ộ ớ ươ (t 75% (75th percentile) c a dãy s  li u.    Các “râu” kéo dài t ừ ề  l ấ ầ

ỏ ả

ể ộ i c a h p th   hi n giá tr  l n nh t và nh  nh t. Các giá tr  này n m trong  ố ả kho ng t  phân v  tính  ừ ề ủ t  c a h p.

ị ớ i đa 1,5 l n kho ng cách gi a các t ộ

l

ế TS. Tr n Ti n Khai, UEH

25

ử ụ ể b. S  d ng SPSS: bi u đ ồ hộp (Box­Plots)

ữ ệ

ạ 8.4 Làm s ch d  li u

Các giá trị lớn hơn 3 lần so với độ dài của hộp tính từ giá trị tứ phân vị thứ 3 (75th percentile) (extremes)

Các giá trị lớn hơn 1,5 lần so với độ dài của hộp tính từ giá trị tứ phân vị thứ 3 (75th percentile) (outliers)

Giá trị lớn nhất quan sát được không phải là giá trị bất thường

Tứ phân vị thứ 3 (75th PERCENTILE)

ườ

ng

Trung vị (MEDIAN)

50% tr ợ h p có giá  ị ằ tr  n m  trong h p ộ

Tứ phân vị thứ 1 (25th PERCENTILE)

Giá trị lớn nhất quan sát được không phải là giá trị bất thường

Các giá trị lớn hơn 1,5 lần so với độ dài của hộp tính từ giá trị tứ phân vị thứ 1 (25th percentile) (outliers)

Các giá trị lớn hơn 3 lần so với độ dài của hộp tính từ giá trị tứ phân vị thứ 1 (25th percentile) (extremes)

ế TS. Tr n Ti n Khai, UEH

26

ử ụ ể b. S  d ng SPSS: bi u đ ồ hộp (Box­Plots)

ữ ệ

ạ 8.4 Làm s ch d  li u

100

80

60

40

20

ử ụ ể b. S  d ng SPSS: bi u đ ồ hộp (Box­Plots)

0 N =

100

100

ế ủ ồ ộ

Age of motorbike use

Number of used days

ườ ử ụ ử ụ ố

ế TS. Tr n Ti n Khai, UEH

27

ố ể 8.4 Bi u đ  h p c a bi n s   ổ ủ Tu i c a ng i s  d ng xe  máy và s  ngày s  d ng trong  tháng

8.5 Phân tích th ng kê mô t

ượ

8.5.1 Phân tích th ng kê mô t

ả cho bi n ế đ nh l

ng

ử ụ

 S  d ng Excel: công c

ụ Descriptives Statistics

ứ trong ch c năng

Data Analysis.

ử ụ

 S  d ng SPSS: công c

ụ Frequency, Descriptives,  Explore trong ch c năng Descriptive Statistics c a  SPSS.

ế TS. Tr n Ti n Khai, UEH

28

8.5 Phân tích th ng kê mô t

ượ

8.5.1 Phân tích th ng kê mô t

ả cho bi n ế đ nh l

ng

:

ố ủ

ữ ệ

ỉ ố Các ch  tiêu th ng kê mô t  xu h ướ ng trung tâm,   tính bi n thiên và  ế  d ng hình phân ph i c a d  li u.

ế TS. Tr n Ti n Khai, UEH

29

8.5 Phân tích th ng kê mô t

ượ

8.5.1 Phân tích th ng kê mô t

ả cho bi n ế đ nh l

ng

ườ ướ ng xu h

ng trung tâm (Measures of Central Tendency) ữ ệ ấ ả ị ủ ổ t c  giá tr  c a các d  li u chia cho

ố ượ ữ ệ ủ Đo l  Giá tr  ị trung bình (mean) là t ng t ng c a d  li u. s  l

ị ủ ữ ằ

ắ ố ệ ể ậ ự ữ ế ố

ủ ủ ẵ ị ị  Trung vị (median) là giá tr  c a s  li u có v  trí n m gi a b  s  li u  ộ ố ệ ị ố . Đây chính là đi m gi a c a phân ph i. Khi s   ở ị  v  trí

s p x p theo tr t t quan sát là ch n, trung v  là giá tr  trung bình c a hai quan sát  trung tâm.

ị ủ ề ệ ấ ấ ấ  Mode là giá tr  c a quan sát có t n su t xu t hi n nhi u nh t trong b   ộ ầ

ị ệ ố ớ ữ ấ (range) là giá tr  khác bi ỏ t gi a con s  l n nh t và nh

ế TS. Tr n Ti n Khai, UEH

30

ữ ệ d  li u.   Kho ng cách ả ấ ộ ữ ệ nh t trong b  d  li u.

8.5 Phân tích th ng kê mô t

ượ

8.5.1 Phân tích th ng kê mô t

ả cho bi n ế đ nh l

ng

ị ủ

ườ Đo l  Ph ph

ng tính bi n thiên (Measures of Variability) ươ ươ ộ ệ

ế  (Variance; σ 2) là trung bình t ng các sai s  bình  ng sai ữ ng gi a các giá tr  c a các quan sát và giá tr  trung bình. ộ ứ ng m c đ

ẩ  (Standard deviation; SD; σ) đo l

 Đ  l ch chu n

ủ ẩ  c a giá tr  trung bình (Standard error of the  ầ

ị ng ph m vi mà giá tr  trung bình c a qu n  ấ

ố ệ ủ ườ ấ

ủ ự

ướ

c d a trên giá

ể ị

ị ườ phân tán c a s  li u xung quanh giá tr  trung bình.   Sai s  chu n ị ạ mean; s.e.) đo l ộ th  (µ) có th  xu t hi n v i m t xác su t cho tr ủ tr  trung bình c a m u (mean).

ế TS. Tr n Ti n Khai, UEH

31

8.5 Phân tích th ng kê mô t

ượ

8.5.1 Phân tích th ng kê mô t

ả cho bi n ế đ nh l

ng

ườ ủ ố ạ

ng d ng hình c a phân ph i (Measures of Shape) ườ ộ ố ề ộ ộ ệ ủ Đo l  Đ  méo (skewness) đo l ng đ  l ch c a phân ph i v  m t

trong hai phía.

ố ệ ậ ả ủ ơ ở

ầ ớ dài h n, và ph n l n s  li u t p trung  ả ố

ố ệ ậ ủ ở ơ  Phân ph i méo trái (negative skew, left­skewed) khi đuôi phía trái  ố  phía ph i c a phân ph i.   Phân ph i méo ph i (positive sknew, right­skewed) khi đuôi phía   phía trái c a phân

ầ ớ ả ph i dài h n, và ph n l n s  li u t p trung  ph i. ố ệ ươ ả ị ệ  Khi l ch ph i, giá tr  sknewness d

ộ ớ ị ng; khi l ch trái, giá tr   ớ ị

ế TS. Tr n Ti n Khai, UEH

32

ơ skewness âm. Đ  méo càng l n thì giá tr  sknewness càng l n    h n 0.

8.5 Phân tích th ng kê mô t

ượ

8.5.1 Phân tích th ng kê mô t

ả cho bi nế  đ nh l

ng

ế TS. Tr n Ti n Khai, UEH

33

ườ ẩ ặ ố Hình 8.10 Đ ng phân ph i chu n và các đ c tính

8.5 Phân tích th ng kê mô t

ượ

8.5.1 Phân tích th ng kê mô t

ả cho bi n ế đ nh l

ng

ố ệ ệ ả ạ ớ ố

34

Hình 8.11 Các d ng phân ph i l ch trái và l ch ph i so v i phân ph i bình  ngườ   th ế TS. Tr n Ti n Khai, UEH

8.5 Phân tích th ng kê mô t

ượ

8.5.1 Phân tích th ng kê mô t

ế ả cho bi n đ nh l

ng

ố ủ ườ

ườ

ng m c đ  nh n hay b t c a phân

ứ ườ

ẹ ủ ằ

ng (có đ  nh n b ng 0). Phân

ạ ọ

ọ ộ ươ

ạ ng và có d ng b t khi

ị ủ ị

ớ ằ

ộ ng, giá tr  c a đ  méo và đ  nh n   s  gi a giá tr  skewness và kurtosis và

ứ ủ

ỏ ơ

ỷ ố

ố ớ

ườ

ơ

ườ

ng d ng hình c a phân ph i (Measures of Shape) ộ ố ố

ng).

ế TS. Tr n Ti n Khai, UEH

35

Đo l  Đ  nh n (kurtosis) đo l ố ớ ph i so v i phân ph i bình th ị ạ ph i có d ng nh n khi giá tr  kurtosis d giá tr  kurtosis âm.   V i phân ph i bình th ườ ỷ ố ữ b ng 0. Căn c  trên t ố ể ẩ sai s  chu n c a nó, ta có th  đánh giá phân ph i có bình  th  s  này nh  h n ­2 và l n h n +2,  ng hay không (khi t phân ph i là không bình th

8.5 Phân tích th ng kê mô t

ả ớ

ố Phân tích th ng kê mô t

v i SPSS: công c  Descriptive

36

ế TS. Tr n Ti n Khai, UEH ố

ả ủ ứ ụ  c a công c  Descriptives Hình 8.13 Các ch c năng th ng kê mô t

8.5 Phân tích th ng kê mô t

ả ớ

ố Phân tích th ng kê mô t

v i SPSS: công c  Descriptive

Statistic

Std. Error

Age of motorbike user

N

100

58

Range

18

Minimum

76

Maximum

39.01

1.44

Mean

14.42

Std. Deviation

207.909

Variance

.242

.241

Skewness

-.948

.478

Kurtosis

ế TS. Tr n Ti n Khai, UEH

37

ố ả ổ ủ ế ườ ử ụ ố  các bi n s  Tu i c a ng i s  d ng xe máy B ng ả 8.6 Th ng kê mô t

8.5 Phân tích th ng kê mô t

ả ớ

v i SPSS: công c

ụ Explore

ố Phân tích th ng kê mô t ợ

ấ ể ố ả ế ế chi ti ố t các bi n s  phân nhóm

ế TS. Tr n Ti n Khai, UEH

38

ụ ộ ế Công c  Explore r t thích h p đ  th ng kê mô t ạ   theo m t bi n phân lo i khác (factor variable).

ố ế ả ườ ử ụ ố ử i s  d ng xe máy và s  ngày s

Age of motorbike user

Number of used days in a month

Statistic Std. Error

Statistic

User gender

Std. Error

female

Mean

1.07

38.46

2.11

20.71

34.19

18.54

95% Confidence Interval for Mean

Lower Bound

42.74

22.88

Upper Bound

5% Trimmed Mean

38.13

20.95

Median

41.00

22.00

Variance

183.205

47.212

Std. Deviation

13.54

6.87

Minimum

19

7

Maximum

65

30

Range

46

23

Interquartile Range

23.00

11.00

Skewness

.118

-.513

.369

.369

ế TS. Tr n Ti n Khai, UEH

Kurtosis

-.838

-1.089

.724

.724 39

ụ 7.7 Th ng kê mô t d ng trong tháng phân theo gi ổ ủ ố  các bi n s  Tu i c a ng ớ   i tính

ố ế ả ườ ử ụ ố ử i s  d ng xe máy và s  ngày s

male

Mean

1.97

1.01

39.39

19.76

95% Confidence

Lower Bound

35.45

17.74

Interval for Mean

Upper Bound

43.33

21.79

5% Trimmed Mean

38.87

19.90

Median

42.00

21.00

Variance

228.173

60.460

Std. Deviation

15.11

7.78

Minimum

18

5

Maximum

76

32

Range

58

27

Interquartile Range

28.00

15.00

Skewness

.292

-.175

.311

.311

Kurtosis

-.932

-1.271

.613

.613

40

ế TS. Tr n Ti n Khai, UEH

ụ 7.7 Th ng kê mô t d ng trong tháng phân theo gi ổ ủ ố  các bi n s  Tu i c a ng ớ   i tính

8.5 Phân tích th ng kê mô t

8.5.2 Phân tích th ng kê mô t

ả cho bi n ế đ nh tính

ế TS. Tr n Ti n Khai, UEH

41

ử ụ ụ a. S  d ng công c  Basic Table trong SPSS

8.5 Phân tích th ng kê mô t

8.5.2 Phân tích th ng kê mô t

ả cho bi n ế đ nh tính

ế TS. Tr n Ti n Khai, UEH

42

ử ụ ụ a. S  d ng công c  Basic Table trong SPSS

8.5 Phân tích th ng kê mô t

8.5.2 Phân tích th ng kê mô t

ả cho bi nế  đ nh tính

ử ụ ụ a. S  d ng công c  Basic Table trong SPSS

Age groups

under 20

under 30

under 40

under 50

under 60

older than 60

Count

Count

Count

Count

Count

Row %

Count

Row %

Row % 20.0%

Row % 30.0%

2

3

Motobike Names

3

42.9%

1

4.2%

1

4.2%

10.0% 25.0% 28.6% 30.8% 20.8% 25.0%

1 2 2 4 5 1

3

27.3%

1 8 1 1 1

7.7% 33.3% 25.0% 9.1% 16.7%

1 1

9.1% 16.7%

57.1%

4

Honda AirBlade Honda Future Neo Yamaha Sirius Yamaha Jupiter Honda Wave Yamaha Cygnus SYM Attila Honda Dream Honda @ Others

Row % 30.0% 50.0% 14.3% 30.8% 8.3% 25.0% 36.4% 50.0% 28.6% 20.0%

3 4 1 4 2 1 4 3 2 2

2

20.0%

Row % 10.0% 25.0% 14.3% 30.8% 29.2% 25.0% 18.2% 16.7% 14.3% 50.0%

1 2 1 4 7 1 2 1 1 5

1

10.0%

43

ế TS. Tr n Ti n Khai, UEH

ổ ủ ố ả ườ ử ụ B ng. Phân b  nhóm tu i c a ng ệ   i s  d ng xe máy theo nhãn hi u

8.5 Phân tích th ng kê mô t

8.5.2 Phân tích th ng kê mô t

ả cho bi nế  đ nh tính

ụ ả ử ụ b. S  d ng công c  B ng chéo (Cross­Tabulation) trong SPSS

ữ ệ ừ ộ ỹ ể ề  B ng chéo là m t k  thu t dùng đ  so sánh d  li u t ậ ặ  hai ho c nhi u

ả ơ ạ ế

ư ả

ả ủ ừ ụ ể ệ ộ

ạ ặ h n các bi n phân lo i ho c danh nghĩa (categorical or nominal  ử ụ ớ i tính. B ng chéo s  d ng các b ng có các  variables), ví d  nh  là gi ế ị ặ ứ ộ c t và dòng th  hi n các m c đ  ho c các giá tr  mã hóa c a t ng bi n  ặ phân lo i ho c danh nghĩa.

ầ ế ị

ể ể ắ ự ệ

ả ả ả ệ ữ ọ ệ

c đ u tiên đ  xác đ nh các quan h  gi a các bi n. Khi  ố ạ ắ ớ ộ ậ ế

ế TS. Tr n Ti n Khai, UEH

44

ươ  B ng chéo là b ướ ượ c xây d ng đ  tr c nghi m th ng kê, ta g i chúng là  b ng chéo đ ể b ng contingency (contingency tables), và lo i tr c nghi m dùng đ   đánh giá li u các bi n phân lo i có đ c l p v i nhau hay không là  2 χ ệ (Chi bình ph ạ ng / chi­square).

8.5 Phân tích th ng kê mô t

8.5.2 Phân tích th ng kê mô t

ả cho bi n ế đ nh tính

ế TS. Tr n Ti n Khai, UEH

45

ụ ả ử ụ b. S  d ng công c  B ng chéo (Cross­Tabulation) trong SPSS

8.5 Phân tích th ng kê mô t

8.5.2 Phân tích th ng kê mô t

ả cho bi n ế đ nh tính

ế TS. Tr n Ti n Khai, UEH

46

ụ ả ử ụ b. S  d ng công c  B ng chéo (Cross­Tabulation) trong SPSS

8.5 Phân tích th ng kê mô t

ố ớ ả ủ ườ ử ụ B ng. Phân b  gi i tính c a ng ệ   i s  d ng xe máy theo nhãn hi u

Mot obike Names * User gender Crosst abulat ion

Count

User gender

female

male

Total

Motobike Names

Honda AirBlade Honda Future Neo Yamaha Sirius Yamaha Jupiter Honda Wave Yamaha Cygnus SYM Attila Honda Dream Honda @ Others

Total

3 4 3 6 9 2 5 2 3 4 41

7 4 4 7 15 2 6 4 4 6 59

10 8 7 13 24 4 11 6 7 10 100

ế TS. Tr n Ti n Khai, UEH

47

8.5 Phân tích th ng kê mô t

ố ớ ả ủ ườ ử ụ B ng. Phân b  gi i tính c a ng ệ   i s  d ng xe máy theo nhãn hi u

User gender * Motobike Names Crosstabulat ion

Motobike Names

Yamaha Sirius

Yamaha Jupiter

Yamaha Cygnus

Others

Total

User gender

female

male

Total

Count Expected Count % within User gender % within Motobike Names % of Total Count Expected Count % within User gender % within Motobike Names % of Total Count Expected Count % within User gender % within Motobike Names % of Total

Honda AirBlade 3 4.1 7.3% 30.0% 3.0% 7 5.9 11.9% 70.0% 7.0% 10 10.0 10.0% 100.0% 10.0%

Honda Future Neo 4 3.3 9.8% 50.0% 4.0% 4 4.7 6.8% 50.0% 4.0% 8 8.0 8.0% 100.0% 8.0%

3 2.9 7.3% 42.9% 3.0% 4 4.1 6.8% 57.1% 4.0% 7 7.0 7.0% 100.0% 7.0%

Honda Wave 9 9.8 22.0% 37.5% 9.0% 15 14.2 25.4% 62.5% 15.0% 24 24.0 24.0% 100.0% 24.0%

6 5.3 14.6% 46.2% 6.0% 7 7.7 11.9% 53.8% 7.0% 13 13.0 13.0% 100.0% 13.0%

2 1.6 4.9% 50.0% 2.0% 2 2.4 3.4% 50.0% 2.0% 4 4.0 4.0% 100.0% 4.0%

SYM Attila Honda Dream Honda @ 3 2.9 7.3% 42.9% 3.0% 4 4.1 6.8% 57.1% 4.0% 7 7.0 7.0% 100.0% 7.0%

2 2.5 4.9% 33.3% 2.0% 4 3.5 6.8% 66.7% 4.0% 6 6.0 6.0% 100.0% 6.0%

5 4.5 12.2% 45.5% 5.0% 6 6.5 10.2% 54.5% 6.0% 11 11.0 11.0% 100.0% 11.0%

4 4.1 9.8% 40.0% 4.0% 6 5.9 10.2% 60.0% 6.0% 10 10.0 10.0% 100.0% 10.0%

41 41.0 100.0% 41.0% 41.0% 59 59.0 100.0% 59.0% 59.0% 100 100.0 100.0% 100.0% 100.0%

ế TS. Tr n Ti n Khai, UEH

48

8.6 Phân tích tr c nghi m gi

thi

ế t

thi

ế t

ế

ế ị

thi

ệ 8.6.1 Tr c nghi m gi  M c tiêu c a tr c nghi m gi ủ ủ

t là nh m quy t đ nh tính  ẫ

thi

ằ ệ ố ệ ế ự t d a trên các s  li u m u thu th p  ủ t

ắ ậ chính xác c a gi ượ ế đ  thi c. Chúng ta đánh giá tính chính xác c a các gi ậ ụ ằ b ng cách áp d ng các k  thu t th ng kê; và đánh giá  ệ ầ t m quan tr ng c a s  khác bi

t có ý nghĩa th ng kê.

ế

ổ ể

ế ấ

ậ ụ ộ

ấ ự ự ữ ệ

thi ự

 Cách ti p c n c  đi n hay là lý thuy t l y m u th  hi n  ể ệ ữ cách nhìn m c tiêu theo xác su t d a trên phân tích d   ẽ ị ỏ ế ượ ệ c xây d ng, nó s  b  bác b   li u m u. M t gi t đ ậ ẫ ậ ấ ho c ch p nh n d a trên m u d  li u thu th p.

ế TS. Tr n Ti n Khai, UEH

49

8.6 Phân tích trắc nghiệm giả thiết

Mục tiêu và kiểu của các câu hỏi nghiên cứu

Mục tiêu chung Quan hệ giữa các biến Thuần Mô tả

Mục tiêu cụ thể

Tóm lược dữ liệu So sánh nhóm

Mức độ liên quan, các biến liên quan

Kiểu câu hỏi/ giả thiết Khác biệt Liên quan Mô tả

Kiểu thống kê

ế TS. Tr n Ti n Khai, UEH

50

Thống kê khác biệt (v.d. t-test, ANOVA) Thống kê mô tả (v.d. trung bình, tỷ lệ)

Thống kê liên quan (v.d. tương quan, hồi quy)

8.6 Phân tích trắc nghiệm giả thiết

Xây dựng giả thiết H0 và giả thiết thay thế

Câu h i NCỏ

Gi

thi

Gi

thi

Bi u di n gi

Bi u di n gi

ế 0 t H

ế 1 t H

thi

thi

t

t

ễ t Hế 0 H0: µnam = µnữ

ễ t Hế 1 H0: µnam ≠ µnữ

ự Có s  khác bi ề ổ v  tu i gi a  nam và n ?ữ

Không có s  ự ệ ề ổ t v  tu i  khác bi ữ ữ gi a nam và n .

ự Có s  khác bi ữ ề ổ v  tu i gi a  nam và n .ữ

ệ ữ

H0: рGM = 0

H0: рGM ≠ 0

i tính và nhãn

ớ ệ

Có liên h  gì ệ ớ ữ gi a gi i tính và  ệ nhãn hi u xe

?

Có liên h  gi a  gi hi u xe.

Không có liên  ớ ữ h  gì gi a gi i  tính và nhãn  hi u xe.

th

th

t ệ

H0: µu

th = µu

H1: µu

th ≠ µu

ữ ổ

ộ ử ụ M c đ  s  d ng  t ệ xe có khác bi gi a các nhóm  tu i không?

Có khác bi ữ gi a các nhóm  ổ ề ứ ộ tu i v  m c đ   ử ụ s  d ng xe.

Không có khác  ữ t gi a các  bi ổ ề nhóm tu i v   ộ ử ụ ứ m c đ  s  d ng  xe.

ế TS. Tr n Ti n Khai, UEH

51

8.6 Phân tích tr c nghi m gi

thi

ế t

ệ ắ ả 8.6.2 Quy trình tr c nghi m gi thi ế t

ể ả 1. Phát bi u gi thi ế t

ạ ắ ọ ố ệ 2. Ch n lo i tr c nghi m th ng kê

ứ ố ọ 3. Ch n m c ý nghĩa mong mu n

ị ệ 4. Tính giá tr  khác bi t

ượ ị ắ 5. Có đ ệ   c giá tr  tr c nghi m

ế TS. Tr n Ti n Khai, UEH

52

ả ế ệ ễ 6. Di n gi ả ắ i k t qu  tr c nghi m

8.6 Phân tích tr c nghi m gi

thi

ế t

ệ ắ ả 8.6.2 Quy trình tr c nghi m gi thi ế t

ể ả ả ế 1. Phát bi u gi thi thi t thay

ế t và gi thế

ứ ố ọ 2. Ch n m c ý nghĩa mong mu n

ượ ị 3. Có đ c giá tr  xác su t ấ p

ị 4. So sánh giá tr  xác su t

ấ p và m c ý ứ ế ị nghĩa và ra quy t đ nh

ế TS. Tr n Ti n Khai, UEH

53

ả ế ệ ễ 5. Di n gi ả ắ i k t qu  tr c nghi m

8.6 Phân tích tr c nghi m gi

thi

ế t

Giá trị xác suất (p Values)  H u h t các ph n m m th ng kê đ u cho  ề

ế ả ớ

ố ầ ế k t qu  v i giá tr  xác su t (

ấ p values).

 Giá tr  xác su t  ị

ượ

ộ ế

ả ị ượ ệ

ướ

ế

ấ ể ạ ấ p value là xác su t đ  đ t  ặ ấ c m t k t qu , ít nh t cao b ng, ho c  ự c quan sát trong th c  t H

, v i đi u ki n cho tr

c là gi

thi

0 là

đ ơ cao h n giá tr  đ ế ớ t đúng.

ế TS. Tr n Ti n Khai, UEH

54

8.6 Phân tích tr c nghi m gi

thi

ế t

Giá trị xác suất (p Values)  Giá tr  ị p value đ ượ c so sánh v i m c ý nghĩa  α

ế

ứ ế t.

ế

 N u giá tr

thi

t

thi ứ ỏ ả

ế

thi ơ

ế ị ế

 N u giá tr

t (p value >

thi

, không

ỏ ả

ế

nghĩa, không bác b  gi  thi bác b  gi

t H

ể ự (significant level ­  ), và d a trên k t qu  này đ   ỏ ả bác b  hay không bác b  gi ỏ ơ ị p value nh  h n m c ý nghĩa, gi α 0). , bác b  gi b  bác b  (p value <  t H ị p value b ng ho c l n h n m c ý  ằ ứ ặ ớ α ỏ ả ế 0).

ế TS. Tr n Ti n Khai, UEH

55

8.6 Phân tích tr c nghi m gi

thi

ế t

Kiểm định ý nghĩa: các kiểu kiểm định  Có hai lo i: parametric (tham s ) và

nonparametric (phi tham s ). ố

ụ ạ

ữ ệ

ụ ử

 Parametric tests là công c  m nh vì x  lý  ử các d  li u d ng scale (interval, ratio).  Nonparametric tests là công c  x  lý các

ữ ệ

d  li u d ng nominal và ordinal.

ế TS. Tr n Ti n Khai, UEH

56

8.6 Phân tích tr c nghi m gi

thi

ế t

ộ ố ả ị

đ nh:

Parametric tests  Parametric tests đòi h i m t s  gi  Các quan sát phải độc lập với nhau.  Các quan sát phải được rút ra từ các dân số

phân phối bình thường chuẩn.

 Các dân số nên có phương sai tương đương.  Thang đo phải ở dạng scale để các tính toán

có thể thực hiện được.

ế TS. Tr n Ti n Khai, UEH

57

8.6 Phân tích tr c nghi m gi

thi

ế t

Parametric tests

ả ị

 Nonparametric tests ít đòi h i cỏ ác gi

đ nh:

 Không đòi hỏi các quan sát phải được rút ra từ các dân

số phân phối bình thường chuẩn.

 Không đòi hỏi các dân số phải có phương sai tương

đương.

 Là cách duy nhất để xử lý dữ liệu nominal.  Là cách đúng đắn để xử lý dữ liệu ordinal, mặc dù

parametric có thể áp dụng được.

 Dễ hiểu và dễ sử dụng.

ế TS. Tr n Ti n Khai, UEH

58

8.6 Phân tích tr c nghi m gi

thi

ế t

Làm sao chọn một trắc nghiệm thống kê phù hợp?  Để chọn một trắc nghiệm thống kê phù

hợp, nên suy nghĩ đến 3 câu hỏi:   Trắc nghiệm liên quan đến 1 m uẫ , 2 m uẫ phụ

hay nhi uề hơn 2 m uẫ phụ (k)?

?

ộ ậ

 Nếu có 2 m uẫ phụ hay nhi uề hơn 2 m uẫ  phụ (k), chúng có đ c l p v i nhau hay không  Dữ liệu thuộc loại nào (nominal, ordinal,

scale)?

ế TS. Tr n Ti n Khai, UEH

59

8.6 Phân tích tr c nghi m gi

thi

ế t

ỹ ậ ạ ữ ệ ố ắ

Two-Samples Tests

k-Samples Tests

Các k  thu t phân tích th ng kê nên dùng theo lo i d  li u và tr c  nghi mệ   Measurement scale

One-sample Case

Related Samples

Independent Samples

Related Samples

Independent Samples

Nominal

- McNemar

- Cochran Q

- χ2 for k- samples

- Binomial - χ2 one-sample test

- Fisher exact test - χ2 two- sample test

Ordinal

-Friedman two- way ANOVA

- Kolmogorov- Smirnov one- sample test - Runs test

- Sign test - Wilcoxon matched-pairs test

- Median extension - Kruskal- Wallis one-way ANOVA

-Median test Mann-Whitney U - Kolmogorov- Smirnov Wald- Wolfowitz

Interval and Ratio

- T-test - Z test

- T-test for paired samples

- T-test - Z test

- Repeated- measured ANOVA

60

- One-way ANOVA - N-way ANOVA

ế TS. Tr n Ti n Khai, UEH

8.6 Phân tích tr c nghi m gi

thi

ế t

ữ ệ

ứ Data

8.6.3 Phân tích d  li u a. Excel: công c  ụ Correlation, Anova và Regression trong ch c năng Analysis

ế TS. Tr n Ti n Khai, UEH

61

b. SPSS: các công c  ụ Compare Means và Nonparametric Tests

8.6 Phân tích tr c nghi m gi

thi

ế t

ữ ệ 8.6.3 Phân tích d  li u

ế TS. Tr n Ti n Khai, UEH

62

b. SPSS: các công c  ụ Compare Means và Nonparametric Tests

ộ ố

ụ ể

8.7 M t s  áp d ng c  th

ế

c dùng khi ta có 1 m u và  ẫ ế t là li u m u này có đ n

ữ ầ

t gi a t n su t quan sát và 1 t n  ế ự

ệ su t chu n nào đó d a trên lý thuy t? ệ

ữ ỷ

 Li u có s  khác bi

t gi a t

ph n quan sát v i 1 t

 One­sample tests đ ượ ố ả ị ể mu n ki m đ nh gi  thi ụ ố ụ ể ừ  1 dân s  c  th  nào đó không? Ví d : t  Li u có s  khác bi ự ẩ ự ỳ ọ

ệ ấ ệ ầ

ph n k  v ng nào đó không?

ế TS. Tr n Ti n Khai, UEH

63

1. One-Sample T Test

ộ ố

ụ ể

8.7 M t s  áp d ng c  th

 Ví d  1 (Parametric test) ố ệ ố

ố ủ

 Có s  li u t c đ  tăng doanh s  c a 9 doanh

ng chu n là 6,5%/năm.

ưở ộ t: t c đ  tăng tr

ng doanh s  bình

nghi p.ệ  T c đ  tăng tr ộ ố  Gi ế ố ả  thi ủ

ẩ ưở ệ

ệ ớ t v i

quân c a 9 doanh nghi p không khác bi ố t c đ  chu n (6,5%/năm).

ế TS. Tr n Ti n Khai, UEH

64

1. One­Sample T Test

ộ ố

ụ ể

8.7 M t s  áp d ng c  th

ế TS. Tr n Ti n Khai, UEH

65

1. One-Sample T Test. Ví dụ 1 (parametric test)

ộ ố

ụ ể

8.7 M t s  áp d ng c  th

1. One-Sample T Test

ế TS. Tr n Ti n Khai, UEH

66

Analyze  Compare Means  One-Sample T Test (TẠI SAO?)

ộ ố

ụ ể

8.7 M t s  áp d ng c  th

1. One-Sample T Test

ế TS. Tr n Ti n Khai, UEH

67

Analyze  Compare Means  One-Sample T Test

ộ ố

ụ ể

8.7 M t s  áp d ng c  th

ả ế

i k t qu  phân tích Ví d  1 (Parametric

ữ ố

ưở ộ  m c ý nghĩa 0.05.

ỏ ố

ế

ố ng doanh s  bình quân  c a 9 doanh nghi p và t c đ  chu n không có ý nghĩa  ở ứ th ng kê   Ch p nh n gi ả ậ

t (không bác b ): t c đ  tăng

thi ố

ủ ng doanh s  bình quân c a 9 doanh nghi p không

ệ ớ ố

1. One-Sample T Test

ẩ t v i t c đ  chu n (6,5%/năm).

ế TS. Tr n Ti n Khai, UEH

68

Analyze  Compare Means  One-Sample T Test  Di n gi ễ test)  P value (Sig. 2 tailed) > 0.05.  Khác bi t gi a t c đ  tăng tr ủ ệ ố ấ ưở tr khác bi

ộ ố

ụ ể

8.7 M t s  áp d ng c  th

 Ví d  2 (Nonparametric test)

ử ụ

ế

đ u ề

ườ ử ụ

 S  li u đi u tra s  d ng xe máy.  Gi ệ ấ ả t c  các nhãn hi u xe máy  ọ i s  d ng xe l a ch n  c ng

ư

ụ ề ố ệ ả  thi 0: t t H ơ ộ ượ có c  h i đ nh  nhau.

2. One­Sample Chi­Square Test

Analyze  Nonparametric Tests  Chi­Square

ế TS. Tr n Ti n Khai, UEH

69

ộ ố

ụ ể

8.7 M t s  áp d ng c  th

ế TS. Tr n Ti n Khai, UEH

70

2. One-Sample Chi-Square Test

ộ ố

ụ ể

8.7 M t s  áp d ng c  th

Ta có 100 quan sát và 10 nhãn xe máy. Cơ hội để mỗi nhãn xe được chọn là 10%, và số lượng kỳ vọng là 10 xe/nhãn hiệu.

ế TS. Tr n Ti n Khai, UEH

Tuy nhiên, sự khác biệt giữa N quan sát và N kỳ vọng cho từng nhãn xe là lớn.

Với P value < 0.05, ta bác bỏ giả thiết Ho và phát biểu là các nhãn hiệu xe máy được người sử dụng lựa 71 chọn khác biệt nhau.

ộ ố

ụ ể

8.7 M t s  áp d ng c  th

 Có hai ki u T Test cho hai m u:

ể ắ ặ  (unpaired, independent T Test):

 Không b t c p

ộ ậ

ườ

ớ cho hai m u đ c l p v i nhau, ví d  nam, n ,  các nhóm ng

ề i, nhóm ngh  nghi p, v.v.)

 B t c p ắ ặ  (paired T Test): cho hai m u có liên  ệ ớ

c và sau

ụ ệ ẫ ườ ướ i tr

ị ộ ế ố

h  v i nhau, ví d  1 nhóm ng khi b  m t y u t

ụ ộ  tác đ ng.

ế TS. Tr n Ti n Khai, UEH

72

3. Two­Sample T Test

ộ ố

ụ ể

8.7 M t s  áp d ng c  th

ế

 Gi

thi

ư

 Ví d  ụ 3. S  li u đi u tra s  d ng xe máy  ử ụ ề ố ệ ườ ử ụ ủ ổ i s  d ng  t: tu i trung bình c a ng .  xe máy nam và n  là nh  nhau

ế TS. Tr n Ti n Khai, UEH

73

3. Two­Sample T Test

ộ ố

ụ ể

8.7 M t s  áp d ng c  th

3. Two-Sample T Test

ế TS. Tr n Ti n Khai, UEH

74

Analyze  Compare Means  Independent-Samples T Test

ộ ố

ụ ể

8.7 M t s  áp d ng c  th

ế TS. Tr n Ti n Khai, UEH

75

3. Two-Sample T Test

ộ ố

ụ ể

8.7 M t s  áp d ng c  th

Chọn biến Age cho ô Test Variable(s)

Grouping Variable: Group 1 = 1 (male); Group 2 = 0 (female)

ế TS. Tr n Ti n Khai, UEH

76

3. Two-Sample T Test

ộ ố

ụ ể

8.7 M t s  áp d ng c  th

3. Two-Sample T Test

Independent Samples T est

Levene's Test for Equality of Variances

t-test for Equality of Means

95% Confidence Interval of the Difference

F

Sig.

t

df

Sig. (2-tailed)

Mean Difference

Std. Error Difference

Lower

Upper

Age of motorbike user

1.239

.268

-.315

98

.754

-.93

2.95

-6.77

4.92

-.321

91.785

.749

-.93

2.89

-6.66

4.81

Equal variances assumed Equal variances not assumed

P values (Sig. (2-tailed)) cao hơn α = 0.05 rất nhiều. Ta chấp nhận giả thiết và diễn giải là không có sự khác biệt về tuổi trung bình giữa người sử dụng xe máy là Nam và Nữ.

ế TS. Tr n Ti n Khai, UEH

77

ộ ố

ụ ể

8.7 M t s  áp d ng c  th

ử ụ ệ

ế

 Ví d  4. S  li u đi u tra s  d ng xe máy  ề giữa ọ

ụ ố ệ  Gi ự ự ả t: s  l a ch n nhãn hi u xe máy   thi ườ ử ụ nam và nữ là như nhau.  i s  d ng ng

4. Two­Sample Nonparametric Test

Analyze  Nonparametric Test  Two­Independent Samples

ế TS. Tr n Ti n Khai, UEH

78

ộ ố

ụ ể

8.7 M t s  áp d ng c  th

ế TS. Tr n Ti n Khai, UEH

79

4. Two-Sample Nonparametric Test

Analyze  Nonparametric Test  Two-Independent Samples

ộ ố

ụ ể

8.7 M t s  áp d ng c  th

4. Two-Sample Nonparametric Test

Mann-Whitney Test Two-Sample Kolmogorov-Smirnov Test

T est St at ist icsa

T est St at ist icsa

Motobike Names

Most Extreme Differences

Absolute Positive Negative

Mann-Whitney U Wilcoxon W Z Asymp. Sig. (2-tailed)

Motobike Names 1200.000 2970.000 -.067 .946

Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed)

.045 .045 -.018 .224 1.000

a.

a.

Grouping Variable: User gender

Grouping Variable: User gender

ế TS. Tr n Ti n Khai, UEH

80

Kết luận: chấp nhận giả thiết và phát biểu rằng sự lựa chọn nhãn hiệu xe máy giữa người sử dụng nam và nữ là như nhau.

ộ ố

ụ ể

8.7 M t s  áp d ng c  th

5. One-Way ANOVA (Parametric Test)

ươ

ế

 Ph

ng pháp th ng kê đ  ki m đ nh gi

thi

t là các

ể ể ố ằ

ươ

ủ ng sai ­

trung bình c a các dân s  b ng nhau là Phân tích  ph

ố ị

ưở

, các  ộ

analysis of variance (ANOVA).  One­way ANOVA s  d ng các mô hình 1 y u t ế ố ử ụ ủ ể ng c a m t  ng c  đ nh đ  so sánh  nh h

nh h ệ

ả ộ ế ố

(factor) trên

ặ ụ

ế

ả ưở nghi m th c (treatment) ho c m t y u t m t bi n ph  thu c và liên t c.

ế TS. Tr n Ti n Khai, UEH

81

ộ ố

ụ ể

8.7 M t s  áp d ng c  th

5. One-Way ANOVA (Parametric Test)

ố ệ

ụ  thi

t gi a các ng

ườ ử i s

ề ố

các nhóm tu i khác nhau v  s  ngày

 Ví d  5. S  li u đi u tra s  d ng xe máy  ử ụ ề  Gi ế ả t: Không có s  khác bi ổ ụ d ng xe máy  ử ụ s  d ng bình quân trong tháng.

Analyze  Compare Means  One-Way ANOVA…

ế TS. Tr n Ti n Khai, UEH

82

ộ ố

ụ ể

8.7 M t s  áp d ng c  th

5. One-Way ANOVA (Parametric Test)

ế TS. Tr n Ti n Khai, UEH

83

ộ ố

ụ ể

8.7 M t s  áp d ng c  th

5. One-Way ANOVA (Parametric Test)

ế TS. Tr n Ti n Khai, UEH

84

ộ ố

ụ ể

8.7 M t s  áp d ng c  th

5. One-Way ANOVA (Parametric Test)

ANOVA

Number of used days in a month

df

Sig.

F 6.737

.000

Mean Square 285.789 42.423

Between Groups Within Groups Total

Sum of Squares 1428.944 3987.806 5416.750

5 94 99

P value < 0.05.

Kết luận: bác bỏ giả thiết;

ế TS. Tr n Ti n Khai, UEH

85

Phát biểu rằng có sự khác biệt giữa các người sử dụng xe máy ở các nhóm tuổi khác nhau về số ngày sử dụng bình quân trong tháng

ộ ố

ụ ể

8.7 M t s  áp d ng c  th

5. One-Way ANOVA (Parametric Test)

Number of used d ays in a mont h

N

Subset for alpha = .05 2

3

Tukey HSDa,b

1 14.47 17.96 18.33

17.96 18.33 22.62 24.12

19 25 6 26 17 7

.198

22.62 24.12 26.14 .769

Duncana,b

.695 14.47 17.96 18.33

17.96 18.33 22.62

19 25 6 26 17 7

Age groups under 60 under 50 under 20 under 30 under 40 older than 60 Sig. under 60 under 50 under 20 under 30 under 40 older than 60 Sig.

22.62 24.12 26.14 .215

.175

.101

Means for groups in homogeneous subsets are displayed.

a.

Uses Harmonic Mean Sample Size = 12.013.

b.

The group sizes are unequal. The harmonic mean of the group sizes is used. Type I error levels are not guaranteed. ế TS. Tr n Ti n Khai, UEH

86

ộ ố

ụ ể

8.7 M t s  áp d ng c  th

5. One-Way ANOVA (Parametric Test)

Age Group

Value

Grouping

Under 60

14,5    a

Under 50

17,9    ab

Under 20

18,3    ab

Under 30

22,6    abc

Under 40

24,1    abc

Older than 60

26,1    abc

ế TS. Tr n Ti n Khai, UEH

87

ộ ố

ụ ể

8.7 M t s  áp d ng c  th

5. One-Way ANOVA (Parametric Test)

ế TS. Tr n Ti n Khai, UEH

88

Hình. Phân bố số ngày sử dụng xe máy bình quân trong tháng theo độ tuổi của người sử dụng

ộ ố

ụ ể

8.7 M t s  áp d ng c  th

6. Nonparametric Test for k-Independent Samples

 Ví dụ 6. Số liệu điều tra sử dụng xe máy  Giả thiết: Không có sự khác biệt giữa các người sử dụng xe máy ở các nhóm tuổi khác nhau về nhãn hiệu xe.

Analyze  Nonparametric Tests  k Independent Samples

ế TS. Tr n Ti n Khai, UEH

89

ộ ố

ụ ể

8.7 M t s  áp d ng c  th

6. Nonparametric Test for k-Independent Samples

ế TS. Tr n Ti n Khai, UEH

90

ộ ố

ụ ể

8.7 M t s  áp d ng c  th

6. Nonparametric Test for k-Independent Samples

Kruskal-Wallis Test

Ranks

T est St at ist icsa,b

N

Motobike Names

Motobike Names

Chi-Square df Asymp. Sig.

1.493 5 .914

a.

Kruskal Wallis Test

Mean Rank 46.25 49.40 50.62 55.66 45.87 52.07

b.

Grouping Variable: Age groups

Age groups under 20 under 30 under 40 under 50 under 60 older than 60 Total

6 26 17 25 19 7 100

P value > 0.05  Kết luận: chấp nhận giả thiết;

ế TS. Tr n Ti n Khai, UEH

91

Phát biểu rằng sự lựa chọn các nhãn hiệu xe máy giữa các người sử dụng xe máy ở các nhóm tuổi khác nhau là như nhau.