CH NG B Y

7

CHU N B D LI U VÀ X LÍ D LI U

N I DUNG CHÍNH

Ch

ng này

c p

n các n i dung chính sau:

- Chu n b d li u

x lý

- Các ph

ng pháp và nguyên t c mã hoá d li u

- M t s v n

liên quan n x lý và di n gi i d li u

- B ng phân ph i t n su t và b ng so sánh

-

c l

ng tham s

-

ng d ng tin h c vào phân tích d li u nghiên c u Marketing

-

Phân tích th ng kê mô t

98

CHU N B D LI U

u sau khi d li u ã c thu th p. Nh ng tr

c mà chúng c n c s p x p, c khi x lí ph i d ng c thu th p v n còn c mã hóa theo nh ng cách th c Quy trình phân tích và x lí b t di n gi i các d li u ra m t d ng thích h p vì nh ng d li u m i ''thô'' ch a th x lí ngay nh t d dàng cho vi c s d ng máy vi tính tr giúp x lí d li u sau này. nh

Làm cho d li u có giá tr

Sau khi thu th p d li u ph i ki m tra các d li u b o m chúng có ý ngh a, t c là có giá tr i v i vi c x lý và phân tích. Vi c làm cho d li u có giá tr ti n hành theo hai b c:

- B c th nh t: Ti n hành xem xét m t cách k l ng các ph ng pháp và các bi n pháp ã c s d ng thu th p d li u (t c ki m tra các công c dùng thu th p d li u)

- B c th hai: Ti n hành nghiên c u k các b ng câu h i ã v th t c ph ng v n phát hi n ra nh ng nguyên nhân d n c ph ng v n và nh ng ch d n n các sai sót.

Hi u ch nh d li u

d li u có ý ngh a c chu n b chu Do nh ng nguyên nhân khách quan và ch quan, quá trình thu th p d li u dù áo v n còn có th t n t i nh ng sai sót, vì v y ph i hi u ch nh i v i quá trình nghiên c u. Hi u ch nh d li u là s a ch a các sai sót v ghi chép ho c ngôn t phát hi n c qua ki m tra. Trong khi hi u ch nh c n s a ch a nh ng sai sót ph bi n sau:

- Nh ng cu c ph ng v n gi t o do ng i i ph ng v n “ph a” ra

- Nh câu tr l i không y (là nh ng câu tr l i không rõ ý ho c tr l i n a ch ng)

- Nh ng câu tr l i thi u nh t quán.

- Nh ng câu tr l i không thích h p.

- Nh ng câu tr l i không c c.

Có 3 cách ti p c n c s d ng x lí các d li u ''x u'' t các tình hu ng ó.

Quay tr l i ng i i ph ng v n hay ng i tr l i câu h i làm sáng t v n

Vi c liên h v i các cá nhân tìm câu tr l i úng làm n y sinh hai v n :

- Làm t ng chi phí và s quá t n u cu c kh o sát có quy mô vì chi phí ph ng v n này ã

ng c tính trong d án nghiên c u. Theo kinh nghi m, ngw i nghiên c u có th không c n tìm cách thu th p thêm d li u n u t l các câu h i nghi v n t i nh và / ho c quy mô c a m u t i l n (t l các câu h i nghi v n nh h n 20% và m u l n h n 500). ng

nh i ng thu th p d li u, nh ng d li u m i có th s khác v i d c tr l i c thu th p trong cu c ph ng v n u tiên do các cá nhân có th không nh thông tin n k t ng pháp khác và i u này nh h ng r t l n - N u quy t li u ã c n thi t, c ng nh có th do s d ng ph qu c a câu tr l i (liên quan n tin c y c a cu c i u tra).

Suy lu n t nh ng câu tr l i khác

i hi u ch nh ph ng oán t các d li u khác y r i ro. Khó có th minh nh c các quy lu t an toàn khi hi u ch nh d li u, ng làm rõ câu tr l i nào úng. suy lu n các câu i nghiên c u c n h t s c th n tr ng v i i ch c ch n v ý ng ng pháp này, và không nên suy lu n m t câu tr l i tr phi bi t t Theo cách này, ng Nh ng ây là cách làm tr l i. Do ó ph nh c a ng i tr l i.

99

Lo i toàn b câu tr l i

ây là vi c d th c hi n nh t. Theo cách này, ng ng h p quy mô c a m u t ng i nh ng câu tr l i i hi u ch nh có th lo i b có nghi v n. Trong tr toàn b các câu tr l i n u thông tin thi u nh t quán và ng thi u nh t quán ó trong các d li u c thu th p t các i t i m trong cách ti p c n này là s thiên v trong k t qu n u nh ng ng i hi u ch nh ch vi c lo i i l n, ng i hi u ch nh không th gi i quy t v n ng ph ng v n. Tuy nhiên, i tr l i thi u c s b l ch n u ý ki n nh ng t khuy t nh t quán ó b lo i ra kh i cu c nghiên c u, khi ó k t qu ng i tr l i b lo i này khác v i nh ng ng i còn c gi l i trong m u i u tra.

M t cách gi i quy t khác là t p h p m t báo cáo riêng các lo i d li u b thi u ho c không nh t quán, không r ng n u ng i nghiên c u th t s tin r ng các d li u ó có th có ích cho vi c ra quy t nh c a các nhà lãnh o.

C U TRÚC VÀ MÃ HÓA D LI U

c ch Mã hóa d li u là m t quá trình liên quan t i vi c nh n di n và phân lo i m i câu tr l i trên m t ký hi u c mã hóa thì nh (ký hi u có th b ng s ho c b ng ch ). D li u này ph i máy i n toán m i c và x lý c.

C u trúc d li u

c tr l i vào v trí ô l u tr d li u c a máy c mã hóa thành m t c u trúc C u trúc c a d li u là cách s p x p thông tin ã i n toán. Do ó các nhà nghiên c u ph i t ch c các d li u thích ng c a các d li u.

Mã hóa d li u

Vi c mã hóa có th c th c hi n vào m t trong hai th i i m, là mã hóa tr c và mã hóa sau:

Mã hóa tr c

c là vi c quy t nh ch n các mã s cho các câu h i và các ph

i v i các câu h i này ng i nghiên c u ã nh rõ

ng án tr l i t khi Mã hóa tr thi t k b n câu h i, và do v y có th in ngay các mã s lên b ng câu h i. Hình th c mã hóa này thích h p cho các câu h i d ng lu n lý (ch ch n m t trong hai cách tr l i: có, không) hay d ng ch n m t trong các câu tr l i ghi s n. c câu tr l i và do ó d dàng ký hi u cho các câu tr l i ó. Vi c mã hóa này có tác d ng làm gi m i r t nhi u kh i l ng công vi c trong b c chu n b d li u.

làm rõ ta hãy xem xét ví d v m t ph n trong b ng câu h i v s n ph m ti vi sau ây:

ch m d t và sang ph n k . h i ti p t Q2a Có (0) (1) ng bao lâu xem TV m t l n ?

M i ngày/ h u nh m i ngày 4-5 ngày/ tu n 2-3 ngày/tu n 1 l n/ tu n 2-3 ngày/ tháng 1 l n/ tháng ng xuyên Không th Không xem (1) (2) (3) (4) (5) (6) (7) (8) chuy n sang câu h i ti p theo

100

Q1. Bà/ cô có TV ho c xem ti vi không ? Không Q2a. Bà/ cô th Q2b. L n g n ây nh t bà/ cô xem TV khi nào ? Ngày hôm qua Tr c ngày hôm qua (1) (2)

ng trình TV trong bao lâu? ng trong tu n bà/cô xem ch

(1) (2) (3) (4) (5) (6) Ít h n 1 gi T 1 n 3 gi T 3 n 5 gi T 5 n 7 gi T 7 n 9 gi Trên 9 gi

Q2c. Trung bình, m t ngày bình th Q2d. Ngày cu i tu n (th b y, ch nh t) thì bà/cô xem TV bao lâu ? Ít h n 1 gi T 1 n 3 gi T 3 n 5 gi T 5 n 7 gi T 7 n 9 gi Trên 9 gi (1) (2) (3) (4) (5) (6)

Mã hóa sau

i nghiên c u ph i t n nhi u công biên t p vì các câu i ph ng v n ph i ghi nguyên chuy n các d li u nh v y sang m t hình th c mà máy i n toán có c c n ph i phân các câu tr l i theo nh ng lo i gi ng nhau và gán cho chúng các ký Khi các câu tr l i thu c câu h i m , ng tr l i theo tình hu ng t do, không nh s n. Khi ph ng v n, ng v n câu tr l i, và vì th th c hi u mã hóa.

Có hai cách:

- Cách th nh t: Ng i nghiên c u ti n hành mã hóa các câu tr l i tr c khi nghiên c u th c a. Tr ng h p này, ng i nghiên c u ph i d ki n v m t lý thuy t các câu tr l i ho c s c, i ph ng v n cách phân lo i các câu tr l i i ng th i m t th i gian hu n luy n nh ng c ghi nguyên v n úng lo i mã hóa ã d d ng kinh nghi m c a các cu c nghiên c u tr ng ki n.

- Cách th hai: Ch n khi thu th p xong d li u m i ti n hành mã hóa. Khi ó, ng

xem xét có còn tình hu ng tr l i nào khác không. i nghiên tính toán các lo i tình c tr l i c khi mã hóa, ph i rà soát l i toàn b các câu h i ã ph ng ti n l i cho vi c phân tích, không c u ph i xem xét ng u nhiên 30% các b n câu h i ã hu ng tr l i và mã hóa nó. Tr v n nên phân lo i quá 10 tình hu ng tr l i cho m t v n .

Các nguyên t c thi t l p ki u mã hóa

làm cho ch c n ng mã hóa c t t h n c n ph i tuân th các nguyên t c sau ây trong vi c thi t l p các ki u mã hóa.

- S “ ki u mã hóa” thích h p: s ki u mã c n ph i bao quát h t l n ng mã quá ít thì có th m t s thông tin quan tr ng s không c các s khác bi t c bao trong d li u. N u s l quát.

- Nh ng thông tin tr l i c s p x p trong cùng m t “ lo i mã hóa” thì ph i t ng t nhau v c tr ng nghiên c u.

- Ranh gi i rõ ràng gi a các “lo i mã hóa”

c nghiên c u, nh ng s khác bi t v thông tin tr l i gi a các “lo i V i các c tr ng ang m㔠ph i không gi ng nhau n m c x p vào cùng m t “lo i mã”.

101

c tr ng v tu i tác c a ng i c h i, gi s c n ti n hành Ví d : Chúng ta ang nghiên c u mã hóa các tình hu ng tr l i nh sau:

- Nh h n 20 tu i

- T 21 tu i n 30 tu i.

- Trên 30 tu i

c x p vào lo i nào vì n 30 tu i. Khi ó ng kho ng i nghiên c u ph i N u có m t câu tr l i là 20 tu i 4 tháng thì s không rõ ph i th nh t ph i là 20 tu i và th 2 ph i là t 21 tu i làm tròn theo nguyên t c là 20 tu i nh v y c x p vào lo i th 1.

- Nguyên t c lo i tr gi a các lo i mã hóa: các lo i mã hóa ph i không c ch ng chéo lên c x p nhau, c n ph i thi t l p chúng nh th nào vào m t lo i mã hóa thôi. ( ã b t c tình hu ng tr l i nào c ng ch c x p vào lo i mã này thì không x p vào mã khác)

- Nguyên t c toàn di n: theo nguyên t c này, c u trúc c a m t lo i mã ph i bao quát c t t c các tình hu ng tr l i nh m m b o t t c các tình hu ng u c mã hóa.

- Nguyên t c “ óng kín” nh ng kho ng cách l p: theo nguyên t c này, không c “

u mút c a dãy phân ph i và do ó s không cho hai m ” kho ng cách l p c a mã hóa, b i vì vi c không ch rõ nh ng gi i h n v kho ng cách l p s làm lu m i nh ng giá tr phân tán phép tính toán c giá tr trung bình c a nh ng quan sát trong m i kho ng cách l p.

u ng i c a nh ng ng i c Ví d , xem xét vi c mã hóa câu h i v thu nh p bình quân ph ng v n:

M c thu nh p Mã hóa

T 100USD - 200USD 1

Trên 200USD - 300USD 2

Trên 300USD - 400USD 3

Trên 400USD -500 USD 4

i 100USD ho c trên 600USD ch a Có th nh n th y n u mã hóa nh trên thì s ch a m b o “ óng kín” nh ng kho ng cách l p vì v i các tình hu ng tr l i có thu nh p d c mã hóa m c dù t n su t xu t hi n các giá tr hai u mút này r t nh .

- Nguyên t c v nh ng kho ng cách l p: Kho ng cách các l p nên c quy nh t ng chúng có r ng thay a nh rõ các “lo i m㔠ch a r ng không t ng ng i. N u không tuân th các nguyên t c này có n tình tr ng kho ng cách l p thi u s dàn tr i phù h p. Tuy nhiên, có th ch p nh n ng ng nhau khi ã ó có th c tr ng tr l i t nh ng ph n nh ng nhau thì t t h n là th các kho ng cách có các ph n t i nh c a t ng th mà nh ng không cung c p nh ng thông tin h u ích nào c .

- Nguyên t c i v i nh ng câu h i mà khi tr l i ng c thi t k sao cho nh ng con s i ta c làm nh i m gi a các kho ng cách l p: hay làm tròn s thì nh ng kho ng cách l p c n tròn (l n h n) ó r i vào nh ng i m gi a c a kho ng cách l p.

L p danh b mã hóa

c s d ng trong nh ng tr ng d li u (data fields) và nh ng m i liên h c a chúng ng nh ng l i gi i thích v nh ng mã hi u i v i Danh b mã hóa g m nhi u c t, trong t ng c t ch a ã nh ng câu tr l i c a các câu h i.

102

i làm mã hóa th c hi n vi c làm bi n i n toán có th c i t câu tr c, giúp các nhà nghiên c u nh n Ch c n ng c a danh b mã hóa là giúp ng l i ra m t ký hi u thích h p mà máy di n các lo i bi n s khi in b n phân tích b ng máy i n toán.

ng trong m t danh b mã hóa c ch a i v i m t câu h i bao c a câu h i và mã L ng thông tin t i thi u g m: s c a câu h i, s c t c n có trong máy i n toán, tên c a bi n s , v n hi u ã c s d ng.

- Có ph i ch c n mô t b m t c a các tình hu ng nào ó hay không?

- Có ph i chúng ta ang tìm ki m m t ngo i l hay m t d ng nào ó trong tình hu ng hay không?

- C n d oán tr ng thái t ng lai hay giá tr c a m t bi n hay không?

- N u có nh ng m i liên h quá kh gi a các bi n nào ó thì có c n làm rõ không? N u nh v y chúng ta có ph i quan tâm n nh ng m i liên h bên trong gi a các bi n hay không?

- Chúng ta có mu n th m dò c u trúc bên trong c a m t hi n t ng b ngoài v ph n ng c a c ho c ch ng minh cho các nguyên nhân bên trong hay i tiêu dùng, qua ó tìm hi u ng không ?

- N u dùng mô hình th nghi m thì (1) có nh ng bi n thiên cùng chi u nào gi a các bi n thích ng pháp hay cho các b ng tính, (3) c bi t nào là ngu n nh p cho t ng ph h p? (2) các bi n vi c tính toán c th c hi n theo trình t nào?

- Nh ng tính toán nào ph thu c vào k t qu tính toán c a các b c tr c?

- Nh ng tính toán nào ph i ch i nh ng k t qu c a các tính toán khác thì m i i n quy t nh k t qu c a chúng có ý ngh a hay không?

- Nh ng câu tr l i cho câu h i th (3) òi h i nh ng phép toán th ng kê ph i nh. Khi thi t l p nh ng trình t nh th c n nêu rõ nh ng th t c l p thành u m t trình t logic nh t tiên tính toán và nh ng gì còn ang nghi v n i v i k t qu a ra.

Ví d , có th l p m t danh b mã hóa cho m u ph ng v n s n ph m tivi nh sau:

Q1. Có ho c không xem tivi 0 1

M i ngày/ h u nh m i ngày 4-5 ngày/ tu n 2-3 ngày/tu n 1 l n/ tu n 2-3 ngày/ tháng 1 l n/ tháng Không th ng xuyên Không xem 1 2 3 4 5 6 7 8

Ngày hôm qua Tr c ngày hôm qua 1 2

103

Ít h n 1 gi T 1 n 3 gi T 3 n 5 gi T 5 n 7 gi T 7 n 9 gi Trên ng 1 2 3 4 5 6 Không Có Q2a. S l n xem tivi Q2b. L n xem tivi g n ây nh t Q2c. Th i gian xem tivi ngày th Q2d. Th i gian xem tivi ngày cu i tu n

Ít h n 1 gi T 1 n 3 gi T 3 n 5 gi T 5 n 7 gi T 7 n 9 gi Trên 1 2 3 4 5 6

M T S V N LIÊN QUAN N PHÂN TÍCH VÀ DI N GI I D LI U

Phân tích và di n gi i d li u ã x lý có tác d ng quan tr ng trong vi c tìm hi u và rút ra ý ngh a c a các d li u, nh xu t các gi i pháp s rõ ràng và khoa h c h n. Công vi c này ó, các c n c cho c ti n hành qua 2 giai o n ch y u:

- X p các d li u thô vào các th b c ã c o l ng

- Tóm l c các ph ng pháp phân tích làm rõ m i quan h h t ng và các ý ngh a ng gi a các d li u (trong các n i dung sau chúng ta s tìm hi u m t s ph nh ng pháp phân l tích d li u d a trên c s s d ng các thành t u c a khoa h c th ng kê)

V n hi u qu c a công tác x lí d li u

Nguy c làm cho phí t n và th i gian x lý lâu là nh ng nguyên nhân khi n cho các nhà nghiên m b o tính hi u qu c a công tác c u ph i quan tâm n tính hi u qu c a công tác d li u. x lý d li u c n ph i chú ý n m t s v n sau:

x lý ph i làm s n tr c khi a d li u n b ph n computer. c th i gian và tránh c nh ng sai sót áng ti c do tình tr ng các d - Vi c chu n b các d li u Vi c này s ti t ki m li u thô d n v trung tâm tính toán.

- Tiên oán tr c các d li u nào là c n thi t a vào x lý và phân tích. Không

c tùy ti n c t xén d li u vì vi c b sung d li u trong quá trình x lý s r t ph c t p và t n nhi u công s c, ti n b c. Nh ng c ng không nên a quá nhi u d li u “râu ria” vào x lý làm t ng kh i l ng tính toán không c n thi t, k t qu phân tích s ph c t p và nhi u khi vô d ng.

Tóm l i ph i a và ch nên a nh ng d li u c n thi t cho m c ích nghiên c u vào x lý.

B n ch t c a s di n gi i

nh ngh a

i n m c tiêu c a quá trình nghiên t i nghiên c u s phân tích. Có hai giai o n v suy ngh lôgíc dùng c ta th c hi n dù có ý th c hay không: u Di n gi i là làm n i b t ý ngh a c a d li u, hay nói cách khác di n gi i là quá trình chuy n các d li u thu n túy thành thông tin. Ng c u khi rút ra k t lu n t nh ng d li u rút ra các suy lu n t d li u và c hai giai o n ó là quy n p và di n gi i.

nh ngh a các giai o n này nh sau: “Các nhà lôgíc h c phân bi t rõ gi a suy n các qui t c chung, t d ki n cho n lý thuy t) và ng h p nào ó). c bi t, áp d ng lý thuy t vào m t tr Boveridge ã c bi t d n lu n qui n p (t nh ng ví d suy lu n di n gi i (t cái chung n cái i ta b t u t các d ki n, quan sát chúng và ti n n m t s khái quát hóa quy n p, ng c quan sát. Ng i t c l i, ph ng pháp di n gi i, gi i thích m i quan h gi a các u t ng ng các qui lu t chung và áp d ng chúng vào m t tr i ta b t ng h p c th ”.

Các yêu c u c a vi c di n gi i

104

di n gi i t t, c n ph i l u ý các v n sau:

- Di n gi i m t cách trung th c và t nh táo, không nên phóng i hay bóp méo các d li u gây s chú ý.

- Luôn khách quan và n gi n trong di n gi i, không nên làm ph c t p hóa v n .

- L u ý n gi i h n c a các m u thông tin nh , t c là không nên sa vào “th i ph ng” k t qu quan sát c t m t m u nh thành khái quát miêu t m t ph m vi l n.

- Công b ng, khách quan v i m i d li u, không nên có thành ki n ho c thiên h ng v m t k t lu n c bi t nào.

- Chú ý úng m c n các câu tr l i quá b t th ng.

- Phân bi t nguyên nhân và k t qu , không nên nh m l n chúng v i nhau.

Nh ng l u ý v phân tích d li u

Ch n ph ng pháp phân tích

l a ch n ph

ng pháp phân tích có th s d ng. ng pháp thích h p, bao c tính ng u nhiên c a d li u, c n nêu b t ý ngh a nào c a k t qu nghiên c u?, có xem i L nh v c phân tích d li u r t r ng vì v y, có r t nhi u ph Ng i nghiên c u c n ph i cân nh c nhi u khía c nh g m: xét s sai l ch áng k c a d li u không?, qui lu t phân ph i ng u nhiên c a d li u thu c l ng nghiên c u nào?...

D li u tham s và d li u phi tham s

c g i là tham s khi chúng c phân ph i xung quanh giá tr trung bình ho c i x ng nhau, t ng t nh ng cong c a hàm s m t Nh ng d li u giá tr trung tâm c a chúng m t cách phân ph i xác su t chu n.

c phân ph i theo ng cong c a hàm phân Nh ng d li u phi tham s thì khác, chúng không ph i chu n.

ng pháp ki m nh gi thuy t

T ng ng v i các lo i d li u ó, các ph c áp d ng có nh ng khác bi t theo các tiêu chu n ki m nh khác nhau, do v y, khi phân tích d li u c n nh n di n rõ ràng ó là lo i d li u tham s hay d li u phi tham s .

ng nh ng bi n s c n c phân tích S l

S l ng nh ng bi n s th ng hay thay i t m t n nhi u bi n s :

Chúng ta x p lo i chúng theo 3 nhóm ph ng pháp phân tích:

- Ph ng pháp bi n s n: trong ó ch có m t bi n s duy nh t c phân tích.

- Ph ng pháp bi n s kép: c s d ng tìm hi u s liên h gi a hai bi n s .

- Ph ng pháp a bi n: c s d ng tìm hi u s liên h gi a các bi n s v i nhau.

Tính c l p và ph thu c l n nhau

n s l c s d ng ng bi n s ám ch s bi n thiên c a hai (hay nhi u) bi n s s có nh h c phân tích là s liên h gi a các bi n s v i nhau. T “liên ng gi a chúng Liên quan h ” v i nhau. S có hai tr ng h p phân tích:

ng h p trong ó ch có m t bi n s c ki m nghi m v tính ph thu c c a nó v i (1) Tr nh ng bi n s c l p khác.

105

ng h p ng i nghiên c u tìm ki m nh ng m i liên h hay ph thu c l n nhau gi a t t c (2) Tr các bi n s .

L P B NG PHÂN PH I T N SU T VÀ L P B NG SO SÁNH

L p b ng phân ph i t n su t (l p b ng theo th t ABC)

n gi n nh t trong x lý d li u là s p x p chúng theo chu i s (ho c theo h

ng n cao, ho c gi m d n t cao xu ng th p), sau ó phân chia thành t ng l p c th n gi n này, các d ng d li u lo i b ng Hình th c t ng d n t th p (theo nguyên t c phân t trong th ng kê). hi n bao g m:

- i l ng nghiên c u ã c phân t .

- T n s quan sát ng v i t ng l p.

- T n s tích l y.

Ch ng h n, sau khi thu th p các d li u v thu nh p, ta có th s p x p chúng nh sau:

Thu th p hàng tháng (tri u ng) S ng i (T n s ) T n s l y tích

D i 500.000 ng

T 500.000 ng T 1.000.000 ng T 1.500.000 ng T 2.000.000 ng ng ng ng ng

n 1.000.000 n 1.500.000 n 2.000.000 n 2.500.000 ng Trên 2.500.000 39 51 123 47 25 15 39 90 113 160 185 200

L p b ng so sánh toàn di n

a thêm các nhân t nh h i ta ng phân tích c th h n c tính h c v n), có th Trong d ng b ng này ng c a d li u. Ví d , khi nghiên c u quan h gi a thu nh p và giáo d c (trình l p b ng d ng sau:

Thu nh p (tri u ng/tháng)

Trình h c v n D i 1,0 1,0-2,0 2,0-3,0 Trên 3,0

-Ti u h c -Trung h c - i h c - Th c s - Ti n s

N u xem xét thêm m t s nhân t khách nh : Gi i tính, tu i, ngh nghi p... có th i, khi ó có th xem xét tác n m c thu nh p t ng ng ng c a nhi u nhân t nh h ng n thu nh p, và có th l p b ng sau:

Thu nh p (tri u ng/tháng)

Trình h c v n D i 1,0 1,0-2,0 2,0-3,0 Trên 3,0

Nam

106

-Ti u h c -Trung h c i h c -

- Th c s - Ti n s

N

-Ti u h c -Trung h c - i h c - Th c s - Ti n s

ki m tra s phân b d li u có th tuân theo quy lu t phân ph i chu n hay không, hai tham s c p là tham s skewness và kurtosis, hai tham s này bi u hi n "nh n" c a mà chúng ta phân ph i t n su t.

H s skewness

không c o m c

i x ng c a phân ph i t n su t, các giá tr trung bình ( X ), u tham gia vào quá trình xem xét. Trong m t dãy phân ph i có i x ng hoàn toàn các tham s trung bình, trung v và mode có cùng giá tr ( X = M0 = Md). n + 3, n u d li u tuân theo phân ph i chu n thì thông s Skewness là th s mode (M0), s trung v (Md) d ng H s skewness nh n giá tr t -3 skewness b ng 0 và h s skewness c tính nh sau:

0

k s n

S (3 ) ho c Z S k Mx s

Sk : H s Skewness

M0 : S Mode

x : S trung bình m u

s : l ch chu n c a m u

H s kurtosis

H s Kurtosis là th c o m c ph ng c a phân ph i t n su t, n u d li u tuân theo phân ph i Kurtose chu n thì thông s này b ng 0. Tính h s Kurtose t Z

24 n

O L NG KHUYNH H NG H I T C A D LI U

ó l ng khuynh h ng h i t c a d li u là m t (mode), trung v Có 3 tham s c b n (median) và s trung bình.

ng xuyên nh t trong dãy phân ph i t n su t. Nó

Mode: Mode là giá tr trung tâm x y ra th c tính ra d dàng khi x p d li u và các l p trong m t b ng t n su t phân ph i vì “mode” là l p ch a s l n quan sát l n nh t.

d

1

M

L

*

i

0

Mo

d

d

1

2

107

S mode c tính theo công th c sau:

Trong ó: Mo - Tr s mode

i c a l p có t n su t xu t hi n l n nh t. LMo - Gi i h n d

ng li n tr c d1 - Sai bi t v t ìn su t c a l p có t n su t xu t hi n l n nh t v i l p nó trong dãy phân ph i.

ng li n sau nó d2 - Sai bi t v t n su t c a l p có t n su t xu t hi n l n nh t v i l p trong dãy phân ph i.

i - l n c a kho ng cách c a l p có t n su t xu t hi n l n nh t.

M t s c tr ng quan tr ng c a mode:

- D xác nh và có kh n ng xác nh nhanh.

- Có th xác nh v trí c a nó trong dãy phân ph i m (opended distribution), t c là các dãy phân ph i mà giá tr sau cùng ch a xác nh còn m cu i dãy.

- Mode có th không t n t i trong m t dãy phân ph i, ôi khi có th không tìm ra

c s mode ho c có th có nhi u s mode. M t dãy phân ph i có hai nh (g i là “bimodal - hai l p ch a mode”). Khi ó ta có th không tìm ra ng tr ng tâm c a phân ph i. c xu h

- Mode không b nh h ng b i các giá tr hai u (giá tr u cu i) c a dãy phân ph i.

- Mode có th tiêu bi u cho dãy phân ph i n u nh ng quan sát c t p trung vào m t giá tr ho c m t l p.

i lên ho c t trên xu ng. Trung v : Trung v (medial) th hi n giá tr trung bình tiêu bi u nh t c a các giá tr trong dãy c khi xác nh giá phân ph i, vì nó b ng úng ngay gi a giá tr cao nh t và giá tr th p nh t. Tr tr trung v , c n ph i s p x p các d li u theo th t d i v i nh ng d li u không c phân nhóm mà s quan sát là l thì ch n giá tr trung v r t d dàng.

f

c

n 2

M

L

*

i

d

Md

f

Md

Giá tr trung v c xác nh theo công th c:

Trong ó: Md - Giá tr trung v

i c a l p ch a trung v . LMd - Gi i h n d

n - T ng t n su t trong dãy phân ph i

ng tr c l p ch a trung v . fc - T n su t l y tích c a l p

fMd -T n su t c a l p ch a trung v .

i - l n kho ng cách l p ch a trung v .

M t s c tính quan tr ng c a trung v :

- Có th tính c nh ng b ng phân ph i m vì giá tr trung v n m trong kho ng cách c a l p ch a trung v , và kho ng cách không th là kho ng cách m .

108

ng b i các giá tr u mút c a dãy phân ph i, vì v y, n u b ng phân - Không b ph i có nh h hai l ch l n nên ch n phép tính giá tr trung v h n là trung bình.

- Không b tác ng c a giá tr quan sát c mà b tác ng b i s l n quan sát, vì v y các giá tr hai u c a dãy phân ph i không làm bi n i k t qu c a tr s này.

- N u các kho ng cách l p có kích th c không b ng nhau thì trung v o l ng c xem là s ng phân ph i phù h p nh t vì nó d tính h n nhi u so v i giá tr trung bình. xu h

Giá tr trung bình ( Mean) : N u m u ng u nhiên w có các giá tr x = ( x1 , x2 ,......,xn) thì giá tr

ix

i

1

n

x

(

n

)

trung bình c a x là: x . N u các giá tr x1,x2,......,xn l n l t có các t n su t n1,n2,.....,nk , 1 n n

nx i i

n i

1 n

i

1

thì

M t s c tính quan tr ng c a giá tr trung bình:

- Giá tr trung bình ch u s tác i s làm thay quan sát thay ng b i các giá tr c a m i quan sát, nh v y khi giá tr c a m i i giá tr trung bình.

- N u có m t dãy phân ph mà tính ch t i x ng l ch nhau quá l n thì giá tr trung bình c ng b thay i ph thu c theo các giá tr u mút.

- Các c dùng suy r ng ra t ng th ( c l c tính toán h c c a giá tr trung bình óng vai trò r t quan tr ng khi các d li u c a m u c dùng trong các thí nghi m th ng ng) ho c khi ng pháp trung bình s h c r t thích h p khi phân tích các d li u theo kho ng cách. kê. Ph

- Không th tính c giá tr trung bình v i các dãy phân ph i m .

c l ng khuynh h ng h i t :

ng h i t nh trên, nên ch n tham s nào

V i các tham s bi u th khuynh h c tr ng nh t ? Không có quy t c chung nào ch ra vi c s d ng tham s nào là thích h p. Mu n ch n úng tham s c n ph i xem xét c tính c a t ng lo i và ánh giá c các lo i bi n s d li u.

ng pháp ch n l a r t n gi n vì các

nh Trong m t dãy phân ph i có d ng i x ng hoàn toàn, ph s trung bình, trung v và mode u có cùng giá tr . Nh ng n u dãy phân ph i quá l ch thì giá tr c a 3 tham s này s khác nhau. Vì v y, vi c hi u bi t v các lo i phân ph i giúp ra quy t nên ch n tham s nào ng. c l

Ngoài ra, l a ch n a ra mà m t khi m t c l c l ng thích h p, có th s d ng các tiêu chu n do các nhà th ng kê ng th a mãn c chúng thì ó s là m t ng t t. c l

- Tính không ch ch: Khi k v ng toán c a tham s ó g n trùng v i tham s t ng th thì c l ng c xem là không ch ch.

- Tính phù h p: Khi kích th c m u t ng lên mà m t c l n tham s t ng th (giá tr th c s c a t ng th ) thì c l ng rút ra t m u ó c ng ti p c n ng phù ng ó g i là m t c l h p c a tham s t ng th .

- Tính y : M t c xem là mang tính ng th ng kê c l y

n u nó s d ng h t các thông tin v tham s m u mà m u nó ch a, ngh a là không có m u nào khác có th có th cho thêm thông tin v tham s .

O L NG PHÂN TÁN C A D LI U

109

o l ng khuynh h phân tán Các tham s chia nh các d li u quan sát. Vì th , c n nghiên c u hai t p d li u và tính ng h i t c a d li u ã không nói gì v kh n ng m r ng hay so sánh “s m r ng” c a c “m r ng" c tr ng c a các giá tr trung bình. Ví d , n u các d li u

quan sát tính h i t s không th bi u tr ng cho nhi u quá thì vi c s d ng giá tr trung bình các d li u ang nghiên c u.

Kho ng bi n thiên:

c tr ng phân tán

c n gi n nh t. Nó là s sai bi t gi a giá tr cao nh t và Kho ng bi n thiên là th p nh t trong m t dãy hay b ng phân ph i. Nó ch làm n i b t kho ng cách c a d li u mà không so sánh v i giá tr trung bình. Vì v y các giá tr tiêu bi u c a d li u có th không c tr ng này có th làm méo mó i hình nh c a dãy phân ph i. c p n và

Ph ng sai và l ch chu n:

l ch chu n d a trên m c c ng sai và ng sai nh ngh a nh là s trung bình c a bình ph ng các

n

2

2

s

(

x

x

)

sai l ch c a các quan sát v i giá tr trung bình. l ch gi a giá tr quan l ch chu n. c s d ng nh t c tr ng h i khó di n d ch h n nên ng sai g i là ng l ch chu n th ng sai là Ph Ph sát v i giá tr trung bình trong dãy phân ph i. C n b c hai c a ph Vì ph trong các c tr ng phân tán.

i

1 n

i

1

k

2

2

s

(

x

x

)

n

Ph ng sai m u s2 là i l ng c xác nh :

i

i

1 n

i

1

n

n

2

2

2

2

s

s

(

x

x

)

s

s

(

x

x

)

n

N u các xi có t n s ni ( ni = n ) thì :

i

i

i

1 n

1 n

i

1

i

1

n

n

n

n

1

2

2

x

x

n

(

x

2 ) nx

s

s

'

*

(

)

l ch chu n ho c

i

i

i

i

n

1

n

1

1 n

n

1

i

1

i

1

l ch chu n hi u ch nh

M t s c tr ng quan tr ng c a l ch chu n:

- S thay i c a b t k giá tr quan sát nào thì làm s làm thay i giá tr c a l ch chu n.

- C ng nh giá tr trung bình, l ch chu n có th m t tính i di n n u dãy phân ph i quá l ch.

- Không th tính c l ch chu n i v i các dãy phân ph i m .

H s bi n thiên: (Coefficient of variation)

n v o l ng khác c g i là “h s bi n thiên”, công th c ng i N u c n ph i so sánh s phân tán c a nhi u h n m t dãy phân ph i có các c tr ng phân tán t nhau, ta có th dùng m t là :

Cv = .(100)/ hay Cv = s.(100)/X

Trong ó : Cv : H s bi n thiên

: l ch chu n c a t ng th .

X : Giá tr trung bình c a m u

110

s : l ch chu n c a m u.

C L NG THAM S

i l

ng giá tr c a thông qua k t qu th c nghi m. thu n ti n trên ph ng ng u nhiên X tuân theo qui lu t Nh chúng ta ã bi t trong th ng kê toán, gi s m t c nào ó c a nó, vì v y c n phân ph i nào ó ã bi t d ng, nh ng ch a bi t m t tham s ng di n ng d ng, l ph n này s không nh c l i nh ng ki n th c n n t ng c a th ng kê toán mà ch trình bày nh ng ng d ng c a th ng kê toán i v i c l ng m t s tham s ch y u.

c l ng tham s trung bình trong lu t phân ph i chu n N( , 2)

Tr ng h p ã bi t

X(

)

n

U

U

là m c ý ngh a c a quá trình tin c y c a quá trình ng, khi ó, c l ng là =1- G i c l , gi s hàm phân ph i c a m u tuân theo quy lu t phân ph i chu n N( , 2), ta có:

1

1

2

v i = 1+ 2 (1)

2 th a mãn

1+ 2= , do ó có vô s kho ng tin c y

x

U

x

U

L u ý r ng, trong th c t có vô s c p 1, ng v i cùng m t tin c y (1- ) cho tr c. Khi ó, (1) có th bi n i thành

2-1

1

n

n

(2)

Ba tr ng h p có th x y ra là:

(2)

x

1U

n

- Tr ng h p 1: 1 = 0, 2 = (kho ng tin c y “phía trái” (giá tr min c a ))

2 = 0 (kho ng tin c y “phía ph i” (giá tr max c a ))

(2)

x

(2)

0

x

- Tr , ng h p 2: 1 =

1U

1U

n

n

ho c

(2)

x

U

x

U

1

1

n

n

2

2

- Tr i x ng c a ) ng h p 3: 1 = 2= /2 (kho ng tin c y

Tr ng h p ch a bi t

N u kích th c m u nh (n<30):

X(

)

n

t

t

ng h p kích th c m u nh (n<30), hàm phân ph i mà chúng ta c n dùng là hàm phân Trong tr ph i T-student, khi ó kho ng tin c y tham s trung bình s là:

1-n 1

1-n 1

2

v i = 1+ 2 (2)

Ba tr ng h p có th x y ra là:

111

- Tr ng h p 1: 1 = 0, 2 = (kho ng tin c y “phía trái” (giá tr min c a ))

(2)

x

nt

n

(2)

x

nt

n

- Tr , 2 = 0 (kho ng tin c y “phía ph i” (giá tr max c a )) ng h p 2: 1 =

n

1

n

1

(2)

x

t

x

t

n

n

2

2

- Tr i x ng c a ) ng h p 3: 1 = 2= /2 (kho ng tin c y

N u kích th c m u l n (n 30):

ng sai i u ch nh m u ng h p kích th c l ng h p c m u l n (n 30), c n ph i tính tham s ph ng c ng gi ng nh tr ng h p ã bi t và chúng ta thay th giá tr Trong tr (s’), các tr b ng giá tr s’

d dàng cho vi c theo dõi, có th tóm g n các ph ng pháp c l ng i x ng tham s trung bình nh sau:

C L NG KHO NG TIN C Y C A GIÁ TR TRUNG BÌNH

ã bi t ph ng sai t ng th ( 2) Ch a bi t ph ng sai t ng th ( 2)

Phân ph i chu n do

s '

s '

n

1

n

1

t

x

t

x

K h i n < 3 0

n

n

Phân ph i Student v i (n-1) là b c t s’: l ch chu n hi u ch nh m u l ch chu n c a t ng th

2

2

: : Trung bình t ng th =1- : M c ý ngh a

x

U

x

U

1

1

K h i n

n

n

2

2

U

x

U

x

3 0

1

1

s ' n

s ' n

2

2

Phân ph i chu n s’: l ch chu n hi u ch nh m u

Tính kích th c m u trong tr ng h p c l ng tham s trung bình

dài kho ng tin c y, khi ó I = giá tr gi i h n trên – giá tr gi i h n d tin c y thì kho ng tin c y i. Chúng ta ã i

G i I là bi t t thông kê toán r ng, trong m i kho ng tin c y v i cùng dài ng n nh t (khi 1 = 2= /2 thì I có giá tr Imin). x ng có

dài kho ng tin c y I c tính b i:

1

1

1

2

2

2

2 X U U I X U n n n

2

2 U (

c Khi ó, n u cho tr c m u n c n ph i xác nh dài kho ng tin c y b t k I0, thì kích th m b o v i tin c y ã cho là:

)

n

1

4 I

2 0

2

112

i l = 2 phút. c l ng ng u nhiên tuân theo qui lu t phân ng th i gian gia công trung bình cho lo i Ví d : Th i gian gia công m t chi ti t máy là m t l ch chu n là ph i chu n v i i ta ã ti n hành s n xu t th 25 s n ph m và thu s n ph m ó, ng c b ng s li u sau:

Th i gian (phút) S chi ti t

2 20-22

6 22-24

10 24-26

4 26-28

3 28-30

c l i Hãy x ng v i ng th i gian gia công trung bình cho các lo i chi ti t ó b ng kho ng tin c y tin c y 95%.

(

n

)1

(

n

)1

x

x

T

T

là th i gian gia công m t chi ti t, theo gi thi t i l ng ng u nhiên tuân theo c l là ng tham s trung bình, tr ng h p bi t v i là th i gian gia công trung bình ch a bi t c n c l tin c y 95%, công th c Gi i: g i quy lu t phân ph i chu n. ây là bài toán = 2, cho phép tìm kho ng tin c y i x ng c a trong tr ng. V i ng h p này là:

2

2

n

n

5

. Trong ó giá tr trung bình c a bi n x là:

i

1

1)-(n

2*21 6*23 4*27 3*29 x ( 25 phút ) xn i 10*25 25 1 n i

24 0,975

2

95,01 05,0 1 ,975,0 T ó khi T 06,2 2

2 Khi ó (1) 25( )06,2* 25( 824,0 ) 25

Hay th i gian gia công trung bình c l ng (24,176; 25,824)

ng kho ng tin c y tham s t l p trong lu t phân ph i A(p): c l

c l ng kho ng tin c y t l

c l ng h p c l ng là i v i ng phía trái, ph i và ng kho ng tin c y tham s t l , chúng ta c ng có 3 tr i x ng. Chúng tôi s tóm t t ph n c l ng c i x ng kho ng tin c y l t l b ng sau:

C L NG KHO NG TIN C Y T L (P)

n

n

n

n

n

n

1

1

2

2

f 1( f ) f 1( f ) f U fP U n n

V i: n: S quan sát c a m u

113

(1- ): M c ý ngh a ( = 1- =1- tin c y)

fn: T l ph n có tính ch t lo i A trong m u (t l m u)

P: T l ph n có tính ch t lo i A trong t ng th

ng th ph n c a s n ph m n i i v i m t hàng bánh k o. K t qu a (do các i u tra ng u nhiên 100 khách Ví d : M t nghiên c u công ty s n xu t trong n hàng cho th y có 34 ng c th c hi n nh m c l c) i dùng s n ph m n i a (v i tin c y 95%).

Gi i:

- G i m là s l ng khách hàng dùng s n ph m n i a có trong m u

- n là l n c a m u nghiên c u

- i dùng s n ph m bánh k o n i a có trong m u. fn là t l s ng

34,0

fn

m n

34 100

Khi ó:

ây là bài toán c l ng i x ng tham s t l nên ta có:

n

n

n

n

n

n

1

1

2

2

f f ) f f ) f U fP U (1) 1( n 1( n

34,0

96,1

P

34,0

96,1

)34,01(34,0 100

)34,01(34,0 100

V i tin c y = 95%, khi ó m c ý ngh a =1-95%=0,05. Th s vào (1) ta c:

Suy ra 0,2471

Tính kích th c m u

c l ng tham s trung bình, ta có ph ng T ng t nh tr pháp tính kích th ng h p tính kích th c m u trong tr c m u trong c l ng h p ng tham s t l nh sau:

n

n

n

n

n

n

n

n

1

1

1

2

2

2

f 1( f ) f 1( f ) f 1( f ) I f U f U U 2 n n n

Khi ó kích th c m u n c n ph i ch n n u bi t tr c I0là:

2

n

n

2

1

2

0

f 1( f ) n 4 )1( U I

2

gi m thi u nh ng sai sót trong quá trình i u tra, òi h i ng ng h p này, v i nh, i th c hi n d án nghiên c u dài kho ng tin c y I n l n nh t thì fn(1- fn) l n nh t, giá tr này l n nh t khi và chi khi fn=1-fn=0,5. ph i ch n m u có kích th c l n nh t cho phép, trong tr và c Khi ó:

1

2

U

2 2

1

2

0

0

)1( n 4 U 5,0*5,0 2 I I

c l ng kho ng tin c y ph ng sai

114

Trong m t s tr ng h p, chúng ta c n ph i

2'

2'

C L NG KHO NG TIN C Y PH NG SAI ( 2)

2

2

(

n

),1

(

n

1),1

2

2

nn ( )1 s )1 s nn ( 2

V i: Dùng b ng phân ph i khi bình ph ng

n: S quan sát c a m u

(1- ): M c ý ngh a(=1- tin c y)

s’ : Ph ng sai i u ch nh m u

(n-1): B c t do

Ví d : M t nhà s n xu t quan tâm n bi n thiên c a t l t p ch t trong m t lo i h c cung c p trong quá trình s n xu t. Ch n ng u nhiên 15 m u h ng li u cho th y ng li u l ch chu n i u ch nh v t p ch t c a m u là 2,36%.

Gi i:

2'

2'

ng sai i u ch nh m u, theo công th c c l ng ph ng sai G i n là kích th c m u, s’ là ph t ng th ta có:

2

2

2

(

n

),1

(

n

1),1

2

2

( n )1 s ( n )1 s

2

2

Th s vào công th c trên ta có:

2

2

2

14(

),1

14(

1),1

05,0 2

05,0 2

2

2

15(

)36,2)(1

15(

)36,2)(1

2

(1)

15( )36,2)(1 15( )36,2)(1

2

2

14(

1),1

14(

),1

05,0 2

05,0 2

26,12

2 ,14

0,025

Hay:

05,63

2 ,14

0,975

V i:

c l ng c kho ng tin c y ph ng sai s là 2,9852< 2<13,85 hay kho ng tin c y Khi ó s c a l ch chu n là 1,7277< <3,7215.

c l ng kho ng tin c y cho s khác bi t gi a trung bình hai t ng th

ng quan tâm

ng trung bình c a ng i nam và ng n s khác bi t gi a trung bình hai t ng ng pháp tr ng bày hàng i n hay s khác bi t gi a Trong th c t nghiên c u, chúng ta th th . Ch ng h n, khác bi t doanh s trung bình trong tu n gi a hai ph hóa, s khác bi t gi a ti n l n ng su t cây tr ng do s d ng hai lo i phân bón khác nhau

115

c n ph i chú ý là ph ng pháp so sánh trung bình hai t ng th d a vào ph ng pháp M t v n l y m u: m u ph i h p t ng c p (m u ph thu c) và m u c l p.

M u ph i h p t ng c p: các n v m u c ch n t t ng c p

Thông th ng, i v i m u ph i h p t ng c p, có th so sánh gi a:

- Tr c và sau khi th c hi n m t chi n d ch marketing hay doanh s tr c và sau khi th c hi n qu ng cáo.

- So sánh n v v m t c i m nào ó v ti n l ng công nhân nam và n (gi s gi ng nhau v n ng l c và kinh nghi m)

- Doanh s n c gi i khát lo i A n c a hàng và n c lo i B c ng c a n c a hàng ó

- Doanh s c a nhà hàng A tu n l th 10 và doanh s nhà hàng B c ng tu n l th 10

ng th c c l ng kho ng tin c y khác bi t gi a trung bình hai t ng th Khi ó, chúng ta có ph (m u ph i h p t ng c p) nh sau:

C L NG KHO NG TIN C Y CHO KHÁC BI T GI A TRUNG BÌNH HAI T NG TH (M u ph i h p t ng c p)

s

s

n

1

n

1

D

t

(

)

D

t

x

y

Dùng b ng phân ph i Student

d n

d n

2

2

: S trung bình c a n s (xi-yi)

Sd : Ph ng sai i u ch nh n s (xi-yi)

Ví d : Công ty i n l c th c hi n các bi n pháp khuy n khích ti t ki m i n. L ng i n tiêu th ghi nh n 12 h gia ình tr c và sau khi các bi n pháp khuy n khích ti t ki m.

x,

y: l n l

V i t là l ng i n tiêu th tr c và sau khi khuy n khích ti t ki m,

n

D là sai l ch trung bình l ng i n tiêu th tr c và sau khi khuy n khích ti t ki m

i

1

Khi ó: D di n

L ng i n tiêu th

H th (di-D)2 di=(xi-yi) Tr c khi khuy n khích ti t ki m (xi) Sau khi khuy n khích ti t ki m (yi)

69 4 0,34027 1 73

54 -4 55,00694 2 50

82 1 5,84027 3 83

67 11 57,50694 4 78

60 -4 55,00694 5 56

73 1 5,84027 6 74

75 -1 19,50694 7 74

78 9 31,17361 8 87

64 5 2,50694 9 69

116

72 0 11,67361 10 72

11 77 70 7 12,84028

12 75 63 12 73,67361

T ng 41 330,91670

Trung bình D=3,4167 Sd=5,4848

Nh v y D=3,4167, Sd=5,4848, t(11;0,025)=2,201

,5

,5

,3

4167

,2

201

(

,3)

4167

,2

201

x

y

4848 12

4848 12

Thay vào công th c ta có:

Suy ra -0,0682<( x- y)<6,9016

c l p: các giá tr quan sát c a m u c ch n ng u nhiên c l p t hai t ng th , M u không ph thu c vào nhau.

y và ph

2

x và 2 y. c l

c ch n ng u nhiên c m u c l p t hai t ng th phân ph i chu n X ng sai c) có giá tr trung bình t ng th là x, G i nx, ny là các kích th và Y (nx, ny có th khác nhau v kích th t ng th

ng kho ng tin c y cho s khác bi t gi a trung bình hai t ng th (d a trên các m u Khi ó, c l p)

2 y

C L NG KHO NG TIN C Y CHO KHÁC BI T GI A TRUNG BÌNH HAI T NG TH (Các m u c l p)

yx ) (

(

)

yx ( )

x

y

U 1

U 1

2 x n x

2 y n y

2 x n x

n y

2

2

Dùng b ng phân ph i chu n

c m u c ch n ng u nhiên c l p nx, ny là các kích th

x và 2 2

y là ph

ng sai c a hai t ng th t ng th X và Y

2 y ch a bi t chúng ta có th dùng ph

x và thay th b t lu n tr

y

ng h p 2 ng sai i u ch nh m u ng h p m u l n ho c nh . Trong tr x và s’2 s’2

c s n xu t v i th i gian trung bình 46,5 phút/s n ph m,

l ch chu n là 9,5 phút. Hãy c l Ví d : M t công ty ang xem xét k ho ch ti t gi m chi phí s n xu t thông qua vi c xây d ng m t dây chuy n s n xu t dây chuy n s n xu t m i nh m rút ng n th i gian s n xu t s n ph m. m i, s n ph m l ch chu n là 8 c s n xu t v i th i gian trung bình 51,2 phút/s n phút. V i dây chuy n c , 38 s n ph m ph m, ng kho ng tin c y 95% cho khác bi t th i gian s n xu t gi a dây chuy n s n xu t m i và c .

2 y

2 y

2 x

2 x

Gi i: Kho ng tin c y 95% cho khác bi t v th i gian s n xu t gi a dây chuy n m i và c là:

x

y

1

1

x

y

x

y

2

2

( x y ) ( ) ( x y ) U U n n n n

117

x 5,46 y 2,51

x=8 phút,

y=9,5 phút,

2

2

2

2

5,46(

)2,51

96,1

(

)

5,46(

)2,51

96,1

x

y

8 40

5,9 38

8 40

5,9 38

V i nx=40 sp, ny=38 sp, U1- /2=1,96

Hay: -8,6077 (phút) <( x- y)<-0,7923 (phút)

tin c y 95% ta c tính dây chuy n s n xu t m i rút ng n th i gian trung bình s n V y v i xu t m t s n ph m t 0,7923 n 8,6077 phút

c l ng kho ng tin c y cho khác bi t gi a t l hai t ng th

c ch n ng u nhiên c l p t hai t ng th X và Y. o l ng c fnx Gi s có hai m u nx, ny và fny là l n l t là t l ph n t có tính ch t lo i A và B có trong hai m u nx và ny. Khi ó:

C L NG KHO NG TIN C Y CHO KHÁC BI T GI A T L HAI T NG TH

n

n

n

n

y

y

y

y

n x

n x

n x

n x

n

n

n x

y

n x

y

x

y

x

y

2

2

f 1( f f 1( f f 1( f ) f 1( f ) ( f f ) ( f f ) PP x y ) U 1 ) U 1 n n n n

Dùng b ng phân ph i chu n

c m u. nx, ny là các kích th

có tính ch t lo i A, B trong t ng th Px, Py là t l ph n t

có tính ch t lo i A, B trong m u. fnx và fny là t l ph n t

i u tra t m u ng u nhiên 1000 ng i m i thành ph cho th y n m 1996 t l thành ph H là 7,2%. Hãy c l ng kho ng tin c y 99% Ví d : K t qu th t nghi p thành ph D là 7,5%, cho khác bi t t l th t nghi p gi a hai thành ph .

Gi i: Ta có

nx= ny =1000

fnx =0,075, fny =0,072

,0

075

075

)

,0

072

072

)

,0(

075

,0

072

)

575,2

(

)

P x

P y

,01( 1000

,01( 1000

,0

075

075

)

,0

072

072

)

(

)

,0(

075

,0

072

)

575,2

P x

P y

,01( 1000

,01( 1000

U0,995=2,575

tin c y 99%, có th nói r ng t l th t nghi p thành ph D

trong kho ng t

th p h n

V i 2,7% n cao h n 3,3% so v i thành ph H.

118

Suy ra -0,027

NG D NG TIN H C VÀO PHÂN TÍCH D LI U TRONG NGHIÊN C U MARKETING

phân tích d li u trong nghiên c u marketing là h t s c ph

c s d ng c i m nh t phân tích d li u trong nghiên nghi n marketing, nh. Do v y, c n xác nh ph n m m nào c s Ngày nay, vi c ng d ng tin h c bi n. Có m t s ph n m m m i lo i u có nh ng u nh d ng trong quá trình phân tích t c hi u qu cao nh t.

Trong khuôn kh h c ph n này, chúng tôi s gi i thi u ph n m m SPSS FOR WINDOWS phân tích d li u. u i m c a phân m m này là tính (Statistical Package for Social Sciences) a n ng và m m d o trong vi c l p các b ng phân tích, s d ng các mô hình phân tích ng th i lo i b m t s công o n (b c) không c n thi t mà m t s phân m m khác g p ph i. t c k t qu nh mong mu n, c n ph i:

- N m v ng m c tiêu nghiên c u d án - N m v ng và tuân th nh ng cam k t c a d án v th i gian, chi phí, ngu n nhân l c... Trên c s xác nh b ng câu h i và mô hình phân tích (k ho ch phân tích d li u), quá trình nh p li u và phân tích có th thông qua m t s công o n nh sau:

NH P LI U:

Giao di n nh p li u

Kích ho t SPSS, chúng ta th y giao di n c a SPSS nh sau:

119

ho c:

Trong ó:

+ Variable Name: tên bi n (dài 8 kí t và không có kí t c bi t)

+ Type: ki u c a b mã hóa

+ Labels: nhãn c a bi n, trong ph n này chúng ta có th nh p nhi u giá tr c a nhãn phù h p v i thi t k c a b ng câu h i. Sau khi nh p xong m i tr c a mã hoá, nh n Add l u l i các giá tr trên.

+ Value: Giá tr c a t ng giá tr mã hóa (value) t ng ng v i nhãn giá tr (value label) c a nó.

+ Missing: ký hi u câu tr l i úng ra ph i tr l i nh ng b b qua (l i), chú ý là giá tr này ph i có nét d dàng phân bi t trong quá trình tính toán. c thù riêng bi t so v i giá tr khác

+ Column: thi t t l n c a c t mang tên bi n và v trí nh p li u c a bi n này.

ng. Trên c s 4 c p thang o l

+Measure: thang o l ng (bi u danh, th t , kho ng cách và t l ), SPSS s phân ra thành 3 thang o (bi u danh (nominal), th t (ordinal) và scale (kho ng cách và t l ).

M t s chú ý khi nh p li u

Nh p giá tr khuy t

c i c ph ng v n ph i tr l i câu c ph ng v n b qua m t ho c vài câu h i Trong quá trình ph ng v n, có nh ng câu h i mà úng ra h i ó, tuy nhiên, do m t s nguyên nhân, ng (ho c câu tr l i) g i là giá tr khuy t.

m b o thông tin trong quá trình phân tích, chúng ta c n ph i nh ngh a nh ng giá tr này nh sau: Nh n Missing - H p h i tho i Missing Values xu t hi n.

- Nh n Discrecte missing values, t các tr missing values vào các ô tr ng, tr c nh p t i i di n cho nh ng giá tr khuy t. các ô tr ng s - Chúng ta có th nh ngh a các giá tr khuy t theo m t kho ng giá tr nào ó b ng các nh n và

nh p li u vào Range plus one optional discrete missing value. - T t c các giá tr khuy t s không tham gia vào quá trình phân tích.

120

Chèn m t bi n m i ho c b ng ghi m i - Nh n Data/Insert Variable - Nh n Data/Insert Case - Tìm n b ng ghi c n thi t: Go to Case

S p x p theo bi n t i Sort by v i chi u t ng (Ascending) ho c gi m (Descending) S p x p b ng ghi - Nh n Sort Case -

Bi n m t bi n thành m t b ng ghi - Nh n Data/Transpose - Variable(s) là nh ng bi n c n thay i

Ki m tra giá tr nh p - Nhãn toàn b giá tr : Nh n View/ Value Labels - Ki m tra m t bi n nào ó: Utilities/Variables - Ki m tra b mã hoá Utilities/File Info, v i b mã hoá này, ta có th ki m tra l i m t l n n a công vi c nh ngh a các bi n ho c c ng có th làm danh b cho vi c nh p s li u sau này.

T o bi n m i không ho c có ràng bu c m t i u ki n

có th rút ng n th i gian nh p li u ho c ph c v m c ích phân Trong quá trình nh p li u, tích, chúng ta còn có th t o ra bi n m i t các d ki n và c u trúc c a bi n ã nh p.

i u ki n: Gi s theo s li u th ng kê nh trên, c khi ngh h u là bao nhiêu n m n a (gi s m i lao bi t ng c s n m c ngh h u

- T o bi n m i không công tác còn l i tr sau 25 n m công tác). Nh v y ta thành l p m t bi n m i nghihuu s b ng 25-nam + Nh n Transform/Compute

nh ngh a + Trong ô Target Variable nh p bi n m i (nghihuu), trong ó chúng ta c n ph i ti n cho vi c qu n lí và so sánh các giá tr sau này. Type&Label

+ Trong ô Numeric Expression nh p giá tr c n gán cho bi n m i t bi n ích cho tr c.

Chú ý: Khi g p các bi n thu c ki u chu i, ngày tháng... chúng ta c n ph i tìm m t hàm t ng quy các giá tr này v giá tr t ng ng mà chúng ta có th so sánh ng c (s d ng hàm Function)

121

- T o bi n m i có i u ki n: C ng nh ví d trên nh ng chúng ta c n phân chia ra thành t các giá tr nh trên xong. nam và n thì sau khi thi t

- Nh n If ti p theo nh n Include if case satisfies condition trong h p h i tho i thi t i có gi i tính là nam thì i u ki n thi t t t là i u ki n (áp d ng cho nh ng ng gioitinh=1 nh trong h p h i tho i:

Mã hoá l i bi n:

ng h p, do nhu c u c a quá trình phân tích, chúng ta c n ph i mã hóa l i các Trong m t s tr bi n. Có hai hình th c mã hoá nh sau:

- Mã hoá dùng l i tên bi n c :

+ Nh n Transform/Recode/Into Same Variables

+ a bi n c n mã hoá l i vào ô Numeric Variable

+ Nh n If thi t t các i u ki n (n u có)

+ Nh n Old and New Values thay i b mã hoá

* Trong ô Old Value là giá tr c , và New Value là giá tr m i c n nh p

* N u nh p giá tr m i thang i m bi u danh, kho ng cách, t l thì nh p t i ô Value.

122

* N u mã hoá giá tr v i thang i m kho ng cách - Nh n Range

ph c v cho vi c phân tích, ta mã hoá l i tu i c a sinh viên theo thang i m Ví d : kho ng cách nh sau:

1 : D i 7 n m 2 : T 7 n 14 n m 3 : Trên 14 n m

* Giá tr trên 14 n m b m Range/throught Highest và nh p li u

* Giá tr d i 7 n m b m Range/Lowest throught và nh p li u

i, n u gi nguyên c n chú ý là giá tr ng h p mã chúng ta mã hoá không kh i nh h ng n các giá * Có th gi nguyên giá tr khuy t hay c n thay ó có r i vào các tr tr phân tích.

- Mã hoá dùng l i không dùng tên bi n c (l u trên bi n m i):

+ Nh n Transform/Recode/Into Different Variables

+Tên bi n m i c t ô Name v i các thông s tho mãn m t bi n bình th ng.

123

+ Nhãn c a bi n c thi t t t i ô Label, sau ó nh n Change l u.

+ Các thông s khác c th c hi n nh mã hoá dùng l i bi n c .

PHÂN TÍCH MÔ T (TH NG KÊ MÔ T ):

Nh n vào

l a ch n các thông s

o ng (mode, median, trung bình…)

l

Nh n vào

th các t ng su t

v c a bi n sô

o l

ng

ng h i t : tham s

c th hi n v i t t c các bi n nh tính (r i r c) v i các thang o B ng phân b t n su t B ng phân ph i t ng su t bi u danh, th t và các bi n nh l ng (liên t c) v i thang o kho ng cách ho c t l .

Central tendancy: khuynh h trung bình (mean), median, mode, t ng (sum)

o

l

ng

l ch chu n (std.

Dispersion: phân tán: deviation), ph

ng sai

(skeness

chu n

Distribution: Ki m nh phân ph i và kurtosis)

124

T n su t xu t hi n

T l ph n tr m

Loai hinh doanh nghiep

Frequency

Percent

Valid Percent

Cumulative Percent

Valid

Dich vu thuong mai

88

44.0

44.0

44.0

72.0 100.0

Xay dung Cong nghiep Total

56 56 200

28.0 28.0 100.0

28.0 28.0 100.0

So lao dong

Frequency

Percent

Valid Percent

Cumulative Percent

Valid

25 61 63 45

12.5 30.5 31.5 22.5

12.5 30.5 31.5 22.5

12.5 43.0 74.5 97.0

100.0

Tu 1 den 5 Tu 6 den 20 Tu 21 den 200 Tu 200 den 300 Tren 300 Total

6 200

3.0 100.0

3.0 100.0

Loai hinh doanh nghiep

Cong nghiep

28.0%

Dich vu thuong mai

44.0%

Xay dung

28.0%

125

L p b ng so sánh

Loai hinh doanh nghiep

Xay dung

Cong nghiep

Dich vu thuong mai Count Row %

Count

Row %

Count

Row %

So lao dong

Tu 1 den 5 Tu 6 den 20 Tu 21 den 200 Tu 200 den 300 Tren 300

Group Total

7 26 26 27 2 88

28.0% 42.6% 41.3% 60.0% 33.3% 44.0%

6 21 19 7 3 56

24.0% 34.4% 30.2% 15.6% 50.0% 28.0%

12 14 18 11 1 56

48.0% 23.0% 28.6% 24.4% 16.7% 28.0%

B ng so sánh 2 nhân t :

Phân tích m t bi n nh l ng

126

c l ng tham s trung bình (m t nhóm)

Giá tr trung bình

l ch chu n

One-Sample Statistics

N

Mean

Std. Deviation

Std. Error Mean

Thu nhap nam (trieu)

200

33224.00

12932.72

914.48

Gi c a

i h n trên ng

c l

Gi c a

i h n d c l

i ng

One-Sample Test

Test Value = 0

95% Confidence Interval of the Difference

t

df

Thu nhap nam (trieu)

Mean Difference 33224.00

Lower 31420.68

Upper 35027.32

36.331

199

Sig. (2-tailed) .000

c l ng s khác bi t gi a hai tham s trung bình ( c l p ho c ph thu c)

Ph n này s c trình bày ch ng sau cùng v i ph n ki m nh gi thi t.

TÓM T T

ng v còn

m b o chúng có giá tr

x lý các d li u x u ó là quay tr l i ng làm sáng t v n i tr l i d li u chuy n thành thông tin theo m c tiêu nghiên c u, c n ph i x lý và phân tích d li u. d ng “thô” nên c n thi t ph i th c hi n khâu Tuy nhiên, vì d thu th p t hi n tr chu n b d li u. Chu n b d li u là làm cho d li u có giá tr , hi u ch nh d li u, c u trúc và mã hoá d li u. Làm cho d li u có giá tr là ki m tra các d li u i v i vi c x lý và phân tích. Hi u ch nh d li u là s a ch a các sai sót v ghi chép ho c ngôn t phát c qua ki m tra. Mã hóa d li u là nh n di n và phân lo i m i câu tr l i trên m t ký hi u hi n (b ng s ho c b ng ch ). Có 3 cách c b n i ph ng v n ho c ng ; suy lu n t các câu tr l i khác ho c lo i toàn b câu tr l i.

ng d li u thu th p th

nh (ký hi u có th b ng s ho c b ng ch ). Công vi c mã hóa có th c) ho c sau khi d li u c x lý b ng máy i n toán nên chúng ta ph i mã hoá d li u. Mã hóa d li u là quá trình liên quan t i vi c nh n di n và phân lo i m i câu tr l i trên m t ký hi u c th c hi n t khi thi t c thu th p v (mã hoá sau). Mã hoá sau ng theo tình hu ng t do nên nhi u khi i v i các câu h i m vì câu tr l i th ng dùng c. Khi thi t l p ki u mã hóa c n ph i chú ý các nguyên t c: m b o s oán tr c c x p trong k b n câu h i (mã hoá tr th không d ki u mã hóa thích h p, ranh gi i gi a các “lo i mã hóa” rõ ràng, thông tin tr l i cùng m t lo i mã hóa ph i t c tr ng nghiên c u, óng kín các kho ng l p... ng t nhau v

c chu n b t t s ti n hành phân tích và di n gi i

127

tìm hi u và rút ra ý D li u sau khi ã xu t các gi i pháp rõ ràng và khoa h c ngh a c a các d li u, cung c p thông tin làm c n c h n. Phân tích và di n gi i d li u là hai công vi c g n k t v i nhau. Phân tích d li u úng là

c s di n gi i úng. Tuy nhiên n u phân tích úng nh ng k t qu c gi i t i u ki n thích sai l ch thì c ng không có c thông tin úng.

c b n u tiên liên quan n các k thu t l p b ng c l ng khuynh h ng h i t và phân tán, n gi n tính s l n xu t hi n n gi n hay l p ng các thông s thích c tính gi ng nhau c a cùng m t bi n. S phân b này c ng m c o l phân tích c th h n a thêm nhân t nh h

ng giá tr tham s t ng th t giá tr m u c l ng giá tr trung bình, t l , ph c l

ng d ng nh ng ph n m m r t hi u qu n gi n h n b i chúng ta có th Phân tích d li u m c b ng so sánh toàn di n, o l h p. B ng ánh giá là có tuân theo qui lu t phân ph i chu n hay không b ng các h s có th nh n c a phân ph i. B ng i x ng và Skewness và Kurtosis là các h s c ng i ta n gi n là ng chéo khác b ng ng không kh o sát toàn b t ng th mà s d ng m u nên trong tính c a d li u. Vì chúng ta th có thông tin cho ra nhi u tình hu ng ph i quy t ng sai, s khác bi t hai giá tr trung bình nh nh c a hai t ng th , s khác bi t t l gi a hai t ng th . Hi n nay, vi c phân tích d li u ngày càng tr nên nhanh chóng và trong công vi c này.

CÂU H I

1. Nh ng sai sót nào th ng g p c n ph i hi u ch nh d li u?

2. Các cách ti p c n hi u ch nh d li u, trong m i cách, cho ví d minh h a?

3. Mã hóa d li u là gì ? Các nguyên t c mã hóa d li u?

4. S khác nhau gi a mã hoá tr c và mã hoá sau ?

5. Ng i ta th c hi n mã hoá các câu h i m nh th nào ?

6. Sau ây là m t s câu h i trích ra t m t b n câu h i. Hãy mã hoá cho các câu h i t ra :

A. Bao lâu thì Anh/ch mua vitamin m t l n ?

a. Nhi u h n m t l n m t tu n

b. M t tu n m t l n

c. Hai tu n m t l n

d. Ba tu n m t l n

e. 1 thánh m t l n

f. Hai tháng m t l n

g. Ba tháng m t l n

h. Ít th ng xuyên h n.

B. Th ng thì anh/ ch mua vitamin âu?

a. Nhà thu c (không n m trong b nh vi n)

b. T b nh vi n/nhà thu c n m trong b nh vi n

c. Phòng khám t c a bác s

d. Khác (ghi rõ)---------------------------------------------------------

128

i ta th ng quan tâm khi mua vitamin. quan tr ng c a nó i v i t ng i v i anh/ch trong vi c ch n mua C. Sau ây là m t s y u t mà ng y u t , anh/chi cho bi t m c m t nhãn hi u vitamin:

R t quan tr ng R t không quan tr ng

ng s c kháng, phòng b nh t t

Giúp t ng c Giúp v t qua nh ng m t nh c v th ch t Ng n ng a, ch ng stress, gi m c ng th ng, lo l ng

c bác s khuyên dùng c b n bè, ng i than khuyên dùng

Giúp ph c h ii nhanh chóng sau khi b b nh Kích thích tiêu hoá, giúp n ngon mi ng Qu ng cáo h p d n i bán thu c khuyên dung c s / ng

c các d Có giá ph i ch ng Có tác d ng nhanh chóng 1 1 1 1 1 1 1 1 1 1 1 5 5 5 5 5 5 5 5 5 5 5 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4

7. Hãy dùng SPSS nh ngh a các bi n mà b n v a mã hóa.

8. S khác nhau chính gi a b ng phân ph i t n su t và b ng chéo ?

i u tra 100 sinh viên tr ng i h c kinh t và qu n tr kinh doanh có c s li u v chi u 9. cao c a h nh sau:

Chi u cao (mét) 1,51-1,55 1,55-1,60 1,60-1,65 1,65-1,70 1,70-1,75 S sinh viên 10 28 35 15 12

c l ng kho ng tin c y i x ng c a chi u cao trung bình c a sinh viên v i tin c y là Hãy 95%. Cho bi t U0,95=1,645, U0,975=1,96.

nh m c th i gian gia công m t chi ti t là m t i l ng ng u nhiên tuân theo qui lu t phân i ta ti n i, ng 10. ph i chu n có th i gian quy nh là 20 phút. Do i u ki n t ch c s n xu t thay hành ki m tra 25 chi ti t và thu c d li u sau:

Th i gian (phút) 14-16 16-18 18-20 20-22 22-24 S chi ti t 2 7 10 4 2

) =1,711,

c l ng th i gian gia công trung bình c a chi ti t ó? Cho bi t

,0T

= 0,95, hãy =2,064. V i 24( 05,0T tin c y 1- )24( 025

ch i tr em ti n hành ph ng v n 11. ng u nhiên 50 ng nh giá cho s n ph m c a mình, m t hãng s n xu t c nh sau: i tiêu dùng và k t qu thu

129

M c giá (ngàn ng) Ng i ch p nh n 32-34 5 34-36 10 36-38 25 38-40 8 40-42 2

V i tin c y 1- = 0,95. Hãy c l ng t l khách mua hàng c a hãng n u hãng nh giá:

a. 35 ngàn ng

b. 37 ngàn ng.

ki m tra ch t l ng s n ph m, c c tiêu chu n o l ng ch t l

tin c y 1- ng s n ph m ti n hành 12. ki m tra 200 h p s a m t kho hàng c a m t công ty s a th y có 50 h p s a b bi n ch t. Hãy tìm kho ng tin c y c a t l h p s a b bi n ch t c a kho hàng v i = 0,95. Bi t r ng kho hàng ó có 8000 h p s a.

tìm hi u v tu i trung bình c a sinh viên h t i ch c t i m t tr ng i h c, ng i ta ã 13. ti n hành i u tra 1000 sinh viên và thu c s li u nh sau:

tu i 18- 20 21- 23 24- 26 27- 29 30- 32 33- 35 36- 38 39- 41 42- 44 45- 47 48- 50 51- 53

S ng i 36 44 72 104 172 280 122 68 42 34 16 8

Hãy c l ng kho ng tin c y i x ng c a tu i trung bình v i tin c y 95%?

ng l p ráp c a hãng Honda vi t nam là ng ng u nhiên tuân theo qui lu t phân ph i chu n, ng i ta ki m tra 360 chi ti t và o c l i c ng chi u dài trung bình c a chi ti t ó 14. Chi u dài trung bình c a m t chi ti t t i m t x l chi u dài trung bình c a chi ti t này là 20cm. Hãy v i tin c y 95%?

15. Khi i u tra ng u nhiên 100 s n ph m có trong m t kho hàng th y có 10 ph ph m. Hãy tìm kho ng tin c y c a t l ph ph m c a kho hàng v i tin c y 95%?

xác nh s chim y n có trên c l p v i các o khác), ng o A ( kh p n i trên

i ta ch n 1.000 con 16. chim y n và ánh d u t t c s chim y n ó r i th chúng l i o. Sau m t th i gian, b t ng u nhiên 900 con ki m tra th y có 45 con có ánh d u. Hãy tìm kho ng tin c y c a s l ng chim có trên o A v i tin c y 95%?

A. B. Blankenship and B. E. Breen, State of the Art Marketing Research (Chicago: NTC Business Books,

1993), 106–112.

V. Kumar, International Marketing Research (Upper Saddle River, N.J.: Prentice-Hall, 2000), 247–248. Jerry Flint, “The Cadillac-to-Chevrolet strategy,” Forbes, vol. 153, no. 12 (June 4, 1994): 94. Alan T. Shao, An Empirical Study of the Structures,Strategies, and Environments of U.S. Multinational

Advertising Agency Affiliates (Ann Arbor: UMI Dissertation Information Service, 1989), 155.

130

TÀI LI U THAM KH O