98
CH NG B Y 7
CHU N B D LI U VÀ X LÍ D LI U
N I DUNG CHÍNH
Ch ng này c p n các n i dung chính sau:
- Chu n b d li u x lý
- Các ph ng pháp ngun t c mã hoá d li u
- M t s v n liên quan n x lý di n gi i d li u
- B ng phân ph i t n su t b ng so sánh
-c l ng tham s
- ng d ng tin h co phân tích d li u nghiên c u Marketing
- Phân tích th ng mô t
99
CHU N B D LI U
Quy trình phân tích x lí b t u sau khi d li u ã c thu th p. Nh ng tr c khi x lí ph i
di n gi i các d li u ra m t d ng thích h p nh ng d li u m i c thu th p v n còn d ng
''thô'' ch a th x lí ngay c mà chúng c n c s p x p, c mã hóa theo nh ng cách th c
nh t nh d dàng cho vi c s d ng máy vi nh tr giúp x lí d li u sau này.
Làm cho d li u có g tr
Sau khi thu th p d li u ph i ki m tra các d li u b o m chúng có ý ngh a, t c là có giá tr
i v i vi c x lý và phân tích. Vi c làm cho d li u có giá tr ti n hành theo hai b c:
-Bc th nh t: Ti n hành xem t m t cách k l ng c ph ng pháp các bi n pháp ã
c s d ng thu th p d li u (t c ki m tra các công c dùng thu th p d li u)
-Bc th hai: Ti n hành nghiên c u k các b ng câu h i ã c ph ng v n nh ng ch d n
v th t c ph ng v n phát hi n ra nh ng ngun nhân d n n các sai sót.
Hi u ch nh d li u
Do nh ng ngun nhân khách quan ch quan, quá trình thu th p d li u dù c chu n b chu
áo v n còn có th t n t i nh ng sai sót, vì v y ph i hi u ch nh d li u có ý ngh a i v i quá
trình nghiên c u. Hi u ch nh d li u là s a ch a các sai sót v ghi chép ho c ngôn t phát hi n
c qua ki m tra. Trong khi hi u ch nh c n s a ch a nh ng sai sót ph bi n sau:
-Nh ng cu c ph ng v n gi t o do ng i i ph ng v n ph a ra
-Nh câu tr l i không y (là nh ng câu tr l i không rõ ý ho c tr l i n a ch ng)
-Nh ng câu tr l i thi u nh t quán.
-Nh ng câu tr l i không thích h p.
-Nh ng câu tr l i không c c.
Có 3 cách ti p c n c s d ng x lí các d li u ''x u'' t các tình hu ng ó.
Quay tr l i ng i i ph ng v n hay ng i tr l i câu h i m sáng t v n
Vi c liên h v i các cá nhân tìm u tr l i úng làm n y sinh hai v n :
-Làm t ng chi phí và s quá t n u cu c kh o sát có quy mô vì chi phí ph ng v n này ã c
tính trong d án nghiên c u. Theo kinh nghi m, ngw i nghiên c u có th không c n tìm cách
thu th p thêm d li u n u t l các câu h i nghi v n t ng i nh / ho c quy mô c a m u
tng i l n (t l các câu h i nghi v n nh h n 20% m u l n h n 500).
-Nu quy t nh i ng c tr l i thu th p d li u, nh ng d li u m i có th s khác v i d
li u ã c thu th p trong cu c ph ng v n u tiên do các cá nhân có th không nh thông tin
cn thi t, c ng nh có th do s d ng ph ng pháp khác i u này nh h ng r t l n n k t
qu c a câu tr l i (liên quan n tin c y c a cu c i u tra).
Suy lu n t nh ng câu tr l i khác
Theo cách này, ng i hi u ch nh ph ng oán t các d li u khác làm câu tr l i nào úng.
Nh ng ây là cách làm y r i ro. Khó có th minh nh c các quy lu t suy lu n các câu
tr l i. Do ó an toàn khi hi u ch nh d li u, ng i nghiên c u c n h t s c th n tr ng v i
ph ng pháp này, không nên suy lu n m t câu tr l i tr phi bi t t ng i ch c ch n v ý
nh c a ng i tr l i.
Lo i toàn b câu tr l i
100
ây là vi c d th c hi n nh t. Theo cách này, ng i hi u ch nh ch vi c lo i i nh ng câu tr l i
có nghi v n. Trong tr ng h p quy mô c a m u t ng i l n, ng i hi u ch nh có th lo i b
toàn b các câu tr l i n u thông tin thi u nh t quán ng i hi u ch nh không th gi i quy t v n
thi u nh t quán ó trong các d li u c thu th p t các i t ng ph ng v n. Tuy nhiên,
khuy t i m trong cách ti p c n này là s thiên v trong k t qu n u nh ng ng i tr l i thi u
nh t quán ó b lo i ra kh i cu c nghiên c u, khi ó k t qu t c s b l ch n u ý ki n nh ng
ng i tr l i b lo i này khác v i nh ng ng i còn c gi l i trong m u i u tra.
Mt cách gi i quy t khác là t p h p m t báo cáo riêng các lo i d li u b thi u ho c không nh t
quán, không r ng n u ng i nghiên c u th t s tin r ng các d li u ó có th có ích cho vi c ra
quy t nh c a các nhà lãnh o.
C U TRÚC VÀ MÃ HÓA D LI U
Mã hóa d li u là m t quá trình liên quan t i vi c nh n di n phân lo i m i câu tr l i trên m t
ký hi u c ch nh (ký hi u có th b ng s ho c b ng ch ). D li u này ph i c mã hóa thì
máy i n toán m i c x lý c.
C u trúc d li u
C u tc c a d li u là cách s p x p thông tin ã c tr l io v trí ô l u tr d li u c a máy
i n toán. Do ó các nhà nghiên c u ph i t ch c các d li u c mã hóa thành m t c u trúc
thích ng c a các d li u.
Mã hóa d li u
Vi c mã hóa có th c th c hi n o m t trong hai th i i m, là mã hóa tr c và mã hóa sau:
Mã hóa tr c
Mã hóa tr c là vi c quy t nh ch n các mã s cho các câu h i các ph ng án tr l i t khi
thi t k b n câu h i, do v y có th in ngay các mã s lên b ng câu h i. Hình th c mã hóa này
thích h p cho các câu h i d ng lu n lý (ch ch n m t trong haich tr l i: có, không) hay d ng
ch n m t trong các câu tr l i ghi s n. i v i các câu h i này ng i nghiên c u ã nh c
câu tr l i do ó d dàng hi u cho các câu tr l i ó. Vi c mã hóa này có c d ng làm
gi m i r t nhi u kh i l ng ng vi c trong b c chu n b d li u.
làm ta hãy xemt ví d v m t ph n trong b ng câu h i v s n ph m ti vi sau ây:
Q1. Bà/ cô có TV ho c xem ti vi không ?
Không (0) ch m d t và sang ph n k .
Có (1) h i ti p t Q2a
Q2a. / cô th ng bao lâu xem TV m t l n ?
M i ngày/ h u nh m i ngày (1)
4-5 ngày/ tu n (2)
2-3 ngày/tu n (3)
1 l n/ tu n (4)
2-3 ngày/ tháng (5)
1 l n/ tháng (6)
Không th ng xuyên (7)
Không xem (8) chuy n sang câu h i ti p theo
Q2b. L n g n ây nh t bà/ cô xem TV khi nào ?
Ny hôm qua (1)
Tr c ngày hôm qua (2)
101
Q2c. Trung bình, m t ngày bình th ng trong tu n bà/cô xem ch ng trình TV trong bao lâu?
Ít h n 1 gi (1)
T 1 n 3 gi (2)
T 3 n 5 gi (3)
T 5 n 7 gi (4)
T 7 n 9 gi (5)
Trên 9 gi (6)
Q2d. Ngày cu i tu n (th b y, ch nh t) thì bà/cô xem TV bao lâu ?
Ít h n 1 gi (1)
T 1 n 3 gi (2)
T 3 n 5 gi (3)
T 5 n 7 gi (4)
T 7 n 9 gi (5)
Trên 9 gi (6)
Mã hóa sau
Khi các câu tr l i thu c câu h i m , ng i nghiên c u ph i t n nhi ung biên t p các câu
tr l i theo tình hu ng t do, không nh s n. Khi ph ng v n, ng i ph ng v n ph i ghi ngun
vn câu tr l i, vì th chuy n các d li u nh v y sang m t hình th c mà máy i n toán có
th c c c n ph i phân các câu tr l i theo nh ng lo i gi ng nhau gán cho chúng các ký
hi u mã hóa.
Có hai cách:
-Cách th nh t: Ng i nghiên c u ti n hành mã hóa các câu tr l i tr c khi nghiên c u th c
a. Tr ng h p này, ng i nghiên c u ph i d ki n v m t lý thuy t các câu tr l i ho c s
d ng kinh nghi m c a các cu c nghiên c u tr c, ng th i m t th i gian hu n luy n nh ng
ng i i ph ng v n cách phân lo i các câu tr l i c ghi ngun v n úng lo i mã hóa ã d
ki n.
-Cách th hai: Ch n khi thu th p xong d li u m i ti n hành mã hóa. Khi ó, ng i nghiên
cu ph i xem t ng u nhiên 30% các b n câu h i ã c tr l i tính toán các lo i nh
hu ng tr l i mã hóa nó. Tr c khi mã hóa, ph i soát l i toàn b các câu h i ã ph ng
vn xemt có còn tình hu ng tr l i nào khác không. ti n l i cho vi c phân tích, không
nên phân lo i quá 10 tình hu ng tr l i cho m t v n .
c nguyên t c thi t l p ki u mã hóa
làm cho ch c n ng mã hóa c t t h n c n ph i tuân th các ngun t c sau ây trong vi c
thi t l p các ki u mã hóa.
-Ski u mã hóa thích h p: s ki u mã c n ph i l n bao quát h t c các s khác bi t
trong d li u. N u s l ng mã quá ít thì có th m t s thông tin quan tr ng s không c bao
quát.
-Nh ng thông tin tr l i c s p x p trong cùng m t lo i mã hóa thì ph i t ng t nhau v
c tr ng nghiên c u.
-Ranh gi i ng gi a các lo i mã hóa
Vi các c tr ng ang c nghiên c u, nh ng s khác bi t v thông tin tr l i gi a c lo i
mã ph i không gi ng nhau n m c x p o cùng m t lo i mã.
Ví d : Chúng ta ang nghiên c u c tr ng v tu i c c a ng i c h i, gi s c n ti n hành
mã hóa các tình hu ng tr l i nh sau:
102
-Nh h n 20 tu i
-T 21 tu i n 30 tu i.
-Trên 30 tu i
Nu m t câu tr l i là 20 tu i 4 tháng thì s không rõ ph i c x po lo i nào vì kho ng
th nh t ph i là 20 tu i th 2 ph i là t 21 tu i n 30 tu i. Khi ó ng i nghiên c u ph i
làm tròn theo nguyên t c là 20 tu i nh v y c x p vào lo i th 1.
-Ngun t c lo i tr gi a các lo i mã hóa: các lo i mã hóa ph i không c ch ng chéo lên
nhau, c n ph i thi t l p chúng nh th nào b t c tình hu ng tr l i nào c ng ch c x p
o m t lo i mã hóa thôi. ( ã c x po lo i mã này thì không x po mã khác)
-Ngun t c toàn di n: theo ngun t c này, c u trúc c a m t lo i mã ph i bao quát c t t c
các tình hu ng tr l i nh m m b o t t c các tình hu ng u c mã hóa.
-Ngun t c óng kín nh ng kho ng cách l p: theo ngun t c này, không c m
kho ng cách l p c a mã hóa, b i vi c không ch rõ nh ng gi i h n v kho ng cách l p s
làm lu m i nh ng giá tr phân n hai u mút c a dãy phân ph i do ó s không cho
phép tính toán c giá tr trung bình c a nh ng quan sát trong m i kho ng cách l p.
Ví d , xem xét vi c mã hóa câu h i v thu nh p bình qn u ng i c a nh ng ng i c
ph ng v n:
M c thu nh p Mã hóa
T 100USD - 200USD 1
Trên 200USD - 300USD 2
Trên 300USD - 400USD 3
Trên 400USD -500 USD 4
Có th nh n th y n u mã hóa nh trên thì s ch a m b o óng kín nh ng kho ng cách
lp vì v i các nh hu ng tr l i có thu nh p d i 100USD ho c trên 600USD ch a c mã
hóa m c dù t n su t xu t hi n các giá tr hai u mút này r t nh .
-Ngun t c v nh ng kho ng cách l p: Kho ng cách các l p nên c quy nh t ng ng
nhau thì t t h n là chúng có r ng thay i. N u không tuân th các ngun t c này có
th a n tình tr ng kho ng cách l p thi u s dàn tr i phù h p. Tuy nhiên, có th ch p nh n
các kho ng cách có r ng không t ng ng nhau khi ã nh các lo i mã ch a ng
các ph n t ng i nh c a t ng th mà nh ng c tr ng tr l i t nh ng ph n nh ó có th
không cung c p nh ng thông tin h u ích nào c .
-Ngun t c nh i m gi a các kho ng cách l p: i v i nh ng câu h i mà khi tr l i ng i ta
hay làm tròn s thì nh ng kho ng cách l p c n c thi t k sao cho nh ng con s c làm
tròn (l n h n) ó r i o nh ng i m gi a c a kho ng cách l p.
L p danh b mã hóa
Danh b mã hóa g m nhi u c t, trong t ng c t ch a ng nh ng l i gi i thích v nh ng mã hi u
ã c s d ng trong nh ng tr ng d li u (data fields) nh ng m i liên h c a chúng i v i
nh ng câu tr l i c a các câu h i.
Ch c n ng c a danh b mã hóa là giúp ng i làm mã hóa th c hi n vi c làm bi n i t câu tr
l i ra m t hi u thích h p mà máy i n toán có th c c, giúp các nhà nghiên c u nh n
di n các lo i bi n s khi in b n phân tích b ng máy i n toán.