intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Giáo trình nghiên cứu Marketing: Chương VII. Chuẩn bị dữ liệu và xử lý dữ liệu - Trường ĐH Đà Nẵng

Chia sẻ: Trần Thị Phương | Ngày: | Loại File: PDF | Số trang:33

187
lượt xem
21
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Quy trình phân tích và xử lý bắt đầu sau khi dữ liệu đã được thu thập. Nhưng trước khi xử lí phải diễn giải các dữ liệu ra một dạng thích hợp vì những dữ liệu mới được thu thập vẫn còn dạng ''thô'' chưa thể xử lí ngay được mà chúng cần được sắp xếp, được mã hóa theo những cách thức nhất định dễ dàng cho việc sử dụng ...

Chủ đề:
Lưu

Nội dung Text: Giáo trình nghiên cứu Marketing: Chương VII. Chuẩn bị dữ liệu và xử lý dữ liệu - Trường ĐH Đà Nẵng

  1. CH NG B Y 7 CHU N B D LI U VÀ X LÍ D LI U N I DUNG CHÍNH Ch ng này c p n các n i dung chính sau: - Chu n b d li u x lý - Các ph ng pháp và nguyên t c mã hoá d li u - M ts v n liên quan n x lý và di n gi i d li u - B ng phân ph i t n su t và b ng so sánh - cl ng tham s - ng d ng tin h c vào phân tích d li u nghiên c u Marketing - Phân tích th ng kê mô t 98
  2. CHU N B D LI U Quy trình phân tích và x lí b t u sau khi d li u ã c thu th p. Nh ng tr c khi x lí ph i di n gi i các d li u ra m t d ng thích h p vì nh ng d li u m i c thu th p v n còn d ng ''thô'' ch a th x lí ngay c mà chúng c n c s p x p, c mã hóa theo nh ng cách th c nh t nh d dàng cho vi c s d ng máy vi tính tr giúp x lí d li u sau này. Làm cho d li u có giá tr Sau khi thu th p d li u ph i ki m tra các d li u b o m chúng có ý ngh a, t c là có giá tr i v i vi c x lý và phân tích. Vi c làm cho d li u có giá tr ti n hành theo hai b c: - B c th nh t: Ti n hành xem xét m t cách k l ng các ph ng pháp và các bi n pháp ã c s d ng thu th p d li u (t c ki m tra các công c dùng thu th p d li u) - B c th hai: Ti n hành nghiên c u k các b ng câu h i ã c ph ng v n và nh ng ch d n v th t c ph ng v n phát hi n ra nh ng nguyên nhân d n n các sai sót. Hi u ch nh d li u Do nh ng nguyên nhân khách quan và ch quan, quá trình thu th p d li u dù c chu n b chu áo v n còn có th t n t i nh ng sai sót, vì v y ph i hi u ch nh d li u có ý ngh a i v i quá trình nghiên c u. Hi u ch nh d li u là s a ch a các sai sót v ghi chép ho c ngôn t phát hi n c qua ki m tra. Trong khi hi u ch nh c n s a ch a nh ng sai sót ph bi n sau: - Nh ng cu c ph ng v n gi t o do ng i i ph ng v n “ph a” ra - Nh câu tr l i không y (là nh ng câu tr l i không rõ ý ho c tr l i n a ch ng) - Nh ng câu tr l i thi u nh t quán. - Nh ng câu tr l i không thích h p. - Nh ng câu tr l i không c c. Có 3 cách ti p c n c s d ng x lí các d li u ''x u'' t các tình hu ng ó. Quay tr l i ng i i ph ng v n hay ng i tr l i câu h i làm sáng t v n Vi c liên h v i các cá nhân tìm câu tr l i úng làm n y sinh hai v n : - Làm t ng chi phí và s quá t n u cu c kh o sát có quy mô vì chi phí ph ng v n này ã c tính trong d án nghiên c u. Theo kinh nghi m, ngw i nghiên c u có th không c n tìm cách thu th p thêm d li u n u t l các câu h i nghi v n t ng i nh và / ho c quy mô c a m u t ng i l n (t l các câu h i nghi v n nh h n 20% và m u l n h n 500). - N u quy t nh i ng c tr l i thu th p d li u, nh ng d li u m i có th s khác v i d li u ã c thu th p trong cu c ph ng v n u tiên do các cá nhân có th không nh thông tin c n thi t, c ng nh có th do s d ng ph ng pháp khác và i u này nh h ng r t l n n k t qu c a câu tr l i (liên quan n tin c y c a cu c i u tra). Suy lu n t nh ng câu tr l i khác Theo cách này, ng i hi u ch nh ph ng oán t các d li u khác làm rõ câu tr l i nào úng. Nh ng ây là cách làm y r i ro. Khó có th minh nh c các quy lu t suy lu n các câu tr l i. Do ó an toàn khi hi u ch nh d li u, ng i nghiên c u c n h t s c th n tr ng v i ph ng pháp này, và không nên suy lu n m t câu tr l i tr phi bi t t ng i ch c ch n v ý nh c a ng i tr l i. Lo i toàn b câu tr l i 99
  3. ây là vi c d th c hi n nh t. Theo cách này, ng i hi u ch nh ch vi c lo i i nh ng câu tr l i có nghi v n. Trong tr ng h p quy mô c a m u t ng i l n, ng i hi u ch nh có th lo i b toàn b các câu tr l i n u thông tin thi u nh t quán và ng i hi u ch nh không th gi i quy t v n thi u nh t quán ó trong các d li u c thu th p t các i t ng ph ng v n. Tuy nhiên, khuy t i m trong cách ti p c n này là s thiên v trong k t qu n u nh ng ng i tr l i thi u nh t quán ó b lo i ra kh i cu c nghiên c u, khi ó k t qu t c s b l ch n u ý ki n nh ng ng i tr l i b lo i này khác v i nh ng ng i còn c gi l i trong m u i u tra. M t cách gi i quy t khác là t p h p m t báo cáo riêng các lo i d li u b thi u ho c không nh t quán, không r ng n u ng i nghiên c u th t s tin r ng các d li u ó có th có ích cho vi c ra quy t nh c a các nhà lãnh o. C U TRÚC VÀ MÃ HÓA D LI U Mã hóa d li u là m t quá trình liên quan t i vi c nh n di n và phân lo i m i câu tr l i trên m t ký hi u c ch nh (ký hi u có th b ng s ho c b ng ch ). D li u này ph i c mã hóa thì máy i n toán m i c và x lý c. C u trúc d li u C u trúc c a d li u là cách s p x p thông tin ã c tr l i vào v trí ô l u tr d li u c a máy i n toán. Do ó các nhà nghiên c u ph i t ch c các d li u c mã hóa thành m t c u trúc thích ng c a các d li u. Mã hóa d li u Vi c mã hóa có th c th c hi n vào m t trong hai th i i m, là mã hóa tr c và mã hóa sau: Mã hóa tr c Mã hóa tr c là vi c quy t nh ch n các mã s cho các câu h i và các ph ng án tr l i t khi thi t k b n câu h i, và do v y có th in ngay các mã s lên b ng câu h i. Hình th c mã hóa này thích h p cho các câu h i d ng lu n lý (ch ch n m t trong hai cách tr l i: có, không) hay d ng ch n m t trong các câu tr l i ghi s n. i v i các câu h i này ng i nghiên c u ã nh rõ c câu tr l i và do ó d dàng ký hi u cho các câu tr l i ó. Vi c mã hóa này có tác d ng làm gi m i r t nhi u kh i l ng công vi c trong b c chu n b d li u. làm rõ ta hãy xem xét ví d v m t ph n trong b ng câu h i v s n ph m ti vi sau ây: Q1. Bà/ cô có TV ho c xem ti vi không ? Không (0) ch m d t và sang ph n k . Có (1) h i ti p t Q2a Q2a. Bà/ cô th ng bao lâu xem TV m t l n ? M i ngày/ h u nh m i ngày (1) 4-5 ngày/ tu n (2) 2-3 ngày/tu n (3) 1 l n/ tu n (4) 2-3 ngày/ tháng (5) 1 l n/ tháng (6) Không th ng xuyên (7) Không xem (8) chuy n sang câu h i ti p theo Q2b. L n g n ây nh t bà/ cô xem TV khi nào ? Ngày hôm qua (1) Tr c ngày hôm qua (2) 100
  4. Q2c. Trung bình, m t ngày bình th ng trong tu n bà/cô xem ch ng trình TV trong bao lâu? Ít h n 1 gi (1) T 1 n 3 gi (2) T 3 n 5 gi (3) T 5 n 7 gi (4) T 7 n 9 gi (5) Trên 9 gi (6) Q2d. Ngày cu i tu n (th b y, ch nh t) thì bà/cô xem TV bao lâu ? Ít h n 1 gi (1) T 1 n 3 gi (2) T 3 n 5 gi (3) T 5 n 7 gi (4) T 7 n 9 gi (5) Trên 9 gi (6) Mã hóa sau Khi các câu tr l i thu c câu h i m , ng i nghiên c u ph i t n nhi u công biên t p vì các câu tr l i theo tình hu ng t do, không nh s n. Khi ph ng v n, ng i ph ng v n ph i ghi nguyên v n câu tr l i, và vì th chuy n các d li u nh v y sang m t hình th c mà máy i n toán có th c c c n ph i phân các câu tr l i theo nh ng lo i gi ng nhau và gán cho chúng các ký hi u mã hóa. Có hai cách: - Cách th nh t: Ng i nghiên c u ti n hành mã hóa các câu tr l i tr c khi nghiên c u th c a. Tr ng h p này, ng i nghiên c u ph i d ki n v m t lý thuy t các câu tr l i ho c s d ng kinh nghi m c a các cu c nghiên c u tr c, ng th i m t th i gian hu n luy n nh ng ng i i ph ng v n cách phân lo i các câu tr l i c ghi nguyên v n úng lo i mã hóa ã d ki n. - Cách th hai: Ch n khi thu th p xong d li u m i ti n hành mã hóa. Khi ó, ng i nghiên c u ph i xem xét ng u nhiên 30% các b n câu h i ã c tr l i tính toán các lo i tình hu ng tr l i và mã hóa nó. Tr c khi mã hóa, ph i rà soát l i toàn b các câu h i ã ph ng v n xem xét có còn tình hu ng tr l i nào khác không. ti n l i cho vi c phân tích, không nên phân lo i quá 10 tình hu ng tr l i cho m t v n . Các nguyên t c thi t l p ki u mã hóa làm cho ch c n ng mã hóa c t t h n c n ph i tuân th các nguyên t c sau ây trong vi c thi t l p các ki u mã hóa. - S “ ki u mã hóa” thích h p: s ki u mã c n ph i l n bao quát h t c các s khác bi t trong d li u. N u s l ng mã quá ít thì có th m t s thông tin quan tr ng s không c bao quát. - Nh ng thông tin tr l i c s p x p trong cùng m t “ lo i mã hóa” thì ph i t ng t nhau v c tr ng nghiên c u. - Ranh gi i rõ ràng gi a các “lo i mã hóa” V i các c tr ng ang c nghiên c u, nh ng s khác bi t v thông tin tr l i gi a các “lo i m㔠ph i không gi ng nhau n m c x p vào cùng m t “lo i mã”. Ví d : Chúng ta ang nghiên c u c tr ng v tu i tác c a ng i c h i, gi s c n ti n hành mã hóa các tình hu ng tr l i nh sau: 101
  5. - Nh h n 20 tu i - T 21 tu i n 30 tu i. - Trên 30 tu i N u có m t câu tr l i là 20 tu i 4 tháng thì s không rõ ph i c x p vào lo i nào vì kho ng th nh t ph i là 20 tu i và th 2 ph i là t 21 tu i n 30 tu i. Khi ó ng i nghiên c u ph i làm tròn theo nguyên t c là 20 tu i nh v y c x p vào lo i th 1. - Nguyên t c lo i tr gi a các lo i mã hóa: các lo i mã hóa ph i không c ch ng chéo lên nhau, c n ph i thi t l p chúng nh th nào b t c tình hu ng tr l i nào c ng ch cx p vào m t lo i mã hóa thôi. ( ã c x p vào lo i mã này thì không x p vào mã khác) - Nguyên t c toàn di n: theo nguyên t c này, c u trúc c a m t lo i mã ph i bao quát ct tc các tình hu ng tr l i nh m m b o t t c các tình hu ng u c mã hóa. - Nguyên t c “ óng kín” nh ng kho ng cách l p: theo nguyên t c này, không c“ m ” kho ng cách l p c a mã hóa, b i vì vi c không ch rõ nh ng gi i h n v kho ng cách l p s làm lu m i nh ng giá tr phân tán hai u mút c a dãy phân ph i và do ó s không cho phép tính toán c giá tr trung bình c a nh ng quan sát trong m i kho ng cách l p. Ví d , xem xét vi c mã hóa câu h i v thu nh p bình quân u ng i c a nh ng ng i c ph ng v n: M c thu nh p Mã hóa T 100USD - 200USD 1 Trên 200USD - 300USD 2 Trên 300USD - 400USD 3 Trên 400USD -500 USD 4 Có th nh n th y n u mã hóa nh trên thì s ch a m b o “ óng kín” nh ng kho ng cách l p vì v i các tình hu ng tr l i có thu nh p d i 100USD ho c trên 600USD ch a c mã hóa m c dù t n su t xu t hi n các giá tr hai u mút này r t nh . - Nguyên t c v nh ng kho ng cách l p: Kho ng cách các l p nên c quy nh t ng ng nhau thì t t h n là chúng có r ng thay i. N u không tuân th các nguyên t c này có th a n tình tr ng kho ng cách l p thi u s dàn tr i phù h p. Tuy nhiên, có th ch p nh n các kho ng cách có r ng không t ng ng nhau khi ã nh rõ các “lo i m㔠ch a ng các ph n t ng i nh c a t ng th mà nh ng c tr ng tr l i t nh ng ph n nh ó có th không cung c p nh ng thông tin h u ích nào c . - Nguyên t c nh i m gi a các kho ng cách l p: i v i nh ng câu h i mà khi tr l i ng i ta hay làm tròn s thì nh ng kho ng cách l p c n c thi t k sao cho nh ng con s c làm tròn (l n h n) ó r i vào nh ng i m gi a c a kho ng cách l p. L p danh b mã hóa Danh b mã hóa g m nhi u c t, trong t ng c t ch a ng nh ng l i gi i thích v nh ng mã hi u ã c s d ng trong nh ng tr ng d li u (data fields) và nh ng m i liên h c a chúng i v i nh ng câu tr l i c a các câu h i. Ch c n ng c a danh b mã hóa là giúp ng i làm mã hóa th c hi n vi c làm bi n i t câu tr l i ra m t ký hi u thích h p mà máy i n toán có th c c, giúp các nhà nghiên c u nh n di n các lo i bi n s khi in b n phân tích b ng máy i n toán. 102
  6. L ng thông tin t i thi u c ch a ng trong m t danh b mã hóa i v i m t câu h i bao g m: s c a câu h i, s c t c n có trong máy i n toán, tên c a bi n s , v n c a câu h i và mã hi u ã c s d ng. - Có ph i ch c n mô t b m t c a các tình hu ng nào ó hay không? - Có ph i chúng ta ang tìm ki m m t ngo i l hay m t d ng nào ó trong tình hu ng hay không? - C nd oán tr ng thái t ng lai hay giá tr c a m t bi n hay không? - N u có nh ng m i liên h quá kh gi a các bi n nào ó thì có c n làm rõ không? N u nh v y chúng ta có ph i quan tâm n nh ng m i liên h bên trong gi a các bi n hay không? - Chúng ta có mu n th m dò c u trúc bên trong c a m t hi n t ng b ngoài v ph n ng c a ng i tiêu dùng, qua ó tìm hi u c ho c ch ng minh cho các nguyên nhân bên trong hay không ? - N u dùng mô hình th nghi m thì (1) có nh ng bi n thiên cùng chi u nào gi a các bi n thích h p? (2) các bi n c bi t nào là ngu n nh p cho t ng ph ng pháp hay cho các b ng tính, (3) vi c tính toán c th c hi n theo trình t nào? - Nh ng tính toán nào ph thu c vào k t qu tính toán c a các b c tr c? - Nh ng tính toán nào ph i ch i nh ng k t qu c a các tính toán khác thì m i i n quy t nh k t qu c a chúng có ý ngh a hay không? - Nh ng câu tr l i cho câu h i th (3) òi h i nh ng phép toán th ng kê ph i c l p thành m t trình t logic nh t nh. Khi thi t l p nh ng trình t nh th c n nêu rõ nh ng th t u tiên tính toán và nh ng gì còn ang nghi v n i v i k t qu a ra. Ví d , có th l p m t danh b mã hóa cho m u ph ng v n s n ph m tivi nh sau: Q1. Có ho c không xem tivi Không 0 Có 1 Q2a. S l n xem tivi M i ngày/ h u nh m i ngày 1 4-5 ngày/ tu n 2 2-3 ngày/tu n 3 1 l n/ tu n 4 2-3 ngày/ tháng 5 1 l n/ tháng 6 Không th ng xuyên 7 Không xem 8 Q2b. L n xem tivi g n ây nh t Ngày hôm qua 1 Tr c ngày hôm qua 2 Q2c. Th i gian xem tivi ngày th ng Ít h n 1 gi 1 T 1 n 3 gi 2 T 3 n 5 gi 3 T 5 n 7 gi 4 T 7 n 9 gi 5 Trên 6 Q2d. Th i gian xem tivi ngày cu i tu n 103
  7. Ít h n 1 gi 1 T 1 n 3 gi 2 T 3 n 5 gi 3 T 5 n 7 gi 4 T 7 n 9 gi 5 Trên 6 M TS V N LIÊN QUAN N PHÂN TÍCH VÀ DI N GI I D LI U Phân tích và di n gi i d li u ã x lý có tác d ng quan tr ng trong vi c tìm hi u và rút ra ý ngh a c a các d li u, nh ó, các c n c cho xu t các gi i pháp s rõ ràng và khoa h c h n. Công vi c này c ti n hành qua 2 giai o n ch y u: - X p các d li u thô vào các th b c ã c ol ng - Tóm l c các ph ng pháp phân tích làm rõ m i quan h h t ng và các ý ngh a nh l ng gi a các d li u (trong các n i dung sau chúng ta s tìm hi u m t s ph ng pháp phân tích d li u d a trên c s s d ng các thành t u c a khoa h c th ng kê) V n hi u qu c a công tác x lí d li u Nguy c làm cho phí t n và th i gian x lý lâu là nh ng nguyên nhân khi n cho các nhà nghiên c u ph i quan tâm n tính hi u qu c a công tác d li u. m b o tính hi u qu c a công tác x lý d li u c n ph i chú ý n m t s v n sau: - Vi c chu n b các d li u x lý ph i làm s n tr c khi a d li u n b ph n computer. Vi c này s ti t ki m c th i gian và tránh c nh ng sai sót áng ti c do tình tr ng các d li u thô d n v trung tâm tính toán. - Tiên oán tr c các d li u nào là c n thi t a vào x lý và phân tích. Không c tùy ti n c t xén d li u vì vi c b sung d li u trong quá trình x lý s r t ph c t p và t n nhi u công s c, ti n b c. Nh ng c ng không nên a quá nhi u d li u “râu ria” vào x lý làm t ng kh i l ng tính toán không c n thi t, k t qu phân tích s ph c t p và nhi u khi vô d ng. Tóm l i ph i a và ch nên a nh ng d li u c n thi t cho m c ích nghiên c u vào x lý. B n ch t c a s di n gi i nh ngh a Di n gi i là làm n i b t ý ngh a c a d li u, hay nói cách khác di n gi i là quá trình chuy n i các d li u thu n túy thành thông tin. Ng i nghiên c u s t n m c tiêu c a quá trình nghiên c u khi rút ra k t lu n t nh ng d li u phân tích. Có hai giai o n v suy ngh lôgíc dùng rút ra các suy lu n t d li u và c hai giai o n u c ta th c hi n dù có ý th c hay không: ó là quy n p và di n gi i. Boveridge ã nh ngh a các giai o n này nh sau: “Các nhà lôgíc h c phân bi t rõ gi a suy lu n qui n p (t nh ng ví d c bi t d n n các qui t c chung, t d ki n cho n lý thuy t) và suy lu n di n gi i (t cái chung n cái c bi t, áp d ng lý thuy t vào m t tr ng h p nào ó). quy n p, ng i ta b t u t các d ki n, quan sát chúng và ti n n m t s khái quát hóa gi i thích m i quan h gi a các i t ng c quan sát. Ng c l i, ph ng pháp di n gi i, ng i ta b t u t các qui lu t chung và áp d ng chúng vào m t tr ng h p c th ”. Các yêu c u c a vi c di n gi i di n gi i t t, c n ph i l u ý các v n sau: 104
  8. - Di n gi i m t cách trung th c và t nh táo, không nên phóng i hay bóp méo các d li u gây s chú ý. - Luôn khách quan và n gi n trong di n gi i, không nên làm ph c t p hóa v n . - L u ý n gi i h n c a các m u thông tin nh , t c là không nên sa vào “th i ph ng” k t qu quan sát c t m t m u nh thành khái quát miêu t m t ph m vi l n. - Công b ng, khách quan v i m i d li u, không nên có thành ki n ho c thiên h ng v m t k t lu n c bi t nào. - Chú ý úng m c n các câu tr l i quá b t th ng. - Phân bi t nguyên nhân và k t qu , không nên nh m l n chúng v i nhau. Nh ng l u ý v phân tích d li u Ch n ph ng pháp phân tích L nh v c phân tích d li u r t r ng vì v y, có r t nhi u ph ng pháp phân tích có th s d ng. Ng i nghiên c u c n ph i cân nh c nhi u khía c nh l a ch n ph ng pháp thích h p, bao g m: c tính ng u nhiên c a d li u, c n nêu b t ý ngh a nào c a k t qu nghiên c u?, có xem xét s sai l ch áng k c a d li u không?, qui lu t phân ph i ng u nhiên c a d li u thu c i l ng nghiên c u nào?... D li u tham s và d li u phi tham s Nh ng d li u c g i là tham s khi chúng c phân ph i xung quanh giá tr trung bình ho c giá tr trung tâm c a chúng m t cách i x ng nhau, t ng t nh ng cong c a hàm s m t phân ph i xác su t chu n. Nh ng d li u phi tham s thì khác, chúng không c phân ph i theo ng cong c a hàm phân ph i chu n. T ng ng v i các lo i d li u ó, các ph ng pháp ki m nh gi thuy t c áp d ng có nh ng khác bi t theo các tiêu chu n ki m nh khác nhau, do v y, khi phân tích d li u c n nh n di n rõ ràng ó là lo i d li u tham s hay d li u phi tham s . S l ng nh ng bi n s c n c phân tích S l ng nh ng bi n s th ng hay thay it m t n nhi u bi n s : Chúng ta x p lo i chúng theo 3 nhóm ph ng pháp phân tích: - Ph ng pháp bi n s n: trong ó ch có m t bi n s duy nh t c phân tích. - Ph ng pháp bi n s kép: c s d ng tìm hi u s liên h gi a hai bi n s . - Ph ng pháp a bi n: c s d ng tìm hi u s liên h gi a các bi n s v i nhau. Tính c l p và ph thu c l n nhau Liên quan n s l ng bi n s c phân tích là s liên h gi a các bi n s v i nhau. T “liên h ” c s d ng ám ch s bi n thiên c a hai (hay nhi u) bi n s s có nh h ng gi a chúng v i nhau. S có hai tr ng h p phân tích: (1) Tr ng h p trong ó ch có m t bi n s c ki m nghi m v tính ph thu c c a nó v i nh ng bi n s c l p khác. (2) Tr ng h p ng i nghiên c u tìm ki m nh ng m i liên h hay ph thu c l n nhau gi a t t c các bi n s . 105
  9. L P B NG PHÂN PH I T N SU T VÀ L P B NG SO SÁNH L p b ng phân ph i t n su t (l p b ng theo th t ABC) Hình th c n gi n nh t trong x lý d li u là s p x p chúng theo chu i s (ho c theo h ng t ng d n t th p n cao, ho c gi m d n t cao xu ng th p), sau ó phân chia thành t ng l p (theo nguyên t c phân t trong th ng kê). lo i b ng n gi n này, các d ng d li u c th hi n bao g m: - il ng nghiên c u ã c phân t . - T n s quan sát ng v i t ng l p. - T n s tích l y. Ch ng h n, sau khi thu th p các d li u v thu nh p, ta có th s p x p chúng nh sau: Thu th p hàng tháng (tri u ng) S ng i (T n s ) T n s l y tích D i 500.000 ng 39 39 T 500.000 ng n 1.000.000 ng 51 90 T 1.000.000 ng n 1.500.000 ng 123 113 T 1.500.000 ng n 2.000.000 ng 47 160 T 2.000.000 ng n 2.500.000 ng 25 185 Trên 2.500.000 ng 15 200 L p b ng so sánh toàn di n Trong d ng b ng này ng i ta a thêm các nhân t nh h ng phân tích c th h n c tính c a d li u. Ví d , khi nghiên c u quan h gi a thu nh p và giáo d c (trình h c v n), có th l p b ng d ng sau: Trình Thu nh p (tri u ng/tháng) h cv n D i 1,0 1,0-2,0 2,0-3,0 Trên 3,0 -Ti u h c -Trung h c - ih c - Th c s - Ti n s N u xem xét thêm m t s nhân t khách nh : Gi i tính, tu i, ngh nghi p... có th nh h ng n m c thu nh p t ng ng i, khi ó có th xem xét tác ng c a nhi u nhân t n thu nh p, và có th l p b ng sau: Trình Thu nh p (tri u ng/tháng) h cv n D i 1,0 1,0-2,0 2,0-3,0 Trên 3,0 -Ti u h c Nam -Trung h c - ih c 106
  10. - Th c s - Ti n s -Ti u h c -Trung h c N - ih c - Th c s - Ti n s ki m tra s phân b d li u có th tuân theo quy lu t phân ph i chu n hay không, hai tham s mà chúng ta c p là tham s skewness và kurtosis, hai tham s này bi u hi n "nh n" c a phân ph i t n su t. H s skewness Skewness là th c o m c không i x ng c a phân ph i t n su t, các giá tr trung bình ( X ), s mode (M0), s trung v (Md) u tham gia vào quá trình xem xét. Trong m t dãy phân ph i có d ng i x ng hoàn toàn các tham s trung bình, trung v và mode có cùng giá tr ( X = M0 = Md). H s skewness nh n giá tr t -3 n + 3, n u d li u tuân theo phân ph i chu n thì thông s skewness b ng 0 và h s skewness c tính nh sau: 3( x M 0 ) Sk Sk ho c Z s s n Sk : H s Skewness M0 : S Mode s : l ch chu n c a m u x : S trung bình m u H s kurtosis H s Kurtosis là th c om c ph ng c a phân ph i t n su t, n u d li u tuân theo phân ph i Kurtose chu n thì thông s này b ng 0. Tính h s Kurtose t Z 24 n OL NG KHUYNH H NG H I T C A D LI U Có 3 tham s c b n ól ng khuynh h ng h i t c a d li u là m t (mode), trung v (median) và s trung bình. Mode: Mode là giá tr trung tâm x y ra th ng xuyên nh t trong dãy phân ph i t n su t. Nó c tính ra d dàng khi x p d li u và các l p trong m t b ng t n su t phân ph i vì “mode” là l p ch a s l n quan sát l n nh t. S mode c tính theo công th c sau: d1 M 0 L Mo *i d1 d2 107
  11. Trong ó: Mo - Tr s mode LMo - Gi i h n d i c a l p có t n su t xu t hi n l n nh t. d1 - Sai bi t v t ìn su t c a l p có t n su t xu t hi n l n nh t v i l p ng li n tr c nó trong dãy phân ph i. d2 - Sai bi t v t n su t c a l p có t n su t xu t hi n l n nh t v i l p ng li n sau nó trong dãy phân ph i. i - l n c a kho ng cách c a l p có t n su t xu t hi n l n nh t. M ts c tr ng quan tr ng c a mode: - D xác nh và có kh n ng xác nh nhanh. - Có th xác nh v trí c a nó trong dãy phân ph i m (opended distribution), t c là các dãy phân ph i mà giá tr sau cùng ch a xác nh còn m cu i dãy. - Mode có th không t n t i trong m t dãy phân ph i, ôi khi có th không tìm ra c s mode ho c có th có nhi u s mode. M t dãy phân ph i có hai nh (g i là “bimodal - hai l p ch a mode”). Khi ó ta có th không tìm ra c xu h ng tr ng tâm c a phân ph i. - Mode không b nh h ng b i các giá tr hai u (giá tr u cu i) c a dãy phân ph i. - Mode có th tiêu bi u cho dãy phân ph i n u nh ng quan sát c t p trung vào m t giá tr ho c m t l p. Trung v : Trung v (medial) th hi n giá tr trung bình tiêu bi u nh t c a các giá tr trong dãy phân ph i, vì nó b ng úng ngay gi a giá tr cao nh t và giá tr th p nh t. Tr c khi xác nh giá tr trung v , c n ph i s p x p các d li u theo th t d i lên ho c t trên xu ng. i v i nh ng d li u không c phân nhóm mà s quan sát là l thì ch n giá tr trung v r t d dàng. Giá tr trung v c xác nh theo công th c: n fc Md L Md 2 *i f Md Trong ó: Md - Giá tr trung v LMd - Gi i h n d i c a l p ch a trung v . n - T ng t n su t trong dãy phân ph i fc - T n su t l y tích c a l p ng tr c l p ch a trung v . fMd -T n su t c a l p ch a trung v . i - l n kho ng cách l p ch a trung v . M ts c tính quan tr ng c a trung v : - Có th tính c nh ng b ng phân ph i m vì giá tr trung v n m trong kho ng cách c a l p ch a trung v , và kho ng cách không th là kho ng cách m . - Không b nh h ng b i các giá tr hai u mút c a dãy phân ph i, vì v y, n u b ng phân ph i có l ch l n nên ch n phép tính giá tr trung v h n là trung bình. 108
  12. - Không b tác ng c a giá tr quan sát c mà b tác ng b i s l n quan sát, vì v y các giá tr hai u c a dãy phân ph i không làm bi n i k t qu c a tr s này. - N u các kho ng cách l p có kích th c không b ng nhau thì trung v c xem là s ol ng xu h ng phân ph i phù h p nh t vì nó d tính h n nhi u so v i giá tr trung bình. Giá tr trung bình ( Mean) : N u m u ng u nhiên w có các giá tr x = ( x1 , x2 ,......,xn) thì giá tr 1 n trung bình c a x là: x xi . N u các giá tr x1,x2,......,xn l n l t có các t n su t n1,n2,.....,nk , ni1 1 n thì x xi ni ( ni n) ni1 M ts c tính quan tr ng c a giá tr trung bình: - Giá tr trung bình ch u s tác ng b i các giá tr c a m i quan sát, nh v y khi giá tr c a m i quan sát thay i s làm thay i giá tr trung bình. - N u có m t dãy phân ph mà tính ch t i x ng l ch nhau quá l n thì giá tr trung bình c ng b thay i ph thu c theo các giá tr u mút. - Các c tính toán h c c a giá tr trung bình óng vai trò r t quan tr ng khi các d li u c a m u c dùng suy r ng ra t ng th ( c l ng) ho c khi c dùng trong các thí nghi m th ng kê. Ph ng pháp trung bình s h c r t thích h p khi phân tích các d li u theo kho ng cách. - Không th tính c giá tr trung bình v i các dãy phân ph i m . cl ng khuynh h ng h i t : V i các tham s bi u th khuynh h ng h i t nh trên, nên ch n tham s nào c tr ng nh t ? Không có quy t c chung nào ch ra vi c s d ng tham s nào là thích h p. Mu n ch n úng tham s c n ph i xem xét c tính c a t ng lo i và ánh giá c các lo i bi n s d li u. Trong m t dãy phân ph i có d ng i x ng hoàn toàn, ph ng pháp ch n l a r t n gi n vì các s trung bình, trung v và mode u có cùng giá tr . Nh ng n u dãy phân ph i quá l ch thì giá tr c a 3 tham s này s khác nhau. Vì v y, vi c hi u bi t v các lo i phân ph i giúp ra quy t nh nên ch n tham s nào c l ng. Ngoài ra, l a ch n c l ng thích h p, có th s d ng các tiêu chu n do các nhà th ng kê a ra mà m t khi m t c l ng th a mãn c chúng thì ó s là m t c l ng t t. - Tính không ch ch: Khi k v ng toán c a tham s ó g n trùng v i tham s t ng th thì c l ng c xem là không ch ch. - Tính phù h p: Khi kích th c m u t ng lên mà m t c l ng rút ra t m u ó c ng ti p c n n tham s t ng th (giá tr th c s c a t ng th ) thì c l ng ó g i là m t c l ng phù h p c a tham s t ng th . - Tính y : M t c l ng th ng kê c xem là mang tính y n u nó s d ng h t các thông tin v tham s m u mà m u nó ch a, ngh a là không có m u nào khác có th có th cho thêm thông tin v tham s . OL NG PHÂN TÁN C A D LI U Các tham s o l ng khuynh h ng h i t c a d li u ã không nói gì v kh n ng m r ng hay chia nh các d li u quan sát. Vì th , c n nghiên c u phân tán so sánh “s m r ng” c a hai t p d li u và tính c tr ng c a các giá tr trung bình. Ví d , n u các d li u c “m r ng" 109
  13. nhi u quá thì vi c s d ng giá tr trung bình quan sát tính h i t s không th bi u tr ng cho các d li u ang nghiên c u. Kho ng bi n thiên: Kho ng bi n thiên là c tr ng phân tán n gi n nh t. Nó là s sai bi t gi a giá tr cao nh t và th p nh t trong m t dãy hay b ng phân ph i. Nó ch làm n i b t kho ng cách c a d li u mà không so sánh v i giá tr trung bình. Vì v y các giá tr tiêu bi u c a d li u có th không c c p n và c tr ng này có th làm méo mó i hình nh c a dãy phân ph i. Ph ng sai và l ch chu n: Ph ng sai và l ch chu n d a trên m c sai l ch c a các quan sát v i giá tr trung bình. Ph ng sai c nh ngh a nh là s trung bình c a bình ph ng các l ch gi a giá tr quan sát v i giá tr trung bình trong dãy phân ph i. C n b c hai c a ph ng sai g i là l ch chu n. Vì ph ng sai là c tr ng h i khó di n d ch h n nên l ch chu n th ng c s d ng nh t trong các c tr ng phân tán. n 1 Ph ng sai m u s2 là il ng c xác nh : s2 ( xi x)2 n i 1 k 1 N u các xi có t n s ni ( ni = n ) thì : s2 ( xi x ) 2 ni n i 1 n n 1 1 l ch chu n s s2 ( xi x ) 2 ho c s s2 ( xi x ) 2 ni n i 1 n i 1 n n n n 1 1 l ch chu n hi u ch nh s ' s2 * ( xi x ) 2 ni ( xi x ) 2 ni n 1 n 1 n i 1 n 1 i 1 M ts c tr ng quan tr ng c a l ch chu n: - S thay i c a b t k giá tr quan sát nào thì làm s làm thay i giá tr c a l ch chu n. - C ng nh giá tr trung bình, l ch chu n có th m t tính i di n n u dãy phân ph i quá l ch. - Không th tính c l ch chu n i v i các dãy phân ph i m . H s bi n thiên: (Coefficient of variation) N u c n ph i so sánh s phân tán c a nhi u h n m t dãy phân ph i có các n v o l ng khác nhau, ta có th dùng m t c tr ng phân tán t ng i c g i là “h s bi n thiên”, công th c là : Cv = .(100)/ hay Cv = s.(100)/X Trong ó : Cv : H s bi n thiên : l ch chu n c a t ng th . s : l ch chu n c a m u. X : Giá tr trung bình c a m u 110
  14. CL NG THAM S Nh chúng ta ã bi t trong th ng kê toán, gi s m t i l ng ng u nhiên X tuân theo qui lu t phân ph i nào ó ã bi t d ng, nh ng ch a bi t m t tham s nào ó c a nó, vì v y c n c l ng giá tr c a thông qua k t qu th c nghi m. thu n ti n trên ph ng di n ng d ng, ph n này s không nh c l i nh ng ki n th c n n t ng c a th ng kê toán mà ch trình bày nh ng ng d ng c a th ng kê toán i v i c l ng m t s tham s ch y u. cl ng tham s trung bình trong lu t phân ph i chu n N( , 2) Tr ng h p ã bi t G i là m c ý ngh a c a quá trình c l ng, khi ó, tin c y c a quá trình c l ng là =1- , gi s hàm phân ph i c a m u tuân theo quy lu t phân ph i chu n N( , 2), ta có: (X ) n U 1 U1 2 v i = 1+ 2 (1) L u ý r ng, trong th c t có vô s c p 1, 2 th a mãn 1+ 2= , do ó có vô s kho ng tin c y ng v i cùng m t tin c y (1- ) cho tr c. Khi ó, (1) có th bi n i thành x U 1- 2 x U 1 (2) n n Ba tr ng h p có th x y ra là: - Tr ng h p 1: 1 = 0, 2= (kho ng tin c y “phía trái” (giá tr min c a )) (2) x U1 n - Tr ng h p 2: 1 = , 2= 0 (kho ng tin c y “phía ph i” (giá tr max c a )) (2) x U1 ho c (2) 0 x U1 n n - Tr ng h p 3: 1 = 2= /2 (kho ng tin c y i x ng c a ) (2) x U x U n 1 2 n 1 2 Tr ng h p ch a bi t N u kích th c m u nh (n
  15. (2) x tn n - Tr ng h p 2: 1 = , 2 = 0 (kho ng tin c y “phía ph i” (giá tr max c a )) (2) x tn n - Tr ng h p 3: 1 = 2= /2 (kho ng tin c y i x ng c a ) (2) x tn 1 x tn 1 n 2 n 2 N u kích th c m u l n (n 30): Trong tr ng h p kích th c m u l n (n 30), c n ph i tính tham s ph ng sai i u ch nh m u (s’), các tr ng h p c l ng c ng gi ng nh tr ng h p ã bi t và chúng ta thay th giá tr b ng giá tr s’ d dàng cho vi c theo dõi, có th tóm g n các ph ng pháp cl ng i x ng tham s trung bình nh sau: CL NG KHO NG TIN C Y C A GIÁ TR TRUNG BÌNH ã bi t ph ng sai t ng th ( 2) Ch a bi t ph ng sai t ng th ( 2) Phân ph i chu n Phân ph i Student v i (n-1) là b c t do Khi n
  16. Ví d : Th i gian gia công m t chi ti t máy là m t i l ng ng u nhiên tuân theo qui lu t phân ph i chu n v i l ch chu n là = 2 phút. c l ng th i gian gia công trung bình cho lo i s n ph m ó, ng i ta ã ti n hành s n xu t th 25 s n ph m và thu c b ng s li u sau: Th i gian (phút) S chi ti t 20-22 2 22-24 6 24-26 10 26-28 4 28-30 3 Hãy c l ng th i gian gia công trung bình cho các lo i chi ti t ó b ng kho ng tin c y i x ng v i tin c y 95%. Gi i: g i là th i gian gia công m t chi ti t, theo gi thi t là i l ng ng u nhiên tuân theo quy lu t phân ph i chu n. ây là bài toán c l ng tham s trung bình, tr ng h p bi t v i = 2, là th i gian gia công trung bình ch a bi t c n c l ng. V i tin c y 95%, công th c cho phép tìm kho ng tin c y i x ng c a trong tr ng h p này là: x T (n 1) 2 x T (n 1) 2 . Trong ó giá tr trung bình c a bi n x là: n n 5 1 21 * 2 23 * 6 25 * 10 27 * 4 29 * 3 x ni xi 25 ( phút ) n i 1 25 1 0,95 0,05 1 0,975, khi ó T (n -1) T 24 0,975 2,06 2 2 2 Khi ó (1) ( 25 * 2,06) (25 0,824) 25 Hay th i gian gia công trung bình cl ng (24,176; 25,824) cl ng kho ng tin c y tham s t l p trong lu t phân ph i A(p): cl ng kho ng tin c y t l i v i c l ng kho ng tin c y tham s t l , chúng ta c ng có 3 tr ng h p c l ng là c l ng phía trái, ph i và i x ng. Chúng tôi s tóm t t ph n c l ng i x ng kho ng tin c y t l b ng sau: CL NG KHO NG TIN C Y T L (P) f n (1 fn ) f n (1 fn ) fn U P fn U n 1 2 n 1 2 V i: n: S quan sát c a m u (1- ): M c ý ngh a ( = 1- =1- tin c y) 113
  17. fn: T l ph n có tính ch t lo i A trong m u (t l m u) P: T l ph n có tính ch t lo i A trong t ng th Ví d : M t nghiên c u c th c hi n nh m c l ng th ph n c a s n ph m n i a (do các công ty s n xu t trong n c) i v i m t hàng bánh k o. K t qu i u tra ng u nhiên 100 khách hàng cho th y có 34 ng i dùng s n ph m n i a (v i tin c y 95%). Gi i: - G i m là s l ng khách hàng dùng s n ph m n i a có trong m u - n là l n c a m u nghiên c u - fn là t l s ng i dùng s n ph m bánh k o n i a có trong m u. Khi ó: m 34 fn 0 ,34 n 100 ây là bài toán cl ng i x ng tham s t l nên ta có: f n (1 f n ) f n (1 f n ) fn U P fn U (1) n 1 2 n 1 2 V i tin c y = 95%, khi ó m c ý ngh a =1-95%=0,05. Th s vào (1) ta c: 0,34 (1 0,34 ) 0,34 (1 0,34 ) 0,34 1,96 P 0,34 1,96 100 100 Suy ra 0,2471
  18. CL NG KHO NG TIN C Y PH NG SAI ( 2) n(n 1) s ' 2 2 n(n 1) s ' 2 2 2 ( n 1 ), ( n 1 ), 1 2 2 V i: Dùng b ng phân ph i khi bình ph ng n: S quan sát c a m u (1- ): M c ý ngh a(=1- tin c y) s’ : Ph ng sai i u ch nh m u (n-1): B c t do Ví d : M t nhà s n xu t quan tâm n bi n thiên c a t l t p ch t trong m t lo i h ng li u c cung c p trong quá trình s n xu t. Ch n ng u nhiên 15 m u h ng li u cho th y l ch chu n i u ch nh v t p ch t c a m u là 2,36%. Gi i: G i n là kích th c m u, s’ là ph ng sai i u ch nh m u, theo công th c cl ng ph ng sai t ng th ta có: (n 1) s ' 2 2 (n 1) s ' 2 2 2 ( n 1 ), ( n 1 ), 1 2 2 Th s vào công th c trên ta có: (15 1 )( 2 , 36 ) 2 2 (15 1 )( 2 , 36 ) 2 2 2 0 , 05 0 , 05 ( 14 1 ), ( 14 1 ), 1 2 2 (15 1 )( 2 , 36 ) 2 2 (15 1 )( 2 , 36 ) 2 Hay: 2 2 (1) 0 , 05 0 , 05 ( 14 1 ), ( 14 1 ), 1 2 2 2 14, 0,025 26,12 V i: 2 14, 0,975 05,63 Khi ó s c l ng c kho ng tin c y ph ng sai s là 2,9852< 2
  19. M u ph i h p t ng c p: các nv m u c ch n t t ng c p Thông th ng, i v i m u ph i h p t ng c p, có th so sánh gi a: - Tr c và sau khi th c hi n m t chi n d ch marketing hay doanh s tr c và sau khi th c hi n qu ng cáo. - So sánh n v v m t c i m nào ó v ti n l ng công nhân nam và n (gi s gi ng nhau v n ng l c và kinh nghi m) - Doanh s n c gi i khát lo i A n c a hàng và n c lo i B c ng c a n c a hàng ó - Doanh s c a nhà hàng A tu n l th 10 và doanh s nhà hàng B c ng tu n l th 10 Khi ó, chúng ta có ph ng th c cl ng kho ng tin c y khác bi t gi a trung bình hai t ng th (m u ph i h p t ng c p) nh sau: CL NG KHO NG TIN C Y CHO KHÁC BI T GI A TRUNG BÌNH HAI T NG TH (M u ph i h p t ng c p) Dùng b ng phân ph i Student sd sd D tn 1 ( x y ) D tn 1 : S trung bình c a n s (xi-yi) n 2 n 2 Sd : Ph ng sai i u ch nh n s (xi-yi) Ví d : Công ty i n l c th c hi n các bi n pháp khuy n khích ti t ki m i n. L ng i n tiêu th ghi nh n 12 h gia ình tr c và sau khi các bi n pháp khuy n khích ti t ki m. V i x, y: l nl t là l ng i n tiêu th tr c và sau khi khuy n khích ti t ki m, D là sai l ch trung bình l ng i n tiêu th tr c và sau khi khuy n khích ti t ki m n di Khi ó: D i 1 n L ng i n tiêu th H th Tr c khi khuy n khích Sau khi khuy n khích ti t di=(xi-yi) (di-D)2 ti t ki m (xi) ki m (yi) 1 73 69 4 0,34027 2 50 54 -4 55,00694 3 83 82 1 5,84027 4 78 67 11 57,50694 5 56 60 -4 55,00694 6 74 73 1 5,84027 7 74 75 -1 19,50694 8 87 78 9 31,17361 9 69 64 5 2,50694 10 72 72 0 11,67361 116
  20. 11 77 70 7 12,84028 12 75 63 12 73,67361 T ng 41 330,91670 Trung bình D=3,4167 Sd=5,4848 Nh v y D=3,4167, Sd=5,4848, t(11;0,025)=2,201 Thay vào công th c ta có: 5,4848 5,4848 3,4167 2,201 ( x y ) 3,4167 2,201 12 12 Suy ra -0,0682
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2