Chương 7

XỬ LÝ VÀ PHÂN TÍCH DỮ LIỆU

1

Mục tiêu chương 7

Chương này giúp học viên: Chương này giúp học viên:

• Hiểu được các khái niệm về xử lý dữ liệu Hiểu được các khái niệm về xử lý dữ liệu

• Phân biệt các phương pháp xử lý dữ liệu Phân biệt các phương pháp xử lý dữ liệu

• Biết được quy trình xử lý dữ liệu bằng SPSS Biết được quy trình xử lý dữ liệu bằng SPSS

• Giải thích được ý nghĩa kết quả nghiên cứu Giải thích được ý nghĩa kết quả nghiên cứu

2

Nội dung chương

5.1 Khái niệm về xử lý dữ liệu

5.2

Chuẩn bị dữ liệu

5.3 Mã hóa dữ liệu

5.4

Làm sạch dữ liệu

5.5 Xử lý và phân tích dữ liệu

3

7.1 Khái niệm về phương pháp xử lý dữ liệu

4

Khái niệm

 Xử lý dữ liệu là công việc diễn ra sau Xử lý dữ liệu là công việc diễn ra sau quá trình thu thập dữ liệu quá trình thu thập dữ liệu

 Nhiệm vụ của việc xử lý dữ liệu là Nhiệm vụ của việc xử lý dữ liệu là chuyển các dữ liệu dưới dạng thô chuyển các dữ liệu dưới dạng thô thành dữ liệu tinh thành dữ liệu tinh

5

Quá trình chuyển hóa dữ liệu

ữ ệ D  li u  tinh

X ö û  l y ù P ro ce ss

ữ ệ D  li u thô

6

Các phương pháp xử lý dữ liệu

 Phương pháp thủ công Phương pháp thủ công

- Phương pháp kiểm đếm - Phương pháp kiểm đếm (Tallying) (Tallying)

Phương pháp lựa ra và đếm - - Phương pháp lựa ra và đếm (Sorting and Counting) (Sorting and Counting)

7

Các phương pháp xử lý dữ liệu

 Phương pháp xử lý bằng máy tính Phương pháp xử lý bằng máy tính

- Sử dụng các chuyên viên xử lý dữ liệu - Sử dụng các chuyên viên xử lý dữ liệu

- Sử dụng các phần mềm xử lý dữ liệu trọn gói - Sử dụng các phần mềm xử lý dữ liệu trọn gói

- Phát triển các phần mềm riêng - Phát triển các phần mềm riêng

8

Quy trình xử lý dữ liệu

ữ ệ

1. Giá tr  hóa d  li u

2. Mã hóa các câu tr  l

iả ờ

Chuẩn bị dữ liệu

ữ ệ

3. Nh p d  li u vào máy tính

ữ ệ   ạ 4. Làm s ch d  li u

ữ ữ ệ

ư

5. L u tr  d  li u đ  phân tích

Lưu trữ và Phân tích

ữ ệ

6. Phân tích d  li u

9

7.2 Chuẩn bị dữ liệu

10

Công việc chuẩn bị dữ liệu

 Kiểm tra tính hợp lệ của dữ liệu Kiểm tra tính hợp lệ của dữ liệu

 Hiệu chỉnh dữ liệu Hiệu chỉnh dữ liệu

11

Kiểm tra tính hợp lệ của dữ liệu

 Kiểm tra bảng câu hỏi đã được trả lời: Kiểm tra bảng câu hỏi đã được trả lời: tính đầy đủ của bảng câu hỏi, việc ghi chép tính đầy đủ của bảng câu hỏi, việc ghi chép câu trả lời… câu trả lời…

 Kiểm tra tính logic của các câu trả lời Kiểm tra tính logic của các câu trả lời

 Xem xét những chỉ dẫn về thủ tục phỏng vấn Xem xét những chỉ dẫn về thủ tục phỏng vấn

 Kiểm tra tính trung thực của các câu trả lời Kiểm tra tính trung thực của các câu trả lời

12

Hiệu chỉnh dữ liệu

 Liên hệ trực tiếp phỏng vấn viên để làm Liên hệ trực tiếp phỏng vấn viên để làm sáng tỏ vấn đề: các câu trả lời không đọc sáng tỏ vấn đề: các câu trả lời không đọc được, không rõ ý… được, không rõ ý…

 Gặp và phỏng vấn lại đáp viên Gặp và phỏng vấn lại đáp viên

 Suy luận từ các câu trả lời khác Suy luận từ các câu trả lời khác

 Loại bỏ toàn bộ bản câu hỏi và tiến hành Loại bỏ toàn bộ bản câu hỏi và tiến hành phỏng vấn lại phỏng vấn lại

13

7.3 Mã hóa dữ liệu

14

Khái niệm

 Mã hóa dữ liệu (coding) là quá trình chuyển đổi Mã hóa dữ liệu (coding) là quá trình chuyển đổi các trả lời thành dạng mã số để nhập và xử lý các trả lời thành dạng mã số để nhập và xử lý dễ dàng dễ dàng

 Được thực hiện trước hoặc sau khi phỏng vấn Được thực hiện trước hoặc sau khi phỏng vấn

 Các ký hiệu mã hóa cho các biến và các trả lời Các ký hiệu mã hóa cho các biến và các trả lời được trình bày trong một sổ mã (code book) được trình bày trong một sổ mã (code book)

 Dữ liệu mã hóa xong được nhập vào máy dưới Dữ liệu mã hóa xong được nhập vào máy dưới dạng một ma trận gọi là ma trận dữ liệu dạng một ma trận gọi là ma trận dữ liệu

15

Mã hóa dữ liệu trên bảng câu hỏi

Mã hóa câu hỏi mở

Mã hóa câu hỏi đóng

• Nhóm các câu trả lời có

cùng ý nghĩa

• Gán các con số cho các

• Gán các con số cho các câu trả lời được liệt kê sẵn trên bảng câu hỏi

nhóm trả lời

16

Mã hóa dữ liệu trên bảng câu hỏi

Câu hỏi nhiều lựa chọn(MA)

Câu hỏi một lựa chọn (SA)

• Thực hành ví dụ:

- Phương pháp multiple category

 Bạn đánh giá mức thu nhập hiện

- Phương pháp multiple dichotomy

nay của bạn như thế nào?

• Ví dụ:

 Bạn hãy đánh dấu vào nhóm phần mềm

mà bạn có thể sử dụng được:

 Quản lý cơ sở dữ liệu

 Phần mềm soạn thảo văn bản

 quá thấp  thấp  trung bình  cao  rất cao  không trả lời

 Phần mềm bản tính

 Phần mềm tài chính kế toán

 Phần mềm truyền thông

17

 Phần mềm khác (xin nêu rõ):

Danh bạ mã hóa hay sổ mã hóa

Biến các trả lời thành các mã số, ký hiệu mà máy tính hiểu được

Giúp cho việc nhập liệu dễ dàng hơn

Giúp nhà nghiên cứu trong việc phân tích và diễn giải dữ liệu

18

Nội dung trong danh bạ mã hóa

• Số thứ tự của câu hỏi.

• Vấn đề của câu hỏi (thường là tóm tắt nội dung câu hỏi).

• Tên của biến số phát sinh từ câu hỏi

• Nhãn của biến số (variable label)

• Các giá trị mã hóa: là các giá trị mà biến số có thể nhận

được để biểu diễn thông tin được trả lời

• Nhãn giá trị mã hoá (Value Label) thường dùng để mô tả ý

nghĩa của các giá trị mã hóa.

19

Vấn đề câu hỏi

Tên biến số

Mô tả biến số

Các giá trị mã hóa

Mô tả các giá trị mã hóa

STT câu hỏi

REGI Vùng địa lý 1

Vùng phỏng vấn

Hà Nội Đà Nẵng TP.HCM Cần Thơ 1 2 3 4

USE 2

Có Không 1 2 Có sử dụng sữa rửa mặt không

3

BRAND Nhãn hiệu đang dùng

Sử dụng nhãn hiệu nào?

Pond’s Hazeline Biore Lana Nivea Naco Loại khác 1 2 3 4 5 6 7

4 TIME

Thời điểm sử dụng

20

Sử dụng sữa rửa mặt vào khi nào?

1 2 3 4 5 Sáng sớm khi thức dậy Buổi sáng Buổi trưa Buổi chiều Tối trước khi ngủ

Ý nghĩa câu hỏi

Mô tả giá trị mã hóa

Giá trị mã hóa

Câu hỏi (biến)

Q1

Giới tính đáp viên

Nam Nữ

1 2

Q2

Nghề nghiệp đáp viên

Bác sĩ Giáo viên Nhân viên văn phòng Công nhân Hưu trí Học sinh-sinh viên Khác-----

1 2 3 4 5 6 7

-----------

-----------------

-----------

------------------------------

Q22a

1 2 3

Q20b

Kém Trung bình Tốt

Đánh giá về bao bì sản phẩm Đánh giá về chất lượng sản phẩm

21

Ma trận dữ liệu

– Cột: là nơi quản lý các biến (các câu hỏi có trong

bảng câu hỏi)

– Loại câu hỏi một trả lời: chỉ cần một cột chứa các

giá trị trả lời

– Loại biến nhiều trả lời: nhiều cột chứa nhiều giá

trị trả lời có thể có

– Dòng: là nơi quản lý tất cả các quan sát (bằng

kích cỡ mẫu)

– Ô giao nhau giữa cột và dòng: là nơi chứa đựng giá trị trả lời của một câu hỏi trong một quan sát cụ thể.

22

23

7.4 Làm sạch dữ liệu

24

Làm sạch dữ liệu

 Dữ liệu sau khi nhập xong, chưa thể đưa Dữ liệu sau khi nhập xong, chưa thể đưa ngay vào xử lý ngay vào xử lý

 Nhằm phát hiện các sai sót do người kiểm Nhằm phát hiện các sai sót do người kiểm soát chưa phát hiện ra hoặc do nhập liệu soát chưa phát hiện ra hoặc do nhập liệu

25

Các phương pháp làm sạch dữ liệu

• Dùng bảng tần số Dùng bảng tần số

• Dùng bảng kết hợp giữa hai hay ba biến Dùng bảng kết hợp giữa hai hay ba biến

• Tìm lỗi đơn giản ngay trên cửa sổ dữ liệu Tìm lỗi đơn giản ngay trên cửa sổ dữ liệu (Data View) (Data View)

26

Bảng mô tả về mẫu nghiên cứu theo giới tính

Frequency

Percent

Valid  Percent

Cumulative  Percent

Valid Nam

248

49.6

49.6

49.6

Nữ

251

50.2

50.2

99.8

11

1

.2

.2

100.0

Total

500

100.0

100.0

27

7.5 Xử lý và phân tích dữ liệu

28

Phân tích dữ liệu

Phân tích dữ liệu thống kê bao gồm: Phân tích dữ liệu thống kê bao gồm:

• Thống kê mô tả Thống kê mô tả

• Thống kê suy diễn Thống kê suy diễn

29

Thống kê mô tả ( Descriptive Stactistics): Thống kê mô tả ( Descriptive Stactistics):

• Sử dụng bảng tần số Sử dụng bảng tần số

• Tính các đại lượng thống kê mô tả Tính các đại lượng thống kê mô tả

• Bảng kết hợp nhiều biến Bảng kết hợp nhiều biến

• Biểu đồ Biểu đồ

30

Bảng tần số đơn giản

• Dùng để đếm tần số về các biểu hiện của một

thuộc tính

• Được thực hiện với cả biến định tính và định lượng

• Cần tiến hành gom biến trước khi lập bảng tần số

với các biến định lượng có nhiều giá trị

31

Bảng tần số đơn giản

Phaàn

Tần số

Tyû leä %

Phần trăm coù yù nghóa

traêm tích luõy

Valid 1 - 3 trieäu

31

31.0

31.0

31.0

3 - 5 trieäu

45

45.0

45.0

76.0

19

19.0

19.0

95.0

5 - 7 trieäu

>7 trieäu

5

5.0

5.0

100.0

Tổng

100

100.0

100.0

32

Bảng tần số về tuổi đáp viên

Frequency

Percent

Cumulative  Percent

36 8 1.6 59.6

Valid

37 6 1.2 60.8 18 9 1.8 1.8

38 16 3.2 64.0 19 8 1.6 3.4

39 14 2.8 66.8 20 16 3.2 6.6

40 18 3.6 70.4 21 19 3.8 10.4

41 10 2.0 72.4 22 22 4.4 14.8

42 16 3.2 75.6 23 26 5.2 20.0

43 7 1.4 77.0 24 29 5.8 25.8

44 6 1.2 78.2 25 21 4.2 30.0

45 10 2.0 80.2 26 15 3.0 33.0

46 12 2.4 82.6 27 13 2.6 35.6

47 7 1.4 84.0 28 19 3.8 39.4

48 8 1.6 85.6 29 16 3.2 42.6

49 8 1.6 87.2 30 17 3.4 46.0

50 12 2.4 89.6 31 10 2.0 48.0

51 3 .6 90.2 32 18 3.6 51.6

52 7 1.4 33 8 1.6 53.2

53 4 .8 91.6 33 92.4 34 9 1.8 55.0

54 2.0 94.4 10 35 15 3.0 58.0

Total 100.0 500

Bảng tần số về độ tuổi đã được mã hóa lại

Frequency

Percent

Valid Percent

Cumulative  Percent

ộ ổ Đ  tu i

150

30.0

30.0

18­25

30.0

140

28.0

28.0

26­35

58.0

111

22.2

22.2

36­45

80.2

99

19.8

19.8

46­60

100.0

Total

500

100.0

100.0

34

Tính các đại lượng thống kê

 Các đại lượng đo lường độ tập trung phổ biến Các đại lượng đo lường độ tập trung phổ biến

• Mean:

Trung bình cộng Mean: Trung bình cộng

• Mode:

Giá trị có tần số quan sát lớn nhất Mode: Giá trị có tần số quan sát lớn nhất

• Std.Deviation: Độ lệch chuẩn Std.Deviation: Độ lệch chuẩn

• Minimum: Giá trị nhỏ nhất Minimum: Giá trị nhỏ nhất

• Maximum: Giá trị lớn nhất Maximum: Giá trị lớn nhất

• SE mean: Sai số chuẩn khi ước lượng trung SE mean: Sai số chuẩn khi ước lượng trung bìnhbình

35

Hình dáng của phân phối

36

Hình dáng của phân phối

37

Hình dáng của phân phối

38

Bảng tổng hợp nhiều biến

• Yêu cầu về thông tin đòi hỏi ta phải xem xét tần số hay tần suất của các biểu hiện của một hay nhiều biến theo sự phân loại của một số biến khác

 Ví dụ: ta muốn biết số người trong độ tuổi từ 18

đến 25 trong mẫu quan sát là bao nhiêu nam, bao nhiêu nữ

 Vậy ta có bảng kết hợp giữa độ tuổi và giới tính

39

Bảng tổng hợp nhiều biến(tt)

Bảng kết hợp giữa hai biến định tính

Bảng kết hợp giữa ba biến định tính

Bảng kết hợp giữa một biến định tính với một biến định lượng

Bảng kết hợp giữa hai biến định tính và một biến định lượng

40

Cơ cấu mẫu điều tra về độ tuổi theo từng nhóm giới tính

Gi

i tính

T ng ổ

Nam Nữ

T n sầ ố T n sầ ố % theo  c t ộ % theo  c tộ T n ầ su tấ % theo  c tộ

Độ tuổi

58 23.3% 92 36.7% 18­25

150 30.0%

71 28.5% 69 27.5% 26­35

140 28.0%

68 27.3% 43 17.1% 36­45

111 22.2%

99 19.8% 46­60 52 20.9% 47 18.7%

41

T ngổ 249 100.0% 251 100.0% 500 100.0%

Cơ cấu độ tuổi theo giới tính tại hai thành phố

Haø Noäi TPHCM

Nam Nöõ Toång Nam Nöõ Toång

28 40 68 30 52 82 18- 25

33 39 72 38 30 68 26- 35 Ñoä tuoåi

Tần số 30 22 52 38 21 59 36- 45

27 31 58 25 16 41 46-- 60

Toång 118 132 250 131 119 250

23.7% 30.3% 27.2% 22.9% 43.7% 32.8% 18- 25

28.0% 29.5% 28.8% 29.0% 25.2% 27.2% 26- 35 Ñoä tuoåi

42 23.6%

Tỷ lệ 25.4% 16.7% 20.8% 29.0% 17.6% 36- 45

46-- 22.9% 23.5% 23.2% 19.1% 13.4% 16.4% 60

Toång 100.0% 100.0% 100.0% 100.0% 100.0% 100.0%

Mô tả dữ liệu bằng biểu đồ

Hiệu quả trong việc trình bày và báo cáo kết quả, vì: Hiệu quả trong việc trình bày và báo cáo kết quả, vì:

 Thể hiện thông tin sinh động, trực quan và hấp dẫn Thể hiện thông tin sinh động, trực quan và hấp dẫn

 Thu hút sự chú ý của người đọc Thu hút sự chú ý của người đọc

 Giúp người xem dễ hiểu, dễ nhớ nên có tác dụng Giúp người xem dễ hiểu, dễ nhớ nên có tác dụng truyền đạt hiệu quả tốt truyền đạt hiệu quả tốt

43

Một số dạng biểu đồ thường sử dụng

• Biểu đồ thanh (Bar Chart) Biểu đồ thanh (Bar Chart)

- Thanh ngang

- Thanh đứng

• Biểu đồ

hình tròn (Pie Chart) Biểu đồ hình tròn (Pie Chart)

• Biều đồ diện tích Biều đồ diện tích

• Biểu đồ gấp khúc… Biểu đồ gấp khúc…

44

Các dịp sử dụng quần Jeans(biểu đồ thanh ngang

96%

Đi chơi

96%

Đi mua sắm

95%

Đi ăn uống (với nhiều người)

83%

Đi dạo (đi hóng mát)

79%

Đi dự tiệc

50%

Đi làm việc những ngày trong tuần

41%

Đi hội họp

41%

Đi làm việc những ngày cuối tuần

25%

Đi học

24%

Đi giao dịch với khách hàng

45

Các dịp sử dụng quần Jeans(biểu đồ thanh đứng)

96%

96%

95%

83%

79%

50%

41%

41%

25%

24%

46

Vậy khi nào chúng ta

sử dụng biểu đồ thanh ngang/thanh đứng?

47

Quần jean và quần kaki cũng được sử dụng chủ yếu cho việc đi mua sắm, đi dạo, đi chơi, đi ăn uống hoặc đi dự tiệc; và khoảng ½ người sử dụng quần jean và quần kaki mặc chúng để đi làm

Quần jean Quần tây Quần Kaki (n=183) (n=117) (n=83)

Đối tượng: Những người thường mua

Q4b

48

Dịp sử dụng quần

Thần tượng của giới trẻ

49

50

Thói quen mua các nhãn hiệu Quần Jean

Từng mua

Thường mua

Thường mua nhất

Q6. Nhãn hiệu quần jean đã từng mua? Thường mua? Thường mua nhất?

Đối tượng: Những người từng mua quần jean (n=219)

51

Biểu đồ diện tích

Chi tiêu cá nhân

52

Tỷ lệ sinh viên theo học các chuyên ngành

Kinh tế học 9%

Thương mại 16%

Marketing 25%

Tài chính ngân hàng 18%

Kế toán 32%

53

Kinh tế học 9%

Thương mại 16%

Marketing 25%

Tài chính ngân hàng 18%

• Biểu đồ nào dễ quan sát và so sánh hơn?

Kế toán 32%

Kinh tế học

9%

Marketing

25%

Kế toán

32%

Tài chính ngân hàng

18%

Thương mại

16%

54

Đánh giá nhãn hiệu áo

2

2.5

3

3.5

4

4.5

Mean score

Màu sắc sản phẩm phù hợp cho thời trang thông dụng

Chất liệu vải phù hợp với thời trang thông dụng

Dễ giặt/ ủi

Có chất lượng đường may cao

Có kiểu dệt mới lạ

Có độ bền sản phẩm cao

Có độ bền màu cao

Thiết kế phù hợp với các sản phẩm thời trang đi kèm

Giá cả hợp lý

Có kiểu dáng chững chạc

Có kiểu dáng hợp thời trang

Nhãn hiệu nổi tiếng

Nhãn hiệu uy tín

Sản xuất tại Việt Nam

Sản xuất tại nước ngoài

Được quảng cáo trên phương tiện thông tin đại chúng

Được bán rộng rãi

Cung cách phục vụ của nhân viên bán hàng niềm nở/ tận tình

Được bán tại các cửa hàng thời trang thông dụng thiết kế bắt mắt

Được sản xuất bởi công ty quy mô/ tầm cỡ

Có cửa hàng trưng bày và bán (showroom)

55

Đối tượng: Những người nhận biết nhãn hiệu có trợ giúp Q7a

Bossini (n=155) Thành công(n=75) F-house/Phương Đông(n=69) John Henry (n=37) Giordano (n=49)

Perceptual Map (Dim I  : Dim I I )

Treû trung

Hieän ñaïi

Gaàn guõi

Naêng ñoäng

Bossini

Thaønh Coâng

Bình daân

Chaát löôïng

Thôøi thöôïng Cao caáp

Ñoäc ñaùo

J ohn Henry

0.645 variance

Quoàc teá

Thanh lòch

Giordano

Nghieâm tuùc

Laâu ñôøi

F-House

Coå ñieån

0.247 variance

56

Cá tính thương hiệu

Đối tượng: Những người nhận biết nhãn hiệu có trợ giúp - Nhóm kinh doanh/giao tiếp- Q20

CÂU HỎI VÀ THẢO LUẬN

1. Mã hóa dữ liệu là gì? Vì sao phải mã hóa dữ

liệu? Mã hóa câu hỏi đóng và câu hỏi mở có gì khác nhau?

2. Trình bày ưu điểm, nhược điểm của hai

phương pháp mã hóa

3. Mô tả dữ liệu bằng bảng và đồ thị có ưu nhược điểm gì? Khi nào nhà nghiên cứu mô tả dữ liệu bằng biểu đồ hình tròn, hình thanh.

4. Hãy mã hóa các câu hỏi sau đây?

57

THỰC HÀNH MÃ HÓA CÂU HỎI

a) Bạn đánh giá khả năng của bạn về việc sử dụng các phần

mềm sau đây:

Tốt Khá Trung bình Không biết sử dụng

MS Word

MS Excel

MS Access

MS Power Point

Corel Draws

SPSS

58

Phần mềm khác

b) Khi đi mua xe hơi ở một cửa hàng, bạn hãy sắp xếp thứ tự các yếu tố sau theo mức độ quan trọng của nó giảm dần từ (1 đến 6).

----Giá cả thích hợp

----Xe vừa ý

----Người bán quen biết trước

----Vị trí cửa hàng thuận lợi

----Dịch vụ bán hàng tốt

----Được bạn bè hay người thân giới thiệu

59