Chương 7
XỬ LÝ VÀ PHÂN TÍCH DỮ LIỆU
1
Mục tiêu chương 7
Chương này giúp học viên: Chương này giúp học viên:
• Hiểu được các khái niệm về xử lý dữ liệu Hiểu được các khái niệm về xử lý dữ liệu
• Phân biệt các phương pháp xử lý dữ liệu Phân biệt các phương pháp xử lý dữ liệu
• Biết được quy trình xử lý dữ liệu bằng SPSS Biết được quy trình xử lý dữ liệu bằng SPSS
• Giải thích được ý nghĩa kết quả nghiên cứu Giải thích được ý nghĩa kết quả nghiên cứu
2
Nội dung chương
5.1 Khái niệm về xử lý dữ liệu
5.2
Chuẩn bị dữ liệu
5.3 Mã hóa dữ liệu
5.4
Làm sạch dữ liệu
5.5 Xử lý và phân tích dữ liệu
3
7.1 Khái niệm về phương pháp xử lý dữ liệu
4
Khái niệm
Xử lý dữ liệu là công việc diễn ra sau Xử lý dữ liệu là công việc diễn ra sau quá trình thu thập dữ liệu quá trình thu thập dữ liệu
Nhiệm vụ của việc xử lý dữ liệu là Nhiệm vụ của việc xử lý dữ liệu là chuyển các dữ liệu dưới dạng thô chuyển các dữ liệu dưới dạng thô thành dữ liệu tinh thành dữ liệu tinh
5
Quá trình chuyển hóa dữ liệu
ữ ệ D li u tinh
X ö û l y ù P ro ce ss
ữ ệ D li u thô
6
Các phương pháp xử lý dữ liệu
Phương pháp thủ công Phương pháp thủ công
- Phương pháp kiểm đếm - Phương pháp kiểm đếm (Tallying) (Tallying)
Phương pháp lựa ra và đếm - - Phương pháp lựa ra và đếm (Sorting and Counting) (Sorting and Counting)
7
Các phương pháp xử lý dữ liệu
Phương pháp xử lý bằng máy tính Phương pháp xử lý bằng máy tính
- Sử dụng các chuyên viên xử lý dữ liệu - Sử dụng các chuyên viên xử lý dữ liệu
- Sử dụng các phần mềm xử lý dữ liệu trọn gói - Sử dụng các phần mềm xử lý dữ liệu trọn gói
- Phát triển các phần mềm riêng - Phát triển các phần mềm riêng
8
Quy trình xử lý dữ liệu
ữ ệ
ị
1. Giá tr hóa d li u
2. Mã hóa các câu tr l
iả ờ
Chuẩn bị dữ liệu
ữ ệ
ậ
3. Nh p d li u vào máy tính
ữ ệ ạ 4. Làm s ch d li u
ữ ữ ệ
ư
ể
5. L u tr d li u đ phân tích
Lưu trữ và Phân tích
ữ ệ
6. Phân tích d li u
9
7.2 Chuẩn bị dữ liệu
10
Công việc chuẩn bị dữ liệu
Kiểm tra tính hợp lệ của dữ liệu Kiểm tra tính hợp lệ của dữ liệu
Hiệu chỉnh dữ liệu Hiệu chỉnh dữ liệu
11
Kiểm tra tính hợp lệ của dữ liệu
Kiểm tra bảng câu hỏi đã được trả lời: Kiểm tra bảng câu hỏi đã được trả lời: tính đầy đủ của bảng câu hỏi, việc ghi chép tính đầy đủ của bảng câu hỏi, việc ghi chép câu trả lời… câu trả lời…
Kiểm tra tính logic của các câu trả lời Kiểm tra tính logic của các câu trả lời
Xem xét những chỉ dẫn về thủ tục phỏng vấn Xem xét những chỉ dẫn về thủ tục phỏng vấn
Kiểm tra tính trung thực của các câu trả lời Kiểm tra tính trung thực của các câu trả lời
12
Hiệu chỉnh dữ liệu
Liên hệ trực tiếp phỏng vấn viên để làm Liên hệ trực tiếp phỏng vấn viên để làm sáng tỏ vấn đề: các câu trả lời không đọc sáng tỏ vấn đề: các câu trả lời không đọc được, không rõ ý… được, không rõ ý…
Gặp và phỏng vấn lại đáp viên Gặp và phỏng vấn lại đáp viên
Suy luận từ các câu trả lời khác Suy luận từ các câu trả lời khác
Loại bỏ toàn bộ bản câu hỏi và tiến hành Loại bỏ toàn bộ bản câu hỏi và tiến hành phỏng vấn lại phỏng vấn lại
13
7.3 Mã hóa dữ liệu
14
Khái niệm
Mã hóa dữ liệu (coding) là quá trình chuyển đổi Mã hóa dữ liệu (coding) là quá trình chuyển đổi các trả lời thành dạng mã số để nhập và xử lý các trả lời thành dạng mã số để nhập và xử lý dễ dàng dễ dàng
Được thực hiện trước hoặc sau khi phỏng vấn Được thực hiện trước hoặc sau khi phỏng vấn
Các ký hiệu mã hóa cho các biến và các trả lời Các ký hiệu mã hóa cho các biến và các trả lời được trình bày trong một sổ mã (code book) được trình bày trong một sổ mã (code book)
Dữ liệu mã hóa xong được nhập vào máy dưới Dữ liệu mã hóa xong được nhập vào máy dưới dạng một ma trận gọi là ma trận dữ liệu dạng một ma trận gọi là ma trận dữ liệu
15
Mã hóa dữ liệu trên bảng câu hỏi
Mã hóa câu hỏi mở
Mã hóa câu hỏi đóng
• Nhóm các câu trả lời có
cùng ý nghĩa
• Gán các con số cho các
• Gán các con số cho các câu trả lời được liệt kê sẵn trên bảng câu hỏi
nhóm trả lời
16
Mã hóa dữ liệu trên bảng câu hỏi
Câu hỏi nhiều lựa chọn(MA)
Câu hỏi một lựa chọn (SA)
• Thực hành ví dụ:
- Phương pháp multiple category
Bạn đánh giá mức thu nhập hiện
- Phương pháp multiple dichotomy
nay của bạn như thế nào?
• Ví dụ:
Bạn hãy đánh dấu vào nhóm phần mềm
mà bạn có thể sử dụng được:
Quản lý cơ sở dữ liệu
Phần mềm soạn thảo văn bản
quá thấp thấp trung bình cao rất cao không trả lời
Phần mềm bản tính
Phần mềm tài chính kế toán
Phần mềm truyền thông
17
Phần mềm khác (xin nêu rõ):
Danh bạ mã hóa hay sổ mã hóa
•
Biến các trả lời thành các mã số, ký hiệu mà máy tính hiểu được
•
Giúp cho việc nhập liệu dễ dàng hơn
•
Giúp nhà nghiên cứu trong việc phân tích và diễn giải dữ liệu
18
Nội dung trong danh bạ mã hóa
• Số thứ tự của câu hỏi.
• Vấn đề của câu hỏi (thường là tóm tắt nội dung câu hỏi).
• Tên của biến số phát sinh từ câu hỏi
• Nhãn của biến số (variable label)
• Các giá trị mã hóa: là các giá trị mà biến số có thể nhận
được để biểu diễn thông tin được trả lời
• Nhãn giá trị mã hoá (Value Label) thường dùng để mô tả ý
nghĩa của các giá trị mã hóa.
19
Vấn đề câu hỏi
Tên biến số
Mô tả biến số
Các giá trị mã hóa
Mô tả các giá trị mã hóa
STT câu hỏi
REGI Vùng địa lý 1
Vùng phỏng vấn
Hà Nội Đà Nẵng TP.HCM Cần Thơ 1 2 3 4
USE 2
Có Không 1 2 Có sử dụng sữa rửa mặt không
3
BRAND Nhãn hiệu đang dùng
Sử dụng nhãn hiệu nào?
Pond’s Hazeline Biore Lana Nivea Naco Loại khác 1 2 3 4 5 6 7
4 TIME
Thời điểm sử dụng
20
Sử dụng sữa rửa mặt vào khi nào?
1 2 3 4 5 Sáng sớm khi thức dậy Buổi sáng Buổi trưa Buổi chiều Tối trước khi ngủ
Ý nghĩa câu hỏi
Mô tả giá trị mã hóa
Giá trị mã hóa
Câu hỏi (biến)
Q1
Giới tính đáp viên
Nam Nữ
1 2
Q2
Nghề nghiệp đáp viên
Bác sĩ Giáo viên Nhân viên văn phòng Công nhân Hưu trí Học sinh-sinh viên Khác-----
1 2 3 4 5 6 7
-----------
-----------------
-----------
------------------------------
Q22a
1 2 3
Q20b
Kém Trung bình Tốt
Đánh giá về bao bì sản phẩm Đánh giá về chất lượng sản phẩm
21
Ma trận dữ liệu
– Cột: là nơi quản lý các biến (các câu hỏi có trong
bảng câu hỏi)
– Loại câu hỏi một trả lời: chỉ cần một cột chứa các
giá trị trả lời
– Loại biến nhiều trả lời: nhiều cột chứa nhiều giá
trị trả lời có thể có
– Dòng: là nơi quản lý tất cả các quan sát (bằng
kích cỡ mẫu)
– Ô giao nhau giữa cột và dòng: là nơi chứa đựng giá trị trả lời của một câu hỏi trong một quan sát cụ thể.
22
23
7.4 Làm sạch dữ liệu
24
Làm sạch dữ liệu
Dữ liệu sau khi nhập xong, chưa thể đưa Dữ liệu sau khi nhập xong, chưa thể đưa ngay vào xử lý ngay vào xử lý
Nhằm phát hiện các sai sót do người kiểm Nhằm phát hiện các sai sót do người kiểm soát chưa phát hiện ra hoặc do nhập liệu soát chưa phát hiện ra hoặc do nhập liệu
25
Các phương pháp làm sạch dữ liệu
• Dùng bảng tần số Dùng bảng tần số
• Dùng bảng kết hợp giữa hai hay ba biến Dùng bảng kết hợp giữa hai hay ba biến
• Tìm lỗi đơn giản ngay trên cửa sổ dữ liệu Tìm lỗi đơn giản ngay trên cửa sổ dữ liệu (Data View) (Data View)
26
Bảng mô tả về mẫu nghiên cứu theo giới tính
Frequency
Percent
Valid Percent
Cumulative Percent
Valid Nam
248
49.6
49.6
49.6
Nữ
251
50.2
50.2
99.8
11
1
.2
.2
100.0
Total
500
100.0
100.0
27
7.5 Xử lý và phân tích dữ liệu
28
Phân tích dữ liệu
Phân tích dữ liệu thống kê bao gồm: Phân tích dữ liệu thống kê bao gồm:
• Thống kê mô tả Thống kê mô tả
• Thống kê suy diễn Thống kê suy diễn
29
Thống kê mô tả ( Descriptive Stactistics): Thống kê mô tả ( Descriptive Stactistics):
• Sử dụng bảng tần số Sử dụng bảng tần số
• Tính các đại lượng thống kê mô tả Tính các đại lượng thống kê mô tả
• Bảng kết hợp nhiều biến Bảng kết hợp nhiều biến
• Biểu đồ Biểu đồ
30
Bảng tần số đơn giản
• Dùng để đếm tần số về các biểu hiện của một
thuộc tính
• Được thực hiện với cả biến định tính và định lượng
• Cần tiến hành gom biến trước khi lập bảng tần số
với các biến định lượng có nhiều giá trị
31
Bảng tần số đơn giản
Phaàn
Tần số
Tyû leä %
Phần trăm coù yù nghóa
traêm tích luõy
Valid 1 - 3 trieäu
31
31.0
31.0
31.0
3 - 5 trieäu
45
45.0
45.0
76.0
19
19.0
19.0
95.0
5 - 7 trieäu
>7 trieäu
5
5.0
5.0
100.0
Tổng
100
100.0
100.0
32
Bảng tần số về tuổi đáp viên
Frequency
Percent
Cumulative Percent
36 8 1.6 59.6
Valid
37 6 1.2 60.8 18 9 1.8 1.8
38 16 3.2 64.0 19 8 1.6 3.4
39 14 2.8 66.8 20 16 3.2 6.6
40 18 3.6 70.4 21 19 3.8 10.4
41 10 2.0 72.4 22 22 4.4 14.8
42 16 3.2 75.6 23 26 5.2 20.0
43 7 1.4 77.0 24 29 5.8 25.8
44 6 1.2 78.2 25 21 4.2 30.0
45 10 2.0 80.2 26 15 3.0 33.0
46 12 2.4 82.6 27 13 2.6 35.6
47 7 1.4 84.0 28 19 3.8 39.4
48 8 1.6 85.6 29 16 3.2 42.6
49 8 1.6 87.2 30 17 3.4 46.0
50 12 2.4 89.6 31 10 2.0 48.0
51 3 .6 90.2 32 18 3.6 51.6
52 7 1.4 33 8 1.6 53.2
53 4 .8 91.6 33 92.4 34 9 1.8 55.0
54 2.0 94.4 10 35 15 3.0 58.0
Total 100.0 500
Bảng tần số về độ tuổi đã được mã hóa lại
Frequency
Percent
Valid Percent
Cumulative Percent
ộ ổ Đ tu i
150
30.0
30.0
1825
30.0
140
28.0
28.0
2635
58.0
111
22.2
22.2
3645
80.2
99
19.8
19.8
4660
100.0
Total
500
100.0
100.0
34
Tính các đại lượng thống kê
Các đại lượng đo lường độ tập trung phổ biến Các đại lượng đo lường độ tập trung phổ biến
• Mean:
Trung bình cộng Mean: Trung bình cộng
• Mode:
Giá trị có tần số quan sát lớn nhất Mode: Giá trị có tần số quan sát lớn nhất
• Std.Deviation: Độ lệch chuẩn Std.Deviation: Độ lệch chuẩn
• Minimum: Giá trị nhỏ nhất Minimum: Giá trị nhỏ nhất
• Maximum: Giá trị lớn nhất Maximum: Giá trị lớn nhất
• SE mean: Sai số chuẩn khi ước lượng trung SE mean: Sai số chuẩn khi ước lượng trung bìnhbình
35
Hình dáng của phân phối
36
Hình dáng của phân phối
37
Hình dáng của phân phối
38
Bảng tổng hợp nhiều biến
• Yêu cầu về thông tin đòi hỏi ta phải xem xét tần số hay tần suất của các biểu hiện của một hay nhiều biến theo sự phân loại của một số biến khác
Ví dụ: ta muốn biết số người trong độ tuổi từ 18
đến 25 trong mẫu quan sát là bao nhiêu nam, bao nhiêu nữ
Vậy ta có bảng kết hợp giữa độ tuổi và giới tính
39
Bảng tổng hợp nhiều biến(tt)
•
Bảng kết hợp giữa hai biến định tính
•
Bảng kết hợp giữa ba biến định tính
•
Bảng kết hợp giữa một biến định tính với một biến định lượng
•
Bảng kết hợp giữa hai biến định tính và một biến định lượng
40
Cơ cấu mẫu điều tra về độ tuổi theo từng nhóm giới tính
ớ
Gi
i tính
T ng ổ
Nam Nữ
T n sầ ố T n sầ ố % theo c t ộ % theo c tộ T n ầ su tấ % theo c tộ
Độ tuổi
58 23.3% 92 36.7% 1825
150 30.0%
71 28.5% 69 27.5% 2635
140 28.0%
68 27.3% 43 17.1% 3645
111 22.2%
99 19.8% 4660 52 20.9% 47 18.7%
41
T ngổ 249 100.0% 251 100.0% 500 100.0%
Cơ cấu độ tuổi theo giới tính tại hai thành phố
Haø Noäi TPHCM
Nam Nöõ Toång Nam Nöõ Toång
28 40 68 30 52 82 18- 25
33 39 72 38 30 68 26- 35 Ñoä tuoåi
Tần số 30 22 52 38 21 59 36- 45
27 31 58 25 16 41 46-- 60
Toång 118 132 250 131 119 250
23.7% 30.3% 27.2% 22.9% 43.7% 32.8% 18- 25
28.0% 29.5% 28.8% 29.0% 25.2% 27.2% 26- 35 Ñoä tuoåi
42 23.6%
Tỷ lệ 25.4% 16.7% 20.8% 29.0% 17.6% 36- 45
46-- 22.9% 23.5% 23.2% 19.1% 13.4% 16.4% 60
Toång 100.0% 100.0% 100.0% 100.0% 100.0% 100.0%
Mô tả dữ liệu bằng biểu đồ
Hiệu quả trong việc trình bày và báo cáo kết quả, vì: Hiệu quả trong việc trình bày và báo cáo kết quả, vì:
Thể hiện thông tin sinh động, trực quan và hấp dẫn Thể hiện thông tin sinh động, trực quan và hấp dẫn
Thu hút sự chú ý của người đọc Thu hút sự chú ý của người đọc
Giúp người xem dễ hiểu, dễ nhớ nên có tác dụng Giúp người xem dễ hiểu, dễ nhớ nên có tác dụng truyền đạt hiệu quả tốt truyền đạt hiệu quả tốt
43
Một số dạng biểu đồ thường sử dụng
• Biểu đồ thanh (Bar Chart) Biểu đồ thanh (Bar Chart)
- Thanh ngang
- Thanh đứng
• Biểu đồ
hình tròn (Pie Chart) Biểu đồ hình tròn (Pie Chart)
• Biều đồ diện tích Biều đồ diện tích
• Biểu đồ gấp khúc… Biểu đồ gấp khúc…
44
Các dịp sử dụng quần Jeans(biểu đồ thanh ngang
96%
Đi chơi
96%
Đi mua sắm
95%
Đi ăn uống (với nhiều người)
83%
Đi dạo (đi hóng mát)
79%
Đi dự tiệc
50%
Đi làm việc những ngày trong tuần
41%
Đi hội họp
41%
Đi làm việc những ngày cuối tuần
25%
Đi học
24%
Đi giao dịch với khách hàng
45
Các dịp sử dụng quần Jeans(biểu đồ thanh đứng)
96%
96%
95%
83%
79%
50%
41%
41%
25%
24%
46
Vậy khi nào chúng ta
sử dụng biểu đồ thanh ngang/thanh đứng?
47
Quần jean và quần kaki cũng được sử dụng chủ yếu cho việc đi mua sắm, đi dạo, đi chơi, đi ăn uống hoặc đi dự tiệc; và khoảng ½ người sử dụng quần jean và quần kaki mặc chúng để đi làm
Quần jean Quần tây Quần Kaki (n=183) (n=117) (n=83)
Đối tượng: Những người thường mua
Q4b
48
Dịp sử dụng quần
Thần tượng của giới trẻ
49
50
Thói quen mua các nhãn hiệu Quần Jean
Từng mua
Thường mua
Thường mua nhất
Q6. Nhãn hiệu quần jean đã từng mua? Thường mua? Thường mua nhất?
Đối tượng: Những người từng mua quần jean (n=219)
51
Biểu đồ diện tích
Chi tiêu cá nhân
52
Tỷ lệ sinh viên theo học các chuyên ngành
Kinh tế học 9%
Thương mại 16%
Marketing 25%
Tài chính ngân hàng 18%
Kế toán 32%
53
Kinh tế học 9%
Thương mại 16%
Marketing 25%
Tài chính ngân hàng 18%
• Biểu đồ nào dễ quan sát và so sánh hơn?
Kế toán 32%
Kinh tế học
9%
Marketing
25%
Kế toán
32%
Tài chính ngân hàng
18%
Thương mại
16%
54
Đánh giá nhãn hiệu áo
2
2.5
3
3.5
4
4.5
Mean score
Màu sắc sản phẩm phù hợp cho thời trang thông dụng
Chất liệu vải phù hợp với thời trang thông dụng
Dễ giặt/ ủi
Có chất lượng đường may cao
Có kiểu dệt mới lạ
Có độ bền sản phẩm cao
Có độ bền màu cao
Thiết kế phù hợp với các sản phẩm thời trang đi kèm
Giá cả hợp lý
Có kiểu dáng chững chạc
Có kiểu dáng hợp thời trang
Nhãn hiệu nổi tiếng
Nhãn hiệu uy tín
Sản xuất tại Việt Nam
Sản xuất tại nước ngoài
Được quảng cáo trên phương tiện thông tin đại chúng
Được bán rộng rãi
Cung cách phục vụ của nhân viên bán hàng niềm nở/ tận tình
Được bán tại các cửa hàng thời trang thông dụng thiết kế bắt mắt
Được sản xuất bởi công ty quy mô/ tầm cỡ
Có cửa hàng trưng bày và bán (showroom)
55
Đối tượng: Những người nhận biết nhãn hiệu có trợ giúp Q7a
Bossini (n=155) Thành công(n=75) F-house/Phương Đông(n=69) John Henry (n=37) Giordano (n=49)
Perceptual Map (Dim I : Dim I I )
Treû trung
Hieän ñaïi
Gaàn guõi
Naêng ñoäng
Bossini
Thaønh Coâng
Bình daân
Chaát löôïng
Thôøi thöôïng Cao caáp
Ñoäc ñaùo
J ohn Henry
0.645 variance
Quoàc teá
Thanh lòch
Giordano
Nghieâm tuùc
Laâu ñôøi
F-House
Coå ñieån
0.247 variance
56
Cá tính thương hiệu
Đối tượng: Những người nhận biết nhãn hiệu có trợ giúp - Nhóm kinh doanh/giao tiếp- Q20
CÂU HỎI VÀ THẢO LUẬN
1. Mã hóa dữ liệu là gì? Vì sao phải mã hóa dữ
liệu? Mã hóa câu hỏi đóng và câu hỏi mở có gì khác nhau?
2. Trình bày ưu điểm, nhược điểm của hai
phương pháp mã hóa
3. Mô tả dữ liệu bằng bảng và đồ thị có ưu nhược điểm gì? Khi nào nhà nghiên cứu mô tả dữ liệu bằng biểu đồ hình tròn, hình thanh.
4. Hãy mã hóa các câu hỏi sau đây?
57
THỰC HÀNH MÃ HÓA CÂU HỎI
a) Bạn đánh giá khả năng của bạn về việc sử dụng các phần
mềm sau đây:
Tốt Khá Trung bình Không biết sử dụng
MS Word
MS Excel
MS Access
MS Power Point
Corel Draws
SPSS
58
Phần mềm khác
b) Khi đi mua xe hơi ở một cửa hàng, bạn hãy sắp xếp thứ tự các yếu tố sau theo mức độ quan trọng của nó giảm dần từ (1 đến 6).
----Giá cả thích hợp
----Xe vừa ý
----Người bán quen biết trước
----Vị trí cửa hàng thuận lợi
----Dịch vụ bán hàng tốt
----Được bạn bè hay người thân giới thiệu
59