TIN HỌC ỨNG DỤNG PHÂN TÍCH DỮ LIỆU NGHIÊN CỨU VỚI SPSS
BÀI 4: CÁC PHÉP BIẾN ĐỔI DỮ LIỆU
MỤC TIÊU
u ứ c
n ê
• Hiểu và áp dụng được các phương pháp biến đổi dữ liệu phù hợp với yêu cầu nghiên cứu.
h g n
u ệ
i
i l
• Hiểu và áp dụng được các phương pháp xử lý lỗi phát sinh trong quá trình nhập liệu.
ữ d
ổ đ n ế
i
B
i
• Tổ chức và làm việc nhóm xây dựng bảng câu hỏi khảo sát, tiến hành khảo sát, nhập và xử lý dữ liệu.
: g n ụ d g n ứ
c ọ h n
T
… những bước chập chững vào thế giới số …
i
namth@buh.edu.vn
1
NỘI DUNG
• Xử lý dữ liệu trên biến
u ứ c n ê
– Mã hóa biến với công cụ Recode
h g n u ệ
– Chuyển định dạng của biến
i
ữ d
i l
– Tính toán giá trị của biến với công cụ Compute
ổ đ n ế
– Xử lý câu hỏi có nhiều lựa chọn trả lời
i
B
i
• Làm sạch dữ liệu
: g n ụ d
– Dữ liệu lỗi và các biện pháp khắc phục
g n ứ
c ọ h
– Các phương pháp làm sạch dữ liệu
n
T
… những bước chập chững vào thế giới số …
i
namth@buh.edu.vn
CÁC PHÉP BIẾN ĐỔI DỮ LIỆU
• Mục đích
u ứ c
n ê
– Xử lý sai sót trong quá trình mã hóa, nhập liệu
h g n
u ệ
– Biến đổi dữ liệu để phát hiện mối quan hệ giữa các biến
i
ữ d
i l
i
• Phân loại
ổ đ n ế
– Xử lý dữ liệu trên biến
B
– Làm sạch dữ liệu
: g n ụ d g n ứ
c ọ h n
i
T
… những bước chập chững vào thế giới số …
i
namth@buh.edu.vn
2
XỬ LÝ DỮ LIỆU TRÊN BIẾN
• Mã hóa biến với công cụ Recode
u ứ c n ê
i
• Chuyển định dạng của biến
h g n u ệ
i l
• Tính toán giá trị của biến với công cụ Compute
ữ d
i
• Xử lý câu hỏi có nhiều lựa chọn trả lời
ổ đ n ế
B
: g n ụ d
g n ứ
c ọ h
n
i
T
… những bước chập chững vào thế giới số …
i
namth@buh.edu.vn
MÃ HÓA BIẾN VỚI RECODE
• Mục đích
u ứ c
n ê
– Biến đổi trị số dữ liệu bằng cách mã hóa lại chúng
h g n
u ệ
i
i
• Điều kiện áp dụng
ữ d
l
– Giảm số biểu hiện của một biến định tính xuống chỉ còn
hai hoặc ba loại biểu hiện cơ bản
ổ đ n ế
i
B
– Chuyển biến định lượng thành biến định tính
: g n ụ d g n ứ
c ọ h n
i
T
… những bước chập chững vào thế giới số …
i
namth@buh.edu.vn
3
MÃ HÓA BIẾN VỚI RECODE
• Quy trình thực hiện
u ứ c n ê
– Gọi thực hiện chức năng Transform -> Recode -> Into Different Variables (giữ nguyên biến gốc, tạo biến mới)
h g n u ệ
i
– Chọn biến muốn mã hóa lại
ữ d
i l
– Đặt tên và nhãn cho biến mới, nhấn nút Change để xác
ổ đ n ế
i
nhận
B
– Nhấn nút Old and New Values để xác định sự chuyển
: g n ụ d
đổi giá trị giữa biến cũ và biến mới
g n ứ
– Gán các nhãn giá trị cho biến vừa tạo
c ọ h
n
i
T
… những bước chập chững vào thế giới số …
i
namth@buh.edu.vn
MÃ HÓA BIẾN VỚI RECODE
u ứ c
n ê
h g n
u ệ
i
ữ d
i l
ổ đ n ế
i
B
: g n ụ d g n ứ
c ọ h n
i
T
… những bước chập chững vào thế giới số …
i
namth@buh.edu.vn
4
CHUYỂN ĐỊNH DẠNG CỦA BIẾN
• Mục đích
u ứ c n ê
– Chuyển biến dạng phân loại Category nhiều trị số thành
biến phân loại Dichotomy có hai trị số
h g n u ệ
i
i l
• Ví dụ
ữ d
– BankAccount là biến phân loại, cho biết tên ngân hàng
ổ đ n ế
i
B
quản lý tài khoản lương của người được hỏi
– SalaryThrBank là biến phân loại, cho biết người được
: g n ụ d
hỏi có nhận lương qua ngân hàng VCB hay không
g n ứ
c ọ h
n
i
T
… những bước chập chững vào thế giới số …
i
namth@buh.edu.vn
CHUYỂN ĐỊNH DẠNG CỦA BIẾN
• Quy trình thực hiện
u ứ c
n ê
– Gọi thực hiện chức năng Transform -> Count
h g n
u ệ
– Khai báo tên và nhãn của biến Dichotomy
i
ữ d
i l
– Cung cấp (các) biến Category có liên quan tới biến
Dichotomy
ổ đ n ế
i
B
– Cung cấp trị số mã hóa của (các) biến Category có liên
quan tới biến Dichotomy
: g n ụ d g n ứ
– Gán nhãn các giá trị của biến Dichotomy
c ọ h n
i
T
… những bước chập chững vào thế giới số …
i
namth@buh.edu.vn
5
CHUYỂN ĐỊNH DẠNG CỦA BIẾN
u ứ c n ê
h g n u ệ
i
ữ d
i l
ổ đ n ế
i
B
: g n ụ d
g n ứ
c ọ h
n
i
T
… những bước chập chững vào thế giới số …
i
namth@buh.edu.vn
LÀM SẠCH DỮ LIỆU
• Dữ liệu lỗi và các biện pháp khắc phục
u ứ c
n ê
i
• Các phương pháp làm sạch dữ liệu
h g n
u ệ
ữ d
i l
ổ đ n ế
i
B
: g n ụ d g n ứ
c ọ h n
i
T
… những bước chập chững vào thế giới số …
i
namth@buh.edu.vn
6
DỮ LIỆU LỖI
• Lỗi mã hóa dữ liệu
u ứ c n ê
i
• Lỗi nhập dữ liệu
h g n u ệ
i l
• Lỗi về tính nhất quán của dữ liệu
ữ d
ổ đ n ế
i
B
: g n ụ d
g n ứ
c ọ h
n
i
T
… những bước chập chững vào thế giới số …
i
namth@buh.edu.vn
LỖI MÃ HÓA DỮ LIỆU
• Mô tả
u ứ c
n ê
– Dữ liệu nhập không phản ánh đúng ý nghĩa của thông
h g n
tin do người được hỏi cung cấp
u ệ
i
ữ d
i l
• Nguyên nhân
– Mã hóa sai thông tin do người được hỏi cung cấp
ổ đ n ế
i
B
: g n ụ d g n ứ
c ọ h n
i
T
… những bước chập chững vào thế giới số …
i
namth@buh.edu.vn
7
LỖI NHẬP DỮ LIỆU
• Mô tả
u ứ c n ê
– Dữ liệu nhập không đúng với bảng mã theo thông tin do
người được hỏi cung cấp
h g n u ệ
i
i l
• Nguyên nhân
ữ d
– Mã đọc sai
ổ đ n ế
i
B
– Mã đọc đúng nhưng lỗi do đánh máy
: g n ụ d
g n ứ
c ọ h
n
i
T
… những bước chập chững vào thế giới số …
i
namth@buh.edu.vn
LỖI NHẤT QUÁN DỮ LIỆU
• Mô tả
u ứ c
n ê
– Không nhất quán giữa các câu trả lời của cùng một đối
h g n
tượng được hỏi
u ệ
i
ữ d
i l
• Nguyên nhân
– Lỗi mã hóa dữ liệu
ổ đ n ế
i
B
– Lỗi nhập dữ liệu
– Lỗi do đối tượng được hỏi cung cấp sai thông tin
: g n ụ d g n ứ
c ọ h n
i
T
… những bước chập chững vào thế giới số …
i
namth@buh.edu.vn
8
KHẮC PHỤC LỖI MÃ HÓA VÀ NHẬP LIỆU
• Nhập toàn bộ số liệu hai lần bởi hai người độc lập
u ứ c n ê
i
• Nhập toàn bộ số liệu một lần, nhập lần hai 20% bộ số liệu (chọn ngẫu nhiên) bởi hai người độc lập
h g n u ệ
ữ d
i l
ổ đ n ế
i
B
: g n ụ d
g n ứ
c ọ h
n
i
T
… những bước chập chững vào thế giới số …
i
namth@buh.edu.vn
LÀM SẠCH DỮ LIỆU
• Sự cần thiết
u ứ c
n ê
– Xử lý các lỗi phát sinh trong quá trình mã hóa dữ liệu,
h g n
nhập dữ liệu
u ệ
i
– Đảm bảo tính nhất quán của dữ liệu
ữ d
i l
i
• Các biện pháp ngăn ngừa
ổ đ n ế
B
– Thiết kế bảng câu hỏi rõ ràng, dễ trả lời
– Chọn lọc và huấn luyện điều tra viên
: g n ụ d g n ứ
– Các bảng câu hỏi cần kiểm tra, xử lý lỗi trước khi nhập
c ọ h n
i
T
… những bước chập chững vào thế giới số …
i
namth@buh.edu.vn
9
LÀM SẠCH DỮ LIỆU
u ứ c n ê
• Kết hợp sử dụng MS Excel và SPSS để phát hiện, xử lý lỗi và làm sạch dữ liệu
– Sử dụng Excel (Max, Min, Auto Filter, Scatter)
h g n u ệ
i
– Sử dụng SPSS (Scatter, Frequency, Charts, Box Plots)
ữ d
i l
i
• Quy trình thực hiện
ổ đ n ế
B
– Dùng công cụ để phát hiện giá trị “lạ” của mỗi biến
: g n ụ d
– Tìm bản ghi chứa giá trị “lạ”
g n ứ
– Chỉnh sửa/loại bỏ bản ghi chứa giá trị lạ
c ọ h
n
i
T
… những bước chập chững vào thế giới số …
i
namth@buh.edu.vn
LÀM SẠCH DỮ LIỆU VỚI MS EXCEL
• Ví dụ
u ứ c
n ê
– Sử dụng hàm MIN, MAX đối với biến Age
h g n
u ệ
– Sử dụng công cụ AutoFilter đối với biến Gender
i
ữ d
i l
– Sử dụng đồ thị Scatter đối với biến Childrens
ổ đ n ế
i
B
: g n ụ d g n ứ
c ọ h n
i
T
… những bước chập chững vào thế giới số …
i
namth@buh.edu.vn
10
LÀM SẠCH DỮ LIỆU VỚI MS EXCEL
• Sử dụng hàm MIN, MAX đối với biến Age
u ứ c n ê
– Đối với dữ liệu người tiêu dùng, độ tuổi khảo sát từ 18
đến 60
h g n u ệ
i
– Giá trị nằm ngoài vùng 18 – 60 là dữ liệu lỗi
ữ d
i l
ổ đ n ế
i
B
: g n ụ d
g n ứ
c ọ h
n
i
T
… những bước chập chững vào thế giới số …
i
namth@buh.edu.vn
LÀM SẠCH DỮ LIỆU VỚI MS EXCEL
• Sử dụng công cụ AutoFilter đối với biến Gender
u ứ c
n ê
– Biến Gender chỉ có hai giá trị Male và Female, những
h g n
giá trị khác (hoặc để trống) là lỗi nhập liệu
u ệ
i
ữ d
i l
ổ đ n ế
i
B
: g n ụ d g n ứ
c ọ h n
i
T
… những bước chập chững vào thế giới số …
i
namth@buh.edu.vn
11
LÀM SẠCH DỮ LIỆU VỚI MS EXCEL
• Sử dụng đồ thị Scatter đối với biến Age
u ứ c n ê
h g n u ệ
i
ữ d
i l
ổ đ n ế
i
B
: g n ụ d
g n ứ
c ọ h
n
i
T
… những bước chập chững vào thế giới số …
i
namth@buh.edu.vn
LÀM SẠCH DỮ LIỆU VỚI MS EXCEL
• Sử dụng đồ thị Scatter đối với biến Age
u ứ c
n ê
h g n
u ệ
i
ữ d
i l
ổ đ n ế
i
B
: g n ụ d g n ứ
c ọ h n
i
T
… những bước chập chững vào thế giới số …
i
namth@buh.edu.vn
12
LÀM SẠCH DỮ LIỆU VỚI SPSS
• Ví dụ
u ứ c n ê
– Sử dụng công cụ Frequencies đối với biến Gender
h g n u ệ
– Sử dụng công cụ Charts đối với biến Literacy
i
ữ d
i l
– Sử dụng công cụ Histogram đối với biến Age
ổ đ n ế
i
B
: g n ụ d
g n ứ
c ọ h
n
i
T
… những bước chập chững vào thế giới số …
i
namth@buh.edu.vn
LÀM SẠCH DỮ LIỆU VỚI SPSS
• Sử dụng công cụ Frequencies đối với biến Gender
u ứ c
n ê
h g n
u ệ
i
ữ d
i l
ổ đ n ế
i
B
: g n ụ d g n ứ
c ọ h n
i
T
… những bước chập chững vào thế giới số …
i
namth@buh.edu.vn
13
LÀM SẠCH DỮ LIỆU VỚI SPSS
• Sử dụng công cụ Frequencies đối với biến Gender
u ứ c n ê
h g n u ệ
i
ữ d
i l
ổ đ n ế
i
B
: g n ụ d
g n ứ
c ọ h
n
i
T
… những bước chập chững vào thế giới số …
i
namth@buh.edu.vn
LÀM SẠCH DỮ LIỆU VỚI SPSS
• Sử dụng công cụ Charts đối với biến Literacy
u ứ c
n ê
h g n
u ệ
i
ữ d
i l
ổ đ n ế
i
B
: g n ụ d g n ứ
c ọ h n
i
T
… những bước chập chững vào thế giới số …
i
namth@buh.edu.vn
14
LÀM SẠCH DỮ LIỆU VỚI SPSS
• Sử dụng công cụ Charts đối với biến Literacy
u ứ c n ê
h g n u ệ
i
ữ d
i l
ổ đ n ế
i
B
: g n ụ d
g n ứ
c ọ h
n
i
T
… những bước chập chững vào thế giới số …
i
namth@buh.edu.vn
LÀM SẠCH DỮ LIỆU VỚI SPSS
• Sử dụng công cụ Histogram đối với biến Age
u ứ c
n ê
h g n
u ệ
i
ữ d
i l
ổ đ n ế
i
B
: g n ụ d g n ứ
c ọ h n
i
T
… những bước chập chững vào thế giới số …
i
namth@buh.edu.vn
15