TIN HỌC ỨNG DỤNG PHÂN TÍCH DỮ LIỆU NGHIÊN CỨU VỚI SPSS

BÀI 4: CÁC PHÉP BIẾN ĐỔI DỮ LIỆU

MỤC TIÊU

u ứ c

n ê

• Hiểu và áp dụng được các phương pháp biến đổi dữ liệu phù hợp với yêu cầu nghiên cứu.

h g n

u ệ

i

i l

• Hiểu và áp dụng được các phương pháp xử lý lỗi phát sinh trong quá trình nhập liệu.

ữ d

ổ đ n ế

i

B

i

• Tổ chức và làm việc nhóm xây dựng bảng câu hỏi khảo sát, tiến hành khảo sát, nhập và xử lý dữ liệu.

: g n ụ d g n ứ

c ọ h n

T

… những bước chập chững vào thế giới số …

i

namth@buh.edu.vn

1

NỘI DUNG

• Xử lý dữ liệu trên biến

u ứ c n ê

– Mã hóa biến với công cụ Recode

h g n u ệ

– Chuyển định dạng của biến

i

ữ d

i l

– Tính toán giá trị của biến với công cụ Compute

ổ đ n ế

– Xử lý câu hỏi có nhiều lựa chọn trả lời

i

B

i

• Làm sạch dữ liệu

: g n ụ d

– Dữ liệu lỗi và các biện pháp khắc phục

g n ứ

c ọ h

– Các phương pháp làm sạch dữ liệu

n

T

… những bước chập chững vào thế giới số …

i

namth@buh.edu.vn

CÁC PHÉP BIẾN ĐỔI DỮ LIỆU

• Mục đích

u ứ c

n ê

– Xử lý sai sót trong quá trình mã hóa, nhập liệu

h g n

u ệ

– Biến đổi dữ liệu để phát hiện mối quan hệ giữa các biến

i

ữ d

i l

i

• Phân loại

ổ đ n ế

– Xử lý dữ liệu trên biến

B

– Làm sạch dữ liệu

: g n ụ d g n ứ

c ọ h n

i

T

… những bước chập chững vào thế giới số …

i

namth@buh.edu.vn

2

XỬ LÝ DỮ LIỆU TRÊN BIẾN

• Mã hóa biến với công cụ Recode

u ứ c n ê

i

• Chuyển định dạng của biến

h g n u ệ

i l

• Tính toán giá trị của biến với công cụ Compute

ữ d

i

• Xử lý câu hỏi có nhiều lựa chọn trả lời

ổ đ n ế

B

: g n ụ d

g n ứ

c ọ h

n

i

T

… những bước chập chững vào thế giới số …

i

namth@buh.edu.vn

MÃ HÓA BIẾN VỚI RECODE

• Mục đích

u ứ c

n ê

– Biến đổi trị số dữ liệu bằng cách mã hóa lại chúng

h g n

u ệ

i

i

• Điều kiện áp dụng

ữ d

l

– Giảm số biểu hiện của một biến định tính xuống chỉ còn

hai hoặc ba loại biểu hiện cơ bản

ổ đ n ế

i

B

– Chuyển biến định lượng thành biến định tính

: g n ụ d g n ứ

c ọ h n

i

T

… những bước chập chững vào thế giới số …

i

namth@buh.edu.vn

3

MÃ HÓA BIẾN VỚI RECODE

• Quy trình thực hiện

u ứ c n ê

– Gọi thực hiện chức năng Transform -> Recode -> Into Different Variables (giữ nguyên biến gốc, tạo biến mới)

h g n u ệ

i

– Chọn biến muốn mã hóa lại

ữ d

i l

– Đặt tên và nhãn cho biến mới, nhấn nút Change để xác

ổ đ n ế

i

nhận

B

– Nhấn nút Old and New Values để xác định sự chuyển

: g n ụ d

đổi giá trị giữa biến cũ và biến mới

g n ứ

– Gán các nhãn giá trị cho biến vừa tạo

c ọ h

n

i

T

… những bước chập chững vào thế giới số …

i

namth@buh.edu.vn

MÃ HÓA BIẾN VỚI RECODE

u ứ c

n ê

h g n

u ệ

i

ữ d

i l

ổ đ n ế

i

B

: g n ụ d g n ứ

c ọ h n

i

T

… những bước chập chững vào thế giới số …

i

namth@buh.edu.vn

4

CHUYỂN ĐỊNH DẠNG CỦA BIẾN

• Mục đích

u ứ c n ê

– Chuyển biến dạng phân loại Category nhiều trị số thành

biến phân loại Dichotomy có hai trị số

h g n u ệ

i

i l

• Ví dụ

ữ d

– BankAccount là biến phân loại, cho biết tên ngân hàng

ổ đ n ế

i

B

quản lý tài khoản lương của người được hỏi

– SalaryThrBank là biến phân loại, cho biết người được

: g n ụ d

hỏi có nhận lương qua ngân hàng VCB hay không

g n ứ

c ọ h

n

i

T

… những bước chập chững vào thế giới số …

i

namth@buh.edu.vn

CHUYỂN ĐỊNH DẠNG CỦA BIẾN

• Quy trình thực hiện

u ứ c

n ê

– Gọi thực hiện chức năng Transform -> Count

h g n

u ệ

– Khai báo tên và nhãn của biến Dichotomy

i

ữ d

i l

– Cung cấp (các) biến Category có liên quan tới biến

Dichotomy

ổ đ n ế

i

B

– Cung cấp trị số mã hóa của (các) biến Category có liên

quan tới biến Dichotomy

: g n ụ d g n ứ

– Gán nhãn các giá trị của biến Dichotomy

c ọ h n

i

T

… những bước chập chững vào thế giới số …

i

namth@buh.edu.vn

5

CHUYỂN ĐỊNH DẠNG CỦA BIẾN

u ứ c n ê

h g n u ệ

i

ữ d

i l

ổ đ n ế

i

B

: g n ụ d

g n ứ

c ọ h

n

i

T

… những bước chập chững vào thế giới số …

i

namth@buh.edu.vn

LÀM SẠCH DỮ LIỆU

• Dữ liệu lỗi và các biện pháp khắc phục

u ứ c

n ê

i

• Các phương pháp làm sạch dữ liệu

h g n

u ệ

ữ d

i l

ổ đ n ế

i

B

: g n ụ d g n ứ

c ọ h n

i

T

… những bước chập chững vào thế giới số …

i

namth@buh.edu.vn

6

DỮ LIỆU LỖI

• Lỗi mã hóa dữ liệu

u ứ c n ê

i

• Lỗi nhập dữ liệu

h g n u ệ

i l

• Lỗi về tính nhất quán của dữ liệu

ữ d

ổ đ n ế

i

B

: g n ụ d

g n ứ

c ọ h

n

i

T

… những bước chập chững vào thế giới số …

i

namth@buh.edu.vn

LỖI MÃ HÓA DỮ LIỆU

• Mô tả

u ứ c

n ê

– Dữ liệu nhập không phản ánh đúng ý nghĩa của thông

h g n

tin do người được hỏi cung cấp

u ệ

i

ữ d

i l

• Nguyên nhân

– Mã hóa sai thông tin do người được hỏi cung cấp

ổ đ n ế

i

B

: g n ụ d g n ứ

c ọ h n

i

T

… những bước chập chững vào thế giới số …

i

namth@buh.edu.vn

7

LỖI NHẬP DỮ LIỆU

• Mô tả

u ứ c n ê

– Dữ liệu nhập không đúng với bảng mã theo thông tin do

người được hỏi cung cấp

h g n u ệ

i

i l

• Nguyên nhân

ữ d

– Mã đọc sai

ổ đ n ế

i

B

– Mã đọc đúng nhưng lỗi do đánh máy

: g n ụ d

g n ứ

c ọ h

n

i

T

… những bước chập chững vào thế giới số …

i

namth@buh.edu.vn

LỖI NHẤT QUÁN DỮ LIỆU

• Mô tả

u ứ c

n ê

– Không nhất quán giữa các câu trả lời của cùng một đối

h g n

tượng được hỏi

u ệ

i

ữ d

i l

• Nguyên nhân

– Lỗi mã hóa dữ liệu

ổ đ n ế

i

B

– Lỗi nhập dữ liệu

– Lỗi do đối tượng được hỏi cung cấp sai thông tin

: g n ụ d g n ứ

c ọ h n

i

T

… những bước chập chững vào thế giới số …

i

namth@buh.edu.vn

8

KHẮC PHỤC LỖI MÃ HÓA VÀ NHẬP LIỆU

• Nhập toàn bộ số liệu hai lần bởi hai người độc lập

u ứ c n ê

i

• Nhập toàn bộ số liệu một lần, nhập lần hai 20% bộ số liệu (chọn ngẫu nhiên) bởi hai người độc lập

h g n u ệ

ữ d

i l

ổ đ n ế

i

B

: g n ụ d

g n ứ

c ọ h

n

i

T

… những bước chập chững vào thế giới số …

i

namth@buh.edu.vn

LÀM SẠCH DỮ LIỆU

• Sự cần thiết

u ứ c

n ê

– Xử lý các lỗi phát sinh trong quá trình mã hóa dữ liệu,

h g n

nhập dữ liệu

u ệ

i

– Đảm bảo tính nhất quán của dữ liệu

ữ d

i l

i

• Các biện pháp ngăn ngừa

ổ đ n ế

B

– Thiết kế bảng câu hỏi rõ ràng, dễ trả lời

– Chọn lọc và huấn luyện điều tra viên

: g n ụ d g n ứ

– Các bảng câu hỏi cần kiểm tra, xử lý lỗi trước khi nhập

c ọ h n

i

T

… những bước chập chững vào thế giới số …

i

namth@buh.edu.vn

9

LÀM SẠCH DỮ LIỆU

u ứ c n ê

• Kết hợp sử dụng MS Excel và SPSS để phát hiện, xử lý lỗi và làm sạch dữ liệu

– Sử dụng Excel (Max, Min, Auto Filter, Scatter)

h g n u ệ

i

– Sử dụng SPSS (Scatter, Frequency, Charts, Box Plots)

ữ d

i l

i

• Quy trình thực hiện

ổ đ n ế

B

– Dùng công cụ để phát hiện giá trị “lạ” của mỗi biến

: g n ụ d

– Tìm bản ghi chứa giá trị “lạ”

g n ứ

– Chỉnh sửa/loại bỏ bản ghi chứa giá trị lạ

c ọ h

n

i

T

… những bước chập chững vào thế giới số …

i

namth@buh.edu.vn

LÀM SẠCH DỮ LIỆU VỚI MS EXCEL

• Ví dụ

u ứ c

n ê

– Sử dụng hàm MIN, MAX đối với biến Age

h g n

u ệ

– Sử dụng công cụ AutoFilter đối với biến Gender

i

ữ d

i l

– Sử dụng đồ thị Scatter đối với biến Childrens

ổ đ n ế

i

B

: g n ụ d g n ứ

c ọ h n

i

T

… những bước chập chững vào thế giới số …

i

namth@buh.edu.vn

10

LÀM SẠCH DỮ LIỆU VỚI MS EXCEL

• Sử dụng hàm MIN, MAX đối với biến Age

u ứ c n ê

– Đối với dữ liệu người tiêu dùng, độ tuổi khảo sát từ 18

đến 60

h g n u ệ

i

– Giá trị nằm ngoài vùng 18 – 60 là dữ liệu lỗi

ữ d

i l

ổ đ n ế

i

B

: g n ụ d

g n ứ

c ọ h

n

i

T

… những bước chập chững vào thế giới số …

i

namth@buh.edu.vn

LÀM SẠCH DỮ LIỆU VỚI MS EXCEL

• Sử dụng công cụ AutoFilter đối với biến Gender

u ứ c

n ê

– Biến Gender chỉ có hai giá trị Male và Female, những

h g n

giá trị khác (hoặc để trống) là lỗi nhập liệu

u ệ

i

ữ d

i l

ổ đ n ế

i

B

: g n ụ d g n ứ

c ọ h n

i

T

… những bước chập chững vào thế giới số …

i

namth@buh.edu.vn

11

LÀM SẠCH DỮ LIỆU VỚI MS EXCEL

• Sử dụng đồ thị Scatter đối với biến Age

u ứ c n ê

h g n u ệ

i

ữ d

i l

ổ đ n ế

i

B

: g n ụ d

g n ứ

c ọ h

n

i

T

… những bước chập chững vào thế giới số …

i

namth@buh.edu.vn

LÀM SẠCH DỮ LIỆU VỚI MS EXCEL

• Sử dụng đồ thị Scatter đối với biến Age

u ứ c

n ê

h g n

u ệ

i

ữ d

i l

ổ đ n ế

i

B

: g n ụ d g n ứ

c ọ h n

i

T

… những bước chập chững vào thế giới số …

i

namth@buh.edu.vn

12

LÀM SẠCH DỮ LIỆU VỚI SPSS

• Ví dụ

u ứ c n ê

– Sử dụng công cụ Frequencies đối với biến Gender

h g n u ệ

– Sử dụng công cụ Charts đối với biến Literacy

i

ữ d

i l

– Sử dụng công cụ Histogram đối với biến Age

ổ đ n ế

i

B

: g n ụ d

g n ứ

c ọ h

n

i

T

… những bước chập chững vào thế giới số …

i

namth@buh.edu.vn

LÀM SẠCH DỮ LIỆU VỚI SPSS

• Sử dụng công cụ Frequencies đối với biến Gender

u ứ c

n ê

h g n

u ệ

i

ữ d

i l

ổ đ n ế

i

B

: g n ụ d g n ứ

c ọ h n

i

T

… những bước chập chững vào thế giới số …

i

namth@buh.edu.vn

13

LÀM SẠCH DỮ LIỆU VỚI SPSS

• Sử dụng công cụ Frequencies đối với biến Gender

u ứ c n ê

h g n u ệ

i

ữ d

i l

ổ đ n ế

i

B

: g n ụ d

g n ứ

c ọ h

n

i

T

… những bước chập chững vào thế giới số …

i

namth@buh.edu.vn

LÀM SẠCH DỮ LIỆU VỚI SPSS

• Sử dụng công cụ Charts đối với biến Literacy

u ứ c

n ê

h g n

u ệ

i

ữ d

i l

ổ đ n ế

i

B

: g n ụ d g n ứ

c ọ h n

i

T

… những bước chập chững vào thế giới số …

i

namth@buh.edu.vn

14

LÀM SẠCH DỮ LIỆU VỚI SPSS

• Sử dụng công cụ Charts đối với biến Literacy

u ứ c n ê

h g n u ệ

i

ữ d

i l

ổ đ n ế

i

B

: g n ụ d

g n ứ

c ọ h

n

i

T

… những bước chập chững vào thế giới số …

i

namth@buh.edu.vn

LÀM SẠCH DỮ LIỆU VỚI SPSS

• Sử dụng công cụ Histogram đối với biến Age

u ứ c

n ê

h g n

u ệ

i

ữ d

i l

ổ đ n ế

i

B

: g n ụ d g n ứ

c ọ h n

i

T

… những bước chập chững vào thế giới số …

i

namth@buh.edu.vn

15