Phân tích dữ liệu với R

Phần 3 Phân tích mô tả dữ liệu

Nội dung

• 1. Quy trình phân tích

• 2. Dữ liệu thực tế

• 3. Phân tích mô tả biến liên tục

• 4. Phân tích mô tả biến phân nhóm

(categorical)

1. Quy trình phân tích

• Kiểm tra các số liệu “bất thường”

• Xác định mục tiêu phân tích, thông điệp

muốn chuyển tải

• Xác định biến số cần thiết (trong

dataframe)

• Xác định Phương pháo thống kê

• Xác định lệnh/hàm trong R.

Kiểm tra số liệu “bất thường”

• Xem xét số tối đa và tối thiểu

• Tính hợp lý (validity)- Không có nhân viên

nào có mức lượng 100.000$ 1 tháng

• Tính nhất quán (consistency) – giáo viên

không thể có trình độ trung cấp

• Coi chừng lẫn lộn biến

Mục tiêu phân tích

• Mô tả hay kiểm định giả thuyết

• Muốn người đọc nhận những thông điệp

chính nào

• Phác họa bảng số liệu và biểu đồ muốn có

 Đòi hỏi thời gian suy nghĩ

Xác định biến số

• Biến số có liên quan đến mục tiêu (trong

dataframe) là gì.

• Biến liên tục (continous) hay phân nhóm

(categorical)

Xác định phương pháp thống kê

• Phương pháp tùy thuộc vào mục tiêu và

biến số

• Mô tả: mean, standard deviation, median,

proportion,…

• Tương quan: Regression models

• So sánh hai nhóm

Xác định hàm/lệnh trong R

• Chỉ cần một số hàm/lệnh căn bản

• Hàm có thể tìm trong các package

• Mỗi phương phấp phân tích có thể thực

hiện bằng nhiều hàm

• Có khi chỉ cần một lệnh từ một package

Ví dụ nghiên cứu

EMPLOYEE CODE

id salbeg BEGINNING SALARY SEX OF EMPLOYEE sex JOB SENIORITY time age AGE OF EMPLOYEE salnow CURRENT SALARY edlevel EDUCATIONAL LEVEL work

WORK EXPERIENCE

jobcat

EMPLOYMENT CATEGORY

mã nhân viên Lương khởi điểm giới tính của nhân viên (0 - nam, 1- Nữ) Thâm niên làm việc (tháng) tuổi của nhân viên (năm) lương hiện tại trình độ học vấn kinh nghiệm làm việc (năm) loại công việc (1: văn thư, tạp vụ ; 2: Tập sự văn phòng ; 3: nhân viên bảo vệ ; 4: nhân viên có trình ĐH ; 5: lao động phổ thông ; 6: nhân viên có trình độ từ ths ; 7.nhân viên kỹ thuật)

• Nghiên cứu về thu nhập và trình độ nhân viên tại một công ty A dựa trên file số liệu “salary.csv” chứa những thông tin sau:

Package “psych” và “Hmisc”

• Package “psych” và “Hmisc” rất có ích cho

phân tích mô tả

• Hmisc có hàm describe

“psych” có hàm

– describe

– describe.by (tên dataframe, tên biến chia nhóm, tùy biến khác)// có thế dùng lệnh? Describe.by() để tìm hiểu về hàm này

Phân tích mô tả bằng R

>data= read.csv(“D:/salary.csv”,header = T)

>Attach(data) // lấy dataframe data ra phân tích

>library(psych) // nếu chưa có gõ lệnh instal.library(psych)

>describe(data)

>mean(age) // tính tuổi trung bình

>median (age)// tính median của tuổi

>describe(data)// biểu hiện tất cả các giá trị mô tả các biến có trong data

Sử dụng R cho phân tổ dữ liệu

• Library (gmodels)

• CrossTable (sex, digits =3) // phân tích số

lượng, tỉ lệ nhân viên theo giới tính

• CrossTable (sex,jobcat, digits =3)//phân

tích số lượng, tỉ lệ nhân viên theo giới tính