Phân tích dữ liệu với R
Phần 3 Phân tích mô tả dữ liệu
Nội dung
• 1. Quy trình phân tích
• 2. Dữ liệu thực tế
• 3. Phân tích mô tả biến liên tục
• 4. Phân tích mô tả biến phân nhóm
(categorical)
1. Quy trình phân tích
• Kiểm tra các số liệu “bất thường”
• Xác định mục tiêu phân tích, thông điệp
muốn chuyển tải
• Xác định biến số cần thiết (trong
dataframe)
• Xác định Phương pháo thống kê
• Xác định lệnh/hàm trong R.
Kiểm tra số liệu “bất thường”
• Xem xét số tối đa và tối thiểu
• Tính hợp lý (validity)- Không có nhân viên
nào có mức lượng 100.000$ 1 tháng
• Tính nhất quán (consistency) – giáo viên
không thể có trình độ trung cấp
• Coi chừng lẫn lộn biến
Mục tiêu phân tích
• Mô tả hay kiểm định giả thuyết
• Muốn người đọc nhận những thông điệp
chính nào
• Phác họa bảng số liệu và biểu đồ muốn có
Đòi hỏi thời gian suy nghĩ
Xác định biến số
• Biến số có liên quan đến mục tiêu (trong
dataframe) là gì.
• Biến liên tục (continous) hay phân nhóm
(categorical)
Xác định phương pháp thống kê
• Phương pháp tùy thuộc vào mục tiêu và
biến số
• Mô tả: mean, standard deviation, median,
proportion,…
• Tương quan: Regression models
• So sánh hai nhóm
Xác định hàm/lệnh trong R
• Chỉ cần một số hàm/lệnh căn bản
• Hàm có thể tìm trong các package
• Mỗi phương phấp phân tích có thể thực
hiện bằng nhiều hàm
• Có khi chỉ cần một lệnh từ một package
Ví dụ nghiên cứu
EMPLOYEE CODE
id salbeg BEGINNING SALARY SEX OF EMPLOYEE sex JOB SENIORITY time age AGE OF EMPLOYEE salnow CURRENT SALARY edlevel EDUCATIONAL LEVEL work
WORK EXPERIENCE
jobcat
EMPLOYMENT CATEGORY
mã nhân viên Lương khởi điểm giới tính của nhân viên (0 - nam, 1- Nữ) Thâm niên làm việc (tháng) tuổi của nhân viên (năm) lương hiện tại trình độ học vấn kinh nghiệm làm việc (năm) loại công việc (1: văn thư, tạp vụ ; 2: Tập sự văn phòng ; 3: nhân viên bảo vệ ; 4: nhân viên có trình ĐH ; 5: lao động phổ thông ; 6: nhân viên có trình độ từ ths ; 7.nhân viên kỹ thuật)
• Nghiên cứu về thu nhập và trình độ nhân viên tại một công ty A dựa trên file số liệu “salary.csv” chứa những thông tin sau:
Package “psych” và “Hmisc”
• Package “psych” và “Hmisc” rất có ích cho
phân tích mô tả
• Hmisc có hàm describe
•
“psych” có hàm
– describe
– describe.by (tên dataframe, tên biến chia nhóm, tùy biến khác)// có thế dùng lệnh? Describe.by() để tìm hiểu về hàm này
Phân tích mô tả bằng R
>data= read.csv(“D:/salary.csv”,header = T)
>Attach(data) // lấy dataframe data ra phân tích
>library(psych) // nếu chưa có gõ lệnh instal.library(psych)
>describe(data)
>mean(age) // tính tuổi trung bình
>median (age)// tính median của tuổi
>describe(data)// biểu hiện tất cả các giá trị mô tả các biến có trong data
Sử dụng R cho phân tổ dữ liệu
• Library (gmodels)
• CrossTable (sex, digits =3) // phân tích số
lượng, tỉ lệ nhân viên theo giới tính
• CrossTable (sex,jobcat, digits =3)//phân