Chương 3
Thao tác dữ liệu
Sau khi nhập dữ liệu vào R, ta có thể dễ dàng thao tác dữ liệu bằng gói dplyr, có thể được cài đặt bằng lệnh trong R: install.packages ("dplyr"). Sau khi tải gói dplyr, có thể sử dụng các hàm R sau:
(cid:136) filter(): Chọn hàng (quan sát / mẫu) dựa trên giá trị của chúng.
(cid:136) distinct(): Loại bỏ các hàng trùng lặp.
(cid:136) arrange(): Sắp xếp lại các hàng.
(cid:136) select(): Chọn cột (biến) theo tên của chúng.
(cid:136) rename(): Đổi tên cột.
(cid:136) mutate():Thêm / tạo biến mới.
(cid:136) summarise(): Tính toán tổng hợp thống kê (ví dụ: tính trung bình hoặc tổng)
Ví dụ:
Age Weight Gender Age Weight Gender 10 20 35 67 54 male female male female female male female male female female 50 30 52 55 67 24 39 46 60 45 80 15 47 66 29
41
42 CHƯƠNG 3. THAO TÁC DỮ LIỆU
> library(dplyr) > age <- c(10, 20, 35, 67, 54, 80, 15, 47, 66, 29) > weight <- c(24, 39, 46, 60, 45, 50, 30, 52, 55, 67) > gender <- c("male", "female", "male", "female", "female", ...
"male", "female", "male", "female", "female" )
> data1 <- data.frame(age, weight, gender) # Chon cot age trong data1 >select(data1, age)
age 10 1 20 2 35 3 67 4 54 5 80 6 15 7 47 8 66 9 10 29
Để lọc ra những người có độ tuổi trên 30 ta sử dụng:
#Loc ra nhung nguoi co do tuoi tren 30 > filter(data1, age≥30) age weight gender
1 35 2 67 3 54 4 80 5 47 6 66
male 46 60 female 45 female 50 male male 52 55 female
Để đổi tên biến từ age thành ages ta sử dụng:
# Doi ten bien > rename(data1, ages = age)
ta được kết quả sau:
ages weight gender 24 male 39 female 46 male 60 female
10 20 35 67
1 2 3 4
43
5 6 7 8 9 10
54 80 15 47 66 29
45 female 50 male 30 female male 52 55 female 67 female
Để sắp xếp dữ liệu theo độ tuổi giảm dần ta sử dụng
# Lenh sap xep data theo do tuoi giam dan > arrange(data1, desc(age))
age weight gender 50 80 male 1 60 female 67 2 55 female 66 3 45 female 54 4 male 52 47 5 46 35 male 6 67 female 29 7 39 female 20 8 30 female 9 15 male 24 10 10
Để tạo thêm biến mới, ta sử dụng lệnh mutate