Bài thực hành 2 - Phân tích và xử lý dữ liệu với R: Nhập liệu với R. Nội dung thực hành trong bài này gồm có: Giao diện và tương tác với R, nhập dữ liệu cho R từ file excel, nhập dữ liệu cho R từ file .sav (trong spss), biên tập dữ liệu.
AMBIENT/
Chủ đề:
Nội dung Text: Bài giảng Phân tích và xử lý dữ liệu với R: Bài thực hành 2 - Học viện Ngân hàng
- Phân tích và xử lý dữ liệu với
R
Phần 2
Nhập liệu với R
- Nhập liệu với R
1. Giao diện và tương tác với R
2. Nhập Dữ liệu cho R từ file excel
3. Nhập dữ liệu cho R từ file .sav (trong
spss)
4. Biên tập dữ liệu
- 1. Giao diện và tương tác với
R
1.1 Giao diện R
1.2 R như là một calculator
1.3 Đối tượng (object)
1.4 Vector và Dataset
- 1.1 Giao diện R
Trình thực hiện qua tương tác
- 1.2 R như là một canculator
•
Các hàm phổ biến: sqrt, log, lũy thừa
Thực hiện qua tương tác
- 1.3 Object
•
Mỗi đối tượng phải có một tên
•
Tên có thể được viết bằng chữ thường,
con số và các ký hiệu
•
Tên của các đối tượng phân biệt chữ hoa
chữ thường
Tương tác
- 1.4 Vector và Dataset
•
Vector là tập hợp nhiều số liệu
•
Vector có thể coi là cột dữ liệu hay biến số
(variable)
•
Khai báo 1 vector
Tên đối tượng = c(danh sách số liệu)
VD: x = c(1,5, 80,90,91)
Tương tác
- Dataset
•
Nhiều vector hợp thành một Dataset
•
Dataset = matrix(dòng và cột)
•
data.frame(danh sách các vector) tạo
dataset
VD:
id= c(“1”,”2”,”3”,”4”,”5”,”6”)
Y = c(10, 16, 34,40, 50,26)
Data = data.frame(id,Y)
- Tính toán thống kê
•
Những hàm phổ biến
mean, median, var, sd, leghth,
min, max, rangeme
•
Biểu đồ cơ bản
hist,plot
- Nhập liệu với R
1. Giao diện và tương tác với R
2. Nhập Dữ liệu cho R từ file excel
3. Nhập dữ liệu cho R từ file .sav (trong
spss)
4. Biên tập dữ liệu
- 2. Nhập liệu dữ liệu từ Excel vào R
•
B1: Dùng lệnh “save as” trong Excel lưu
số liệu dưới dạng file “.csv”
•
B2: dùng lệnh
Data = read.csv (đường dẫn file, header =
TRUE)
Để lưu dữ liệu vào đối tượng data
•
B3: Báo cho R biết: lấy Data ra phân tích
attach(Data)
- 3. Nhập liệu dữ liệu từ 1 file .sav (SPSS)
•
B1: gọi thư viện: library(foreign)
•
B2: dùng lệnh
Data = read.spss(
đường dẫn file, to.data.frame = TRUE)
Để lưu dữ liệu vào đối tượng data
•
B3: Báo cho R biết: lấy đối tượng Data ra
phân tích
- Nhập liệu với R
1. Giao diện và tương tác với R
2. Nhập Dữ liệu cho R từ file excel
3. Nhập dữ liệu cho R từ file .sav (trong
spss)
4. Biên tập dữ liệu
- 4. Biên tập dữ liệu (phần 1)
•
Toán tử (Operators)
•
Tạo biến mới
•
Hàm có sẵn
•
Sắp xếp dữ liệu
•
Hoán chuyển dữ liệu
- Toán tử số học
Toán tử Mô tả
+ Addition - Cộng
- Subtraction – Trừ
* Multiplication – Nhân
/ Division – Chia
^ hoặc ** Exponentiation – lũy thữa
X%%Y chia x cho y lấy phần dư( a = 5%%2
a =1)
X%/%Y Chia lấy phần nguyên ( a = 5%/%2
a=2)
- Toán tử logic
Toán tử Mô tả
< Nhỏ hơn
Lớn hơn
>= Lớn hơn hoặc bằng
== Bằng
!= Không bằng
!x Không x
X|Y X hoặc Y
X&Y X và Y
isTRUE Kiểm tra xem
- Hàm số
Hàm Mô tả
Abs(x) Gía trị tuyệt đối
Sqrt (x) Căn bậc 2
Cos( x), sin (x)
Tan(x)
Log10(x) Logarithm
Exp(x) e^x
- Tạo biến mới
•
DataFrame có tên: Data
•
Nếu DataFrame có 2 cột (biến) x1 và x2
// Khởi tạo biến x1,x2
x1 = c(1,3,4,7)
x2 = c(4,6,8,3)
// Gán dữ liệu vào biến Data
Data = data.frame(x1,x2)
- Tạo biến mới
x1 = c(1,3,4,7)
x2 = c(4,6,8,3)
Data = data.frame(x1,x2)
•
Chúng ta có thể tạo ra một biến mới là
tổng số của 2 cột
sum = x1+x2
•
Nhưng biến sum sẽ không nằm trong Data
giải pháp
- Giới thiệu dấu $
•
Dùng dấu $ để tạo biến mới và kết nối với
một dataframe
Data$sum = Data$x1+Data$x2
// Kiểm tra giá trị của Data
Data
Bây giờ dataframe Data có 3 biến x1,x2 và
sum.