Phân tích và xử lý dữ liệu với R Phần 2 Nhập liệu với R

Nhập liệu với R

1. Giao diện và tương tác với R

2. Nhập Dữ liệu cho R từ file excel

3. Nhập dữ liệu cho R từ file .sav (trong

spss)

4. Biên tập dữ liệu

1. Giao diện và tương tác với

R

1.1 Giao diện R

1.2 R như là một calculator

1.3 Đối tượng (object)

1.4 Vector và Dataset

1.1 Giao diện R

Trình thực hiện qua tương tác

1.2 R như là một canculator

• Các hàm phổ biến: sqrt, log, lũy thừa

Thực hiện qua tương tác

1.3 Object

• Mỗi đối tượng phải có một tên

• Tên có thể được viết bằng chữ thường,

• Tên của các đối tượng phân biệt chữ hoa

con số và các ký hiệu

chữ thường

Tương tác

1.4 Vector và Dataset

• Vector là tập hợp nhiều số liệu

• Vector có thể coi là cột dữ liệu hay biến số

• Khai báo 1 vector

(variable)

Tên đối tượng = c(danh sách số liệu)

VD: x = c(1,5, 80,90,91)

Tương tác

Dataset

• Nhiều vector hợp thành một Dataset

• Dataset = matrix(dòng và cột)

• data.frame(danh sách các vector) tạo

dataset

VD:

id= c(“1”,”2”,”3”,”4”,”5”,”6”)

Y = c(10, 16, 34,40, 50,26)

Data = data.frame(id,Y)

Tính toán thống kê

• Những hàm phổ biến

mean, median, var, sd, leghth,

• Biểu đồ cơ bản

min, max, rangeme

hist,plot

Nhập liệu với R

1. Giao diện và tương tác với R

2. Nhập Dữ liệu cho R từ file excel

3. Nhập dữ liệu cho R từ file .sav (trong

spss)

4. Biên tập dữ liệu

• B1: Dùng lệnh “save as” trong Excel lưu

2. Nhập liệu dữ liệu từ Excel vào R

• B2: dùng lệnh

số liệu dưới dạng file “.csv”

Data = read.csv (đường dẫn file, header = TRUE)

• B3: Báo cho R biết: lấy Data ra phân tích

Để lưu dữ liệu vào đối tượng data

attach(Data)

• B1: gọi thư viện: library(foreign)

• B2: dùng lệnh

3. Nhập liệu dữ liệu từ 1 file .sav (SPSS)

Data = read.spss(

đường dẫn file, to.data.frame = TRUE)

• B3: Báo cho R biết: lấy đối tượng Data ra

Để lưu dữ liệu vào đối tượng data

phân tích

attach(Data)

Nhập liệu với R

1. Giao diện và tương tác với R

2. Nhập Dữ liệu cho R từ file excel

3. Nhập dữ liệu cho R từ file .sav (trong

spss)

4. Biên tập dữ liệu

4. Biên tập dữ liệu (phần 1)

• Toán tử (Operators)

• Tạo biến mới

• Hàm có sẵn

• Sắp xếp dữ liệu

• Hoán chuyển dữ liệu

Toán tử số học

Toán tử Mô tả Addition - Cộng + Subtraction – Trừ - Multiplication – Nhân * / Division – Chia ^ hoặc ** Exponentiation – lũy thữa X%%Y

chia x cho y lấy phần dư( a = 5%%2  a =1)

X%/%Y Chia lấy phần nguyên ( a = 5%/%2 

a=2)

Toán tử logic

Mô tả

Toán tử

Nhỏ hơn Nhỏ hơn hoặc bằng Lớn hơn Lớn hơn hoặc bằng Bằng Không bằng Không x X hoặc Y X và Y Kiểm tra xem

< <= > >= == != !x X|Y X&Y isTRUE

Hàm số

Mô tả Gía trị tuyệt đối Căn bậc 2

Hàm Abs(x) Sqrt (x) Cos( x), sin (x) Tan(x) Log10(x) Exp(x)

Logarithm e^x

Tạo biến mới

• DataFrame có tên: Data

• Nếu DataFrame có 2 cột (biến) x1 và x2

// Khởi tạo biến x1,x2

x1 = c(1,3,4,7)

x2 = c(4,6,8,3)

// Gán dữ liệu vào biến Data

Data = data.frame(x1,x2)

Tạo biến mới

x1 = c(1,3,4,7)

x2 = c(4,6,8,3)

• Chúng ta có thể tạo ra một biến mới là

Data = data.frame(x1,x2)

tổng số của 2 cột

• Nhưng biến sum sẽ không nằm trong Data

sum = x1+x2

 giải pháp

Giới thiệu dấu $

• Dùng dấu $ để tạo biến mới và kết nối với

một dataframe

Data$sum = Data$x1+Data$x2

// Kiểm tra giá trị của Data

Data

Bây giờ dataframe Data có 3 biến x1,x2 và sum.

Tạo biến mới qua coding (mã hóa)

id = c(1,2,3,4,5)

gender = c(“male”,”female”,”male”,”male”,”male”)

Mục tiêu:

Tạo ra biến mới là sex với 1= male, 2= female

Tạo biến mới qua coding

id = c(1,2,3,4,5)

gender = c(“male”,”female”,”male”,”male”,”male”)

dat = data.frame (id,gender)

// giải quyết vấn đề

dat$sex[gender == “male”] = 1

dat$sex[gender ==“female”]=2

// kiểm tra giá trị hiện tại của dat

dat

Tạo biến mới qua coding

id = c(1,2,3,4,5)

gender = c(“male”,”female”,”male”,”male”,”male”)

Mục tiêu:

Tạo ra biến mới là group

nếu id = 1,2,3 thì group = “A”

nếu id = 4,5 thì group =“B”

Tạo biến mới qua coding

> id = c(1,2,3,4,5)

> gender = c("male","female","male","male","m ale")

> dat = data.frame(id,gender)

> dat$sex[gender=="male"]=1

> dat$sex[gender=="female"]=2

> dat

> dat$group[id>=1 & id<=3]="A" > dat$group[id>=4 & id<=5]="B" > dat id gender sex group 1 1 male 1 A 2 2 female 2 A 3 3 male 1 A 4 4 male 1 B 5 5 male 1 B

id gender sex

1 1 male 1

2 2 female 2

3 3 male 1

4 4 male 1

5 5 male 1

Hoán chuyển dữ liệu

• Chuyển từ numeric sang text/character

• As.numeric(), as.character()

Ví dụ id1 = as.character(id)