Phân tích dữ liệu với R
Chương 2 _ phần 4 Phân tích dữ liệu bằng biểu đồ
Các hàm R cơ bản
• Biểu đồ phân bố (histogram)
• Biểu đồ hộp (box plot)
• Biểu đồ thanh (bar plot)
• Biểu đồ tương quan (scatter plot)
Đọc dữ liệu
> setwd("D:/")
> ob = read.csv ("salary.csv", header = T)
> attach(ob)
> head(ob)
id salbeg sex time age salnow edlevel work jobcat minority sexrace
1 7 6900 0 79 28.00 16080 15 3.17 1 0 1
2 8 5400 0 67 28.75 14100 15 0.50 1 0 1
3 9 5040 0 96 27.42 12420 15 1.17
1 0 1
4 11 6300 0 84 33.50 15720 15 6.00
1 0 1
5 12 6000 0 88 54.33 8880 12 27.00
1 0 1
6 18 6900 0 72 32.67 10380 15 6.92
1 0 1
Mục đích
• Muốn mô tả phân bố biến salnow
• Phân bố salnow có khác nhau giữa nam
và nữ (sex)
Hàm hist ()
• Hist(var, xlab, ylab, main, xlim, ylim, col,
border, prob)
Hist(salnow)
Histogram of salnow
0 0 2
0 0 1
y c n e u q e r F
0 5
0
10000
30000
50000
salnow
> hist(salnow, col= "blue", border = "white")
Histogram of salnow
0 0 2
0 5 1
0 0 1
y c n e u q e r F
0 5
0
10000
20000
30000
40000
50000
salnow
Phân bố mức luong hiện tại của nhân viên
5 0 - e 8
5 0 - e 6
ệ
l ỉ t
5 0 - e 4
5 0 - e 2
Ø hist(salnow, col= "blue", border = "white", xlab = "lương hiện tại ($)", ylab = "tỉ lệ", prob = T, main = "Phân bố mức lương hiện tại của nhân viên")
0 0 + e 0
10000
20000
30000
40000
50000
luong hiện tại ($)
Hàm boxplot
• Boxplot(var, xlab, ylab, main, xlim, ylim,
• Boxplot(var ~ group, xlab, ylab, main, xlim,
col, border, horizontal)
ylim, col, border, horizontal)
boxplot(salnow)
boxplot (salnow, xlab ="lương hiện tại", main = "lương hiện tại", col = "blue")
boxplot (salnow, notch = T, xlab ="lương hiện tại", main = "lương hiên tại", col = "blue")
boxplot (salnow, notch = T, xlab ="lương hiện tại", main = "lương hiên tại", col = "blue", horizontal=T)
boxplot (salnow~sex, notch = T, xlab ="lương hiện tại", main = "lương hiên tại", col = "blue", horizontal=T)
boxplot (salnow~sex, notch = T, xlab ="lương hiện tại", main = "lương hiên tại", col = c("blue","red"), horizontal=T)
Hàm barplot
•
• means = with(data,tapply(var,group,
table (groupA, GroupB)
• barplot(table, horiz)
• barplot(mean, horiz)
mean))
f = table(sex)
barplot(f)
barplot(means, horiz = T, xlab ="số nhân viên", ylab = "nhóm nghề")
Hàm plot()
• plot(varx~vary, pch, main, xlab, ylab, xlim,
• abline(lm(varX~varY),col = , lwd)
ylim, col, lwd)
•
• abline(lm(salnow~edlevel),col ="red" ,
plot(salnow~edlevel,ch =16, col = "blue")
lwd=2)