Phân tích dữ liệu với R

Chương 2 _ phần 4 Phân tích dữ liệu bằng biểu đồ

Các hàm R cơ bản

• Biểu đồ phân bố (histogram)

• Biểu đồ hộp (box plot)

• Biểu đồ thanh (bar plot)

• Biểu đồ tương quan (scatter plot)

Đọc dữ liệu

> setwd("D:/")

> ob = read.csv ("salary.csv", header = T)

> attach(ob)

> head(ob)

id salbeg sex time age salnow edlevel work jobcat minority sexrace

1 7 6900 0 79 28.00 16080 15 3.17 1 0 1

2 8 5400 0 67 28.75 14100 15 0.50 1 0 1

3 9 5040 0 96 27.42 12420 15 1.17

1 0 1

4 11 6300 0 84 33.50 15720 15 6.00

1 0 1

5 12 6000 0 88 54.33 8880 12 27.00

1 0 1

6 18 6900 0 72 32.67 10380 15 6.92

1 0 1

Mục đích

• Muốn mô tả phân bố biến salnow

• Phân bố salnow có khác nhau giữa nam

và nữ (sex)

Hàm hist ()

• Hist(var, xlab, ylab, main, xlim, ylim, col,

border, prob)

Hist(salnow)

Histogram of salnow

0 0 2

0 0 1

y c n e u q e r F

0 5

0

10000

30000

50000

salnow

> hist(salnow, col= "blue", border = "white")

Histogram of salnow

0 0 2

0 5 1

0 0 1

y c n e u q e r F

0 5

0

10000

20000

30000

40000

50000

salnow

Phân bố mức luong hiện tại của nhân viên

5 0 - e 8

5 0 - e 6

l ỉ t

5 0 - e 4

5 0 - e 2

Ø hist(salnow, col= "blue", border = "white", xlab = "lương hiện tại ($)", ylab = "tỉ lệ", prob = T, main = "Phân bố mức lương hiện tại của nhân viên")

0 0 + e 0

10000

20000

30000

40000

50000

luong hiện tại ($)

Hàm boxplot

• Boxplot(var, xlab, ylab, main, xlim, ylim,

• Boxplot(var ~ group, xlab, ylab, main, xlim,

col, border, horizontal)

ylim, col, border, horizontal)

boxplot(salnow)

boxplot (salnow, xlab ="lương hiện tại", main = "lương hiện tại", col = "blue")

boxplot (salnow, notch = T, xlab ="lương hiện tại", main = "lương hiên tại", col = "blue")

boxplot (salnow, notch = T, xlab ="lương hiện tại", main = "lương hiên tại", col = "blue", horizontal=T)

boxplot (salnow~sex, notch = T, xlab ="lương hiện tại", main = "lương hiên tại", col = "blue", horizontal=T)

boxplot (salnow~sex, notch = T, xlab ="lương hiện tại", main = "lương hiên tại", col = c("blue","red"), horizontal=T)

Hàm barplot

• means = with(data,tapply(var,group,

table (groupA, GroupB)

• barplot(table, horiz)

• barplot(mean, horiz)

mean))

f = table(sex)

barplot(f)

barplot(means, horiz = T, xlab ="số nhân viên", ylab = "nhóm nghề")

Hàm plot()

• plot(varx~vary, pch, main, xlab, ylab, xlim,

• abline(lm(varX~varY),col = , lwd)

ylim, col, lwd)

• abline(lm(salnow~edlevel),col ="red" ,

plot(salnow~edlevel,ch =16, col = "blue")

lwd=2)