Trường Đại học Nông nghiệp Hà nội
Tài liệu tham khảo
Ngôn ng R và xử lý thống kê
Nguyễn đình Hiền
Hà nội 2011
R
NDH 2
Giới thiệu ngôn ngữ R
Năm 1996, trong một bài báo về tính toán thống kê, hai nhà thống học Ross
Ihaka Robert Gentleman thuộc Trường đại học Auckland, New Zealand phác hoạ một
ngôn ngữ mới cho phân tích thống họ đặt tên R . Sáng kiến y được rt nhiều
nhà thống học trên thế giới tán thành tham gia vào việc phát triển R.
Cho đến nay càng ngày càng nhiều nhà thng học, toán học, nghiên cứu trong
mọi lĩnh vực đã chuyển sang s dụng R để phân tích dữ liệu khoa học.Trên toàn cầu đã
một mng lưới hàng triệu người sử dụng R.
R một phần mm s dụng cho phân tích thống vẽ biểu đồ. Thật ra, v bản
chất, R ngôn ngữ máy tính đa năng, thể sử dụng cho nhiều mục tiêu khác nhau, từ
tính toán đơn giản, toán học giải trí, tính toán ma trận (matrix), đến c phân tích thống
phức tạp. một ngôn ngữ, cho nên người ta th sử dụng R để phát triển thành các
phần mm chuyên môn cho một vấn đề tính toán cá biệt.
Cài đặt R
Để cài đặt R trong máy tính của nh phải truy nhập vào website “Comprehensive
R Archive Network” (CRAN) sau đây:
http://cran.R-project.org.
sau đó chọn Cran mirrors thí dụ
Dựa vào vào phiên bảnhệ điều hành để chọn tài liệu cần tải về.
R
NDH 3
Chẳng hạn như phiên bản mi nhất dùng cho Windows
Tại các website này th tìm thấy rất nhiều tài liệu chỉ dẫn cách sử dụng R, đủ
trình độ, t đơn giản đến phức tạp.
Khi đã tải R xuống phải cài đặt vào máy nh. Để làm việc này cần nhấn chuột
vào tài liệu trên và làm theo hướng dẫn cách cài đặt trên màn hình.
Sau khi cài đặt nhấp chuột vào biểu tượng R
sẽ có một cửa sỏ như sau:
Dấu mời > báo hiệu máy đã sẵn sàng đợi lệnh để thực hiện.
2. Ti các package và cài đặt
R cung cấp một “ngôn ngữ” máy tính một s function để làm các phân tích căn
bản đơn giản. Nếu muốn làm những phân tích phức tạp hơn cần phi tải về máy tính
một số package khác. Package một phần mềm nhỏ được các nhà thống phát triển để
gii quyết một vấn đề cụ thể, th chạy trong hệ thống R. Chẳng hạn như để phân
tích hồi qui tuyến tính, R function lm để sử dụng cho mục đích này, nhưng để làm
các phân tích sâu hơn phức tạp hơn cần đến các package như lme4. Các package này
R
NDH 4
cần tải về và cài đặt. Địa chỉ các package vẫn là: http://cran.r-project.org, bấm vào
phần Packages”để tìm, kèm các trang web đẻ tải về. Một số package thường dùngtrong
các phân tích thống kê là:
Tên package
Chức năng
trellis
Dùng để vẽ đồ thị và làm cho đồ thị đẹp hơn
lattice
Dùng để vẽ đồ thị và làm cho đồ thị đẹp hơn
agricolae
Statistical Procedures for agricultural Research
Design
Một số mô hình thiết kế nghiên cứu của F. Harrell
Epi
Dùng cho các phân tích dch tễ học
epitools
Một package khác chuyên cho các phân tích dịch tễ học
Foreign
Dùng để nhập dữ liệu t c phần mềm khác như
SPSS, Stata, SAS, v.v…
lme4
Linear mixed effects models
Rcmdr
R commander
pspearman
Spearman’ s rank correlation test
survival
Chuyên dùng cho phân tích theo mô hình Cox (Cox’s
proportional hazard model)
Zelig
Package dùng cho các phân tích thống kê trong lĩnh
vực xã hội học
Genetics
Package dùng cho phân tích số liệu di truyền học
BMA
Bayesian Model Average
Các package y thcài đặt trực tuyến bằng cách chọn Install packages trong phần
packages của R. Nếu package đã được tải xuống máy tính việc cài đặt thể nhanh hơn
bằng cách chọn Install package(s) from local zip file cũng trong phần packages .
3. Văn phạm R
R một ngôn ngữ tương tác (interactive language), nghĩa khi chúng ta ra
lệnh, nếu lệnh đúng “văn phm”, R sẽ “đáp” li bằng một kết quả. tương tác đó
tiếp tục cho đến khi đạt được yêu cầu. Văn phm chung của R một lệnh (command)
hay function (“hàm”). đã hàm thì phải thông số; cho nên theo sau hàm
những thông s chúng ta phi cung cấp. Cú pháp chung của R như sau:
đối tượng <- hàm(thông số 1, thông số 2, …, thông số n)
Thí dụ
> reg <- lm(y ~ x)
thì reg một đối tượng (object), còn lm một hàm, y ~ x thông số của hàm.
Hay:
> setwd(“d:/nnR/thongke”)
thì setwd là một hàm, còn “d:/nnR/thongke” là thông số của hàm.
R
NDH 5
Để biết một hàm cần những thông số nào, chúng ta dùng lệnh args(x), (args
viết tắt chữ arguments) mà trong đó x là một hàm chúng ta cần biết:
> args(lm)
function (formula, data, subset, weights, na.action, method = "qr",
model = TRUE, x = FALSE, y = FALSE, qr = TRUE, singular.ok = TRUE,
contrasts = NULL, offset, ...)
NULL
R một ngôn ngữ “đối ợng” (object oriented language). Điều y nghĩa
các dữ liệu trong R được chứa trong object. Định hướng y ảnh hưởng đến cách viết ca
R. Chẳng hạn như thay viết x = 5 như thông thường chúng ta vn viết, thì R yêu cu
viếtx == 5.
Đối với R, x = 5 tương đương với x <- 5. Cách viết sau (dùng hiệu <-)
được khuyến khích hơn là cách viết trước (=). Chẳng hạn như:
> x <- rnorm(10)
nghĩa phỏng 10 s liệu chứa trong object x. Chúng ta cũng thể viết
x = rnorm(10).
Một số kí hiệu hay dùng trong R là:
x == 5 x bằng 5
x != 5 x không bằng 5
y < x y nhỏ hơn x
x > y x lớn hơn y
z <= 7 z nhỏ hơn hoặc bằng 7
p >= 1 p lớn hơn hoặc bằng 1
is.na(x) Có phải x là biến số trống không (missing value)
A & B A và B (AND)
A | B A hoặc B (OR)
! Không là (NOT)
Với R, tất cả các câu chữ hay lệnh sau hiệu # đều không hiệu ứng, # hiệu
dành cho người sử dụng thêm vào các ghi chú, ví dụ:
> # l
nh sau đây
s
mô phng 10 giá tr
normal
> x <- rnorm(10)
3.1 Cách đặt tên trong R
Việc đặt tên một đối ng (object) hay một biến số (variable) trong R khá linh
hoạt, R không nhiều giới hạn như các phần mềm khác. Tên một object phải được
viết liền nhau (tức không được cách ri bằng một khoảng trống). Chẳng hạn như R
chấp nhận myobject nhưng không chấp nhận my object.
> myobject <- rnorm(10)
> my object <- rnorm(10)