PHÂN TÍCH VÀ XỬ LÝ DỮ LIỆU VỚI R

PHẦN I: GIỚI THIỆU R

• Tại sao lại R

• Tổng quan R

• WorkSpace

Input/output

Tại sao lại R

• R hoàn toàn miễn phí

• Chạy trên Windows, Unix, MacOS

• Rất nhiều phương pháp phân tích

• Rât nhiều phương pháp “advanced” không

có trong các chương trình khác

• Biểu diễn đồ thị đẹp

Một chút lích sử

• R là “statistical and graphical programming language”

• Gốc từ s

• R: Thoạt đầu ro Ross Ihake và Robert Gentleman(ĐH

Auckland, new Zealand) viết vào thập niên 1990s

• Từ 1997: international “R-core”, 15 người

Ưu điểm và nhược điểm

– Miễn phí, chỉ tải về từ internet

– Nhiều packages cho chuyên dụng

– Open source

• Ưu điểm

– Thuật ngữ khó hiểu

– Dùng lệnh

– Kí hiệu

• Nhược điểm

R có thể làm gì

• R là ngôn ngữ phân tích thống kê

• Có thể thực hiện tất cả các mô hình phân

tích

• Mô phỏng (simulation)

• Vẽ đồ thị và biểu đồ (rất đẹp)

• Lập trình cho phương pháp mới

Cài đặt R

• Kết nối internet tới đường dẫn

http://cran.r-project.org/bin/windows/base/

• Chọn Download

• Run, Ok hoặc Next

• Sau cùng “Finish”

• R icon trên desktop

Một phiên làm việc với R

Dẫn nhập

• Kết quả tính toán được lưu trữ trong

objects dùng trong toán tử gán

<- hoặc =

OBJECT

• Mỗi object phải có tên

• Tên có thể được viết từ chữ thường, chữ

hoa, số và kí hiệu “,” hoặc “_”

• Ví dụ:

Hue_age = 28

Hue_age<-28

• R phân biệt chữ hoa và chữ thường

Workspace

• getwd() : xem folder hiện hành là gì

ls() liệt kê các object đang làm

• setwd(mydirectory): Thay đổi folder làm

việc

Setwd(“d:/bankingAcademy”)

Packages

• R cấu trúc theo package

• Mỗi phương pháp phân tích là một gói

• Packade có thể tải về hay cài đặt trực

tuyến

• Để biết có package gì dùng lệnh library()

• Cài đặt packages mới:

install.packages(c(“graphics”)