PHÂN TÍCH VÀ XỬ LÝ DỮ LIỆU VỚI R
PHẦN I: GIỚI THIỆU R
• Tại sao lại R
• Tổng quan R
• WorkSpace
•
Input/output
Tại sao lại R
• R hoàn toàn miễn phí
• Chạy trên Windows, Unix, MacOS
• Rất nhiều phương pháp phân tích
• Rât nhiều phương pháp “advanced” không
có trong các chương trình khác
• Biểu diễn đồ thị đẹp
Một chút lích sử
• R là “statistical and graphical programming language”
• Gốc từ s
• R: Thoạt đầu ro Ross Ihake và Robert Gentleman(ĐH
Auckland, new Zealand) viết vào thập niên 1990s
• Từ 1997: international “R-core”, 15 người
Ưu điểm và nhược điểm
– Miễn phí, chỉ tải về từ internet
– Nhiều packages cho chuyên dụng
– Open source
• Ưu điểm
– Thuật ngữ khó hiểu
– Dùng lệnh
– Kí hiệu
• Nhược điểm
R có thể làm gì
• R là ngôn ngữ phân tích thống kê
• Có thể thực hiện tất cả các mô hình phân
tích
• Mô phỏng (simulation)
• Vẽ đồ thị và biểu đồ (rất đẹp)
• Lập trình cho phương pháp mới
Cài đặt R
• Kết nối internet tới đường dẫn
http://cran.r-project.org/bin/windows/base/
• Chọn Download
• Run, Ok hoặc Next
• Sau cùng “Finish”
• R icon trên desktop
Một phiên làm việc với R
Dẫn nhập
• Kết quả tính toán được lưu trữ trong
objects dùng trong toán tử gán
<- hoặc =
OBJECT
• Mỗi object phải có tên
• Tên có thể được viết từ chữ thường, chữ
hoa, số và kí hiệu “,” hoặc “_”
• Ví dụ:
Hue_age = 28
Hue_age<-28
• R phân biệt chữ hoa và chữ thường
Workspace
• getwd() : xem folder hiện hành là gì
•
ls() liệt kê các object đang làm
• setwd(mydirectory): Thay đổi folder làm
việc
Setwd(“d:/bankingAcademy”)
Packages
• R cấu trúc theo package
• Mỗi phương pháp phân tích là một gói
• Packade có thể tải về hay cài đặt trực
tuyến
• Để biết có package gì dùng lệnh library()
• Cài đặt packages mới: