Đọc và lưu dữ liệu trong R Ghi xuất các dữ liệu dưới dạng file.rda # lưu mydat dưới dạng R file với tên mydatfile.rda >savemydat,file=“mydatfile.rda"... Đọc và lưu dữ liệu trong R Đọ
Trang 1THỐNG KÊ MÁY TÍNH
ỨNG DỤNG NGÔN NGỮ
TRONG PHÂN TÍCH DỮ LIỆU
Biên soạn: Phạm Thị Thu Thúy
thuthuy@ntu.edu.vn
Trang 3Tài liệu tham khảo
1 Nguyễn Văn Tuấn, Phân tích số liệu và biểu
đồ bằng R
2 Peter Dalgaard, Statistics and Computing
Trang 4Nội dung chính
Hướng dẫn cài đặt và vận hành R
Xử lý số liệu bằng R
Phân tích thống kê mô tả bằng R
Phân tích hồi quy bằng R
Phân tích dãy số thời gian bằng R
Trang 5Nội dung 1 GIỚI THIỆU R
Trang 6Tại sao R
Mã nguồn mở
Hoàn toàn miễn phí
Chạy trên nền Windows, MacOS
Nhiều phương pháp phân tích không
có trong các phần mền khác
Vẽ biểu đồ tuyệt vời
Trang 8R làm được gì?
R là công cụ phân tích thống kê
Cho phép thực hiện tất cả các môhình phân tích
Mô phỏng
Vẽ đồ thị và biểu đồ rất đẹp
Lập trình cho phương pháp mới
Trang 9Tải phần mềm R
• Truy cập http://cran.r-project/
• R for Windows screen, chọn “base”
• Download R
• Run, chọn OK sau đó chọn FINISH
• Biểu tượng R sẽ xuất hiện trên desktop
• Bắt đầu sử dụng R
Trang 10Làm việc với R
Object: Đối tượng
- tên cho mỗi đối tượng (case sensitive)
- gán giá trị cho đối tượng sử dụngassignment operator (<- hoặc =)
Ví dụ: >tuoi=25
>Tuoi<-25Note: tuoi và Tuoi là 2 đối tượng khác nhau
Trang 11Làm việc với R
Object: Đối tượng
# tạo object sử dụng hàm concatenation(nối số liệu)
>x = c(1:10)
# gọi các giá trị của object
>x
>x[(x>8)|(x<5)] kết quả?
Trang 12Làm việc với R
Object: Cách đặt tên Đối tượng
# tạo object y bao gồm 10 giá trị normal
Trang 13Làm việc với R
Trang 14Làm việc với R
Object: Đối tượng
# tạo object y bao gồm 10 giá trị normal
>y = rnorm(10, mean=0, sd=1)Hoặc
>y=rnorm(10,0,1)
Trang 15Làm việc với R
Trang 16Làm việc với R
Workspace: Môi trường làm việc
# tạo thư mục chứa dữ liệu
> setwd(“D:/thongke”)
Note: + thongke phải được tạo trước ở D:
+ R làm việc với / (không phải \)
# xem thư mục làm việc
> getwd()
Trang 17Làm việc với R
Workspace: Môi trường làm việc
# chuyển thư mục làm việc
Trang 18Làm việc với R
Packages: Gói công cụ
- R cấu trúc theo packages
- Mỗi phương pháp phân tích được thiết
kế trong một package
- Tải package về để sử dụng trong R
- Để xem các packages sẳn có
> library()
Trang 19Làm việc với R
Trang 20Làm việc với R
Packages: Gói công cụ
# cài đặt package mới
>install.packages(c(“moments”)
> library()
# cài đặt nhiều packages
>install.packages(c(“car”,“ggplot2”))
Trang 21Làm việc với R
Trang 22Đọc và lưu dữ liệu trong R
Ghi xuất các dữ liệu dưới dạng file.rda
# tạo hai vector cột x, y
>x=c(1,3,1,3,5)
>y=c(2,5,6,7,8)
# sử dụng data.frame để nhập hai vector x,
y vào object tên là mydat
>mydat=data.frame(x,y)
Trang 23Đọc và lưu dữ liệu trong R
Trang 24Đọc và lưu dữ liệu trong R
Ghi xuất các dữ liệu dưới dạng file.rda
# lưu mydat dưới dạng R file với tên
mydatfile.rda
>save(mydat,file=“mydatfile.rda")
Trang 25Đọc và lưu dữ liệu trong R
Trang 26Đọc và lưu dữ liệu trong R
Trang 27Đọc và lưu dữ liệu trong R
Đọc dữ liệu từ R (file.rda)
# gọi tên file (tìm file mynhaplieu.rda)
>filename=file.choose()
# đọc dữ liệu dưới dạng R bằng lệnh load
# xem dữ liệu
>head(dat)
Trang 28Đọc và lưu dữ liệu trong R
Đọc dữ liệu vào R từ text (ASCII file)
# lấy tên file
Trang 29Đọc và lưu dữ liệu trong R
Đọc dữ liệu vào R từ Excel (.csv)
# lấy tên file
Trang 30Đọc và lưu dữ liệu trong R
Đọc dữ liệu vào R từ Excel (.xls) sửdụng package “gdata”
# lấy tên file
Trang 31Đọc và lưu dữ liệu trong R
Trang 32Đọc và lưu dữ liệu trong R
Trang 33Đọc và lưu dữ liệu trong R
Đọc dữ liệu vào R từ Stata
# lấy tên file
Trang 34Đọc và lưu dữ liệu trong R
Trang 35Đọc và lưu dữ liệu trong R
Đọc dữ liệu vào R từ website
# đọc dữ liệu từ trang http://statistics.vn
>dat6=read.csv("http://statistics.vn/data/ExampleData.csv", header=T)
> head(dat)
Trang 36Đọc và lưu dữ liệu trong R
Làm việc với object sau khi đọc vào R
# gọi object dùng lệnh attach()
>attach(dat6)
# dùng attach() để gọi các objects trước đây
Trang 37Biên tập số liệu
Tạo biến mới
# gọi object dùng lệnh attach()
>attach(dat6)
# dùng attach() để gọi các objects trước đây
Trang 38Biên tập số liệu
Tạo biến mới
Làm việc với một phần dữ liệu
Kết nối dữ liệu
Trang 39^ Lũy thừa == Exactly equal to
!= Not equal to !x Not x
x|y x OR y x&y x AND y
Trang 40Biên tập số liệu
Tạo biến mới bằng câu lệnh
# gọi object từ file mydatafile.rda
Trang 41Biên tập số liệu
Tạo biến mới bằng câu lệnh
# Tạo biến mới và kết nối với một
dataframe sử dụng dấu $
>mydat$sum = mydat$x +mydat$y
# Tạo biến mới z=x*y trong mydat
>mydat$z = mydat$x * mydat$y
Trang 42Đọc và lưu dữ liệu trong R
Trang 43Biên tập số liệu
Tạo biến mới bằng câu lệnh
# Tạo biến mới id và gender
Trang 44Đọc và lưu dữ liệu trong R
Trang 45Biên tập số liệu
Tạo biến mới bằng câu lệnh
# Tạo biến mới là group
nếu id=1,2,3 là group A
id=4,5 là group B
>mydat$group[id>=“1” & id<=“3”]<-“A”
>mydat$group[id>=“4” & id<=“5”]<-“B”
>head(mydat)
Trang 46Biên tập số liệu
Trang 47Biên tập số liệu
Làm việc với một phần dữ liệu
# data frame là một matrix (dòng và cột)
Trang 48Biên tập số liệu
Trang 49Biên tập số liệu
Làm việc với một phần dữ liệu
# Liệt kê dòng và cột của dữ liệu
>dat[,1] liệt kê cột 1
>dat[,1:2] liệt kê cột 1
>dat[2,] liệt kê dòng 2
>dat[3:8,1] liệt kê
>dat[1:5,2:3] liệt kê
Trang 50Biên tập số liệu
Trang 51Biên tập số liệu
Làm việc với một phần dữ liệu
# làm việc trong nhóm id<=5
Trang 52Biên tập số liệu
Trang 53>dat=merge(dat1, dat2, by=“id”)
>dat=merge(dat1, dat2, by=“id”, all.x=T, all.y=T)
>dat
Trang 54Biên tập số liệu
Trang 56Biên tập số liệu
Chuyển dữ liệu từ dạng cột sang dòng
# dụng lệnh metl trong package reshape
Trang 57Biên tập số liệu
Chuyển dữ liệu từ dạng cột sang dòng
# dụng lệnh metl trong package reshape
>require(reshape2)
>dat1=melt(dat, id=c(“id”, “sex”, “group”),
income.vars=c(“income1”, “income2”, “income3”))
>dat1
Trang 58Biên tập số liệu
Trang 60Biên tập số liệu
Chuyển dữ liệu từ dạng dòng sang cột
# dụng lệnh cast trong package reshape
>dat2=cast(dat1, id=c(id, sex, group ~ variable)
>dat2
Trang 61Biên tập số liệu
Trang 62Tóm lược
Đối tượng/Object
Môi trường làm việc/Workspace
Gói công cụ/Packages