Tương tác với R • Khởi động R • Dùng mũi tên up/down arrow keys để Šm các lệnh trước trong console • Dùng mũi tên le~/right keys để chỉnh sửa edit lệnh • Dùng TAB để có thêm lựa chọn
Trang 4Vận hành R
Trang 5Object = đối tượng
Trang 7EpiR: Epidemiological analyses epicalc: Epidemiological analyses boot: Bootstrap analyses
cluster: Cluster analysis
psych : Psychometrics and descrip)ve
sta)s)cs
Trang 8Cài đặt package (ví dụ)
install.packages (c("Hmisc", "rms", "tables",
"foreign", "gmodels", "ggplot2", "sciplot", "Zelig",
"car", "survival", "EpiR", "epicalc", "boot",
"cluster", "psych", "binom", "BMA", "ExactCIdiff",
"lattice", "mgcv", "gam", "nlme", "quantreg")
• Tìm xem đang có package nào đã được cài đặt
library()
Trang 9Văn phạm R
Trang 10Tương tác với R
• Khởi động R
• Dùng mũi tên up/down arrow keys để Šm các lệnh trước trong console
• Dùng mũi tên le~/right keys để chỉnh sửa (edit) lệnh
• Dùng TAB để có thêm lựa chọn (rất có ích)
• Có thể viết nhiều lệnh trong 1 dòng, cách nhau bằng dấu ";"
Trang 11Tên biến số (variable)
Trang 14Đọc dữ liệu
Trang 16# tạo thành dataset
dat = data.frame(age, sex, weight) dat
Trang 18Đọc từ ascii files: read.table
Trang 19Đọc từ ascii files: read.table
hh = read.table("~/Dropbox/hoa hau.txt", header=T,
na.strings="NA")
hh
# Giải thích
read.table() – hàm R
header = dùng dòng đầu trong file làm tên của biến số
na.strings = "NA", lấy NA làm kí hiệu cho giá trị khống (missing values)
Trang 22ID Province Subregion Region Year2014 Year2012 Year2011 Year2010 Year2009 Year2008 Year2007 Year2006
1 An Giang DBSCL Nam 99.64 90.3 81 75.2 79.9 71.7 77.8
2 Ba ria - Vung tau Dong Nam Bo Nam 99.46 97.21 92.58 84.57 70.2 69.9 93.4
3 Bac Giang Dong Bac Bac 99.47 99.04 99.37 97.8 88.04 82.3 60.6 97.6
4 Bac Kan Dong Bac Bac 98.98 88.7 70 60.95 43.2 20.3 91.2
5 Bac Lieu DBSCL Nam 96 85.35 73.08 65.2 48.8 79.2
6 Bac Ninh DBSH Bac 99.62 99.28 94.15 87 75.3 99.6
7 Ben Tre DBSCL Nam 99.67 84.15 72.29 79.71 83.3 79.8 86.4
8 Binh Dinh Nam Trung Bo Trung 99.17 99.6 96.84 93.9 88.48 82.2 71.4 95.4
9 Binh Duong Dong Nam Bo Nam 99.86 90.7 87.75 77.89 63.5 62.5 87.5
10 Binh Phuoc Dong Nam Bo Nam 99.41 99.56 94.57 92.04 82.19 67.2 58.4 93.4
11 Binh Thuan Dong Nam Bo Nam 98.48 88.06 83.2 81.73 75.6 73.6 89.5
12 Ca Mau DBSCL Nam 98.27 99.02 93.16 90.01 82.25 72.7 63.5 82.4
13 Can Tho DBSCL Nam 99.72 99.68 97.74 86 77.42 86.4 79.6 94.9
14 Cao Bang Dong Bac Bac 99 93.73 89.65 64.24 40.6 27.8 86.8
15 Da Nang Nam Trung Bo Trung 98.54 99.53 97.2 96.68 89.74 83.2 76.3 97.5
16 Dak Lak Tay Nguyen Trung 97.98 97.46 88.36 78.11 69.11 55.6 51 86.3
17 Dak Nong Tay Nguyen Trung 97.93 81.95 78.2 76.09 62.3 50.5 79.3
18 Dien Bien Tay Bac Bac 98.11 95.65 71 73.32 74.8 46 81.8
tn = read.csv ("~/Dropbox/THPT.CSV", header=T, na.strings=" ")
tn
Trang 24Đọc dữ liệu từ stata
library(foreign)
schools = read.dta("~/Dropbox/truonghoc.dta")
Trang 25Làm việc với biến số
Trang 281 1 3 6 7 7
2 3 4 7 9 10
3 5 7 8 0 13
Không có Sum1 !
Trang 29Biến số (variables)
• Biến số = cột dữ liệu
• File: SCHOOL DATA (VN).CSV
schools = read.csv("~/Dropbox/World Bank 2014/Data for 2015
workshop/SCHOOL DATA (VN).csv", header=T)
attach (schools)
head (schools)
dim (schools)
Trang 30> head(schools)
REGION TYPE AREA
1 CENTRAL PUBLIC URBAN
2 NORTH PUBLIC URBAN
3 SOUTH PUBLIC RURAL
4 SOUTH PUBLIC URBAN
5 CENTRAL PUBLIC URBAN
6 NORTH PUBLIC URBAN
STRATUM SCHOOLID SC01Q01
1 VNM - stratum 07 : Central Viet Nam / Public / Urban 1 Public
2 VNM - stratum 01 : North Viet Nam / Public / Urban 2 Public
3 VNM - stratum 14 : Southern Viet Nam / Public / Rural 3 Public
4 VNM - stratum 13 : Southern Viet Nam / Public / Urban 4 Public
5 VNM - stratum 07 : Central Viet Nam / Public / Urban 5 Public
6 VNM - stratum 01 : North Viet Nam / Public / Urban 6 Public
SCHSIZE SC09Q11 SC03Q01 SC04Q01 SC05Q01 CLSIZE COMPWEB PCGIRLS
1 1804 93 Small Town One Other >50 53 NA 0.557
2 1586 84 Town Two or More 36-40 38 1 0.505
3 604 32 Village No Others 41-45 43 0 0.533
4 568 99 Small Town No Others 36-40 38 1 0.586
5 1078 65 Small Town One Other 41-45 43 1 0.552
6 1232 37 Small Town Two or More 41-45 43 1 0.594
SCMATEDU SMRATIO STRATIO
Trang 31Chúng ta phân tích theo biến
• table(REGION)
• table(REGION, AREA)
• mean(SMRATIO)
• mean(SMRATIO, na.rm=T)
Trang 32Dữ liệu dạng tóm lược (summary data)
Trang 33Dữ liệu dạng tóm lược (summary data)
Trang 34Biên tập dữ liệu
Trang 35We want to create a new variable called sex with numeric values (1, 2)
dat$ sex [gender=="male"] <- 1
dat$ sex [gender=="female"] <- 2
Trang 38sort()
X = rnorm(10); X
[1] 1.5651300 -0.5382971 -0.1995302 1.0111098 0.3590144 -1.5245237 [7] -0.3192534 0.1323256 -0.7916954 -0.0664167
sort(X)
[1] -1.5245237 -0.7916954 -0.5382971 -0.3192534 -0.1995302 -0.0664167 [7] 0.1323256 0.3590144 1.0111098 1.5651300
Trang 39dat = merge(dat1, dat2, by="id") dat = merge(dat1, dat2, by="id", all.x=T, all.y=T)
Trang 40R và RStudio
Trang 41Một phiên làm việc với R
Prompt
R Console
Menu Command button
Trang 42RStudio
• Một “add-on” của R
• Website RStudio h£p://rstudio.org/
Trang 43Giới thiệu RStudio
Trang 44R và RStudio
• Cài đặt R trước
• Cài đặt RStudio