Ước lượng của yếu tố ảnh hưởng Estimate of Treatment Effects > summaryanalysis .... Coefficients: Estimate Std... Phân tích đồ thị Graphical Analysis average.
Trang 1Data Analysis Using R:
Phân tích phương sai
Analysis of Variance
2
ANOVA và quan niệm về “yếu tố ảnh hưởng”
40-2 40+6 40-4
40-2 40+6 40-4
40-2 40+6 40-4
• Có sự khác nhau giữa các
nhóm, nhưng không có sự khác nhau trong nhóm
• Mô hình lúc đó là:
– Y ij = m + a j
• Trong đó m = 40; a1= -2, a2
= 6 và a3= -4
• Chú ý rằng a1+ a2+ a3= 0
3
40-2+5 40+6-5 40-4+3
40-2+2 40+6+1 40-4
40-2 40+6+8 40-4+1
overall mean: 41.1
• Thực tế, luôn có sự khác nhau ngẫu nhiên trong tập
hợp, vì thế có sai số mẫu
• Mô hình bao gồm yếu tố sai số:
Y ij = m + a j+ eij
• Ảnh hưởng của Sản phẩm A: 39.3-41.1 = -1.8 Sản phẩm B: 47.3-41.1 = 5.8 Sản phẩm C: 36.7-41.1 = -4.4
ANOVA và quan niệm về “yếu tố ảnh hưởng”
Trang 2Mô hình ANOVA
• Các phần tử tạo sự khác biệt
– Trong nhóm
• Mô hình:
Y ij = m + a j + eij
• Giả thiết:
Phân bố chuẩn
Độc lập
Đồng nhất
• Var(Y) = Var(m) + Var(a) + Var(e)
= Var(a) + Var(e)
Gọi giá trị trung bình của ba nhóm là m1, m2, và m3, và nói theo ngôn ngữ của kiểm định giả thiết thì giả thiết đảo là:
Ho: m1 = m2 = m3
Và giả thiết chính là:
HA: có một khác biệt giữa 3 mj
(j = 1,2,3)
5
Sự khác nhau giữa các nhóm
Overall mean: 41.1
Tổng bình phương cho sự khác biệt giữa các nhóm:
(39.3 - 41.1)2+ (47.3 - 41.1)2+ (36.7 - 41.1)2= 61.04
Nhưng giá trị trung bình của mỗi nhóm được tính từ 3 quan sát Vì thế
tổng bình phương “thật sự” là:
Bậc tự do : (3 nhóm – 1) = 2
Sự khác nhau trong các nhóm
SS cho nhóm A: SS1 = (43 – 39.3)2 + (40 – 39.3)2 + (35 – 39.3)2= 32.7
SS cho nhóm B: SS2 = (41 – 47.3)2 + (47 – 47.3)2 + (54 – 47.3)2= 84.7
SS cho nhóm C: SS3 = (39 – 36.7)2 + (34 – 36.7)2 + (37 – 36.7)2= 12.7
Trang 3Tóm tắt về kết quả phân tích
• F statistic = MSB / MSW = 92.4 / 21.7 = 4.27
• P value associated with (2, 6) df: 0.07
MSB=SSB/k-1 = 184.8/(3-1)=92.4
MSW=SSW/N-k = 130/(9-3)=21.7
8
Phân tích ANOVA bằng R
group <- c( 1,1,1 , 2,2,2 ,3,3,3)
y <- c(43, 40, 35, 41, 47, 54, 39, 34, 37)
group <- as.factor(group)
analysis <- lm(y ~ group)
summary(analysis)
anova(analysis)
Trước hết, chúng ta cần phải nhập dữ liệu vào R Bước thứ nhất là
báo cho R biết rằng chúng ta có ba nhóm A, B,C
Định nghĩa biến group là một yếu tố - factor
9
Tóm tắt kết quả
> anova(analysis)
Response: y
Df Sum Sq Mean Sq F value Pr(>F)
group 2 184.889 92.444 4.2667 0.07037
Residuals 6 130.000 21.667
-Signif codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Group= Between group
Residentals= Within group
Trang 4Ước lượng của yếu tố ảnh hưởng
(Estimate of Treatment Effects)
> summary(analysis)
Coefficients:
Estimate Std Error t value Pr(>|t|)
(Intercept) 39.333 2.687 14.636 6.39e-06 ***
group2 8.000 3.801 2.105 0.080
group3 -2.667 3.801 -0.702 0.509
-Signif codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 4.655 on 6 degrees of freedom
Multiple R-Squared: 0.5872, Adjusted R-squared: 0.4495
F-statistic: 4.267 on 2 and 6 DF, p-value: 0.07037
Intercept:
Để tính thông số j ta đặt 1 =0, 2 = 2 - 1 =8.000, SD= 3.801,
Kiểm định t =8/3.801=2.105, p=0.08, không có ý nghĩa thống kê
11
Tiêu chuẩn so sánh Turkey
Multiple Comparisons: Tukey’s Method
res <- aov(y ~ group)
TukeyHSD (res)
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = y ~ group)
$group
diff lwr upr p adj
2-1 8.000000 -3.661237 19.6612370 0.1689400
3-1 -2.666667 -14.327904 8.9945703 0.7714179
3-2 -10.666667 -22.327904 0.9945703 0.0692401
plot(TukeyHSD(res), ordered=T)
95% fam ily-wise confidence level
Tiêu chuẩn so sánh Turkey
Multiple Comparisons: Tukey’s Method
Trang 5Phân tích đồ thị Graphical Analysis
average <- tapply(y, group, mean)
std <- tapply(y, group, sd)
ss <- tapply(y, group, length)
sem <- std/sqrt(ss)
stripchart(y ~ group, "jitter", jit=0.05, pch=16,
vert=TRUE)
arrows(1:3, average+sem, 1:3, average-sem, angle=90,
code=3, length=0.1)
lines(1:3, average, pch=4, type="b", cex=2)
14
Phân tích đồ thị Graphical Analysis
15
Phân tích ANOVA nhiều yếu tố
Factorial ANOVA
Variety
Giống
Pesticide (côn trùng) Total
B1 29 50 43 53 175
B2 41 58 42 73 214
B3 66 85 63 85 305
Tổng
số
Mô hình:
product = a + b(variety) + g(pesticide) + e
Trang 6Phân tích ANOVA nhiều yếu tố bằng R
Tổng số 136 193 154 211 694
variety <- c(1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3)
pesticide <- c(1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4)
product <- c(29,50,43,53,41,58,42,73,66,85,69,85)
variety <- as.factor(variety)
pesticide <- as.factor(pesticide)
data <- data.frame(variety, pesticide, product)
variety pesticide product
17
Factorial ANOVA by R
analysis <- aov(product ~ variety + pesticide)
anova(analysis)
Analysis of Variance Table
Response: product
Df Sum Sq Mean Sq F value Pr(>F)
variety 2 2225.17 1112.58 44.063 0.000259 ***
pesticide 3 1191.00 397.00 15.723 0.003008 **
Residuals 6 151.50 25.25
-Signif codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Multiple Comparisons
> TukeyHSD(analysis)
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = product ~ variety + pesticide)
$variety
diff lwr upr p adj
2-1 9.75 -1.152093 20.65209 0.0749103
3-1 32.50 21.597907 43.40209 0.0002363
3-2 22.75 11.847907 33.65209 0.0016627
$pesticide
diff lwr upr p adj
2-1 19 4.797136 33.202864 0.0140509
Trang 7Multiple Comparisons
> plot(TukeyHSD(analysis), ordered=TRUE)
-20 -10 0 10 20 30 40
95% family -w is e confidence lev el
Differences in mean levels of pesticide
20
Phân tích ANOVA cho thí nghiệm hình
vuông Latin
Aa 143 Ba 128 Bb 166 Ab
Ab 178 Aa 140 Ba 131 Bb
Bb 173 Ab 169 Aa 141 Ba
Ba 136 Bb 165 Ab 173 Aa
21
Tóm tắt phân tích ANOVA cho thí nghiệm hình
vuông Latin
Trung bình theo giống Trung bình theo mẫuq Trung bình theo từng
phương pháp
1: 156.25
3: 150.50
Overall mean: 154.25
1: 153.00 3: 154.50
Overall mean: 154.25
1 (Aa): 173.75
3 (Ba): 142.25
Overall mean: 154.25
Trang 8Latin-square ANOVA by R
Aa 143 Ba 128 Bb 166 Ab
Ab 178 Aa 140 Ba 131 Bb
Bb 173 Ab 169 Aa 141 Ba
Ba 136 Bb 165 Ab 173 Aa
y <- c(175, 143, 128, 166, 170, 178, 140, 131, 135, 173, 169, 141, 145, 136, 165, 173)
variety <- c(1,2,3,4, 1,2,3,4, 1,2,3,4, 1,2,3,4,)
sample <- c(1,1,1,1, 2,2,2,2, 3,3,3,3, 4,4,4,4)
method <- c(1, 3, 4, 2, 2, 1, 3, 4, 4, 2, 1, 3, 3, 4, 2, 1)
variety <- as.factor(variety)
sample <- as.factor(sample)
23
Latin-square ANOVA by R
latin <- aov(y ~ sample + variety + method)
summary(latin)
Df Sum Sq Mean Sq F value Pr(>F)
sample 3 8.5 2.8 2.2667 0.1810039
variety 3 123.5 41.2 32.9333 0.0004016 ***
method 3 4801.5 1600.5 1280.4000 8.293e-09 ***
Residuals 6 7.5 1.3
-Signif codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.'
0.1 ' ' 1
Latin-square – Multiple Comparisons
> TukeyHSD(latin)
$variety
diff lwr upr p adj
2-1 1.25 -1.4867231 3.9867231 0.4528549
4-1 -3.50 -6.2367231 -0.7632769 0.0173206
4-2 -4.75 -7.4867231 -2.0132769 0.0038827
4-3 2.25 -0.4867231 4.9867231 0.1034761
$method
diff lwr upr p adj
2-1 -5.25 -7.986723 -2.513277 0.0023016
3-1 -31.50 -34.236723 -28.763277 0.0000001
Trang 9Graphical Analysis
boxplot(y ~ method, xlab="Methods (1=Aa, 2=Ab, 3=Ba,
4=Bb", ylab="Production")
Methods (1=Aa, 2=A b, 3=Ba, 4=Bb
26
Cross-over Study ANOVA
Nhóm Mã số bệnh nhân số
(id)
Thời gian (phút) ra mồ hôi trên trán Tháng 1 Tháng 2
27
Cross-over Study ANOVA by R
y <- c(6,8,12,7,9,6,11,8, 4,7,6,8,10,4,6,8, 5,9,7,4,9,5,8,9
7,6,11,7,8,4,9,13)
seq <- c(1,1,1,1,1,1,1,1, 1,1,1,1,1,1,1,1, 2,2,2,2,2,2,2,2,
2,2,2,2,2,2,2,2)
period <- c(1,1,1,1,1,1,1,1, 2,2,2,2,2,2,2,2, 2,2,2,2,2,2,2,2,
1,1,1,1,1,1,1,1)
treat <- c(1,1,1,1,1,1,1,1, 2,2,2,2,2,2,2,2, 1,1,1,1,1,1,1,1,
2,2,2,2,2,2,2,2)
id <- c(1,3,5,6,9,10,13,15, 1,3,5,6,9,10,13,15, 2,4,7,8,11,12,14,16,
2,4,7,8,11,12,14,16)
seq <- as.factor(seq)
period <- as.factor(period)
treat <- as.factor(treat)
id <- as.factor(id)
data <- data.frame(seq, period, treat, id, y)
Trang 10Cross-over Study ANOVA by R
xover <- lm(y ~ treat + seq + period)
anova(xover)
Analysis of Variance Table
Response: y
Df Sum Sq Mean Sq F value Pr(>F)
treat 1 16.531 16.531 4.9046 0.04388 *
seq 1 0.031 0.031 0.0093 0.92466
id 14 103.438 7.388 2.1921 0.07711
Residuals 14 47.187 3.371
-Signif codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' '
1
29
Cross-over Study ANOVA by R
> TukeyHSD(aov(y ~ treat+seq+period+id))
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = y ~ treat + seq + period + id)
$treat
diff lwr upr p adj
2-1 -1.4375 -2.829658 -0.04534186 0.0438783
$seq
diff lwr upr p adj
2-1 0.0625 -1.329658 1.454658 0.924656
$period
diff lwr upr p adj
2-1 -0.3125 -1.704658 1.079658 0.6376395