câu lệnh xử lý số liệu trong R, tổng hợp 34 bài tập phổ biến trong R, phần mềm xử lý số liệu trong thống kê, xác xuất, phổ biến, điển hình, chi tiết, đại học công nghiệp thành phố Hồ Chí Minh, câu lệnh xử lý số liệu trong R, tổng hợp 34 bài tập phổ biến trong R, phần mềm xử lý số liệu trong thống kê, xác xuất, phổ biến, điển hình, chi tiết, đại học công nghiệp thành phố Hồ Chí Minh
Trang 1Bài 1
Biểu đồ thể hiện hiệu suất trích ly của hai dung môi
Bảng 1: Hiệu suất của hai dung môi
Phụ lục:
> dungmoi<-gl(2,5)
> hieusuat<-c(68,63,74,66,75,52,84,48,84,62)
> t.test(hieusuat~dungmoi)
Welch Two Sample t-test
data: hieusuat by dungmoi
t = 0.39832, df = 4.7158, p-value = 0.7078
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
Trang 2
Qua kết quả phân tích phương sai ta thấy rằng: Giá trị P-valeu=1.319e-07
<0.05, nên sự khác nhau về thời gian bền bọt khi dùng phụ gia và không dùng phụgia có ý nghĩa thống kê Ngoài ra dựa vào bảng số liệu ta thấy rằng thời gian khi
sử dụng phụ gia dài hơn so với không dùng nên trong trường hợp này ta nên dùng CMC để kéo dài thời gian bền bọt
Phụ gia:
> phugia<-gl(2,10)
>
benbot<-c(1.10,0.99,1.05,1.01,1.02,1.07,1.10,0.98,1.03,1.12,1.25,1.31,1.28,1.20,1.18,1.22,1.22,1.17,1.19,1.21)
Trang 3> t.test(benbot~phugia)
Welch Two Sample t-test
data: benbot by phugia
t = -8.3884, df = 17.853, p-value = 1.319e-07
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
Trang 4Qua kết quả phân tích ANOVA ta thấy: Giá trị Pr(<F) = 7.463e-05 *** < 0.05,
ta thấy hiệu suất thủy phân protein của những loại enzyme khác nhau có ý nghĩa thống kê Sau khi phân tích Tukey, dựa vào bảng số liệu cho thấy: loại enzyme C cho kết quả hiệu suất cao nhất,sau đó là enzyme A, cho hiệu quả thấp hơn là enzyme B và D, giữa B và D có sự khác biệt Cho nên nếu là nhà sản xuất, tôi sẽ chọn enzyme A và C
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = hieusuat ~ enzyme)
Trang 5Biểu đồ thể hiện ảnh hưởng của nồng độ phụ gia đến khả năng trương nở của bánh
phồng tôm Bảng số liệu về khả năng trương nở của bánh phồng tôm
Nồng độ phụ gia Khả năng trương nở
Chú thích: các kí hiệu [a], [b], [c] cho thấy sự khác biệt có ý nghĩa thống kê
Qua kết quả phân tích anova ta thấy rằng: Giá trị Pr(>F) = 0.03722 * < 0.05,sự khác nhau về khả năng trương của bánh ở các nồng độ phụ gia khác nhau
có ý nghĩa thống kê Phân tích tukey kết hợp bảng số liệu ta nhận thấy: khả năng trương ở nồng độ 0.5% là cao nhất, vì vậy ta nên chọn nồng độ enzyme 0.5% là thích hợp nhất
Trang 6Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = no ~ phugia)
Trang 7Đối chứng 3.5317 ± 0.1226
khác nhau về hàm lượng izozym EST trong 2 nhóm có ý nghĩa thống kê Qua bảng số liệu ta có hàm lượng izozym EST trong nhóm người không tiếp xúc trực tiếp với hóa chất cao hơn so với nhóm người tiếp xúc trực tiếp
Phụ lục:
> nhom<-gl(2,35)
>
hamluong<-c(3.45,3.58,3.59,3.62,3.59,3.57,3.35,3.74,3.29,3.48,3.45,3.58,3.59,3.62,3.59,3.57,3.35,3.74,3.29,3.48,3.45,3.58,3.59,3.62,3.59,3.57,3.35,3.74,3.29,3.48,3.45,3.58,3.59,3.62,3.59,3.57,3.57, 3.59, 3.58, 3.67, 3.69,3.74, 3.58, 3.68,3.59, 3.58, 3.74, 3.75, 3.61, 3.78, 3.67, 3.68, 3.35, 3.58, 3.68, 3.59,
3.58,3.58, 3.68, 3.59, 3.58, 3.74, 3.75, 3.61, 3.78, 3.67, 3.69, 3.74, 3.58, 3.68)
> t.test(hamluong~nhom)
Welch Two Sample t-test
data: hamluong by nhom
t = -4.4076, df = 61.042, p-value = 4.305e-05
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
Trang 8Biểu đồ thể hiện sự yêu thích của khách hàng đối với hương chanh dây và
Phụ lục:
> thich<-c(132,145)
> total<-c(147,178)
> prop.test(thich,total)
2-sample test for equality of proportions with continuity correction
data: thich out of total
X-squared = 3.8061, df = 1, p-value = 0.05107
alternative hypothesis: two.sided
95 percent confidence interval:
0.001950849 0.164754035
Trang 9Biểu đồ thể hiện hàm lượng saponin trong nhân sâm từ ba vùng khác nhau
Bảng số liệu thể hiện hàm lượng saponin trong nhân sâm
Chú thích: các kí hiệu [a], [b], [c] cho thấy sự khác biệt có ý nghĩa thống kê
Dựa vào kết quả phân tích anova ta thấy: giá trị Pr(>F) = 9.247e-06 *** <0.05,
ta thấy sự khác nhau về hàm lượng saponin ở mỗi vùng khác nhau có ý nghĩa thống kê Qua bảng số liệu ta thấy hàm lượng saponin ở vùng 1 lớn hơn hai vùng còn lại, cho nên nếu có nhu cầu về nhân sâm, tôi sẽ chọn nhân sâm ở vùng 1
Phụ lục:
> vung<-c(1,1,1,1,1,1,1,2,2,2,2,2,3,3,3,3,3,3)
>
saponin<-c(7.53,6.87,7.12,7.53,6.84,6.67,7.81,5.87,5.64,6.14,6.07,5.79,6.14,6.35,6.50,6.49,6.55,6.33)
Trang 10Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = saponin ~ vung)
Độ màu của 2 sản phẩm ta có : p-value= 1.968e-05<0.05, cho nên giá trị cảm quan của sản phẩm 1 về độ màu khác sản phẩm 2 Và độ màu của sản phẩm 1 cao
hơn sản phẩm 2
Hương sản phẩm 1 với hương sản phẩm 2 : p-value= 0.6627 > 0.05 nên sự khác biệt về mức ưa thích của hai nhóm hương 1 và hương 2 không có ý nghĩa thống kê nên chọn một trong hai hương đều được
Vị mặn sản phẩm 1 với vị mặn sản phẩm 2: p-value = 8.022e-05<0.05, cho nên giá trị cảm quan của sản phẩm 1 về vị mặn khác sản phẩm 2 Và vị mặn của sản phẩm 1 cao hơn sản phẩm 2
Trang 11Qua những nhận định trên ta có thể đưa ra được quyết định cho sản phẩm tương lai cho công ty: ta nên chọn “ độ trong”, “độ màu”, “vị mặn” của sản phẩm
Welch Two Sample t-test
data: sanpham by dotrong
t = 5.1612, df = 17.712, p-value = 6.895e-05
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
Welch Two Sample t-test
data: sanpham by domau
t = 5.7301, df = 17.756, p-value = 2.074e-05
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
Trang 12data: sanpham by huong
t = 0.7845, df = 15.031, p-value = 0.445
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
Welch Two Sample t-test
data: sanpham by viman
t = -3.2205, df = 17.92, p-value = 0.004765
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
Trang 132-sample test for equality of proportions with continuity correction
data: hailong out of total
X-squared = 4.8184, df = 1, p-value = 0.02816
alternative hypothesis: two.sided
95 percent confidence interval:
Trang 14Biểu đồ thể hiện thị hiếu của khách hàng về hai loại sản phẩm
Bảng số liệu thị hiếu của khách hàng
Phụ lục:
> sanpham<-gl(2,11)
> diem<-c(6,8,7,8,8,9,7,5,6,7,7,8,8,9,7,8,7,7,9,8,9,8)
> t.test(diem~sanpham)
Welch Two Sample t-test
data: diem by sanpham
t = -2.1926, df = 17.644, p-value = 0.042
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
Trang 15Biểu đồ thể hiện khả năng thủy phân màng tế bào nấm mèo của enzyme
Chú thích: các kí hiệu [a], [b], [c] cho thấy sự khác biệt có ý nghĩa thống kê
Qua kết quả phân tích ANOVA ta thấy: giá trị Pr(>F) = 6.447e-06 *** < 0.05, sự khác nhau về hiệu suất trích ly ở thời gian khác nhau có ý nghĩa thống kê.Kết hợp kết quả phân tích Tukey và bảng số liệu ta thấy hiệu suất trích ly ở 85 phút là cao nhất và có sự khác biệt so với những thời gian còn lại Vì vậy thời gianphân hủy tốt nhất là 85 phút
Phụ lục:
> thoigian<-gl(5,3)
>
hieusuat<-c(16.77,18.56,17.83,21.51,20.42,21.27,22.16,24.73,23.01,24.92,24.27,23.96,24.73,24.41,25.82)
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = hieusuat ~ thoigian)
$thoigian
diff lwr upr p adj
2-1 3.3466667 1.05425211 5.639081 0.0050286
Trang 16Biểu đồ thể hiện sự ảnh hưởng của giống đến năng suất của lúa
Bảng số liệu ảnh hưởng của giống đến năng suất của lúa
Giống 1 7.0a± 1.00
Giống 2 8.6a ±1.14
Giống 3 4.6b ±1.14
Giống 4 4.8b ± 0.84
Chú thích: các kí hiệu [a], [b], [c] cho thấy sự khác biệt có ý nghĩa thống kê
Qua kết quả phân tích ANOVA ta thấy, giá trị Pr(>F) = 3.229e-05 *** < 0.05, cho thấy sự khác nhau về năng suất của bốn giống lúa có ý nghĩa thống kê Dựa vào phân tích Tukey kết hợp với bảng số liệu cho thấy giống 1 và giống 2 cho năng suất cao hơn các giống còn lại, vì vậy ta nên chọn giống 1 hoặc giống 2 phổ biến trong sản xuất
Phụ lục:
Trang 17Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = nangsuat ~ giong)
Trang 18Biểu đồ thể hiện sự ảnh hưởng của nồng độ chế phẩm đến hàm lượng vitamin
C
Bảng số liệu ảnh hưởng của nồng độ chế phẩm đến hàm lượng vitamin C
Qua kết quả phân tích ANOVA ta thấy: giá trị Pr(>F) = 2.389e-15 ***
<0.05, ta thấy được rằng sự khác nhau về hàm lượng vitamin C thu được ở những nồng độ khác nhau có ý nghĩa thống kê Dựa vào phân tích Tukey kết hợp với bảng số liệu cho thấy khi sử dụng nồng độ 0.3(%v/w) thì hàm lượng vitamin C thuđược là cao nhất nhưng không khác biệt lắm so với hàm lượng vitamin C thu được ở nồng độ 0.25% và 0.2%, xét về mặt chi phí sản xuất thì nên chọn nồng độ 0.2%
Phụ lục:
> nongdo<-gl(7,3)
Trang 19>
vitaminc<-c(49.02,48.33,52.14,76.43,78.64,79.31,88.65,90.52,87.94,90.75,92.51,91.96,93.56,94.42,94.99,95.23,97.12,97.91,96.41,97.56,98.73)
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = vitaminc ~ nongdo)
Trang 207-4 5.8266667 2.0655155 9.587818 0.00170296-5 2.4300000 -1.3311512 6.191151 0.35063927-5 3.2433333 -0.5178178 7.004484 0.11310167-6 0.8133333 -2.9478178 4.574484 0.9873690
$nongdo
diff lwr upr p adj
2-1 28.2966667 24.5355155 32.057818 0.00000003-1 39.2066667 35.4455155 42.967818 0.00000004-1 41.9100000 38.1488488 45.671151 0.00000005-1 44.4933333 40.7321822 48.254484 0.00000006-1 46.9233333 43.1621822 50.684484 0.00000007-1 47.7366667 43.9755155 51.497818 0.00000003-2 10.9100000 7.1488488 14.671151 0.00000184-2 13.6133333 9.8521822 17.374484 0.00000015-2 16.1966667 12.4355155 19.957818 0.00000006-2 18.6266667 14.8655155 22.387818 0.00000007-2 19.4400000 15.6788488 23.201151 0.00000004-3 2.7033333 -1.0578178 6.464484 0.24683385-3 5.2866667 1.5255155 9.047818 0.00406686-3 7.7166667 3.9555155 11.477818 0.00009927-3 8.5300000 4.7688488 12.291151 0.00003255-4 2.5833333 -1.1778178 6.344484 0.28924146-4 5.0133333 1.2521822 8.774484 0.00636327-4 5.8266667 2.0655155 9.587818 0.00170296-5 2.4300000 -1.3311512 6.191151 0.35063927-5 3.2433333 -0.5178178 7.004484 0.11310167-6 0.8133333 -2.9478178 4.574484 0.9873690
Bài 14
Trang 21
Biểu đồ thể hiện số lượng bệnh nhân tăng trong lượng theo ba thực đơn khác
nhau Bảng số liệu tăng trọng lượng của bệnh nhân
Qua kết quả kiểm định t.test ta thấy giá trị p- value =2.2e-16 <0.05, sự khác nhau về sự tăng trọng lượng cơ thể ở ba thực đơn là có ý nghĩa thống kê Hơn nữa,việc dựa vào bảng số liệu ta thấy rằng số lượng bệnh nhân tăng trọng lượng từ 1.5-
3 kg/tháng ở thực đơn 3 cao nhất, cho nên thực đơn 3 sẽ giúp bệnh nhân lấy lại trọng lượng ban đầu nhanh hơn
data: tangcan out of total
X-squared = 249.9598, df = 2, p-value < 2.2e-16
alternative hypothesis: two.sided
sample estimates:
prop 1 prop 2 prop 3
Trang 220.5903614 0.3493976 0.8843373
Bài 15
Biểu đồ thể hiên khả năng cải tạo cấu trúc sản phẩm của phụ gia
Bảng số liệu thể hiện khả năng cải tạo cấu trúc sản phẩm
Qua kết quả phân tích ta thấy:Giá trị p-value < 2.2e-16 <0.05, nên sự khác nhau
về độ cải thiện yagourt của ba loại phụ gia có ý nghĩa thống kê Qua kiểm địnhcác tỷ lệ cho thấy phụ gia A, B có cấu trúc tốt chiếm tỷ lệ cao, cấu trúc vừa vàkhông đạt chiếm tỷ lệ thấp, tuy nhiên phụ gia A có độ cải thiện cấu trúc tôt nhất
Vì vậy nếu là nhà sản xuất nên chọn phụ gia A,B để cải thiện cấu trúc Yagourt và
để cải thiện cấu trúc tốt thì nên chọn phụ gia A
Trang 23data: cautructot out of total
X-squared = 92.755, df = 3, p-value < 2.2e-16
alternative hypothesis: two.sided
data: cautrucvua out of total
X-squared = 36.833, df = 3, p-value = 4.99e-08
alternative hypothesis: two.sided
data: cautruckhongdat out of total
X-squared = 52.347, df = 3, p-value = 2.525e-11
alternative hypothesis: two.sided
sample estimates:
Trang 24prop 1 prop 2 prop 3 prop 4
Qua việc phân tích anova ta thấy rằng p-value= 1.062e-06 ***<0.05 Do đó
sự khác nhau về hàm lượng phenol ở các nồng độ khác nhau là có ý nghĩa thống kê Ngoài ra ta còn thấy được rằng ở nồng độ 0.15%, 0.2%, 0.25%, 0.3% thu được hàm lượng phenol rất cao nhưng lại không có ý nghĩa thống
kê vì vậy tốt nhất ta nên cho hàm lượng enzyme ở 0.1% để giảm được chi phí và thu được nhiều phenol.
Trang 25Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = HLphenol ~ group)
Trang 26Biểu đồ thể hiện chất lượng trên ba loại đất
Bảng số liệu kết quả chất lượng cây trồng trên ba loại đất
Phụ lục:
> tot<-c(170,180,150)
> xau<-c(40,50,60)
Trang 27> total<-c(210,230,210)
> chisq.test(tot,tatol)
Pearson's Chi-squared test
data: tot and total
Biểu đồ thể hiện mối quan hệ giữa nồng độ benzen và mật độ quang
Trang 28
Mối quan hệ giữa nồng độ benzene (g/l) và mật độ đo quang (Am) được thể hiện qua phương trình đường chuẩn : y = 0.57034x + 0.07963 (R2 = 0.9999)
Residual standard error: 0.007876 on 5 degrees of freedom
Multiple R-squared: 0.9999, Adjusted R-squared: 0.9998
F-statistic: 3.374e+04 on 1 and 5 DF, p-value: 9.071e-11
> legend(1.75,0.5,c("y=0.079626+0.570337 ","R^2=0.9999"))
> abline(reg)
Bài 19
Trang 29
Biểu đồ thể hiện tác động của các mức công suất siêu âm đến hàm lượng
vitamin C Bảng số liệu công suất siêu âm và hàm lượng vitamin C
Quá trình phân tích cho thấy p-value = 2.57e-16 < 0.05 nên sự khác biệt
về giá trị trung bình của hàm lượng vitamin C giữa các công suất siêu âm khác nhau có ý nghĩa thống kê với mức ý nghĩa α=0.05 Nên chọn công suất siêu âm là 225 W vì giá trị trung bình về hàm lượng vitamin C là lớn nhất và
có sự khác biệt so với tất cả các công suất siêu âm khác.
Phụ lục
>congsuat<-gl(6,3)
>
hieusuat<-c(50.5,49.7,51.4,96.3,95.9,97.5,100.7,101.2,99.6,103.6,102.4,103.9,100.6,102.1,99.5,97.7,98.4,99.2)
> congsuat<-as.factor(congsuat)
> mylinh<-data.frame(congsuat,hieusuat)
Trang 30Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = hieusuat ~ congsuat)
Bảng số liệu thu hồi dịch chiết khi sử dụng các biện pháp khác nhau
Phương pháp Hiệu suất (%)
Bổ xung enzyme 71.41a ± 1.67Sóng siêu âm 80.11b ±2.36Kết hợp cả hai 87.11c ± 1.27
Trang 31Qua kết quả phân tích p-value= 0.000141 <0.05, cho thấy sự khác nhau về hiệu suất thu hồi dịch chiêt trong quá trình sản xuất nước ép nho khi sử dụng các biện pháp khác nhau có ý nghĩa thống kê Trong đó phương pháp kết hợp bổ sung enzyme với sóng siêu âm có hiệu suất thu hồi dịch chiết lớn nhât (80.1%) và có sựkhác biệt với 2 phương pháp còn lại Nên áp dụng phương pháp này để tăng hiệu suất thu hồi dịch chiết.
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = hieusuat ~ group)
Trang 32Biểu đồ thể hiện mối tương quan giữa mật độ quang và nồng độ Nitrat
Bảng 21.1: Bảng số liệu tương quan giữa mật độ quang và nồng độ Nitrat ống chuẩn
Ghi chú: Chỉ mẫu có Am < 1.569 mới có thể tính nồng độ Nitrat, mẫu còn lại
tiếp tục pha loãng mẫu ban đầu.
Nồng độ Nitrat trong mẫu 1 là 26.04082(ppm)
Phụ lục:
> v <- c(0,1,2,3,4)