- Phân tích phương sai ANOVA: so sánh 1 biến liên tục giữa các nhóm nhiều hơn 2 nhóm - Giả thuyết vô hiệu: H0: không có sự khác biệt nào giữa các quần thể - Giả thuyết đảo: H1: có tối th
Trang 1reli TRƯỜNG ĐẠI HỌC BÁCH KHOA
oOo BÁO CÁO BÀI TẬP MÔN XÁC SUẤT THỐNG KÊGiảng viên hướng dẫn : Nguyễn Kiều Dung
Trang 22 Làm sạch dữ liệu (Data cleaning): 4
4 t.test: Dùng một kiểm định phù hợp cho hai biến pre.weight và weight6weeks 8
5 ANOVA một nhân tố: Chế độ ăn kiêng Diet nào hiệu quả nhất trong việc giảm cân 8
6 ANOVA hai nhân tố: Chế độ ăn kiêng ( Diet ) và giới tính ( gender ) có ảnh hưởng thế nào đến việc giảm cân weight.loss 14
4 Xây dựng mô hình hồi quy tuyến tính (Fitting linear regression models): 25
5 Nhận xét
I Phần chung:
Tập tin Diet.csv (cung cấp bởi Đại học Sheffield, Anh) chứa thông tin về một thử nghiệm về hiệu quả của các chế độ ăn kiêng trong việcgiảm cân nặng đối với những người trưởng thành Một người tham gia sẽ được áp dụng một trong ba chế độ ăn kiêng khác nhau trong vòng 6 tuần lễ.Cân nặng của người tham gia sẽ được ghi nhận trước và sau khi kết thúc thử nghiệm để đánh giá hiệu quả của từng chế độ ăn kiêng
Các biến chính trong bộ dữ liệu:
Person = số thứ tự của người tham gia thử nghiệm
gender = giới tính của người tham gia (1 = nam, 0 = nữ)
Age = tuổi (năm)
Height = chiều cao (cm)
pre.weight = cân nặng trước khi áp dụng chế độ ăn kiêng (kg)
Trang 3 Diet = chế độ ăn kiêng (3 chế độ khác nhau)
weight6weeks = cân nặng sau 6 tuần ăn kiêng
Các bước thực hiện:
1 Đọc dữ liệu (Import data): house_price.csv
2 Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết)
3 Làm rõ dữ liệu: (Data visualization)
(a) Chuyển đổi biến (nếu cần thiết)
(b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị
4 t.test: Dùng một kiểm định phù hợp cho hai biến pre.weight và weight6weeks
5 ANOVA một nhân tố: Chế độ ăn kiêng Diet nào hiệu quả nhất trong việc giảm cân
6 ANOVA hai nhân tố: Chế dộ ăn kiêng Diet và giới tính gender ảnh hưởng thế nào đến việc giảm cân weightLOST?
1 Đọc dữ liệu Data (Import data)
Để đọc dữ liệu vào R, ta dùng lệnh sau:
Để xem dữ liệu vừa nhập ta dùng lệnh diet, R sẽ xuất ra bảng như sau:
Trang 42 Làm sạch dữ liệu (Data cleaning):
Kiểm tra các dữ liệu bị khuyết trong tập tin (Các câu lệnh tham khảo: is.na(), which(), apply()) Nếu có dữ liệu bị khuyết, hãy đề xuất phương phápthay thế cho những dữ liệu bị khuyết này
Kiểm tra dữ liệu khuyết:
Input:
Output:
Trang 5Dòng lệnh >colSums(is.na(Diet)) để kiểm tra có bao nhiêu dữ liệu khuyết
Dòng lệnh >apply(is.na(Diet),2,which) để kiểm tra vị trí các dữ liệu khuyết
Dòng lệnh >apply(Diet, 2, function(x)sum(is.na(x))/length(x)) để kiểm tra tỉ lệ dữ liệu khuyết so với số liệu đề bài, nếu bé qua thì có thể bỏ quaDòng lệnh >Diet_new<- na.omit(Diet) để loại bỏ các dữ liệu khuyết
Đề xuất phương án xóa dữ liệu khuyết vì nó chiếm quá nhỏ trên dữ liệu đề bài nên bỏ sẽ không ảnh hưởng
Dữ liệu Diet sau khi loại bỏ các dữ liệu khuyết ta được Diet_new:
Trang 63 Làm rõ dữ liệu (Data visualization):
Chuyển đổi dữ liệu: (không cần thiết)
Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị.
Tạo biến weight.loss = pre.weight - weight6weeks là cân nặng giảm được sau 6 tuần thực hiện chế độ ăn kiêng
Nhìn vào bảng số liệu ta thấy có 2 biến cần được phân tích gồm: biến rời rạc và biến liên tục:
+Biến rời rạc gồm: gender, Diet
+Biến liên tục gồm: Age, Height, pre.weight, weight6weeks
a.Thống kê mẫu:
Đối với các biến phân loại ( rời rạc), hãy lập một bảng thống kê số lượng cho từng chủng loại (Hàm gợi ý: table())
Input:
Output:
Trang 7Đối với các biến liên tục, hãy tính các giá trị thống kê mô tả gồm: trung bình, trung vị, độ lệch chuẩn, giá trị lớn nhất và giá trị nhỏ nhất Xuất kết quảvới dưới dạng bảng (Hàm gợi ý: mean(), median(), sd(), min(), max(), apply(), as.data.frame(), rownames()).
Ta sử dụng lệnh apply() với tham số đầu là các biến liên tục: Age, Height,pre.weight,weight6weeks Với mục đích để tính các giá trị thống kê cụ thể theo hàm function().
Sau đó dùng lệnh rownames() để đặt tên cho các giá trị thống kê vừa tính để tạo ra bảng stat_table bên dưới
Khái quát hơn, để biết được các giá trị thống kê của biến weight.loss theo từng chế độ ăn kiêng, ta dùng lệnh sau:
Trang 8b.Dùng đồ thị:
Dùng lệnh hist() để cho ra kết quả tổng quan sau quá trình ăn kiêng:
Hàm hist() nhận vào một danh sách để biểu diễn biểu đồ, ở đây cần xem “weight.loss” nên tham số vào đầu là “weight.loss” và các tham số tùy chọnbao gồm main để đặt tên cho biểu đồ, col để chỉnh màu cho biểu đồ , xlab để đặt tên cho trục hoành và ylab để đặt tên cho trục tung
Dùng lệnh boxplot để có được đồ thị mô tả weight.loss theo từng chế độ Diet
Hàm boxplot() có cú pháp tương tự hàm hist() Sau khi thực hiện lên trên thì ta được đồ thị sau :
4 t.test: Dùng một kiểm định phù hợp cho hai biến pre.weight và weight6weeks.
Giả thuyết H0: Cân nặng trung bình trước ăn kiêng và sau ăn kiêng bằng nhau
Trang 9Giả thuyết H1: Cân nặng trung bình sau ăn kiêng thấp hơn trước ăn kiêng.
Dùng hàm t.test kiểm định một phía đối với hai biến pre.weight và weight6weeks:
Dựa vào kết quả từ R, ta biết được độ tin cậy là 95% (mức ý nghĩa α = 0.05) và p-value < 2.2×10-16 Vì p-value rất bé so với mức ý nghĩa α nên tabác bỏ giả thuyết H0,chấp nhận giả thuyết H1 Vậy cân nặng trung bình sau ăn kiêng giảm so với cân nặng trung bình trước ăn kiêng
5 ANOVA một nhân tố: Chế độ ăn kiêng Diet nào hiệu quả nhất trong việc giảm cân.
5.1 Trình bày Phân tích phương sai một nhân tố, phát biểu các giả thuyết và đối thuyết Nêu các giả định của mô hình cần kiểm tra.
- Phân tích phương sai ANOVA: so sánh 1 biến liên tục giữa các nhóm (nhiều hơn 2 nhóm)
- Giả thuyết vô hiệu: H0: không có sự khác biệt nào giữa các quần thể
- Giả thuyết đảo: H1: có tối thiểu một sự khác biệt trong quần thể.
5.2 Thực hiện kiểm tra giả định của mô hình:
Một số giả định khi phân tích ANOVA:
– Các nhóm so sánh phải độc lập và được chọn một cách ngẫu nhiên
– Các nhóm so sánh phải có phân phối chuẩn hoặc cỡ mẫu phải đủ lớn để được xem như tiệm cận phân phối chuẩn
– Phương sai của các nhóm so sánh phải đồng nhất
5.2.1 Kiểm tra giả định các nhóm so sánh phải độc lập và được chọn một cách ngẫu nhiên.
Các nhóm so sánh phải độc lập và được chọn ngẫu nhiên: thỏa mãn, vì 3 nhóm khảo sát trên những người khác nhau
5.2.2 Kiểm tra giả định các nhóm phải có phân phối chuẩn hoặc cỡ mẫu đủ lớn để được xem như tiệm cận phân phối chuẩn:
Ở đây các nhóm có cỡ tương đối nhỏ nên phải xem các nhóm có là phân phối chuẩn hay không với 2 bước sau:
(1) Vẽ biểu đồ xác suất chuẩn (normal Q-Q plot) Phân phối chuẩn khi biểu đồ xác suất này có quan hệ tuyến tính (đường thẳng)
(2) Để chính xác hơn ta thực hiện thêm Shapiro - Wilk test
a) Nhóm thực hiện chế độ ăn kiêng 1 (diet1)
Vẽ biểu đồ xác suất chuẩn (normal Q-Q plot)
Input:
Trang 10Nhận xét: gần như là phân phối chuẩn, dù có vài giá trị hơi lệch so với giá trị kì vọng
Thực hiện Sharpio - Wilk test
Input:
Output:
Nhận xét: giá trị p > 0.05 nên các nhóm mà ta khảo sát tuân theo luật phân phối chuẩn.
b) Nhóm thực hiện chế độ ăn kiêng 2 (diet2)
Vẽ biểu đồ xác suất chuẩn (normal Q-Q plot)
Input:
Output:
Trang 11Nhận xét: gần như là phân phối chuẩn, dù có vài giá trị hơi lệch so với giá trị kì vọng.Thực hiện Sharpio - Wilk test.
Input:
Output:
Nhận xét: giá trị p > 0.05 nên các nhóm mà ta khảo sát tuân theo luật phân phối chuẩn
c) Nhóm thực hiện chế độ ăn kiêng 3 (diet3)
Vẽ biểu đồ xác suất chuẩn (normal Q-Q plot)
Input:
Output:
Trang 12Nhận xét: gần như là phân phối chuẩn, dù có vài giá trị hơi lệch so với giá trị kì vọng.
Thực hiện Sharpio - Wilk test
Input:
Output:
Nhận xét: giá trị p > 0.05 nên các nhóm mà ta khảo sát tuân theo luật phân phối chuẩn
5.2.2 Kiểm tra giả định về tính đồng nhất của các phương sai: Bartlett test
Lý thuyết: giả thuyết vô hiệu là tất cả các phương sai của quần thể đều bằng nhau; giả thuyết thay thế là ít nhất hai trong số chúng khác nhau Giả thuyết:
H0 : tất cả các nhóm có phương sai tương đương nhau
H1 : Có ít nhất 1 cặp trong số các nhóm có phương sai không tương đương nhau
Câu lệnh:
Kết quả:
Trang 13Nhận xét: giá trị p >0.05 nên chấp nhận H0, tức không có bằng chứng nào cho thấy phương sai của 3 chế độ ăn kiêng có sự khác biệt rõ rệt, tức 3 chế
độ ăn kiêng có phương sai tương đương nhau
5.3 Thực hành phân tích phương sai một nhân tố Cho kết luận về hiệu quả của các phương pháp ăn kiêng đối với việc giảm cân.
Câu hỏi đặt ra: mức độ giảm cân của 3 chế độ ăn kiêng có khác nhau hay không?
Gọi số cân giảm trung bình của 3 nhóm là µ1, µ2, µ3;
Trung bình bình phương giữa các nhóm (MSB) = 30.2635
Tổng bình phương trong mỗi nhóm (SSW) = 410.40
Trung bình bình phương trong mỗi nhóm (MSW) = 5.6219
Như vậy, F = MSB/MSW = 30.2635/ 5.6219 = 5.3831
Trị số p = 0.006596 < 0.05 nên bác bỏ H0 có nghĩa là tín hiệu cho thấy có sự khác biệt về độ giảm cân giữa ba chế độ ăn kiêng.
Để biết thêm kết quả phân tích, chúng ta dùng lệnh summary như sau:
Input
Trang 14Nhận xét: So với chế độ ăn kiêng 1 và chế độ 2 thì chế độ 3 đều có độ giảm cân và lớn hơn chế độ 1, nhưng độ giảm cân của chế độ 2 lại không có ý
nghĩa thống kê, còn chế độ 3 thì có ý nghĩa thống kê
Thực hiện so sánh bội (Multiple Comparisons):
Trang 15Nhận xét: Kết quả cho thấy sự khác nhau về cân nặng giảm được giữa:
Phương pháp ăn kiêng 3 cao hơn phương pháp ăn kiêng 1 là 1.848148, khoảng tin cậy 95% là (0,2567422; 3,439554)
-Phương pháp ăn kiêng 3 cao hơn phương pháp ăn kiêng 2 là 1.880148, khoảng tin cậy 95% là (0,3056826; 3,454614)
Ở phương pháp ăn kiêng 2 và phương pháp ăn kiêng 1 không thể so sánh được sự khác nhau vì p adj=0,9987711> 0,05
Như vậy sự so sánh có ý nghĩa thống kê ở cặp nhóm (3-1) và (3-2) nhưng không có ý nghĩa ở cặp (2-1) Phương pháp ăn kiêng hiệu quả nhất làphương pháp 3
6 ANOVA hai nhân tố: Chế độ ăn kiêng ( Diet ) và giới tính ( gender ) có ảnh hưởng thế nào đến việc giảm cân weight.loss
1.Phân tích phương sai 2 nhân tố và điều kiện để phân tích phương sai hai nhân tố
a. Định nghĩa
Một phép thử cho phép so sánh giữa các trung bình của nhiều nhóm dữ liệu, trong đó hai biến độc lập được xem xét
ANOVA hai yếu tố là một phần mở rộng của phân tích phương sai một yếu tố Với One Way, bạn có một biến độc lập ảnh hưởng đến biến phụ thuộc.Còn với two-way ANOVA, sẽ có 2 biến độc lập
Ví dụ: Với dữ liệu đề cho, ta có thể thực hiện phân tích ANOVA hai nhân tố với hai biến độc lập là giới tính (gender) và chế độ ăn kiêng (Diet), biến
phụ thuộc là cân nặng giảm được sau 6 tuần (weight.loss)
b. Điều kiện để phân tích ANOVA hai chiều:
Biến phụ thuộc phải là biến liên tục
Hai biến độc lập phải có nhiều mức phân loại (Ví dụ: giới tính có 2 phân loại là nam và nữ)
Các quan sát trong mỗi nhóm và giữa các nhóm phải độc lập với nhau (Ví dụ: cơ sở dữ liệu được cho về cân nặng của 78 cá nhân độc lập)
Không nên có điểm dị biệt
Dữ liệu của biến phụ thuộc phải là phân phối chuẩn hay xấp xỉ phân phối chuẩn (Đã chứng minh khi xét ANOVA một nhân tố ở trên)
Cần phải có sự đồng nhất của phương sai cho mỗi sự kết hợp của các nhóm của hai biến độc lập
Thực hiện phân tích two way ANOVA sử dụng R Studio
Để thực hiện phân tích phương sai ANOVA hai chiều xem xét chế độ ăn và giới tính ảnh hưởng thế nào đến việc giảm cân, ta lần lượt phân tích nhưsau:
Xem tác tác động của lần lượt từng yếu tố chế độ ăn kiêng, giới tính đến việc giảm cân
Xem xét tác động tổng hợp của việc giảm cân
Vẽ đồ thị thể hiện tương quan giữa hai yếu tố chế độ giảm cân và giới tính
a) Các câu lệnh và ý nghĩa:
Trang 16Xây dựng mô hình phân tích ANOVA haichiều với 2 factor là giới tính và chế độ ănkiêng.
Dùng lệnh anova để R tính và trả kết quả
b) Phân tích kết quả
Trang 17 Ảnh hưởng của giới tính (độ tin cậy 1)
H0: cân nặng giảm đi trung bình giữa các giới tính bằng nhau
H1: cân nặng giảm đi trung bình giữa các giới tính là khác nhau
Pr(>F)= 0.820623 > 0.05 (mức ý nghĩa) ==> chấp nhận H0
Kết luận: Giới tính không ảnh hưởng đến việc giảm cân
Ảnh hưởng của chế độ ăn kiêng (độ tin cậy 0.01)
H0: cân nặng giảm đi trung bình giữa các phương pháp ăn kiêng là giống nhau
H1: cân nặng giảm đi trung bình giữa các phương pháp ăn kiêng là khác nhau
Pr(>F)=0,005456 < 0.05🡪 bác bỏ H0, chấp nhận H1
Kết luận: Chế độ ăn kiêng có ảnh hưởng đến việc giảm cân
Ảnh hưởng tổng hợp của giới tính và chế độ ăn kiêng
H0: cân nặng giảm đi trung bình giữa các phương pháp ăn kiêng và giới tính là giống nhau
H1: cân nặng giảm đi trung bình giữa các phương pháp ăn kiêng và giới tính là khác nhau
Pr(>F)=0,048842 < 0.05 🡪 bác bỏ H0, chấp nhận H1
Kết luận: Có sự ảnh hưởng của tổng hợp hai yếu tố giới tính và chế độ ăn kiêng lên sự giảm cân
c. Một số so sánh bội để làm rõ ảnh hưởng của hai yếu tố giới tính và chế độ ăn kiêng lên sự giảm cân.
Sau khi thực hiện phân tích ANOVA hai chiều ta kết luận được có sự ảnh hưởng của tổng hợp hai yếu tố giới tính và chế độ ăn kiêng lên sự giảm cân
Để có cái nhìn rõ hơn về sức ảnh hưởng của tương tác gender*Diet ta thực hiện so sánh bội giữa 6 nhóm (được tạo nên từgender(Nam;Nữ)*Diet(1;2;3)) Từ đó, ta sẽ quan sát được giữa 6 nhóm, nhóm nào chịu tác động của tương tác gender*Diet nhiều hay ít (thông qua sosánh trong bình các nhóm)
Trang 18Thực hiện Tukey HSD (Tukey Honest Significant Differences)
Sử dụng hàm TukeyHSD() để so sánh theo từng cặp nhóm đối tượng (có 6 nhóm)
Code R: TukeyHSD(aov(model1))
Diff: sự khác biệt giữa trung bình của các cặp nhóm
Lwr, upr: Cận trên và cận dưới của khoảng tin cậy 95% (default)
Từ bảng trên, ta thấy được sự khác biệt giữa cặp Fe:Diet3 – Fe:Diet2 (3.27) và cặp Fe:Diet3 – Fe:Diet1 (2.83) hay cặp Fe:Diet3 – Ma:Diet1 (2.23) là có ý nghĩa đáng kể
=> có thể thấy rằng: Chế độ ăn kiêng 3 áp dụng cho đối tượng nữ đem lại hiệu quả cao nhất, trái lại chế độ kiêng 2 áp dụng cho nữ đem lại hiệuquả thấp
Để có cái nhìn trực quan hơn, ta sử dụng đồ thị:
plot(TukeyHSD(res.aov3))
d Thực hiện việc kiểm tra các giả định của mô hình trong TH2:
Giả định về phân phối chuẩn
- # Sử dụng Q-Q plot
- # Nếu ta thu được đồ thị xấp xỉ theo đường thẳng tuyến tính thì không bác bỏ giả định về phân phối chuẩn
plot(res.aov3, 2)
Trang 19- Có thể thấy đồ thị xấp xỉ theo đường thẳng tuyến tính nên sai số được phân phối chuẩn # Có thể sử dụng kiểm định
Shapiro-Wilk
aov_residuals <- residuals(object = res.aov3) shapiro.test(x = aov_residuals)
Vì W đủ lớn nên giả định về phân phối chuẩn của sai số được đảm bảo hơn
Giả định về sự đồng nhất các phương sai (sử dụng kiểm định Lenver)
# import thư viện Car
library(car)
leveneTest(weight.loss ~ gender*Diet, data = Data.gen.diet)
Từ kết quả ta thấy p-value > mức ý nghĩa α= 0.05 Vậy không có bằng chứng để khẳng định rằng phương sai giữa các nhóm là có sự khác biệt
đáng kể về mặt thống kê, nên có thể giả định tính đồng nhất của các phương sai
Trang 20B Phần riêng:
• Mỗi nhóm bắt buộc tự tìm một bộ dữ liệu thuộc về chuyên ngành của mình Khuyến khích sinh viên sử dụng dữ liệu thực tế sẵn có từ các thí nghiệm,khảo sát, dự án trong chuyên ngành của mình Ngoài ra sinh viên có thể tự tìm kiếm dữ liệu từ những nguồn khác hoặc tham khảo trong kho dữ liệucung cấp trong tập tin "kho_du_lieu_BTL_xstk.xlsx"
• Các nhóm được yêu cầu xử lý số liệu mà mình đã chọn Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phân tích dữ liệu củamình, nhưng phải đảm bảo 2 phần: Làm rõ dữ liệu (data visualization) và mô hình dữ liệu (model fitting)
CHỦ ĐỀ: CƯỜNG ĐỘ NÉN BÊ TÔNG
Tập tin “Concrete_Data.csv” chứa số liệu về thành phần có trong khối bê tông từ đó tìm ra được sức chịu nén của bê tông đó
Nguồn: kho_du_lieu_BTL_xstk.xlsx
Chú thích:
Blast Furnace Slag (kg/m3) - Xỉ lò cao
Superplasticizer (kg/m3) - Phụ gia siêu dẻo
Coarse Aggregate (kg/m3) - Cốt liệu thô
Fine Aggregate (kg/m3) - Cốt liệu nhỏ
Age (Day) - Tuổi
Concrete compressive strength (MPa) - Cường độ nén bê tông
THỰC HIỆN TRÊN RSTUDIO
Trước hết phải chuyển file thành “ Concrete_Data.csv”
1.Đọc dữ liệu (Import data): Hãy dùng lệnh read.csv() để đọc tệp tin
Trang 212.Làm sạch dữ liệu (Data cleaning):
Gán biến cho gọn hơn:
Vậy không có dữ liệu khuyết
3.Làm rõ dữ liệu (Data visualization):
a Đối với các biến liên tục, hãy tính các giá trị thống kê mô tả gồm: trung bình, trung vị, độ lệch chuẩn, giá trị lớn nhất và giá trị nhỏ nhất Xuất kết
quả với dưới dạng bảng (Hàm gợi ý: mean(), median(), sd(), min(), max(), apply(), as.data.frame(), rownames()).
Trang 22Tạo tập “mota” để chứa các biến liên tục
Tạo tập “motacuthe” để chứa các yếu tố cần mô tả như trung bình, trung vị, độ lệch chuẩn, min,max trong “mota”
Trang 23Nhận xét: Cường độ nén bê tông trong mẫu số liệu tập trung nhiều ở khoảng 20 – 50
(MPa) như vậy có thể xem đây là khoảng ước lượng
d Vẽ phân phối của biến CCS cho từng nhóm phân loại của biến Age
> boxplot(CCS~Age)
Trang 24Nhận xét: Từ biểu đồ cho ta thấy trung vị cường độ nén bê tông với độ tuổi 91(ngày) là lớn nhất và thấp nhất ở độ tuổi 1 (ngày).Các giá trị trung vị cường
độ nén bê tông tăng dần từ độ tuổi 1(ngày) cho tới 91 (ngày) sau đó giảm dần ở cácđộ tuổi (ngày) lớn hơn
e vẽ các phân phối của biến CCS lần lượt theo các biến Ce, BFS, FA, Super, CA, Fine bằng lệnh pairs()
> pairs(CCS~Ce)
Nhận xét: Hàm lượng Xi măng và Cường độ nén của bê tông không tuân theo qui
luật nào cả
> pairs(CCS~BFS)
Trang 25Nhận xét: Nhìn chung khi hàm lượng Xỉ lò cao tăng thì cường độ nén của bê tông giảm
> pairs(CCS~FA)
Nhận xét: Hàm lượng tro bay và cường độ nén của bê tông không tuân theo qui luật
nào cả
> pairs(CCS~Water)
Trang 26Nhận xét: Hàm lượng nước và cường độ nén của bê tông không tuân theo qui luật
nào cả
> pairs(CCS~Super)
Nhận xét: Hàm lượng chất siêu dẻo và cường độ nén của bê tông không tuân theo qui luật nào cả
> pairs(CCS~CA)
Trang 27Nhận xét: Hàm lượng Cốt liệu thô và cường độ nén bê tông không tuân thủ theo quy luật nào cả
> pairs(CCS~Fine)
Nhận xét: Hàm lượng Cốt liệu nhỏ và cường độ nén bê tông không tuân thủ theo quy luật nào cả
Trang 28Câu 4: Xây dựng mô hình hồi quy tuyến tính (Fitting linear regression models):
a. Lập mô hình hồi quy tuyến tính bao gồm biến “CCS” là một biến phụ thuộc, và tất cả các biến còn lại đều là biến độc lập bằng lệnh lm().
> M1=lm(CCS~Ce+BFS+FA+Water+Super+CA+Fine+as.factor(Age))
> summary(M1)
Đặt giả thiết H: không mang ý nghĩa thống kê
H: mang ý nghĩa thống kê
Theo mô hình M1, mức ý nghĩa lớn hơn 5% sẽ không có dấu sao nên loại biến “Super”
b.Lập mô hình tuyến tính M2 loại biến “Super”
> M2=lm(CCS~Ce+BFS+FA+Water+CA+Fine+as.factor(Age))
> summary(M2)
Trang 29Đặt giả thiết H: không mang ý nghĩa thống kê
H: mang ý nghĩa thống kê
Theo mô hình M2, mức tin cậy lớn hơn 5% sẽ không có dấu sao nên không loại biến nào
c Phân tích phương sai 2 mô hình M1, M2
> anova(M1,M2)
Đặt giả thiết : H: M1, M2 có độ phù hợp như nhau
H: M1, M2 có độ phù hợp khác nhau
Ta thấy Pr(>F) = 0.4289 lớn hơn mức ý nghĩa 5% nên mô hình M1, M2 có độ phù hợp như nhau
Mà ta thấy M2 không loại biến nào nên M2 phù hợp hơn
d Tạo tập “ tacdong” với hàm calc.relimp()
Trang 30III Tài liệu tham khảo
Trang 31[4] Cẩm nang R cơ bản
https://epirhandbook.com/vn/basics.html
IV Nguồn dữ liệu
[1] Diet.csv - Truy cập từ: https://www.sheffield.ac.uk/mash/statistics/datasets[2] “Concrete_Data.csv” Truy cập từ: "kho_du_lieu_BTL_xstk.xlsx"
Trang 32BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ
MINH KHOA KHOA HỌC ỨNG DỤNG
-*** -BÁO CÁO THÍ NGHIỆM VẬT LÝ 1
Môn: Thí nghiệm Vật lý đại cương
GV: …Huỳnh Hoàng Trung
Trang 33Bài 1: XÁC ĐỊNH MÔ MEN QUÁN TÍNH CỦA BÁNH XE
VA LỰC MA SÁT TRONG Ổ TRỤC QUAY
1- Bảng số liệu:
(kg)
- Độ chính xác của thước kẹp: 0,02 (mm)
- Độ chính xác của máy đo thời gian MC-963A: 0,001 (s)
- Độ chính xác của thước milimét T: 1 (mm)