10 Hình 13 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn cho cân nặng giảm đi ở chế độ ăn kiêng 1 bằng phương pháp kiểm định .... 11 Hình 15 : code R và kết quả khi thự
Trang 1Trường Đại Học Bách Khoa Đại Học Quốc Gia Thành Phố Hồ Chí Minh
Trang 2DANH SÁCH SINH VIÊN THỰC HIỆN
STT Họ, tên sinh viên MSSV Lớp/Tổ Phân chia công việc Ký tên
3 Phan Võ Tiểu Phương 2014212 L13/C ANOVA 1 nhân tố:
Chế độ ăn kiêng(Diet) nào hiệu quảnhất trong việc giảm
cân
4 Lê Ngân Phúc Tâm 2014428 L13/C ANOVA 1 nhân tố:
Chế độ ăn kiêng(Diet) nào hiệu quảnhất trong việc giảm
cân
5 Nguyễn Thành Tâm 2014431 L13/C ANOVA 2 nhân tố:
Chế độ ăn kiêng(Diet) và giới tính(gender) ảnh hưởngthể nào đến việc
2
Trang 3giảm cân (weight loss)
6 Phan Ngọc Thanh 2014466 L13/C ANOVA 2 nhân tố:
Chế độ ăn kiêng (Diet) và giới tính (gender) ảnh hưởng thể nào đến việc giảm cân (weight loss)
MỤC LỤC
LỜI CẢM ƠN 1
I HOẠT ĐỘNG 1 2
1.Đề bài: 2
2 Thực hiện 3
2.1 Đọc dữ liệu: 3
2.1 Làm sạch dữ liệu (Data cleaning) 3
2.2 Làm rõ dữ liệu: (Data visualization) 4
2.3 t.test: Dùng một kiểm định phù hợp cho hai biến pre.weight và weight6weeks 8 2.4 ANOVA một nhân tố: Chế độ ăn kiêng Diet nào hiệu quả nhất trong việc giảm cân 9
3
Trang 42.5 ANOVA hai nhân tố: Chế dộ ăn kiêng Diet và giới tính gender ảnh hưởng thế
nào đến việc giảm cân weight.loss? 17
III HOẠT ĐỘNG 2 20
1.Giới thiệu bộ dữ liệu 20
2 Đoc dữ liệu (Import data): 21
3 Làm sạch dữ liệu (Data cleaning): 21
4 Làm rõ dữ liệu (Data visualization): 22
5 Xây dưng các mô hình hồi quy tuyến tính (Fitting linear regression models): 29
KẾT LUẬN 32
Tài liệu tham khảo 32
DANH MỤC HÌNH ẢNH Hình 1: code R và kết quả khi đọc tệp tên và xem 3 dòng đầu tiên của tệp tin 3
Hình 2: code R và kết quả khi kiểm tra dữ liệu khuyết trong tệp tin 3
Hình 3 : code R và kết quả khi xoá các quan sát chứa dữ liệu khuyết 4
Hình 4 : code R và kết quả khi tạo thêm biến weight.loss 4
Hình 5: code R và kết quả khi thực hiện thống kê mô tả cho các biến pre.weight, weight6weeks, weight.loss theo từng nhóm chế độ ăn kiêng (Diet) 5
Hình 6 : code R và kết quả khi thống kê số lượng nam và nữ tham gia 5
Hình 7 : code R và kết quả khi thống kê người tham gia ở các chế độ ăn kiêng 5
Hình 8: code R và kết quả khi vẽ đồ thị Histogram cho biến weight.loss 6
Hình 9 : code R và kết quả khi vẽ đồ thị Boxplot thể hiện phân phối của biến weight.loss theo giới tính (gender) 7
4
Trang 5Hình 10 : code R và kết quả khi vẽ đồ thị Boxplot thể hiện phân phối của biến weight.loss
theo các chế độ ăn kiêng (Diet) 7
Hình 11 : code R và kết quả khi thực hiện kiểm định theo cặp 8
Hình 12 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn cho cân nặng giảm đi ở chế độ ăn kiêng 1 bằng đồ thị 10
Hình 13 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn cho cân nặng giảm đi ở chế độ ăn kiêng 1 bằng phương pháp kiểm định 11
Hình 14 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn cho cân nặng giảm đi ở chế độ ăn kiêng 2 bằng đồ thị 11
Hình 15 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn cho cân nặng giảm đi ở chế độ ăn kiêng 2 bằng phương pháp kiểm định 12
Hình 16 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn cho cân nặng giảm đi ở chế độ ăn kiêng 3 bằng đồ thị 13
Hình 17 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn cho cân nặng giảm đi ở chế độ ăn kiêng 3 bằng phương pháp kiểm định 13
Hình 18 : code R và kết quả khi thực hiện kiểm giả định tính đồng nhất của phương sai 14 Hình 19 : code R và kết quả khi thực hiện ANOVA một nhân tố 14
Hình 20 : code R và kết quả khi thực hiện so sánh bội sau ANOVA một nhân tố 15
Hình 21 : code R và kết quả khi thực hiện ANOVA hai nhân tố 18
Hình 22 : code R và kết quả khi vẽ đồ thị phân tích sự tương tác 20
Hình 23 : Biểu đồ FWI 24
Hình 24 : Phân phối FWI của nhiệt độ 25
Hình 25 : Phân phối FWI của độ ẩm tương đối 26
Hình 26 : Phân phối FWI của tốc độ gió 27
Hình 27 : Phân phối FWI của lượng mưa 28
5
Trang 6LỜI CẢM ƠN
Xác suất thống kê là một môn học đại cương có tầm quan trọng đối với sinh viên nói chung và sinh viên nhóm ngành Khoa học Kỹ thuật nói chung Do đó, việc dành cho môn học này một khối lượng thời gian nhất định và thực hành là điều tất yếu để giúp sinh viên có cơ sở vững chắc về kiến thức và kỹ năng cần thiết cho các môn học chuyên ngành cũng như công việc sau này.
Sự phát triển và ra đời của toán tin nói chung và phần mềm R Studio, ngôn ngữ R nói riêng đã hỗ trợ rất nhiều trong quá trình học tập và nghiên cứu bộ môn Xác suất thống kê Việc phân tích và xử lý số liệu đã được rút ngắn và có hiệu quả cao hơn Vì vậy mà việc tìm hiểu R Studio và ngôn ngữ R trong việc thực hành môn học Xác suất thống kê rất quan trọng và có tính cấp thiết.
Ở bài tập lớn này, nhóm thực hiện nội dung: “Phân tích phương sai Anova phân tích dữ liệu mẫu” Đây là một phương pháp phân tích dữ liệu mẫu khá phổ biến để so sánh, đối sánh chỉ ra những sai khác, chênh lệch về giá trị các đại lượng của các nhóm quần thể thống kê, từ đó rút ra được mức độ tác động của các nhân tố đến quần thể.
Trong suốt quá trình thực hiện bài tập, nhóm đã nhận được rất nhiều sự quan tâm, ủng hộ và giúp đỡ tận tình của thầy cô, anh chị em và bạn bè.
1
Trang 7I HOẠT ĐỘNG 1
1.Đề bài:
Tập tin Diet.csv (cung cấp bởi Đại học Sheffield, Anh) chứa thông tin về một thử nghiệm
về hiệu quả của các chế độ ăn kiêng trong việc giảm cân nặng đối với những người trưởngthành Một người tham gia sẽ được áp dụng một trong ba chế độ ăn kiêng khác nhau trongvòng 6 tuần lễ Cân nặng của người tham gia sẽ được ghi nhận trước và sau khi kết thúcthử nghiệm để đánh giá hiệu quả của từng chế độ ăn kiêng
Các biến chính trong bộ dữ liệu:
Person: số thứ tự của người tham gia thử nghiệm
gender: giới tính của người tham gia (1 = nam, 0 = nữ)
Age: tuổi (năm)
Height: chiều cao (cm)
pre.weight: cân nặng trước khi áp dụng chế độ ăn kiêng (kg)
Diet: chế độ ăn kiêng (3 chế độ khác nhau)
weight6weeks: cân nặng sau 6 tuần ăn kiêng
Các bước thực hiện:
1 Đọc dữ liệu (Import data): "Diet.csv"
2 Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết)
3 Làm rõ dữ liệu: (Data visualization)
(a) Chuyển đổi biến (nếu cần thiết)
(b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị
4 t.test: Dùng một kiểm định phù hợp cho hai biến pre.weight và weight6weeks
5 ANOVA một nhân tố: Chế độ ăn kiêng Diet nào hiệu quả nhất trong việc giảm cân
6 ANOVA một nhân tố: ANOVA hai nhân tố: Chế dộ ăn kiêng Diet và giới tính genderảnh hưởng thế nào đến việc giảm cân weightloss?
2
Trang 82 Thực hiện
2.1 Đọc dữ liệu:
Đọc tập tin “Diet.csv”
Hình 1: code R và kết quả khi đọc tệp tên và xem 3 dòng đầu tiên của tệp tin
2.2 Làm sạch dữ liệu (Data cleaning)
Kiểm tra dữ liệu khuyết trong tập tin
Hình 2: code R và kết quả khi kiểm tra dữ liệu khuyết trong tệp tin
Nhận xét: Biến gender có chứa hai dữ liệu khuyết ở dòng 1 và dòng 2 của người tham
gia thứ 25 và 26 Vì chỉ có 2 người trong 78 người không xác định được giới tính (chiếm
tỉ lệ 2.56% rất nhỏ) nên ta sẽ loại bỏ 2 quan sát chứa dữ liệu khuyết này
3
Trang 9Hình 3 : code R và kết quả khi xoá các quan sát chứa dữ liệu khuyết
2.3 Làm rõ dữ liệu: (Data visualization)
Tạo biến weight.loss = pre.weight - weight6weeks thể hiện lượng cân nặng đã giảm đi
khi tham gia thực hiện các chế độ ăn kiêng
Hình 4 : code R và kết quả khi tạo thêm biến weight.loss
Thực hiện tính các giá trị thống kê mô tả cho các biến pre.weight, weight6weeks,
weight.loss theo từng nhóm chế độ ăn kiêng (Diet)
4
Trang 10Hình 5: code R và kết quả khi thực hiện thống kê mô tả cho các biến pre.weight, weight6weeks, weight.loss theo từng nhóm chế độ ăn
kiêng (Diet)
Thống kê số lượng nam và nữ tham gia
Hình 6 : code R và kết quả khi thống kê số lượng nam và nữ tham gia
Thống kê số lượng người tham gia ở các chế độ ăn kiêng
Hình 7 : code R và kết quả khi thống kê người tham gia ở các chế độ ăn kiêng
Trang 11Vẽ đồ thị Histogram cho biến weight.loss.
Hình 8 : code R và kết quả khi vẽ đồ thị
Vẽ đồ thị Boxplot thể hiện phân phối của
Histogram cho biến weight.loss
biến weight.loss theo giới tính (gender).
6
Trang 12Hình 9 : code R và kết quả khi vẽ đồ thị Boxplot thể hiện phân phối của
biến weight.loss theo giới tính (gender)
Vẽ đồ thị Boxplot thể hiện phân phối của biến weight.loss theo các chế độ ăn kiêng (Diet).
Hình 10 : code R và kết quả khi vẽ đồ thị Boxplot thể hiện phân phối của biến
weight.loss theo các chế độ ăn kiêng (Diet)
7
Trang 132.4 t.test: Dùng một kiểm định phù hợp cho hai biến pre.weight và weight6weeks
Thực hiện kiểm định theo cặp để đánh giá xem liệu chế độ ăn kiêng (nói chung) có làm giảm cân nặng hay không?
Trang 142.5 ANOVA một nhân tố: Chế độ ăn kiêng Diet nào hiệu quả nhất trong việc giảm cân.
Để lựa chọn một chế độ ăn kiêng hiệu quả nhất trong việc giảm cân, ta thực hiện phân tích phương sai một nhân tố Trong đó:
+ Biến nhân tố (định tính): biến Diet.
+ Biến độc lập (định lượng): biến weight.loss.
Đặt giả thuyết:
+ Giả thuyết H 0 : µ 1 = µ 2 = µ 3 ⇔ Cân nặng trung bình giảm đi ở các chế độ ăn kiêng bằng nhau.
+ Đối thuyết H 1 : với (i j) ⇔ Có ít nhất 2 chế độ ăn kiêng có cân nặng trung bình giảm đi khác nhau.
Các giả định cần kiểm tra trong ANOVA một nhân tố:
+ Giả định phân phối chuẩn: Cân nặng giảm đi ở các chế độ ăn kiêng tuân theo phân phối chuẩn
9
Trang 15+ Tính đồng nhất của các phương sai: Phương sai cân nặng giảm đi ở các chế độ ăn kiêng bằng nhau.
Kiểm tra giả định phân phối chuẩn:
Đối với chế độ ăn kiêng 1:
Hình 12 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn
cho cân nặng giảm đi ở chế độ ăn kiêng 1 bằng đồ thị
Nhận xét: Biểu đồ QQ-plot cho ta thấy những giá trị quan sát đa phần nằm trên đường thẳng kì vọng của phân phối chuẩn do đó biến weight.loss ở chế độ ăn kiêng 1 tuân theo
phân phối chuẩn
10
Trang 16Hình 13 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn
cho cân nặng giảm đi ở chế độ ăn kiêng 1 bằng phương pháp kiểm địnhGiả thuyết H0: Cân nặng giảm đi ở chế độ ăn kiêng 1 tuân theo phân phối chuẩn
Đối thuyết H1: Cân nặng giảm đi ở chế độ ăn kiêng 1 không tuân theo phân phối chuẩn
Vì Pr(> F) = 0.07749 > mức ý nghĩa α = 0.05 nên ta chưa đủ cơ sở để bác bỏ giả thuyết H0
Vậy biến weight.loss ở chế độ ăn kiêng 1 tuân theo phân phối chuẩn.
Đối với chế độ ăn kiêng 2:
Hình 14 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn
cho cân nặng giảm đi ở chế độ ăn kiêng 2 bằng đồ thị
11
Trang 17Nhận xét: Biểu đồ QQ-plot cho ta thấy những giá trị quan sát đa phần nằm trên đường thẳng kì vọng của phân phối chuẩn do đó biến weight.loss ở chế độ ăn kiêng 2 tuân theo
phân phối chuẩn
Hình 15 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn
cho cân nặng giảm đi ở chế độ ăn kiêng 2 bằng phương pháp kiểm địnhGiả thuyết H0: Cân nặng giảm đi ở chế độ ăn kiêng 2 tuân theo phân phối chuẩn
Đối thuyết H1: Cân nặng giảm đi ở chế độ ăn kiêng 2 không tuân theo phân phối chuẩn
Vì Pr(> F) = 0.8722 > mức ý nghĩa α = 0.05 nên ta chưa đủ cơ sở để bác bỏ giả thuyết H0
Vậy biến weight.loss ở chế độ ăn kiêng 2 tuân theo phân phối chuẩn.
Đối với chế độ ăn kiêng 3:
12
Trang 18Hình 16 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn
cho cân nặng giảm đi ở chế độ ăn kiêng 3 bằng đồ thị
Nhận xét: Biểu đồ QQ-plot cho ta thấy những giá trị quan sát đa phần nằm trên đường thẳng kì vọng của phân phối chuẩn do đó biến weight.loss ở chế độ ăn kiêng 3 tuân theo
phân phối chuẩn
Hình 17 : code R và kết quả khi thực hiện kiểm giả định phân phối chuẩn
cho cân nặng giảm đi ở chế độ ăn kiêng 3 bằng phương pháp kiểm địnhGiả thuyết H0: Cân nặng giảm đi ở chế độ ăn kiêng 3 tuân theo phân phối chuẩn
Đối thuyết H1: Cân nặng giảm đi ở chế độ ăn kiêng 3 không tuân theo phân phối chuẩn
Vì Pr(> F) = 0.372 > mức ý nghĩa α = 0.05 nên ta chưa đủ cơ sở để bác bỏ giả thuyết H0
Vậy biến weight.loss ở chế độ ăn kiêng 3 tuân theo phân phối chuẩn.
13
Trang 19Kiểm tra giả định tính đồng nhất của phương sai:
Hình 18 : code R và kết quả khi thực hiện kiểm giả định tính đồng nhất của phương sai
Giả thuyết H0: Phương sai cân nặng giảm đi ở các chế độ ăn kiêng bằng nhau
Đối thuyết H1: Có ít nhất 2 chế độ ăn kiêng có phương sai cân nặng giảm đi khác nhau
Vì Pr(>F) = 0.6313 > mức ý nghĩa α = 0.05 nên ta chưa đủ cơ sở để bác bỏ giả thuyết H0.Vậy phương sai cân nặng giảm đi ở các chế độ ăn kiêng là như nhau
Thực hiện phân tích phương sai một nhân tố:
Hình 19 : code R và kết quả khi thực hiện ANOVA một nhân tố Nhận xét: Dựa trên kết quả ANOVA cho thấy:
+ SSB = 60.5, bậc tự do k − 1 = 2(k = 3)
+ SSW = 410.4, bậc tự do N − k = 76 − 3 = 73 (N là tổng số phần tử khảo sát ở tất cả các nhóm)
+ MSB = SSB/(k − 1) = 30.264
+ MSW = SSW/(N − k) = 5.622
14
Trang 20+ Giá trị thống kê kiểm định: f = MSB/MSW = 5.383
+ Mức ý nghĩa quan sát: p − value = 0.0066.
Dựa vào p − value = 0, 429 lớn hơn mức ý nghĩa α = 5% nên ta bác bỏ được giả thuyết
H0 Ngoài ta, ta có thể dựa vào f = 5.383 < ngưỡng fα;k−1;N−k = f0.05;2;73 = 3.1221 nên tacũng đưa ra kết luận là bác bỏ được giả thuyết H0
Vậy có ít nhất 2 chế độ ăn kiêng có cân nặng trung bình giảm đi khác nhau, tức mức độhiệu quả đối với việc giảm cân giữa các chế độ ăn kiêng là khác nhau
Ta thực hiện so sánh bội sau ANOVA một nhân tố để chọn ra chế độ ăn kiêng hiệu quảnhất trong việc giảm cân
Hình 20 : code R và kết quả khi thực hiện so sánh bội sau ANOVA một nhân tố
Nhận xét:
15
Trang 21+ Sự khác nhau giữa cân nặng giảm đi trung bình của nhóm chế độ ăn kiêng 2 và 1:
Giả thuyết H0: Trung bình cân nặng giảm đi ở nhóm chế độ ăn kiêng 2 và 1 bằng nhau.Đối thuyết H1: Trung bình cân nặng giảm đi ở nhóm chế độ ăn kiêng 2 và 1 khác nhau
Ta nhận thấy p−adj = 0.9987711 > mức ý nghĩa α = 0.05, nên ta chưa đủ cơ sở để bác bỏgiả thuyết H0 Vậy cân nặng giảm đi trung bình ở chế độ ăn kiêng 2 và chế độ ăn kiêng 1bằng nhau
+ Sự khác nhau giữa cân nặng giảm đi trung bình của nhóm chế độ ăn kiêng 3 và 1:
Giả thuyết H0: Trung bình cân nặng giảm đi ở nhóm chế độ ăn kiêng 3 và 1 bằng nhau.Đối thuyết H1: Trung bình cân nặng giảm đi ở nhóm chế độ ăn kiêng 3 và 1 khác nhau
Ta nhận thấy p − adj = 0.0188047 < mức ý nghĩa α = 0.05, nên ta bác bỏ được giả thiết H0
Vậy cân nặng giảm đi trung bình ở chế độ ăn kiêng 3 và chế độ ăn kiêng 1 khác nhau.Mặt khác, ta dựa vào giá trị diff = 1.848148 > 0 nên ta có thể kết luận cân nặng giảm đi trung bình ở nhóm chế độ ăn kiêng 3 cao hơn so với nhóm chế độ ăn kiêng 1
+ Sự khác nhau giữa cân nặng giảm đi trung bình của nhóm chế độ ăn kiêng 3 và 2:
Giả thuyết H0: Trung bình cân nặng giảm đi ở nhóm chế độ ăn kiêng 3 và 2 bằng nhau.Đối thuyết H1: Trung bình cân nặng giảm đi ở nhóm chế độ ăn kiêng 3 và 2 khác nhau
Ta nhận thấy p − adj = 0.0152020 < mức ý nghĩa α = 0.05, nên ta bác bỏ được giả thiết H0
Vậy cân nặng giảm đi trung bình ở chế độ ăn kiêng 3 và chế độ ăn kiêng 2 khác nhau.Mặt khác, ta dựa vào giá trị diff = 1.880148 > 0 nên ta có thể kết luận cân nặng giảm đi trung bình ở nhóm chế độ ăn kiêng 3 cao hơn so với nhóm chế độ ăn kiêng 2
Vậy chế độ ăn kiêng 3 là chế độ ăn kiêng có hiệu quả nhất trong việc giảm cân
16
Trang 222.6 ANOVA hai nhân tố: Chế dộ ăn kiêng Diet và giới tính gender ảnh hưởng thế nào đến việc giảm cân weight.loss?
Đặt giả thuyết:
Đối với các nhóm (nhân tố A - cụ thể là nhân tố giới tính):
+ Giả thuyết H0a: Cân nặng trung bình giảm đi giữa nam và nữ bằng nhau
+ Đối thuyết H1a: Cân nặng trung bình giảm đi giữa nam và nữ khác nhau
Đối với các khối (nhân tố B - cụ thể là nhân tố chế độ ăn kiêng):
+ Giả thuyết H0b: Cân nặng trung bình giảm đi giữa các chế độ ăn kiêng bằng nhau.+ Đối thuyết H1b: Có ít nhất 2 chế độ ăn kiêng có cân nặng trung bình giảm đi khác nhau
Đối với tương tác giữa A và B (cụ thể là tương tác giữa giới tính và chế độ ăn kiêng ):
+ Giả thuyết H0ab: Không có sự tương tác giữa giới tính và chế độ ăn kiêng
+ Đối thuyết H1ab: Có sự tương tác giữa giới tính và chế độ ăn kiêng
Bảng ANOVA hai nhân tố (n > 1):