BÁO cáo bài tập môn xác SUẤT THỐNG kê làm sạch dữ liệu (data cleaning)

- Phân tích phương sai ANOVA: so sánh 1 biến liên tục giữa các nhóm nhiều hơn 2 nhóm - Giả thuyết vô hiệu: H0: không có sự khác biệt nào giữa các quần thể - Giả thuyết đảo: H1: có tối th

Trang 1

reli TRƯỜNG ĐẠI HỌC BÁCH KHOA

oOo BÁO CÁO BÀI TẬP MÔN XÁC SUẤT THỐNG KÊGiảng viên hướng dẫn : Nguyễn Kiều Dung

Lớp: L15 Nhóm 36

Đề tài 3

Trang 2

2 Làm sạch dữ liệu (Data cleaning): 4

6 ANOVA hai nhân tố: Chế độ ăn kiêng ( Diet ) và giới tính ( gender ) có ảnh hưởng thế nào đến việc giảm cân weight.loss 14

5 Nhận xét

I Phần chung:

Tập tin Diet.csv (cung cấp bởi Đại học Sheffield, Anh) chứa thông tin về một thử nghiệm về hiệu quả của các chế độ ăn kiêng trong việcgiảm cân nặng đối với những người trưởng thành Một người tham gia sẽ được áp dụng một trong ba chế độ ăn kiêng khác nhau trong vòng 6 tuần lễ.Cân nặng của người tham gia sẽ được ghi nhận trước và sau khi kết thúc thử nghiệm để đánh giá hiệu quả của từng chế độ ăn kiêng

Các biến chính trong bộ dữ liệu:

 Person = số thứ tự của người tham gia thử nghiệm

 gender = giới tính của người tham gia (1 = nam, 0 = nữ)

 Age = tuổi (năm)

 Height = chiều cao (cm)

 pre.weight = cân nặng trước khi áp dụng chế độ ăn kiêng (kg)

Trang 3

 Diet = chế độ ăn kiêng (3 chế độ khác nhau)

 weight6weeks = cân nặng sau 6 tuần ăn kiêng

Các bước thực hiện:

1 Đọc dữ liệu (Import data): house_price.csv

2 Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết)

3 Làm rõ dữ liệu: (Data visualization)

(a) Chuyển đổi biến (nếu cần thiết)

(b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị

4 t.test: Dùng một kiểm định phù hợp cho hai biến pre.weight và weight6weeks

5 ANOVA một nhân tố: Chế độ ăn kiêng Diet nào hiệu quả nhất trong việc giảm cân

6 ANOVA hai nhân tố: Chế dộ ăn kiêng Diet và giới tính gender ảnh hưởng thế nào đến việc giảm cân weightLOST?

1 Đọc dữ liệu Data (Import data)

Để đọc dữ liệu vào R, ta dùng lệnh sau:

Để xem dữ liệu vừa nhập ta dùng lệnh diet, R sẽ xuất ra bảng như sau:

Trang 4

2 Làm sạch dữ liệu (Data cleaning):

Kiểm tra các dữ liệu bị khuyết trong tập tin (Các câu lệnh tham khảo: is.na(), which(), apply()) Nếu có dữ liệu bị khuyết, hãy đề xuất phương phápthay thế cho những dữ liệu bị khuyết này

Kiểm tra dữ liệu khuyết:

Input:

Output:

Trang 5

Dòng lệnh >colSums(is.na(Diet)) để kiểm tra có bao nhiêu dữ liệu khuyết

Dòng lệnh >apply(is.na(Diet),2,which) để kiểm tra vị trí các dữ liệu khuyết

Dòng lệnh >apply(Diet, 2, function(x)sum(is.na(x))/length(x)) để kiểm tra tỉ lệ dữ liệu khuyết so với số liệu đề bài, nếu bé qua thì có thể bỏ quaDòng lệnh >Diet_new<- na.omit(Diet) để loại bỏ các dữ liệu khuyết

Đề xuất phương án xóa dữ liệu khuyết vì nó chiếm quá nhỏ trên dữ liệu đề bài nên bỏ sẽ không ảnh hưởng

Dữ liệu Diet sau khi loại bỏ các dữ liệu khuyết ta được Diet_new:

Trang 6

3 Làm rõ dữ liệu (Data visualization):

 Chuyển đổi dữ liệu: (không cần thiết)

 Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị.

Tạo biến weight.loss = pre.weight - weight6weeks là cân nặng giảm được sau 6 tuần thực hiện chế độ ăn kiêng

Nhìn vào bảng số liệu ta thấy có 2 biến cần được phân tích gồm: biến rời rạc và biến liên tục:

+Biến rời rạc gồm: gender, Diet

+Biến liên tục gồm: Age, Height, pre.weight, weight6weeks

a.Thống kê mẫu:

Đối với các biến phân loại ( rời rạc), hãy lập một bảng thống kê số lượng cho từng chủng loại (Hàm gợi ý: table())

Input:

Output:

Trang 7

Đối với các biến liên tục, hãy tính các giá trị thống kê mô tả gồm: trung bình, trung vị, độ lệch chuẩn, giá trị lớn nhất và giá trị nhỏ nhất Xuất kết quảvới dưới dạng bảng (Hàm gợi ý: mean(), median(), sd(), min(), max(), apply(), as.data.frame(), rownames()).

Ta sử dụng lệnh apply() với tham số đầu là các biến liên tục: Age, Height,pre.weight,weight6weeks Với mục đích để tính các giá trị thống kê cụ thể theo hàm function().

Sau đó dùng lệnh rownames() để đặt tên cho các giá trị thống kê vừa tính để tạo ra bảng stat_table bên dưới

Khái quát hơn, để biết được các giá trị thống kê của biến weight.loss theo từng chế độ ăn kiêng, ta dùng lệnh sau:

Trang 8

b.Dùng đồ thị:

Dùng lệnh hist() để cho ra kết quả tổng quan sau quá trình ăn kiêng:

Hàm hist() nhận vào một danh sách để biểu diễn biểu đồ, ở đây cần xem “weight.loss” nên tham số vào đầu là “weight.loss” và các tham số tùy chọnbao gồm main để đặt tên cho biểu đồ, col để chỉnh màu cho biểu đồ , xlab để đặt tên cho trục hoành và ylab để đặt tên cho trục tung

Dùng lệnh boxplot để có được đồ thị mô tả weight.loss theo từng chế độ Diet

Hàm boxplot() có cú pháp tương tự hàm hist() Sau khi thực hiện lên trên thì ta được đồ thị sau :

4 t.test: Dùng một kiểm định phù hợp cho hai biến pre.weight và weight6weeks.

Giả thuyết H0: Cân nặng trung bình trước ăn kiêng và sau ăn kiêng bằng nhau

Trang 9

Giả thuyết H1: Cân nặng trung bình sau ăn kiêng thấp hơn trước ăn kiêng.

Dùng hàm t.test kiểm định một phía đối với hai biến pre.weight và weight6weeks:

Dựa vào kết quả từ R, ta biết được độ tin cậy là 95% (mức ý nghĩa α = 0.05) và p-value < 2.2×10-16 Vì p-value rất bé so với mức ý nghĩa α nên tabác bỏ giả thuyết H0,chấp nhận giả thuyết H1 Vậy cân nặng trung bình sau ăn kiêng giảm so với cân nặng trung bình trước ăn kiêng

5 ANOVA một nhân tố: Chế độ ăn kiêng Diet nào hiệu quả nhất trong việc giảm cân.

5.1 Trình bày Phân tích phương sai một nhân tố, phát biểu các giả thuyết và đối thuyết Nêu các giả định của mô hình cần kiểm tra.

- Phân tích phương sai ANOVA: so sánh 1 biến liên tục giữa các nhóm (nhiều hơn 2 nhóm)

- Giả thuyết vô hiệu: H0: không có sự khác biệt nào giữa các quần thể

- Giả thuyết đảo: H1: có tối thiểu một sự khác biệt trong quần thể.

5.2 Thực hiện kiểm tra giả định của mô hình:

Một số giả định khi phân tích ANOVA:

– Các nhóm so sánh phải độc lập và được chọn một cách ngẫu nhiên

– Các nhóm so sánh phải có phân phối chuẩn hoặc cỡ mẫu phải đủ lớn để được xem như tiệm cận phân phối chuẩn

– Phương sai của các nhóm so sánh phải đồng nhất

5.2.1 Kiểm tra giả định các nhóm so sánh phải độc lập và được chọn một cách ngẫu nhiên.

Các nhóm so sánh phải độc lập và được chọn ngẫu nhiên: thỏa mãn, vì 3 nhóm khảo sát trên những người khác nhau

5.2.2 Kiểm tra giả định các nhóm phải có phân phối chuẩn hoặc cỡ mẫu đủ lớn để được xem như tiệm cận phân phối chuẩn:

Ở đây các nhóm có cỡ tương đối nhỏ nên phải xem các nhóm có là phân phối chuẩn hay không với 2 bước sau:

(1) Vẽ biểu đồ xác suất chuẩn (normal Q-Q plot) Phân phối chuẩn khi biểu đồ xác suất này có quan hệ tuyến tính (đường thẳng)

(2) Để chính xác hơn ta thực hiện thêm Shapiro - Wilk test

a) Nhóm thực hiện chế độ ăn kiêng 1 (diet1)

Vẽ biểu đồ xác suất chuẩn (normal Q-Q plot)

Input:

Trang 10

Nhận xét: gần như là phân phối chuẩn, dù có vài giá trị hơi lệch so với giá trị kì vọng

Thực hiện Sharpio - Wilk test

Input:

Output:

Nhận xét: giá trị p > 0.05 nên các nhóm mà ta khảo sát tuân theo luật phân phối chuẩn.

b) Nhóm thực hiện chế độ ăn kiêng 2 (diet2)

Input:

Output:

Trang 11

Nhận xét: gần như là phân phối chuẩn, dù có vài giá trị hơi lệch so với giá trị kì vọng.Thực hiện Sharpio - Wilk test.

Input:

Output:

Nhận xét: giá trị p > 0.05 nên các nhóm mà ta khảo sát tuân theo luật phân phối chuẩn

c) Nhóm thực hiện chế độ ăn kiêng 3 (diet3)

Input:

Output:

Trang 12

Nhận xét: gần như là phân phối chuẩn, dù có vài giá trị hơi lệch so với giá trị kì vọng.

Thực hiện Sharpio - Wilk test

Input:

Output:

Nhận xét: giá trị p > 0.05 nên các nhóm mà ta khảo sát tuân theo luật phân phối chuẩn

5.2.2 Kiểm tra giả định về tính đồng nhất của các phương sai: Bartlett test

Lý thuyết: giả thuyết vô hiệu là tất cả các phương sai của quần thể đều bằng nhau; giả thuyết thay thế là ít nhất hai trong số chúng khác nhau Giả thuyết:

H0 : tất cả các nhóm có phương sai tương đương nhau

H1 : Có ít nhất 1 cặp trong số các nhóm có phương sai không tương đương nhau

Câu lệnh:

Kết quả:

Trang 13

Nhận xét: giá trị p >0.05 nên chấp nhận H0, tức không có bằng chứng nào cho thấy phương sai của 3 chế độ ăn kiêng có sự khác biệt rõ rệt, tức 3 chế

độ ăn kiêng có phương sai tương đương nhau

5.3 Thực hành phân tích phương sai một nhân tố Cho kết luận về hiệu quả của các phương pháp ăn kiêng đối với việc giảm cân.

Câu hỏi đặt ra: mức độ giảm cân của 3 chế độ ăn kiêng có khác nhau hay không?

Gọi số cân giảm trung bình của 3 nhóm là µ1, µ2, µ3;

Trung bình bình phương giữa các nhóm (MSB) = 30.2635

Tổng bình phương trong mỗi nhóm (SSW) = 410.40

Trung bình bình phương trong mỗi nhóm (MSW) = 5.6219

Như vậy, F = MSB/MSW = 30.2635/ 5.6219 = 5.3831

Trị số p = 0.006596 < 0.05 nên bác bỏ H0 có nghĩa là tín hiệu cho thấy có sự khác biệt về độ giảm cân giữa ba chế độ ăn kiêng.

Để biết thêm kết quả phân tích, chúng ta dùng lệnh summary như sau:

Input

Trang 14

Nhận xét: So với chế độ ăn kiêng 1 và chế độ 2 thì chế độ 3 đều có độ giảm cân và lớn hơn chế độ 1, nhưng độ giảm cân của chế độ 2 lại không có ý

nghĩa thống kê, còn chế độ 3 thì có ý nghĩa thống kê

Thực hiện so sánh bội (Multiple Comparisons):

Trang 15

Nhận xét: Kết quả cho thấy sự khác nhau về cân nặng giảm được giữa:

 Phương pháp ăn kiêng 3 cao hơn phương pháp ăn kiêng 1 là 1.848148, khoảng tin cậy 95% là (0,2567422; 3,439554)

 -Phương pháp ăn kiêng 3 cao hơn phương pháp ăn kiêng 2 là 1.880148, khoảng tin cậy 95% là (0,3056826; 3,454614)

 Ở phương pháp ăn kiêng 2 và phương pháp ăn kiêng 1 không thể so sánh được sự khác nhau vì p adj=0,9987711> 0,05

Như vậy sự so sánh có ý nghĩa thống kê ở cặp nhóm (3-1) và (3-2) nhưng không có ý nghĩa ở cặp (2-1) Phương pháp ăn kiêng hiệu quả nhất làphương pháp 3

6 ANOVA hai nhân tố: Chế độ ăn kiêng ( Diet ) và giới tính ( gender ) có ảnh hưởng thế nào đến việc giảm cân weight.loss

1.Phân tích phương sai 2 nhân tố và điều kiện để phân tích phương sai hai nhân tố

a. Định nghĩa

Một phép thử cho phép so sánh giữa các trung bình của nhiều nhóm dữ liệu, trong đó hai biến độc lập được xem xét

ANOVA hai yếu tố là một phần mở rộng của phân tích phương sai một yếu tố Với One Way, bạn có một biến độc lập ảnh hưởng đến biến phụ thuộc.Còn với two-way ANOVA, sẽ có 2 biến độc lập

Ví dụ: Với dữ liệu đề cho, ta có thể thực hiện phân tích ANOVA hai nhân tố với hai biến độc lập là giới tính (gender) và chế độ ăn kiêng (Diet), biến

phụ thuộc là cân nặng giảm được sau 6 tuần (weight.loss)

b. Điều kiện để phân tích ANOVA hai chiều:

 Biến phụ thuộc phải là biến liên tục

 Hai biến độc lập phải có nhiều mức phân loại (Ví dụ: giới tính có 2 phân loại là nam và nữ)

 Các quan sát trong mỗi nhóm và giữa các nhóm phải độc lập với nhau (Ví dụ: cơ sở dữ liệu được cho về cân nặng của 78 cá nhân độc lập)

 Không nên có điểm dị biệt

 Dữ liệu của biến phụ thuộc phải là phân phối chuẩn hay xấp xỉ phân phối chuẩn (Đã chứng minh khi xét ANOVA một nhân tố ở trên)

 Cần phải có sự đồng nhất của phương sai cho mỗi sự kết hợp của các nhóm của hai biến độc lập

Thực hiện phân tích two way ANOVA sử dụng R Studio

Để thực hiện phân tích phương sai ANOVA hai chiều xem xét chế độ ăn và giới tính ảnh hưởng thế nào đến việc giảm cân, ta lần lượt phân tích nhưsau:

 Xem tác tác động của lần lượt từng yếu tố chế độ ăn kiêng, giới tính đến việc giảm cân

 Xem xét tác động tổng hợp của việc giảm cân

 Vẽ đồ thị thể hiện tương quan giữa hai yếu tố chế độ giảm cân và giới tính

a) Các câu lệnh và ý nghĩa:

Trang 16

Xây dựng mô hình phân tích ANOVA haichiều với 2 factor là giới tính và chế độ ănkiêng.

Dùng lệnh anova để R tính và trả kết quả

b) Phân tích kết quả

Trang 17

 Ảnh hưởng của giới tính (độ tin cậy 1)

H0: cân nặng giảm đi trung bình giữa các giới tính bằng nhau

H1: cân nặng giảm đi trung bình giữa các giới tính là khác nhau

Pr(>F)= 0.820623 > 0.05 (mức ý nghĩa) ==> chấp nhận H0

Kết luận: Giới tính không ảnh hưởng đến việc giảm cân

 Ảnh hưởng của chế độ ăn kiêng (độ tin cậy 0.01)

H0: cân nặng giảm đi trung bình giữa các phương pháp ăn kiêng là giống nhau

H1: cân nặng giảm đi trung bình giữa các phương pháp ăn kiêng là khác nhau

Pr(>F)=0,005456 < 0.05🡪 bác bỏ H0, chấp nhận H1

Kết luận: Chế độ ăn kiêng có ảnh hưởng đến việc giảm cân

 Ảnh hưởng tổng hợp của giới tính và chế độ ăn kiêng

H0: cân nặng giảm đi trung bình giữa các phương pháp ăn kiêng và giới tính là giống nhau

H1: cân nặng giảm đi trung bình giữa các phương pháp ăn kiêng và giới tính là khác nhau

Pr(>F)=0,048842 < 0.05 🡪 bác bỏ H0, chấp nhận H1

Kết luận: Có sự ảnh hưởng của tổng hợp hai yếu tố giới tính và chế độ ăn kiêng lên sự giảm cân

c. Một số so sánh bội để làm rõ ảnh hưởng của hai yếu tố giới tính và chế độ ăn kiêng lên sự giảm cân.

Sau khi thực hiện phân tích ANOVA hai chiều ta kết luận được có sự ảnh hưởng của tổng hợp hai yếu tố giới tính và chế độ ăn kiêng lên sự giảm cân

Để có cái nhìn rõ hơn về sức ảnh hưởng của tương tác gender*Diet ta thực hiện so sánh bội giữa 6 nhóm (được tạo nên từgender(Nam;Nữ)*Diet(1;2;3)) Từ đó, ta sẽ quan sát được giữa 6 nhóm, nhóm nào chịu tác động của tương tác gender*Diet nhiều hay ít (thông qua sosánh trong bình các nhóm)

Trang 18

Thực hiện Tukey HSD (Tukey Honest Significant Differences)

Sử dụng hàm TukeyHSD() để so sánh theo từng cặp nhóm đối tượng (có 6 nhóm)

Code R: TukeyHSD(aov(model1))

 Diff: sự khác biệt giữa trung bình của các cặp nhóm

 Lwr, upr: Cận trên và cận dưới của khoảng tin cậy 95% (default)

 Từ bảng trên, ta thấy được sự khác biệt giữa cặp Fe:Diet3 – Fe:Diet2 (3.27) và cặp Fe:Diet3 – Fe:Diet1 (2.83) hay cặp Fe:Diet3 – Ma:Diet1 (2.23) là có ý nghĩa đáng kể

=> có thể thấy rằng: Chế độ ăn kiêng 3 áp dụng cho đối tượng nữ đem lại hiệu quả cao nhất, trái lại chế độ kiêng 2 áp dụng cho nữ đem lại hiệuquả thấp

Để có cái nhìn trực quan hơn, ta sử dụng đồ thị:

plot(TukeyHSD(res.aov3))

d Thực hiện việc kiểm tra các giả định của mô hình trong TH2:

Giả định về phân phối chuẩn

- # Nếu ta thu được đồ thị xấp xỉ theo đường thẳng tuyến tính thì không bác bỏ giả định về phân phối chuẩn

plot(res.aov3, 2)

Trang 19

- Có thể thấy đồ thị xấp xỉ theo đường thẳng tuyến tính nên sai số được phân phối chuẩn # Có thể sử dụng kiểm định

Shapiro-Wilk

aov_residuals <- residuals(object = res.aov3) shapiro.test(x = aov_residuals)

Vì W đủ lớn nên giả định về phân phối chuẩn của sai số được đảm bảo hơn

Giả định về sự đồng nhất các phương sai (sử dụng kiểm định Lenver)

# import thư viện Car

library(car)

leveneTest(weight.loss ~ gender*Diet, data = Data.gen.diet)

Từ kết quả ta thấy p-value > mức ý nghĩa α= 0.05 Vậy không có bằng chứng để khẳng định rằng phương sai giữa các nhóm là có sự khác biệt

đáng kể về mặt thống kê, nên có thể giả định tính đồng nhất của các phương sai

Trang 20

B Phần riêng:

• Mỗi nhóm bắt buộc tự tìm một bộ dữ liệu thuộc về chuyên ngành của mình Khuyến khích sinh viên sử dụng dữ liệu thực tế sẵn có từ các thí nghiệm,khảo sát, dự án trong chuyên ngành của mình Ngoài ra sinh viên có thể tự tìm kiếm dữ liệu từ những nguồn khác hoặc tham khảo trong kho dữ liệucung cấp trong tập tin "kho_du_lieu_BTL_xstk.xlsx"

• Các nhóm được yêu cầu xử lý số liệu mà mình đã chọn Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phân tích dữ liệu củamình, nhưng phải đảm bảo 2 phần: Làm rõ dữ liệu (data visualization) và mô hình dữ liệu (model fitting)

CHỦ ĐỀ: CƯỜNG ĐỘ NÉN BÊ TÔNG

Tập tin “Concrete_Data.csv” chứa số liệu về thành phần có trong khối bê tông từ đó tìm ra được sức chịu nén của bê tông đó

Nguồn: kho_du_lieu_BTL_xstk.xlsx

Chú thích:

Blast Furnace Slag (kg/m3) - Xỉ lò cao

Superplasticizer (kg/m3) - Phụ gia siêu dẻo

Coarse Aggregate (kg/m3) - Cốt liệu thô

Concrete compressive strength (MPa) - Cường độ nén bê tông

THỰC HIỆN TRÊN RSTUDIO

Trước hết phải chuyển file thành “ Concrete_Data.csv”

1.Đọc dữ liệu (Import data): Hãy dùng lệnh read.csv() để đọc tệp tin

Tiêu đề	Báo Cáo Bài Tập Môn Xác Suất Thống Kê Làm Sạch Dữ Liệu (Data Cleaning)
Tác giả	Nguyễn Ngọc Vinh Hiển, Ngô Hoàng Sơn, Triệu Thành Tài, Nguyễn Hữu Bảo, Đỗ Trí Thắng
Người hướng dẫn	Nguyễn Kiều Dung
Trường học	Trường Đại Học Bách Khoa
Chuyên ngành	Xác Suất Thống Kê
Thể loại	báo cáo
Năm xuất bản	2021
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	31
Dung lượng	1,7 MB