BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA TP HCM BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Giáo viên hướng dẫn Nguyễn Kiều Dung Nhóm 12 Lớp L 21 SST Họ tên sinh viên Mssv Nhóm tổ Khoa Ký tên tham dự 1 Trần Đình Trung 1814526 L16 Điện Điện tử 2 Võ Lâm Huy Cường 1811657 L21 Kỹ thuật xây dựng 3 Dương Bảo Khoa 1812638 L21 Tài nguyên môi trường 4 Lê Thị Mỹ Lệ 1812792 L21 Tài nguyên môi trường 5 Nguyễn Văn Tài Nguyên 1813289 L21 Kỹ thuật xây dựng 6 Phạm Quốc Nhật 1813379 L21 Kỹ thuật xây dựng 7 Nguyễn Hữu.
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA TP HCM
- -BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Giáo viên hướng dẫn: Nguyễn Kiều Dung
Nhóm 12 Lớp L-21SST Họ tên sinh viên Mssv Nhóm/tổ Khoa tham dựKý tên
1 Trần Đình Trung 1814526 L16 Điện - Điệntử
xây dựng
3 Dương Bảo Khoa 1812638 L21 môi trường Tài nguyên
môi trường
5 Nguyễn Văn Tài Nguyên 1813289 L21 xây dựngKỹ thuật
6 Phạm Quốc Nhật 1813379 L21 xây dựngKỹ thuật
7 Nguyễn Hữu Thiên Tân 1813939 L21 Kỹ thuật
xây dựng
8 Nguyễn Minh Trí 1814460 L21 xây dựngKỹ thuật
Tp HCM, 27 – 11 – 20
Trang 2Mục lục
Đề tài: 3
Câu 1: Vẽ biểu đồ tần số histogram ; biểu đồ mật độ tần số; biểu đồ tích lũy tần số của một biến định lượng Nêu nhận xét 4
Câu 2 Vẽ biểu đồ Pie của 1 biến định tính 10
Câu 3 Chọn 1 biến định lượng nào đó và thực hiện: 12
- Tìm các giá trị ngoại lai ( outlier ) nếu có và nêu đề xuất xử lý 12
- Tìm các đặc trưng từ mẫu dữ liệu 12
Câu 4 Kiểm định xem 1 biến nào đó có phù hợp với 1 dạng phân phối xác suất cụ thể hay không 19
Câu 5 Chọn dữ liệu 2 biến để lập bài toán kiểm định so sánh 2 trung bình tổng thể Trình bày các bước thực hiện và nhận xét kết quả 23
Câu 6 Chọn dữ liệu cho k biến (k 3) để lập bài toán so sánh về trung bình Trình bày các bước thực hiện và nhận xét 30
Câu 7 Chọn dữ liệu cho 2 biến để lập bài toán kiểm định so sánh về sự phân tán Trình bày các bước thực hiện và nhận xét kết quả 36
Câu 8 Chọn dữ liệu phù hợp để lập bài toán so sánh các tỉ lệ (hay là bài toán kiểm định tính độc lập) Trình bày các bước thực hiện và nhận xét kết quả 41
Câu 9 Khảo sát hệ số tương quan giữa 2 biến cụ thể, dự đoán phương trình đường hồi quy tuyến tính giữa chúng (có hình vẽ minh họa) và nhận xét về mối tương quan giữa 2 biến 46
Câu 10: Chọn ra k biến (k>=3) và xem xét có thể lập mô hình hồi quy tuyến tính đa biến giữa chúng hay không 54
2
Trang 3Xã hội càng phát triển, nhu cầu đời sống của con người ngày càng tăng cao Khi đidọc trên khắp đất nước Việt Nam, ta dễ dàng bắt gặp hàng trăm, hàng ngàn công trìnhđang đươc xây dựng mỗi ngày Và một trong những điều kiện hàng đầu để tạo nên mộtcông trình vưng chắc đó chính là Xi măng Nhu cầu sử dụng xi măng đang ngày càngtăng cao do đó việc sử dụng và cải tiến cũng ngày càng được mở rộng
Trấu và xơ dừa là những phế thải nông nghiệp rẻ tiền, ít có khả năng ứng dụng Ởđây tro của trấu và xơ dừa được sử dụng để làm phụ gia trong quá trình thí nghiệm ximăng điều này giúp hỗ trợ làm giảm hao phí phế thải nông nghiệp và hao phí tiền của chonhững loại phụ gia đắt tiền khác Do đó, đề tài này được lấy ý tưởng từ Đồ án tốt nghiệp
“NGHIÊN CỨU TẬN DỤNG PHẾ PHẨM NÔNG NGHIỆP LÀM VẬT LIỆU XÂYDỰNG” của Vũ Thị Bách, sinh viên trường Đại Học Hutech, chuyên ngành Kỹ thuật môitrường
Trang 4Câu 1: Vẽ biểu đồ tần số histogram ; biểu đồ mật độ tần số; biểu đồ tích lũy tần số của một biến định lượng Nêu nhận xét.
Dữ liệu định lượng: Độ bền nén (N/mm) của xi măng là tiêu chí quan trọng nhất
để xét loại tiêu chuẩn xi măng có phù hợp để đưa vào sử dụng Trong 400 mẫu thí nghiệm
ở 4 loại mẫu phụ gia khác nhau có một số mẫu không đạt tiêu chuẩn về độ bền nén theoTCVN 6016 – 1995 Bảng số liệu dưới đây chỉ ra độ bền nén của 70 mẫu xi măng thínghiệm không đạt tiêu chuẩn
*Dạng bài: Thống kê mô tả.
*Công cụ giải: Histogram, công cụ vẽ trong Insert.
*Giải quyết bài toán trên Excel:
1 Thực hiện phương pháp phân tổ dữ liệu
Bước 1: Nhập dữ liệu vào excel:
4
Trang 6 Input Range: địa chỉ tuyệt đối chứa dư liệu.
Bin Range: địa chỉ chứa bảng phân nhóm
Output options: vị trí xuất kết quả
Cutmulative Percentage: tần số tích lũy
Kết quả:
6
Trang 72 Vẽ biểu đồ tần số histogram
Bước 1: Quét chọn 2 cột “Khoảng” và cột “Tần số”
Bước 2: Dùng chức năng Insert Column Chart trên menu Insert
Kết quả:
13.2 - 14.3 14.3 - 15.4 15.4 - 16.5 16.5 - 17.6 17.6 - 18.7 0
5 10 15 20 25
Trang 83 Vẽ biểu đồ tích lũy tần số
Bước 1: Quét chọn 2 cột “Khoảng” và cột “Tần số tích lũy %”:
Bước 2: Dùng chức năng Insert Line trên menu Insert
Kết quả:
13.2 - 14.3 14.3 - 15.4 15.4 - 16.5 16.5 - 17.6 17.6 - 18.7 0.00%
Trang 9Với: Mật đọ tần số = (Tần số tương ứng của mỗi tổ) y
Bước 2: Chọn cột “Khoảng trị số khoảng cách h” và cột “Mật độ tần số”, sử công cụ Insert để vẽ biểu đồ mật độ tần số
Trang 10Câu 2 Vẽ biểu đồ Pie của 1 biến định tính.
Dữ liệu định tính: Theo tiêu chuẩn phân loại xi măng, dựa vào độ bền nén của mẫuthí nghiệm ta có thể phân ra thành một số loại xi măng đạt tiêu chuẩn Bảng dưới đây thểhiện loại xi măng theo tiêu chuẩn và số lượng mẫu đạt tiêu chuẩn trong thực nghiệm.(Đơn vị: Mẫu)
Tiêu chuẩn phân loại xi măng Số mẫu
Loại II: Nhà dân dụng loại 1 69Loại III: Nhà dân dụng loại 2 11Loại IV: Công trình dân dụng 79Loại V: Cơ cấu hạ tầng 10
*Dạng bài: Thống kê mô tả
*Công cụ giải: Công cụ vẽ Insert Pie.
*Giải quyết bài toán trên Excel:
Bước 1: Nhập bảng số liệu
Bước 2: Quét chọn 2 cột “Tiêu chuẩn phân loại xi măng” và “ Số mẫu”
10
Trang 11Bước 3: Dùng chức năng Insert Pie trên menu Insert.
Trang 12Câu 3 Chọn 1 biến định lượng nào đó và thực hiện:
- Tìm các giá trị ngoại lai ( outlier ) nếu có và nêu đề xuất xử lý.
- Tìm các đặc trưng từ mẫu dữ liệu.
Hiện nay, nước ta có xu hướng phát triển mạnh mẽ về các loại dịch vụ giải trí.Ngày càng nhiều các trung tâm giải trí, Plaza hay Mall được xây dựng Để đáp ứng nhucầu đó, việc sử dụng xi măng trong quá trình xây dựng các công trình dân dụng này đượcliệt kê vào loại đạt tiêu chuẩn IV sau khi được đánh giá thực nghiệm Dưới đây là bảng sốliệu về 79 mẫu xi măng đạt tiêu chuẩn IV khi đánh giá thực nghiệm từ 400 mẫu
Từ bảng số liệu trên, hãy tìm các giá trị ngoại lai (outlier) nếu có và nêu đề xuất
xử lý Tìm các đặc trưng mẫy từ dữ liệu
*Cơ sở lý thuyết:
Trong quá trình thu thập, phân tích dữ liệu, ta thường gặp các quan sát mà giá trịcủa nó rất khác biệt so với giá trị của các quan sát khác, đây gọi là các bất thường (hayngoại lai – Outlier)
Trang 13Vấn đề ở đây là thế nào là “giá trị cực” hay outlier? Đây là câu hỏi khó trả lời vàthường phụ thuộc vào yêu cầu phân tích của bài toán đặt ra.
Phát hiện outlier có rất nhiều ý nghĩa và ứng dụng trong rất nhiều lĩnh vực nhưphát hiện gian lận trong giao dịch tài chính, viễn thông…; phân tích hành vi khách hàng,người tiêu dùng; phát hiện bệnh tật (các bất thường thường được quan tâm trong y học vì
có khả năng bị bệnh cao);…
Một số cách phát hiện bất thường
Có rất nhiều cách để phát hiện bất thường trong dữ liệu tùy thuộc vào dữ liệunguồn, yêu cầu phân tích của bài toán đặt ra hay kinh nghiệm của người phân tích
Dựa vào phân phối chuẩn (nếu dữ liệu tuân theo luật phân phối chuẩn):
Ta biết rằng nếu biến số X tuân theo luật phân phối chuẩn với trung bình m và độlệch chuẩn s thì 99% các giá trị của X phải nằm trong khoảng m – 3*s đến m + 3*s Do
đó, nếu có xi nào có giá trị nằm ngoài khoảng này thì có thể nghi ngờ là outlier
Dựa vào đồ thị (histogram, scatter, Plot box…)
Dựa vào các kỹ thuật phân cụm (clustering technique)
Dựa vào phương pháp mật độ (Density-based Approaches)
Khi phát hiện các outlier trong dữ liệu thì xử lý như thế nào?
Có rất nhiều cách để xử lý outlier khi phát hiện, mỗi cách có ưu và nhược điểmriêng Việc chọn cách nào tùy thuộc vào yêu cầu phân tích dữ liệu của bài toán đặt ra
Sau đây là một số cách xử lý outliers:
Trang 14 Delete rows containing outlier: Xóa dòng dữ liệu chứa outlier ra khỏi dữ
liệu phân tích Việc này sẽ làm mất một số thông tin trên các cột khác nếucác cột này cần cho phân tích
bình
Change value to specific value: Đổi outlier thành một giá trị cụ thể
*Giải quyết bài toán trên Excel:
1 Tìm các giá trị ngoại lai và nêu đề xuất xử lý
Trang 15Từ biểu đồ, ta kết luận số liệu trên không có giá trị ngoại lai (outlier).
Các đề xuất xử lý outlier (Trường hợp có xuất hiện giá trị ngoại lai):
Delete rows containing outlier : xóa dòng dữ liệu chứa outlier
Change value to mean : các giá trị outlier sẽ được thay bằng giá trị trung bình
Change value to null : xóa giá trị outlier thay là null (empty)
Change value to specific value : đổi outlier thành một giá trị cụ thể
2 Tìm các đặc trưng mẫu của dữ liệu
Trang 16Bước 1: Nhập bảng số liệu
Bước 2: Sử dụng công cụ: ‘Descriptive Statistics’ trong Data/Data Analysis lần lượt tìmcác đặc trưng mẫu của mẫu phối trộn
Bước 3: Chọn các mục như hình:
Input: địa chỉ tuyệt đối chứa dư liệu
Output Range: vị trí xuất kết quả
Labels in first row
16
Trang 17 Apha: mức ý nghĩa 5%
Kết quả
Bước 4: Xác định các đặc trưng mẫu
Trang 19Câu 4 Kiểm định xem 1 biến nào đó có phù hợp với 1 dạng phân phối xác suất cụ thể hay không.
Sau quá trình thực nghiệm với 100 mẫu xi măng phối trộn của loại phụ gia tro trấu10%, ta lập được một bảng số liệu về kết quả những mẫu xi măng đạt tiêu chuẩn các loạivới độ bền nén dao đồng từ 35.1 (N/mm) tới 40.2 (N/mm) Theo TCVN về sử dụng ximăng trong xây dựng ta có hệ số = 0.5 (N/mm) có ý nghĩa trong việc sử dụng xi măngtrong công trình xây dựng loại lớn không vượt qua mức Do đó ta chia được 100 mẫu ximăng với 11 khoảng độ bền nén trong ứng dụng xây dựng công trình
Với mức ý nghĩa 5% có thể xem như độ bền nén của 100 mẫu xi măng thuộc dạngphối trộn với phụ gia tro trấu 10% được phân loại theo tiêu chuẩn có tuân theo quy luậtphân phối chuẩn hay không?
Độbềnnén(N/mm)
35-35.5
35.5-36
36-36.5
36.5-37
37-37.5
37.5-38
38-38.5
38.5-39
39-39.5
39.5-40
40-40.5Số
Trang 20Ta có quy tắc kiểm định như sau:
Tìm 2 = 2(k – r – 1) từ bảng phân phối 2, ở đây là tham số của F(x)
Tính thống kê 02 =
Nếu 02 =< 2 thì chấp nhận H
Nếu 02 > 2 thì bác bỏ H
*Dạng bài: Kiểm định phân phối chuẩn.
*Công cụ giải: Hàm NORM.DIST, CHISQ.INV.
*Giải quyết bài toán trên Excel:
Trang 21Từ bảng trên, ta xác định được:
Trung bình mẫu = ͞x = 37.55
Phương sai mẫu tiêu chuẩn = 2 =2.185
Độ lệch mẫu tiêu chuẩn = = = 1.4782
Bước 3: Lập bảng và sử dụng hàm NORM.DIST để tính giá trị quan sát
Với:
Pi = NORM.DIST(, ͞x, , TRUE) NORM.DIST(, ͞x, , TRUE)
Giá trị quan sát = qs2 =
Trang 22Từ bảng trên, ta xác định được giá trị quan sát qs2 = 44.4296
Bước 4: Sử dụng hàm CHISQ.INV() để tìm miền bác bỏ
Sử dụng hàm CHISQ.INV ta tìm được miền bác bỏ � = (2.7326 ; +∞)
Bước 5: Biện luận:
Giả thiết H0: Độ bền nén của 100 mẫu xi măng thuộc dạng phối trộn với phụ giatro trấu 10% được phân loại theo tiêu chuẩn có tuân theo quy luật phân phốichuẩn
Giả thiết H1: Độ bền nén của 100 mẫu xi măng thuộc dạng phối trộn với phụ giatro trấu 10% được phân loại theo tiêu chuẩn không tuân theo quy luật phân phốichuẩn
Miền bác bỏ: � = (2.7326 ; +∞)
Giá trị quan sát: qs2 = 44.4296 � Bác bỏ H0, chấp nhận H1
22
Trang 23 Kết luận: Ta có thể kết luận rằng độ bền nén của 100 mẫu xi măng thuộcdạng phối trộn với phụ gia tro trấu 10% được phân loại theo tiêu chuẩn không tuântheo quy luật phân phối chuẩn.
Câu 5 Chọn dữ liệu 2 biến để lập bài toán kiểm định so sánh 2 trung bình tổng thể Trình bày các bước thực hiện và nhận xét kết quả.
Để đánh giá khả năng ứng dụng thực tiễn trong xây dựng nhà dân dụng loại I (1 –
2 tầng) ta dựa vào tiêu chí Độ bền nén (N/mm) Để thực hiện điều đó, ta tiến hành kiểmnghiệm độ bền nén trung bình (N/mm) của 2 mẫu xi măng thuộc tiêu chuẩn loại II trongtất cả các sản phẩm thí nghiệm thành phẩm: Mẫu trộn với Tro trấu 20% và mẫu trộn vớiTro xơ dừa 10% Với mức 5% hãy cho biết mẫu phối trộn nào phù hợp sử dụng trong xâynhà dân dụng loại 1 hơn?
Độ bền nén của mẫu xi măng trộn với Tro trấu 20% (Đơn vị N/mm)
Trang 24*Cơ sở lý thuyết:
Nếu mẫu thống kê (N>30) thì phương sai của mẫu, Si2, có thể được xem là phươngsai của tổng thể, i2, khi ấy bạn có thể áp dụng trắc nghiệm z để so sánh giá trị trung bìnhcủa 2 mẫu với phương sai biết trước
Giả thiết
Trắc nghiệm bên phải:
H0: 1 = 2
H1: 1 > 2Trắc nghiệm bên trái:
H0: 1 = 2
H1: 1 < 2Trắc nghiệm hai bên:
H0: 1 = 2
H1: 1 2Giá trị thống kê:
Z = = Phân phối chuẩn
Biện luận
Nếu z<z (hai bên) hay z/2 (một bên) Chấp nhận giả thiết H0
*Dạng bài: Kiểm định trung bình (Bài toán 2 mẫu)
*Phương pháp giải: So sánh trung bình 2 tổng thể với phương sai biết trước (n>30)
*Công cụ giải: Descriptive Statistics và z-Test: Two Sample for Means
24
Trang 25*Giải quyết bài toán trên Excel:
Bước 1: Nhập bảng số liệu
Bước 2: Sử dụng công cụ: ‘Descriptive Statistics’ trong Data/Data Analysis lần lượt tìmcác đặc trưng mẫu của 2 mẫu phối trộn
Trang 26Bước 3: Chọn các mục như hình:
Input: địa chỉ tuyệt đối chứa dư liệu
Output Range: vị trí xuất kết quả
Labels in first row
Apha: mức ý nghĩa 5%
Kết quả:
26
Trang 27Bước 4: Xác định phương sai mẫu Tro trấu 20% và Tro Xơ Dừa 10%:
1 = 1.14362 = 0.1993Bước 5: Tiếp tục sử dụng công cụ “z-Test: Two Sample for Means” trong Data/ DataAnalysis
Bước 6: Chọn các mục như hình:
Input: địa chỉ tuyệt đối chứa dư liệu
Output Range: vị trí xuất kết quả
Variable 1 Variance (known): 1.143617021
Variable 2 Variance (known): 0.199290323
Labels
Trang 28Kết quả:
Bước 7: Biện luận:
▪ Giả thiết H0: Độ bền nén trung bình của mẫu xi măng trộn phụ gia Tro trấu 20% và Tro
xơ dừa 10% là như nhau
28
Trang 29▪ Giả thiết H1: Độ bền nén trung bình của mẫu xi măng trộn phụ gia Tro trấu 20% lớn lơnkhi trộn với phụ gia Tro xơ dừa 10%
▪ Miền bác bỏ: � = (1.6449 ; +∞)
▪ z = 5.2809 ∈ � → Bác bỏ giả thiết H0, chấp nhận giả thiết H1
▪ Kết luận: Độ bền nén trung bình của mẫu xi măng trộn phụ gia từ Tro trấu 20% lớn hơnkhi trộn với phụ gia Tro xơ dừa 10%, có nghĩa là xi măng trộn với phụ gia Tro trấu 20%thích hợp sử dụng trong xây nhà dân dụng loại I hơn khi trộn với phụ gia Tro xơ dừa10%
Câu 6 Chọn dữ liệu cho k biến (k 3) để lập bài toán so sánh về trung bình Trình
bày các bước thực hiện và nhận xét.
Trong 400 mẫu xi măng thử nghiệm ta thu được 151 mẫu thuộc tiêu chuẩn loại I(dung để xây tô) bao gồm 3 dạng phối trộn: Tro trấu 20%, tro xơ dừa 10% và tro xơ dừa
Trang 3020% Để đánh giá khả năng hoạt động thực tiễn của các mẫu của những dạng phối trộntrên trong việc ứng dụng vào xây tô ta dựa vào tiêu chuẩn độ bền nén trung bình của mỗimẫu
Dưới đây là bảng số liệu chọn ngẫu nhiên 20 mẫu thử nghiệm ở mỗi dạng mẫuphối trộn Với mức ý nghĩa 5%, hãy kiểm định xem 3 dạng phối trộn xi măng ứng dụngtrong việc xây tô công trình có độ bền nén như nhau hay không?
Tro Trấu 20% Tro Xơ dừa 10% Tro Xơ dừa 20%
20.5 22.9 19.1 21.4 24.2 19.6 22.6 23.1 19.1 22.1 22.7 19.4 19.2 23.7 20.1
22.8 22.2 20.8 23.2 22.5 19.5 23.5 21.3 19.3 22.6 22.7 19.4 23.6 23.8 19.3
22.1 22.2 20.6 21.2 23.2 19.6 21.1 24.2 19.4 22.6 23.2 19.4 24.5 21.3 19.9 21.2 21.3 20.1 22.6 24.5 19.3
*Cơ sở lý thuyết:
Lý thuyết phân tích phương sai 1 yếu tố
30
Trang 31Phép phân tích phương sai là so sánh trung bình của 2 hay nhiều nhóm dựa trên các giá trị trung bình của các mẫu quan sát từ các nhóm này, và thông qua kiểm định giả thiết để kết luận về sự bằng nhau của các trung bình tổng thể này.
Phương pháp phân tích phương sai 1 yếu tố
Phép phân tích phương sai được dùng trong các trắc nghiệm để so sánh các giá trị trung bình của hai hay nhiều mẫu được lấy từ các phân số Đây có thể được xem như phần mở rộng các trắc nghiệm t hay z (so sánh hai giá trị trung bình)
Mục đích của sự phân tích phương sai một yếu tố là đánh giá sự ảnh hưởng của một yếu tố (nhân tạo hay tự nhiên) nào đó trên các giá trị quan sát, Yi(i=0,1,2,…,k)
Tổng số bình phương Bình phương
trung bình
Giá trị thống kê Yếu tố