ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Giáo viên hướng dẫn Nguyễn Kiều Dung Nhóm 10 Lớp L 14 TÊN MSSV NHÓM NGÀNH LỚP Ký tên 1 Nguyễn Phạm Thành Chung 1811623 Kỹ thuật Môi trường L14 2 Hàng Kim Định 1811927 Kỹ thuật Môi trường L14 3 Nguyễn Từ Lộc Phúc 1810445 Kỹ thuật Môi trường L14 4 Lê Sông Lam 1812750 Kỹ thuật Môi trường L14 5 Đinh Nguyễn Tấn Vinh 1814906 Kỹ thuật Môi trường L14 6 Nguyễn Trần Đức Hạnh 1812094 Kỹ thuật Nhiệt L14 7 Nguyễn Đứ.
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Giáo viên hướng dẫn: Nguyễn Kiều Dung
Nhóm 10 Lớp L-14
1 Nguyễn Phạm Thành Chung 1811623 Kỹ thuật Môi trường L14
2 Hàng Kim Định 1811927 Kỹ thuật Môi trường L14
3 Nguyễn Từ Lộc Phúc 1810445 Kỹ thuật Môi trường L14
4 Lê Sông Lam 1812750 Kỹ thuật Môi trường L14
5 Đinh Nguyễn Tấn Vinh 1814906 Kỹ thuật Môi trường L14
6 Nguyễn Trần Đức Hạnh 1812094 Kỹ thuật Nhiệt L14
7 Nguyễn Đức Thắng 1713235 Kỹ Thuật Cơ khí L14
8 Nguyễn Minh Chánh 1811587 Kỹ thuật Môi trường L20
TpHCM, ngày 05 tháng 12 năm 2019
Mục lục
Đề tài: 3
Trang 2Câu 1: Vẽ biểu đồ tần số histogram ; biểu đồ mật độ tần số; biểu đồ tích lũy tần số của một biến định lượng Nêu nhận xét 4Câu 2 Vẽ biểu đồ Pie của 1 biến định tính 11Câu 3 Chọn 1 biến định lượng nào đó và thực hiện: 14Câu 4 Kiểm định xem 1 biến nào đó có phù hợp với 1 dạng phân phối xác suất cụ thể haykhông 21Câu 5 Chọn dữ liệu 2 biến để lập bài toán kiểm định so sánh 2 trung bình tổng thể Trình bày các bước thực hiện và nhận xét kết quả 24Câu 6 Chọn dữ liệu cho k biến (k 3) để lập bài toán so sánh về trung bình Trình bày các bước thực hiện và nhận xét 31Câu 7 Chọn dữ liệu cho 2 biến để lập bài toán kiểm định so sánh về sự phân tán Trình bày các bước thực hiện và nhận xét kết quả 38Câu 8 Chọn dữ liệu phù hợp để lập bài toán so sánh các tỉ lệ (hay là bài toán kiểm định tính độc lập) Trình bày các bước thực hiện và nhận xét kết quả 43Câu 9 Khảo sát hệ số tương quan giữa 2 biến cụ thể, dự đoán phương trình đường hồi quy tuyến tính giữa chúng (có hình vẽ minh họa) và nhận xét về mối tương quan giữa 2 biến 48Câu 10: Chọn ra k biến (k>=3) và xem xét có thể lập mô hình hồi quy tuyến tính đa biến giữa chúng hay không 58
ĐỀ TÀI: GIÁM SÁT CHẤT LƯỢNG NƯỚC TRONG HỆ THỐNG CÔNG
TRÌNH THỦY LỢI VÀ ĐÁNH GIÁ CHẤT LƯỢNG NƯỚC
Trang 3LỜI GIỚI THIỆU
Xác suất và thống kê là các khoa học có tính thực tiễn vô cùng to lớn, các khoa học này xuất hiện hầu hết trong các bài toán kinh tế và kĩ thuật, từ nghành nông nghiệp đến công nghiệp cũng như trong các lĩnh vực khoa học xã hội
Trong lần thực hiện bài tập lớn này, nhóm có cơ hội tiếp cận với các bài toán thống kê thực tế trong đời sống, cơ bản nắm được ứng dụng của khoa học thống kê Qua đó, nhóm
đã vận dụng được các kiến thức mình học được trong môn Xác suất thống kê cùng với cáccông cụ phân tích dữ liệu của phần mềm Excel tiến hành phân tích các vấn đề thống kê vàrút ra ý nghĩa của các số liệu thu thập được
Nhóm đã chọn đề tài “ Giám sát chất lượng nước trong hệ thống công trình thủy lợi và đánh giá chất lượng nước” Mục đích của đề tài này là nhóm muốn khảo sát xem lượng nước dùng trong sản xuất nông nghiệp hiện nay nó như thế nào, có đảm bảo hay không?
Để hoàn thành được bài tập lớn lần này, nhóm xin gửi lời cảm ơn chân thành đến cô Nguyễn Kiều Dung vì những hướng dẫn tận tình Và nhóm cũng muốn gửi lời cảm ơn đếntất cả mọi người đã giúp đỡ nhóm trong quá trình thực hiện bài tập lớn lần này
Chân thành cảm ơn mọi người!
Link Bài 2: https://nuocsinhhoat.com/tieu-chuan-nuoc-sinh-hoat-cua-BYT-moi-nhat-html Link Bài 10: iwarp.org.vn/d464/bao.
Link các bài còn lại: http://iwarp.org.vn/d550/dieu-tra-co-ban.html.
Trang 4Câu 1: Vẽ biểu đồ tần số histogram ; biểu đồ mật độ tần số; biểu đồ tích lũy tần số của một biến định lượng Nêu nhận xét.
Dữ liệu định lượng: Độ đục (NTU) của nước là tiêu chí quan trọng xét loại tiêuchuẩn, giám sát chất lượng nước trong hệ thống công trình thủy lợi Việt Nam, phục vụ lấynước sản xuất nông nghiệp Bảng số liệu dưới đây chỉ ra độ đục của 100 mẫu ở mỗi trạmquan trắc ở Việt Nam
Vẽ biểu đồ tần số histogram; biểu đồ mật độ tần số; biểu đồ tích lũy tần số của mộtbiến định lượng Nêu nhận xét
*Dạng bài: Thống kê mô tả.
*Công cụ giải: Histogram, công cụ vẽ trong Insert.
Trang 5*Giải quyết bài toán trên Excel:
1 Thực hiện phương pháp phân tổ dữ liệu
Bước 1: Nhập dữ liệu vào excel:
Bước 2: Xác định số tổ cần chia: k = (2 × n)1/3
Trang 6 Tổ 5: 109.4 – 136 Tổ 6: 136 – 162.6
Độ Đục
29.656.282.8109.4136162.6
Bước 5: Sử dụng công cụ ‘Histogram’ trong Data Analysis.
Trong đó: Input Range: địa chỉ tuyệt đối chứa dữ liệu.
Bin Range: địa chỉ chứa bảng phân nhóm
Output options: vị trí xuất kết quả
Trang 7Cumulative Percentage: tính tần suất tích luỹ
Chart Output: xuất ra đồ thị Histogram.
Trang 93 26.6-53.2
0.0131578947
4 53.2-79.8
0.0030075187
9 79.8-106.4
0.0011278195
5
Trang 109 133-159.6
0.0003759398
5
- Bước 2: Chọn cột “Khoảng trị số khoảng cách h” và cột “Mật độ tần số”, sử
công cụ Insert để vẽ biểu đồ mật độ tần số.
0-26.6
26.6-53.
2
53.2-79.
8
79.8-106.4
106.
4-133
13
3-159.
6
0 0.01
- Theo như biểu đồ tần số tích lũy: ta có thể thấy thông số NTU của các khoảng nhỏ đến lớn đi theo chiều tăng dần Có thể thấy được sự tích lũy phần trăm ở các khoảng sau luôn lớn hơn các khoảng trước
- Theo như biểu đồ mật độ tần số: có thể thấy được mật độ tần số trong (0- 26.6) chiếm tỷ lệ cao nhất ( =0.01917293233)
Lượng nước trong 100 mẫu khảo sát thì đủ điều kiện cho tưới tiêu
Trang 11Câu 2 Vẽ biểu đồ Pie của 1 biến định tính.
Dữ liệu định tính: Theo tiêu chuẩn của Bộ Y Tế, dựa vào các chỉ tiêu sau của mẫuthí nghiệm ta có thể đánh giá chất lượng nước Bảng dưới đây thể hiện một số chỉ tiêuquan trọng ( thành phần vô cơ) trong nước theo QCVN 01:2009/BYT
*Dạng bài: Thống kê mô tả
*Công cụ giải: Công cụ vẽ Insert Pie.
*Giải quyết bài toán trên Excel:
Trang 12Bước 1: Nhập bảng số liệu:
Bước 2: Quét chọn 2 cột “Chỉ tiêu” và “ Thông số” :
Trang 13
Bước 3: Dùng chức năng Insert Pie trên menu Insert.
Asen Cadimi Crom Xianua Flo Sắt tổng Mangan(Mn) Nitrat Nitrit Natri Đồng tổng Niken Kẽm Sufnat
Trang 14Câu 3 Chọn 1 biến định lượng nào đó và thực hiện:
- Tìm các giá trị ngoại lai (outlier) nếu có và nêu đề xuất xử lý.
- Tìm các đặc trưng từ mẫu dữ liệu.
Do chất lượng nguồn nước ở Việt Nam ngày càng suy giảm trong khi nhu cầu sử dụng nước lại càng cao, do đó, để đảm bảo chất lượng nước sinh hoạt nói chung đặc biệt là nguồn nước cung cấp cho ăn uống, Bộ Y Tế đã đưa ra chỉ tiêu đánh giá,trong đó độ đục chiếm vị trí khá quan trọng Sau đây là bảng dữ liệu đã được khảo sát ở 100 điểm đo:
Từ bảng số liệu trên, hãy tìm các giá trị ngoại lai (outlier) nếu có và nêu đề xuất xử
lý Tìm các đặc trưng mẫy từ dữ liệu
Trang 15*Cơ sở lý thuyết:
Trong quá trình thu thập, phân tích dữ liệu, ta thường gặp các quan sát mà giá trịcủa nó rất khác biệt so với giá trị của các quan sát khác, đây gọi là các bất thường (hayngoại lai – Outlier)
Outlier là các giá trị cực (extreme values) so với các giá trị khác được quan sáttrong cùng một điều kiện Outlier có thể là một giá trị đơn lẻ, nhưng cũng có thể là giá trị
từ hai hay nhiều biến số
Phát hiện outlier có rất nhiều ý nghĩa và ứng dụng trong rất nhiều lĩnh vực nhưphát hiện gian lận trong giao dịch tài chính, viễn thông…; phân tích hành vi khách hàng,người tiêu dùng; phát hiện bệnh tật (các bất thường thường được quan tâm trong y học vì
có khả năng bị bệnh cao);…
Một số cách phát hiện bất thường
Có rất nhiều cách để phát hiện bất thường trong dữ liệu tùy thuộc vào dữ liệunguồn, yêu cầu phân tích của bài toán đặt ra hay kinh nghiệm của người phân tích
Dựa vào phân phối chuẩn (nếu dữ liệu tuân theo luật phân phối chuẩn):
Ta biết rằng nếu biến số X tuân theo luật phân phối chuẩn với trung bình m và độlệch chuẩn s thì 99% các giá trị của X phải nằm trong khoảng m – 3*s đến m + 3*s Do
đó, nếu có độ đục nào có giá trị nằm ngoài khoảng này thì có thể nghi ngờ là outlier
Dựa vào đồ thị (histogram, scatter, Plot box…)
Dựa vào các kỹ thuật phân cụm (clustering technique)
Dựa vào phương pháp mật độ (Density-based Approaches)
Trang 16Khi phát hiện các outlier trong dữ liệu thì xử lý như thế nào?
Có rất nhiều cách để xử lý outlier khi phát hiện, mỗi cách có ưu và nhược điểmriêng Việc chọn cách nào tùy thuộc vào yêu cầu phân tích dữ liệu của bài toán đặt ra
*Giải quyết bài toán trên Excel:
1 Tìm các giá trị ngoại lai và nêu đề xuất xử lý
Trang 17 Trong dãy data nếu số nào nằm ngoài khoảng (Lower- Upper) thì làOutlier!
Ta lấy 57.9-158.6) ( trong bảng số liệu) chính là Outlier
Bước 2: Chọn số liệu, sử dụng công cụ vẽ Insert Scatter để vẽ biểu đồ và tìm các giá trị
ngoại lai (nếu có):
Trang 180 2 4 6 8 10 12 0
Delete rows containing outlier: Xóa dòng dữ liệu chứa outlier ra khỏi dữ
liệu phân tích Việc này sẽ làm mất một số thông tin trên các cột khác nếucác cột này cần cho phân tích
Change value to mean: Các giá trị outlier sẽ được thay bằng giá trị trung
bình
Change value to null: Xóa giá trị oulier đặt lại là null (empty).
Change value to specific value: Đổi outlier thành một giá trị cụ thể.
Trang 192 Tìm các đặc trưng mẫu của dữ liệu
Trang 20Trong đó: Input Range: địa chỉ tuyệt đối chứa dữ liệu.
Output options: vị trí xuất kết quả
Confidence Level for Mean: độ tin cậy cho trung bình.
Trang 21Với mức ý nghĩa 5%, có thể coi mẫu trên phù hợp phân phối chuẩn hay không?
Cơ sở lý thuyết: Từ mẫu ta tìm được các ước lượng hợp lý cực đại của các tham số
của F(x) nếu các tham số này chưa biết Từ đó ta tính được:
p1=P(X <a1), p2=P(a1<X <a2),… , p k=P(X >a k −1)
Ta có quy tắc kiểm định như sau:
- Tìm X2α=X α2(k −r−1) từ bảng phân phối X2, ở đây là số tham số của F(x)
Đặt giả thuyết kiểm định:
GTKĐ H o: Mẫu phù hợp với phân phối Chuẩn N(a, σ2¿
GT đối H1: Mẫu không phù hợp với phân phối Chuẩn
Trang 22 Tính tiêu chuẩn kiểm định:
Trang 24Câu 5 Chọn dữ liệu 2 biến để lập bài toán kiểm định so sánh 2 trung bình tổng thể Trình bày các bước thực hiện và nhận xét kết quả.
Để đánh giá chất lượng nước của một con sông, ta có thể xét đến một tiêu chí là lượng oxy hòa tan ký hiệu là DO (đơn vị mg/l), hay có thể so sánh chất lượng nước giữa hai con sông với nhau, ta có thể so sánh lượng oxy hòa tan của chúng với nhau Để thực hiện điềunày, ta có thể tiến hành đo lường lượng oxy hòa tan của hai con sông là sông Cầu và sông Nhuệ Với mức ý nghĩa 5%, hãy cho biết mẫu nước sông nào phù hợp hơn trong việc nuôitrồng thủy sản? (giả sử DO tuân theo phân phối chuẩn)
DO của nước sông Cầu (đo lường tháng 3/2016)
Giả thiết
Trang 25Trắc nghiệm bên phải:
Nếu z<z𝛼 (hai bên) hay z𝛼/2 (một bên) Chấp nhận giả thiết H0
*Dạng bài: Kiểm định trung bình (Bài toán 2 mẫu)
*Phương pháp giải: So sánh trung bình 2 tổng thể với phương sai biết trước (n>30)
*Công cụ giải: Descriptive Statistics và z-Test: Two Sample for Means
*Giải quyết bài toán trên Excel:
Bước 1: Nhập bảng số liệu
Trang 26Bước 2: Sử dụng công cụ: ‘Descriptive Statistics’ trong Data/Data Analysis lần lượt tìm các đặc trưng mẫu của 2 mẫu phối trộn.
Trang 27Bước 3: Chọn các mục như hình:
Input: địa chỉ tuyệt đối chứa dư liệu
Output Range: vị trí xuất kết quả
Labels in first row
Apha: mức ý nghĩa 5%
Trang 28Kết quả:
Bước 4: Xác định phương sai mẫu DO sông Cầu và DO sông Nhuệ:
S1 = 7.3940S2 = 3.6011
Trang 29Bước 5: Tiếp tục sử dụng công cụ “z-Test: Two Sample for Means” trong Data/ DataAnalysis
Bước 6: Chọn các mục như hình:
Input: địa chỉ tuyệt đối chứa dư liệu
Output Range: vị trí xuất kết quả
Variable 1 Variance (known): 1.143617021
Variable 2 Variance (known): 0.199290323
Labels
Kết quả:
Trang 30Bước 7: Biện luận:
▪ Giả thiết H0: DO trung bình của mẫu nước sông Cầu và sông Nhuệ là như nhau
▪ Giả thiết H1: DO trung bình của mẫu nước sông Cầu lớn hơn so với DO trung bình củamẫu nước sông Nhuệ
▪ Miền bác bỏ: 𝑊𝛼 = (1.6449 ; +∞)
▪ z = 2.6570 ∈ 𝑊𝛼 → Bác bỏ giả thiết H0, chấp nhận giả thiết H1
▪ Kết luận: DO trung bình của mẫu nước sông Cầu lớn hơn so với DO trung bình của mẫunước sông Nhuệ Như vậy, nước của sông Cầu thích hợp để nuôi trồng thủy sản hơn sovới nước của sông Nhuệ
Trang 31Câu 6 Chọn dữ liệu cho k biến (k 3) để lập bài toán so sánh về trung bình Trình bày các bước thực hiện và nhận xét.
Để đánh giá nhanh hiện trạng chất lượng nước trong hệ thống thủy sống, người ta
đã xây dựng các trạm quan trắc dựa vào tiêu chuẩn độ pH trung bình của mỗi trạm Dướiđây là bảng số liệu chọn ngẫu nhiên 30 mẫu đo được ở mỗi trạm quan trắc Với mức ýnghĩa 5%, hãy kiểm định xem 3 trạm quan trắc ứng dụng trong việc đánh giá chất lượngnước có độ pH như nhau hay không?
Giả sử pH có phân phối chuẩn
Trang 327,59 7,28 7,4
*Cơ sở lý thuyết:
Lý thuyết phân tích phương sai 1 yếu tố
Phép phân tích phương sai là so sánh trung bình của 2 hay nhiều nhóm dựa trên các giá trị trung bình của các mẫu quan sát từ các nhóm này, và thông qua kiểm định giả thiết để kết luận về sự bằng nhau của các trung bình tổng thể này
Phương pháp phân tích phương sai 1 yếu tố
Phép phân tích phương sai được dùng trong các trắc nghiệm để so sánh các giá trị trung bình của hai hay nhiều mẫu được lấy từ các phân số Đây có thể được xem như phần
mở rộng các trắc nghiệm t hay z (so sánh hai giá trị trung bình)
Mục đích của sự phân tích phương sai một yếu tố là đánh giá sự ảnh hưởng của một yếu tố (nhân tạo hay tự nhiên) nào đó trên các giá trị quan sát, Yi(i=0,1,2,…,k)
Trang 33sai số
Bậc sai số
Tổng số bình phương Bình phương
trung bình
Giá trị thống kê Yếu tố
H 0 : μ1= μ2= .=μk⇔ “Các giá trị trung bình bằng nhau”
H 1 : μi≠ μj⇔ “Ít nhất có hai giá trị trung bình khác nhau”
Giá trị thống kê: F =
MSF MSE
Biện luận: Nếu F < Fα(k-1;N-k) → chấp nhận giả thiết H0
*Dạng bài: Kiểm định trung bình (Bài toán nhiều mẫu)
*Phương pháp giải: Phân tích phương sai 1 yếu tố.
*Điều kiện áp dụng phân tích phương sai
Trang 34+ Mẫu tuân theo phân phối chuẩn
+ Các giá trị phải được chọn một cách ngẫu nhiên
+ Phương sai các biến phải đồng nhất
*Công cụ giải: Anova: Single Factor.
*Giải quyết bài toán trên Excel:
Bước 1: Nhập bảng số liệu:
Trang 35Bước 2: Sử dụng công cụ: “Anova: Single factor” trong Data/Data Analysis.
Trang 36Bước 3: Chọn các mục như hình:
Input: địa chỉ tuyệt đối chứa dư liệu
Output Range: vị trí xuất kết quả
Labels in first row
Apha: mức ý nghĩa 5%
Kết quả
Trang 37Bước 4: Biện luận:
▪ Giả thiết H0: Độ pH trung bình của 3 vị trí quan trắc là như nhau
▪ Giả thiết H1: Tồn tại ít nhất 2 vị trí quan trắc có độ pH trung bình khác nhau
▪ Giá trị quan sát: F = 7,471087 > Giá trị ngưỡng F crit = 3.101296
→ Bác bỏ giả thiết H0, chấp nhận giả thiết H1
▪ Kết luận: Tồn tại 2 vị trí có độ pH trung bình khác nhau Ta có thể kết luận rằng, 3 vị trí
quan trắc: Cống, Đập và Cầu ứng dụng trong việc giám sát chất lượng nước trong hệthống công trình thủy có độ pH khác nhau
Trang 38Câu 7 Chọn dữ liệu cho 2 biến để lập bài toán kiểm định so sánh về sự
phân tán Trình bày các bước thực hiện và nhận xét kết quả:
Kiểm tra độ phân tán hòa tan oxy trong nước với nồng độ clorua (mg/L) khác
nhau Ta chọn ngẫu nhiên 30 mẫu của 2 nồng độ clorua là 5000mg/L và
10000mg/L với không khí khô ở áp suất 760 mmHg và chứa 20,9% oxy
+ Cơ sở lý thuyết:
*Lý thuyết kiểm định phương sai hai tổng thể:
Khi cần kiểm định hai tổng thể có biến động như nhau hay không chúng ta dùng phươngpháp kiểm định phương sai của hai tổng thể độc lập dựa trên một đại lượng F như sau:
F= s12/s22
Trong đó: s12 là phương sai của mẫu thứ nhất, mẫu này có cỡ n1
s22 là phương sai của mẫu thứ hai, mẫu này có cỡ n2
Thông thường để xác định mẫu thứ nhất và mẫu nào là mẫu thứ hai ta làm như sau, trongkhi tính đại lượng F thì giá trị phương sai lớn hơn sẽ được đặt ở tử số, và như vậy mẫutương ứng với phương sai đó là mẫu thứ nhất
Giả thiết đặt ra là kiểm định hai bên:
H0: σ12=σ22
H1: σ1≠σ2
Nếu tỉ số F rất lớn hoặc rất nhỏ ta có thể suy diễn bằng hai phương sai tổng thể khó màbằng nhau, ngược lại nếu tỉ số này gần đến 1 ta sẽ có vằng chứng ủng hộ giả thuyết H0.Như vậy tỉ lệ F lớn đến đâu thì xem như là đủ bằng chứng bác bỏ H0 và ngược lại
Nếu tổng thể lấy mẫu được giả định có phân phối bình thường thì tỉ lệ F có phân phối xácsuất gọi tên là phân phối Fisher Các giá trị tới hạn của phân phối F phụ thuộc và hai giátrị bậc tự do, bậc tự do tử số (df1 = n1 -1) gắn liền với mẫu thứ nhất và bậc tự do mẫu sốgắn liền với mẫu thứ hai (df2 = n2 -1)