8 Nguyễn Thái Khánh Hưng 1611437 L13 Kỹ thuật xây dựngBài 1: Tìm một dữ liệu định lượng A và một dữ liệu định tính B thích hợp, sử dụng các dữ liệu đó cho các yêu cầu sau: 1 Thực hiện p
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
KHOA KỸ THUẬT XÂY DỰNG
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
ĐỀ TÀI 01GVHD: NGUYỄN KIỀU DUNG NHÓM: 1
2 Nguyễn Hoàng Tùng Khương 1611624 L12 Kỹ thuật xây dựng
3 Nguyễn Hoàng Thu Ngân 1612166 L12 Kỹ thuật xây dựng
7 Nguyễn Đạt Duy (NT) 1610466 L13 Kỹ thuật xây dựng
Trang 28 Nguyễn Thái Khánh Hưng 1611437 L13 Kỹ thuật xây dựng
Bài 1: Tìm một dữ liệu định lượng (A) và một dữ liệu định tính (B) thích hợp, sử dụng
các dữ liệu đó cho các yêu cầu sau:
1) Thực hiện phương pháp phân tổ dữ liệu (A)
2) Vẽ biểu đồ histogram ( biểu đồ phân bố tần số), biểu đồ tích lũy tần số, biểu đồ
mật độ với dữ liệu (A)
3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát
với độ tin cậy 91% với dữ liệu (A)
4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị
5) Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với 1 phân bố xác suất nào
đó hay không ( lưu ý phải sử dụng các hàm thống kê trong excel)
Trang 4- Kết quả 3.419952 Suy ra chọn k=3
- Xác định trị số khoảng cách h theo công thức h =
-Nhập vào ô B7 công thức =(MAX(A2:E5)-MIN(A2:E5))/3 ta được kết quả như hình:
Trang 5Chọn chức năng Data/Data Analysis/Histogram.
- Input Range: Địa chỉ tuyệt đối chứa dữ liệu
- Bin Range: Địa chỉ chứa bảng phân nhóm
- Output options: Vị trí xuất kết quả
- Confidence Level for Mean: độ tin cậy cho trung bình
- Chọn Cumulative Percentage để tính tần suất tích lũy nếu không Excel chỉ tính tần số
Trang 6Kết quả:
1.2Vẽ biểu đồ histogram ( biểu đồ phân bố tần số), biểu đồ tích lũy tần số, biểu
đồ mật độ với dữ liệu (A)
- Quét bảng tần số
- Insert Column Chart
- Kết quả:
Trang 7 Vẽ biểu đồ tích lũy tần số:
-Quét bảng tích lũy tần số
-Chọn Insert > Column > 2-D Column
Kết quả:
Trang 9- Output options: Vị trí xuất kết quả
- Confidence Level for Mean: Độ tin cậy cho trung bình
Kết quả
Nhìn vào bảng kết quả ta biết được các đặc trưng mẫu với: -Mean: trung bình mẫu
Trang 10-Standard Deviation: độ lệch mẫu
-Sample Variance: phương sai mẫu
+Ước lượng giá trị trung bình
Để ước lượng ta cân tính
Trang 11Với bằng với giá trị của t Critical one-tail nên
Trang 121.4Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị
Trang 13Kết quả:
* Vẽ biểu đồ đứng thể hiện số lượng bao xi măng của từng hang xi măng
- Quét chọn cột số bao xi măng (C37:C42)
- Dùng chức năng Insert/Insert Column Chart/2-D Column trên menu Insert
* Kết quả:
Trang 14*Vẽ biểu đồ tròn thể hiện tỷ lệ bao xi măng của các hang
- Quét chọn cột số bao xi măng (C37:C42)
- Dùng chức năng Insert/Insert Pie/2-D trên menu Insert
Giả thuyết kiểm định H0: Mẫu phù hợp với phân phối chuẩn
Giả thuyết đối H1: Mẫu không phù hợp với phân phối chuẩn
- Tính các đặc trưng mẫu:
n =20 = 2685.55
= 125.573
Trang 15+ là ước lượng hợp lý cực đại cho a => a =2685.55
+ là ước lượng hợp lý cực đại cho => σ = 125.573
Với k = 3, r =2,suy ra k-r-1=0, nên ta không thể tính
Suy ra không tìm được miền bác bó Do đó ta không kết luận được dữ liệu A tuân
theo phân phối chuẩn
*Kiểm định A: mẫu A phù hợp với phân phối poisson hay không?
Nhìn vào bảng phân phối sác xuất trên, ta đủ cơ cở kết luận dữ liệu A không phải phân phối poisson
Bài 2: Theo dõi doanh số bán hàng ( triệu đồng/ ngày) của một cửa hàng trong 12 ngày của
tháng 4 và 12 ngày của tháng 10, người ta thu được kết quả sau:
Trang 16* Công cụ: t-test Paired Two Sample for Means
- Được dùng khi mẫu bé (N < 30), phụ thuộc, phương sai hai mẫu không bằng nhau và mỗi phần
tử khảo sát có 2 chỉ tiêu X (trước), Y (sau) khi thay đổi điều kiện thí nghiệm
- Tiêu chuẩn kiểm định: t = D´
Trang 17- Vào Data/Data Analysis/ t-test: Paired Two Sample for Means/ OK:
- Lần lượt ấn định các thông số:
+ Phạm vi dữ liệu 1 (Variable 1 Range),
+ Phạm vi dữ liệu 2 (Variable 2 Range),
+ Nhãn dữ liệu (Labels),
+ Ngưỡng tin cậy (Alpha),
+ Phạm vi đầu ra (Output Range)
Trang 18* Kết quả:
- Biện luận:
+ H0 : a1=a2: Doanh số bán hàng trong 2 tháng bằng nhau.
+ H1 : a1>a2: Doang số bán hàng trong tháng 10 giảm sút so với tháng 4.
|t|=1.2400<|t|0.03 = 2.0961 => Chấp nhận giả thuyết H0
P = 0.1204
Vậy doanh số bán hàng trong 2 tháng bằng nhau.
Gía trị P cần tìm: P = 0.1204
Trang 19Bài 3: Sau đây là số liệu về một loại báo ngày bán được ở 5 quận nội thành:
* Dạng bài: Phân tích phương sai hai yếu tố (không lặp)
- Sự phân tích này nhằm đánh giá sự ảnh hưởng của hai yếu tố trên các giá trị quan sát Y ij (i = 1,2,.…,r: yếu tố A; j = 1,2.….,c: yếu tố B)
- Gỉa thuyết:
+ H0:a1=a2=…=a r :Các giá trị trungbình bằng nhau.
+ H1: a i ≠ a j :Cóít nhất hai giátrị khác nhau.
Trang 20* Công cụ: “Anova: Two – Factor without Replication”:
* Thực hiện bài toán trên Excel:
Trang 21+ Phạm vi đầu ra (Output Range).
* Kết quả:
Trang 22- Biện luận:
+ F R=4.3055>F0.05=2.7109=¿Bác bỏ giảthuyết H0(các ngày trong tuần ) + F C=17.1624>F0.05=2.8661=¿Bác bỏ giảthuyết H0(các quận)
Vậy: - Lượng báo bán ra ở 5 quận là khác nhau.
- Lượng báo bán ra chịu tác động là các ngày trong tuần.
Trang 23Bài 4: Ba loại vật liệu được thử sức bền dưới ảnh hưởng của việc thay đổi nhiệt độ vô
* Dạng bài: Kiểm định giả thuyết về tỉ lệ
* Phương pháp giải: Áp dụng kiểm định chi bình phương ❑2.
* Công cụ: Dùng hàm ‘’CHITEST’’.
* Cơ sở lý thuyết:
- Đối với một thí nghiệm có hai kết quả (binomial experiment) – thí dụ, đối với một thuốcđược kê đơn: có hay không - bạn thường so sánh hai tỉ số với nhau (thực nghiệm với lí thuyết hay thực nghiệm với thực nghiệm) Song đối với một thí nghiệm có nhiều kết quả (multinomial experiment)-thí dụ, bác sĩ đánh giá tình trạng của các bệnh nhân được điều trị bởi thuốc trong một khoảng thời gian - bạn cần so sánh nhiều tỉ số Trắc nghiệm “khi” bình phương (❑2) cho phép bạn so sánh không những hai mà còn nhiều tỉ số (hay tỉ lệ hoặc xác suất) một cách tiện lợi ❑2là phân phối về xác suất, không có tính đối xứng và chỉ có giá trị ≥ 0 Giả sử bạn có một công trình nghiên cứu với N thử nghiệm độc lập, mỗithử nghiệm có k kết quả và mỗi kết quả mang một các xác suất thực nghiệm là P i(i = 1, 2,
…k) Nếu gọi P i , olà các giá trị lí thuyết tương ứng với P i thì các tần số lí thuyết sẽ là E i=
Trang 24NP i ,0 Điều kiện để áp dụng trắc nghiệm ❑2 một cách thành công là các tần số lí thuyết E i
- Biện luận:
+ Nếu:❑2>¿❑a2 => Bác bỏ giả thuyết H0( DF=k−l )
Trong chương trình MS-EXCEL có hàm CHITEST có thể tính:
Trong đó: + O ij: Tần số thực nghiệm của ô thuộc hàng i và cột j;
+ E ij: Tần số lý thuyết của ô thuộc hàng i và cột j;
Trang 25* Thực hiện bài toán trên Excel:
- Nhập số liệu và tính các thông số tổng hàng, tổng cột:
- Tính các tần số lý thuyết: TSLT = (tổng hàng * tổng cột)/(tổng cộng)
Trang 26- Dùng hàm CHITEST để tính xác suất P(X > ❑2):
- Kết quả và biện luận:
+ Gỉa thuyết:
H0: có mối liên hệ phụ thuộc giữa loại vật liệu với tác động thay đổi nhiệt độ
H1: Không có mối liên hệ phụ thuộc giữa loại vật liệu với tác động thay đổi nhiệt độ + Kết quả:
P(X > ❑2) = 0.0266 > α = 0.02 => Bác bỏ giả thuyết H1 , chấp nhận giả thuyết H0.
Vậy: có mối liên hệ phụ thuộc giữa loại vật liệu với tác động thay đổi nhiệt độ.
Trang 27Bài 5:
a)Tìm một dữ liệu ngẫu nhiên 2 chiều (X, Y) có kích thước n >10 để sử dụng mô hình hồi quy tuyến tính đơn Thực hiện các yêu cầu:
1) Tìm hệ số tương quan giữa X,Y
2) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không? Hãy ước lượng đường hồi quy tuyến tính Y theo X và biểu thị bằng hình vẽ
3) Tìm sai số chuẩn của ước lượng
b) Tìm một dữ liệu ngẫu nhiên k chiều (k >2) để sử dụng mô hình hồi quy tuyến tính
đa biến Tìm các hệ số hồi quy tuyến tính mẫu và kết luận về sự thích hợp
Bài làm
Cơ sở lý thuyết
1.Tìm hệ số tương quan giữa X và Y
Trang 282) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không ?
Giả thiết H0: X và Y không có tương quan tuyến tính:
2
21
r n T
Hồi quy đơn tuyến tính:
a) Bảng số liệu về mức độ ảnh hưởng của thời gian trộn đến cường độ chịu nén của
bê tông xi măng (với độ tin cậy là 5%) :
Trang 291) Tìm hệ số tương quan giữa Xvà Y.
Thực hiện trên excel:
Nhập số liệu vào bảng tính
Chọn chức năng Data/Data Analysis/Correlation:
Trang 30 Kết quả:
Với kết quả thì ta có hệ số tương quan R = -0.80164
Chứng tỏ thời gian và mức cường đọ chịu lực nén có quan hệ khá chặt chẽ và đây là tươngquan nghịch
2) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không? Hãy ước lượng đường hồi quy tuyến tính X và Y.
* Thực hiện trên Excel:
- Nhập dữ liệu: (dữ liệu nhất thiết phải nhập theo cột)
Trang 31- Lần lượt thực hiện các bước:
+ Nhấn lệnh Tools và lệnh Data Analysis
+ Chọn chương trình Regression trong hộp thoại Data Analysis rồi nhấp OK + Trong hộp thoại Regression lần lượt ấn định các chi tiết:
- Phạm vi của biến số Y (Input Y Range)
- Phạm vị của biến số X (Input X Range)
- Nhãn dữ liệu (Labels)
- Mức tin cậy (Confidence Level0
- Tọa độ đầu ra (Output Range)
- Đường hồi quy (Line Fit Plots)
- Biểu thức sai số (Residuals Plots)
Trang 32 phương trình hồi quy này thích hợp.
Vậy quan hệ giữa X và Y được coi là tuyến tính.
Trang 33- Đường hồi quy tuyến tính giữa X và Y:
3) Sai số chuẩn của ước lượng:
- Đối với biến tự do: SE = 1,9464
- Đối với biến X: SE= 0,0179
c) Mô hình hồi quy tuyến tính đa biến:
Bảng phân tích tính hàn của thép kết cấu:
Trang 340.16 1.65 0.39Hãy cho biết yếu tố %C và %Mn có mối quan hệ tuyến tính với %CE hay không? Nếu có hãy vẽ đường biểu diễn sự quan hệ tuyến tính đó Gỉa thuyết với độ tin cậy là 95%.
Bài làm:
- Nhập số liệu:
- Thực hiện các bước tương tự ở trên trong hộp thoại Regression:
Trang 35- Kết quả:
Trang 36- Phương trình hồi quy: Y X1, X2=f¿) = 0,09 – 0,43X1+ 0,26 X2
- Biện luận:
+ P v2 = 0.7817 > α=0,05 hay t0 < t0,05 => Chấp nhận giả thuyết H0
+ P v1 = 0,4886 > α=0,05 hay t1 < t0,05 => Chấp nhận giả thuyết H0
+ P v2 = 0,2085 > α=0,05 hay t2 < t0,05 => Chấp nhận giả thuyết H0
+ F s = 0,3846 > α=0,05 hay F < F0,05 => Chấp nhận giả thuyết H0
Phương trình đồng quy tuyến tính trên không tồn tại
Vậy yếu tố %C và %Mn không quan hệ đồng quy tuyến tính với yếu tố %CE.
- Đồ thị biểu diễn sự không phụ thuộc của %C và %Mn với %CE.
Trang 37Bài 6: Hàm lượng carbon trong thép SD390 của 2 hãng thép được trình bày trong bảng sau:
Trang 39σ2 là phương sai của hàm lượng carbon có trong chai nhựa SD390 của thép VNSTEELGiả thiết kiểm định Ho : σ1 = σ22
Giả thiết đối H1 : σ1 ≠ σ2
1 Dùng Excel:
a Nhập dữ liệu vào bảng tính
b Nhấp lần lượt đơn lệnh Tools và lệnh Data Analysis
c Chọn Anova: Singel Factor
d Chọn các mục như hình:
Trang 40Source of Variation SS df MS F P-value F crit
Between Groups 0.0002 1 0.0002 0.128342 0.732424 5.987378 Within Groups 0.00935 6 0.001558
Total 0.00955 7
F=0.1283< Fk-1;n-k;1-a = 5,987378 nên chưa bác bỏ được Ho
Vậy hàm lượng carbon của hai hang thép là như nhau.
2 Giải trực tiếp bằng công thức:
Do Fqs không thuộc W nên chưa bác bỏ được Ho
Vậy hàm lượng carbon của thép SD390 của hai hãng là bằng nhau