Bài 1: Trình bài lại ví dụ 3.4 trang 207 và ví dụ 4.2 trang 216 sách bàitập Xác suất thống kê 2012 Nguyễn Đình Huy Ví dụ 3.4: Hiệu suất phần trăm % của một phản ứng hóa học được nghiên c
Trang 1BÁO CÁO BÀI TẬP LỚN MÔN XÁC SUẤT THỐNG KÊ
HỌC KỲ I 2012-2013
Mục lục:
Bài 1:
Ví dụ 3.4: 02
Ví dụ 4.2: 04
Bài 2: 12
Bài 3: 15
Bài 4: 17
Bài 5: 21
Trang 2Bài 1: Trình bài lại ví dụ 3.4 trang 207 và ví dụ 4.2 trang 216 sách bài
tập Xác suất thống kê 2012 (Nguyễn Đình Huy)
Ví dụ 3.4: Hiệu suất phần trăm (%) của một phản ứng hóa học được nghiên cứu theo 3 yếu tố:
pH (A), nhiệt độ (B) và chất xúc tác (C) được trình bày trong bảng sau:
Ta tiến hành phân tích phương sai ba yếu tố trên và dựa trên bảng ANOVA để kết luận ảnh
hưởng của các yếu tố đến hiệu suất của phản ứng
(hàng) r - 1 SSR =
MSR = SSR / (r
-1) FR = MSR / SSE
Trang 3Giải toán trên Excel:
Nhập dữ liệu vào bảng như sau:
Trang 4Dùng con trỏ kéo kí hiệu tự điền từ ô M7 đến ô M9
Kết quả và biện luận:
FR = 3,1 < F0.05(3.6) =4,76 => Chấp nhận giả thiết H0 (pH)
Fc = 11,95 > F0.05(3.6) =4,76 => Bác bỏ giả thiết H0 (Nhiệt độ)
Vậy chỉ có nhiệt độ và chất xúc tác gây ảnh hưởng tới hiệu suất.
Ví dụ 4.2: Người ta dung ba mức nhiệt độ gồm 105, 120 và 135 o C kết hợp với ba khoảng thời gian là 15, 30 và 60 phút để thực hiện một phản ứng tổng hợp Các hiệu suất của phản ứng (%) được trình bày trong bảng sau đây:
Trang 5Bài làm:
Ta giả thiết:
H 0: Phương trình hồi quy không thích hợp
H 1: Phương trình hồi quy thích hợp
Ta tìm phương trình hồi quy tính tuyến đa tham số để chỉ ra sự phụ thuộc hoặc không phụ thuộc giữa yếu tố thời gian (X1) và nhiệt độ (X2) với hiếu suất phản ứng tổng hợp (Y)
sai số Bậc tự do Tổng số bình phương Bình phương trung bình Giá trị thống kê
Sai số N - k - 1 SSE MSE = SSE / (N - k -1)
Trang 6Giá trị R 2 được hiệu chỉnh (Adjusted R Square)
sẽ trở nên âm hay không xác định nếu R 2 hay N nhỏ
Trang 7Sử dụng Regression: Data -> Data Analysis
Trong cửa sổ Data Analysis chọn Regression:
Các thông số:
- Input Y Range: Phạm vi biến số Y
- Input X Range: Phạm vi biến số X
- Labels: Dữ liệu bao gồm nhãn
- Confidence Level: Mức tin cậy (chọn 95%)
- Output options: Chọn New Worksheet Ply (Xuất kết quả ở sheet Thời gian)
Trang 9t1 = 1.3802 < t0.05 = 2.365 hay PV = 0.2100 > α = 0.05
Nên chấp nhận giả thiết H0
F = 1.9049 < = 5.590 (tra bảng VIII với n1 = 1 và n2 = 7) hay = 0.2100 > α = 0.05
Nên chấp nhận giả thiết H0
Vậy phương trình hồi quy trên không có ý nghĩa thống kê
Kết luận: Yếu tố thời gian không có liên quan tính tuyến với hiệu suất của phản ứng tổng
hợp
Các thông số ở cửa sổ Regression như Hồi quy theo X 1 , trừ Input X Range là
Trang 10F = 22.6309 > = 5.590 hay = 0.0021 < α = 0.05
Nên bác bỏ giả thiết H0
Vậy phương trình hồi quy trên có ý nghĩa thống kê
Kết luận: Yếu tố nhiệt độ có liên quan tính tuyến với hiệu suất của phản ứng tổng hợp.
Các thông số ở cửa sổ Regression như Hồi quy theo X 1 , trừ Input X Range là
Nên bác bỏ giả thiết H0
F = 131.3921 > F0.05 = 5.140 (tra bảng VII với n1 = 2 và n2 = 6) hay FS = 0.0021 < α = 0.05
Trang 11 Nên bác bỏ giả thiết H0.
Vậy phương trình hồi quy trên có ý nghĩa thống kê
Kết luận: Hiệu suất phản ứng có liên quan tính tuyến với cả hai yếu tố là
thời gian và nhiệt độ.
Dữ liệu với hàm hồi quy Y = -12.7000 + 0.0445X 1 + 0.1286X 2:
Vẽ biểu đồ: chọn ô C2, vào Insert -> Scatter -> Scatter with only Maker
Sự tính tuyến của phương trình hồi quy Y X1, X2 = -12.7000 + 0.0445X 1 + 0.1286X 2 có thể được trình bày trên biểu đồ phân tán:
Trang 12Dự đoán hiệu suất của phản ứng bằng phương trình hồi quy tại nhiệt thời gian (X1) 50 phút, nhiệt độ (X2) 115oC bằng phương trình:
H=-12.7+0.0445*50+0.1286*115=4.310873016
Vậy: Hiệu suất dự đoán của phản ứng tại thời gian (X1) 50 phút và nhiệt độ (X2) 1150C là 4.310873016
Bài 2: Một nghiên cứu được tiến hành ở thành phố công nghiệp X để xác định tỷ lệ
những người đi làm bằng xe máy, xe đạp và buýt Việc điều tra được tiến hành trên hai nhóm Kết quả như sau:
Bài làm:
Trang 13O i - các tần số thực nghiệm (observed frequency)
E i - các tần số lý thuyết (expected frequency)
Biện luận:
Nếu => bác bỏ giả thiết H0
Giá trị tính theo biểu thức:
O i - các tần số thực nghiệm của ô thuộc hàng i cột j
E i - các tần số lý thuyết của ô thuộc hàng i cột j, r là số hàng và c là số cột
Xác xuất với bậc tự do DF = (r - 1)(c - 1); trong đó r là số hàng và c là số cột trong bảng VI
Nếu => Chấp nhận giả thiết H0 và ngược lại
Giải toán trên Excel:
Nhập giá trị vào bảng tính:
Tính các tổng:
Trang 15Kết luận:
Cơ cấu sử dụng các phương tiện giao thông đi làm trong 2 nhóm công nhân nam và nữ khác nhau.
Trang 16Bài 3: Một cuộc điều tra xã hội học được tiến hành ở 5 thành phố A, B,
C, D, E yêu cầu những người được hỏi diễn tả mức độ thỏa mãn của mình đối với thành phối mà họ đang sống Kết quả được cho như sau:
Thành phố Mức độ thỏa mãn
Rất thỏa mãn Tương đối Không A
B C D E
220 130 84 156 122
121 207 54 95 164
63 75 24 43 73
Với mức ý nghĩa = 3%, kiểm định xem mức độ thỏa mãn cuộc sống có phân bố giống nhau trong 5 thành phố trên hay không?
Bài làm:
Giả thiết
H0 : Mức độ thỏa mãn cuộc sống có phân bố giống nhau trong 5 thành phố
Dạng bài: kiểm tra tính độc lập
Trang 17 Tổng hàng
Chọn E3 và nhập biểu thức =SUM(B3:D3)Dùng con trỏ kéo nút tự điền từ E3 đến E8
Tổng cột
Chọn B8 và nhập biểu thức =SUM(B3:B7)Dùng con trỏ tự kéo nút tự điền từ B8 đến D8
Tính các tần số lí thuyết
Tần số lí thuyết=(tổng hàng*tổng cột/tổng cộng)Chọn ô B10 và nhập biểu thức =E$3*$B8/$E$8Dùng con trỏ tự kéo nút tự điền từ B10 đến D14
Trang 19Kết luận:
Bài 4: Sau đây là số liệu về số lượng một loại báo ngày bán được ở 5 quận nội thành:
Thứ haiThứ baThứ tưThứ nămThứ sáuThứ bảy
222125242830
181825241922
222225181528
181819202225
181920222525
Lượng báo bán được ở 5 quận có khác nhau thực sự không? Chọn = 2% Lượng báo bán ra có chịu tác động của các yếu tố ngày trong tuần không?
Bài làm:
Cơ sở lí thuyết:
Phân tích phương sai hai yếu tố không lặp:
Sự phân tích này nhằm đánh giá sự ảnh hưởng của hai yếu tố trên các giá
Tổng số bình phương
Bình phương trung bình
Giá trị thống kê
Trang 20 “Các giá trị trung bình bằng nhau”Các giá trị trung bình bằng nhau”
“Các giá trị trung bình bằng nhau”Ít nhất có hai giá trị trung bình khác nhau”
Trang 21Áp dụng “Anova: Two-Factor Without Replication”
Vào Data -> Data Analysis Chọn mục Anova: Two-Factor Without Replication Chọn OK.
Trong hộp thoại Anova: Two-Factor Without Replication lần lượt ấn định các chi tiết:
Phạm vi đầu vào (Input Range): $A$2:$F$8
Nhãn dữ liệu (Labels in First Row/Column)
Ngưỡng tin cậy (Alpha): 0.02 (mức ý nghĩa = 2%)
Nhấn OK Ta được bảng sau:
Trang 22Kết quả và biện luận:
→ Vậy lượng báo bán ra có sự khác nhau theo thứ.
FC = 2,4748< F0.02 = 3,7313=> chấp nhận giả thiết H0 (quận)
→ Vậy lượng báo bán ra theo quận không có sự khác nhau.
Trang 23Bài 5: Theo dõi ngẫu nhiên giá thuê nhà tại 5 thành phố (với điều kiện thuê nhà
như nhau) thu được các số liệu sau:
Nhận xét: Đây là bài toán phân tích phương sai một yếu tố.
Giả thiết H 0 : không có sự khác biệt về giá thuê nhà ở 5 thành phố.
Cơ sở lí thuyết:
- Phân tích phương sai một yếu tố
- Sự phân tích này nhằm đánh giá sự ảnh hưởng của một yếu tố trên các giá trị quan sát Yi (i=1,2,…,k)
MSF =
MSB =
=
Trang 24Tổng cộng ( rc – 1) SST =
Giả thuyết:
“Các giá trị trung bình bằng nhau”Các giá trị trung bình bằng nhau”
“Các giá trị trung bình bằng nhau”Ít nhất có hai giá trị trung bình khác nhau”
Giá trị thống kê:
Biện luận:
Nếu => Chấp nhận giả thiết H0
Giải toán trên Excel:
Nhập bảng số liệu như hình dưới:
Vào Data /Data analysis, chọn Anova: Single Factor rồi bấm OK
Trên màng hình sẽ hiện lên hộp thoại của Anova: Single Factor
Ta nhập các thông số như hình dưới
Phạm vi của biến số Y(Input Range): ta kéo chuột từ ô A1 tới ô I5
Alpha: 0.05
Group by: Rows
Xuất kết quả (Output options): kích vào New Worksheet Ply
Trang 25Ta được kết quả như sau:
Kết Quả Và Biện Luận
P-Value = 6.46E-10 < Alpha=0.05
F=28.0899> F0.05 = 2.6787
Suy ra: Bác bỏ giả thuyết Ho
Vậy có sự khác biệt về giá thuê nhà giữa 5 thành phố