Bài 1a1 Đề bài Trình bày ví dụ 3.4 trang 207 sách BT XSTK 2012N.Đ.Huy Hiệu suất phần trăm % của một phản ứng hóa học được nghiên cứu theo ba yếu tố: pH A, nhiệt độ B và chất xúc tác C đư
Trang 2KHOA KỸ THUẬT XÂY DỰNG MÔN XÁC SUẤT THỐNG KÊ -o0o -
BÁO CÁO BÀI TẬP LỚN
Trang 3Lời nói đầu
Thân chào Thầy cô và các bạn sinh viên!
Đây là quyển báo cáo Bài tập lớn do Nhóm 10 thực hiện.
Nội dung gồm 5 bài dưới sự hướng dẫn của thầy PGS.TS Nguyễn Đình Huy.
Báo cáo gồm 5 dạng:
+ Bài 1: Câu a) Kiểm định giá trị trung bình Trang 2 Câu b) Phân tích tương quan và hồi quy tuyến tính Trang 6 + Bài 2: Phân tích tương quan và hồi quy tuyến tính Trang 14 + Bài 3: Kiểm định so sánh 2 tỷ lệ Trang 19 + Bài 4: Kiểm định tính độc lập Trang 23 Trang 29
Nhóm chúng em đã cố gắng trình bày nổi bật ý chính và cụ thể để bạn đọc có thể dễ dàng hiểu rõ và đánh giá
Thay mặt cả nhóm, Chúng em gửi lời cảm ơn chân thành nhất đến thầy
PGS.TS Nguyễn Đình Huy đã tận tình hướng dẫn và dạy bảo chúng em trong
học kì năm học 2015 này.
Chúng em mến chúc sức khỏe thầy!
Trang 4Bài 1a
1 Đề bài
Trình bày ví dụ 3.4 trang 207 sách BT XSTK 2012(N.Đ.Huy)
Hiệu suất phần trăm (%) của một phản ứng hóa học được nghiên cứu theo ba yếu tố:
pH (A), nhiệt độ (B) và chất xúc tác (C) được trình bày trong bảng sau
` 2 Yêu cầu Hãy đánh giá về ảnh hưởng của các yếu tố trên đến hiệu suất phản ứng?
3 Dạng bài: Kiểm định giá trị trung bình;
Cơ sở lý thuyết.
Phương pháp giải: Phân tích phương sai 3 yếu tố (A, B, C)
Sự phân tích này được dùng để đánh giá về sự ảnh hưởng của ba yếu tố trên các giá trị
quan sát G (i = 1, 2 r: yếu tố A; j = 1, 2 r: yếu tố B: k = 1, 2 r: yếu tố C).
Trang 5Yếu tố
A
Yếu tố B
T r
T
2
2
H0: μ1 = μ2 = = μk ↔ Các giá trị trung bình bằng nhau
H1: μi¿ μj ↔ Có ít nhất hai giá trị trung bình khác nhau
Giá trị thống kê: FR, FC, F
Biện luận:
Nếu FR< Fα[r-1,(r-1)(r-2)] → Chấp nhận H0 đối với yếu tố A
Nếu FC < Fα[r-1,(r-1)(r-2)] → Chấp nhận H0 đối với yếu tố B
Nếu F < Fα[r-1,(r-1)(r-2)] → Chấp nhận H0 đối với yếu tố C
Trang 6Chọn ô B7 nhập vào biểu thức=SUM(B2:E2)
Chọn ô C7 nhập vào biểu thức=SUM(B3:E3)
Chọn ô D7 nhập vào biểu thức=SUM(B4:E4)
Chọn ô E7 nhập vào biểu thức=SUM(B5:E5)
+Tính các giá trị T.j
Chọn ô B8 nhập vào biểu thức=SUM(B2:B5)
Dùng con trỏ kéo kí hiệu tự điền từ ô B8 đến ô E8
+Tính các giá trị T k
Chọn ô B9 nhập vào biểu thức=SUM(B2,C5,D4,E3)
Chọn ô C9 nhập vào biểu thức=SUM(B3,C2,D5,E4)
Chọn ô D9 nhập vào biểu thức=SUM(B4,C3,D2,E5)
Chọn ô E9 nhập vào biểu thức=SUM(B5,C4,D3,E2)
+Tính giá trị T…
Chọn ô B10 nhập vào biểu thức =SUM(B2:E5)
+ Tính các giá trị SUMSQTi , SUMSQT.j., SUMSQT k, SQT… SUMSOYijk
Chọn ô G7 nhập vào biểu thức=SUMSQ(B7:E7)
Dùng con trỏ kéo kí hiệu tự điền từ ô G7 đến ô G9
Trang 7Chọn ô G11 nhập vào biểu thức=SUMSQ(B2:E5)
+ Tính các giá trị SSR, SSC, SSF, SST và SSE
Các giá trị SSR, SSC, SSF
Chọn ô I7 nhập vào biểu thức =G7/4-39601/POWER(4,2)
Dùng con trỏ kéo kí hiệu tự điền từ ô I7 đến ô I9
Chọn ô K7 nhập vào biểu thức =I7/(4-1)
Dùng con trỏ kéo kí hiệu tự điền từ ô K7 đến ô K9
Trang 9ứng (%) được trình bày trong bảng sau:
Thời gian (phút) Nhiệt độ (°C) Hiệu suất (%)
2 Yêu cầu Hãy cho biết yếu tố nhiệt độ và thời gian/hoặc yếu tố thời gian có liên quan
tuyến tính với hiệu suất của phản ứng tổng hợp?
Nếu có thì điều kiện nhiệt độ 115°C trong vòng 50 phút thì hiệu suất phản ứng sẽ là
bao nhiêu?
3 Dạng bài: Phân tích tương quan và hồi quy tuyến tính.
Cơ sở lý thuyết.
Phương pháp giải :Hồi quy tuyến tính đa tham số
Trong phương trình hồi quy tuyến tính đa tham số, biến số phụ thuộc Y có liên quan đến k
biến số độc lập Xi (i=1,2, ,k) thay vì chỉ có một như trong hồi quy tuyến tính đơn giản
Phương trình tổng quát
Ŷx0,x1, ,xk = B0 + B1X1 + + BkXk
Trang 10MSR MSE
MSE =
MSR MSE
H0: βi = 0 ↔ Các hệ số hồi quy không có ý nghĩa
H1: βi¿ 0 ↔ Có ít nhất vài hệ số hồi quy có ý nghĩa.
t < (N-k-1) → Chấp nhận H0
Trắc nghiệm F
H0: βi = 0 ↔ Phương trình hồi quy không thích hợp
H1: βi¿ 0 ↔ Phương trình hồi quy thích hợp với ít nhất vài hệ số Bi
F <Fα(1,N-k-1) → Chấp nhận H0
Trang 11 Bài làm.
Nhập dữ liệu vào bảng tính
Dữ liệu nhất thiết phải được nhập theo cột.
Áp dụng Regression
Nhấn lần lượt đơn lệnh Tools và lệnh Data Analysis
Chọn chương trình Regressiontrong hộp thoại Data Analysis rồi nhấp OK
Trong hộp thoại Regression, lần lượt ấn định các chi tiết:
Phạm vi của biến số Y (input Y range)
Phạm vi của biến số X (input X range)
Nhãn dữ liệu(Labels)
Mức tin cậy(Confidence level)
Tọa độ đầu ra(Output range)
Đường hồi quy (Line Fit Plots),…
Trang 12Các giá trị đầu ra cho bảng sau:
Phương trình hồi quy: Ŷx 1 =f(X 1 )
Ŷx 1 =2.73+0.04X 1 (R2=0.21, S=1.81)
t 0 = 2.129 < t 0.05 = 2.365 (hay P v 2 =0.071> α=0.05) =>Chấp nhận giả thiết H 0
t 1 = 1.38 < t 0.05 = 2.365 (hay P v =0.209> α=0.05) =>Chấp nhận giả thiết H 0
F= 1.95 < F 0.05 = 5.590 (hay F s =0.209 > α=0.05) =>Chấp nhận giả thiết H 0
Vậy cả hai hệ số 2.73(B0) và 0.04(B1) của phương trình hồi quy Ŷx 1 =2.73+0.04X 1
đều không có ý nghĩa thống kê Nói cách khác phương trình hồi quy này không thích hợp.
Kết luận 1: Yếu tố Thời gian không có liên quan tuyến tính với hiệu suất của phản ứng tổng hợp.
Trang 13Phương trình hồi quy : Ŷx2 =f(X 2 )
Ŷx 2 = -11.141 +0.129X 2(R2=0.76, S=0.99)
t 0 =3.418> t 0.05 =2.365(hay P v =0.011>α=0.05) =>Bác bỏ giả thiết H 0
t 1 = 4.757>t 0.05 =2.365(hay P v =0.00206<α=0.05) =>Bác bỏ giả thiết H 0
F=22.631>F=5.590(hay F s =0.00206<α=0.05) =>Bác bỏ giả thiết H 0
Vậy cả hai hệ số -11.141 (B0) và 0.129 (B1) của phương trình hồi quy Ŷx 2 =-11.141 +0.129X 2
đều có ý nghĩa thống kê.Nói cách khác phương trình hồi quy này thích hợp.
Kết luận 2: Yếu tố nhiệt độ có liên quan tuyến tính với hiệu suất của phản ứng tổng hợp.
Trang 14Phương trình hồi quy: Ŷx 1 , x 2 =f(X 1 , X 2 )
Ŷx 1 , x 2 =-12.70+0.04X 1 +0.13X 2 (R2=0.97; S=0.33)
t 0 =11.528 > t 0.05 =2.365 (hay P v =2.260*10 -5 >α=0.05) => Bác bỏ giả thiết H 0
t 1 = 7.583 > t 0.05 =2.365 (hay P v =0.00027<α=0.05) => Bác bỏ giả thiết H 0
t 2 = 14.328 > t 0.05 =2.365 (hay P v =7.233*10 -6 <α=0.05) => Bác bỏ giả thiết H 0
F=131.392 > F=5.140 (hay F s =1.112*10 -5 <α=0.05) => Bác bỏ giả thiết H 0
Vậy cả hai hệ số -12.70 (B0), 0.04(B1)và 0.13(B1)của phương trình hồi quy
Ŷx 1 ,x 2 =-12.7 +0.04X 1 +0.13X 2 đều có ý nghĩa thống kê. Nói cách khác, phương trình hồi quy
này thích hợp
Kết luận 3: Hiệu suất của phản ứng tổng hợp có liên quan tuyến tính với cả hai yếu tố là thời gian và nhiệt độ
Trang 15Sự tuyến tính của phương trình Ŷx 1 , x 2 =-12.70+0.04X 1 +0.13X 2 Có thể được trình bày trong
biểu đồ phân tán (scatterplots):
Trang 16Dự đoán hiệu suất bằng phương trình hồi quy
Y=-12.70+0.04X 1 +0.13X 2
Ta chọn một ô,ví dụ như:
C21,sau đó nhập hàm =B17+B18*50+B19*115và được kết quả như sau:
Ghi chú: B17 tọa độ của B0 ,B18 tọa độ của B1, B19 tọa độ của B2, 50 là giá trị của X1 thời gian) và 115 là giá trị của X 2 (nhiệt độ)
Vậy hiệu suất phản ứng theo dự đoán ở 115°C trong vòng 50 phút là 4.3109%
Trang 17 Tìm đường hồi quy của Y đối với X.
Tính sai số tiêu chuẩn của đường hồi quy
Tính tỷ số F để kiểm định sự đúng đắn của giả thiết: Có hồi quy tuyến tính của Y theo X.
3 Dạng bài
Phân tích tương quan và hồi quy tuyến tính.
Cơ sở lý thuyết
Phương pháp giải :Phân tích hồi quy tuyến tính
Phương trình hồi quy tuyến tính:
; ; Kiểm định hệ số a, b:
Giả thuyết Ho: Hệ số quy hồi không có ý nghĩa (= 0)
H1: Hệ số hồi quy có ý nghĩa (≠ 0)
Trắc nghiệm chấp nhận Ho
Kiểm định phương trình hồi quy:
Giả thuyết Ho: “Phương trình hồi quy tuyến tính không phù hợp”
H1: “Phương trình hồi quy tuyến tính phù hợp”
Trang 19 Bài làm.
Phần mềm sử dụng: Microsoft Excel
Làm bằng Excel, ta có các bước thực hiện:
Bước 1 : Nhâp bảng số liệu
Bước 2: Chọn Data/Data Analysis/ Regression như trong hình:
Nhập dữ li
Nhập số liệu vào như trong hình:
Input Y Range : khoảng dữ liệu của Y
Trang 20Confidence Level : mức ý nghĩa
Labels : Nhãn dữ liệu
Output Range : Khoảng dữ liệu xuất ra
: Sau khi nhập đủ các thông số, ta có được bảng sau:
Trang 21Bước 3 : Kết luận:
a) Đường quy hồi tuyến tính của Y đối với X là:
Y= 1.547892 X- 1.73948
b) Sai số tiêu chuẩn của đường hồi quy.
Sai số tiêu chuẩn của đường hồi quy là:
= 0.28965
Trang 22c) Tỷ số F = 12.6267
Với mức ý nghĩa a=0.05,
Ta thấy F=12.6367 > 5.12 (bảng Fisher [1, 9])
Pv=0.006169 < 0.05 Bác bỏ giả thiết Ho
Vậy cả hai hệ số -1.73948(Bo) và 1.547892(B1) của phương trình hồi quy
Y= 1.547892 X- 1.73948 có ý nghĩa Nói một cách khác, phương trình hồi quy này
thích hợp
Kết luận: Y có liên quan tuyến tính với X
Trang 23- các tần số thực nghiệm (observed frequency)
- các tần số lý thuyết (expected frequency)
Biện luận
Nếu => bác bỏ giả thiết H0 (DF=k-1)
Trong chương trình MS-EXCEL có hàm số CHITESST có thể tính:
- Giá trị thep biểu thức:
- các tần số thực nghiệm của ô thuộc hàng i và cột j
- các tần số lý thuyết của ô thuộc hàng I với cột j; r – số hàng; c – số cột
- Xác suất với bậc tự do DF=(r-1)(c-1); trong đó: r là số hàng và c là số cột trong bảng ngẫu nhiên (contingency table)
Trang 24Nếu => chấp nhận giả thiết H0 và ngược lại.
Trang 25 Bài làm
Tính bằng excel
Bước 1: Lập giả thiết H 0 : Phân bố thu nhập giữa hai nhóm tuổi này trong số các công
nhân lành nghề là như nhau
Nhập bảng số liệu
Bước 2: Tính tổng hàng và tổng cột.
Đặt con trỏ tại ô B11 rồi giữ chuột kéo đến ô H13
Sau đó nhấn nút trong Tab Home
Trang 26Sau đó ta kéo chọn từ C6:I7 , sau đó ta ấn tổ hợp phím F2+ctrl+enter.
Ta có bảng tần số lý thuyết
Bước 4: Dùng hàm CHITEST để tính.
Nhấn vào Tab Fomulas chọn Insert Function chọn CHITEST rồi nhấn OK
Trang 27Lúc đó sẽ xuất hiện hộp thoại Function Arguments
Nhập các giá trị tần số quan sát vào mục Actual_range
Rồi nhập các giá trị tần số quan sát vào mục Expected_range Nhấn OK
Trang 28Kết quả Ta được
P = 0.511582
Vì giá trị P > α = 2% => Chấp nhận giả thuyết H0
Kết luận: Phân bố thu nhập giữa hai nhóm tuổi này trong số các công nhân lành nghề là
như nhau
Trang 29Bài 4
1 Đề bài.
Một nhóm gồm 105 nhà doanh nghiệp Mỹ được phân loại căn cứ theo thu nhập hằng năm và
tuổi thọ của họ Kết quả thu được như hình sau:
Tuổi
Thu nhậpDưới 100 000 $ đến 399 599 $Từ 100 000 $ Trên 400 000 $
Từ 40 đến
2 Yêu cầu: Với mức ý nghĩa 1%, kiểm định giả thiết cho rằng tuổi và mức thu nhập có
quan hệ với nhau hay không?
3 Dạng bài : Kiểm định tính độc lập;
Cơ sở lí thuyết
Phương pháp giải :kiểm tra tính độc lập
Ta sẽ xét bài toán kiểm tra tính độc lập của hai dấu hiệu Trước hết, chúng ta xét bài toánkiểm định tính độc lập của dấu hiệu định tính A và B
Ta chia dấu hiệu A ra làm r mức độ A1, A2, , Ar, và chia đặc tính B làm k mức độ B1,B2, , Bk Xét một mẫu ngẫu nhiên gồm n cá thể Mỗi cá thể sẽ mang dấu hiệu A ở mức Ainào đó và mang dấu hiệu B ở mức Bj nào đó Giả sử nij là số cá thể có các dấu hiệu Ai và
Bj Các số liệu nij được ghi trong bảng sau đây gọi là bảng liên hợp các dấu hiệu(Contingency Table)
Trong đó ký hiệu pij là xác suất để một cá thể chọn ngẫu nhiên mang dấu hiệu Ai và Bj ; pjo
và poj tương ứng là xác suất để cá thể mang dấu hiệu Ai và Bj
Nếu giả thiết Ho “Hai dấu hiệu A và B độc lập” chúng ta có hệ thức sau:
pij = pio.poj
Trang 30Các xác suất pio và poj được ước lượng bởi
Do đó Ho đúng thì
,
và số cá thể có đồng thời dấu hiệu Ai và Bj sẽ xấp xỉ bằng
Các số được gọi là các tần số lý thuyết (TSLT), còn các số nij được gọi là các tần
số quan sát (TSQS) Khoảng cách giữa các TSLT và TSQS được đo bằng đại lượng sau:
Người ta đã chứng minh được rằng nếu n lớn và các TSLT không nhỏ hơn 5 thì T sẽ
có phân bố xấp xỉ phân bố 2 với bậc tự do là (k–1).(r–1) Thành thử Ho sẽ bị bác bỏ ởmức ý nghĩa nếu T > c, trong đó c là phân vị mức của phân bố 2 với (k–1).(r–1) bậc
Trang 32Sau đó nhấn nút trong Tab Home.
Ta được tổng hàng và tổng cột
Bước 3: Tính tần số lý thuyết.
Tần số = (tổng hàng * tổng cột) / tổng cộng
Ô B9 nhập lệnh = =B$6*$E3/$E$6 rồi enter
Sau đó ta kéo chọn từ B9:D11 , sau đó ta ấn tổ hợp phím F2+ctrl+enter
Trang 33Ta có bảng tần số lý thuyết
Bước 4: Dùng hàm CHITEST để tính.
Nhấn vào Tab Fomulas chọn Insert Function chọn CHITEST rồi nhấn OK
Lúc đó sẽ xuất hiện hộp thoại Function Arguments
Nhập các giá trị tần số quan sát vào mục Actual_range
Trang 34Rồi nhập các giá trị tần số quan sát vào mục Expected_range Nhấn OK
Trang 35Bài 5 :
1 Đề bài + yêu cầu
Với mức ý nghĩa 1%, Hãy phân tích tình hình kinh doanh của một số ngành nghề ở 4 quận
nội thành trên sơ sở số liệu về doanh thu của một số cửa hàng như sau:
Ngành nghềKinh doanh
Khu vực kinh doanh
Điện lạnhVật liệu XDDịch vụ tin học
2.5:2.7:2.0:3.00.6:10.41.2:1.0:9.8:1.8
3.1:3.5:2.715.02.0:2.2:1.8
2.0:2.49.5:9.3:9.11.2:1.3:1.2
5.0:5.419.5:17.55.0:4.8:5.2
2 Dạng bài: Kiểm định giá trị Trung bình
X121X122::X12r
…
X1m1X1m2::X1mrA2
X211X212::X21r
X221X222::X22r
…
X2m1X2m2::X2mr
An
Xn11Xn12::Xn1r
Xn21Xn22::Xn2r
…
Xnm1Xnm2::Xnmr
Xử lí mẫu: tính tổng hàng: T =∑x
Trang 36…
X1m1X1m2::X1mr
T1∗¿=∑
j , k x 1 jk
A2
X211X212::X21r
X221X222::X22r
…
X2m1X2m2::X2mr
Xn21Xn22::Xn2r
…
Xnm1Xnm2::Xnmr
Trang 37 H0 : μ1 = μ2 = … μk ↔ “các giá trị trung bình bằng nhau”
H1 : μi ≠ μj ↔ “Ít nhất có hai giá trị trung bình khác nhau”
Giá trị thống kê
F A = MSA MSE ; F B = MSB MSE và F AB = MSAB MSE
Trang 38Bước 1 : Giả thiết Ho
-H A (yếu tố ngành nghề): doanh thu không phụ thuộc vào ngành nghề
-H B (yếu tố quận): doanh thu không phụ thuộc vào quận
-H AB (sự tương tác giữa 2 yếu tố): doanh thu giữa các ngành nghề và các quận không
có liên quan tới nhau.
Nhập dữ liệu vào bảng tính :
Trang 39Bước 2: Áp dụng: “Anova: Two-Factor With Replication”
Vào Data -> Data Analysis Chọn mục Anova: Two-Factor With Replication Chọn
OK.
Trong hộp thoại Anova: Two-Factor With Replication lần lượt ấn định các chi tiết:
Phạm vi đầu vào (Input Range): $A$3:$E$15
Số hàng mỗi mẫu (Rows per sample): 4
Ngưỡng tin cậy (Alpha): 0.01 (mức ý nghĩa = 1%)
Phạm vi đầu ra (Output Range): $A$17
Trang 40Kết quả và biện luận:
Yếu tố hàng (mẫu): F R = 2.8929 < F 0.01 = 5.2479 => Chấp nhận giả thiết H0
→ Tình hình kinh doanh giữa các ngành nghề là như nhau
Yếu tốc cột: F C = 0.8189 < F 0.01 = 4,3771 => Chấp nhận giả thiết H0
→Tình hình kinh doanh giữa các quận là như nhau
Ảnh hưởng: F = 0.6498 < F 0.01 = 3.3507 => Chấp nhận giả thiết H0.
→ Không có sự tương tác giữa khu vực kinh doanh ( quận) và ngành nghề kinh doanh.
Kết luận:
Vậy + tình hình kinh doanh là như nhau giữa các ngành nghề cũng như giữa các quận
+Không có sự tương tác giữa hai yếu tố ngành nghề kinh doanh và địa điểm kinh doanh (quận)