Giải chi tiết bài tập xác suất thống kê Các dạng bài tập ôn thi cuối kỳ Cách giải bằng phần mềm Excel chi tiết Vd: Bài làm 1. Dạng toán: Phân Tích Phương Sai 3 Yếu Tố 2. Cơ sở lý thuyết: Sự phân tích này được dùng để đánh giá về sự ảnh hưởng của ba yếu tố trên các giá trị quan sát G (i = 1, 2... r: yếu tố A; j = 1, 2...r: yếu tố B: k = 1, 2...r: yếu tố C). Mô hình: Khi nghiên cứu ảnh hưởng của hai yếu tố, mỗi yếu tố có n mức, thì người ta dùng mô hình vuông la tinh n×n. Ví dụ như mô hình vuông la tinh 4×4:
Trang 1BÀI 1:
Câu A.Ví dụ 3.4/207/Sách BT XSTK 2012 ( NGUYỄN ĐÌNH HUY )
Hiệu suất phần trăm (%) của một phản ứng hóa học được nghiên cứu theo 3 yếu tố : pH(A), nhiệt độ (B), va chất xúc tác (C) được trình bày trong bảng sau:
Sự phân tích này được dùng để đánh giá về sự ảnh hưởng của ba yếu tố trên các giá trị quan
sát G (i = 1, 2 r: yếu tố A; j = 1, 2 r: yếu tố B: k = 1, 2 r: yếu tố C).
Mô hình:
Khi nghiên cứu ảnh hưởng của hai yếu tố, mỗi yếu tố có n mức, thì người ta dùng mô hình vuông
la tinh n×n Ví dụ như mô hình vuông la tinh 4×4:
Trang 2Mô hình vuông la tinh ba yếu tố được trình bày như sau:
Yếu tố C (T k Ví dụ: T 1 = Y111 + Y421 + Y331 + Y241)
r i i
Trắc nghiệm
H0: μ1 = μ2 = = μk “Các giá trị trung bình bằng nhau” Các giá trị trung bình bằng nhau”
H: μ ¿ μ “Các giá trị trung bình bằng nhau” Có ít nhất hai giá trị trung bình khác nhau”
Trang 3 Biện luận:
Nếu FR < Fα(r-1)(r-2) → Chấp nhận H0 đối với yếu tố A
Nếu FC < Fα(r-1)(r-2) → Chấp nhận H0 đối với yếu tố B
Nếu F < Fα(r-1)(r-2) → Chấp nhận H0 đối với yếu tố C
3.Phương pháp giải toán trên Excel :
Giả thiết H0: Nhiệt độ không ảnh hưởng đến hiệu suất phản ứng.Giả thiết H0: Chất xúc tác không ảnh hưởng đến hiệu suất phản ứng
- Bước 1: Nhập dữ liệu
- Bước 2: Thiết lập các giá trị biểu thức và tính giá trị thống kê
Tính các giá trị Ti…,Tj và T k ,T…
- Các giá trị Ti :
Chọn ô B7 và nhập biểu thức “Các giá trị trung bình bằng nhau” =SUM(B2:E2)”
Chọn ô C7 và nhập biểu thức “Các giá trị trung bình bằng nhau” =SUM(B3:E3)”
Chọn ô D7 và nhập biểu thức “Các giá trị trung bình bằng nhau” =SUM(B4:E4)”
Chọn ô E7 và nhập biểu thức “Các giá trị trung bình bằng nhau” =SUM(B5:E5)”
- Các giá trị T.j :
Chọn ô B8 và nhập “Các giá trị trung bình bằng nhau” =SUM(B2:B5)”
Dùng con trỏ kéo kí hiệu tự điền từ ô B8 tới ô E8
- Các giá trị T k :
Chọn ô B9 và nhập biểu thức “Các giá trị trung bình bằng nhau” =SUM(B2,C5,D4,E3)”Chọn ô C9 và nhập biểu thức “Các giá trị trung bình bằng nhau” =SUM(B3,C2,D5,E4)”Chọn ô D9 và nhập biểu thức “Các giá trị trung bình bằng nhau” =SUM(B4,C3,D2,E5)”Chọn ô E9 và nhập biểu thức “Các giá trị trung bình bằng nhau” =SUM(B5,C4,D3,E2)”
- Giá trị T :
Trang 4 Tính các giá trị SUMSQ:Ti,Tj,Tk,T,Yij
-Các giá trị SUMSQ Ti Tj Tk:
Chọn ô G7 và nhập biểu thức “Các giá trị trung bình bằng nhau” =SUMSQ(B7:E7)”
Dùng con trỏ kéo kí hiệu tự điền từ ô G7 tới G9
Chọn ô K7 và nhập biểu thức “Các giá trị trung bình bằng nhau” =I7/(4-1)”
Dùng con trỏ kéo kí hiệu tự điền từ ô K7 tới ô K9
-Giá trị MSE :
Chọn ô K10 và nhập biểu thức “Các giá trị trung bình bằng nhau” =I10/((4-1)*(4-2))”
Tính giá trị F R , F C và F
Chọn ô M7 và nhập biểu thức “Các giá trị trung bình bằng nhau” =K7/0.3958”
Dùng con trỏ kéo kí hiệu tự điền từ ô M7 tới ô M9
Trang 5- Bước 3: Kết quả và biện luận
+ Tính F 0.05 (3,6) trong Excel như sau: ta nhập hàm “Các giá trị trung bình bằng nhau” =FINV(0.05,3,6)” sau đó ta được kết quả
Vậy chỉ có nhiệt và chất xúc tác gây ảnh hưởng đến hiệu suất.
CÂU B Ví dụ 4.2/216/Sách BT XSTK 2012 ( NGUYỄN ĐÌNH HUY )
Người ta đã dùng ba mức nhiệt độ gồm 105, 120 và 135 0 C kết hợp với ba khoảng thời gian là 15, 30, 60 phút để thực hiện một phản ứng tổng hợp Các hiệu suất của phản ứng (%) được trình bày trong bảng sau đây:
Trang 6Hãy cho biết yếu tố nhiệt độ và thời gian/ hoặc yếu tố thời gian có liên quan tuyến tính với hiệu suất của phản ứng tổng hợp? Nếu có thì điều kiện nhiệt độ 115 0 C trong vòng 50 phút thì hiệu suất phản ứng sẽ là bao nhiêu?
Bài làm
1 Dạng toán: Hồi Quy Tuyến Tính Đa Tham Số
2 Cơ sở lý thuyết:
Trong phương trình hồi quy tuyến tính đa tham số, biến số phụ thuộc Y có liên quan đến k
biến số độc lập Xi (I = 1,2, ,k) thay vì chỉ có một như trong hồi quy tuyến tính đơn giản.
MSE =
MSR MSE
Trang 7S= √ ( N−k−1) SSE (S 0,30là khá tốt)
Trắc nghiệm thống kê:
- Trong trắc nghiệm t:
H0: βi = 0 “Các giá trị trung bình bằng nhau” Các hệ số hồi quy không có ý nghĩa”
H1: βi ¿ 0 “Các giá trị trung bình bằng nhau” Có ít nhất vài hệ số hồi quy có ý nghĩa”
Bậc tự do của giá trị t: = N – k – 1
2 2
H0: βi = 0 “Các giá trị trung bình bằng nhau” Phương trình hồi quy không thích hợp”
H1: βi ¿ 0 “Các giá trị trung bình bằng nhau” Phương trình hồi quy thích hợp với ít nhất vài hệ số Bi”
Bậc tự do của giá trị F: v1 = 1, v2 = N – k – 1
3.Phương pháp giải trên Excel :
- Bước 1: Nhập dữ liệu vào bảng tính:
Dữ kiệu nhất thiết phải được nhập theo cột:
- Bước 2: Sử dụng “Regression”
c) Trong hộp Regression, lần lượt ấn định các chi tiết:
Trang 8- Mức tin cậy (Confidence Level)
plots )
Trang 9-*Phương trình hồi quy Y (x1)=f (X1)
Trang 10- Y (x1) = 2,73 + 0,04X1 (R2 = 0,21; S = 1.81)
t0 = 2,1290 < t0,05 = 2,365 ( hay P = 0,071 > α = 0,05) Chấp nhận giả thiết H V2 0
(Cách tính t 0,05 bằng Excel ta nhập biểu thức sau “=TINV(0.05,7)” kết quả ta thu được t 0,05 = 2,365)
t1 = 1,3801 < t0,05 = 2,365 ( hay P V = 0,209 > α = 0,05) Chấp nhận giả thiết H0
F = 1,905 < F0,053
= 5,591 (hay F S4 = 0,209 > α = 0,05) Chấp nhận giả thiết H
0.(Cách tính F0,053
bằng Excel ta nhập biểu thức sau “=FINV(0.05,1,7)” kết quả ta thu được F0,053
= 5,591)
Trang 11Vậy cả 2 hệ số 2,37 (B0) và 0,04(B1) của phương trình hồi quy Y = 2,73 + 0.04X X i 1 đều không có
ý nghĩa thống kê Nói một cách khác, phương trình hồi quy này không thích hợp
Kết Luận: Yếu tố thời gian không liên quan tuyến tính tới hiệu suất của phản ứng tổng
Trang 12t0 = 3,418 > t0,05 = 2,365 ( hay P V2 = 0,011 < α = 0,05) bác bỏ giả thiết H
0
t2 = 4,757 > t0,05 = 2,365 ( hay PV = 0,00206 < α = 0,05) bác bỏ giả thiết H0
Trang 13F=22,631 > F0.054 = 5,590 (hay 4
S
F =0,00206 < α = 0,05) bác bỏ giả thiết H
0.(Cách tính t 0,05 và F0.054 tương tự ở trên)
Vậy cả 2 hệ số -11,14 (B0) và 0,13(B2) của phương trình hồi quy Y = -11,14 + X2
Kết Luận: Yếu tố nhiệt độ có liên quan tuyến tính với hiệu suất của phản ứng tổng hợp.
Phương trình hồi quy
Trang 14t0 = 11,528 > t0,05 = 2,365 (hay PV = 2,260.105 < α = 0,05) => bác bỏ giả thiết H0.
t1 = 7,583 > t0,05 = 2,365 (hay PV = 0,00207 < α = 0,05) => bác bỏ giả thiết H0
t2 = 14,328 > t0,05 = 2,365 (hay PV =7,233.106 < α = 0,05)=> bác bỏ giả thiết H0
F = 131,329 > F0,05 = 5,143 (hay FS = 1,112.105 < α = 0,05) => bác bỏ giả thiết H0
(F 0,05 = 5,143 được tính như sau ta nhập hàm “=FINV(0.05,2,6)” kết quả thu được F 0,05 = 5,143)
Trang 15Vậy cả 2 hệ số -12.70 (B0); 0,04 (B1) và 0,13(B2) của phương trình hồi quy Y X X1 , 2
-12,70 + 0,04X 1 + 0,13X 2 đều có ý nghĩa thống kê Nói một cách khác, phương trình hồi quy nàythích hợp
Kết luận: Hiệu suất của phản ứng tổng hợp có liên quan tuyến tính với cả hai yếu tố là thời gian và nhiệt độ.
Sự tuyến tính của phương trình Y X X1 , 2 -12,70 + 0,04X 1 + 0,13X 2 có thể được trình bàytrên biểu đồ phân tán (Scatterplots)
Cách thực hiện như sau: Chọn tất cả dữ liệu ở cột “Các giá trị trung bình bằng nhau” Predicted Y” trong bảng
“Các giá trị trung bình bằng nhau” RESIDUAL OUTPUT” trên tab menu chọn Insert => Scatter
Muốn dự đoán hiệu suất của phản ứng bằng phương trình hồi quy : Y X X1 , 2 -12,70 +
0,04X 1 + 0,13X 2 , bạn chỉ cần chọn một ô, ví dụ B21, sau đó nhập hàm và được kết quả như sau:
Ghi chú: B17 tọa độ của B0, B18 tọa độ của B1, B19 tọa độ của B2, 50 là giá trị của X1
(thời gian) và 115 là giá trị của X2 (nhiệt độ)
Trang 16BÀI 2:
Một cuộc điều tra xã hội học được tiến hành ở 5 thành phố A, B, C, D, E yêu cầu những người được hỏi diễn tả mức độ thỏa mãn của mình đối với thành phố mà họ đang sống kết quả như sau:
Trang 17Oi j : các tần số thực nghiệm của ô thuộc hàng thứ I cột j.
Ei j : các tần số lý thuyết của ô thuộc hàng thứ I cột j; r là số hàng; c là số cột
Xác suất P(X > χ 2) với bậc tự do DF= (r-1) (c-1)
Nếu P(X > χ2) ¿ ∝ chấp nhận giả thiết Ho và ngược lại
3.Phương pháp giải trên Excel:
- Bước 1: Nhập dữ liệu vào bảng tính:
- Bước 2:Ta đi thiết lập một số biểu thức và tiến hành tính toán:
+ Tính các tổng số
Tính tổng hàng tổng cột ta là như sau:chọn dữ liệu từ ô B2->E7
Trang 18Sau đó nhấn “Các giá trị trung bình bằng nhau” AutoSum” trên tab Home,ta được kết quả như sau:
+ Tính các tần số lí thuyết:
Tần số lí thuyết = (tổng hàng × tổng cột) / tổng cộng
Các tần số tại thành phố A ,B,C,D :
- Chọn ô B10 nhập biểu thức sau : “Các giá trị trung bình bằng nhau” =$E2*B$7/$E$7 ”
Trang 19+ Tính xác suất P(X> χ 2) áp dụng hàm số “Các giá trị trung bình bằng nhau” CHITEST” trong Excel :
* Tính xác suất P(X > χ 2
) bằng cách chọn B15 và nhập biểu thức sau:
“ =CHITEST(B2:D6,B10:D14) ”
Kết quả : P(X > χ 2
) = 3.5299.10-13 < α =0.02 => bác bỏ giả thiết H0
Trang 20BÀI 3 :
Bảng sau đây cho ta số liệu về màu tóc của 422 người:
Đen Hung Nâu Vàng
56 37 84 19
32 66 90 38
Với mức ý nghĩa 1%, nhận định xem số liệu có mối quan hệ giữa màu tóc và giới tính hay không
Bài làm
1 Dạng toán: Kiểm Định Tính Độc Lập
2 Cơ sở lý thuyết:
tính hoặc định lượng Trong trường hợp bài toán nêu trên là cả 2 dấu hiệu đều là dấu hiệu định tính
Trang 21 Tìm
2 2[(k 1)(h 1)]
từ bảng phân vị χ2 “Các giá trị trung bình bằng nhau” khi bình phương”
Cách 1: Tính thống kê dựa vào các công thức sau:
2 ij
3 Phương pháp giải trên Excel :
– Giả thuyết H0: Màu tóc độc lập với giới tính
– Nhập bảng số liệu như hình sau:
Tính các tổng số
+ Tổng hàng (ni) và tổng cột (mj) :Tương tự bài 2,ta chọn từ ô B2 đến ô D6,nhấn “Các giá trị trung bình bằng nhau” AutoSum”
trên tab Home ta được kết quả cần tính
+ Tổng cộng: Vị trí ô D6
Trang 22Tính tần số lý thuyết dựa vào công thức sau:
i j ij
n m n
Trang 23Với mức ý nghĩa 1%, Hãy phân tích vai trò ngành nghề (chính, phụ) trong hoạt động kinh tế của các
hộ gia đình ở một vùng nông thôn trên cơ sở bảng số liệu về thu nhập trung bình của một hộ tương ứng với các ngành nghề nói trên như sau:
7.4 4.1 2.5 3.2
8.0 6.1 1.8 2.2
3.5 9.6 2.1 1.5
1 Dạng toán: Toán Phân Tích Phương Sai Hai Yếu Tố (Không Lặp):
Trang 24H0: μ1 = μ2 = = μk “Các giá trị trung bình bằng nhau” Các giá trị trung bình bằng nhau”
H1: μi ¿ μj “Các giá trị trung bình bằng nhau” Ít nhất hai giá trị trung bình khác nhau”
Giá trị thống kê: FR và FC
Nếu FR < Fα[(b-1),(k-1)(b-1)] → Chấp nhận H0 đối với yếu tố A
Nếu FC < Fα[(k-1),(k-1)(b-1)] → Chấp nhận H0 đối với yếu tố B
3 Phương pháp giải trên Excel :
Giả thiết H 0 : Các giá trị trung bình là bằng nhau
Đối giả thiết H 1 : Các giá trị trung bình là không bằng nhau.
- Bước 1: Nhập dữ liệu
Trang 25- Bước 2: Áp dụng “Anova: Two – Factor without Replication”
+ Nhấp lần lượt đơn lệnh Data và lệnh Data Analysis
+ Chọn chương trình Anova: Two-Factor Without Replication trong hộp thoại
Data Analysis rồi nhấp nút OK
+ Trong hộp thoại Anova: Two-Factor Without Replication lần lượt ấn định các chi tiết:
Nhãn dữ liệu (Labels in First Row / Column) Bấm check
+ Bảng Anova sau khi hoàn thành
Trang 26- Bước 3:Kết quả và biện luận
FR(rows-Thực nghiệm) = 1,99662<F (crit-Lý thuyết)=6,99192 => chấp nhận giả thiết H0
(các nghề chính tạo ra thu nhập trung bình như nhau.)
FC(columns-Thực nghiệm) = 0,11057 < F (crit-Lý thuyết)=6,99192 => chấp nhận giả thiết H0( các nghề phụ tạo ra thu nhập trung bình như nhau)
Vậy, thu nhập của gia đình giống nhau xét cho nghề chính hay nghề phụ.
Trang 27a) Tính hệ số tương quan giữa X và Y (đơn vị của Y là giây)
b) Tìm đường thẳng hồi quy giữa Y và X.
c) Tìm sai số tiêu chuẩn của đường thẳng hồi quy Kiểm định giả thiết có hồi quy.
d) Dựa trên phương trình này ước lượng kỷ lục thế giới năm 2050.
e) Ước lượng năm mà kỷ lục thế giới là 3 phút 30 giây.
f) Dựa trên phương trình hồi quy ước lượng kỷ lục thế giới năm 2500.Kết quả này có hợp lý hay không?
(Chú thích: 3:48.7 = 3 phút 48.7 giây).
1 Dạng toán: Phân Tích Tương Quan Và Phân Tích Hồi Quy
2 Cơ sở lý thuyết:
Hai biến số ngẫu nhiên Y và X có thể liên quan tuyến tính (ρ=1,ρ=-1), có
khuynh hướng tuyến tính (0<ρ<1) hoặc không có liên quan
Hệ số tương quan Pearson:
ρ X,Y=
COV (X , Y )
σ X σ X ; σ X2=
2 1
1
N
i X i
Trang 28Hồi quy tuyến tính đơn giản: 2 2
^
0 0
/( )
- Giá trị R-Bình phương(R-square): R=SSR SST (100R2: là % của biến đổi trên Y được giải thích bởi X)
- Độ lệch chuẩn (Standard Error): S=√N −21 ∑(Y i−Y i ')2
(Sự phân tán của dữ liệu càng ít thì giá trị của S càng gần 0)
Trắc nghiệm thống kê: Đối với một phương trình hồi quy,
2 2
-Giả thiết: H0:βi =0 “Các giá trị trung bình bằng nhau” Hệ số hồi quy không có ý nghĩa”
H0: βi≠0 “Các giá trị trung bình bằng nhau” Hệ số hồi quy có ý nghĩa”
-Giá trị thống kê:
2 2
Trang 29-Biện luận: Nếu t<tα (N-2) => chấp nhận giả thiết H0
Trắc nghiệm F
-Giả thiết :
H0: β0=0 “Các giá trị trung bình bằng nhau” Phương trình hồi quy không thích hợp”
H0: β0=0 “Các giá trị trung bình bằng nhau” Phương trình hồi quy thích hợp”
-Giá trị thống kê: F=MSR MSE
Phân bố Fisher v1=1, v2=N-2
-Kết luận: Nếu F<F0(1,N-2) => chấp nhận giả thiết H0
3.Phương Pháp Giải Trên Excel :
- Bước 1: Nhập dữ liệu và chuyển đổi dữ liệu
+ Dữ liệu nhất thiết phải được nhập theo cột
+ Chuyển đổi đơn vị thời gian của Y thành giây
- Bước 2: Tính toán các câu a,b,c,d,e,f
Câu a:Tính hệ số tương qua giữa X và Y
+ Vào Data(Dữ liệu) Data analysis(Phân tích dữ liệu), chọn Correlation(Tương Quan)
Trang 30+ Input Range(Phạm vi đầu vào), quét vùng (A1:B32) + Group By, chọn Columns (nhóm theo cột).
+ Chọn Labels in first row (nhãn dữ liệu ở hàng đầu) + Output Range (Xuất dữ liệu) chọn New Worksheet Ply
+ Kết quả ta thu được:
Câu b: Tìm đường thẳng hồi quy:
+ Giả thiết :
Đối với H 0 là H 1: Phương trình hồi quy thích hợp.+ Quay trở lại dữ liệu bài toán
Trang 31+ Chon Data → Data Analysis(Phân tích dữ liệu)→Regression(Hồi Quy)
+ Một hộp thoại xuất hiện ta điện các thông số như sau:
Chọn phạm vi của biến số Y (Input Y Range): chọn B1:B32
Chọn phạm vi của biến số X (Input X Range): chọn A1:A32
Chọn nhãn dữ liệu (Lables)
Mức tin cậy ( Confidence Level) : 95%
Chọn Line Fit Plots (Đường hồi quy)
+ Kết quả ta thu được như sau:
Trang 32Phương trình hồi quy YX= f(X) YX=1022.8-0.4X
Câu c: Sai số tiêu chuẩn (Standard Error) là: 21.3721915
Trang 33Câu d: Dựa trên phương trình này ước lượng kỷ lục thế giới 2050
Kỷ lục thế giới 2050 ta có X=2050 thế vào phương trình ta đượcY=1022.8-0.4*2050=202.8 (giây) =3 phút 22.8 giây
Vậy kỷ lục thế giới ở năm 2050 là 3 phút 22.8 giây
Câu e: Năm kỷ lục thế giới là 3 phút 30 giây = 210 giây
Vậy kỷ lục thế giới là 3 phút 30 giây ước lượng đạt được năm 2032
Câu f: Ước lượng kỷ lục năm 2500
Ta có X=2500.Thay vào phương trình hồi quy:
Kết quả này không hợp lý