Bài tập lớn xác suất thống kê
Trang 1BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ GVHD: GS.TS NGUYỄN ĐÌNH HUY
BÀI 1:
Câu 1:(Ví dụ 3.4/207/Giáo trình XSTK – GS-TS Nguyễn Đình Huy)
Hiệu suất phần trăm (%) của một phản ứng hoá học được nghiên cứu theo ba yếu tố pH (A),nhiệt độ (B) và chất xúc tác (C) được trình bày trong bảng sau:
Mô hình vuông latinh 3 yếu tố được trình bày như sau:
Yếu tố C (T k ví dụ: T 1 = Y111 + Y421 + Y334 + Y241)
Trang 2BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ GVHD: GS.TS NGUYỄN ĐÌNH HUY
H0: µ1 = µ2 = ….= µk“Các giá trị trung bình bằng nhau”Các giá trị trung bình bằng nhau”
H1: µi≠ µj “Các giá trị trung bình bằng nhau”Có ít nhất hai giá trị trung bình khác nhau”
Thiết lập một số biểu thức và tiến hành tính toán:
Tính các giá trị Ti (tổng theo hàng từ B đến E)
- Chọn ô B7 và nhập biểu thức=SUM(B2:E2)
- Chọn ô C7 và nhập biểu thức =SUM(B3:E3)
2
Trang 3BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ GVHD: GS.TS NGUYỄN ĐÌNH HUY
Trang 4BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ GVHD: GS.TS NGUYỄN ĐÌNH HUY
- Dùng con trỏ kéo kí hiệu tự điền từ ô K7 đến ô K9
Kết luận:Vậy chỉ có nhiệt độ và chất xúc tác ảnh hưởng đến hiệu suất.
Câu 2:(Ví dụ 4.2/216/Giáo trình XSTK – GS-TS Nguyễn Đình Huy)
gian là 15, 30 và 60 phút để thực hiện một phản ứng tổng hợp Các hiệu suất phản ứng(%)được trình bày trong bảng sau:
4
Trang 5BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ GVHD: GS.TS NGUYỄN ĐÌNH HUY
Hãy cho biết yếu tố nhiệt độ và thời gian hoặc yếu tố thời gian có liên quan tuyến
50 phút thì hiệu suất phản ứng là bao nhiêu?
Trang 6BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ GVHD: GS.TS NGUYỄN ĐÌNH HUY
o Giá trị R – bình phương:
Giá trị R2
R2=SSR SST=
kF ( N−k−1)+kF(R2≥0.81là khá tốt)Giá trị R2 được hiệu chỉnh
R ii2=(N−1) R2−k
N −k −1 =R
2
− k (1−R2)(N −k −1)
(R ii2 sẽ trở nên âm hoặc không xác định nếu R2hoặc N nhỏ)
H0: β i=0 “Các giá trị trung bình bằng nhau”Các hệ số hồi quy không có ý nghĩa”
H0: β i ≠ 0 “Các giá trị trung bình bằng nhau”Có ít nhất một số hệ số hồi quy có ý nghĩa”
H0: β i=0 “Các giá trị trung bình bằng nhau”phương trình hồi quy không thích hợp”
H0: β i ≠ 0 “Các giá trị trung bình bằng nhau”phương trình hồi quy thích hợp” với ít nhất vài B i
Trang 7BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ GVHD: GS.TS NGUYỄN ĐÌNH HUY
Chọn OK hộp thoại Regression xuất hiện
Phương trình hồi quyY^X1= f(X1)
Kiểm định giả thiết H o : thời gian không liên quan tuyến tính với hiệu suất của phản
ứng tổng hợp
Trang 8BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ GVHD: GS.TS NGUYỄN ĐÌNH HUY
Trong hộp thoại Regression,lần lượt chọn các chi tiết:
- Phạm vi của biến số Y (Input Y range)
- Phạm vi của biến số X (Input X range)
- Nhãn dữ liệu(Labels)
- Mức tin cậy(Confidence level)
- Tọa độ đầu ra(Output range)
- Đường hồi quy(line Fit Plots),…
Ta có kết quả:
8
Trang 9BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ GVHD: GS.TS NGUYỄN ĐÌNH HUY
Phương trình hồi quy
Vậy cả 2 hệ số 2.73(B0) và 0.04(B1) của phương trình hồi quy (I) đều không có ý nghĩa
thống kê Nói cách khác, phương trình hồi quy này không thích hợp
Kết luận:Vậy yếu tố thời gian không liên quan tuyến tính với hiệu suất của phản ứng
tổng hợp
Phương trình hồi quy Y^X2= f(X 2)
Kiểm định giả thiết H o : nhiệt độ không liên quan tuyến tính với hiệu suất của phản
ứng tổng hợp
Trang 10BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ GVHD: GS.TS NGUYỄN ĐÌNH HUY
Ta có kết quả:
10
Trang 11BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ GVHD: GS.TS NGUYỄN ĐÌNH HUY
Phương trình hồi quy
bác bỏ giả thiết Ho
Vậy cả 2 hệ số -11.14 (B0) và 0.13 (B2) của phương trình hồi quy (II) đều có ý nghĩa
thống kê Nói cách khác, phương trình hồi quy này thích hợp
Kết luận: Vậy yếu tố nhiệt độ có liên quan tuyến tính với hiệu suất của phản ứng tổng
hợp
Phương trình hồi quy Y^X1, X2= f(X 1, X2)
Kiểm định giả thiết H o : thời gian và nhiệt độ không liên quan tuyến tính với hiệu suất của
phản ứng tổng hợp
Trang 12BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ GVHD: GS.TS NGUYỄN ĐÌNH HUY
12
Trang 13BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ GVHD: GS.TS NGUYỄN ĐÌNH HUY
Phương trình hồi quy
bác bỏ giả thiết Ho
Vậy cả 3 hệ số -12.7 (B0), 0.04 (B1) và 0.13 (B2) của phương trình hồi quy (III) đều có
ý nghĩa thống kê Nói cách khác, phương trình hồi quy này thích hợp
Kết luận: Vậy hiệu suất của phản ứng tổng hợp có liên quan tuyến tính với cả hai yếu tố
là thời gian và nhiệt độ
Dự đoán hiệu suất phản ứng bằng phương trình hồi quy (III):
Hiệu suất dự đoán = B 0 + B 1 *50 + B 2 *115
Trang 14BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ GVHD: GS.TS NGUYỄN ĐÌNH HUY
Với B0, B1, B2 là hệ số phương trình hồi quy (III)
Kết quả thu được như sau:
BÀI 2:
Bệnh đau mắt hột được chia làm 4 thời kỳ T1, T2, T3 và T4 Kết quả kiểm tra mắt hột ở 3 tỉnh A,
B, C được cho trong bảng sau đây:
Địaphương
H0 : P1 = P1,0, P2 = P2,0,…., Pk,0 “Các giá trị trung bình bằng nhau”Các cặp Pi và Pi,0 giống nhau”
H1 : “Các giá trị trung bình bằng nhau”Có ít nhất một cặp Pi và Pi,0 khác nhau”
Oi : các tần số thực nghiệm (observed frequency)
Ei: các tần số lý thuyết (expected frequency)
Biện luận
Nếu χ2>χ2a bác bỏ giả thiết Ho (DF = k-1)
Trong MS-Excel có hàm CHITEST có thể tính:
14
Trang 15BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ GVHD: GS.TS NGUYỄN ĐÌNH HUY
Giá trị 2 theo biểu thức:
Oi j: tần số thực nghiệm của ô thuộc hàng thứ i cột j
Ei j : tần số lý thuyết của ô thuộc hàng thứ i cột j; r là số hàng; c là số cột
Xác suất P(X >χ 2)với bậc tự do DF = (r-1)(c-1); trong đó r là số hàng; c là số cột trongbảng ngẫu nhiên (contingency table)
Nếu P(X >χ2) ¿α chấp nhận giả thiết Ho và ngược lại
ÁP DỤNG MS-EXCEL
Nhập dữ liệu vào bảng tính
Sắp xếp dữ liệu theo bảng trắc nghiệm hai mẫu độc lập
Thiết lập một số biểu thức và tiến hành tính toán:
Tính các tổng số:
o Tổng hàng (Row totals): Chọn ô F3 và nhập vào biểu thức =SUM(B3:E3)
Dùng con trỏ để kéo nút tự điền từ ô F3 đến F5
o Tổng cột (Column totals): Chọn ô B6 và nhập vào biểu thức=SUM(B3:B5)
Dùng con trỏ kéo nút tự điền từ ô B6 đến E6
o Tổngcộng (Grand total): Chọn ô F6 và nhập biểu thức=SUM(F3:F5) hoặc
=SUM(B6:E6)
Tính các tần số lý thuyết:
Tần số lý thuyết = (tổng hàng × tổng cột) / tổng cộng
o Các tần số tại tỉnh A:
- Mức độ đau mắt hột T1: chọn ô B9 và nhập vào biểu thức=F3*B6/F6
- Mức độ đau mắt hột T2: chọn ô C9 và nhập vào biểu thức=F3*C6/F6
- Mức độ đau mắt hột T3: chọn ô D9 và nhập vào biểu thức=F3*D6/F6
- Mức độ đau mắt hột T4:chọn ô E9 và nhập vào biểu thức=F3*E6/F6
o Các tần số tại tỉnh B:
Trang 16BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ GVHD: GS.TS NGUYỄN ĐÌNH HUY
- Mức độ đau mắt hột T2: chọn ô C10 và nhập vào biểu thức=F4*C6/F6
- Mức độ đau mắt hột T3: chọn ô D10 và nhập vào biểu thức =F4*D6/F6
- Mức độ đau mắt hột T4: chọn ô E10 và nhập vào biểu thức =F4*E6/F6
o Các tần số tại tỉnh C:
- Mức độ đau mắt hột T1: chọn ô B11 và nhập vào biểu thức =F5*B6/F6
- Mức độ đau mắt hột T2: chọn ô C11 và nhập vào biểu thức =F5*C6/F6
- Mức độ đau mắt hột T3:chọn ô D11 và nhập vào biểu thức =F5*D6/F6
- Mức độ đau mắt hột T4: chọn ô E11 và nhập vào biểu thức =F5*E6/F6
Tính xác suất P(X >χ2) :
Chọn ô B13 và nhập vào biểu thức =CHITEST(B3:E5,B9:E11)
Ta được:
Hoặc chọn FormulasMore FunctionsStatistical CHITEST
Xuất hiện hộp thoại Function Agruments
16
Trang 17BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ GVHD: GS.TS NGUYỄN ĐÌNH HUY
Ta được P = 6.0949E-215¿ 0.01 nên bác bỏ giả thuyết H0
Kết luận:Như vậy tình hình đau mắt hột ở 3 tỉnh trên không giống nhau.
Dạ dày
Bộ phận khác
1115341
532230
57315a) Hãy tính tần số lý thuyết của bảng số liệu trên
c) Với mức ý nghĩa = 1% hãy so sánh phân bố tỉ lệ chết vì ung thư của banước nói trên
Giải:
DẠNG TOÁN:
Trang 18BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ GVHD: GS.TS NGUYỄN ĐÌNH HUY
So sánh tỷ số
CƠ SỞ LÝ THUYẾT:
Giả thiết
H0 : P1 = P1,0, P2 = P2,0,…., Pk,0 “Các giá trị trung bình bằng nhau”Các cặp Pi và Pi,0 giống nhau”
H1 : “Các giá trị trung bình bằng nhau”Có ít nhất một cặp Pi và Pi,0 khác nhau”
Oi : các tần số thực nghiệm (observed frequency)
Ei : các tần số lý thuyết (expected frequency)
Biện luận
Nếu χ2>χ2a bác bỏ giả thiết Ho (DF = k-1)
Trong MS-Excel có hàm CHITEST có thể tính:
Giá trị 2 theo biểu thức:
Oi j : tần số thực nghiệm của ô thuộc hàng thứ i cột j
Ei j : tần số lý thuyết của ô thuộc hàng thứ i cột j; r là số hàng; c là số cột
Xác suất P(X >χ 2)với bậc tự do DF = (r-1)(c-1); trong đó r là số hàng; c là số cộttrong bảng ngẫu nhiên (contingency table)
Nếu P(X >χ2) ¿α chấp nhận giả thiết Ho và ngược lại
ÁP DỤNG MS-EXCEL
Nhập dữ liệu vào bảng tính
Sắp xếp dữ liệu theo bảng trắc nghiệm hai mẫu độc lập
Thiết lập một số biểu thức và tiến hành tính toán:
Tính các tổng số:
o Tổng hàng (Row totals): Chọn ô E3 và nhập vào biểu thức =SUM(B3:D3)
18
Trang 19BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ GVHD: GS.TS NGUYỄN ĐÌNH HUY
Dùng con trỏ để kéo nút tự điền từ ô E3 đến E6
o Tổng cột (Column totals): Chọn ô B7 và nhập vào biểu thức =SUM(B3:B6)
Dùng con trỏ kéo nút tự điền từ ô B7 đến D7
o Tổngcộng (Grand total): Chọn ô E7 và nhập biểu thức =SUM(B7:D7) hoặc
=SUM(E3:E6)
Tính các tần số lý thuyết:
Tần số lý thuyết = (tổng hàng × tổng cột) / tổng cộng
o Các tần số ung thư ruột:
- Tại Mỹ: chọn ô B10 và nhập vào biểu thức =E3*B7/E7
- Tại Nhật: chọn ô C10 và nhập vào biểu thức =E3*C7/E7
- Tại Anh: chọn ô D10 và nhập vào biểu thức =E3*D7/E7
o Các tần số ung thư ngực:
- Tại Mỹ: chọn ô B11 và nhập vào biểu thức =E4*B7/E7
- Tại Nhật: chọn ô C11 và nhập vào biểu thức =E4*C7/E7
- Tại Anh: chọn ô D11 và nhập vào biểu thức =E4*D7/E7
o Các tần số ung thư dạ dày:
- Tại Mỹ: chọn ô B12 và nhập vào biểu thức =E5*B7/E7
- Tại Nhật: chọn ô C12 và nhập vào biểu thức =E5*C7/E7
- Tại Anh: chọn ô D12 và nhập vào biểu thức =E5*D7/E7
o Các tần số ung thư bộ phận khác:
- Tại Mỹ: chọn ô B13 và nhập vào biểu thức =E6*B7/E7
- Tại Nhật: chọn ô C13 và nhập vào biểu thức =E6*C7/E7
- Tại Anh: chọn ô D13 và nhập vào biểu thức =E6*D7/E7
- Vì tần số lý thuyết của ruột, ngực ở Anh ≤ 5 nên không thể áp dụng tiêu chuẩn 2 taphải ghép ruột và ngực
Trang 20BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ GVHD: GS.TS NGUYỄN ĐÌNH HUY
Nhập lại dữ liệu vào bảng tính
Có thể áp dụng tiêu chuẩn 2 vì các tần số lý thuyết ≥ 5
Tính xác suất P(X >χ2) :
Chọn ô B15 và nhập vào biểu thức =CHITEST(B3:D6;B10:D13)
Hoặc chọn FormulasMore FunctionsStatistical CHITEST
20
Trang 21BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ GVHD: GS.TS NGUYỄN ĐÌNH HUY
Xuất hiện hộp thoại Function Agruments
Ta được P = 7,5363E-06¿ 0.01 nên bác bỏ giả thuyết H0
Kết luận:Như vậy tình hình ung thư ở các nước là khác nhau.
BÀI 4:
Theo dõi doanh thu của 4 cửa hàng thuộc một Công ty (triệu đ/tháng) người ta được số liệunhư sau:
Tháng kinh doanh
Cửa hàng
123456
12,312,611,615,218,617,1
14,212,411,511,6
15,617,118,212,511,8
17,215,812,2
Hãy so sánh doanh thu trung bình/tháng của các cửa hàng thuộc Công ty nói trên Mức ýnghĩa = 5%
Trang 22BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ GVHD: GS.TS NGUYỄN ĐÌNH HUY
Phép phân tích phương sai được dùng trong các trắc nghiệm để so sánh các giá trịtrung bình của hai hay nhiều mẫu được lấy từ các phân số
Đây có thể được xem nhưphần mở rộng các trắc nghiệm t hay z (so sánh hai giá trịtrung bình)
Mục đích của sự phân tích phương sai một yếu tố là đánh giá sự ảnh hưởng của một yếu tố (nhân tạo hay tự nhiên) nào đó trên các giá trị quan sát, Yi(i=0,1,2,…,k)
Tổng số bình phương
Bình phương trung
bình
Giá trị thống kê
SSE=SST-SSF
MSF=
SSF k−1
H 0 : μ1=μ2= .=μk⇔ “Các giá trị trung bình bằng nhau”
H 1 : μ i≠μ j⇔ “Ít nhất có hai giá trị trung bình khác nhau”
Giá trị thống kê: F=
MSF MSE
Biện luận: Nếu F < Fα(k-1;N-k) => chấp nhận giả thiết H0
ÁP DỤNG MS-EXCEL
22
Trang 23BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ GVHD: GS.TS NGUYỄN ĐÌNH HUY
Giả thiếtH 0 : µ 1 = µ 2 = µ 3 = µ 4 ; tức doanh thu trung bình/tháng của các cửa hàng bằng nhau
Nhập dữ liệu vào bảng tính
Áp dụng Anova: Single Factor
Chọn DataData Analysis
Chọn chương trình Anova: Single Factor trong hộp thoại Data Analysis rồi nhấn nút OK
Trong hộp thoại Anova: Single Factor lần lượt ấn định
Trang 24BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ GVHD: GS.TS NGUYỄN ĐÌNH HUY
Trang 25BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ GVHD: GS.TS NGUYỄN ĐÌNH HUY
Kết quả và biện luận
Từ giá trị trong bảng Anova:
1.2:1.0:9.8:1
8
3.1:3.5:2.715.02.0:2.2:1.8
2.0:2.49.5:9.3:9.11.2:1.3:1.2
5.0:5.419.5:17.55.0:4.8:5.2
Giải:
DẠNG TOÁN:
Phân tích phương sai hai yếu tố (có lặp)
CƠ SỞ LÝ THUYẾT:
Khái niệm thống kê
Bài toán phân tích phương sai 2 yếu tố có lặp tương tự như bài toán phân tích phươngsai 2 yếu tố không lặp, chỉ khác mỗi mức (Ai, Bj) đều có sự lặp lại r lần thí nghiệm và ta cầnkhảo sát thêm sự tương tác (interaction term) F1 giữa 2 nhân tố A và B
Mẫu điều tra:
Trang 26BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ GVHD: GS.TS NGUYỄN ĐÌNH HUY
Xử lý mẫu:
26
Trang 27BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ GVHD: GS.TS NGUYỄN ĐÌNH HUY
Trang 28BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ GVHD: GS.TS NGUYỄN ĐÌNH HUY
ÁP DỤNG MS-EXCEL
Giả thuyết:
Nhập dữ liệu vào bảng tính
Áp dụng: Anova: two-factor with replication.
28
Trang 29BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ GVHD: GS.TS NGUYỄN ĐÌNH HUY
Hộp thoại: Anova: two-factor with replication Hiện ra.
Trang 30BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ GVHD: GS.TS NGUYỄN ĐÌNH HUY
30