BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2012a Nhấp lần lượt đơn lệnh Tools và lệnh Data Analysis b Chọn chương trình Regression trong hộp thoại Data Analysis rồi nhấn nút OK c Trong hộp Regression
Trang 2BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2012
Câu 1: Trình bày lại ví dụ 3.4 trang 161 và ví dụ 4.2 trang 171 Giáo Trình XSTK
2009
Ví dụ 3.4 Hiệu suất phần trăm (%) của một phản ứng hóa học được nghiên cứu theo
ba yếu tố: pH (A), nhiệt độ (B) và chất xúc tác (C) được trình bày trong bảng sau:
Hãy đánh giá về ảnh hưởng của các yếu tố trên hiệu suất phản ứng
Bài làm:
1 Dạng toán: PHÂN TÍCH PHƯƠNG SAI BA YẾU TỐ
2 Cơ sở lý thuyết:
Sự phân tích này được dùng để đánh giá về sự ảnh hưởng của ba yếu tố trên các
giá trị quan sát G (i = 1, 2 r: yếu tố A; j = 1, 2 r: yếu tố B: k = 1, 2 r: yếu tố C).
Trang 3Mô hình vuông la tinh ba yếu tố được trình bày như sau:
Yếu tố C (T k Ví dụ: T 1 = Y111 + Y421 + Y331 + Y241)
Trang 4BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2012
Nếu G (chấp nhận H 0 (đối với yếu tố A))
Nếu G (chấp nhận H 0 (đối với yếu tố B))
Nếu G (chấp nhận H 0 (đối với yếu tố C)).
3 Phần mềm: Microsoft Excel 2010.
4 Chương trình:
5 Phương pháp giải bài toán trên Excel 2010:
Giả thiết H0: pH ảnh hưởng đến hiệu suất phản ứng
Giả thiết H0: Nhiệt độ ảnh hưởng đến hiệu suất phản ứng
Giả thiết H0: Chất xúc tác ảnh hưởng đến hiệu suất phản ứng
Bước 1: Nhập dữ liệu vào bảng tính:
Bước 2: Thiết lập các biểu thức và tính giá trị thống kê:
Tính các giá trị Ti…,Tj và T k ,T…
- Các giá trị Ti
Chọn ô B7 và nhập biểu thức =SUM(B2:E2)Chọn ô C7 và nhập biểu thức =SUM(B3:E3)Chọn ô D7 và nhập biểu thức =SUM(B4:E4)Chọn ô E7 và nhập biểu thức =SUM(B5:E5)
- Các giá trị T.j.
Trang 5- Các giá trị T k
Chọn ô B9 và nhập biểu thức =SUM(B2,C5,D4,E3)Chọn ô C9 và nhập biểu thức =SUM(B3,C2,D5,E4)Chọn ô D9 và nhập biểu thức =SUM(B4,C3,D2,E5)Chọn ô E9 và nhập biểu thức =SUM(B5,C4,D3,E2)
-Giá trị MSE
Chọn ô K10 và nhập biểu thức =I10/((4-1)*(4-2))
Tính giá trị G và F
Chọn ô M7 và nhập biểu thức =K7/0.3958Dùng con trỏ kéo kí hiệu tự điền từ ô M7 tới ô M9
Trang 6BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2012
Bước 3: Kết quả và biện luận
FR = 3.10 < F0.05(3,6) = 4.76 chấp nhận Ho (pH)
FC = 11.95 > F0.05(3,6) = 4.76 bác bỏ Ho (nhiệt độ)
F = 30.05 > F0.05 (3,6)=4.76 bác bỏ Ho (chất xúc tác)Vậy chỉ có nhiệt và chất xúc tác gây ảnh hưởng đến hiệu suất
Ví dụ 4.2 Người ta đã dùng ba mức nhiệt độ gồm 105, 120 và 1350C kết hợp với bakhoảng thời gian là 15, 30, 60 phút để thực hiện một phản ứng tổng hợp Các hiệu suấtcủa phản ứng (%) được trình bày trong bảng sau đây:
Trang 8BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2012
F=
MSR MSE
MSE =
MSR MSE
Giá trị R 2 được hiệu chỉnh (Adjusted R Square)
( sẽ trở nên âm hay không xác định nếu R2 hay N nhỏ)
Trang 9- Trong trắc nghiệm F:
H0: βi = 0 “Phương trình hồi quy không thích hợp”
H1: βi ¿ 0 “Phương trình hồi quy thích hợp với ít nhất vài hệ số Bi”
Bậc tự do của giá trị F: v1 = 1, v2 = N – k – 1
3 Phần mềm: Micsrosoft Excel 2010.
4 Chương trình: Regression.
5 Phương pháp giải bài toán trên Excel 2010.
Bước 1: Nhập dữ liệu vào bảng tính:
Dữ kiệu nhất thiết phải được nhập theo cột:
B ư ớ c 2 : Nếu trong menu Tools chưa có mục Data Analysis , tiến hành cài
Analysis
ToolPak như sau :
Chọn File/Option/Add-Ins/Data Analysis Tool Pak /Go…/ Analysis Tool Pak
/OK… như
trong hình :
Trang 10BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2012
a) Nhấp lần lượt đơn lệnh Tools và lệnh Data Analysis
b) Chọn chương trình Regression trong hộp thoại Data Analysis rồi nhấn nút OK c) Trong hộp Regression, lần lượt ấn định các chi tiết:
- Phạm vi của biến số Y (Input Y Range)
- Phạm vi của biến số X (Input X Range)
- Nhãn dữ liệu (Labels)
- Mức tin cậy (Confidence Level)
- Tọa độ đầu ra (Output Range)
- Và một số tùy chọn khác như đường hồi quy (Line Fit Plots), biểu thức sai số
(residuals plots )
Trang 11Phương trình hồi quy
= 2,73 + 0,04X1 (R2 = 0,21; S = 1.81)
Trang 12BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2012
Vậy cả 2 hệ số 2,37 (B0) và 0,04(B1) của phương trình hồi quy = 2,73 + 0.04X1
đều không có ý nghĩa thống kê Nói một cách khác, phương trình hồi quy này khôngthích hợp
Trang 13Kết Luận:
Yếu tố thời gian không liên quan tuyến tính tới hiệu suất của phản ứng tổng hợp
Phương trình hồi quy:
= 2,73 + 0.04X2 (R2 = 0,76; S = 0,99)
Trang 14BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2012
Trang 15Kết Luận: Yếu tố nhiệt độ có liên quan tuyến tính với hiệu suất của phản ứng tổng hợp Phương trình hồi quy
-12,70 + 0,04X1 + 0.13X2(R2 = 0,97; S = 0,33)
Trang 16BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2012
Trang 17Vậy cả 2 hệ số -12.70 (B0); 0,04 (B1) và 0,13(B2) của phương trình hồi quy
-12,70 + 0,04X 1 + 0,13X 2 đều có ý nghĩa thống kê Nói một cách khác,phương trình hồi quy này thích hợp
Kết luận: Hiệu suất của phản ứng tổng hợp có liên quan tuyến tính với cả hai
yếu tố là thời gian và nhiệt độ
Sự tuyến tính của phương trình -12,70 + 0,04X 1 + 0,13X 2 có thể được
trình bày trên biểu đồ phân tán (scatterplots):
0 1 2 3 4 5 6 7 8
Hàm l ng th c nghi m (Y)ượ ự ệ
Muốn dự đoán hiệu suất của phản ứng bằng phương trình hồi quy :
-12,70 + 0,04X 1 + 0,13X 2 , bạn chỉ cần chọn một ô, ví dụ B21, sau đó nhập hàm và được
kết quả như sau:
Ghi chú: B17 tọa độ của B0, B18 tọa độ của B1, B19 tọa độ của B2, 50 là giá
trị của X (thời gian) và 115 là giá trị của X (nhiệt độ)
Trang 18BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2012
Câu 2 : Bảng sau đây cho ta một mẫu gồm 11 quan sát (xi, yi) từ tập hợp chính cácgiá trị của cặp ĐLNN (X, Y):
X 0,9 1,22 1,32 0,77 1,3 1,2
Y -0,3 0,1 0,7 -0,28 -0,25 0,02
X 1,32 0,95 1,45 1,3 1,2
Y 0,37 -0,70 0,55 0,35 0,32a) Tìm đường hồi quy của Y đối với X
b) Tính sai số tiêu chuẩn của đường hồi quy
c) Tính tỷ số F để kiểm định sự đúng đắn của giả thiết: Có hồi quy tuyến tính của Ytheo X
Trang 19GIÁ TRỊ THỐNG KÊ:
Gía trị R-bình phương (R-square):
(100R 2 : % của biến đổi trên Y đượcgiải thích bởi X)
Độ lệch chuẩn (Standard Error)
(Sự phân tán của dữ liện càng ít thì giá trị của S càng gần zero).
Trắc nghiệm thống kê:
Đối với một phương trình hồi quy , ý nghĩa thống kê của các hệ số Bi
(B0 hay B) được đánh giá bằng trắc nghiệm t (phân phối Student) trong khi tính chất
thích hợp của phương trình được đánh giá bằng trắc nghiệm F (phân bố
Fischer)
Trắc nghiệm t:
- Giả thiết:
H0: βi = 0 “Hệ số hồi quy không có ý nghĩa”
H0: βi ≠ 0 “Hệ số hồi quy có ý nghĩa”
Trang 20BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2012
5 Phương pháp giải bài toán trên Excel 2010.
Gỉa thiết H 0 : Hệ số góc α của đường thẳng hồi quy của Y đối với X bằng 0
Bước 1: Nhập dữ liệu vào bảng:
B ư ớ c 2 : Nếu trong menu Tools chưa có mục Data Analysis , tiến hành cài
Analysis
ToolPak như sau :
Chọn File/Option/Add-Ins/Data Analysis Tool Pak /Go…/ Analysis Tool Pak
/OK… như
trong hình :
Trang 21 Bước 3 : Sử dụng “Regression”
a) Nhấp lần lượt đơn lệnh Tools và lệnh Data Analysis
b) Chọn chương trình Regression trong hộp thoại Data Analysis rồi nhấn nút OK c) Trong hộp Regression, lần lượt ấn định các chi tiết:
- Phạm vi của biến số Y (Input Y Range)
- Phạm vi của biến số X (Input X Range)
- Nhãn dữ liệu (Labels)
- Mức tin cậy (Confidence Level)
- Tọa độ đầu ra (Output Range)
- Và một số tùy chọn khác như đường hồi quy (Line Fit Plots), biểu thức sai số
(residuals plots )
Trang 22BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2012
Ta được bảng kết quả sau:
Trang 23Kết luận:
a) Đường hồi quy của Y đối với X:
b) Sai số tiêu chuẩn 0.289645139
c) Tỷ số F = 12.6367483
Tra bảng phân phối Fisher với bậc tự do (3,4) ở mức 5% bằng cách nhập hàm
c = FINV(0.05,1,7) ta được giá trị c = 5.591447851
Vì F > c nên ta bác bỏ Ho
Vậy ta khẳng định Hệ số góc α của đường thẳng hồi quy của Y đối với X khác 0
Câu 3: Bảng sau đây cho ta phân bố thu nhập của hai nhóm tuổi: Nhóm từ 40 – 50tuổi và nhóm từ 50 – 60 tuổi trong số các công nhân lành nghề ở Thụy Điển năm1930
Nhóm tuổi Thu nhập
0 – 1 1 – 2 2 – 3 3 – 4 4 – 6 6
Trang 24BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2012
1 Dạng toán: PHÂN TÍCH PHƯƠNG SAI MỘT NHÂN TỐ
2 Cơ sở lý thuyết:
Giả sử ta có k ĐLNN có phân bố chuẩn X1, X2, Xk, trong đó
Các giá trị trung bình i và phương sai đều chưa biết Tuy nhiên chúng tagiả thiết rằng các phương sai bằng nhau:
Chúng ta muốn kiểm định xem liệu các giá trị trung bình i này có như nhauhay không:
Trong thống kê vấn đề trên thường được xem xét dưới góc độ sau đây
Giả sử chúng ta quan tân đến một nhân tố X (factor) nào đó Nhân tố X cóthể xem xét ở k mức khác nhau Ký hiệu Xi là hiệu quả của việc tác động nhân
tố X ở mức i đối với cá thể Như vậy i là hiệu quả trung bình của nhân tố X ởmức i chúng ta muốn biết khi cho nhân tố X thay đổi các mức khác nhau thìđiều đó có ảnh hưởng hay không tới hiệu quả trung bình
Ta đưa ra một số kí hiệu sau
*) Trung bình của mẫu thứ i (tức là mẫu ở cột thứ i trong bảng trên):
2 2 2
1 2 k
Trang 26BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2012
+ k – 1 được gọi là bậc tự do của nhân tố
Trung bình bình phương của sai số, ký hiệu là MSE (viết tắt của chữ MeanSquare for Error) được tính bởi công thức:
n – k được gọi là bậc tự do của sai số
+ Tỷ số F được tính bởi công thức
Các kết quả nói trên được trình bày trong bảng sau đây gọi là ANOVA (viếttắt của chữ Analysis of Variance: phân tích phương sai)
Bảng ANOVA
Nguồn Tổng bình
phương Bậc tự do
Trungbình bìnhphương Tỷ số FNhân tố SSF k – 1 MSF MSF/MSE
Sai số SSE n – k MSE
Tổng số SST n – 1
Người ta chứng minh được rằng nếu giả thiết Ho đúng thì tỷ số F
sẽ có phân bố Fisher với bậc tự do là (k – 1, n – k)
Thành thử giả thiết Ho sẽ bị bác bỏ ở mức ý nghĩa của phân bố Fisher với bậc
tự do là (k – 1, n – k) Trong bảng IV, k – 1 được gọi là bậc tự do ở mẫu số
3 Phần mềm: Micsrosoft Excel 2010.
4 Chương trình: ANOVA: Single Factor, CHITEST.
5 Phương pháp giải bài toán trên Excel 2010.
Giả thiết H 0 : Phân bố thu nhập của hai nhóm tuổi là như nhau
Bước 1: Nhập bảng dữ liệu :
Trang 27 Bước 2: Áp dụng “ANOVA: Single Factor”
a) Nhấp lần lượt đơn lện Tools và lệnh Data Analysis.
b) Chọn chương trình ANOVA: Single Factor trong hộp thoại Data Analysis rồi nhấp nút OK
c) Trong hộp thoại ANOVA: Single Factor, lần lượt ấn định:
- Phạm vi đầu vào (Input Range)
- Cách sắp xếp theo hàng hay theo cột (Group By)
- Nhãn dữ liệu (Labels in First Row/ Column)
Trang 28BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2012
Kết quả và biện luận:
F = 0.28559 < =7.638422
Chấp nhận giả thiết H0
Vậy phânbố thu nhập giữa hai nhóm tuổi này trong số các công nhân lành nghề là giống nhau
hàng năm và tuổi của họ Kết quả thu được như sau:
Với mức ý nghĩa 1%, kiểm định giả thiết cho rằng tuổi và mức thu nhập không
có quan hệ với nhau
Bài làm:
1 Dạng toán: KIỂM ĐỊNH TÍNH ĐỘC LẬP
2 Cơ sở lý thuyết:
Trang 29hiệu này biểu thị được bởi một con số, hay nói cách khác có thể gán số đo cho dấuhiệu này lên các cá thể, thì ta nói dấu hiệu này là một biến lượng hay là một dấuhiệu định lượng Chẳng hạn nếu cad thể là người thì biến lượng có thể là chiềucao, trong lượng, tuổi tuy nhiên trong thực tế có những dấu hiệu không thể đođạc để biểu diễn bằng con số được Chẳng hạn màu tóc, màu mắt của một người,cảm giác hạnh phúc, sự yêu thích một cuốn phim nào đó Đó đều là những dấuhiệu không đo đạc được Ta gọi đó là những dấu hiệu định tính
Trong mục này ta sẽ xét bài toán kiểm tra tính độc lập của hai dấu hiệu Trướchết, chúng ta xét bài toán kiểm định tính độc lập của dấu hiệu định tính A và B
Ta chia dấu hiệu A ra làm r mức độ A1, A2, , Ar, và chia đặc tính B làm k mức
độ B1, B2, , Bk Xét một mẫu ngẫu nhiên gồm n cá thể Mỗi cá thể sẽ mang dấuhiệu A ở mức Ai nào đó và mang dấu hiệu B ở mức Bj nào đó Giả sử nij là số cáthể có các dấu hiệu Ai và Bj Các số liệu nij được ghi trong bảng sau đây gọi làbảng liên hợp các dấu hiệu (Contingency Table)
Trong đó ký hiệu pij là xác suất để một cá thể chọn ngẫu nhiên mang dấu hiệu Ai
và Bj ; pjo và poj tương ứng là xác suất để cá thể mang dấu hiệu Ai và Bj
Nếu giả thiết Ho “Hai dấu hiệu A và B độc lập” chúng ta có hệ thức sau:
pij = pio.poj
Các xác suất pio và poj được ước lượng bởi
Trang 30BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2012
Do đó Ho đúng thì
,
và số cá thể có đồng thời dấu hiệu Ai và Bj sẽ xấp xỉ bằng
Các số được gọi là các tần số lý thuyết (TSLT), còn các số nij được gọi là cáctần số quan sát (TSQS) Khoảng cách giữa các TSLT và TSQS được đo bằng đạilượng sau:
Người ta đã chứng minh được rằng nếu n lớn và các TSLT không nhỏ hơn 5 thì
T sẽ có phân bố xấp xỉ phân bố 2 với bậc tự do là (k–1).(r–1) Thành thử Ho sẽ
bị bác bỏ ở mức ý nghĩa nếu T > c, trong đó c là phân vị mức của phân bố 2
với (k–1).(r–1) bậc tự do
Chú ý Ta có các thức sau đây khá thuận lợi trong tính toán thực hành:
Trong trường hợp k = r = 2 (bảng liên hợp có hai dòng, hai cột) thì
trong đó
là định thức của ma trận
3 Phần mềm: Micsrosoft Excel 2010.
4 Chương trình: CHITEST, CHIINV.
5 Phương pháp giải bài toán trên Excel 2010.
Trang 31Bước 1: Nhập dữ liệu vào bảng
Bước 2: Tính tổng cột , tổng hàng
Chọn ô B6 và nhập biểu thức =SUM(B3:B5)
Dùng con trỏ kéo kí hiệu tự điền từ ô B6 đến ô D6
Chọn ô E3 và nhập biểu thức =SUM(B2:D2)
Dùng con trỏ kéo kí hiệu tự điền từ ô E3 đến ô E6
Bước 3: Tính dữ liệu kỳ vọng ij theo công thức: ij = Tổng hàngi * Tổng
cộtj / n
Chọn ô B12 và nhập biểu thức = =B$6*$E3/$E$6
Dùng con trỏ kéo kí hiệu tự điền từ ô B12 đến ô D14
Trang 32BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2012
Bước 4: Tính xác suất P(X > 2 ) : ta dùng hàm CHITEST
Chọn ô B16 và nhập biểu thức =CHITEST(B3:D5,B12:D14) ta được kết quả là P(X > 2 ) = 0.14375984
Vậy tuổi và mức thu nhập không có quan hệ với nhau.
Câu 5: Với mức ý nghĩa = 5%, Hãy phân tích tình hình kinh doanh của 1 số ngành
nghề ở 4 quận nội thành trên cơ sở số liệu về doanh thu của 1 số mặt hàng như sau:
3.1:3.5:2.7 15.0 2.0:2.2:1.8
2.0:2.4 9.5:9.3:9.1 1.2:1.3:1.2
5.0:5.4 19.5:17.5 5.0:4.8:5.2
Bài làm:
1 Dạng toán: PHÂN TÍCH PHƯƠNG SAI HAI NHÂN TỐ (CÓ LẶP)
2 Cơ sở lý thuyết:
Giả sử chúng ta quan tâm tới nhân tố A và B Nhân tố A được xem xét ở các mức A1,
A2, Ar, và nhân tố B được xem xét ở các nước B1, B2, Bc
Gọi Xjk là ĐLNN đo lường hiệu quả việc tác động của mức Aj và Bk lên cá thể.Giả sử x1jk, x2jk, , xnjk
là mẫu kích thước njk rút ra từ tập hợp chính các giá trị của Xjk Ta gọi đó là mẫu (j, k)
Ta đưa ra một số ký hiệu sau:
Trang 34BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 2012
+ Tổng bình phương do sai số, ký hiệu là SSE, được tính theo công thức
+ Tổng bình phương do tương tác (Sum of Squares for Interaction) ký hiệu làSSI, được tính theo công thức
+ Trung bình bình phương của nhân tố A, ký hiệu là MSFA’ được tính bởi côngthức:
r – 1 gọi là bậc tự do của A bằng số mức của A trừ 1
+ Trung bình bình phương của nhân tố B, ký hiệu là MSFB’ được tính bởi côngthức
c – 1 gọi là bậc tự do của B bằng số mức của B trừ 1
+ Trung bình bình phương của sai số, ký hiệu là MSE, được tính bởi
n – cr gọi là bậc tự do của sai số
+ Trung bình bình phương của tương tác, ký hiệu là MSI, được tính bởi
(c – 1) (r – 1) gọi là bậc tự do của tương tác
Chú ý rằng:
(r – 1) + (c – 1) + (c – 1) (r – 1) + n – rc = n – 1 = bậc tự do tổng cộng
+ Tỷ số F cho nhân tố A, ký hiệu bởi FA được tính như sau
Tương tự tỷ số F cho nhân tố B, FB được tính bởi
Trang 35Với mức ý nghĩa đã cho ta ký hiệu f (u, v) là phân vị mức của phân bốFisher với bậc tự do (u, v).
Ta có quy tắc quyết định như sau:
+ Nếu FA > f (r – 1, n – cr) thì ta bác bỏ giả thiết
“Các mức A1, Ar có hiệu quả trung bình như nhau”
+ Nếu FB > f (c – 1, n – cr) thì ta bác bỏ giả thiết:
“Các mức B1, B2, Bc có hiệu quả trung bình như nhau”
Nếu FAB > f ((r – 1)(c – 1), n – rc)
Ta bác bỏ giả thiết:
“Có sự tương tác giữa A và B”
Trên thực hành tính toán chúng ta thực hiện như sau:
Giả sử Tjk là tổng các giá trị trong mẫu (j, k) Ký hiệu
(3)
Ta có các đẳng thức sau: