Trắc nghiệm thống kêĐối với một phương trình hồi quy ý nghĩa thống kê của các hệ số Bi được đánh giá bằng trắc nghiệm t phân phối student trong khi tính chất thích hợp của phương trình đ
Trang 1Báo Cáo
Trang 2Bài 1: Trình bày lại ví dụ 3.4 trang 161 và
ví dụ 4.2 trang 171 Giáo Trình XSTK
2009.
• Ph n A:(ví du 3.4 trang 161sgk) ần A:(ví du 3.4 trang 161sgk)
Trang 3Hiệu xuất phần trăm (%) của một phản ứng hóa học được nghiên cứu theo 3 yếu tố:pH(A),nhiệt độ (B) và chất xúc tác (C)được trình bày trong bảng sau:
Trang 4I Dạng toán: phân tích phương sai ba yếu tố
II Cơ sở lý thuyết
• Mục đích của sự phân tích phương sai ba yếu tố là
đánh giá sự ảnh hưởng của ba yếu tố (nhân tạo hay
tự nhiên) nào đó trên các giá trị quan sát
• Sự phân tích này được dùng để đánh giá về sự ảnh
hưởng của 3 yếu tố trên các giá trị quan sát
G(i=1,2…r:yếu tố A;j=1,2…r:yếu tố B;k=1,2…r:yếu tố C)
• Mô hình ba yếu tố được trình bày như sau:
Bài làm
Trang 5Mô hình ba yếu tố được trình bày như sau
Tk: T1= Y111+ Y421+ Y334+ Y241
T2= Y212+ Y122+ Y412+ Y342
T3= Y313+ Y223+ Y133+ Y443
T4= Y414+ Y324+ Y234+ Y144
Trang 6•B ng ANOVAảng ANOVA
Nguồn sai
số
Bậc tự do
Tổng số bình phương
Bình phương trung
bình
Giá trị thống kê
MSE
C
MSC F
MSE
MSF F
MSE
Trang 7III Áp dụng MS-EXCEL:
H0: µ1 = µ2 = µ3 =…= µn Các giá trị trung bình bằng nhau
H1: µj ≠ µk Có ít nhất hai giá trị trung bình khác nhau
Trang 8Thiết lập các biểu thức và tính các giá trị thống kê
Tính các giá trị Ti… T.j… T k và T
Các giá trị Ti…
Chọn ô B7 và chọn biểu thức=SUM(B2:E2) Chọn ô C7 và nhập biểu thức=SUM(B3:E3) Chọn ô D7 và nhập biểu thức=SUM(B4:E4) Chọn ô E7 và nhập biểu thức=SUM(B4:E4) Các giá trị T.j.
Chọn ô B8 và nhập biểu thức=SUM(B2:B5) Dùng con trỏ kéo ký tự điền từ ô B8 đến ô E8 Các giá trị T k
Chọn ô B9 và nhập biểu thức=SUM(B2,C5,D4,E3) Chọn ô C9 và nhập biểu thức=SUM(B3,C2,D5,E4) Chọn ô D9 và nhập biểu thức=SUM(B4,C3,D2,E5) Chọn ô E9 và nhập biểu thức=SUM(B5,C4,D3,E2) Giá trị T…
Chọn ô B10 và nhập biểu thức=SUM(B2:B5)
Trang 92.Tính các giá trị G
Các giá trị G
Chọn ô G7 và nhập biểu thức=SUMSQ(B7:E7) Dung con trỏ kéo ký hiệu tự điền từ G7 đến ô G9 Chọn ô G10 và nhập biểu thức=POWER(B10,2) Chọn ô G11 và nhập biểu thức=SUMSQ(B2:E5)
3 Tính các giá trị SSR.SSC.SSF.SST và SSE
Các giá trị SSR.SSC.SSF
Chọn ô I7 và nhập biểu thức=G7/4-39601/POWER(4,2) Dùng con trỏ kéo ký tự điền từ ô I7 đến ô I9
Trang 115 Tính các giá trị G và F:
Chọn ô M7 và nhập biểu thức=K7/0.3958 Dùng con trỏ kéo ký tự điền từ ô M7 đến M9.
Trang 12FR=3.10<F0.05(3.6)=4.76=>chấp nhận H0(Ph)
FC=11.95> F0.05(3.6)=4.76=> bác bỏ H0(nhiệt độ)
F=30.05> F0.05(3.6)=4.76=>bác bỏ H0(chất xúc tác)
Vậy chỉ có nhiệt độ và chất xúc tác gây ảnh hưởng đến hiệu suất
IV KẾT QUẢ VÀ BIỆN LUẬN
Trang 13•Ph n B:(ví du 4.2 trang 171) ần A:(ví du 3.4 trang 161sgk)
Người ta dùng 3 mức nhiệt độ gồm 105,120 và 1350C kết hợp với 3 khoảng thời gian là 15,30 và 60 phút để thực hiện một phản ứng tổng hợp.các hiệu xuất của phản ứng(%) được trình bày trong bảng sau:
Thời gian (phút)
X1
Nhiệt độ ( 0 C) X2
Hiệu xuất (%) Y
Trang 14Hãy cho biết yếu tố nhiệt độ và thời gian/hoặc yếu tố thời gian
có liên quan tuyến tính với hiệu xuất của phản ứng tổng hợp?nếu có thì điều kiện nhiệt độ 1150C trong vòng 50 phút thì
hiệu xuất phản ứng sẻ là bao nhiêu?
Giải:
I.Dạng toán: • h i quy tuy n tính đa tham s ồi quy tuyến tính đa tham số ến tính đa tham số ố
II.Cơ sở lý thuyết:
• H I QUY TUY N TÍNH A THAM S ỒI QUY TUYẾN TÍNH ĐA THAM SỐ ẾN TÍNH ĐA THAM SỐ ĐA THAM SỐ Ố
Trong phương trình hồi quy tuyến tính đa tham số ,biến
số Y có liên quan đến k biến số độc lập
Phương trình tổng quát:
• Y(x0,x1,…xk) =B0+B1X1+…+BkXk
Trang 15Bình phương trung bình
Giá trị thống kê
k
F=MSR/MSE
(N-k-1)
SSE
Trang 17Trắc nghiệm thống kê
Đối với một phương trình hồi quy ý nghĩa thống kê của các hệ
số Bi được đánh giá bằng trắc nghiệm t (phân phối student)
trong khi tính chất thích hợp của phương trình được đánh giá bằng trắc nghiệm F (phân phối Fisher)
Trong trắc nghiệm t
H0:Các hệ số hồi quy không có ý nghĩa
H1:Có ít nhất vài hệ số hồi quy có ý nghĩa
Bậc tự do của giá trị t:
Trang 18-trong trắc nghiệm F:
H2:phương trình hồi quy không thích hợp
H3:phương trình hồi quy thích hợp với ít nhất vài βi
Bậc tự do của giá trị F:v1=1;vv=N-k-1
III.Áp dụng MS-EXCEL:
-Trong trắc nghiệm t:
H0 : Βi = 0 Các hệ số hồi quy không có ý nghĩa
H1 : Βi ≠ 0 Các hệ số hồi quy có ý nghĩa
-Trong trắc nghiệm F:
H0 : Βi = 0 Phương trình hồi quy không thích hợp
H1 : Βi ≠ 0 Phương trình hồi quy thích hợp với ít nhất vài Bi
Trang 19Bước 1:nhập dữ liệu vào bản tính
Dữ liệu nhất thiết phải được nhập theo cột
Bước 2:áp dụng Regression
Nhấn lần lượt đơn lệnh tools và lệnh data Analysis
Chọn chương trình Regression trong hộp thoại
data Analysis rồi nhấp OK
Trang 21•Trong hộp thoại Regression ,lần lượt ấn các chi tiết:
Phạm vi của biến số Y (input Y range)
Phạm vi của biến số X (input X range)
Nhãn dữ liệu(Labels)
Mức tin cậy(Confidence level)
Tọa độ đầu ra(Output range)
Đường hồi quy(line Fit Plots),…
Trang 23•Các giá trị đầu ra cho bảng sau:
Trang 24•Phương trình hồi quy:
Trang 25• Phương trình hồi quy:
Trang 26• IV.K t lu n ết luận ận : yếu tố nhiệt độ có liên quan tuyến tính
với hiệu xuất của phản ứng tổng hợp.
• Phương trình hồi quy:
• (R2=0.97; S=0.33)
Trang 28Vậy cả hai hệ số -12.70(B0),0.04(B1)và 0.13(B1)của
phương trình hồi quy
đều có ý nghĩa thống kê Nói cách khác,phương trinh hồi quy này thích hợp
•Kết luận: hiệu xuất của phản ứng tổng hợp có liên quan
tuyến tính với cả hai yếu tố là thời gian và nhiệt độ.
Trang 29•Sự tuyến tính của phương trình
có thể được trình bày trong biểu đồ phân
tán(scatterplots):
•BIỂU ĐỒ:
•Kết luận: hiệu xuất của phản ứng tổng hợp có liên quan
tuyến tính với cả hai yếu tố là thời gian và nhiệt độ.
Trang 30•Nếu muốn dự đoán hiệu xuất bằng phương trình hồi quy
chỉ cần chọn một ô,ví dụ như
•E20,sau đó nhập hàm=E17+E18*50+E19*115 và được kết
quả như sau:
•Ghi chú: E17 tọa độ của B0 ,E18 tọa độ của B1,E19 tọa độ
của B2,50 là giá trị của X1(thời gian) và 115 là giá trị của X2(nhiệt độ)
Trang 32Bước 1 nhập trị vào bảng sau đó vào tool-> data analysis
Trang 34Sau khi chỉnh thông tin trong bảng
nhấp ok ,ta được bảng sau
Trang 35Bước 2:tính hệ số tương quan của Y với X với bảng giá trị
Trang 36• -Input Range(phạm vi đầu vào):kéo thả
chuột từ A3 tới B31
• -Group by: chọn Columns
• -Chọn Labels in first row( có nhãn ở hàng
đầu tiên)
• -Có thể chọn output range( phạm vi dữ
liệu ra) ở trong sheet hiện hành( như
hình) hoặc in ra kết quả ra với -sheet mới.
• -Nhấp OK, thu được kết quả:
• Hệ số tương quan r =0.971131
• Hệ số xác định r2=0.943095
Trang 37Vì lTl>c nên bác bỏ giả thiết H
Vậy: X và Y có tương quan
Trang 38-Giả thiết Ho : X và Y không có tương quan phi tuyến.
Y X
Y X
r n k F
(k-2,n-Vì: F < c nên chấp nhận giả thiết H o
Vậy: X và Y không có tương quan phi tuyến.
Trang 39-Kết luận : +Tỷ số tương quan η2 Y/X=0.946903+ Hệ số tương quan :r=0.971131
+ Hệ số xác định r2=0.943095
với nhau
Trang 40Bài 3 Lượng sữa vắt được bởi 16 con bò cái khi cho nghe các lọai nhạc khác nhau (nhạc nhẹ, nhạc rốc, nhạc cổ
điển, không có nhạc) được thống kê trong bảng sau đây:
•Với mức ý nghĩa 2%, nhận định xem lượng sữa trung bình
của mỗi nhóm trên như nhau hay khác nhau Liệu âm
nhạc có ảnh hưởng đến lượng sữa của các con bò hay
không?
Trang 41I.Dạng tốn: Đây là bài tốn phân tích phương sai một yếu tố
Lượng sữa trung bình của bị ảnh hưởng bởi các loại nhạc Giả thiết H0: H0= µ1= µ2= µ3 là lượng sữa trung bình của mổi nhĩm là bằng nhau
Bài gi i ải
•II.Cơ sở lí thuyết:
• Gi sảng ANOVA ử là một mẫu có kích thước n1 rút ra từ tập
hợp chính các giá trị của X1; là một mẫu kích thước rút ra từ tập hợp chính các giá trị của X2, , là một mẫu kích thước nk rút ra từ tập hợp chính các giá trị của Xk Các số liệu thu được trình bày thành bảng ở dạng sau đây:
Trang 421
k i
Trang 43• Ta đưa ra một số kí hiệu sau
• Trung bình của mẫu thứ i (tức là mẫu ở cột thứ i trong bảng trên):
• Trung bình chung
• ở đó n = n1 + n2 + + nk;
• T = T1 + T2 + + Tk.
Trang 44• Tổng bình phương chung ký hiệu là SST (viết tắt là chữ Total Sum of Squares) được tính theo công thức sau:
• có thể chứng minh rằng
Trang 45•Tổng bình phương do nhân tố ký hiệu là SSF (viết tắt của chữ Sum of Squares for Factor) được tính theo công thức
sau:
• Tổng bình phương do sai số ký hiệu là SSE (viết tắt của chữ Sum of Squares for the Error) được tính theo công thức:
Trang 46• Từ công thức trên ta thấy
• SST = SSF + SSE
• Trung bình bình phương của nhân tố, ký hiệu là
MSF (viết tắt của chữ Mean Square for Factor) được tính bởi công thức:
• k – 1 được gọi là bậc tự do của nhân tố.
• Trung bình bình phương của sai số, ký hiệu là MSE (viết tắt của chữ Mean Square for Error) được tính bởi công thức:
Trang 47• n – k được gọi là bậc tự do của sai số.
• Tỷ số F được tính bởi công thức
• Các kết quả nói trên được trình bày trong bảng sau đây gọi là ANOVA (viết tắt của chũ Analysis of
Variance: phân tích phương sai)
Trang 48Nguồn Tổng
bình phương
Bậc tự do
Trung bình bình phương
• Người ta chứng minh được rằng nếu giả thiết Ho
đúng thì tỷ số F
•sẽ có phân bố Fisher với bậc tự do là (k – 1, n – k)
• B ng ANOVA ảng ANOVA
Trang 49• Thành thử giả thiết Ho sẽ bị bác bỏ ở mức ý nghĩa
của phân bố Fisher với bậc tự do là (k – 1, n – k),
• k – 1 được gọi là bậc tự do ở mẫu số.
• III.Thu t ận tốn:
•a.M ch ng trình Ms-EXCELở chương trình Ms-EXCEL ương trình Ms-EXCEL
•b.Nhập dử liệu vào bảng tính sử dụng hàm
ANOVA:single-factor từ data Analysis
• c.Bi n lu n: ện luận: ận:
•=>thu được bảng Anova ta thu được F
• nếu F<Fα=>chấp nhận giả thiết H0,ngược lại thì bác bỏ giả thiết H0
Trang 50IV.Giải toán bằng Excel:
Trang 51A)Nhấp lần lượt đơn lệnh Tool và lệnh Data Analysis
B)Chọn chương trình Anova: Single-Factor trong hộp thoại Data Analysis rồi nhấp nút OK.
Trong hộp thoại Anova: single factor lần lượt ấn định
•Phạm vi đầu vào(input range)
•Cách xắp xếp theo hang hay cột(group by)
Trang 52Nhấn dữ liệu(labels in fisrt row/column)
Phạm vi đầu ra(output range)
• Sau khi nh n OK xu t hi n b ng Anova: ấn OK xuất hiện bảng Anova: ấn OK xuất hiện bảng Anova: ện bảng Anova: ải
Trang 53V.Kết luận:
•Từ giá trị trong bảng Anova:
•F=1.35468< Fα=4.81448=> chấp nhận H0(loại nhạc)
=>lượng sữa trung bình của mỗi nhóm trên là giống nhau
=>vậy âm nhạc không ảnh hưởng đến lượng sửa của các con bò
Trang 54Bài 4: Với mức ý nghĩa 2%,Phân tích lãi suất của một lợi cổ
phiếu được đầu tư vào 5 khu vực khác nhau trên cơ sở bảng số liệu thống kê sau đây:
0,90,80,50,50,7
0,50,50,60,80,7
0,30,40,70,70,90,5
0,20,60,40,50,70,8
Trang 55Bài giải:
I.Dạng tốn:Đây là bài tốn phân tích phương sai một nhân tố
•Gi sảng ANOVA ử {X11, X21, ,Xn1}là một mẫu có kích thước n1 rút
ra từ tập hợp chính các giá trị của X1; {X12, X22, Xn2} là một mẫu kích thước rút ra từ tập hợp chính các giá trị của
X2, , {X1k, X2k, Xnk} là một mẫu kích thước nk rút ra từ tập hợp chính các giá trị của Xk Các số liệu thu được trình bày thành bảng ở dạng sau đây:
Trang 56Các mức nhân tố
Trang 57•Ta đưa ra một số kí hiệu sau
• Trung bình của mẫu thứ i (tức là mẫu ở cột thứ i trong bảng trên):
Trang 58•có thể chứng minh rằng
•Tổng bình phương do nhân tố ký hiệu là SSF (viết tắt của chữ Sum of Squares for Factor) được tính theo công thức sau:
Trang 59•Tổng bình phương do sai số ký hiệu là SSE (viết tắt của chữ Sum of Squares for the Error) được tính theo công thức:
•Từ công thức trên ta thấy
SST = SSF + SSE
Trang 60•Trung bình bình phương của nhân tố, ký hiệu là MSF (viết tắt của chữ Mean Square for Factor) được tính bởi công thức:
•k – 1 được gọi là bậc tự do của nhân tố
•Trung bình bình phương của sai số, ký hiệu là MSE (viết tắt của chữ Mean Square for Error) được tính bởi công thức:
•n – k được gọi là bậc tự do của sai số
Tỷ số F được tính bởi công thức
• Các kết quả nói trên được trình bày trong bảng sau đây gọi là ANOVA (viết tắt của chũ Analysis of Variance: phân tích phương sai)
Trang 62•sẽ có phân bố Fisher với bậc tự do là (k – 1, n – k)
Thành thử giả thiết Ho sẽ bị bác bỏ ở mức ý nghĩa của phân bố Fisher với bậc tự do là (k – 1, n – k), k – 1 được gọi là bậc tự do ở mẫu số
III.Tính tốn bằng Excel:
•Nhập dữ liệu vào bảng tính:
Trang 63•Nhấp lần lượt đơn lệnh Tool và lệnh Data Analysis
•Chọn chương trình Anova: Two trong hộp thoại Data Analysis rồi nhấp nút OK
•Trong hộp thoại Anova: Single-Factor, lần lượt ấn định các chi tiết:
Trang 64•Kết quả và biện luận:
F= 0.465581<F0.02=3.611493 =>Chấp nhận giả thiết H0.Vậy lãi suất của một lợi cổ phiếu được đầu tư vào 5 khu vực là
gi ng nhauố
Trang 65• Bài 5:
• Với mức ý nghĩa 1%,Theo dõi số học sinh đến lớp muộn của năm trường PTTH vào các ngày khác
nhau trong tuần người ta thu được số liệu về số
lượng học sinh trung bình đến lớp muộn của các
trường đó vào một ngày tiêu biểu trong tuần như sau:
4534
5343
7252
Trang 66•Bạn có nhận xét gì về số lượng học sinh đến lớp muộn của các trường Có sự khác biệt gì về số lượng học sinh đến lớp muộn vào các ngày khác nhau trong tuần?
Bài giải:
•II.Cơ sở lý thuyết:
•I.Dạng tốn :Phân tích phương sai hai yếu tố khơng lặp
•Sự phân tích này nhằm đánh giá sự ảnh hưởng của hai yếu tố trên các giá trị quan sát Yij(i=1, 2…r:yếu tố A;j= 1 ,2…
c:yếu tố B)
•*Giả thiết:
H0: µ1= µ2=…µk <=>”Các giá trị trung bình bằng nhau”
H1: µ1≠ µ2 <=>”Ít nhất có hai giá trị trung bình khác nhau”
Trang 67• *Biện luận:
Nếu FR < Fα[b-1,(k-1)(b-1)] => chấp nhận Hb-1,(k-1)(b-1)] => chấp nhận H0(yếu tố A)
Nếu FC < Fα[b-1,(k-1)(b-1)] => chấp nhận Hb-1,(k-1)(b-1)] => chấp nhận H0(yếu tố B)
Ta giả thiết :
H01:yếu tố ngày trong tuần không ảnh hưởng đến số lượng học sinh trung bình đến lớp muộn của các trường đó
H02:yếu tố trường khác nhau không ảnh
hưởng đến số lượng học sinh trung bình đến lớp muộn của các trường đó
*Giá trị thống kê:
III.Tính tốn bằng Excel:
Nhập dữ liệu vào bảng tính:
Trang 69•- Xuất hiện hộp lệnh“ Data Analysis” Chọn “Anova: Factor Without Replication”.
Trang 70Phạm vi đầu vào (Input
Range)
Nhãn dữ liệu (Labels in Fisrt
Row/Column)
Ngưỡng tin cậy ( Alpha ):0.01
Phạm vi đầu ra ( Output
Range)
Sau khi nhấp Ok ta được bảng sau:
Trang 71Anova: Two-Factor Without Replication
Trang 72=> số học sinh đến muộn giữa các trường là như nhau.
Vậy cả 2 yếu tố ngày trong tuần và trường khác nhau
đều không ảnh hưởng đến số lượng học sinh trung bình đến lớp muộn của các trường đó
Trang 73• The End
Thank you listening