Đại học Quốc Gia Tp Hồ Chí Minh Trường Đại học Bách Khoa Xem nội dung đầy đủ tại: https:123doc.orgdocument4838225timhieuvaungdungphanmempssecholuoidien.htmĐại học Quốc Gia Tp Hồ Chí Minh Trường Đại học Bách Khoa Xem nội dung đầy đủ tại: https:123doc.orgdocument4838225timhieuvaungdungphanmempssecholuoidien.htm
Trang 1Bài 1: Phần A:(ví du 3.4 trang 161sgk)
Hiệu xuất phần trăm (%) của một phản ứng hóa học được nghiên cứu
theo 3 yếu tố:pH(A),nhiệt độ (B) và chất xúc tác (C)được trình bày trong
Phân tích phương sai ba yếu tố
II CƠ SỞ LÝ THUYẾT
Mục đích của sự phân tích phương sai ba yếu tố là đánh giá sự ảnh
hưởng của ba yếu tố (nhân tạo hay tự nhiên) nào đó trên các giá trị quan
sát
Sự phân tích này được dùng để đánh giá về sự ảnh hưởng của 3 yếu
tố trên các giá trị quan sát G(i=1,2…r:yếu tố A;j=1,2…r:yếu tố
B;k=1,2…r:yếu tố C)
Trang 2
Mô hình vuông la tinh ba yếu tố được trình bày như sau:
Trang 3Bình phương trung bình
(r-(SSF+SSR+SSC)
SSE=SST-1)(r-2)
MSE=SSE/(r-Tổng
cộng
(r21)
-SST=∑ ∑ ∑
Ta có giả thuyết sau :
H0 :Các giá trị trung bình bằng nhau
H1 :Có ít nhất hai giá trị trung bình bằng nhau
Nếu giá trị thống kê bé hơn Fα
III Áp dụng MS-EXCEL:
H0: µ1 = µ2 = µ3 =…= µn Các giá trị trung bình bằng nhau
H1: µj ≠ µk Có ít nhất hai giá trị trung bình khác nhau
Trang 4Thiết lập các biểu thức và tính các giá trị thống kê
Trang 6IV.KẾT QUẢ VÀ BIỆN LUẬN
hợp.các hiệu xuất của phản ứng(%) được trình bày trong bảng sau:
Trang 7Thời gian (phút)
X1
Nhiệt độ ( 0 C) X2
Hãy cho biết yếu tố nhiệt độ và thời gian/hoặc yếu tố thời gian có liên
quan tuyến tính với hiệu xuất của phản ứng tổng hợp?nếu có thì điều kiện
nhiệt độ 1150C trong vòng 50 phút thì hiệu xuất phản ứng sẻ là bao nhiêu?
Giải:
I Dạng toán:
Hồi quy tuyến tính đa tham số
II Cơ sở lý thuyết:
HỒI QUY TUYẾN TÍNH ĐA THAM SỐ Trong phương trình hồi quy tuyến tính đa tham số ,biến số Y có liên quan
Bình phương trung bình
Giá trị thống
kê
MSE=SSE/(N-k-1) Tổng
cộng
N-1 SST=SSR+SSE
Trang 8Đối với một phương trình hồi quy ý nghĩa thống kê của các hệ số B i
được đánh giá bằng trắc nghiệm t (phân phối student) trong khi tính
chất thích hợp của phương trình được đánh giá bằng trắc nghiệm F
(phân phối Fisher)
-Trong trắc nghiệm t
H0:Các hệ số hồi quy không có ý nghĩa
H1:Có ít nhất vài hệ số hồi quy có ý nghĩa
Bậc tự do của giá trị t: =N-k-1
t= – √
-trong trắc nghiệm F:
H2:phương trình hồi quy không thích hợp
H3:phương trình hồi quy thích hợp với ít nhất vài i
Bậc tự do của giá trị F:v1=1;vv=N-k-1
Trang 9III Áp dụng MS-EXCEL:
-Trong trắc nghiệm t:
H0 : Βi = 0 Các hệ số hồi quy không có ý nghĩa
H1 : Βi ≠ 0 Các hệ số hồi quy có ý nghĩa
-Trong trắc nghiệm F:
H0 : Βi = 0 Phương trình hồi quy không thích hợp
H1 : Βi ≠ 0 Phương trình hồi quy thích hợp với ít nhất vài Bi
Bước 1: Nhập dử liệu vào bản tính
Dử liệu nhất thiết phải được nhập theo cột
Bước 2 : Áp dụng Regression
Nhấn lần lượt đơn lệnh tools và lệnh data Analysis
Chọn chương trình Regression trong hộp thoại data Analysis rồi nhấp OK
Trang 10Trong hộp thoại Regression ,lần lượt ấn các chi tiết:
Phạm vi của biến số Y (input Y range)
Phạm vi của biến số X (input X range)
Nhãn dữ liệu(Labels)
Mức tin cậy(Confidence level)
Tọa độ đầu ra(Output range)
Đường hồi quy(line Fit Plots),…
Trang 11Các giá trị đầu ra cho bảng sau:
Trang 12Phương trình hồi quy: X1 =f(X 1 )
Vậy cả hai hệ số 2.73(B0) và 0.04(B1) của phương trình hồi quy
X1=2.73+0.04X1 đều không có ý nghĩa thống kê.nói cách khác
phương trình hồi quy này không thich hợp
Phương trình hồi quy: X2 =f(X 2 )
Y X2 =2.73+0.04X 2 (R 2 =0.76,S=0.99)
Trang 13Vậy cả hai hệ số -11.14(B0) và 0.13(B1) của phương trình hồi quy
X2=2.73+0.04X2 đều có ý nghĩa thống kê.Nói cách khác phương trình
hồi quy này thích hợp
IV.Kết luận: yếu tố nhiệt độ có liên quan tuyến tính với hiệu xuất của
phản ứng tổng hợp
Phương trình hồi quy: X1,X2=f(X1,X2)
X1,X2=-12.70+0.04X1+0.13X2 (R2=0.97; S=0.33)
Trang 14Vậy cả hai hệ số -12.70(B0),0.04(B1)và 0.13(B1)của phương trình hồi
quy =-12.80+0.04X1+0.13X2 đều có ý nghĩa thống kê Nói cách
khác,phương trinh hồi quy này thích hợp
Kết luận: hiệu xuất của phản ứng tổng hợp có liên quan tuyến tính với
cả hai yếu tố là thời gian và nhiệt độ
Sự tuyến tính của phương trình X1,X2=-12.70+0.04X1+0.13X2 có thể
được trình bày trong biểu đồ phân tán(scatterplots):
BIỂU ĐỒ:
Trang 15Kết luận: hiệu xuất của phản ứng tổng hợp cĩ liên quan tuyến tính với
cả hai yếu tố là thời gian và nhiệt độ
Nếu muốn dự đốn hiệu xuất bằng phương trình hồi quy
Y=-12.70+0.04X1+0.13X2,chỉ cần chọn một ơ,ví dụ như E20,sau đĩ nhập
hàm=E17+E18*50+E19*115 và được kết quả như sau:
Ghi chú: E17 tọa độ của B0 ,E18 tọa độ của B1,E19 tọa độ của B2,50 là
giá trị của X1(thời gian) và 115 là giá trị của X2 (nhiệt độ)
Bài 2: Tỷ số tương quan của Y đối với X và hệ số xác định của tập số liệu
Trang 16Có kết luận gì về mối tương quan giữa X và Y (phi tuyến hay tuyến tính)?
Bài giải:
Dạng tốn :Phân tích tương quan tuyến tính
Bước 1:Tính tỉ số tương quan η2 Y/X
-Nhập giá trị vào bảng tính :
-Vào tools →Data Analysis →Anova Single Fator
Nhấp Ok, nhập dữ liệu vào cửa sổ Anova: Single Factor như sau:
Trang 17Input Range(phạm vi đầu vào):kéo thả chuột từ B1 tới H5 Group by:
chọn Columns Chọn Labels in first row( có nhãn ở hang đầu tiên)
Alpha(mức ý nghĩa):0.05 Có thể chọn output range( phạm vi dữ liệu ra)
ở trong sheet hiện hành( như hình) hoặc in ra kết quả ra với sheet mới
Nhấp OK, thu được kết quả:
Trang 18Bước 2:Tính hệ số tương quan của y đối với x
Nhập giá trị vào bảng :
-Vào tools →Data Analysis →correlation
-Nhấn Ok
Trang 19Nhập các thông số vào cửa sổ correlation như sau:
-Input Range(phạm vi đầu vào):kéo thả chuột từ A1 tới B29
-Group by: chọn Columns
-Chọn Labels in first row( có nhãn ở hang đầu tiên)
-Có thể chọn output range( phạm vi dữ liệu ra) ở trong sheet hiện hành(
như hình) hoặc in ra kết quả ra với -sheet mới
-Nhấp OK, thu được kết quả:
Trang 20Vì lTl>c nên bác bỏ giả thuyết H o
Vậy: X và Y cĩ tương quan tuyến tính
-Giả thiết Ho : X và Y khơng cĩ tương quan phi tuyến
r n T
Y X
Y X
r n k F
k
Trang 21Vì: F < c nên chấp nhận giả thiết H o
Vậy: X và Y khơng cĩ tương quan phi tuyến
Bài 3 Lượng sữa vắt được bởi 16 con bò cái khi cho nghe các lọai
nhạc khác nhau (nhạc nhẹ,nhạc rốc, nhạc cổ điển, không có nhạc) được
thống kê trong bảng sau đây:
Với mức ý nghĩa 2%, nhận định xem lượng sữa trung bình của mỗi
nhóm trên như nhau hay khác nhau Liệu âm nhạc có ảnh hưởng đến
lượng sữa của các con bò hay không?
Bài giải
I Dạng tốn: Đây là bài tốn phân tích phương sai một yếu tố
Lượng sữa trung bình của bị ảnh hưởng bởi các loại nhạc
Giả thiết H0: H0= µ1= µ2= µ3 là lượng sữa trung bình của mổi
nhĩm là bằng nhau
Trang 22II Cơ sở lí thuyết:
Giả sử {x , x , x }11 21 n 11 là một mẫu có kích thước n1 rút ra từ tập hợp
chính các giá trị của X1;
2
12 22 n 2
từ tập hợp chính các giá trị của X2, , {x , x , x }1k 2k n kk là một mẫu kích
thước nk rút ra từ tập hợp chính các giá trị của Xk Các số liệu thu
được trình bày thành bảng ở dạng sau đây:
Các mức nhân tố
x
2 2 n
k k i
Trung
n
Ta đưa ra một số kí hiệu sau
Trung bình của mẫu thứ i (tức là mẫu ở cột thứ i trong bảng
x T
ij i 1 j 1
x x
T x
T = T1 + T2 + + Tk
Trang 23 Tổng bình phương chung ký hiệu là SST (viết tắt là chữ Total
Sum of Squares) được tính theo công thức sau:
Tổng bình phương do nhân tố ký hiệu là SSF (viết tắt của chữ
Sum of Squares for Factor) được tính theo công thức sau:
Tổng bình phương do sai số ký hiệu là SSE (viết tắt của chữ
Sum of Squares for the Error) được tính theo công thức:
Trung bình bình phương của nhân tố, ký hiệu là MSF (viết tắt
của chữ Mean Square for Factor) được tính bởi công thức:
k 1
k – 1 được gọi là bậc tự do của nhân tố
Trung bình bình phương của sai số, ký hiệu là MSE (viết tắt của
chữ Mean Square for Error) được tính bởi công thức:
n k
n – k được gọi là bậc tự do của sai số
Tỷ số F được tính bởi công thức
Trang 24F MSF
MSE
Các kết quả nói trên được trình bày trong bảng sau đây gọi là
ANOVA (viết tắt của chũ Analysis of Variance: phân tích phương
sai)
Bảng ANOVA
Nguồn
Tổng bình phương
Bậc tự
do
Trung bình bình phương
sẽ có phân bố Fisher với bậc tự do là (k – 1, n – k)
Thành thử giả thiết Ho sẽ bị bác bỏ ở mức ý nghĩa của phân bố Fisher
với bậc tự do là (k – 1, n – k), k – 1 được gọi là bậc tự do ở mẫu số
III Thuật tốn:
a Mở chương trình Ms-EXCEL
b Nhập dử liệu vào bảng tính
sử dụng hàm ANOVA:single-factor từ data Analysis
c Biện luận:
=>thu được bảng Anova ta thu được F
nếu F<Fα=>chấp nhận giả thiết H0,ngược lại thì bác bỏ giả thiết H0
III Giải tốn bằng Excel:
Khởi động Ms- EXCEL
Nhập dử liệu vào bảng:
Trang 25Áp dụng “Anova:Single-Factor” (phân tích phương sai 1 yếu
tố )
a) Nhấp lần lượt đơn lệnh Tool và lệnh Data Analysis
b) Chọn chương trình Anova: Single-Factor trong hộp thoại
Data Analysis rồi nhấp nút OK
Trong hộp thoại Anova: single factor lần lượt ấn định
Phạm vi đầu vào(input range)
Cách xắp xếp theo hang hay cột(group by)
Nhấn dử liệu(labels in fisrt row/column)
Phạm vi đầu ra(output range)
Trang 26Sau khi nhấn OK xuất hiện bảng Anova:
V.Kết luận:
Từ giá trị trong bảng Anova:
F=1.35468< Fα=4.81448=> chấp nhận H0(loại nhạc)
=>lượng sữa trung bình của mỗi nhóm trên là giống nhau
=>vậy âm nhạc không ảnh hưởng đến lượng sửa của các con bò
Trang 27Bài 4: Với mức ý nghĩa 2%.So sánh lãi suất của một lợi cổ phiếu được
đầu tư vào 5 khu vực khác nhau trên cơ sở bảng số liệu thống kê sau
0,9 0,8 0,5 0,5 0,7
0,5 0,5 0,6 0,8 0,7
0,3 0,4 0,7 0,7 0,9 0,5
0,2 0,6 0,4 0,5 0,7 0,8
Bài giải:
I Dạng tốn: Đây là bài tốn phân tích phương sai một nhân
tố
II Cơ sở lí thuyết:
Giả sử {x , x , x }11 21 n 11 là một mẫu có kích thước n1 rút ra từ tập hợp
chính các giá trị của X1;
2
12 22 n 2
từ tập hợp chính các giá trị của X2, , {x , x , x }1k 2k n kk là một mẫu kích
thước nk rút ra từ tập hợp chính các giá trị của Xk Các số liệu thu
được trình bày thành bảng ở dạng sau đây:
Các mức nhân tố
1 1
Trang 281 1 n
k k i
Trung
n
Ta đưa ra một số kí hiệu sau
Trung bình của mẫu thứ i (tức là mẫu ở cột thứ i trong bảng
x T
ij i 1 j 1
x x
T x
T = T1 + T2 + + Tk
Tổng bình phương chung ký hiệu là SST (viết tắt là chữ Total
Sum of Squares) được tính theo công thức sau:
i j
T
n T
x n
Tổng bình phương do nhân tố ký hiệu là SSF (viết tắt của chữ
Trang 29Sum of Squares for Factor) được tính theo công thức sau:
Tổng bình phương do sai số ký hiệu là SSE (viết tắt của chữ
Sum of Squares for the Error) được tính theo công thức:
Trung bình bình phương của nhân tố, ký hiệu là MSF (viết tắt
của chữ Mean Square for Factor) được tính bởi công thức:
k 1
k – 1 được gọi là bậc tự do của nhân tố
Trung bình bình phương của sai số, ký hiệu là MSE (viết tắt của
chữ Mean Square for Error) được tính bởi công thức:
n k
n – k được gọi là bậc tự do của sai số
Tỷ số F được tính bởi công thức
MSE
Các kết quả nói trên được trình bày trong bảng sau đây gọi là
ANOVA (viết tắt của chũ Analysis of Variance: phân tích phương
sai)
Trang 30Bảng ANOVA
Nguồn
Tổng bình phương
Bậc tự
do
Trung bình bình phương
sẽ có phân bố Fisher với bậc tự do là (k – 1, n – k)
Thành thử giả thiết Ho sẽ bị bác bỏ ở mức ý nghĩa của phân bố Fisher
với bậc tự do là (k – 1, n – k), k – 1 được gọi là bậc tự do ở mẫu số
III Tính tốn bằng Excel:
Nhập dữ liệu vào bảng tính:
Trang 31a) Nhấp lần lượt đơn lệnh Tool và lệnh Data Analysis
b) Chọn chương trình Anova: Two trong hộp thoại Data
Analysis rồi nhấp nút OK
c) Trong hộp thoại Anova: Single-Factor, lần lượt ấn định các
Trang 32Kết quả và biện luận:
F= 0.465581<F0.02=3.611493 =>Chấp nhận giả thiết H0.Vậy
lãi suất của một lợi cổ phiếu được đầu tư vào 5 khu vực là giống nhau
Bài 5: Với mức ý nghĩa 1%,Theo dõi số học sinh đến lớp muộn của
năm trường PTTH vào các ngày khác nhau trong tuần người ta thu được
số liệu về số lượng học sinh trung bình đến lớp muộn của các trường đó
vào một ngày tiêu biểu trong tuần như sau:
Bạn có nhận xét gì về số lượng học sinh đến lớp muộn của các trường
Có sự khác biệt gì về số lượng học sinh đến lớp muộn vào các ngày
khác nhau trong tuần?
BÀI GIẢI
I Dạng tốn :Phân tích phương sai hai yếu tố khơng lặp
II Cơ sở lý thuyết:
Sự phân tích này nhằm đánh giá sự ảnh hưởng của hai yếu tố trên các
giá trị quan sát Yij(i=1, 2…r:yếu tố A;j= 1 ,2…c:yếu tố B)
*Giả thiết:
H0: µ1= µ2=…µk <=>”Các giá trị trung bình bằng nhau”
H1: µ1≠ µ2 <=>”Ít nhất có hai giá trị trung bình khác nhau”
Trang 33*Giá trị thống kê:
FR =
và FC =
*Biện luận:
Nếu FR < Fα[b-1,(k-1)(b-1)] => chấp nhận H0(yếu tố A)
Nếu FC < Fα[b-1,(k-1)(b-1)] => chấp nhận H0(yếu tố B)
Ta giả thiết :
H01:yếu tố ngày trong tuần không ảnh hưởng đến số lượng học sinh
trung bình đến lớp muộn của các trường đó
H02:yếu tố trường khác nhau không ảnh hưởng đến số lượng học sinh
trung bình đến lớp muộn của các trường đó
IV Tính tốn bằng Excel:
Trang 34- Xuất hiện hộp lệnh“ Data Analysis” Chọn “Anova: Two-Factor
Without Replication”
- Phạm vi đầu vào (Input Range)
Nhãn dữ liệu (Labels in Fisrt Row/Column)
Ngưỡng tin cậy ( Alpha ):0.01
Phạm vi đầu ra ( Output Range)
- Sau khi nhấp Ok ta được bảng sau:
Anova: Two-Factor Without
Replication
Trang 36=> số học sinh đến muộn giữa các trường là như nhau
Vậy cả 2 yếu tố ngày trong tuần và trường khác nhau đều không
ảnh hưởng đến số lượng học sinh trung bình đến lớp muộn của các
trường đó