p2 = Ị3j = ... = p k = 0 hay R2 = 0
Chúng ta đã trình bày kỹ thuật phân tích phương sai và mối quan hộ giữa R2 và F. Bằng ngôn ngữ ma trận có thể trình bày tổng quát các vấn đề đó.
Bảng 3.2. Phân tích phương sai cho mỏ hình hôi quy bội k biên
Nguồn biến thiên Tổng bình phương Bậc tự do Phương sai Từ hàm hồi quy (ESS) p X Y - n Ỹ 2 k-1 p ' X ' Y - n Y 1
k ~ 1 Phần dư (RSS) Y ' Y - p'x 'y n - k Y ' Y - P ' X ' Y
n - k
Tổng Y Y - n Ỹ 2 n -1
Do R2 = p x Y - n Ỹ 2 Y ' Y - n Ỹ 2
nôn p X Y - n Ỹ 2 = R2( Y Y - n Ỹ 2), Y Y - ậ X Y = (1 - R2) (Y Y - nỸ 2).
Ta có bảng sau đây:
B ảng 3.3. Phân tích phương sai đối với R 2
Nguồn biến thiên Tổng bình phương Bậc tự do Phương sai Từ hàm hồi quy
(ESS)
R2( Y ‘ Y - n Ỹ 2) k - 1 R 2ự ' Y - n ĩ z ) k - 1
Phần dư (1 - R 2) ( Y ’' Y - n Ỹ 2) n - k (1 - R 2)(Y' Y - n Ỹ 2)
(RSS) n - k
Tổng Y/'Y - n Ỹ 2 n - 1
Với giả thiết p ~ N(P,Ơ2) thì giả thiết
Ho: p2 = p3 = ... = Pk = 0 ( hay R2 = 0) H t: có ít nhất một pj * 0 ( hay R 2 > 0 ) được kiểm định bằng tiêu chuẩn:
( p • X Y - n Ỹ 2 ) /
F = — r--- — ~ F((k - l),(n - k))
( Y Y - p X Y) /
/ (n - k)
, P X Y - n Ỹ 2 R ’ / ( k - l )
Do R = — , nên F =
Y Y - n Y 2 ’ ( 1 - R 2 ) / ( n - k ) '
\ 7ới tiôu chuẩn F cho phép kiểm định giả thiết:
Ho : P2 = 03 = ... Pk = 0 ( hay R2 = 0) H|I Có ít nhất một Pi ± 0 ( hay R2 > 0 ) V^ới thí dụ 3.2 :
F =180,3545; F0,05(2,9) = 4,26. F > F0i05(2,9), do đó giả thiết Ho bị bác bỏ.
3.15. HỔI QUY CÓ ĐIỀU KIỆN RÀNG BUỘC — KIẺM đ ị n h F Giả sử rằng chúng ta có hàm hồi quy
Yi = p , + p 2X2; + ... + p kx ki + 1* (*)
Bây giờ chúng ta kiểm định giả thiết:
Ho ■ Pk-m+l Pk-m+2 ••• — pk = 0
Với giả thiết này thì hàm hồi quy có dạng:
Yi = Pi + P2X2Ì + ... + Pk.mXit.m + u
(được gọi là hàm hồi quy thu hẹp hay hàm hồi quy có điều kiện ràng buộc).
Kí hiêu eR : Véctơ phần dư từ hàm hồi quy có điều kiện ràng buộc.
euR : Véctơ phần dư từ hàm hồi quy ban đầu( không điêu kiện ràng buộc),
m: SỐ biến bị loại khỏi mô hình ban đầu ( số điều kiện ràng buộc),
n: Sô' quan sát.
Khi đó tiêu chuẩn kiểm định giả thiết Ho:
(e Re R - e URe UR)/m
®URe UR / ( n — k)
~ F(m, (n - k)).
Nếu F > Fa(m, n - k) thì giả thiết Ho bị bác bỏ.
Đôi khi ta dùng công thức sau đây:
(e Re R - è y R t w ) / m _ (TSS - E SSr ) - (TSS z ESSm )Ịm euRe URẢn - k) (TSS - ESSur ) ! ( n - k )
_ (E S Sur ESSr )Ịm Ịự số và mẫu cho TSS, ta được (TSS - ESSur) Ị ( n - k )
__ ( R 2ur - R 2R )/m
công thức .rút gon: F= —— —7— ---F(m, (n - k)).
(1 - R ơfi)/(ằ - k)
Cách trình bày như trên chỉ là trường hợp riêng của kiểm định “ tổ hợp tuyến tính của các hệ sô' hồi quy”. Với giả thiết về tổ hợp tuyến tính cùa các hệ sô' hồi quy, có thể làm cho biến phụ thuộc không còn là biến phụ thuộc ban đầu. 'Khi biến phụ thuộc thay đổi thì
công tnức tính F qua các R2 sẽ không dùng được. Trong trưòiig hợp này chúng ta phải dùng cóng thức ban đầu, tính F qua RSS.
3.16. D ựBÁ O
Ciúng ta có thể s ử dụng mô hình hồi quy vào d ự báo: dự báo giá trị trung bình Vá dự b á o giá trị cá biệt
1
Cho x ° =
X X
X'
Dự báo giá trị trung bình: E (YI x° )
Y = p 1 + P2X2 + ••• + pk Xic = x p .
Với x = x ° ta có ( ỷ 0 IX0 ) = X°'P => var(ỳ() I Xo ) = x° var(p)X°
v ar(Ỷ0 1 x f ) = ơ Y ( X 'X ) Y vì var (P ) = a 2(X X)_1 Nhimg a 2 chưa biết nên phải dùng ước lượng không chệch ớ 2 của nó :
V a r ( f l X ° ) = Ơ 2 X°'(X'X)'‘ x°
sc(Ko ỉ x ° ) = ^ l & x ^ x x y ^ x 0
ỶQ - t ^ ( n - k) se( ỹ 0 I x ° ) <; E(Y I Xo)
< Ỷo + t ^ ( n - k ) s e ( f 0 IX()) Dự báơ giá trị cá biệt
Yj = x ' p + ei => var(Y„ I x ° ) = var(X°'p) + ơ2 Var(Yo I x ° ) = ô 2[1 + ^ '( X X)'1^ ]
se(Y 0 I X ° ) = ^ / v a r ( Y 0 |X ° )
Ỳ ữ - (n - k) se(Yo I x°) < (Yo I x°) ^ Ỳ 0 + ty 2 (n - k) se(Y0 1 x 0) .
Việc trình bày mô hình hồi quy bằng ngôn ngữ ma trận đã cung cấp cho chúng ta một công nghộ mà nhờ đó có thể sử dụng kỹ thuật tính toán, tự động hóa toàn bộ quá trình tính toán, phân tích và dự báo.
3.17. THÍ DỤ-t hí dụ 3.3
Chúng ta có các biến số sau đây: Y- sản lượng/ ha; X2- phân hoá học/ ha; X3 - thuốc trừ sâu / ha. Hãy ước lượng mô hình hồi quy tuyến tính theo tham số và các biến số của Y phụ thuộc vào X2 và X3 và trả lời các câu hỏi sau đây. Cho a = 5%.
a. Kết quả ước lượng có phù hợp với thực tế không? Hãy giải thích ý nghĩa kinh tế của các hệ số nhân được.
b. Phân bón( thuốc trừ sâu) có ảnh hưởng đến năng suất của loại cây trổng trên hay không?
c. Hãy tìm khoảng tin cậy cho các hệ số hổi quy riêng.
d. Hãy giải thích nghĩa của hệ số R2 nhận được.
e. Cả phân bón và thuốc trừ sâu đều không ảnh hưởng đến năng suất ? g. Bạn có thể bỏ biến X3 ra khỏi mô hình được không vì sao?
h. Hãy ước lượng mô hình bằng phương pháp ma trận.
i. Phải chăng phân bón và thuốc trừ sâu đểu có ảnh hưởng như nhau đền năng suất giống cây trồng trên?
k. Hãy dự báo giá trị trung bình và cá biột khi X-> = 20; X3 = 15.
1. Hãy phân tích kết quả dựa trên tính toán bằng MFIT3
Để trả lời được câu hỏi a trước hết phải ước lượng mô hình. Dựa vào bảng(3.3) ta tính được:
( ấ y>x v ) ( Ê 4 ) - ( ấ y>x v x ẳ x 2i * 3 / )
p _ j = Ị ________________________ _____________________________ / = ] _______________________1 = 1______________________
( ẳ * 2 2/ ) ( Ẻ 4 ) - ( Ẻ X2 , * 3 / ) 2
1*1 / = 1 /=1 (956X504)-(900X524) _
= --- ---— = 0,65.
(576)(504) - (525)
n n n n
( X y i x3i x E 4 ) - ( S y ,X2j) ( Z x 2ix 3i)
i=l i=l i=l i = l
3 n n n
( S X2 i X S X3i)” ( ^ x 2ix3i )
i=l i=l i=l
570 80 74 ON
00 09 58 52 48 46
Ề
40 -<
180 32 26 24 22 00 ƠN £ K) o ƠN Xfó
120 24 to 20
£ N) 'O 4^ o>X
o
23 - LO - Òì vb 1 1
LO
1 *<
o
oo ƠN 4^ o tb ■U Ò\ 6o1 1 to róX o t o vo oo to o ù)1 ừì 'Lì 001 Óo1 ÕJX
■
956 322 136 66 ►—-*to o o
36 66 104 204 <
X
006 276 153 88
On o 45 77 104 LO ƠN
<
ú>X
524 168 72 48 00 o ON 20 42
ế
96 XM
roX
■
576 196 £
36
S\ o 4*. Os
36 Xrõro
504 144 oo
2 o vo 25 49
£ £ ùìXro
570 79.42 72.19 69.78 61.82 57 52.37 48.85 45.33 42.92 40.32
o
0.58 181 1
00
-1.82 -
-0.37 -0.85 0.67
►—*
o oÒ
-0.32 CD
13.67 0.3364 3.2761 3.1684 3.3124 -
0.1369 0.7225 0.4489 1.1664 0.1024
CDM
ơsG i
529 289 t o VO H - *
25 0 0
N>
169 289 B ản g 3 .3
£ (900X 576) - (956X 524) = Ị U ( 5 7 6 ) ( 5 0 4 ) - ( 5 2 4 ) 2
 = Ỹ - p 2 x 2 -pj x 3 = 57-0,65*18 - 1,11*12 = 31,98.
Vậy hàm hổi quy mẫu: Ỳị= 31,98 + 0,65 X2 + 1,11 x 3.
a. Khi người ta tăng phân bón / ha và tăng thêm thuốc trừ sâu / ha thì năng suất loại cây trên sẽ tăng, p 2 và p 3 đều dương, cho nên có thể nói rằng kết quả ước lượng phù hợp với thực tế. Tất nhiên điều trên không có nghĩa là khi tầng phân bón(
thuốc trừ sâu) / ha đến vô cùng thì năng suất cũng tăng như vậy. p ^ = 0,65 có nghĩa là khi gia tăng phân bón / ha 1 tấn thì năng suất trung bình / ha sẽ táng 0,65 tấn; và p 3 = 1,11 có nghĩa là khi gia tăng thuốc trừ sâu / ha 1 tấn thì năng suât trung bình / ha sẽ tăng 1,11 tấn.
b. Để trả lời câu hỏi này chúng ta phải kiểm định các giả thiết:
Ho : Pi = 0 ; Hị : Pi * 0 với i = 2,3 bằng kiểm định t: tj = p i / Se( p i ).
ò 2 = RSS/ (n-k) = 13,6704/ (10-3) = 1,95.
Ẻ 4
v a r ( ậ 2 ) = — --- --- ---ơ 2
( Z 4 ) ( Ẻ * 3 / ) - ( ấ * 2 , * 3 / ) 2
/=1 i-\ /=)
= (504)(1.95)/ (576*504-5242) = 0,06.
se ( p 2 ) = ự v a r(P 2) = 0,24.
Ẻ 4
var ( P j ) = — ---^ --- ---ơ 2 ( Ẻ 4 x ấ 4 ) - ( Ẻ v M) a
im 1 /ằ1 i*=l
= (576X1,95)/ (576*504-5242) = 0,07.
se ( P 3 ) = A/var(p3) =0,27.
Từ đó t2= / ? 2/ S e ( y ặ 2 ) = 0 ,6 5 /0 ,2 4 = 2,7 và t3= / ? 3/Se(yỊ?3 ) = l , 1 1 / 0 , 2 7 = 4,11.
^025(7) = 2,365. t2 > ^025(7); t3 > 10025(7) do đó giả thiết Ho bị bác bỏ, thừa nhận Hị, nghĩa phân bón( thuốc trừ sâu) ảnh hưởng đến năng suất giống cây trên.
c. Khoảng tin cậy cho các hệ số hổi quy riêng được cho bời công thức sau:
( p, - ta72(n - k) Se (Pị) < Pi < + tc^(n - k) Se ( P i ) ), Vi = ỉ , k . ( , 4 - t o f l ( n - 3 ) S e ( Ằ ) < p2 < Â + to/2 (n - 3) Se ( /?2 ) )
0,65- 2,365*0,24 < p2 < 0,65+ 2,365*0,24 0,0824 < p2 < 1,2176
( Á - tcơ2(n - 3) Se (/ỡ3) < p 3 < Â> + to/2(n - 3) Se (yỡ3) ) 1,11- 2,365*0,27 < p3 < 1,11+ 2,365*0,27
0,461 < p 3 < 1,738
d. Hệ số xác định bội và hộ số xác định bội đã hiệu chỉnh.
R = 1 - RSS/TSS = 1- 13,6704/ 1634 = 0,9916.
R- = 1 - (1- R2 ) (n-1) / (n-k) = 1 - (1-0,9916) (10-1)/(10-3)
= 0 , 9 8 9 2 .
e. Cả hai yếu tố phân bón và thuốc trừ sâu đều không cùng ảnh hưởng tới năng suất:
H0 : p 2 = p, = 0 hay R2 = 0
Hị : có ít nhất một trong hai hệ số khác 0 hay R2 > 0.
F= R V ^ - l ) = 0 , 9 9 1 6 / ( 3 - 1 ) (1 - R 2 ) / ( n - k) (1 -0 ,9 9 1 6 ) / (1 0 -3 )
Trong khi đó F005(2,7) = 4,47, do đó Ho bị bác bỏ. Ta kết luận rằng có ít nhất một yếu tố ảnh hưởng đến năng suất.
g. Có thể bỏ biến X3 ra khỏi mô hình được không?
Để trả lời câu hỏi này cần phải dùng kiểm định hổi quy có điều kiện ràng buộc. Ước lượng mô hình có cả hai biến x 2 và X3 ta có R2ur = 0,9916. Khi bỏ biến x 3 chúng ta thu được mô hình ở ví dụ 2.2, R2r = 0,971.
H0 : p 3 = 0 ; H l: p 3^ 0 .
F = ( R 2 UR - R 2iì) /m ( 0 , 9 9 1 6 - 0 , 9 7 1 )Ị1 (1 - R \ ,r
Fo.o5( 1,7) = 3,59. F > F0,05(l ,7), giả thiết Ho bị bác bỏ.
1. Phương pháp ma trận
X’X=
1 1 1 1 1 1 1 1 1 1 6 10 12 14 16 18 22 24 26 32 4 4 5 7 9 12 14 20 21 24
1 6 4 1 10 4 1 12 5 1 14 7 1 16 9 1 18 12 1 22 14 1 24 20 1 26 21 1 32 24 10 180 120
180 3 8 1 6 2684 120 2684 1944
1.363 -0 .1 7 7 0 .1 6 0 2 ' 5 7 0 '
(X’X)-'= -0 .1 8 0.032 -0 .0 3 3 X ’Y = 11216
0.16 -0 .0 3 0.0366 7740
p = (X’X)-' (X ’Y) = . Y'Y = 34124.
31.98067' 0.65005 1.10986
e ’e = RSS = Y'Y - p ’(X’Y) = 13,6704. . ờ-2 = RS S / ( n - 3 ) = 1 3 , 6 7 0 4 / 7 = 1,952914.
' 2.6628 -0.3456 0.3129 Cov(yậ)= ờ 2 (X’X )'‘ = -Ỡ.545Ổ 0.06258 -0.065 0.3129 -0.065 0.0715
TSS = Y ’Y — n y 2 = 34124- 10* 572 = 1643.
ESS = TSS-RSS = 1643- 13,6704= 1629,3296. R2 = 0,9916.
Các phẩn tử dọc đường chéo chính của ma trận Cov( /3) trên là phương sai cùa các p tương ứng. Từ ma trận này biết được Cov( /? ,, /?j) , chẳng hạn Cov( p 2 ,
p 3) = -0,065 và tính được:
Vai</?2- / ? 3) = V ar(/?2) + Vait /?3) - 2 Co v ( / ? 2, /3 3)
= 0 , 0 6 3 + 0 , 0 7 1 5 - 2 ( - 0 , 0 6 5 ) = 0 , 2 6 4 5 .
Se(yồ2“ yồ3 ) = 0,514.
Đến đây có đù thông tin để thực hiện các phân tích đã nói ở trên.
i. Phải chăng phân bón và thuốc trừ sâu đều có ảnh hưởng như nhau đến năng suất giống cây trông trên. Để trả lời, ta phải kiểm định giả thiết sau đây: H0: =
p3 hay p2 - p 3 = 0; HI: p 2 ^ P3 •
r = ~~ ^ 2 ) P i “ P i t, ^
t - --- — ~--- = ---T-^— ~ t(n-3)
S e ( A " Â ) & ( Ằ - Â ) K - k K - P i
t = = (0,65-1,11) /0 ,5 1 4 = -0,895
& ( Ã - Â ) SeCp2- h )
Trong trường hợp này ta chưa có đủ cơ sở để bác bỏ Ho vì ^ 025(7) = 2,36.
k. Dự báo : Với X2 = 20; X3 = 15, một ước lượng điểm tương ứng là:
ỷ0= Ỳ (X2 = 2 0; x 3= 15) = 31,98 + 0,65*(20)+ l,ll*(15) = 61,63.
Phương sai cùa giá trị trung bình:
Var( Ỷ0 I x ° ) = o Y '( X X ) Y
" 2.6628 -0.3456 0.3129
= (1 ,2 0 ,1 5 ) -0.3456 0.06258 - 0.065 0.3129 -0.065 0.0715
S e ( ỳ 0 l x° ) = 0 , 5 5 5 .
Khoảng tin cậy 95% cho giá trị trung bình:
Ỳo - - k) sc (Ỹ 0 I x ° ) < E(YI Xo) < Ỹo + tyẠ n - k) se ( ỹ „ I x°) 61,63 - 2,365*(0,555) 3 E(YIXo) < 61,63 + 2,365 *(0,555)
60,317 < E(YI Xo) < 62,943 Phương sai của giá trị cá b i ệ t :
Var(Y() I x°) = ơ 2[1 + ^ '( X X ^ X 0 ]= var(ỹ0 I * ° ) + ỡ 2 1'
20 = 0,308533 15
= 0,308533+1.95 = 2,2585 Se(Y0 IX°) = ^ /v a r(Y 0|X ° ) = 1,5 Khoảng tin cậy của giá trị cá biệt:
^0 - t<^/ (n - k) se(Y() I x°) < (Y() I x°) < Y i) + t y (n - k) se(Y() I X q) . 61,63 - 2,365*(2,2585) < E(YIXo) < 61,63 + 2,365*(2,2585)
56,289 < E(YIXo) < 66,971 .
1. Dựa trên kết quả tính bằng MFTT3, đối chiếu lại với các kết quả tính toán ở trên.
Ordinary Least Squares Estimation Dependent variable is Y
10 observations used for estimation from 1 to 10
Regressor Coefficient Standard Error T-Ratio[Prob]
INPT 31.9807 1.6318 19.5985[.000]
X2 .65005 .25016 2.5985 [.036]
X3 1.1099 .26743 4.1501 [.004]
**********^c5ỉe**5|t****5|í^c**j|e***^e*5(ejje*%ỉỉí**^t^c^c%^^5|e5|í**^^5|c5je5ịí%4e4c*^ *****
R-Squared .99163 F-statistic F( 2, 7) 414.8492[.000]
R-Bar-Squared .98924 S.E. of Regression 1.3975 Residual Sum of Squares 13.6704
Mean of Dependent Variable 57.0000 S.D. of Dependent Variable 13.4743 Maximum of Log-likelihcxxl -15.7526 DW-statistic 2.1141
3.18. MỘT SỐ DẠNG CỦA HÀM H ồ i QUY
Mô hình hồi quy tuyến tính được hiểu theo nghĩa tuyến tính dối với các tham số. Nó có thổ tuyến tính hoặc không tuyến tính đối với các biến. D ạng của hàm hồi qui là một vấn đề quan trọng, một trong những nhân tố có tính chất quyết định đối với kết quả nghiên cứu. Tuy vậy, vấn đề "dạng của hàm hồi quy" lại không có một cơ sở lý thuyết đủ mạnh để có thể khẳng định dạng của hàm hồi quy là dạng này mà không phải là dạng khác. Dạng hàm của mô hình hồi quy là m ột vấn (Tê thực nghiệm.
Một trong những phương pháp thường được dùng là biểu diễn các sô' liệu lên hê tọa độ. Nếu như đồ thị chỉ ra quan hộ giữa hai biến là tuyến tính thì dạng hàm
của mô hình là tuyến tính, nếu quan hê được chỉ ra là hàm bậc 2,3 (phi tuyến)... thì dạng ham cùa mô hình được chọn một cách tương ứng. Phương pháp này được sử dụng trong mô hình hồi quy giản đơn. Nó sẽ là không hữu ích nếu chúng ta có mô hình hồi quy bội.
Ở đây sẽ trình bày một số dạng hàm đơn giản mà hay gặp trong ứng dụng thực tiẽn.
1. H àm có hệ số co giãn không đổi - hàm Cobb - Douglas Hàm Cobb - Douglas có dạng Y= p iXP2
Hàm này là phi tuyến đối với X và phi tuyến đối với tham số Ị32. Tuy nhiên có thổ biến đổi về dạng tuyến tính đối với tham số. Lấy ln hai vế, ta có:
lnY = ln (3, + ị32 InX
Đặt p,' = In p, ; Y ' = InY
X' = lnX Ta có Y ' = Pi’ + p 2 X '
Đây là mô hình giản đơn đã biết. Ta có thể minh họa hàm ban đầu và hàm sau khi biến đổi Y bằng đồ thị sau:
Hàm Cobb - Douglas có thể mở rộng cho trường hợp có nhiều biến giải thích:
Y = p , x > x 3|i’ . . . x J - Bằng phép biến đổi:
ln Y = ln Pi + p2 ln X2 + Ị33 ln Xi + ... Pn ln Xm
chúng ta dẻ dàng có hàm tuyến tính đối với các tham số. Trong hàm Cobb - Douglas, hộ số co dãn của Y đối với X| bằng P i.
2. H àm có dạng:
Y, = P ( l + r ) '
Hàm có dạng Y, = p (1+ r)', trong đó t là thời gian. Hàm này thường dùng để đo sự tâng trưởng của yếu tổ Yt theo thời gian, r là tỷ lệ tăng trưởng.
Ở năm (thời kỳ) t = 0, ta có Yo = p , do đó Y, = Yo (1+ r)‘
Biến đổi hàm về dạng tuyến tính đối với tham số:
In Y, = ln Y„ + t ln (1+ r) Đặt Y|‘ = In Y ,; Po = ln Yo ; Pi = ln (1 + r) Khi đó Y,' = 00 + pi t
Dẻ dàng ước lượng được hàm này và từ đó tìm được Yo và r 3. H àm dạng Hypecbol: Y = Pị + Ẽ2_
X
Hàm này là phi tuyến đối với X, nhưng tuyến tính đối với các tham số. Sau đây là một số trường hợp quan trọng của hàm này
a) Pi . p2 > 0, khi đó đồ thị có dạng:
Trường hợp này có mức tiệm cận dưới, dù X có tăng đến đâu, Y không thể nhỏ hơn Pi.
Hàm này thường được dùng khi phân tích chi phí trung bình để sản xuất ra một sản phẩm.
b) p , > 0 , p 2 < 0 Y
Trường hợp này có mức tiêm cân trên. Engel (1821 - 1896) khi nghiên cứu mức chi tiêu phụ thuộc vào thu nhập đã đồ xuất hàm này.
--- ---
Hình 3.4 x
c) Pi < 0, p2 > 0 Y ‘
Đây chính là đường cong Phillips.
\v X