MÔ HỈNH HỔI QUY HAI BIÊN ƯỚC LƯỢNG VÀ KIỂM ĐỊNH GIẢ THIẾT
2. Các tính chất của các ước lượng bình phương nhỏ nhất
1. P |, (3 2 được xác định một cách duy nhất ứng với n cặp quan sát (Xj,Yi) 2. (3,, P2 là các uớc lượng điểm của Pi, p2 và là các đại lượng ngẫu nhiên, với các mẫu khác nhau chúng có giá trị khác nhau.
Ỷ '■ = (3, + Í32Xj - SRF có các tính chất sau đây:
1. SRF đi qua trung bình mẫu ( X , Y ), nghĩa là : Ỹ = p, + p2 X
2. Giá trị trung bình của Yj bằng giá trị trung bình của các quan sát:
Ỷ = Y .
3. Giá trị trung bình của các phần dư: y . e, = 0
! i=l
n
4. Các phần dư e-, không tương quan với Ỳj tức là ^ Ỷị e, = 0 i-l
n
5. Các phần dư ej không tương quan với Xi tức là: ^ e, Xị = 0 i=i
Thí dụ 2.1
Bảng sau đây cho số liệu về lãi suất (Y) và tỷ lệ lạm phát(X) trong năm 1988 ờ 9 nước. Giả sừ rằng sự phụ thuộc E(Y/X) có dạng tuyến tính đối với cả biến số và tham số. Hãy ước lượng hàm hồi quy và tính các đặc trưng của nó.
Y 11,9 9,4 7,5 4,0 11,3 66,3 2,2 10,3 7,6
X 7,2 4 3,1 1,6 4,8 51,0 2,0 6,6 4,4
Quá trình tính toán được thể hiện trong bảng 2.1.
2.2. CÁC GIẢ THIẾT c ơ BẢN CỦA PHUƠNG PHÁP BÌNH PHUƠNG NHỎ NHAT Trong phân tích hồi quy, mục đích của chúng ta là ước lượng, dự báo về tổng thể, tức là ước lượng E(Y I X i) hay trong mô hình hồi quy tuyến tính đơn là ước lượng E(Y1 X i) = Pi + p2Xi . P| và P2 tìm được bằng phương pháp bình phương nhỏ nhất là các ước lượng điểm của Pi và p2- Chúng ta không biết được chất lượng của các ước lượng này như thế nào. Chất lượng cùa các ước lượng phụ thuộc vào:
- Dạng hàm của mô hình được lựa chọn - Phụ thuộc vào các Xị và ụ
- Phụ thuộc vào kích thước mẫu
Vê dạng hàm của mô hình chúng ta sẽ đề cập đến ở chương IX. ở đây chúng ta sẽ nói về các giả thiết đối với Xi và Ui. Với các giả thiết này thì các ước lượng tìm được bằng phương pháp bình phương nhỏ nhất là các ước lượng tuyến tính, không chệch, có phương sai nhỏ nhất.
Giả thiết 1: Biến (các biến) giải thích là phi ngẫu nhiên, tức là các giá trị của chúng là các sô' đã được xác định.
Giả thiết này không có gì mới, vì phân tích hồi quy được đề cập là phân tích hồi quy có điều kiện, phụ thuộc vào các giá trị X đã cho.
= 2,7418355+U494067X, T/bình M ( Ũ C Ũ S J Ơ ) Ơ1 ^ U W - ^
—k OI
130,0 11,99.47.54,011.366.32,210.37.6 <
9,411 84,7 7,24.03.11,651,02,06,64,4 X
2770,97 51,8416,09,61
2,5623,042601,04,043,5619,36
XN>
0,000 -2,211-5,411
-6,311-7,811-4,611
41,589-7,411-2,811-5,011
% XI
1973,849 4,88929,27939,82961,01221,2611729,64554,9237,90225,110
X
oo
-2,6-5,1-7.0-10,5-3,251,8-12,3-4.2-6,9 ỉ l
3102,04 6,7626,01
49,00110,2510,24
2683,24151,2917,6447,61
*<
■2466,14 5,74927,59644,17782,01614,7552154,3191,15611,806134,576
5<X
14,5 130,500 11,7377.7396,6154,7418.73966,4615,24110,9888,239
J*> '
-0,0002200 0,16257701,66067820,8551442-0,74079502,5609783-0,1614370-3,0405000-0,6877790-0,6390800
_ạ>
<ii jk>
20,827314 0,02643122,75785210.7834802
0,548703
6,5586099
0,0210619
92446913
0,473055
0,408429
<D
~>o
Bảng 2.1
Giả thiết 2: Kỳ vọng của yếu tố ngẫu nhiên u bằng không, tức là E (ư, I X;) = 0
Giả thiết này có nghĩa là các yếu tố không có trong mô hình, ư, đại diện cho chúng, không có ảnh hưởng hệ thống đến giá trị trung bình của Y.
Về mặt hình học giả thiết này được mô tả bằng đồ thị (hình 2.2).
ĐỒ thị chỉ ra rằng với mỗi giá trị cùa X, các giá trị có thể có của Y xoay quanh giá trị trung bình. Phân bô' của phần lớn hơn hay nhỏ hơn giá trị trung bình chính là các Ư„ theo giả thiết này trung bình của các chênh lệch này bằng 0.
Chú ý: Giả thiết E(ư, I Xi) = 0 kéo theo E(Ỵ I Xi) = (3, + p2
Y G iá trị trung bình P R F
Hình 2.2
Giả thiết 3. Phương sai bằng nhau (phương sai thuần nhất) của các Ui (Homosccdasticity of Ư ,).
Var (UI Xi) = Var(ưj I Xj) = ơ2 Vi * j
Giả thiết 3 có nghĩa là phân bố có điều kiện của Y với giá trị đã cho của X có phương sai bằng nhau, các giá trị cá biệt của Y xoay quanh giá trị trung bình với phương sai như nhau.
Giả thiết 3 kéo theo Var(Yị I Xi) = ơ 2.
v ể mặt hình học có thể mô tả giả thiết này như hình 2.3.
Hình 2.4: Var (U I Xi) * Var (Uj I Xj) = ơ j: j (Phương sai không thuần nhất) Giả thiết 4. Không có sự tương quan giữa các ụ :
Cov(Ư, , Uj) = 0 V i * j
u u \ ' u
a) b) c)
Hình 2.5
a. Kliông tự tưcmg quan; b. Tự tương quan dương;
c. Tự tương quan âm
Giả thiết này có nghĩa là ư, là ngẫu nhiên. Về mật hình học có nghĩa là nếu như có một giá trị u nào đó lớn hơn (nhỏ hơn) giá trị trung bình thì không có nghĩa giá trị khác cũng lớn hơn (nhò hơn) giá trị trung bình.
Giả thiết 5. Ụ và Xi không tương quan với nhau:
Trên đây đã đưa một số giả thiết cơ bản. Bạn đọc có thể đặt vấn đề: vì sao phải có các giả thiết này? Chúng được thực hiện như thế nào? Cái gì sẽ xảy ra nếu các giả thiết này không được thỏa mãn? Bằng cách nào biết được mô hình hồi quy thỏa mãn tất cả các giả thiết này. Vấn đề mà bạn đưa ra thật lý thú nhưng không thể giải đáp ngay trong chương này được. Chúng sẽ được giải đáp dần dần trong các chương sau.
2.3. ĐỘ CHÍNH XÁC CỦA CÁC UỠC LUỢNG b ì n h PHUƠNG n h ỏ n h ấ t Theo phương pháp bình phương nhỏ nhất, các ước lượng (3,, p., được xác định theo công thức:
Các ước lượng này là hàm của mẫu, là đại lượng ngẫu nhiên, với các mẫu khác nhau ta có các ước lượng khác nhau. Vì phương sai hay độ lệch chuẩn đặc trưng cho độ phân tán của đại lượng ngẫu nhiên, nên ta dùng chúng làm thước đo cho chất lượng của ước lượng.
Với các giả thiết của phương pháp bình phương nhỏ nhất, phương sai và độ lệch chuẩn của các ước lượng được cho bởi các công thức sau:
Cov(Ư,, X i) = 0.
p , = Y - p 2 x
var (4 ) = - ^ - ; s e ( P 2 ) ---
n
trong đó, ơ2 = Var(Ụ)
se: sai số tiêu chuẩn (Standard eưor)
tr<
z
Xi = Xi - X
2 2
Trong các công thức trôn a chưa biết, a được ước lượng bằng ước lượng
khồng chệch cùa nó là ơ2 = —— ; ồ = ỵ i=l ỵ ^ n __ 2) là sai số tiêu chuẩn của đường hổi quy (Standard eư or of regression). Nó chính là độ lệch tiêu chuẩn các giá trị Yquanh đường hồi quy mẫu.
Các tính chất của các ước lượng bình phương nhỏ nhất được thể hiện qua định lý sau đây:
Định lý Gauss - Markov: Với các giả thiết 1-5 của phương pháp bình phương bé nhất, các ước lượng bìrửx phương nhỏ nhất là các ước lượng tuyến tính, không chệch và có phương sai nhỏ nhất trong lớp các ước lượng tuyến tính không chệch.
Với các kết quả ở bảng 2.1, ta tính được:
s
ô2 = ; = 2,9746993
n - 2 9 - 2
ơ2 chưa biết nhưng có thể dùng ước lượng không chệch của nó là ố 2.
- ơ2 2,9746993 . ... . Var( B, ) = — — = —— • ô 0,001507055
ỉ 2 X 1973,8489
i=l
se( p 2) =0,0388208
A 2 2770,97
Var ((3,) = — -— ơ = ---—--- • 2,9746993 ằ 0,464 2 9 . 1973,8489
°z,xi
i = l se( Pj ) ô 0,6811
2.4. HỆ SỐ r2 ĐO ĐỘ PHÙ HỢP c ủ a h à m H ồ i q u y m a u SPF Ta có Ỵ = Ỳ; + o
Yi - Y = ỶJ - Y + 4
= ỸJ - Ý + Ci hay yi = ỳj+ d í y? = ỉ Ỷ 2i + Ỉ ef + 2 Z ỷ ị e,
iôl i=l i*I
= Ằ Ỷ) + X e ? + 0 • Yỉ ỹ, = P2 xi nên :
i*l i=l
ỉ y ? = 02 Ỳ X? + ỉ ef
i=l i=l i=l
Ký hiệu: TSS = ỉ y? = Ê (Yi - Ỹ )2 .
i= I i=l
TSS (Total Sum o f Squares) là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Yj với giá trị trung bình của chúng.
E S S = Ê ( Ỳ , - Y ) 2 = ỉ (ỷ , - Ỹ ỷ = Ỳ ỹ- = P Ỉ Ẻ X?.
i=l 1=1 i=l i=l
ESS (Explained Sum of Squares) là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y nhận được từ hàm hồi quy mẫu với giá trị trung bình của chúng (Ỹ = Y ). Phần này đo độ chính xác của hàm hồi quy.
RSS = ỉ ef = Ỳ (Y| - Ỳ, ý
i=l i=l
RSS (Residual Sum of Squares) là tổng bình phương cùa tất cả các sai lệch giữa các giá trị quan sát Y và các giá trị nhận được từ hàm hồi quy.
Vê mặt hìnhịiọc có thể minh họa như trên hình 2.6.
H ình 2.6 TSS = ESS + RSS
TSS được chia thành hai phần: một phần ESS do đường hồi quy mảu gây ra và phần của RSS đo các yếu tố ngẫu nhiên gâỹ ra.
Từ TSS = ESS + RSS ta chia cả hai vế cho TSS, ta có:
ESS RSS
= TSS + TSS
Ê ( Ỹ , - Y ) ! £ e ?
i=l , i=l
_ + n _
X ơ , - Y ý E ( Y , - V )
i=l i=l
Đạt r1 =
í (Ỹ, - y y
i = I ______
ĩ(Y,-ỹ)
i=l n
ỉ
ESS RSS
2 TSS “ TSS
i=i
L y ’ 5 > ỉ
i=l i=l
P2Ỉ X ? È * ?
n
í i=)
I * ỉ
iằl
r 2 = P Ỉ T n - 1
? y ỉi=l
~ P j sl
n - 1
trong đó: Sx và s ị là phương sai mẫu của X và Y.
/ „ N2
■ Ị x , y , Mặt khác p 2 =
Ẻ X iY V j=l
z*ii=l
p.y, i*/
p ỉ p ỉ
ỉm/ \fm/ '
n (" VI n ( n \ 2
ằ i x /=/ - p ) - Ẻ Í - I Ẻ ?7=/ V/=/ /
\V/=/ '\/ằ/
Từ định nghĩa r2 chúng ta thấy r2 đo tỷ lệ hay số phần trăm của toàn bộ sai lệch của Y với giá tri trung bình của chúng được giải thích bằng mô hình (hay biến độc lập), r2 được sử dụng để đo độ thích hợp của hàm hồi quy. Dễ dàng thấy được 0 < r2 < 1. Nếu lấy càn bậc hai của r ta được r. r chính là hê số tương quan mẫu, tuy nhiên dấu của r tuỳ thuộc vào quan hệ cùng chiều hay ngược chiều giữa Y và X.
Các tính chất của hệ sô tương quan r
1. r có thể âm hoặc dương, dấu của r phụ thuộc vào dấu của tử số, đó chính là dấu của Cov(XỴ), hay là dấu của hộ số góc.
2. -1 < r < 1
3. r có tính chất đối xứng r(X,Ỵ) = r(Y,X) 4. Nếu x ’ = aX + c ; Y = b Y + a;
a,b,c,d là các hằng số
a,b > 0 thì r ( x \ Y ) = r(X,Y)
5. Nếu X,Y độc lập với nhau thì r(X,"Y) = 0; Điều ngược lại không đúng.
6. r đo sự phụ thuộc tuyến tính, nhưng không có ý nghĩa trong việc định rõ tính chất các quan hệ phí tuyến .
7. r đo độ phụ thuộc tuyến tính giữa X và Y, vậy không đòi hỏi X Y có mối quan hệ nhân quả.
8. r2 cũng có thể tính bằng công thức:
r =
ỉ (y, - y) (Ỹ, - y) ] Í Ệ y , ỹ , ì
L i=Ị_________ ___________ J _ _ Vm /
i*=I i=l i=l i= 1
Với các số ở bảng 4.1 ta có:
2 2466,142
r = 1 9 7 3 ^4 8 9 3102,04 = Q’9932 ; r = 0’9966 2.5. PHÂN BỐ XÁC SUẤT CỦA Ui
Phần trên chúng ta đã trình bày các ước lượng điểm của P! và p2 thu được bằng phương pháp bình phương nhỏ nhất. Với các giả thiết cơ bản:
E (U ) = 0 Var (Ụ ) = ơ2
Cov (Ụ ,U j) = 0 ( V i ^ j)
thì p , , P2 là các ước lượng tuyến tính không chệch có phương sai nhỏ nhất của Pi và P2. Mục đích của phân tích hồi quy không phải chỉ là suy đoán v'ê pi và P2 hay PRF mà còn phải kiểm tra bản chất của sự phụ thuộc, còn phải thực hiộn các dự đoán khác. Do vậy cần phải biết phân bố xác suất của p | và P 2. Các phân bố này phụ thuộc vào phân bố của các ụ .
Bây giờ chúng ta đua thêm giả thiết.
Giả thiết 6. Ui có phân bố N(0, ơ 2)
Với các giả thiết trôn, các ước lượng bình phương nhỏ nhất p ị , P2 và ở 2 có các tính chất sau đây:
1. Chúng là các ước lượng không chộch 2. Có phương sai cực tiểu
3. Khi số quan sát đủ lớn thì các ước lượng này xấp xỉ với giá trị thực của phân bố.
4. p, ~ N ( p , , ơ ị ) .
Pl
P l - P l
Từ tính chất này suy ra z --- N (0,1)
ơp.
5. P2 ~ N (p2, o ị )
B, - B,
Từ tính chất này ta suy ra z = --- N (0,1)
( n - 2 ) 0 " 2
6 . --- , - X ( n - 2 )
ơ2
7. Trong các ước lượng không chệch của Pi, p2 b ít kể là tuyến tính hay phi tuyến tính thì p , , P2 có phương sai nhỏ nhất.
8. Yi ~ N(pi + p2 Xi, ơ 2).
Với các tính chất trôn chúng ta có thể tìm khoảng tin cậy và kiổm định giả thiết vồ các tham số hồi quy.
2 .6 . KHOẢNG TIN CẬY VÀ KlỂM đ ị n h g i ả t h i ế t v ề c á c h ệ s ố HỒI QUY
Với các giả thiết 2-6 t h ì : Pị ~ N (pi, d ị )
Pl p2~N((W^)
2 ỵ x f 2 2 _ ơ2
trong đó: = ■ - --CT ; ƠI = '
P| V 2 2 Pỉ V 22
n Z > i L * ,
i=l i=l
nhưng do ơ2 chưa biết nên a ị và a ị cũng chưa biết. Do vây, phải dùng uớc
Pl P2
lượng không chệch của ơ2 là ô2 . Khi đó các thống kê:
P l - P l P í - P í
t = 7^— và t = --- X— có phân bố T(n-2) và
s e (P ,) se(P 2)
A
X2 = (n - 2) ~ ~ X2 (n - 2).
<J
Do đó, có thể tìm khoảng tin cậy, kiểm định giả thiết cho các hệ sô' hồi quy và ơ2.