Giả thiết 2: Biến giải thớch là phi ngẫu nhiờn Giả thiết 3: Trung bỡnh của các sai số ngẫu nhiờn bằng 0... Giả thiết 10: Không có đa cộng tuyến giữa các biến giải thích của mô hình hồi
Trang 1Bài 2 ƯỚC LƯỢNG VÀ Kiểm định
MÔ HÌNH HỒI QUI đơn
1 Mô hình
- Mô hình hồi qui đơn ( Simple regression ) là mô hình một phương trình
gåm một biến phụ thuộc (Y) và một biến giải thích (X)
- Mô hình có dạng: PRF E(Y/X i )= β1 + β2 X i
PRM Y i = β1 + β2 X i + u i
(X i , Y i ), i = 1÷ n}, tìm , sao cho βˆ1 βˆ2
- Với mẫu W = {
SRF Yˆ i = + Xβˆ1 βˆ2 i
SRM Yi = βˆ1+ Xβˆ2 i + e i
phản ánh xu thế biến động về mặt trung bình của mẫu
2 Phương pháp bình phương nhỏ nhất( Ordinary least squares -OLS)
2.1 Phương pháp
- Tìm βˆ1, sao cho Q = βˆ2 ∑ ∑ → min
=
=
=
i i n
i
i
Y
1
2
1
2 ) ˆ ( Lấy đạo hàm riêng của Q theo βˆ 1 và βˆ2 và cho bằng 0:
∂Q/∂βˆ 1 = -2 ∑(Yi - βˆ1 - βˆ 2Xi) = 0 ∂Q/∂βˆ 2 = -2 ∑Xi (Yi - βˆ1 - βˆ2Xi) = 0
⇒ βˆ1n + βˆ2∑Xi = ∑Yi
βˆ
1∑Xi + βˆ
2∑Xi2 = ∑XiYi
§Æt: X = (∑Xi)/n ; Y = (∑Yi)/n ; X Y = (∑XiYi)/n ; X 2 = (∑Xi2)/n
⇒ = βˆ2
2
2 ( X)
X
Y X XY
−
− ; βˆ1 = Y−βˆ2X
Trang 2Đặt x i = X i –⎯X ; y i = Y i –⎯ y ; yˆ i = Yˆ i – Y
→ = βˆ2
∑
∑
=
=
n i i
n i i i
x
y x
1 2 1
→ yˆ i = βˆ2xi gọi là hàm hồi quy mẫu đi qua gốc toạ độ
1 , ước lượng bằng phương pháp bình phương nhỏ nhất nên được gọi là
các ước lượng bình phương nhỏ nhất (OLS) của β
ˆ
β
2
ˆ
β
1 và β2
2.2.Phương pháp OLS có các tính chất sau:
a SRF đi qua điểm trung bình mẫu (X, Y )
b Trung bình của các giá trị ước lượng bằng trung bình mẫu
Y
c Tổng các phần dư bằng không 0
1 =
∑
= i
n
i e
d Các phần dư không tương quan với các giá trị của biến giải thích:
cov(ei,xi) = 0
1e i X i =
∑
=
n i
e Các phần dư không tương quan với các giá trị ước lượng của biến
phụ thuộc Y : cov(ei,yˆi) = ∑ = 0
=
n i i Y ei
1 ˆ
3 Các giả thiết cơ bản của OLS
Một ước lượng sẽ dùng được khi nó là tốt nhất Để ước lượng OLS là tốt
nhất thì tổng thể phải thỏa mãn một số giả thiết sau:
Giả thiết 1: Mô hình hồi quy có dạng tuyến tính đối với tham số
Giả thiết 2: Biến giải thớch là phi ngẫu nhiờn
Giả thiết 3: Trung bỡnh của các sai số ngẫu nhiờn bằng 0
Trang 3E(u i ) = 0 ∀ i
Giả thiết 4: Phương sai sai số ngẫu nhiờn bằng nhau
Var(u i ) = σ2 ∀ i
Giả thiết 5: Cỏc sai số ngẫu nhiên không tuơng quan
Cov(u i , u j ) = 0 ∀ i ≠ j
Giả thiết 6: SSNN và biến giải thích không tương quan
Cov(u i , X i ) = 0 ∀ i
Giả thiết 7: Các giá trị của biến giải thích phải khác nhau càng nhiều càng tốt
Var(X) > 0
Giả thiết 8: Kích thước mẫu phải lớn hơn số tham số cần ước lượng của mô hình
n > k
Giả thiết 9: Mô hình được chỉ định đúng
Giả thiết 10: Không có đa cộng tuyến giữa các biến giải thích của mô hình hồi quy
bội
Định lý Gaus-Markov: Nếu tổng thể thỏa mãn các giả thiết trên thì
ước lượng OLS sẽ là ước lượng tuyến tính, không chệch, tốt nhất (trong số các ước lượng không chệch) của các tham số (Best Linear Unbiassed Estimator - BLUE)
4 Các tham số của ước lượng OLS
Các ước lượng là biến ngẫu nhiên tùy thuộc mẫu, nên có các tham số đặc trưng
j
βˆ
Kì vọng : E( ) = βˆ1 β1 E( ) = βˆ2 β2
Phương sai : Var( ) = βˆ1 2
1 2 1
2
σ
∑
∑
=
=
n i i
n i i
x n
X
1 2
1 σ
∑
=
n i i x
Độ lệch chuẩn : SD( ) = βˆj ( ˆ )
j
Th-êng th× σ2 là phương sai cña sai sè ngẫu nhiên chưa biết, được ước lượng bởi σ ˆ 2
2
ˆ
σ =
2
2 1
−
∑
=
n
e i n
i với 2 là số tham số cần phải ước lượng của mô hình
Trang 4σˆ = σˆ2 là độ lệch chuẩn của đường hồi qui :
(Standard error of Regression)
Lúc đó ta thu được:
Se( ) = βˆ1
∑
∑
=
=
n i i
n i i
x n X
1 2 1
2
ˆ
σ
Se( ) = βˆ2
∑
=
n
i i
x
1 2
ˆ
σ
Các sai số chuẩn phản ánh độ chính xác của ước lượng
Cov(βˆ
1, βˆ
2) = - X Var(βˆ
2) Hiệp phương sai phản ánh mối quan hệ giữa βˆ
1 và βˆ2 Các tham số trên thường được cho trong ma trận sau:
var - cov = ⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
) var(
)
, cov(
) , cov(
)
var(
2 1
2
2 1 1
β β
β
β β β
5 Sự phù hợp của hàm hồi qui- Hệ số xác định R 2
Y i = Yˆ i +e i ⇒
Y Y y
Y Y y i i
i i
−
=
−
= ˆ
ˆ ⇒ yi = yˆi + e i
yi2 = yˆi2 + ei2 + 2eiyˆi
∑ =
=
n i i y
1
2 ∑ + + 2
=
n i i y
1
2
=
n i i e
1
=
n i i
i y e
1 ˆ
Do ∑
=
=
n i i
i y e
1
0 ˆ
Nªn ∑ ∑ ∑
=
=
=
+
i
n i
n
e y
y
1
2
1
2
1
Ký hiệu: ∑ = TSS = ESS và ∑ = RSS
=
n i i y
1
=
n i i y
1
2 ˆ
=
n i i e
1 2
Trang 5Thì thu được hệ thức cơ bản của phương pháp phân tích phương sai
(Analysis of Variance) sau đây:
TSS = ESS + RSS
TSS (Total Sum of Squares) : đo tổng biến động của biến phụ thuộc ESS (Explained Sum of Squares): tổng biển động của biến phụ thuộc
được giải thích bởi MH – biến giải thích
RSS (Residual Sum of Squares) : tổng biến động của biến phụ thuộc
được giải thích bởi các yếu tố nằm ngoài mô hỡnh – Sai số ngẫu nhiờn
Đặt R2 =
TSS
RSS TSS
ESS = 1 − gọi là hệ số xác định, 0 ≤ R2 ≤ 1
í nghĩa: Hệ số xác định R 2 là tỉ lệ (hoặc tỉ lệ %) sự biến động của biến phụ thuộc được giải thích bởi biến giải thớch (theo mô hình , trong mẫu)
6 Hệ số tương quan R :
Là căn bậc hai của hệ số xác định và đo mức độ tương quan tuyến tính giữa
Y và X Mức độ liên quan chặt chẽ tuyến tính giữa X và Y
Giá trị của R càng gần 1 và -1 thì X và Y càng liên quan chặt chẽ
Giá trị của R càng gần 0 thì X và Y liên quan lỏng lẻo
Hệ số tương quan thường được cho trong ma trận sau:
r = ⎟⎟
⎠
⎞
⎜⎜
⎝
⎛ 1
1
r r
Trang 67 Phân phối xác suất của sai số ngẫu nhiên
Muốn tiến hành các suy diễn thống kờ, thỡ phải biết phõn phối xỏc suất của
cỏc ước lượng, phân phối đó tùy thuộc phân phối xác suất của SSNN
Giả thiết 11: Các SSNN ui cú phõn phối chuẩn
Cơ sở của giả thiết này là:
+ Do ui thường là sự tổng hợp của một số lớn các nhân tố ngẫu nhiên độc lập
và ảnh hưởng bé đều như nhau nên theo hệ quả của định lý giới hạn trung tâm thì
có thể xem là ui phân phối chuẩn
+ Phân phối chuẩn chỉ có hai tham số là μ và σ2 nên dễ sử dụng
+ Phân phối chuẩn có tính chất là nếu ui phân phối chuẩn thì mọi hàm tuyến
tính của nó cũng phân phối chuẩn
+ Phân phối chuẩn có tính chất là tính độc lập và không tương quan là đồng
nhất
Kết hợp các giả thiết 3,4,5 và 11 ta có giả thiết chung là:
u i ∼ n.i.d (0,σ2 )
Mô hình thoả mãn các giả thiết trên gọi là mô hình hồi quy tuyến tính cổ điển (
Clasic Linear Regression Model - CLRM )
8 Các tính chất của các ước lượng OLS
a Các ước lượng của CLRM là các ước lượng không chệch
b Các ước lượng của CLRM là các ước lượng vững
c Các ước lương của CLRM là các ước lượng hiệu quả nhất
d βˆ1 ∼ N( β1 , var(βˆ
1 ))
) ˆ (
ˆ 1
1 1
β
β β
sd
) ˆ (
ˆ 1
1 1
β
β β
se
e βˆ2 ∼ N( β2 , var(βˆ2 ))
) ˆ (
ˆ 2
2 2
β
β β
sd
) ˆ (
ˆ 2
2 2
β
β β
se
Trang 7f χ2 = 2
2 ˆ ) 2 (
σ
σ
−
n
∼ χ2(n-2)
g Các ước lượng của CLRM đều là BLUE hoặc BUE
h Y i ∼ N ( β1 + β2 X i , σ2 ) i = 1, 2, N
.9 Suy diễn thống kê
9.1 Ước lượng khoảng
Với độ tin cậy 1 - α cho trước:
Khoảng tin cậy của các hệ số håi quy β1 vµ β2 Khoảng tin cậy tổng quát:
βˆj – Se( )t
j
βˆ
2
α (n – 2) < βj < βˆj + Se( )t
j
βˆ
1
α (n – 2)
Khoảng tin cậy đối xứng:
βˆj – Se( )t
j
βˆ α/2 (n – 2) < βj < βˆj + Se( )t
j
βˆ α/2 (n – 2) Khoảng tin cậy bên phải:
j
βˆ – Se( )tβˆj α(n – 2) < βj
Khoảng tin cậy bên trái:
βj < βˆj + Se( )t
j
βˆ α(n – 2) (j = 1,2)
Khoảng tin cậy cho sai số ngẫu nhiên:
Khoảng tin cậy tổng quát:
) 2 (
) 2 ( ˆ
2 2
2
−
−
n
n
α χ
σ < σ2 <
) 2 (
) 2 ( ˆ
2 1 1
2
−
−
n
α χ σ
Khoảng tin cậy hai phía:
Trang 8
) 2 (
) 2 ( ˆ
2 2 /
2
−
−
n
n
α χ
σ
< σ2 <
) 2 (
) 2 ( ˆ
2 2 / 1
2
−
−
n
α χ σ Khoảng tin cậy bên phải:
ˆ2(2n(n−−2)2)
α χ
σ < σ2
Khoảng tin cậy bên trái:
σ 2 < 2( 2)
1
2( 2) ˆ
−
−
−
n
n
α χ σ
9.2 Kiểm định giả thuyết
Với mức ý nghĩa α cho trước, kiểm định mối quan hệ thứ tự của hệ
số với các số thực cho trước
⎪⎩
⎪
⎨
⎧
≠
=
* 1
* 0
: H
: H
j j
j j
β β
β β
Tiêu chuẩn kiểm định : Tqs =
) ˆ (
ˆ *
j
j j
Se β
β
β −
Nếu ⏐T qs ⏐> tα/2 (n – 2) thì bác bỏ H0, ngược lại : chưa có cơ
sở bác bỏ H0
ii Cặp giả thuyết Nếu T
⎪⎩
⎪
⎨
⎧
>
=
* 1
* 0
: H
: H
j j
j j
β β
β
β
qs > tα(n – 2) : bác bỏ H0
iii Cặp giả thuyết Nếu T
⎪⎩
⎪
⎨
⎧
<
=
* 1
* 0
: H
: H
j j
j j
β β
β
β
qs < – tα(n – 2) : bác bỏ H0
⎩
⎨
⎧
≠
= 0 :
H
0 :
H 1
0
j
j
β
β
qs =
) ˆ (
ˆ
j
j
Seβ β
Các kiểm định trên được gọi là Kiểm định T
Kiểm định bằng P-value:
Trang 9Với kiểm định bên trái:P-value=P(T<T qs ) Với kiểm định hai phía:P-value=2P(T>|T qs|)
Nếu cho trước α thì quy tắc kết luận như sau:
Nếu P-value<α thì bác bỏ H 0
Nếu P-value>α thì thừa nhận H 0
⎩
⎨
⎧
≠
= 2 0
2 1
2 0
2 0 : H
: H
σ σ
σ σ
iii Cặp giả thuyết Tiêu chuẩn kiểm định:
χ2 = 2
0
2
ˆ ) 2 (
σ
σ
−
n
Nếu χqs < 2 hoặc χ
2 /
1 α
χ− qs > χα2/2thì bác bỏ H0
⎩
⎨
⎧
>
= 2 0
2 1
2 0
2 0 : H
: H
σ σ
σ σ
Cặp giả thuyết Nếu χqs > χα2 thì bác bỏ H0
⎩
⎨
⎧
<
= 2 0
2 1
2 0
2 0 : H
: H
σ σ
σ σ
Cặp giả thuyết Nếu χqs <χ12−α thì bác bỏ H0 Các kiểm định trên được gọi là kiểm định Khi bình phương (χ2)
Các kiểm định trên cũng có thể tiến hành bằng phương pháp P-value
10 Kiểm định về sự thích hợp của mô hình
Cặp giả thuyết
Trang 10⎨
⎧
≠
= 0 :
H
0 :
H
2 1
2 0
R
R Biến giải thích không giải thích cho Y
Biến giải thích có giải thích cho Y ⇔
⎩
⎨
⎧
≠
= 0 :
H
0 :
H 2 1
2 0
β β
Kiểm định F: F qs =
) 2 /(
) 1 (
1 / )
2 /(
1 /
2
2
−
−
=
− R n
R n
RSS ESS
- Nếu F qs > Fα( 1; n - 2) thì bác bỏ H0 : biến giải thích giải thích được cho sự biến động của biến phụ thuộc, hàm hồi qui được gọi là phù hợp
- Ngược lại, Y không phụ thuộc vào biến giải thích, hàm hồi qui
không phù hợp
Vì hai cặp giả thiết tương đương, kiểm định F tương đương kiểm định T
F qs = (T qs)2
Kiểm định F nói trên cũng có thể tiến hành bằng phương pháp P-value
11 Dự báo
Là ước lượng khoảng cho giá trị trung bình và cá biệt của biến phụ thuộc
khi biến giải thích nhận giá trị xác định X = X0
11.1 Dự báo giá trị trung bình
Trang 11Khoảng tin cậy tổng quát:
0 ˆ
Y – Se( )t Yˆ0 α2(n – 2) < E(Y/X0) < Yˆ0 + Se( )t Yˆ0 α1 (n – 2)
Khoảng tin cậy đối xứng:
– Yˆ0 Se( )t Yˆ0 α/2 (n – 2) < E(Y/X0) < Yˆ0 + Se( )t Yˆ0 α/2 (n – 2)
Khoảng tin cậy bên phải:
Yˆ0 – Se( )t Yˆ0 α(n – 2) < E(Y/X0)
Khoảng tin cậy bên trái:
E(Y/X0) < Yˆ0 + Se( )t Yˆ0 α(n – 2)
Với = + Yˆ0 βˆ1 βˆ2X0 và Se( ) = Yˆ0 1 ( 0 2 )2
ˆ
i x
X X
− +
σ
11.2 Dự báo giá trị cá biệt
Yˆ0– Se( Yˆ 0 - Y0)tα2(n – 2) < Y0 < Yˆ0 + Se( Yˆ 0 - Y0) tα1(n – 2)
Với Se( Yˆ 0 - Y 0) = 1 ( 0 2 )2
1 ˆ
i x
X X
− + +
σ
VÝ dô 1: Håi quy hµm tiªu dïng Keynes vµ cho nhËn xÐt
Dependent Variable: Y
Method: Least Squares
Date: 02/16/09 Time: 09:07
Sample: 1980 1991
Included observations: 12
Variable Coefficie
nt Std Error t-Statistic Prob
Trang 12C
-231.7951 94.52751 -2.452144 0.0341
R-squared 0.990943 Mean dependent
var
2880.600
Adjusted
R-squared
0.990038 S.D dependent var 314.4417
S.E of regression 31.38488 Akaike info
Sum squared resid 9850.106 Schwarz criterion 9.962359
-57.28925
F-statistic 1094.160
Durbin-Watson
stat 1.284183 Prob(F-statistic) 0.000000
Ví dụ 2: Với các số liệu về lãi suất cổ phiếu của công ty IBM và của thị trường chứng khoán Mỹ từ tháng 1 năm 1978 đến tháng 12 năm 1987
( tệp số liệu ch2bt1) hãy ước lượng mô hình SIM và cho nhận xét
Mô hình SIM( Single Index Model) có dạng:
Ri = α + βRm
Trong đó: Ri là lợi tức của công ty i
Rm là lợi tức của chỉ số thị trường
α thể hiện tác động của các yếu tố khác ngoài Rm đối với Ri
β đo mức độ nhạy cảm của chứng khoán I trước những dao động của thị trường
Nếu chứng khoán ít nhạy cảm trước những biến động của chỉ số thị trường thì 0
< β < 1 và được gọi là chứng khoán tự vệ Nếu chứng khoán nhạy cảm trước những biến động của chỉ số thị trường thì β > 1 và gọi là chứng khoán năng động
Mô hình SIM giả định rằng lợi tức của mỗi chứng khoán đều có ba bộ phận hợp thành:
α đại diện cho phần lợi tức không phụ thuộc vào lãI suet thị trường
β đo lường mức độ nhạy cảm của lợi tức chứng khoán đang xét trước những thay đổi của lợi tức của chỉ số chứng khoán
Như vậy mô hình SIM chỉ ra hai loại rủi ro khác nhau trong đầu tư chứng khoán:
• Rủi ro thị trường, được đo bằng β, là rủi ro liên quan đến sự biến động của toàn bộ thị trường và
Trang 13không thể giảm thiểu bằng cách đa dạng hóa trong phạm vi thị trường
• Rủi ro riêng chỉ liên quan đến cổ phiếu đang xét
Nó có thể đo bằng sai số chuẩn của β Nhà đầu tư chỉ có thể loại trừ rủi ro riêng bằng các đa dạng hóa danh mục đầu tư
Ta chuyển sang mô hình kinh tế lượng:
Ri = α + βRm + Ui
Kết quả hồi quy như sau:
Dependent Variable: IBM
Method: Least Squares
Date: 02/16/09 Time: 09:54
Sample: 1978:01 1987:12
Included observations: 120
Variable Coefficie
nt Std Error t-Statistic Prob
C 0.003278 0.004703 0.697054 0.4871
MARKET 0.453024 0.067675 6.694125 0.0000
R-squared 0.275235 Mean dependent
var
0.00961
7 Adjusted
R-squared
0.269093 S.D dependent var 0.05902
4 S.E of regression 0.050461 Akaike info
criterion
-3.11868
7 Sum squared resid 0.300471 Schwarz criterion
-3.07222
9 Log likelihood 189.1212 F-statistic 44.8113
1 Durbin-Watson
stat 1.882724 Prob(F-statistic) 0.000000
Ví dụ 3: Hãy thu thập số liệu của Việt nam để hồi quy các mô hình sau:
(a) FDIt = β1 + β2GDPt + Ut
(b) lnFDIt = β1 + β2 lnGDPt + Ut
Và cho biết mô hình nào phù hợp hơn