KINH TẾ LƯỢNG CƠ BẢN PHẦN 2 ĐA CỘNG TUYẾN Multicollinearity Khái niệm : Đa cộng tuyến là hiện tượng mà trong mô hình hồi quy, các biến giải thích có mối quan hệ tuyến tính với nhau..
Trang 1KINH TẾ LƯỢNG CƠ BẢN
(PHẦN 2)
ĐA CỘNG TUYẾN (Multicollinearity)
Khái niệm : Đa cộng tuyến là hiện tượng mà trong mô hình hồi quy,
các biến giải thích có mối quan hệ tuyến tính với nhau Ví dụ :
- Khi xét lượng nhà xây mới chịu sự ảnh hưởng của thu nhập
(GNP) và dân số (POP) Hai biến giải thích GNP và POP có quan hệ
tuyến tính khá cao.
- Khi xét Năng suất cây trồng chịu sự ảnh hưởng của Lượng phân
bón và Công lao động Hai biến giải thích này có mối quan hệ đồng
biến với nhau
Các dạng của đa cộng tuyến : Có hai dạng đa cộng tuyến :
- Đa cộng tuyến hoàn hảo : λλλλ 1 X 1 + λλλλ 2 X 2 + + λλλλ K X K = 0
- Đa cộng tuyến không hoàn hảo : λλλλ 1 X 1 + λλλλ 2 X 2 + + λλλλ K X K + vi = 0
Trang 2HẬU QUẢ CỦA ĐA CỘNG TUYẾN
1- Nếu các biến giải thích trong mô hình có quan hệ tuyến
tính hoàn hảo thì mô hình không thể ước lượng được
HQ1.ppt dacongtuyen.wf1
Xét ví dụ sau : Data 3-7 thể hiện quan hệ giữa chi phí bảo trì
xe (COST) với tuổi xe (AGE) và số dặm xe đó đã chạy (MILES).
Trang 3Xét ba mô hình :
- Mô hình A : COST t = αα1 + αα2 AGE t + u 1t
- Mô hình B : COST t = ββββ 1 + ββββ 2 MILES t + u 2t
- Mô hình C : COST t = γγγγ 1 + γγγγ 2 AGE t + γγγγ 3 MILES t + u 3t
Trong đó : αα2 , ββββ 2 , γγγγ 2 , γγγγ 3 được kỳ vọng dương (Why ?)
Sử dụng phần mềm EVIEW để ước lượng các tham số của ba
mô hình trên, ta có bảng sau : DATA\data3-7.wf1
BẢNG ƯỚC LƯỢNG CÁC THAM SỐ CỦA BA MÔ HÌNH
Biến Mô hình A Mô hình B Mô hình C
Hằng số -625.9
(-6)
-796 (-5.9)
26.19 (0.23)
Trong mô hình A và B, biến AGE và MILES có hệ số ước lượng đúng với dấu kỳ
vọng và có ý nghĩa về mặt thống kê.
Khi đưa hai biến AGE và MILES vào cùng một mô hình (mô hình C), giá trị của
các hệ số ước lượng đã thay đổi Đặt biệt, hệ số ước lượng của biến MILES không
đúng với dấu kỳ vọng và giảm đáng kể các giá trị thống kê t.
Mô hình C có MSE bé nhất ⇒⇒giá trị dự báo có sai số bé nhất.
Trang 4NHẬN DẠNG ĐA CỘNG TUYẾN
Giá trị R 2 cao nhưng các giá trị thống t của các hệ số hồi quy thấp.
Hệ số tương quan cặp giữa các biến giải thích cao Tuy nhiên, có
một số trường hợp tương quan riêng phần không cao nhưng vẫn có
đa cộng tuyến do một biến giải thích tương quan với nhiều biến giải
thích
Các hệ số hồi quy thay đổi khi có sự thêm vào hay bớt ra các biến
giải thích
Sử dụng các hàm hồi quy phụ trợ : Nhằm xét một biến độc lập có
quan hệ với các biến độc lập khác Phương pháp :
- Xây dựng mô hình hồi quy cho mỗi biến X i với các biến X còn lại.
- Xác định các hệ số xác định R i 2 của từng mô hình.
- Sử dụng kiểm định F để xác định sự tồn tại thực của các mô hình
hồi quy phụ trợ.
8
KHẮC PHỤC ĐA CỘNG TUYẾN
Sự bỏ qua đa cộng tuyến : Nếu ta ít (hoặc không quan tâm) đến
việc diễn dịch từng hệ số hồi quy riêng lẻ mà chỉ chú ý đến
việc dự báo thì đa cộng tuyến không phải là vấn đề nghiêm
trọng Mặt khác, việc chấp nhận đa cộng tuyến để giử lại các
biến giải thích được xây dựng từ các lý thuyết tỏ ra an toàn
hơn khi loại bỏ chúng.
Đơn giản hoá mô hình bằng cách loại bỏ các biến có trị thống
kê t thấp ra khỏi mô hình nói chung sẽ làm cải thiện mức ý
nghĩa của các biến còn lại.
Tăng kích thướùc mẫu hoặc nếu được thì thay mẫu điều tra
khác.
Sử dụng thông tin tiên nghiệm TTTN.ppt
Trang 5VÍ DỤ : NGHIÊN CỨU TỶ LỆ NGHÈO VÀ CÁC YẾU TỐ ẢNH HƯỞNG
•Bảng DATA 4-6 có dữ liệu về tỷ lệ nghèo và các yếu tố ảnh hưởng :
Tỷ lệ nghèo:
được xác định
bằng % các gia
đình có thu nhập
dưới mức nghèo.
% của tổng dân
số thành thị.
Số người trong một hộ gia đình
% dân số (> 25 tuổi) có trình độ trung học
% dân số (> 25 tuổi) có trình độ cao đẳng trở lên
Tỷ lệ thất nghiệp.
Giá trị trung vị về thu nhập gia đình
Ta ước lượng mô hình :
Povrate = ββββ1+ ββββ2.Urb + ββββ3.Famsize + ββββ4.Unemp
+ ββββ5.Highschl + ββββ6.College + ββββ7.Medinc Các kỳ vọng : ββββ3, ββββ4> 0 ; ββββ2, ββββ5, ββββ6, ββββ7< 0
Sử dụng phần mềm Eview ta được kết quả sau : DATA\data4-6.wf1
Trang 6• Với kết quả ước lượng trên, ta nhận thấy :
Adjusted R squares khá cao (0.82) nhưng có nhiều hệ số ước lượng trong mô hình
không có ý nghĩa thống kê (P-value > 5%).
Hệ số β 4 < 0 , ββββ 6 > 0 điều này không đúng với kỳ vọng.
⇒ có hiện tượng đa cộng tuyến trong mô hình.
Biến Unemp rất không có ý nghĩa (giá trị P-Value > 0.9) ⇒⇒
việc loại bỏ biến này
ra khỏi mô hình sẽ không ảnh hưởng đến mục tiêu nghiên cứu
12
Ta ước lượng mô hình 2 với sự loại bỏ biến Unemp :
Không có sự thay đổi trong các hệ số ước lượng và mức ý nghĩa
Biến Urb không có ý nghĩa (P-Value > 20%) ⇒⇒sẽ là biến bị loại
tiếp theo trong mô hình 3
Trang 7Tất cả các hệ số đều có ý nghĩa ở mức dưới 5%.
Hệ số ββββÂ4 > 0 điều này không đúng với kỳ vọng.
Sự ảnh hưởng của biến thu nhập trung bình (Medinc) đến tỷ lệ nghèo có
thể được giải thích thông qua biến Highschl và biến College ⇒⇒khi ước
lượng mô hình 4 có thể loại bỏ biến Medinc
Hệ số ước lượng của biến Highschl và College có ý nghĩa thống kê
và có dấu như kỳ vọng.
Hệ số ước lượng của biến Famsize nghịch dấu kỳ vọng ; Giá trị
Adjusted R-squared suy giảm đáng kể
⇒Như vậy, dấu của biến College không có ý nghĩa về mặt lý thuyết
Trang 8Tiến hành loại biến College, ta được mô hình :
16
KHÁI NIỆM
Tương ứng với một giá trị xác định của biến giải thích Xi, ta có
giá trị sai số Ui là biến ngẫu nhiên thể hiện sự chênh lệch giữa
giá trị thực tế Yi với giá trị ước lượng YÂi Ui.ppt
Một giả thiết trong mô hình hồi quy tuyến tính là phương sai
của sai số ngẫu nhiên Ui (trong điều kiện giá trị đã cho của
biến giải thích Xi) là không đổi : Dothi1.ppt
Var(Ui/Xi) = E[Ui – E(Ui)] 2 = E(Ui) 2 = σσσσ 2 i = 1, 2, …, n
Phương sai có điều kiện của Ui thay đổi khi Xi thay đổi có
nghĩa là E(Ui) 2 = σσσσ i 2 Dothi2.ppt
PHƯƠNG SAI CỦA SAI SỐ THAY ĐỔI
(Heteroscedasticity)
Trang 9Ví dụ : Khi nghiên cứu mối quan hệ giữa chi tiêu (Y) và thu
nhập (X), những hộ có mức thu nhập thấp thường có mức chi
tiêu tập trung xung mứùc chi tiêu trung bình Những hộ có mức
thu nhập cao có mức chi tiêu biến thiên nhiều hơn so với chi
tiêu trung bình của nhóm
NGUYÊN NHÂN CỦA PHƯƠNG SAI CỦA SAI SỐ THAY ĐỔI
Do bản chất của các mối liên hệ.
Do kỹ thuật thu thập dữ liệu được cải tiến.
Do học được hành vi trong quá khứ
KẾT QUẢ CỦA VIỆC ƯỚC LƯỢNG OLS KHI CÓ
PHƯƠNG SAI CỦA SAI SỐ THAY ĐỔI
Các ước lượng và dự báo dựa trên các ước lượng đó vẫn
không thiên lệch và nhất quán.
Ước lượng OLS sẽ không còn hiệu quả (phương sai bé nhất)
Do đó, các dự báo cũng sẽ không hiệu quả.
Phương sai và đồng phương sai ước lượng của các hệ số hồi
quy sẽ thiên lệch và không nhất quán,và do đó các kiểm
định giả thiết (kiểm định t và F) sẽ không còn hiệu lực
Trang 10PHÁT HIỆN PHƯƠNG SAI CỦA SAI SỐ THAY ĐỔI
1- Dựa vào bản chất của vấn đề đang nghiên cứu :
Thực tế nghiên cứu cho thấy các số liệu chéo liên quan đến
các đơn vị không thuần nhất thường tồn tại hiện tượng
phương sai của sai số thay đổi
2- Xem xét đồ thị của phần dư :
Đồ thị của sai số của mô hình hồi quy (Phần dư đối với giá
trị của biến độc lập X hay giá trị dự báo YÂ) sẽ cho ta biết có
tồn tại hiện tượng phương sai không đồng đều hay không
Nếu độ rộng của đồ thị rải (Scatter) của phần dư tăng hoặc
giảm khi X (hay YÂ) tăng thì tồn tại hiện tượng phương sai
không đồng đều
20
Ví dụ : Nghiên cứu mối quan hệ giữa tiền lương và số năm nhận
được bằng tiến sĩ của 220 tiến sĩ trong dữ liệu DATA 3-11 :
Trang 11Ước lượng Salary theo years.
Tính và vẽ đồ thị rãi của phần dư (residual) theo biến years
PHÁT HIỆN PHƯƠNG SAI CỦA SAI SỐ THAY ĐỔI BẰNG
PHÁT HIỆN PHƯƠNG SAI CỦA SAI SỐ THAY ĐỔI BẰNG
KIỂM ĐỊNH GOLDFELD-QUANDT
Goldfeld và Quandt cho rằng nếu :
Phương sai của sai số là như nhau cho tất cả các quan sát
thì phương sai của sai số cho một phần của mẫu cũng sẽ
tương tự như phương sai của sai số cho một phần khác
cũng của mẫu đó
Do vậy ta có thể kiểm định sự bằng nhau giữa những
phương sai của sai số của hai nhóm quan sát bằng việc sử
dụng một kiểm định F
Trang 12Các bước thực hiện :
a- Sắp xếp các quan sát của biến X theo thứ tự tăng dần.
quan sát ở đầu và n 2 quan sát ở cuối dãy số.
c- Sử dụng phương pháp OLS để ước lượng các tham số của
hai hàm hồi quy chứa số quan sát đầu và cuối của dãy số
là df 1 = n 1 - k và df 2 = n 2 - k
(k là số các tham số được ước lượng)
24
d- Phát biểu giả thuyết :
Ho : Không có sự khác biệt về phương sai của sai số
H1 : Có sự khác biệt về phương sai của sai số
f- Bác bỏ giả thiết Ho với mức ý nghĩa α α α nếu :
f > F df2, df1, αα
1 1 2 2
df ESS df
ESS
e- Tính giá trị kiểm định :
Trang 13Ví dụ : Nghiên cứu mối quan hệ giữa tiền lương và số
năm nhận được bằng tiến sĩ trong dữ liệu DATA 3-11
Các bước tiến hành kiểm định G-Q :
Sắp xếp dãy số theo chiều hướng tăng dần của biến
độc lập X (years).
Chia dãy số ra thành ba phần có số quan sát bằng
nhau, loại bỏ các giá trị quan sát ở giữa dãy số.
Tiến hành thủû tục hồi quy mô hình :
Salary = ββββ1+ ββββ2.Years từ hai bộ dữ liệu đầu và cuối
của dãy số
Tính các giá trị ESS1 và ESS2.
Kết quả ước lượng 74 quan sát đầu và 74 quan sát cuối của
dãy số, ta cĩ kết quả sau :
Trang 14Tính giá trị kiểm định f :
6.75 72
4311.709 72
df ESS df
ESS f
Với mức ý nghĩa ααα = 5% ta có F 72, 72, 5% = 1.48 < f tính toán ⇒⇒
Bác bỏ giả thiết Ho cho rằng phương sai của sai số đồng đều hay
nói khác hơn có hiện tượng phương sai thay đổi trong bộ dữ liệu
nghiên cứu
Chú ý : Ta có thể tính giá trị P-Value của f để kết luận Cụ thể,
giá trị P-Value tính được là : 1.97*10 -14 là giá trị vô cùng bé nên
việc bác bỏ giả thiết Ho trên rất có ý nghĩa về mặt thống kê.
28
PHÁT HIỆN PHƯƠNG SAI CỦA SAI SỐ THAY ĐỔI BẰNG
KIỂM ĐỊNH WHITE
Kiểm định WHITE dựa trên cơ sở là : Xét xem phần dư có
thay đổi theo sự biến thiên của các biến giải thích trong
mô hình hay không
Các bước thực hiện kiểm định White :
Xét mô hình hồi quy Y i = ββββ 1 + ββββ 2 X 2i + ββββ 3 X 3i + U i (*)
a- Ước lượng mô hình (*) bằng OLS Từ đó tính các phần dư
e i = Y i – YÂ i tương ứng.
b- Ước lượng mô hình sau :
e i 2 = αα1 + αα2 X 2i + αα3 X 3i + αα4 X 2i 2 + αα5 X 3i 2 + αα6 X 2i X 3i (**)
Trang 15c-Tính toán giá trị thống kê n.R 2
d-Tiến hành kiểm định giả thiết :
Ho : αα2 = αα3 = αα4 = αα5 = αα6 = 0 (e i 2 = αα1 = const)
H1 : Tồn tại ít nhất một ααi ≠≠ 0
e- Quy tắt quyết định : Bác bỏ giả thiết Ho với mức ý nghĩa
α
α nếu : n.R 2 > χχχχ 2
được ước lượng trong mô hình (**).
Chú ý : Có thể sử dụng kiểm định F để kiểm định giả thuyết
Ho của mô hình (**)
Ví dụ : sử dụng dữ liệu data 3-11, ước lượng mô hình :
Mô hình hồi quy gốc : Salary = ββββ 1 + ββββ 2 Years
Mô hình hồi quy phụ : e 2 = ααα1 + ααα2.Years + ααα3.(Years) 2
Trang 16Giả thiết : Ho : α α α2 = α α α3 = 0
Giá trị kiểm định : n.R2= 222*0.088744 = 19.7011
Quyết định : χχχχ2; 5% 2= 5.99 < n.R2 ⇒ Bác bỏ giả thiết Ho
⇒ Có hiện tượng Heteroscedasticity
Chú ý : Ta có thể tính giá trị P-Value của χχχχ2,αα2để kết
luận Cụ thể, giá trị P-Value tính được là = 5.12*10-5 là
giá trị vô cùng bé nên việc bác bỏ giả thiết Ho trên rất
có ý nghĩa về mặt thống kê.
Sử dụng Eview để test : Trong giao diện output, sử dụng menu :
View / Residual Tests… / White Hesteroskedasticity (no cross terms)
DATA\data3-11.wf1
32
GIẢI PHÁP KHẮC PHỤC HIỆN TƯỢNG
HETEROSCEDASTICITY
1-Trường hợp biết phương sai tổng thể σσσσ i 2 : Var(Ui) = σσσσ i 2
Xét mô hình hồi quy : Y i = ββββ 1 + ββββ 2 X i + U i (*)
Chia hai vế của phương trình (*) cho σσi ta được :
Yi/σσσσ i = ββββ 1 /σσσσ i + ββββ 2 X i /σσσσ i + U i /σσσσ i
Lúc đó : Var(U i *) = Var(U i /σσσσ i ) = (1/σσσσ i 2 )*Var(U i )
= σσσσ i 2 / σσσσ i 2 = 1 = const
Trang 172-Trường hợp không biết phương sai tổng thể σσσσi 2 :
a-Giả định 1 : Phương sai của sai số tỷ lệ với bình phương của
biến giải thích : E(U i 2 ) = σσσσ 2 X i 2 dt.gd1.ppt
Biến đổi (*) bằng cách chia hai vế của mô hình cho Xi :
2 2
i
2 i 2 2 i 2 i 2
i
i 2
i
i 2 i 1 i
i 2 i 1 i
i
σ X
.X σ ) E(U X
1 ) X
U E(
) E(V : đó
Lúc
V β X
1 β X
U β X
=++
=
Chú ý: Trong mô hình hồi quy đã biến đổi, tung độ gốc ββββ 2 và
hệ số gốc ββββ 1 chính là hệ số gốc và tung độ gốc trong mô hình
hồi quy gốc (*) Như vậy, để trở lại mô hình gốc chúng ta phải
nhân cả hai vế của mô hình biến đổi đã ước lượng với Xi.
b- Giả định 2: Phương sai của sai số tỷ lệ với biến giải thích :
E(U i 2 )= σσσσ 2 X i dt.gd2.ppt Biến đổi (*) bằng cách chia hai vế của mô hình với căn bậc hai
của Xi :
2 i
i 2 2 i i 2 i
i 2
i
i i 2 i 1 i
i i 2 i 1 i i
σ X
.X σ ) E(U X
1 ) X
U E(
) E(V : đó Lúc
V X β X
1 β X
U X β X
β X Y
=++
=
Chú ý : Trong mô hình hồi quy đã biến đổi không có tung độ gốc
Do đó, khi ước lượng ta sử dụng mô hình hồi quy qua gốc toạ độ để
ước lượng ββββ 1 và ββββ 2 Để trở lại mô hình gốc chúng ta phải nhân cả
hai vế của mô hình biến đổi đã ước lượng với căn bậc hai của Xi.
Trang 18c- Giả định 3: Phương sai của sai số tỷ lệ với bình phương của
giá trị YÂi : E(U i 2 )= σσσσ 2 YÂ i 2
Biến đổi (*) bằng cách chia hai vế của mô hình cho YÂi :
2 2
2 2 2 2
2 2
2 1
2 1
ˆ
ˆ.)
(ˆ
1)ˆ()
ˆˆ
1ˆ
ˆ
.ˆˆ
σ σ
β β
β β
=
i
i i
i i
i
i i i
i i
i
i i
i i
i
Y
Y U
E Y Y
U E
V Y
X Y
Y
U Y
X Y
Y
Y
iE(V : đóLúc
d- Dùng phương pháp logarit hoá hai vế nhằm làm giảm
phương sai của sai số : Ln(Yi) = ββββ1 + ββββ2.Ln(Xi) + Ui
Chú ý: Để trở lại mô hình gốc chúng ta phải nhân cả hai vế
của mô hình biến đổi đã ước lượng với YÂi
36
Trở lại ví dụ Nghiên cứu mối quan hệ giữa tiền lương và số năm
nhận được bằng tiến sĩ trong dữ liệu DATA 3-11 : Sử dụng
Eview3.0 để ước lượng mô hình : SALARY = β1+ β2.YEARS
Trang 19Nghi ngờ dữ liệu trên tồn tại hiện tượng Heteroscedasticity, sử dụng đồ thị
phần dư bình phương để kiểm nghiệm sự hiện diện này :
Có thể sử dụng White test để kiểm định sự hiện hữu của hiện tượng Heteroscedasticity
⇒ Bác bỏ giả thiết Ho : Phương sai của sai số không đổi
⇒Tồn tại hiện tượng Heteroscedasticity.
Trong giao diện output, sử dụng menu : View / Residual Tests… / White
Hesteroskedasticity (no cross terms)
Trang 20GIẢI PHÁP KHẮC PHỤC HIỆN TƯỢNG HETEROSCEDASTICITY
Sử dụng giả định 1 : Phương sai của sai số tỷ lệ với bình phương của biến giải thích :
E(U i 2 ) = σσσσ 2 Years i 2
Ước lượng mô hình : Salary/Years = ββββ 1 (1/Years) + ββββ 2
Suy ra mô hình gốc : Salary = 47.596 + 1.75*Years
40
Sử dụng White Test để kiểm tra xem còn tồn tại hiện tượng Heteroscedasticity :
Trang 21Sau khi khắc phục :
Trước khi khắc phục :
Có thể sử dụng Eview để khắc phục bằng phương pháp ước lượng có trọng số :
As Equation / khai báo mô hình gốc / Options / Weighted / khai báo trọng số
(Vd : 1/years) / Ok
Trang 22KHÁI NIỆM TƯƠNG QUAN CHUỔI
Theo lý thuyết, khi ước lượng mô hình hồi quy tuyến tính bằng
phương pháp OLS, một giả định là không có tương quan giữa
các nhiểu :
Cov(Ui, Uj) = 0 Gt7a.ppt
Thực tế khi ước lượng, một số trường hợp bị vi phạm giả định
này, tức là nhiểu của một quan sát bị ảnh hưởng bởi nhiểu của
một quan sát khác Gọi là hiện tượng tương quan chuổi :
Cov(Ui, Uj) ≠≠≠≠ 0 Gt7b.ppt
TƯƠNG QUAN CHUỔI (AUTOCORRELATION)
44
Ví dụ về Tương quan chuổi :
Khi sử dụng chuổi thời gian để hồi quy sản lượng sản xuất
theo các yếu tố đầu vào như lao động và vốn Việc đình công
của công nhân sẽ làm giảm sản lượng sản xuất của một quý
và có khả năng ảnh hưởng đến sản lượng sản xuất của quý
sau dù rằng việc đình công đã chấm dứt.
Khi nghiên cứu dữ liệu chéo để hồi quy chi tiêu theo tiêu
dùng thì việc gia tăng chi tiêu của một gia đình có khả năng
ảnh hưởng đến chi tiêu của gia đình khác