Khi lập mô hình hồi quy bộiCó sự phụ thuộc tuyến tính cao giữa các biến giải thích gọi là đa cộng tuyến... Nói cách khác là một biến giải thích nào đó có tương quan với một số biến giải
Trang 1CHƯƠNG 6
HIỆN TƯỢNG ĐA CỘNG TUYẾN
(MULTICOLLINEARITY)
Trang 21 Hiểu bản chất và hậu
quả của đa cộng tuyến
2 Biết cách phát hiện đa
cộng tuyến và biện pháp khắc phục
MỤC
TIÊU
ĐA CỘNG TUYẾN
Trang 4Thu nhập Sự giàu có Chi tiêu
Trang 8Khi lập mô hình hồi quy bội
Có sự phụ thuộc tuyến tính cao giữa các biến giải thích gọi là đa cộng tuyến
a Đa cộng tuyến hoàn hảo
Tồn tại 2, 3,… k không đồng thời bằng 0 sao cho
2X2 + 3X3 + …+ kXk = 0Nói cách khác là xảy ra trường hợp một biến giải thích nào đó được biểu diễn
dưới dạng một tổ hợp tuyến tính của các
ki k
i i
Y ˆ ˆ ˆ ˆ ˆ
3 3
2 2
6.1 Bản chất của đa cộng tuyến
Trang 9b Đa cộng tuyến không hoàn hảo
2X2 + 3X3 + …+ kXk + vi= 0
tượng đa cộng tuyến không hoàn hảo giữa các biến giải thích
Nói cách khác là một biến giải thích nào đó
có tương quan với một số biến giải thích
khác
6.1 Bản chất của đa cộng tuyến
Trang 10X3i = 5X2i, vì vậy có cộng tuyến hoàn hảo
giữa X2 và X3 ; r23 = 1
nhưng hai biến này có tương quan
Trang 116.1 Bản chất của đa cộng tuyến
Hình 6.1 Biểu đồ Venn mô tả hiện tượng đa cộng tuyến
Trang 12Hình 6.1 Biểu đồ Venn mô tả hiện tượng đa cộng tuyến
6.1 Bản chất của đa cộng tuyến
Trang 13Một số nguyên nhân gây ra hiện tượng
- Khi số quan sát nhỏ hơn số biến độc lập.
- Cách thu thập mẫu: mẫu không đặc
trưng cho tổng thể
- Chọn biến Xi có độ biến thiên nhỏ
6.1 Nguyên nhân của đa cộng tuyến
Trang 146.2 Ước lượng khi có đa cộng tuyến
1 Trường hợp có đa cộng tuyến hoàn
hảo
Xét mô hình hồi qui 3 biến dưới dạng sau:
Yi = 2 X2i + 3 X3i + eigiả sử X3i = X2i, mô hình được biến đổi
thành:
Yi = (2+ 3)X2i + ei = 0 X2i + eiPhương pháp OLS
2 ˆ )
ˆ(
ˆ
i
i
i o
Trang 156.2 Ước lượng khi có đa cộng tuyến
Các hệ số ước lượng không xác định
Phương sai và sai số chuẩn của 2 và
3 là vô hạn
2 3
2
2 3
2 2
3 2
3
2 3
2 2
) (
i i
i i
i i
i i
i
x x
x x
x x
x y x
2 3
2
2 3
2 3 2
3 3
3
2 3
i i
i i
i i
i i
i
x x
x x
x x
x y x
Trang 166.2 Ước lượng các tham số khi có đa cộng tuyến
Các hệ số ước lượng không xác định: chúng ta không
tách rời tác động của từng biến X i lên Y do không thể giả định X2 thay đổi trong khi X3 không đổi.
2 3
2
2 3
2 2
3 2
3
2 3
2 2
) (
i i
i i
i i
i i
i
x x
x x
x x
x y x
2 3
2
2 3
2 3 2
3 3
3
2 3
i i
i i
i i
i i
i
x x
x x
x x
x y x
Trang 176.2 Ước lượng các tham số khi có đa cộng tuyến
2 Trường hợp có đa cộng tuyến không
Trang 18Ta có thể ước lượng được các này nhưng s.e sẽ rất lớn.
6.2 Ước lượng các tham số khi có đa cộng tuyến
ˆ
Trang 196.3 Hậu quả của đa cộng tuyến
Nếu có cộng tuyến gần hoàn hảo:
1 Phương sai và hiệp phương sai của các ước
lượng OLS lớn
r23 là hệ số tương
X3.Khi r23 1, các giá trị trên
Trang 206.3 Hậu quả của đa cộng tuyến
Nếu có cộng tuyến gần hoàn hảo:
2 Khoảng tin cậy rộng hơn
^ 3
^ 2
^ 3
232 ) 221
( r x i
Trang 21Giá trị của r23 Khoảng tin cậy 95% của B2
0 0.5 0.95
0.995
0.999
A
* 96 1
* 96 1
* 96 1
* 96 1
* 96 1
Trang 226.3 Hậu quả của đa cộng tuyến
Nếu có cộng tuyến gần hoàn hảo:
Trong trường hợp cộng tuyến cao thì sai số
chuẩn sẽ rất lớn và do đó làm cho giá trị t
sẽ nhỏ đi, kết quả là sẽ làm tăng chấp
nhận giả thuyết H0
)
ˆ ( se
ˆ t
Trang 236.3 Hậu quả của đa cộng tuyến
Nếu có cộng tuyến gần hoàn hảo:
4 R 2 cao nhưng tỉ số t ít có ý nghĩa
• - một hoặc một số tham số tương quan
(hệ số góc riêng) không có ý nghĩa về mặt thống kê
• - R 2 trong những trường hợp này lại rất
cao (trên 0,9)
• - kiểm định F thì có thể bác bỏ giả thuyết
cho rằng 2 = 3 = … = k = 0
Trang 246.3 Hậu quả của đa cộng tuyến
Nếu có cộng tuyến gần hoàn hảo:
5 Các ước lượng OLS và sai số chuẩn của
chúng trở nên rất nhạy với những thay
đổi nhỏ trong dữ liệu
6 Dấu của các ước lượng của các hệ số hồi
qui có thể sai
7 Thêm vào hay bớt đi các biến cộng tuyến
với các biến khác, mô hình sẽ thay đổi về dấu hoặc thay đổi về độ lớn của các ước lượng
Trang 25Ví dụ: Bảng 2 do nhập sai số liệu nên
xảy ra đa cộng tuyến
0 )
ˆ , ˆ cov(
; 5523
0
; 81
.
0
003 0 446
0 193
.
1
ˆ
3 2 23
2
3 2
X X
Y i i i
Se (0.7736) (0.1848) (0.0850)
t (1.543) (2.415) (0.0358)
0282
0 )
ˆ , ˆ cov(
; 8285
0
; 81 0
027 0 401
0 210 1 ˆ
3 2 23
2
3 2
X X
Y i i i
Se (0.7480) (0.2720) (0.1252)
t (1.618) (1.4752) (0.2152)
Trang 26Đa cộng tuyến là một hiện tượng theo
mẫu, nghĩa là cho dù các biến độc lập
Xi không tương quan tuyến tính trong
tổng thể nhưng chúng có thể tương
quan tuyến tính trong một mẫu cụ thể
nào đó Do đó cỡ mẫu lớn thì hiện
tượng đa cộng tuyến ít nghiêm trọng
hơn cỡ mẫu nhỏ
Trang 271 Hệ số R2 lớn nhưng tỷ số t nhỏ
2 Tương quan cặp giữa các biến giải thích cao
3 Sử dụng mô hình hồi qui phụ
4 Sử dụng yếu tố phóng đại phương sai (VIF)
6.4 Cách phát hiện đa cộng tuyến
Trang 281 R 2 lớn nhưng tỷ số t nhỏ
Nếu R2 cao, chẳng hạn, >0,8 và F test bác bỏ giả
thuyết 2 = 3 = … = k = 0, nhưng t test cho từng i lại chấp nhận H0
2 Tương quan cặp giữa các biến giải thích cao
Trong đó X, Z là 2 biến giải thích trong mô hình
) )(
(
Z Z
X X
Z Z
X
X r
i i
i
i XZ
6.4 Cách phát hiện đa cộng tuyến
Trang 293 Sử dụng mô hình hồi quy phụ
Hồi qui một biến giải thích X nào đó theo các biến còn lại
Lập giả thiết H0: R2 = 0 ~ H0: không có đa cộng tuyếnNếu F > F(m-1,n-m): bác bỏ H0 => có đa cộng tuyếnNếu F < F(m-1,n-m): chấp nhận H0 => không có đa cộng tuyến
mi k
i
3 3
1
) 1 )(
1 (
m n
R F
6.4 Cách phát hiện đa cộng tuyến
Trang 30VD: Cho doanh số bán (Y), chi phí chào hàng (X2)
khu vực bán hàng của 1 công ty Có hiện tượng
đa cộng tuyến không?
Hồi quy biến chi phí chào hàng với chi phí quảng cáo, ta có kết quả
4,96 Ta thấy F < F0.05 (1,10) nên chấp nhận Ho
hay không có đa cộng tuyến
6.4 Cách phát hiện đa cộng tuyến
Trang 314 Sử dụng nhân tử phóng đại phương sai (VIF)
Đối với hàm hồi quy 2 biến giải thích, VIF được định nghĩa như sau:
Đối với trường hợp tổng quát, có (k-1) biến giải thích thì:
R 2
j : là giá trị R 2 trong hàm hồi quy của Xj theo (k-1) biến giải thích còn lại Thông thường khi VIF > 10, thì biến này được coi là có cộng tuyến cao
)1
(
1
2 23
Trang 32Giá trị của r23 VIF
B x
Trang 331 Dùng thông tin tiên nghiệm
Ví dụ khi hồi quy mô hình sản xuất Cobb-Douglas
Ln(Yi)=1 + 2ln(Ki)+ 3ln(Li) + ui
Có thể gặp hiện tượng đa cộng tuyến do K và L
cùng tăng theo quy mô sản xuất Nếu ta biết là hiệu suất không đổi theo quy mô tức là 2+3=1
Ln(Yi)=1 + 2ln(Ki)+ (1-2)ln(Li) + uiLn(Yi) – Ln(Li) = + 2[ln(Kln(Ki) - ln(Li)] + ui
Ln(Yi /Li ) = + 2ln(Ki /Li) + ui
=> mất đa cộng tuyến (vì đây là mô hình hồi quy
i
u i
Trang 341 Dùng thông tin tiên nghiệm
Ví dụ
Yi=1 + 2X2i+ 3X3i + uiBiết 3=2
Biến đổi Yi=1 + 2X2i+ 2X3i + ui
Yi=1 + 2Xi+ uiVới Xi=X2i+X3i
6.5 Cách khắc phục
Trang 352 Loại trừ một biến giải thích ra khỏi mô
hình
B1: Xem cặp biến giải thích nào có quan hệ
chặt chẽ Giả sử X2, X3…Xk là các biến độc
quan chặt chẽ với nhau
2 biến; không có mặt một trong 2 biến
có mặt biến đó là lớn hơn
6.5 Cách khắc phục
Trang 366.5 Cách khắc phục
3 Bổ sung thêm dữ liệu hoặc chọn mẫu mới
Trang 37không có nghĩa sai phân của chúng cũng như
6.5 Cách khắc phục
Trang 385 Đổi biến
Ví dụ : yt = 1 + 1x1t + 2x2t + ut
Với Y: tiêu dùng
X1: GDP X2: dân số
Vì GDP và dân số theo thời gian có xu hướng tăng nên có thể cộng tuyến
Biện pháp: chia các biến cho dân số
6.5 Cách khắc phục
t
t t
t t
t
X
u X
X X
Y
2
2 2
1 2
1 2
Trang 39Khảo sát chi tiêu tiêu dùng, thu nhập và sự giàu có,
Trang 411 Ước lượng mô hình hồi quy Y= β1 + β2
X2 + β3.X3 +U
Nhận xét ban đầu: Theo lý thuyết kinh tế thì
chi tiêu cho tiêu dùng (Y) có xu hướng
tăng theo thu nhập (X2) và sự giàu có
(X3) nên dấu của các hệ số hồi quy riêng
là dương
Kết quả hồi quy trên Eviews như sau: