Một số nguyên nhân gây ra hiện tượng đa cộng tuyến: • Các biến độc lập trong mô hình có tương quan cao; • Số quan sát nhỏ hơn số biến độc lập; • Phương pháp thu thập số liệu.. Ước lượng
Trang 1BÀI 5 ĐA CỘNG TUYẾN
Mục tiêu
Sau khi kết thúc bài, học viên sẽ hiểu được những vấn đề sau đây:
• Hiện tượng đa cộng tuyến (ĐCT) xảy
ra khi nào?
• Phân biệt ĐCT hoàn hảo và không hoàn hảo
• Hậu quả của ĐCT
• Phát hiện ĐCT
• Các biện pháp khắc phục ĐCT
• ĐCT là gì?
• Phân biệt ĐCT hoàn hảo và không hoàn hảo
• Hậu quả của ĐCT
• Phát hiện ĐCT
• Khắc phục ĐCT
Thời lượng
• 6 tiết
• Đọc tài liệu để có được những ý tưởng chính
• Nghe thật kỹ bài giảng của giảng viên
để nắm được bản chất của hiện tượng
• Tập trung vào phần khái niệm, các biện pháp phát hiện và khắc phục
Trang 2Bài 5: Đa cộng tuyến
TÌNH HUỐNG DẪN NHẬP
Tình huống
Các nhà quản lí siêu thị BigC, muốn xem xét việc giảm giá mặt
hàng thịt gà để kích thích tiêu dùng Để thực hiện điều này, các
nghiên cứu viên muốn dùng phương pháp Kinh tế lượng trong
đó biến phụ thuộc được chọn chính là tiêu dùng của mặt hàng
thịt gà của dân chúng, các biến độc lập sẽ là thu nhập của người
tiêu dùng, giá của thịt gà và giá của thịt lợn là mặt hàng cạnh
tranh với thịt gà tại các thời điểm quan sát
Vấn đề đặt ra trong nghiên cứu là chọn các biến độc lập vào trong mô hình Vì lạm phát là tình trạng chung của cả nền kinh tế nên các mặt hàng thường có tình trạng cùng tăng giá hoặc cùng giảm giá, nhất là những mặt hàng thiết yếu như thịt gà và thịt lợn Nếu như các nhà nghiên cứu chọn cả giá thịt gà và giá thịt lợn làm biến độc lập trong mô hình, chúng sẽ có quan hệ cùng tăng hoặc cùng giảm Vì thế khi tiến hành phân tích bằng mô hình kinh tế lượng, sẽ khó để phân tách ảnh hưởng của từng biến này lên tiêu dùng về thị gà hoặc sẽ gây ra các hậu quả về mặt kỹ thuật trong quá trình phân tích
Câu hỏi
• Vậy trong tình huống như thế này thì các nhà nghiên cứu cần có biện pháp gì?
• Trong bài học sau đây, học viên sẽ được xem xét một khuyết tật của mô hình kinh tế lượng trong tình huống nêu trên, đó là đa cộng tuyến Làm thế nào để phát hiện và khắc phục hiện
tượng này khi xem xét một mô hình với nhiều biến độc lập?
Trang 3Trong bài trước chúng ta xét mô hình hồi quy bội với giả thiết
các biến giải thích X độc lập tuyến tính với nhau Tiếp theo đây i
chúng ta sẽ xét bài toán hồi quy bội khi giả thiết về tính độc lập
tuyến tính đó bị phá vỡ và sẽ đưa ra cách thức phát hiện và biện
pháp khắc phục hiện tượng giả thiết đó bị vi phạm
Trong mô hình hồi quy ở bài trước thì các hệ số hồi quy đối với
một biến cụ thể là số đo tác động riêng phần của biến tương ứng
khi tất cả các biến khác trong mô hình được giữ cố định Nếu tính
độc lập bị phá vỡ, tức là các biến giải thích có tương quan thì chúng ta không thể chỉ cho một biến thay đổi và giữ các biến còn lại cố định Do vậy chúng ta không thể tách biệt sự ảnh hưởng riêng phần của một biến nào đó
5.1 Khái niệm đa cộng tuyến
5.1.1 Đa cộng tuyến hoàn hảo
Bài toán
Các biến X , X , , X gọi là các đa cộng tuyến hoàn hảo hay còn gọi là đa cộng 2 3 k tuyến chính xác nếu tồn tại λ2, ,λ không đồng thời bằng không sao cho: k
2X2 3X3 kXk 0
λ + λ + + λ = (5.1)
5.1.2 Đa cộng tuyến không hoàn hảo (gần đa cộng tuyến)
Bài toán
Các biếnX , X , , X gọi là các đa cộng tuyến không hoàn hảo nếu tồn tại 2 3 k λ2, ,λ k không đồng thời bằng không sao cho:
2X2 3X3 kXk v 0
trong đó v là sai số ngẫu nhiên
Trong (5.2) giả sử ∃λ ≠ khi đó ta biểu diễn: i 0
3
v
X = −λ X −λ X − − λ X −
Từ (5.3) ta thấy hiện tượng đa cộng tuyến xảy ra khi
một biến là tổ hợp tuyến tính của các biến còn lại và
một sai số ngẫu nhiên, hay nói cách khác là có một
biến biểu diễn xấp xỉ tuyến tính qua các biến còn lại
Một số nguyên nhân gây ra hiện tượng đa cộng tuyến:
• Các biến độc lập trong mô hình có tương quan cao;
• Số quan sát nhỏ hơn số biến độc lập;
• Phương pháp thu thập số liệu
5.2 Ước lượng khi có đa cộng tuyến hoàn hảo
Chúng ta sẽ thấy rằng khi có hiện tượng đa cộng tuyến hoàn hảo thì các hệ số hồi quy
có thể không xác định và sai số tiêu chuẩn của chúng có thể bằng vô cùng Để đơn giản chúng ta xét mô hình hồi quy 3 biến
Trang 4Bài 5: Đa cộng tuyến
i ˆ1 ˆ2 2i ˆ3 3i i
Y = β + β X + β X +u , (i 1, n= ) (5.4) Đặt: yi =Y Y, xi− 2i =X2i−X , x2 3i =X3i−X3, ta có
i ˆ2 2i ˆ3 3i i
Trong phần hồi quy bội ta đã có các ước lượng β βˆ ˆ2, 3 là:
2
i 2i 3i i 3i 2i 3i
i 1 i 1 i 1 i 1
2 2 2i 3i 2i 3i
i 1 i 1 i 1
ˆ
−
β =
∑ ∑ ∑ ∑
∑ ∑ ∑
(5.6)
2
i 3i 2i i 2i 2i 3i
i 1 i 1 i 1 i 1
2 2 2i 3i 2i 3i
i 1 i 1 i 1
ˆ
−
β =
∑ ∑ ∑ ∑
∑ ∑ ∑
(5.7)
Nếu có hiện tượng đa cộng tuyến hoàn hảo thì ta có:
3i 2i 3i 2i
X = λX ⇒x = λx Thay vào biểu thức (5.6) và (5.7), ta có:
2 3
0
0
β = β = (5.8)
Rõ ràng (5.8) là không xác định.Vậy trường hợp đa cộng tuyến hoàn hảo chúng ta
không ước lượng được các hệ số hồi quy riêng β βˆ ˆ2, 3cho mô hình (5.4)
5.3 Ước lượng khi có đa cộng tuyến không hoàn hảo
Trong thực tế hiếm khi xảy ra trường hợp đa cộng
tuyến hoàn hảo vì các biến độc lập hiếm khi có quan
hệ thực sự tuyến tính với nhau Vì vậy nếu có hiện
tượng đa cộng tuyến thì thường chỉ xảy ra hiện tượng
đa cộng tuyến không hoàn hảo Để đơn giản, ta cũng
xét mô hình hồi quy 3 biến với đa cộng tuyến không
hoàn hảo
i ˆ1 ˆ2 2i ˆ3 3i i
Y = β + β X + β X +u , (i 1, n= ) (5.9)
với u là các nhiễu ngẫu nhiên không tương quan với các biến độc lập Khi đó giữa i
hai biến độc lập X , X có sự đa cộng tuyến không hoàn hảo, nghĩa là 2 3
3i 2i i
vớiλ ≠0, v là các nhiễu ngẫu nhiên không tương quan với i X và2i X , tức là 3i
n
2i i
i 1
=
=
∑ , n 3i i
i 1
X v 0
=
=
∑
Trang 5Từ (5.10) ta cũng có: x3i = λx2i + vi (5.11)
và n 2i i
i 1
x v 0
=
=
∑ , n 3i i
i 1
x v 0
=
=
∑
Ta có ước lượng choˆβ2 là:
i 1 i 1 i 1 i 1 i 1 i 1
i 1 i 1 i 1 i 1
ˆ
β =
(5.12)
Tương tự ta cũng có biểu thức của ˆβ3
5.4 Hậu quả của hiện tượng đa cộng tuyến
Ta xét trường hợp mô hình có hiện tượng đa cộng
tuyến không hoàn hảo, tức là biến độc lậpX có thể i
xấp xỉ tuyến tính theo các biếnX , X , , X Đối với 2 3 k
mô hình hồi quy 3 biến thìX có thể xấp xỉ theo3 X , 2
nghĩa là hệ số tương quan riêng r có giá trị tuyệt đối 23
xấp xỉ 1
Trong chương mô hình hồi quy bội ta đã có biểu thức:
( )
( )
2
2 n
2i 23
i 1
ˆ Var
x 1 r
=
σ
β =
−
( )
( )
2
3 n
3i 23
i 1
ˆ Var
x 1 r
=
σ
β =
−
∑ (5.14)
đồng thời với độ tin cậy 95% ta có khoảng ước lượng cho β β là : 2, 3
i ˆi 1.96Se ˆi ;ˆi 1.96Se ˆi
với Se( )β =ˆi Var( )β , ˆi (i 2,3= )
Ta thấy rằng khi r23 xấp xỉ 1 thì:
• Phương sai Var( )βˆ2 , Var( )β gần với ˆ3 ∞ ;
• Khoảng ước lượng của β β lớn, hay nói cách khác là khoảng ước lượng tiến tới 2, 3
(−∞ +∞, ) Vì vậy ước lượng hệ số trở lên khó có hiệu lực, tức là không có ý nghĩa,
vì khoảng ước lượng quá lớn
Để kiểm định giả thuyếtH :0 β = , i 2,3i 0 = , ta dùng các tiêu chuẩn thống kê
i i
i
ˆ t
ˆ se( )
β
=
β , i 2,3=
Trang 6Bài 5: Đa cộng tuyến
Tuy nhiên, cả hai thống kê này đều tiến dần tới 0 do Se( )β → ∞ˆi , vì vậy khả năng chấp nhận giả thuyết H sẽ rất lớn Điều này mâu thuẫn với thực tế vì rõ ràng mức 0 tiêu dùng nội địa phụ thuộc vào các nguồn thu X , X 2 3
5.5 Phát hiện hiện tượng đa cộng tuyến
Ta đã thấy hậu quả của hiện tượng đa cộng tuyến
trong mô hình hồi quy Vì vậy vấn đề quan trọng là
làm thế nào để phát hiện ra hiện tượng đa cộng
tuyến và biện pháp khắc phục ra sao
Một số quy tắc để phát hiện ra hiện tượng đa
cộng tuyến:
• Hệ số xác định R lớn nhưng giá trị của thống kê t lại nhỏ: Khi thấy trong mô 2 hình hồi quy có hệ số xác định R khá cao (2 R > 0.8) nhưng các giá trị thống kê 2 i
t thấp và xác suất ý nghĩa tương ứng tương đối cao thì có thể kết luận đã có hiện tượng đa cộng tuyến
• Hệ số tương quan giữa các biến độc lập có giá trị tuyệt đối lớn: Ta có thể tính các
hệ số tương quan rij giữa các biến độc lập Nếu r khá gần 1 thì kết luận có hiện ij tượng đa cộng tuyến
Ta xét ví dụ sau:
Ví dụ 1: Trong nghiên cứu của Klein và Golberger (1985) về mối quan hệ giữa tiêu
dùng nội địa Y, thu nhập từ lương X , thu nhập khác phi nông nghiệp2 X , thu nhập từ 3 nông nghiệp X của kinh tế Mỹ từ năm 1928 đến 1950, các số liệu năm 1942 và 1944 4
bị khuyết Klein và Golberger thực hiện mô hình hồi quy của tiêu dùng nội địa Y theo
3 loại thu nhập X , X , X 2 3 4
1928 52.8 39.21 17.73 4.39
1929 62.2 42.31 20.29 4.60
1930 58.6 40.37 18.83 3.25
1931 56.6 39.15 17.44 2.61
1932 51.6 34.00 14.76 1.67
1933 51.1 33.59 13.39 2.44
1935 57.2 39.27 14.67 5.00
CHÚ Ý
Nếu trong mô hình có hiện tượng đa cộng tuyến thì mô hình hồi quy không giải thích được
mối quan hệ giữa các biến .
Trang 71936 62.8 45.51 17.20 3.93
1938 63.9 44.16 15.92 4.37
1939 67.5 47.68 17.59 4.51
1940 71.3 50.79 18.49 4.90
1941 76.6 57.78 19.18 6.37
1945 86.3 78.97 19.12 8.42
1946 95.7 73.54 19.76 9.27
1947 98.3 74.92 17.55 8.87
1948 100.3 74.01 19.17 9.30
1949 103.2 75.51 20.20 6.95
1950 108.9 80.97 22.12 7.15
Ta có mô hình hồi quy: Y= β + βˆ1 ˆ2X2+ βˆ3X3+ βˆ4X4
Rõ ràng giữa các biến thu nhập X , X , X có hiện tượng đa cộng tuyến vì khi kinh tế 2 3 4 tăng trưởng thì các loại thu nhập X , X , X cũng tăng 2 3 4
Thực hiện các thủ tục tương ứng của phần mềm Eviews ta thu được kết quả trong bảng sau:
Theo kết quả trong bảng trên ta có mô hình ước lượng được như sau:
Y 7.304002 1.135052X= + +0.4053X −0.405888X
Trang 8Bài 5: Đa cộng tuyến
Rõ ràng hệ số xác định của mô hình R2 =0.954028 là khá cao, trong khi đó các thống
kê ti của các hệ số hồi quy β3 và β4 có giá trị rất thấp, cụ thể là t3=0.628347,
4
t = −0.367274với các xác suất ý nghĩa tương ứng bằng 0.5386 và 0.7182, do đó ta
phải chấp nhận các giả thuyết:H :0 β =i 0, i 3, 4=
5.6 Biện pháp khắc phục hiện tượng đa cộng tuyến
Trong phần trước chúng ta đã thấy được hậu quả của hiện tượng đa cộng tuyến trong
mô hình hồi quy và cách phát hiện hiện tượng đa cộng tuyến Phần này đưa ra các
biện pháp khắc phục
• Sử dụng thông tin tiên nghiệm
Mấu chốt của hiện tượng đa cộng tuyến là thông tin mẫu vì vậy một trong những biện pháp khắc phục là sử dụng thông tin tiên nghiệm (là các thông tin đã biết từ trước về mô hình) hoặc thông tin bên ngoài để ước lượng các hệ số hồi quy
Ta xét ví dụ sau : Thiết lập một phương trình sản xuất của một quá trình sản xuất ta có phương trình :
3
i 1 i i
trong đó Y là lượng sản phẩm được sản xuất ở thời kỳ thứ i, i L là lượng lao động i
ở thời kỳ thứ i, K là nguồn vốn có được trong thời kỳ thứ i, i U là nhiễu ngẫu i nhiên, β β β là các hằng số cần ước lượng Lấy lôgarit 2 vế của (5.16) ta có: 1, ,2 3
ln Y = β + βln ln L + β ln K +u (5.17)
Y =ln Y ; L =ln L ; K =ln K , khi đó phương trình (5.16) chuyển thành
i 1 2 i 3 i i
Nếu tương quan giữa K và L cao, tức là có hiện tượng đa cộng tuyến, khi đó phương sai của các ước lượng β β sẽ lớn Tuy nhiên, nếu ta lại 2, 3 biết được từ nguồn thông tin bên ngoài là ngành sản xuất này có quy mô không đổi, tức là
2 3 const
β + β = (chẳng hạn β + β = ), thì khi 2 3 1
đó ta có:
Y = β + βln L + − β1 K +u
( * *) *
1 2 i i i i
Y −K = β + βln L −K +u (5.19)
Trang 9Đặt: ** * *
i i i
Y =Y −K ; ** * *
i i i
X =L −K , khi đó phương trình (5.16) được đưa về
i 1 2 i i
Rõ ràng (5.20) là phương trình hồi quy đơn, do đó ta có thể ước lượng được các hệ
số ln ,β β và từ đó tính được ước lượng của 1 2 β 3
• Loại bỏ biến đa cộng tuyến
Biện pháp bỏ biến trong mô hình đa cộng tuyến là biện pháp đơn giản nhất Ta thấy rằng hiện tượng đa cộng tuyến xảy ra khi biến độc lập nào đó có biểu diễn tuyến tính hoặc gần tuyến tính qua các biến độc lập khác Vì thế ta hãy loại biến đó
ra khỏi mô hình, nhưng vấn đề đặt ra là không chỉ có một biến biểu diễn tuyến tính qua các biến khác mà có nhiều biến như vậy Vì vậy ta cần dựa vào một số quy tắc
để quyết định bỏ biến nào trong số các biến độc lập của mô hình Hai quy tắc thường được áp dụng trước tiên khi gặp phải hiện tượng đa cộng tuyến là khảo sát
hệ số tương quan cặp giữa các biến độc lập và sử dụng các mô hình hồi quy phụ
Cụ thể:
o Khi giữa hai biến độc lập nào đó có mối tương quan tuyến tính mạnh (hệ số tương quan giữa hai biến có giá trị tuyệt đối rất gần 1), ta có thể dựa vào ý nghĩa thực tế để cân nhắc loại bỏ một trong hai biến đó ra khỏi phương trình hồi quy
o Các mô hình hồi quy phụ với một biến độc lập nào đó được hồi quy theo các biến độc lập còn lại có thể được sử dụng để xác định biến cần loại bỏ khỏi mô hình Nếu hệ số xác định của mô hình hồi quy phụ có giá trị lớn (trên 80%
chẳng hạn), ta có thể khẳng định biến được giải thích trong mô hình hồi quy phụ được xấp xỉ tuyến tính qua các biến độc lập còn lại, do đó có thể bị loại ra khỏi danh sách các biến độc lập của mô hình hồi quy chính
• Sử dụng sai phân cấp 1
Khi số liệu có cấu trúc chuỗi thời gian, ta có thể sử dụng phương pháp sai phân để giảm bớt tính đa cộng tuyến trong số liệu, chẳng hạn xét mô hình hồi quy 3 biến
t 1 2 2t 3 3t t
trong đó t là chỉ số quan sát theo các thời điểm cách đều nhau Giả sử giữa hai biến độc lập X và 2t X có hiện tượng cộng tuyến Để giảm tính đa cộng tuyến ta có 3t thể sử dụng phương pháp sai phân như sau: Phương trình (5.13) cũng đúng với giai đoạn t-1, tức là:
t 1 1 2 2t 1 3 3t 1 t 1
Trừ (5.21) và (5.22) cho nhau, ta nhận được
t t 1 2 2t 2t 1 3 3t 3t 1 t t 1
Y −Y− = β X −X − + β X −X − +u −u−
Đặt:
t t t 1
Y Y Y ;−
2t 2t 2t 1
Trang 10Bài 5: Đa cộng tuyến
3t 3t 3t 1
t t t 1
ta có: Δ = β ΔYt 2 X2t + β Δ3 X3t+ Δ ut (5.23)
Mô hình (5.23) có thể khắc phục được hiện tượng
đa cộng tuyến giữa các biến độc lập Tuy nhiên giải pháp này có thể làm nảy sinh một vấn đề là sai số ngẫu nhiên Δ có thể không thỏa mãn giả thiết ut của mô hình hồi quy là không tương quan với nhau Vì vậy biện pháp này có thể gây ra hậu quả nghiêm trọng hơn
• Tăng quan sát :
Hiện tượng đa cộng tuyến có thể xuất hiện do cỡ mẫu nhỏ Vì vậy chúng ta có thể tăng thêm số quan sát đủ lớn Nhưng chúng ta biết rằng khi tăng thêm số quan sát thì chúng ta lại phải tăng thêm chi phí cũng như thời gian lấy mẫu
Ví dụ 2: Thông tin về chi phí tiêu dùng Y, thu nhập X và tiền tích lũy 2 X ta có bảng số 3
liệu sau :
2
3
Dùng thủ tục hồi quy của Eviews ta thu được phương trình hồi quy
với các sai sô tiêu chuẩn
( )ˆ1
Se β =6.7525;
( )ˆ2
Se β =0.822898;
( )ˆ3
Se β =0.808664
và giá trị của các thống kê
t =3.668972, t =1.144172, t = −0.526062
R =0.963504, R =0.953077
Ta thấy rằng hệ số xác địnhR của mô hình rất gần 1, trong khi đó thống kê t2 3 lại có
giá trị rất gần 0, tương ứng với xác suất ý nghĩa khá lớn Vậy hiện tượng đa cộng
tuyến xảy ra trong mô hình này
Trang 11Để tìm cách khắc phục hiện tượng đa cộng tuyến, ta xét mô hình hồi quy phụ của X 2 theo X , chạy thủ tục của Eviews thu được kết quả: 3
X = −0.368271 0.09792X+ + u 2
t =62.04047, 2
2
R =0.997926 Vậy ta thấy tương quan của X và 2 X khá lớn Điều này một mặt khẳng định một lần 3 nữa sự có mặt của hiện tượng đa cộng tuyến, mặt khác cũng gợi ý việc loại bỏ bớt biến độc lập ra khỏi mô hình là một giải pháp xử lý hiện tượng đa cộng tuyến
Ta xét mô hình hồi quy sau khi lần lượt loại các biến độc lập X , X ra khỏi mô hình: 2 3
• Khi loạiX ta có 2