Như vậy, đa cộng tuyến là hiện tượng các biến độc lập trong mô hình phụ thuộc lẫn nhau và thể hiệnđược dưới dạng hàm số II.. Nếu hệ số tương quan cặp giữa các biến giải thích cao vượt 0,
Trang 1A LÍ THUYẾT:
I.GIỚI THIỆU VỀ ĐA CỘNG TUYẾN:
Thông thường các biến độc lập không có mối quan hệ tuyến tính, nếu
quy tắc này bị vi phạm sẽ có hiện tượng đa cộng tuyến Như vậy, đa cộng tuyến
là hiện tượng các biến độc lập trong mô hình phụ thuộc lẫn nhau và thể hiệnđược dưới dạng hàm số
II CÁC CÁCH PHÁT HIỆN HI ỆN TƯỢNG ĐA CỘNG TUYẾN:
Trong trường hợp R cao (thường R > 0,8) mà tỉ số t thấp thì đó chính là dấu hiệu của hiện tượng đa cộng tuyến
Nếu hệ số tương quan cặp giữa các biến giải thích cao (vượt 0,8) thì có khả năng có tồn tại đa cộng tuyến Tuy nhiên tiêu chuẩn này thường không chính xác
Có những trường hợp tương quan cặp không cao nhưng vẫn có đa cộng tuyến Thí
dụ, ta có 3 biến giải thích X , X , X như sau
Trang 2Như vậy đa cộng tuyến xảy ra mà không có sự bảo trước cuả tương quan cặp những dẫu sao nó cũng cung cấp cho ta những kiểm tra tiên nghiệm có ích.
Vì vấn đề được đề cập đến dựa vào tương quan bậc không Farrar và Glauber
đã đề nghị sử dụng hệ số tương quan riêng Trong hồi quy của Y đối với các biến
X , X ,X Nếu ta nhận thấy rằng r cao trong khi đó r ; r ; r tương đối thấp thì điều đó có thể gợi ý rằng các biến X , X và X có tương quan cao và
ít nhất một trong các biến này là thừa
Dù tương quan riêng rất có ích nhưng nó cũng không đảm bảo rằng sẽ cung cấp cho ta hướng dẫn chính xác trong việc phát hiện ra hiện tượng đa cộng tuyến
Một cách có thể tin cậy được để đánh giá mức độ của đa cộng tuyến là hồi quyphụ Hồi quy phụ là hồi quy mỗi một biến giải thích X theo các biến giải thích còn lại R được tính từ hồi quy này ta ký hiện R
Mối liên hệ giữa F và R :
F=
F tuân theo phân phối F với k – 2 và n-k +1 bậc tự do Trong đó n là cỡ mẫu ,
k là số biến giải thích kể cả hệ số chặn trong mô hình R là hệ số xác định trong hồi quy của biến X theo các biến X khác Nếu F tính được vượt điểm tới hạn F(k-2,n-k+1) ở mức ý nghĩa đã cho thì có nghĩa là X có liên hệ tuyến tính với các biến X khác Nếu F có ý nghĩa về mặt thống kê chúng ta vẫn phải quyến định liệubiến X nào sẽ bị loại khỏi mô hình Một trở ngại của kỹ thuật hồi quy phụ là gánhnặng tính toán Nhưng ngày nay nhiều chương trình máy tính đã có thể đảm
đương được công việc tính toán này
Trang 3Một thước đo khác của hiện tượng đa cộng tuyến là nhân tử phóng đại phương sai gắn với biến X , ký hiệu là VIF(X ).
VIF(X ) được thiết lập trên cơ sở của hệ số xác định R trong hồi quy của biến
X với các biến khác nhau như sau:
VIF(X ) = (5.15)
Nhìn vào công thức (5.15) có thể giải thích VIF(X ) bằng tỷ số chung của phương sai thực của β trong hồi quy gốc của Y đối với các biến X và phương sai của ước lượng β trong hồi quy mà ở đó X trực giao với các biến khác Ta coi tìnhhuống lý tưởng là tình huống mà trong đó các biến độc lập không tương quan với nhau, và VIF so sánh tình huông thực và tình huống lý tưởng Sự so sánh này không có ích nhiều và nó không cung cấp cho ta biết phải làm gì với tình huống
đó Nó chỉ cho biết rằng các tình huống là không lý tưởng
Đồ thị của mối liên hệ của R và VIF:
Trang 4Khía cạnh chủ yếu của VIF chỉ xem xét đến tương quan qua lại giữa các biến giải thích Một độ đo mà xem xét tương quan của biến giải thích với biến được giải thích là độ đo Theil Độ đo Theil được định nghĩa như sau:
m = R - ( R - R )
Trong đó: R là hệ số xác định bội trong hồi quy của Y đối với các biến X , X
… X trong mô hình hồi quy:
âm hoặc dương lớn
Để thấy được độ đo này có ý nghĩa, chúng ta xét trường hợp mô hình có 2 biếngiải thích X và X Theo ký hiệu đã sử dụng ở chương trước ta có:
m = R - ( R - r ) – (R – r )
Tỷ số t liên hệ với tương quan riêng r , r
Trong phần hồi quy bội ta đã biết:
R = r + (1- r ) r
R = r + (1- r ) r Thay 2 công thức này vào biểu thức xác định m ta được:
m = R - (r + (1- r ) r - r ) - ( r + (1- r ) r - r ) = R - ((1- r ) r + (1- r ) r )
Đặt 1- r = w ; 1- r = w và gọi là các trọng số Công thức (5.16) được viết
Trang 5m = R - (w r + w r )
Như vây độ đo Theil bằng hiệu giữa hệ số xác định bội và tổng có trọng số của các hệ số tương quan riêng
III BIỆN PHÁP KHẮC PHỤC:
1 Sử dụng thông tin tiên nghiệm
Một trong các cách tiếp cận để giải quyết vấn đề đa cộng tuyến là phải tận dụngthông tin tiên nghiệm hoặc thông tin từ nguồn khác để ước lượng các hệ số riêng Thí dụ : ta muốn ước lượng hàm sản xuất của 1 quá trình sản xuất nào đó códạng :
Qt =AL (5.17) Trong đó Qt là lượng sản phẩm được sản xuất thời kỳ t ; Lt lao động thời kỳ t ;
Kt vốn thời kỳ t ; Ut là nhiễu ; A , , β là các tham số mà chúng ta cần ướclượng Lấy ln cả 2 vế (5.17) ta được :
LnQt = LnA + lnLt + βKt Ut Đặt LnQt = Q*t ; LnA = A* ; LnLt = L*t
Q*t = A* + L*t + ( 1 - )K*t + Ut (5.19)
Trang 6Từ đó ta được: Q*t – K*t = A* + (L*t – K*t ) + Ut
Đặt Q*t – K*t = Y*t và L*t – K*t = Z*t ta được:
Y*t = A* + Z*t + Ut Thông tin tiên nghiệm đã giúp chúng ta giảm số biến độc lập trong mô hìnhxuống còn 1 biến Z*t
Sau khi thu được ước lượng của thì tính được từ điều kiện = 1 –
2 Thu thập số liệu hoặc lấy thêm mẫu mới
Vì đa cộng tuyến là đặc trưng của mẫu nên có thể có mẫu khác liên quan đến
cùng các biến trong mẫu ban đầu mà đa cộng tuyến có thể không nghiêm trọngnữa Điều này có thể làm được khi chi phí cho việc lấy mẫu khác có thể chấp nhậnđược trong thực tế
Đôi khi chỉ cần thu thập thêm số liệu, tăng cỡ mẫu có thể làm giảm tính nghiêmtrọng của đa cộng tuyến
3 Bỏ biến
Khi có hiện tượng đa cộng tuyến nghiêm trọng thì cách “ đơn giản nhất “là bỏbiến cộng tuyến ra khỏi phương trình Khi phải sử dụng biện pháp này thì cáchthức tiến hành như sau :
Giả sử trong mô hình hồi quy của ta có Y là biến được giải thích còn X2, X3 …
Xk là các biến giải thích Chúng ta thấy rằng X2 tương quan chặt chẽ với X3 Khi
đó nhiều thông tin về Y chứa ở X2 thì cũng chứa ở X3 Vậy nếu ta bỏ 1 trong 2biến X2 hoặc X3 khỏi mô hình hồi quy, ta sẽ giải quyết được vấn đề đa cộng tuyếnnhưng sẽ mất đi 1 phần thông tin về Y
Trang 7Bằng phép so sánh R2 và trong các phép hồi quy khác nhau mà có và không
có 1 trong 2 biến chúng ta có thể quyết định nên bỏ biến nào trong biến X2 và X3
khỏi mô hình
Thí dụ R2 đối với hồi quy của Y đối với tất cả các biến X1, X2, X3 …Xk là 0.94;
R2 khi loại biến X2 là 0.87 và R2 khi loại biến X3 là 0.92 ; như vậy trong trường hợpnày ta loại X3
Chúng ta lưu ý 1 hạn chế của biện pháp này là trong các mô hình kinh tế cónhững trường hợp đòi hỏi nhất định phải có biến này hoặc biến khác ở trong môhình Trong trường hợp như vậy việc loại bỏ 1 biến phải được cân nhắc cẩn thậngiữa sai lệch khi bỏ 1 biến cộng tuyến với việc tăng phương sai của các ước lượng
hệ số khi biến đó ở trong mô hình
4 Sử dụng sai phân cấp 1
Chúng ta có số liệu chuỗi thời gian biểu thị liên hệ giữa các biến Y và các biếnphụ thuộc X2 và X3 theo mô hình sau :
Yt = β 1 + β2 X 2t + β 3 X 3t+ U t (5.20) Trong đó t là thời gian Phương trình trên đúng với t thì cũng đúng với t-1 nghĩa
Trang 8Tuy nhiên biến đổi sai phân bậc nhất sinh ra 1 số bấn đề chẳng hạn như số hạngsai số Vt trong (5.23) có thể không thỏa mãn giả thiết của mô hình hồi quy tuyếntính cổ điển là các nhiễu không tương quan Vậy thì biện pháp sửa chữa này có thểlại còn tồi tệ hơn căn bệnh
5.Giảm tương quan trong hồi quy đa thức
Nét đặc biệt của hồi quy đa thức là các biến giải thích xuất hiện với lũy thừakhác nhau trong mô hình hồi quy Trong thực hành để giảm tương quan trong hồiquy đa thức người ta thường sử dụng dạng độ lệch Nếu việc sử dụng dạng độ lệch
mà vẫn không giảm đa cộng tuyến thù người ta có thể phải xem xét đến kỹ thuật “
Trang 9 Nhưng tất cả các biên pháp đã trình bày ở trên có thể làm giải pháp cho vấn
đề đa cộng tuyến như thế nào còn phụ thuộc vào bản chất của tập số liệu và tínhnghiêm trọng của vấn đề đa cộng tuyến
B VÍ DỤ MINH HỌA Bảng dưới đây cho số liệu về dân số các nước trên thế giới Y ( người), diện tích các nước X1 ( km2), trình độ phát triển dân số X2 ( GDP- USD/ người/ năm), mật độ dân số X3 ( người/ km2), tỷ lệ dân thành thị X4 ( %) như bảng sau
Yêu cầu: Hãy phát hiện hiện tượng đa cộng tuyến và tìm biện pháp khắc
phục Cho α = 5%
Trang 11I- Phát hiện hiện tượng đa cộng tuyến:
Ta có hàm hồi quy mẫu:
1.Cách 1: Hệ số xác định bội R2 cao nhưng t thấp
Nhận xét:
R2= 0.8.2128 > 0.8 Thống kê t của hệ số ứng với biến : T = -1.081213 < 2.262
Thống kê t của hệ số ứng với biến : T = -0.845124 < 2.262
Vậy R2 cao nhưng t thấp Suy ra có hiện tượng đa cộng tuyến
Trang 122.Cách 2: Hệ số tương quan cặp giữa các biến giải thích cao
Trang 13Ta có ta đi kiểm định giả thiết:
H0: X2 không có hiện tượng đa cộng tuyến với X4
H1: X2 có hiện tượng đa cộng tuyến với X4
Nhận xét:
Ta thấy giá trị P-value của thống kê F là 0.001741 < =0.05
=> bác bỏ giả thiết H0 chấp nhận giả thiết H1
Vậy càng có cơ sở khẳng định mô hình trên có hiện tượng đa cộng tuyến
Để tính được độ đo Theil ta phải tính được , Theo công thức
đã biết ở chương hai ta có:
………
………
Trang 14II/ Khắc phục hiện tượng đa cộng tuyến:
1.Cách 1: Bỏ biến
+ Bước 1: hồi quy Y theo X1 , X2 , X3 =>
+ Bước 2: hồi quy Y theo X1 , X3 , X4 =>
+ Bước 3: so sánh và trong các hồi quy trên + Bước 4: kết luận
* Bước 1 : Hồi quy Y theo X1 , X2 , X3
Trang 15* Bước 2: Hồi quy Y theo X1 , X3 , X4
Trang 16Chúng ta có số liệu chuỗi thời gian biểu thị liên hệ giữa biến Y và các biến phụ thuộc X,Z theo mô hình sau
Ta thu được bảng số liệu mới:
Trang 171074047247 3050463 775 329 2
Hồi quy sai phân cấp 1
Ta có hệ số tương quan giữa các biến giải thích:
Trang 19Tuy nhiên ta thấy, khi sử dụng sai phân cấp 1 mức độ phù hợp của mô hình đã bị suy giảm.
Bỏ biến sai phân
Hồi quy Y theo biến x1 , x2 , x3
Hồi quy Y theo biến x1 , x3 , x4:
Trang 20Từ kết quả hồi quy của theo và theo ta sẽ chọn loại
bỏ biến khỏi mô hình
Mặt khác ta lại có t là số quan sát Phương trình cũng đúng với t quan sát thì cũng đúng với t-1 quan sát
* Ta có mô hình hồi quy gốc ban đầu là:
(1)
* Xây dựng hàm hồi quy thứ 2 mà khi ta đã bỏ đi quan sát đâu tiên:
Trang 21Ta có hàm hồi quy mới sau khi bỏ đi quan sát đầu tiên:
(2)
Lấy hiệu của (1) trừ đi (2) ta được môi hình sai phân cấp 1:
Mô hình này cũng cũng có thể làm giảm đa cộng tuyến của các biến dộc lập
Kết luận:
Có nhiều cách phát hiện và khắc phục hiện tượng đa cộng tuyến khácnhau Mỗi phương pháp có những hạn chế nhất định Vì vậy, khi áp dụng mộtphương pháp nào ta cần cân nhắc kĩ lượng để mang lại kết quả tin cậy nhất