Vì đa cộng tuyến là đặc trưng của mẫu nên có thể có mẫu khác liên quan đến cùng các biến trong mẫu ban đầu mà cộng tuyến có thổ không nghiêm trọng nữa.
Điêu này chỉ có thể làm được khi chi phí cho việc lấy mẫu khác có thể chấp nhận được trong thực tế.
Đôi khi chỉ cần thu thập thêm số liệu, tăng cỡ mẫu có thổ làm giảm tính nghiêm trọng của đa cộng tuyến.
3. Bỏ biến
Khi có hiện tượng đa cộng tuyến nghiẽm trọng thì cách “ đơn giản nhất” là bỏ biến cộng tuyến ra khỏi phương trình. Khi phải sử dụng biộn pháp này thì cách thức tiến hành như sau:
Giả sử trong mô hình hồi quy của ta có Ylà biến được giải thích còn X2, X,, Xk là cấc biến giải thích. Chúng ta thấy rằng x2 tương quan chặt chẽ với X} . Khi đó nhiều thông tin về Y chứa ờ x 2 thì cũng chứa ở . Vậy nếu ta bỏ một trong hai biến X2 hoặc x3 khỏi mô hình hồi quy, ta sẽ giải quyết được vấn đề đa cộng tuyến nhưng sẽ mất đi một số thông tin về Y.
Bằng phép so sánh R2 và R2 trong các phép hồi quy khác nhau mà có và không có một trong hai biến chúng ta có thể quyết định nên bỏ biến nào trong 2 biến Xj và X3 khỏi mô hình.
Thí dụ: R2 đối với hồi quy của Y đối với tất cả các biến X|, x 2, ...,Xk là 0,94 ; R2 khi loại biến X2 là 0,87 và R2 khi loại Xi là 0,92 ; Như vậy trong trưcVng hợp này ta loại X ì .
Chúng ta lưu ý một hạn chế của biện pháp này là trong các mô hình kinh tế có những trường hợp đòi hỏi nhất định phải có biến này hoặc biến khác ờ trong mô hình. Trong những trường hợp như vậy việc loại bỏ 1 biến phải được cân nhắc cẩn thận giữa sai lộch khi bỏ một biến cộng tuyến với việc tãng phương sai của các ước lượng hệ số khi biến đó ỏ trong mô hình. Điều này sẽ được xem xét ở chương XI.
4. Sử dụng sai phân cấp một
Thủ tục này được trình bày trong chương VIII - “Tự tương quan”. Mặc dầu biện pháp này có thể giảm tương quan qua lại giữa các biến nhưng chúng cũng có thể được sử dụng như một giải pháp cho vấn đầ đa cộng tuyến.
Thí dụ: Chúng ta có số liệu chuỗi thời gian biểu thị liên hệ giữa biến Y và các biến phụ thuộc Xỉ và x3 theo mô hình sau:
Trong đó t là thòi gian. Phương trình trên đúng với t thì cũng đúng với t - 1 nghĩa là:
Từ (5.20) và (5.21) ta được:
Y, - Y,., = p2(X2t - + P ,(X 31 + X31.1) + u - u , (5.2 2) Đặt ỵ, = Y| - Y|-1 ; X21 = Xu - Xỉi-I'ằ = X31 + X31.1 ;
V, = u - U-,
Y| - Pi + P2X21 + PỉXỉt + u (5.20)
Yị-1 - Pi + PX21.1 + P3X31.1 + U-I (5.21)
ta được: y, = p2x2l + P3X3, + V, (5.23)
Mô hình hồi quy dạng (5.23) thường làm giảm tính nghiêm trọng của đa cộng tuyến vì dù x2 và X3 có thể tương quan cao nhưng không có lý do tiên nghiêm nào- chác chán ràng sai phán của chúng cũng tương quan cao.
Tuy nhiên biến đổi sai phân bậc nhất sinh ra một số vấn đề chẳng hạn như số hạng sai số V( trong (5.23) có thể không thỏa mãn giả thiết của mô hình hồi quy luyến tính cổ điển là các nhiỗu không tương quan. Vậy thì biộn pháp sửa chữa này có thể lại còn tồi tệ hơn căn bệnh.
5. Giảm tương quan trong hồi quy đa thức
Nét đặc biệt của hồi quy đa thức là các biến giải thích xuất hiện với lũy thừa khác nhau trong mô hình hồi quy. Trong thực hành, để giảm tương quan trong hồi quy đa thức, người ta thường sử dụng dạng độ lệch (lệch so với giá trị trung bình).
Nếu việc sử dụng dạng độ lệch mà vẫn không giảm đa cộng tuyến thì người ta có thể phải xem xét đến kỹ thuật “đa thức trực giao”.
6. Một số biện pháp khác
Ngoài các biện pháp đã kể trên, người ta còn sử dụng một số biện pháp khác nữa để cứu chữa căn bệnh ọày như sau:
- Hồi quy thành phần chính.
- Sử dụng các ước lượng từ bên ngoài...
Nhưng tất cả các biện pháp đã trình bày ở trên có thể làm giải pháp cho vấn đ'ê đa cộng tuyến nhu thế nào còn phụ thuộc vào bản chất của tập số liệu và tính nghiêm trọng của vấn đ'ê đa cộng tuyến.
7. Thí dụ
Cho các biến số c - Tiêu dùng; Y- Thu nhập sau thuế; L- Tài sản dễ chuyển thành tiền. Dựa trên 38 quan sát, ta ưóc lượng được các mô hình sau đây:
c = -7,160 + 0,95213Y + e R2 = 0,9933 (5.24)
(t) (-1,93) (73,25)
c =-10,627 + 0,68166Y + 0,37252L + e R2 = 0,9953. (5.25) (t) (-3,25) (9,60) (3,96)
L = 9,307 + 0,76207 Y + e R2 = 0,9758 (5.26) (t) (1,8) (37,2)
(5.26) cho ta thấy giữa L và Y có tương quan khá cao với nhau. Điềụ này chứng tỏ có đa cộng tuyến. Nếu thay L trong (5.26) vào (5.25) sẽ được (5.24). Tuy nhiên nếu chỉ nhìn vào (5.25) thì ta không phát hiện ra điều đó. Bởi vì các tỷ số t trong (5.25) đều, cao, dấu của các hệ số đều phù hợp. Dựa trên (5.24) và (5.25), bằng kiểm định F, ta thấy không thể bỏ L đi được.
Bây giờ sẽ xem xét kỹ hơn vấn đề này. Ta sẽ ước lượng lại mô hình (5.24), (5.25) và (5.26) sau khi bỏ đi hai quan sát cuối cùng. Ta có kết quả sau đay:
c = -6,980 + 0,95145Y + e R2 = 0,9925 (5.27)
(t) (-1,74) (67,04)
c = -13,391 + 0,63258Y + 0,45065L + e R2= 0,9951. (5.28) (t) (-3,71) (8,12) (4,24)
L = 9,307 + 0,76207 Y + e R2 = 0,9758 (5.29)
(t) (2,69) (37,80)
Bằng cách so sánh từng hộ số (5.24) với (5.27); (5.25) với (5.28) và (5.26) với (5.29), sẽ thấy rằng dù chỉ thay đổi chút ít số liệu nhưng kết quả khác biệt rất nhiều. Điều này cho thấy đa cộng tuyến ờ đây là nghiêm trọng.
BÀI TẬP 5.1. H\y giải thích các vấn để sau:
a Đa cộng tuyến, đa cộng tuyến hoàn hảo và đa cộng tuyến không hoàn hảo.
b Hàm hồi quy phụ, mục đích của việc đưa vào hàm hồi quy phụ là gì?
c Hàm tổng chi phí có dạng: TCOST = Pi + p2 Q + p3Q2 + p4Q3. Trong hàm này có chứa cả Q, Q2 và Q3 . Bạn có cho rằng có đa cộng tuyến trong mồ hình này không?
5. 2. Với Q là lượng bán gas, PG là giá một bình gas, PE là giá điện sinh hoạt, PC là giá bếp gas.
a. Khi hổi quy Q phụ thuộc PG và hệ số chặn, có thể có hiện tượng đa cộng tuyến không?
b. Cho mô hình [1]
[1] Ordinary Least Squares Estimation Depenđent variable is Q
27 observations used for estimation from 97M1 to 99M3
Regressor Coefficient Standard Error T-Ratio[Prob]
INPT 1053.6 123.052 8.5615[.000]
PG -6.9435 .626036 -11.0912[.000]
PC -.001737 .001815 -,95682[ 349]
PE 338.15 128.23 2.6371 [.015]
R-Squared .99406 F-statistic F( 3,23) 1284.9[.000]
Nghi ngờ trong mô hình [1]: Q phụ thuộc PG, PC, PE và hệ số chăn có thể có hiện tượng đa cộng tuyến, vì thống kê T của hệ sô' ứng với biến PC nhỏ mà R2 lớn. Hãy nêu một cách kiểm tra hiện tượng đó.
c. Tiến hành hồi quy được kết quả sau đây:
[2] Ordinary Least Squares Estimation Dependent variable is PC
27 observations used for estimation from 97M1 to 99M3
* * * * * * * * * * * * * * * * * * * * * * * * * afc ỉịe * * * % * * * * * * afc * * * * s|í * * * * * * * * * sfc * * * * * * * * * * *
Regressor Coefficient Standard Eưor T-Ratio[Probj
PE -7.3608 3.6730 -2.0040[.056]
PG .34168 .020910 16.3406[.000]
INPT 555.7082 50.9517 10.9066[.000]
% a|e 3fc 3fc a|e 3|e 3fc a|e * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *
R-Squared .93617 F-statistic F( 2, 24) 176.0110[.000]
* * * * * * * * * * * * * $ * * * * * * * % * * * % * * * * % * * * * * % * >1ô * * * * * * * * * * * * * * * * * * * * * * * * * *
d. M ồ hình [2] nhằm m ục đích gì?
e. Biến PC có phụ thuộc tuyến tính vào biến PE không? Có phụ thuộc tuyến tính vào biến PG không?
f. Mô hình [1] có khuyết tật đa cộng tuyến không? Đa cộng tuyến này là hoàn hảo hay không hoàn hảo? Các ước lượng của mô hình [1] còn là ước lượng tốt nhất không?
g. Nêu một cách khắc phục đơn giản khuyết tật trong mô hình [ 1 ]
h. Khi bỏ biến PC khỏi mô hình [1], tiến hành hổi quy Q theo PG, PE có hệ số chặn thu được R2 = 0,9821. Có nên bỏ biến PC không?
i. Để kiểm tra mô hình Q phụ thuộc PG, PE và hệ số chặn có khuyết tật không, người ta hổi quy PG theo PE có hệ số chăn thu được hệ số xác định bằng 0,1215. Mô hình đó dùng để làm gì, có kết luận gì thu được?
j. Khi hồi quy mô hình : Q phụ thuộc PG, D, DPG có hệ số chăn với D là biến giả nhận giá trị bằng 1 nếu là tháng đại lý bán binh gas mới, D = 0 với các tháng bán bình gas cũ, DPG = D*PG. Các biến D và DPG có thể có quan hệ cộng tuyến với nhau hay không?
5.3. Với s là sản lượng của một cơ sở sản xuất, K là nguồn vốn, L là lao động, D là biến giả với D = 1 nếu cơ sở sản xuất không thuộc sở hữu nhà nước và D = 0 nếu cơ sở thuộc sở hữu nhà nước, a = 5%.
a. Khi hồi quy mô hình: s phụ thuộc L có hệ số chặn có thể có hiện tượng đa cộng tuyến không?
b. Khi hổi quy mô hình [1]:
[1] Ordinary Least Squares Estimation Dependent variable is s
20 observations used for estimation from 1 to 20
* * * * * * * * % % 3fe * * * * * * * * * * * 9fc * * * * * * * * * * * * * * * * % $ * * * * * * % * * * * * * * ìỊc * * * * % * * * *
Regressor Coefficient Standard Error T-Ratio[Prob]
INPT K L
-20.6583 22.0029 -.93889[.361]
10.7720 2.1599 4.9874[.000]
17.2232 4.5279 3.8038[.001]
R-Squared .71699 F-statistic F( 2, 17) 21.5343[.000]
Nếu nghi ngờ mô hình [1] trên có hiện tượng đa cộng tuyến, hãy nêu một cách
k i ể m đ ị n h .
c. Cho biết bảng kết quả hồi quy [2] dưới đây dùng để làm gì? Kết luận gì thu được về hiện tượng đa cộng tuyến trong mồ hình [ 1 ]?
[2] Orđinary Least Squares Estimation Dependent variable is K
20 observations used for estimation from 1 to 20
Regressor Coefficient Standard Error T-Ratio[Prob]
d. Khi hồi quy s phụ thuộc vào L, K, T có hệ số chặn, trong đó T là biến số công nghệ, người ta thu được hệ số của T bằng 5.8332 với độ lệch chuẩn bằng 4.9235. Biến số T đưa vào có ý nghĩa không?
e. Nghi ngờ trong mô hình nói ở câu (d) có hiện tượng đa cộng tuyến, người ta hồi quy T theo L, K có hệ số chặn thu được R2 bằng 0,6213. Kết quả đó cho biết điều gì? Khi đó có nên đưa biến T vào mô hình không?
f. Nếu muốn kiểm tra mô hình LS phụ thuộc vào LL, LK - L.. là logarit cơ số tự nhiên của các biến tương ứng - có hệ số chặn, để biết có hiện tượng đa cộng tuyến hay không, ta có thể làm thế nào?
g. Khi hồi quy LK theo LL có hộ số chặn thu được ước lượng hộ số góc bằng 1,928 và độ lệch chuẩn bằng 1,437. Kết quả đó dùng để làm gì, kết luận gì thu được.
h. Khi đăt biến DL = D*L với D là biến giả, khi đó D và DL có quan hệ cộng tuyến không?
L INPT
.18696 .07589 2.4634[.024]
5.1153 13.4659 .37987[.708]
R-Squared .254482 F-statistic F( 1, 18) 6.1443[.024]
C H Ư Ơ N G VI
PHƯƠNG SAI CỦA SAI sô THAY ĐỔI
Một trong những giả thiết quan trọng của mô hình hồi quy tuyến tính cổ điển là các nhiêu ngẫu nhiên ư, trong hàm hồi quy tổng thể có phương sai không đổi.
Nhưng liệu trong thực tế giả thiết này có thể bị vi phạm không? Nếu giả thiết này bị vi phạm thì điều gì sẽ xảy ra? Làm thế nào để biết được rằng giả thiết này bị vi phạm? Cách khắc phục như thế nào? Đó là một loạt các câu hỏi mà chúng ta sẽ trả lời trong chương này.
6.1. NGUYÊN NHÂN CỦA PHUƠNG SAI CỦA SAI s ố THAY Đ ổ i 1. Phương sai của sai số thay đổi là gì?
Khi nghiên cứu mô hình hồi quy tuyến tính cổ điển, chúng ta đã đưa ra giả thiết rằng: phương sai của mỗi một nhiễu ngẫu nhiên Ư, trong điều kiộn giá trị đã cho cùa biến giải thích Xi là không đổi, nghĩa là
Var(ư, I Xi) = E[ư, - E(ư,)]2 = E (ư,)2 = ơ2 (6.1) i = 1,2,... n
Vê mặt đồ thị thì mô hình hồi quy 2 biến có phương sai không đổi được minh họa ờ hình 6.1.
Ngược với trường hợp trôn là trường hợp: phương sai có điều kiện của Y| thay đổi khi X, thay đổi, nghĩa là: E(Ư,)2 = ơi2 (trong đó các ơi2 khác nhau). Thí dụ khi nghicn cứu mối quan hệ giữa lỗi mắc phải do đánh máy trong một thời kỳ đã cho với số giờ Ihực hành, thì người ta nhận thấy số giờ thực hành đánh máy càng tãng thì lỗi sai trung bình mác phải càng giảm. Điều này mô tả bằng đồ thị hình 6.2.