Phát hiện hiện tượng đa cộng tuyến và biện pháp khắc phụcLỜI MỞ ĐẦU Trong mô hình phân tích hồi quy bội, chúng ta giả thiết giữa các biến giải thích Xi của mô hình độc lập tuyến tính với nhau, tức là các hệ số hồi quy đối với một biến cụ thể là số đo tác động riêng phần của biến tương ứngkhi tất cả các biến khác trong mô hình được giữ cố định. Tuy nhiên khi giả thiết đó bị vi phạm tức là các biến giải thích có tương quan thì chúng ta không thể tách biệt sự ảnh hưởng riêng biệt của một biến nào đó. Hiện tượng trên được gọi là đa công tuyến.Vậy để đa cộng tuyến là gì, hậu quả của hiện tượng này như thế nào, làm thế nào để phát hiện và biện pháp khắc phục nó. Để trả lời được những câu hỏi trên, sau đây chúng ta cùng đi thảo luận về đề tài “ Hiện tượng đa cộng tuyến”.
Trang 1TRƯỜNG ĐẠI HỌC THƯƠNG MẠI KHOA HỆ THỐNG THÔNG TIN KINH TẾ
-& -BÀI THẢO LUẬN
Môn: KINH TẾ LƯỢNG
Đề tài: Phát hiện hiện tượng đa cộng tuyến
và biện pháp khắc phục
Trang 2Cộng hòa xã hội chủ nghĩa Việt NamĐộc lập - Tự do - Hạnh phúc
BIÊN BẢN HỌP NHÓM
LẦN 1
Thời gian: 15h30’, ngày 21 tháng 10 năm 2014
Địa điểm : Sân thư viện trường ĐH Thương mại
nhất thời gian nộp bài
Nhóm trưởng
Trang 3Cộng hòa xã hội chủ nghĩa Việt NamĐộc lập - Tự do - Hạnh phúc
BIÊN BẢN HỌP NHÓM
LẦN 2
Thời gian: 9h ngày 25 tháng 10 năm 2014
Địa điểm : Sân thư viện Đại Học Thương Mại
bảo nội dung yêu cầu làm lại
nhất nội dung buổi họp sau
Trang 5Cộng hòa xã hội chủ nghĩa Việt NamĐộc lập - Tự do - Hạnh phúc
BIÊN BẢN HỌP NHÓM
LẦN 3
Thời gian: 14h ngày 27 tháng 10 năm 2014
Địa điểm : Sân kí túc xá sinh viên trường ĐH Thương mại
Thành phần: Sinh viên nhóm 6
1.Mai Thị Thùy
2.Ngô Minh Tú
3.Nguyễn Linh Trang
4.Cao Thị Kiều Trang
5.Nguyễn Thu Trang
6.Đỗ Hoàng Việt
7.Vũ Thu Trang
Có mặt: 7 Vắng: 0
Nội dung:
Nhóm trưởng
Trang 6BẢNG TỰ ĐÁNH GIÁ XẾP LOẠI CÁ NHÂN
Trang 7BẢN ĐÁNH GIÁ ĐIỂM CỦA THẦY GIÁO
Chọn bộ số liệuNhóm trưởngWordPhát hiện ĐCTKhắc phục ĐCTSlide & ThuyếttrìnhTìm bộ số liệuLập mô hình HQ
Trang 8LỜI MỞ ĐẦU
Trong mô hình phân tích hồi quy bội, chúng ta giả thiết giữa các biến giải
với một biến cụ thể là số đo tác động riêng phần của biến tương ứng
khi tất cả các biến khác trong mô hình được giữ cố định Tuy nhiên khi giả thiết
đó bị vi phạm tức là các biến giải thích có tương quan thì chúng ta không thể tách biệt sự ảnh hưởng riêng biệt của một biến nào đó
Hiện tượng trên được gọi là đa công tuyến.Vậy để đa cộng tuyến là gì, hậu quảcủa hiện tượng này như thế nào, làm thế nào để phát hiện và biện pháp khắc phục
nó Để trả lời được những câu hỏi trên, sau đây chúng ta cùng đi thảo luận về đề tài “ Hiện tượng đa cộng tuyến”
Trang 9Chương 1 Lý luận cơ bản về hiện tượng đa cộng tuyến
1.1.1. Khái niệm
xảy ra ta không gặp hiện tượng đa cộng tuyến
Trong những trường hợp còn lại, ta gặp hiện tượng đa cộng tuyến.Giả sử ta phải
Y1 = β1+ β2 X2i + β3 X3i + Ui , (i =1,n)
λ2 X2 + λ3 X3 + + λk Xk = 0
1.1.2 Nguyên nhân
thuộc lẫn nhau trong mẫu nhưng không phụ thuộc lẫn nhau trong tổng thể
Trang 10Ví dụ: Người thu nhập cao sẽ có khuynh hướng nhiều của cải hơn Điều này có
thể đúng với mẫu mà không đúng với tổng thể Trong tổng thể sẽ có các quan sát về các cá nhân có thu nhập cao nhưng không có nhiều của cải và ngược lại
- Hồi quy dạng các biến độc lập được bình phương sẽ xảy ra đa cộng tuyến, đặc biệt khi phạm vi giá trị ban đầu của biến độc lập là nhỏ
- Các biến độc lập vĩ mô được quan sát theo chuỗi thời gian
1.2.1 Ước lượng khi có hiện tượng đa cộng tuyến hoàn hảo
Sau đây chúng ta sẽ chỉ ra rằng khi có đa cộng tuyến hoàn hảo thì các hệ số hồi quy là không xác định còn các sai số tiêu chuẩn là vô hạn Để đơn giản về mặt trình bày chúng ta sẽ xét mô hình hồi quy 3 biến và chúng ta sẽ sử dụng dạng độlệch trong đó:
Y Y
Y n
X n
y = β∧2 2 +β∧3 3 +
(1.5) Theo tính toán trong chương hồi quy bội ta thu được các ước lượng:
Trang 11( ) ( ) ( )( )
2
2 2
2 2
2 2
2 3
2 3 2
i
i i
i i
i i
x x
x
x x
y x
2 2
2 3
3 2 2
2 2 3
i
i i i
i i
i i
x x x
x
x x x
y x
2
2 2
2 2 2
2 2 2
i
i i
i i
i i
x x
x
x x
y x
x
y
λλ
λλ
λβ
Vì sao chúng ta lại thu được kết quả như ở (1.8)? Lưu ý đến ý nghĩa của
∧
2 β
có thể giải thích điều đó
∧
2 β
thay
thì điều đó có nghĩa là
thì điều này phá hủy toàn bộ ý định tách ảnh hưởng riêng của từng biến lên biếnphụ thuộc
Thí dụ: X3i =λX2i
thay điều kiện này vào (1.5) ta được:
i i i
i i
i i
y = β∧2 2 +β∧3(λ 2 )+ =(β∧2+λβ∧3 2 + =α∧ 2 +
Trang 12i
i i
x
y x
2
2 3
∧ 2
1.2.2 Ước lượng trong trường hợp có đa cộng tuyến không hoàn hảo
Đa cộng tuyến hoàn hảo chỉ là 1 trương hợp đặc biệt hiếm xảy ra Trong các số liệu liên quan đến chuỗi thời gian, thường xảy ra đa cộng tuyến không hoàn hảo
có cộng tuyến không hoàn hảo theo nghĩa:
i i
Trang 13Trong trường hợp này theo phương pháp bình phương nhỏ nhất ta dễ dàng thu được các ước lượng
2
2 2
2 2 2
2 i
2 2
2 2
2 2 2
+
− +
=
i i
i i
i i
i i i
i i
i
x V
x x
x y
x y V
x x
y
λ λ
λ λ
λ β
(1.9)Trong trường hợp này không có lý do gì để nói rằng (1.9) là không ước lượng được
Ta xét trường hợp mô hình có hiện tượng đa cộng tuyến không hoàn hảo, tức là biến độc lập Xi có thể xấp xỉ tuyến tính theo các biến X2 , X3 , , Xk Có một số trường hợp xảy ra như sau:
1.3.1. Phương sai và hiệp phương sai của các ước lượng bình quân bé nhất lớn
Trong chương mô hình hồi quy bội ta đã có biểu thức:
Trong đó là hệ số tương quan giữa
Từ 1.10 và 1.11 ta thấy tăng dần tới 1 (nghĩa là cộng tuyến tăng) thì phương sai của hai ước lượng này tăng dần tới vô hạn 1.12 chỉ ra rằng khi tăng dần tới 1 thìcov() tăng về giá trị tuyệt đối
1.3.2. Khoảng tin cậy rộng hơn
Giả sử khi thực hành ta có khoảng tin cậy 95% cho khi đã biết là:
)Trong đó:
Trang 14(1.14)(1.13) và (1.14) chứng tỏ càng gần tới 1 thì khoảng tin cậy cho các tham số càng rộng.
Do đó trong trường hợp có đa cộng tuyến gần hoàn hảo thì số liệu của mẫu có thể thích hợp với tập các giả thiết khác nhau Vì thế xác suất chấp nhận giả thiết sai tăng lên (tức là tăng sai lầm loại II)
1.3.3. Tỷ số t mất ý nghĩa
Như đã biết, khi kiểm định giả thiết : chúng ta đã sử dụng tỷ số và đem so sánh giá trị t đã được ước lượng với giá trị tới hạn t thong khi có đa cộn tuyến gần hoàn hảo thì sai số tiêu chuẩn ước lượng được sẽ rất cao vì vậy làm cho chỉ
1.3.4. cao nhưng tỉ số ít ý nghĩa
Để giải thích điều này Ta hãy xét mô hình hồi quy k biến như sau:
Trong trường hợp có đa cộng tuyến gần hoàn hảo, như đã chỉ ra ở trên, ta có thể tìm được một hoặc một số hệ số góc riêng là không có ý nghĩa là không có ý nghĩa thống kê trên cơ sở kiểm định t nhưng trong khi đó lại có thể rất cao, nênbằng kiểm định F chúng ta có thể bác bỏ giả thiết: Mâu thuẫn này cũng là tín hiệu của đa cộng tuyến
1.3.5. Các ước lượng bình phương bé nhất và các sai số tiêu chuẩn của chúng trở lên
rất nhạy đối với những thay đổi nhỏ trong số liệu
1.3.6. Dấu của các ước lượng của các hệ số hồi quy có thể sai
Khi có đa cộng tuyến gần hoàn hảo thì có thể thu được các ước lượng của các
hệ số hồi quy trái với điều chúng ta mong đợi Chẳng hạn lý thuyết kinh tế cho rằng đối với hàng hoá thong thường thu nhập tăng thì cầu hàng hoá tăng, nghĩa
là khi hồi quy thu nhập là một trong các biến giải thích, biến phụ thuộc là lượng cầu hàng hoá, nếu xảy ra hiện tượng đa cộng tuyến gần hoàn hảo thì ước lượng của hệ số của biến thu nhập có thể mang dấu âm – mâu thuẫn với điều ta mong đợi
1.3.7. Thêm vào hay bớt đi các biến cộng tuyến với các biến khác, mô hình sẽ thay đổi
về độ lớn trong các ước lượng hoặc dấu của chúng.
1.4.1. R
2
cao nhưng tỉ số t thấp
Trang 151.4.2 Tương quan cặp giữa các biến giải thích cao
Nếu hệ số tương quan cặp giữa các biến giải thích cao (vượt 0,8) thì có khả năng có tồn tại đa cộng tuyến Tuy nhiên tiêu chuẩn này thường không chính xác
Có những trường hợp tương quan cặp không cao nhưng vẫn có đa cộng tuyến
1.4.3. Xem xét tương quan riêng
Vì vấn đề được đề cập đến dựa vào tương quan bậc không Farrar và Glauber đã
đề nghị sử dụng hệ số tương quan riêng Trong hồi quy của Y đối với các biến X
2
2 234 , 1
cao trong khi đó r
2 34 , 12
; r
2 24 , 13
; r
2 23 , 14
tương
và ít nhất một trong các biến này là thừa
Dù tương quan riêng rất có ích nhưng nó cũng không đảm bảo rằng sẽ cung cấp cho ta hướng dẫn chính xác trong việc phát hiện ra hiện tượng đa cộngtuyến
1.4.4. Hồi quy phụ
Trang 16Một cách có thể tin cậy được để đánh giá mức độ của đa cộng tuyến là hồi
thích còn lại R
k R
i i
số biến giải thích kể cả hệ số chặn trong mô hình R
2
i
là hệ số xác định trong hồi
phụ là gánh nặng tính toán Nhưng ngày nay nhiều chương trình máy tính đã có thể đảm đương được công việc tính toán này
1.4.5. Nhân tử phóng đại phương sai
Một thước đo khác của hiện tượng đa cộng tuyến là nhân tử phóng đại
2
i
trong hồi quy của biến
VIF(Xi) = 1 R
1
2 i
−
Trang 17Nhìn vào công thức (1.15) có thể giải thích VIF(Xi) bằng tỷ số chung của
coi tình huống lý tưởng là tình huống mà trong đó các biến độc lập không tươngquan với nhau, và VIF so sánh tình huông thực và tình huống lý tưởng Sự so sánh này không có ích nhiều và nó không cung cấp cho ta biết phải làm gì với tình huống đó Nó chỉ cho biết rằng các tình huống là không lý tưởng
Đồ thị của mối liên hệ của R
R 2
i
0
Trang 18Như hình vẽ chỉ ra, khi R
=1 thì VIF là vô hạn
Có nhiều chương trình máy tính có thể cho biết VIF đối với các biến độc lập trong hồi quy
Trang 191.4.6. Độ đo Theil
Khía cạnh chủ yếu của VIF chỉ xem xét đến tương quan qua lại giữa các biến giải thích Một độ đo mà xem xét tương quan của biến giải thích với biến được giải thích là độ đo Theil Độ đo Theil được định nghĩa như sau:
2
Y = β1 + β2X2i + β3 X3i+ …… + βk Xki+ UiR
được gọi là “đóng góp tăng thêm vào” vào hệ số xác định
tăng thêm đó cộng lại bằng R
2
Trong các trường hợp khác m có thể nhận giá trị
âm hoặc dương lớn
Để thấy được độ đo này có ý nghĩa, chúng ta xét trường hợp mô hình có 2 biến
) – (R
2
– r
2 13
)
Tỷ số t liên hệ với tương quan riêng r
2 3 , 12
, r
2 2 , 13
Trong phần hồi quy bội ta đã biết:
R
2
= r
2 12
+ (1- r
2 12
) r
2 2 , 13
R
2
= r
2 13
+ (1- r
2 13
) r
2 3 , 12
Trang 20Thay 2 công thức này vào biểu thức xác định m ta được:
2
- (r
2 12
+ (1- r
2 12
) r
2 2 , 13
- r
2 12
) - ( r
2 13
+ (1- r
2 13
) r
2 3 , 12
- r
2 13
) r
2 2 , 13
+ (1- r
2 13
) r
2 3 , 12
Đặt 1- r
2 12
= w2; 1- r
2 13
viết lại dưới dạng:
m = R
2
- (w2 r
2 2 , 13
+ w3 r
2 3 , 12
)Như vây độ đo Theil bằng hiệu giữa hệ số xác định bội và tổng có trọng số của các hệ số tương quan riêng
Như vậy chúng ta đã biết một số độ đo đa cộng tuyến nhưng tất cả đều có ý nghĩa sử dụng hạn chế Chúng chỉ cho ta những thông báo rằng sự việc không phải là lý tưởng
1.5.1 Sử dụng thông tin tiên nghiệm
Một trong các cách tiếp cận để giải quyết vấn đề đa cộng tuyến là phải tậndụng thông tin tiên nghiệm hoặc thông tin từ nguồn khác để ước lượng các hệ sốriêng
Thí dụ : ta muốn ước lượng hàm sản xuất của 1 quá trình sản xuất nào đó có
Lấy ln cả 2 vế (1.16) ta được :
Trang 21Giả sử từ 1 nguồn thông tin nào đó mà ta biết được rằng ngành công
Thông tin tiên nghiệm đã giúp chúng ta giảm số biến độc lập trong mô hình
Sau khi thu được ước lượng
µ
αcủa α thì
1.5.2 Thu thập số liệu hoặc lấy thêm mẫu mới
Vì đa cộng tuyến là đặc trưng của mẫu nên có thể có mẫu khác liên quan đến
cùng các biến trong mẫu ban đầu mà đa cộng tuyến có thể không nghiêm trọngnữa Điều này có thể làm được khi chi phí cho việc lấy mẫu khác có thể chấpnhận được trong thực tế
Đôi khi chỉ cần thu thập thêm số liệu, tăng cỡ mẫu có thể làm giảm tínhnghiêm trọng của đa cộng tuyến
1.5.3 Bỏ biến
Khi có hiện tượng đa cộng tuyến nghiêm trọng thì cách “đơn giản nhất” là
bỏ biến cộng tuyến ra khỏi phương trình Khi phải sử dụng biện pháp này thìcách thức tiến hành như sau:
cộng tuyến nhưng sẽ mất đi 1 phần thông tin về Y
Trang 22Thí dụ R2 đối với hồi quy của Y đối với tất cả các biến X1, X2, X3, …, Xk là
Chúng ta lưu ý 1 hạn chế của biện pháp này là trong các mô hình kinh tế cónhững trường hợp đòi hỏi nhất định phải có biến này hoặc biến khác ở trong môhình Trong trường hợp như vậy việc loại bỏ 1 biến phải được cân nhắc cẩn thậngiữa sai lệch khi bỏ 1 biến cộng tuyến với việc tăng phương sai của các ướclượng hệ số khi biến đó ở trong mô hình
1.5.4 Sử dụng sai phân cấp 1
Mặc dù biện pháp này có thể giảm tương quan qua lại giữa các biến nhưngchúng cũng có thể được sử dụng như 1 giải pháp cho vấn đề đa cộng tuyến.Thí dụ chúng ta có số liệu chuỗi thời gian biểu thị liên hệ giữa các biến Y và các
Trang 23Mô hình hồi quy dạng (1.22) thường làm giảm tính nghiêm trọng của đa cộng
nào chắc chắn rằng sai phân của chúng cũng tương quan cao
Tuy nhiên biến đổi sai phân bậc nhất sinh ra 1 số vấn đề chẳng hạn như số
tuyến tính cổ điển là các nhiễu không tương quan Vậy thì biện pháp sửa chữanày có thể lại còn tồi tệ hơn
1.5.5 Giảm tương quan trong hồi quy đa thức
Nét khác nhau của hồi quy đa thức là các biến giải thích xuất hiện với lũythừa khác nhau trong mô hình hồi quy Trong thực hành để giảm tương quantrong hồi quy đa thức người ta thường sử dụng dạng độ lệch Nếu việc sử dụngdạng độ lệch mà vẫn không giảm đa cộng tuyến thì người ta có thể phải xem xétđến kỹ thuật “đa thức trực giao”
1.5.6 Thay đổi dạng mô hình
Mô hình kinh tế lượng có nhiều dạng hàm khác nhau Thay đổi dạng môhình cũng có nghĩa là tái cấu trúc mô hình
1.5.7 Một số biện pháp khác
Ngoài các biện pháp đã kể trên người ta còn sử dụng 1 số biện pháp khác nữanhư sau:
quy phụ
không phải kiểm định
Nhưng tất cả các biên pháp đã trình bày ở trên có thể làm giải pháp cho vấn
đề đa cộng tuyến như thế nào còn phụ thuộc vào bản chất của tập số liệu và tínhnghiêm trọng của vấn đề đa cộng tuyến
Trang 25Phần 2: Bài tập minh họa
Dựa trên những cơ sở lý luận ta đã tìm hiểu, sau đây chúng ta cùng đi phân tích một tình huống kinh tế cụ thể để thấy được cách phát hiện và khắc phục hiện tượng đa cộng tuyến như thế nào?
Khảo sát về giá trị bất động sản nhà ở
Mẫu : 88
Biến phụ thuộc Price : giá trị của nhà : đơn vị 1000$
Các biến giải thích :
Assess : giá trị rao bán : đơn vị 1000$
Bedrooms : số phòng ngủ
Housesize: diện tích nhà : đơn vị ft^2 ( square feet)
Colonial : nhà xây phong cách cổ hay không : có =1 , không= 0
Bảng số liệu
Trang 27I Lập mô hình hàm hồi quy.
Ta có mô hình hàm hồi quy tuyến tính thể hiện sự phụ thuộc của giá trị nhà ở vào giá trị rao bán, số phòng ngủ và diện tích nhà:
Mô hình ước lượng của hàm hồi quy:
Từ bảng số liệu, sử dụng phần mềm eviews ta được kết quả sau:
Trang 28Bảng 1
Từ kết quả ước lượng ta thu được hàm hồi quy mẫu sau:
II Phát hiện hiện tượng đa cộng tuyến
Cách 1: Xem xét tương quan cặp giữa các biến giải thích
Nếu hệ số tương quan cặp giữa các biến giải thích cao (vượt 0,8) thì có khả năng có tồn tại đa cộng tuyến
Ta có ma trận hệ số tương quan cặp giữa các biến như sau:
Trang 29R25 = 0.865634 > 0.8
=> Như vậy ta có cơ sở kết luận có hiện tượng đa cộng tuyến trong mô hình trên
Cách 2: Hồi quy phụ
Xji = 1 +2X2i +3X3i + + j-1Xj-1i + j+1Xj+1i + kXki +Vi ; j =
Thu được: Rj2, j =
Kiểm định cặp giả thuyết:
có mối quan hệ tuyến tính với các biến còn lại
Trang 30Ta có: α = 0.01 ta đi kiểm định giả thiết:
: X có mối quan hệ tuyến tính với các biến còn lại
chấp nhận H1
KL: Mô hình có xảy ra hiện tượng đa cộng tuyến
đơn giản, các phương pháp còn lại sẽ tham khảo trong tài liệu
II/ Khắc phục hiện tượng đa cộng tuyến
1 Bỏ biến đa cộng tuyến cao ra khỏi mô hình:
Xét mô hình hồi quy:
=+X2i +X3i+X4i +X5i