I. GIỚI THIỆU BIẾN PHỤ THUỘC LÀ BIẾN GIẢ
2.2. Các vấn đề ƣớc lƣợng LPM
Vì (3..1) nhìn giống như bất kỳ mô hình hồi quy nào khác, vậy vì sao chúng ta không ước lượng nó bằng phương pháp OLS tiêu chuần? Về mặt toán học, chúng ta có thể làm như vậy. Nhưng chúng ta gặp một số vấn ề ặc biệt, như sau.
2.2.1. Tính chuẩn của nhiễu ui
Mặc dù OLS không yêu cầu nhiễu phải có phân phối chuẩn, chúng ta giả thiết rằng chúng ược phân phối như vậy cho mục ích của các kết luận thống kê (statistical inference), nghĩa là, kiểm ịnh giả thiết, v.v. Nhưng giả thiết về tính chuẩn của ui không khả thi ối với LPM bởi vì Yi, ui chỉ nhận hai loại giá trị. Để thấy rõ, chúng ta viết lại như sau
ui = Yi –β1 +β2Xi (3.6)
Và khi: Yi =1 ui =1-β1 – β2Xi
Và khi : Yi =0 ui = -β1 – β2Xi (3.7) Chắc chắn rằng, ta không thể giả thiết rằng ui có phân phối chuẩn; thực tế nó tuân theo quy luật phân phối nhị phân. Nhưng việc không áp ứng ược yêu cầu giả thiết về tính chuẩn thực ra không quá nghiêm trọng như chúng thể hiện bởi vì chúng ta biết rằng ước lượng iểm OLS sẽ vẫn là không chệch (nhắc lại rằng nếu mục tiêu là ước lượng iểm, giả thiết về tính chuẩn là không logic). Thêm vào ó, với quy mô mẫu tăng lên vô hạn, chúng ta có thể chỉ ra rằng các ước lượng OLS, về mặt tổng quát, sẽ có xu hướng phân phối chuẩn. Do ó, trong các mẫu lớn các kết luận thống kê của LPM sẽ tuân theo các thủ tục OLS với các giả thiết về tính chuẩn.
2.2.2. Phươn sai sai số thay đổi của nhiễu
Thậm chí nếu E(ui) = 0 và E(ui uj) = 0, với i ≠j (nghĩa là, không tồn tại tương quan chuỗi), các nhiễu ui cũng không thể duy trì ược tính thuần nhất. Để thấy rõ, các nhiễu u ược cho trong (3.7) có phân phối xác suất như sau:
ui Xác suất
-β1 –β2Xi 1-Pi
1—β1 –β2Xi Pi
Tổng 1
Phân phối xác suất trên tuân theo phân phối xác suất của Yi ở trên.
Bây giờ, theo ịnh nghĩa: var(ui) = E[ui –E(ui )]2
= E(ui2
) với E(ui) = 0 theo giả thiết Do ó, sử dụng phân phối xác suất của ui
var(ui) = E(ui2
) = (-β1 –β2 Xi )2(1-Pi )+ (1-β1 –β2 Xi )2(Pi ) = (1-β1 –β2 Xi )2(-β1 –β2 Xi ) +(1-β1 –β2 Xi )2 (β1 +β2 Xi )
= (β1 +β2 Xi ) (1-β1 –β2 Xi ) (3.8) Hay var(ui)= E(Yi /Xi )[1-E(Yi/Xi)]
= Pi (1-Pi ) (3.9)
trong ó ta sử dụng thực tế rằng E(Yi/Xi) = β1 +β2 Xi = Pi. Phương trình (3.9) chỉ ra rằng phương sai của ui là thay ổi bởi vì nó phụ thuộc vào kỳ vọng có iều kiện của Y, mà nó, tất nhiên, phụ thuộc vào giá trị của X. Do ó, cuối cùng phương sai của ui phụ thuộc vào X và do ó nó có phương sai sai số thay ổi.
Chúng ta biết rằng với sự hiện diện của phương sai sai số thay ổi của các ước lượng OLS, mặc dù không chệch, chúng là không hiệu quả; nghĩa là, chúng không có phương sai nhỏ nhất. Và như vậy, vấn ề về phương sai sai số thay ổi là không thể khắc phục ược. Như chúng ta thảo luận một vài phương pháp ể giải quyết vấn ề phương sai sai số thay ổi. Vì phương sai của ui phụ thuộc vào giá trị kỳ vọng có iều kiện của Y ối với X, như chỉ ra trong (3.8), một cách ể giải quyết vấn ề phương sai sai số thay ổi là biến ổi dữ liệu bằng cách chia cả hai vế của mô hình cho
i i
i i
i i
i X E Y X P P w
Y
E( / )[1 ( / )] (1 )
i i i i i
i i
w u w X w
w
Y 1 2
(3.10)
Số hạng sai số trong (3.10) bây giờ sẽ có phương sai thuần nhất. (Vì sao). Do ó, chúng ta có thể thực hiện các ước lượng OLS của (3.10).
Tất nhiên, giá trị thật của E(Yi/Xi) là chưa biết; do ó, wi, trọng số, là chưa biết. Để ước lượng wi, chúng ta có thể sử dụng thủ tục hai bước sau:
Bước 1. Chạy hồi quy OLS của (3.1) bỏ qua vấn ề phương sai sai số thay ổi và thu ược Yˆ = ước lượng giá trị thực của E(Yi i/Xi). Và thu ược wˆ =i Yˆ (1-i Yˆ ), ước lượng của wi i.
Bước 2. Sử dụng ước lượng wˆ ể biến ổi số liệu như trong (3.5) và chạy hồi quy i OLS trên các số liệu ược chuyển ổi.
2.2.3. Sự vi phạm ràng buộc 0 ≤E(Yi/X) ≤ 1
Vì E(Yi/X) trong mô hình xác suất tuyến tính o lường xác suất có iều kiện của biến cố Y xuất hiện với X cho trước, nó phải nằm trong khoảng 0 và 1. Mặc dù iều này hiển nhiên úng, thì cũng không có ảm bảo nào ể Yˆ , ước lượng của i E(Yi/Xi), sẽ chắc chắn thoả m n iều kiện này, và đó là vấn đề thực tế của ước lượng OLS của mô hình LPM. Có hai phương pháp ể tìm ra ước lượng Yˆ có nằm trong khoảng [0,1] hay không. i Một là ước lượng LPM bằng OLS thông thường và chỉ ra Yˆ có nằm trong khoảng [0,1] hay i không. Nếu một vài giá trị nhỏ hơn 0 (giá trị âm), thì Yˆ ược giả thiết là nhận giá trị bằng i 0 trong trường hợp này; nếu các giá trị này lớn hơn 1, chúng ược giả thiết là bằng 1. Thủ tục thứ hai là tìm ra kỹ thuật ước lượng mà ảm bảo rằng ước lượng của xác suất có iều kiện của Yˆ nằm trong khoảng [0,1]. Mô hình logit và probit ược thảo luận sau ây sẽ ảm i bảo rằng các xác suất ước lượng ược sẽ chắc chắn nằm trong khoảng [0,1].
2.2.4. R2 có còn là thước đo về tính phù hợp của mô hình hay không?
Giá trị tính toán ược một cách truyền thống R2 có vai trò rất giới hạn trong mô mình hồi quy với biến phụ thuộc lưỡng phân. Để thấy rõ, xem xét hình vẽ dưới ây. Tương ứng với các giá trị cho trước của X, Y hoặc là 0 hoặc 1. Do ó, tất cả các giá trị của Y sẽ hoặc nằm dọc theo trục X hoặc trên ường tương ứng với 1. Do ó, về tổng quát không LPM nào ược kỳ vọng là phù hợp tốt với biểu ồ rải, hoặc chúng là LPM không bị ràng buộc (Hình 3.1.a) hoặc là LPM cắt (truncated) hoặc bị ràng buộc(constrained) (Hình 3.1b), một ước lượng LPM theo cách mà nó sẽ không rơi ra ngoài khoảng logic [0,1]. Do ó, giá trị R2truyền thống tính toán ược sẽ thông thường nhỏ hơn 1 rất nhiều cho các mô hình như vậy. Trong hầu hết các mô hình thực nghiệm giá trị R2 nằm trong khoảng từ 0.2 ến 0.6. R2 trong các mô hình như vậy sẽ rất cao, chẳng hạn, lớn hơn 0.8 chỉ khi biểu ồ rải thực tế là tụ lại quanh iểm A và B trong Hình vẽ (3.1c), với trường hợp ó sẽ dễ dàng ể chỉnh trang ường thẳng bằng cách nối hai iểm A và . Trong trường hợp này giá trị ước oán của Yi sẽ rất gần với hoặc 0 hoặc 1.
Vì các lý do này John Aldrich và Forrest Nelson cho rằng ― sử dụng hệ số xác ịnh như là một thống kê tóm tắt cần ược bỏ qua trong các mô hình với biến phụ thuộc là số lượng.‖
Hình 3.1. Các mô hình xác suất tuyến tính.