Trình tự đưa ra để lựa chọn mô hình RE
POLS
xttest0 P >>
P >>
FE
Hausma n FE
RE
3.4.1. Mô hình ước lượng
Xem xét mô hình ước lượng với mức ý nghĩa cho trước α = 10%:
Ước lượng mô hình tác động ngẫu nhiên RE
Mô hình thường thấy trong kinh tế có dạng hàm Cobb-Douglas, nên tôi đưa ra mô hình ước lượng dự tính với hàm logarit tự nhiên của mỗi biến như sau:
Sau khi ước lượng với Stata, ta được bảng kết quả sơ bộ như sau:
xtreg lnvtb lnhhdv lnvtltb lnthpt lnlc lnvc lnds bb tb nb lndt pci_ lnvtltb2 l
> ntl, re
Note : lnvtltb2 omitted because of collinearity
Random-effects GLS regression Number of obs = 315
Group variable: tinh Number of groups = 63
R-sq: within = 0.0045 Obs per group: min = 1
between = 0.3675 avg = 4.2 overall = 0.1577 max = 5
Wald chi2(12) = 25.24 corr(u_i, X) = 0 (assumed) Prob > chi2 = 0.0137 lnvtb Coef. Std. Err. z P>|z| [95% Conf. Interval] lnhhdv .0871828 .3141334 0.28 0.781 -.5285074 .7028731
lnvtltb .0180652 .1057439 0.17 0.864 -.1891891 .2253194
lnthpt .1271779 .6597412 0.19 0.847 -1.165891 1.420247 lnlc .5321677 .3281543 1.62 0.105 -.111003 1.175338 lnvc -.7407272 .2597115 -2.85 0.004 -1.249752 -.2317021
lnds .3572083 .8396 0.43 0.671 -1.288377 2.002794 bb .3100208 .4676919 0.66 0.507 -.6066385 1.22668 tb .1592853 .5584245 0.29 0.775 -.9352066 1.253777 nb .4647039 .5101808 0.91 0.362 -.5352321 1.46464 lndt .4020359 .390198 1.03 0.303 -.362738 1.16681 pci_ -.0111121 .0062356 -1.78 0.075 -.0233336 .0011094
lnvtltb2 0 (omitted)
lntl -1.394045 2.005429 -0.70 0.487 -5.324614 2.536523 _cons .503224 8.722427 0.06 0.954 -16.59242 17.59887 sigma_u .7209087
sigma_e 1.1743332
rho .27370874 (fraction of variance due to u_i)
Kiểm định xem các hệ số ước lượng được trong mô hình có ý nghĩa hay không?
Thực chất, kiểm định này để kiểm định rằng biến giải thích có thực sự có ảnh hưởng đến biến phụ thuộc hay không?
Giả thuyết: , với là ký hiệu của hệ số các biến giải thích.
Theo lý thuyết đưa ra nếu | | > t ( n-k, α/2 ) hoặc P-value nhỏ hơn giá trị α thì ta có quyền đưa ra kết luận rằng đủ cơ sở bác bỏ giả thuyết , và chấp nhận giả thuyết cho rằng hệ số khác 0 hay hệ số là có ý nghĩa thống kê.
Như bảng ước lượng trên chúng ta thấy, khá nhiều biến như định tính có thể có tác động đến biền phụ thuộc vốn đầu tư trung bình một dự án nhưng khi đưa vào trong mô hình xem xét nó lại trở nên không có ý nghĩa thống kê.
Lọc bỏ dần những biến có P-value lớn đi, sau một quá trình tôi thu được mô hình ước lượng chỉ còn có 5 biến là có ý nghĩa thống kê với biến phụ thuộc đưa ra, đó là: biến lnthpt, lndt, lnvc, pci, biến giả nb và hệ số chặn như kết quả bảng dưới:
Random-effects GLS regression Number of obs = 315
Group variable: tinh Number of groups = 63
R-sq: within = 0.0045 Obs per group: min = 1 Between = 0.3339 avg = 4.3 overall = 0.1416 max = 5
Wald chi2 (5) = 24.38 corr(u_i, X) = 0 (assumed) Prob > chi2 = 0.0002
lnvtb Coef. Std. Err. z P> |z| [95% Conf. Interval]
lnthpt .7542115 .255356 2.95 0.003 .2537229 1.2547 nb .7595733 .4238075 1.79 0.073 -.0710742 1.590221 lndt .6000908 .3211711 1.87 0.062 -.029393 1.229575 lnvc -.4008425 .1282495 -3.13 0.002 -.6522069 -.149478 pci_ -.0131322 .0059816 -2.20 0.028 -.024856 -.0014084 _cons -6.078449 2.435374 -2.50 0.013 -10.85169 -1.305205
sigma_u .71687161 sigma_e 1.2770645
rho .2396052 (fraction of variance due to u_i)
Kiểm định xem các hệ số ước lượng được trong mô hình có ý nghĩa hay không?
Với mức ý nghĩa α=10% cho trước, ta thấy hệ số của các biến giải thích lnthpt, nb, lndt, lnvc, pci và hệ số chặn lần lượt là 0.754, 0.76, 0.6, -0.4, -0.013, - 6.078 đều có ý nghĩa thống kê. Trong bảng cũng đã tính ra khoảng tin cậy 95%
cho hệ số các biến giải thích cho mô hình như trên.
Kiểm định xttest0:
H0 : Var (ui) =0 H1 : Var (ui) ≠0
Breusch and Pagan Lagrangian multiplier test for random effects lnvtb[tinh,t] = Xb + u[tinh] + e[tinh,t]
Estimated results:
Var sd = sqrt(Var) ---+---
lnvtb 2.37569 1.541327 e 1.630894 1.277065
U .5139049 .7168716 Test: Var(u) = 0
chibar2(01) = 4.13 Prob > chibar2 = 0.0211
Ta thấy giá trị P-value = 0.0211 => Đủ cơ sở để bác bỏ giả thuyết H0, kết luận đưa ra rằng mô hình POLS sử dụng là không thích hợp, thành phần sai số ngẫu nhiên theo không gian không phải là hằng số, nó có ảnh hưởng đến sự thay đổi của biến phụ thuộc, bởi vậy, sử dụng mô hình RE hoặc FE thích hợp hơn.
Ước lượng mô hình tác động cố định FE.
Fixed-effects (within) regression Number of obs = 315
Group variable: tinh Number of groups = 63
R-sq: within = 0.0681 Obs per group: min = 1 between = 0.0846 avg = 4.3 overall = 0.0051 Max = 5
F (4 , 195 ) = 3.56 Corr (u_i, Xb) = -0.9675 Prob > F = 0.0079
lnvtb Coef. Std. Err. t P>|t| [95% Conf. Interval]
lnthpt -5.212822 1.873023 -2.78 0.006 -8.906805 -1.518838 nb 0 (omitted)
lndt 1.362653 .7786867 1.75 0.082 -.1730758 2.898382 lnvc -1.379761 .6545785 -2.11 0.036 -2.670723 -.0887987 pci_ -.0067254 .003655 -1.68 0.093 -.0139338 .0000483 _cons 57.68576 21.14688 2.73 0.007 15.9798 99.39172
sigma_u 4.6611755 sigma_e 1.2770645
Rho .93017672 (fraction of variance due to u_i)
F test that all u_i=0: F(60, 195) = 2.26 Prob > F = 0.0000
Kiểm định Hausman xem mô hình RE hay FE phù hợp hơn?
Cạp giả thuyết: H0: X và c không có tương quan.
H1: X và c có tương quan.
---- Coefficients ----
(b) (B) (b-B) sqrt(diag(V_b-V_B)) fe . Difference S.E.
Lnthpt -5.212822 .7542115 -5.967033 1.855535 Lndt 1.362653 .6000908 .7625625 .7093674 Lnvc - 1.379761 -.4008425 -.9789186 .6418918 pci_ -.0067254 -.0131322 .0064068 .0047295
b = consistent under Ho and Ha; obtained from xtreg B = inconsistent under Ha, efficient under Ho; obtained from xtreg Test: Ho: difference in coefficients not systematic
chi2(4) = (b-B)'[(V_b-V_B)^(-1)](b-B) = 18.20
Prob>chi2 = 0.0011
Với mức ý nghĩa 5%, giá trị P-value = 0.0011 < 0.05, đủ cơ sở bác bỏ giả thuyết H0, và kết luận đưa ra, yếu tố ngẫu nhiên mang tính cá thể không quan sát được và các biến giải thích trong mô hình có tương quan với nhau, chúng ta sẽ sử dụng mô hình tác động cố định FE để ước lượng.
Như trong bảng ước lượng mô hình FE, với mức ý nghĩa 10%, mô hình FE cũng có hệ số của các biến giải thích lnthpt, lndt, lnvc, pci và hệ số chặn lằn lượt là -5.213, 1.363, -1.38, -0.0067 và 57.686 có ý nghĩa thống kê.
Trong kiểm định F bảng trên:
H0 : Tất cả các yếu tố ngẫu nhiên mang tính cá thể không quan sát được bằng 0.
H1 : Tồn tại ít nhất một yếu tố ngẫu nhiên mang tính cá thể không quan sát được khác 0.
Với F quan sát được: F (60, 195) =2.26 và giá trị P-value = 0.0000 ta đủ cơ sở bác bỏ giả thuyết H0, và chấp nhận giả thuyết H1. Như vậy, có thể cho rằng yếu tố ngẫu nhiên mang tính cá thể không quan sát đượccó tác động đến biến phụ thuộc lnvtb, với mức ý nghĩa 5%.
Mô hình tạm thời thu được có dạng:
( Std) (1.873) (0.779) (0.655) (0.0037) (21.147)
(P-value) (0.006) (0.0082) (0.036) (0.093) (0.007)
3.4.2. Kiểm định
Kiểm định chung về dạng hàm sai:
Cặp giả thuyết:
Sử dụng thống kê Fisher, với giá trị F quan sát được tính như sau:
Miền bác bỏ giả thuyết đó là hoặc giá trị P-value của thống kê F là nhỏ hơn mức ý nghĩa α cho trước.
Như trong bảng ước lượng trên, thông số ta nhận được giá trị F quan sát bằng F (4 , 195 ) = 3.56 và P-value = 0.0079, như vậy với mức ý nghĩa 5%, ta đủ cơ sở bác bỏ giả thuyết H0 và chấp nhận giả thuyết H1 cho rằng mô hình hiện tại là phù hợp.
Kiểm định mô hình về vấn đề phương sai sai số thay đổi.
Phát hiện mô hình có hiện tượng phương sai số thay đổi hay không?
Cặp giả thuyết: H0 : Phương sai sai số trong mô hình không đổi.
H1 : Phương sai sai số trong mô hình thay đổi.
Kiểm định xttest3:
Modified Wald test for groupwise heteroskedasticity in fixed effect regression model
H0: sigma(i)^2 = sigma^2 for all i
chi2 (61) = 6435.28 Prob>chi2 = 0.0000
Với kết quả nhận đượ P-value = 0.0000, là cơ sở bác bỏ giả thuyết H0 rất chắc chắn để ủng hộ chấp nhận gải thuyết H1 , cho thấy mô hình của chúng ta hiện tại đang xảy ra hiện tượng phương sai sai số thay đổi.
Hậu quả của phương sai sai số thay đổi gây ra trong mô hình:
1. Ước lượng các hệ số trong mô hình không còn là ước lượng tốt nhất, dù nó vẫn là ước lượng không chệch, nhưng không hiệu quả.
2. Phương sai của các ước lượng sẽ chệch.
3. Khoảng tin cậy và các kết luận kiểm định giả thuyết về các giả thuyết thống kê về các hệ số hồi quy không còn giá trị tin cậy để sử dụng.
4. Kiểm định T và F mất hiệu lực.
Chính vì hiện tượng phương sai sai số thay đổi trong mô hình gây nên nhiều hậu quả nghiêm trọng như vậy nên chúng ta cần phải đưa ra biện pháp khắc phục chúng.
Hiệu chỉnh lại khắc phục vấn đề phương sai sai số (PSSS) thay đổi.
Fixed-effects (within) regression Number of obs = 315 Group variable: tinh Number of groups = 63 R-sq: within = 0.0681 Obs per group: min = 1 Between = 0.0846 avg = 4.3 overall = 0.0051 max = 5 F (4,60) = 2.88 Corr (u_i, Xb) = -0.9675 Prob > F = 0.0299
(Std. Err. adjusted for 63 clusters in tinh) Robust
lnvtb Coef. Std. Err. t P > |t| [95% Conf. Interval]
lnthpt -5.212822 1.818829 -2.87 0.006 -8.851022 -1.574621 nb 0 (omitted)
lndt 1.362653 .7709993 1.77 0.082 -.1795749 2.904882 lnvc -1.379761 .6231026 -2.21 0.031 -2.626152 -.1333702 pci_ -.0067254 .003925 -1.71 0.088 -.0145766 .0011258
_cons 57.68576 20.14224 2.86 0.006 17.39528 97.97623 sigma_u 4.6611755
sigma_e 1.2770645
rho .93017672 (fraction of variance due to u_i)
Kiểm định mô hình xem có hiện tượng đa cộng tuyến hoàn hảo không.
Sau đây, chúng ta quan tâm đến hiện tượng đa cộng tuyến trong mô hình hồi quy, tức là xem xét mối quan hệ tuyến tính giữa các biến độc lập trong mô hình hồi quy chứ không phải qua tâm đến biến phụ thuộc trong mô hình.
Chúng ta sẽ tiếp tục sử dụng công cụ Stata để kiểm tra hiện tượng này trong mô hình:
regres lnvtb lnthpt lnvc lndt lnpci nb
Source SS df MS Number of obs = 260
F( 5, 254) = 7.59 Model 79.9933487 5 15.9986697 Prob > F = 0.0000 Residual 535.310293 254 2.10752084 R-squared = 0.1300 Adj R-squared = 0.1129 Total 615.303642 259 2.37568974 Root MSE = 1.4517
lnvtb Coef. Std. Err. t P> |t| [95% Conf. Interval]
lnthpt .7902987 .1934715 4.08 0.000 .4092862 1.171311
lnvc -.4263421 .0945025 -4.51 0.000 -.6124503 -.2402338
lndt .3990762 .2499878 1.60 0.112 -.0932367 .8913892
lnpci -.1923452 .1037919 -1.85 0.065 -.3967475 .012057
nb .809216 .296501 2.73 0.007 .2253025 1.39313
_cons -5.627352 1.777925 -3.17 0.002 -9.128704 -2.125999
. vif
Variable VIF 1/VIF
lnthpt 1.59 0.629108
lnvc 1.54 0.648572
lndt 1.18 0.848299
nb 1.11 0.903324
lnpci 1.10 0.906047
Mean VIF 1.30
Theo lý thuyết hiện tượng đa cộng tuyến, chúng ta có thể thực hiện kiểm tra bằng cách sử dụng nhân tố phóng đại phương sai (variance inflation factor), viết tắt là VIF. Quy tắc kinh nghiệm nêu lên rằng, một biến có giá trị VIF lớn hơn 10 cần được đánh giá lại một cách kỹ càng hơn. Giá trị nghịch đảo của VIF là 1/VIF được gọi là chỉ số Tolerance được sử dụng để đánh giá mức độ cộng tuyến, đối với mỗi biến giải thích nó cho biết phần thay đổi của biến không được giải thích bởi các biến giải thích khác. Chỉ số Tolerance cho thấy một mối quan hệ chặt giữa các biến.
Trong bảng ước lượng trên, ta thấy, giá trị VIF hay chỉ số tolerance (1/VIF) của các biến giải thích trong mô hình là đều khá tốt, và có thể kết luận không có hiện tượng đa cộng tuyến giữa các biến giải thích trong mô hình.
Kiểm định mô hình về vấn đề có tự tương quan.
Xem xét tự tương bậc nhất, AR(1), tức là:
Hậu quả khi có tự tương quan:
1. Vẫn là ước lượng không chệch.
2. Phương sai ước lượng của các hệ số thường bị chệch.
3. Các kiểm định T, F không đáng tin cậy.
4. Ước lượng phương sai cũng là ước lượng chệch.
Sau đây, chúng ta xem xét kiểm định mô hình của Stata về vấn đề tự tương quan.
xtserial lnvtb lnthpt nb lndt lnvc pci_
Wooldridge test for autocorrelation in panel data H0 : no first - order autocorrelation
F ( 1 , 45) = 1.146 Prob > F = 0.2902
Kiểm định giá trị P-value cho thấy không có dấu hiệu của tự tương quan bậc một trong mô hình.
3.5. Phân tích mô hình
Sau quá trình phân tích và hiệu chỉnh phía trên đây, mô hình hồi quy cuối cùng có dạng như sau:
(Std) (1.8188) (0.771) (0.6231) (0.0039) (20.1422)
(P-value) (0.006) (0.082) (0.031) (0.088) (0.006)
Từ kết quả mô hình hồi quy trên, có thể nêu lên một số kết quả như sau:
Trong giai đoạn 5 năm 2009-2013, tại các tỉnh, thành phố trên cả nước, có thể nói lượng vốn đầu tư trung bình trên một dự án ảnh hưởng bởi một số nhân tố như: số học sinh trung học phổ thông trên địa bàn tỉnh, tỷ lệ lao động từ 15 tuổi trở lên đang làm việc trong nền kinh tế đã qua đào tạo, khối lượng vận chuyển bằng đường bộ, và xếp hạng chỉ số năng lực cạnh tranh cấp tỉnh PCI của mỗi tỉnh, thành phố. Nhận thấy rằng, kết quả hồi quy thu được là khá hợp lý, 2 nhân tố số học sinh trung học phổ thông trên địa bàn tỉnh và tỷ lệ lao động từ 15 tuổi trở lên đang làm việc trong nền kinh tế đã qua đào tạo là đại diện phản ánh lên phần nào chất lượng nguồn lao động trong địa phương đó, nhân tố khối lượng vận chuyển bằng đường bộ phản ảnh được vật chất cơ sở hạ tầng của địa phương, còn chỉ tiêu chỉ số năng lực cạnh tranh cấp tỉnh PCI, nó như một cái nhìn tổng quát đánh giá chung về địa phương đó. Tóm lại, đúng như dự đoán ban đầu, các nhân tố này đều có ảnh hưởng đáng kể đến chủ điểm quan tâm vốn đầu tư trung bình trên một dự án vào mỗi địa phương của chúng ta.
Tiếp đến cùng xem xét đến kỳ vọng dấu của các hệ số mỗi biến giải thích.
So với kỳ vọng dấu ban đầu thì có về số học sinh trung học phổ thông trên địa bàn tỉnh và khối lượng vận chuyển bằng đường bộ là có dấu ngược với kỳ vọng ban đầu, còn biến tỷ lệ lao động từ 15 tuổi trở lên đang làm việc trong nền kinh tế đã qua đào tạo và xếp hạng chỉ số năng lực cạnh tranh cấp tỉnh PCI đã đúng như
kỳ vọng. Có thể lý giải về kết quả nhận được có dấu ngược so với kỳ vọng ban đầu của tôi như sau:……….
Với bảng ước lượng hồi quy, ý nghĩa của các con số mang lại…
( nêu ý nghĩa của ước lượng điểm cà khaorng tin cậy 95% của chúng).