Tên biến Ý nghĩa Dấu kìvọng Diễn giải Biến phụ thuộcY lương hiện tại Các biến độc Mức lương khởi đầu cao dẫn đến mức lương hiện tại cao Càng nhiều năm kinh nghiệm lương càng cao thông bi
Trang 1BÁO CÁO KINH TẾ LƯỢNG
NHÓM 3- THỰC HIỆN NGHIÊN CỨU BỘ DỮ LIỆU SỐ 30 - 78
Trang 2MỤC LỤC
2
Trang 3Lời mở đầu
Trong bối cảnh xã hội đang ngày càng phát triển, kinh tế lượng đã và đang là một môn khoa học
có nhiều ứng dụng trong thực tế, đặc biệt là các vấn đề liên quan đến kinh tế Kinh tế lượng cung cấp những công cụ đắc lực giúp các nhà kinh tế học có thể phân tích các số liệu thống kê được thu thập từ đó đưa ra các dự báo về các hiện tượng kinh tế.
Xét trên phạm vi các trường đại học thuộc khối ngành kinh tế, bộ môn kinh tế lượng đang trở thành một trong số những bộ môn quan trọng cung cấp những kiến thức về lý thuyết và thực hành giúp cho sinh viên có thể học tập và nghiên cứu những chuyên ngành hẹp của mình Là những sinh viên khối ngành kinh tế, chúng em ý thức rõ được sự cần thiết trong việc học tập và nghiên cứu môn kinh tế lượng
Để hiểu rõ hơn, nhóm chúng em xin được xây dựng bài Báo cáo kinh tế lượng phân tích những số liệu thống kê nằm trong bộ số liệu số 30 về tiền lương và bộ số liệu số 78 về chi tiêu hộ gia đình nhằm đưa ra những phân tích và những dự báo của các yếu tố ảnh hưởng đến hai vấn đề kinh tế này.
Chúng em xin chân thành cảm ơn cô Đinh Thị Thanh Bình đã giúp đỡ chúng em thực hiện bài báo cáo này Do kiến thức còn nhiều hạn chế nên bài báo cáo còn nhiều sai sót, chúng em mong nhận được sự góp
ý và phê bình của cô để bài báo cáo của nhóm chúng em hoàn thiện hơn.
Trang 4Bộ số 30
I Mô hình lý thuyết:
1 Vấn đề nghiên cứu và mô hình lý thuyết:
Trong bối cảnh nền kinh tế đang trong giai đoạn phục hồi, chúng ta đang có nhiều hơn những cơ hội tìm được việc làm Đi cùng với đó, mức lương là một vấn đề đang được những người có mong muốn tìm được việc làm quan tâm tới Có rất nhiều yếu tố sẽ tác động đến mức lương cũng mỗi người Trong bộ số liệu số 30, nhóm đã chọn ra những biến sau để nghiên cứu bao gồm:
des lwage lswage exper highgrad college grad polytech
storage display value
variable name type format label variable label
-
-lwage float %9.0g log(wage)
lswage float %9.0g log(swage)
exper byte %8.0g years on current job
highgrad byte %8.0g =1 if high school graduate
college byte %8.0g =1 if college graduate
grad byte %8.0g =1 if some graduate school
polytech byte %8.0g =1 if a polytech
Các biến sẽ được mô tả chi tiết trong bảng sau:
4
Trang 5Tên biến Ý nghĩa Dấu kì
vọng Diễn giải
Biến phụ
thuộc(Y)
lương hiện tại
Các biến độc
Mức lương khởi đầu cao dẫn đến mức lương hiện tại cao
Càng nhiều năm kinh nghiệm lương càng cao
thông (biến giả =1 nếu chỉ tốt nghiệp phổ thông,=0 với các trường hợp còn lại)
+
Tốt nghiệp trung học sẽ có mức lương cao hơn những người chưa tốt nghiệp trung học
=1 nếu tốt nghiệp đại học,=0 với các trường hợp còn lại)
+
Tốt nghiệp đại học sẽ có mức lương cao hơn những người chưa tốt nghiệp trung học
giả, =1 nếu tốt nghiệp cao học, =0 với các trường hợp còn lại)
+
Tốt nghiệp cao học sẽ có mức lương cao hơn những người chưa tốt nghiệp trung học
giả, =1 nếu tốt nghiệp cao đẳng,=0 với các trường hợp còn lại)
+
Tốt nghiệp cao đẳng sẽ có mức lương cao hơn những người chưa tốt nghiệp trung học
Trang 6summarize lwage lswage exper highgrad college grad polytech
Variable | Obs Mean Std Dev Min Max
lwage | 403 10.36319 .4018362 9.674074 11.54974 lswage | 403 9.678186 .3551116 9.185022 11.0021 exper | 403 13.51365 1.751101 6 17
highgrad | 403 .4119107 .4927909 0 1
college | 403 .1191067 .3243167 0 1
grad | 403 .1191067 .3243167 0 1
polytech | 403 .2704715 .4447555 0 1
2 Mục đích và lý do lựa chọn các biến:
Mục đích của việc lựa chọn mô hình này nhằm tìm hiểu sự tác động của mức lương khởi đầu, số năm kinh nghiệm đối với mức lương hiện tại cùng với việc tìm hiểu sự khác nhau trong mức lương của những người đã tốt nghiệp cấp 3 và cao hơn với những người chưa tốt nghiệp cấp 3.
Vì trong thực tế, mối quan hệ giữa các hiện tượng kinh tế hầu hết là mối quan hệ phi tuyến Do đó, nhóm
đã lựa chọn sử dụng hàm log thay cho việc sử dụng hàm tuyến tính để kết quả phân tích có thể chính xác hơn.
3 Mối quan hệ từng biến độc lập với biến phụ thuộc:
6
Trang 7years on current job
Mối quan hệ giữa lwage và lswage
Mối quan hệ giữa lwage và exper
Trang 10
II Chạy mô hình:
Mô hình hồi quy:
Hàm hồi quy Tổng thể:
Hàm hồi quy Mẫu
reg lwage lswage exper highgrad college grad polytech
Source | SS df MS Number of obs = 403
Trang 11Ta được hàm hồi quy mẫu SRF:
- Phân tích kết quả hồi quy:
lương hiện tại wage sẽ tăng 0.8330333%
lương hiện tại wage sẽ tăng 0.015%
của biến wage
hơn người chưa tốt nghiệp trung học 0,245%
người chưa tốt nghiệp trung học 0,247%
chưa tốt nghiệp trung học 0,128%
yếu tố đó thì lương sẽ tăng thêm 0,0199%
Trang 12III Kiểm định mô hình:
1 Ý nghĩa của hệ số hồi quy
Trang 133 Kiểm định đa ràng buộc tuyến tính:
Trong kiểm định ta thấy chỉ có biến highgrad có thể bị loại ra khỏi mô hình nhưng đây là một biến thể hiện 1 trong các phạm trù của biến thể hiển trình độ học vấn Ta tiến hành chạy mô hình bị ràng buộc với
q= 4 biến độc lập highgrad, grad, college, polytech bị loại khỏi mô hình trên, tức là chỉ chạy lênh hồi quy với biến độc lập lswage, exper
reg lwage lswage exper
Source | SS df MS Number of obs = 403
-+ - F( 2, 400) = 843.08
Trang 14Từ 2 bảng hồi quy trên ta có:
(UR) gồm 6 tham số, cóR-squared=0.8252;, n-k-1 = 403-6-1=396 bậc tự do.
Trang 154 Kiểm tra các khuyết tật của mô hình :
a Kiểm định đa cộng tuyến:
Mô hình tốt là mô hình phải đạt được các tính chất BLUE (tuyến tính, không chệch, hiệu quả nhất) Tuy nhiên trên thực tế do xây dựng sai mô hình hoặc do bản chất của dữ liệu, dẫn tới mô hình không đạt được đầy đủ các tính chất trên Một trong những vấn đề ảnh hưởng đến mô hình mà ta gọi là vi phạm các giả định, đó là Đa cộng tuyến.
Bây giờ chúng ta sẽ khảo sát mô hình có bị đa cộng tuyến hay không.
Cách 1: Tương quan cao giữa các biến:
Nếu các biến có tương quan cao với nhau (r > 0.8) thì có thể xảy ra đa cộng tuyến.
Sử dụng Stata để tính hệ số tương quan giữa các biến:
corr lswage exper highgrad college grad polytech
Trang 16Ta thấy VIF đều tương đối nhỏ, như vậy có cơ sở để kết luận mô hình không có đa cộng tuyến.
Như vậy cả 2 cách kiểm định đều cho cùng một kết luận: mô hình không có đa cộng tuyến.
b Kiểm định phương sai sai số thay đổi:
Một vấn đề khác mà mô hình cũng có thể gặp phải, đó là phương sai của sai số thay đổi Điều này không ảnh hưởng đến tính không chệch, nhưng làm cho mô hình kém hiệu quả hơn.
Bây giờ ta cùng kiểm định xem có xảy ra hiện tượng phương sai sai số thay đổi trong mô hình không.
Trang 17Cặp giả thiết:
Sử dụng lệnh imtest, white trong Stata để kiểm định:
imtest,white
White's test for Ho: homoskedasticity
against Ha: unrestricted heteroskedasticity
Trang 18c Kiểm định phân phối chuẩn của sai số:
chuẩn nữa Phân phối không chuẩn khiến cho các kiểm định và suy diễn thống kê không còn đáng tin cậy nữa.
Bây giờ ta cùng kiểm định xem mô hình có gặp phải vấn đề phân phối không chuẩn (đối với u và cả biến phụ thuộc) hay không.
kernel = epanechnikov, bandwidth = 0.0435
Kernel density estimate
Nhìn trên đồ thị có thể thấy phân phối của phần dư bị chệch so với phân phối chuẩn Như vậy có cơ sở để kết luận mô hình đang mắc phải vấn đề phân phối không chuẩn.
Trang 19Như vậy 2 kiểm định đều cho thấy có dấu hiệu phần dư phân phối không chuẩn trong mô hình.
d Kiểm định tự tương quan:
Do dữ liệu trong mô hình là dữ liệu chéo nên không xảy ra tự tương quan Chúng ta có thể bỏ qua bước kiểm định này.
e Kiểm định định dạng mô hình:
Sử dụng lệnh ovtest trong stata:
ovtest
Ramsey RESET test using powers of the fitted values of lwage
Ho: model has no omitted variables
F(3, 393) = 2.62
Prob > F = 0.0507
Định dạng hàm đúng
Trang 20IV Sửa lỗi mô hình:
Vì biến highgrad không có ảnh hưởng đến lương hiện tại nhưng lại là một phạm trù của biến giả nên ta sửa bằng cách gộp biến highgrad và highdrop thành biến high có ý nghĩa là trình độ học vấn dưới trình độ đại học
Chạy lại mô hình ta được:
gen high= highgrad+ highdrop
reg lwage lswage exper college grad polytech
Source | SS df MS Number of obs = 403
Trang 22BỘ SỐ 78
I Mô hình lý thuyết:
1 Vấn đề nghiên cứu và mô hình lý thuyết:
Trong thực tế, việc chi tiêu trong hộ gia đình chịu sự chi phối tác động của nhiều yếu tố trong đó có
thể kể đến như mức thu nhập, số thành viên trong gia đình, tuổi của chủ hộ,… Trong phạm vi nghiên cứu
của mô hình này, nhà nghiên cứu đã xem xét và thu thập số liệu của 7 biến số Tuy nhiên, trong quá trình nghiên cứu, nhóm đã loại bỏ biến save (tiết kiệm) không đưa vào mô hình và chỉ đưa các biến sau đây
Mô tả ý nghĩa các biến :
des cons inc size educ age black
storage display value
variable name type format label variable label
-cons int %9.0g annual -consumption, $
inc int %9.0g annual income, $
size byte %9.0g family size
educ byte %9.0g years educ, household head
age byte %9.0g age of household head
black byte %9.0g =1 if household head is black
Các biến sẽ được mô tả chi tiết trong bảng sau:
22
Trang 23Tên biến Ý nghĩa Dấu kì
- Tuổi càng cao thì chi
tiêu sẽ ít đi educ Trình độ học vấn của
-Người có trình độ học vấn cao sẽ chi tiêu ít hơn
(biến giả, bằng 1 nếu chủ hộ da màu, bằng 0 nếu chủ hộ không phải
da màu)
-Người da màu có xu hướng chi tiêu ít hơn
2 Mối quan hệ từng biến độc lập với biến phụ thuộc:
Trang 24Mối quan hệ giữa cons và inc
Mối quan hệ giữa cons và size
Trang 25years educ, household head
Mối quan hệ giữa cons và age
Trang 26Mối quan hệ giữa age và cons
Mối quan hệ giữa black và cons
Trang 27II Chạy mô hình:
Mô hình hồi quy:
Hàm hồi quy Tổng thể:
Hàm hồi quy Mẫu
reg cons inc size educ age black
Source | SS df MS Number of obs = 100
Trang 28-Ta được hàm hồi quy mẫu SRF:
=1605.416+0.890545*inc–67.66119*size–151.8235*educ–0.2857217*age– 518.3934*black
- Phân tích kết quả hồi quy:
năm của hộ gia đình sẽ giảm $67.66119.
biến động của biến phụ thuộc cons.
28
Trang 29III Kiểm định mô hình:
1 Ý nghĩa của hệ số hồi quy:
Trang 303 Kiểm định đa ràng buộc tuyến tính:
Ta tiến hành chạy mô hình bị ràng buộc với q= 4 biến độc lập size, educ, age, black bị loại khỏi mô hình trên, tức là chỉ chạy lênh hồi quy với biến độc lập inc.
reg cons inc
Source | SS df MS Number of obs = 100
-+ - F( 1, 98) = 219.89
Model | 2.2480e+09 1 2.2480e+09 Prob > F = 0.0000
Residual | 1.0019e+09 98 10223460.8 R-squared = 0.6917
Trang 31(UR) gồm 5 tham số, có SSR = 979841351; R = 0.6985, n-k-1 = 100-5-1=94 bậc tự do.
Nên chỉ biến inc là không thể loại khỏi mô hình, còn các biến còn lại có thể loại khỏi mô hình.
4 Kiểm tra các khuyết tật của mô hình :
a Kiểm định đa cộng tuyến:
Mô hình tốt là mô hình phải đạt được các tính chất BLUE (tuyến tính, không chệch, hiệu quả nhất) Tuy nhiên trên thực tế do xây dựng sai mô hình hoặc do bản chất của dữ liệu, dẫn tới mô hình không đạt được đầy đủ các tính chất trên Một trong những vấn đề ảnh hưởng đến mô hình mà ta gọi là vi phạm các giả định, đó là Đa cộng tuyến.
Bây giờ chúng ta cùng khảo sát xem, mô hình có bị đa cộng tuyến hay không.
Cách 1: Tương quan cao giữa các biến:
Nếu các biến có tương quan cao với nhau (r > 0.8) thì có thể xảy ra đa cộng tuyến.
Sử dụng Stata để tính hệ số tương quan giữa các biến:
corr inc size educ age black
Trang 32Ta thấy VIF đều tương đối nhỏ, như vậy có cơ sở để kết luận mô hình không có đa cộng tuyến.
Như vậy cả 2 cách kiểm định đều cho cùng một kết luận: mô hình không có đa cộng tuyến.
b Kiểm định phân phối chuẩn của sai số:
chuẩn nữa Phân phối không chuẩn khiến cho các kiểm định và suy diễn thống kê không còn đáng tin cậy nữa.
Bây giờ ta cùng kiểm định xem mô hình có gặp phải vấn đề phân phối không chuẩn (đối với u và cả biến phụ thuộc) hay không.
Cách 1: Sử dụng đồ thị:
Sử dụng Stata và vẽ đồ thị phân phối của phần dư trong mô hình:
32
Trang 33kernel = epanechnikov, bandwidth = 435.3461
Kernel density estimate
Nhìn trên đồ thị có thể thấy phân phối của phần dư bị chệch so với phân phối chuẩn Như vậy có cơ sở
để kết luận mô hình đang mắc phải vấn đề phân phối không chuẩn.
Như vậy 2 kiểm định đều cho thấy có dấu hiệu phần dư phân phối không chuẩn trong mô hình.
c Kiểm định phương sai sai số thay đổi:
Một vấn đề khác mà mô hình cũng có thể gặp phải, đó là phương sai của sai số thay đổi Điều này không ảnh hưởng đến tính không chệch, nhưng làm cho mô hình kém hiệu quả hơn.
Bây giờ ta cùng kiểm định xem có xảy ra hiện tượng phương sai sai số thay đổi trong mô hình không.
Trang 34White's test for Ho: homoskedasticity
against Ha: unrestricted heteroskedasticity
chi2(19) = 14.01
Prob > chi2 = 0.7833
Cameron & Trivedi's decomposition of IM-test
34
Trang 35-Từ 2 cách kiểm định trên, ta thấy rằng mô hình không mắc lỗi phương sai sai số thay đổi.
d Kiểm định tự tương quan:
Do dữ liệu trong mô hình là dữ liệu chéo nên không xảy ra tự tương quan Chúng ta có thể bỏ qua bước kiểm định này.
e Kiểm định định dạng mô hình:
Sử dụng lệnh ovtest trong stata:
ovtest
Ramsey RESET test using powers of the fitted values of cons
Ho: model has no omitted variables
F(3, 91) = 0.84
Prob > F = 0.4768
Định dạng hàm đúng
Trang 36IV Sửa lỗi mô hình:
Từ việc kiểm định trên, ta thấy có nhiều biến không có ý nghĩa thống kê trong mô hình Ta sẽ tiến hành chạy lại mô hình mới như sau
reg cons inc
Source | SS df MS Number of obs = 100
-+ - F( 1, 98) = 219.89
Model | 2.2480e+09 1 2.2480e+09 Prob > F = 0.0000
Residual | 1.0019e+09 98 10223460.8 R-squared = 0.6917
36