Bài tập nhóm Kinh tế Lượng - Phân tích dữ liệu từ nguồn dữ liệu chuẩn
Trang 1TRƯỜNG ĐẠI HỌC CẦN THƠ KHOA KINH TẾ-QUẢN TRỊ KINH DOANH
BÀI TẬP NHÓM MÔN KINH TẾ LƯỢNG
- -PHÂN TÍCH CÁC NHÂN TỐ ẢNH HƯỞNG ĐẾN GIÁ TÁO ĐƯỢC GẮN NHÃN SINH THÁI - DỮ LIỆU TỪ NGHIÊN CỨU NGƯỜI
TIÊU DÙNG CỦA WOOLDRIDGE
Nhóm học phần: 04, sáng thứ 6, tiết 1, 2, 3.
Nhóm thực hiện: 03.
Trang 2I PHẦN MỞ ĐẦU
a Mục tiêu nghiên cứu
Trong khuôn khổ bài làm, nhóm đặt ra mục tiêu sẽ cố gắng giải thích sự tác động của các yếu tố năng suất táo được gắn nhãn sinh thái, năng suất và giá táo thông thường, cùng với việc giới tính của người trực tiếp mua táo sẽ ảnh hưởng như thế nào đến giá táo được gắn nhãn sinh thái
b Cơ sở lý thuyết
Giá của hàng hóa thay thế: Hàng hóa thay thế thường là những loại
hang hóa thỏa mãn cùng một nhu cầu (nhưng có thể mức độ thỏa mãn
là khác nhau) nên người tiêu dùng có thể chọn hàng hóa này thay cho hàng hóa kia khi giá của chúng thay đổi Số cầu của một loại hàng hóa nào đó sẽ giảm (tăng) đi khi giá của (các) hàng hóa thay thế của nó giảm (tăng), các yếu tố khác không đổi.1
Sản lượng hàng hóa thay thế: Tương tự như giá của hàng hóa thay thế,
sản lượng hàng hóa thay thế cũng sẽ biến động cùng chiều với giá hàng hóa thay thế và đường cầu đối với hàng hóa nào đó sẽ dịch chuyển sang phải khi giá và sản lượng của của hàng hóa thay thế của nó tăng lên và ngược lại (theo lý thuyết về sự dịch chuyển của đường cầu)
Sản lượng của hàng hóa chính: Khi sản lượng một loại hàng hóa là dư
thừa, giá của hàng hóa đó có xu hướng giảm do nhu cầu của thị trường không đủ để đáp ứng sức cung của hàng hóa đó
Giới tính của người trực tiếp ra quyết định mua: Thông thường, việc
mua sắm các loại thực phẩm thường là vai trò của người phụ nữ Nam giới khi ra quyết định mua thường sẽ ít khi cân nhắc đến chủng loại táo hoặc giá cả so với phụ nữ Họ chỉ cần cảm thấy thực phẩm đó sử dụng tốt thì họ sẵn lòng mua
Dự kiến tác động của các biến số giải thích lên biến phụ thuộc:
Tên biến Giải thích biến Đơn vị tính Dấu kỳ vọng
ecolbs Giá táo được gắn nhãn sinh thái Pounds
-male Giới tính của người trực tiếp mua Người
-Chú thích: +: tác động cùng chiều
-: tác động ngược chiều
c Mô tả số liệu
1 Kinh tế học vi mô, lý thuyết và thực tiễn kinh doanh Lê Khương Ninh, 2008.
Trang 3Bộ số liệu được download từ trang web: http://fmwww.bc.edu/ec-p/data/ wooldridge/datasets.list.html Đây là những số liệu được khảo sát qua điện thoại nhằm cố gắng gợi ra những nhu cầu cho một loại táo “thân thiện với môi trường” (giả định) Mỗi gia đình (được chọn ngẫu nhiên) sẽ đưa ra một tập hợp giá cho loại táo bình thường và táo được gắn nhãn sinh thái Ngoài ra, họ còn được hỏi là sẽ mua 2 loại táo này với số lượng bao nhiêu (pounds)2
Tổng quan về số liệu: số liệu gồm 660 quan sát, trong đó mỗi quan sát được lựa chọn ngẫu nhiên và sử dụng hình thức phỏng vấn qua điện thoại để thu thập thông tin
Đặc điểm của số liệu:
biến
Đơn vị tính Trung bình Độ lệch chuẩn
Giá táo được gắn
nhãn kinh tế
Biến phụ thuộc
Đơn vị
Giá táo thông
thường Biếnđộc lập Đơn vịtiền 1.0815 0.2956
Sản lượng táo
thông thường Biếnđộc lập Pounds 1.2823 2.9098
Sản lượng táo được
gắn nhãn sinh thái
Biến
Giới tính của người
trực tiếp ra quyết
định mua
Biến giả Người Đây là biến giả, nhân giá trị bằng 0nếu giới tính là nữ và 1 nếu giới
tính là nam Qua bảng trên ta thấy, giá táo thông thường có số trung bình và độ lệch chuẩn cao hơn giá táo được gắn nhãn sinh thái, tuy nhiên, sự chênh lệch là không quá lớn Điều này cho thấy nhận thức tiêu dùng của người sử dụng thực phẩm, rau quả tươi đã có bước phát triển, hàng hóa thân thiện với môi trường đang dần có chỗ đứng nhất định Mặt khác, sản lượng táo thông thường và sản lượng táo được gắn nhãn sinh thái cũng có mức chênh lệch không cao về giá trị trung bình và độ lệch chuẩn, cho thấy mức sẵn lòng mua của 2 loại táo này
là gần như nhau, điều đó cho thấy chủng loại táo được gắn nhãn sinh thái đang dần trở nên phổ biến đối với người sử dụng, táo sinh thái đã không còn là một thương hiệu xa vời mà đã đến gần với người tiêu dùng
2 Introductory Econometrics: A Modern Approach, Fifth Edition, Jeffrey M Wooldridge, 2012.
Trang 2
Trang 4II NỘI DUNG PHÂN TÍCH
a Xây dựng hàm hồi quy
Trong khuôn khổ bài viết, nhóm chọn hàm hồi quy có dạng hàm tuyến tính đối với tham số
Dạng tổng quát:
Y = β0 + β1X1 + β2X2 + β3X3 + β4 X4 +e
Trong đó: Y: biến phụ thuộc
β0: Hệ số tự do của mô hình
β1, β2, β3, β4: Các hệ số hồi quy của mô hình
X1, X2, X3, X4: Lần lượt là các biến độc lập của mô hình e: Sai số của mô hình
b Phân tích và lựa chọn mô hình phù hợp
Mô hình 1: biến phụ thuộc được giải thích bởi các biến độc lập đơn thuần
Ecoprc = β0 + β1regprc + β2reglbs + β3ecolbs + β4male + e
Kết quả hồi quy:
_cons 2202641 .024506 8.99 0.000 1721442 268384 male -.0395003 .0142619 -2.77 0.006 -.0675048 -.0114957 ecolbs -.0121869 .0025172 -4.84 0.000 -.0171297 -.0072441 reglbs 0012987 .0021899 0.59 0.553 -.0030014 .0055988 regprc 1.005863 .0257025 39.13 0.000 9553939 1.056333 ecoprc Coef Std Err t P>|t| [95% Conf Interval] Total 57.5724876 659 087363411 Root MSE = 16103 Adj R-squared = 0.7032 Residual 16.9847238 655 025930876 R-squared = 0.7050 Model 40.5877638 4 10.146941 Prob > F = 0.0000 F( 4, 655) = 391.31 Source SS df MS Number of obs = 660 reg ecoprc regprc reglbs ecolbs male
Từ kết quả hồi quy ta thấy, các biến regprc, ecolbs, male lần lượt có p-value là 0.000 < α = 1%, 0.000 < α = 1%, 0.006 < α = 1% => bác bỏ giả thuyết
H0: β1 = 0, β3= 0, β4 = 0, vì thế nên các biến này có ý nghĩa ở mức ý nghĩa α = 1% Riêng biến reglbs có p-value là 0.553 > α = 10% => chưa đủ cơ sở để kết luận biến này có ý nghĩa ở mức α = 10%
Kiểm định bỏ sót biến:
Prob > F = 0.3678
F(3, 652) = 1.05
Ho: model has no omitted variables
Ramsey RESET test using powers of the fitted values of ecoprc ovtest
Trang 5Ta có, giá trị p-value từ kiểm định RESET của Ramsey là 0.3678 > α
= 10% =>chấp nhận giả thuyết H0, điều này có nghĩa là mô hình không bỏ sót biến
Kiểm định phương sai sai số thay đổi:
Total 188.43 18 0.0000
Kurtosis 118.82 1 0.0000
Skewness 20.35 4 0.0004
Heteroskedasticity 49.27 13 0.0000
Source chi2 df p
Cameron & Trivedi's decomposition of IM-test
Prob > chi2 = 0.0000
chi2(13) = 49.27
against Ha: unrestricted heteroskedasticity
White's test for Ho: homoskedasticity
imtest, white
Giá trị p-value từ kiểm định White là 0.000 < α = 1% => bác bỏ giả thuyết H0, vì vậy mô hình mắc phải lỗi phương sai sai số thay đổi
Kiểm định tự tương quan:
delta: 1 unit
time variable: t, 1 to 660
tsset t
g t=_n
H0: no serial correlation
5 5.217 5 0.3900
4 4.520 4 0.3402
3 3.330 3 0.3435
2 2.040 2 0.3606
1 2.025 1 0.1547
lags(p) chi2 df Prob > chi2
Durbin's alternative test for autocorrelation
estat durbinalt, lag (1 2 3 4 5)
Ta có giá trị p-value tương ứng với bậc 1 của kiểm định Durbin – Watson là 0.1547 > α = 10% => chấp nhận giả thuyết H0, mô hình không có tự tương quan bậc 1
Kiểm đinh đa cộng tuyến:
Trang 4
Mean VIF 1.02
male 1.00 0.998690
regprc 1.00 0.996628
ecolbs 1.03 0.973407
reglbs 1.03 0.969032
Variable VIF 1/VIF
vif
Trang 6Ta có các giá trị nhân tố phóng đại phương sai VIF của các biến đều nhỏ hơn 10 nên theo Gujarati thì mô hình không bị lỗi đa cộng tuyến
Mô hình 2: logarit hóa 4 biến là ecoprc, regprc, reglbs và ecolbs
lnecoprc = β0 + β1lnregprc + β2lnreglbs + β3lnecolbs + β4male + e
Kết quả hồi quy:
_cons 1682669 .0242386 6.94 0.000 1201599 .2163739 male -.0963851 .0401309 -2.40 0.018 -.1760338 -.0167364 lnecolbs -.0237123 .0405231 -0.59 0.560 -.1041395 .0567149 lnreglbs 0285997 .038431 0.74 0.459 -.0476752 .1048745 lnregprc 7790089 .0632303 12.32 0.000 6535142 .9045036 lnecoprc Coef Std Err t P>|t| [95% Conf Interval] Total 7.9171415 101 .07838754 Root MSE = 17382 Adj R-squared = 0.6146 Residual 2.93057044 97 030212066 R-squared = 0.6298 Model 4.98657106 4 1.24664276 Prob > F = 0.0000 F( 4, 97) = 41.26 Source SS df MS Number of obs = 102 reg lnecoprc lnregprc lnreglbs lnecolbs male
Từ kết quả hồi quy ta thấy, biến lnregprc có p-value là 0.000 < α = 1%,
=> bác bỏ giả thuyết H0: β1 = 0, vì thế nên biến này có ý nghĩa ở mức ý nghĩa α
= 1% Riêng các biến lnreglbs, lnecolbs và male có p-value là 0.459 > α = 10%, 0.560 > α = 10% và 0.018 > α = 10% => chấp nhận giả thuyết H0: β2 = 0,
β3 = 0, β4 = 0 do đó không đủ cơ sở để kết luận 3 biến này có ý nghĩa ở mức α
= 10%
Kiểm định bỏ sót biến:
Prob > F = 0.8533
F(3, 94) = 0.26
Ho: model has no omitted variables
Ramsey RESET test using powers of the fitted values of lnecoprc ovtest
Ta có, giá trị p-value từ kiểm định RESET của Ramsey là 0.8533 > α = 10% => chấp nhận giả thuyết H0 nên mô hình không bỏ sót biến
Kiểm định phương sai sai số thay đổi:
Trang 7
Total 62.57 18 0.0000
Kurtosis 14.89 1 0.0001
Skewness 5.87 4 0.2094
Heteroskedasticity 41.81 13 0.0001
Source chi2 df p
Cameron & Trivedi's decomposition of IM-test
Prob > chi2 = 0.0001
chi2(13) = 41.81
against Ha: unrestricted heteroskedasticity
White's test for Ho: homoskedasticity
imtest, white
Giá trị p-value từ kiểm định White là 0.0001 < α = 1% => bác bỏ giả thuyết H0, vì vậy mô hình bị mắc phải lỗi phương sai sai số thay đổi
Kiểm định tự tương quan:
H0: no serial correlation
5 7.672 5 0.1753
4 6.966 4 0.1377
3 6.995 3 0.0720
2 3.187 2 0.2032
1 2.416 1 0.1201
lags(p) chi2 df Prob > chi2
Durbin's alternative test for autocorrelation
Number of gaps in sample: 79
estat durbinalt, lag (1 2 3 4 5)
delta: 1 unit
time variable: t, 1 to 660
tsset t
Ta có giá trị p-value tương ứng với bậc 1 của kiểm định Durbin – Watson là 0.1201 > α = 10% => chấp nhận giả thuyết H0, mô hình không có tự tương quan bậc 1
Kiểm đinh đa cộng tuyến:
Trang 6
Trang 8Mean VIF 1.70
male 1.01 0.994013
lnregprc 1.04 0.963056
lnecolbs 2.37 0.421223
lnreglbs 2.39 0.418478
Variable VIF 1/VIF
vif
Ta có các giá trị nhân tố phóng đại phương sai VIF của các biến đều nhỏ hơn 10 nên theo Gujarati thì mô hình không bị lỗi đa cộng tuyến
Mô hình 3: chuyển đổi dạng của mô hình sang dạng lin-log bằng cách lấy logarit tự nhiên 3 biên regprc, reglbs và ecolbs
Ecoprc = β0 + β1lnregprc + β2lnreglbs + β3lnecolbs + β4male + e
Kết quả hồi quy:
_cons 1.209145 .0233482 51.79 0.000 1.162805 1.255484 male -.1013014 .0386566 -2.62 0.010 -.178024 -.0245789 lnecolbs -.0159053 .0390344 -0.41 0.685 -.0933777 .0615671 lnreglbs 0156845 .0370191 0.42 0.673 -.0577882 .0891571 lnregprc 7715311 .0609074 12.67 0.000 6506468 .8924153 ecoprc Coef Std Err t P>|t| [95% Conf Interval] Total 7.67147094 101 075955158 Root MSE = 16743 Adj R-squared = 0.6309 Residual 2.7191982 97 028032971 R-squared = 0.6455 Model 4.95227274 4 1.23806819 Prob > F = 0.0000 F( 4, 97) = 44.16 Source SS df MS Number of obs = 102 reg ecoprc lnregprc lnreglbs lnecolbs male
Từ kết quả hồi quy ta thấy, các biến lnregprc, male lần lượt có p-value là 0.000 < α = 1%, 0.010 ≤ α = 10%, => bác bỏ giả thuyết H0: β1 = 0, β4 = 0, vì thế nên các biến này có ý nghĩa ở mức ý nghĩa α = 10% Riêng biến lnreglbs
và lnecolbs có p-value là 0.673 > α = 10% và 0.685 > α = 10% => chấp nhận giả thuyết H0: β2 = 0, β3 = 0 do đó không đủ cơ sở để kết luận 2 biến này có ý nghĩa ở mức α = 10%
Kiểm định bỏ sót biến:
Prob > F = 0.6520
F(3, 94) = 0.55
Ho: model has no omitted variables
Ramsey RESET test using powers of the fitted values of ecoprc ovtest
Ta có, giá trị p-value từ kiểm định RESET của Ramsey là 0.6520 > α = 10% =>chấp nhận giả thuyết H0 nên mô hình không bỏ sót biến
Kiểm định phương sai sai số thay đổi:
Trang 9
Total 44.01 18 0.0006
Kurtosis 18.84 1 0.0000
Skewness 3.05 4 0.5503
Heteroskedasticity 22.12 13 0.0536
Source chi2 df p
Cameron & Trivedi's decomposition of IM-test
Prob > chi2 = 0.0536
chi2(13) = 22.12
against Ha: unrestricted heteroskedasticity
White's test for Ho: homoskedasticity
imtest, white
Giá trị p-value từ kiểm định White là 0.0536 > α = 5% => chấp nhận giả thuyết H0, vì vậy mô hình không mắc phải lỗi phương sai sai số thay đổi (ở mức ý nghĩa 1% và 5%)
Kiểm định tự tương quan:
H0: no serial correlation
5 8.188 5 0.1462
4 7.563 4 0.1090
3 7.621 3 0.0545
2 3.760 2 0.1526
1 2.606 1 0.1065
lags(p) chi2 df Prob > chi2
Durbin's alternative test for autocorrelation
Number of gaps in sample: 79
estat durbinalt, lag (1 2 3 4 5)
delta: 1 unit
time variable: t, 1 to 660
tsset t
Ta có giá trị p-value tương ứng với bậc 1 của kiểm định Durbin – Watson là 0.1065 > α = 10% => chấp nhận giả thuyết H0, mô hình không có tự tương quan bậc 1
Kiểm đinh đa cộng tuyến:
Trang 8
Trang 10Mean VIF 1.70
male 1.01 0.994013
lnregprc 1.04 0.963056
lnecolbs 2.37 0.421223
lnreglbs 2.39 0.418478
Variable VIF 1/VIF
vif
Ta có các giá trị nhân tố phóng đại phương sai VIF của các biến đều nhỏ hơn 10 nên theo Gujarati thì mô hình không bị lỗi đa cộng tuyến
Qua 3 mô hình vừa phân tích, nhóm nhận thấy mô hình 3 là mô hình phù hợp nhất, giá trị R2 = 64.55%, giá trị R2 điều chỉnh là 63.09%, chỉ
số này khá cao, đồng thời mô hình này đã được khắc phục tất cả các lỗi so với những mô hình còn lại
Sở dĩ nhóm chọn mô hình này cũng bởi vì các hàm số kinh tế thường được vẽ dưới dạng đường thẳng để dễ dàng và trực quan trong quá trình nghiên cứu và giảng dạy, tuy nhiên, trong thực tế các biến số kinh tế tác động lẫn nhau có thể không theo dạng đường thẳng mà có thể theo các dạng khác,
mà cụ thể là mô hình lin-log như trong bài, vì vậy nhóm chọn giải pháp sử dụng dạng hàm khác so với ban đầu để kiểm tra lỗi và tính tương thích trước khi sửa lỗi mô hình ban đầu nếu dạng hàm đã là lựa chọn phù hợp Ở đây dạng hàm lin-log tỏ ra chính xác hơn dạng hàm tuyến tính nên nhóm đã chọn nó mà không tiến hành đi sâu sửa lỗi dạng hàm tuyến tính ban đầu (dạng hàm không thật sự phù hợp)