Lập bảng tương quan và phân tích mối quan hệ tương quan giữa các biến .... Có rất nhiều yếu tố tác động đến tổng số vụ phạm tội.Sau khi xem xét ý nghĩa của từng biến trongfile số liệu13_
Trang 1TRƯỜNG ĐẠI HỌC NGOẠI THƯƠNG
KHOA KINH TẾ QUỐC TẾ
=====000=====
BÁO CÁO KINH TẾ LƯỢNG
NHÓM 13: THỰC HIỆN NGHIÊN CỨU BỘ SỐ LIỆU13_CRIME2
Giảng viên hướng dẫn: TS Đinh Thị Thanh Bình Nhóm sinh viên thực hiện:
1 Đỗ Trung Hiếu - 1311160050 - 25%
2 Nguyễn Thị Thanh Hoa - 1311110252 - 25%
3 Nguyễn Việt Hoa (Nhóm trưởng) - 1311110253 - 30%
4 Bùi Ngọc Hoa - 1311110258 - 20%
HÀ NỘI – THÁNG 12 NĂM 2014
Trang 22
MỤC LỤC
LỜI MỞ ĐẦU 3
NỘI DUNG 4
I MÔ TẢ SỐ LIỆU 4
1 Mô tả tổng quan 4
2 Mô tả chi tiết các biến trong mô hình 6
II.PHÂN TÍCH HỒI QUY 12
1 Phương trình hồi quy tuyến tính 12
2 Lập bảng tương quan và phân tích mối quan hệ tương quan giữa các biến 12
2.1 Lập bảng tương quan 12
2.2 Phân tích mối quan hệ tương quan giữa các biến 13
3 Chạy mô hình hồi quy và phân tích kết quả 13
3.1 Chạy mô hình hồi quy 13
3.2 Phân tích kết quả sau khi chạy mô hình 14
4 Kiểm định giả thuyết về hệ số hồi quy 15
5 Một số kiểm định F 18
5.1 Kiểm định sự phù hợp của mô hình 18
5.2 Kiểm định đa ràng buộc tuyến tính 18
6 Kiểm tra khuyết tật của mô hình 19
6.1 Đa cộng tuyến 19
6.2 Phương sai sai số thay đổi 21
7 Sửa lỗi mô hình 23
KẾT LUẬN 25
Trang 3LỜI MỞ ĐẦU
Kinh tế lượng (Econometrics) là môn
Đinh Thị Thanh Bình Trong bài báo cáo, nhóm đã em sử dụng công cụ phân tích kinh tế lượng là phần mềm stata để phân tích, nghiên cứu dựa trên số liệu của file dữ
liệu:13_CRIME2.DTA: "Phân tích sự ảnh hưởng của một số yếu tố đến tổng số vụ
Trang 44
NỘI DUNG
I MÔ TẢ SỐ LIỆU
1 Mô tả tổng quan
Trong bối cảnh xã hội ngày càng phát triển với tốc độ đô thị hóa cao cũng như việc đất
nước mạnh dạn mở cửa để tiếp thu với các nền văn hóa khác nhau thì tình trạng vi phạm
pháp luật ngày càng trở thành một vấn đề đáng lo ngại Có rất nhiều yếu tố tác động đến
tổng số vụ phạm tội.Sau khi xem xét ý nghĩa của từng biến trongfile số
liệu13_CRIME2.DTA, nhóm em đã quyết định chọn mô hình hồi quy gồm các biến sau:
Biến phụ thuộc: Y: crimes
Biến độc lập: gồm 5 biến: X1: south
south - = 1 nếu người phạm tội sống ở phía nam
= 0 nếu người phạm tộisống ở những vùng khác area dặm vuông Diện tích vùng đất khảo sát
popden người/dặm vuông Mật độ dân số trên 1 dặm vuông
polpc float %9.0g police per 1000 people
lawexpc float %9.0g law enforce expend pc, $
popden float %9.0g people per sq mile
area float %9.0g land area, square miles
south byte %9.0g =1 if city in south
crimes float %9.0g total number index crimes
variable name type format label variable label
storage display value
des crimes south area popden lawexpc polpc
Trang 5lawexpc $ Chi phí thực thi pháp luật bình quân đầu người
polpc Cảnh sát Số lượng cảnh sát trên 1000 người dân
Tiếp tục sử dụng lệnh sum để mô tả dữ liệu Lệnh sum cho biết số lượng quan sát (Obs),
giá trị trung bình (mean), độ lệch chuẩn (std dev.) cũng như giá trị lớn nhất (max) và nhỏ
nhất (min) của các biến
Dựa theo kết quả trên, ta có bảng tổng hợp sau:
Tên biến Số quan
sát
Giá trị trung bình
Độ lệch chuẩn
Giá trị nhỏ nhất
Giá trị lớn nhất
Có thể nhận thấy biếntổng số vụ phạm tộicó sự chênh lệch khá lớn giữa mức cao nhất và
mức thấp nhất, lên tới xấp xỉ 40 lần, cao hơn hẳn so với các biến còn lại
Variable Obs Mean Std Dev Min Max
sum crimes south area popden lawexpc polpc
Trang 66
2 Mô tả chi tiết các biến trong mô hình
Để mô tả chi tiết các biến đã chọn, ta dùng lệnh tab
Sửdụng lệnh tab cho phép miêu tả các biến với các thông tin tần suất (Freq.), phần trăm
(Percent), phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)
a) Crimes (tổng số tội phạm)
− Tổng số vụ phạm tội dao động từ4124 vụ ánđến 164452 vụ án.Tất cả các giá trị số
vụ phạm tội đều chiếm tỉ trọng như nhau là 1.09%
− Có 23.91% trong tổng số 92 số quan sát mà tổng số vụ phạm tội ≤ 19438vụ án
Trang 7Nhìn chung, số lượng người phạm tội sống ở phía nam chiếm tỉ lệ thấp hơn so với
số lượng người phạm tội sống ở những vùng khác trong mối quan hệ với tổng số
Trang 9− Diện tích vùng đất khảo sát dao động từ13 dặm vuông đến 604 dặm vuông.Mỗi giá
trị đều xuất hiện 2 lần với tỉ lệ như nhau là 2.17%
− Có63.04% trong tổng số 92 số quan sát mà diện tích đất≤ 100.5 dặm vuông
d) Mật độ dân số trên 1 dặm vuông (popden)
− Mật độ dân sốtrên 1 dặm vuông dao động và trải đềutừ703.7964 đến 16550.28
người/dặm vuông Mỗi giá trị chỉ xuất hiện 1 lần với tỉ lệ như nhau là 1.09%
− Có 26.09% trong tổng số 92 số quan sát mà mật độ dân số ≤ 2793.656 người/dặm
Trang 1010
e) Chi phí thực thi pháp luật bình quân đầu người (lawexpc)
− Chi phí thực thi pháp luật bình quân đầu người dao động và trải đều từ 377.54$
đến 2262.44$ Mỗi giá trị chỉ xuất hiện một lần với tỉ lệ như nhau là 1.09%
− Có 23.91% trong tổng số 92 số quan sát mà chi phí thực thi pháp luật bình quân
Trang 11f) Số lượng cảnh sát trên 1000 người (popden)
− Sốcảnh sát trên 1000 người dân dao động trong khoảng 1.283939% đến
4.619234% Mỗi giá trị chỉ xuất hiện một lần với tỉ lệ như nhau là 1.09%
− Có 26.09% trong tổng số 92 số quan sát mà số cảnh sát trên 1000 người dân≤
Trang 1212
II PHÂN TÍCH HỒI QUY
1 Phương trình hồi quy tuyến tính
Chọn biến phụ thuộc Y là crimes, các biến độc lập X1, X2, X3, X4, X5, X6 lần lượt là
unem, pcinc, area, popden, lawexpc, polpc
Ta có:
Hàm hồi quy tổng thể:
(PRF): crimes = β0 + β1south + β2area + β3popden + β4lawexpc + β5polpc + ui
Hàm hồi quy mẫu:
(SRF): = + south + area + popden + lawexpc + polpc
Trong đó: ui làyếu tố ngẫu nhiên (nhiễu)
2 Lập bảng tương quan và phân tích mối quan hệ tương quan giữa các biến
2.1 Lập bảng tương quan
Trước khi chạy mô hình hồi quy, chúng ta xem xét mức độ tương quan giữa các biến bằng
cách sử dụng lệnh corr crimessouth areapopden lawexpc polpc.Ta thu được bảng
tương quan giữa các biến như sau:
Kết luận:
Nhìn chung các biến độc lập có tương quan với biến phụ thuộc không cao Tất cả các biến
độc lập đều có hệ số tương quan dương, cho thấy tác động cùng chiều lên biến phụ thuộc
Trang 13Mối quan hệ tương quan giữa các biến độc lập với nhau cũng không cao, hệ số
tương quan cao nhất cũng chỉ là 0.4798giữa biến popden và polpc Do không có hệ số
tương quan nào có độ lớn vượt quá 0.8 nên có thể dự đoán mô hình không xảy ra hiện tượng đa cộng tuyến khi hồi quy
2.2 Phân tích mối quan hệ tương quan giữa các biến
Từ bảng tương quan trên ta thấy:
- Hệ số tương quan giữa biến crimes vàsouth là 0.0600
- Hệ số tương quan giữa biến crimes và area là 0.4801
- Hệ số tương quan giữa biến crimes và popden là 0.0477
- Hệ số tương quan giữa biến crimes và lawexpc 0.2322
- Hệ số tương quan giữa biến crimes và polpc là 0.3304
Như vậy, trong các nhân tố được nghiên cứu, biến areacó mối tương quan mạnh nhất đến
crimes, hay diện tích đất có ảnh hưởng khá lớn đến tổng số vụ phạm tội Hệ số tương
quan giữa 2 biến mang dấu dương thể hiện mối quan hệ cùng chiều giữa 2 biến, như nếu diện tích đất tăng thì tổng số vụ phạm tội cũng tăng
Ngược lại, biến popdenít ảnh hưởng nhất đến crimes, hay mối tương quan giữa mật độ
dân số trên 1 dặm vuôngvà tổng số vụ phạm tội không mạnh như các nhântố khác.Hệ số tương quan giữa 2 biến mang dấu dương thể hiện mối quan hệ cùng chiều giữa 2 biến, nếu mật độ dân số trên 1 dặm vuông tăng thì tổng số vụ phạm tội cũng tăng nhưng tăng không đáng kể
Ngoài ra, vì giá trị tuyệt đối của các chỉ số đều nhỏ hơn 0.8 nên dự đoán rằng mô hình không xảy ra hiện tượng đa cộng tuyến
3 Chạy mô hình hồi quy và phân tích kết quả
3.1 Chạy mô hình hồi quy
Để chạy mô hình hồi quy, ta thực hiện lệnh regnhư sau:
Trang 14Từ bảng trên ta cóphương trình hàm hồi quy mẫu SRF:
= -42015.36+ 2380.125south + 168.0235area +2.192popden +19.754lawexpc +
13507.01polpc
3.2 Phân tích kết quả sau khi chạy mô hình
− Số quan sát Obs = 92
− Tổng bình phương sai số được giải thích SSE = 3.9943e+10
− Tổng bình phương các phần dư SSR = 4.0284e+10
− Tổng bình phương sai số tổng cộng SST = 8.0227e+10
− Bậc tự do của phần được giải thích Dfm= 5
Residual 4.0284e+10 86 468419090 R-squared = 0.4979
Model 3.9943e+10 5 7.9887e+09 Prob > F = 0.0000
F( 5, 86) = 17.05
Source SS df MS Number of obs = 92
reg crimes south area popden lawexpc polpc
Trang 15− Hệ số xác định R2
= 0.4979 có nghĩa là các biến X trong mô hình giải thích được 53.31% sự dao động của biến Y Hay các biếnvùng miền, diện tích đất, mật độ dân số trên 1 dặm vuông, chi phí thực thi pháp luật bình quân đầu người và số cảnh sát trên
1000 người giải thích được 49.79% sự dao động của biến tổng số tội phạm
− Hệ số xác định điều chỉnh = 0.4687
− Ý nghĩa của các hệ số hồi quy trong mô hình:
β1= 2380.125>0 nghĩa là tổng số vụ phạm tội xảy ra ở phía nam cao hơn tổng số vụ phạm tội xảy ra không ở phía nam là 2380.125 vụ án trong điều kiện các yếu tố khác không đổi
β2= 168.0235>0 nghĩa là diện tích đất tăng 1 dặm vuông thì tổng số vụ phạmtội tăng 168.0235 vụ án trong điều kiện các yếu tố khác không đổi
3 = 2.192713>0 nghĩa là mật độ dân số tăng 1 người/dặm vuông thìtổng số vụ phạm tội tăng 2.192713vụ án trong điều kiện các yếu tố khác không đổi
β4 = 19.75433>0 nghĩa là chi phí thực thi pháp luật tăng 1$ thì tổng số vụ phạm tội tăng 19.75433vụ ántrong điều kiện các yếu tố khác không đổi
β5 = 13507.01>0 nghĩa là cứtăng thêm 1 cảnh sát trên 1000 người dân thì tổng số
vụ phạm tội tăng 13507.01 vụ ántrong điều kiện các yếu tố khác không đổi
phạm tội -42015.36vụ án
4 Kiểm định giả thuyết về hệ số hồi quy
Cặp giả thuyết thống kê:
Sử dụng giá trị tới hạn:
Trang 1616
Do mô hình mắc lỗi phương sai sai số thay đổi (sẽ chứng minh ở phần cuối) nên phải sửa
lỗi mô hình bằng lệnh reg, robust trước khi kiểm định giả thuyết thống kê
Từ bảng trên ta thấy biến south có p-value = 0.635 > 0.05 còn các biến độc lập
khác đều có p-value > 0.05 nên chỉ có biến south không có ảnh hưởng mang ý nghĩa
thống kê đến biến crimes
a) south:
Có: chưa có cơ sở để bác bỏ H0 với mức ý nghĩa 5%
Biến south khôngcó ảnh hưởng mang ý nghĩa thống kê đến biến crimes
Diện tích đất có ảnh hưởng mang ý nghĩa thống kê đến tổng số vụ phạm tội
Diện tích đất càng tăng thì tổng số vụ phạm tội cũng tăng
Kết quả chạy mô hình hồi quy dựa trên 1 mẫu cụ thể cho thấy diện tích đất tăng 1
dặm vuông thì tổng số vụ phạm tội tăng 168.0235 vụ ánvới điều kiện các yếu tố
Linear regression Number of obs = 92
reg crimes south area popden lawexpc polpc, robust
Trang 17Mật độ dân số trên 1 dặm vuông tăng thì tổng số tội phạm cũng tăng
Kết quả chạy mô hình hồi quy dựa trên 1 mẫu cụ thể cho thấy cứ tăng thêm 1 người/dặm vuông thì tổng số vụ phạm tội tăng 2.192713vụ ánvới điều kiện các yếu
Số cảnh sát trên 1000 người dân tăng thì tổng số tội phạm cũng tăng
Kết quả chạy mô hình hồi quy dựa trên 1 mẫu cụ thể cho thấy cứ tăng thêm 1 cảnh sát trên 1000 người dân thì tổng số vụ phạm tội tăng 13507.01 vụ án với điều kiện các yếu tố khác không đổi
Vậy trong các biến độc lập, với mức ý nghĩa 5%, chỉ có biến south không có ảnh hưởng mang ý nghĩa thống kê đến biến crimes
Trang 1818
5 Một số kiểm định F
5.1 Kiểm định sự phù hợp của mô hình
Kiểm định này nhằm xem xét trường hợp các tham số của biến độc lập đồng thời bằng
0 có thể xảy ra hay không
Cách 1:Phương pháp giá trị tới hạn
17.05
Ta có: F=17.056 >1.987 =>Bác bỏ H0, chấp nhận H1
Cách 2: Phương pháp p-value
Nếu giá trị Prob > F nhỏ hơn mức ý nghĩa α = 0.05 thì bác bỏ H0, chấp nhận H1 tức
là mô hình hồi quy phù hợp
Ta có:Prob > F = 0.0000 <0.05 => Bác bỏ H0, chấp nhận H1
Kết luận: Mô hình phù hợp tại mức ý nghĩa 5%
5.2 Kiểm định đa ràng buộc tuyến tính
Giả sử 3 yếu tố south, lawexpc và polpc cùng không ảnh hưởng đến crimes
Cặp giả thuyết thống kê:
Ta tiến hành chạy mô hình bị ràng buộc với q= 3 biến độc lập south, lawexpc và polpcbị loại khỏi mô hình trên, tức là chỉ chạy lênh hồi quy với 2 biến độc lập area và popden
Trang 19Phương trình không bị ràng buộc:
Không thể bỏ 3 biến south, lawexpc và polpc ra khỏi mô hình
6 Kiểm tra khuyết tật của mô hình
6.1 Đa cộng tuyến
a) :
Mô hình tốt là mô hình phải đạt được các tính chất BLUE (tuyến tính, không chệch,
hiệu quả nhất) Tuy nhiên trên thực tế do xây dựng sai mô hình hoặc do bản chất của dữ
liệu, dẫn tới mô hình không đạt được đầy đủ các tính chất trên Một trong những vấn đề
ảnh hưởng đến mô hình mà ta gọi là vi phạm các giả định, đó là đa cộng tuyến
Đa cộng tuyến là một lỗi của mô hình phân tích hồi quy, xảy ra khi giữa các biến
b) Nguyên nhân:
:
Đa cộng tuyến hoàn hảo xảy ra khi đặt mô hình sai, trên thực tế hiện tượng đa cộng
tuyến hoàn hảo ít khi xảy ra
Residual 5.0613e+10 89 568683453 R-squared = 0.3691
Model 2.9615e+10 2 1.4807e+10 Prob > F = 0.0000
F( 2, 89) = 26.04
Source SS df MS Number of obs = 92
reg crimes area popden
Trang 2020
Đa cộng tuyến không hoàn hảo xảy ra do bản chất hiện tượng kinh tế xã hội mà các
biến độc lập đã có sẵn mối quan hệ cộng tuyến với nhau
Đa cộng tuyến không hoàn hảo xảy ra do số liệu điều tra không đủ lớn, hay số liệu
điều tra không ngẫu nhiên
c) ộ :
1: Dùng lệnh corr để kiểm tra đa cộng tuyến
Nếu các biến độc lập có tương quan mạnh với nhau (r > 0.8) thì có thể xảy ra hiện tượng
đa cộng tuyến
Sử dụng lệnh corr, ta thu được kết quả như sau:
Từ kết quả trên, ta thấy hệ số tương quan giữa các biến độc lập tương đối thấp và đều nhỏ
hơn 0.8 Do vậy có thể kết luận mô hình không xảy rahiện tượng đa cộng tuyến
Cách 2:Sử dụng thừa số tăng phương sai VIF (variance inflation factor)
Nếu VIF > 10 thì xảy ra hiện tượng đa cộng tuyến
Sử dụng lệnh vif trong phần mềm stata, ta thu được kết quả như sau:
Trang 21Ta thấy tất cả các giá trị VIF đều <10, do đó có thể đi đến kết luận mô hình không xảy ra
hiện tượng đa cộng tuyến
Kết luận: Từ 2 cách kiểm định trên có thể kết luận rằng: Mô hình không xảy rahiện
tượng đa cộng tuyến
6.2 Phương sai sai số thay đổi
a) Bản chất:
Một vấn đề khác mà mô hình cũng có thể gặp phải, đó là phương sai của sai số thay đổi
Hậu quả của phương sai sai số thay đổi là các ước lượng bình phương nhỏ nhất vẫn là
không chệch nhưng không còn hiệu quả nữa, cùng với đó ước lượng của các phương sai
sẽ bị chệch, như vậy làm mất hiệu lực của kiểm định Điều này làm cho mô hình kém hiệu
quả hơn
Phương sai của mỗi một ngẫu nhiên Ui, trong điều kiện giá trị đã cho của biến giải thích
Xi là không đổi, nghĩa là:
– = = ; i = 1,2,3…n
Khi giả thiết đó bị vi phạm thì mô hình mắc lỗi phương sai sai số thay đổi Tên gọi của lỗi
này là Heteroskedasticity
b) Nguyên nhân:
Do bản chất của các hiện tượng kinh tế: Nếu các hiện tượng kinh tế theo không gian
được điều tra trên những đối tượng có quy mô khác nhau hoặc các hiện tượng kinh tế
theo thời gian được điều tra qua các giai đoạn có mức biến động khác nhau thì
phương sai sai số có thể không đồng đều