Để hiểu rõ hơn, nhóm chúng em xin được xây dựng bài Báo cáo kinh tế lượng phân tích những số liệu thống kê nằm trong bộ số liệu số 26 và bộ số liệu số 81 về tỉ lệ phạm tội cũng như tỉ lệ
Trang 1NHÓM SỐ 2 1
TRƯỜNG ĐẠI HỌC NGOẠI THƯƠNG
KHOA KINH TẾ VÀ KINH DOANH QUỐC TẾ
-*** -
BÁO CÁO KINH TẾ LƯỢNG
NHÓM 2- THỰC HIỆN NGHIÊN CỨU BỘ DỮ LIỆU SỐ 26– 81
GIÁO VIÊN HƯỚNG DẪN: TS ĐINH THỊ THANH BÌNH
Trang 2NHÓM SỐ 2 2
Mục lục
Lời mở đầu 4
A Bộ số liệu số 26 5
I Mô hình lý thuyết 5
1 Vấn đề nghiên cứu và mô hình lý thuyết: 5
2 Mục đích và lý do lựa chọn các biến: 6
3 Mối quan hệ từng biến độc lập với biến phụ thuộc: 6
II Phân tích hồi quy 9
1 Thiết lập mô hình tổng quát 9
2 Lập bảng tương quan 10
3 Chạy mô hình hồi quy 11
4 Phương trình hồi quy 11
5 Phân tích kết quả hồi quy 12
III Kiểm định mô hình 13
1 Ý nghĩa của hệ số hồi quy: 13
2 Kiểm định sự phù hợp của mô hình: 14
3 Kiểm định khuyết tật của mô hình: 14
IV Sửa lỗi mô hình 19
KẾT LUẬN 19
Bộ số liệu số 81 20
I Mô hình lý thuyết 20
1 Vấn đề nghiên cứu và mô hình lý thuyết: 20
2 Mục đích và lý do lựa chọn các biến: 21
3 Mối quan hệ từng biến độc lập với biến phụ thuộc: 22
II Phân tích hồi quy 24
1 Thiết lập mô hình tổng quát 24
2 Lập bảng tương quan 25
3 Chạy mô hình hồi quy 26
4 Phương trình hồi quy 26
Trang 3NHÓM SỐ 2 3
5 phân tích kết quả hồi quy 27
III Kiểm định mô hình 28
1 Ý nghĩa của hệ số hồi quy: 28
2 Kiểm định sự phù hợp của mô hình: 29
3 Kiểm định và cách khắc phục khuyết tật của mô hình: 30
IV Sửa lỗi mô hình 35
KẾT LUẬN 36
Trang 4NHÓM SỐ 2 4
Lời mở đầu
Trong bối cảnh xã hội đang ngày càng phát triển, kinh tế lượng đã và đang là một môn khoa học có nhiều ứng dụng trong thực tế, đặc biệt là các vấn đề liên quan đến kinh tế Kinh tế lượng cung cấp những công cụ đắc lực giúp các nhà kinh tế học có thể phân tích các số liệu thống
kê được thu thập từ đó đưa ra các dự báo về các hiện tượng kinh tế
Xét trên phạm vi các trường đại học thuộc khối ngành kinh tế, bộ môn kinh tế lượng đang trở thành một trong số những bộ môn quan trọng cung cấp những kiến thức về lý thuyết và thực hành giúp cho sinh viên có thể học tập và nghiên cứu những chuyên ngành của mình Là những sinh viên khối ngành kinh tế, chúng em ý thức rõ được sự cần thiết trong việc học tập và nghiên cứu môn kinh tế lượng Để hiểu rõ hơn, nhóm chúng em xin được xây dựng bài Báo cáo kinh tế lượng phân tích những số liệu thống kê nằm trong bộ số liệu số 26 và bộ số liệu số 81 về tỉ lệ phạm tội cũng như tỉ lệ hút thuốc lá trung bình của con người nhằm đưa ra những phân tích và những dự báo của các yếu tố ảnh hưởng đến hai vấn đề kinh tế này
Nhóm chúng em gồm 5 thành viên:
STT Họ và tên Mã số sinh viên Đóng góp (%)
1 Trần Nguyễn Tuấn Anh (nhóm trưởng) 1212210017 20
có thể hoàn thiện hơn bản báo cáo này
Trang 5NHÓM SỐ 2 5
A Bộ số liệu số 26
I Mô hình lý thuyết
1 Vấn đề nghiên cứu và mô hình lý thuyết:
Trong bối cảnh xã hội ngày càng phát triển với tốc độ đô thị hóa cao cũng như việc đất
nước mạnh dạn mở cửa để tiếp thu với các nền văn hóa khác nhau thì tình trạng vi phạm pháp
luật ngày càng trở thành một vấn đề đáng lo ngại Có rất nhiều yếu tố tác động đến tỉ lệ phạm tội
của mỗi khu vực Trong bộ số liệu số 26, nhóm đã chọn ra những biến để nghiên cứu dưới đây
Mô tả dữ liệu trong file CRIME3.DTA từ phần mềm Stata, ta thu được kết quả như sau:
Các biến sẽ được mô tả chi tiết trong bảng sau:
Bảng 1: Định dạng và ý nghĩa của các biến
cavgclr float %9.0g change in avgclr
clcrime float %9.0g change in lcrime
clrprc2 byte %9.0g clear-up perc, two-years prior
clrprc1 byte %9.0g clear-up perc, prior year
district byte %9.0g district number
crime float %9.0g crimes per 1000 people
variable name type format label variable label
storage display value
des crime district clrprc1 clrprc2 clcrime cavgclr
Tên biến Dạng dữ liệu Đơn vị Ý nghĩa biến
District Byte đơn vị Số quận khảo sát
clrprc1 Byte đơn vị Tỉ lệ phá án thành công một năm trước
clrprc2 Byte đơn vị Tỉ lệ phá án thành công hai năm trước
clcrime Float % Sự thay đổi tỉ lệ phạm tội
cavgclr Float % Sự thay đổi trong trung bình tỉ lệ phá án
Trang 6NHÓM SỐ 2 6
Tiếp tục sử dụng lệnh sum để miêu tả dữ liệu Lệnh sum cho biết số lượng quan sát (Obs),
giá trị trung bình (mean), độ lệch chuẩn (std dev.) cũng như giá trị lớn nhất (max) và nhỏ nhất
(min) của các biến
Có thể nhận thấy tỉ lệ phạm tội có sự chênh lệch khá lớn giữa mức cao nhất và mức thấp
nhất, lên tới xấp xỉ 70 lần, cao hơn hẳn so với các biến còn lại
2 Mục đích và lý do lựa chọn các biến:
Mục đích của việc lựa chọn mô hình này nhằm tìm hiểu sự tác động của khả năng giải
quyết vụ án trong các năm trước, thời gian, khu vực địa lýđối với tỉ lệ phạm tội
3 Mối quan hệ từng biến độc lập với biến phụ thuộc:
Mối quan hệ giữa crime và district
Variable Obs Mean Std Dev Min Max
sum crime district clrprc1 clrprc2 clcrime cavgclr
Trang 9NHÓM SỐ 2 9
II Phân tích hồi quy
1 Thiết lập mô hình tổng quát
-
Tỉ lệ phá án thành công một năm trước càng thấp thì tỉ lệ phạm tội năm hiện tại càng cao
clrprc2
Tỉ lệ phá án thành công trong hai năm trước, so với thời điểm khảo sát
-
Tỉ lệ phá án thành công hai năm trước càng thấp thì tỉ lệ phạm tội năm hiện tại càng cao
clcrime Sự thay đổi của tỉ lệ
và 2 năm truóc
-
Sự thay đổi trong trung bình cộng phần trăm của các vụ án được giải quyết trong 1 năm trước và 2 năm trước càng thấp thì tỉ lệ phạm tội năm hiện tại càng cao
Bảng 2: Giải thích các biến
Trang 10NHÓM SỐ 2 10
2 Lập bảng tương quan
Chạy lệnh corr để biểu diễn mỗi quan hệ tương quan giữa các biến, nhóm thu được kết quả
như sau:
Nhìn chung các biến độc lập có tương quan với biến phụ thuộc không cao, đặc biệt hai
biến clrprc1và clrprc2 có hệ số tương quan khá thấp (-0.6020 và -0.5968)
2 biến clcrime và cavgclr có hệ số tương quan dương, cho thấy tác động cùng chiều lên
biến phụ thuộc
3 biến district, clrprc1 và clrprc2 có hệ số tương quan âm, cho thấy tác động ngược chiều
đối với biến phụ thuộc
Mối quan hệ tương quan giữa các biến độc lập với nhau cũng không cao, hệ số tương quan
cao nhất cũng chỉ là 0.4422, giữa biến district và clrprc2
Do không có hệ số tương quan nào có độ lớn vượt quá 0.8 nên có thể dự đoán mô hình
không xảy ra hiện tượng đa cộng tuyến khi hồi quy
Trang 11NHÓM SỐ 2 11
Chạy mô hình hồi quy giữa biến phụ thuộc và các biến độc lập, ta thu được kết quả như
sau:
4 Phương trình hồi quy
Từ kết quả chạy hồi quy, nhóm tóm tắt các giá trị thu được ở bảng 3:
Biến Hệ số Giá trị Thống kê t P – value
Source SS df MS Number of obs = 53
reg crime district clrprc1 clrprc2 clcrime cavgclr
Trang 12NHÓM SỐ 2 12
Từ bảng trên ta có phương trình hồi quy sau:
𝑐𝑟𝑖𝑚𝑒̂ = 52.60476 – 0.0512635*District – 0.4141517*Clrprc1 – 0.3824153*Clrprc2 + 3.73996*Clcrime + 0.3878464*Cavgclr
5 Phân tích kết quả hồi quy
- Số quan sát đưa vào phân tích obs = 53
- Phần tổng bình phương các độ lệch giữa giá trị quan sát Yi với giá trị trung bình của nó TSS=7945.29101
- Phần tổng bình phương được giải thích bởi mô hình (biến giải thích) ESS=4125.50252
- Phần tổng bình phương không giải thích được (phần dư) RSS=3819.7885
- Độ lệch bình phương bình quân (phương sai) của các bộ phận trên là MSm=825.100503và MSr=81.2720957
- Sai số chuẩn của ước lượng RMSE=9.0151, nhỏ hơn độ lệch chuẩn của biến phụ thuộc
là SD = √𝑇𝑆𝑆
𝑛−1=√7945.29101
53−1 = 12.360989 Vậy ước lượng của hồi quy là chấp nhận được
- Mức độ phù hợp của mô hình so với thực tế là 𝑅2 = 51.92% cho thấy các biến độc lập
đã giải thích được 51.92% sự thay đổi của biến phụ thuộc
- Ý nghĩa các tham số trong mô hình:
* 𝛽0= 52.60476 có nghĩa là trong điều kiện các yếu tố khác không đổi và giá trị các biến độc lập bằng 0 thì tỉ lệ phạm tội sẽ là 52.60476 USD
* 𝛽1 có p-value = 0.588> 0.05 nên không có ý nghĩa thống kê Do đó, số quận khảo sát không có tác động lên tỉ lệ phạm tội
* 𝛽2= -0.4141517 có ý nghĩa thống kê, chỉ ra rằng trong điều kiện các yếu tố khác không đổi, nếu tỷ lệ phá án thành công trong một năm trước tăng thêm 1 đơn vị thì tỉ lệ phạm tội giảm
đi 0.4141%
Trang 13NHÓM SỐ 2 13
* 𝛽3= -0.3824153 có ý nghĩa thống kê, chỉ ra rằng trong điều kiện các yếu tố khác không đổi, nếu tỷ lệ phá án thành công trong hai năm trước tăng lên 1 đơn vị thì tỉ lệ phạm tội giảm 0.3824%
* 𝛽4 có p-value = 0.333 nên không có ý nghĩa thống kê, do đó sự thay đổi trong logarit
cơ số e của tỷ lệ phạm tội
* 𝛽5= 0.3878464 có ý nghĩa thống kê, chỉ ra rằng trong điều kiện các yếu tố khác không đổi, nếu tỷ lệ trung bình phá án tăng thêm 1 đơn vị thì tỷ lệ phạm tội tăng 0.3878%
III Kiểm định mô hình
1 Ý nghĩa của hệ số hồi quy:
Trang 142 Kiểm định sự phù hợp của mô hình:
Kiểm định này nhằm xem xét trường hợp các tham số của biến độc lập 𝛽𝑖 đồng thời bằng
0 có thể xảy ra hay không
Cặp giả thuyết thống kê như sau:
{ 𝐻0: 𝛽1 = 𝛽2 = 𝛽3 = 𝛽4 = 𝛽5 = 0
𝐻1: 𝑇ồ𝑛 𝑡ạ𝑖 𝛽𝑖 ≠ 0
2/𝑘(1 − 𝑅2)/(𝑛 − 𝑘 − 1)=
0.5192/5(1 − 0.5192)/(53 − 5 − 1)= 10,1507
(Với k là số biến độc lập, n là số quan sát)
Ta thấy 𝐹𝑞𝑠 = 10,1507 > 𝐹0,055;47 = 2,4
Bác bỏ giả thiết H 0
Mô hình hồi quy phù hợp ở mức ý nghĩa 5%
3 Kiểm định khuyết tật của mô hình:
a Bệnh đa cộng tuyến:
Mô hình tốt là mô hình phải đạt được các tính chất BLUE (tuyến tính, không chệch, hiệu
quả nhất) Tuy nhiên trên thực tế do xây dựng sai mô hình hoặc do bản chất của dữ liệu, dẫn tới
mô hình không đạt được đầy đủ các tính chất trên Một trong những vấn đề ảnh hưởng đến mô
hình mà ta gọi là vi phạm các giả định, đó là đa cộng tuyến
Do vậy, chúng ta sẽ khảo sát mô hình có bị đa cộng tuyến hay không
Trang 15NHÓM SỐ 2 15
Cách 1: Tính hệ số tương quan r giữa các biến giải thích
Nếu các biến giải thích có tương quan cao với nhau (r > 0.8) thì có thể xảy ra đa cộng tuyến
Sử dụng lệnh Corr trong stata cho kết quả sau:
Từ kết quả trên, ta thấy hệ số tương quan giữa các biến giải thích tương đối thấp và nhỏ hơn 0.8 Do vậy có thể kết luận mô hình không mắc bệnh đa cộng tuyến
Cách 2: Sử dụng thừa số tăng phương sai VIF
Nếu VIF > 10 thì có thể xảy ra hiện tượng đa cộng tuyến
Sử dụng lệnh vif trong phần mềm stata, ta có kết quả sau:
Các giá trị VIF đều nhỏ hơn 10, do đó có thể đi đến kết luận mô hình không có hiện tượng đa cộng tuyến
Như vậy hai kiểm định đều cho cùng một kết luận: Mô hình không mắc bệnh đa cộng tuyến
Trang 16NHÓM SỐ 2 16
b Phương sai sai số thay đổi:
Phương sai của mỗi một ngẫu nhiên Ui trong điều kiện giá trị đã cho của biến giải thích
Xi là không đổi, nghĩa là:
Var(Ui/Xi) = E[Ui – E(Ui)]2 = 𝐸(𝑈𝑖)2 = 𝜎2; i = 1,2,3…n Tuy nhiên, trong thực tế, do bản chất kinh tế xã hội, quá trình thu thập, xử lí số liệu hay
do mô hình định dạng sai mà giả thiết này bị vi phạm dẫn đến hiện tượng phương sai sai số thay đổi
Cách 1: Phương pháp định tính:
Xem xét đồ thị ei theo 𝑌̂i:
Cách 2: Phương pháp định lượng:
Để kiểm định phương sai sai số thay đổi ta có cặp giả thuyết sau:
{𝐻0: Mô hình có phương sai thuần nhất
𝐻1: Mô hình có phương sai sai số thay đổiNếu giá trị [Prob>chi2] < 0.05, chúng ta bác bỏ giả thiết H0 và chấp nhận giả thiết H1.
Trang 17NHÓM SỐ 2 17
Ta thực hiện kiểm định White:
Kết quả kiểm định bằng lệnh imtest, white cho thấy Prob>chi2 = 0.1327> 0.05
Do đó từ 2 kiểm định trên có cơ sở kết luận rằng mô hình không mắc lỗi phương sai sai
số thay đổi
c Kiểm định phân phối chuẩn của sai số:
Trong các giả định của mô hình hồi quy tuyến tính, có một giả định quan trọng đó là ui~U(0;σ2) Tuy nhiên trên thực tế có nhiều nhân tố ảnh hưởng tới phân phối của ui, làm cho nó không còn phân phối chuẩn nữa Phân phối không chuẩn khiến cho các kiểm định và suy diễn thống kê không còn đáng tin cậy nữa
Bây giờ ta cùng kiểm định xem mô hình có gặp phải vấn đề phân phối không chuẩn (đối với u và cả biến phụ thuộc) hay không
Cách 1:Sử dụng đồ thị:
Sử dụng Stata và vẽ đồ thị phân phối của phần dư trong mô hình:
Trang 18{ 𝐻0: Phần dư có phân phối chuẩn
𝐻1: Phần dư không phân phối chuẩn
Sử dụng lệnh sktest trong Stata để kiểm định:
Ta thấy p-value = 0.0014 < 0,05
bác bỏ H0
suy ra có cơ sở để cho rằng phần dư phân phối không chuẩn
Như vậy 2 kiểm định đều cho thấy có dấu hiệu phần dư phân phối không chuẩn trong mô hình
Trang 19NHÓM SỐ 2 19
IV Sửa lỗi mô hình
Từ việc kiểm định trên, ta thấy có biến district , clcrime không có ý nghĩa thống kê trong mô
hình Ta có thể bỏ khỏi mô hình và tiến hành chạy lại mô hình mới như sau:
𝑐𝑟𝑖𝑚𝑒̂ = 54.22555 – 0.4322091*Clrprc1 – 0.4300952*Clrprc2 + 0.3512738*Cavgclr
KẾT LUẬN
Như vậy nhóm chúng em đã hoàn thành xong mô hình kinh tế lượng về các yếu tố ảnh
hưởng đến tỉ lệ phạm tội Mô hình đã lượng hóa cho các yếu tố để chúng ta có biện pháp, chiến
lược phá án hiệu quả Ngoài ra, sẽ còn nhiều yếu tố ảnh hưởng đến biến phụ thuộc được nghiên
cứu chưa được đưa vào mô hình như số năm, sự thay đổi trong tỉ lệ phá án trung bình trong 1
hay 2 năm trước… cần được xem xét để có báo cáo với kết quả chính xác hơn nữa
Source SS df MS Number of obs = 53
reg crime clrprc1 clrprc2 cavgclr
Trang 20NHÓM SỐ 2 20
Bộ số liệu số 81
I Mô hình lý thuyết
1 Vấn đề nghiên cứu và mô hình lý thuyết:
Ngày nay, thuốc lá đang ngày càng trở thành một mối nguy hại lớn đối với sức khỏe của
con người Mặc dù xã hội đã đưa ra nhiều biện pháp nhằm giảm thiểu tỉ lệ hút thuốc của người
dân nhưng vẫn chưa thực sự hiệu quả Có rất nhiều yếu tố ảnh hưởng đến việc hút thuốc của mỗi
người Trước hết, chúng ta phải tìm hiểu xem những yếu tố nào thực sự tác động đến tỉ lệ hút
thuốc của chúng ta Trong bộ số liệu số 81, nhóm đã chọn ra những biến để nghiên cứu dưới đây
Mô tả dữ liệu trong file SMOKE.DTA từ phần mềm Stata, ta thu được kết quả như sau:
Các biến sẽ được mô tả chi tiết trong bảng sau:
Tên biến Dạng dữ liệu Đơn vị Ý nghĩa biến
cigs byte điếu/ngày Số điếu thuốc được hút trung bình một ngày
income int $ Thu nhập hàng năm của người hút
age byte tuổi Tuổi tác của người hút
cigpric float cents/hộp Giá thuốc tại nơi người hút sinh sống
educ float năm Số năm học của người hút thuốc
restaurn byte Nơi nghỉ ngơi của người hút có cấm thuốc không
Bảng 1: Định dạng và ý nghĩa của các biến
restaurn byte %8.0g =1 if rest smk restrictions
educ float %9.0g years of schooling
cigpric float %9.0g state cig price, cents/pack
age byte %8.0g in years
income int %8.0g annual income, $
cigs byte %8.0g cigs smoked per day
variable name type format label variable label
storage display value
des cigs income age cigpric educ restaurn
Trang 21NHÓM SỐ 2 21
Tiếp tục sử dụng lệnh sum để miêu tả dữ liệu Lệnh sum cho biết số lượng quan sát (Obs),
giá trị trung bình (mean), độ lệch chuẩn (std dev.) cũng như giá trị lớn nhất (max) và nhỏ nhất
(min) của các biến
Có thể nhận thấy số điều thuốc hút mỗi ngàycó sự chênh lệch khá lớn giữa mức cao nhất
và mức thấp nhất, lên tới 80 điếu/ngày, những người được khảo sát thuộc nhóm tuổi khá trẻ, có
ảnh hưởng lớn đế sự phát triển của xã hội Có sự chênh lệch rất lớn giữa mức thu nhập cao nhất
và thập nhất, cho ta thấy số liệu khảo sát bao quát được hầu hết các đối tượng, từ đối tượng có
thu nhập cao đến đối tượng có thu nhập thấp
2 Mục đích và lý do lựa chọn các biến:
Mục đích của việc lựa chọn mô hình này nhằm tìm hiểu sự tác động của thu nhập, tuổi
tác, giá thuốc cũng như trình độ học vấn của con người đối với số điếu thuốc hút trong ngày
Variable Obs Mean Std Dev Min Max
sum cigs income age cigpric educ restaurn