- Mục đích: kiểm định ảnh hưởng của từng biến độc lập lên giá trị trung bình của biến phụ thuộc crime.. → Hệ số hồi qui của các biến độc lập không đồng thời bằng 0, mô hình hồi quy phù h
Trang 4c Trang
I : 6
1 : 6
1.1 : 6
1.2 : 7
2 : 8
2.1 Crime: 8
2.2 Enroll: 9
2.3 Priv: 10
2.4 Police: 11
2.5 Lenroll: 12
2.6 Lpolice: 13
II 14
1 : 14
2 : 16
3 : 18
3.1 : 18
3.2 : 19
3.3 : 19
III 21
1 ộ : 21
1.1 : 21
1.2 Nguyên nhân: 21
1.3 : 22
1.4 Cách khắc phục: 22
2 ố thay đổi: 23
2.1 : 23
2.2 Nguyên nhân: 23
2.3 ện dấu hiệu của phương sai sai số thay đồi: 23
3 Kiểm định vấn đề về phân phối chuẩn của sai số: 25
4 : 27
Trang 539
I : 29
1 29
1.1 : 29
1.2 : 31
2 : 32
2.1 ColGPA: 32
2.2 Hs GPA 32
2.3 ACT: 33
2.4 PC: 34
2.5 Bgfriend: 34
2.6 Skipped: 35
2.7 Voluntr: 35
II : 36
1 : 37
2 : 38
3 : 40
3.1 : 40
3.2 : 41
III 42
1 ộ : 42
1.1 : 42
1.2 Nguyên nhân: 42
1.3 : 42
ố thay đổi: 43
2.1 : 43
2.2 Nguyên nhân: 43
2.3 ện dấu hiệu của phương sai sai số thay đồi: 43
3 Kiểm định vấn đề về phân phối chuẩn của sai số: 45
4 : 47
Trang 6
-A U 15
(C
) : Campus
Trang 7des crime enroll priv police lenroll lpolice
storage display value
variable name type format label variable label
-
-crime int %9.0g total campus -crimes enroll float %9.0g total enrollment
priv byte %9.0g =1 if private college police byte %9.0g employed officers
lenroll float %9.0g log(enroll)
lpolice float %9.0g log(police)
:
Trang 81.2 :
Tiếp tục sử dụng lện sum để mô tả số liệu Lệnh sum cho biết số lượng quan sát
(Obs) Giá trị trung bình (Mean), độ lệch chuẩn (Std dev) cũng như giá trị lớn nhất (Max)
và giá trị nhỏ nhất( Min ) của các biến
:
“sum enroll priv police crime lcrime lenroll lpolice”
:
sum crime enroll priv police lenroll lpolice
Variable | Obs Mean Std Dev Min Max
Trang 9Độ lệch chuẩn
Giá trị nhỏ nhất
Giá trị lớn nhất
Trang 10Số lượng vụ án xảy ra tại KTX giao động từ 0 đến 414 trong đó phổ biến nhất là 170
vụ với mức tỉ lệ 3.09% Tần số của các không hoặc ít lặp lại
Trang 15Chọn biến phụ thuộc Y là crime, các biến độc lập X1, X2, X3, X4, X5, lần lượt làenroll
priv, police, lenroll, lpolice
Như vậy ta có hàm hồi qui tổng thể PRF biểu diễn mối quan hệ phụ thuộc giữa Y và các biến X như sau:
Crime = β 0 + β 1 * enroll + β 2 * priv + β 3 * police + β 4 * lenroll + β 5 * lpolice + u i
= + * enroll + * priv + * police + * lenroll + * lpolice
Trang 16(obs=97)
| crime enroll priv police lenroll lpolice -+ - crime | 1.0000
Trang 17: “reg crime enroll priv police lenroll lpolice” :
reg crime enroll priv police lenroll lpolice
Source | SS df MS Number of obs = 97 -+ - F( 5, 91) = 52.60 Model | 15143382 5 3028676.39 Prob > F = 0.0000 Residual | 5239508.09 91 57577.012 R-squared = 0.7429 -+ - Adj R-squared = 0.7288 Total | 20382890 96 212321.771 Root MSE = 239.95
- crime | Coef Std Err t P>|t| [95% Conf Interval] -+ - enroll | .0315662 .0053609 5.89 0.000 0209175 042215 priv | 38.41752 80.93085 0.47 0.636 -122.3417 199.1767 police | 9.733369 3.946817 2.47 0.016 1.893502 17.57324 lenroll | -106.5999 76.66161 -1.39 0.168 -258.8788 45.67894 lpolice | -48.7223 76.75522 -0.63 0.527 -201.1871 103.7425 _cons | 815.5561 619.467 1.32 0.191 -414.9391 2046.051
Trang 18Hệ số xác định R2(R-squared) = 0.7429thể hiện mức độ phù hợp của hàm hồi quy mẫu
là tương đố Bên cạnh đó, giá trị 0.7429 còn thể hiện
được giải thích bởi các biến độc lậ
Trang 19- Mục đích: kiểm định ảnh hưởng của từng biến độc lập lên giá trị trung bình
của biến phụ thuộc crime
Có cặp giả thuyết thống kê:
= Nếu giá trị P-value nhỏ hơn mức ý nghĩa thì bác bỏ Ho, chấp nhận H1, tức là
biến độc lập đó có ý nghĩa thống kê đối với crime.
- Theo bảng chạy hồi qui ở mục 2, ta thấy:
crime
crime
Trang 20o police: P-value = 0.016 0 police
- Mục đích: xem xét trường hợp các tham số của biến độc lập đồng thời bằng 0 có
thể xảy ra hay không
Có cặp giả thuyết thống kê:
Nếu giá trị Prob > F mức ý nghĩa thì bác bỏ Ho, chấp nhận H1 tức là hàm hồi quy mẫu phù hợp
: “test enroll priv police lenroll lpolice”
Như vậy, Prob > F = 0.05, vì thế Ho
→ Hệ số hồi qui của các biến độc lập không đồng thời bằng 0, mô hình hồi quy phù hợp
Giả sử 2 yếu tố là enroll và priv đều cùng không ảnh hưởng tới crime:
Cặp giả thuyết cần kiểm định:
Trang 21Sử dụng lệnh test trong stata để kiểm định, : “test enroll priv”:
: test enroll priv
( 1) enroll = 0
( 2) priv = 0
F( 2, 91) = 17.68
Prob > F = 0.0000
Vì giá trị P-value = 0.0000< 0.05 nên bác bỏ H0, chấp nhận H1
Kết luận: Có ít nhất 1 trong 2 yếu tốenroll privảnh hưởng đến
crime
Giả sử 3 yếu tố là enroll, priv và police đều cùng không ảnh hưởng tới crime:
Cặp giả thuyết cần kiểm định:
Sử dụng lệnh test trong Stata để kiểm định :
“test enroll priv police”
: test enroll priv police
Vì giá trị P-value = 0.0000 < 0.05 nên bác bỏ H0, chấp nhận H1
Kết luận: Có ít nhất 1 trong 3 yếu tố enroll, priv vàpolice ảnh hưởng đến
Trang 22Sử dụng lệnh test trong stata để kiểm định :
“test police lenroll lpolice”
: test police lenroll lpolice
Vì giá trị P-value = 0.0027< 0.05 nên bác bỏ H0, chấp nhận H1
Kết luận: Có ít nhất 1 trong 3 yếu tốpolice, lenroll vàlpolice ảnh hưởng đến
Đa cộngtuyến là một lỗicủamô hình phân tích hồi quy, xảyrakhigiữacácbiến độclập Xi
cótương quan tuyến tính với nhau
1.2 Nguyên nhân:
o Đa cộng tuyến hoàn hảo xảy ra khi đặt mô hình sai, trên thực tế hiện tượng đa cộng tuyến hoàn hảo ít khi xảy ra
o Đa cộng tuyến không hoàn hảo xảy ra do bản chất hiện tượng kinh tế xã hội
mà các biến độc lập đã có sẵn mối quan hệ cộng tuyến với nhau
o Đa cộng tuyến không hoàn hảo xảy ra do số liệu điều tra không đủ lớn, hay số liệu điều tra không ngẫu nhiên
Trang 231.3 :
Dùng lệnh corr [indep] để kiểm định đa cộng tuyến Nếu giữa 2 biến có giá trị corr>
0.8 thì mô hình có khả năng xảy ra đa cộng tuyến
Sử dụ ệnh corr, ta thu được kết quả như sau:
corr crime enroll priv police lenroll lpolice
(obs=97)
| crime enroll priv police lenroll lpolice -+ - crime | 1.0000
Trang 24Vì đa cộng tuyến là đặc trưng của mẫu nên có thể có mẫu khác liên quan đến cùng các biến trong mẫu ban đầu mà cộng tuyến có thể không nghiêm trọng nữa Điều này thực hiện được khi chi phí cho việc lấy mẫu khác có thể chấp nhận được trong thực tế Đối với nghiên cứ
ể giảm tính nghiêm trọng của đa cộng tuyến
2 ố thay đổi:
Một vấn đề khác mà mô hình cũng có thể gặp phải, đó là phương sai của sai số thay đổi Hậu quả của phương sai sai số thay đổi là các ước lượng bình phương nhỏ nhất vẫn là không chệch nhưng không còn hiệu quả nữa, cùng với đó ước lượng của các phương sai sẽ bị chệch, như vậy làm mất hiệu lực của kiểm định Điều này làm cho mô hình kém hiệu quả hơn
Phương sai của mỗi một ngẫu nhiên Ui, trong điều kiện giá trị đã cho của biến giải
thích Xi là không đổi, nghĩa là:
Khi giảthiết đó bị vi phạm thì mô hình mắclỗi phương sai sai sốthayđổi
Têngọicủalỗinàylà Heteroskedasticity
2.2 Nguyên nhân:
5 nguyên nhân ố thay đổi:
o Do bản chất của các hiện tượng kinh tế: Nếu các hiện tượng kinh tế theo không gian được điều tra trên những đối tượng có quy mô khác nhau hoặc các hiện tượng kinh tế theo thời gian được điều tra qua các giai đoạn có mức biến động khác nhau thì phương sai sai
số có thể không đồng đều
o Do định dạng không đúng dạng hàm của mô hình
o Do số liệu không phản ánh đúng bản chất của hiện tượng kinh tế, chẳng hạn xuất hiện các quan sát ngoại lai
o Do kỹ thuật thu thập, bảo quả ử lýsố liệu đượccải tiếnnên sai số có xu hướng giảm
o Họcđượccácsai lầm trongquákhứ, nhờ thế cảitiến tronghiện tại
2.3 ện dấu hiệu của phương sai sai số thay đồi:
Cách 1:Xem xét đồ thị của phần dư:
Trong cách này ta sẽ sử dụng đồ thị của sai số của hồi qui e (phần dư) với giá trị dự đoán Yi (biểu diễn sự tương quan giữa e và Yi)
Trang 25Từ cơ sở dữ liệu đã cho và phần mề rvfplot, yline (0) ta xây dựng
White's test for Ho: homoskedasticity
against Ha: unrestricted heteroskedasticity
Trang 26, kết quả kiểm định bằng lệnh imtest, white cho thấy Prob > chi2 =
0.0229< 0.05 => Bác bỏ giả thiết H0, H1 đúng hay mô
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
Variables: fitted values of crime
chi2(1) = 72.08
Prob > chi2 = 0.0000
Từ > chi2 = 0.0000 < 0.05 => Bác bỏ giả thiết H0
5%) :Với kết quả của các kiểm định trên ta có thể kết luận được rằng có xảy ra hiện tượng phương sai sai số thay đổi
3 Kiểm định vấn đề về phân phối chuẩn của sai số:
Bước 1: Dự đoán
- Tạo biến phần dư của mô hình, sử dụng lệnh : predict r, resid( với r là biến thể
hiện giá trị của phần dư residual)
- Sử dụng lệnh : kdensity r, normal
Trang 27kernel = epanechnikov, bandwidth = 41.5518
Kernel density estimate
Trang 284 :
15
Trang 29B 39
: GPA1_DTA
Như chúng ta đã biết và đặc biệt đối với các bạn sinh viên, GPA là một trong những thước
đo trình độ và năng lực của một cá nhân trong quá trình học tập và rèn luyện tại trường trung học và giảng đường đại học Được tính bởi điểm trung bình chung các môn học hay học phần tích lũy, GPA là kết quả học tập của cá nhân , dựa theo các thang điểm khác nhau của mỗi trường trung học và hệ cao đẳng đại học Nghiên cứu, xem xét sự ảnh hưởng của các yếu tố khác nhau lên điểm trung bình GPA góp phần đẩy mạnh cải cách và hoàn thiện giáo dục và hạn chế những ảnh hưởng tiêu cực từ môi trường xung quanh và bản thân mỗi cá nhân
Trong bài báo cáo này, chúng em xin được sử dụng bộ số liệu thống kê điểm GPA của sinh viên và một số thông số liên quan tại trường đại học bang Michigan, Hoa Kỳ để xem xét xem, liệu điểm GPA của sinh viên phụ thuộc vào những yếu tố nào và mức độ ảnh hưởng của các yếu tố đó ra sao Mong rằng nhờ có ứng dụng Stata – công cụ đo lường đặc trưng của kinh
tế lượng, bản báo cáo sẽ rút ra được nhiều điều thú vị và bổ ích
Trang 30I :
1
Trong đề tài này chúng em nêu ra và phân tích các yếu tố ảnh hưởng đến điểm trung bình (GPA) tại Đại học bang Michigan (MSU) Theo đó có rất nhiều yếu tố ảnh hưởng đến điểm GPA của sinh viên như điểm GPA trung học, điểm ACT v.v…
storage display value
variable name type format label variable label
-
-age byte %9.0g in years
soph byte %9.0g =1 if sophomore
junior byte %9.0g =1 if junior
senior byte %9.0g =1 if senior
senior5 byte %9.0g =1 if fifth year senior male byte %9.0g =1 if male
campus byte %9.0g =1 if live on campus
business byte %9.0g =1 if business major
engineer byte %9.0g =1 if engineering major colGPA float %9.0g MSU GPA
hsGPA float %9.0g high school GPA
ACT byte %9.0g 'achievement' score
job19 byte %9.0g =1 if job <= 19 hours
job20 byte %9.0g =1 if job >= 20 hours
Trang 31drive byte %9.0g =1 if drive to campus
bike byte %9.0g =1 if bicycle to campus walk byte %9.0g =1 if walk to campus
voluntr byte %9.0g =1 if do volunteer work
PC byte %9.0g =1 of pers computer at sch greek byte %9.0g =1 if fraternity or sorority
car byte %9.0g =1 if own car
siblings byte %9.0g =1 if have siblings
bgfriend byte %9.0g =1 if boy- or girlfriend more
Sau khi cân nhắc kĩ lưỡng chúng em quyết định chọn biến colGPA làm biến phụ thuộc
và các biến: ACT, hsGPA, PC, bgfriend, skipped, voluntr làm biến độc lập Tiến hành mô tả
biến độc lập và biến phụ thuộc bằng lệnh des ta thu được kết quả như sau:
des colGPA hsGPA ACT PC bgfriend skipped voluntr
storage display value
variable name type format label variable label
-
-colGPA float %9.0g MSU GPA
hsGPA float %9.0g high school GPA
ACT byte %9.0g 'achievement' score
PC byte %9.0g =1 of pers computer at sch
bgfriend byte %9.0g =1 if boy- or girlfriend
skipped float %9.0g avg lectures missed per week
voluntr byte %9.0g =1 if do volunteer work Theo bảng trên ta có thể hiểu được ý nghĩa của các biến như sau:
o colGPA: điểm GPA tại MSU
o hsGPA: điểm GPA tại trường trung học
o ACT: điểm trong kì thi ACT
o PC: biến giả cho biết có sở hữu máy vi tính hay không
Trang 32o bgfriend: biến giả có bạn trai/bạn gái hay không
o skipped: số buổi nghỉ học trung bình một tuần
o voluntr: biến giả cho biết có tham gia tình nguyện hay không
Tiếp tục sử dụng lện sum để mô tả số liệu Lệnh sum cho biết số lượng quan sát
(Obs) Giá trị trung bình (Mean), độ lệch chuẩn (Std dev) cũng như giá trị lớn nhất (Max)
và giá trị nhỏ nhất( Min ) của các biến
sum colGPA hsGPA ACT PC bgfriend skipped voluntr
Variable | Obs Mean Std Dev Min Max
-+ -
colGPA | 141 3.056738 .3723103 2.2 4
hsGPA | 141 3.402128 .3199259 2.4 4
ACT | 141 24.15603 2.844252 16 33
PC | 141 .3971631 .4910547 0 1
bgfriend | 141 .4751773 .5011638 0 1
-+ -
skipped | 141 1.076241 1.088882 0 5
voluntr | 141 .2198582 .4156269 0 1
:
Trang 35Trong số 141 sinh viên được hỏi có 85 sinh viên không sở hữu máy tính (60.28%) và
56 sinh viên có sở hữu máy tính (39,72%)
Trang 37Y( colGPA ):Điểm GPA bậc đại học tại MSU
Biến X ( biến độc lập ):
- X1 (hsGPA) : Điểm GPA tại trường trung học
- X2 (ACT) : Điểm trong kì thi ACT
- X3 (PC) : Có hay không có máy tính cá nhân tại trường ( biến giả, = 1 nếu có; =
0 nếu không có)
- X4 (bgfriend) : Có hay không có bạn trai hoặc bạn gái ( biến giả,= 1 nếu có ; = 0
nếu không có)
- X5 (skipped) : Số buổi nghỉ học trung bình một tuần( đv: buổi/tuần)
- X6 (voluntr) : Có tham gia tình nguyện hay không ( biến giả; =1 nếu có tham gia;
= 0 nếu không tham gia )
Như vậy ta có hàm hồi qui tổng thể PRF biểu diễn mối quan hệ phụ thuộc giữa Y
và các biến X như sau:
ColGPA = β 0 + β 1 * hsGPA+ β 2 * ACT + β 3 * PC + β 4 * bgfriend + β 5 * skipped + *
voluntr + u i
= + * hsGPA + * ACT + * PC + * bgfriend + *
skipped + * voluntr