Nhìn sơ qua số liệu chúng ta thấy hộ có số lao động chính càng nhiều thì thu nhập của hộ cũng càng cao Chúng ta thử nhập số liệu này vào R và vẽ một biểu đồ tán xạ như sau setwd("C /Users/hau99/OneDri[.]
Trang 6Nhìn s qua s li u chúng ta th y h có s lao đ ng chính càng nhi u thì thu nh p c a h ơ ố ệ ấ ộ ố ộ ề ậ ủ ộ cũng càng cao Chúng ta th nh p s li u này vào R và vẽ m t bi u đ tán x nh sau: ử ậ ố ệ ộ ể ồ ạ ư setwd("C:/Users/hau99/OneDrive/Desktop/TIN DUNG NONG NGHIEP/DATA")
data <- read.csv("Raw_Data_Test.csv")
#Gán bi nế
ThuNhap <- data[ ,c("ThuNhap")]
TuoiChuHo <- data[ ,c("TuoiChuHo")]
SoNamDiHoc <- data[ ,c("SoNamDiHoc")]
SoNhanKhau <- data[ ,c("SoNhanKhau")]
SoLaoDongChinh <- data[ ,c("SoLaoDongChinh")]
SoNguonTnNN <- data[ ,c("SoNguonTnNN")]
SoNguonTnPNN <- data[ ,c("SoNguonTnPNN")]
SoNamKinhNghiem <- data[ ,c("SoNamKinhNghiem")]
DienTich <- data[ ,c("DienTich")]
plot(ThuNhap ~ SoLaoDongChinh, pch = 16)
Trang 7Bi u đ trên cho th y m i liên h gi a ThuNhap và SoLaoDongChinh là m t đ ng th ng ể ồ ấ ố ệ ữ ộ ườ ẳ (tuy n tính) Đ “đo l ng” m i liên h này, chúng ta có th s d ng h s t ng quan ế ể ườ ố ệ ể ử ụ ệ ố ươ (coefficient of correlation)
Đ c tính h s t ng quan gi a đ tu i ThuNhap và SoLaoDongChinh, chúng ta có th s ể ướ ệ ố ươ ữ ộ ổ ể ử
d ng hàm cor(x,y) nh sau:ụ ư
> cor(ThuNhap, SoLaoDongChinh)
[1] 0.8451687
Chúng ta có th ki m đ nh gi thi t h s t ng quan b ng 0 (t c hai bi n x và y không có ể ể ị ả ế ệ ố ươ ằ ứ ế liên h ) Ph ng pháp ki m đ nh này th ng d a vào phép bi n đ i Fisher mà R đã có s n ệ ươ ể ị ườ ự ế ổ ẵ
m t hàm cor.test đ ti n hành vi c tính toán.ộ ể ế ệ
> cor.test(ThuNhap, SoLaoDongChinh)
Pearson's product-moment correlation
data: ThuNhap and SoLaoDongChinh
t = 22.25, df = 198, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.8002666 0.8806456
sample estimates:
cor
0.8451687
K t qu phân tích cho th y ki m đ nh t = ế ả ấ ể ị 22.25 v i tr s p=ớ ị ố < 2.2e-16; do đó, chúng ta có
b ng ch ng đ k t lu n r ng m i liên h gi a ThuNhap, SoLaoDongChinh có ý nghĩa th ng ằ ứ ể ế ậ ằ ố ệ ữ ố
kê K t lu n này cũng chính là k t lu n chúng ta đã đi đ n trong ph n phân tích h i qui ế ậ ế ậ ế ầ ồ tuy n tính trên.ế
Đ có m t “quang c nh” chung v d li u dataset chúng ta ch đ n gi n l nh summary nh ể ộ ả ề ữ ệ ỉ ơ ả ệ ư sau:
> summary(dataset)
K t qu trên cho t t c đ i t ng nghiên c u N u chúng ta mu n k t qu cho t ng nhóm ế ả ấ ả ố ượ ứ ế ố ế ả ừ nam và n riêng bi t, hàm by trong R r t h u d ng Trong l nh sau đây, chúng ta yêu c u R ữ ệ ấ ữ ụ ệ ầ tóm l c d li u igfdata theo sex.ượ ữ ệ
> by(igfdata, sex, summary)
Đ xem qua phân ph i c a các bi n s cùng m t lúc, chúng ta có th vẽ đ th cho t t c bi n ể ố ủ ế ố ộ ể ồ ị ấ ả ế
s Tr c h t, chia màn nh thành 6 c a s (v i 2 dòng và 3 c t); sau đó l n l t vẽ:ố ướ ế ả ử ổ ớ ộ ầ ượ
op <- par(mfrow=c(3,3))
hist(TuoiChuHo)
hist(SoNamDiHoc)
hist(SoNhanKhau)
hist(SoLaoDongChinh)
hist(SoNguonTnNN)
Trang 8hist(SoNamKinhNghiem)
hist(DienTich)
hist(ThuNhap)
Hàm lm (vi t t t t linear model) trong R có th tính toán các giá tr c a tham s m t cách ế ắ ừ ể ị ủ ố ộ nhanh g n.ọ
> lm(ThuNhap ~ SoLaoDongChinh)
Call:
lm(formula = ThuNhap ~ SoLaoDongChinh)
Coefficients:
(Intercept) SoLaoDongChinh
-1108202 7810142
Trong l nh trên, “ThuNhap ~ SoLaoDongChinh” có nghĩa là mô t ệ ả ThuNhap là m t hàm s c aộ ố ủ SoLaoDongChinh
K t qu tính toán c a ThuNhap cho th y a=1.0892 và b=0.05779, c= , d=ế ả ủ ấ
Nói cách khác, v i các thông s này, chúng ta có th c ThuNhap cho b t c h gia đình nào ớ ố ể ướ ấ ứ ộ
c a m u b ng ph ng trình tuy n tính:ủ ẫ ằ ươ ế
ThuNhap = -1,108,202 + 7,810,142 x SoLaoDongChinh + … -114.1 x DienTich
Ph ng trình này có nghĩa là khi SoLaoDongChinh tăng 1 ng i thì đ ThuNhap tăng kho ng ươ ườ ộ ả 6,701,940 đ/th
Trang 9Th t ra, hàm lm còn cung c p cho chúng ta nhi u thông tin khác, nh ng chúng ta ph i đ a cácậ ấ ề ư ả ư thông tin này vào m t object G i object đó là reg, thì l nh sẽ là:ộ ọ ệ
> reg <- lm(ThuNhap ~ SoLaoDongChinh)
> summary(reg)
Call:
lm(formula = ThuNhap ~ SoLaoDongChinh)
Residuals:
Min 1Q Median 3Q Max
-21362791 -5072224 1707847 5277776 18887209
Coefficients:
Estimate Std Error t value Pr(>|t|)
(Intercept) -1108202 1489660 -0.744 0.458
SoLaoDongChinh 7810142 351019 22.250 <2e-16 ***
-Signif codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8421000 on 198 degrees of freedom
Multiple R-squared: 0.7143, Adjusted R-squared: 0.7129
F-statistic: 495.1 on 1 and 198 DF, p-value: < 2.2e-16
L nh th hai, summary(reg), yêu c u R li t kê các thông tin tính toán trong reg Ph n k t qu ệ ứ ầ ệ ầ ế ả chia làm 3 ph n:ầ
(a) Ph n 1 mô t ph n d (residuals) c a mô hình h i qui:ầ ả ầ ư ủ ồ
Residuals:
Min 1Q Median 3Q Max
-21362791 -5072224 1707847 5277776 18887209
Chúng ta bi t r ng trung bình ph n d ph i là 0, và đây, s trung v là 1707847 , cũng ế ằ ầ ư ả ở ố ị không xa 0 bao nhiêu Các s quantiles 25% (1Q) và 75% (3Q) cũng khá cân đ i chung quanh ố ố
s trung v , cho th y ph n d c a ph ng trình này t ng đ i cân đ i.ố ị ấ ầ ư ủ ươ ươ ố ố
(b) Ph n hai trình bày c s c a a và b cùng v i sai s chu n và giá tr c a ki m đ nh t Giá ầ ướ ố ủ ớ ố ẩ ị ủ ể ị
tr ki m đ nh t cho b là 22.250 v i tr s p=<2e-16, cho th y b không ph i b ng 0 Nói cách ị ể ị ớ ị ố ấ ả ằ khác, chúng ta có b ng ch ng đ cho r ng có m t m i liên h gi a SoLaoDongChinh và ằ ứ ể ằ ộ ố ệ ữ ThuNhap, và m i liên h này có ý nghĩa th ng kê.ố ệ ố
Coefficients:
Estimate Std Error t value Pr(>|t|)
(Intercept) -1108202 1489660 -0.744 0.458
SoLaoDongChinh 7810142 351019 22.250 <2e-16 ***
-Signif codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(c) Ph n ba c a k t qu cho chúng ta thông tin v ph ng sai c a ph n d (residual mean ầ ủ ế ả ề ươ ủ ầ ư square) đây, s2 = 8421000 Trong k t qu này còn có ki m đ nh F, cũng ch là m t ki m Ở ế ả ể ị ỉ ộ ể
đ nh xem có qu th t b b ng 0, t c có ý nghĩa t ng t nh ki m đ nh t trong ph n trên Nóiị ả ậ ằ ứ ươ ự ư ể ị ầ chung, trong tr ng h p phân tích h i qui tuy n tính đ n gi n (v i m t y u t ) chúng ta ườ ợ ồ ế ơ ả ớ ộ ế ố không c n ph i quan tâm đ n ki m đ nh F.ầ ả ế ể ị
Residual standard error: 8421000 on 198 degrees of freedom
Trang 10Multiple R-squared: 0.7143, Adjusted R-squared: 0.7129
F-statistic: 495.1 on 1 and 198 DF, p-value: < 2.2e-16
Ngoài ra, ph n 3 còn cho chúng ta m t thông tin quan tr ng, đó là tr s R2 hay h s xác đ nhầ ộ ọ ị ố ệ ố ị
b i (coefficient of determination) ộ
Tr s R2 trong ví d này là 0.7143, có nghĩa là ph ng trình tuy n tính (v i SoLaoDongChinh ị ố ụ ươ ế ớ
là m t y u t ) gi i thích kho ng 71.43% các khác bi t v ThuNhap gi a các h gia đình T t ộ ế ố ả ả ệ ề ữ ộ ấ nhiên tr s R2 có giá tr 0 đ n 100% (hay 1) Giá tr R2 càng cao là m t d u hi u cho th y ị ố ị ừ ế ị ộ ấ ệ ấ
m i liên h gi a hai bi n s ThuNhap và SoLaoDongChinh càng ch t chẽ.ố ệ ữ ế ố ặ
M t h s cũng c n đ c p đây là h s đi u ch nh xác đ nh b i (mà trong k t qu trên R ộ ệ ố ầ ề ậ ở ệ ố ề ỉ ị ộ ế ả
g i là “Adjusted R-squared”) Đây là h s cho chúng ta bi t m c đ c i ti n c a ph ng sai ọ ệ ố ế ứ ộ ả ế ủ ươ
ph n d (residual variance) do y u t ầ ư ế ố SoLaoDongChinh có m t trong mô hình tuy n tính Nói ặ ế chung, h s này không khác m y so v i h s xác đ nh b i, và chúng ta cũng không c n chú ệ ố ấ ớ ệ ố ị ộ ầ tâm quá m c.ứ
#Gi đ nh c a phân tích h i qui tuy n tínhả ị ủ ồ ế
T t c các phân tích trên d a vào m t s gi đ nh quan tr ng nh sau:ấ ả ự ộ ố ả ị ọ ư
(a) x là m t bi n s c đ nh hay fixed, (“c đ nh” đây có nghĩa là không có sai sót ng u nhiênộ ế ố ố ị ố ị ở ẫ trong đo l ng);ườ
(b) ei phân ph i theo lu t phân ph i chu n;ố ậ ố ẩ
(c) ei có giá tr trung bình (mean) là 0;ị
(d) ei có ph ng sai s2 c đ nh cho t t c xi; vàươ ố ị ấ ả
(e) các giá tr liên t c c a ei không có liên h t ng quan v i nhau (nói cách khác, e1 và e2 ị ụ ủ ệ ươ ớ không có liên h v i nhau).ệ ớ
N u các gi đ nh này không đ c đáp ng thì mô hình mà chúng ta c tính có v n đ h p lí ế ả ị ượ ứ ướ ấ ề ợ (validity) Do đó, tr c khi trình bày và di n d ch mô hình trên, chúng ta c n ph i ki m tra ướ ễ ị ầ ả ể xem các gi đ nh trên có đáp ng đ c hay không ả ị ứ ượ
Trong tr ng h p này, gi đ nh (a) không ph i là v n đ , vì ườ ợ ả ị ả ấ ề SoLaoDongChinh không ph i là ả
m t bi n s ng u nhiên, và không có sai s khi tính ộ ế ố ẫ ố SoLaoDongChinh c a m t cá nhân ủ ộ
Đ i v i các gi đ nh (b) đ n (e), cách ki m tra đ n gi n nh ng h u hi u nh t là b ng cách ố ớ ả ị ế ể ơ ả ư ữ ệ ấ ằ xem xét m i liên h gi a y^i, xi và ph n d ei (ei = yi – y^i) b ng nh ng đ th tán x ố ệ ữ ầ ư ằ ữ ồ ị ạ
V i l nh fitted() chúng ta có th tính toán cho t ng cá nhân nh sau (ví d đ i v i nông h sớ ệ ể ừ ư ụ ố ớ ộ ố
1, SoLaoDongChinh = 2, ThuNhap có th tiên đoán nh sau: ThuNhap = -1,108,202 + ể ư
7,810,142 x2= 14512082)
> fitted(reg)
1 2 3 4 5 6 7 8 9 10 11 12 13
14512082 37942508 53562791 6701940 37942508 22322224 30132366 14512082
45752650 37942508 22322224 14512082 45752650
14 15 16 17 18 19 20 21 22 23 24 25 26
30132366 53562791 6701940 37942508 22322224 37942508 22322224 37942508
22322224 14512082 14512082 22322224 30132366
27 28 29 30 31 32 33 34 35 36 37 38 39
Trang 1137942508 22322224 45752650 14512082 53562791 37942508 6701940 30132366
37942508 45752650 37942508 14512082 14512082
40 41 42 43 44 45 46 47 48 49 50 51 52
53562791 22322224 30132366 14512082 22322224 22322224 30132366 37942508
30132366 14512082 37942508 53562791 45752650
53 54 55 56 57 58 59 60 61 62 63 64 65
14512082 37942508 22322224 14512082 53562791 6701940 22322224 30132366
14512082 30132366 14512082 22322224 45752650
66 67 68 69 70 71 72 73 74 75 76 77 78
30132366 22322224 30132366 14512082 53562791 14512082 22322224 37942508
37942508 45752650 22322224 14512082 30132366
79 80 81 82 83 84 85 86 87 88 89 90 91
53562791 22322224 45752650 14512082 30132366 22322224 22322224 14512082
30132366 14512082 22322224 37942508 22322224
92 93 94 95 96 97 98 99 100 101 102 103 104
14512082 22322224 45752650 30132366 30132366 14512082 22322224 37942508
14512082 53562791 14512082 37942508 30132366
105 106 107 108 109 110 111 112 113 114 115 116 117
30132366 30132366 53562791 53562791 45752650 6701940 37942508 53562791
37942508 37942508 14512082 30132366 22322224
118 119 120 121 122 123 124 125 126 127 128 129 130
30132366 37942508 14512082 45752650 14512082 6701940 37942508 6701940
37942508 37942508 37942508 6701940 37942508
131 132 133 134 135 136 137 138 139 140 141 142 143
53562791 22322224 22322224 45752650 37942508 22322224 22322224 45752650
14512082 37942508 22322224 53562791 53562791
144 145 146 147 148 149 150 151 152 153 154 155 156
53562791 6701940 14512082 37942508 45752650 37942508 37942508 22322224
22322224 37942508 14512082 30132366 22322224
157 158 159 160 161 162 163 164 165 166 167 168 169
37942508 22322224 30132366 37942508 22322224 14512082 22322224 14512082
14512082 45752650 30132366 6701940 14512082
170 171 172 173 174 175 176 177 178 179 180 181 182
45752650 22322224 22322224 22322224 22322224 22322224 30132366 14512082
14512082 37942508 37942508 53562791 45752650
183 184 185 186 187 188 189 190 191 192 193 194 195
22322224 45752650 30132366 22322224 22322224 6701940 37942508 22322224
45752650 53562791 22322224 37942508 30132366
196 197 198 199 200
14512082 22322224 30132366 45752650 14512082
V i l nh resid() chúng ta có th tính toán ph n d ei cho t ng cá nhân nh sau (v i h gia ớ ệ ể ầ ư ừ ư ớ ộ đình s 1, e1 ố = 9200000– 14512082= -5312081.7):
> resid(reg)
1 2 3 4 5 6 7 8 9 10
-5312081.7 2307492.4 18887208.6 -2101939.8 -3442507.6 5277776.3 -11732365.6 6187918.3 -11252649.5 2307492.4
11 12 13 14 15 16 17 18 19 20
Trang 121827776.3 1587918.3 2547350.5 6667634.4 -21362791.4 2498060.2 2307492.4 5277776.3 2307492.4 -5072223.7
21 22 23 24 25 26 27 28 29 30
-14942507.6 -1622223.7 -712081.7 -712081.7 -5072223.7 6667634.4 2307492.4 1827776.3 -18152649.5 3887918.3
31 32 33 34 35 36 37 38 39 40
13312791.4 8057492.4 3648060.2 6667634.4 3442507.6 18152649.5 9192507.6 -712081.7 6187918.3 18887208.6
41 42 43 44 45 46 47 48 49 50
5277776.3 11267634.4 3887918.3 1622223.7 8522223.7 2532365.6 13807492.4 -7132365.6 -712081.7 -3442507.6
51 52 53 54 55 56 57 58 59 60
21362791.4 11252649.5 1587918.3 8057492.4 8522223.7 3012081.7 10837208.6 -951939.8 1827776.3 -7132365.6
61 62 63 64 65 66 67 68 69 70
3887918.3 2532365.6 3887918.3 5277776.3 11252649.5 2532365.6 5072223.7 -2532365.6 -3012081.7 -13312791.4
71 72 73 74 75 76 77 78 79 80
3012081.7 1622223.7 2307492.4 2307492.4 9447350.5 1622223.7 712081.7 -2532365.6 -21362791.4 -1622223.7
81 82 83 84 85 86 87 88 89 90
-11252649.5 6187918.3 6667634.4 -5072223.7 -1622223.7 -5312081.7 -11732365.6 3887918.3 -8522223.7 -3442507.6
91 92 93 94 95 96 97 98 99 100
1622223.7 5312081.7 5072223.7 16347350.5 11267634.4 6667634.4 3887918.3 -8522223.7 -14942507.6 3887918.3
101 102 103 104 105 106 107 108 109 110
18887208.6 -712081.7 -9192507.6 -2532365.6 2067634.4 11267634.4 2787208.6 10837208.6 2547350.5 2498060.2
111 112 113 114 115 116 117 118 119 120
9192507.6 10837208.6 8057492.4 13807492.4 3887918.3 2067634.4 1827776.3 -11732365.6 8057492.4 -712081.7
121 122 123 124 125 126 127 128 129 130
-18152649.5 -5312081.7 -2101939.8 -3442507.6 3648060.2 8057492.4 -3442507.6 2307492.4 2498060.2 -14942507.6
131 132 133 134 135 136 137 138 139 140
18887208.6 8727776.3 5072223.7 11252649.5 3442507.6 5277776.3 8522223.7 -11252649.5 6187918.3 -9192507.6
141 142 143 144 145 146 147 148 149 150
5277776.3 10837208.6 2787208.6 10837208.6 2498060.2 3887918.3 8057492.4 9447350.5 -3442507.6 2307492.4
151 152 153 154 155 156 157 158 159 160
8522223.7 5072223.7 9192507.6 3887918.3 2532365.6 8727776.3 14942507.6 -1622223.7 6667634.4 -14942507.6
161 162 163 164 165 166 167 168 169 170
8522223.7 3012081.7 5277776.3 3887918.3 3012081.7 9447350.5 11732365.6 -2101939.8 3887918.3 9447350.5
171 172 173 174 175 176 177 178 179 180