1. Trang chủ
  2. » Luận Văn - Báo Cáo

11 phu luc ket qua chay phan mem r pending

15 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề 11 Phu Luc Ket Qua Chay Phan Mem R Pending
Trường học University of Science and Technology
Chuyên ngành Software Engineering
Thể loại Pending
Thành phố Hanoi
Định dạng
Số trang 15
Dung lượng 502,17 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nhìn sơ qua số liệu chúng ta thấy hộ có số lao động chính càng nhiều thì thu nhập của hộ cũng càng cao Chúng ta thử nhập số liệu này vào R và vẽ một biểu đồ tán xạ như sau setwd("C /Users/hau99/OneDri[.]

Trang 6

Nhìn s qua s li u chúng ta th y h có s lao đ ng chính càng nhi u thì thu nh p c a h ơ ố ệ ấ ộ ố ộ ề ậ ủ ộ cũng càng cao Chúng ta th nh p s li u này vào R và vẽ m t bi u đ tán x nh sau: ử ậ ố ệ ộ ể ồ ạ ư setwd("C:/Users/hau99/OneDrive/Desktop/TIN DUNG NONG NGHIEP/DATA")

data <- read.csv("Raw_Data_Test.csv")

#Gán bi nế

ThuNhap <- data[ ,c("ThuNhap")]

TuoiChuHo <- data[ ,c("TuoiChuHo")]

SoNamDiHoc <- data[ ,c("SoNamDiHoc")]

SoNhanKhau <- data[ ,c("SoNhanKhau")]

SoLaoDongChinh <- data[ ,c("SoLaoDongChinh")]

SoNguonTnNN <- data[ ,c("SoNguonTnNN")]

SoNguonTnPNN <- data[ ,c("SoNguonTnPNN")]

SoNamKinhNghiem <- data[ ,c("SoNamKinhNghiem")]

DienTich <- data[ ,c("DienTich")]

plot(ThuNhap ~ SoLaoDongChinh, pch = 16)

Trang 7

Bi u đ trên cho th y m i liên h gi a ThuNhap và SoLaoDongChinh là m t đ ng th ng ể ồ ấ ố ệ ữ ộ ườ ẳ (tuy n tính) Đ “đo l ng” m i liên h này, chúng ta có th s d ng h s t ng quan ế ể ườ ố ệ ể ử ụ ệ ố ươ (coefficient of correlation)

Đ c tính h s t ng quan gi a đ tu i ThuNhap và SoLaoDongChinh, chúng ta có th s ể ướ ệ ố ươ ữ ộ ổ ể ử

d ng hàm cor(x,y) nh sau:ụ ư

> cor(ThuNhap, SoLaoDongChinh)

[1] 0.8451687

Chúng ta có th ki m đ nh gi thi t h s t ng quan b ng 0 (t c hai bi n x và y không có ể ể ị ả ế ệ ố ươ ằ ứ ế liên h ) Ph ng pháp ki m đ nh này th ng d a vào phép bi n đ i Fisher mà R đã có s n ệ ươ ể ị ườ ự ế ổ ẵ

m t hàm cor.test đ ti n hành vi c tính toán.ộ ể ế ệ

> cor.test(ThuNhap, SoLaoDongChinh)

Pearson's product-moment correlation

data: ThuNhap and SoLaoDongChinh

t = 22.25, df = 198, p-value < 2.2e-16

alternative hypothesis: true correlation is not equal to 0

95 percent confidence interval:

0.8002666 0.8806456

sample estimates:

cor

0.8451687

K t qu phân tích cho th y ki m đ nh t = ế ả ấ ể ị 22.25 v i tr s p=ớ ị ố < 2.2e-16; do đó, chúng ta có

b ng ch ng đ k t lu n r ng m i liên h gi a ThuNhap, SoLaoDongChinh có ý nghĩa th ng ằ ứ ể ế ậ ằ ố ệ ữ ố

kê K t lu n này cũng chính là k t lu n chúng ta đã đi đ n trong ph n phân tích h i qui ế ậ ế ậ ế ầ ồ tuy n tính trên.ế

Đ có m t “quang c nh” chung v d li u dataset chúng ta ch đ n gi n l nh summary nh ể ộ ả ề ữ ệ ỉ ơ ả ệ ư sau:

> summary(dataset)

K t qu trên cho t t c đ i t ng nghiên c u N u chúng ta mu n k t qu cho t ng nhóm ế ả ấ ả ố ượ ứ ế ố ế ả ừ nam và n riêng bi t, hàm by trong R r t h u d ng Trong l nh sau đây, chúng ta yêu c u R ữ ệ ấ ữ ụ ệ ầ tóm l c d li u igfdata theo sex.ượ ữ ệ

> by(igfdata, sex, summary)

Đ xem qua phân ph i c a các bi n s cùng m t lúc, chúng ta có th vẽ đ th cho t t c bi n ể ố ủ ế ố ộ ể ồ ị ấ ả ế

s Tr c h t, chia màn nh thành 6 c a s (v i 2 dòng và 3 c t); sau đó l n l t vẽ:ố ướ ế ả ử ổ ớ ộ ầ ượ

op <- par(mfrow=c(3,3))

hist(TuoiChuHo)

hist(SoNamDiHoc)

hist(SoNhanKhau)

hist(SoLaoDongChinh)

hist(SoNguonTnNN)

Trang 8

hist(SoNamKinhNghiem)

hist(DienTich)

hist(ThuNhap)

Hàm lm (vi t t t t linear model) trong R có th tính toán các giá tr c a tham s m t cách ế ắ ừ ể ị ủ ố ộ nhanh g n.ọ

> lm(ThuNhap ~ SoLaoDongChinh)

Call:

lm(formula = ThuNhap ~ SoLaoDongChinh)

Coefficients:

(Intercept) SoLaoDongChinh

-1108202 7810142

Trong l nh trên, “ThuNhap ~ SoLaoDongChinh” có nghĩa là mô t ệ ả ThuNhap là m t hàm s c aộ ố ủ SoLaoDongChinh

K t qu tính toán c a ThuNhap cho th y a=1.0892 và b=0.05779, c= , d=ế ả ủ ấ

Nói cách khác, v i các thông s này, chúng ta có th c ThuNhap cho b t c h gia đình nào ớ ố ể ướ ấ ứ ộ

c a m u b ng ph ng trình tuy n tính:ủ ẫ ằ ươ ế

ThuNhap = -1,108,202 + 7,810,142 x SoLaoDongChinh + … -114.1 x DienTich

Ph ng trình này có nghĩa là khi SoLaoDongChinh tăng 1 ng i thì đ ThuNhap tăng kho ng ươ ườ ộ ả 6,701,940 đ/th

Trang 9

Th t ra, hàm lm còn cung c p cho chúng ta nhi u thông tin khác, nh ng chúng ta ph i đ a cácậ ấ ề ư ả ư thông tin này vào m t object G i object đó là reg, thì l nh sẽ là:ộ ọ ệ

> reg <- lm(ThuNhap ~ SoLaoDongChinh)

> summary(reg)

Call:

lm(formula = ThuNhap ~ SoLaoDongChinh)

Residuals:

Min 1Q Median 3Q Max

-21362791 -5072224 1707847 5277776 18887209

Coefficients:

Estimate Std Error t value Pr(>|t|)

(Intercept) -1108202 1489660 -0.744 0.458

SoLaoDongChinh 7810142 351019 22.250 <2e-16 ***

-Signif codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 8421000 on 198 degrees of freedom

Multiple R-squared: 0.7143, Adjusted R-squared: 0.7129

F-statistic: 495.1 on 1 and 198 DF, p-value: < 2.2e-16

L nh th hai, summary(reg), yêu c u R li t kê các thông tin tính toán trong reg Ph n k t qu ệ ứ ầ ệ ầ ế ả chia làm 3 ph n:ầ

(a) Ph n 1 mô t ph n d (residuals) c a mô hình h i qui:ầ ả ầ ư ủ ồ

Residuals:

Min 1Q Median 3Q Max

-21362791 -5072224 1707847 5277776 18887209

Chúng ta bi t r ng trung bình ph n d ph i là 0, và đây, s trung v là 1707847 , cũng ế ằ ầ ư ả ở ố ị không xa 0 bao nhiêu Các s quantiles 25% (1Q) và 75% (3Q) cũng khá cân đ i chung quanh ố ố

s trung v , cho th y ph n d c a ph ng trình này t ng đ i cân đ i.ố ị ấ ầ ư ủ ươ ươ ố ố

(b) Ph n hai trình bày c s c a a và b cùng v i sai s chu n và giá tr c a ki m đ nh t Giá ầ ướ ố ủ ớ ố ẩ ị ủ ể ị

tr ki m đ nh t cho b là 22.250 v i tr s p=<2e-16, cho th y b không ph i b ng 0 Nói cách ị ể ị ớ ị ố ấ ả ằ khác, chúng ta có b ng ch ng đ cho r ng có m t m i liên h gi a SoLaoDongChinh và ằ ứ ể ằ ộ ố ệ ữ ThuNhap, và m i liên h này có ý nghĩa th ng kê.ố ệ ố

Coefficients:

Estimate Std Error t value Pr(>|t|)

(Intercept) -1108202 1489660 -0.744 0.458

SoLaoDongChinh 7810142 351019 22.250 <2e-16 ***

-Signif codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(c) Ph n ba c a k t qu cho chúng ta thông tin v ph ng sai c a ph n d (residual mean ầ ủ ế ả ề ươ ủ ầ ư square) đây, s2 = 8421000 Trong k t qu này còn có ki m đ nh F, cũng ch là m t ki m Ở ế ả ể ị ỉ ộ ể

đ nh xem có qu th t b b ng 0, t c có ý nghĩa t ng t nh ki m đ nh t trong ph n trên Nóiị ả ậ ằ ứ ươ ự ư ể ị ầ chung, trong tr ng h p phân tích h i qui tuy n tính đ n gi n (v i m t y u t ) chúng ta ườ ợ ồ ế ơ ả ớ ộ ế ố không c n ph i quan tâm đ n ki m đ nh F.ầ ả ế ể ị

Residual standard error: 8421000 on 198 degrees of freedom

Trang 10

Multiple R-squared: 0.7143, Adjusted R-squared: 0.7129

F-statistic: 495.1 on 1 and 198 DF, p-value: < 2.2e-16

Ngoài ra, ph n 3 còn cho chúng ta m t thông tin quan tr ng, đó là tr s R2 hay h s xác đ nhầ ộ ọ ị ố ệ ố ị

b i (coefficient of determination) ộ

Tr s R2 trong ví d này là 0.7143, có nghĩa là ph ng trình tuy n tính (v i SoLaoDongChinh ị ố ụ ươ ế ớ

là m t y u t ) gi i thích kho ng 71.43% các khác bi t v ThuNhap gi a các h gia đình T t ộ ế ố ả ả ệ ề ữ ộ ấ nhiên tr s R2 có giá tr 0 đ n 100% (hay 1) Giá tr R2 càng cao là m t d u hi u cho th y ị ố ị ừ ế ị ộ ấ ệ ấ

m i liên h gi a hai bi n s ThuNhap và SoLaoDongChinh càng ch t chẽ.ố ệ ữ ế ố ặ

M t h s cũng c n đ c p đây là h s đi u ch nh xác đ nh b i (mà trong k t qu trên R ộ ệ ố ầ ề ậ ở ệ ố ề ỉ ị ộ ế ả

g i là “Adjusted R-squared”) Đây là h s cho chúng ta bi t m c đ c i ti n c a ph ng sai ọ ệ ố ế ứ ộ ả ế ủ ươ

ph n d (residual variance) do y u t ầ ư ế ố SoLaoDongChinh có m t trong mô hình tuy n tính Nói ặ ế chung, h s này không khác m y so v i h s xác đ nh b i, và chúng ta cũng không c n chú ệ ố ấ ớ ệ ố ị ộ ầ tâm quá m c.ứ

#Gi đ nh c a phân tích h i qui tuy n tínhả ị ủ ồ ế

T t c các phân tích trên d a vào m t s gi đ nh quan tr ng nh sau:ấ ả ự ộ ố ả ị ọ ư

(a) x là m t bi n s c đ nh hay fixed, (“c đ nh” đây có nghĩa là không có sai sót ng u nhiênộ ế ố ố ị ố ị ở ẫ trong đo l ng);ườ

(b) ei phân ph i theo lu t phân ph i chu n;ố ậ ố ẩ

(c) ei có giá tr trung bình (mean) là 0;ị

(d) ei có ph ng sai s2 c đ nh cho t t c xi; vàươ ố ị ấ ả

(e) các giá tr liên t c c a ei không có liên h t ng quan v i nhau (nói cách khác, e1 và e2 ị ụ ủ ệ ươ ớ không có liên h v i nhau).ệ ớ

N u các gi đ nh này không đ c đáp ng thì mô hình mà chúng ta c tính có v n đ h p lí ế ả ị ượ ứ ướ ấ ề ợ (validity) Do đó, tr c khi trình bày và di n d ch mô hình trên, chúng ta c n ph i ki m tra ướ ễ ị ầ ả ể xem các gi đ nh trên có đáp ng đ c hay không ả ị ứ ượ

Trong tr ng h p này, gi đ nh (a) không ph i là v n đ , vì ườ ợ ả ị ả ấ ề SoLaoDongChinh không ph i là ả

m t bi n s ng u nhiên, và không có sai s khi tính ộ ế ố ẫ ố SoLaoDongChinh c a m t cá nhân ủ ộ

Đ i v i các gi đ nh (b) đ n (e), cách ki m tra đ n gi n nh ng h u hi u nh t là b ng cách ố ớ ả ị ế ể ơ ả ư ữ ệ ấ ằ xem xét m i liên h gi a y^i, xi và ph n d ei (ei = yi – y^i) b ng nh ng đ th tán x ố ệ ữ ầ ư ằ ữ ồ ị ạ

V i l nh fitted() chúng ta có th tính toán cho t ng cá nhân nh sau (ví d đ i v i nông h sớ ệ ể ừ ư ụ ố ớ ộ ố

1, SoLaoDongChinh = 2, ThuNhap có th tiên đoán nh sau: ThuNhap = -1,108,202 + ể ư

7,810,142 x2= 14512082)

> fitted(reg)

1 2 3 4 5 6 7 8 9 10 11 12 13

14512082 37942508 53562791 6701940 37942508 22322224 30132366 14512082

45752650 37942508 22322224 14512082 45752650

14 15 16 17 18 19 20 21 22 23 24 25 26

30132366 53562791 6701940 37942508 22322224 37942508 22322224 37942508

22322224 14512082 14512082 22322224 30132366

27 28 29 30 31 32 33 34 35 36 37 38 39

Trang 11

37942508 22322224 45752650 14512082 53562791 37942508 6701940 30132366

37942508 45752650 37942508 14512082 14512082

40 41 42 43 44 45 46 47 48 49 50 51 52

53562791 22322224 30132366 14512082 22322224 22322224 30132366 37942508

30132366 14512082 37942508 53562791 45752650

53 54 55 56 57 58 59 60 61 62 63 64 65

14512082 37942508 22322224 14512082 53562791 6701940 22322224 30132366

14512082 30132366 14512082 22322224 45752650

66 67 68 69 70 71 72 73 74 75 76 77 78

30132366 22322224 30132366 14512082 53562791 14512082 22322224 37942508

37942508 45752650 22322224 14512082 30132366

79 80 81 82 83 84 85 86 87 88 89 90 91

53562791 22322224 45752650 14512082 30132366 22322224 22322224 14512082

30132366 14512082 22322224 37942508 22322224

92 93 94 95 96 97 98 99 100 101 102 103 104

14512082 22322224 45752650 30132366 30132366 14512082 22322224 37942508

14512082 53562791 14512082 37942508 30132366

105 106 107 108 109 110 111 112 113 114 115 116 117

30132366 30132366 53562791 53562791 45752650 6701940 37942508 53562791

37942508 37942508 14512082 30132366 22322224

118 119 120 121 122 123 124 125 126 127 128 129 130

30132366 37942508 14512082 45752650 14512082 6701940 37942508 6701940

37942508 37942508 37942508 6701940 37942508

131 132 133 134 135 136 137 138 139 140 141 142 143

53562791 22322224 22322224 45752650 37942508 22322224 22322224 45752650

14512082 37942508 22322224 53562791 53562791

144 145 146 147 148 149 150 151 152 153 154 155 156

53562791 6701940 14512082 37942508 45752650 37942508 37942508 22322224

22322224 37942508 14512082 30132366 22322224

157 158 159 160 161 162 163 164 165 166 167 168 169

37942508 22322224 30132366 37942508 22322224 14512082 22322224 14512082

14512082 45752650 30132366 6701940 14512082

170 171 172 173 174 175 176 177 178 179 180 181 182

45752650 22322224 22322224 22322224 22322224 22322224 30132366 14512082

14512082 37942508 37942508 53562791 45752650

183 184 185 186 187 188 189 190 191 192 193 194 195

22322224 45752650 30132366 22322224 22322224 6701940 37942508 22322224

45752650 53562791 22322224 37942508 30132366

196 197 198 199 200

14512082 22322224 30132366 45752650 14512082

V i l nh resid() chúng ta có th tính toán ph n d ei cho t ng cá nhân nh sau (v i h gia ớ ệ ể ầ ư ừ ư ớ ộ đình s 1, e1 ố = 9200000– 14512082= -5312081.7):

> resid(reg)

1 2 3 4 5 6 7 8 9 10

-5312081.7 2307492.4 18887208.6 -2101939.8 -3442507.6 5277776.3 -11732365.6 6187918.3 -11252649.5 2307492.4

11 12 13 14 15 16 17 18 19 20

Trang 12

1827776.3 1587918.3 2547350.5 6667634.4 -21362791.4 2498060.2 2307492.4 5277776.3 2307492.4 -5072223.7

21 22 23 24 25 26 27 28 29 30

-14942507.6 -1622223.7 -712081.7 -712081.7 -5072223.7 6667634.4 2307492.4 1827776.3 -18152649.5 3887918.3

31 32 33 34 35 36 37 38 39 40

13312791.4 8057492.4 3648060.2 6667634.4 3442507.6 18152649.5 9192507.6 -712081.7 6187918.3 18887208.6

41 42 43 44 45 46 47 48 49 50

5277776.3 11267634.4 3887918.3 1622223.7 8522223.7 2532365.6 13807492.4 -7132365.6 -712081.7 -3442507.6

51 52 53 54 55 56 57 58 59 60

21362791.4 11252649.5 1587918.3 8057492.4 8522223.7 3012081.7 10837208.6 -951939.8 1827776.3 -7132365.6

61 62 63 64 65 66 67 68 69 70

3887918.3 2532365.6 3887918.3 5277776.3 11252649.5 2532365.6 5072223.7 -2532365.6 -3012081.7 -13312791.4

71 72 73 74 75 76 77 78 79 80

3012081.7 1622223.7 2307492.4 2307492.4 9447350.5 1622223.7 712081.7 -2532365.6 -21362791.4 -1622223.7

81 82 83 84 85 86 87 88 89 90

-11252649.5 6187918.3 6667634.4 -5072223.7 -1622223.7 -5312081.7 -11732365.6 3887918.3 -8522223.7 -3442507.6

91 92 93 94 95 96 97 98 99 100

1622223.7 5312081.7 5072223.7 16347350.5 11267634.4 6667634.4 3887918.3 -8522223.7 -14942507.6 3887918.3

101 102 103 104 105 106 107 108 109 110

18887208.6 -712081.7 -9192507.6 -2532365.6 2067634.4 11267634.4 2787208.6 10837208.6 2547350.5 2498060.2

111 112 113 114 115 116 117 118 119 120

9192507.6 10837208.6 8057492.4 13807492.4 3887918.3 2067634.4 1827776.3 -11732365.6 8057492.4 -712081.7

121 122 123 124 125 126 127 128 129 130

-18152649.5 -5312081.7 -2101939.8 -3442507.6 3648060.2 8057492.4 -3442507.6 2307492.4 2498060.2 -14942507.6

131 132 133 134 135 136 137 138 139 140

18887208.6 8727776.3 5072223.7 11252649.5 3442507.6 5277776.3 8522223.7 -11252649.5 6187918.3 -9192507.6

141 142 143 144 145 146 147 148 149 150

5277776.3 10837208.6 2787208.6 10837208.6 2498060.2 3887918.3 8057492.4 9447350.5 -3442507.6 2307492.4

151 152 153 154 155 156 157 158 159 160

8522223.7 5072223.7 9192507.6 3887918.3 2532365.6 8727776.3 14942507.6 -1622223.7 6667634.4 -14942507.6

161 162 163 164 165 166 167 168 169 170

8522223.7 3012081.7 5277776.3 3887918.3 3012081.7 9447350.5 11732365.6 -2101939.8 3887918.3 9447350.5

171 172 173 174 175 176 177 178 179 180

Ngày đăng: 19/04/2023, 12:31

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w