ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINHTRƯỜNG ĐẠI HỌC BÁCH KHOA ---o0o--- BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ ??? GVHD: Nguyễn Đình Huy Thực Hiện: Nhóm 7, Khoa Máy Tính... Đếồ bài • p
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA -o0o -
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
🙡🙡🙡
GVHD: Nguyễn Đình Huy Thực Hiện: Nhóm 7, Khoa Máy Tính
Trang 2M C L C Ụ Ụ
PHẦẦN CHUNG 1
PHẦẦN RIÊNG 18
1 Đ c d li u ọ ữ ệ 19
2 Làm s ch d li u ạ ữ ệ 19
3 Làm rõ d li u ữ ệ 21
4 Xây d ng mô hình hôồi quy tuyếến tnh ự 29
5 D đoán ự 35
Trang 3CH ƯƠ NG 2: HO T Đ NG 2 Ạ Ộ
2.1 Đếồ bài
• price: Giá nhà được bán ra
• floors: Sồấ tâồng c a ngồi nhà đủ ược phân lo i t 1 - 3.5.ạ ừ
• condition: Điếồu ki n kiếấn trúc c a ngồi nhà t 1 - 5, 1: râất t và 5: râất tồất ệ ủ ừ ệ
• view: Đánh giá c nh quan xung quanh nhà theo m c đ t thâấp đếấn cao: 0 - 4 ả ứ ộ ừ
• sqft_above: Di n tích ngồi nhà.ệ
• sqft_living: Di n tích khuồn viến nhà.ệ
• sqft_basement: Di n tích tâồng hâồm.ệ
Các b ướ c th c hi n: ự ệ
1
Downloaded by Hoc Vu (vuchinhhp7@gmail.com)
lOMoARcPSD|22494962
Trang 42.3.2 Ki m tra d li u khuyếết ể ữ ệ
Trang 5Nh n xét: ậ T kếất qu thu đừ ả ược khi th c hi n ki m tra d li u khuyếất trong ự ệ ể ữ ệ new_HP, ta nh n thâấy có 20 ậ
2.3.3 Ki m tra l i còn d li u khuyếết hay không ể ạ ữ ệ
Nh n xét: ậ Ta nh n thâấy sau khi x lý, khồng còn d li u khuyếất.ậ ử ữ ệ
2.4 Làm rõ d li u ữ ệ
log(sqft_above+1), log(sqft_living+1) và log(sqft_basement+1) T đây tâất c m i tính toán đếồu d a trếnừ ả ọ ự
3
Downloaded by Hoc Vu (vuchinhhp7@gmail.com)
lOMoARcPSD|22494962
Trang 62.4.1 Gi i thích lý do chuy n sang d ng log(x+1) ả ể ạ
2.4.2 Tính các giá tr thôếng kế mô t cho các biếến log(price+1), log(sqft_above+1), ị ả log(sqft_living+1) và log(sqft_basement+1).
2.4.3 Veẽ bi u đôồ histogram th hi n phân phôếi c a biếến price và biếến log(price+1) ể ể ệ ủ
đây ta s d ng hàm hist() nh n vào m t danh sách đ bi u diếẫn đồồ th Trong đó có các tham sồấ gồồm
Trang 7Downloaded by Hoc Vu (vuchinhhp7@gmail.com)
lOMoARcPSD|22494962
Trang 8Nh n xét: ậ Quan sát bi u đồồ histogram c a biếấn ể ủ price, có th nh n thâấy phân phồấi c a biếấn ể ậ ủ price có xu
2.4.4 Veẽ bi u đôồ boxplot th hi n phân phôếi c a biếến log(price+1) theo t ng biếến phân lo i: ể ể ệ ủ ừ ạ floors, condition, view
Trang 9Nh n xét: ậ
có sồấ tâồng là 2.5 seẫ có giá tr ịlog(price+1) cao nhâất.
7
Downloaded by Hoc Vu (vuchinhhp7@gmail.com)
lOMoARcPSD|22494962
Trang 10Nh n xét: ậ
condition, có th thâấy khi điếồu ki n kiếấn trúc c a ngồi nhà tằng dâồn t 1 đếấn 5, giá tr ể ệ ủ ừ ị log(price+1) khồng
log(price+1) có xu hướng gi m đi Ngả ượ ạc l i, khi điếồu ki n kiếấn trúc tếấp t c gia tằng t 3 đếấn 5, giá trệ ụ ừ ị
log(price+1) l i có xu hạ ướng gia tằng tuy m c đ chếnh l ch khồng quá nhiếồu Bến c nh đó, t kếất quứ ộ ệ ạ ừ ả
trúc là 5 seẫ có giá tr ịlog(price+1) cao nhâất.
Trang 11Nh n xét: ậ
9
Downloaded by Hoc Vu (vuchinhhp7@gmail.com)
lOMoARcPSD|22494962
Trang 122.4.5 Veẽ bi u đôồ phân tán th hi n phân phôếi c a biếến price theo biếến sqft_above và biếến ể ể ệ ủ log(price+1) theo biếến log(sqft_above+1)
Nh n xét: ậ Mồấi quan h tuyếấn tính gi a hai biếấn đ nh lệ ữ ị ượng price và sqft_above ch a đư ược th hi n rõể ệ
log(price+1) và log(sqft_above+1) thì nh ng đi m phân tán có xu hữ ể ướng t p trung thành m t đậ ộ ường
2.4.6 Veẽ bi u đôồ phân tán th hi n phân phôếi c a biếến price theo biếến sqft_living và biếến ể ể ệ ủ log(price+1) theo biếến log(sqft_living+1)
Trang 13Nh n xét: ậ Mồấi quan h tuyếấn tính gi a hai biếấn đ nh lệ ữ ị ượng price và sqft_living ch a đư ược th hi n rõể ệ
log(price+1) và log(sqft_living+1) thì nh ng đi m phân tán có xu hữ ể ướng t p trung thành m t đậ ộ ường
log(price+1) theo biếến log(sqft_basement+1)
11
Downloaded by Hoc Vu (vuchinhhp7@gmail.com)
lOMoARcPSD|22494962
Trang 14Nh n xét: ậ Mồấi quan h tuyếấn tính gi a hai biếấn đ nh lệ ữ ị ượng price và sqft_basement ch a đư ược th hi nể ệ
log(price+1) và log(sqft_basement+1) thì nh ng đi m phân tán có xu hữ ể ướng t p trung thành m t đậ ộ ường
2.5 Xây d ng mô hình hôồi quy tuyếến tnh đánh giá các nhân tôế có th nh h ự ể ả ưở ng đếến giá nhà qu n ở ậ King
Log(price+1) = + + + + + + +
Trang 15Residuals (sai sôế hôồi quy) đây được xem là đ chếnh l nh gi a giá tr quan sát có độ ệ ữ ị ượ ừc t th c nghi m ự ệ
log(price+1) d báo Tiếấp đếấn lâấy giá tr ự ị log(price+1) th c tếấ tr đi giá tr ự ừ ị log(price+1) d báo đã đự ược
Ki m đ nh các h sôế hôồi quy ể ị ệ
13
Downloaded by Hoc Vu (vuchinhhp7@gmail.com)
lOMoARcPSD|22494962
Trang 16vi c ki m đ nh các giá tr h sồấ hồồi quyệ ể ị ị ệ .
nghĩa thồấng kế
Cách 2:
Trang 17+ Pr(> |t|) c a các h sồấ ng v i các biếấn đếồu bé h n m c ý nghĩa α = 0.05 nến ta bác b gi thuyếất Hủ ệ ứ ớ ơ ứ ỏ ả 0,
biếấn này có ý nghĩa râất cao lến giá nhà price
R 2 và R 2 hi u ch nh ệ ỉ
Nh n xét: ậ
floors, condition, view,… gây nến Và có kho ng 48,6% còn l i là do các yếấu tồấ nh sai sồấ hồồi quy ho cả ạ ư ặ
Trang 18Đôồ th Residuals vs Fited ị bi u diếẫn các giá tr d báo v i các giá tr th ng d (sai sồấ hồồi quy) tể ị ự ớ ị ặ ư ương ng.ứ
Đôồ th Normail Q-Q ị có th s d ng đ th c hi n ki m tra gi đ nh vếồ phân phồấi chu n c a các sai sồấ.ể ử ụ ể ự ệ ể ả ị ẩ ủ
Trang 19Đôồ th Scale – Location ị bi u diếẫn các giá tr th ng d dể ị ặ ư ướ ại d ng cằn b c hai đậ ược chu n hóa b i các giáẩ ở
Đôồ th Residuals vs Leverage ị giúp xác đ nh nh ng đi m có nh hị ữ ể ả ưởng cao (infuental observatons), nếấu
Nh n xét: ậ
17
Downloaded by Hoc Vu (vuchinhhp7@gmail.com)
lOMoARcPSD|22494962
Trang 20D a trến mồ hình hồồi quy ta xây d ng, hãy d báo giá m t ngồi nhà có: ự ự ự ộ
+ 1 tâồng
Nh n xét ậ : D a vào kếất qu d báo, ta nh n đự ả ự ậ ược:
Trang 23Và khồng còn giá tr khuyếất nào trong t p d li u ị ậ ữ ệ
mean = c(mean(analytc_data$Y1), mean(analytc_data$Y2))
median = c(median(analytc_data$Y1), median(analytc_data$Y2))
sd = c(sd(analytc_data$Y1), sd(analytc_data$Y2))
Downloaded by Hoc Vu (vuchinhhp7@gmail.com)
lOMoARcPSD|22494962
Trang 24- Giá tr l n nhâất: max() ị ớ
- Giá tr nh nhâất: min() ị ỏ
Xuâất kếất qu d ả ướ ạ i d ng b ng: ả
(d) Đồấi v i các biếấn phân lo i, l p b ng thồấng kế sồấ l ớ ạ ậ ả ượ ng cho t ng nhóm ừ
- Đ nh g n t ộ ỏ ọ ươ ng đồấi (X1):
ho c có th dùng : ặ ể
max = c(max(analytc_data$Y1), max(analytc_data$Y2))
min = c(min(analytc_data$Y1), min(analytc_data$Y2))
y_visualizaton = data.frame(mean, median, sd, max, min)
rownames(y_visualizaton) = c('Cong suat suoi am (Y1)', 'Cong suat lam mat (Y2)')colnames(y_visualizaton) = c('Tr.binh', 'Tr.vi', 'Do lech chuan', 'Gtln', 'Gtnn')
count(analytc_data, 'X1')
table(analytc_data$X1)
Trang 26hist(analytc_data$Y2, main = 'Do thi phan phoi Y2', xlab = 'Cong suat suoi am',
ylab = 'So ngoi nha')
boxplot(Y1~X1, main = 'Y1~X1', xlab = 'X1', ylab = 'Y1', data = analytc_data)
Trang 30- X8
4 Xây d ng mô hình hôồi quy tuyếến tnh ự
(a) Xét mồ hình hồồi quy tuyếấn tính bao gồồm biếấn Y1, Y2 là biếấn ph thu c, và tâất c ụ ộ ả
các biếấn Xi () là biếấn đ c l p Dùng l nh lm() đ th c thi mồ hình hồồi quy tuyếấn ộ ậ ệ ể ự tính b i D a vào kếất qu c a mồ hình hồồi quy tuyếấn tính, v i m c ý nghĩa 5%, ộ ự ả ủ ớ ứ
lo i kh i mồ hình nh ng biếấn khồng phù h p ạ ỏ ữ ợ
boxplot(Y1~X8, main = 'Y1~X8', xlab = 'X8', ylab = 'Y1', data = analytc_data)
boxplot(Y2~X8, main = 'Y2~X8', xlab = 'X8', ylab = 'Y2', data = analytc_data)
Trang 31Ph ươ ng trình c a mồ hình hồồi quy tuyếấn tính b i seẫ có d ng: ủ ộ ạ 1
n
i i i
, v i ớ
n là sồấ biếấn đ c l p, ộ ậ là h sồấ t do, ệ ự i là h sồấ c a biếấn ệ ủ xi
M t sồấ t khóa trong phâồn kếất qu : ộ ừ ả
Residuals ( Phâồn d ): Phâồn t ng h p các phâồn d , sai sồấ gi a d đoán ư ổ ợ ư ữ ự
c a mồ hình và kếất qu th c tếấ Phâồn d nh h n là tồất h n ủ ả ự ư ỏ ơ ơ
Coefficients (H sồấ): Đồấi v i mồẫi biếấn, m t tr ng sồấ đ ệ ớ ộ ọ ượ ạ c t o ra và tr ng ọ sồấ đó có các thu c tính khác nh sai sồấ chu n, giá tr ki m đ nh t và ý ộ ư ẩ ị ể ị nghĩa.
o Estmate ( Ướ ượ c l ng): Đây là tr ng sồấ cho biếấn, hay nói cách khác đây ọ
Residual Standard Error: Đây là đ l ch chu n c a các phâồn d Nh h n ộ ệ ẩ ủ ư ỏ ơ
là tồất h n ơ
Mutple/Adjust R-squared: H sồấ xác đ nh R ệ ị 2 cho biếất phâồn trằm biếấn
ph thu c đ ụ ộ ượ c gi i thích b i mồ hình R ả ở 2 hi u ch nh có tính đếấn sồấ ệ ỉ
l ượ ng biếấn và h u ích nhâất cho hồồi quy b i ữ ộ
F-statstc: Ki m tra phân phồấi Fisher (F-test), đây là m t ch sồấ đ giúp ể ộ ỉ ể đánh giá toàn b mồ hình Nếấu p-value >0,05 thì vếồ c b n, mồ hình seẫ ộ ơ ả khồng có ý nghĩa.
Trang 32Gi i thích kếất qu : ả ả
o X4 khồng xác đ nh h sồấ b i vì biếấn X4 khồng đ c l p tuyếấn tính, khi ta lo i ị ệ ở ộ ậ ạ
b X4 ra kh i mồ hình thì vâẫn thu đ ỏ ỏ ượ c kếất qu t ả ươ ng t nh trến, vì thồng ự ư
tn biếấn X4 đã đ ượ c bi u diếẫn thồng qua các biếấn khác, do v y thếm biếấn X4 ể ậ
Trang 33Gi i thích kếất qu : ả ả
o X4 khồng xác đ nh h sồấ b i vì biếấn X4 khồng đ c l p tuyếấn tính, khi ta lo i ị ệ ở ộ ậ ạ
b X4 ra kh i mồ hình thì vâẫn thu đ ỏ ỏ ượ c kếất qu t ả ươ ng t nh trến, vì thồng ự ư
tn biếấn X4 đã đ ượ c bi u diếẫn thồng qua các biếấn khác, do v y thếm biếấn X4 ể ậ
là khồng câồn thiếất.
o Trong các h sồấ, h sồấ c a X6 và X8 có Pr(>|t|) > 0,05 nến v i m c ý nghĩa ệ ệ ủ ớ ứ 5%, ta có th xem nh h sồấ c a X6 và X8 bằồng 0, t c là lo i X6 và X8 ra kh i ể ư ệ ủ ứ ạ ỏ
(b) Xét 2 mồ hình cùng bao gồồm biếấn Y1 là biếấn ph thu c nh ng ụ ộ ư
o Mồ hình model_y1a ch a tâất c các biếấn còn l i là biếấn đ c l p ứ ả ạ ộ ậ
o Mồ hình model_y1b là lo i b biếấn X6 t mồ hình model_y1a ạ ỏ ừ
Dùng l nh anova() đ đếồ xuâất mồ hình hồồi quy h p lý h n ệ ể ợ ơ
31
model_y1a = lm(Y1~X1+X2+X3+X5+X6+X7+X8, data = analytc_data)
model_y1b = lm(Y1~X1+X2+X3+X5+X7+X8, data = analytc_data)
anova(model_y1a, model_y1b)
Downloaded by Hoc Vu (vuchinhhp7@gmail.com)
lOMoARcPSD|22494962
Trang 34D a vào kếất quá, ta có th thâấy Pr(>F) = 0,8055 > 0,05 Vì thếấ mồ hình phù h p ự ể ợ
h n là mồ hình rút g n model_y1b, t c là mồ hình đã lo i b biếấn X6 ơ ọ ứ ạ ỏ
(c) Xét 4 mồ hình cùng bao gồồm biếấn Y2 là biếấn ph thu c nh ng ụ ộ ư
o Mồ hình model_y2a ch a tâất c các biếấn còn l i là biếấn đ c l p ứ ả ạ ộ ậ
o Mồ hình model_y2b là lo i b biếấn X6 t mồ hình model_y2a ạ ỏ ừ
o Mồ hình model_y2c là lo i b biếấn X8 t mồ hình model_y2a ạ ỏ ừ
o Mồ hình model_y2d là lo i b biếấn X6 và X8 t mồ hình model_y2a ạ ỏ ừ
Dùng l nh anova() đ đếồ xuâất mồ hình hồồi quy h p lý h n ệ ể ợ ơ
- So sánh model_y2a v i model_y2b và model_y2c: ớ
model_y2a = lm(Y2~X1+X2+X3+X5+X6+X7+X8, data = analytc_data)
model_y2b = lm(Y2~X1+X2+X3+X5+X7+X8, data = analytc_data)
model_y2c = lm(Y2~X1+X2+X3+X5+X6+X7, data = analytc_data)
model_y2d = lm(Y2~X1+X2+X3+X5+X7, data = analytc_data)
anova(model_y2a, model_y2b)
anova(model_y2a, model_y2c)
Trang 35Kếất qu c 2 so sánh đếồu có Pr(>F) l n h n 0,05 nến c 2 mồ hình model_y2b và ả ả ớ ơ ả model_y2c đếồu hi u qu h n model_y2a ệ ả ơ
- So sánh model_y2b và model_y2c v i model_y2d ớ
Trang 36Qua phân tích ta nh n thâấy các biếấn X1, X2, X3, X5, X7 tác đ ng m nh meẫ t i cồng ậ ộ ạ ớ suâất s ưở i âấm và cồng suâất làm mát C th h n nh ng yếấu tồấ nh h ụ ể ơ ữ ả ướ ng l n đếấn ớ cồng suâất làm mát và cồng suâất s ưở i âấm là:
(e) T mồ hình hồồi quy đã ch n câu (b) và (c), dùng l nh plot() đ veẫ đồồ th bi u ừ ọ ở ệ ể ị ể
th sai sồấ hồồi quy (residuals) và giá tr d báo (ftted values) Nếu ý nghĩa và ị ị ự
nh n xét đồồ th ậ ị
- Đồấi v i mồ hình d đoán cồng suâất s ớ ự ưở i âấm model_y1b:
plot(model_y1b)
Trang 37Ý nghĩa và nh n xét: ậ
o Đồồ th đ ị ượ c s d ng đ ki m tra các gi đ nh vếồ mồấi quan h tuyếấn tính ử ụ ể ể ả ị ệ Nếấu phâồn d tr i đếồu xung quanh m t đ ư ả ộ ườ ng ngang mà khồng có các mâẫu khác bi t, thì đó là m t dâấu hi u tồất cho thâấy khồng có các mồấi quan ệ ộ ệ
h phi tuyếấn tính ệ
o Đồồ th trến cho thâấy các giá tr phâồn d t p trung xung quanh đ ị ị ư ậ ườ ng y=0 nến mồ hình model_y1b xem nh th a mãn gi đ nh vếồ mồấi quan h ư ỏ ả ị ệ tuyếấn tính.
35
Downloaded by Hoc Vu (vuchinhhp7@gmail.com)
lOMoARcPSD|22494962
Trang 38- Đồấi v i mồ hình d ớ ự đoán cồng suâất s ưở i âấm model_y2d:
Ý nghĩa và nh n xét: ậ
o Đồồ th đ ị ượ c s d ng đ ki m tra các gi đ nh vếồ mồấi quan h tuyếấn tính ử ụ ể ể ả ị ệ Nếấu phâồn d tr i đếồu xung quanh m t đ ư ả ộ ườ ng ngang mà khồng có các mâẫu khác bi t, thì đó là m t dâấu hi u tồất cho thâấy khồng có các mồấi quan ệ ộ ệ
h phi tuyếấn tính ệ
o Đồồ th trến cho thâấy các giá tr phâồn d t p trung xung quanh đ ị ị ư ậ ườ ng y=0 nến mồ hình model_y2d xem nh th a mãn gi đ nh vếồ mồấi quan h ư ỏ ả ị ệ tuyếấn tính.
Trang 39 Cồng suâất s ưở i âấm:
predict(model_y2d, Xa, interval = 'confdence')
predict(model_y2d, Xb, interval = 'confdence')
predict(model_y1b, Xa, interval = 'confdence')
predict(model_y1b, Xb, interval = 'confdence')
Downloaded by Hoc Vu (vuchinhhp7@gmail.com)
lOMoARcPSD|22494962