1. Trang chủ
  2. » Luận Văn - Báo Cáo

Bài tập lớn xác suất thống kê

39 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Bài tập lớn xác suất thống kê
Tác giả Nhóm 7
Người hướng dẫn Nguyễn Đình Huy, PTS.
Trường học Đại học Quốc gia Thành phố Hồ Chí Minh - Trường Đại học Bách Khoa
Chuyên ngành Xác suất Thống kê
Thể loại Báo cáo bài tập lớn
Năm xuất bản 2023
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 39
Dung lượng 1,18 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINHTRƯỜNG ĐẠI HỌC BÁCH KHOA ---o0o--- BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ ??? GVHD: Nguyễn Đình Huy Thực Hiện: Nhóm 7, Khoa Máy Tính... Đếồ bài • p

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA -o0o -

BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ

🙡🙡🙡

GVHD: Nguyễn Đình Huy Thực Hiện: Nhóm 7, Khoa Máy Tính

Trang 2

M C L C Ụ Ụ

PHẦẦN CHUNG 1

PHẦẦN RIÊNG 18

1 Đ c d li u ọ ữ ệ 19

2 Làm s ch d li u ạ ữ ệ 19

3 Làm rõ d li u ữ ệ 21

4 Xây d ng mô hình hôồi quy tuyếến tnh ự 29

5 D đoán ự 35

Trang 3

CH ƯƠ NG 2: HO T Đ NG 2 Ạ Ộ

2.1 Đếồ bài

• price: Giá nhà được bán ra

• floors: Sồấ tâồng c a ngồi nhà đủ ược phân lo i t 1 - 3.5.ạ ừ

• condition: Điếồu ki n kiếấn trúc c a ngồi nhà t 1 - 5, 1: râất t và 5: râất tồất ệ ủ ừ ệ

• view: Đánh giá c nh quan xung quanh nhà theo m c đ t thâấp đếấn cao: 0 - 4 ả ứ ộ ừ

• sqft_above: Di n tích ngồi nhà.

• sqft_living: Di n tích khuồn viến nhà.

• sqft_basement: Di n tích tâồng hâồm.

Các b ướ c th c hi n: ự ệ

1

Downloaded by Hoc Vu (vuchinhhp7@gmail.com)

lOMoARcPSD|22494962

Trang 4

2.3.2 Ki m tra d li u khuyếết ể ữ ệ

Trang 5

Nh n xét: ậ T kếất qu thu đừ ả ược khi th c hi n ki m tra d li u khuyếất trong ự ệ ể ữ ệ new_HP, ta nh n thâấy có 20

2.3.3 Ki m tra l i còn d li u khuyếết hay không ể ạ ữ ệ

Nh n xét: ậ Ta nh n thâấy sau khi x lý, khồng còn d li u khuyếất.ậ ử ữ ệ

2.4 Làm rõ d li u ữ ệ

log(sqft_above+1), log(sqft_living+1) và log(sqft_basement+1) T đây tâất c m i tính toán đếồu d a trếnừ ả ọ ự

3

Downloaded by Hoc Vu (vuchinhhp7@gmail.com)

lOMoARcPSD|22494962

Trang 6

2.4.1 Gi i thích lý do chuy n sang d ng log(x+1) ả ể ạ

2.4.2 Tính các giá tr thôếng kế mô t cho các biếến log(price+1), log(sqft_above+1), ị ả log(sqft_living+1) và log(sqft_basement+1).

2.4.3 Veẽ bi u đôồ histogram th hi n phân phôếi c a biếến price và biếến log(price+1) ể ể ệ ủ

đây ta s d ng hàm hist() nh n vào m t danh sách đ bi u diếẫn đồồ th Trong đó có các tham sồấ gồồm

Trang 7

Downloaded by Hoc Vu (vuchinhhp7@gmail.com)

lOMoARcPSD|22494962

Trang 8

Nh n xét: ậ Quan sát bi u đồồ histogram c a biếấn ể ủ price, có th nh n thâấy phân phồấi c a biếấn ể ậ ủ price có xu

2.4.4 Veẽ bi u đôồ boxplot th hi n phân phôếi c a biếến log(price+1) theo t ng biếến phân lo i: ể ể ệ ủ ừ ạ floors, condition, view

Trang 9

Nh n xét: ậ

có sồấ tâồng là 2.5 seẫ có giá tr ịlog(price+1) cao nhâất.

7

Downloaded by Hoc Vu (vuchinhhp7@gmail.com)

lOMoARcPSD|22494962

Trang 10

Nh n xét: ậ

condition, có th thâấy khi điếồu ki n kiếấn trúc c a ngồi nhà tằng dâồn t 1 đếấn 5, giá tr ể ệ ủ ừ ị log(price+1) khồng

log(price+1) có xu hướng gi m đi Ngả ượ ạc l i, khi điếồu ki n kiếấn trúc tếấp t c gia tằng t 3 đếấn 5, giá trệ ụ ừ ị

log(price+1) l i có xu hạ ướng gia tằng tuy m c đ chếnh l ch khồng quá nhiếồu Bến c nh đó, t kếất quứ ộ ệ ạ ừ ả

trúc là 5 seẫ có giá tr ịlog(price+1) cao nhâất.

Trang 11

Nh n xét: ậ

9

Downloaded by Hoc Vu (vuchinhhp7@gmail.com)

lOMoARcPSD|22494962

Trang 12

2.4.5 Veẽ bi u đôồ phân tán th hi n phân phôếi c a biếến price theo biếến sqft_above và biếến ể ể ệ ủ log(price+1) theo biếến log(sqft_above+1)

Nh n xét: ậ Mồấi quan h tuyếấn tính gi a hai biếấn đ nh lệ ữ ị ượng price và sqft_above ch a đư ược th hi n rõể ệ

log(price+1) và log(sqft_above+1) thì nh ng đi m phân tán có xu hữ ể ướng t p trung thành m t đậ ộ ường

2.4.6 Veẽ bi u đôồ phân tán th hi n phân phôếi c a biếến price theo biếến sqft_living và biếến ể ể ệ ủ log(price+1) theo biếến log(sqft_living+1)

Trang 13

Nh n xét: ậ Mồấi quan h tuyếấn tính gi a hai biếấn đ nh lệ ữ ị ượng price và sqft_living ch a đư ược th hi n rõể ệ

log(price+1) và log(sqft_living+1) thì nh ng đi m phân tán có xu hữ ể ướng t p trung thành m t đậ ộ ường

log(price+1) theo biếến log(sqft_basement+1)

11

Downloaded by Hoc Vu (vuchinhhp7@gmail.com)

lOMoARcPSD|22494962

Trang 14

Nh n xét: ậ Mồấi quan h tuyếấn tính gi a hai biếấn đ nh lệ ữ ị ượng price và sqft_basement ch a đư ược th hi nể ệ

log(price+1) và log(sqft_basement+1) thì nh ng đi m phân tán có xu hữ ể ướng t p trung thành m t đậ ộ ường

2.5 Xây d ng mô hình hôồi quy tuyếến tnh đánh giá các nhân tôế có th nh h ự ể ả ưở ng đếến giá nhà qu n ở ậ King

Log(price+1) = + + + + + + +

Trang 15

Residuals (sai sôế hôồi quy) đây được xem là đ chếnh l nh gi a giá tr quan sát có độ ệ ữ ị ượ ừc t th c nghi m ự ệ

log(price+1) d báo Tiếấp đếấn lâấy giá tr ị log(price+1) th c tếấ tr đi giá tr ự ừ ị log(price+1) d báo đã đự ược

Ki m đ nh các h sôế hôồi quy ể ị ệ

13

Downloaded by Hoc Vu (vuchinhhp7@gmail.com)

lOMoARcPSD|22494962

Trang 16

vi c ki m đ nh các giá tr h sồấ hồồi quyệ ể ị ị ệ .

nghĩa thồấng kế

Cách 2:

Trang 17

+ Pr(> |t|) c a các h sồấ ng v i các biếấn đếồu bé h n m c ý nghĩa α = 0.05 nến ta bác b gi thuyếất Hủ ệ ứ ớ ơ ứ ỏ ả 0,

biếấn này có ý nghĩa râất cao lến giá nhà price

R 2 và R 2 hi u ch nh ệ ỉ

Nh n xét: ậ

floors, condition, view,… gây nến Và có kho ng 48,6% còn l i là do các yếấu tồấ nh sai sồấ hồồi quy ho cả ạ ư ặ

Trang 18

Đôồ th Residuals vs Fited ị bi u diếẫn các giá tr d báo v i các giá tr th ng d (sai sồấ hồồi quy) tể ị ự ớ ị ặ ư ương ng.ứ

Đôồ th Normail Q-Q ị có th s d ng đ th c hi n ki m tra gi đ nh vếồ phân phồấi chu n c a các sai sồấ.ể ử ụ ể ự ệ ể ả ị ẩ ủ

Trang 19

Đôồ th Scale – Location ị bi u diếẫn các giá tr th ng d dể ị ặ ư ướ ại d ng cằn b c hai đậ ược chu n hóa b i các giáẩ ở

Đôồ th Residuals vs Leverage ị giúp xác đ nh nh ng đi m có nh hị ữ ể ả ưởng cao (infuental observatons), nếấu

Nh n xét: ậ

17

Downloaded by Hoc Vu (vuchinhhp7@gmail.com)

lOMoARcPSD|22494962

Trang 20

D a trến mồ hình hồồi quy ta xây d ng, hãy d báo giá m t ngồi nhà có: ự ự ự ộ

+ 1 tâồng

Nh n xét ậ : D a vào kếất qu d báo, ta nh n đự ả ự ậ ược:

Trang 23

Và khồng còn giá tr khuyếất nào trong t p d li u ị ậ ữ ệ

mean = c(mean(analytc_data$Y1), mean(analytc_data$Y2))

median = c(median(analytc_data$Y1), median(analytc_data$Y2))

sd = c(sd(analytc_data$Y1), sd(analytc_data$Y2))

Downloaded by Hoc Vu (vuchinhhp7@gmail.com)

lOMoARcPSD|22494962

Trang 24

- Giá tr l n nhâất: max() ị ớ

- Giá tr nh nhâất: min() ị ỏ

Xuâất kếất qu d ả ướ ạ i d ng b ng: ả

(d) Đồấi v i các biếấn phân lo i, l p b ng thồấng kế sồấ l ớ ạ ậ ả ượ ng cho t ng nhóm ừ

- Đ nh g n t ộ ỏ ọ ươ ng đồấi (X1):

ho c có th dùng : ặ ể

max = c(max(analytc_data$Y1), max(analytc_data$Y2))

min = c(min(analytc_data$Y1), min(analytc_data$Y2))

y_visualizaton = data.frame(mean, median, sd, max, min)

rownames(y_visualizaton) = c('Cong suat suoi am (Y1)', 'Cong suat lam mat (Y2)')colnames(y_visualizaton) = c('Tr.binh', 'Tr.vi', 'Do lech chuan', 'Gtln', 'Gtnn')

count(analytc_data, 'X1')

table(analytc_data$X1)

Trang 26

hist(analytc_data$Y2, main = 'Do thi phan phoi Y2', xlab = 'Cong suat suoi am',

ylab = 'So ngoi nha')

boxplot(Y1~X1, main = 'Y1~X1', xlab = 'X1', ylab = 'Y1', data = analytc_data)

Trang 30

- X8

4 Xây d ng mô hình hôồi quy tuyếến tnh ự

(a) Xét mồ hình hồồi quy tuyếấn tính bao gồồm biếấn Y1, Y2 là biếấn ph thu c, và tâất c ụ ộ ả

các biếấn Xi () là biếấn đ c l p Dùng l nh lm() đ th c thi mồ hình hồồi quy tuyếấn ộ ậ ệ ể ự tính b i D a vào kếất qu c a mồ hình hồồi quy tuyếấn tính, v i m c ý nghĩa 5%, ộ ự ả ủ ớ ứ

lo i kh i mồ hình nh ng biếấn khồng phù h p ạ ỏ ữ ợ

boxplot(Y1~X8, main = 'Y1~X8', xlab = 'X8', ylab = 'Y1', data = analytc_data)

boxplot(Y2~X8, main = 'Y2~X8', xlab = 'X8', ylab = 'Y2', data = analytc_data)

Trang 31

Ph ươ ng trình c a mồ hình hồồi quy tuyếấn tính b i seẫ có d ng: ủ ộ ạ 1

n

i i i

  

, v i ớ

n là sồấ biếấn đ c l p, ộ ậ  là h sồấ t do, ệ ự i là h sồấ c a biếấn ệ ủ xi

 M t sồấ t khóa trong phâồn kếất qu : ộ ừ ả

 Residuals ( Phâồn d ): Phâồn t ng h p các phâồn d , sai sồấ gi a d đoán ư ổ ợ ư ữ ự

c a mồ hình và kếất qu th c tếấ Phâồn d nh h n là tồất h n ủ ả ự ư ỏ ơ ơ

 Coefficients (H sồấ): Đồấi v i mồẫi biếấn, m t tr ng sồấ đ ệ ớ ộ ọ ượ ạ c t o ra và tr ng ọ sồấ đó có các thu c tính khác nh sai sồấ chu n, giá tr ki m đ nh t và ý ộ ư ẩ ị ể ị nghĩa.

o Estmate ( Ướ ượ c l ng): Đây là tr ng sồấ cho biếấn, hay nói cách khác đây ọ

 Residual Standard Error: Đây là đ l ch chu n c a các phâồn d Nh h n ộ ệ ẩ ủ ư ỏ ơ

là tồất h n ơ

 Mutple/Adjust R-squared: H sồấ xác đ nh R ệ ị 2 cho biếất phâồn trằm biếấn

ph thu c đ ụ ộ ượ c gi i thích b i mồ hình R ả ở 2 hi u ch nh có tính đếấn sồấ ệ ỉ

l ượ ng biếấn và h u ích nhâất cho hồồi quy b i ữ ộ

 F-statstc: Ki m tra phân phồấi Fisher (F-test), đây là m t ch sồấ đ giúp ể ộ ỉ ể đánh giá toàn b mồ hình Nếấu p-value >0,05 thì vếồ c b n, mồ hình seẫ ộ ơ ả khồng có ý nghĩa.

Trang 32

Gi i thích kếất qu : ả ả

o X4 khồng xác đ nh h sồấ b i vì biếấn X4 khồng đ c l p tuyếấn tính, khi ta lo i ị ệ ở ộ ậ ạ

b X4 ra kh i mồ hình thì vâẫn thu đ ỏ ỏ ượ c kếất qu t ả ươ ng t nh trến, vì thồng ự ư

tn biếấn X4 đã đ ượ c bi u diếẫn thồng qua các biếấn khác, do v y thếm biếấn X4 ể ậ

Trang 33

Gi i thích kếất qu : ả ả

o X4 khồng xác đ nh h sồấ b i vì biếấn X4 khồng đ c l p tuyếấn tính, khi ta lo i ị ệ ở ộ ậ ạ

b X4 ra kh i mồ hình thì vâẫn thu đ ỏ ỏ ượ c kếất qu t ả ươ ng t nh trến, vì thồng ự ư

tn biếấn X4 đã đ ượ c bi u diếẫn thồng qua các biếấn khác, do v y thếm biếấn X4 ể ậ

là khồng câồn thiếất.

o Trong các h sồấ, h sồấ c a X6 và X8 có Pr(>|t|) > 0,05 nến v i m c ý nghĩa ệ ệ ủ ớ ứ 5%, ta có th xem nh h sồấ c a X6 và X8 bằồng 0, t c là lo i X6 và X8 ra kh i ể ư ệ ủ ứ ạ ỏ

(b) Xét 2 mồ hình cùng bao gồồm biếấn Y1 là biếấn ph thu c nh ng ụ ộ ư

o Mồ hình model_y1a ch a tâất c các biếấn còn l i là biếấn đ c l p ứ ả ạ ộ ậ

o Mồ hình model_y1b là lo i b biếấn X6 t mồ hình model_y1a ạ ỏ ừ

Dùng l nh anova() đ đếồ xuâất mồ hình hồồi quy h p lý h n ệ ể ợ ơ

31

model_y1a = lm(Y1~X1+X2+X3+X5+X6+X7+X8, data = analytc_data)

model_y1b = lm(Y1~X1+X2+X3+X5+X7+X8, data = analytc_data)

anova(model_y1a, model_y1b)

Downloaded by Hoc Vu (vuchinhhp7@gmail.com)

lOMoARcPSD|22494962

Trang 34

D a vào kếất quá, ta có th thâấy Pr(>F) = 0,8055 > 0,05 Vì thếấ mồ hình phù h p ự ể ợ

h n là mồ hình rút g n model_y1b, t c là mồ hình đã lo i b biếấn X6 ơ ọ ứ ạ ỏ

(c) Xét 4 mồ hình cùng bao gồồm biếấn Y2 là biếấn ph thu c nh ng ụ ộ ư

o Mồ hình model_y2a ch a tâất c các biếấn còn l i là biếấn đ c l p ứ ả ạ ộ ậ

o Mồ hình model_y2b là lo i b biếấn X6 t mồ hình model_y2a ạ ỏ ừ

o Mồ hình model_y2c là lo i b biếấn X8 t mồ hình model_y2a ạ ỏ ừ

o Mồ hình model_y2d là lo i b biếấn X6 và X8 t mồ hình model_y2a ạ ỏ ừ

Dùng l nh anova() đ đếồ xuâất mồ hình hồồi quy h p lý h n ệ ể ợ ơ

- So sánh model_y2a v i model_y2b và model_y2c: ớ

model_y2a = lm(Y2~X1+X2+X3+X5+X6+X7+X8, data = analytc_data)

model_y2b = lm(Y2~X1+X2+X3+X5+X7+X8, data = analytc_data)

model_y2c = lm(Y2~X1+X2+X3+X5+X6+X7, data = analytc_data)

model_y2d = lm(Y2~X1+X2+X3+X5+X7, data = analytc_data)

anova(model_y2a, model_y2b)

anova(model_y2a, model_y2c)

Trang 35

Kếất qu c 2 so sánh đếồu có Pr(>F) l n h n 0,05 nến c 2 mồ hình model_y2b và ả ả ớ ơ ả model_y2c đếồu hi u qu h n model_y2a ệ ả ơ

- So sánh model_y2b và model_y2c v i model_y2d ớ

Trang 36

Qua phân tích ta nh n thâấy các biếấn X1, X2, X3, X5, X7 tác đ ng m nh meẫ t i cồng ậ ộ ạ ớ suâất s ưở i âấm và cồng suâất làm mát C th h n nh ng yếấu tồấ nh h ụ ể ơ ữ ả ướ ng l n đếấn ớ cồng suâất làm mát và cồng suâất s ưở i âấm là:

(e) T mồ hình hồồi quy đã ch n câu (b) và (c), dùng l nh plot() đ veẫ đồồ th bi u ừ ọ ở ệ ể ị ể

th sai sồấ hồồi quy (residuals) và giá tr d báo (ftted values) Nếu ý nghĩa và ị ị ự

nh n xét đồồ th ậ ị

- Đồấi v i mồ hình d đoán cồng suâất s ớ ự ưở i âấm model_y1b:

plot(model_y1b)

Trang 37

Ý nghĩa và nh n xét: ậ

o Đồồ th đ ị ượ c s d ng đ ki m tra các gi đ nh vếồ mồấi quan h tuyếấn tính ử ụ ể ể ả ị ệ Nếấu phâồn d tr i đếồu xung quanh m t đ ư ả ộ ườ ng ngang mà khồng có các mâẫu khác bi t, thì đó là m t dâấu hi u tồất cho thâấy khồng có các mồấi quan ệ ộ ệ

h phi tuyếấn tính ệ

o Đồồ th trến cho thâấy các giá tr phâồn d t p trung xung quanh đ ị ị ư ậ ườ ng y=0 nến mồ hình model_y1b xem nh th a mãn gi đ nh vếồ mồấi quan h ư ỏ ả ị ệ tuyếấn tính.

35

Downloaded by Hoc Vu (vuchinhhp7@gmail.com)

lOMoARcPSD|22494962

Trang 38

- Đồấi v i mồ hình d ớ ự đoán cồng suâất s ưở i âấm model_y2d:

Ý nghĩa và nh n xét: ậ

o Đồồ th đ ị ượ c s d ng đ ki m tra các gi đ nh vếồ mồấi quan h tuyếấn tính ử ụ ể ể ả ị ệ Nếấu phâồn d tr i đếồu xung quanh m t đ ư ả ộ ườ ng ngang mà khồng có các mâẫu khác bi t, thì đó là m t dâấu hi u tồất cho thâấy khồng có các mồấi quan ệ ộ ệ

h phi tuyếấn tính ệ

o Đồồ th trến cho thâấy các giá tr phâồn d t p trung xung quanh đ ị ị ư ậ ườ ng y=0 nến mồ hình model_y2d xem nh th a mãn gi đ nh vếồ mồấi quan h ư ỏ ả ị ệ tuyếấn tính.

Trang 39

 Cồng suâất s ưở i âấm:

predict(model_y2d, Xa, interval = 'confdence')

predict(model_y2d, Xb, interval = 'confdence')

predict(model_y1b, Xa, interval = 'confdence')

predict(model_y1b, Xb, interval = 'confdence')

Downloaded by Hoc Vu (vuchinhhp7@gmail.com)

lOMoARcPSD|22494962

Ngày đăng: 21/06/2023, 22:07

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w