1. Trang chủ
  2. » Giáo Dục - Đào Tạo

lựa chọn tập dữ liệu nha may dien csv tham khảo từ trang web uci gồm 5 biến và thực hiện theo các bước đọc, làm rõ dữ liệu, xây dựng mô hình tuyến tính và dự báo

59 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Lựa chọn tập dữ liệu nha may dien csv tham khảo từ trang web uci gồm 5 biến và thực hiện theo các bước đọc, làm rõ dữ liệu, xây dựng mô hình tuyến tính và dự báo
Tác giả Nguyễn Thế Bảo, Hoàng Minh Nguyễn, Hoàng Đặng Thị Xuân Diệp, Nguyễn Nhật Nhật Hạ, Nguyễn Lê Hảo Hảo Võ, Nguyễn Khánh Linh, Trần Thị Kiều Linh, Nguyễn Thanh Thanh Thảo
Người hướng dẫn PTS. Nguyễn Kiều Dung
Trường học Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành Xác Suất Thống Kê
Thể loại Báo cáo bài tập lớn
Năm xuất bản 2021
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 59
Dung lượng 1,68 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mô hình hồồi quy tuyến tính đơn: Phương trình hồi quy tuyến tính đơn biến t ổổng thểể:: b 1 là là hhệệ sốố độ dốốc của đường hồồi quy t ổổng thể, đo lường lượng thay đổi trung bình trong

Trang 1

1 Nguyễn Thế Bảo 1912682 1912682 L13B L13B Cơ khí   

6 Võ Nguyễn Khánh Linh    1913969 1913969 L17B L17B Cơ khí  

T   p H ồồ Chí Minh, ngày 9tháng 6 năm 2021

Trang 2

1 Nguyễn Thế Bảo 1912682 1912682 L13B L13B Cơ khí   

6 Võ Nguyễn Khánh Linh    1913969 1913969 L17B L17B Cơ khí  

T   p H ồồ  Chí Minh, ngày 9 tháng 6 năm 2021  

Trang 3

TÓM T  Ắ T

Bài báo cáo t ậập trung chủủ yếếu vào các dữ liệu được thu thậập t ừ các trang web thông

tin như Kaggle, Uci là các trang thông tin uy tín của Mỹ, sau đó kiểm tra dữ liệệu vàxây dựng mô hình hồồi quy tuyếến tính giữa các biếến quan tâm

Vềề  phphầần chung, nhóm lựa a chchọọn n t t ậập p ddữ  liliệệu gia_nha.csv tham khảảo o t t ừ trang webKaggle và chỉ quan tâm đến 6 biến Thực hiện theo các bước: đọc, làm rõ dữ liệu,xây dựng mô hình tuyến tính và

xây dựng mô hình tuyến tính và dự báo.dự báo.  

webUci gồm 5 biến Và thực hiện theo các bước: đọc, làm rõ dữ liệu, xây dựng môhình tuyến tính và dự báo.  

Từ đó, nhận xét mối tươngquangiữa biến phụ thuộc và các bigiữa biến phụ thuộc và các biến độc lập.ến độc lập.  

Bài báo cáo được xây dựng dựa trên cơ sở kiếến thức chúng em tiếp thu được t ừ cácbài giảng mà Cô đã tận tâm truyền đạt Chúng em đã vận n ddụng các phương pháp

phân tích dữ liệệu thống kê cho đề tài nghiên cứu này Từ  đó, phân tích các dữ liệệu

thực t ếế dựa trên các nội dung đã học cũng như hoàn thành được bài báo cáo trọọn

vvẹẹn.  

Dựa trên những kiếến n ththức đã được c hhọọc và tìm hiểu thêm, nhóm chúng em đã cố  

ggắắng hếết sức để  hoàn thành bài báo cáo đúng tiến độ và  và t t ốốt nhất Nhưng vì kiến thứcc

có hạạn nên vẫẫn còn nhiềều thiếu sót trong cách trình bày cũng như là nội dung bàibáo cáo cầần truyềền t ảải Chúng em mong nhận được sự thông cảảm t ừ cô, rấất mong cô

góp ý để chúng em có thểể rút ra kinh nghiệệm cho bảản thân

Trang 4

1.   Đọc dữ liệệu (Import data): 12 12   

2.   Làm sạạch dữ liệệu (Data cleaning):   13 13   

1.   Đọc dữ liệệu (Import data): 38 38   

2.  Làm sạạch dữ liệệu (Data cleaning): 39 39   

Trang 5

1.   Mô hình hồồi quy tuyế n tính biến và phân tích tương quan:

1.1.  Mô hình hồồi quy tuyến tính đơn:  

Phương trình hồi quy tuyến tính đơn biến t ổổng thểể::

b 1   là là hhệệ sốố  độ dốốc của đường hồồi quy t ổổng thể, đo lường lượng thay đổi trung

bình trong biếến phụụ thuộộc Y, cho mỗi đơn vị  thay đổi củủa X

b 0 là hệệ sốố  tung độ gốốc (hệệ sốố chặặn hoặặc hệệ sốố t ự do) cho biếết giá trịị trung bình

 : giá trịị  ước lượng cho giá trịị củủa biếến Y ở quan sát thứ i

Xii: giá trịị củủa Xở quan sát thứ i

Công thức tính giá trịị củủa các hệệ sốố hồồi quy mẫẫu:

    ̅̅̅̅ ∑∑  ̅̅    

Hoặcc      ∑−   −− ∑∑ ∑∑ ∑∑   

 ̅̅    ̅̅  

Trang 6

1.1.2    Đo lườ ng bi ế n thiên bằng hệệ số    xác đị nh:

Để khảảo sát khảả  năng sử dụụng biến độc lập để dự  đoán về biếến phụụ thuộộc cầần

phải đo lường mộột sốố sự biếến thiên trong mô hình

Tổổng biếến thiên củủa biếến phụụ thuộc (SST) được tính bằằng cách lấấy t ổổng chênh lệệch

bình phương của các giá trịị Yii xung quanh giá trịị trung bình củủa chúng

Tổổng biến thiên được chia làm 2 phầần: biếến thiên hồồi quy (SSR) và biếến thiên củủaa

phần dư (SSE).  

+ SSR thểể hiệện sự khác biệệt giữa giá trịị  do đường hồồi quytính toán đượcc̂̂  và

̅̅ SSE đại diệện cho thành phầần biến thiên trong Y mà không được giảải thích bởi hồồiiquy, được hình thành dựa trên chênh lệệch giữa Yjj và̂̂ 

+ SST là chênh lệệch giữa mỗỗi giá trịị quan sát Yii và ̅̅

SSTSSR+SSE SST

1.1.3     Sai số  chuẩ n c ủa ước lượ ng:

Độ l lệệch chuẩn xung quanh đường hồi quy được gọọi là sai sốố chuẩẩn củủa hồồi quy(kí hiệệu sY/X) được tính bằằng cách lấấy t ổổng củủa các chênh lệch bình phương chia cho

bậậc t ự do rồồi lấy căn bậc hai kếết quảả  tìm được

 ∕∕   22   ((  == 22  ̂̂  ))   

Bình phương sY/X  ta được s2 2Y/X Y/X  là ước lượng t ốốt cho s2  căn cứ trên (n-2) bậậc t ự do

Trang 7

1.1.4     Suy di ễ n thố ng kê v ềề hệệ số   độ d ố cc

Địng lí Gauss ––  Markov: Trong các ước lượng tuyếến tính không chệệch cho hệệ  

ssốố hồồi quy t ổổng thể, ước lượng tìm được bằng phương pháp bình phương bé nhấtt

Khoảảng tin cậậy 100x(1-a)% cho hệệ sốố  độ dốốc b1 có dạạng (b1  ±± t (n-2;  /2)х sb1))

Kiểm định ý nghĩa của hệệ sốố  độ dốốc có thểể tiếến hành với giảả thiếết bấất kì vềề giá trịị củủaa

b1 (giảả dụụ H0: b1=b**))

+ Chuẩẩn hóa b1 theo công thức: Z = (b-b1)/sb1  

+ Do ta đã dùng ước lượng trên mẫẫu      thay cho phương sai thực trên t ổổng

thểể  mà ta chưa biết nên b1 không có phân phốối chuẩẩn mà sẽẽ có phân phốối student

vvới (n-2) bậậc t ự do

      ∗∗  

Trong đó:

b1 là hệệ sốố hồồi quy mẫẫu

b** là giá trịị củủa hệệ sốố hồồi quy t ổổng thểể  được giảả  định

ssb1  là ước lượng củủa sai sốố chuẩẩn củủa hệệ sốố  độ dốốc

+ Tiếến hành so sánh giá trịị t này với giá trịị t tra bảảng theo quy t ắắc nếếu |t| <

t (n-2; /2)  chưa thểchưa thể bác bỏỏ giảả thiếết H0

+ Với mô hình hồi quy đơn biến thì việệc kiểm định thông tin vềề hệệ sốố  độ dốốcc

được tiếến hành với giảả thiếết b1=0

H0: b1=0

H1: b1 0

Trang 8

1.1.5    Phân tích phần dư:  

Kiểm định tính đúng đắn củủa mô hình hồồi quy tuyếến tính bằằng cách vẽẽ  đồ thịị  

mà phần dư được đặt trên trục đứng và biến độc lập X được đặtt ở trụục ngang

+ + ĐồĐồ  ththịị  eeii theo X không thểể  hihiệện n mmộột hình dạạng rõ ràng nào củủa các chấấm

phân tán thì mô hình đúng đắn

+ Đồ thịị eiitheo X có mộột dạạng liên kết nào đó thì mô hình ết nào đó thì mô hình không đúng đắkhông đúng đắn

Kiểểm tra sự vi phạạm giảả  định phương sai bằng nhau bằằng:

+ Đồ thịị phần dư theo biến độc lậập Nếếu không có sự khác biệệt lớn nào trong

ssự  bibiếến thiên củủa a phphần dư tại các giá trịị khác nhau củủa a bibiếến X thì mô hìnhtuyến tính đã xây dựng không vi phạạm giảả  định phương sai bằng nhau

+ Kiểm định Durbin-Watson (không đáng tin khi cỡ mẫẫu <15)

1.2.  Tương quan tuyế n tính:

1.2.1    H ệệ số   tương quan tuyế n tính t ổ ng thể    ::

Hệệ sốố  tương quan là mộột sốố  đo về mức độ kếết hợp tuyếến tính giữa các biếến

ssố, được xác định bởi công thức:

          

Trong đó:  

σXY: giá trịị  đồng phương sai giữa X và Y

σ2 2XX,, σ2 2YY l lần lượt là phương sai của X và Y

Thường chúng ta không biết được các đại lượng thốống kê này vì chúng là tham sốố  

t ổổng thể, do đó chúng ta phải dùng tham sốố mẫẫu, vậy σXY  được ướcc lượng bằằng sXY  

vvới công thức:

Trang 9

1.2.2    H ệệ số   tương quan tuyế n tính mẫu r:

Hệệ sốố  tương quan tuyến tính mẫu được cho bởi công thức:

          ∑∑    ∑∑  == ==  ̅̅  ̅̅  ∑∑  ==  ̅̅  ̅̅   

1.2.3    Ki ểm định ý nghĩa thố ng kê c ủa hệệ số   tương quan tuy ế n tính:

Giảả thiết đặt ra cho kiểm định nh này này là: là: HH0:: = 0

Trang 10

+ r = 0 cho biếết không có mốối liên hệệ tuyếến tính giữa 2 biếến chứ  chưa có ý nghĩa

là 2 biến đókhông có mốối liên hệệ vì chúng có thểể liên hệệ phi tuyến do đó hệ sốố  tương

quan tuyếến tính chỉỉ  nên được sử dụng để biểểu thịị mức độ chặặt chẽẽ củủa liên hệệ  tương

quan tuyếến tính

+ Cầần phảải cẩẩn thận xem xét đồng thời hệệ sốố  tương quan và cả  đồ thịị phân tán

giữa X và Y bởi vì hệệ sốố  tương quan có thể có cùng 1 giá trịị trong khi hình dạạng củủaa

mốối liên hệệ l lạại rấất khác nhau

+ + MMộột t llỗi thông thường khi giảải thích hệệ  ssốố  tương quan tuyến tính là cứ cho

rrằằng có liên hệệ  tương quan có nghĩa là lúc nào cũng có mỗi liên hệệ nhân quảả KKỹỹ  thuật tương quan tuyến tính là mộột kỹỹ thuật đối xứng, mốối liên hệệ giữa X và Y cũngtương tự  như liên hệ giữa Y và X chứ nó không phảải là liên hệệ nhân quảả thoe 1 chiềều

như trong kỹ thuậật hồồi quy

+ Hệệ sốố  tương quan tuyến tính không có đơn vị  đo lường

+ Trong mô hình hồồi quy tuyến tính đơn biến

̂̂    ++     , nếếu lấy căn bậc 2

ccủủa hệệ sốố  xác định R2 thì sẽẽ  được hệệ sốố  tương quan rXY::

+√    nếếu b1>0

√ √     nếếu b1<0

1.3.   Tương quan giữa các biến định tính:

Có 3 đại lượng đo lường mức độ liên hệệ  dùng để  tính tương quan giữa 2 biếến thứcc

bậậc là:

+ Kendall Tau

+ Gamma

2.  Hồồi quy tuyến tính đa biế n:  

2.1.  Phương trình hồi quy tuyế n tính t ổổng thểể đa biế n với k biến độc lậập:Phương trình hồi quy t ổổng thểể với k biến độc lậập có dạạng:

Trang 11

 kk: hệệ sốố  độ dốốc củủa Y theo biếến Xkk giữ các biếến X2, X3…Xk-1  không đổii

 ii: thành phầần ngẫẫu nhiên (yếếu t ốố nhiễễu)

2.2.  Phương trình hồi quy tuyế n tính mẫu đa biế n với 3 biến độc lậập:

2.2.1    Vi ết phương trình hồi quy tuy ế n tính 3 bi ế n mẫu độc l ậ p:

̂̂    ++      ++      ++       

2.2.2   Đánh giá sự  phù hợ  p c ủa mô hình:

Tính toán hệệ số    xác định bộộii: khi có nhiềều biến độc lậập trong mô hình thì R2 vẫẫn

được sử dụng để  xác định phầần biếến thiên phụụ thuộc được giảải thích bởi mốối liên hệệ  

giữa biếến phụụ thuộộc và t ấất cảả các biến độc lập trong mô hình, nhưng lúc này R2  đượcc

phầần trăm của biến thiên được giảải thích trong biếến phụụ thuộc mà có tính đến mốốiiiên hệệ giữa cỡ mẫẫu và biếến sốố  độc lậập trong mô hình hồồi quy bộội.i

  1111   11 1 1  

Trong đó: : n n là là ccỡ mẫẫu

k là sốố biến độc lậập trong mô hình

+ Hệệ sốố  xác định hiệệu chỉỉnh luôn nhỏỏ  hơn Hệ sốố  xác định bộội.i

Đánh giá ý nghĩa toàn diện củủa mô hình:

+ Lậập giảả thiếết: H0: R2 = 0

H1: R2  0

H0  có nghĩa là mô hình hồi quyđa biến t ổổng thểể mà ta xây dựng với t ấất cảả các

biến độc lập được đưa vào để giảải thích cho biếến phụụ thuộộc thực ra không giảải thích

được cho những biếến thiên trong biếến phụụ thuộộc

+ Hoặặc:

Trang 12

H0:: 1= 2= 3=…= kk=0

H1: Có ít nhấất mộột hệệ sốố   ii khác 0

H0  có nghĩa là tất cảả các hệệ sốố  độ dốc đều đồng thời bằằng 0 thì mô hình hồồiiquy bội đã xây dựng không hềề có tác dụụng trong việệc dự  đoán hay mô tả biếến phụụ  thuộộc

+ F là con sốố  ththống kê được c ssử  ddụng để  kikiểm định giảả  thithiếết t vvềề  ý nghĩa toàn

k là sốố biến độc lậập trong mô hình

Đánh giá ý nghĩa của t ừng biến độc lậập riêng biệệt:

+ Giảả thiếết kiểm định: H0:: jj = 0

H1:: jj  0+ Giá trịị t quan sát:

  00    

Với: i: bbjj là hệệ sốố  độ dốốc trong mô hình hồồi quy mẫẫu cho biến độc lậập thứ j

SSbj là sai sốố chuẩn ước lượng củủa hệệ sốố  độ dốốc củủa biến độc lậập thứ j.+ t < t (n-k-1;  /2) thì chấấp nhậận giảả thiếết H0  và ngược lạại.i

2.2.3    Hi ện tượng đa cộng tuy ế n:

Ảnh hưởng của đa cộng tuyếến:

Trang 13

tuyếến Vì vậậy cầần kiểểm tra sự t ồồn t ạại củủa hiện tượng này

+ Hiện tượng đa cộng tuyếến làm cho ta dễễ dàng chấấp nhậận giảả thiếết H0 mặặc dùtrên thực t ếế thì t ỉỉ sốố R2 l lạại cao Ngoài ra hiện tượng này còn có thểể gây ra hiện tượng

làm sai dấấu củủa hệệ sốố hồồi quy so với lí thuyếết giảả dụụ

Cách phát hiệện sự t ồồn t ạại củủa hiện tượng đa cộng tuyếến:

+ Dấấu hiệệu là R2 củủa mô hình cao mà kiểm định t lạại cho ra kếết quảả là mộột vài

biến độc lập không có ý nghĩa trong việc giảải thích cho Y

+ Phương pháp đơn giản nhất để phát hiệện hiện tượng đa cộng tuyếế lãem xét

hệệ sốố  tương quan tuyếến tính giữa các biến độc lậập

+ Phương pháp thứ  2 đó là dùng nhân tố  phóng đại phương sai VIF với môhình hồồi quy có k biếến giảải thích:

Khắắc phụục hiện tượng đa cộng tuyếến:

+ Biện pháp đơn giản nhấất là hồồi quy lạại mô hình hồồi quy bộội này mà bỏỏ  đi biến

độc lập đã gây ra đa cộng tuyếến

+ + BiBiệện pháp lấấy thêm sốố  liliệệu hoặặc c chchọọn n llạại i mmộột mẫẫu mới (phương pháp nàykhông đảm bảảo lắắm)

+ Phương pháp hồi quy sai phân cấấp p 1 1 ccủủa Ytheo sai phân cấấp p 1 1 ccủủa các Xjj  

(phương pháp này có thể gây ra những vấn đề nghiêm trọọng khác)

2.2.4    Phân tích phần dư:  

Kiểểm tra sự phù hợp khi lựa chọọn mô hình hồồi quy tuyếến tính: Vẽẽ  đồ thịị phầần

dư lần lượt theo giá trịị  

̂̂  ước lượng được t ừ mô hình và t ừng biến độc lậập, nếếu các

Trang 14

điểm phân tán trên đồ thịị này không thểể hiệện mộột hình dạạng cụụ thểể nào cho mốối liên

hệệ giữa phần dư và các biến độc lập cũng như mối liên hệệ giữa phần dư và giá trị dự  

đoán từ mô hình củủa biếến phụụ thuộộc, vậy sơ bộ ta  ta kkếết luậận là mô hình hồồi quy bộộii

mô t ảả liên hệệ tuyếến tính là phù hợp

Kiểm định giảả  định phương sai không đổi: Vẽẽ  đồ thịị phần dư theo giá trị  

̂̂

  ước lượng

t ừ mô hình hồồi quy, ta thấấy có sự t ồồn t ạại hiện tượng phương sai thay đổi trong mô

hình nhưung kết luậận này không rõ ràng lắắm

+ + TiTiếến hành kiểm định Park trong đó ta chạy mô hình hồồi quy Ln(e2) theo

̂̂ Kiểểm tra giảả  định không có sự  tương quan giữa các phần dư: sử  ddụụng DurbinWason

đúng đắn thì kếết quảả sẽẽ hợp lý, điều then chốốt là phảải biếết các giá trịị  được gán như

thếế nào trong khi giaỉỉ thích kếết quảả hồồi quy

+ Phân loạại nhậận giá trịị  0 được gọọi tên là phân loại cơ sở, gọi là cơ sở xét trênkhía cạạnh ta thực hiếến các so sánh vớ pahan loại đó.  

+ Hệệ sốố gắắn với biếến gải D được gọọi là hệệ sốố  tung độ gốốc chênh lệệch

2.4.   Liên hệệ phi tuyế n:

Ngoài mốối liên hệệ tu tuyyếến tính giữa biếến n phphụụ th thuuộộc Y và biếến giảải thích X thì trong

thực t ếế còn có nhiềều tình huồồng Y và X iên hệệ với nhau là dạạng một đường cong nào

đó, gọi là mốối liên hệệ phi tuyếến

2.4.1    Dạng hàm bậc 2:

Mộột trong những kiểểu liên hệệ phi tuyếến phổổ biếến là mốối liên hệệ bậậc 2 giữa 2 biếến,

mốối liên hệệ này giữa X và Y có thểể  được phân tích bằằng mô hình hồồi quy bậậc 2 cócông thức định nghĩa như sau:  

Trang 15

 ii: sai sốố  tương ứng vơi smỗi quan sát.

Để  ước lượng các hệệ sốố hồồi quy mẫẫu, ta sẻẻ dụng phương pháp bình phương bé nhấtt

như thông thường

Đánh giá độ phù hợp củủa mô hình:

+ Kiểm định vềề  ý nghĩa toàn diện của mô hình cũng được tiến hành trên cơ sở  

kiểm định F với giảả thiếết: t: HH0: R2 = 0

H1: R2  0

+ Công thức tính giá trịị F vẫẫn là công thức như phần trên

Đánh giá tác động bậậc 2: kiểểm tra xem hiệệuứng bậậc 2 thực ra có cầần thiếết hay không

bằằng cách kiểm định ý nghĩa thống kê củủa hệệ sốố hồi quy đứng trước biếến X2

Giảả thiết đặt ra cho kiểm định này như sau:

+ H0::  2 = 0 (t ức là việc bao hàm tác động bậậc 2 không có tác dụụng cảải thiên

mô hình một cách có ý nghĩa)  + H1::  2  0 (t ức là việc bao hàm tác động bậậc 2 có tác dụụng cảải hiệện mô hình

một cách có ý nghĩa)  

Kiểm định t cũng được thực hiện như cách thông thường

2.4.2    Dạng log kép:

Phương pháp này được sử dụng để khắắc phụục hiện tượng phương sai thay đổi hoặặcc

nó được c ssử  ddụụng vì lý do trong mô hình dạạng log kép các hệệ  ssốố  hhồồi quy có mộột t ýý

nghĩa đặc biệt là nó có độ co giãn củủa Y theo X

Mô hình t ổổng thểể::

 ++ ++++  

Trang 16

PH  Ầ N II: Bài t  ậậ p x ử  lý s ốố  li ệệ u

PH  Ầ N CHUNG Bài tập 1.Tập tin "Tập tin "gia_nha.csvgia_nha.csv" chứa thông tin về giá bán ra " chứa thông tin về giá bán ra thị trường (đơn vị đôthị trường (đơn vị đôla) của 21613 ngôi nhà ở quận King nước Mỹ trong khoảng thời gian từ tháng  

5/2014 đến 5/2015 Bên cạnh giá nhà, 5/2014 đến 5/2015 Bên cạnh giá nhà, dữ liệu còn bao gồm các thuộc tính mô dữ liệu còn bao gồm các thuộc tính mô tảtảchất lượng ngôi nhà Dữ liệu

chất lượng ngôi nhà Dữ liệu gốc được cung cấp tại:gốc được cung cấp tại:

https://wwhttps://www.kaggle.com/harlfow.kaggle.com/harlfoxem/housesalespxem/housesalesprediction.rediction

••price:price: Giá nhà được bán ra.Giá nhà được bán ra

••sqft_living15:sqft_living15: Diện tích trung bìnhDiện tích trung bình  của 15 ngôi nhà gần nhất của 15 ngôi nhà gần nhất trong khu dân cư.trong khu dân cư

••floors:floors: Số tầng của ngôi nhà được phân Số tầng của ngôi nhà được phân loại từ 1loại từ 1  −− 3.5

••condition:condition: Điều kiện kiến trúc của ngôi nhà từ 1 − 5, 1: rất tệ và 5: rất tốt.Điều kiện kiến trúc của ngôi nhà từ 1 − 5, 1: rất tệ và 5: rất tốt

••sqft_above:sqft_above: Diện tích ngôi nhà.Diện tích ngôi nhà

••sqft_living:sqft_living: Diện tích khuônDiện tích khuônviên nhà.  

# Đọc t ệp tin và lưu dữ  liệệu v ớ i tên là  gia_nha  

Output

Trang 17

2.   Làm sạạch dữ liệệu (Data u (Data cleaning):cleaning):

a) Hãy trích ra mộột dữ liệu con đặt tên lànew_DF chỉỉ bao gồồm các biếến chính mà ta

quan tâm như đã trình bày trong phần giới thiệệu dữ liệệu Từ câu hỏỏi này vềề sau, mọọiiyêu cầầu xử  lý đều dựa trên t ậập dữ liệệu connew_DF này.  

# Trích ra d ữ  liệu con đặt tên là new_DF bao gồồm các biế n chính.

Output:

Trang 18

những dữ liệệu bịị khuyếết này.

Input:  

apply(is.na(new_DF)apply(is.na(new_DF), 2, , 2, which)which)  

# Kiể m tra và xuấ t ra v  ị ị trí dòng chứ a giá tr  ị ị khuy ế t của các biế n trong new_DF

Output:  

Trang 19

$price[1]

[1] 26 26 54 151 54 151 174 236 352 174 236 352 375 419 544 375 419 544 557 561 585 557 561 585 594 638 702 594 638 702 718 749 823718 749 823

939 [20] 995

$sqft_living15integer(0)

$floorsinteger(0)

$conditioninteger(0)

$sqft_aboveinteger(0)

$sqft_livinginteger(0)

Input:

Trang 20

Phương pháp xử  lí được đề xuấất là thay thếế giá trịị trung bình vào các quan sát  trung bình vào các quan sát ccủủaa

biếến price t ạại vịị trí chứa giá trịị khuyếết

Input:  

new_DF$price[isnew_DF$price[is.na(new_DF$price)]=.na(new_DF$price)]=mean(new_DF$price,na.rm=T)mean(new_DF$price,na.rm=T)

# Thay thế  các quan sát chứ a giá tr  ị ị khuy ế t t ại biế n  price  bằng giá tr  ị ị trung bình.

Output

Trang 21

a) Chuyn đi i ccc c bi biêên price ,, sqft_living15 ,, sqft_above ,, sqft_living   lln n llt t th thnh

log price) ,, log sqft_living15) ,, log sqft_above) , , v v   log sqft_living) T Tưư  đđy y m mi i ss  

t nh ton vi cc biêên trn đc hiu l  đđ  qua đi biêên dng log.

# Tính trung bình c  ủ  a các bi  ê   n liên t    c (  price, sqft_living15, sqft_above, price, sqft_living15, sqft_above, sqft_livi sqft_living ng  )

va lu vao biên có ten la mean   

median=apply(new_DF[,c(1,2,5,6)],2,median)

Trang 22

# Tính trung v      c  ủ  a các bi  ê   n liên t    c (  price, sqft_living15, sqft_above, sqft_living  ) và

lu vao biê   n có tên là median    sd=apply(new_DF[,c(1,2,5,6)],2,sd)

# Tnh đọ     l  l  ẹ  ch chu     n n c  c  ủ  a các bi  ê   n liên t    c c (  (  price, sqft_living15, sqft_above, sqft_living  ) va lu vao biê   n có tên là sd   

# T  o bng thống ke số lng cho biên floors   

Trang 24

   

20

e) Hy dng hm boxplot() v phn phốối củủa biêên price  cho t ưưng nhóóm phn loii

ccủủa biêên floors v biêên condition

Input:

boxplot(price~floors,main="Bo boxplot(price~floors,main="Boxplot of price xplot of price for each category of floor",new_DF) for each category of floor",new_DF)

# V      bi  u đô   Boxplot c  ủ  a bi  ê   n price  cho t  ư  ng nhóm phân lo    i c  ủ  a bi  ê   n floors   

Có khong 50% nhà bán ra th  trờtrờng vi gi di 12.9$

Có khong 75% nhà bán ra th  trờtrờng vi gi di 13.25$

Phm vi liên phn t ửử (IQR) khong 0.75$

Trang 25

  trờtrờ i gi d

Có khong 50% nhà bán ra th  trờtrờng vi giáddi 13.25$

Có khong 75% nhà bán ra th  trờtrờng vi gi di 13.4$

Phm vi liên phn t ửử (IQR) khong 0.55$

•    V

i nhóm nhà có 2 t 

ng:

Giá nhà bán ra th  trờtrờng cao nhâât khong 15.75$

Giá nhà bán ra th  trờtrờng thââp nhâât khong 11.5$

Có khong 25% nhà bán ra th  trờtrờng vi gi di 12.9$

Có khong 50% nhà bán ra th  trờtrờng vi gi di 13.3$

Có khong 75% nhà bán ra th  trờtrờng vi gi di 13.5$ Ph

Giá nhà bán ra th  trờtrờng cao nhâât khong 15.85$

Giá nhà bán ra th  trờtrờng thââp nhâât khong 12.5$

Có khong 25% nhà bán ra th  trờtrờng vi gi di 13.25$

Có khong 50% nhà bán ra th  trờtrờng vi gi di 13.5$

Giá nhà bán ra th  trờtrờng cao nhâât khong 14.8$

Giá nhà bán ra th  trờtrờng thââp nhâât khong 12.4$

Có khong 25% nhà bán ra th  trờtrờng vi gi di 12.9$

Có khong 50% nhà bán ra th  trờtrờng vi gi di 13.1$

Trang 26

   

•    Vi nhóm nhà có 3.5 t ng:

Giá nhà bán ra th  trờtrờng cao nhâât khong 14.85$

Giá nhà bán ra th  trờtrờng thââp nhâât khong 12.9$

Có khong 25% nhà bán ra th  trờtrờng vi gi di 13.1$

Có khong 75% nhà bán ra th  trờtrờng vi gi di 13.5$

Phm vi liên phn t ửử (IQR) khong 0.4$

Nhìn chung, nhóm nhà có sốố t ng t ưư  2 đê2 đên 2.5 có giá nhà bán ra cao nhât Điều này cho thâynhóm nh ny đc a chuọng nhâât và phù hp nhâât vi ngời dân quạạn

King nc Mỹỹ Giá bán ra cao nhâât thuọọc nhóm nhà có 2.5 t ng, thââp nhââtt ởở nhóm nhà có 1 t ng Cũng có th  đnh gi đc giá bán ra củủa nhóm nhà 3.5 t ng khá

# V      bi  u đô   Boxplot cho bi  ê   n price  cho t  ư  ng nhóm phân lo    i c  ủ  a bi  ê   n condition Ouput:

Trang 27

Vi nhóm nh có điều kiẹn kiên trúc rât tẹ1:

Gi nh bn ra th trờng cao nhât khong 14.25$  

Gi nh bn ra th trờng thâp nhât khong 11.25$  

Có khong 25% nh bn ra th trờng vi gi di 1

1.9$

Có khong 50% nh bn ra th trờng vi gi di 12.5$  

Có khong 75% nh bn ra th trờng vi gi di 13$  

Phm vi lin phn tử  IQR khong 1.1$

•    Vi nhóm nh có điều kiẹn kiên trúc tẹ2:  

Gi nh bn ra th trờng cao nhât khong 14.8$  

Gi nh bn ra th trờng thâp nhât khong 11.25$  

Có khong 25% nh bn ra th trờng vi gi di 12.25$

Có khong 50% nh bn ra th trờng vi gi di 12.

6$

Có khong 75% nh bn ra th trờng vi gi di 12.9$  

Phm vi lin phn tử IQR khong 0.65$

•    Vi nhóm nh có điều kiẹn kiên trúc trung bnh3:  

Gi nh bn ra th trờng cao nhât khong 15.8$

Gi nh bn ra th trờng thâp nhât khong 11.15$

Có khong 25% nh bn ra th trờng vi gi di 12.7$  

Có khong 50% nh bn ra th trờng vi gi di 13$  

Có khong 75% nh bn ra th trờng vi gi di 13.3$

Phm vi lin phn tử IQR khong

 0.6$

•   

Vi nhóm nh có điều kiẹn kiên trúc tốt4:  

Giánh bn ra th trờng cao nhât khong 15.9$

Gi nh bn ra th trờng thâp nhât khong 11.4$

Có khong 25% nh bn ra th trờng vi gi di 12.6$

Có khong 50% nh bn ra th trờng vi gi di 13$  

Có khong 75% nh bn ra th trờng vi gi di 13.25$

Phm vi lin phn tử IQR khong 0.65$

Trang 28

   

Gi nh bn ra th trờng thâp nhât khong 11.6$  

Có khong 25% nh bn ra th trờng vi gi di 12.8$  

Có khong 50% nh bn ra th trờng vi gi di 13.1$  

Có khong 75% nh bn ra th trờng vi gi di 13.4$

Phm vi lin phn tử IQR khong

 0.6$

Với điều kiện kiến trúc ngôi nhà từ mức trung bình trở lên, ta thấy giá cả nhà bán

ra cao hơn so với điều kiện kiến trúc ngôi nhà tệ hoặc rất tệ Từ đó điều kiện kiếntrúc ngôi nhà càng tốt thì giá càng cao tỷ lệ thuận với nhu cầu nhà ở của người dân

Nhận xét chung:  Dựa vào các biểu đồ Boxplot ta nhận thấy có nhiều ngoại lai của  

biến price theo biến floors và condition Nguyên nhân có nhiều biến ngoại lai rất  có

thể là do lỗi phát sinh trong quá trình nhập và chỉnh sửa dữ liệu hoặc người ta  cốtình tạo ra giá trị ảo để test thị trường hoặc làm mồi nhử, hoặc thâm chí là trong

một vài ngày, giá nhà cao hơn một cách đột biến so với các ngày còn lại do gần đó

có một sự kiện cộng đồng…  

f) f) D Dng ng llẹẹnh pairs() v   ccc c ph phn n ph phốối i ccủủa a bi biêên price    lln n llt theo cc c bi biêên

sqft_living15 , sqft_above, v aa  sqft_living

Input:

pairs(price~sqft_living15,main="Pairs of price for each category of sqft_living15" , new_DF)

# V      ph    n ph  ố   i c  ủ  a bi  ê   n price  theo bi  ê   n sqft_living15   

pairs(price~sqft_above,main="Pairs of price for each category of sqft_above", new_DF)

# V      ph    n ph  ố   i c  ủ  a bi  ê   n price  theo bi  ê   n sqft_above

pairs(price~sqft_living,main = "Pairs of pairs(price~sqft_living,main = "Pairs of price for each category of sqft_living" price for each category of sqft_living"

,new_DF)

# V      ph    n ph  ố   i c  ủ  a bi  ê   n price  theo bi  ê   n sqft_living

Trang 29

Output:

Ngày đăng: 07/12/2022, 06:42

HÌNH ẢNH LIÊN QUAN

Hình là khác nhau. Do đó ta sẽ  cân nh  cân nh ắắ c vi c vi ệệ c ch c ch ọọ n mô hình M1 hay n mô hình M1 hay mô hình M2 - lựa chọn tập dữ liệu nha may dien csv tham khảo từ trang web uci gồm 5 biến  và thực hiện theo các bước đọc, làm rõ dữ liệu, xây dựng mô hình tuyến tính và dự báo
Hình l à khác nhau. Do đó ta sẽ  cân nh  cân nh ắắ c vi c vi ệệ c ch c ch ọọ n mô hình M1 hay n mô hình M1 hay mô hình M2 (Trang 33)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w