Mô hình hồồi quy tuyến tính đơn: Phương trình hồi quy tuyến tính đơn biến t ổổng thểể:: b 1 là là hhệệ sốố độ dốốc của đường hồồi quy t ổổng thể, đo lường lượng thay đổi trung bình trong
Trang 11 Nguyễn Thế Bảo 1912682 1912682 L13B L13B Cơ khí
6 Võ Nguyễn Khánh Linh 1913969 1913969 L17B L17B Cơ khí
T p H ồồ Chí Minh, ngày 9tháng 6 năm 2021
Trang 21 Nguyễn Thế Bảo 1912682 1912682 L13B L13B Cơ khí
6 Võ Nguyễn Khánh Linh 1913969 1913969 L17B L17B Cơ khí
T p H ồồ Chí Minh, ngày 9 tháng 6 năm 2021
Trang 3TÓM T Ắ T
Bài báo cáo t ậập trung chủủ yếếu vào các dữ liệu được thu thậập t ừ các trang web thông
tin như Kaggle, Uci là các trang thông tin uy tín của Mỹ, sau đó kiểm tra dữ liệệu vàxây dựng mô hình hồồi quy tuyếến tính giữa các biếến quan tâm
Vềề phphầần chung, nhóm lựa a chchọọn n t t ậập p ddữ liliệệu gia_nha.csv tham khảảo o t t ừ trang webKaggle và chỉ quan tâm đến 6 biến Thực hiện theo các bước: đọc, làm rõ dữ liệu,xây dựng mô hình tuyến tính và
xây dựng mô hình tuyến tính và dự báo.dự báo.
webUci gồm 5 biến Và thực hiện theo các bước: đọc, làm rõ dữ liệu, xây dựng môhình tuyến tính và dự báo.
Từ đó, nhận xét mối tươngquangiữa biến phụ thuộc và các bigiữa biến phụ thuộc và các biến độc lập.ến độc lập.
Bài báo cáo được xây dựng dựa trên cơ sở kiếến thức chúng em tiếp thu được t ừ cácbài giảng mà Cô đã tận tâm truyền đạt Chúng em đã vận n ddụng các phương pháp
phân tích dữ liệệu thống kê cho đề tài nghiên cứu này Từ đó, phân tích các dữ liệệu
thực t ếế dựa trên các nội dung đã học cũng như hoàn thành được bài báo cáo trọọn
vvẹẹn.
Dựa trên những kiếến n ththức đã được c hhọọc và tìm hiểu thêm, nhóm chúng em đã cố
ggắắng hếết sức để hoàn thành bài báo cáo đúng tiến độ và và t t ốốt nhất Nhưng vì kiến thứcc
có hạạn nên vẫẫn còn nhiềều thiếu sót trong cách trình bày cũng như là nội dung bàibáo cáo cầần truyềền t ảải Chúng em mong nhận được sự thông cảảm t ừ cô, rấất mong cô
góp ý để chúng em có thểể rút ra kinh nghiệệm cho bảản thân
Trang 41. Đọc dữ liệệu (Import data): 12 12
2. Làm sạạch dữ liệệu (Data cleaning): 13 13
1. Đọc dữ liệệu (Import data): 38 38
2. Làm sạạch dữ liệệu (Data cleaning): 39 39
Trang 51. Mô hình hồồi quy tuyế n tính biến và phân tích tương quan:
1.1. Mô hình hồồi quy tuyến tính đơn:
Phương trình hồi quy tuyến tính đơn biến t ổổng thểể::
b 1 là là hhệệ sốố độ dốốc của đường hồồi quy t ổổng thể, đo lường lượng thay đổi trung
bình trong biếến phụụ thuộộc Y, cho mỗi đơn vị thay đổi củủa X
b 0 là hệệ sốố tung độ gốốc (hệệ sốố chặặn hoặặc hệệ sốố t ự do) cho biếết giá trịị trung bình
: giá trịị ước lượng cho giá trịị củủa biếến Y ở quan sát thứ i
Xii: giá trịị củủa Xở quan sát thứ i
Công thức tính giá trịị củủa các hệệ sốố hồồi quy mẫẫu:
̅̅̅̅ ∑∑ ̅̅
Hoặcc ∑− −− ∑∑ ∑∑ ∑∑
̅̅ ̅̅
Trang 61.1.2 Đo lườ ng bi ế n thiên bằng hệệ số xác đị nh:
Để khảảo sát khảả năng sử dụụng biến độc lập để dự đoán về biếến phụụ thuộộc cầần
phải đo lường mộột sốố sự biếến thiên trong mô hình
Tổổng biếến thiên củủa biếến phụụ thuộc (SST) được tính bằằng cách lấấy t ổổng chênh lệệch
bình phương của các giá trịị Yii xung quanh giá trịị trung bình củủa chúng
Tổổng biến thiên được chia làm 2 phầần: biếến thiên hồồi quy (SSR) và biếến thiên củủaa
phần dư (SSE).
+ SSR thểể hiệện sự khác biệệt giữa giá trịị do đường hồồi quytính toán đượcĉ̂ và
̅̅ SSE đại diệện cho thành phầần biến thiên trong Y mà không được giảải thích bởi hồồiiquy, được hình thành dựa trên chênh lệệch giữa Yjj và̂̂
+ SST là chênh lệệch giữa mỗỗi giá trịị quan sát Yii và ̅̅
SSTSSR+SSE SST
1.1.3 Sai số chuẩ n c ủa ước lượ ng:
Độ l lệệch chuẩn xung quanh đường hồi quy được gọọi là sai sốố chuẩẩn củủa hồồi quy(kí hiệệu sY/X) được tính bằằng cách lấấy t ổổng củủa các chênh lệch bình phương chia cho
bậậc t ự do rồồi lấy căn bậc hai kếết quảả tìm được
∕∕ 22 (( == 22 ̂̂ ))
Bình phương sY/X ta được s2 2Y/X Y/X là ước lượng t ốốt cho s2 căn cứ trên (n-2) bậậc t ự do
Trang 71.1.4 Suy di ễ n thố ng kê v ềề hệệ số độ d ố cc
Địng lí Gauss –– Markov: Trong các ước lượng tuyếến tính không chệệch cho hệệ
ssốố hồồi quy t ổổng thể, ước lượng tìm được bằng phương pháp bình phương bé nhấtt
Khoảảng tin cậậy 100x(1-a)% cho hệệ sốố độ dốốc b1 có dạạng (b1 ±± t (n-2; /2)х sb1))
Kiểm định ý nghĩa của hệệ sốố độ dốốc có thểể tiếến hành với giảả thiếết bấất kì vềề giá trịị củủaa
b1 (giảả dụụ H0: b1=b**))
+ Chuẩẩn hóa b1 theo công thức: Z = (b-b1)/sb1
+ Do ta đã dùng ước lượng trên mẫẫu thay cho phương sai thực trên t ổổng
thểể mà ta chưa biết nên b1 không có phân phốối chuẩẩn mà sẽẽ có phân phốối student
vvới (n-2) bậậc t ự do
∗∗
Trong đó:
b1 là hệệ sốố hồồi quy mẫẫu
b** là giá trịị củủa hệệ sốố hồồi quy t ổổng thểể được giảả định
ssb1 là ước lượng củủa sai sốố chuẩẩn củủa hệệ sốố độ dốốc
+ Tiếến hành so sánh giá trịị t này với giá trịị t tra bảảng theo quy t ắắc nếếu |t| <
t (n-2; /2) chưa thểchưa thể bác bỏỏ giảả thiếết H0
+ Với mô hình hồi quy đơn biến thì việệc kiểm định thông tin vềề hệệ sốố độ dốốcc
được tiếến hành với giảả thiếết b1=0
H0: b1=0
H1: b1 0
Trang 81.1.5 Phân tích phần dư:
Kiểm định tính đúng đắn củủa mô hình hồồi quy tuyếến tính bằằng cách vẽẽ đồ thịị
mà phần dư được đặt trên trục đứng và biến độc lập X được đặtt ở trụục ngang
+ + ĐồĐồ ththịị eeii theo X không thểể hihiệện n mmộột hình dạạng rõ ràng nào củủa các chấấm
phân tán thì mô hình đúng đắn
+ Đồ thịị eiitheo X có mộột dạạng liên kết nào đó thì mô hình ết nào đó thì mô hình không đúng đắkhông đúng đắn
Kiểểm tra sự vi phạạm giảả định phương sai bằng nhau bằằng:
+ Đồ thịị phần dư theo biến độc lậập Nếếu không có sự khác biệệt lớn nào trong
ssự bibiếến thiên củủa a phphần dư tại các giá trịị khác nhau củủa a bibiếến X thì mô hìnhtuyến tính đã xây dựng không vi phạạm giảả định phương sai bằng nhau
+ Kiểm định Durbin-Watson (không đáng tin khi cỡ mẫẫu <15)
1.2. Tương quan tuyế n tính:
1.2.1 H ệệ số tương quan tuyế n tính t ổ ng thể ::
Hệệ sốố tương quan là mộột sốố đo về mức độ kếết hợp tuyếến tính giữa các biếến
ssố, được xác định bởi công thức:
Trong đó:
σXY: giá trịị đồng phương sai giữa X và Y
σ2 2XX,, σ2 2YY l lần lượt là phương sai của X và Y
Thường chúng ta không biết được các đại lượng thốống kê này vì chúng là tham sốố
t ổổng thể, do đó chúng ta phải dùng tham sốố mẫẫu, vậy σXY được ướcc lượng bằằng sXY
vvới công thức:
Trang 91.2.2 H ệệ số tương quan tuyế n tính mẫu r:
Hệệ sốố tương quan tuyến tính mẫu được cho bởi công thức:
∑∑ ∑∑ == == ̅̅ ̅̅ ∑∑ == ̅̅ ̅̅
1.2.3 Ki ểm định ý nghĩa thố ng kê c ủa hệệ số tương quan tuy ế n tính:
Giảả thiết đặt ra cho kiểm định nh này này là: là: HH0:: = 0
Trang 10+ r = 0 cho biếết không có mốối liên hệệ tuyếến tính giữa 2 biếến chứ chưa có ý nghĩa
là 2 biến đókhông có mốối liên hệệ vì chúng có thểể liên hệệ phi tuyến do đó hệ sốố tương
quan tuyếến tính chỉỉ nên được sử dụng để biểểu thịị mức độ chặặt chẽẽ củủa liên hệệ tương
quan tuyếến tính
+ Cầần phảải cẩẩn thận xem xét đồng thời hệệ sốố tương quan và cả đồ thịị phân tán
giữa X và Y bởi vì hệệ sốố tương quan có thể có cùng 1 giá trịị trong khi hình dạạng củủaa
mốối liên hệệ l lạại rấất khác nhau
+ + MMộột t llỗi thông thường khi giảải thích hệệ ssốố tương quan tuyến tính là cứ cho
rrằằng có liên hệệ tương quan có nghĩa là lúc nào cũng có mỗi liên hệệ nhân quảả KKỹỹ thuật tương quan tuyến tính là mộột kỹỹ thuật đối xứng, mốối liên hệệ giữa X và Y cũngtương tự như liên hệ giữa Y và X chứ nó không phảải là liên hệệ nhân quảả thoe 1 chiềều
như trong kỹ thuậật hồồi quy
+ Hệệ sốố tương quan tuyến tính không có đơn vị đo lường
+ Trong mô hình hồồi quy tuyến tính đơn biến
̂̂ ++ , nếếu lấy căn bậc 2
ccủủa hệệ sốố xác định R2 thì sẽẽ được hệệ sốố tương quan rXY::
+√ nếếu b1>0
√ √ nếếu b1<0
1.3. Tương quan giữa các biến định tính:
Có 3 đại lượng đo lường mức độ liên hệệ dùng để tính tương quan giữa 2 biếến thứcc
bậậc là:
+ Kendall Tau
+ Gamma
2. Hồồi quy tuyến tính đa biế n:
2.1. Phương trình hồi quy tuyế n tính t ổổng thểể đa biế n với k biến độc lậập:Phương trình hồi quy t ổổng thểể với k biến độc lậập có dạạng:
Trang 11 kk: hệệ sốố độ dốốc củủa Y theo biếến Xkk giữ các biếến X2, X3…Xk-1 không đổii
ii: thành phầần ngẫẫu nhiên (yếếu t ốố nhiễễu)
2.2. Phương trình hồi quy tuyế n tính mẫu đa biế n với 3 biến độc lậập:
2.2.1 Vi ết phương trình hồi quy tuy ế n tính 3 bi ế n mẫu độc l ậ p:
̂̂ ++ ++ ++
2.2.2 Đánh giá sự phù hợ p c ủa mô hình:
Tính toán hệệ số xác định bộộii: khi có nhiềều biến độc lậập trong mô hình thì R2 vẫẫn
được sử dụng để xác định phầần biếến thiên phụụ thuộc được giảải thích bởi mốối liên hệệ
giữa biếến phụụ thuộộc và t ấất cảả các biến độc lập trong mô hình, nhưng lúc này R2 đượcc
phầần trăm của biến thiên được giảải thích trong biếến phụụ thuộc mà có tính đến mốốiiiên hệệ giữa cỡ mẫẫu và biếến sốố độc lậập trong mô hình hồồi quy bộội.i
1111 11 1 1
Trong đó: : n n là là ccỡ mẫẫu
k là sốố biến độc lậập trong mô hình
+ Hệệ sốố xác định hiệệu chỉỉnh luôn nhỏỏ hơn Hệ sốố xác định bộội.i
Đánh giá ý nghĩa toàn diện củủa mô hình:
+ Lậập giảả thiếết: H0: R2 = 0
H1: R2 0
H0 có nghĩa là mô hình hồi quyđa biến t ổổng thểể mà ta xây dựng với t ấất cảả các
biến độc lập được đưa vào để giảải thích cho biếến phụụ thuộộc thực ra không giảải thích
được cho những biếến thiên trong biếến phụụ thuộộc
+ Hoặặc:
Trang 12H0:: 1= 2= 3=…= kk=0
H1: Có ít nhấất mộột hệệ sốố ii khác 0
H0 có nghĩa là tất cảả các hệệ sốố độ dốc đều đồng thời bằằng 0 thì mô hình hồồiiquy bội đã xây dựng không hềề có tác dụụng trong việệc dự đoán hay mô tả biếến phụụ thuộộc
+ F là con sốố ththống kê được c ssử ddụng để kikiểm định giảả thithiếết t vvềề ý nghĩa toàn
k là sốố biến độc lậập trong mô hình
Đánh giá ý nghĩa của t ừng biến độc lậập riêng biệệt:
+ Giảả thiếết kiểm định: H0:: jj = 0
H1:: jj 0+ Giá trịị t quan sát:
00
Với: i: bbjj là hệệ sốố độ dốốc trong mô hình hồồi quy mẫẫu cho biến độc lậập thứ j
SSbj là sai sốố chuẩn ước lượng củủa hệệ sốố độ dốốc củủa biến độc lậập thứ j.+ t < t (n-k-1; /2) thì chấấp nhậận giảả thiếết H0 và ngược lạại.i
2.2.3 Hi ện tượng đa cộng tuy ế n:
Ảnh hưởng của đa cộng tuyếến:
Trang 13tuyếến Vì vậậy cầần kiểểm tra sự t ồồn t ạại củủa hiện tượng này
+ Hiện tượng đa cộng tuyếến làm cho ta dễễ dàng chấấp nhậận giảả thiếết H0 mặặc dùtrên thực t ếế thì t ỉỉ sốố R2 l lạại cao Ngoài ra hiện tượng này còn có thểể gây ra hiện tượng
làm sai dấấu củủa hệệ sốố hồồi quy so với lí thuyếết giảả dụụ
Cách phát hiệện sự t ồồn t ạại củủa hiện tượng đa cộng tuyếến:
+ Dấấu hiệệu là R2 củủa mô hình cao mà kiểm định t lạại cho ra kếết quảả là mộột vài
biến độc lập không có ý nghĩa trong việc giảải thích cho Y
+ Phương pháp đơn giản nhất để phát hiệện hiện tượng đa cộng tuyếế lãem xét
hệệ sốố tương quan tuyếến tính giữa các biến độc lậập
+ Phương pháp thứ 2 đó là dùng nhân tố phóng đại phương sai VIF với môhình hồồi quy có k biếến giảải thích:
Khắắc phụục hiện tượng đa cộng tuyếến:
+ Biện pháp đơn giản nhấất là hồồi quy lạại mô hình hồồi quy bộội này mà bỏỏ đi biến
độc lập đã gây ra đa cộng tuyếến
+ + BiBiệện pháp lấấy thêm sốố liliệệu hoặặc c chchọọn n llạại i mmộột mẫẫu mới (phương pháp nàykhông đảm bảảo lắắm)
+ Phương pháp hồi quy sai phân cấấp p 1 1 ccủủa Ytheo sai phân cấấp p 1 1 ccủủa các Xjj
(phương pháp này có thể gây ra những vấn đề nghiêm trọọng khác)
2.2.4 Phân tích phần dư:
Kiểểm tra sự phù hợp khi lựa chọọn mô hình hồồi quy tuyếến tính: Vẽẽ đồ thịị phầần
dư lần lượt theo giá trịị
̂̂ ước lượng được t ừ mô hình và t ừng biến độc lậập, nếếu các
Trang 14điểm phân tán trên đồ thịị này không thểể hiệện mộột hình dạạng cụụ thểể nào cho mốối liên
hệệ giữa phần dư và các biến độc lập cũng như mối liên hệệ giữa phần dư và giá trị dự
đoán từ mô hình củủa biếến phụụ thuộộc, vậy sơ bộ ta ta kkếết luậận là mô hình hồồi quy bộộii
mô t ảả liên hệệ tuyếến tính là phù hợp
Kiểm định giảả định phương sai không đổi: Vẽẽ đồ thịị phần dư theo giá trị
̂̂
ước lượng
t ừ mô hình hồồi quy, ta thấấy có sự t ồồn t ạại hiện tượng phương sai thay đổi trong mô
hình nhưung kết luậận này không rõ ràng lắắm
+ + TiTiếến hành kiểm định Park trong đó ta chạy mô hình hồồi quy Ln(e2) theo
̂̂ Kiểểm tra giảả định không có sự tương quan giữa các phần dư: sử ddụụng DurbinWason
đúng đắn thì kếết quảả sẽẽ hợp lý, điều then chốốt là phảải biếết các giá trịị được gán như
thếế nào trong khi giaỉỉ thích kếết quảả hồồi quy
+ Phân loạại nhậận giá trịị 0 được gọọi tên là phân loại cơ sở, gọi là cơ sở xét trênkhía cạạnh ta thực hiếến các so sánh vớ pahan loại đó.
+ Hệệ sốố gắắn với biếến gải D được gọọi là hệệ sốố tung độ gốốc chênh lệệch
2.4. Liên hệệ phi tuyế n:
Ngoài mốối liên hệệ tu tuyyếến tính giữa biếến n phphụụ th thuuộộc Y và biếến giảải thích X thì trong
thực t ếế còn có nhiềều tình huồồng Y và X iên hệệ với nhau là dạạng một đường cong nào
đó, gọi là mốối liên hệệ phi tuyếến
2.4.1 Dạng hàm bậc 2:
Mộột trong những kiểểu liên hệệ phi tuyếến phổổ biếến là mốối liên hệệ bậậc 2 giữa 2 biếến,
mốối liên hệệ này giữa X và Y có thểể được phân tích bằằng mô hình hồồi quy bậậc 2 cócông thức định nghĩa như sau:
Trang 15 ii: sai sốố tương ứng vơi smỗi quan sát.
Để ước lượng các hệệ sốố hồồi quy mẫẫu, ta sẻẻ dụng phương pháp bình phương bé nhấtt
như thông thường
Đánh giá độ phù hợp củủa mô hình:
+ Kiểm định vềề ý nghĩa toàn diện của mô hình cũng được tiến hành trên cơ sở
kiểm định F với giảả thiếết: t: HH0: R2 = 0
H1: R2 0
+ Công thức tính giá trịị F vẫẫn là công thức như phần trên
Đánh giá tác động bậậc 2: kiểểm tra xem hiệệuứng bậậc 2 thực ra có cầần thiếết hay không
bằằng cách kiểm định ý nghĩa thống kê củủa hệệ sốố hồi quy đứng trước biếến X2
Giảả thiết đặt ra cho kiểm định này như sau:
+ H0:: 2 = 0 (t ức là việc bao hàm tác động bậậc 2 không có tác dụụng cảải thiên
mô hình một cách có ý nghĩa) + H1:: 2 0 (t ức là việc bao hàm tác động bậậc 2 có tác dụụng cảải hiệện mô hình
một cách có ý nghĩa)
Kiểm định t cũng được thực hiện như cách thông thường
2.4.2 Dạng log kép:
Phương pháp này được sử dụng để khắắc phụục hiện tượng phương sai thay đổi hoặặcc
nó được c ssử ddụụng vì lý do trong mô hình dạạng log kép các hệệ ssốố hhồồi quy có mộột t ýý
nghĩa đặc biệt là nó có độ co giãn củủa Y theo X
Mô hình t ổổng thểể::
++ ++++
Trang 16PH Ầ N II: Bài t ậậ p x ử lý s ốố li ệệ u
PH Ầ N CHUNG Bài tập 1.Tập tin "Tập tin "gia_nha.csvgia_nha.csv" chứa thông tin về giá bán ra " chứa thông tin về giá bán ra thị trường (đơn vị đôthị trường (đơn vị đôla) của 21613 ngôi nhà ở quận King nước Mỹ trong khoảng thời gian từ tháng
5/2014 đến 5/2015 Bên cạnh giá nhà, 5/2014 đến 5/2015 Bên cạnh giá nhà, dữ liệu còn bao gồm các thuộc tính mô dữ liệu còn bao gồm các thuộc tính mô tảtảchất lượng ngôi nhà Dữ liệu
chất lượng ngôi nhà Dữ liệu gốc được cung cấp tại:gốc được cung cấp tại:
https://wwhttps://www.kaggle.com/harlfow.kaggle.com/harlfoxem/housesalespxem/housesalesprediction.rediction
••price:price: Giá nhà được bán ra.Giá nhà được bán ra
••sqft_living15:sqft_living15: Diện tích trung bìnhDiện tích trung bình của 15 ngôi nhà gần nhất của 15 ngôi nhà gần nhất trong khu dân cư.trong khu dân cư
••floors:floors: Số tầng của ngôi nhà được phân Số tầng của ngôi nhà được phân loại từ 1loại từ 1 −− 3.5
••condition:condition: Điều kiện kiến trúc của ngôi nhà từ 1 − 5, 1: rất tệ và 5: rất tốt.Điều kiện kiến trúc của ngôi nhà từ 1 − 5, 1: rất tệ và 5: rất tốt
••sqft_above:sqft_above: Diện tích ngôi nhà.Diện tích ngôi nhà
••sqft_living:sqft_living: Diện tích khuônDiện tích khuônviên nhà.
# Đọc t ệp tin và lưu dữ liệệu v ớ i tên là gia_nha
Output
Trang 172. Làm sạạch dữ liệệu (Data u (Data cleaning):cleaning):
a) Hãy trích ra mộột dữ liệu con đặt tên lànew_DF chỉỉ bao gồồm các biếến chính mà ta
quan tâm như đã trình bày trong phần giới thiệệu dữ liệệu Từ câu hỏỏi này vềề sau, mọọiiyêu cầầu xử lý đều dựa trên t ậập dữ liệệu connew_DF này.
# Trích ra d ữ liệu con đặt tên là new_DF bao gồồm các biế n chính.
Output:
Trang 18những dữ liệệu bịị khuyếết này.
Input:
apply(is.na(new_DF)apply(is.na(new_DF), 2, , 2, which)which)
# Kiể m tra và xuấ t ra v ị ị trí dòng chứ a giá tr ị ị khuy ế t của các biế n trong new_DF
Output:
Trang 19$price[1]
[1] 26 26 54 151 54 151 174 236 352 174 236 352 375 419 544 375 419 544 557 561 585 557 561 585 594 638 702 594 638 702 718 749 823718 749 823
939 [20] 995
$sqft_living15integer(0)
$floorsinteger(0)
$conditioninteger(0)
$sqft_aboveinteger(0)
$sqft_livinginteger(0)
Input:
Trang 20Phương pháp xử lí được đề xuấất là thay thếế giá trịị trung bình vào các quan sát trung bình vào các quan sát ccủủaa
biếến price t ạại vịị trí chứa giá trịị khuyếết
Input:
new_DF$price[isnew_DF$price[is.na(new_DF$price)]=.na(new_DF$price)]=mean(new_DF$price,na.rm=T)mean(new_DF$price,na.rm=T)
# Thay thế các quan sát chứ a giá tr ị ị khuy ế t t ại biế n price bằng giá tr ị ị trung bình.
Output
Trang 21a) Chuyn đi i ccc c bi biêên price ,, sqft_living15 ,, sqft_above ,, sqft_living lln n llt t th thnh
log price) ,, log sqft_living15) ,, log sqft_above) , , v v log sqft_living) T Tưư đđy y m mi i ss
t nh ton vi cc biêên trn đc hiu l đđ qua đi biêên dng log.
# Tính trung bình c ủ a các bi ê n liên t c ( price, sqft_living15, sqft_above, price, sqft_living15, sqft_above, sqft_livi sqft_living ng )
va lu vao biên có ten la mean
median=apply(new_DF[,c(1,2,5,6)],2,median)
Trang 22# Tính trung v c ủ a các bi ê n liên t c ( price, sqft_living15, sqft_above, sqft_living ) và
lu vao biê n có tên là median sd=apply(new_DF[,c(1,2,5,6)],2,sd)
# Tnh đọ l l ẹ ch chu n n c c ủ a các bi ê n liên t c c ( ( price, sqft_living15, sqft_above, sqft_living ) va lu vao biê n có tên là sd
# T o bng thống ke số lng cho biên floors
Trang 24
20
e) Hy dng hm boxplot() v phn phốối củủa biêên price cho t ưưng nhóóm phn loii
ccủủa biêên floors v biêên condition
Input:
boxplot(price~floors,main="Bo boxplot(price~floors,main="Boxplot of price xplot of price for each category of floor",new_DF) for each category of floor",new_DF)
# V bi u đô Boxplot c ủ a bi ê n price cho t ư ng nhóm phân lo i c ủ a bi ê n floors
Có khong 50% nhà bán ra th trờtrờng vi gi di 12.9$
Có khong 75% nhà bán ra th trờtrờng vi gi di 13.25$
Phm vi liên phn t ửử (IQR) khong 0.75$
Trang 25 trờtrờ i gi d
Có khong 50% nhà bán ra th trờtrờng vi giáddi 13.25$
Có khong 75% nhà bán ra th trờtrờng vi gi di 13.4$
Phm vi liên phn t ửử (IQR) khong 0.55$
• V
i nhóm nhà có 2 t
ng:
Giá nhà bán ra th trờtrờng cao nhâât khong 15.75$
Giá nhà bán ra th trờtrờng thââp nhâât khong 11.5$
Có khong 25% nhà bán ra th trờtrờng vi gi di 12.9$
Có khong 50% nhà bán ra th trờtrờng vi gi di 13.3$
Có khong 75% nhà bán ra th trờtrờng vi gi di 13.5$ Ph
Giá nhà bán ra th trờtrờng cao nhâât khong 15.85$
Giá nhà bán ra th trờtrờng thââp nhâât khong 12.5$
Có khong 25% nhà bán ra th trờtrờng vi gi di 13.25$
Có khong 50% nhà bán ra th trờtrờng vi gi di 13.5$
Giá nhà bán ra th trờtrờng cao nhâât khong 14.8$
Giá nhà bán ra th trờtrờng thââp nhâât khong 12.4$
Có khong 25% nhà bán ra th trờtrờng vi gi di 12.9$
Có khong 50% nhà bán ra th trờtrờng vi gi di 13.1$
Trang 26
• Vi nhóm nhà có 3.5 t ng:
Giá nhà bán ra th trờtrờng cao nhâât khong 14.85$
Giá nhà bán ra th trờtrờng thââp nhâât khong 12.9$
Có khong 25% nhà bán ra th trờtrờng vi gi di 13.1$
Có khong 75% nhà bán ra th trờtrờng vi gi di 13.5$
Phm vi liên phn t ửử (IQR) khong 0.4$
Nhìn chung, nhóm nhà có sốố t ng t ưư 2 đê2 đên 2.5 có giá nhà bán ra cao nhât Điều này cho thâynhóm nh ny đc a chuọng nhâât và phù hp nhâât vi ngời dân quạạn
King nc Mỹỹ Giá bán ra cao nhâât thuọọc nhóm nhà có 2.5 t ng, thââp nhââtt ởở nhóm nhà có 1 t ng Cũng có th đnh gi đc giá bán ra củủa nhóm nhà 3.5 t ng khá
# V bi u đô Boxplot cho bi ê n price cho t ư ng nhóm phân lo i c ủ a bi ê n condition Ouput:
Trang 27Vi nhóm nh có điều kiẹn kiên trúc rât tẹ1:
Gi nh bn ra th trờng cao nhât khong 14.25$
Gi nh bn ra th trờng thâp nhât khong 11.25$
Có khong 25% nh bn ra th trờng vi gi di 1
1.9$
Có khong 50% nh bn ra th trờng vi gi di 12.5$
Có khong 75% nh bn ra th trờng vi gi di 13$
Phm vi lin phn tử IQR khong 1.1$
• Vi nhóm nh có điều kiẹn kiên trúc tẹ2:
Gi nh bn ra th trờng cao nhât khong 14.8$
Gi nh bn ra th trờng thâp nhât khong 11.25$
Có khong 25% nh bn ra th trờng vi gi di 12.25$
Có khong 50% nh bn ra th trờng vi gi di 12.
6$
Có khong 75% nh bn ra th trờng vi gi di 12.9$
Phm vi lin phn tử IQR khong 0.65$
• Vi nhóm nh có điều kiẹn kiên trúc trung bnh3:
Gi nh bn ra th trờng cao nhât khong 15.8$
Gi nh bn ra th trờng thâp nhât khong 11.15$
Có khong 25% nh bn ra th trờng vi gi di 12.7$
Có khong 50% nh bn ra th trờng vi gi di 13$
Có khong 75% nh bn ra th trờng vi gi di 13.3$
Phm vi lin phn tử IQR khong
0.6$
•
Vi nhóm nh có điều kiẹn kiên trúc tốt4:
Giánh bn ra th trờng cao nhât khong 15.9$
Gi nh bn ra th trờng thâp nhât khong 11.4$
Có khong 25% nh bn ra th trờng vi gi di 12.6$
Có khong 50% nh bn ra th trờng vi gi di 13$
Có khong 75% nh bn ra th trờng vi gi di 13.25$
Phm vi lin phn tử IQR khong 0.65$
Trang 28
Gi nh bn ra th trờng thâp nhât khong 11.6$
Có khong 25% nh bn ra th trờng vi gi di 12.8$
Có khong 50% nh bn ra th trờng vi gi di 13.1$
Có khong 75% nh bn ra th trờng vi gi di 13.4$
Phm vi lin phn tử IQR khong
0.6$
Với điều kiện kiến trúc ngôi nhà từ mức trung bình trở lên, ta thấy giá cả nhà bán
ra cao hơn so với điều kiện kiến trúc ngôi nhà tệ hoặc rất tệ Từ đó điều kiện kiếntrúc ngôi nhà càng tốt thì giá càng cao tỷ lệ thuận với nhu cầu nhà ở của người dân
Nhận xét chung: Dựa vào các biểu đồ Boxplot ta nhận thấy có nhiều ngoại lai của
biến price theo biến floors và condition Nguyên nhân có nhiều biến ngoại lai rất có
thể là do lỗi phát sinh trong quá trình nhập và chỉnh sửa dữ liệu hoặc người ta cốtình tạo ra giá trị ảo để test thị trường hoặc làm mồi nhử, hoặc thâm chí là trong
một vài ngày, giá nhà cao hơn một cách đột biến so với các ngày còn lại do gần đó
có một sự kiện cộng đồng…
f) f) D Dng ng llẹẹnh pairs() v ccc c ph phn n ph phốối i ccủủa a bi biêên price lln n llt theo cc c bi biêên
sqft_living15 , sqft_above, v aa sqft_living
Input:
pairs(price~sqft_living15,main="Pairs of price for each category of sqft_living15" , new_DF)
# V ph n ph ố i c ủ a bi ê n price theo bi ê n sqft_living15
pairs(price~sqft_above,main="Pairs of price for each category of sqft_above", new_DF)
# V ph n ph ố i c ủ a bi ê n price theo bi ê n sqft_above
pairs(price~sqft_living,main = "Pairs of pairs(price~sqft_living,main = "Pairs of price for each category of sqft_living" price for each category of sqft_living"
,new_DF)
# V ph n ph ố i c ủ a bi ê n price theo bi ê n sqft_living
Trang 29Output: