Tôi tự hỏi, liệu rằng có cách nào hoặc mô hình nào để có thể dự đoán giá một căn nhà đúng với giá trị của nó với những thông tin cụ thể thuộc tính về căn nhà đó hay không?. CƠ SỞ LÝ THUY
Trang 1TRƯỜNG ĐẠI HỌC KINH TẾ TP.HCM
BÀI TẬP CÁ NHÂN
Môn: Kinh Tế Lượng
KHẢO SÁT CÁC YẾU TỐ ẢNH HƯỞNG ĐẾN GIÁ BÁN CỦA NHỮNG CĂN NHÀ
TRONG HẺM Ở TP.HCM
Sinh viên thực hiện: Lê Minh Đạt
MSSV: 33191025053 Lớp: VB22.2FN01 Ngành: Tài Chính
Ngày 07.10.2020
Trang 2MỤC LỤC
1 GIỚI THIỆU VẤN ĐỀ 1
2 CƠ SỞ LÝ THUYẾT 1
3 PHƯƠNG PHÁP NGHIÊN CỨU 1
3.1 Nguồn gốc thu thập dữ liệu: 1
3.2 Mô tả dữ liệu: 1
3.3 Mô hình hồi quy bội: 2
4 PHÂN TÍCH KẾT QUẢ THỰC NGHIỆM 4
4.1 Chạy hồi quy mô hình: 4
4.2 Kiểm định tính chuẩn của phần dư u: 5
4.3 Kiểm tra các biến trong mô hình có bị đa cộng tuyến hay không: 6
4.4 Kiểm định các hệ số hồi quy của các biến độc lập: 6
4.4.1 Kiểm định riêng lẻ từng biến, với = 5%: 7
4.4.2.Kiểm định đồng thời nhiều biến, với = 5%: 7
4.5 Tìm khoảng tin cậy cho các hệ số với mức ý nghĩa 5%: 8
4.6 Dự báo giá nhà trung bình: 8
4.7 Kiểm định phương sai của phần dư u có bị thay đổi với mức ý nghĩa 5%: 9
4.8 Kiểm định mô hình có bị sai dạng hàm với mức ý nghĩa 5%: 9
5 KẾT LUẬN 10
Trang 31 GIỚI THIỆU VẤN ĐỀ
Tại Việt Nam, đặc biệt là ở TP.HCM, thị trường bất động sản (BĐS) luôn rất là sôi động Nhu cầu về việc mua một căn nhà để ở hoặc là mua với mục đích đầu tư luôn là một trong những lý do chính để làm nên sự sôi động của thị trường này Việc chi một khoản tiền để mua một căn nhà và sau đó vài tháng, giá trị căn nhà đã tăng so với lúc mới mua Thậm chí, chỉ vừa mới đặt tiền cọc thôi thì một vài ngày sau, giá trị của căn nhà đã tăng lên rồi
Tôi tự hỏi, liệu rằng có cách nào hoặc mô hình nào để có thể dự đoán giá một căn nhà đúng với giá trị của nó với những thông tin cụ thể (thuộc tính) về căn nhà đó hay không? Điều này rất hữu ít, giúp chúng ta có thể dự đoán được mức giá hợp lý để có thể ra quyết định là chi tiền để sở hữu một căn nhà một cách hợp lý
Trong phạm vi của bài tiểu luận này Đối tượng khảo sát những căn nhà trong hẻm, bởi vì nhà trong hẻm là những căn nhà thường được mua để ở cũng như mua để đầu tư (mua đi bán lại)
dễ dàng hơn, cho nên số liệu khảo sát cũng sẽ phong phú hơn Nhà trong hẻm cũng có nhiều thuộc tính hơn để xem xét sự ảnh hưởng của những thuộc tính này lên giá nhà
2 CƠ SỞ LÝ THUYẾT
Sử dụng mô hình hồi quy bội với phương pháp ước lượng các hệ số hồi quy là phương pháp: Ước lượng bình phương bé nhất (OLS – Ordinary Least Squares)
Dữ liệu được sử dụng trong bài tiểu luận là dữ liệu thứ cấp về giá nhà và các thuộc tính của những căn nhà ở trong hẻm, được thu thập bằng phần mềm riêng từ trang web
3.2 Mô tả dữ liệu:
Dữ liệu được thu thập ngẫu nhiên với số lượng là 1096 mẫu (quan sát) với các thuộc tính như sau:
tính
hồi quy
thuộc
Hướng cửa chính:
• direction = 1: Tây Nam
Trang 4• direction = 3: Nam
• direction = 0: Các hướng khác
Trang 5Mức độ tốt dần:
0: hướng không tốt 3: hướng tốt nhất Hướng cửa chính: Tây Nam
• seDir = 0
• southDir = 0 Hướng cửa chính: Đông Nam
• seDir = 1
• southDir = 0 Hướng cửa chính: Nam
• seDir = 0
• southDir = 1
Tầng lửng:
lửng
• midFloor = 1: Có tầng lửng
Quận trung tâm hoặc không trung tâm
ở TP.HCM
• district = 1: Quận trung tâm,
• district = 0: Quận không trung tâm, gồm Q.8, Q Gò vấp, Q.Tân Phú, Q Bình Tân
• nearMarket = 1: Gần chợ hoặc
• nearMarket = 0: Không gần chợ hoặc siêu thị
• nearSchool = 1: Gần trường học
trường học
• nearHospital = 1: Gần bệnh viện
bệnh viện
Trang 63.3 Mô hình hồi quy bội:
Mô hình hồi quy bội bao gồm:
Biến phụ thuộc: log(price)
Trang 7Các biến độc lập (10 biến): bedRooms, bathRooms, log(lotArea), floors, midFloors,
district, log(alleyWide), nearMarket, nearSchool, nearHospital
Quy cách đặt tên hệ số chặn và hệ số của các biến độc lập trong mô hình hồi quy mẫu (SRF):
Hệ số hồi quy mẫu
Giải thích (SFR)
1
̂
Hệ số chặn
0
2
̂
Hệ số của bedRooms
3
̂
Hệ số của bathRooms
ℎ
4
̂
Hệ số của lotArea
5
̂
Hệ số của direction
6
̂
Hệ số của swDir
7
̂
Hệ số của seDir
8
̂
Hệ số của southDir
ℎ
9
̂
Hệ số của floors
10
̂
Hệ số của midFloor
11
̂
Hệ số của district
12
̂
Hệ số của nearMarket
13
̂
Hệ số của nearSchool
ℎ
14
̂
Hệ số của nearHospital
15
̂
Hệ số của alleyWide
Từ đây, ta viết mô hình hồi quy cho tổng thể (PRF) và mẫu (SRF) như sau:
PRF:
log( ) = 0 + ( ) + ℎ ( ℎ ) + ( ) + ( ) +( ) +[ ( )]
+ ( ) + ℎ ( ℎ )
Trang 3
Trang 8log( )̂ = ̂ 0 + ̂ ( ) + ̂ ℎ ( ℎ ) + ̂ ( )
+ ̂( ) +̂( ) +̂[ ( )]
ℎ ( ℎ )
Các kết quả hồi quy sẽ được thực hiện trên môi trường ngôn ngữ lập trình R và ứng dụng RStudio với các chỉ tiêu, yêu cầu như sau:
• Chạy hồi quy mô hình
• Kiểm định tính chuẩn của phần dư u
• Kiểm tra các biến trong mô hình có bị đa cộng tuyến hay không
• Kiểm định các hệ số hồi quy ̂
của các biến độc lập.
• Tìm khoảng tin cậy cho các hệ số
• Dự đoán giá nhà trung bình
• Kiểm định phương sai của phần dư u trong mô hình có bị thay đổi
• Kiểm định mô hình có bị sai dạng hàm hay không
4.1 Chạy hồi quy mô hình:
Load các packages cần thiết:
> library(car)
> library(readxl)
> library(tseries)
> library(fBasics)
> library(lmtest)
Load dữ liệu:
[ ] 1096
Kết quả chạy hồi quy:
midFloor + district + log(alleyWide) + nearMarket + nearSchool +
nearHospital, data = priceData)
Call:
lm(formula = log(price) ~ bedRooms + bathRooms +
log(lotArea) + floors + midFloor + district +
log(alleyWide) + nearMarket + nearSchool +
nearHospital, data = priceData)
Residuals:
-0.15828 - 0.00917 0.14418 1.86563
Trang 9Estimate Std Error t value Pr(>|
t|)
log(alleyWide
) 0.261288 0.019122 13.664 < 2e-16 ***
Residual
0.8167 , Adjusted R-squared: 0.815
> nobs(model1)
[ ] 1096
4.2 Kiểm định tính chuẩn của phần dư u:
> jarqueberaTest(model1$residuals)
Title:
Jarque - Bera Normalality Test
Test Results:
STATISTIC:
Kiểm định giả thuyết: { 0: ℎầ ư ó ℎâ ℎố ℎ ẩ
với = 5%
1 0
Với − = 0.0000 < = 0,05 → Bác bỏ giả thuyết 0 Nghĩa là u không có phân phối chuẩn với mức ý nghĩa là 5%.
Tuy là không thỏa giả thiết MLR.6 nhưng bù lại ta có số lượng mẫu lớn (1096 quan sát)
có thể giảm sai số chuẩn của các hệ số của các biến trong mô hình hồi quy
Ta thử chạy lại mô hình hồi quy với số quan sát là 285 < 1096 để xem sai số chuẩn của các
hệ số là bao nhiêu:
midFloor + district + log(alleyWide) + nearMarket + nearSchool +
nearHospital, data = priceData285)
Trang 5
Trang 10> print(summary(model1)$coefficients[2:11,
2])
0.007949152 0.007725610 0.018096858 0.013188365 0.019286273
0.018428177 0.019122316 0.033984759 0.025277446 0.018154613
0.01892288 0.01821962 0.03400556 0.02871192 0.03662623
0.03514107 0.03499807 0.06218234 0.04653472 0.03489050
Dựa vào kết quả trên, ta thấy model1 có số quan sát là 1096 còn model2 có số quan sát là
285, rõ ràng là giá trị standard error của các hệ số trong model1 nhỏ hơn trong model2.
4.3 Kiểm tra các biến trong mô hình có bị đa cộng tuyến hay không:
Ta kiểm tra giá trị nhân tử phóng đại phương sai (VIF – Variance Inflation Factor)
> vif(model1)
5.528694 5.238777 1.538221 1.637898 1.049973
1.326956 1.267049 1.591493 1.502490 1.280508
Ta thấy:
Tuy các biến độc lập có giá trị < 10 (nằm trong phạm vi cho phép), nhưng nhận xét riêng 2 biến bedRooms và bathRooms thì thấy giá trị vif của 2 biến này lớn hơn 5 (lần lượt là
5.528694 và 5.238777) thì có vẻ như mức độ đa cộng tuyến của từng biến này với các biến còn lại nhiều hơn Trong thực tế, những căn nhà trong hẻm thường có diện tích sàn cố định
Do đó, để có nhiều phòng ngủ và phòng tắm hơn thì người ta bắt buộc phải tăng số tầng, nghĩa là nếu tăng số tầng lên thì khả năng số phòng ngủ và phòng tắm cũng tăng theo
4.4 Kiểm định các hệ số hồi quy ̂ của các biến độc lập:
> summary(model1)
Call:
lm(formula = log(price) ~ bedRooms + bathRooms +
log(lotArea) + floors + midFloor + district +
log(alleyWide) + nearMarket + nearSchool +
nearHospital, data = priceData)
Residuals:
-0.15828 - 0.00917 0.14418 1.86563
Coefficients:
Estimate Std Error t value Pr(>|
t|)
log(alleyWide
) 0.261288 0.019122 13.664 < 2e-16 ***
Trang 11nearMarket 0.016619 0.033985 0.489 0.6249
-Signif
Kiểm định 3 biến bedRooms, nearMarket, nearSchool có ý nghĩa thống kê riêng lẻ hay không
{ 0
̂
{ 0
̂
{ 0
̂
ℎ
= 0
1
̂
1
̂
1
̂ :≠ 0 :≠ 0 : ℎ ≠ 0
Biến bedRooms không Biến nearMarket không Biến nearSchool không
Tương tự như vậy, ta thấy các biến bathRooms, log(lotArea), floors, midFloor, district, log(alleyWide),
nearHospital đều có giá trị − < = 0.05 Kết luận là các biến này đều có ý nghĩa thống kê riêng lẻ với mức ý nghĩa
5% (thậm chí mức ý nghĩa là 1% thì các biến này cũng vẫn có ý nghĩa thống kê riêng lẻ).
- Kiểm định 3 biến: bedRooms, nearMarket, nearSchool, có ý nghĩa đồng thời trong mô hình
hay không
Giả thuyết:
ℎ = 0
1 0
Linear hypothesis test
Hypothesis:
midFloor +
district + log(alleyWide) + nearMarket + nearSchool +
nearHospital
1 1088 76.166
2 1085 76.026 3 0.13956 0.6639 0.5743
Trang 7
Trang 12Ta thấy:
− = 0.5743 > = 0.05 → chưa đủ cơ sở bác bỏ 0 Nghĩa là 3 biến bedRooms, nearMarket, nearSchool không có ý nghĩa thống kê đồng thời
trong mô hình với mức ý nghĩa 5%
- Kiểm định 7 biến: bathRooms, log(lotArea), floors, midFloor, district, log(alleyWide),
nearHospital, có ý nghĩa thống kê đồng thời hay không.
hypothesis test
Hypothesis:
Model
1 :
Model
bathRooms + log(lotArea) + floors + midFloor + district + log(alleyWide) + nearMarket + nearSchool + nearHospital
1 1092 291.674
2 1085 76.026 7 215.65 439.66 < 2.2e-16 ***
Ta thấy:
< = 0.05 → bác bỏ 0 Nghĩa là 7 biến bathRooms, log(lotArea),
floors, midFloor, district, log(alleyWide), nearHospital, có ý nghĩa thống kê đồng thời với
mức ý nghĩa 5%
4.5 Tìm khoảng tin cậy cho các hệ số với mức ý nghĩa 5%:
> confint(model1,
level=0.95)
2.5 % 97.5 %
log(alleyWide
) 0.223767407 0.29880922
4.6 Dự báo giá nhà trung bình:
Giả sử với độ tin cậy là 95%, các biến trong mô hình nhận giá trị cụ thể như sau:
Trang 13= 4; ℎ = 3; = 28; = 2 =1; =1; =2,5 = 1; ℎ
= 1; = 1
> predict(model1,
+
+ ),
1 1.81584 1.77198 1.8597
Dựa vào kết quả trên, với mức ý nghĩa 5% ta có:
̂
= 1.81584 và khoảng dự báo trung bình cho log( ) là: [1.77198 ; 1.8597]
0
→ Khoảng dự báo trung bình của giá nhà trong hẻm là:
[ 1.77198 ; 1.8597 ] ↔ [5.8825 ; 6.4218] ỷ
4.7 Kiểm định phương sai của phần dư u có bị thay đổi với mức ý nghĩa 5%:
> bptest(model1)
studentized Breusch-Pagan test
data: model1
BP = 71.416 , df = 10 , p-value = 2.36e-11
Giả thuyết: { 0: ℎươ ủ ℎô ổ đổ
1 0
Ta thấy: − = 2.36 −11 < = 0.05 → Bác bỏ 0 Nghĩa là mô hình có phương sai của u bị thay đổi.
4.8 Kiểm định mô hình có bị sai dạng hàm với mức ý nghĩa 5%:
> resettest(model1)
RESET test
data: model1
Trang 9
Trang 14Thêm log ( )2, log ( )3, log ( )4
data: model1
0 : ô ℎì ℎ ó ạ ℎà ú đổ
Giả thuyết: {
1 : 0
Ta thấy, cả 2 trường hợp có − = 2.2 −16 < = 0.05 → Bác bỏ 0 Nghĩa là mô hình bị sai dạng hàm.
5 KẾT LUẬN
Thông qua các kết quả thực nghiệm, chúng ta có một số nhận xét như sau:
- Hệ số ̂
nếu một căn nhà trong hẻm gần với trường học và gần bệnh viện sẽ làm tăng giá nhà
- Tuy là phần dư u sau khi chạy hồi quy vẫn không thỏa giả thiết MLR.6 là có phân phối chuẩn nhưng với số quan sát lớn giúp cho các hệ số của các biến trong mô hình có sai số chuẩn nhỏ hơn so với số lượng quan sát nhỏ
- Về phần kiểm định phương sai thay đổi và mô hình bị sai dạng hàm thì cho thấy mô hình có phương sai thay đổi và bị sai dạng hàm
- Về chất lượng của dữ liệu: do dữ liệu là dạng thứ cấp, được thu thập từ website chuyên về rao bán bất động sản là propzy.vn Cho nên tính chính xác của dữ liệu so với thực tế cũng không cao lắm dẫn tới chất lượng của dữ liệu không được tốt lắm Theo đánh giá của bản thân thì chất lượng dữ liệu này chỉ khoảng 50% - 60% Trong tương lai, nếu có điều kiện phát triển tiểu luận này thì sẽ cố gắng tìm nguồn dữ liệu chất lượng hơn
Thông qua việc tự thu thập dữ liệu, sàn lọc dữ liệu bị trùng nhau hoặc dữ liệu không thỏa điều kiện Sau đó thực hiện các bước chạy hồi quy mô hình và sau đó kiểm định các thông số của
mô hình, tôi nhận thấy rằng, những kỳ vọng về mô hình mà mình dự tính trước khi thực hiện hồi quy có những cái rất khác so với sau khi chạy thực tế mô hình Từ đó, giúp bản thân rút ra được nhiều bài học để liên hệ với thực tế hơn
6 PHỤ LỤC
Dữ liệu gốc, có link của từng https://drive.google.com/file/d/1qG8acgAVDvnyUcTD
quan sát mz9yec2wWdCfsHzF/view?usp=sharing
Dữ liệu dùng để chạy mô hình https://drive.google.com/file/d/19Z7NllV0x993rIWStQ
hồi quy trong bài tiểu luận UrN57QZQNt9L1X/view?usp=sharing